일본 역사민속박물관·유명 대학 연구진, 인공지능(AI) 기술로 초서체 해독
'모두의 번각' 프로젝트, 지진연구소 소장 자료 약 500점의 해독 마쳐

▲자료 사진. 기사와 연관없음 (사진=셔터스톡) ©AI타임스
▲자료 사진. 기사와 연관없음 (사진=셔터스톡) ©AI타임스

(AI타임스=윤광제 기자) 일본에서 인공지능(AI)의 기술을 사용해 고문서 등에 쓰여진 난독의 "글씨"를 해독하는 시도가 학술계에서 확산되고 있다. AI가 해독을 지원하거나 자동으로 한자나 히라가나로 변환하는 시스템이 개발돼 지금까지 미해독된 채로 있던 방대한 역사 사료가 보다 쉽게 해석될 수 있는 계기가 마련됐다.

전문가들은 이와 관련해 해독할 수 없어서 잠들어 있던 정보가 발굴되고 다양한 연구의 후원으로 이어지는 것 아니냐며 기대를 높이고 있다.

◆ 퍼즐 감각으로 해독
에도시대(1603~1867) 이전에 기록된 고문서의 대부분은 한자나 히라가나의 글자체가 크게 변형된 형태의 문자가 많이 사용되고 있으며 이를 넝쿨 글자라고 부른다.

일본의 역사·문화 연구에서는 이것들을 해독해 현대의 글자로 고쳐 쓰는 번각 작업이 불가결하지만, 글자를 정확하게 읽을 수 있는 전문가는 얼마 되지 않고, 지금까지 번각된 사료도 극히 일부에 불과하다. 반면 전문가가 방대한 사료를 수작업으로 쓰기 위해서는 시간과 비용이 많이 들어 현실적이지 않다.

더욱 쉬운 번각 작업의 실현을 목표로 주목된 것이 최근 화상 분석의 분야에서 비약적으로 발전하고 있는 AI의 도입이었다.

올해 5월에는, 리츠메이칸대 아트·리서치 센터(ARC)와 철판 인쇄 연구팀이, AI의 지원을 받으면서 초서를 읽어낼 수 있는 시스템을 개발했다고 발표했다.

시스템은 ARC가 디지털 데이터화해서 일반에 공개하고 있는 고전 서적이나 우끼요에 등 총 31만 4천 건의 사료를 대상으로 하며, 볼록판 인쇄가 보유한 초서 데이터(약 100만 건)를 사료 내 문자와 대조함으로써 해독을 지원한다.

컴퓨터 화면상에 표시한 문서에서 읽을 수 없는 문자를 선택하면, 글자의 데이터 중에서 모양이 비슷한 것을 AI가 추출. 후보군의 히라가나 한자를 합치하는 비율을 나타내면서 높은 순서로 표시한다. 딥러닝(심층학습)도 도입하고 있어 읽지 못한 문자를 입력함으로써 시스템이 학습하면서 정확도가 향상된다.

4월부터 같은 대학 수업에 도입되고 있어 학생들에게서는 “고문서 해독이라 들으면 꾸준한 작업으로 여겨지기 쉽지만 마치 퍼즐을 하는 것처럼 즐기면서 할 수 있다”며 호평 일색이다. 현재는 학생이나 교원만을 이용할 수 있지만, 향후 일반 공개도 검토하고 있다.

ARC 부센터장인 아카마 료 교수(문화정보학)는 “AI의 지원을 받음으로써 누구나 톱밥 글씨가 사용되고 있는 사료를 해독할 수 있게 된다. 그 동안 묻혀 있던 정보도 드러날 것 아니냐”며 기대감을 드러냈다.

◆ 방재, 자동인식 ... 다양해지는 활용법
AI의 도입은 기존의 초서 해독 시스템으로도 확산되고 있다. 초서로 쓰여진 역사사료를 인터넷상에 공개하고 시민과 전문가가 협력하면서 번각하는 프로젝트 ‘모두의 번각’도 그중 하나다.

이 프로젝트는 과거의 재해에 대해 기록된 고문서로부터 방재 단서를 얻으려고 국립역사민속박물관(치바현 사쿠라시)과 도쿄대, 교토대가 2009년에 개시해서 같은 해 1월 공개한 이후, 지금까지 약 5천 명이 참가했고 도쿄대 지진연구소가 소장한 약 500점의 해독을 당초의 예상보다 빠른 2년 남짓으로 끝내는 등 큰 성과를 올리고 있다.

프로젝트에 종사하는 국립역사민속박물관의 하시모토 유타스케교(인문정보학)는 “번각이 필요한 사료는 방대하고, 연구자만으로는 한계가 있었다”며 “AI를 도입함으로써 참가자의 저변을 넓혀 함께 새로운 지식을 얻고 싶다”고 말했다.

글자를 자동으로 인식해 번각하는 기술의 개발도 진행되고 있다.
‘정보·시스템 연구 기구 인문학 오픈 데이터 공동 이용 센터’가 개발한 ‘KuroNet(크로넷)’은 AI가 문서 속 글자를 자동으로 인식해 활자로 대체하는 시스템으로 키타모토 아사노리 센터장은 “KuroNet을 활용한 다양한 고전 서적의 번각이 진행되고 연구에 뒷받침이 된다면 금년 중에 공개가 가능할 것”이라며 센터의 향후 목표를 밝혔다.

한편 국내에서도 유네스코 기록유산인 조선왕조실록과 승정원일기 등 오래된 고대 천문 관측 기록이 남겨진 서적들을 한글로 번역하기 위한 노력을 기울이고 있다.

한국천문연구원은 지난 5월 한국고전번역원과 함께 과기정통부가 추진하는 ‘ICT기반 공공서비스 촉진사업’에 선정돼 천문분야 한문을 한글로 자동 번역해주는 인공지능 번역기 개발에 착수한다고 밝힌 바 있다.

연구팀은 오는 12월까지 인공지능 자동번역기 개발을 완료해 2020년부터 일반인에게 공개할 계획이며, 개발된 인공지능 자동번역기의 경우 웹과 모바일을 통해 국민들께 서비스할 방침이다.

【에이아이타임스 aitimes 에이아이타임즈】