상형문자판 속 삭제된 글씨, 재구성하는 법

Haaretz

학창 시절, 역사 시간에 이런 판을 많이 본 적이 있을 테다. ‘잃어버린 언어’라고도 불리는 ‘고대 상형문자’가 새겨진 이 문자판은 과거 인류가 새긴 일기이자 역사다. 비언어적인 의사소통을 하던 시절 소통을 위해 쓰이던 커뮤니케이션 방식이다.

새겨진 그림, 문자가 다르듯 내용도 각기 다르다. 누군가를 찬양하는 내용이 있는가 하면, 사냥 방식이나 음식을 만드는 레시피가 기재돼 있기도 하다.

고대 문자를 파악하는 일은 힘들다. 그림으로 새겨진 경우 의미를 유추할 수 있지만, 문자라면 진짜 ‘해석’하지 않고는 힘들다. 빽빽하게 새겨진 문자를 보자면, 고대 언어를 해석하는 학자들이 정말 대단하다는 생각이 든다.

analyticsinsight

이렇듯 엄두가 안 나는 고대 문자를 AI(인공지능)이 해석할 수 있다는 소식이다. 이전부터 고대 상형 문자를 AI가 번역하는 방식은 많이 이용돼왔다. 해석된 고대 상형문자를 데이터화해 AI에 학습시키고, 문자를 읽고 해석하도록 하는 거다. 이 방식은 소요시간이 얼마 들지 않는다는 점 그리고 언어학자의 주관적 해석이 들어가지 않는다는 장점이 있었다.

하지만 AI로 문자를 해석하기 위해서는 문자가 이미 해석된 언어여야 한다는 것, 상형 문자판에 손상이 있을 경우 제대로 해석되지 않는다는 점이 문제다.

최근 발표된 연구 자료에 따르면, 이 두 가지 문제를 해결할 수 있게 됐다. 먼저 MIT 연구팀은 해석된 언어가 아니더라도, 대조 가능한 연관 언어가 없어도 문자를 해독할 수 있는 알고리즘을 개발했다.

Yahoo News

Regina Barzilay 교수는 “언어학 원칙에 따르면 언어는 일반적으로 예측 가능한 방식으로 진화한다”라면서 시스템이 어떻게 작동하는지 설명했다. 시스템은 자체적으로 언어 간의 관계를 예상·결정해 패턴을 찾아내고, 문자를 해독한다.

또 발음을 통해 언어 변경 패턴을 파악할 수도 있다. ‘p’발음이 ‘b’로 발음될 가능성은 있지만 발음 차이가 심한 ‘k’로 변경될 가능성이 적다는 점. 이런 법칙을 통해 언어의 진화 과정을 확률적으로 좁혀갈 수 있다는 게 연구진의 설명이다.

개발한 해독 알고리즘으로 언어를 번역한 사례도 있다. 고대 그리스어와 관련된 음절 언어인 Ugaritic과 Linear B를 67.3%의 정확도로 번역했다. 연구진은 정확도를 더 높이고, 해독을 포기한 언어들도 풀어낼 수 있도록 연구를 계속 진행할 것이라고 설명했다.

Haaretz

그럼 상형 문자판에 손상이 있을 경우는 어떻게 할까?

이스라엘 매체 Haaretz는 AI를 이용해 고대 바빌로니아 문자판에서 누락된 문자 기호를 복원할 수 있다는 소식을 보도했다.

실제로 전문가들은 누락된 텍스트를 재구성하는 작업을 가장 꺼려 한다고 알려졌다. 일단 원본 텍스트를 이해해야 하며, 주관적 의견이 들어가지 않도록 삭제된 부분을 채워야 한다는 어려움이 있어서다.

이스라엘 연구진은 약 2000개의 고대 상형 문자를 AI에 학습시킨 후, 문장을 완성하도록 요구했다. 그 결과, AI는 상황 기반 통계적 추론을 기반으로 의미론적 식별을 수행했다.

Haaretz

일단, AI가 이미 해석된 언어를 기반으로 문장 구조를 식별할 수 있었던 점이 가장 큰 성공 요인이었다. 또 문자 자체를 ‘숫자’로 인식하기 때문에 주관적인 해석 없이, 문장 구조에 따라 빈 공간에 맞는 단어를 추천해서다.

하지만 복원된 텍스트를 기반으로 해야만 해독이 가능하다는 점, 단편적인 텍스트만 해석해 채울 수 있다는 점은 해결해야 할 문제다.

테크플러스 에디터 전다운

tech-plus@naver.com​​

- Advertisement -

LEAVE A REPLY

Please enter your comment!
Please enter your name here

 


랭킹 뉴스

실시간 급상승 뉴스 베스트 클릭



Related Stories