[해외 DS] 고대 헤르쿨레니움 두루마리를 해독한 AI 경진대회 ③, 베수비오 챌린지의 게임체인저는 다름 아닌 인간 집단지성

160X600_GIAI_AIDSNote
케이시 핸드머, AI 대신 육안으로 이미지 검사하며 잉크의 결정적인 단서 찾아내
우승팀은 패리터·나데르·실리거, 각자의 결과물을 결합해 AI 모델 구현
베수비오 챌린지 대장정의 끝, 2,000개 글자와 쾌락에 관한 철학 그리고 고고학의 르네상스

[해외 DS] 고대 헤르쿨레니움 두루마리를 해독한 AI 경진대회 ②, 베수비오 챌린지의 주요 과제와 어려움에서 이어집니다.


AI_Competition_Decoded_An_Ancient_Scroll_4_ScientificAmerican_20240322
사진=Scientific American

일부 참가자들은 다른 참가자들이 AI에 너무 집중하고 있다고 생각했다. 호주의 30대 물리학자인 케이시 핸드머(Casey Handmer)는 스캔 이미지를 AI 대신 맨눈으로 검사하기로 했는데, 시각적 특징을 감지하는 대부분의 머신러닝 알고리즘이 인간의 감지 방식에 기반을 두고 있으며, 인간의 시각 피질은 미묘한 패턴과 질감을 식별하는 데 매우 능숙하기 때문이었다. “기계가 볼 수 있다면 인간도 볼 수 있다”라고 핸드머는 강조했다.

핸드머는 태양과 공기로부터 탄소 중립적인 천연가스를 생산하는 캘리포니아 스타트업 테라폼(Terraform Industries)의 창립자이자 CEO다. 그는 테라폼의 투자자인 프리드먼이 못마땅해할 정도로 스캔 이미지를 검토하는 데 많은 시간을 보냈다. 그렇게 그는 불에 탄 파피루스 섬유의 시각적 특징에 점점 익숙해졌다. 그러던 5월, 그는 카일이 공유한 몬스터 세그먼트(두루마리의 큰 조각)를 조사하던 중 놀라운 사실을 발견했다. 파피루스 표면에 갈라진 진흙처럼 보이는 질감이 계속 반복적으로 나타난 것인데, 한 시간 정도 집중해서 바라본 끝에 그는 거꾸로 뒤집힌 알파벳 π를 발견해 냈다. 그 갈라진 질감은 바로 잉크였다.

끈기와 노력의 결실, 첫 글자에서 단어 그리고 전체 문단까지

핸드머는 같은 질감을 가진 다른 글자 모양을 더 많이 발견했고, 최초의 잉크를 발견한 공로로 1만 달러의 상금을 받게 됐다. 하지만 그가 발견했다고 주장한 서사시 뮤즈의 이름인 ‘칼리오페'(Καλλιόπη)라는 단어는 6월의 ‘첫 10글자 발견 상’에서 6명의 심사위원을 설득하는 데는 실패했다. 4만 달러의 상금은 못 받았지만, 그는 자신의 획기적인 발견을 거의 실시간으로 커뮤니티와 공유함으로써 모든 참가자들이 다음 단계로 나아갈 수 있는 길을 마련했다.

패리터는 텍사스에 있는 스페이스X에서 인턴으로 일하던 중 핸드머의 균열 텍스처 발견 소식을 접했다. 그는 가장 강력한 로켓인 스타십의 발사대 소프트웨어 팀에서 일하며 낮을 보냈고, 퇴근 후에는 금이 간 텍스처를 찾기 위해 모델을 개발하며 밤을 새웠다. 그 결과 패리터는 8월 파티가 있던 날 밤 πορ를 찾았고, 그 후로도 패리터는 πορ를 둘러싼 수십 개의 흐릿한 모양을 인식할 때까지 모델을 계속 다듬었다. 한편 베를린 자유대학의 이집트 출신 데이터과학 학생인 유세프 나데르(Youssef Nader)도 πορ를 찾는 데 성공했다. 나데르의 결과가 더 깔끔했지만 패리터의 결과가 더 빨랐다.

9월에 파피루스 학자들이 패리터의 결과물을 검사한 결과, 그들은 πορ가 보라색을 뜻하는 고대 그리스어인 πορφύραc 또는 porphoras의 어원이라는 사실을 깨달았다. 이 단어를 확인하는 데 도움을 준 나폴리대학의 파피루스 학자 페데리카 니콜라르디(Federica Nicolardi)는 이 용어가 드물다고 언급했다. 이전에는 발견된 적이 없는 새로운 텍스트에서 나온 것일 가능성이 높다는 의미였다.

몇 주 후 주최 측은 패리터를 켄터키로 보내 이 획기적인 발견을 주제로 심포지엄을 개최했다. 주최자 중 한 명인 JP 포스마는 패리터에게 4만 달러의 거액의 수표를 건네주었고, 나데르는 2등으로 1만 달러의 상금을 받았다. 하지만 이날의 주인공은 패리터만이 아니었다. 심포지엄에 참석하기 위해 파피루스 학자들이 도착할 무렵, 나데르는 파피루스 학자들이 평생 볼 수 없을 것으로 예상했던 네 개의 열을 가진 텍스트 πορφύραcin 이미지를 공개하며 대회에서 가장 큰 도약을 이뤄냈다. 해당 열에는 ‘음악과 관련된’이라는 뜻의 κατάμουσικήν(kata mousikēn)이라는 문구를 포함해 식별 가능한 다른 단어들이 있었는데, 니콜라르디에 따르면 이 두루마리는 철학 작품일 가능성이 가장 높다고 했다.

심포지엄이 열린 기간 동안, 패리터가 잠을 깨기 위해 호텔 방으로 다이어트 콜라를 들고 올라가는 모습이 목격되기도 했다. 그리고 당시 베를린에 있었던 나데르도 잠을 많이 자지 않았다. 70만 달러의 우승 상금이 그 어느 때보다 가까워 보였기 때문이다. 지난해 말, 대회가 막바지에 접어들었을 때 나데르는 파피루스의 분할을 가속화하고 3차원으로 매핑하는 소프트웨어로 앞서 상을 받은 스위스의 로봇공학 학생인 줄리안 실리거(Julian Schilliger), 패리터와 함께 팀을 이뤘다. 그리고 12월, 세 사람은 각자의 접근 방식을 결합하여 놀라운 결과물을 만들어냈다. 각자가 개별적으로 수행한 작업을 기반으로 AI 모델을 구축한 결과, 대회의 대상 기준인 140자 4개 문단을 훨씬 뛰어넘는 전체 4개 열에 2,000개의 글자를 밝혀낸 것이다. 번역되어 읽을 수 있는 텍스트는 첫 번째 두루마리의 약 5%를 차지했으며, 올해 2월 초 베수비오 챌린지에서는 이들에게 70만 달러와 함께 대상을 수여했다.

필로데모가 쓴 것으로 추정되는 이 글은 이전에 발견되지 않았던 쾌락에 관한 내용을 담고 있었다. 글에는 “많은 양의 좋은 것보다는 소량의 좋은 것이 더 즐거움을 주나요?”라는 물음이 적혀 있는데, 저자는 전혀 그렇지 않다고 결론 내렸다. “음식의 경우에도 마찬가지다”라며 “우리는 희소한 것이 풍부한 것보다 절대적으로 더 즐겁다고 믿지 않는다”고 말했다.

고대 텍스트의 르네상스, 침묵하는 사물을 말하게 하다

파피루스와 고전 분야가 완전히 바뀌고 있다. AI 개발 커뮤니티 덕분에 우리는 이제 헤라클레니움 파피루스를 읽을 수 있는 도구를 갖게 됐다. 수상작 검토에 도움을 준 옥스퍼드대학교의 고전학자 토비아스 라인하르트(Tobias Reinhardt)는 기술 발전이 계속되어 다른 두루마리에 적용될 수 있다면 “르네상스 이후 볼 수 없었던 양의 고대 텍스트가 복원되는 것을 목도할 수 있을 것”이라고 전했다.

한편 프리드먼은 더 큰 목표를 세웠다. 올해 그의 목표는 우승팀의 접근 방식을 기반으로 현재 고에너지 물리학을 사용하여 스캔한 두루마리 4종을 90%까지 판독하는 것이다. 이 작업이 성공하면 아직 개봉되지 않은 수백 개의 헤라클레니움 두루마리의 비밀이 풀릴 것으로 예상된다. 또한 그는 궁극적으로 더 많은 자료를 발굴하기 위해 이탈리아 당국을 설득하여 헤라클레니움 빌라의 추가 발굴이 성사되기를 희망하고 있다.

물론 아직 해결해야 할 몇 가지 숙제가 남아 있다. 연구자들은 시간과 비용이 많이 드는 수작업 분할 프로세스를 자동화할 방법을 찾아야 한다. 또한 수백 장의 두루마리를 스캔하기 위해 입자 가속기를 사용하는 것은 너무 비싸다. 고해상도 스캔 이미지를 생성하기 위한 더 저렴한 대안을 찾아야 한다. 그러나 파피루스 학자들은 지금까지도 이룬 게 많다고 언급했다. 현재 AI 파이프라인으로 식별할 수 있는 글자를 찾아내는 속도가 전문가의 작업 속도보다 훨씬 빠른데, 패리터, 나데르, 실리거가 한 달 만에 완료한 작업(세 글자에서 전체 단어와 구문, 텍스트 열로 전환)은 일반적으로 20년이 걸린다고 니콜라르디의 동료이자 캄파니아 루이지 반비텔리대학교의 고문서학 교수인 지안루카 델 마스트로(Gianluca Del Mastro)는 설명했다. 심포지엄에서 나데르가 발견한 텍스트를 본 델 마스트 교수의 눈에는 눈물이 맺혀있었다고 프리드먼은 말했다.

실즈 교수는 베수비오 챌린지를 통해 개발한 기술은 다른 잃어버린 문자를 해독하는 데에도 적용될 수 있다고 내다봤다. 1993년 요르단 페트라의 비잔틴 교회에서 기원전 6세기에 만들어진 140개의 탄화된 파피루스 두루마리는 검게 그을리고 깨지기 쉬워 읽을 수 없는 것으로 여겨졌었다. 또한 수만 장의 사해 두루마리 조각은 너무 많이 붙어 있어 한 번도 판독된 적이 없다. 고대 이집트의 미라 마스크도 파피루스로 만들어졌으며, 석고로 코팅된 층으로 배열된 카르토나쥬라는 재료, 즉 일종의 페이퍼 마셰로 만들어졌는데, 해당 파피루스는 석고를 파괴하지 않고는 해독하기 어려운 글씨가 적혀 있는 경우가 많았다. 이 두루마리들은 이제 각자의 차례를 기다리기만 하면 된다.

기원전 4세기 그리스 역사가 크세노폰(Xenophon)은 메소포타미아에서 돌아오는 길에 흑해 건너편에서 두루마리 무역이 활발하게 이루어졌다고 기록했다. 미시간대학의 고전학 교수이자 파피루스 학자인 리처드 얀코(Richard Janko)에 따르면 이는 해저에 파피루스 두루마리 상자가 가득 들어 있는 침몰한 선박이 거의 확실히 있다는 것을 의미한다고 예상했다. 또한 이 지역의 해양 환경이 유독 낮은 산소와 염도를 가져 두루마리들이 여전히 잘 보존되어 있을 것으로 추측됐다.

지금까지 인공지능에 대한 관심은 주로 채팅 방법을 학습하는 신경망에 집중되어 있었다. 하지만 이보다 더 흥미로운 것은 인공지능을 통해 침묵하는 사물을 어떻게 말하게 할 것인가 하는 사례들이다. 베수비오 챌린지 이외에도 어려운 연구에 도전하고 상상력과 호기심을 자극하는 챌린지가 AI 커뮤니티에서 더 많이 진행될 것으로 전망된다.

영어 원문 기사는 사이언티픽 아메리칸에 게재되었습니다.