[해외 DS] 고대 헤르쿨레니움 두루마리를 해독한 AI 경진대회 ①, 베수비오 챌린지의 시작과 그 비하인드
베수비오 챌린지, AI로 잃어버린 고전 문학을 찾다 소포클레스, 아이스킬로스, 리비 등의 잃어버린 작품 발견할 가능성 높아 과학기술의 발전이 역사 연구에 새로운 가능성을 열어
[해외DS]는 해외 유수의 데이터 사이언스 전문지들에서 전하는 업계 전문가들의 의견을 담았습니다. 저희 데이터 사이언스 경영 연구소(GIAI R&D Korea)에서 콘텐츠 제휴가 진행 중입니다.
지난해 8월 말 따뜻한 토요일 밤, 미국 네브래스카대학교에 재학 중이던 루크 패리터(Luke Farritor)는 오마하의 한 하우스 파티 구석에 홀로 앉아 있었다. 당시 21살의 패리터는 소년 같은 얼굴에 네모난 검은색 안경을 쓰고 있었다. 음악이 시끄럽게 울려 퍼지는 가운데 그는 한 통의 문자를 받았다. 미국 브리티시컬럼비아주 출신의 45세 컴퓨터 과학자이자 피아니스트인 벤 카일(Ben Kyles)이 보낸 메시지였다. 카일은 급하게 공유할 소식이 있었는데, 그는 방금 탄화된 파피루스를 고해상도로 스캔해 두루마리를 디지털로 펼치는 작업을 완성했다고 공유 서버 모두에게 전했다. 이에 패리터는 “정말 대단해요”라며 “곧 실행해 볼게요”라고 답했다.
카일의 파피루스는 베수비오산 기슭에 나폴리 만을 끼고 있는 고대 로마 도시 헤르쿨레니움에서 가져온 것으로, 이곳에는 유일하게 보존된 고대 도서관이 자리 잡고 있었다. 지금까지 1,800여 개의 거의 읽을 수 없는 두루마리와 파편은 기원후 79년 폼페이를 파괴한 화산 폭발 당시 화산쇄설류에 의해 화씨 900도 이상의 고온에서 그을리며 60피트 아래에 묻혔다. 파피루스는 충분한 산소가 없어 타지 않고 숯으로 구워졌는데, 이 덕분에 습기로부터 보호되어 고대부터 지금까지 그 형태를 지켜왔다. 그러나 그것은 또한 먼지로 변하지 않고는 두루마리를 펼칠 수 없다는 것을 의미했다.
지난 6개월 동안 두루마리를 해독하기 위해 밤늦게까지 일했던 패리터는 차로 한 시간 거리에 있는 기숙사 방에 설치된 데스크톱 컴퓨터에 원격으로 전화를 걸었다. 그는 서버에서 카일의 새 파피루스 조각을 찾아 지난 몇 주 동안 구축해 온 인공 지능 기반 탐지기에 즉시 입력했다. 이 탐지기는 잉크와 글자, 그리고 단어를 찾아내도록 프로그래밍이 되어 있었다. 패리터는 프로그램을 실행한 다음 휴대폰을 치워뒀다. 그 후, 그는 대리운전 기사로서 친구들을 기숙사로 데려다 주기 위해 파티가 끝나기를 기다렸다.
2,000년의 침묵을 깨다, 인공지능이 밝힌 첫 세 글자 “πορ”
4세기 동안 수도사와 왕자, 파피루스 학자와 고고학자, 고전학자, 컴퓨터 과학자들은 축 늘어진 작은 갈색 부리토처럼 생긴 두루마리를 파괴하지 않고 그 안에 있는 글자나 단어를 알아내기 위해 애썼지만 별다른 성과를 거두지 못했다. 고전학자들과 파피루스 학자들이 오랫동안 바랐던 것처럼 두루마리를 읽을 수 있다면 잃어버린 고전 문학이나 철학 작품, 역사 및 과학 기록을 발견할 수 있을지도 모르는 일이었다. 소포클레스나 아이스킬로스의 비극이나 리비(티투스 리비우스)의 잃어버린 글이 담겨 있을지도 모른다. 미국 로스앤젤레스 캘리포니아대학교의 고전학 교수인 데이비드 블랭크(David Blank)는 “가능성은 무궁무진하다”고 덧붙였다.
거의 모든 고전 문학은 중세 수도사들에 의해 전해져 내려왔다. 그들은 필사 대상을 까다롭게 선정했는데, 그 결과, 원본은 상대적으로 적게 남았고 우리가 아는 고전 문학은 빙산의 일각에 불과했다. 현재 아이스킬로스의 작품이 일곱 편 남아 있지만, 그보다 10배 이상 많은 작품이 존재했던 것으로 알려져 있다. 따라서 헤르쿨레니움에 보존된 파피루스는 잃어버린 작품을 만날 수도 있는 유일한 희망이었다. 일부 고전학자들은 아직 발굴되지 않은 별장의 다른 구역에 더 많은 텍스트가 남아 있을 것으로 기대하고 있다. 이탈리아 볼로냐대학의 고전 고고학 교수이자 ‘헤르쿨레니움의 친구들’(Friends of Herculaneum Society)의 이사인 아날리사 마르자노(Annalisa Marzano)는 시인 버질(베르길리우스)과 호레이스(호라티우스) 같은 거장들의 작품 외에도 “우리가 전혀 알지 못하는” 작가들의 글도 발견될 가능성이 있다고 강조했다.
친구들을 배웅한 후, 패리터는 기숙사 밖에 차를 세우고 건물로 걸어가면서 주머니에서 휴대전화를 꺼냈다. 화면 잠금을 해제한 그는 그 자리에 얼어붙었다. 인공지능이 무언가를 출력한 것이었다. 휴대전화 화면에는 세 개의 검은색 그리스 소문자가 선명한 순서로 배열돼 있었다. 파이(π), 오미크론(ο), 로(ρ) – “πορ”로 흐릿하지만 틀림없는 글자였다. 약 2,000년 만에 처음으로 이 글자들을 본 이 청년은 늦은 여름밤 미국 링컨의 한 주차장에서 고대 화산 폭발에서 구해낸 글자들을 엿보았다. 작년 11월에 패리터를 만났을 때 그는 “깜짝 놀랐다”고 당시를 회상했다. 또한 패리터는 이 글자들이 포함된 단어가 무엇일지, 그리고 어떤 책에 그 단어가 포함되어 있을지 궁금해했다.
잃어버린 고전을 찾아서, 투자자 넷 프리드먼과 고대 도시 헤르쿨레니움의 만남
베수비오 챌린지는 46세의 투자자 넷 프리드먼(Nat Friedman)의 아이디어로 시작됐다. 프리드먼은 2021년까지 마이크로소프트의 오픈소스 소프트웨어 개발 플랫폼인 깃허브(Git-Hub)의 CEO였다. 그는 오랜 투자 파트너인 다니엘 그로스(Daniel Gross)와 함께 오늘날의 AI 열풍에 일찍이 투자한 금융가 중 하나다. 2010년대에 프리드먼과 그로스는 머신러닝 연구자들을 후원했고, 이후 이 분야가 폭발적으로 성장하자 AI 회사에 자금을 지원하기 시작했다. 오늘날 두 사람은 자신들이 투자한 AI 모델을 개발하기 위해 대부분의 국가보다 더 많은 엔비디아 AI 칩을 보유하고 있다.
한편 샌프란시스코 북쪽의 농지에 유토피아적인 도시를 건설하려는 기술 억만장자들이 있다는 소식을 들어봤을 것이다. 프리드먼도 이 프로젝트에 돈을 쏟아부었다. 하지만 2020년 봄, 전 세계 대부분이 코로나19로 인해 봉쇄된 상황에서 프리드먼은 그저 전염병에 대한 걱정에서 벗어나기를 바랐다. 샌프란시스코의 자택에 격리된 채 고대 로마에 매료된 프리드먼은 고대 재난과 재해에 관한 위키피디아 기사를 읽고 있었다. 그러던 중 1709년 나폴리 인근의 레지나라는 마을에서 노동자들이 우물을 판 적이 있다는 사실을 알게 됐다. 약 60피트 아래에서 거대한 극장이 발견됐는데, 2,500명을 수용할 수 있는 이 건물은 말과 귀족의 동상으로 가득 차 있었다. 고대 도시 헤르쿨레니움의 존재가 세상에 처음으로 드러나는 순간이었다.
그 후 수십 년 동안, 고대 예술품이 탐났던 수많은 군 관련 기술자들은 극장에서 뻗어나가는 지하 터널을 파헤치기 시작했다. 당시에는 보존 중심의 고고학적 방법이 개발되지 않아서 이들의 발굴 작업은 고대 유물에 심각한 손상을 남겼다. 그러던 중 1750년 스위스 엔지니어인 칼 베버(Karl Weber)는 지하 벽을 따라가다가 호화로운 별장을 발견했다. 이 바닷가 저택은 한때 율리우스 카이사르의 장인인 루시우스 칼푸르니우스 피소 카에소니누스가 소유했던 것으로 추정되는데, 건물 한구석에서 인부들이 검은색 원통형 산더미를 찾았다. 처음에는 탄화 목재로 생각되어 일부는 버려졌지만, 베버는 곧 그 방이 도서관이라는 사실을 알아챘다. 작업자들은 1,000개가 넘는 파피루스 두루마리와 파편들을 수거하여 지역 박물관에 보관했다.
초기 해독 노력의 실패와 과학 기술의 등장
이 파피루스에서 아직 알려지지 않은 문학 작품을 발견할 수 있다는 가능성에 많은 유럽인이 매료되었고, 학자들은 파피루스를 읽기 위해 다양한 접근 방식을 시도했다. 한 박물관 큐레이터는 두루마리 몇 장을 칼로 세로로 잘라 층층이 긁어냈다. 이 방법으로 일부 읽을 수 있는 텍스트를 발견했지만 두루마리는 망가져 버렸다. 스페인 왕을 위해 방수 망토를 발명했던 한 이탈리아 왕자는 액체 금속이 두루마리 페이지를 분리할 수 있기를 바라며 수은에 두루마리 몇 장을 담갔다. 하지만 이내 수은도 두루마리를 망가뜨렸다. 다른 사람들은 악취가 나는 식물성 가스에 두루마리를 노출하거나 두루마리를 장미수에 담그는 방법도 시도했다.
더 정밀한 작업을 위해 1753년 바티칸 도서관에서 고대 필사본을 관리하던 수도사 안토니오 피아지오(Antonio Piaggio)가 로마에서 소환됐다. 나폴리에 도착한 그는 파피루스를 천천히 펼치는 기계를 발명하여 비단실을 시트 가장자리에 붙이고 하루에 1/10인치의 속도로 층을 부드럽게 떼어내는 방법을 고안했다. 피아지오는 이 방법으로 어느 정도 성공을 거뒀다. 그의 방법으로 시인 버질을 가르쳤으며 그리스 에피쿠로스 철학자 중 한 명으로 허공에서 원자가 흔들리고 충돌하여 우주를 창조했다고 주장한 필로데모스의 작품이 세상에 공개됐다. 그러나 피아지오의 접근 방식은 절망적일 만큼이나 느렸다. 아직 개봉되지 않은 330여 개의 두루마리를 손상하지 않고 읽는다는 것은 불가능해 보였다.
그로부터 몇 세기가 지난 후 프리드먼은 최근의 획기적인 연구 성과에 대해 알게 됐다. 컴퓨터 공학과 교수인 브렌트 실즈(Brent Seales)가 이끄는 켄터키대학교의 한 연구팀이 성공의 문턱에 다다른 듯 보였다. 2019년 실즈 교수팀은 두루마리 두 개를 맞춤형 케이스에 담아 잘려진 조각 네 개와 함께 영국 옥스퍼드셔에 싱크로트론 입자 가속기가 있는 다이아몬드 광원(Diamond Light Source)으로 운반했다. 실즈 교수와 그의 팀은 싱크로트론의 고에너지 광자를 사용하여 적혈구 지름 정도인 8마이크론의 해상도로 파피루스를 마이크로 CT로 스캔했다.
실즈 교수의 계획은 싱크로트론 스캔을 맞춤형 컴퓨터 프로그램으로 가져와 파피루스의 각 층을 가상으로 펼쳐서 렌더링 된 표면의 잉크를 들어내는 것이었다. 하지만 두루마리에 사용된 탄소 기반 잉크는 파피루스와 비슷한 방사능 밀도를 가지고 있어서 스캔본에서 잉크가 드러날 만큼 대비가 뚜렷하지 않았다. 이 문제를 해결하기 위해 실즈 교수의 팀은 카본 잉크로 쓰인 필사본으로 학습된 머신러닝 모델을 구축했다. 잉크 감지 AI 모델이 성공적으로 작동하면 두루마리의 표면에도 적용할 수 있다고 예상한 것이다.
베수비오 챌린지 탄생, 공개 콘테스트로 전환된 실즈 연구팀의 연구 주제
프리드먼은 실즈 교수의 연구팀에 대해 알게 된 후 실리콘밸리의 AI 커뮤니티가 이 프로젝트에 투자하거나 전문 지식을 제공함으로써 도움을 줄 수 있을 것이라는 아이디어를 떠올렸다. 2022년 프리드먼은 약 200명의 창업자와 CEO로 구성된 기술자 중 엄선된 사람들이 매년 며칠 동안 추위 속에서 야영하며 아이디어를 쏟아내는, 프리드먼이 공동 주최하고 캘리포니아 북부의 외딴 숲에서 열리는 독점적이고 은밀한 모임인 프런티어 캠프에 실즈 교수를 초대했다.
하지만 처음에 실즈 교수는 이메일을 무시했다. 프리드먼에 대해 들어본 적은 있지만 그 서신이 진짜인지 믿지 않았기 때문이다. 그러나 프리드먼은 집요했고, 2022년 10월 실즈는 소노마 카운티의 레드우드 숲에 있는 스파르타식 여름 캠프 장소에 도착했다. 그날 밤, 캠프의 나무 별채 중 한 곳에서 실즈 교수는 머신러닝 엔지니어 그룹을 대상으로 강연을 진행했다. 프리드먼은 실즈 교수가 강연하는 동안 그로스에게 “한 시간 안에 이 문제를 해결할 수 있을 것이다”라고 장담했다. 그러나 머신러닝 엔지니어들은 이를 해결하지 못했고, 행사가 끝나자 프리드먼과 그로스는 실즈 교수가 빈손으로 켄터키로 돌아갈까 봐 걱정했다. 그래서 그날 저녁, 실즈 교수가 묵고 있던 팔로알토 호텔의 바에서 버번을 마시며 프리드먼은 대신 공개 콘테스트를 열자고 제안했다.
실즈 교수는 집으로 돌아와 연구실의 다른 구성원들과 이 아이디어를 논의했다. “우리가 해온 모든 작업을 그냥 포기하고 싶지 않았다”라고 박사 학위 논문을 마무리하던 디지털 복원 연구원 스티븐 파슨스(Stephen Parsons)는 말했다. 동시에 그들의 머릿속엔 더 많은 사람이 이 문제를 고민하면 두루마리를 읽을 가능성이 높아질 것이라는 생각도 들었다. 궁극적으로 연구팀이 목표하는 바와 일치하기 때문에 이들은 프로젝트를 세상에 공개하기로 했다. 프리드먼은 열정을 억누르느라 애를 썼다. “매우 흥미롭고 이상한 새로운 프로젝트를 진행하고 있다”라고 그는 트위터(지금은 X)에 글을 올렸다. “평생의 꿈 같은 일이다.”
[해외 DS] 고대 헤르쿨레니움 두루마리를 해독한 AI 경진대회 ②, 베수비오 챌린지의 주요 과제와 어려움으로 이어집니다.
영어 원문 기사는 사이언티픽 아메리칸에 게재되었습니다.