[해외 DS] 구글 딥마인드 ‘알파지오메트리’ 공개, 수학 올림피아드 금메달리스트 수준

구글 딥마인드, "기하학 문제 30개 중 25개 성공"
알파지오메트리, LLM과 연역적 알고리즘 결합
기하학 문제 넘어 다른 수학 분야에도 적용 기대

[해외DS]는 해외 유수의 데이터 사이언스 전문지들에서 전하는 업계 전문가들의 의견을 담았습니다. 저희 데이터 사이언스 경영 연구소 (GIAI R&D Korea)에서 콘텐츠 제휴가 진행 중입니다.


AI_matches_math_olympians_ScientificAmerican_20240119
사진=Scientific American

국제수학올림피아드(IMO)는 예비 대학생을 대상으로 하는 가장 권위 있는 수학 대회다. 매년 전 세계 학생들이 치열한 경쟁을 펼치며 작년에는 112개국이 참가했다. 새로운 방식으로, 인공지능 프로그램도 곧 이들과 경쟁할 수 있게 될 전망이다.

구글 딥마인드의 트리우 트린(Trieu H. Trinh)이 이끄는 구글 딥마인드와 뉴욕대학교 연구팀은 지난 1월 17일 네이처 저널에 ‘알파지오메트리'(AlphaGeometry)라는 새로운 AI 프로그램을 공개했다. 연구진은 이 프로그램이 과거 IMO에서 출제된 기하학 문제 30개 중 25개를 성공적으로 풀었다고 밝혔다. 이는 해당 대회에서 금메달을 획득한 인간 참가자와 비슷한 성공률을 보인 것이다. 또한 알파지오메트리는 2004년 IMO에서 출제된 3개의 원 안에 있는 선분의 위치를 증명하는 기하학 문제를 기존에 정답으로 제시된 풀이보다 일반적인 증명 방법도 찾아냈다.

IMO에 참가한 학생들은 이틀 동안 서로 다른 수학 영역에서 총 6개의 문제를 풀어야 한다. 일부 문제는 너무 복잡해서 전문가도 풀 수 없는 문제도 있다. 이 문제들은 대개 짧고 우아한 해답을 요구하는 동시에 많은 창의력을 필요로 한다. 따라서 창의적인 능력을 갖춘 시스템을 개발하는 것을 목표로 연구 관점에서 볼 때 이번 연구 결과는 특별할 수밖에 없다. 지금까지는 OpenAI의 GPT-4와 같은 대규모언어모델(LLM)조차도 이러한 과제에서 고전을 면치 못했다.

기존 데이터 세트의 한계 극복, 컴퓨터가 이해할 수 있는 합성 데이터 구축

기존의 AI 프로그램이 성공하지 못한 이유 중 하나는 데이터에 대한 접근성이 부족했기 때문이다. GPT-4와 같은 LLM은 수십 기가바이트의 텍스트 파일로 학습하는데, 이는 편지 크기의 페이지 약 2,000만 개에 해당하는 양이다. 하지만 기하학 증명 문제는 학습 자료가 부족하며 기하학적 수학적 증명을 컴퓨터가 이해할 수 있는 프로그래밍 언어로 번역하려면 강도 높은 작업이 필요하다. 특히 기하학 분야에서는 해를 계산할 수 있도록 증명을 형식화하기가 더욱 어렵다. 기하학을 위해 특별히 개발된 공식 프로그래밍 언어가 있긴 하지만, 다른 수학 주제의 방법론을 거의 사용하지 않으므로 기학 외의 요소가 문제에 포함되는 경우엔 기하학에 특화된 프로그램을 사용할 수 없게 된다.

위의 어려움들을 극복하기 위해 트린과 그의 동료들은 인간이 생성한 증명을 공식 언어로 번역할 필요가 없는 합성 데이터 세트를 만들었다. 이를 위해 먼저 알고리즘이 문제에 내재된 기하학적 전제를 생성하도록 했다. 그런 다음 연구자들은 연역적 알고리즘을 사용하여 어떤 각도가 일치하는지, 어떤 선이 서로 수직인지 등 관련 도형의 추가 속성을 추론하도록 설계했다. 해당 프로그램은 수십 년 동안 사용됐으며, 미리 정의된 기하학적 및 대수적 규칙을 사용하여 객체에 대한 진술을 체계적으로 작성하는 일련의 과정을 거친다.

연구진은 기하학적 전제와 이로 파생된 속성을 결합하여 AI에 적합한 학습 데이터 세트를 합성해 냈다. 예를 들어 삼각형의 특정 특성, 즉 두 각도가 같다는 것을 증명하는 문제가 있을 수 있다. 이 경우 연역적 알고리즘을 통해 두 각도가 같은 삼각형을 증명하는 과정을 생성하여 자체 학습 데이터를 마련한다. 이러한 방식으로 트린과 그의 동료들은 1억 개가 넘는 문제와 그에 상응하는 증명이 포함된 합성 데이터 세트를 생성했다.

LLM과 연역적 알고리즘의 결합, 언어 모델로 새로운 단서 제기

그러나 이러한 방법만으로는 IMO 수준의 증명 문제를 풀어낼 수 없다. 대회에서 마주치는 문제들은 보통 단순한 추론 능력 이상의 것을 요구하기 때문이다. 트린과 그의 팀은 논문에서 “올림피아드 수준의 문제를 풀기 위해서는 새로운 증명 단서를 생성하는 것이 핵심이다”고 언급했다. 예를 들어 삼각형에 대한 어떤 것을 증명하려면 문제에 언급되지 않은 새로운 점과 선을 도입해야 할 때가 있는데, 바로 이러한 새로운 보조 객체(점과 선)의 도입은 증명에 접근하는 데 필요한 것으로, GPT-4와 유사한 LLM이 이를 잘 수행하는 것으로 분석됐다.

트린과 그의 팀은 LLM을 점, 선 및 기타 증명에 유용한 보조 개체를 찾는 데 집중시켰다. LLM은 단어와 문장 간의 일련의 확률에 따라 텍스트를 생성하므로 증명에 필요한 보조 수단을 확률적으로 추천하는 데에 유용했던 것이다. 그러나 LLM은 잘 알려진 대로 추론에 도달하는 과정을 파악하기 어렵기 때문에 해답을 찾기 위한 연역적 단계를 학습하지 않았으며, 연역 알고리즘을 보조하는 역할에 그쳤다.

따라서 알파지오메트리에 문제를 주면 연역 알고리즘이 먼저 문제의 설명에서 다양한 속성을 도출하고, 문제 풀이 단서가 부족한 경우, LLM이 추천한 보조 개체를 사용한다. 예를 들어 삼각형 ABC에 네 번째 점 X를 추가하여 ABCX가 평행 사변형 나타내도록 증명 방향을 재설정하는 식이다. 이렇게 하면 연역 알고리즘이 기하학적 객체의 추가 속성을 도출하는 데 사용할 수 있는 새로운 정보를 얻을 수 있다. 원하는 결과에 도달할 때까지 LLM과 연역적 프로그램은 이 과정을 계속 반복한다. “이 방법은 합리적으로 들리며 어떤 면에서는 국제수학올림피아드 참가자들의 훈련과 유사하다”고 국제수학올림피아드에서 금메달을 세 번이나 수상한 필즈 메달리스트 피터 숄제(Peter Scholze)는 말했다.

수학 AI의 문제 해결 범위는 아직 제한적, 조합론 등 다른 분야로 확장 예정

과학자들은 알파지오메트리를 테스트하기 위해 2000년 이후 IMO에 출제된 기하학 문제 30개를 선정했다. 이전에 기하학 문제를 푸는 데 사용되었던 표준 프로그램인 우의 알고리즘(Wu’s algorithm)은 10개 문제만 제대로 풀었고, GPT-4는 모든 문제에서 실패했지만, 알파지오메트리는 25개를 풀었다. 연구진에 따르면 그들의 수학 AI는 30개 문제 중 평균 15.2개를 푼 대부분의 IMO 참가자보다 뛰어난 성적을 거뒀다. 반면 금메달 수상자들은 평균 25.9개의 문제를 정확하게 풀었고, 인간 참가자는 기하학 문제만 푸는 것이 아니라 대수학, 수론, 조합론 등 다른 영역의 문제도 풀어야 했다.

한편 알파지오메트리가 생성한 증명을 살펴본 결과, 2004년에 출제된 문제에 제공된 모든 정보를 사용하지 않았다는 사실을 연구진은 발견했다. 이는 알파지오메트리가 문제의 출제 방향보다 일반적이지만 연관이 깊은 정리에 대한 해답을 찾았다는 것을 의미했다. 또한 IMO 참가자들의 성적이 저조한 복잡한 문제는 AI 모델도 증명 시간이 더 오래 걸린다는 것도 밝혀졌다. 기계도 인간과 동일하게 어려운 문제를 해결하기 위해 고군분투하는 것으로 보인다고 연구진은 전했다.

기하학 문제가 전체 문제의 3분의 1밖에 차지하지 않는 국제수학올림피아드에서 알파고메트리는 아직 인간 참가자들과 경쟁할 수 없다. 하지만 트린과 그의 동료들은 그들의 접근 방식이 조합론과 같은 다른 수학 분야에도 적용될 수 있다고 강조했다. 몇 년 후에는 인간이 아닌 참가자가 처음으로 IMO에 참가하여 금메달을 획득할 수도 있을 것으로 기대된다.

영어 원문 기사는 사이언티픽 아메리칸에 게재되었습니다.