[해외 DS] 구글 딥마인드, 국제수학올림피아드 은메달 수준의 AI 선보여

국제수학올림피아드에서 AI가 은메달 수준의 점수 기록해
알파프루프, 강화 학습과 자연어 처리로 성능 높여
수학 특화 AI, 문제 풀어내는 데 너무 오랜 시간 걸린다는 지적 뒤따라

[해외DS]는 해외 유수의 데이터 사이언스 전문지들에서 전하는 업계 전문가들의 의견을 담았습니다. 글로벌AI협회(GIAI)에서 번역본에 대해 콘텐츠 제휴가 진행 중입니다.

구글 딥마인드는 수학에서도 AI의 존재감을 드러냈다. 올해 국제수학올림피아드(IMO)에 AI를 출전시켜 은메달 수준의 점수를 내 대중을 놀라게 했다. 수학에 특화된 AI는 알파프루프와 알파지오메트리 2로 서로 보완하는 역할을 했다. 수학자들은 수학 특화 AI를 두고 시작에 불과하며 앞으로 효율성을 높여 더욱 뛰어난 성능을 보일 것으로 기대된다고 밝혔다.

수학에서도 인간을 뛰어넘은 AI

IMO를 위해 약 110개국에서 600명 이상의 학생이 영국 바스에 모였다. 학생들은 이틀에 나누어 하루에 3문제씩 4시간 30분 동안 문제를 풀었다. 개인전에서는 중국의 하오지아 시가 만점을 받아 1위를 차지했고, 국가별 순위에서는 미국이 1위에 올라섰다.

이번 대회에서 가장 주목할 만한 결과는 딥마인드에서 출전한 두 AI가 거둔 놀라운 성과다. 딥마인드의 AI 프로그램은 6개의 문제 중 4문제를 풀어 42점 만점 중 28점을 받았다. 이는 아쉽게 금메달보다 1점 낮은 은메달에 해당하는 점수다. IMO 금메달리스트이자 필즈상 수상자인 티머시 가워스는 약 60명의 학생만 AI보다 더 높은 점수를 받았다고 말했다.

알파프루프, 증명 도우미 한계 극복하며 뛰어난 성능 보여

딥마인드는 ‘알파프루프’와 ‘알파지오메트리’라는 두 가지 다른 AI를 사용하여 놀라운 성과를 거뒀다. 알파프루프는 바둑과 체스에서 높은 성능을 보였던 ‘강화 학습’ 기반의 AI다. 강화 학습은 반복적으로 자신과 경쟁하고 단계적으로 개선해 나가는 방식이다. 정해진 공간 내에서 성공적으로 작동하므로 보드게임에서 높은 성과를 보이나, 주식 시장처럼 주가가 어떻게 움직일지 예측할 수 없는 상황에서는 좋은 성과를 거두지 못한다.

수학 문제에서 AI가 제대로 작동하려면 두 가지를 확인해야 한다. AI가 문제를 해결했는지와 해법에 도달하는 풀이 과정이 올바른지 확인할 수 있어야 한다. 이를 위해 알파프루프는 증명 도우미를 사용한다. 증명 도우미는 논증을 단계별로 진행하여 제시된 문제의 답이 올바른지 확인한다. 증명 도우미는 린(Lean)이라는 프로그래밍 언어를 사용하는데, 제공하는 수학 데이터가 매우 제한적이어서 모델링하는데 어려움을 겪는다.

반면에 대학교 문제집처럼 자연어로 작성된 수학 문제와 해답은 쉽게 구할 수 있다. 게다가 인터넷에서 자세한 해설이 담긴 여러 수학 문제를 찾을 수 있다. 따라서 딥마인드는 대형언어모델인 제미나이(Gemini)를 훈련시켜 자연어로 구성된 백만 개의 문제를 린 프로그래밍 언어로 번역해 증명 도우미가 성공적으로 학습할 수 있도록 했다. 개발자들은 알파프루프에 문제를 제시하면 알파프루프는 해법 후보를 생성한 다음 린에서 가능한 모든 증명 단계를 검색하여 위에 해법이 옳은지 판별한다. 이를 통해 알파프루프는 어떤 증명 단계가 유용한지 학습하여 점차 더 복잡한 문제를 해결할 수 있는 능력을 기른다.

알파지오메트리, 단 19초 만에 IMO 문제 풀어내

그러나 IMO에 등장하는 기하학 문제는 완전히 다른 접근 방식이 필요하다. 지난 1월 딥마인드는 기하학 문제에 특화된 알파지오메트리를 선보였다. 알파지오메트리를 만드는 과정은 다음과 같다. 우선 삼각형, 사각형 등 여러 종류의 기하학 데이터를 생성한다. 그런 다음 ‘추론 엔진’을 사용하여 어떤 각도가 일치하는지, 어떤 선이 서로 수직하는지 등 삼각형의 추가 속성을 추론한다. 이러한 다이어그램과 도출된 속성을 결합하여 정리와 증명으로 구성된 학습 데이터를 만든다. 최근 딥마인드는 더 많은 데이터로 훈련하고 알고리즘 속도를 개선한 알파지오메트리 2를 출시해 대중의 관심을 받고 있다.

딥마인드는 수학 특화 AI의 성능을 테스트하기 위해 올해 IMO에 AI를 참가시켰다. 연구팀은 먼저 자연어로 된 문제를 린으로 수동 변환했고, 알파지오메트리 2는 단 19초 만에 기하학 문제를 정확하게 풀어냈다. 게다가 알파프루프는 참가자 중 5명만 풀 수 있었던 정수와 대수 문제를 풀어냈다.

수학 특화 AI, 풀이 시간 길지만 점차 보완해 나갈 것

그러나 아쉽게도 AI는 조합 문제를 풀지 못했는데, 이는 조합 문제가 프로그래밍 언어로 변환하기 매우 어렵기 때문이다. 또한 알파프루프의 성능에 문제가 제기됐다. 알파프루프는 일부 문제를 푸는데 60시간 이상이 걸렸고, 이는 총 제한 시간인 9시간보다 훨씬 긴 시간이다. 이에 대해 가워스는 사람도 문제당 그 정도의 시간이 주어졌다면 훨씬 더 높은 점수를 받았을 것이라고 지적했다. 그럼에도 불구하고 수학 특화 AI는 증명 도우미가 할 수 있었던 것을 가뿐히 뛰어넘었으며 성능은 효율성이 향상되면서 줄어들 가능성이 있다고 수학 AI의 잠재력을 높게 평가했다.

가워스는 수학 특화 AI가 다양한 문제로 훈련됐으며 이러한 방법은 IMO에만 국한되지 않는다고 강조했다. 또한 수학자들이 궁금해하는 다양한 질문에 답을 얻을 수 있는 프로그램 개발에 한발 가까워졌다고 설명했다.

*편집진: 영어 원문의 출처는 사이언티픽 아메리칸(Scientific American)으로 본지의 편집 방향과 일치하지 않을 수도 있습니다.

이태선 선임연구원

[email protected] 세상은 이야기로 만들어져 있습니다. 다만 우리 눈에 그 이야기가 보이지 않을 뿐입니다. 숨겨진 이야기를 찾아내서 함께 공유하겠습니다.