[해외 DS] 스탠퍼드 인공지능 보고서, 성장 속도에 맞춘 평가기준 필요해

독해력·수학·이미지 분류 작업에서 인간과 비슷하거나 더 나은 성능 보여
인공지능의 빠른 성장속도에 맞춰 평가기준도 같이 변해야
전 세계가 인공지능을 보는 관점이 다른 만큼 국제적 분열 일어나지 않게 조심해야

[해외DS]는 해외 유수의 데이터 사이언스 전문지들에서 전하는 업계 전문가들의 의견을 담았습니다. 글로벌AI협회(GIAI)에서 번역본에 대해 콘텐츠 제휴가 진행 중입니다.


ai report
사진=Scientific American

스탠퍼드 대학교의 인간중심 인공지능 연구소에서 ‘인공지능 지수 보고서 2024’를 발표했다. 보고서에 따르면, ChatGPT와 같은 인공지능 시스템이 독해, 이미지 분류, 수학 등 여러 분야에서 인간과 비슷하거나 더 나은 성능을 보였다. 인공지능이 뛰어난 성능을 보이고 있지만, 성능과 함께 연구 비용이 기하급수적으로 증가하여 자원 낭비가 아니냐는 비판도 뒤따른다.

또한 내실을 다지지 않은 채 ‘기술 개발’에만 힘 쏟고 있다는 비판이 나온다. 현재 인공지능을 평가하는 벤치마크와 테스트는 인공지능 성장세를 못 따라가고 있다. 기존 벤치마크와 테스트는 성장 중인 인공지능에게 너무 쉽다는 의견이 지배적이다. 따라서 인공지능 성능에 적절한 테스트 기준과 벤치마크를 만들어야 할 필요성이 대두되고 있다.

로켓처럼 빠르게 성장하는 인공지능

현재 인공지능은 2010년대 초반을 시작으로 급성장했다. 깃허브(GitHub)의 인공지능 코딩 프로젝트 수는 2011년 약 800개에서 지난해 180만 개로 폭발적으로 증가했으며 같은 기간 동안 인공지능을 주제로 한 학술지 논문도 약 3배 증가했다. 논문 수에 비해 프로젝트 수가 폭발적으로 증가할 것에서 알 수 있듯이, 인공지능 연구는 대부분 산업에서 이루어지고 있다. 작년 산업에서는 51개의 혁신적인 머신러닝 시스템을 개발한 반면, 학계에서는 15개 논문을 발표했다. 오스틴 텍사스 대학교의 인공지능 연구소 소장인 레이몬드 무니는 학계 연구가 기업에서 나온 모델을 분석하고 약점을 파헤치는 방향으로 연구하고 있다며 ‘소극적인’ 연구를 지적했다. 더불어 학계에서도 ‘도전적인’ 인공지능 연구가 이루어졌으면 하는 바람을 나타냈다.

인공지능 성장 속도에 대응하는 벤치마크 필요해

인공지능이 발전함에 따라 추상화와 추론처럼 복잡한 작업도 가능하게 되었다. 이에 맞춰 인공지능 성능을 평가하는 ‘새로운’ 기준이 필요하다는 의견이 나온다. 스탠퍼드의 사회과학자이자 인공지능 지수 편집장인 네스터 마슬레이는 10년 전에는 벤치마크가 5~10년 동안 유지되었지만, 지금은 불과 몇 년 만에 무의미해지는 경우가 많다며 새로운 평가기준의 필요성을 재차 강조했다.

이에 뉴욕대학교의 머신러닝 연구원 데이비드 레인을 비롯한 연구팀은 대학원 수준의 Google-Proof Q&A(GPQA) 벤치마크를 개발하여 발 빠르게 대처했다. 이 벤치마크는 대형언어모델(LLM)의 시각적, 수학적, 심지어 도덕적 추론 능력을 평가하기 위한 ‘엄격한’ 테스트 지표도 포함되어 있다.

GPQA는 인공지능 성장세에 맞춰 400개 이상의 객관식 문항으로 까다롭게 구성되어 있다. 학자들은 전공 분야 에서 65% 정도 정답을 맞췄으며 자신의 분야가 아닌 문제에서는 34% 정도 정답을 맞췄다. 참고로 시험 중에 인터넷을 사용할 수 있었으며 무작위로 답을 선택하면 25% 정도 점수를 얻을 수 있다. 작년 인공지능 시스템의 점수는 약 30~40% 정답을 맞췄다. 그러나 앤트로픽(Anthropic)이 출시한 클로드3(Claude 3)는 약 60% 정답을 맞춰 대중을 놀라게 했다. 전문가들은 위 사례를 통해 몇 년 이상 살아남는 벤치마크는 없으며 인공지능 성능에 맞춰 테스트 지표를 갱신해주어야 한다는 점을 강조했다.

치솟는 비용과 고갈 되고 있는 데이터

하지만 성능이 증가함에 따라 비용도 무섭게 증가하고 있다. 오픈AI가 출시한 GPT-4는 훈련하는 데 7800만 달러가 들었다. 경쟁이라도 하듯이 구글 챗봇 제미니 울트라는 1억 9100만 달러가 들어 대중에게 큰 충격을 줬다. 성능과 함께 비용이 증가하는 이유는 시스템을 개선하기 위해 데이터를 더 많이 사용하기 때문이다. 점점 더 많은 텍스트와 이미지로 학습시켜 인공지능 모델의 비용과 에너지 사용량은 더욱 증가하고 있다. 심지어 일부 연구자들은 학습 데이터가 부족한 시대가 올 것이라며 인공지능의 막대한 비용에 대해 우려하고 있다. 지난해 비영리 연구 기관인 에포크(Epoch)의 보고서에 따르면, 올해 안에 고품질 언어 데이터가 고갈될 것이라는 예상을 내놓았다.

책임감 있게 인공지능 사용해야

2017년 처음 발표된 스탠퍼드의 인공지능 지수는 전문가 그룹이 해당 분야의 기술 역량, 비용, 윤리 등을 평가하여 연구자, 정책 입안자, 대중에게 알렸다. 올해 보고서에서는 미국의 인공지능 관련 규제가 급격히 증가한 점을 지적했다. 2016년 인공지능을 언급한 미국 규제는 단 한 건에 불과했으나, 2022년 이후 빠르게 증가하여 작년에는 무려 25건에 달했다.

규제는 책임감 있게 인공지능을 사용하는 방향으로 흘러가고 있다. 마슬레이는 인공지능의 진실성, 편향성, 호감도 등의 지표를 점수화하는 벤치마크가 등장하고 있지만, 모든 사람이 동일한 모델을 사용하는 것은 아니기 때문에 상호 비교가 어렵다는 점을 지적했다.

또한 인공지능 구축과 사용 방식에 대한 윤리적 우려도 커지고 있다. 미국과 전 세계에서는 그 어느 때보다 인공지능에 대해 불안해하고 있다. 마슬레이는 인공지능에 대해 매우 흥분하는 국가가 있는가 하면 매우 비관적인 국가도 있어, 국제적인 분열 조짐이 일어나지 않게 조심해야 한다고 충고했다.

*편집진: 영어 원문의 출처는 사이언티픽 아메리칸(Scientific American)으로 본지의 편집방향과 일치하지 않을 수도 있습니다.