[해외 DS] 스탠포드 AI 보고서, 성장 속도에 맞춘 평가기준 필요해

독해력·수학·이미지 분류 작업에서 인간과 비등하거나 능가하는 성능 보여
AI의 빠른 성장속도에 맞춰 평가기준도 같이 변해야
인공지능 윤리적 우려가 커짐에 따라 국제적 분열 걱정돼

[해외DS]는 해외 유수의 데이터 사이언스 전문지들에서 전하는 업계 전문가들의 의견을 담았습니다. 저희 글로벌AI협회 연구소(GIAI R&D)에서 콘텐츠 제휴가 진행 중입니다.


ai report
사진=Scientific American

스탠포드 대학교의 인간중심 인공지능 연구소가 4월 15일에 ‘인공지능 지수 보고서 2024’를 발표했다. 위 보고서에 따르면, ChatGPT와 같은 인공지능 시스템은 독해력, 이미지 분류, 경시대회 수준의 수학 등에서 인간의 능력과 비슷하거나 능가하는 무서운 성장세를 보였다.

하지만 AI 연구 비용이 성능과 함께 기하급수적으로 증가하여 자원 낭비가 아니냐는 비판도 뒤따른다. 또한 시스템의 급속한 발전으로 인해, 이를 평가하기 위한 기존 벤치마크와 테스트는 너무 쉽다는 평을 받고 있다. 따라서 AI 성장 속도에 맞춰 적절한 테스트 기준과 벤치마크를 만들어야할 필요성이 대두되고 있다.

로켓처럼 빠르게 성장하는 AI

현재 AI 붐은 2010년대 초반을 시작으로 급성장하였다. 깃허브(GitHub)의 AI 코딩 프로젝트 수는 2011년 약 800개에서 지난해 180만 개로 폭발적으로 증가하였고 같은 기간 동안 AI에 관한 학술지 논문도 약 3배 증가했다. 논문 수에 비해 프로젝트 수가 폭발적으로 증가할 것에서 알 수 있듯이, AI에 대한 최첨단 연구는 대부분 산업계에서 이루어지고 있다. 작년에 산업계에서는 51개의 혁신적인 머신러닝 시스템을 개발한 반면, 학계 연구자들은 15개를 발표하여 미미한 성적을 보였다. 오스틴 텍사스 대학교의 AI 연구소 소장인 레이몬드 무니는 학계 연구는 기업에서 나오는 모델을 분석하고 약점을 파헤치는 방향으로 전환하고 있어, 학계에서도 도전적인 AI 연구가 수행되었으면 하는 바람을 나타냈다.

그리고 올해 에디션에서는 화학자들이 재료를 발견하는 데 도움을 주는 구글 딥마인드의 프로젝트인 GNoME(그래프 네트워크 재료 탐색)와 신속한 일기 예보를 수행하는 그래프캐스트(GraphCast) 등의 프로젝트를 선보여 AI의 엄청난 성장을 과시했다.

AI 성장 속도에 맞는 벤치마크 필요해

그러나 AI가 발전함에 따라 기존에는 불가능했던 추상화 및 추론과 같은 복잡한 작업에 대한 성능을 평가하는 새로운 방법이 필요하다. 스탠포드의 사회과학자이자 AI 지수의 편집장인 네스터 마슬레이는 10년 전에는 벤치마크가 5~10년 동안 커뮤니티에 도움이 되었지만, 지금은 불과 몇 년 만에 무의미해지는 경우가 많다며 새로운 평가기준의 필요성을 재차 강조했다.

이에 뉴욕대학교의 머신러닝 연구원 데이비드 레인을 비롯한 연구팀은 대학원 수준의 Google-Proof Q&A(GPQA) 벤치마크를 개발하여 발빠르게 대처했다. 이 벤치마크에는 챗봇을 구동하는 대규모 언어 모델(LLM)의 시각적, 수학적, 심지어 도덕적 추론 능력을 평가하기 위한 엄격한 테스트 지표도 포함되어 있다.

AI 성장세에 맞게 GPQA는 400개 이상의 객관식 문항으로 매우 까다롭게 구성되어 있다. 박사 수준의 학자들은 전공분야 질문에 65% 정도 정답을 맞췄고, 자신의 분야가 아닌 문제에 답하였을 때 34%의 점수를 얻었다. 참고로 시험 중에 인터넷을 사용할 수 있고 무작위로 답을 선택하면 25%의 점수를 얻을 수 있다. 작년 기준으로 AI 시스템의 점수는 약 30~40%의 점수 성능을 보였지만, 올해 AI 회사인 앤트로픽(Anthropic)이 출시한 최신 챗봇인 클로드3(Claude 3)의 점수는 약 60%라는 대성능을 선보였다. 이 사례를 보고 몇 년 이상 살아남는 벤치마크를 만드는 것이 매우 어려운 일이고, AI 성능에 맞게 테스트 지표를 업데이트 해줘야 함을 암시한다.

치솟는 비용과 고갈 되고 있는 데이터

하지만 성능이 증가함에 따라 비용도 급증하고 있는 모습이다. OpenAI가 2023년 3월에 출시한 GPT-4는 훈련하는 데 7,800만 달러가 들어 대중에게 큰 충격을 줬다. 경쟁이라도 하듯이 12월에 출시된 구글 챗봇 제미니 울트라는 1억 9,100만 달러의 비용이 들었다. 성능과 함께 비용이 증가하는 이유는 시스템을 개선하기 위해 시스템을 더 크게 만들기 때문이다. 즉, 데이터를 더 많이 사용하는 것이다. 점점 더 많은 양의 텍스트와 이미지로 학습시켜, AI 모델의 비용과 에너지 사용량은 더욱 증가하고 있다. 또한 보고서에서는 현재 일부 연구자들이 학습 데이터 부족에 대해 우려하고 있다. 지난해 비영리 연구 기관인 에포크(Epoch)의 보고서에 따르면, 올해 안에 고품질 언어 데이터가 고갈될 것으로 예상한다.

책임감 있게 인공지능 사용해야

2017년 처음 발표된 스탠포드의 AI 지수는 전문가 그룹이 해당 분야의 기술 역량, 비용, 윤리 등을 평가하여 연구자, 정책 입안자 및 대중에게 알린다. 올해 보고서에서는 미국의 AI 관련 규제의 급격한 증가를 지적했다. 2016년에는 AI를 언급한 미국 규제는 단 한 건에 불과했지만, 2022년 이후 빠르게 증가하여 작년에는 무려 25건에 달했다.

규제의 방향은 책임감 있게 AI를 사용하는 방향으로 흘러가고 있다. 마슬레이는 AI 도구의 진실성, 편향성, 호감도 등의 지표를 점수화할 수 있는 벤치마크가 등장하고 있지만, 모든 사람이 동일한 모델을 사용하는 것은 아니기 때문에 상호 비교가 어렵다는 점을 지적한다.

또한 AI의 구축과 사용 방식에 대한 윤리적 우려도 커지고 있다. 미국과 전 세계에서는 그 어느 때보다 AI에 대해 불안해하고 있다. 또한 마슬레이는 현재 AI에 대해 매우 흥분하는 국가가 있는가 하면 매우 비관적인 국가도 있어, 국제적인 분열 조짐이 일어나지 않게 조심해야 한다고 충고한다.

*편집진: 영어 원문의 출처는 사이언티픽 아메리칸(Scientific American)으로 본지의 편집방향과 일치하지 않을 수도 있습니다.

Similar Posts