[해외 DS] AI 모델, 시간이 흐른다고 항상 발전할까?
GPT-4, 석 달 만에 성능 저하 현상 보여 인간 피드백형 학습 방식이 원인 제공했을 가능성 있어 추론을 모방할 뿐, 논리적인 문제 해결 능력은 부족
[해외DS]는 해외 유수의 데이터 사이언스 전문지들에서 전하는 업계 전문가들의 의견을 담았습니다. 글로벌AI협회(GIAI)에서 번역본에 대해 콘텐츠 제휴가 진행 중입니다.
지난 3월 오픈AI가 텍스트 생성 인공지능인 대규모언어모델(이하 LLM) GPT-4를 출시했을 때 소수를 식별하는 이진 분류 작업을 능숙하게 수행했다. 소수와 합성수가 각각 500개가 들어있는 1,000개의 숫자 리스트를 주면 84.0%의 정확도로 소수를 분류해 냈다.
하지만 불과 3개월 후인 6월, GPT-4의 정확도는 51.1%까지 급락했다. 정량적 답변을 요구하는 다른 수학 문제에서도 정확도가 83.6%에서 35.2%로 크게 떨어졌다. 더욱이 6월 GPT-4는 3월 모델뿐만 아니라 이전 버전인 6월 GPT-3.5보다도 성능이 뒤처지는 것으로 나타났다. 일반적으로 AI 모델은 학습 데이터가 늘어날수록 성능이 향상될 것으로 기대되지만, GPT-4는 시간이 지남에 따라 오히려 성능이 저하되는 역설적인 현상을 보여주고 있다.
물론 긍정적인 변화도 있었다. 민감하거나 주관적인 질문에 대해서는 답변을 회피하거나 짧게 응답하는 등 안전성이 향상된 모습을 보였으며, 특히 장황한 답변을 지양하는 경향이 나타났다.
ChatGPT 성능 변화 논란, AI 모델 투명성 문제 제기
스탠퍼드대학교와 UC 버클리 연구진은 3월과 6월 GPT-4 및 GPT-3.5 모델을 비교 분석했으며, 아직 동료 심사는 거치지 않았지만 많은 이들의 주목을 받았다. 연구 결과가 공개되자 일부 AI 사용자들은 자신의 경험과 유사하다며 공감했고, “ChatGPT가 점점 멍청해지는 건가?”라는 의문이 제기되기도 했다. 일부 언론에서는 ChatGPT의 성능 저하를 단정적으로 보도하기도 했다.
이번 연구의 공동 저자이자 스탠드대학의 데이터과학 제임스 저우(James Zou) 교수는 이러한 반응들이 생성형 AI 모델의 변화를 지나치게 단순화하고 있다고 지적했다. “GPT-4나 GPT-3.5가 시간이 지남에 따라 좋아지고 있는지, 나빠지고 있는지 단정하기는 어렵다”고 저우 교수는 설명했다. 결국 “더 좋아졌다”는 판단은 주관적인 영역이라는 점을 강조했다.
오픈AI는 자체 지표를 활용해 모델 출시 이후에도 꾸준히 업데이트를 진행해왔을 것이다. 하지만 의도치 않은 분야에서 성능 저하가 발생했고, 이를 공식 블로그를 통해 인정하기도 했다. 그러나 모델 업데이트 관련 벤치마크 데이터를 공개하지 않고, 외부 연구 결과에 대한 논평도 거부해 불투명한 소통 방식이라는 비판을 받고 있다. 업계 관계자들은 이러한 불투명한 소통 방식은 사용자들에게 피해를 야기한다고 지적했다. 모델 드리프트 발생 시 익숙했던 프롬프트 방식을 변경해야 하고, 그 위에 구축된 애플리케이션 전체가 오작동을 일으키면 업무 효율이 크게 저하될 수 있다고 경고했다. 또한 LLM에 대한 의존도가 높아질수록 이러한 피해는 더욱 커질 것으로 예상되며, 외부 연구자들은 자체 테스트 결과와 기계 학습 지식을 바탕으로 원인을 추측할 수밖에 없다고 우려를 표했다.
학습 데이터 구성과 파인튜닝 과정을 원인으로 추정
GPT-4와 같은 대규모 언어 모델(LLM)은 수천억 개의 매개변수를 가지고 있다. 기존 컴퓨터 프로그램과 달리 LLM에서는 각 매개변수와 모델 특성 간의 명확한 일대일 관계를 파악하기 어렵다. 따라서 초기 학습 후 매개변수를 직접 수정하는 대신, 인간 피드백을 반영하는 파인튜닝 작업을 통해 성능을 향상시키는 것이 일반적이다. 하지만 파인튜닝 과정에서도 예상치 못한 상충 관계로 인해 특정 영역에서 성능 저하가 발생할 수 있다.
저우 교수는 AI 모델의 파인튜닝 과정을 유전자 편집에 비유했다. AI 모델의 매개변수는 DNA 염기쌍과 유사하며, 파인튜닝은 특정 목표를 위해 이 매개변수를 조정하는 과정으로 유전자 편집 과정에서 돌연변이를 도입하는 것과 비슷하다고 설명했다. 즉 AI 모델의 코드를 변경하거나 특정 결과를 얻기 위해 학습 데이터를 추가하는 파인튜닝 과정은 유전자 편집과 마찬가지로 예상치 못한 부작용을 초래할 수 있는 것이다. 저우 교수를 비롯한 연구자들은 대규모 AI 모델을 보다 정밀하게 수정하는 방법을 연구하고 있지만, 아직 최적의 방법론을 찾지 못했다고 밝혔다.
한편 미국 컬럼비아대학교 컴퓨터과학 캐시 맥키언(Kathy McKeown) 교수는 오픈AI가 GPT-4 개발 과정에서 유해한 답변을 방지하는 데 집중했을 가능성을 제기했다. 이러한 안전 우선주의 접근 방식이 다른 기능을 희생시켰을 수 있다는 것이다. 예를 들어 허용되는 발언에 대한 새로운 제약 조건을 도입해 부적절한 정보 공유를 막으려는 시도가 AI 모델의 소수 식별 능력 저하로 이어졌을 수 있다. 또한 파인튜닝 과정에서 낮은 품질의 학습 데이터가 사용되어 특정 수학적 주제에 대한 응답 능력이 떨어졌을 수도 있다. 즉 GPT-4의 성능 저하는 안전성을 강화하는 과정에서 의도치 않게 발생한 부작용일 수 있다는 것이 맥키언 교수의 분석이다.
독립적인 추론 능력이 없는 것이 주원인
프린스턴대학교 컴퓨터과학 박사 과정생 사야시 카푸어(Sayash Kapoor)는 GPT-4의 소수 식별 능력이 3월과 6월 사이에 큰 변화가 없었다고 주장하며, 이는 LLM이 독립적인 추론 능력이 없다는 증거라고 분석했다. 카푸어는 GPT-4가 텍스트 문자열을 확률적으로 생성하도록 설계되었기 때문에 문제의 논리를 이해하지 못하고, 단순히 학습 데이터에서 파악한 패턴에 따라 답변을 제공한다고 설명했다. 그는 파인튜닝 과정에서 사용된 데이터의 특성으로 인해 GPT-4가 3월 이후 더 적은 소수와 더 많은 합성수에 노출되었고, 이로 인해 소수 여부에 대한 기본 답변이 “예”에서 “아니오”로 변경되었을 가능성을 제기했다. 이는 저우 교수의 실험에서 관찰된 6월 GPT-4와 GPT-3.5의 기본 응답 패턴과도 일치하는 결과다. 결론적으로 카푸어는 GPT가 실제로 소수 여부를 계산하는 것이 아니라 학습 데이터에서 얻은 확률적 추정에 기반해 가장 가능성이 높은 답변을 제공한다고 주장했다.
인공신경망의 학습 방식이 인간의 나쁜 정신 습관 형성과 유사한지에 대한 질문에, 사야시 카푸어는 이러한 비유는 적절하지 않다고 답했다. 그는 인공신경망이 비정상적인 사고 패턴을 학습할 수는 있지만, 그 이면에는 논리가 없다고 재차 강조했다. 카푸어는 인간의 사고는 세상을 이해하고 맥락화하는 과정에서 틀에 박힌 사고에 빠질 수 있지만, AI는 맥락이나 독립적인 이해 능력이 없기 때문에 인간의 심리 작용과는 근본적으로 다르다고 설명했다. 그는 “LLM은 단어 간 관계를 정의하는 방대한 데이터를 학습할 뿐, 실제 추론을 수행하는 것이 아니라 추론을 모방하는 것”이라고 지적하며, 인공신경망과 인간의 사고 방식을 동일시하는 것은 오류라고 덧붙였다.
이번 GPT 성능 연구를 진행한 스탠퍼드 연구진은 LLM의 장기적인 성능 검증 계획을 밝히며, LLM을 업무에 활용하는 기관과 기업들도 유사한 검증 시스템 구축을 권고했다. 또한 연구의 투명성을 위해 실험 데이터와 소스 코드를 모두 공개했다.
*편집진: 영어 원문의 출처는 사이언티픽 아메리칸(Scientific American)으로 본지의 편집 방향과 일치하지 않을 수도 있습니다.