OpenAI, GPT-4 발표 예정, AI낙관론 속에도 현실은 아직 초보적인 단계

OpenAI, 개발중인 GPT-4의 튜링테스트 통과 간접적으로 밝혀 기존 GPT-3의 확대 서비스보다 효율화에 주목하는 단계 현실적으로 AI기업들의 기술 재평가 속속 나오고 있어, AI낙관론 금물

160X600_GIAI_AIDSNote

글로벌 인공지능 업계를 선도하는 조직 중 한 곳인 OpenAI가 차세대 AI 모델인 GPT-4의 튜링테스트 통과 소식을 알렸다. 튜링 테스트는 인간의 것과 동등하거나 구별할 수 없는 지능적인 행동을 보여주는 기계의 능력에 대한 테스트다. 1950년 당시, 튜링은 인간 평가자가 인간과 같은 반응을 일으키도록 설계된 기계 사이의 자연 언어 대화를 판단할 것을 제안했다. 기계인 것을 못 알아채면 통과하는 방식이다.

샘 알트먼 오픈AI 최고경영책임자(CEO)는 관련 뉴스가 나온 직후 자신의 트위터 계정에 튜링테스트 통과가 그렇게 대단한 업적이 아니라는 투의 ‘밈(Meme)’을 업로드하기도 했다.

<출처=샘 알트먼 트위터>

GPT-4 무엇이 달라졌을까?

실제로 튜링테스트를 통과했다는 공식적인 보도가 나오지는 않은 가운데, 상당히 높은 수준의 자연어 처리가 이뤄졌음을 짐작할 수는 있는 대목이라는 것이 AI업계의 기대치다. 실제로도 GPT-4의 목표는 단순히 튜링테스트에서 인간 화자와의 구분을 속이는 것이 목표가 아니었다.

GPT는 일론 머스크가 설립한 AI 연구소 오픈AI가 만든 자연어처리(NLP) 모델이다. 여러 종류의 텍스트 데이터들을 토대로 적절한 문장을 만들어 내는 게 목표다. 오픈AI는 2018년 GPT-1을 처음 세상에 선보인 데 이어 2019년 GPT-2, 2020년 GPT-3가 등장했다.

각 버전별로 가장 두드러진 차이는 입력되는 매개변수와 실제 활용된 데이터의 양에 달려있다. 사실상 컴퓨터의 하드웨어 성능 향상을 최대한 활용하는 방식인 것이다. 첫 모델인 GPT-1은 1억1,700만개, GPT-2는 15억개, GPT-3는 1,750억개의 매개변수를 입력했다. 매개변수의 폭증으로 계산비용은 더 증가했지만, 하드웨어 성능이 개선되고 계산 상의 도전을 공학적으로 극복하면서 더 많은 계산을 담을 수 있는 것이다.

현재까지의 보도에 따르면 GPT-4는 기존 방식대로 매개변수의 폭증을 따르기보다 계산의 효율화에 초점을 더 맞춘 것으로 알려졌다. 지난해 알트먼 CEO는 AC10 온라인 미팅 질의응답 세션에서 GPT-4와 관련해 “GPT-3와 비교해 파라미터는 큰 차이가 없을 것”이라며 “컴퓨팅 리소스를 얼마나 더 효율적으로 활용할 수 있느냐에 초점을 맞추고 있다”고 말했다.

지난 2020년부터 하드웨어적으로 성능의 대단한 증폭이 없었기도 했고, 이미 계산에 하드웨어 활용을 하는 부분은 정점에 다다랐다는 것이 AI업계 전문가 중 한 사람인 전 스탠포드 교수 앤드류 응(Andrew Ng)의 발언이다. 앤드류 응 교수는 지난 2022년 5월, GPT-4와 관련해 계산 속도의 증가는 양자 컴퓨터 등의 발전이 있기 전까지는 한계가 있는 상태고, 현실적으로 가장 효과적인 개선책은 데이터 구조의 변경이라고 밝힌 바 있다.

GPT-4로 AI 서비스가 크게 개선될 수 있을까?

각종 기대가 난무하는 가운데, 전문가들은 GPT-4가 출시된다고해도 ‘챗봇’에만 일부 쓰일 수 있을 뿐, 그 외 다른 분야의 AI 기술이 발전되기는 어려울 것이라는 주장을 내놓는다. 앤드류 응 교수도 지난 5월의 기고에서 모든 곳에 적용될 수 있는 ‘일반AI’의 출시는 현실적으로 어렵다는 설명을 내놓은 바 있다. 챗봇에 쓰이는 알고리즘이 유사한 플랫폼에 응용될 여지는 있으나, 역시 ‘데이터 구조의 변경’을 거쳐야하는 만큼, 한계가 있을 수 밖에 없다는 것이다.

이어, 현재 GPT-3도 상용화에 크게 활용되지 않는 점도 지적된다. 업계에서 외부 공개된 GPT-2와 GPT-3중 실질적으로 활용되고 있는 것은 GPT-2다. 비용의 차이가 있는 부분도 있지만, 한국어 챗봇을 만들경우 한국어 데이터가 부족해 GPT-3에서는 실질적으로 큰 이득을 보기 어렵기 때문이다. 단순히 명령을 말로 꺼내는 것만으로 인식해서 문장을 만들어준다는 것이 GPT-3의 최대 장점이었으나, 상용화와는 다소 거리가 있다는 것이 업계의 지적이다.

비용 문제도 상용화에 걸림돌이다. GPT-3을 이용한 챗봇 서비스를 제작한 한 업체는 30분 사용에 10만원 정도의 비용이 나왔다고 지적했다. 사내 활용이라 이용자가 적었음에도 불구하고 24시간 서비스에 500만원 정도의 비용이 든다는 점을 감안할 때, 대부분의 개발자들이 챗봇 개발에 연구 비용을 들이지 않고 GPT-2의 오픈 소스를 그대로 가져오는 것이 현실적인 선택이라는 것이다.

애플카 외부 공개 이미지 <출처=애플>

향후 인공지능 업계의 발전 전망도 그리 밝지 않아

스타트업 업계가 경기침체로 자금 마련에 어려움을 겪는 가운데, 인공지능 업계도 기술적 한계를 인식하며 여러 문제가 대두되는 상태다.

지난 5월의 기고에서 앤드류 응 교수는 ‘일반AI’가 모든 것을 다 자동화할 수 있는 상황이 아니라는 점을 또 한번 역설했다. AI에 대한 맹렬한 낙관을 경계한 것이다. 애플은 지난 6일, 5단계 완전 자율주행 자동차 개발을 2026년으로 연기한다는 발표를 내놨다. 실제로 2026년까지 5단계가 아니라 4단계 반자동 자율주행차 개발도 쉽지 않다는 것이 전문가들의 견해이기도 하다.

OpenAI의 GPT-4도 챗봇으로 새로운 도전의 역사를 쓰는 것은 가능할지 모르나, 현실적으로 모든 데이터가 데이터의 구조가 제각각인만큼 자연어처리(NLP)에서 성공한 알고리즘이 다른 분야로 쉽게 전파되기는 어려울 것으로 전망된다. 단순히 모델에 투입되는 학습 비용 뿐만 아니라, 데이터 구조 변경, 각 업계별 상황에 맞는 적용 등에서 연이어 난관에 부딪힐 수 밖에 없다는 것이다.