오픈AI, 인간처럼 보고 듣고 말하는 AI 옴니모델 ‘GPT-4o’ 공개
시청각 데이터 동시 처리, 실시간 대화도 가능
텍스트·비전·오디오 아우르는 말티모달 새 지평
수학 연산 등 AGI 기능 탑재한 GPT-5 공개 예정
챗GPT의 개발사 오픈AI가 새로운 인공지능(AI) 모델을 선보였다. 사람처럼 보고 듣고 말하며 사용자와 실시간 대화를 할 수 있도록 한 것이 특징이다. 특히 사용자 편의성 측면에서 큰 진전을 이루며 텍스트와 비전, 오디오를 아우르는 멀티모달 모델의 새 지평을 열었다는 평가다. 오픈AI는 무료 챗GPT 사용자에게도 텍스트와 이미지 기능을 제공하는 등 보다 많은 이들이 이용할 수 있도록 할 계획이다.
GPT-4터보 출시 7개월 만에 ‘GPT-4o’ 공개
13일(현지시각) 오픈AI는 최신 거대언어모델(LLM)인 ‘GPT-4o(포오)’를 공개했다. 지난해 3월 GPT-4, 같은 해 11월 ‘GPT-4터보’를 출시한 지 7개월 만에 진행된 대형 업데이트다. 이날 오픈AI는 온라인 신제품 발표 행사를 열고 “더 빠르고 똑똑한 새로운 플래그십 AI모델 ‘GPT-4o’를 공개한다”며 “전 세계 모든 이용자에게 무료로 제공할 것”이라고 밝혔다. 이날 행사를 진행한 미라 무라티 오픈AI 최고기술책임자(CTO)는 “GPT-4o는 GPT-4 레벨의 지능을 더 빨리 제공하는 데 초점을 맞췄다”며 “GPT-4o의 출현으로 AI와 진정한 의미의 ‘실시간 대화’를 이어가는 시대가 열리게 됐다”고 강조했다.
오픈AI에 따르면 GPT-4o의 평균 응답 시간은 0.32초로, 0.25초가 소요되는 인간의 응답시간과 비슷하다. 특히 놀라운 점은 이런 응답 시간이 텍스트 문답이나 음성만으로 이뤄진 대화에서 측정된 것이 아니라 시청각 정보를 모두 실시간으로 처리하는 상황에서 이뤄졌다는 점이다.
이에 대해 무라티 CTO는 “GPT-4o는 텍스트·시각·청각 데이터를 넘나드는 능력을 더욱 강화했다”며 “GPT-4o는 딥러닝의 한계를 뛰어넘는 최신 단계로, 실용적인 사용성을 지향했다”고 말했다. 사람과의 대화에 견줄만한 속도로 세상을 보고, 듣고, 생각할 수 있는 AI라는 뜻이다. 실제로 오픈AI는 새로운 모델의 이름 마지막 글자인 ‘o’도 ‘옴니(Omni-,모든 것)’라는 접두사에서 따온 것으로 알려졌다.
이날 오픈AI는 실시간으로 GPT-4o의 AI 음성 비서 기능을 시연했다. 챗GPT의 음성 대화 모드를 실행해 ‘정답을 바로 알려주지 말고 수학 문제의 풀이 과정을 도와달라’고 음성으로 요청한 뒤 카메라를 실행시켜 수식을 비춰주자, AI는 바로 수식을 인식해 풀이 과정을 가이드하는 모습을 보였다. 이때 AI의 말투에서는 기계음이 느껴지지 않을 정도로 자연스러웠고 종종 감탄사와 농담을 섞기도 했다.
기존 모델은 수식 사진을 찍어 업로드하고 응답을 기다려야 하는 식이었지만 GPT-4o는 카메라 화면으로 수식을 비추기만 해도 AI가 진짜 사람처럼 이를 인식하고 원하는 방식의 답을 제공한다. 이외에도 오픈AI는 실시간 통번역, 다양한 목소리 변조, 상대방의 감정에 대한 구술, AI 간 대화 등의 기능을 선보였다.
테크 업계가 GPT-4o에 주목하는 이유는 빠르게 세상을 인지하고 응답하는 AI가 향후 셀 수 없이 다양한 서비스를 파생시킬 가능성이 높기 있기 때문이다. AI가 비서, 교사, 친구가 되는 시대가 현실화한 것이다. 실제로 샘 올트먼 오픈AI CEO(최고경영자)는 행사가 끝난 후 X(옛 트위터)에 ‘her’라는 단어를 게시하기도 했다. 영화 ‘her’는 AI 비서 사만다와 사랑에 빠진 테오도르의 이야기를 그리고 있다.
오픈AI는 GPT-4o의 AI 음성 모드도 몇 주 안에 공개할 계획이다. 또한 GPT-4o는 총 50개의 언어로 출시될 예정이다. 전 세계 모든 이용자에게 무료로 공개되는 대신 기존 유료 회원은 무료 회원보다 한 번에 입력할 수 있는 정보량이 5배 많아 처리 속도는 물론 답변의 퀄리티에도 차이가 있는 것으로 알려졌다.
지난해 말 공개한 ‘GPT-4 터보’, 진일보한 기술력 선보여
오픈AI는 GPT-4o에 이어 올 여름 챗GPT의 업그레이드 버전인 ‘GPT-5’ 출시도 앞두고 있다. 미국의 경제 매체 비즈니스인사이더에 따르면 오픈AI는 이미 일부 기업에 데모를 전달해 테스트 중인 것으로 알려졌다. 앞서 지난 2022년 12월 GPT-3.5를 공개한 오픈AI는 불과 4개월 만인 지난해 3월 GPT-4를 선보였다. 매개변수는 공개하지 않았지만 1,750억 개인 GPT-3.5보다 증가했다. 이와 함께 인식 가능한 텍스트의 길이가 단어 3,000여 개에서 2만5,000여 개로 늘어났고 명령어도 텍스트에서 이미지로 확장됐다.
GPT-4를 공개한 지 8개월 만인 지난해 11월에는 멀티모달리티 기능을 강화한 ‘GPT-4 터보’를 선보이기도 했다. GPT-4 터보는 한 번에 300여 쪽에 해당하는 최대 12만8,000토큰(단어 약 10만 개)을 프롬프트에 입력하는 것이 가능하다. 책 한 권의 내용을 통째로 프롬프트에 넣을 수 있다는 의미다. 이제까지 가장 큰 컨텍스트 창을 가진 유럽의 AI 챗봇 ‘클로드’의 최대 10만 개(약 7만5,000단어) 토큰 규모를 넘어서는 양이다.
특히 GPT-4 터보는 확장된 멀티모달 기능을 제공한다는 점에서 기존 모델과는 차별화된다. 이미지 생성 AI인 ‘달리 3(DALL-E 3)’와 연동해 이미지 생성이 가능한 것은 물론, 텍스트-음성 변환을 지원해 음성으로 답할 수 있다. 또 이미지 분석, 데이터 분석, 문서 업로드와 PDF 검색 등도 지원한다. PDF 검색은 그동안 클로드에서만 가능했던 기능이다. 이처럼 성능은 강력해졌지만, 가격은 절반 이하로 낮췄다. 개발자용 GPT-4 터보의 사용료는 입력 1,000토큰 당 0.01달러로 GPT-4의 3분의 1 수준에 불과하고, 출력의 경우 1,000토큰 당 0.03달러로 기존의 절반이다.
GPT-5 출시 임박, 범용 인공지능 위협할 수준 될까
이런 가운데 테크 업계는 한 단계 진일보한 기술력을 보여줬던 GPT-4 터보에 이어 올 여름 공개를 앞둔 GPT-5가 어떤 기능을 선보일지 주목하고 있다. 우선 성능이 비약적으로 늘어날 것으로 보인다. 언어 처리와 생성 효율성을 향상하는 정교한 아키텍처로 추론 속도가 빨라지고, 출력 품질도 우수해질 전망이다. 최근 구글의 제미나이 사태로 드러난 할루시네이션(환각)이나 편향에 대한 리스크도 기존보다 크게 줄인 것으로 알려졌다.
이와 함께 현재 텍스트와 이미지를 넘어, 비디오와 음성까지 포함하는 진정한 ‘멀티모달’ 기능을 갖출 것이라는 예측도 나오고 있다. 얼마 전 동영상 생성 AI ‘소라’ 공개 당시 무라티 CTO는 “몇 달 뒤 소라를 일반에 공개할 수 있다”고 말했는데, 이는 GPT-5 출시 시기와 맞물린다. 여기에 다국어 지원도 빼놓을 수 없다. 오픈AI는 지난해 다양한 국가의 데이터 셋을 확보하는 이니셔티브를 공개했다.
무엇보다 범용인공지능(AGI)에 대한 진전을 보여줄 것이란 기대가 높다. 아직 완벽한 AGI 구현은 어렵겠지만 GPT-5가 AGI를 개발하는 데 징검다리 역할을 할 수 있을 것으로 보고 있다. 지난해 올트먼 CEO의 오픈AI 축출 사태가 발생했을 당시, 오픈AI가 AGI 구현을 위한 프로그램을 개발하는 데 성공했다는 관측이 나왔다. ‘Q스타(Q*)’로 불리는 이 AI는 스스로 초등학교 수준의 수학 문제를 푼 것으로 전해졌다. 현재 상용화된 생성형 AI는 다음에 올 단어를 통계적으로 예측해 글을 쓰거나 언어를 번역하는 데는 능하지만, 정답이 하나뿐인 수학 문제 등을 해결하는 데는 제한이 있었다.
하지만 GPT-5에 탑재될 Q스타는 완벽한 답을 내놓는 수학적 추론이 가능한 모델로, 이는 AI가 인간의 지능과 유사한 추론 능력을 갖추게 됐음을 의미한다. 최근 올트먼 CEO도 “Q스타는 기존 언어모델의 한계를 뛰어넘을 기술로 AGI 개발을 앞당길 중요한 발견”이라며 “GPT-5가 언제 출시될지 모르겠지만 고급 추론 기능에서 한 단계 도약하는 진전을 이룰 것”이라고 강조했다. 이어 “GPT에 어떤 한계가 있는 것 아니냐는 질문에 자신 있게 “아니다”고 밝힌 바 있다.