불 붙은 구글과 네이버의 생성형 AI 대결, 과연 승자는?

구글의 “바드 익스텐션” vs 네이버의 “큐:” 두 AI 챗봇 모두 여전히 ‘환각’ 문제 나타나 네이버 큐:, ‘안방’ 국내 검색 시장 점유율 지켜낼 수 있을까

160X600_GIAI_AIDSNote
GoogleNaver_GIAI_202309
GoogleNaver_GIAI_202309

구글과 네이버가 같은 날 한층 고도화된 대규모언어모델(LLM) 기반 인공지능(AI) 검색 서비스를 내놨다. 업계에선 이번 출시된 구글과 네이버의 AI 챗봇인 ‘바드 익스텐션’과 ‘큐:’가 국내 검색 시장 점유율을 두고 치열한 각축전을 벌일 것으로 예상하고 있다. 이런 가운데 일각에서는 네이버의 큐:가 경쟁 우위를 가질 것으로 보는 견해도 나온다. 오랫동안 ‘검색 업계 1위’를 지켰던 네이버가 그간 쌓아왔던 검색 데이터를 자사 AI 모델에 반영했다는 점에서 한글 특화 서비스에 한정해선 해외 기업인 구글의 바드보다 두각을 드러낼 것이라는 분석이다.

한편 이번 발표된 바드 익스텐션과 큐: 모두 여전히 ‘AI 환각’이 나타나고 있는 것으로 확인됐다. AI 환각 현상은 생성형 AI의 모델의 구조적인 특성에서 비롯된 만큼, 이번에 출시된 구글과 네이버의 LLM마저도 해당 문제를 해결하긴 어려웠다는 게 업계 전문가들의 공통 견해다.

구글과 네이버의 LLM 대결

구글은 19일(현지시간) 기존 AI 챗봇 바드에 ‘확장(Extension)’ 등 기능을 업데이트해 시장에 선보였다. 확장은 바드가 맵·쇼핑·여행·유튜브 등 구글의 여타 서비스에서 제공되는 실시간 정보와 연동해 질답하는 서비스다. 바드의 답변을 실시간 검색 결과와 교차 검증해 정확도를 체크할 수도 있다. 바드 답변 하단 ‘G’ 버튼을 누르면 정확한 답변은 초록색으로, 부정확한 답변은 주황색으로 표시된다. 다만 아직 한국어로 해당 서비스를 이용할 수는 없는 상태다. 이와 관련해 구글 관계자는 “영어를 시작으로 추후 총 40개 언어로 서비스를 제공할 계획”이라며 “향후 구글 워크스페이스나 드라이브 등 사용자 정보와 실시간 정보를 연동해 답변을 제공할 전망”이라고 밝혔다.

네이버도 20일부터 생성형 AI 검색 ‘큐:’의 비공개 베타 서비스를 시작했다. 큐:는 하이버클로바X를 네이버 검색에 특화한 LLM인 ‘오션(OCEAN)’을 백본으로 활용하는 한편, 네이버의 쇼핑·페이·플레이스 등 데이터를 함께 활용해 답변에 접목한다. 시장에선 큐:를 통해 네이버 검색이 추구하는 다양성과 연결의 가치가 한 차원 더 높아질 것으로 보고 있다. 특히 큐:는 여행 계획 수립, 상품 비교, 쇼핑·로컬 정보 답변 등에 그치는 게 아니라 추가 탐색 없이 서비스 예약이나 구매 등을 곧바로 수행할 수 있다.

업계에선 네이버가 이번 큐: 서비스 출시를 통해, 최근 흔들리고 있는 국내 검색 시장 왕좌를 다시 가져올 수 있을지 주목하고 있다. 웹사이트 분석업체 인터넷트렌드가 20일 공개한 자료에 따르면, 네이버는 지난 2018년까지 70%대 검색 시장 점유율을 유지하다 2019년 들어 60%대로 하락했다. 그러다 올해부터 60% 점유율도 무너지면서 지난 18일 기준 57.4%까지 추락한 상황이다. 반면 이 기간 구글의 국내 검색 시장 점유율은 7%대에서 30%대까지 상승한 모습이다. 지난 18일 기준 구글의 점유율은 32.5%로, 전년 동기(30.64%) 대비 1.86%포인트 상승하면서 네이버의 검색 시장 입지를 좁히고 있는 모양새다. 이는 구글이 한국에서 안드로이드 OS 독과점과 유튜브 서비스 등으로 모바일 검색 시장을 장악한 결과다.

다시 말해 네이버 입장에선 당장 검색 시장에서 ‘급한 불’을 끄기 위해 큐:를 내놓은 것으로 풀이된다. 네이버의 기존 LLM인 하이클로바X가 문서 작성 등 다양한 영역에서 창작도구로의 역할을 담당한다면, 큐:는 포털에서 검색 편의를 높임으로써 구글에 맞서 ‘검색 안방 사수’에 나선 것이라는 게 이번 구글과 네이버의 경쟁 구도를 바라보는 업계 전문가들의 공통 시각이다.

네이버의 ‘큐:’, 한글 특화 서비스 측면에서 강점 보일 듯

구글의 바드는 LLM으로 팜2(PaLM)를 채택하고 있다. 팜2의 매개변수는 5,300억 개로, 오픈AI의 챗GPT에 탑재된 GPT-3.5(매개변수 약 1,750억 개)보다 3배 이상 거대하다. 특히 팜2는 기존 구글이 2년 전 출시한 LLM인 람다(LamDA)보다 5배 많은 7,800억 개의 토큰으로 학습됐다. 토큰은 AI가 인식하는 단어의 단위로, LLM이 다음에 나타날 단어를 예측하도록 학습시키는 요소를 의미한다. 오픈AI가 마지막으로 챗GPT의 학습 규모를 공개한 GPT-3의 경우, 3,000억 개의 토큰을 학습한 것으로 알려졌다. 데이터 학습 면에서 보면 팜2는 100개가 넘는 언어와 수학, 문학, 과학, 프로그래밍 등의 다양한 영역에서 교육됐으며 선별적 데이터를 사용했다.

반면 네이버의 큐:는 하이퍼클로바X를 사용한다. 네이버가 자체 개발한 초거대 AI인 하이퍼클로바X는 2021년 당사가 발표한 하이퍼클로바의 후속작이다. 파라미터는 2,040억 개 규모로, 네이버는 오픈AI의 챗GPT-3보다 한국어 데이터를 6,500배 더 많이 학습한 것을 강점으로 내세웠다. 기존 하이퍼클로바와 달리, 하이퍼클로바X는 소비자를 넘어 기업간거래(B2B)로 이용층을 확대한 것도 특징으로 꼽힌다.

특히 업계에선 네이버의 큐:가 무엇보다도 한글 특화 서비스 측면에서 구글의 바드보다 경쟁 우위를 보일 것으로 보고 있다. 큐:는 네이버가 지난 20년간 축적한 사용자의 검색 데이터와 함께 자사의 서비스 생태계를 기반으로 모델링했다. 쉽게 말해 ‘검색 업계 1위’인 네이버가 축적한 노하우가 고스란히 모델에 녹아들었다는 의미다. 한국의 정치·사회·문화 요소를 그대로 반영한 데이터를 학습한 만큼, 사용자의 질문에 보다 정확한 답변을 보여줄 것이라는 기대가 업계에선 모아지고 있다. 여기에 네이버가 한국 상황에 맞게 블로그, 지식인, 카페 등 개인의 경험과 지식을 공유하는 ‘소비자제작 콘텐츠(UGC)’에 특화됐다는 점도 위 기대에 힘을 실어주는 대목이다.

NaverAI_GIAI_202309
출처=네이버

환각 문제는 여전히 고질병으로

다만 구글과 네이버의 두 AI 챗봇 역시 그간 LLM의 가장 큰 단점으로 지적되던 ‘환각(Hallucination)’ 문제가 고스란히 나타나고 있는 형국이다. AI에 있어 환각이란 AI가 사실이 아닌 내용을 마치 사실처럼 꾸며서 답변하는 것으로, 잘못된 데이터를 학습하거나 주어진 단어를 기반으로 다음에 위치할 단어를 확률적으로 예측하는 생성형 AI의 특성상 불가피하게 나타나는 현상이다. 실제로 현재 바드 확장 버전과 큐:의 베타버전을 활용하는 사용자들 사이에선 해당 AI 챗봇들이 특정 질문에 불충분한 대답을 내놓거나, 심지어 잘못된 정보로 유저들을 호도한다며 적잖은 불만이 터져나오고 있는 상황이다.

글과 소설을 생성하기 위한 생성형 모델은 크게 두 번의 학습을 통해 만들어진다. 먼저 모델에 ‘지식’을 학습시키고, 그다음으로는 질문에 적절한 답을 하도록 학습시킨다. 그런데 생성형 언어 모델이 지식을 학습하는 과정에서 환각 문제가 발생하게 된다. 생성형 AI는 다양한 데이터를 학습함으로써 앞의 내용을 기반으로 다음 단어를 예측한다. 이때 일반적인 머신러닝의 예측 문제의 경우 가장 확률이 높은 것을 선택한다. 즉 앞의 내용이 동일한 경우 인공지능의 모델의 예측은 변하지 않는다. 반면 생성형 모델은 때때로 새로운 문장을 생성할 수 있게 하기 위해 앞의 문장에 대한 뒷 토큰을 확률적으로 선택한다.

가령 “나는 물을 ___” 라는 문장에서 마지막 빈칸에 ‘마신다’가 50%, ‘먹는다’가 30%, ‘냉장고’가 5%의 확률이라고 해보자. 일반적인 인공지능 모델은 가장 확률이 높은 ‘마신다’를 선택하지만, 생성형 AI는 ‘마신다’를 100번에 58회(0.5/0.85=0.58, 58%), ‘먹는다’를 100번에 35회(0.3/0.85=0.35, 35%), ‘냉장고’를 100번에 6회(0.05/0.85=0.06, 6%) 정도 선택한다. 즉 생성형 AI의 확률적 선택으로 인해 문장과 관련이 없는 ‘냉장고’가 선택되는 환각 문제가 발생하는 것이다.

이같은 AI 환각 문제로 인해 구글의 모기업 알파벳은 주가가 지난 2월 하루 새 8% 가까이 급락하기도 했다. 프랑스 파리에서 개최된 콘퍼런스 자리에서 바드에게 ‘제임스 웹 우주망원경’에 대해 질문하자, “태양계 밖의 행성을 처음 찍는 데 사용됐다”는 잘못된 대답을 내놨기 때문이다. 이에 구글의 미래 AI 산업 경쟁력에 대한 의구심이 투자자들 사이에서 증폭되면서 한때 약 200조원 넘는 시가총액이 사라졌다.

생성형 AI 관련 서비스를 출시하는 빅테크 기업들도 이같은 환각 문제를 극복하기 위해 여러 대안을 내놓고 있으나, 현재까지 이렇다 할 해결책은 나오지 않은 상태다. 이와 관련해 순다르 피차이 구글 CEO는 “대규모 언어 모델들은 아직 한계가 있는 초기 기술”이라며 “환각 문제는 앞으로도 관련 서비스를 확장해 나가며 꾸준히 극복해야 할 문제”라고 밝혔다.