할루시에이션 논란 휩싸인 AI 오버뷰, 구글 “서비스 개선 중”
구글 신규 서비스 'AI 오버뷰', 출시 이후 오답 행진
부랴부랴 관련 기능 개선하며 여론 진화 나선 구글
여전히 견고한 AI '할루시네이션'의 장벽
구글이 최근 발표한 새로운 인공지능(AI) 검색 서비스 ‘AI 오버뷰(개요)’의 기능 개선에 나섰다. 소비자에게 공식적으로 서비스 개선 방향을 제시하며 본격적인 ‘할루시에이션(Hallucination, 환각) 논란 진화에 착수한 것이다.
“피자엔 접착제” AI 오버뷰의 황당 답변
지난달 30일(이하 현지시간) 월스트리트저널(WSJ)에 따르면 최근 구글은 AI 오버뷰가 잘못된 답변을 제시하는 문제와 관련해 개선 사항을 적용했다고 밝혔다. 구글 검색을 총괄하는 리즈 라이드(Liz Reid) 부사장은 “사용자들과 마찬가지로 우리도 높은 기준을 갖고 있기 때문에 피드백이 있을 것으로 예상했으며, 이를 감사하고 중요하게 받아들인다”고 전했다.
구글은 지난 14일 연례 개발자 회의 ‘구글 I/O’에서 AI 오버뷰 기능을 선보인 바 있다. AI 오버뷰는 구글의 기존 검색 엔진에 생성형 AI 제미나이를 탑재해 이용자 질문에 AI가 생성한 답변과 관련 링크를 제공하는 서비스다. 구글은 텍스트뿐만 아니라 음성과 사진, 동영상으로도 검색이 가능하다는 점을 강조, 해외로의 서비스 확장을 예고하며 자신감을 드러냈다.
하지만 해당 서비스 출시 이후 각종 소셜미디어(SNS)에서는 ‘AI 오버뷰가 잘못된 답변을 내놨다’는 주장이 잇따라 제기됐다. 일례로 한 사용자가 ‘미국에 무슬림 대통령이 몇 명 있었느냐’고 질문하자, AI 오버뷰는 “미국에 무슬림 대통령이 한 명 있었고, 그는 버락 후세인 오바마”라는 오답을 제시했다. 피자에 치즈가 달라붙지 않는 상황에 대한 질문에는 “피자 소스에 접착제를 추가하라”는 답변을 내놓기도 했다.
이에 더해 AI 오버뷰는 “사람은 하루에 얼마나 많은 돌을 먹어야 하는가”라는 질문에 “UC 버클리 지질학자들에 따르면 하루에 적어도 하나의 작은 돌을 먹어야 한다”고 답했다. 한 이용자에게는 “개를 뜨거운 차에 두는 것은 항상 안전하다”는 비상식적인 답변을 제시하기도 했다. 미국의 IT 전문 매체 더버지에 따르면 구글 측은 “이런 (SNS상에서 확산한) 오답 사례는 대개 사람들이 자주 하지 않는 질문에서 나온 것”이라고 해명했다.
구글의 사태 진화
소비자들 사이에서 AI 오버뷰 기능에 대한 불신이 확산하자, 구글 측은 부랴부랴 사태 진화에 나섰다. 라이드 부사장은 “AI 오버뷰 출시 전 대대적인 테스트를 진행했지만, 수백만 명의 사람들이 이 기능을 사용해 새로운 검색을 많이 하는 것만큼 좋은 것은 없다”고 밝혔다. AI 오버뷰 기능이 아직 추가적인 학습이 필요한 ‘과도기’에 머물고 있다는 점을 강조한 발언으로 풀이된다. 아울러 그는 잘못된 결과를 생성하기 위해 고의로 부정확한 검색을 하거나, SNS 게시물 중 AI 오버뷰의 답변을 조작한 경우도 있었다고 주장했다.
이에 더해 구글은 부정확하거나 이상하다고 판단되는 오버뷰 답변에 대응하기 위해 더 나은 시스템을 구축했으며, 사용자가 생성한 콘텐츠 중 잘못된 정보가 포함된 것은 제한했다고 밝혔다. 그러면서 AI 오버뷰가 내놓은 답변 덕분에 검색 결과에 대한 사용자들의 만족도가 높아진 것으로 확인됐다고 강조했다. 앞서 더버지는 오버뷰가 여러 오답을 내놓자 구글이 이를 수동으로 정정하고 있다고 보도한 바 있다.
사실 구글의 생성형 AI가 ‘오답 논란’을 일으킨 것은 이번이 처음이 아니다. 구글이 지난 2월 자체 AI 모델 제미나이에 추가한 이미지 생성 기능도 독일 나치군과 미국 건국자를 유색인종으로 묘사하며 시장의 뭇매를 맞았다. 이후 구글은 출시 20여 일 만에 해당 서비스를 중단했고, 관련 문제 해결에 착수한 상태다.
‘할루시네이션’의 한계
구글의 AI가 맞닥뜨린 할루시네이션 문제는 현재 글로벌 AI 시장의 최대 난제로 꼽힌다. 할루시네이션은 생성형 AI 모델이 허위 정보를 생성하는 현상을 일컫는 용어다. 현재 대다수 생성형 AI는 △잘못됐거나 앞뒤가 맞지 않는 주장 △존재하지 않는 사실 △정보의 맥락을 오해한 답변 등 할루시네이션의 ‘족쇄’에 붙잡혀 있는 실정이다.
할루시네이션의 근본적인 원인으로는 불완전한 학습 데이터가 지목된다. 생성형 AI는 출시 이전 방대한 데이터를 학습하고, 이후 사용자의 질문 내용에 가장 가까운 데이터의 조각들을 선택해 조합·제시한다. 이용자가 AI 모델이 학습한 데이터에 없는 정보를 요청하거나 학습 데이터 자체에 문제가 있을 경우, 기존 학습 데이터의 조각을 ‘적당히’ 조합해 잘못된 결과를 도출할 수 있다는 의미다.
이와 관련해 전문가들은 현시점 AI를 활용한 기술은 필연적으로 할루시네이션 현상을 겪을 수밖에 없다는 분석을 내놓고 있다. 익명을 요구한 한 IT업계 전문가는 “현재 기술 수준에서 대형언어모델(LLM)은 100점짜리, 즉 완벽한 대답을 줄 수 있는 존재가 아니다”라며 “(현재의 AI 모델은) 기존 데이터들을 기반으로 80~90점짜리 ‘모범 답안’을 제시하는 것에 초점이 맞춰져 있다”고 설명했다. 이어 “구글의 AI 오버뷰는 아직 발전 중인 것으로 보인다”며 “할루시네이션을 당장 완벽히 없앨 수는 없지만, 노력을 기울여 줄일 수는 있을 것”이라고 진단했다.