[해외 DS] AI 챗봇의 불가피한 환각 문제, 사실 확인 시스템과 맞춤형 AI 모델 개발로 대응해야
AI 환각, 모델은 현실과 일치하지 않는 응답을 생성할 수 있어
기술적 문제, 개발 방식, 기대치 차이 등이 원인
사실 확인 시스템 개발 및 전문화된 시스템 구축 등이 방법
[해외DS]는 해외 유수의 데이터 사이언스 전문지들에서 전하는 업계 전문가들의 의견을 담았습니다. 저희 데이터 사이언스 경영 연구소(GIAI R&D Korea)에서 콘텐츠 제휴가 진행 중입니다.
생성형 AI 모델이 현실과 일치하지 않는 응답을 생성하는 경우를 가리키는 용어가 있다. 바로 ‘환각’이다.
지난여름 뉴욕의 한 로펌에서 변호사가 개인 상해 사건의 서류 초안을 작성하는 데 챗GPT를 사용했다. 이에 연방 판사가 5,000달러의 벌금을 부과했는데, 해당 문서에는 개인 상해 소송의 판례를 확립하기 위해 완전히 조작된 과거 사례 6건 이상이 포함되는 등 허위 사실로 가득 차 있었기 때문이다. 챗GPT만의 문제는 아닌 것이 스탠퍼드대학교와 예일대학교의 연구원들은 최근 세 가지 유명 대규모언어모델(LLM)에 관한 연구를 통해 AI가 생성한 법률 결과물 전반에 걸쳐 유사한 오류가 만연해 있다는 사실을 발견했다.
AI 환각, 기술적 문제 vs 인식의 문제
환각은 보통 AI의 기술적 문제로 취급되어 개발자가 열심히 노력하면 결국 해결할 수 있는 문제로 인식되고 있다. 그러나 많은 머신러닝 전문가들은 환각이 개발되고 학습된 대로, 즉 사용자의 프롬프트에 어떻게든 반응하도록 작동하기 때문에 해결할 수 있는 문제라고 생각하지 않는다. 일부 AI 연구자들에 따르면 진짜 문제는 이러한 모델이 무엇이고 어떻게 사용하기로 했는지에 대한 우리의 집단적 인식에 있다고 한다. 그리고 환각을 완화하기 위해서는 생성형 AI 도구와 챗봇이 사실 확인 시스템의 관리 감독을 받아야 한다고 연구자들은 강조했다.
AI 환각과 관련된 많은 갈등은 마케팅과 과대광고에 뿌리를 두고 있다. 기술 기업들은 인공지능을 무수한 문제를 해결하거나 사람의 업무를 대체할 수 있는 디지털 ‘만능 해결사’로 묘사해 왔다. 하지만 사실에 입각한 정보를 얻기 위해 챗봇에 의존하는 사람과 기업이 늘어나면서 챗봇의 조작 경향은 더욱 뚜렷해지고 혼란을 일으키고 있다. 예를 들어 의료용 챗봇은 사용자에게 부정확하고 잠재적으로 해로울 수 있는 의료 조언을 제공하고, 언론 매체는 부정확한 금융 정보를 포함한 AI 생성 기사를 게재하며, AI 인터페이스를 갖춘 검색 엔진은 가짜 인용을 만들어 냈다.
물론 AI 챗봇은 잘못된 정보를 생성하기 위해 만들어지지 않았다. 다만, 순수하게 정확도만을 위해 설계된 것이 아닐 뿐이다. 실제로 많은 기술 기업이 약간의 정확도를 포기하는 대신, 어떤 질문에도 인간과 같이 유창한 답변을 내뱉는 챗봇을 만들기 위해 노력했다. 그 결과 정보의 정확성보다는 생성 그 자체에 치우쳐진 챗봇이 시장의 주를 이뤘다. 그렇다면 반대로 정확성을 강조한 모델을 개발하면 문제가 해결될까? 이에 “현실적으로 정확성을 보장할 방법은 없다”고 미국 애리조나주립대학교에서 인공지능을 연구하는 수바라오 캄밤파티(Subbarao Kambhampati) 컴퓨터과학 교수는 꼬집었다. 컴퓨터로 생성된 모든 “창의성은 어느 정도 환각”이라고 그는 덧붙였다.
모델의 구조적 한계와 사실 데이터 확대의 한계
지난 1월 싱가포르 국립대학교의 머신러닝 연구원 3명은 LLM에서 환각이 불가피하다는 증거를 제시했다. 이 증명은 칸토어의 대각선 논법과 같은 학습 이론의 고전적인 결과를 적용하여 LLM이 계산 가능한 모든 함수를 학습할 수 없음을 증명한다. 즉 이들은 모델의 능력을 넘어선 문제가 항상 존재한다는 것을 보여줬다. 이 연구의 저자들은 “모든 LLM에는 학습할 수 없는 현실 세계의 일부가 있어 필연적으로 환각을 일으킬 수밖에 없다”고 강조했다.
하지만 특정 어려운 문제가 항상 컴퓨터를 난처하게 만든다는 주장은 너무 광범위하다. 특정 혼란이 발생하는 이유에 대해서 높은 통찰력을 제공하지 못할뿐더러, 단순한 요청에도 착각이 난무한 점을 미루어 보아 LLM의 환각 문제는 연구자들이 증명한 것보다 더 자주 일어나는 현상이다.
미국 일리노이대학교 어바나샴페인 캠퍼스에서 자연어·음성 처리를 연구하는 딜렉 하카니-투르(Dilek Hakkani-Tür) 컴퓨터과학 교수는 AI 챗봇이 일상적으로 환각을 일으키는 주된 이유 중 하나는 그 근본적인 구조에서 비롯된다고 말했다. LLM은 기본적으로 자동 완성 도구로, 텍스트 문자열과 같은 시퀀스에서 다음에 나올 내용을 예측하도록 학습된다. 모델의 학습 데이터에 특정 주제에 대한 정보가 많이 포함되어 있으면 정확한 결과를 산출할 수 있지만, LLM은 학습 데이터에 포함되지 않은 주제에 대해서도 항상 답을 도출하도록 구축됐다. 하카니-투르 교수는 바로 이 때문에 오류가 발생할 가능성이 높아진다고 설명했다.
사실에 근거한 학습 데이터를 더 많이 추가하는 것이 확실한 해결책처럼 보일 수 있다. 하지만 LLM이 보유할 수 있는 정보의 양에는 현실적·물리적 한계가 있다. 또한 이러한 모델은 이미 컴퓨팅 용량의 한계에서 작동하기 때문에 LLM을 더 크게 만들어 환각을 피하려고 하면 더 느린 모델을 만들게 된다. 운영 비용과 환경 부담의 증가는 덤이다.
유창함과 정확도의 절충, 별도의 사실 확인 모델 필요해
한편 환각의 또 다른 원인은 ‘캘리브레이션’이라고 미국 조지아 공과대학교의 산토시 벰팔라(Santosh Vempala) 컴퓨터과학 교수는 지적했다. 캘리브레이션이란 학습 데이터의 통계와 일치하거나 보다 사실적으로 사람처럼 들리는 문구를 생성하기 위해 특정 결과물을 다른 결과물보다 선호하도록 LLM을 보정하는 과정이다. 정확도가 이러한 보정 작업과 상충하는 경우가 있기 때문에 보정된 언어 모델은 환각을 일으킬 가능성이 높다. 보정을 줄이면 사실성을 높일 수 있지만, 동시에 LLM으로 생성된 텍스트가 부자연스러워진다. 보정되지 않은 모델은 사람보다 더 자주 단어나 문구를 반복하는 경향이 있기 때문이다. 문제는 사용자가 AI 챗봇이 사실적이면서도 유창할 것으로 기대한다는 점이다.
LLM이 완전히 정확한 결과물을 만들어내지 못할 수도 있다는 사실을 인정한다면 이러한 생성 도구를 언제, 어디서, 어떻게 배포할지 재고해야 한다. 생성형 AI는 훌륭한 아이디어 창출 도구이기는 하지만 문제 해결 도구는 아니다. 현재 업계에서는 사실 확인을 수행하는 다른 자동화된 프로그램이 필요하다는 공감대가 형성되기 시작했다. LLM의 환각률을 추적하는 AI 플랫폼 벡타라(Vectara)가 바로 그 작업을 하고 있다. 아마르 아와달라(Amr Awadallah) 벡타라 대표는 환각을 감지하는 것이 환각을 해결할 수 있는 첫 번째 단계라며, 미래의 환각 감지기는 오류를 수정하는 자동화된 AI 편집기와 결합할 수 있다고 바라봤다.
하카니-투르 교수도 정확도를 높이기 위해 전문 언어 모델과 기업 문서, 검증된 제품 리뷰, 의학 문헌 또는 위키피디아 게시물 등 비교적 신뢰할 수 있는 정보 소스를 결합하는 사실에 기반한 시스템 개발을 연구하고 있다. 그녀는 모든 문제점이 해결되면 이러한 근거 기반 네트워크가 언젠가 의료 접근성 및 교육 형평성 같은 분야에 유용한 도구가 될 수 있기를 바란다며, “언어 모델이 우리의 삶을 더 나은, 더 생산적이고 더 공정하게 만드는 도구로서 강점을 가지고 있다고 생각한다”고 그녀는 전했다.
전문화된 사실 확인 시스템이 LLM 결과물을 검증하는 미래에는 특정 상황에 맞게 설계된 AI 도구가 오늘날의 다목적 모델을 부분적으로 대체할 것이다. 일반 챗봇은 사용자가 묻는 모든 질문에 응답할 수 있지만 정확도를 보장할 수 없어 그 수요는 점차 감소하고, 고객 서비스 챗봇, 뉴스 요약 서비스, 법률 자문 등 각 애플리케이션의 유용성을 구현할 수 있는 맞춤형 아키텍처를 기반으로 설계된 AI 텍스트 생성기의 수요는 확대될 전망이다.
영어 원문 기사는 사이언티픽 아메리칸에 게재되었습니다.