[해외 DS] 챗봇으로 챗봇의 환각 잡는다, ‘의미론적 엔트로피’ 활용한 새로운 검증법 공개

160X600_GIAI_AIDSNote
英 옥스퍼드대학 연구진, 챗봇을 이용해 챗봇의 환각을 잡아내는 연구 진행
'의미론적 엔트로피' 계산법을 도입해 AI 답변의 일관성을 측정하고 환각 발생 여부를 판단
환각 감지 정확도는 향상됐으나, 추가적인 에너지 소비와 정보 부족 상황에서의 환각 발생 가능성 등 해결해야 할 과제 남아

[해외DS]는 해외 유수의 데이터 사이언스 전문지들에서 전하는 업계 전문가들의 의견을 담았습니다. 글로벌AI협회(GIAI)에서 번역본에 대해 콘텐츠 제휴가 진행 중입니다.


Can One Chatbot Catch Anothers Lies ScientificAmerican 20240723
사진=Scientific American

최근 챗GPT와 같은 인공지능 시스템에 에펠탑의 위치를 물으면 대부분 “파리”라고 정확하게 답변한다. 그러나 같은 질문을 반복하면 “로마”라는 틀린 답변을 내놓을 수도 있다. 이러한 오류는 사소해 보일 수 있지만, 의료, 금융과 같은 민감한 분야에서는 위험한 결과를 초래할 수도 있다.

생성형 AI의 심각한 문제인 ‘환각(hallucination)’, 현실과 맞지 않는 내용을 생성하는 현상에 대해 영국 옥스퍼드대학교 AI 연구원 안드레아스 키르슈(Andreas Kirsch)는 “AI 언어 모델은 진실과 거짓을 구분하지 못한다”고 지적하며, 이 때문에 AI 챗봇이 정확성과 상관없이 모든 주장을 자신 있게 말하는 경향이 있다고 설명했다.

AI 모델의 일관성 검증, ‘작화증’ 집중 분석

환각은 해결하기 어려운 문제로 남아있지만, 전문가들은 챗GPT와 같은 대규모 언어 모델(Large Language Model, 이하 LLM)에서 이를 감지하는 방법을 모색하고 있다. 최근에는 다른 LLM을 통해 LLM의 답변을 검증하고 일관성과 불확실성 수준을 평가해 오류를 찾아내는 것을 목표로 한 연구가 진행 중이다. 옥스퍼드대학교의 박사 과정 학생이자 이번 연구의 저자인 얀닉 코센(Jannik Kossen)은 이 방법을 “특정 인물이 일관성 없는 이야기를 하는 경향을 파악하는 것”에 비유했다. AI 시스템끼리 서로 질문하고 답하는 방식은 새로운 개념은 아니지만, 이번 연구는 기존의 환각 탐지 수준을 뛰어넘는 성과를 보여주고 있다.

연구진은 “임의적이고 부정확한 진술”을 하는 ‘작화증(Confabulation)’이라는 형태의 LLM 환각에 초점을 맞췄다. 잘못된 학습 데이터나 추론 실패로 인해 발생할 수 있는 다른 유형의 AI 오류와 달리, 작화증은 모델 생성 과정에서 내제된 무작위성에서 비롯된다. 그러나 챗봇을 사용해 작화증을 감지하는 것은 까다로운 일이다. 호주 RMIT 대학교의 컴퓨팅 기술학장 카린 버스퍼(Karin Verspoor)는 같은 것을 여러 가지 다른 방식으로 정확하게 말할 수 있기 때문에 컴퓨터가 거짓말을 탐지하는 것은 어려운 일이라고 설명했다.

이번 연구는 AI에 같은 질문을 여러 번 던져 다양한 답변을 얻은 뒤, 이를 다른 LLM을 통해 의미별로 분류하는 방식으로 작화증 발생 시점을 파악했다. 예를 들어 “존은 차를 몰고 가게로 갔다”와 “존은 자신의 차를 타고 가게에 갔다”는 같은 의미로 묶인다. 또한 연구팀은 ‘의미론적 엔트로피(semantic entropy’라는 새로운 개념을 도입해 AI가 생성한 답변의 일관성을 측정했다. AI 모델이 생성한 답변들이 비슷한 의미를 가질수록 의미론적 엔트로피는 낮아진다. 이는 모델이 해당 질문에 대해 높은 확신을 가지고 있거나, 여러 답변 간에 높은 합의가 이루어졌음을 의미한다. 반대로 답변들의 의미가 서로 크게 다를 경우 의미론적 엔트로피는 높아지며, 이는 모델이 불확실성을 가지고 있거나 잘못된 정보(작화증)를 생성할 가능성이 높다는 것을 나타낸다.

두 모델 협력으로 AI ‘환각’ 10% 감소, 비용 증가 및 정보 부족 문제는 여전

기존의 환각 방지 방법은 하나의 AI 모델만 사용했지만, 이번 연구에서는 두 개의 AI 모델을 짝지어 답변 생성과 평가를 분담했다. 이를 통해 정확한 답변과 부정확한 답변을 구별하는 정확도가 약 10% 향상되는 결과를 얻었다고 연구진은 전했다. 하지만 완벽한 해결책은 없다. 모든 기술적 진보에는 비용편익의 상충 관계가 존재하듯, AI 모델의 신뢰성을 높이기 위해서는 필연적으로 더 많은 에너지 소비가 요구된다. 여러 답변을 생성하고 평가하는 과정에서 발생하는 추가적인 계산 비용과 에너지 소비는 무시할 수 없는 문제다. 이에 대해 옥스퍼드대의 키르슈 연구원은 이 문제에 대해 비용과 효과 사이의 균형을 고려해야 한다는 점을 인정하면서도, 환각 현상을 최소화하기 위해 추가 비용을 감수할 만한 가치가 있다고 강조했다.

또 다른 문제는 AI 모델이 정확한 답변을 생성하는 데 필요한 데이터에 접근할 수 없는 상황에서 발생한다. 이러한 경우 AI는 가장 그럴듯한 추측을 기반으로 답변을 생성하게 되는데, 이 과정에서 환각이 불가피하게 발생할 수 있다. 예를 들어 최신 연구 논문을 요약하도록 요청받은 AI 모델이 해당 논문에 접근할 수 없다면, 실제 내용과는 다른 조작된 정보를 제공할 수 있다는 것이다. 이렇듯 이번 연구는 작화증 감지를 위한 새로운 방법을 제시했지만, AI 환각 문제를 완전히 해결하지는 못한다. RMIT 대학교의 버스퍼 교수는 “이 연구는 AI 환각 문제의 일부만 다루고 있다”며, “AI 모델을 어느 정도 신뢰하되, 한계를 인지해야 한다”고 지적했다.

결론적으로 AI 환각 문제는 여전히 해결해야 할 과제가 많지만, 이번 연구는 문제 해결을 위한 새로운 방향을 제시했다는 점에서 큰 의미를 지닌다고 평가받고 있다. 또한 앞으로 AI 기술이 발전하고 데이터 접근성이 향상됨에 따라 AI 환각 문제는 점차 개선될 것으로 기대되며, 그 과정에서 발생하는 비용과 편익의 균형, 정보 부족 상황에서의 환각 발생 가능성 등 다양한 문제를 해결하기 위한 지속적인 연구와 노력이 이뤄질 것으로 전망된다. 물론 사용자 스스로 AI 모델의 한계를 인지하고 정보를 비판적으로 수용하는 자세를 갖추는 것 역시 중요하다.

*편집진: 영어 원문의 출처는 사이언티픽 아메리칸(Scientific American)으로 본지의 편집 방향과 일치하지 않을 수도 있습니다.