30년 경력 변호사도 속았다, ‘헛소리’ 내놓는 챗GPT 어디까지 믿을 수 있을까
챗GPT로 판례 알아본 미국 변호사, 법원 청문회 회부 위기 신뢰도 낮은 챗GPT, ‘독도는 일본땅’ 주장하기도 산업별 특화 AI 나왔지만, “여전히 신뢰성 떨어져”
한 30년 경력 미국 변호사가 항공 분쟁 관련 법원 제출 서류 준비를 생성형 AI 서비스 ‘챗GPT’에 의존했다 법원 청문회에 회부될 위기에 놓였다. 챗GPT가 실제 존재하지 않는 ‘거짓 판례’를 내놓았기 때문이다. 이전부터 문제시되던 챗GPT 등 생성형 AI의 부정확성에 경종을 울리는 사건이다.
美 변호사, 챗GPT 믿었다가 ‘날벼락’
29일(현지 시각) 뉴욕타임스, CNN 등 외신 보도에 따르면, 케빈 카스텔 뉴욕 맨해튼 연방법원 판사는 내달 8일 거짓 판례가 담긴 서류를 제출한 스티븐 슈워츠 변호사에 대한 제재 문제를 논의하기 위한 청문회를 연다. 카스텔 판사는 “슈워츠 측이 근거로 제시한 판례가 최소 6건이 가짜였다”며 “이 같은 일은 법원에서 전례가 없는 상황”이라고 강조했다.
슈워츠 변호사가 변론을 맡은 사건은 2019년 엘살바도르에서 뉴욕행 아비앙카항공 여객기에 탑승했던 승객 로베르토 마타의 소송 건이었다. 마타는 여객기 탑승 중 서빙 카트에 부딪혀 무릎을 다쳤고, 이를 직원 잘못으로 돌리며 항공사를 고소했다. 항공사 측은 일반적인 항공 사건의 공소시효(2년)가 지난 뒤 제기된 소송인 만큼 법원에 기각을 요청했으나, 마타에게 선임된 슈워츠 변호사는 소송을 강행했다. 유사 판례들을 담은 10쪽 분량의 의견서도 법원에 제출했다.
그러나 아비앙카항공 측의 바트 바니노 변호사는 “슈워츠 변호사의 의견서에 담긴 중국 남방항공 사건 판례와 여기에 인용된 2008년 제11 연방고등법원의 대한항공 판결문을 도저히 찾을 수 없다”며 “의견서에 담긴 판례들이 실제 판결이 아닐 수 있다”고 의혹을 제기했다. 이에 슈워츠 변호사는 지난 25일 법원에 선처를 호소하며 판례를 구성하는 데 챗GPT의 도움을 받았단 사실을 인정했다. 슈워츠 변호사는 “법원과 항공사를 속일 의도는 절대 아니었다”며 “AI 챗봇을 한 번도 써본 적이 없어 그 콘텐츠가 가짜일 수 있단 가능성을 생각지 못했다”고 밝혔다. “챗GPT에 해당 판례들이 사실인지 검증을 요청했더니 ‘맞다’고 답했다”고 덧붙이기도 했다.
‘세종대왕 맥북 던짐 사건’ 생성한 챗GPT, 신뢰성 ‘뚝뚝’
챗GPT 등 생성형 AI의 ‘부정확성’은 이전부터 논란의 소지가 있었다. 실제 챗GPT는 ‘독도는 누구 땅이야?’라는 질문에 ‘일본 땅’이라고 답하는가 하면, 역사적으로나 시기적으로도 맞지 않는 ‘세종대왕 맥북 던짐’ 사건을 창조해 내기도 했다. 즉 챗GPT는 그럴듯한 ‘썰’을 푸는 말공장인 셈이다. 전문가들 사이에서 “챗GPT가 변호사의 서면이나 의사의 진단 등 전문가를 대체할 수는 없을 것”이라는 의견이 나오는 것도 이 때문이다.
챗GPT의 기전은 어떤 질문에 대답을 하면서 문맥에 맞춰 빈칸을 확률적으로 채워나가는 식이다. 예컨대 “A씨가 학사 박위를 받았다”고 하면 ‘어느 학교에서’라는 빈칸이 생기는데, 자기소개 포맷을 몇백만 개 학습한 챗GPT는 해당 빈칸에 학교 이름이 들어가야 한다는 사실을 알고 있다. 그러나 빈칸에 들어가는 학교의 이름을 정확히 맞춰야 한다는 학습을 받지는 못한 경우 해당 빈칸에 ‘적당한’ 학교 이름을 채워 넣을 수 있다. 사실과 전혀 다른 가짜 정보가 양산되는 것이다.
이와 관련해 아빈드 나레이야난 프린스턴대 컴퓨터학과 교수는 “챗GPT를 통해 우리는 어느 때보다 접근하기 쉽게 방대한 정보를 묶어낼 수 있지만, 정확한 정보에 대해선 신뢰할 수 없다”며 “챗GPT는 정확성을 고려하지 않고 응답을 제시하는 ‘헛소리 생성기’인 것”이라고 지적했다. 유럽연합(EU)이 최초의 AI 규제 법안 ‘인공지능법(Artificial Intelligence Act)’을 준비 중인 이유도 이와 비슷한 맥락이다. 티에리 브레통 EU 집행위원은 “챗GPT 등 AI는 기업과 시민에게 큰 기회를 제공할 수 있지만, 위험도 함께 초래할 수 있다”며 “이를 규제할 방안이 꼭 필요하다”고 강조했다.
산업별 특화 AI로 신뢰성 제고 가능할까
챗GPT와 같은 생성형 AI의 신뢰성을 높일 방도가 아예 없는 것은 아니다. 부정확성에 대한 우려가 커질수록 개발자들도 챗GPT의 신뢰성을 제고할 방안을 찾아나가고 있다. 이를 위해 제시된 대표적인 방안은 산업별 특화 지식을 따로 학습시키는 것이다. 실제 지난 3월 AI 종합 플랫폼 기업 ‘마인즈랩’은 산업별로 특화된 지식을 학습시킨 산업 특화형 AI 서비스를 출시하기도 했다.
챗GPT가 탁월한 언어 이해 능력 및 생성 능력을 보유하고 있다는 점은 주지의 사실이다. 그러나 문제 되는 건 특정 지식에 대한 정확도 부족, 즉 ‘전문성 부족’이다. 이를 확인한 마인즈랩은 교육, 엔터테인먼트, 생활, 건강, 스포츠, 사회, 경제, 법률 등 다양한 전문 분야를 특수 학습시켜 관련 도메인 챗GPT를 차례로 오픈해 나가겠다 밝혔다. 생성형 AI가 지닌 부정확성의 실마리가 풀려나갈 낌새를 보이기 시작한 것이다.
다만 이 같은 시도가 성공적으로 마무리될 것이란 보장은 없다. 챗GPT는 어디까지나 ‘그럴듯한’ 이야기를 내어주는 이야기꾼일 뿐, 정확한 정보를 제공하는 데 방점을 두고 있지는 않기 때문이다. 이는 산업별 도메인을 따로 둔다 해서 해결될 문제는 아니다. 이번 슈워츠 사건은 챗GPT를 제대로 활용하기 위해선 전문가들의 철저한 팩트 체크가 필요함을 다시금 확인시켰다. 전문가조차 제대로 믿지 못할 정보를 제공하는 챗GPT를 일반인들이 얼마나 신뢰할 수 있을까. 세간에서는 생성형 AI가 구글 검색을 뛰어넘었다 떠들고 있으나, 실제론 부족한 점이 한두 가지가 아니다. 그런 만큼 차후 전문가들의 정밀한 확인 작업이 이뤄진 후에도 챗GPT를 완전히 신뢰하기는 어려울 것으로 보인다.