[해외 DS] 학계에 깊숙이 침투한 AI 챗봇

최근 AI 챗봇을 사용한 것으로 보이는 문구 논문에 적나라하게 드러나
챗봇이 자주 사용하는 단어 논문에서도 자주 사용돼
챗봇을 사용하여 논문 작성 시간을 줄일 수 있지만 '환각' 증상으로 인한 가짜 정보 조심해야

[해외DS]는 해외 유수의 데이터 사이언스 전문지들에서 전하는 업계 전문가들의 의견을 담았습니다. 저희 글로벌AI협회 연구소(GIAI R&D)에서 콘텐츠 제휴가 진행 중입니다.

최근 연구자들이 논문 작성 과정에서 ChatGPT와 AI 챗봇을 오용하고 있는 것으로 알려졌다. 실제로 과학자들이 발표한 일부 논문에서 AI 쉽볼렛(Shibboleth)으로 의심되는 논문이 급격히 증가하고 있는 추세다. 논문 실적이 중요한 학계에서 AI 챗봇은 논문 작성 시간을 단축해주면서 영어가 모국어가 아닌 학자들에게 많은 도움을 준다. 하지만 AI 챗봇이 가진 근본적인 문제인 ‘환각’ 증세로 인해 실제 사실과 다른 답변을 내주고 이를 그대로 논문에 작성하여 심각한 문제로 떠오르고 있다.

ChatGPT와 같은 챗봇이 추천한 문구 발각되어

엘스비어(Elsevier)에서 발행하는 학술지인 서피스 앤 인터페이스(Surfaces and Interfaces)의 논문에서 AI로부터 도입부를 추천 받은 문구가 실수로 포함된 것이 밝혀져 논란이 되고 있다. 과학 무결성 컨설턴트인 엘리자베스 빅은 “이는 빙산의 일각에 불과할 것”이라며 과학계에서 챗봇 사용이 만연하게 깔려있음을 암시했다. 하지만 AI 챗봇을 사용하여 적발된 경우는 소수이며 대부분은 AI의 개입을 명확하게 밝혀내기 어렵다. 기존에 사용되는 AI 텍스트 감지기는 논문에서 AI 챗봇을 사용했는지 감지하기에는 역부족하기 때문이다.

그러나 최근 연구자들은 AI가 생성한 문장에서 자주 등장하는 몇 가지 핵심 단어와 구문을 파악한 것으로 알려졌다. 유니버시티 칼리지 런던의 사서이자 연구원인 앤드류 그레이는 AI가 생성한 문장을 오래 보면 그 문장 스타일에 대해 감을 잡을 수 있어 AI가 생성한 문장 특징에 대해 언급했다.

대규모 언어 모델은 텍스트를 생성하도록 설계되었지만, 생성된 내용이 사실과 다를 수 있다는 점을 주의해야 한다. 컴퓨터 과학자들이 ‘환각’이라고 부르는 대규모 언어 모델들의 단점은 사실 여부를 확인하기 보다는 텍스트를 만들어내는 것에 우선순위를 두어 생겨난 문제다. 심지어 과학 논문에서 AI 챗봇은 존재하지 않는 인용 참조를 생성하는 오류를 범하기도 한다. 따라서 과학자들이 챗봇을 지나치게 신뢰하면 AI 챗봇이 만들어낸 가짜 정보를 자신의 연구에 포함시키는 실수를 저지를 위험이 있어 AI 챗봇을 사용할 때 항상 주의를 기울여야 한다.

챗봇이 좋아하는 단어, 학계도 좋아하나?

그레이는 데이터 분석 플랫폼인 디멘션스(Dimensions)를 이용하여 과학 논문에서 사용된 AI 유행어를 찾아냈다. 또한 ‘복잡한’, ‘꼼꼼한’, ‘칭찬할 만한’ 등 챗봇이 자주 사용하는 단어를 검색하여 챗봇을 사용한 논문들을 발각했다. 그레이의 분석에 따르면 지난해 전 세계에서 발표된 모든 과학 논문의 1%가 넘는 최소 6만 편의 논문이 대규모 언어 모델을 사용했다는 의심을 받고 있다. 그러나 이는 모든 사람에게 공개되는 버전이 아닌 사전 인쇄 서버 아카이브(arXiv)의 데이터를 사용한 것으로 아직 평가하기에는 이르다는 의견이 나온다. 다른 연구에서는 과학의 특정 분야에 초점을 맞춘 연구에서 챗봇에 대한 의존도가 훨씬 더 높은 것으로 나타났다. 게다가 한 조사에 따르면 최근 컴퓨터 과학 논문의 최대 17.5%가 인공지능을 사용한 흔적이 있는 것으로 밝혀졌다.

추가로 사이언티픽 아메리칸은 자체 감지 시스템을 만들어 위 결과를 뒷받침했다. 이 감지 시스템은 디멘션스와 구글 스칼라(Google Scholar), 스코퍼스(Scopus), 펍메드(PubMed), 오픈알렉스(OpenAlex)를 비롯한 여러 과학 출판물 데이터베이스를 사용하여 만든 시스템이다. 이 시스템은 “마지막 지식 업데이트 기준”과 같이 AI 챗봇이 자주 사용하는 문구의 사용 빈도를 측정하여 논문 작성에 챗봇이 관여했음을 밝혀냈다. 4개의 주요 논문 분석 플랫폼에서 추적한 결과, 위 문구는 2020년에 단 한 번만 나타났으나 2022년에는 무려 136회나 나타났다. 하지만 이 접근 방식에는 몇 가지 한계를 갖는데, AI 모델 자체에 대한 논문을 AI가 생성한 콘텐츠라고 잘못 판단하는 오류를 범한다. 또한 사용된 데이터베이스에는 과학 저널의 동료 심사를 거친 논문 이외의 자료도 포함되어 있는 한계점이 있다.

그레이의 접근 방식과 마찬가지로 이 시스템에서도 챗봇임을 암시하는 미묘한 흔적을 발견했다. 자세히 말해 ChatGPT가 출시되기 직전과 직후에 과학 논문에서 ChatGPT가 선호하는 구문이나 단어가 발견된 횟수를 살펴보았다. 그에 따라 논문에서 사용되는 어휘의 변화를 추적하는 방식으로 연구를 진행했다. 연구 결과에 따르면 과학적 글쓰기 어휘에 변화가 생겼으며 이는 점점 더 많이 등장하는 챗봇의 글쓰기 틱(아무 생각 없이 글을 쓰는 것)으로 인해 발생한 것이다. 물론 그레이는 언어가 시간이 지남에 따라 일부 단어가 변화할 수 있다는 점도 고려했다. 하지만 이 중 얼마나 많은 부분이 언어의 자연스러운 변화고, 얼마나 많은 부분이 챗봇에 의한 것인지 구분하기 어렵다는 입장을 보였다.

사이언티픽 아메리칸은 챗봇이 논문 작성에 관여하는 징후를 찾기 위해 ‘파헤치다‘라는 단어를 파헤쳤다. 이 단어는 자체 감지 시스템이 지적했듯이 챗봇이 유행한 이후 학계에서 비정상적으로 많이 사용하게 된 단어다. 펍메드의 생의학과 생명과학 분야에서 3,700만여 건 논문의 초록과 인용에서 이 단어의 사용량을 계산한 결과, 2020년에 349회 사용되던 ‘파헤치다’는 2023년에 2,847회 등장했으며 1분기를 겨우 지난 2024년에는 이미 2,630회 사용되었다.

사이언티픽 아메리칸의 분석에 따르면, 감지 시스템이 발견한 챗봇이 생성한 다른 단어도 비슷한 증가세를 잡아냈다. 예를 들어 ‘칭찬할 만한’은 2020년 스코퍼스에 등재된 논문에서 240회, 디멘션스에 등재된 논문에서 10,977회 등장했다. 이 수치는 2023년에 각각 829회(245% 증가), 20,536회(87% 증가)로 폭발적으로 증가했다. 또한 ‘꼼꼼한’은 모순적이게도 2020년과 2023년 사이에 스코퍼스에서 두 배 증가했다.

챗봇이 생성한 것은 단어 그 이상

“출판하지 않으면 사라진다”는 속설이 학계에서 통용되는 현실로 챗봇을 사용하여 시간을 절약하거나 영어가 필수인 학술지에서 영어 구사력을 높이는 것은 어찌보면 당연한 일이며 저자에게 제2 또는 제3의 언어가 될 희망을 시사한다. 그러나 AI 기술을 문법이나 구문 도우미로 사용하는 것은 과학적 과정의 다른 부분에 잘못 적용될 여지가 있는 양날의 검이다. 챗봇을 공동 저자처럼 사용하여 논문을 작성할 시 주요 수치가 챗봇에 의해 인위적으로 생성되거나 가상의 동료 평가로 이어질 우려가 나온다.

이는 가상의 시나리오가 아니라 우리가 앞으로 마주할 미래다. 실제로 챗봇은 도표와 삽화를 허구로 제작하는 데 사용됐으며, 기괴하게 생긴 설치류를 만들어낼 뿐만 아니라 실험에서 인간을 대체하는 데도 사용됐다. 또한 2023년과 2024년 AI 컨퍼런스에서 연구를 발표한 과학자들에게 피드백을 제공한 사전 인쇄물 연구에 따르면 AI 챗봇의 사용은 동료 심사 과정 자체에도 스며들었다. 윤리적 학술 연구를 장려하는 영국 비영리 단체인 출판윤리위원회의 위원인 매트 호지킨슨을 비롯한 전문가들은 AI가 내린 판단이 학술 논문에 포함되는 걸 우려하고 있다. 그는 챗봇은 분석에 능숙하지 못하며 바로 여기에 진짜 위험이 있을 수 있다는 점을 경고했다.

*편집진: 영어 원문의 출처는 사이언티픽 아메리칸(Scientific American)으로 본지의 편집 방향과 일치하지 않을 수도 있습니다.