[해외 DS] 사람 같은 AI, 인간 연구 참여자를 대체할 수 있을까?
과학 연구에서 인간 참여자를 대체하기 위해 AI 언어 모델을 사용하는 방안이 고려되고 있어 AI가 속도를 높이고, 비용을 절감하며, 특정 주제에 취약한 피험자의 위험을 제한하고, 연구의 다양성을 향상할 수 있다고 주장 그러나 새로운 연구와 많은 전문가들은 연구의 질과 추후 정책 의사결정에 부정적인 영향을 미칠 것으로 예상
[해외DS]는 해외 유수의 데이터 사이언스 전문지들에서 전하는 업계 전문가들의 의견을 담았습니다. 저희 데이터 사이언스 경영 연구소(GIAI R&D Korea)에서 콘텐츠 제휴가 진행 중입니다.
인간의 경험을 연구하려면 일반적으로 시간과 비용, 그리고 당연히 사람이 실험에 직접 참여해야 한다. 그러나 오픈AI의 GPT-4와 같은 대규모언어모델(LLM)이 더욱 정교해지면서 연구 커뮤니티의 일부에서는 인공지능이 일부 과학 연구에서 인간 참가자를 대체할 수 있다는 생각에 꾸준히 공감해 왔다. 일례로 아직 동료 검토를 거치지 않은 한 최근 분석에 따르면 과학자들이 655,000건의 학술 논문에서 AI를 어떻게 언급하는지 연구한 결과, LLM을 의인화한 빈도가 2007년부터 2023년 사이에 50% 증가했다.
지난 1월 논문 사전 공개 사이트 아카이브(arXiv)를 통해 발표된 한 연구는 인간 참가자 대체론의 동기, 실효성, 그리고 잠재적 위험을 면밀히 살펴보았다. 이들의 검토에 따르면 최근 이러한 제안의 물결은 연구 개발 작업의 비용 절감과 수집된 데이터의 다양성 증가 같은 목표에서 비롯된 것으로 나타났다. 그러나 이러한 제안은 인간 참여자 작업의 기본 가치인 대표성, 포용성, 이해성을 무시하는 결과를 낳는다고 밝혔다.
카네기멜론대, 인간 실험 참여자를 대체하려는 시도의 명과 암을 조사
해당 논문은 5월에 열리는 인간과 컴퓨터의 상호작용 분야에서 가장 큰 학회인 미국 컴퓨터 기계학회(ACM)의 ‘컴퓨팅 시스템의 인간 요인(Conference on Human Factors in Computing Systems, CHI) 콘퍼런스’에서 채택됐다. 이 논문은 LLM을 사용하여 인간 연구 대상자를 대신하거나 인간 대신 연구 결과를 분석하는 방법을 제안하는 12개 이상의 발표된 연구를 바탕으로 작성됐다.
미국 카네기멜론대학교에서 AI 윤리와 컴퓨터 비전을 연구하는 윌리엄 애그뉴(William Agnew)가 주도한 이 새로운 리뷰는 13개의 기술 보고서 또는 연구 논문과 3개의 상용 제품을 인용하고 있는데, 모두 인간 행동과 심리학, 마케팅 연구 또는 AI 개발 등의 주제에 관한 연구에서 인간 참여자를 LLM으로 대체하거나 대체할 것을 제안하고 있다. 구체적으로는 연구자가 인간에게 던지는 질문을 LLM에 대신 던지고, 다양한 프롬프트에 대한 ‘생각’을 묻거나 이에 대한 응답을 요청하는 방식으로 사용됐다.
작년 CHI에서 최우수 논문상을 받은 한 프리프린트는 비디오 게임을 하나의 예술로 경험하는 것에 관한 정성적 연구에서 오픈AI의 초기 LLM GPT-3가 인간과 같은 반응을 생성할 수 있는지 실험했다. 연구자들은 “디지털 게임을 예술로 경험한 적이 있습니까?”와 같은 질문에 대해 사람이 작성한 답변을 대신할 수 있는 응답을 생성하도록 LLM에 요청했고, “예술을 당신에게 의미 있는 방식으로 생각해보라”와 같은 질문도 던졌다. 그런 다음 참가자들에게 이 답변들을 보여줬는데, 참가자들은 실제로 사람이 쓴 답변보다 LLM의 것이 더 인간적인 답변이라고 평가했다.
AI로 합성된 연구 자료에 대한 회의적인 시각이 대부분
인간 답변 보다 인간적이라는 평가와 더불어 애그뉴와 그의 공동 저자들은 AI를 사용하여 데이터를 합성할 때 얻을 수 있는 네 가지 주요 이점도 논문에 명시했다. 실제 연구에 참여하지 않을 수도 있는 취약 계층의 경험을 시뮬레이션함으로써 속도를 높이고, 비용을 절감하고, 참여자가 겪을 수 있는 잠재적 위험을 피하고, 다양성을 강화할 수 있다고 밝혔다. 그러나 저자들은 이러한 연구 방법이 결과적으로 연구 대상자를 대표하고, 포함하고, 이해하는 인간 참여 연구의 핵심 가치와 충돌할 수 있다고 결론지었다.
다른 과학자들도 카네기멜론 연구팀의 결론에 동조하는 분위기다. 윤리적 학술 연구 관행을 장려하는 영국의 비영리 단체인 출판윤리위원회의 위원인 매트 호지킨슨(Matt Hodgkinson)은 “생성형 AI나 다른 종류의 자동화된 도구를 사용하여 인간 참여자와 실제 데이터를 대체할 수 있다는 생각을 경계하고 있다”고 강조했다. 호지킨슨은 AI 언어 모델이 우리가 생각하는 것만큼 인간과 비슷하지 않을 수 있다고 덧붙였다. 실제로 AI 챗봇은 인간과 완전히 닮은 것은 아니며, 단순히 학습한 내용을 재가공하고 반복하는 ‘확률적 앵무새’이기 때문이다. 챗봇은 감정이나 경험, 질문에 대한 진정한 이해가 부족하다는 의미다.
물론 어떤 경우에는 AI가 생성한 데이터가 인간으로부터 수집한 데이터를 보완하는 데 도움이 될 수 있다. 카네기멜론대학교에서 딥러닝과 로봇 공학을 연구하는 앤드류 헌트(Andrew Hundt)는 연구 질문에 대한 기본적인 사전 테스트로써는 유용할 수 있다고 말했다. 그러나 훈트는 AI를 사용하여 인간의 반응을 합성하는 것은 사회과학 연구에 큰 도움이 되지 않을 것이라고 지적했다. 사회과학 연구의 목적은 실제 인간의 고유한 복잡성을 이해하는 것인데, AI로 합성된 데이터는 본질적으로 이러한 복잡성을 드러낼 수 없다는 것이다.
훈트가 지적한 간극을 메우기 위해 생성형 AI 모델은 방대한 양의 데이터를 집계, 분석, 평균화하여 학습하고 있는 것도 사실이다. 하지만 영국 케임브리지대학교에서 AI 윤리를 연구하는 엘리너 드레이지(Eleanor Drage) 따르면 AI 모델이 학습한 인간 경험의 집합은 실제 경험이 아닐뿐더러, 사회 내의 깊은 편견을 반영할 수 있다고 비판했다. 예를 들어 이미지 및 텍스트 생성 AI 시스템은 종종 인종과 성별의 고정 관념을 영속화하는 경우가 많다.
연구 품질 위협이 가장 큰 문제, 일부 실험 데이터는 이미 오염됐을 것으로 추측
일부 연구자들은 자살과 같은 민감한 주제를 연구하는 데 LLM이 유용할 수 있다는 의견도 제시했다. 이론적으로는 취약한 사람들이 자살 충동을 유발할 수 있는 실험에 노출되는 것을 피할 수 있으나, LLM은 실제 사람이 생각하는 방식과 다른 대답을 제공할 수 있다. 자살의 증상과 원인은 보통 일반화하기 어렵다는 게 의료 업계 종사자들의 중론이다. 또한 잘못된 정보로 인해 향후 치료와 정책 의사결정에 치명적인 결과를 초래할 수 있어 더욱 조심해야 한다.
안타까운 점은 생성형 AI는 이미 인간 연구 데이터의 품질을 약화시키고 있을 수 있다. 과학자들이 인공지능의 응답 자료를 연구에 직접 활용하지 않더라도, 많은 연구에서 사용하고 있는 인간 연구 데이터 수집 도구에 생성형 AI를 사용한 흔적이 발견되고 있기 때문이다. 아마존의 설문조사 도구 메카니컬 터크(Mechanical Turk) 또는 이와 유사한 긱워크 웹사이트의 참여자들이 실험에 집중하기보다는 돈을 더 벌기 위해 주어진 실험 과제를 최대한 빨리 완료하고 싶어한다. 그 결과 이들이 생산성을 높이기 위해 생성형 AI를 사용하고 있는 초기 징후도 관찰됐다. 한 논문의 연구자들은 크라우드 워커에게 작업을 완료하도록 요청했을 때, 응답자의 33~46%가 LLM을 사용하여 응답을 생성한다고 추론했다.
AI가 생성한 데이터가 연구에 사용된 과학적 선례가 아직 없는 상태다. 때문에 책임감 있게 데이터를 사용하려면 신중한 사고와 분야 간 협력이 필요하다. “이는 과학자 혼자서만 생각하는 것이 아니라 심리학자, 즉 전문가와 함께 생각해야 한다는 것을 의미한다”라고 드레이지는 설명했다. “이런 종류의 데이터가 어떻게 생성되고 사용되는지에 대한 가드 레일이 있어야 한다고 사료된다. 그런데 그런 보호 장치가 없는 것 같다”고 그녀는 덧붙였다. 이상적으로는 이러한 가드레일에는 학술 단체가 연구에서 LLM을 사용할 수 있는 것과 없는 것에 대한 국제 가이드라인이나 AI 기반 데이터를 사용하여 얻은 결과를 처리하는 방법에 대한 초국가적 기관의 지침이 포함돼야 한다. AI 챗봇이 무분별하게 사용된다면 과학 연구의 질을 크게 떨어뜨리고 잘못된 데이터를 기반으로 한 정책 변경과 시스템 변화로 이어질 수 있으므로 연구자들은 실제 데이터를 대체하는 방안보다 LLM 응답 데이터 사용의 위험과 구체적인 적용안을 먼저 발굴해야 한다.
영어 원문 기사는 사이언티픽 아메리칸에 게재되었습니다.