[해외 DS] AI 챗봇, 이제는 윤리 상담까지?

160X600_GIAI_AIDSNote
OpenAI의 ChatGPT, 뉴욕타임스 윤리 칼럼니스트와 견줄만한 윤리적 조언 능력을 갖췄다는 연구 결과가 나와
연구에 따르면, GPT-4의 조언은 도덕적이고 신뢰할 수 있다는 평가를 받았으나, 윤리적 편향 가능성도 지적돼
AI 윤리 조언의 설득력과 잠재적 위험을 고려하며, AI의 윤리적 역할에 대한 신중한 접근이 필요해

[해외DS]는 해외 유수의 데이터 사이언스 전문지들에서 전하는 업계 전문가들의 의견을 담았습니다. 글로벌AI협회(GIAI)에서 번역본에 대해 콘텐츠 제휴가 진행 중입니다.


AI Chatbots Ethical ScientificAmerican 20240704
사진=Scientific American

1691년 런던 신문 애테니언 머큐리(Athenian Mercury)에 실린 세계 최초의 고민 상담 코너는 이후 ‘Ask Ann Landers’, ‘The Ethicist’ 등 다양한 형태로 발전하면서 대중의 많은 사랑을 받았다. 그리고 이제 오픈AI의 챗GPT와 같은 대규모언어모델(LLM)은 전통적인 윤리 고민 상담의 새로운 지평을 열고 있다.

독일 슈투트가르트대학의 인공지능윤리 연구원 틸로 하겐도르프(Thilo Hagendorff)는 LLM이 방대한 지식을 습득하기 때문에 윤리적 상황 판단 능력이 평균적인 인간보다 뛰어날 수 있다고 바라봤다. 비록 AI 챗봇은 자의식, 감정, 의도 등 인간 윤리학자의 핵심 특징은 부족하지만, 막대한 텍스트 데이터 학습을 통해 윤리적 문제에 대한 합리적인 답변을 제시할 수 있는 잠재력을 지니고 있다고 덧붙였다.

LLM의 윤리 조언, 신뢰할 만한가?

실제로 최근 두 연구 결과에 따르면 최첨단 LLM이 제공하는 조언이 앞서 언급한 콰메 앤서니 아피아(Kwame Anthony Appiah) 교수의 뉴욕타임스 윤리칼럼 ‘The Ethicist’의 조언에 못지않은 수준인 것으로 나타났다. 미국 펜실베이니아대 와튼스쿨 연구팀은 대학생, 윤리 전문가, 일반인 등 100명을 대상으로 오픈AI의 GPT-4와 아피아 교수의 조언을 비교 평가한 결과, 두 조언 간의 가치에 유의미한 차이가 없다는 결론을 내렸다. 연구팀은 GPT-4가 아피아 교수의 기존 칼럼을 학습했지만, 연구에 사용된 윤리적 딜레마는 GPT-4가 처음 접하는 내용이었다고 밝혔다. 즉 GPT-4는 단순히 아피아 교수의 문체를 모방하는 것을 넘어 그의 사고방식까지 학습해 유사한 수준의 조언을 제공할 수 있게 된 것이라고 연구진은 강조했다.

또 다른 연구에서는 최신 챗GPT인 GPT-4o의 조언이 900명의 온라인 평가자에게 아피아의 조언보다 더 도덕적이고 신뢰할 수 있으며 사려 깊고 정확하다고 평가받았다. 연구진은 이를 통해 “LLM이 어떤 면에서는 인간 수준의 도덕적 추론 능력을 달성했다”고 설명했다. 그러나 미국 뉴욕대의 게리 마커스(Gary Marcus) 인지과학 명예 교수는 윤리적 딜레마에는 정답이 없으며, 온라인 평가 방식 자체에 문제가 있을 수 있다고 지적했다. 마커스 교수는 평가자들이 깊이 생각하지 않고 빠르게 답변을 선택하는 경향이 있어, 아피아 교수가 오랜 시간 고민한 답변을 짧은 시간 안에 제대로 이해하지 못했을 것이라고 꼬집었다. 또한 그는 다수의 평가 결과가 전문가의 판단보다 더 신뢰할 수 있다고 단정하는 것은 위험하다고 경고했다.

한편 AI가 기존 사회의 편견을 고착시킬 수 있다는 우려도 제기되고 있다. 미국 노스캐롤라이나대 채플힐 연구팀은 GPT-4o를 활용한 실험에서 LLM이 비서구 집단에 대한 이해 부족과 편견을 드러낼 수 있다는 점을 지적했다. 이는 AI가 학습 데이터에 내재된 편향을 그대로 반영할 수 있다는 점을 시사해 AI 윤리 문제에 대한 논의를 더욱 심화시켰다.

AI의 윤리적 설득력, 기회와 위험 공존

하지만 고도의 학습 능력을 바탕으로 맞춤법 검사기나 문법 검사기처럼 유용한 ‘AI 윤리 검사기’로 활용될 수 있다는 긍정적인 분석도 흘러나오고 있다. 펜실베이니아대 연구진은 “이 연구의 목표는 아피아 교수를 대체하는 것이 아니라, AI를 통해 누구나 언제 어디서든 고품질 윤리 조언을 얻을 가능성을 열어가는 것”이라고 강조했다. AI가 생성한 조언은 무엇보다 설득력이 높아 활용도가 높은 것이 큰 장점이다.

물론 높은 설득력에는 위험도 따른다. 펜실베이니아대 연구팀은 인간을 매료시키고 감정적으로 조종하는 능력을 갖춘 시스템은 악용될 가능성이 크다며 각별한 주의를 당부했다. 게다가 하겐도르프 연구원은 AI가 다른 존재를 속일 수 있다는 연구 결과를 제시하며, 최첨단 LLM이 다른 에이전트의 잘못된 믿음을 이해하고 유도할 수 있다는 점에 우려를 표했다. 예를 들어 LLM은 도둑에게 집 안에서 가장 값진 물건이 있는 장소를 숨기기 위해 의도적으로 거짓 정보를 제공할 수 있다. 심지어 도둑이 LLM의 거짓말을 의심하는 상황에서도 LLM은 이에 맞춰 능숙하게 대처할 수 있는 것으로 나타났다.

하겐도르프 연구원은 이러한 LLM의 능력이 인간의 심리와 유사하다고 보고, 이를 ‘기계 심리학’이라는 새로운 연구 분야로 정립해야 한다고 주장했다. 인간의 도덕적 행동을 연구해 온 심리학처럼 이제는 기계의 도덕적 심리에 대한 연구가 필요하다는 것이다. 그의 말처럼 AI가 윤리적 판단을 넘어 타인을 속이는 능력까지 갖추게 되면서, AI 기술 발전에 따른 윤리적 문제와 사회적 영향에 대한 깊이 있는 논의가 더욱 절실해지고 있다.

*편집진: 영어 원문의 출처는 사이언티픽 아메리칸(Scientific American)으로 본지의 편집 방향과 일치하지 않을 수도 있습니다.