[빅데이터] 챗GPT 열풍, 실제 가능한 기능은?

챗GPT, 기대보다 성능 낮은 편, 일반적인 업무에 겨우 쓰일 수 있을 뿐 논문 분석, 에세이 평가 등의 전문적인 업무는 어렵다는 평가 잇따라 전문가, 과도한 기대 금물, 검색 엔진 발전에 조금 기여하는 수준에서 그칠 듯

160X600_GIAI_AIDSNote
지난 1주일간 ‘챗GPT’ 관련 키워드 클라우드/출처=㈜파비 데이터 사이언스 연구소

오픈AI에서 내놓은 ‘챗GPT’의 사용자가 1억 명을 넘었다. 지난해 11월 30일에 서비스를 출시하고 불과 2개월 만이다. 넷플릭스 공유 계정, 음란물 등의 일부 불법 서비스를 제외하고 1억명 의 사용자를 2개월 만에 모은 것은 챗GPT가 역사상 처음이다. 챗GPT가 이렇게 빠른 속도로 이용자를 모은 것은 기존의 인공지능(AI)보다 훨씬 더 높은 역량을 통해 현실 활용이 가능한 서비스를 내놨기 때문이다.

오픈AI에서 제시한 바에 따르면, 챗GPT의 역량은 특정 요청 사항을 담은 질문을 입력했을 때 미국 의사면허시험을 통과할 수 있는 수준의 답변을 내놓고, 로스쿨 졸업시험 평균 C+학점, 와튼스쿨 MBA 기말시험 B학점에 해당하는 답안지를 인간보다 훨씬 더 빠른 시간에 작성 가능한 것으로 알려졌다.

높은 관심사를 검증해 줄 수 있는 실제 역량은?

Reddit 등의 영어권 각종 커뮤니티에 따르면, 이미 초·중·고교의 경우 챗GPT 활용을 시험 중에 금지하도록 규정을 바꿔야 할 만큼 결과물의 수준이 높은 것으로 알려졌다. 챗GPT를 써서 5분 만에 답안지를 제출하고 B학점을 받았다는 각종 제보도 이어졌다.

케임브리지 대학의 영어 교육 프로그램(CELTA)을 맡고 있는 크리스토퍼 도로프(Christopher Douloff) 강사는 학생들의 에세이 평가 문장을 챗GPT에 요청했더니 일반론으로 쓰기에 무리가 없는 답변을 내놨다고 평가했다. 단, 실제 급여를 받는 항목에 해당하는 구체적인 평가는 한계가 있어 실제 업무에 쓰기는 무리이지만, 학생들이 챗GPT를 이용해 에세이를 제출할 경우 인간이 작성한 것인지 인공지능이 작성한 것인지 쉽게 알아보기는 어려울 것이라는 조심스러운 견해를 내기도 했다.

국립대만대학교에서 경제학을 가르치고 있는 박지호 교수는 본인의 논문이나 지도교수의 논문을 입력하고 평가를 내려달라는 요청을 했을 때 챗GPT가 전문 용어를 엉뚱하게 이해하고 전혀 맞지 않는 답변을 내놨다면서, 번역가들이 해당 업계의 전문 용어를 몰라 엉뚱한 번역을 하는 것과 마찬가지로 전문 업무에 쓰기는 어려워 보인다는 의견을 내기도 했다.

기초 업무는 가능, 전문 업무는 불가능

미국의 로스쿨, 의사면허시험, 와튼스쿨 MBA 시험 등의 사정에 정통한 한 미국 유학파에 따르면, MBA 교육은 대부분 일반론의 평범한 답안지를 내는 경우가 많아 시간과 노력을 들인 학생들이 일부 A학점을 받아 가는 것을 제외하면 대부분 B학점 이상을 받기 때문에 현실적으로 대단한 성과가 아니라는 평가를 내리기도 했다. 이어 로스쿨에서 C+학점이면 사실상 법학 공부가 전혀 되지 않은 상황이라며, “문법에 맞는 문장을 썼다는 것이 법학 역량을 갖췄다는 것과 같은 말은 아니다”라고 꼬집었다. 또 “의사면허시험처럼 단순한 인과관계의 경우야 어려움이 없겠지만, 전문적인 분야 업무는 불가능하다는 것을 오픈AI가 스스로 인정하고 있는 것으로 보인다”고 덧붙였다.

출시 초반 큰 반향을 일으키며 학계에서도 주요 관심사가 되었으나, “몇몇 전문가들의 검증 작업에서 여전히 기초적인 업무 이상이 어렵다는 것을 확인하게 됐다”며 전문 업무에는 쓸 수 없으나 기초적인 업무에는 활용할 수 있다는 결론을 내린 상태라고 밝혔다.

AI교육에 집중하는 스위스 AI대학 관계자에 따르면, 챗GPT는 알파고 등에 활용됐던 기존의 ‘강화학습(Reinforcement Learning)’에 인공지능과 인간이 서로 대화하는 방식으로 인간의 사후 보정을 포함한 ‘인간 피드백 강화학습(Reinforcement Learning from Human Feedback, RLHF)’ 알고리즘이 이용된 것으로, 기존의 알파고 등이 바둑판 등으로 정해져 있는 공간에서 시뮬레이션 등으로 가능한 모든 조합을 검증하고 효율적인 결과물을 만들어내던 것에 인간의 보정이 더 들어간 상황이라고 설명했다.

인간의 보정이 들어가 좀 더 정확성이 높아지기는 했으나 논문 분석, 에세이 상세 평가, 자료 이해 등의 보다 근본적인 학습 역량이 필요한 과제에서는 여전히 높은 수준의 결과물을 기대하기 어렵다는 것이다.

지난 1주일간 ‘챗GPT’ 관련 키워드 네트워크/출처=㈜파비 데이터 사이언스 연구소

관심도 급격하게 감소할 것이라는 평가 이어져

이어 당장은 인공지능 결과물의 수준이 높아졌기 때문에 일반의 관심이 높아질 것이나, 곧 금전적인 이익을 만들어 낼 수 있는 전문 업무에는 사용할 수 없다는 사실이 알려지면서 관심도가 크게 내려갈 것이라고 전망했다. 유사한 사례로 이미 알파고에 대한 일반의 관심이 사라졌던 것에서 확인할 수 있다는 점을 들며, 챗GPT가 실제로 이용될 수 있는 분야는 구글 등이 제공하고 있는 검색 결과물 최적화 정도에 그칠 것으로 내다봤다.

실제로 구글은 지난해 9월에 챗GPT와 유사한 RLHF를 활용하는 ‘스패로(Sparrow)’를 발표한 바 있다. 마이크로소프트가 검색 시스템 ‘빙(Bing)’의 성공을 위해 오픈AI에 12조원의 추가 투자를 한 것도 검색 엔진에서 구글과 경쟁 가능성 성과를 낼 수 있는 주요 도구로 챗GPT의 역량을 꼽았기 때문이라는 것이다.

한편 국내 빅데이터 여론은 기대보다 큰 반향을 일으키지 못하고 있다. 챗GPT에 대해 미국에서 출시된 인공지능(이상 붉은색 키워드), 검색 역량에 대한 키워드들(이상 노란색 키워드), 그 외 활용 가능성에 대한 언급이 담긴 보라색, 녹색 등의 키워드를 확인할 수 있으나 챗GPT가 한국어 서비스에서 영어권만큼의 우수한 성능을 보여주지 못하고 있어 일반의 관심사는 낮은 편이다. 2021년까지의 데이터만 활용한 탓에 여전히 한국 대통령을 ‘문재인 대통령’으로 언급하는 것이 대표적인 사례다.

전문가들은 알파고처럼 당장 관심도가 높아졌다고 해서 지나치게 인공지능에 대한 환상을 가지는 것을 경계한다. 당시 알파고는 바둑 게임 이외에 우리의 현실을 크게 바꾸지 못했던 만큼, 이번 챗GPT도 검색 기능을 조금 더 발전시키는 정도가 현실적으로 예측할 수 있는 한계라는 지적이다.