[기고] 반복 업무 담당자, 챗GPT

지루한 반복 업무 대신하는 챗GPT
하지만 지적이고 도전적인 업무에는 벽 느껴
챗GPT, 수학적 한계 극복하지 못하면 ‘헛소리 생성기’에 불과해

지난 1년 동안 대형언어모델(LLM)을 둘러싼 과대 광고가 끊임없이 이어졌다. 처음 대형언어모델이 등장했을 때, 사람들은 자신의 일자리가 로봇으로 대체될까봐 두려워했다. 그러나 1년이 넘는 기간 동안 챗GPT를 시험한 지금, 그 걱정은 많이 사그라들었다. 미국의 유명한 언어학자인 노엄 촘스키 교수는 “챗GPT가 헛소리를 내뱉는 고급 챗봇에 지나지 않는다”라며 챗GPT의 본질을 짚었다.

2023년 초 GIAI 연구팀은 대형언어모델이 일부 일자리를 대체할 수 있겠지만, 대체되는 대부분의 일자리는 단순하고 일상적인 업무가 될 것으로 예상했다. 그 이유는 대형언어모델이 텍스트 또는 이미지에서 높은 상관관계를 찾는 것이지, 생각과 생각 사이의 논리적 연관성을 ‘지능적으로’ 찾아내지는 못하기 때문이다. 이를 통계학에서는 인과관계가 없는 높은 상관관계 또는 단순히 ‘가짜 관계(Spurious relations)’라고 부른다.

대형언어모델, 카피보이 대체할 것

2022년 초 에듀타임스는 작가와 기자를 전부 대체하는 AI를 기대하며 연구팀에게 대형언어모델 제작을 의뢰했다. 그러나 연구팀은 “우리가 할 수 있는 최선은 ‘리라이터(Rewrite man)’와 같이 지루한 사무직 몇 가지를 대체하는 것”이라고 단정 지었다. 즉, 다른 신문에서 이미 보도한 내용을 다시 작성하는 일을 대체할 수 있을 것이다. 카피보이(Copy boy)는 그 직업을 비하하는 단어인데, 대부분의 대형 신문사는 최신 뉴스를 잡지에 반영하기 위해 카피보이를 고용한다.

그 당시 리라이터 업무를 대체하는 것이 얼마나 큰일인지 미처 몰랐다. 연구팀에는 기자 출신이 한 명도 없었으며 에듀타임스는 대형 신문사와 거리가 멀었기 때문에 신문사의 생태계를 제대로 파악하지 못했다. 실제로 대형 신문사에서는 리라이터가 많은 기사를 재생산하고 있다. 잡지를 보면, 카피보이가 적어도 60~80% 이상의 기사를 작성한 것으로 추측된다. 그중 일부는 표절 위험이 높으며 에듀타임스는 이것이 저널리즘 업계의 슬픈 현실이라고 밝혔다.

연구팀이 개발 중인 대형언어모델인 GLM(GIAI의 언어모델)도 텍스트 본문의 상관관계에 의존해야 한다는 점에서 다른 경쟁사들과 크게 다르지 않다. 노엄 촘스키는 대형언어모델을 두고 ‘헛소리 생성기’라며 대형언어모델을 비난했다. 이런 비난을 피하기 위해 데이터 과학자가 할 수 있는 최선은 신뢰성 있는 데이터를 가져오는 것이다. 그 외에는 데이터 과학자의 역할을 이미 넘어섰다.

높은 상관관계 = 인과관계?

대형언어모델이 ‘헛소리’를 많이 내뱉는 이유는 통계학에 의존하기 때문이다. 통계학이 우리에게 알려주는 것은 상관관계이지, 인과관계가 아니다.

높은 상관관계를 인과관계로 해석하려면 한 가지 중요한 조건이 충족되어야 한다. 데이터에 일관된 정보가 포함되어야 높은 상관관계가 인과관계를 뜻한다. 이것이 바로 연구팀에게 에듀타임스가 필요한 이유다. 연구팀은 깨끗하고 고품질의 주제별 데이터가 필요한 상황이다.

오픈AI가 ‘양질’의 토론이 이루어지는 커뮤니티인 레딧의 데이터에 기꺼이 돈을 지불한 이유다. 대형언어모델 서비스 제공업체들이 미국 주요 신문사와 협상을 벌이고 있는 것도 같은 이유에서다. 일관성 있고 양질의 뉴스 기사가 인과관계를 100% 보장한다는 의미는 아니지만, 적어도 데이터 전처리에 엄청난 시간을 들이지 않아도 될 것이다.

따라서 대형언어모델이나 패턴 매칭 알고리즘을 갖춘 다른 인공지능으로 대체할 수 있는 업무는 논리적 연결이 필요하지 않은 지루한 반복 업무다.

AI는 지능적인 업무가 아니라 지루한 업무를 대체할 뿐

연구팀은 장난 반 진담 반으로 AI는 ‘수학적 한계’에 부딪혔다고 한다. 안타깝게도 우리는 수학 난제를 대학 문제집처럼 쉽게 풀 수 있는 존 폰 노이만이 아니다. 계산 혁신 덕분에 우리는 이미 10년 전 예상했던 수준과는 비교도 안 될 만큼 발전을 이뤘다. 당시만 해도 10권의 책에서 말뭉치를 몇 분 만에 추출할 수 있을 거라고는 미처 생각지 못했다. 오히려 슈퍼컴퓨터를 몇 주에 걸쳐 혹사시켜야 결과를 뽑아낼 것으로 예상했다. 하지만 놀라운 계산 속도에도 불구하고 여전히 수학적 한계에 부딪혀 앞으로 나아가지 못하고 있다. 인과관계 없는 상관관계는 ‘헛소리’에 불과하다.

현재 챗GPT를 두고 우리가 할 수 있는 말은 다음과 같다.