챗GPT, 언어 기반 노동시장엔 고급 인력만 남기고 다 내보내게 될 것

챗GPT 과도한 열풍, 핵심은 언어 기반의 반복 작업을 대체해주는 자동화 시스템 자연어, 컴퓨터 언어, 이미지 생성 등에서 반복 작업하는 초급 인력 대체될 것 논리적 추론, 추론 기반 계산 영역 등은 GPT 기반의 LLM 모델과 다른 영역

지난 12일, 데이터 사이언스 경영학회 세미나에서 최근 이슈가 된 챗GPT가 기반하고 있는 대형언어모델(Large Language Model, LLM)의 방법론을 풀어내는 설명과 함께, 활용법이 노동 시장을 바꾸는 부분에 대한 예상을 정리했었다.

구글 검색을 해보니 챗GPT가 출시된 지난해 11월부터 올해 5월 초까지 무려 433,000개의 뉴스 기사가 ‘chatgpt’라는 검색어에 걸렸다. 뉴스 업계에서 광고 기사 1개 내는데 지불해야하는 비용을 감안하면 수십조원의 광고 비용을 쓴 것이나 다름없을만큼 화제가 됐다는 뜻이다. 한국어로도 구글 검색 기준 무려 16,600개의 기사가 검색이 됐다. 영어권과 한국어권의 기사 공급량의 차이를 감안해도 한국에서 큰 화제가 되었다는 것을 보여주는데 큰 무리는 없는 수치일 것이다.

챗GPT는 현실과 타협한 모델이다?

많은 분들이 챗GPT가 지난 2016년에 큰 화제가 됐던 알파고보다 훨씬 더 진화된 새로운 인공지능 모델이라고 생각하시는 경우가 많다. 그러나 챗GPT가 기반하고 있는 GPT-3.5, 혹은 최근에 추가된 GPT-4가 기존의 GPT-3 대비 얼마나 더 많은 매개변수를 처리하고 있는지에 대한 정보가 알려져 있지 않은 탓에 막연히 더 복잡해졌을 것이라는 짐작만 하고 있다.

실상은 GPT-3.5부터 GPT-3과 완전히 철학적으로 다른 접근으로 모델을 만들었기 때문에 더 이상 매개변수의 숫자가 무의미한 탓에 외부에 공개될 필요가 없었기 때문이다. 일반적인 공학도들이 자동화 시스템을 만들 수 있을 것이라는 맹목적인 믿음을 갖고 있는 경우가 많은데, GPT-3까지만 해도 데이터 처리 용량을 무한대로 늘릴 수만 있다면 그런 자동화의 종착역인 ‘강인공지능(Artificial General Intelligence, AGI)’을 만들어 낼 수 있을 것이라는 믿음이 깔려 있었다. 그러나 GPT-3.5부터는 일반화를 위해 모델을 대형화하는 것을 포기하고, 특정 업무에 초점을 맞추고 관련된 데이터를 투입해 특화된 모델들을 매우 방대하게 늘리는 것으로 관점을 바꿨다.

기존에는 1개의 AGI가 마치 전지전능한 신이 될 것이라는 기대감을 갖고 인공지능 개발을 시도했다면, GPT-3.5부터는 다양한 분야의 전공자들을 모아놓은 집단을 구축했다고 보면 적절한 비유가 될 수 있을 것이다.

일각에서는 챗GPT를 개발한 오픈AI가 매개변수 숫자와 상세 모델을 공개하지 않는다며 ‘클로즈드AI(Closed AI)’라고 비난하는 경우도 있으나, 개발 구조상 굳이 공개할 필요가 없었다. 알려진대로라면 GPT-1이 1억1,700만개, GPT-2가 15억개, GPT-3과 3.5가 1,750억개의 매개변수를 이용했다고 한다. 말을 바꾸면, GPT-3에서 3.5로 개선이 진행되면서 매개변수를 더 추가한 것이 아니라 모델 구성 방식을 변경한 것이다.

오픈AI는 GPT-3.5대비 GPT-4의 장점을 정확성과 확장성이라고 설명한다. 각 분야 전공자들이 더 학습한 상태, 그리고 더 많은 전공자를 모은 상태라고 보면 된다.

각 분야 전문가 중 어떤 전문가가 더 적합한 질문인지 선정하는 방식

만능AI라고 착각하는 경우가 많은 탓에 세미나 중에도 공감하지 못하는 비수학 전공자들의 질문이 이어졌는데, 오픈AI에서 챗GPT를 소개하며 제공한 그림을 활용해보자. 1단계에서 SFT(Supervised Fine-Tune)모델을 선별된 데이터로 학습 시킨 후, 2단계에서는 어떤 모델이 더 좋은지 인간 사용자가 서열을 지정하는 방식으로 모델을 만든다. 이후 3단계에서는 실제로도 효과가 좋았는지 확인하는 과정을 거치며 미세보정하는데, 2,3단계를 반복하다보면 적절한 모델을 고르고, 그 모델이 좀 더 정확해질 것이라는 기대가 깔린 모델이다.

이 때 핵심은 1단계에서 만드는 SFT다. 비록 3단계에서 SFT의 정확도를 좀 더 끌어올리는 작업이 진행되기는 하지만, 2단계에서 인간 사용자가 골라준 모델을 개선하는 것이기 때문에, 인간 사용자 입장에서 확인하는 정보는 1단계에서 만들어진 SFT 밖에 없기 때문이다.

SFT의 중요성을 설명하기 위해 잠깐 챗GPT를 벗어나 과거 사례를 갖고 오면, 구글이 이미지 인식을 검색 서비스로 제공하기 위해 했던 도전 중 하나가 데이터 분류였다. 사자, 호랑이, 사슴 등등의 이미지들을 인간이 최대한 분류해놓고, 해당 이미지들로 각각의 특징 이미지에 맞는 훈련을 시켜 사자, 호랑이, 사슴 등등의 이미지를 매우 높은 정확도로 구분해낼 수 있는 알고리즘을 만든 후, 각 타입별 알고리즘을 결합한 모델을 만들면 다양한 이미지를 인식할 수 있는 통합형 알고리즘이 된다.

챗GPT도 SFT를 세분화해서 각각의 주제에 대해 학습된 알고리즘을 만든 후, 2단계에서 인간 사용자가 적절한 SFT를 골라 3단계에 넘겨주는 방식으로 구성이 됐다.

기존 예상과 사용자 반응을 결합해 정확도 개선하는 모델

이 부분에서 AGI에 맹목적인 믿음을 갖는 관계자 분들이 납득할 수 없다는 반응을 보이셨는데, 실제 논문에서 가장 핵심 중 하나인 기본 수식으로 돌아가보자.

GPT 모델에서 쓰는 최적화 계산은 크게 2개 부분으로 나뉘어 진다. 위의 이미지에서 (2)번 목적함수로 나타난 식의 앞 부분은 2,3단계에서 얻은 사용자 반응값으로 모델을 미세조정할지 여부를 결정하는 부분이고, 뒷 부분은 SFT가 기반하고 있는 기존 데이터 정보(Pretrain)를 어느 비율로 쓸지를 결정하는 부분이다.

2, 3단계에서 특별히 개선사항이 없다면 1단계의 SFT에 의존하게 되고, 변동사항이 있는 부분만 최적화에 추가로 반영된다.

논문 저자들은 SFT를 과거의 다양한 GPT들과 비교했고, 약 1백만개의 데이터를 활용해 적절한 SFT를 만들어냈다고 설명한다. SFT 이후에는 인간 사용자가 2단계에서 적절한 SFT를 선택하는 것 이외에는 컴퓨터 계산을 반복하는 작업을 통해 SFT를 미세 보정하는 것이 전부다.

사용자 반응이 일률적이지 않다면 오류 발생

문제는 인간 사용자의 피드백이 일률적으로 작동하지 않는다는 점이다.

선호 이론에서는 인간의 선호가 완비성, 이행성, 연속성, 강단조성 등의 공리(Axiom)을 충족해야 완성된 선호 체계가 구축된다고 설명한다. 공리가 깨지는 쉬운 예시를 들면, 2개의 과일 중 선호를 비교할 경우에 ‘사과>배’, ‘배>오렌지’ 일 경우 논리적으로는 ‘사과>오렌지’여야 하지만, 때때로 사람들은 ‘오렌지>사과’를 선택하게 되는 경우가 있다. 선호 이론에서 완성된 논리가 아니라는 뜻은 컴퓨터 프로그램으로 입력했을 때도 오류가 난다는 뜻이다.

좀 더 챗GPT와 적절한 예시를 고르면, 사용자의 특정 질문에 대해 어떤 SFT를 골라 답변을 제공해야하는지가 사용자마다 다를 수 있다는 것이다. 예를 들어 LGBTQ+라는 최근의 성소수자 보호 운동에 공감하는 사용자에게 답변하는 내용과 그런 운동에 반감을 가진 사용자에게 답변하는 내용이 달라져야 한다.

즉, 적절한 SFT를 골라야 이후 2, 3단계를 거치며 사용자가 원하는 답변을 찾아낼 수 있는 확률이 높아진다.

적절한 프롬프트(Prompt) 지정의 중요성과 그 한계점

때문에 어떤 정보를 찾고 있다는 것을 챗GPT에 알려주는 것이 2단계의 순서 정하기에 결정적인 도움을 줄 수 있다. 영어권에서는 유명 작가의 이름을 지정하며 해당 작가의 글쓰기 스타일로 예시 문장을 뽑아달라고 지정하거나, 특정 개발 언어의 특정 프레임워크에 맞춰 코드를 생산해내달라고 명령을 내리는 각종 예시가 이미 널리 퍼져있고, 프롬프트(Prompt)를 잘 지정한 경우에는 시행착오를 줄여준다는 이유로 판매 상품으로 만든 경우도 빠르게 증가하는 추세다.

실리콘밸리의 일부 스타트업은 ‘프롬프트 엔지니어(Prompt Engineer)’에게 375,000 달러(원화 약 4억원)의 연봉을 제시하기도 했다. 적절한 질문을 던지는 것이 그만큼 중요하기 때문이다. 이것을 위의 모델 관점에서 보면 어떤 SFT를 2단계에서 골라야 하는지 미리 알려주는 것이 그만큼 중요하다고 이해하면 된다.

반면, 아무리 적절한 프롬프트를 지정해줘도 데이터 자체가 오류일 때는 2, 3단계에서 자체 보정이 불가능하다. 이미 1단계에서 SFT가 잘못된 형태로 만들어진데다, 새로운 데이터도 잘못된 정보 밖에 없기 때문이다. 국내에 이미 알려진대로 가수 싸이의 병역 논란이나 한국 국적을 포기했던 스티븐 유의 군복무에 대해 잘못된 대답을 내놓는 것이 그 예시다.

논리적인 추론이 아니라 기존 데이터를 결합해서 답변을 만들어 준다는 점도 프롬프트의 한계점이다. 영어권에서는 간단한 연립방정식에 해당하는 문제를 제대로 답변하지 못하는 예시가 이미 여러차례 공유되고 있고, 국내 커뮤니티에서도 자료가 공유되며 챗GPT의 논리적 추론 능력에 대해서는 일반 사용자들 사이에서도 공감대가 형성되어 있는 것으로 안다.

GPT 방식의 LLM이 사용될 수 있는 곳

모델 구조를 이해하고 나면 사용처와 이용 방식을 추론할 수 있는데, 최근 뉴욕에서는 방송국들이 방송 작가들을 비정규직으로 돌리겠다고 발표해 화제가 된 바 있다. GPT를 통해 과거 방송분과 비슷한 ‘스크립트(Script, 방송 대사 및 무대 지정 사항 등)’를 만들어 낼 수 있는 만큼, 작가 중 아직 전문성을 확보하지 못한 초급 작가들을 쓰지 않고 실력 있는 전문 작가들 위주로 작가 팀을 운영하겠다는 뜻이다. 고도의 논리적 추론, 창의성, 직관 등이 필요한 분야에만 고급 인력을 활용하고, 그 외에 단순 반복 업무에 가까운 업무일수록 GPT로 대체하겠다는 맥락으로 이해할 수 있다.

자칫 모든 인간 업무가 인공지능에 의해 대체되는 것이 아니냐는 의문도 있으나, 한계도 명백하다. 우선 자연어, 컴퓨터 개발 언어 등의 언어 활용 분야, 혹은 정해진 패턴이 반복되는 분야에 한정된다는 점을 들 수 있다. 방송 작가, 소프트웨어 개발자 등은 초급 인력일수록 기존 자료를 재구성하는 업무에 지나지 않기 때문에 대체 가능성이 높은 반면, 논리력을 동원한 계산 업무는 GPT 방식의 LLM 모델로 도전할 수 있는 분야가 아니다.

미국 브리검영대 회계학과에서는 지난 4월에 챗GPT에게 회계학 과목 시험을 치르는 실험을 진행한 바 있다. 챗GPT의 전체 정답률은 47.4%로 학생 평균인 76.7%에 크게 못 미치는 결과가 나왔는데, 특히 세금, 재무, 관리평가 등의 논리적 추론 및 계산을 활용하는 분야에서 감점 폭이 컸다. 반면 OX문제 및 단순 객관식에서 높은 점수를 얻었고, 특히 회계학과 학생들 사이에서 암기과목으로 알려진 AIS와 감사 분야에서 우수한 성적을 얻었다.

챗GPT로 인해 생성AI에 대한 일반의 관심이 증폭되면서 각종 억측이 난무하지만, 챗GPT가 기반하고 있는 LLM 모델과 구성 방식을 이해하고 나면 적용될 수 있는 분야, 적용되는 업무 방식이 분명해진다. 위에서 정리한대로, GPT 계열의 모델들은 반복 패턴이 자주 등장하는 자연어 업무, 컴퓨터 언어 업무를 비롯, 단순 반복적인 이미지 생성 등의 영역에서 초급 인력의 시장 진입을 차단하게 될 가능성이 높다. 기업들은 컴퓨터로 빠르게 생성해낼 수 있는 콘텐츠에 많은 비용을 지불하려고 하지 않을 것이다. 반면, 논리적 추론을 필요로 하는 능력, 추론 기반의 계산이 업무의 핵심인 영역 등은 GPT 열풍으로 인력 구성이 크게 바뀔 확률은 낮다.