ChatGPT는 실험에 불과, Attention mechanism도 데이터셋 특화된 계산법에 불과
지난해 11월 말에 ChatGPT가 출시되고 2개월만에 사용자가 1억명을 넘었다는 보도가 있었다. 이제 만 2개월이 좀 더 지난 시점인데, 수익화를 위해서 개발사인 OpenAI가 서두르는 것을 보면서, 게임 이상으로 현실 서비스를 뜯어 고칠 수 있을까는 의문을 던져봤다.
한 언론사 기자 지원을 했던 학생이 ChatGPT에서 정보를 얻어 기사 샘플을 작성했다며 제출했단다. 솔직히 밝혀줘서 고맙다면서 글을 읽어본 경력직 기자 분은 ‘XX위키 베꼈네요?’라고 평가했다. 글 쓰기 업무를 가장 쉽게 대체할 수 있을 것이라고 생각했는데, 경력직 기자의 눈에 인터넷의 정보성 글을 베낀 것에 불과하다는 평이 나온 것이다.
ChatGPT, 알고리즘 구조 바꾼다로 AI혁명 일어나는 것 아냐
실제로 ChatGPT가 할 수 있는 일이 딱 그 정도에 불과하다. 질문한 내용에 있는 키워드를 바탕으로 정보 검색을 한 후, 적절한 정보를 찾아내서 정리하는 것이다. 이 때 활용하는 정보가 얼마나 정확한지는 이용자의 반응을 보면서 판단한다는 것이 ChatGPT가 기반하고 있는 ‘인간 피드백형 강화학습 (Reinforcement Learning with Human Feedback)’이다.
어떻게 비슷한 정보인지 찾아내는지는 Attention mechanism으로 불리는 딥러닝의 변형 모델을 이용한다. 기존의 통계학이 정규분포가 아닌 데이터에서 비선형 요인 분석(Non-linear Factor Analysis)에서 한계를 겪었는데, 이걸 신경망(Neural Network)라는 계산법을 이용해 비선형의 패턴을 찾아냈었다. 그러나 복잡한 패턴을 찾아내는데 여전히 한계점을 드려냈고, 계산이 뒤죽박죽되어 패턴 추출이 어려워지니, 데이터 간 연결 구조가 있을 것으로 짐작되는 구간들을 묶는 방식의 집합법(Clustering) 방식으로 Non-linear Factor Analysis를 대체하게 된다.
Clustering이 아마 머신러닝 기초 교과서에는 비지도학습(Unsupervised Learning)으로 배정되어 있을텐데, 결국 마지막으로 상품화 하기 전에는 인간이 들어가서 검증(Test)하는 절차를 거친다. ChatGPT가 활용하고 있는 Attention mechanism은 바로 그 ‘인간이 들어가서 검증’하는 부분에서 ‘인간 피드백’을 활용하고, 그 반응들을 모아 Non-linear Factor Analysis를 좀 더 효율적으로 하겠다는 것이다.
정리하면, 기존 딥러닝이 가진 문제를 해결하기 위해 계산 도구를 Neural Network에서 Clustering으로 바꿨고, 인간의 피드백을 활용해 Clustering에 필요한 검증 작업을 진행한다는 것이 요지다. 큰 틀에서 Non-linear Factor Analysis라는 통계적 계산을 좀 더 효율적으로 하기 위해 계산 도구를 변형한 것이다.
쉽게 예시를 들면, 도축한 소의 부위별로 고기를 잘라야 하는데, 예전에는 1개의 칼을 1명의 도축 전문가가 썼고, 딥러닝이라는 계산은 N개의 칼을 쓰는 시스템을 만들었는데 제대로 부위별로 안 나뉘니까, 이번엔 칼 모양을 좀 바꿔봤다는 것이다.
ChatGPT가 의존하고 있는 계산법이 ‘채팅’이라는 구조를 이용해 인간의 피드백을 활용하고 있는데, 채팅이 아닌 다른 방식으로라도 인간의 피드백을 활용할 수 있는 곳에는 유용하게 쓰일 수 있을 것이다.
반면, 인간 피드백 없이 복잡한 패턴을 찾아내야 한다면 여전히 딥러닝이 최적 계산법이다. 아니 그 전에, 그 데이터가 정규분포 성질을 갖고 있다면 굳이 딥러닝처럼 계산 비용이 많이 들어가는 접근법 대신, 학부 수준의 간단한 Factor Analysis로도 충분하다.
한 마리 소를 도축하겠다고 초 대형 공장을 지을 필요가 없고, 소의 고기 부위가 쉽게 잘 분리된다고 해도 굳이 공장에 자동화 시스템을 붙일 필요가 없다. 하루 수천 마리의 소를 도축해야 하고, 고기 부위가 잘 분리 되지 않는 경우에 이런 시스템이 의미가 있는 것이다.
적어도 국내 대부분의 회사들이 ‘빅데이터 속에서 숨겨진 정보를 찾아낸다’는 주장을 할 때, 대부분은 학부 수준의 간단한 Factor Analysis로도 충분하다. 오히려 Factor Analysis 이외의 다른 데이터 전처리가 더 큰 문제가 되겠지.
ChatGPT의 한계 – 쓰레기를 입력하면 쓰레기가 나온다(Garbage in, garbage out)
돌아와서, ChatGPT가 사용자들을 끌어들이고 나니, 한국의 각종 커뮤니티들에 ChatGPT의 성능이 좋지 않다는 글들이 올라온다. 가수 스티븐 유, 싸이에 대한 질문을 던졌더니 실제와는 다른 정보가 나왔다는 것이다.
예를 들어, 가수 싸이의 경우는 ‘강남스타일’로 세계적인 명성을 얻은 이후에 다시 공익요원으로 군복무를 마쳤다는 답변이 나왔다. 현실을 재입대로 정상 군복무를 마친 후에 ‘강남스타일’로 세계적인 명성을 얻었다. 한국 국적을 버린 가수 스티븐 유의 경우에는 2006년에 한국 국적을 취득했고, 2014년부터는 한국에서 활동하고 있다는 오류 섞인 답변을 내놨다.
아마 출처였던 인터넷의 어느 정보가 저런 내용을 담고 있었고, Attention mechanism이 스티븐 유, 유승준 등의 키워드와 연관 키워드라고 계산한 다음, 그 계산에 맞춰 문장을 재구성해 저렇게 답변을 내놨을 것이다. 아마 저런 답변이 인터넷 커뮤니티에 돌아다니고 있다는 제보를 받은 내부 관리팀에서는 해당 정보가 담긴 데이터 베이스(DB) 부분을 찾아 열심히 삭제하고 있을 것이다. 알고리즘을 고치기보다 오류 정보를 데이터 베이스에서 삭제하는 것이 훨씬 더 효율적인 시스템 운영법이기 때문이다.
AI라고 불리는 패턴 매칭 알고리즘에 대한 수학적, 통계학적 이해없이, 무조건 적으로 AI에 대한 광적인 믿음을 가진 분들은 딥러닝의 시대가 갔고, Attention이 전부인 시대가 왔다고들 주장한다. 아마 남의 논문을 베껴서 논문 출판 숫자를 늘려야 하는 수 많은 공학 연구 기관 관계자들도 그렇게 생각할지 모른다. 딥러닝으로 계산했다고 논문을 투고하는 것보다 Attention mechanism으로 계산했다고 투고하는게 더 출판될 확률이 높아졌기 때문이다.
그러나, 실제로 바뀐 것은 계산법 하나에 불과하다. 여전히 데이터 속에서 패턴을 찾아내되, 그 패턴이 단순한 패턴이 아니라 복잡한 패턴이어서, 데이터 별로 적절한 패턴을 찾아낼 계산법이 더 추가된 것에 지나지 않는다. 그렇게 각종 계산법이 무조건 99.999%, 아니 100%의 정답을 내놓는 것은 불가능하다. 저 위의 ChatGPT가 내놓은 답변이 대표적인 사례다.
얼마나 우수한 인재들이 투입됐고, 얼마나 큰 비용이 들어갔고, 얼마나 많은 마케팅을 했나? 그럼에도 불구하고 제공된 데이터를 연결해서 만들어낸 답변은, 결국 그 데이터의 정확도에 의존할 수 밖에 없다.
ChatGPT가 출시되고 난 다음에, 아마 검색 엔진에 유의미하게 쓰일 수 있을 것이라는 예측을 했었다. 한 페이지 10개의 선택지를 제공해주는 검색 알고리즘이 반드시 정답 10개를 제시해야 할 필요는 없으니까.
ChatGPT를 이용해 신문기사 과제를 작성했다는 그 학생 지원자 분이 하셨던 작업은, 굳이 따지자면 구글로 인터넷 검색을 해서 얻은 정보들을 직접 ‘짜집기’ 한 것이 아니라, 컴퓨터가 대신 ‘짜집기’ 해 준 것에 불과했다. 만약 그 정보들이 10년차 경력직 기자들이 쓴 내용이었다면 아마 그 과제로 합격할 수 있었을지도 모른다.
ChatGPT를 비롯한 각종 AI서비스들이 갈 길은 아이러니하게도 완벽한 알고리즘을 찾는 것이 아니라, 깔끔하게 잘 정리된 데이터 셋을 찾는 것이라는 결론을 얻을 수 있다.