AI 과대광고의 허상과 데이터 과학의 현주소

AI 열풍에 휩쓸린 사람들은 대부분 심각한 오해에 빠져 있어
현재 AI/데이터 과학은 여전히 통계적 방법론에 국한돼
과장된 선전은 무지와 오해를 키울 뿐

AI/데이터 과학 교수로 일하다 보면, 이따금 AI 과대광고에 휩쓸린 사람들로부터 이메일을 받곤 한다. 그들이 ‘최신 AI’라고 부르는 것으로 내가 평소 비관적으로 생각해 온 문제들을 모두 해결할 수 있다고 주장하는 내용들이다. 보통 이런 사람들은 ‘최신 AI’ 프로그램이 스스로 학습하여 인간의 지능 수준을 완전히 뛰어넘은 ‘인공 일반 지능'(AGI)에 근접했다고 여기는 열렬한 AI 신봉자들이다.

사업 초기에는 이런 분들에게도 양질의 답변을 보내곤 했다. 하지만 곧 사람들은 자신이 듣고 싶은 말만 듣고, 비판적인 의견에는 귀를 닫거나 공격적으로 나온다는 사실을 깨달았다. 다행히 현재는 상황이 나아져서, 나의 직접적인 개입 없이도 여러 매체를 통해 인공지능의 한계에 대한 정보가 전해지고 있다. 특히 지난주에는 미국 과학전문지 사이언티픽 아메리칸에서 인공지능으로 가장했던 자동화의 역사가 실은 사람의 개입이 필수적이었다는 내용의 기사를 접하기도 했다. (Is There a Human Hiding behind That Robot or AI? A Brief History of Automatons That Were Actually People | Scientific American)

LinkedIn Meme UnEmployed — 출처=X (Twitter)

인공지능 신봉자들의 근거 없는 AGI에 대한 꿈

물론 현재의 AI 도구들이 사이언티픽 아메리칸 기사에 소개된 과거의 ‘기계’보다 훨씬 발전했다는 사실은 분명하다. 하지만 인간이 만든 AI 도구는 여전히 패턴을 찾고, 공통된 부분을 추출하여 추상화하는 데에 머물고 있다. 이 과정에는 인간이 발견한 것이든 인간이 프로그래밍한 코드가 발견한 것이든 간에 논리를 구현해야 하는데, 우리가 의존하는 기계 코드는 아쉽게도 여전히 통계적 접근에 국한되어 있다. 다시 말해 모든 문제를 마법처럼 해결해 주는 AGI 시대는 아직 오지 않았다는 것이다.

AI 열풍의 추종자들은 최신 AI 도구들이 인간의 개입만큼은 극복했다고 반박하는데, 현실과는 거리가 먼 얘기다. 아마존의 “인간 계산원이 필요 없는” AI 계산대조차도 앞서 언급된 기사에 따르면, 수많은 원격 인간 검사자들에 의존하는 것으로 드러났다. 게다가 영수증을 조회하는 데 걸리는 시간도 너무 오래 걸려, 최근 아마존은 공식적으로 저스트워크아웃 기술을 축소·폐지하기로 결정했다. 이번 아마존의 결정은 인공지능 기술의 한계와 실상을 보여주는 대표적인 사례로 꼽혀 많은 이들에게 실망감을 안겨줬다. 자본과 인재를 확보한 글로벌 기술 기업이 간단해 보이는 자동 계산 기술조차 구현하지 못했는데, 혁신적인 AI 모델을 연구·개발하는 것은 그만큼 상상 이상으로 어려운 일인 것이다.

실제로 AI 학술지에 실린 연구 논문 중 대다수는 기존의 선도적인 연구에 약간의 변형을 더한 것에 불과하다. 2류(또는 그 이하) AI 학술지에 실린 연구 논문 10편 중 9편, 아니 100편 중 99편이 재생산에 가까운 논문들이다. AI 분야의 선도적인 논문들은 다른 모든 분야와 마찬가지로, 새로운 데이터 세트와 목적에 맞게 계산 방법론 변경한다. 아울러 그 기법 자체도 독창적이며 아직 해결되지 않은 많은 문제를 푸는데 도움이 된다. 그러나 2류 이하의 논문들은 단순한 복제에 그치기 때문에, 최정상급 연구자들은 대개 이런 논문들에 시간을 낭비하지 않는다. 물론 최상위 저널조차도 획기적인 논문만 공개하는 것은 아니다. 혁신적인 논문이 그렇게 많지 않은 이유도 있지만, 학계에 조금이라도 기여할 수 있는 논문을 생산하는 과정 자체도 이미 굉장히 힘든 일이기 때문이다.

대학원 시절, 정보 흐름이 빨라지면서 금융 투자자들이 성공한 모델을 서로 따라 하는 행동이 가속화되어 금융 시장이 빠른 속도로 오버슈팅(과열/폭락)하는 현상을 모델링하려고 노력했었다. 이러한 정보 공유가 차선의 시장 균형을 만드는 과정을 ‘허쉬라이퍼 효과'(Hirshleifer effect)라고 부르는데, 이를 다양한 사례에 적용할 수 있는 방정식으로 모델링하는 것은 매우 어려운 작업이다. 연구자마다 다루는 문제와 배경이 달라 의견이 갈릴 수 있어, 하나의 공통된 형태로 결론이 날 가능성이 희박했다. 사실 이것이 바로 과학 분야가 작동하는 방식이다. 현실에서는 고려해야 할 특성이 수도 없이 많고, 분석 결과를 신뢰하기 위해서는 모델의 강건성도 치밀하게 검증해야 한다. 이러한 연구 과정을 아는 입장에서 보면, AI의 과대광고를 따르는 사람들이 주장하는 인공지능의 혁신 속도에 대해 공감하기 어려운 부분이 많을 수밖에 없다.

무지를 부추기는 과대광고

연구와 동떨어진 사람들, AI 열풍을 조장하는 마케팅 담당자들, 그리고 연구 결과는 이해하지 못하지만 마케터들의 캐치프레이즈는 곧잘 따라 할 수 있는 사람들이 우리를 좌절하게 만든다. 앞서 언급했듯이, “AI는 과대광고에 불과하며 현실은 그 캐치프레이즈와는 거리가 멀다”고 이들을 설득하려 했으나, 이제는 그만둔 지 오래다.

가끔 대학원에 진학하지 않은 주변 친구들도 AI 모델을 실제로 검증해 보기만 하면 가짜 AI를 구별할 수 있지 않냐고 반문한다. 예를 들어 한 AI 엔지니어가 자신의 인공지능 모델이 월스트리트의 최고 수준의 펀드 매니저들을 2~3배의 수익률 차이로 이길 수 있다고 주장한다면, 친구들은 벤처 캐피털리스트(VC) 관점에서 필요한 것은 일정 기간 테스트를 해보는 것이라며 단순하게 접근한다.

친구들의 말처럼 그 엔지니어는 실패한 결과를 보여줄 만큼 똑똑하지 않을 수도 있다. 하지만 일련의 펀딩 실패를 경험한 그는 점점 더 영리해져, 어느 시점부터는 제한된 시간 안에서 성공한 테스트 사례들만 뽑아서 보여줄 수 있는 능력을 갖추게 될 것이다. 그러면 VC 친구들은 속아 넘어갈 가능성이 높아진다. 결과적으로 시장에서 지속적으로 이길 수 있는 알고리즘은 존재하지 않는다. 그런 모델이 정말 있었다면, 그 AI 엔지니어는 VC 펀딩을 받지 않았을 거다. 헤지펀드를 직접 차리거나, 그냥 본인 돈으로 트레이딩을 하지, 100% 확률로 리스크 없이 시장을 이길 수 있는데, 다른 사람과 수익을 공유해야 하는 이유가 없기 때문이다.

과대광고는 몇 번의 테스트 실패가 아니라 마케팅 예산이 없어져야 사라진다

무지한 VC들이 속아 넘어가는 한, AI의 허상은 지속될 수밖에 없다. 일단 자금이 확보되면 AI 스타트업들은 더 많은 마케팅 수단을 동원해 잠재적 투자자들을 현혹해 더 많은 투자를 유치할 것이다.

검증에 여러 차례 실패하거나 펀드 구매자의 돈으로 이루어진 실제 알고리즘 투자 역시 실패할 수 있다. 투자를 맡긴 고객들이 불만을 토로하기 시작하겠지만, 그때는 VC 투자금이 마르지 않아 과대광고는 멈추지 않을 가능성이 높다. 또한 VC들도 투자한 스타트업의 가치를 끌어올리기 위해 필사적으로 노력할 것이며, 그 과정에서 그들도 거짓말 서슴지 않을 것이다. VC들이 검증에 실패한 사실·이유에 대해 잘 모를 수도 있지만, 화가 난 고객들의 불만을 듣지 않았을 리는 없다. 따라서 VC의 거짓말은, 의도적이지 않더라도, 결과적으로 과장된 기대를 부추기게 된다.

AI의 허상이 완전히 사라지는 시점은 사람들이 그 이야기를 멈출 때이다. 제품 자체의 혁신성이나 실제 활용 사례가 없다면, 결국 사람들은 점차 제품이 갖는 가치에 의문을 갖고, 이것이 단지 마케팅의 과장에 불과하다는 것을 인지하게 된다. 입소문이 줄어들고 고객이 이탈하면, 마케팅만으로는 더 이상 환상을 유지할 수 없다. 사라져가는 허상을 되살리기 위해 회사는 마케팅에 더 많은 예산을 쓸 수 있지만, 현금이 바닥나면 이를 지속할 수 없다. 결국 마케팅 예산이 소진되면, 사람들은 다른 기술이나 제품에 관심을 돌리고 AI 열풍은 자연스럽게 사라질 것이다.

그러면 AI 추종자들이 보내는 지겨운 비판 메일도 더 이상 오지 않을 것이다.

AI의 과장된 열기에 편승하기보다, AI/데이터 과학을 공부한 사람들

반대로 깃허브에서 코드 몇 줄 베끼는 정도로는 전문가가 될 수 없다는 걸 금방 깨닫는 사람들도 있다. 기술 블로그나 교과서를 뒤적이는 방법도 있지만, 똑똑한 사람일수록 학부 시절에는 배우지 못한 데이터 과학에 필요한 수학, 통계, 그리고 과학적 배경지식이 얼마나 방대한지 훨씬 빨리 눈치챈다. 결국 자연스럽게 이들은 제대로 된 교육 프로그램을 찾아 나서게 된다.

지난 7~8년 사이 많은 대학이 AI/데이터 과학 전공을 신설했다. 초창기에는 많은 교육 프로그램이 컴퓨터 프로그래밍에 지나치게 집중되어 있었지만, 인증기관의 등장과 코딩 부트캠프와의 경쟁 등으로 인해 현재는 미국 최고 연구 대학들(또는 세계적으로 비슷한 수준의 대학들)에서 제공하는 AI/데이터 과학 프로그램은 수학을 상당히 강조한다.

그 결과 찾아온 많은 학생이 실패했다. 제대로 된 데이터 과학자로 성장하려면 깃허브에서 코드 몇 줄 베끼는 것 이상의 수학·통계학 지식이 필요하기 때문이다. 예를 들어, 우리 교육기관에서는 학사 수준의 AI MBA와 AI/데이터 과학 석사(MSc) 프로그램을 운영하고 있다. 대부분의 학생은 AI MBA보다 MSc 과정에 도전해 보고 싶어 하지만, 살아남는 학생은 극소수에 불과했다. 심지어 학부 수준에 해당하는 AI MBA 과정조차도 이해하기 힘들어하는 경우가 많았다. 미국 최상위 대학의 STEM 전공 탈락률을 고려하면 놀라운 결과는 아니라고 생각한다.

좌절하고 포기한 학생들도 그저 AI 열풍만 쫓는 사람들보다는 나은 편이다. 아마도 무지한 VC 친구들처럼 알고리즘 투자 스타트업에 속을 일은 없을 것이다. 하지만 STEM 분야 학위를 따기엔 역량이 부족하다는 사실에는 변함이 없다. 학위 없이 학교를 떠나는 그들을 보면 안타깝지만, 학교는 학위 제조 공장이 아니기 때문에 무거운 마음을 삼킬 수밖에 없다. 그만큼 현장에서 인사이트를 뽑아내고 가치를 창출할 수 있는 데이터 과학자로 성장하는 것은 어려운 일이다.

인공지능/데이터 과학 고용 시장의 불편한 두 얼굴

반짝이는 성적표와 함께 훌륭한 논문을 쓴 졸업생들이 괜찮은 데이터 과학 일자리를 찾는 것을 보면 기분이 정말 좋아진다. 하지만 취업 후 그들이 마주하는 고객·고용주들은 대부분 AI 열풍에 휩쓸린 사람들이다. 동문 행사에 참석할 때마다 학생들이 업무 환경에 대한 불만을 쏟아내곤 한다.

나에게는 이게 양면성을 가진 문제로 보인다. 한편으로 회사 관계자들이 데이터 과학자를 채용하는 것은 그들이 AI 과대광고를 믿었기 때문이다. AI 제품을 만드는 방법을 모르지만, 경쟁사와 같거나 더 나은 AI 제품을 만들고 싶어 하기 때문에 돈을 가진 AI 신봉자들이 데이터 과학자의 고용 시장을 만들어낸 것이다. 다른 한편으로는 이런 고용주들이 온갖 종류의 AI 과대광고를 듣고 그것을 모두 믿어버리기 때문에, 아마도 그들의 머리에서 나온 전략과 업무 지시 내용은 현실과는 거리가 먼 허무맹랑한 과제들의 연속일 것이다.

고용주가 나와 같은 수준의 데이터 과학 지식을 가지고 있었다면, 실현할 수 없는 제품을 만들기 위해 데이터 과학팀 전체를 고용하는 일은 일어나지 않았을 것이다. 또한 금융 시장에서 지속적으로 이길 수 있는 AI 알고리즘이 없다는 것을 알았다면, 금융 스타트업에 투자하는 VC들도 없었을 것이다. 그러면 아이러니하게도 데이터 과학의 고용 시장은 오히려 축소됐을 수도 있다.

물론 많은 유능한 전문가들이 과장된 마케팅에 뛰어들지 않아 시장에서 크게 주목 받지 못해 조용히 이 분야에서 활동하고 있음을 알고 있다. 이들의 역량은 세계 최고 수준의 연구자들과 견줄만하거나 더 뛰어날 수도 있을 것이다. 그러나 그런 최고의 팀들과 협력한다 해도 인공지능과 데이터 과학으로 해결할 수 있는 일과 할 수 없는 일이 분명히 존재한다.

AI의 과장된 광고는 무지와 오해를 낳을 뿐이다. 데이터 과학의 본질과 그 역할에 대해 심도 있는 고민이 필요한 시점이다.