딥시크(DeepSeek)가 되살린 계산 비용 절감 패러다임

Picture

Member for

4 months 2 weeks

Real name

Keith Lee

Bio

Head of GIAI Korea
Professor of AI/Data Science @ SIAI

입력

2025-01-29 00:00

수정

2025-02-12 21:40

중국에서 만들었다는 LLM 모델이 전세계 시장을 강타하고 있다. 서비스 이름은 '딥시크(DeepSeek)'다.

그간 LLM 분야에서 가장 선두주자였던 오픈AI가 이름만 '오픈'이지 실제로는 소스 코드도 공개 안 하고, 누적 투자금 178억 달러 (2024년 12월 기준)에 달하는 천문학적인 투자금만 들어간 상태에서 수익성을 못 낸다고 각종 비난을 받았는데, 딥시크는 오픈AI의 GPT4 대비 1/18의 비용만으로 만들었다고 말들이 많다.

그간 LLM 모델 학습의 필수라고 알려진 그래픽 카드 기업 엔비디아의 주가는 하루 아침에 17%나 빠졌고, 장기적으로는 더 추락할 것이라는 이야기들이 나온다. 그간 엔비디아에 HBM을 공급한다는 이유로 덩달아 주가 부양이 됐었던 한국의 SK하이닉스 및 협력사들도 동반 주가 폭락을 경험할 가능성이 높다.

그럼 이제 그래픽 카드로 LLM 훈련 시키는 시대는 끝났을까?

'계산 비용' 최적화 시대로의 회귀

우리 SIAI의 AI MBA 과정 4번째 수업 이름은 '과학적 프로그래밍(Scientific Programming, SP)'이다.

기초적인 수학, 통계학을 이용해서 '데이터로 문제를 풀어내는 법'을 3과목에 압축해 반쯤 주입식 교육을 하고 난 다음에 바로 던져주는 과목이다.

밖에서는 '코딩'을 잘해야 '데이터 과학자'라고 하면서 개발자들 방식으로 '코딩'을 가르치던데, 우리는 SP 수업에서 여러 계산법들이 어떤 역사적인 배경, 데이터 활용을 고려해서 만들어졌는지를 가르쳐주고, 거기에 따라 '계산 효율성(Computational Efficiency)'이 어떻게 바뀌는지를 간단 과제들로 직접 경험하게 해 준다. 데이터 과학자들에게 필요한 코딩은 개발자들 방식의 상용 프로그램 설계가 아니라, 효율적인 계산에 있기 때문이다.

이 수업은 겉으로 보기에는 많은 코딩 과제를 제출해야 하는 수업이지만, 사실은 20가지 계산법들을 배우고, 그 계산법들 각각이

$\text{Computational Efficiency} = \frac{1}{\text{Computational Cost}} \times \frac{1}{\text{Computational Error}}$

라는 기준에 따라 비교, 평가될 수 있다는 논리를 가르치는 수업이다.

참고로 계산 비용(Computational Cost)은 필요한 전력, 하드웨어, 시간 등을 말하고, 계산 오차(Computational Error)는 흔히 보는 Mean-Squared-Error (MSE), 혹은 계산 상황에 맞게 적절히 가중치를 변경한 오차 모델을 쓰면 된다. 학생들에게 가르칠 때는 주어진 하드웨어를 놓고 시간과 MSE를 이용해서 계산 효율성 비교 그래프를 그리라고 시키고, 데이터의 형태가 바뀌고 계산 모델이 바뀌면서 순위가 역전되는 걸 경험하도록 수업을 만들어 놨다. 기말고사 문제들 뒷 부분에는 MSE 대신 다른 오차 모델을 썼을 때 계산 효율성 순서가 어떻게 뒤집어질지 추론해라는 사고 실험을 덧붙여주기도 한다.

저 수업을 제대로 들은 한 학생이 국내 모 대기업에 데이터 사업 관련 프로젝트 발주를 들어간 경험을 이야기해 준 적이 있는데,

계산비용(Computational Cost)이라는 개념 자체가 아예 없으시더라구요

무슨 말인지는 이해 못해도, 이렇게 하면 정확도 0.1%만 손해보고 클라우드 비용을 1/5로 줄일 수 있다고 하니까 눈이 번쩍 뜨이는 표정을 지으시더라구요

라는 말도 들었고, 그 컨설팅 업체가 국내 모 유명 통계학 교수가 자기네 대학원 학생들 데리고 운영하는 조직인데,

도대체 이런건 어디에서 배웠냐? 이런게 해외에서 배운다는 그런거냐?

라는 질문을 들었다는 이야기도 전해들었다.

그간 한국 IT업계가 IT개발자들을 데리고 'AI프로젝트'를 하다보니 그저 비싼 그래픽 카드를 사서 붙여서 정확도만 높이면 된다는 안이한 생각을 했었기 때문에, 저런 기초적인 학문적 지식, '과학적 프로그래밍'이라는 지식이 없었다는 것을 잘 보여주는 사례가 될 것이다.

딥시크(DeepSeek)와 과학적 프로그래밍

딥시크가 외부에 공개한 내용과 내부적으로 돌아가는 상황이 얼마나 다를지는 알 수 없지만, 앞으로 이용자 경험이 쌓이면서 이것저것 몰랐던 내용들이 등장할 수도 있지만, 적어도 이것 하나만은 확실히 이야기 할 수 있다.

오픈AI가 들였던 비용의 1/10도 안 들이고 유사하게 작동하는 시스템을 만들어 냈다.

그간 줄곧 H100/200 같은 고가의 그래픽 카드를 쓰는 것이 저 도전의 열쇠를 풀어내는 것이 아니라, 계산 알고리즘을 얼마나 효율적으로 짜느냐에 달려 있다는 이야기를 여러번 했었다. 우리학교 AI MBA 과정의 초반부에 SP를 가르친다는 것은, 일반적으로 이쪽 학문을 공부하는 사람들에게 가장 기초적이고 상식적인 지식이라는 뜻이다. 내 입장에서는 지극히 상식적인 지식, 필수적인 지식이기 때문에 초반부에 이 과목을 가르쳤다.

그 과목 후반부에 기말 시험을 치를 시점이 되면 학생들이 드디어 '딥러닝 매니악'을 왜 내가 그렇게 싫어하고 무시하는지를 뼈저리게 공감한다. 무조건, 어떤 문제건, 그냥 모르겠으면 별 생각없이, '딥러닝'으로 해결하면 된다는 이야기가 얼마나 조잡한 수준인지를 본인들 스스로 깨달았기 때문일 것이다.

딥시크도 그런 철학을 바탕으로 만들어 진 서비스다.

미국의 수출 제한 때문에 H100/200을 많이 못 구했을 수도 있고, 몰래 수출 우회로를 통해서 물량을 확보했을 수도 있다. 그렇지만 현재까지 알려진 외부 투자금과 계산 모델을 봤을 때, 오픈AI나 미국 주요 경쟁사들처럼 막대한 물량을 갖고 있지는 않았을 가능성이 매우 높고, 자기들의 하드웨어 제한에 맞춰 계산 방법들을 효율화 했다.

SP를 제대로 이해하고 있기 때문에, 계산 비용을 조금이라도 줄이면서 최적화 작업을 했다는 뜻이다.

더 빠른 계산 vs. 효율적인 계산

저 과목을 가르치고 난 직후, 국내 모 초명문대학에서 컴퓨터 공학 학·석·박을 하고 모 대기업에서 부장을 하시다가, 계산 속도를 엄청나게 끌어올리는 사업 모델을 갖춘 어느 스타트업에 CTO로 이직하신 분과 대화를 나눈 적이 있다. 그 대기업이 투자한 스타트업이고, 그 분은 우리 SIAI의 AI MBA에 와 계신 분이었다.

SP를 잘 들으셨으면 나 같은 사람들이 '계산 속도를 끌어올리는'데 막대한 비용을 투자하는 프로젝트에 큰 관심이 없다는 것을 깨달으셨을텐데, 계산 속도를 끌어올리는데만 초점을 맞추고 있으시더라.

그 분께 웃으면서

수업 들으신대로 DGP*에 맞춰서 데이터랑 모델 형태만 살짝 변경하면 계산 비용을 1/10, 1/100로 줄일 수 있는데, 제가 굳이 돈 내고 그런 서비스를 쓸려고 하겠습니까? Brain cost를 못 내는 사람들이나 그 비용을 지불하지 않겠습니까

라고 농담하고 대화를 끝냈었는데, 그 날은 아직 SP 수업의 의도가 온전히 전달이 되지 않았을지 몰라도, 딥시크를 보면서는 내 말의 의도를 공감하실 것이다.

(DGP*: Data Generating Process, 해당 데이터가 만들어지는 배경 상황)

내 의도를 잘 이해한 어느 AI MBA 학생 하나는 자기 논문의 핵심을 이렇게 이야기한다.

Brain cost를 약간 쓰면, Time cost, Financial cost를 모두 다 줄일 수 있습니다

두 분 중 한 분은 컴퓨터 공학으로 우리나라 최고 명문대에서 받을 수 있는 학위를 다 받은 분이고, 다른 한 분은 평범한 인서율 대학 문과 출신이다.

제대로 된 교육을 받은 분과, 한국식 교육으로 학위를 받은 분과 어떤 차이가 나는지 공감이 될 것이다.

이제 중국은 따라잡지도 못하는 나라가 됐다

박정희-전두환 대통령을 거치면서, 미국과 일본의 막대한 지원을 받으면서, 우리 국민들이 근면성실했던 덕분에, 우리나라는 불과 몇 십년 만에 글로벌 시장에서 수출경쟁력을 갖춘 국가로 성장할 수 있었다. 그 사이 사회주의 시스템 속에서 잘못된 정책만 반복하던 중국보다 1인당 국민 소득이 10배, 20배까지 뛰면서 압도적인 경제적 우위를 누렸는데, 1인당 평균 국민 소득이야 여전히 높을지 몰라도 이제 기술적인 우위는 끝났다는 생각이 든다.

한국에서 SP를 가르치면서 난 온갖 종류의 음해 공격, 조롱, 멸시를 당했다. 저 과목은 미 명문 스탠포드 대학의 산업공학과 학부 고학년 수업 일부를 내가 시뮬레이션으로 박사 과정하며 배운 지식에 녹여넣어서 만든 과목이다. 그런데 저 과목 시험 문제를 외부에 공개했더니 내 학부 전공이었던 경제학을 가르친다고 조롱하는 국내 커뮤니티 글들을 여럿 봤었다. 딥러닝만 잘 하면 되지, 뭐 이상한 거 가르친다는 이야기는 헤아릴 수 없이 많이 들었다.

아마 우리나라가 상식적으로 데이터 과학을 가르치는 나라였다면 내가 SP를 가르치기 전부터 이미 대학 교수들이 SP에 해당하는 교육 커리큘럼을 만들어놨을 것이고, SIAI에서 SP를 배운 학생들이 기업 현장에서 '계산 효율화'를 위한 계산법 변형, 데이터 구조 변형 이야기를 했을 때 무슨 말인지 말 귀를 못 알아 듣는 대기업 고객사 직원도 없었을 것이고, 국내 유명 통계학과 교수가 이끄는 데이터 컨설팅 팀이 "도대체 이런건 어디서 배웠냐?"라는 질문을 할 이유도 없었을 것이다. 저게 경제학인지, 계산과학인지 구분도 못하고 조롱이나 일삼는 커뮤니티 글들을 볼 일도 없었겠지.

얼마 전, L모 대기업이 회사 내에서 자체적으로 LLM 모델을 만들었다고 하더라. 다른 경쟁사들이 오픈 소스 LLM 모델을 살짝 고쳐서 쓰는 것과 달리, 자기들은 직접 만들었다고 자랑스럽게 발표했는데, 그 회사에서 자체 LLM을 직접 써 본 학생들의 이야기를 들어보면,

질문 4~5번 정도 지나가면 똑같은 답을 반복해서 큰 쓸모는 없지만...

이라는 표현이 따라 나온다. 내가 연습삼아 반나절 써서 만들어 봤던 toy model 보다 조금 더 나은 수준에 불과하다는 뜻이다.

그 예산의 1/10만 있었어도 난 훨씬 더 잘할 자신이 있지만, 나는 그런 사회적 인프라를 가진 사람도 아니고, 그냥 멀리서 한국 최상위권 대기업과 IT기업이 중국 스타트업들에 무시당하는 수준의 기술력으로 상품을 내놓는걸 바라보기만 할 뿐이다. 지적해서 고쳐주고 싶은 열정은 이미 오래 전에 잃어버렸고, 이젠 조롱하고 싶은 에너지도 없다.

정부가 주도적으로 SP라는 학문적인 지식을 이용해서 세계 각국의 견제를 극복하는데 막대한 투자금을 붓는 나라와, 대학과 기업이 껍데기 포장에만 바쁜 나라, 정부는 그저 그런 대학과 기업에 끌려다니기만 하는 나라, 혼자서라도 극복해보려는 도전자를 돈 키호테로 만들어버리는 나라 사이에 격차가 좁혀질 일이 있을까?

부럽고, 두렵다.

더 이상 안타깝지는 않다.

Picture