[기고] ‘시민 데이터 과학자’라는 어리석은 정책

'인공지능 전문가 = 코딩 전문가 = 개발자' 라는 잘못된 상식이 여전히 시장에 퍼져 있어
STEM 전공으로 석·박 훈련을 받지 않은 '시민 데이터 과학자' 만으로 충분하다는 주장 여전히 상존
훈련 받은 전문가들에게 조롱의 대상이 될 뿐인 결과물에 수십조원 예산 낭비 말아야

최근들어 머신러닝, 딥러닝, 생성형AI 등의 이름으로 불리고 있는 계산과학(Computational Science)을 처음 접했던 것은 박사 과정 중 시뮬레이션 관련 보조 수업을 찾던 2013년이었다. 미국 대학들의 대학원 과정 중 고학년 과정들은 해당 분야를 연구하는 교수들이 드물기 때문에, 인근 대학의 박사생들이 타 대학 수업을 들으러 가는 경우들이 종종 있는데, 당시 MIT에서 열렸던 한 계산과학 수업에 보스턴 일대 주요 대학의 학생들이 모두 모인 탓에 교실이 매우 비좁았던 기억이 있다.

지금이야 어느 정도 상식이 됐지만, 당시에는 자세한 내용을 몰랐기 때문에 수업의 상당 부분이 대학원 수준의 통계학을 가르치는데 할애될 것이라는 것을 예상하지 못했었다. 학기 초반부는 그렇게 이미 다 알고 있는 내용의 재미없는 수업이 진행되다가, 후반부에 들어가서야 계산과학의 다양한 방법론들이 수리통계학 중 인간의 손으로 깔끔하게 계산해낼 수 없는 부분들을 컴퓨터에 의존한 계산을 하는 전공이라는 것을 뒤늦게 깨달았었다.

Citizen Data Science
사진=Pexel

계산과학에 대한 접근성 비약적으로 향상

당시 수업에는 STEM(과학, 기술, 공학, 수학 전공을 줄여 표현하는 미국식 용어) 분야의 다양한 전공 출신들이 모여있었는데, 통계학 훈련이 부족했던 학생들은 초반부에 떨어져 나갔고, 후반부에는 과제 하나하나가 컴퓨터를 학대해야 답을 낼 수 있는 과제들이어서 몹시 힘들었던 기억이 있다. 그 시절 R, Matlab 같은 연구용 프로그래밍 언어만 쓰던 우리와, 컴퓨터 과학 전용 언어인 C를 쓸 수 있던 전공자들 사이에 몇 가지 차이가 있었는데, C를 써서 돌아가는 계산들은 우리와 비교가 안 되는 수준으로 계산 결과가 빠르게 나왔다. 반면, 수학적인 각종 변환을 지원해주는 패키지가 없다보니 C를 쓰는 것 자체가 큰 도전이었는데, 그런 종류의 수업 2개를 들으면서 언젠가 C와 동급의 계산 속도를 지원해주면서 고급 통계학 기반 패키지를 갖춘 시스템이 나오면 좋겠다는 생각들을 했었다. 우리가 수업을 들으면서 만들어 뿌리는 패키지로는 한계가 있었기 때문이다.

그 때부터 10년 남짓이 지난 요즘, Python이라는 프로그래밍 언어가 R, Matlab의 접근성을 빌려오고, 그래픽 카드(GPU) 기반의 하드웨어적인 계산 속도 지원이 추가되면서 당시 우리가 느꼈던 문제의 일부분을 해결해준 상황이 됐다. 인공지능(AI)이라고 이름을 바꿔 단 계산과학이 업계의 관심을 끌면서 관련 분야에서 소프트웨어적으로 완성도가 높은 패키지들이 많이 쏟아져 나오고 있고, 하드웨어적으로도 10년 전과는 비교도 안 될만큼 많은 발전이 있었다.

예전에는 ‘계산 효율성(Computational Efficiency)’을 최대화하기 위해 ‘계산 비용(Computational Cost)’의 구성 요소인 CPU, 시간, 전력 소모 등의 변수들에만 집중했으나, 최근 들어서는 GPU가 방정식의 변수로 추가되면서 계산 비용을 단순한 1차 함수로 평가하기는 어려워진 상황이 됐다.

시민 데이터 과학자를 저비용 훈련으로 만들 수 있다?

자본 투자와 기술 발전이 상승 작용을 일으키면서 수 많은 시너지가 있지만, 반대로 부작용도 속속 노출됐다. 대표적인 부작용 중 하나가 개발자가 코딩을 할 수 있기 때문에 AI 전문가와 같은 직군이라고 착각했던 수 많은 비전문가들의 오해다. 정부 관계자들이 그런 오해를 가진 덕분에 한국은 최소 수조원, 최대 수십조원에 달하는 예산을 개발자 양성 교육에 쏟아부으면서 ‘인공지능 교육’을 했다고 과대 포장을 했다. 기업들도 정부 지원금을 받기 위해, 주가 부양을 하기 위해, 회사의 기술력을 홍보하기 위해, 등등의 이유로 과대 포장을 따라했고, 결국 진짜 AI 전문가를 키우는데 필요한 대학원 교육에는 큰 보조금이 들어가지 못했다.

또 하나 부작용을 들자면 ‘시민 데이터 과학자(Citizen Data Scientist, CDS)’를 양성할 수 있다는 주요 비전문가들의 착각이다. 고급 통계 패키지들에 대한 접근성이 비약적으로 향상되면서 누구나 쉽게 ‘내 첫번째 딥러닝 프로젝트(My First Deep Learning Project)’라는 이름으로 사회관계망 서비스(SNS)에 자신이 AI 전문가라고 과대포장하는 내용을 등록하기 시작했고, STEM 관련 석·박 대학원 훈련을 받은 최상위권 인재가 아니어도 누구나가 쉽게 데이터 과학을 할 수 있다는 식의 홍보가 오랜 기간 진행됐다. 대학원 과정은 커녕, 영미권 대학의 학부 2-3학년 과정만 가르쳐도 F 학점을 받거나, 무슨 말인지 모르겠다며 도망가는 수준의 인력들이어도 프로그래밍 패키지를 실행만 할 수 있으면 전문가라고 포장하는 상황이 벌어진 것이다.

‘접근성 민주화’가 낳은 부작용, 비전문가 대량 양산

이쪽 분야에서는 접근성의 확장을 ‘민주화(Democratized)’ 됐다는 표현을 쓴다. 그러나 안타깝게도 그런 민주화 과정이 코드 접근성만 높였지, 그 코드가 실행하고 있는 고급 통계학, 그 통계학의 밑바닥에 깔려있는 수학에 대한 접근성은 전혀 높이지 못했다. 세상의 모든 데이터들이 그렇게 수학, 통계학에 대한 접근성이 0인 상태에서도 패키지만으로 ‘분석’ 작업이 됐으면 좋았겠지만, 안타깝게도 그렇지 못했기 때문에 STEM 교육을 받은 인재들에게 미국 정부가 특별 비자 지원까지 해 줄만큼 고급 인재 대접을 받는 것이다.

지난 정권에서 ‘인공지능 = 코딩’이라는 황당한 공식을 수십조원의 예산을 투입해가며 시장에 홍보한 탓에, 여전히 많은 사람들이 잘못된 편견을 갖고 있다. 일부 기업들, 언론사들이 여전히 ‘시민 데이터 과학자’를 키워내는 교육과정을 제공한다고 사람들을 모은다. 대학을 세우고 국내 명문대 STEM 전공 학, 석, 박사 출신들을 받아 해외 명문대의 학부 2-3학년 수준 과정을 가르쳐보면서 새삼 알게 된 내용이지만, 한국의 수학 교육 수준은 글로벌 선진국들에 비해 매우 심하게 낮은 수준이다. 그렇게 시장 수준이 낮기 때문에 시민 데이터 과학자를 길러낼 수 있다는 착각이 계속 남아있는 것인지, 그런 홍보가 계속되는 탓에 시장 수준이 높아지지 않는 것인지, 원인 변수와 결과 변수를 구분하기는 쉽지 않을 것 같다.

다만 인과관계를 넘어 결론만은 확실히 이야기할 수 있다. 그런 훈련을 받은 인력들이 뽑아낸 ‘데이터 분석 결과물’은 제대로 된 훈련을 받은 사람들에게 조롱의 대상 밖에 안 될 것이다. 국민 세금 수십조원을 써서 만든 결과물이 조롱의 대상 밖에 되지 못한다면 그 예산 집행은 옳은 집행이었을까?