한국식 주입식 교육과 데이터 사이언스 교육의 절망적인 결합이 낳은 한국의 데이터 사이언스 업계

논문을 쓸 수 없는 학생들, 논문을 이해하지도 못하는 학생들
직장에서 해야하는 업무를 상세하게 알려줘야만 따라가는 직장인들
한국사회의 주입식 교육이 낳은 폐해
비단 데이터 사이언스 분야 뿐만 아니라, 국내 기업 사회 전체에 뿌리 내린 후진성 낳아

지난 몇 년간 한국인들을 대상으로 직업 교육수준부터 학부, 석사까지 다양한 수준으로 AI/Data Science 교육을 하다 얼마 전부터 한국 교육 시장 자체를 포기했다. 가장 큰 원인을 꼽으라면 한국 학생들이 너무 심하게 주입식 교육에 사로잡혀 있기 때문이고, 기업들도 그런 주입식 지식을 바탕으로 한 빠른 답안지에 집착하고 있기 때문이다. 오늘 당장 보고서만 올라가면 될 뿐, 내일 그 모델이 문제를 일으켜도 모르겠다는 태도들이 너무 심하다.

학생들이나 직장인들이나, 모두 교육을 주입식으로 받았고, 거기에 익숙해져 있기 때문일텐데, 시험 문제를 주입식 교육이 아니라 사고력을 필요로 하는 문제로 만들면 이미 나가 떨어지는 학생들이 나타나고, 졸업을 위해 논문을 쓰라고 하면 거의 대부분의 학생들이 학교를 그만둔다. ‘수료증’을 받을 수 있느냐는 질문을 하는 학생들이 많은데, 수료증은 없고, 재학증명서 밖에 없다고 하면 아쉬움을 가득 담은 표정을 보인다. 한국인 학생들에게 공통적으로 보이는 현상들이다.

Questions Answers Signage
출처=Pexel

질문을 하지 못하는 학생들, 그래서 답을 못 내놓는 학생들

한국에서 직원을 뽑아 일을 시키다보면 항상 요구 받는 내용들이 있다. 뭘 해야할지 좀 상세하게 가르쳐 달라는 거다. 아주 상세하게 가르쳐주기 위해 보고서를 쓰듯이 자료를 만들고 있으면, 차라리 내가 하지 왜 직원에게 월급을 주고 있을까는 생각을 하는 경우가 많다. 그렇다고 구체적으로 설명을 해주지 않으면 일을 엉망으로 해서 결국 다시 해야하는 일이 생긴다.

직업 훈련을 받아야된다고들 표현하던데, 딱히 직업 훈련을 받아 본 적 없이 혼자서 일을 배웠던 내 입장에서는 그런 뻣뻣한 태도와 무능함을 도저히 이해하기 힘들다.

그런데 학생들이 답안지를 주기 전까지는 무슨 말인지 이해조차도 못하고 땀만 흘리고 있는 걸 보는 순간, 왜 직원들이 그렇게 ‘일을 가르쳐주지 않는다’는 불평을 하는지 이해가 됐다.

수업 중에 배운 내용을 기반으로 해서, 어떻게 추가 자료를 찾아서 스스로 학습하고, 그 학습 내용을 바탕으로 연습 문제, 과거 시험 문제를 풀어보고, 그렇게 쌓인 역량으로 실제 시험을 치르는 훈련 자체를 받지 않았고, 받았더라도 굉장히 부실하게 받았던 것이다.

아마 선배님들이 남겨놓은 과제 답안지를 베껴서 과제를 제출했고, 실력있는 선배가 남겨놓은 기출 문제 답안지를 바탕으로 시험을 준비했을 것이다. 교사, 교수가 아무리 열심히 노력해도 결국 학생들 스스로가 주입식으로 교육을 받아버렸던 것이다. 시험 문제가 복잡한 사고력을 요구하지 않는 상황에서 위의 전략은 점수를 잘 받기 위해 가장 효율적인 전략이다.

사고력이 없으면 손을 댈 수 조차 없는 시험 문제

시험 문제를 만들 때 내가 가장 먼저 하는 작업은 학생들에게 가르쳐 준 주제와 관련된 논문을 뒤지는 것이다. 구글 논문 검색 서비스(scholoar.google.com)에서 관련 논문들을 여럿 읽어보고, 적절한 논문을 몇 개 고른다. 논문 하나하나는 학자들의 긴 연구 결과이기는 하지만, 큰 틀에서 보면 학생들에게 가르친 방법론들을 적절하게 활용해서 논리를 구성했기 때문에, 집을 벽돌 단위로 분해하듯 분해해보면 가르쳤던 수준으로 논문을 재구성할 수 있게 된다.

그렇게 논문을 시험 문제로 바꾸면, 한국 학생들 거의 대부분이 아예 손을 대지도 못한다. 어쩔 수 없이 유사한 문제를 만들어서 2~3시간을 들여 상세하게 풀어준 다음, 다른 데이터를 같은 방식으로 쓴 논문을 시험 문제로 바꿔서 내줬다. 그래도 대부분 빈 칸 투성이다.

학생들에게 이야기를 들어보면, 수업을 들을 때는 잘 아는 것 같아서 매우 즐거운데, 매주 주어지는 과제를 풀려고 하면 너무 힘들고, 시험문제를 보면 아예 손을 댈 수가 없단다. 시험 문제 예시를 풀어주는 걸 들어보면 엄청난 논문 하나를 배운다는 느낌이 들고, 10개 남짓의 시험 문제가 그 논문을 이해할 수 있는 이정표라는 느낌이 들어서 정말 논문을 시험 문제로 바꿨다는 것 까지는 알겠는데, 정작 비슷한 논문이어도 시험 문제의 핵심 가정만 바뀌어도 손을 댈 수가 없다고 하더라. 아예 똑같은 문제를 출제해서 기억력 테스트를 해야 겨우 F학점을 면할 수 있는 답안지를 받을 수 있다.

한국 데이터 사이언스 업계가 돌아가는 방식

교육 과정에 대한 소개와 함께 머신러닝, 딥러닝 등으로 불리는 계산 방법 종류를 목차처럼 써 놓은 적이 있었는데, 어떤 한국인 학생은 그 제목만 보고 인터넷 검색해서 블로그들에 적힌 계산 방법만 알면된다는 주장을 하더라. 고급 논문을 해부해서 논리적 전개를 따라갈 수 있도록 만든 시험 문제를 풀어볼 필요 따위는 없고, 계산 방법들을 구현한 코드만 찾아서 붙여놓으면 되는 걸 이상한 교육하지 말라고 비난하는 걸 들었다.

실제로 교육과정에 들어온 어느 한국 명문대 컴퓨터공학과 박사 출신은 “글로벌 선두 기업이 쓰는 코드를 받을 수 있어서 너무 좋았다”고 표현한 적도 있다. 참고로 말해두면, 그건 기술 유출이다. 나는 내가 이해한 논문들의 논리에 맞게 코드를 재구성했을 뿐인데, 모 유명 기업 코드가 아니라고 그러니 “당신의 말은 믿을 수 없고, 유명 기업의 코드만 필요할 뿐이다”며 수업 내용을 믿을 수 없다고 욕을 퍼붓더라. 심지어는 “유명 기업 코드 갖고 있다고 자랑하지 마라, 재수없다” 같은 표현까지 들었는데 당시에는 왜 그런 반응이 나오는지 이해도 못했었다. 최근에 들어서야 그 분들은 오직 코드만 있으면 되고, 지식 따위는 필요없다는 생각을 하기 때문에 그런 표현을 썼다는 것을 알게 됐다.

내가 받고 싶은 학생, 가르치고 싶은 학생, 회사에 뽑고 싶은 직원은 “왜 저런 사건이 일어날까?”를 추적해서 숨겨진 근거, 논리, 이익관계를 찾아낼 수 있는 분들이다. 코드는 이해도만 갖춰져 있으면 몇 시간을 들여 치면 된다. 딥러닝이라는 코드를 구해서 붙여넣기만하면 무조건 모든 데이터에서 모든 문제가 해결되는 것이 아니라, 특정 데이터의 특정 문제만을 풀어줄 뿐, 문제와 데이터가 바뀌면 모델 구성 자체를 완전히 새로해야하는데, 도대체 구한 코드로 뭘 할 수 있기 때문에 저렇게 코드 몇 줄에만 집착할까?

그런데, 그런 태도가 한국 데이터 사이언스 업계에 만연해 있다. 한 대기업은 웹사이트에 추천 알고리즘을 만들기 위해 외주를 줬다가, 99%를 맞추지 못하면 돈을 줄 수 없다는 태도로 나왔다고 한다. 말도 안 되는 요구라는 업체 측의 불만을 듣고 90%이상을 맞추면 된다고 타협안을 냈으니 되는 것 아니냐고 하길래, 도대체 90%라는 숫자가 왜 나왔냐고 물으니, 기업 데이터를 받아 주어진 문제를 풀어낸 사람들에게 상금을 주는 걸로 유명한 캐글(Kaggle)이라는 웹사이트에서 추천 알고리즘으로 1등한 모델이 90% 정확도가 나왔기 때문이란다. 그 1등한 코드를 구할 수만 있으면 외주를 안 줬을텐데, 구할 수 없어서 외주를 줬을 뿐이라는 말을 듣고 나왔다고 한다.

같은 데이터가 아니고, 상황도 달라졌는데, 같은 코드를 쓰면 90%가 나올까? 그 데이터가 생성됐던 1년 남짓의 기간에 90%가 맞았다는 이유로 계속 90%가 맞을까? 세상은 계속 변화하는데? 그 기업의 웹사이트 상황은 계속 바뀔텐데?

학생들 중에도 석사 학위를 받으러 와 놓고 정작 캐글의 어느 지원자 수준에 불과한 내용을 논문이라고 갖고 오는 경우가 있다. 그런 학생들은 하나같이 시험 점수가 낮고, 조별 과제에서 동료들에게 과제 해결에 도움이 하나도 안 됐던 동료라는 맹비난을 받았던 경우들이다. 원칙적으로는 내보냈어야되는 학생들이었다고 생각한다. 직업 학교(Vocational school) 수준에 불과한 캐글 과제 답안지를 수업 중 과제도 아니고 석사 학위 졸업 논문으로 낼려는 것을 보면 도대체 학위 과정 중에 뭘 배웠길래 저런 뻔뻔한 태도를 보일 수 있을까는 의구심마저 들 정도다.

감히 말하건대, 한국 기업 사회가 A급 역량을 갖춘 인재들을 회사 내부에서건 외주로건 쓸려고 하면, 정부가 R&D 프로젝트 예산을 늘리거나, 기업들이 AI산업에 투자금을 늘려야하는 것이 아니라, 우리나라 교육이 주입식 교육에서 완전히 탈피해야 한다고 생각한다. 과거 산업화 시대에 초고속 베끼기 식으로 운영했던 교육 시스템을 과감히 포기하고, 1개의 정답이 아니라 수십개의 정답이 공존할 수 있는, 사고력 기반의 논술형 답안지, 자신만의 관점과 콘텐츠를 담은 답안지가 우리나라 교육의 핵심이 되기 전까지 한국 기업 사회에서 A급 기술 인재가 역량을 발휘하는 것을 불가능할 것이다.

유치원부터 고교까지 엉망으로 교육 받은 학생을 대학 교수들더러 고쳐라는 것도 불가능하고, 기업들더러 사내 교육으로 고쳐라는 것도 불가능하다. 나처럼 그러느니 외국인 학생들만 가르치거나, 아예 교육에 손을 놓는 교수들 위주로 대학이 돌아갈 것이고, 기업들도 한국인 인재에게 기술적 도전을 점점 덜 주게 될 것이다. 교육이 100년 대계라면, 더 늦기 전에 교육 현장부터 고치기를 바란다.

Similar Posts