문과 데이터 사이언스 학과?

필자가 쓴 글 중 “데이터 사이언스랑 경제학이랑 무슨 관련이 있나요?”라는 글이 어딘가에 공유됐는지 많은 트래픽이 몰린 적이 있었다. 대체 어떤 키워드로 들어오고 있는 건가 해서 추적을 해 봤더니,

문과 데이터 사이언스 학과

라는 검색어로 들어온 것이었다

필자는 이를 보고 한참을 웃었다.

문과 데이터 사이언스 학과?

아마도 “코딩 없이” 할 수 있다는 식의 기대치가 숨어있지 않았을까 싶은데, 사실 필자의 블로그를 오랫동안 봤다면 알고 있겠지만 데이터 사이언스는 문/이과로 나눠서 생각할 전공이 아니라, 데이터 사이언스에 적합한 각종 지식 안에 수학적인 이해와 별 대단치 않은 코딩 작업이 들어가 있는 전공이다.

필자는 우리나라에서 자신들이 데이터 사이언스의 주인이라고 주장하지만, 데이터 과학 베이스의 주인들일 뿐인 컴퓨터 공학과 졸업생들이 데이터 “사이언스”라고 불리는 업무를 할 수 있는 역량이 전혀 갖춰져 있지 않다는 이야기를 여러 차례 해 왔다.

그러면 “데이터”가 붙었으니 통계학과가 적절하냐고? 통계학 박사님 여럿이 필자를 만나 했던 이야기를 그대로 옮기면 답이 될 듯하다.

저희는 대표님 만드신 교육 내용처럼 안 배우거든요. 처음 보는 내용도 많고… 따지고 들어가면 이해는 되는데, 이걸 뭐 이렇게 쓰나 싶은 것 투성이라…

그러니까 기존 전공 중 그나마 방법론 측면에서 가장 가깝게 보이는 두 전공마저도 코끼리 다리와 코만 잡는 상황이라는 것이다. 즉 데이터 사이언스는 독립 전공이기에 독립 전공에 맞춘 독립 커리큘럼이 필요한 전공이다.

그 독립 전공이 문과에 속하냐, 이과에 속하냐는 질문도 종종 받는데, 사실 이 질문의 진짜 목적은 영역 구분이 아니라 수학 공부가 필요하냐는 것 같다. 필자는 데이터 사이언스라는 주제로 배울 만한 과목이 굳이 문과/이과를 구분할 필요가 있는 것인지 의문이 든다. 여러 전공 지식이 조금씩 다 필요하기 때문이다. 아, 결국에는 수학 공부를 해야 한다는 이야기로 들릴 수도 있겠다.

데이터 사이언스의 필수 덕목=팔방미인

관련 전공? 주인없는 전공?

데이터 사이언스에 발을 걸치는 전공이 무엇인지 찾아보고 그 속사정을 하나씩 짚어보겠다.

1. 컴퓨터 공학과

우리나라 사람들이 컴퓨터 공학을 데이터 사이언스에 가장 적합한 전공이라고 착각하는 건, 여기도 저기도 코딩을 한다는, 눈에 보이는 부분이 똑같다는 점 때문이다. 그런데 사실 코딩은 특성화 고등학교 전산과에서도 하는 것 아닌가?

굳이 따지고 들면 컴퓨터 공학과에서 배울 만한 내용 중 대학원에서 자연어 처리, 이미지 인식을 하는 부분 일부만 데이터 사이언스와 직접 관련이 있을 것 같다. 하지만 그 두 주제의 모델링 레벨의 지식은 전부 다 수학 기반이다. 그뿐 아니라 이 두 분야에서 컴퓨터 공학 전공자의 전문성은 각각 어문계열과 디자인 전공자의 전문성보다 못하다. (디자인에서 필터를 공부하는 이들은 선형대수를 아주 잘 알고 있다.) 그 외에도 자료구조론 같은 것을 배우긴 해야겠지만, 이건 개발자와 대화하는 용도로 필요할 뿐 직접 쓰게 되는 지식은 아니다.

2. 통계학과

우리나라 기준으로, 국립대들 대부분은 통계학과가 자연대에 있고, 사립대들 대부분은 응용통계학과라는 이름으로 상경계열 산하에 있다. 배우는 내용도 거의 비슷비슷하고, 결국에는 하나로 합쳐진다. 몇몇 세부 전공 주제만 다를 뿐. 심지어 경제학 박사 중에 계량경제학을 파고든 사람은 통계학과 교수가 되기도 한다. 윤석열 대통령의 부친 역시 경제학자인데 연세대 응용통계학과 교수가 되었다.

문/이과의 경계가 모호하기까지 한 통계학과도 위에서 언급한 통계학 박사들의 평가에서 알 수 있듯이 데이터 사이언스라고 불리는 전공에 딱 맞는 교육을 제공하지는 않았었다. 통계학 다 가르치기도 어려운데, 다른 부분까지 가르치려면 얼마나 힘이 들겠는가? 당장 동적 최적화(Dynamic optimization) 기반의 강화 학습(Reinforcement Learning)이나 도구 변수(Instrumental variable)를 이용한 추정 이론(Estimation theory)을 다루는 분들이 여러 개의 contending scenario를 하우즈만 검정(Hausman test)하는 모습을 본 적도 없을 것이다. 이런 지식을 엮어 놓은 게 데이터 사이언스의 Experience Replay라고 하는 모델, 그리고 그런 모델들을 좀 더 최적화하기 위한 고민이라고 하면 왜 통계학과마저도 데이터 사이언스에 1:1로 대응하는 전공이 아닌지 이해할 수 있을 것이다.

3. 계산과학 & 사회과학

그 외에 서울대 계산과학 연계 전공에 속해 있는 다양한 세부 전공에서 조금씩 빌려 쓰는 계산방법론들이 반드시 이과 출신에게만 열려있냐고 물으면, 경제학과를 필두로 해서, 요즘은 정치학과, 사회학과에서도 고급 통계 모델을 이용하고 있다.

지난 몇 번의 선거가 부정선거라고 열심히 떠드시는 분들이 미국 미시간 대학의 월터 미베인 교수(정치학과)의 표현을 빌려 갑론을박을 하는 상황을 어떻게 생각하냐는 질문을 받은 적이 있는데, 그 정치학자 분이 만드신 모델이, 최소한 수학적으로는 절대로 어지간한 통계학자들에게 무시당할 수준이 아니었다. 적어도 필자의 수준에서 평가할 그런 모델이 아니었다.

요즘 사회대 저학년의 정치학 방법론, 사회학 방법론 같은 수업은 예전처럼 SPSS 한번 돌려보고 끝나는 수업이 아니라, 경제학과에서 저 전공이 언제부터 계량을 배우는 거냐는 말이 나올 만큼 어려운 수학을 활용하는 수업이 되었다.

그 외 경제학이나 파이낸스 같은 학문에서, 혹은 문헌정보학 같은, 한국에서 이름 때문에 오해받는 학문 역시 데이터 사이언스의 방법론을 적극적으로 쓰고 있다는 부분은 오래전부터 이야기했으니 넘어가겠다.

4. 언어학

1번에서 살짝 언급했지만 이미 어문계열 선구자들은 오래전부터 자연어 처리 모델을 만들고 있었다. 그리고 요즘 들어 이 분야의 연구는 엄청나게 활발해졌다. 코드를 짜는 실력이 좀 부족하다는 이야기는 있지만, 그건 코딩 전문가에게나 중요한 이야기고, 여기서 중요한 건 언어학 전공자에게 맞는 논리인가이다. 지난 몇 년 사이 유행이 퍼지며 공대 쪽에서 한동안 코드에만 의존한 논문을 펴내기도 했는데, 요즘 언어학 분야 연구자들이 작업하는 내용을 보면 역시 그쪽에서도 이런 상황에 큰 불만을 품고 있는 듯하다.

5. 디자인

역시 위에서 언급한 대로, 디자인 박사 전공자 중 필터를 연구하는 이들은 완전히 다른 선형대수학을 활용하고 있다. 한국에서 시각디자인 이미지만 보던 사람, 디자인은 문과보다 공부량이 적은 “예체능계”라는 편견에서 못 벗어나는 사람에게는 충격이겠지만, 필자는 몇몇 디자인 세부 전공자는 수학 실력으로만 보면 위의 다른 학문 전공자들이 함부로 대할 수 없는 실력자들이라는 것을 이미 여러 차례 확인했다. (아쉽게도 한국에서는 아직 한 번도 못 봤다.)

여기 언급하지 않은 수많은 전공도 이미 오래전부터 요즘 데이터 사이언스라고 불리는 학문을 활용해 왔다. 제대로 된 학교에 가면 대학원이 엄청나게 어렵고 힘들다는 표현들을 많이 들었을 텐데, 데이터 사이언스라고 알려진 지식은 바로 각 전공의 대학원에서 배워 활용하는 고급 통계학을 뜻한다고 생각하면 쉽게 이해할 수 있을 듯하다.

한 마디로, 데이터 사이언스는 단독 전공으로 주인이 따로 있는 전공이 아니다. 컴퓨터 공학과가 데이터 사이언스는 자신들의 것이라고 영역 표시를 할 수 없다는 뜻이다. 최소한 다양한 분야의 전문가들과 공대 출신 인력이 협업한다는 관점이었다면, 아니 공대의 방법론이 다른 전공의 방법론을 완전히 압도하는 상황이었다면 이렇게까지 다툼이 생기진 않았을 것 같다. 아, 물론 고려대학교 정보대학의 데이터과학과처럼 융합 전공 형태로 잘 묶여있는 예도 있으니 지나치게 일방적으로 매도할 필요는 없다.

문/이과 둘 다 잘 해야 되는거 같은데?

필자는 이미 학부 시절부터 공대 출신 선배들이 경제학과를 무시할 때마다 “당신들이 그럴 수준이 되는가”라는 생각을 했던 경험이 많다. (위에서 예로 든 게임이론 C학점을 받은 선배들도 여기에 해당한다.) 경제학과 출신임에도 자연대의 이런저런 수업을 듣기도 했고, 고등학생 때도 문/이과를 나눠 가며 공부한 적이 별로 없었다.

사실 이렇게까지 필자의 경험을 언급하지 않아도, 문/이과를 나눠서 데이터 사이언스라는 학문을 바라볼 필요는 없다. 굳이 따지자면 데이터 사이언스는 학부 수준 혹은 석사 수준의 “Quantitative 전공”에서 배울만한 수학 지식 중 일부를, 문/이과와 무관하게 그 학문에 맞는 방식으로 쓸 수 있도록 돕는 학문이다. 이러한 방법론의 영역은 지금 우리나라 사람들이 인식하는 이과 – 문과 – 예체능 계열이라는 구분법과 별로 관계가 없다. 오히려 어떤 전공 출신이든 그 학문의 ‘깊이’에 도전할 때, 데이터의 활용법이란 측면에서 누구나 배워야 하는 학문으로 봐야 한다고 생각한다.

이렇게 정리하고 보면, 문과 출신에게는 수학 공부를 해야 하니까 부담스러운 학문이 되고, 이과 출신에게는 무언가 처음 보는 생뚱맞은 방식으로 접근하는, 황당한 학문이 된다. 또한 이렇게 혼란한 상황에서 자동화의 ‘신’을 맹신하는 이들은 문과 지식 없이도 모든 것을 해결할 수 있다는 믿음으로 몇십조 원에 달하는 국민 세금을 길바닥에 버리고 있다.

결론 – 결합 전공 or 대학원에서 배워야 하는 전공

필자의 개인적인 결론은 대학원에서, 자기 학문 공부가 어느 정도 된 시점에, 도구 습득이라는 관점에서 배워야 하는 전공이 데이터 사이언스라는 것이다. 이는 필자 학교의 MBA AI/BigData가 그리는 그림이기도 하다.

하지만 시장 수요를 봤을 때, 대학원에서만 이를 소화하면 인력이 너무 부족할 것 같다. 우리나라 교육 수준을 봤을 때, 학부 고학년 내용을 제대로 이해하고 졸업하는 학부생들도 거의 없는 상황이기 때문이다. 결국, 학부 수준에서 이 전공이 하나쯤 나와야 한다고 생각한다.

아마 서울대학교의 계산과학 연계 전공 역시 같은 맥락에서 등장한 듯하다. 대학원이 처음 시작하고, 필요성을 느끼면서 학부로도 내려오게 된 것이다. 다만 학부에 독립 전공으로 존재할 가치가 있는가에 대해서는, 솔직히 아직도 잘 모르겠다. 각 학문의 세부적인 지식이 없이, 단순히 데이터 모델링만으로 해결된다는 건 내가 그간 강하게 비판했던 자동화 매니아 공학도의 생각이니까.

예를 들어 설명하자면, 경제학 훈련도가 0인 공학도가 이자율 상승 시의 부동산 가격 폭을 “인공지능”으로 정확하게 예측할 수 있다고 주장한다면 기계에서 나오는 데이터만 보던 공학도에게는 “최신 모델”처럼 보일지 몰라도, 노이즈가 잔뜩 있는 데이터로 모델 만들던 사람들에겐 “사기꾼”으로 보일 뿐이다.

결국 지금 필자가 운영하는 것처럼, 학부 고학년에서 석사 정도 수준의 커리큘럼이 딱 적절한 프로그램이 아닐까 싶다. 굳이 학부 저학년을 더 붙인다면 기초 수학, 통계학, 그 외 다양한 학문의 기초 수업들을 넣어야 할 것인데, 그러다 보면 정말 “잡학”이 될 가능성이 크다. 그것보단 자기 전공 지식이 있는 상태에서 못 배운 방법론을 배운다는 관점을 선택해야 할 것이다.

박사 과정을 넣는다면 굉장히 다양한 연구 주제들을 커버하는 교수들이 모인 연계 전공이 나와야 하는데, 그런 우수 연구인력의 월급과 연구비를 다 부담하려면 연간 운영비가 얼마나 될지 아득하기만 하다.

몇 년이 흘러 경험치가 쌓이고 나면 생각이 바뀔지는 모르겠지만, 결론적으로 지금까지의 경험이나 여러 현실적인 사정을 고려했을 땐 이렇게 학부 고학년에서 석사 수준의 커리큘럼을 만드는 것이 가장 적절하다. 서울대학교의 계산과학 연계 전공이 순수 학문적으로만 봤을 땐 더 적합할지 모르지만, 이는 서울대학교라 가능한 것이지 다른 곳에서 그렇게 다양한 전공의 훌륭한 교수를 모으기는 쉽지 않을 것이다.

필자의 학교 역시 계속 커지다 보면 언젠가는 그렇게 성장할 것으로 보인다. 회사를 운영하며 온라인 광고 시장에 들어가고, 금융시장에 들어가고, 여론조사에 들어가고, 한국어 기반 자연어를 연구하고, 그러다 보면 여러 전공으로 확장되는 것이다. 단 서울대학교와 달리 “문과”라 불리는 전공 위주로 관련 연구가 확장될 것이다. 학교가 이렇게 커지는 거였구나, 하는 생각이 든다.

Similar Posts