②SIAI는 수학&통계학 기반 AI/Data Science 대학원

수학적으로 그렇게 큰 도전이 아니라는게 좀 많이 알려졌으면 좋겠다

Estimated reading: 5 minutes 143 views
160X600_GIAI_AIDSNote

한국식으로 치면 연례 총회(?) 같은걸 했는데,

그 날 학생들에게 들은 이야기, 강의 후기로 들은 이야기들은 공유할만한 것 같아서 좀 정리해봤다.

 

1. 수학적으로 그렇게 큰 도전이 아니라는게 좀 많이 알려졌으면 좋겠다

학부 경영학과 출신인 어느 학생의 이야기다.

첫 학기의 Math & Stat for MBA I 수업 초반에 선형대수학, 미분방정식 다 알아야 되는 과정인거 아니냐, 너무 힘들다~

학생들이 미리 준비하고 올 수 있도록 많은 정보를 알려주거나, 그 전에 Prep class를 마련해줘야 한다고 주장했던 학생이다.

 

어느 시점부터 MBA 상위권으로 성장했는데,

이번 총회 모임 때

수학적으로 그렇게 큰 도전이 아니라는게 좀 많이 알려졌으면 좋겠다

이 학교 교육이 널리 퍼졌으면 좋겠다, 많은 학생들이 와서 “깨닫고” 갔으면 좋겠다

같은 표현을 쓰더라.

본인이 그렇게 느꼈겠지.

 

선형대수학, 미분방정식 같은 기초 수학을 깊이 있게 알면 알수록 큰 도움이 되는 것은 맞지만,

우리가 그 교과서 전체를 다 훑어가며 모든 내용을 쌍끌이 그물로 가져다 쓰는 교육을 하는 수학 전공이 아니니까,

필요한 부분들만 개념적으로 활용하는 교육을 하고 있으니까,

수학에 겁을 먹을게 아니라, 한국에서 교육 받기 쉽지 않은 “사고력 훈련”이 더 포커스라는걸 깨달았기 때문일 것이다.

(물론, 수학에 겁을 ‘덜’ 먹어도 된다는 이유로 내용이 쉽게 느껴지진 않았던 것 같다. 직장 계속 다니면서 공부할 수 있을지 의문이라는 이야길 여러번 했었으니까…)

 

근데, 많은 학생들이 와서 “깨닫고”가면, 우리 학생들 경쟁자가 너무 많이 생기는거 아닌가? ㅋㅋ

 

2. 돈 낭비 아니겠다는 확신이 있어서 왔다.

지방의 어느 어린 학생 이야기다.

주변에 이런 고급 교육을 받으면 시야가 열린다는 확신을 줄만한 사회경제적 인프라가 거의 없을텐데,

무슨 인연으로, 어떤 고민을 거쳐 오게됐냐는 질문을 했더니 들은 대답이다.

 

국내 대부분의 DS 교육이, 학원이건 기업이건, 정부기관이건, 심지어 대학이건 상관없이,

제대로 된 교육을 하는 곳이 거의 없는 상황이라는건 이미 일반에 널리 알려져 있겠지만,

그렇다고 우리 SIAI 교육이 제대로 된 교육이라는 확신이 생기기는 어려울 것 같았기 때문에 물어봤었다.

 

그간 들은 수업들이 돈 낭비 아니겠다는 확신과 잘 맞아들어가냐고 물었더니,

보통 수업 하나를 1.5배속으로 3번 정도 들어야 겨우 매주 나오는 연습문제를 풀 수 있을 것 같고,

몇몇 부분은 개념 이해를 따라가기 힘들어서 몇 번씩 반복으로 듣고 있단다.

하루 10시간씩 투자해가며 거의 올인하고 있다고.

이만큼 공부해야되는 내용은 처음봐서 돈 낭비 아니라는데는 완벽한 확신이 있단다.

 

이번 연례 총회에서 나와 Face-to-face는 처음이라, 내 목소리를 “1배속으로 듣는게” 처음이라 어색하단다ㅋㅋ

 

3. 갈 데가 없잖아요. 아님 큰 맘먹고 유학가야죠.

회사 생활하면서 제대로 돌아가는게 하나도 없고, 대기업이 언제나 그렇듯이 이상한 기업에 눈탱맞는 외주만 주는걸 보고 있는데,

회사 안에서 배워서 해결은 불가능해 보이니까, 외부에서 제대로 된 DS교육을 찾고 찾다가 한국엔 학위 장사 프로그램 밖에 없다는걸 확인하고,

유학 가야되겠다고 생각했던 무렵에 우연히 우리 SIAI 교육을 발견하게 됐단다.

 

외부에서 온갖 비난이 있었는데도 용기있게 찾아왔다 싶었는데,

제대로 가르치니까 욕하는거라는걸 여러 채널을 통해 이해하게 되어서 지원서 쓰는 무렵에는 망설임 같은 건 별로 없었다고 하더라.

거꾸로 자기 실력이 부족해서 떨어질까봐 고민이 많았다고.

 

이런 분들 대다수가 이미 석, 박 학위가 있는 분들인데,

다시 석사를 하나 더 한다는걸 한국에서는 불편해하는 경우도 많던데 어땠냐고 물어봤더니,

자기 전공 아니니까 특별히 불만은 없었단다.

그리고, 수업 들어보면 자기 전공이어도 불만이 없어야 정상이지 않겠냐고 웃더라ㅋㅋ

한국 교육 수준과 엄청난 격차가 있다는걸 느꼈다는 뜻이겠지.

 

4. 강의 후기 – 생태학 박사

This is by far the best statistics course I have ever met. After each and every page of the lecture note, I had a very rewarding time to enjoy and establish the new knowledge and apply it to my work as well as my colleagues’. I almost deliberately slowed down my own pace, because I really wanted more time to do so. As a testimony of the quality of this course, I want to detail the activities I engaged in after each lecture.

1. After tasting the world of LaTex, I introduced markdown notebook to my team’s workflow.
2. Advised my teammates to review their old model about the brood size of the passerine birds. Their Poisson model was not matching with the biological DGP known to us.
3. Advised my teammates to consider repeated-measures design for minimizing the workload for capturing and releasing new animals for each experiment.
4. I am planning to build my own version of introductory statistics course for the new students in the lab.
5. I am now spreading the word that econometrics textbook is a must-read for all students of ecology.

The only thing I need is more time between the lectures. It is just irresistibly fun to play with each piece of the knowledge, as that immediately reshapes my work environment. Like as if I am reading a good novel, I sort of wish for each chapter to not end, and at the same time cannot wait for the next story.

I also want to suggest that this course need less lectures and more reading. It is a custom-curated yet a standardized body of mathematical knowledge taught in many schools. Once the course is designed, there is not much room for the instructor’s teaching ability to shine. (However) The effort to verbally deliver the dense course materials could be channeled into his true expertise – giving brilliant insights (by) top-notch program and assignment design.

 

5. 강의후기 – 생태학 박사 2

I truly appreciate the structure of the course and the instructor’s effort behind it. This course has a very unique nature, since it progresses through real-world problems lock-stepped with the more theoretical Math & Stat course. However, this is not a simple “drill” or “lab” session for the theories – the lecture and assignment leaves the learner in question and thirst, which will then get quenched in the next week’s theory. In that sense, this course serves as a primer and motivator that drives the students’ will to develop themselves. I believe that this level of course design demonstrates the instructor’s incredible passion for education, as well as his talent and effort matching such a rare attitude.

However, like many other great designs in their early stage, the course leaves some room for improvement in execution level. A textbook or detailed lecture notes tailored for this course will immensely help students in the introductory stage. Due to the nature of this course, students naturally undergo self-study for most of the topics covered in the lecture. Certainly this is a valuable training in itself, but at the end, learners need a final reference about the standardized body of knowledge the course aims to achieve.

 

각 강의별로 4,5번에 나눠서 받은 위의 생태학 박사 학위자 분의 후기를 보면서, 언젠가는 교과서를 만들기는 해야겠다 싶은데, 솔직히 일이 너무 커 보인다. 남들처럼 비슷한 교과서가 있는 것도 아니고, 그렇다고 Harvard, MIT 같은 명문대 교수들처럼 RA들이 수준이 높은 것도 아니고, 내가 시간이 많은 것도 아니고…

강의 후기를 보면서 느끼겠지만, 밖에서 흔히 볼 수 없는 완전히 Customized 강의를 운영하고 있어서, 노트 만들기도 힘들었는데, 교과서는 아마 훨씬 더 많은 시간이 걸릴 것이다. 몇 년이나 걸릴려나… 아예 할 수는 있을려나 모르겠다…

예전에 파비클래스 듣고 가던 학생 하나가 교과서 추천해달라고 하던데, 위의 Customized 라는 표현에서 느끼겠지만, 비슷한 스타일을 찾기가 쉽지 않다. 공대 사람들이나 통계쪽 사람들이 쓴 책들은 이미 많이 나왔지만, 나처럼 Econ, Financial Math 대학원 경험치가 있으면서 계산과학 이론의 현실 적용을 고민하는 교과서를 아직 보진 못했다.

 

6. 강의후기 – 생명공학 박사

STA502: This lecture provided the fundamental, but most important knowledge in basic statistics. In general, Gauss-Markov assumptions are taken for granted in statistical analysis, but the real world data almost always violates Gauss-Markov assumption. This lecture enlightens if we ignore every case for Gauss-Markov assumption, the model will be poor and foolish trash. By considering the structure of data more deeply, and application of appropriate mathematical tools to make simple regression models will be powerful tool to interpret complex real world data. As I am a field worker encountering a variety of data everyday, this is the most precious piece of knowledge from this semester’s lecture.

STA501: This lecture provided the essential mathematical data analysis tool for fieldworkers. In most cases, people make decisions by depending on their domain-knowledge. But this lecture provided the literally “data-based” decision making by relevant mathematical and statistical tools. In every chapter, the lecture feels like stacking up the logical bricks to investigate the real world data with the most reasonable tools available. Also the TA gave the careful assistant for students. I also thank her a lot 🙂

이 분은 따로 한국어 강의 후기도 몇 개 더 해 주셨는데, 일부만 뽑아본다.

2달 남짓한 시간 동안 너무나도 값진 가르침 주셔서 감사합니다. 공부하면서 제가 얼마나 부족했었는지 깨닫는 시간이었지만 한편으로는 이런 고급 지식을 배울 수 있어서 행복한 시간이었습니다. 우리가 교과서에서 배우는 완벽한 모델과 달리 실제 세상에서 만나는 데이터들은 회귀 분석의 기본적 가정들 (Gauss-Markov Assumption)을 자주 깨트리는데, 이러한 상황에서 endogeneity를 제거하기 위한 간단한 수학적 도구들의 적용만으로도 모델이 얼마나 파워풀해지는지 깨닫는 시간이었습니다 (단순히 컴퓨터 계산으로는 결코 구축할 수 없는).

아무런 데이터 전처리 없이 그냥 raw-data를 때려넣었을 때 나오는 모델에 대해 왜 딥러닝에서 자꾸 블랙박스라고 하는지 알 것 같습니다. 해석이 불가능하니까요…..

생명 과학 연구하는 연구소 현업에서 일하며, 생물학 실험 데이터에 어설프게 딥러닝, AI 적용한다고 자꾸 그러는데 (심지어 바이오 전공도 전혀 아닌 사람들이!) fancy하진 않지만 연구원이 실험 경험을 바탕으로 데이터를 해석하는게 훨씬 정확한 것 같다는 생각 많이 합니다. 실험 경험이 풍부한 연구원들은 그래도 quantitative하게 수학적으로 모델을 만들지는 않지만 직감적으로 데이터에 bias가 있다는 것도 알고 어떤 데이터가 outlier인지 걸러내고 적절한 해석을 도출하니까요. (여기서 왜 대표님이 자꾸 블로그에 분노를 쏟아내는 글을 쓰시는지 매우 공감합니다….)

저도 현업에서 일하는 연구원이지만, 단순히 도메인 지식에 기반해서 데이터를 해석하는 것에서 나아가 적절한 수학적 도구를 활용해서 quantitative하게 결론을 이끌어 내고 싶다고 생각해서 이 학교를 지원했는데 정말 잘 찾아온 것 같습니다! 2022년 제가 하는 일 중 제일 잘한 일인 것 같아요….강의에서 계속 강조하시는 논리의 흐름을 따라잡는게 이러한 교육을 받은 적 없는지라 어렵지만…. (생략)

+ XXX, YYY 조교님 감사합니다. 정말…..제가 대학원까지 합해서 총 8년 동안 수많은 수업을 들었지만 제 인생 베스트 조교 top 5 안에 드는 분들이십니다!ㅠㅠ 열정적인 강의 해주신 대표님께도 당연히 감사드리지만, 세심하게 학생들을 보살펴 주신 조교님들께도 감사하다는 말씀 꼭 전하고 싶습니다.

 

7. 그 외 다른 강의 후기들 몇 개

(3rd term 비지니스 케이스 수업) I was able to realize that learning new and difficult skills is not a goal, but how to apply them is more important.

(3rd term 머신러닝 수업) A very special part of this lecture is the philosophy of factor analysis. Those who are not familiar with the sudden emergence of a statistical topic in machine learning classes may wonder, but I think it was a very intuitive, insightful, and very helpful topic.

I didn’t know the word factor analysis, but from the time I entered the field of data science, I was worried about whether there was a hidden explanatory factor or how I could find it, and it was very helpful.

(1st term 수학/통계학 수업) The process of looking at problems from various perspectives and learning how to judge them intuitively was also very enjoyable. Also, as I listened to it repeatedly, it was a series of surprises how important each word was. I think I can understand the meaning of “connecting the dots” after listening to it repeatedly.


머신러닝 수업 후기를 보면 알겠지만, ML, DL이라고 불리는 지식들이 사실은 Graph model 방식으로 Factor analysis를 처리하는 계산법이라는걸 차근차근 벽돌 쌓아가듯이 수업을 만든 덕분에, 둘 간의 관계를 제대로 이해한 티가 난다. 특히, 그 전에 Estimation theory쪽 지식을 잘 쌓아올린 탓에 ML을 한국 공돌이들처럼 코드 레벨에서 인식하는게 아니라, 통계학 지식의 연장 선상으로 이해하고 있음이 잘 나타나 있다.

그 결과물이 비지니스 케이스 수업 후기에 잘 나타난다. 어려운 지식을 배우는게 중요한게 아니라, 어떻게 활용하느냐를 제대로 아는게 훨씬 더 중요하다는걸 깨달았다는거다. 지식 포트폴리오 쌓듯이 “더 어려운 걸 배워야 돈 값 하는거”라고 착각하며 공부하는 한국 학생들이 좀 깨달음을 공유하면 좋겠다. 그렇게 어려운 거만 찾으면 “책 속의 지식”으로만 끝난다.

수학은 어려우려고 만들어진 학문이 아니라, 내 일상 속에 숨어있는 “신의 설계”를 이해하는 도구라는 리처드 파인만 (노벨 물리학상 수상자)의 표현을 응용하면, Data Science는 Data가 갖고 있는 Science를 찾아내기 위한 학문이지, Engineering을 통해 컴퓨터 님께서 척척척 답을 가르쳐주실 수 있도록 무한번 딥러닝을 돌리는 계산기가 아니다.

마지막 코멘트는 문제 셋팅의 한 단어, 한 단어가 얼마나 중요한 가정인지, 그래서 그 단어가 바뀌면 문제 전체가 얼마나 크게 바뀌는지를 알려주는 기출 문제 풀이 탓으로 보인다. 실제로 수업 중에 다룬 문제와 기출 문제가 거의 같은 포맷인데 아주 사소한 가정 변경 탓에 전체 문제 풀이 구조가 완전히 바뀌는 걸 보여줬었다. 시험도 바쁜 직장인들이 모든 디테일을 소화하는게 불가능하다는 걸 알고, 템플릿(?)을 준 다음, 문제의 단어 몇 개가 바뀌면 템플릿의 상세 내용이 어떻게 바뀌는지를 파악하는지 여부로 점수가 갈리도록 만들어 놓기도 했다. 어차피 회사에서 만나는 사정이라는게 추상화된 큰 틀이라는 관점에서보면 별 차이가 없을테니까.

첫 기수 때는 학생들 대부분이 차이를 인지 못했었던 탓에 시험 성적이 내 기대치를 못 충족시켰는데, 이제 기출 문제가 하나 쌓였으니 좀 더 재밌게 변형해서 학생들이 따라올 수 있는지 보고 싶어지더라ㅋ

 

정리하며

잘 따라오는 학생들 기준으로 Bias가 있는 것은 인정하지만, 반대로 우리 교육의 목표를 제대로 이해했을 때 어떤 생각을 하게되는지

외부 평가자 관점에서 매우 적절한 컨텐츠가 아닐까 싶다.

사실 그렇게 최상위권 성적을 찍고 있는 것도 아니고ㅋ

적어도 내가 “DNN 마니악들에게 얼마나 뼈때리는 교육” (위의 생명공학 박사님 표현 인용)을 하고 있는지, 그걸 잘 따라오는 학생들이 어떻게 흡수하는 중인지는 충분히 느낄 수 있으리라 생각된다.

언젠가 MBA 졸업 논문을 학회 발표하는 시점이 오면 이런게 진짜 Data Scientist의 접근 방식이라는걸 더더욱 피부로 느낄 수 있겠지.

알아들을 수 있는 한국인이 많을 것 같진 않지만.

 

분명히 교육 목표를 제대로 이해 못하고 허덕이는 학생들도 존재하고, 못 따라와서 그만두는 경우도 있다.

그러나, 첫 꼭지에 언급한대로, 철저하게 비전공자인 학생들도 사고 훈련을 따라오고나니 많은 사람들이 이 교육을 받았으면 좋겠다는 생각을 하는 것처럼,

한국인 일반이 생각하는 것처럼 무시무시한 수학을 가르치는게 아니라, 일반 대학 수학으로도 일상의 수 많은 도전을 합리적으로 풀어낼 수 있다는,

오히려 “논리의 흐름”을 잘 따라올 수 있는 훈련이 되는지 여부가 중요하다는 걸 이해하기만 해도 충분하리라.

연례 총회 준비가 힘들었지만, 학생들 실제로 만나서 정말 많은 학생들이 “구제”되는 수준으로 올라온 걸 보니 피로가 싹~ 가시더라.

 

딱히 교육자로 정체성은 없지만, 이런 평가를 받으니 힘들어도 뽕 맞은 것처럼 포기를 못하게 되네ㅋㅋ

다들 우리 방식의 사고력 훈련을 잘 받아서 Data Science를 자기 영역에 잘 활용하는 전문가로 성장하시길 빈다.

Share this Doc

수학적으로 그렇게 큰 도전이 아니라는게 좀 많이 알려졌으면 좋겠다

Or copy link

CONTENTS