경제학자들이 알아야하는 ML, DL, RL 방법론

머신러닝, 딥러닝, 인공지능이 마치 업계에서 ‘요술 방망이’인 것 처럼 인식되고 있는 대한민국과는 달리, 미국, 서유럽에서는 이런 계산과학 방법론을 다른 학문들이 어떻게 받아들여야하는지 정립이 된 상태이며, 또 어떤 방식으로 쓰는게 합리적인지 내부 토론으로 정리가 되어 있다.

필자의 출신이 경제학이라 석사 이후로 발을 뺀지 오래되었음에도 불구하고 습관처럼 유명한 경제학자들 웹페이지에 올라온 전문지나 기고를 훑어보는데, 오늘은 경제학에서 머신러닝(Machine Learning, ML) 방법론을 어떻게 받아들이고 쓰고 있는지에 대한 정리글을 소개한다.

참고로 원 글의 저자는 스탠포드 경제학 교수 2명이고, 글이 외부에 공개된 시점은 2019년 3월이다. 즉, 적어도 2017-2018년에 이미 논의가 정리되었다고 봐도 무방하다.

모델 기반(Model-based) vs. 알고리즘 기반(Algorithmic) 접근

기존의 통계 모델링을 하는 사람들이 대체로 모델 기반 접근을 하는 반면, 계산과학 연구자들 중 일부는 모델을 정하지 않고 시작해도 알고리즘이 데이터 속의 관계를 찾아내줄 수 있다는 관점을 갖고 데이터에 접근한다. 어느 쪽이건 실제 데이터가 갖고 있는 숨겨진 구조를 찾아내고, 그 구조를 미래 예측이나 자신의 문제를 해결하는 용도로 쓰려고 한다는 ‘Listen to Data’라는 최종 목적지는 동일하지만, 출발점을 어디로 두느냐가 다를 뿐이다.

그간 필자가 컬럼, 강의 등 여러 경로로 꾸준히 강조해왔던 주장이다. 즉, 데이터의 실제 구조를 어느 정도 예측할 수 있다면, 계산비용을 과다하게 지불하면서 적절한 모델을 찾아줄 것이라는 막연한 기대를 갖고 접근할 필요없이, 알고 있는 모델을 바탕으로 데이터를 활용하면 된다. 가장 단순한 계산이 최소제곱법(Ordinary Least Square, OLS) 같은 선형 계산법이고, 그 외에도 데이터의 분포함수를 알고 있다면 쓸 수 있는 최대우도추정법(Maximum Likelihood Estimation, MLE), 혹은 데이터가 반드시 충족해야하는 기댓값(Expectation) (ex. E(x) = 1)을 활용하는 적률법(Method of Moments Estimation, MME) 등의 계산법이 있다.

데이터가 정규 분포를 따르고 있지 않으면 최소제곱법 = 최대우도추정법 이 깨지면서 최대우도추정법이 가장 우월한 계산법이 되고, 결정 논리(Decision Theory)에 따르면, 데이터의 입력 변수가 2개 이상일 경우에 일반적으로 적률법이 최소제곱법보다 우월한 계산법이다. 그런데, 데이터의 분포함수도 모르고, 기대값에 대한 확신이 어떻게 해야될까? 또한 데이터 속에 내생성(Endogeneity) 같은, 반드시 도구변수(Instrumental Variable, IV) 등을 이용한 데이터 전처리가 굳이 필요없는 데이터를 모았는데, 그 데이터 속에서 패턴을 찾아내야한다면? 그 관계가 선형 구조가 아닐 것이라는 매우 강한 확신이 있다면? 대표적으로 이미지 인식 분야, 자연어 처리 분야가 이러한 상황에 해당한다.

이 때 알고리즘 기반 접근(Algorithmic approach)이 막강한 위력을 보여줄 수 있다. 기존의 최소제곱법, 최대우도법, 적률법 등의 통계학 계산법들이 못 찾아냈던 패턴을 찾아줄 수 있기 때문이다. 통계학에서는 ‘모델 기반 접근에서 벗어나 다양한 도구를 활용할 수 있다’는 관점에서 알고리즘 기반 접근을 반긴다. 다만, 일각에서는 알고리즘 기반 접근 방식 중 가장 많이 알려진 신경망(Neural Network)이 모든 것을 해결해줄 것이라고 주장하는 사람들도 있는데, 이는 데이터의 구조상 알고리즘 기반 접근이 필요할 때만 사용해야한다는 점을 강조한다.

왜 경제학계에서는 알고리즘적 접근 방식을 늦게, 또는 안 받아들였는가?

첫째, 경제학, 특히 계량경제학 연구자들은 수학적 성질을 매우 좋아한다. 수학적으로 완벽하게 맞아들어가는 결과, 가령 일치성(Consistency), 효율성(Efficiency), 정규성(Normality)등의 성질이 없으면 그 논문은 발표 자리에 한번 나갈 기회 얻기도 힘들다. 반대로, 머신러닝 쪽에서 심층 신경망(Deep Neural Network)이 항상 랜덤 포레스트(Random Forest)보다 우월하다는 수학적 증명이 된 바는 없다. 어느 모델이 다른 모델보다 보편적으로 우월할 수는 없다는, 데이터에 따라 적절한 모델은 달라질 수 밖에 없다는 인식은 머신러닝 연구자들이 공통적으로 갖고 있는 인식이다. 그렇기 때문에 경제학 사이드에서는 알고리즘적 접근 방식을 그다지 선호하지 않는 것이다.

둘째, 결과값의 정확도를 검증하는 방법이 1차원적이기 때문이다. 통계학 방법론들은 분산을 찾고, t검정(t-test)를 위시한 평균-분산 구조에서 결과값의 검증이 가능하다. 1차 모먼트(1st moment)인 평균만 쓰는게 아니라, 2차 모먼트(2nd moment)인 분산까지 쓰니까, 분포함수가 정규분포라면 확정적인 결론을 얻을 수 있고, 그 외의 데이터라고해도 해당 분포함수 기반의 t검정 값이 있다면 신뢰구간에 대해 높은 확신을 가질 수 있다. 반면 머신러닝 방법론들로는 수만번 비슷한 계산을 통해 각각 다른 1차 모먼트가 나오는걸 보는 방법 이외에 달리 합리적으로 분산을 얻어낼 수가 없다. 즉, 훈련 데이터 세트, 테스트 데이터 세트로 데이터를 분리한 다음, 테스트 세트에서의 정확도를 쳐다보는, 신뢰구간을 구할 수 없는 계산법에 의존하는 것이다. 머신 러닝 학계에서는 이쪽에서는 회귀 계수를 구하는게 아니라 종속 변수의 예측값 구하고, 이와 실제값의 차이만 본다. 상황이 이렇다보니, 결과값의 강건함(Robustness)에 논문 쓰는 능력을 검증받는 경제학계에서 머신러닝 방법론을 쓴다는 것은, 자신의 논문이 강건성 검증을 안 했다는 걸 스스로 인정하는 꼴이 되기 때문에, 머신러닝 방법론을 알아도 쓸 수가 없는 것이다.

셋째 이후는 배경 지식이 필요한 관계로 글 마지막에 추가한다.

약간 개인 의견을 추가하면, 알고리즘 기반 접근 방식 중 하나로 활용 가능한 네트워크 이론(Network theory)를 이용해 연구를 하던 무렵, 이런 네트워크가 얼마나 강건한 설명인지를 따지려면 여러가지 경우의 수를 놓고 봐야하는데, 모델이 완전히 달라질 것 같고, 아니면 아예 못 푸는 문제가 될 것 같은데, 과연 논문을 올리는게 가능하겠냐는 우려 섞인 걱정을 해준 분이 있었을 정도였다.

요즘 심층신경망에서 노드-링크 구조가 조금만 바뀌어도 모델이 완전히 바뀌는데, 거기다 데이터만 바뀌어도 링크값들이 크게 변하는데 과연 믿고 쓸 수 있느냐는 질문이 나오는데, 이는 1990년대 후반, 2000년대 초반에 신경망에 볼츠만(Boltzmann) 스타일의 깁스 샘플링(Gibbs sampling) + 요인 분석(Factor Analysis) 접근이 시도되었을 때도 나왔던 질문이다. 현재까지 볼츠만 구조보다 더 효과적인 네트워크의 레이어 간 링크 값 계산을 정리해주는 계산법이 없으니 현재도 유효한 질문이고, 사실 네트워크라는 구조 그 자체가 이런 ‘코에 붙이면 코걸이, 귀에 붙이면 귀걸이’라는 반박을 이겨내기 힘든 구조를 갖고 있기도 하다.

앙상블(Ensemble) 기법 vs. 모델 평균화(Model Averaging) 기법

무조건 알고리즘 기반 접근을 피했던 것은 아니고, 실제로 이런 계산법들을 경제학계에서 이용한 사례도 많다. 대표적인 경우가 머신러닝에서 쓰는 앙상블 모델과 경제학에서 흔히 쓰는 모델 평균화 방법이다.

예를 들어, 랜덤 포레스트, 신경망, 라쏘 회귀(LASSO Regression)를 결합하는 스태킹(Stacking) 계열의 앙상블을 진행한다고 생각해보자. 이걸 모델 평균화 방법이 익숙한 계량경제학의 관점으로 다시 표현하면,

이라고 쓸 수 있다.

원래의 종속변수, 즉 Y값을 가장 잘 설명하는 모델을 찾고 싶은데, 3개 모델의 가중치 합계가 1이 된다는 조건 및 양수 조건 아래, 셋 중 어떤 모델을 써서 오차를 최소화하는지에 맞춘 최적화 계산을 하는 것이다. 아마 일반 사용자들이 활용하는 스태킹 라이브러리도 위의 방식으로 최적화 계산이 진행되고 있을 것이다. 단순히 위의 3개 머신러닝 계산법 뿐만 아니라, 최대우도법, 최소제곱법, 적률법 등의 통계학 계산법을 활용할 수도 있고, 어떤 계산법이건 합리적이라고 판단되는 계산법들을 모아서 모델 평균화 작업을 하고 있으면, 이는 앙상블과 이론적으로, 실제로도 동일한 계산이 된다.

단, 합리적이라고 판단할 수 있는 계산이 경제학에서는 편향-분산 상충관계(Bias-Variance trade off)를 놓고 볼 때, 편향이 없는 쪽만 따지는게 아니라, 신뢰 구간도 중요하게 생각하는 반면, 머신러닝에서는 분산 값 자체가 없으니까 철저하게 편향이 없는 쪽에만 집중한다. 그래서 스태킹 또는 모델 평균화 방법에 넣는 후보 계산법들도 달라질 수 있고, 결과값의 추론에 대한 요구치도 다르다.

독자들의 이해를 돕기 위해 약간의 개인 견해를 덧붙이면, 선거 여론조사 여러개를 평균해서 가장 실제에 가까운 값을 찾는다고 했을 때, ML 방법론을 쓰는 사람들은 1,000명이든, 500명이든, 10,000명이든, 몇 명에게 물었든 상관없이 평균값 = 실제값으로 일단 가정하고, 그 값 근처에 있는 여론조사를 우선 쓰고, 틀렸으면 다른 여론조사로 바꾼다는 관점이라고 볼 수 있다. 반면 경제학 방법론을 쓰는 사람들은 500명이면 분산이 너무 크기 때문에, 분산이 큰 경우에는 가중치를 낮게 주고, 분산이 작은 경우에 가중치를 높게 준 다음 가중 평균을 해서 기대값을 구하고, 그 때 +- x.y% 라는 신뢰구간을 꼭 붙여야된다고 생각하는 것이다.

이에 누군가는 신뢰구간을 왜 보아야하는지 생각할 수 있고, 신뢰구간이 +- 20% 이렇게 터무니없게 나오면, 아무리 여러 여론조사를 모아서 평균값을 썼다고해도, 그 숫자를 누가 믿고 선거 결과 예측에 쓰냐는 반박을 할 수도 있다. 그러나 필자가 항상 강조하는 내용이지만, 앙상블/스태킹/모델 평균화 그 어떤 단어를 쓰든 상관없이 기본 모델 N개를 결합할 때는 계산의 오차 (Bias)가 작은 경우만 집중할게 아니라, 믿을 수 있냐 (Variance)는 질문에 답이 나오는 모델들을 결합해야 된다고 지적한다. 이들의 수학적 성질은 같기 때문에, 결과값을 내가 쓸 수 있느냐 없느냐가 바로 ‘Listen to Data’를 제대로 했는지 아닌지에 따라 결정되기 때문이다.

의사 결정 나무(Decision Tree) vs. 회귀 나무(Regression Tree)

머신러닝 계산법을 처음 보는 사람들은 의사 결정 나무가 회귀분석보다 압도적으로 우월한 계산 아니냐는 질문을 하는 경우가 종종 있다. 그런데 기본형 의사 결정 나무도, 확장 형태인 랜덤 포레스트도, 모두 UC Berkley의 통계학자가 1984년, 2001년에 쓴 논문에 정리되어 있는 계산법들이다. 정리되기 오래 전부터 이미 다들 알고 있는 계산법이기도 했음을 덧붙인다.

위에서 보듯이, 회귀에 기반한 모델을 여러개 회귀로 구분하도록 구간별 평균값을 다르게 잡는게 회귀 나무(Regression Tree)의 시작점이다.

역시 필자가 강의에서 계속 설명해왔던 내용인데, 여러 구간에 나눠서 회귀분석을 하는게 의미가 있는 경우, 가령 약에 반응하는 몸무게 구간이 여러개 나뉘어 있다는 가정에만 의사 결정 나무 계열의 모델이 의미가 있다. 예를 들어, c보다 작은 구간에서는 회귀가 별로 효과가 없는 반면, c보다 큰 구간에서는 회귀분석으로 특정 변수간 유의미한 관계가 두드러지게 나타날 수 있다.

의사 결정 나무라고 외부에 알려진 모델은 종속변수와 종속변수의 평균값 차이를 1개 변수에 한정해서 여러 단계로 반복하고,구간을 나눌 때 0/1 형태로 구분하는 계단 함수(Step function)를 커널(Kernel)로 활용하는 회귀 나무의 특수형태 중 하나다. 일반적으로 회귀 나무라는 명칭은 1 -> N개 변수에 대응할 수 있는 일반형 의사 결정 나무 모델을 오랫동안 통계학에서 불러왔던 명칭이다. 참고로, 이 모델을 중첩형으로 쌓으면 신경망 모델이 된다.

위의 식에 Alpha값이라는 모델별 가중치에서 보듯이, 랜덤 포레스트란 그런 여러 의사 결정 나무 모델들에 각각 얼마만큼의 가중치를 배분해주느냐, 그래서 스태킹을 어떻게 하느냐는 계산이다. 차이가 있다면, 의사 결정 나무가 진화하는 구조 속에 데이터에서 알려주는대로 가중치를 나눠 배분하면서 구간을 쪼개가기 때문에, 좀 더 복잡한 구조를 가진 데이터일 경우에 적합한 모델을 얻을 가능성이 높아진다.

이해도를 높이기 위해 복잡한 구조를 가진 데이터의 예시를 하나만 들어보자. 몸무게 특정 구간 A, B, C, D, E 그룹 중 B와 D 그룹에서만 반응하는 약물이라고 생각하면, A, C, E 그룹과 데이터가 혼재된 상태에서의 회귀 분석보다 구간을 여럿으로 쪼갤 수 있는 의사 결정 나무가 더 효율적인 계산이고, 그런 구조가 단순히 몸무게 하나에서만 나타나는게 아니라, 키, 팔 길이, 다리 길이 등등의 다양한 신체 구성 요소의 범위에 제각각으로 영향을 받는다면, 이걸 회귀분석 하나로 찾아낸다는 것은 데이터 구조에 맞지 않는 계산이다. 의사 결정 나무로 모델을 만들고, 다양한 샘플에서 비슷하게 계속 맞아들어갈 수 있는 모델을 찾겠다면, 의사 결정 나무 하나만 찾고 끝나는게 아니라, 랜덤 포레스트를 이용해 여러 모델을 평균화하는게 적절한 계산법이다.

결론이 팔 길이 40cm – 45cm, 다리 길이 80cm – 85cm, 키 175cm – 180cm 구간과 각 값이 20%씩 더 뛴 구간에서만 약물이 효과가 있고, 그 외에 나머지 구간에서는 아예 효과가 없다면? 각 값이 10% 작은 구간과 10% 큰 구간에서는 아무런 효과가 없었다면? 일반적인 회귀 분석은 그 약물이 그다지 효과가 없다고 결론 내리겠지만, 회귀분석을 의사 결정 나무를 이용해 구간으로 나눠보면 위의 특정 2개 구간에서만 두드러진 효과가 있음을 좀 더 쉽게 찾아낼 수 있다.

이런 구간별 효과는 단조 증가・감소를 가정하는 기존 회귀 분석 모델로 풀어내는데 한계가 있으니, 구간을 하나하나 다 탐색해보겠다는 관점에서 알고리즘 기반 접근을 통해 그런 구간을 찾아낼 수 있도록 컴퓨터에 의존하는 것이다. 다만 Monotonic이 깨지는 경우가 그렇게 일반적이지는 않다. 가령 팔 길이가 40cm, 50cm, 60cm +-1cm 인 구간에서만 효과가 있고, 나머지 팔 길이에서는 효과가 없는 약물은 현실 속에서 가정하기 힘들기 때문이다.

신경망 vs. 요인 분석

K개의 변수 X가 있다고 가정해보자. 그 중 실제로 숨겨진 변수(Latent Unobserved variable)인 Z는 총 K_1개가 있다고 하면,

시그모이드(Sigmoid) 함수를 커널, 또는 활성화 함수(Activation Function)로 쓴다고 했을 때, 첫번째 숨겨진 층을 바로 위의 식으로 정리할 수 있다.

위에서 Beta는 머신러닝에서 이야기하는 가중치이고, g(.)는 활성화 함수, K는 입력하는 변수의 숫자, K_1은 노드의 숫자, Z는 숨겨진 변수, epsilon은 회귀분석에서 말하는 오차항이다.

같은 논리로 첫 번째 레이어에서 두 번째 레이어로 가는 식을 세울 수도 있다.

이런 식이 반복되는 구조가 신경망으로 알려진 계산법인데, 필자가 설명해왔던대로, 활성화 함수를 단순 선형 함수로 쓰는 경우는 선형 요인 분석(Linear Factor Analysis)이고, 비선형 함수를 쓰는 경우는 비선형 요인 분석(Non-linear Factor Analysis)이다. 요인 분석과 신경망 계산이 동치인 이유는 ‘숨겨진 레이어’라고 부르는 곳에 있는 노드가 모두 숨겨진 변수(Latent, Unobserved variable)이라는, 전형적인 요인 분석 계산의 결과값이기 때문이다. 숨겨진 변수를 정확하게 특정할 수 없기 때문에, 요인 분석 계산은 많은 경우에 ‘코에 걸면 코걸이, 귀에 걸면 귀걸이’라는 비난을 받는다. 글 앞 부분에 신경망 모델이 가진 한계를 지적하던 부분과 일맥 상통한다.

정규분포의 합과 차는 정규분포이기 때문에, 입력 데이터가 정규분포인 경우에 출력값도 정규분포라고 가정한다면, 단순한 선형 요인 분석으로도 충분한 계산이다. 말을 바꾸면, 신경망이라는 계산이 필요한 데이터 프로세스는 입,출력 데이터가 모두 정규분포가 아닌 경우에 제한된다. 비선형 요인 분석이 필요하다는 뜻이기 때문이다.

같은 맥락에서 심층신경망이 필요한 경우는, 여러번의 요인 분석이 반복되어야 하는 계산인 경우인데, 위의 정규분포 ⇒ 정규분포 구조에서는 의미가 없다. 정규분포의 합과 차는 계속해서 정규분포를 결과값으로 내보낼 것이기 때문이다. 심층 신경망이라는 계산법이, 데이터가 위상구조를 띄고 있어서 팩터를 단번에 찾아내는게 어려운 구조, 그래서 여러 번의 요인 분석을 반복해서 위상구조의 깊숙한 곳을 찾아가야 원하는 데이터의 숨겨진 구조를 찾아낼 수 있는 경우에만 필요한 계산법이라는 것이 바로 이런 맥락이다.

경제학에서 알고리즘 기반 접근방식을 안 쓰는 셋째, 넷째 이유

위의 지식이 갖춰졌으니 경제학계에서 알고리즘 기반 접근방식을 다루지 않은 이유를 추가하면,

셋째, 경제학의 많은 데이터들이 비선형 패턴이나 구간별 효과값이 다른 경우가 거의 없기 때문이었다. 대부분의 X ⇒ Y 관계는 단조 증가・감소 관계를 갖고 있고, 그 패턴이 비선형적이라고 해도 로그(Log)값 기준으로 변화율간 관계, 특정 구간에서의 움직임을 보고 있으면 비선형성이 대부분 제거된 구조를 보는 경우가 대부분이다. 위에서 보듯이, 대부분의 머신러닝 방법론들이 기존의 통계학을 ‘단순히 다르게’ 쓰는 계산법들이라 계량경제학을 하는 사람들이 몰랐을리가 없었음에도 불구하고 이용하지 않았던 가장 궁극적인 이유다. 필요가 없었기 때문이다. 다루는 데이터가 달라지거나, 목적이 달라지는 경우에만 관심을 가졌을 것이다.

넷째, 사회과학 데이터는 내생성이 있는 경우가 많기 때문에, 동시성(Simultaneity), 설정 오류(Mis-specification), 관측 오차(Measurement error) 등을 다뤄주거나, 시계열(Time series)에서 내생성 같은 모델 구조적인 문제가 아니어도 노이즈를 제거해줘야하는 경우를 먼저 고민한다. 일단 알려지거나, 짐작할 수 있는 문제를 제거하지 않고 데이터 작업에 들어가면 학자 자격을 의심 받는다. 반면, 알고리즘 기반 접근은 그런 데이터 전처리를 깊게 고민하지 않고도 데이터 속의 패턴을 찾아낼 수 있다는 관점에서 활용되는 계산법인데, 데이터에 내생성을 비롯한 모델 구조적인 문제 및 각종 노이즈를 제거하지 않고 무작정 알고리즘 기반 접근에만 기대봐야 원하는 값을 찾을 수도 없고, 우연히 찾아낸다고 해도 우연일 뿐이지, 계속 반복적으로 쓸 수는 없는, 즉 학문적 가치, 아니 지식의 가치가 없다고 판단하기 때문이다.

실제로 경제학자들이 모인 연구소에 머신러닝, 딥러닝, 강화학습과 같은 알고리즘 기반 접근을 제대로 수학적으로 강의하면, 경제학자들이 고개를 갸우뚱하는 것을 종종 목격한다. 노이즈가 많은 데이터에서 노이즈를 제거하지 않고 패턴을 찾을 수 있다는 ‘알고리즘 기반 접근’이 ‘사기’라는걸 바로 인지했기 때문에, 즉, 사회과학 데이터에는 ‘틀린’ 접근이라는걸 바로 인지하기 때문이다. 즉, 알고리즘 기반 접근은 노이즈가 없고, 인과 관계 및 데이터 구조에 모델 구조적인 문제가 없는 데이터, 그런 고민 자체가 필요없는 데이터, 즉 이미지 인식, 자연어 처리 등등, 알고리즘 기반 접근방식이 맞는 데이터에만 엣지가 있다.

나가며 – 머신 러닝 방법론이 하늘에서 떨어진 방법론이 아니다

이 정도면 위 기고글의 약 1/3 정도를 다룬 것 같다. 위의 설명이 어느 정도 길잡이가 됐을테니, 이해하는 독자 분들은 나머지 부분도 링크의 논문을 직접 읽고 이해할 수 있을 것이다. 만약 당신이 영미권 학부 고학년 수준의 머신러닝, 딥러닝, 강화학습에 대한 이해도를 갖추게 되면, 시장에서 ‘인공지능’을 적용해서 뭔가 엄청난 걸 해 냈다고 주장하는 언론 홍보의 실상을 좀 더 깊이있게, 냉혹한 시선으로 파악할 수 있을 것이다. 아마 학위 과정이 끝나는 무렵이 되면 위의 이해도 없이 코드만 갖다 붙여서 만든 결과물이 왜 제대로 작동하지 않는지, 그런 결과물에 시간과 인력과 돈을 쏟아붓는 작업이 얼마나 사회적 자원의 낭비인지, 그래서 제대로 된 지식을 볼 수 있는 시야를 갖춘다는 것이 단순히 연구 작업 뿐만 아니라 기업의 의사 결정과 생존, 발전에 얼마나 결정적인 영향을 미치는지 좀 더 열린 시야로 이해할 수 있게 될 것이다.

‘하늘 아래 새로운 것은 없다’라는 표현이 있다. 머신러닝 방법론들, 더 일반화해서 알고리즘 기반 접근방식이라는 것들이 모델을 기반으로 하지 않고 모델이라고 판단되는 기본 식을 정리해보겠다는 접근 관점의 차이만 있을 뿐이지, 사실 방법론들은 모두 기존의 통계학을 활용하는 계산법들에 불과하다. 즉, 기존의 통계학 계산법들이 못하는 걸 해내는 마법도 아니고, 기존의 방법론들이 가진 한계를 벗어나지도 못한다. 이는 ‘다른 관점’일 뿐이다. 단지, 머신 러닝 방법론들은 특정한 몇몇 경우에만 모델을 기반으로 하지 않고도 모델을 찾아내는 장점을 가진 반면, 분산, 검정력 등등의 수많은 통계학 도구들을 포기하는 계산법에 불과하다.

그런 한계를 명확하게 이해하고, ‘Listen to Data’를 하기 위해 현재 내가 가진 데이터의 상황, 내 작업 목적 등을 모두 감안해서 적절한 계산법을 선택하는 것이 진짜 데이터 사이언스 아닐까?

믿을 수 없겠지만, 위 스탠포드 교수님들이 쓰신 기고글은 필자가 석사했던 학교의 학부 2학년 ‘Introduction to Econometrics’ 라는 수업의 읽기자료 및 연습 문제다. 석사 수준도 아니고, 학부 졸업반도 아니고, 학부 2학년 때 영미권 학생들은 이미 머신러닝, 딥러닝, 강화학습이라고 불리는 계산과학적 접근법을 기초 계량경제학 수업 때 듣고 이해하고, 연습 문제를 풀 수 있는 수준의 교육을 받는다.

석사 공부하던 시절 내내 그들의 교육 수준에 충격 먹었었지만, 저 논문을 학부 2학년 수업 읽기자료와 연습문제에서 보고 말로 형용할 수 없는 충격을 받았었다.

지극히 개인적인 견해를 덧붙이면, 경제학계에서 머신러닝, 딥러닝, 강화학습 으로 대표되는 알고리즘 기반 접근방식을 쓰지 않는 가장 결정적인 이유는, 계량경제학자들이 통계학 훈련이 잘 되어 있어서, 컴퓨터에 의존해서 계산을 해내는 것이 아닌, 인간의 지성을 더 중요시했던 르네상스 시대에 조금은 더 가까운 공부를 했기 때문이 아닐까 싶다.