[기고] 인과 추론을 AI로 하겠다는 황당한 발상

통계학 방법론은 상관관계를 추론하는데 그칠 뿐, 인과관계를 추론하는데 쓸 수는 없어
노벨상을 받은 그랜져(Granger) 교수의 인과 추론도 인과 관계가 없다는 것을 증명하는데만 쓰여
AI가 통계학 방법론을 컴퓨터 의존형으로 풀어내는 계산이라는 이해 없는 가짜 데이터 과학자들 많아
'AI로는 되는 것 아닌가요?' 같은 질문하는 학회까지 열리는 최근 실상

쌍둥이가 살고 있는 교외 외딴 시골 마을을 생각해보자. 한 아이는 아침 저녁으로 집 밖에서 흙 먼지를 뒤집어 쓰면서 놀기를 좋아하고, 다른 한 아이는 집에서 비디오 게임에만 빠져산다. 1년 후, 의사가 진찰을 해보니 게임만 하던 아이가 훨씬 더 건강했다는 이유로 밖에서 노는 것은 건강에 나쁘다고 표현하면 논리적으로 말이 될까?

과학적 훈련을 굳이 받지 않았더라도 위의 결론이 불충분한 정보, 주변 상황에 대한 몰이해에 기반한 왜곡된 판단이라는 것을 충분히 이해할 수 있을 것이다. 예를 들어, 그 쌍둥이들이 살고 있던 지역이 체르노빌이나 후쿠시마 일대처럼 방사능 오염이 심각하게 된 지역이었다면 밖에서 노는 것이 건강에 나쁘다고 할 수 있었겠지만, 한국 시골 마을이어도 같은 결론이 나왔을까? 집에서 게임만 하던 아이가 훨씬 더 밥을 잘 챙겨먹었기 때문이라는 중간 과정이 생략된 상태에서 무조건 집 안에 있으면 건강해진다는 결론에 공감을 구하기는 쉽지 않을 것이다.

사실 집 안에 더 많이 있다는 현상과 더 건강하다는 현상 사이에는 수 없이 많은 가능성들이 존재한다. 위에서 주어진 정보만을 놓고 봤을 때, 우리가 내릴 수 있는 결론의 최대치는 ‘잘 모르는 이유로’ 집 안에만 있던 아이가 더 건강하다는 이야기 밖에 할 수 없다.

좀 더 과학적인 표현을 빌리자면, 통계학은 두 변수의 상관관계를 찾아내는 학문이지 두 사건의 인과관계를 검증해주는 학문이 아니다. 실험실처럼 제한된 환경이라고 해도 조작한 변수가 실제 결과의 원인이라고 주장하기 어렵다. 원인과 결과 사이에 우리가 모르는 제 3의 변수가 있을 수 있기 때문이다. 연구자들이 인과관계를 주장할 때는 결국 ‘추론’ 혹은 ‘직관’에 의지할 수밖에 없다.

Post Hoc, Ergo Propter Hoc

라틴어 표현 중에 ‘Post Hoc, Ergo Propter Hoc’이라는 구절이 있다. 앞의 사건이 일어나고 난 다음에 뒷 사건이 일어났으니 서로 인과관계가 있다고 생각하는 것이 잘못되었다는 지적을 위해 쓰이는 표현이다.

통계학자들은 “상관관계가 반드시 인과관계를 설명하는 것은 아니다”라는 방식으로 같은 내용을 표현한다. 변수 1대 1의 관계가 아니라 다수 변수와 1개 변수 간의 동시적 상관관계를 설명하는 회귀분석의 경우, 인과관계 없는 회귀분석을 통계학에서는 ‘허위의 회귀분석(Spurious Regression)’이라고 부른다. 안타깝게도 통계학 훈련이 부족한 일부 학자들의 연구에서 자주 볼 수 있는 문제고, 특히 인과 추론에 확신을 갖기 쉬운 공학도들의 연구에서 자주 나타나는 문제다.

대표적인 예시가 최근 인기를 얻고 있는 챗GPT가 겪고 있는 ‘환각(Hallucination)’ 문제다. 대형언어모델들은 높은 상관관계를 갖는 표현을 뽑아내도록 훈련이 된 모델이지, 인과관계를 추론하도록 만들어진 모델이 아니다. 두 단어, 두 문장, 두 단락 사이의 상관관계가 높은 확률로 인과관계, 혹은 내용의 연관성이 있을 수는 있지만, 자주 반복되어 나타난다는 것만으로 둘이 관련된 정보라고 단정 짓기는 쉽지 않다.

통계학자들이 높은 상관관계와 인과관계를 구분하기 위해 오랫동안 노력해왔지만, 인류가 만들어낸 최대치는 2003년 노벨상을 수상한 클리브 그랜져(Clive Granger) 교수의 ‘그랜저 인과 (Granger Causality)’다. 안타깝게도 그랜저 인과는 3개 이상의 변수가 있을 때 2개 변수 간의 상관관계가 인과관계가 아니라 제3의 변수로 인한 상관관계인지 여부를 보여주는 용도로 밖에 쓸 수 없다. 즉, 두 변수 간의 상관관계의 원인이 다른 변수로 인한 상관관계인지 아닌지만 볼 수 있는 것이다. 여름철 바닷가에서 아이스크림 판매량과 상어에 물린 사람 숫자가 함께 많은 것은 아이스크림을 먹으면 상어에게 공격 당하기 쉽기 때문이 아니라, 여름철에 사람들이 바닷가에 많이 가기 때문이지 않냐는 반박을 위해 쓰일 수 있다. 그랜저 교수의 연구가 노벨상을 받은 가장 큰 이유는 2개 변수 간의 상관관계 만으로 인과관계 여부 검증이 논리적으로 불가능하다는 것을 증명했기 때문이다.

AI에게 인간의 검증이 필요한 이유

AI라고 불리는 데이터 과학, 혹은 계산 과학을 가르치고 있다보면, 기초 학문 도구인 수학, 통계학 훈련이 전혀 되지 않은 채, 언론사 기사들만 몇 줄 읽은 상태로 이런저런 용어들만 많이 아는 것으로 자신이 뛰어난 실력자라고 주장하는 경우들을 굉장히 많이 접하게 된다. 그 분들 중 상당수는 통계학적으로, 아니 철학적으로 상관관계와 인과관계 구분이 불가능하다는 그랜져 인과를 설명해주면 “그럼 인공지능으로는 가능하지 않을까요?” 같은 질문을 꼭 한다. 인공지능이 통계학보다 더 엄청난 마법의 기술이라고 생각하기 때문일 것이다.

수학, 통계학을 대학 학부 수준으로만 탄탄하게 받았더라고 AI라고 불리는 계산 과학이 사실은 통계학을 컴퓨터 계산을 이용해서 좀 더 빠르고 효과적으로 해 내는 작업에 불과하다는 것을 이해할텐데, 즉, AI도 통계학의 한 분야라는 것을 이해할텐데, 그런 이해가 없다보니 황당한 질문을 하는 것이다. 그들의 질문을 바꿔쓰면, “통계학으로 불가능하면 컴퓨터가 계산해주는 통계학으로는 가능하지 않을까요?”가 될텐데, 컴퓨터가 계산해주는 통계학은 우리가 알고 있는 통계학의 일부분에 불과하다는 점을 생각해보면, “사칙연산으로는 계산이 안 되지만 덧셈으로는 가능하지 않을까요?” 같은 어리석은 질문임을 이해할 수 있을 것이다.

통계학이 인과 추론을 못하는 것은 챗GPT에서 환각 현상을 기계적으로 없애는 것은 불가능하다는 말과 같은 뜻이다. 상관관계가 있는 변수들을 모아놓고, 인과관계를 이해하기 위한 마지막 단계로 인간의 경험을 활용하는 사회과학 학문 훈련을 받은 분들은 챗GPT가 언어 데이터들을 엮어주는 계산을 보면서 인간이 직접 지정할 수밖에 없겠다는 것을 바로 이해할 것이다. 그래서 챗GPT가 기반하고 있는 모델도 ‘강화학습(Reinforcment Learning)’이지만 ‘인간 반응(Human Feedback)’을 이용해서 보정하는 모델을 썼다.

인과 추론 문제는 단순 점수 올리기가 아니라 다차원적인 도전

모든 조건이 제한된 실험실에서 1개 변수의 효과를 보는 훈련만 하던 자연과학, 공학 쪽에서는 인간이 보정하는 작업을 받아들이기 힘들어하는 경우를 자주 본다. 그 분들을 위해 물리학의 예시를 하나 드리면, 하이델베르그의 불확실성의 정리는 미시 현상을 관측하기 위해 인간이 어떤 자극을 가하면 자극을 가하기 직전의 위치와 상태는 알 수 있지만, 자극 이후의 위치를 추측만 할 수 있을 뿐, 정확한 위치를 파악할 수는 없다는 것을 철학적으로 증명한 것이다. 자극을 아예 가하지 않으면 현재 위치와 상태도 완벽하게 파악할 수 없다. 결국 인간이 어떤 방식으로건 개입해야 정보의 일부를 얻고, 인간의 간섭으로 정보 일부를 잃게 되는 것이다.

AI라고 불리고 있는 계산과학 작업도 크게 다르지 않다. 환각 현상을 배제하기 위해서 데이터를 수정하거나, 결과값의 정답/오답 여부를 지정해주면서 모델을 조금씩 변화시켜야 한다. 변화되고 난 모델은 수정한 부분에서는 좀 더 완벽에 가까워졌겠지만, 다른 부분에서 어떤 문제가 생겼을지 확신할 수는 없다. 100점을 위해 90점에서 0.1점씩 지속적으로 상승하는 수정이 아니라, 수천개의 각도에서 한 쪽 각도를 수정하고 나면 다른 각도에 또 다른 문제가 생길 수 있는 식의 다차원 구조이기 때문이다.

사회과학 쪽으로 가 보면, 통계학을 자기들 방식으로 고쳐서 ‘내재성(Endogeneity)’을 보완하는 각종 계산법들을 만들어 낸 것을 볼 수 있다. 계량경제학이 대표적인 예시로, 도구 변수라는 개념을 활용해서 변수 측정에 오차가 있는 경우, 측정 변수를 빠뜨린 경우, 설명 변수와 종속 변수 간의 쌍방 영향을 주는 경우 등의 문제를 제거하기 위한 보완 개념을 제시한다. ‘평균 반응 효과 (Average Treatment Effect)’, ‘부분 평균 반응 효과 (Local Average Treatment Effect)’ 등으로 제한을 둔 연구들도 지난 2021년에 노벨상을 받기도 했다. 완전히 맞는 것은 아니지만, 조금 덜 틀린 답을 찾아내기 위한 도전의 일부분이다.

인과 추론을 인간 없이 할 수 있다는 국내 학회들

요즘 국내 몇몇 AI관련 학회들을 보면*, 마치 데이터 과학을 이용해서 인과 추론이 가능한 것처럼 호도하는 경우들을 자주 본다. 이 분들은 심지어 위의 내재성 개념, 도구 변수 활용 같은 훈련이 안 된 분들인 것을 자주 보는데, 컴퓨터 계산을 이용해서 인과 추론을 해 내는 방법을 찾아냈다고 주장한다. 철학적으로 불가능하다는 것을 이미 그랜져 인과로 증명을 했기 때문에 노벨상을 받았는데, 그 논리가 틀렸다는 증명 대신, “AI를 쓰면 되지 않을까요?” 같은 홍보를 하고 있는 것이다.
(*역자 주: 한국 사례가 언급된 부분을 문맥에 맞게 변형함)

이런 분들 사이에서 듣는 황당한 사례 중 하나는 “챗GPT한테 물어봤는데, GPT가 3.5라서 한계가 있었던 것 같다. 고급 답변을 주는 4.0을 쓰면 더 좋은 답변을 받을 수 있을 것 같다”는 답변이었는데, 질문 안에 들어간 단어와 상관관계가 높은 단어를 던져주는 것에 불과한 챗GPT의 답변에 의존하는 인력이 데이터 과학자로 채용이 됐다는 사실 자체가 몹시 충격이었다.

논리적으로 불가능한 주제를 AI라고 이름 붙인 기계로 해 낼 수 있다고 호도하는 학회가 열리는 것도 충격이고, 참가자들의 수준도 충격적이다. 1+1은 역사상 2였지만 AI를 써서 3을 만들어 낼 수 있게 됐다고 주장하는 학회가 열리고, 그 학회 발표자가 이번 AI에서는 3을 못 만들어 냈지만 다음 AI로는 3을 만들어 낼 수 있다고 주장하면 어떤 반응을 보여줘야 할까?

*편집진: 영어 원문은 GIAI Research의 Post hoc, ergo propter hoc – impossible challenges in finding causality in data science입니다.

David O’Neill

Founding member of GIAI & SIAI Professor of Data Science @ SIAI