입력
수정
국내에서 양대 IT업체로 불리는 판교의 K모 회사가 후원하는 어느 학회의 행사 타이틀이
- 인과 관계를 설명할 수 있는 인공지능
인 것을 본 적이 있다. 홍보된 웹사이트 링크와 여러 정보를 봤을 때, 학회가 주인이 아니라 그 K모 회사가 인공지능 전문가로 시장 포지션을 잡는 홍보 행사에 어용 학회를 끌어들인 느낌이었다. 목적이 좀 불순해도 내용만 좋으면 흔쾌히 갔으련만.
SIAI 학생 중 한 명이 그 학회 행사 링크를 학생들 커뮤니티에 공유하면서 같이 갈 사람을 찾더라.
수업 시간에 이미 여러 차례
- 인공지능이라고 알려진 여러 계산법은 모두 상관 관계(Correlation)을 찾아내는 계산법의 다양한 변형에 불과하다
- 계산법으로 찾아낸 상관 관계가 인과 관계를 담보하지 않는다
- 인과 관계가 없다는 것을 100% 단정하도록 돕는 계산법들은 있어도, 인과 관계가 있다는 것을 100% 단정할 증명법은 없다
- 상관 관계라고 찾아내는 계산 자체도 이미 무수히 많은 종류의 오류에 노출되어 있어서 보정 계산을 어떻게 하느냐에 따라 계산 결과가 크게 바뀐다
- 인과 관계는 결국 인간이 검증하는 것이다
같은 설명을 했었기 때문에, 그 링크를 공유한 학생이 도대체 제대로 배운게 맞나는 의구심이 강하게 들었다. 저런 이야기들을 학위 초반에 통계학을 가르치면서 수백번도 더 반복적으로 하고, 그 논리를 이해 못하는 사람들을 조롱하는 답안지까지 작성하는 기출 문제들이 몇 년간 쌓인만큼, 학위 중반부도 넘어 후반부로 넘어간 학생이 저런 학회 모임을 가자고 하니, 인생을 갈아넣어 대학교를 설립한 입장에서 얼마나 황당했을지 짐작이 될까?
역사학자들 커뮤니티에 설XX 강사 행사 참석 글을 올리면?
1~2주가 더 지나고 반응이 없던 중에 챗GPT 류의 LLM 모델들이 논리적인 답변이 아니라 자주 함께 등장한 문장들을 이어줄 뿐이라는 답을 달아주다가 상관 관계에서 인과 관계를 도출하는 영역으로 넘어가면 알고리즘의 영역이 아니라 인간 판단의 영역으로 넘어갈 수밖에 없다는 이야기를 함께 언급했었다.
그리곤 저 글을 올린 학생에게 위의 설명 링크를 포함한 개인 DM을 통해서 해줬던 말이,
- 역사학자들 커뮤니티에 설XX 강사의 행사 글을 올린 수준의 행동이다
면서 조용히 글을 정리하라고 충고를 해 줬는데, '세상에 영향력을 행사하는 방식이라는 관점에서 답답하지 그지없다'는 답을 끝으로 더 이상 본 적이 없는 학생이 됐다.
저 학생의 논리 중 공감이 가는 부분은, '인공지능으로 인과 관계를 설명할 수 없다'는 (인기 없는) 학문적인 설명으로는 대중을 끌어모을 수 없다는 것이다.
역사학계에서 진행하는 학회 행사에 일반인이 찾아가서 알아 듣는 경우는 얼마나 될까? '그거 알면 취직 되나요?' 같은 질문들을 할 사람이 찾아가기 어려운 자리다. 역사의 여러 시간대별 사건에 대해 고작 고교 교과서 수준의 지식과 아마추어적인 관심을 가진 나같은 사람들이 학회 참석해서 뭘 더 배울 수 있을까? 연구자들은 그쪽 학문 연구자들만의 세계가 있을텐데.
전문가가 없는 사회, 모두가 자칭 전문가인 사회
우리 SIAI가 설립하면서 통계학의 Asymptotic behavior를 바탕으로 한 응용통계, 계산통계학의 고급 수학 논리를 따라와야 살아남을 수 있는 MSc 과정과, 그런 수학은 수식 전개보다 논리적인 개념 이해에 더 초점을 맞춰서 응용통계, 계산통계를 현실에 적용하는 훈련을 더 담은 MBA 과정으로 시작됐다.
때문에 MSc 과정은 때때로 수학적인 증명을 해야하는 경우들이 있는 반면, MBA는 A가 B 사건의 발생 가능성을 차단한다는 류의 논리적인 설명을 답안지에 쓰도록 학위 과정이 구성되어 있다. 저 학생은 MSc를 끝까지 고집하던걸 MBA하고 졸업하고 난 다음에 MSc 해라고 그랬더니, 나중에 MSc 학생들 수업에서 푼 시험 문제들을 보고 충격을 먹었는지 더 말이 없었던 걸로 기억한다. MBA 과정만 해도 살아남는 비율이 30%가 안 될만큼 어려운 학위 과정이다.
나중에 졸업 논문이라고 Kaggle 수준의 시도를 하던 걸 (암 걸릴 것 같아서) 발표를 중간에 막고 논리적인 빈약함을 지적했었는데, 위의 기업 후원 학회 행사 사건 이후로 더 보질 못했으니 어떻게 됐을려나 모르겠다. 참고로 컨설팅 회사 프로젝트 발표나 정출연 보고서 논문을 갖고 오는 학생들한테도 Kaggle 케이스 스터디랑 똑같이 중간에 잘라 버리는 경우가 많다. 그건 논문이 아니라 궤변이거나 연습 문제 풀이 정도에 불과하니까. 국내 대학에서는 그 논문이라도 잘했다고 졸업시켜주고, 국내 B급 이하 학회들은 박수 쳐 줄테니 그쪽으로 가시면 된다. 학생들끼리 논문 수업 시간 전에 떠드는 중에 그런 발표 준비한 학생들에게 '교수님이 발표 다 안 듣고 자르실 것 같아요'라고 뀌뜸해주는 이야기도 가끔 들린다.
저 학회 행사로 다시 돌아가서, 아마도 후원을 나선 기업에서 원하고, 그 학회 구성원들이 합의한 주제가 뽑혔을 텐데, 저 사건 하나로 그 기업의 역량, 그 학회의 역량이 모두 다 드러나 버렸다. 그 학회 구성원들을 보니 아니나 다를까 제대로 된 수학, 통계학 훈련을 받지 않아도 손 쉽게 박사 학위를 받을 수 있는 전공 출신들의 모임이었다. 그 기업이 그간 출시한 인공지능 상품은 모두 글로벌 기업들이 뿌린 'AI 라이브러리'를 활용한 것에 지나지 않았던만큼, 저런 타이틀로 행사를 진행하고 그런 학회를 끌어들였을 때 전문가들에게 어떤 평가를 받을지 미리 가늠하기 어려웠을 것이다.
혹시나 상세 설명 없이 전문가에게 혹평을 들을 것이라는 표현에 거부감이 든다면, 변수 간의 상관 관계와 인과 관계에 대한 논의로 노벨상을 받은 Granger causality - Wikipedia 를 확인해보시기 바란다. SIAI의 STA513 수업 6강 쯤에 VAR 가르치려고 짧게 다루는 주제 중 하나다. 참고로 STA513 수업 노트의 절반은 발트3국 어느 대학의 수학/통계학/경제학 연계 전공 학부 3학년 노트를 참고해서 만들었다. (옥스포드, 캠브리지 같은 유명 대학이 아니라) 유럽(의 평범한) 대학 학부 3학년 학생들에게조차 지적을 당할만한 학회 행사였다고 하면 비판의 수위가 높을 수밖에 없는데 조금은 공감해주시리라 믿는다.
전문가의 목소리에 힘이 실리는 나라였다면?
만약 한국 사회가 매우 지적 수준이 높은 사람들이 활발하게 사회적인 활동을 하는 중에 저런 행사를 속칭 '빅테크' 급의 플랫폼 기업이 개최한다고 하면 어떤 상황이 벌어졌을까?
학자들이 페이스북, X(트위터), 레딧 같은 커뮤니티에서 그 기업을 노골적으로 조롱하는 글, 댓글을 달았을 것이고, 그 학회 관계자들의 논문들에서 수학적, 통계학적 논리 부족을 짚으면서 그런 조직을 데리고 회사 홍보하는 것만 봐도 회사의 인공지능 역량을 알만하다는 냉혹한 평가가 빠르게 확산됐을 것이다. 좀 똘똘한 학부생도 그런 비판에 참여할 수 있을만큼 지적 수준도 높지 않은 주제다.
'세상에 영향력을 행사하는 방식이라는 관점에서 답답하기 그지없다'는 그 학생의 표현은 어떻게 바뀌었을까? 당신이 학생이라고 생각하고 상상의 나래를 펼쳐보기 바란다. 나 같았으면 부끄러워서 고개를 못 들었을 것 같다.
예전엔 나도 적극성을 띠면서 저런 기업 홍보 성격이 다분한 유사 학회 모임의 학문적인 조잡함을 조목조목 지적했는데, 그게 돈도 안 되고, 저쪽 사람들의 선동에 욕만 먹고, 내 말을 알아 듣는 사람도 별로 없다 보니, 심지어 '자기 편 숫자'를 앞세워서 숫자가 많으니 자기들이 옳다며 날 조롱하는 사건까지 몇 번 겪다보니, 의욕을 잃었다. 그냥 당신들끼리 그렇게 홍보 행사나 열심히 하셔라. 속아 넘어가는 바보를 깨우쳐줘봐야 얻는 게 없는데, 알아듣는 경우도 드문데, 왜 내가 욕까지 먹어가며 가르쳐야 하나? 거꾸로 사기 안 당하고 싶으니 돈을 내면서 가르쳐 달라고 해야 될 내용 아닌가?
지난 20년 사이에 한국이 중국에 기술적으로 완전히 추월(대기업들, 이젠 중국에 안 따라잡힌 사업 없다?)당한 것도 나처럼 문제 제기를 하는 사람들이 모두 사라져버렸기 때문일 것이다. 위의 설XX 강사 사례는 그나마 운이 좋아서 역사적 사실을 왜곡하는 걸 차단하는 기회라도 있었지, 물타기에 흐지부지 되는 사례, 거꾸로 선동에 매장 당하는 사례가 얼마나 많을까? 자기 회사 기술력의 민낯이 만천하에 드러날 위기에 처했으니 기업들도 사활을 걸고 '피의 쉴드'를 치기 위해 조작 여론을 만들어 낼 수밖에 없는 현실을 힘 없는 연구자들이 어떻게 바꿀 수 있을까? 판단의 마지막 주체가 더 권위 있는 학자가 아니라, 지식은 없고, 그저 'XX 유명함?'이 판단의 잣대라 조직의 크기만 보고 부화뇌동하는 평범한 군중에 불과한데.
학문의 영역을 학문적 역량이 아니라 '자기 편 숫자'와 언론, 커뮤니티를 이용해 만든 '여론'이라는 이름의 권력으로 판단하는 대중 문화를 고치지 않는 이상 학자들이 문제를 제기하고, 기업들의 부족함을 뜯어 고치고, 그래서 국가 전체의 기술 역량을 끌어올리는 선순환을 만들어내기는 불가능하다. 학자들도 생활인이니 먹고 사느라 바쁜데, 누가 그런 생산성 없는 논의, 조작된 여론에 마녀사냥이나 당하는 논의에 빨려들어갈려고 할까?
인공지능과 인간 지능의 차이? 인과 관계를 설명할 수 있느냐의 여부
학위 과정 중에 상관 관계만 있고 인과 관계가 없는 계산을 놓고 Spurius relation (허위의 관계)라는 용어와 함께 관련 지식을 가르치는 부분이 있다. 그 때 인공지능으로 알려진 계산이 결국은 상관 관계(Correlation)만 찾는 계산이니, 인공지능으로 찾은 계산이 Spurius인 것을 찾아내는 것은 인간이다, 그래서 인공지능과 인간 지능 간의 차이는 인과 관계를 설명할 수 있느냐의 여부에 갈린다는 말을 덧붙인다.
가끔 귀찮은 단순 반복 작업이 산더미처럼 쌓인 상황에 하나하나 손으로 하다가 코드를 한번 돌려서 싹 해결을 하거나, 내가 원하는 명령어들을 다 묶은 라이브러리를 찾거나, 혹은 10달러 짜리 1회성 서비스를 만나면 너무 반갑다. 10시간이 걸릴 일을 5분도 안 되어서 다 해결해주니까. 그런데, 그렇게 한번에 싹 해결된 자료들을 다시 읽어보면 고쳐야 되는 일들이 많다. 결국 5분만에 된 작업 위에 다시 30분, 1시간의 추가 시간을 쓰거나, 혹은 5분 위에 다시 또다른 코드 작업을 더 하는 20~30분의 시간을 써야 한다.
위의 사례는 규칙 기반으로 작동하는 반복성 코드 작업이 갖는 한계를 지적함과 동시에, 인공지능으로 알려진 계산법들도 반복성 패턴을 찾아주는 작업에 불과한만큼 인공지능이 갖는 본질적인 한계를 인지할 수 있도록 해 준다. 결국 인과 관계를 판단하는 것은 인간인 것처럼, 완성도를 높이는 것은 인간이라는 것이다.
그 완성도 100%를 위해 더 많은 코드가 추가 되는 것으로 끝난다면 자동화된 시스템을 상품화 할 수 있을 것이고, 매번 할 때마다 달라진다면 결국 고급 노동력이 투입되는 컨설팅 형태의 프로젝트가 된다.
박사 재학생 시절 연구실 동료들에게 Crash course 형태로 가르쳤던 Panel data analysis 강의를 우리 SIAI 학생들에게도 가르쳐주려고 강의를 준비하던 중, 노트 Tex 파일을 백업 하드에서 아무리 찾아도 찾을 수가 없더라. Tex 원본 찾는 걸 포기하고, 갖고 있던 PDF를 Tex로 전환해주는 Library를 쓴 코드로 15페이지 노트의 Tex 파일을 1분만에 복원해냈다. 라이브러리 찾아서 설치하고, 코드 맞춰 돌리는 시간을 포함하면 합계 10분 정도 쓴 것 같다. 그런데 오타도 있고, 논의 내용도 SIAI 학생들 배경 지식에 맞춰 바꾸고 예제도 바꿔 넣어야하니 본의 아니게 하루 종일을 써서 그 노트를 뜯어 고쳤다. 아마 그 변환 프로그램이 없었으면 1주일을 썼겠지만, 그래도 하루 만에 완성을 했으니 만족한다. 그 노트가 PDF로도 없었으면 Panal data analysis 강의 노트 만들려고 교과서들을 여럿 뒤지면서 1-2달 짜리 프로젝트가 돌아갔을 것이다. 실제로도 그 과목 강의 노트 4개 중 2개를 그렇게 만들면서 2주를 더 썼었다.
인공지능이 진짜 지능이 되어서 인과 관계를 판단해주지 않는 한, 인간이 '화룡점정'을 하는 위의 구조는 바뀌지 않을 것이다. 단지 화룡점정의 범위와 난이도만 바뀔 뿐이다.