학업성취도 평가 반대자들에게 바치는 '인공지능' 알고리즘

최근 신문 기사에서 학업성취도 평가를 치르자는 일부 교육감들과 일제고사에 반대하는 다른 지역 교육감들, 그리고 어떤 특정 그룹에 속한 교사들이 갑론을박을 벌이고 있다는 소식을 접했다. 일렬로 줄 세우기를 반대한다는 그 생각 자체에는 충분히 공감하지만, 자신의 현재 위치가 어디인지를 알려주는 시험의 가치를 저렇게 매도하면 제대로 된 인재를 길러낼 수 있는 교육 시스템을 어떻게 만들겠냐는 불만이 생기기도 했다.

그중에서도 눈에 들어왔던 구절은 다음과 같다.

일제고사에 일부 교육감들과 진보 야당이 반대하는 것은 이명박 정부의 ‘기초학력 제로 플랜’의 부작용에 대한 기억 때문이다. 당시 일제고사 형태의 학업성취도 전수 조사를 시행하면서 당시 교육부가 성적을 올리기 위해 시·도 교육청 및 학교별로 성적을 공개하고 비교했다. 기초학력미달 비율과 전년 대비 향상도 등의 지표가 지방교육재정교부금 기준에 반영됐고, 우수 학교에게는 인센티브가, 미흡한 학교에는 불이익이 돌아갔다. 그러자 일부 학교에서 성적을 조작하고, 교사가 정답을 미리 알려주는 등의 부정행위를 하는 등의 부작용이 심각했다. 다문화가정·운동부·특수학급 등에 소속된 학생은 아예 일제고사에 응시하는 것을 학교와 교사 차원에서 배제하기도 했다.

특히 이 두 가지,

정답을 미리 알려주는 등의 부정행위
XX 등에 소속된 학생은 시험 응시를 배제

라는 부분을 눈여겨봤는데, 아마 반대 진영은 이런 식으로 조작된 시험이 될 것이 뻔하니 아예 안 치는 것이 맞다는 논리를 만들어낸 듯하다. 즉 “어차피 엉망이 될 거니까 굳이 할 필요가 없다”는 논리인 것이다.

그렇다면 실제로 시험에서 조작이 있었는지는 무조건 제보가 있어야만 알 수 있을까? 학교와 학생이 저렇게 ‘담합’을 했다는 사실을 알 방법이 정말 없을까?

위 이미지는 한 해외 대학이 ‘디지털 마케팅에서의 AI(AI in Digital Marketing)’라는 수업에서 다루는 자료이다. 댓글 조작단을 잡아내는 시스템을 캡처한 것인데, 이 시스템은 비정상적인 ‘좋아요’ 수와 댓글의 댓글(대댓글)이 계속 반복되면 조작이라는 판단을 내린다. 1종 오류 대 2종 오류(Type I vs. Type II error) 같은, 실제로 조작단인데 못 잡아내거나 조작단이 아닌 것을 조작단으로 판단할 가능성은 있겠지만 최소한의 잣대는 충분히 될 수 있을 것이다.

이번에는 수준을 좀 더 올려서, 해당 대학의 패널 데이터(Panel data) 시험 문제 중 상대적으로 쉬운 것을 하나 가지고 왔다. 학생이 앞자리에 앉은 학생의 답안지를 훔쳐봤는지 아닌지를 판단하는 통계 검증 방법인데, 복잡하게 설정된 패널 데이터도 없고 단순히 y_{i-1,t} 변수의 유의미성을 검토하는 것으로 끝이다. 해당 변수 앞에 붙는 감마(Gamma) 값이 0인지 아닌지, 아마 >0인지 아닌지를 확인하면 될 듯하다.

저 위에서 언급한 특정 집단의 반대 이유를 다시 보면

정답을 미리 알려주는 등의 부정행위
XX 등에 소속된 학생은 시험 응시를 배제

인데, 우선 1. 특정 학급이 정답을 미리 알려주는 부정행위는 그 학급의 성적이 다른 학급에 비해 유의미하게 높은지, 이것이 부족하다면 그 시험의 성적과 그 이전과 이후에 시행된 중간고사, 기말고사 등등 여러 다른 시험의 성적에는 어떤 차이가 있는지를 검토하면 잡아낼 수 있다. 그 학급의 성적이 정말 높다면 다른 시험에서도 같은 성적 격차가 확인될 것이다. 그런데 만약 유독 이번 일제고사에서만 이러한 경향이 보인다면? 즉 다른 학급의 성적, 모든 학급의 과거 시험 성적들을 다 묶어서 패널 데이터 분석(Panel data analysis)을 하면 부정행위를 찾을 수 있다.

2. 시험에서 좋은 성적을 내지 못할 것 같은 학생을 배제하는 행위 역시 유사한 방식으로 잡아낼 수 있다. 유독 이번 시험에서만 평균 점수(의 %) 격차가 크게 벌어졌다면? 높은 확률로 이러한 부정행위가 발생했을 것이다. 시험 간, 학급 간, 학교 간 표준편차 비율의 차이를 보는 카이제곱 검정(Chi-square test)도 유용할 것으로 보인다. 방법은 많다.

사실 이러한 방법을 쓸 수 있는 건 우리나라가 ‘평준화’ 시스템을 갖추었기 때문이다. 어디에서 데이터를 뽑든 사실상 자동으로 무작위 추출(Random sampling)을 하게 되는 것 아닌가? 통계량을 검증하다 보면 매번 이 무작위가 깨져서 어떤 변수를 어떻게 뽑아야 하나 고민하게 되는데, 우리나라는 이런 부분에서 국가가 나선 덕에 엄청난 수준의 변인 통제가 자동으로 가능해진 것이다.

인공지능 마케팅?

만약 위의 패널 데이터 분석으로 학급 단위, 학교 단위의 부정행위를 (거의) 다 잡아낼 수 있다는 사실이 알려지면 어떻게 될까? 아마 반대 측에서는 그런 패널 데이터 분석을 한 학자의 인생을 그야말로 매장하기 위해 눈에 불을 켤 것이다.

그런데 필자는 여기에 인공지능 마케팅을 도입하면 되겠다는 생각을 했다. ‘인공지능 신께서 계산하신 결과 부정행위가 적발됐습니다!’라고 말하자는 것이다.

참고로 위에서 언급한 댓글 조작단 적발 프로그램도 딱 이런 식으로 현실 세계에서 활용된 적이 있다. 실제로는 간단한(?) 통계학에 불과한 만큼, 해외 대학 기준으로 경제학 혹은 통계학 석사 과정 정도만을 공부했다면 이러한 도전은 깔끔하게 마무리할 수 있을 것이다.

이렇게 간단한 내용인데, 그 사람의 신상을 보호하려면 웬 ‘인공지능 마케팅’을 해야 한다니….

사실 우리나라가 수십 년 동안 쌓인 통계 검증 연구와 탄탄한 연구 인력을 보유한 나라였다면 저런 어설픈 반대 주장 따위는 언론에서 길게 다룰 것도 없이 정치권에서부터 무시됐을 것이다. 하지만 우리나라는 그런 인재가 있어도 정치적인 이유로 활용하지 못하는 나라이다. 우리나라에서 전문가가 되려면 정치권의 입맛에 맞는, 진영 논리에 맞는 그런 조작된 결과를 만들어내야 한다.

필자는 그동안 코딩이 데이터 사이언스라 주장하는 우리나라의 개발자 사회를 맹비난하면서 우리나라에서는 진영 논리에 맞는 이야기를 하는 사람이 전문가로 대접받고, 특히 사회에서 ‘성골’로 여겨지는 사람의 발언일수록 더 대접받는다는 사실을 깨달았다. 대중의 수준이 높다면 진영 논리나 ‘성골’ 따위의 골품이 아니라 지식의 진위를 따질 텐데….

이런 작업을 할 때 코딩 지식이 필요한가, 통계학 지식이 필요한가? 약간(?)의 통계학 지식, 이를 응용하는 사고력 훈련, 사고의 확장을 위한 추상화 훈련이 필수라는 것, 느껴지지 않는가?

이런 문제는 ‘복잡한 딥러닝 코드를 돌리면 해결할 수 있다’라고 주장하는 사람을 어떻게 ‘대접’할 수 있을까? 이래도 ‘코딩’을 잘해야 데이터 사이언티스트가 될 수 있다고 우길 것인가? ‘코더’에게 이런 ‘데이터’ 기반 문제를 풀어낼 능력이 있나? 유명 대기업의 ‘데이터 사이언티스트’라는 타이틀을 가진 사람은 무조건 ‘성골’이라고 대접해 줘야 하는가? 아니, 일단 대기업을 우리나라 최고의 인재가 모이는 곳으로 볼 수 있는가?

왜 필자와 같은 생각을 하는 이들이 통계 비전공자들이 자신을 데이터 사이언티스트 혹은 AI 전문가라고 칭하는 상황을 비웃는 것인지, 조금이라도 이해가 되었으면 좋겠다. 개발자는 불평할 수도 있겠지만, 통계학도 모르면서 데이터 사이언스 분야의 ‘성골’과 ‘진골’을 논하는 것이 말이 된다고 생각하나? 6두품, 아니 4두품을 따져야 하는 수준 아닌가?