Skip to main content
부정선거와 사전투표와 여론조사와 통계학
Picture

Member for

4 months 2 weeks
Real name
Keith Lee
Bio
Head of GIAI Korea
Professor of AI/Data Science @ SIAI

수정

지난해 12월 초, 윤석열 대통령이 비상계엄을 선포했던 이유 중 하나가 부정선거 조사를 위한 선관위 압수수색이었으니 합당한 계엄 선포였다는 주장과, 자유민주주의 사회에서 법치를 무시하고 대통령에게 주어진 권력을 독재자처럼 이용했다는 주장이 팽팽하게 맞서고 있다.

그 분들이 어떻게 생각하시건, 난 두 권력 집단이 조선시대 붕당정치처럼 그럴듯한 논리를 갖고 당파싸움을 하고 있다고 생각하고 별로 관심을 두질 않았다. 대통령이 누가 되건 내 인생에 큰 영향을 주지 못하기 때문이기도 하고, 지난 몇 년간 한국 대중이 얼마나 선전·선동에 잘 휩쓸리는지도 봤기 때문이기도 하고, 그런 마녀사냥을 한번 당해보기도 했기 때문이기도 하다.

근데, 오늘 유경준 전 통계청장님이 중앙일보랑 인터뷰 하신 기사를 보면서, 그간 한국의 대중에게 내가 느낀 여러가지 불편함과 더불어

통계학과 표본이론의 기본을 모르고 하는 주장

이라는 설명에 대해서 사족을 좀 달아볼까 한다.

사전투표 결과는 '대수의 법칙'에 따라야 한다?

먼저, '대수의 법칙'에 따라 사전투표와 본 투표는 유사하게 나와야 한다는 주장은 유 청장님의 말씀대로 '통계학과 표본이론의 기본'을 모르는 주장이다.

고교 수학 수업 예제를 갖고 오면, 빨간 공 5개와 파란 공 5개를 담은 주머니에서

  • 복원추출
  • 비복원추출

을 할 경우에 빨간 공이 뽑힐 확률은 1차 시도에는 같을지 몰라도 2차 시도에는 달라진다.

1차 시도에는 복원, 비복원 모두 빨간 공을 뽑을 확률이 50%다.

2차 시도에 그 빨간 공을 다시 주머니에 넣은 경우(복원)넣지 않고 2번째 공을 뽑는 경우(비복원)에 확률은 달라진다.

복원의 경우는 여전히 50%다. 비복원의 경우는 빨간 공이 하나 사라졌으니 4/9 = 44.444%로 확률이 내려간다.

반대로 첫 번째 공이 흰 공이었다면, 비복원에서 빨간 공을 뽑을 확률은 5/9=55.555%로 확률이 올라간다.

투표로 돌아오면, 사전투표를 하고나면 본투표에 임할 수 없기 때문에, 현재의 사전투표제비복원추출에 해당한다.

즉, 2차 시도에서 확률은 바뀌게 된다.

실제로 호남지역에서 사전투표율이 굉장히 높다. 반대로 경상지역에서는 언제나 최하위를 기록한다.

거주지가 바뀐다고 갑자기 사전투표율이 바뀔지 여부에는 확신이 없지만, 성향이 크게 바뀌지 않는다치면,

서울·경기에 거주하시는 호남 출신 분들의 사전투표율도 타 지역 출신보다, 최소한 경상도 출신 분들보다는 높을 것이다.

대수의 법칙?

참고로, 대수의 법칙이란 표본을 여러번 뽑고, 각각의 표본에서 얻은 평균이 실제 평균과 비슷해지는 현상을 말한다.

우리 학교 학생 1,000명에게 전수조사를 하면 A가 45%, B가 55%가 될텐데, 1,000명을 전수조사하기는 힘드니까, 한 반이 50명, 20개 학급의 학교니까, 한 반에 5명씩, 전교생 중 10%인 100명을 뽑아서 A와 B의 비율을 구하는 것이다. 이 값이 반드시 45%, 55%가 되진 않겠지만, 그렇게 100명을 뽑는 작업을 여러번 하면, 그 평균 값이 45%, 55%와 유사해지는 현상이 대수의 법칙이다.

이 때, 한 반에 5명씩을 뽑지 않고, 2개 학급을 선정해서 100명을 뽑으면 어떻게 될까? 그 2개 학급은 특설반이라면? 자칫 A가 100%, B가 0%가 나올 수도 있다.

선거로 돌아오면, 사전투표는 A인 사람들이 하고, 당일 투표는 B인 사람들이 하고 있으면 어떻게 될까? 100:0이나 0:100이 나올 것이다. 그래서 대수의 법칙이 적용될려면 대표성을 가진 표본의 반복 추출, 즉 복원추출이 이뤄져야 한다.

한 반에 5명씩을 고루 뽑는게 아니라, 호남 출신이 훨씬 더 사전투표 참여 성향이 높은만큼, 당연히 사전투표와 본투표 결과는 다르게 나올 것이다.

즉, 사전투표와 본투표는 '대수의 법칙'이 아니라 '복원/비복원' 추출 논리로 봐야하고, 성별/지역/연령이라는 선거의 일반 데이터 중 '지역' 하나만 봐도 어느 정도는 납득이 되는 격차다.

사전투표 결과에서 63:36으로 비율이 모두 똑같다?

이 부분은 솔직히 좀 이상하다는 생각을 했었다.

다만, 이런 비율이 등장하는 20~30개 지역구들을 보면 경기 남부, 충청 일대처럼 지역 명칭만 다를 뿐, 선거 지형이 비슷비슷한 지역들이다. 예를 들어, 경기도 오산과 인근의 동탄, 화성, 수원 남부, 평택 지역 사람들은 생활 반경이 크게 다르지 않기 때문에, 비슷한 비율이 나올 가능성은 얼마든지 있다.

그럼에도 불구하고 비율이 저정도까지 비슷하기는 쉽지 않을 것 같은 것이, 경상도나 전라도 지역구들도 인근 지역구와 비교해봤을 때 선거 지형은 크게 다르지 않은데도 사전투표 비율이 저렇게까지 유사하게 나오지는 않기 때문이다. 지방 2개 지역을 일종의 대조군(Control group)으로 놓고 봤을 때, 전라도는 워낙 90% 이상의 동질적인 지지도가 나오니 비교가 좀 어렵지만, 경상도는 각 지역구 별로 비슷하다고 보기에는 숫자 차이가 꽤 큰 편이다.

그럼 진짜 조작일까? 정말 교묘하게 조작해서 63:36으로 나왔을까?

경기 남부 일대의 사전투표에서 63:36이 모든 지역구의 투표구역 마다 정말 그렇게 똑같은 비율로 나왔다면 정말로 충격이겠지만, 투표구역 단위로 내려가면 그 정도는 아닌걸 보면, 일단 주어진 자료만을 놓고 봤을 땐, 우연의 일치라고 결론을 내리는 것이 맞을 것 같다.

정말로 우연의 일치가 아니라 조작이었다고 해도, 투표구역 단위가 아니라 지역구 단위로 63:36이 나오는 것만 놓고 통계학으로 조작을 검증하는 것은 불가능하다.

탄핵 정국에서 윤석열 대통령 지지율이 계속 오른다 - 일시적인 현상?

유 청장님의 논리에 대부분 동의하는데, 윤 대통령 지지율이 계속 오르는 원인으로 설명하신 부분에서는 좀 공감하기 어려운 표헌이 있다.

양쪽 진영이 극명하게 대립하면서 극단에 치우친 사람들만 적극적으로 답을 하고 있다고 보는 게 맞다

과연 그럴까? '~게 맞다'는 종조사를 볼 때, 확신을 주는 데이터를 갖고 있으신 것 같지는 않다.

이 주장에 대한 답은 ①평소에 중도였던 사람이 한쪽에 치우친 답을 하고 있느냐, 아니면 ②평소에 중도였던 사람이 대답을 안 하고, 우파인 사람들이 설문에 대답을 안 하다가 다시 대답을 하고 있느냐만 따지면 된다.

그래서 아래의 표현을 쓰셨더라.

현재 설문조사는 성·연령·지역만 나눠 주로 하고 있는데 (정확한 결과를 내려면) 중도·진보·보수를 분류한 ‘층화 추출법’을 고려해볼 만하다. 이는 중앙선거관리위원회에서 고민해야 할 것

내가 평소에 주장하는 내용이다. 우리나라 선거는 성별, 연령, 지역만 보면 거진 다 맞출 수 있기 때문에 다른 노력을 아예 안 하는 경우가 많은데, 위의 말씀대로 평소 정치 성향이 중도, 진보, 보수 (아니면 나처럼 회의론자)인지 여부를 놓고 '층화 추출법(Stratified sampling)'을 해보면 청장님의 논리를 검증할 수 있다.

집단 분류 방식을 바꿔서 다시 조사하면, 실제로 청장님의 추론이 맞을지, 아니면 중도였던 분들이 지지하는 쪽을 바꿨는지를 볼 수 있을 것이다.

다만 현실적으로 성별, 연령, 지역만 인구자료가 있지, 정치 성향이라는 자료를 확보해 놓았다가는 개인정보 침해 소지가 있으니 타협점을 찾아야 한다.

여론조사 기관 관계자들이 이 글을 본다면,

  • 12월 4일과 현재 사이에 계엄령에 대한 태도가 바뀌었습니까?
  • 1달 전에는 어느 정당을 지지했었습니까?

같은, 시간의 흐름에 따른 변화를 추적할 수 있는 질문들을 여론조사 문항으로 삽입해주시면 저 주장을 간단하게 증명할 수 있을 것이다.

통계학은 부정 선거도 못 밝히는 허구의 학문인가?

가끔 위의 질문들을 이런저런 모임들에서 받고, 똑같이 대답해드린다. 또 가끔은 계통추출, 층화추출 같은 여러 샘플링 방법을 배우고 그걸 당 내 선거 전략에 쓰는 케이스 스터디 문제를 풀어본 우리 SIAI 학생들에게도 똑같은 질문을 툭툭 던져 보고, 어디까지 답을 만들어 내는지 확인해보기도 한다.

그런 수업 끝에 내가 항상 하는 이야기는, 통계학은, 비단 통계학을 넘어서 데이터에 기반한 'Science'는 데이터를 신뢰할 수 있다는 전제를 놓고 만들어진 학문일 뿐이라는 것이다. Data Science가 데이터 밖의 일을 어떻게 알 수 있나?

  • 1달 전에는 어느 정당을 지지했었습니까?

와 같은 질문에 대한 답변, 혹은 그 답변이 오늘 지지 정당과 다른지 여부를 판단할 수 있는 근거 자료 없이 '극단에 치우친 사람들만 과 표집'이라는 결론에 선뜻 동의하기는 어렵다는 말은, Data Science는 데이터 밖의 사건에 판단을 내릴 수 없다와 같은 말이다.

시뮬레이션을 가르치고 난 다음에, 현실과 유사해지도록 분포함수를 만들지 않고, 임의의 데이터를 더 집어넣으면 결과가 바뀌는 것을 보여주면서, 임의의 데이터가 들어왔는지 여부를 추척하는 작업이 데이터의 구조가 복잡해질수록 점점 어려워지는 걸 논리적으로 설명해준다. 정규분포 3개를 모아놨으면 GMM (Gaussian Mixture Model)로 간단하게 분리할 수 있을지 모르지만, 포아송 분포 3개를 묶어놓고 GMM으로 데이터를 분리하려면, 원래 데이터가 포아송 분포였는지를 알기 전에는 수 많은 시행착오를 겪어야 한다. 정확도를 담보하기도 어렵고, 바닥에 깔린 분포함수가 좀 더 복잡해지면 찾는 것은 거의 불가능해질지도 모른다.

멋 모르고 무조건 '인공지능'을 외치는 분들은 '딥러닝에 집어넣으면 되지 않나요?', '인공지능이 발전되면 다 해결되지 않나요?' 같은 황당한 소리들을 하던데, 현재의 인공지능이 결국 통계 계산에 불과하다는 걸 모르는 분들과는 대화를 더 잇기 어려우니 피할 뿐이다.

복잡한 모델은 커녕 학부 통계학으로도 간단하게 격파되는 논리로 주장하고 있으면 '음모론' 소리나 듣고, 위의 '멋 모르고 인공지능 외치는 분들'을 대하듯이 피해 버릴 수밖에 없다.

그럼 부정 선거는 없었나?

전세계적으로 부정 선거 논란이 끊이지 않는 것은 사실이다.

난 이집트에서 실제로 새벽에 표를 바꿔치기 하는 걸 본 적이 있고, 그걸 막으려던 이집트 청년 몇 명을 전문 요원들이 데리고 가는 것도 본 적이 있다. 사실 눈으로 보고도 무슨 사건인지 몰랐고, 숙소 주인이 황급히 날 안으로 끌어 당기지 않았으면 나는 다음날 나일강에 떠 있는 시체로 발견되었을지도 모른다. 그 호텔의 벨보이가 박식하고 영어 실력도 정말 뛰어나던데, 그 끌려갔던 청년들과 같은 집단인 것도 알게 됐고, 그 벨보이 덕분에 전날 밤에 내가 얼마나 엄청난 사건을 목격했는지도 알게 됐었다.

트럼프 미 대통령은 지난 2020년 미 대선은 부정 선거였다고 주장한다. 4년 만에 다시 백악관의 주인이 된 만큼, 그 주장을 증명하기 위해서 앞으로 몇 달간 권력을 휘두를 것이다. 그렇게 실컷 조사해놓고 예전 조지 W. 부시 대통령처럼 이라크 전쟁 명분이었던 WMD는 못 찾아놓고 변명만 일삼을 수도 있고, 아니면 정말 숨겨진 카르텔을 찾아낼 수도 있다. 어쩌면 '부정 선거'가 아니라 단순한 '부실 선거'였을 지도 모른다.

어쨌건, 그간 알려진 주장들은 통계학의 문제가 아니라, 모든 학문이 가정하고 있는 데이터의 진실성(Integrity)의 문제다.

그런 주장을 하시는 분들 커뮤니티에 가 보니, 형상기억종이, 풀먹은 투표지, 이상한 색상으로 프린트 된 투표지, 선거 참여 인원 숫자 등등을 증거 자료로 제시하던데, 그런 '데이터의 진실성(Integrity)'으로 주장을 한다면 굳이 통계학자를 찾아야 할 필요는 없지 않나?


윗 글은 부정선거 논란에 찬/반 의견을 내기 위한 것이 아니라, 통계학이 그 논란과 관련 없다는 것을 말씀드리기 위해 쓴 글입니다. 딱히 통계학을 깊게 아는 것도 아니고, 시뮬레이션 돌리다가 어줍잖게 배운 통계학만으로도 논파되는 논리들이 보이길래 교육 목적으로 작성했음을 알려드립니다. 보통 이런 사건들은 SIAIMBA 프로그램에서 케이스 스터디 자료로 쓰입니다.

이런 정치적인 논란이 되어버린 사건은, 학문적 논리로 설명해도 정치적 입장으로 해석하고, 그게 마녀사냥까지 이어지는 걸 당해보기도 한 만큼, 모쪼록 용기내서 말씀해 주신 유경준 전 통계청장 님의 학문적인 설명이 왜곡되어 해석되지 않기를 바랍니다.

Picture

Member for

4 months 2 weeks
Real name
Keith Lee
Bio
Head of GIAI Korea
Professor of AI/Data Science @ SIAI