[선거] 사전투표와 당일투표는 왜 결과가 다를까?

사전투표일에 투표장을 찾아갈 수 있는 직업군, 접근성이 당일투표에 그대로 적용되지 않아
콘크리트 지지층이 있는 지방에서도 사전투표와 당일투표 투표율 크게 다른 것도
통계학적으로 분포함수가 달라진 것, 향후 선거 예측에 활용할 변수 추출에 활용해야

지난 2020년 제21대 총선부터, 2022년 대선, 2022년 지선에 이어 10일에 치뤄진 제22대 총선까지 사전투표 표심이 당일투표와 상당히 다르게 나오는 것을 보고 왜 다르게 나오는 것인지에 대한 질문을 받는 경우가 종종 있다. 특히 자기가 지지하는 정당과 후보 측이 사전투표에서 불리한 득표를 했던 것이 선거 패배의 원인인 경우에는 선거에 비리가 있었다는 주장을 하는 경우도 많다.

해답은 의외로 단순하다. 사전투표일에 투표를 하는 사람들과 당일투표에 투표를 하는 사람들의 성향이 상당히 다르기 때문이다. 어떻게 다른지에 대한 원인은 다양하겠지만, 전국 단위로 봤을 때 특정 지방의 사전투표 선호도가 서울·경기 지역에서 같은 정당을 지지하는 사람들 사이에서 높은 사전투표 선호로 나타난다는 동일성의 가정을 연장해서 보면, 이미 1개 변수만으로도 투표 결과가 사뭇 다를 것을 충분히 예측할 수 있다.

사전투표와 당일투표, 분포함수가 달라졌다

사전투표일은 금, 토요일이고, 당일투표일은 수요일이다. 사전투표는 주변에 있는 아무 투표장에나 찾아가서 투표를 해도 되는 반면, 당일투표는 반드시 지정된 투표장을 찾아가야 한다. 토·일 주말에만 쉬는 직장인, 공휴일이어도 평일에도 일해야 하는 개인사업자들은 언제 투표장을 찾을까를 생각해보면, 유권자의 직업이 이미 투표일 선택에 상당한 영향을 미칠 수 있음을 확인할 수 있다. 투표장을 보통 유권자의 집 근처에 배정하겠지만, 집 앞에 있는 투표소를 놔 두고 10분, 20분씩 이동해야 투표할 수 있는 곳을 지정해놓은 경우에는 굳이 당일투표를 고집해야 할 이유도 없다.

위의 2가지 차이가 실제 지지정당에 아무런 영향을 주지 않는다면 선거 결과는 달라지지 않았어야 한다. 그러나 지역, 연령, 성별 이상으로 직업도 지지정당 선택에 상당한 영향을 미친다는 연구결과가 이미 헤아릴 수 없이 많이 나와있다. 국내 예시가 자칫 특정 집단에 대한 비하, 혹은 찬양으로 이어질 수 있는 우려가 있으니 해외 사례를 들면, 미국의 농업 중심지인 ‘콘 벨트(Corn belt)’에는 압도적인 다수가 농업 종사자들이고, 공화당에 대한 골수 지지층으로 알려져 있다. 영어권 표현으로 ‘화이트 칼라(White color)’ 직군과 ‘블루 칼라(Blue color)’ 직군 간의 지지정당이 다른 것도 흔히 언급된다.

이렇게 투표 성향이 다른 유권자들이 참여하는 것을 통계학에서는 분포함수가 달라졌다고 표현한다. 예를 들어 사전투표일에는 A정당과 B정당 사이의 지지율 비율이 40%대 60%지만, 당일투표에는 반대로 60%대 40%로 바뀌는 것이다. 좀 더 전문 통계학 예시를 들면 분포함수의 평균과 분산이 바뀌었다고 표현할 수도 있다.

중심극한정리와 분포함수와 투표일

프랑스 수학자 라플라스는 1774년에서 1786년 사이의 일련의 논문들에서 같은 데이터에서 반복적으로 샘플을 추출하면 샘플의 평균이 정규분포를 이룬다는 것을 증명했다. 중심극한정리(Central Limit Theorem)다. 고교와 대학 학부 수준에서 배우는 거의 모든 통계학에서 정규분포 이상을 가르치지 않는 이유 중 하나다.

선거 예시를 이용해서 어려운 설명을 쉽게 풀어내보자. 10,000세대가 거주하고 있는 대형 아파트 단지에서 무작위로 100세대를 뽑아서 투표를 시키고, 이때 나온 A정당 지지율을 30%라고 가정하자. 100세대 분들께 감사하다고 인사드리고 집에 보낸 후, 또다시 무작위로 100세대를 뽑는다. 이번엔 A정당 지지율이 31%가 나왔다. 2번 나오는 분들이 있을 수도 있겠지만, 통계학적 복원추출이 핵심인 만큼, 2번 나오는 것도 가능해야 위의 정리가 성립한다. 다시 100세대를 또 뽑았더니 이번에는 29%가 나온다. 다시 또 뽑고, 다시 또 뽑고, 또 뽑는 작업을 100번 남짓 하고나면 평균이 30%, 표준편차가 1%인 정규분포로 수렴할 것이라는 것이 위의 정리다.

같은 논리를 이용해서 사전투표와 당일투표의 표심이 매우 유사해야하는 것이 아니냐, 단순히 표준편차 수준의 사소한 차이만 나와야 하는 것이 아니냐고 질문하는 분들이 있다. 위의 설명에서 가장 중요한 가설 중 하나를 놓쳤기 때문에 나오는 질문이다. 10,000세대가 거주하고 있는 대형 아파트 단지에서 복원해서 반복 추출을 했다. 즉, 분포함수가 완벽하게 동일한 상태에서 100세대를 반복적으로 골랐었다.

사전투표와 당일투표는 비복원추출이다. 1번 투표한 사람이 다시 투표하는 일이 없기 때문이다. 그리고 위에 설명한대로 직업, 투표장 접근성 등등은 상당히 많은 경우에 표심에 영향을 주는 변수가 된다. 즉, 비복원추출이었던데다 분포함수가 달라졌다. 위의 예시대로라면 10,000세대가 거주하고 있는 대형 아파트 단지 옆의 또 다른 아파트 단지에서 투표가 이뤄졌는데, 아파트 가격대가 다르고, 규모, 교육 환경 등등이 모두 달랐던 상황과 유사한 맥락이다. 당연히 표준편차 이상의 차이가 날 가능성이 충분하다.

달라진 분포함수 추론 작업이 더 정확해지는 도구로

몇 차례 사전투표를 진행하면서 이제 데이터 과학계에서도 다른 투표일이 다른 표심을 반영한다는 것을 인지하게 됐다. 이미 분포함수가 달라진만큼, 중심극한정리가 더 이상 적용되지 않는다는 것도 알게 됐고, 분포함수의 차이를 좀 더 구체적으로 확인할 수 있는 데이터도 축적됐다.

10여년 전만해도 특정 지역에 콘크리트 지지층을 갖고 있는 주요 정당들의 해당 지역 투표율이 서울·경기 일대 수도권의 투표율과 비슷하고, 투표 성향도 비슷하다는 가정으로 투표 결과에 대한 예측이 상당한 정확도로 가능했었다. 그러다 사전투표가 시작되면서 출구조사에서 제외된 표심 추론에 오차가 발생하기도 했고, 이전에는 투표장에 나오지 못했던 평일 근로자들의 표심이 반영되면서 오차가 커지는 경우도 나타났다.

그러나 선거 데이터가 누적될수록 10여년 전의 지역, 연령, 성별 구도가 더 이상 안정적인 예측을 내놓지 못한다는 경험치도 쌓이게 됐고, 사전투표와 당일투표간의 표심을 가르는 또 다른 변수들에 대한 이해도 쌓였다. 이번 선거 결과에 대한 연구를 바탕으로 오는 2026년 지방선거에는 지난 10일 총선보다 좀 더 정확한 예측을 내놓을 수 있게 되기를 기대한다.