대통령 선거로 만든 Data Science 문제

Picture

Member for

5 months

Real name

Keith Lee

Bio

Head of GIAI Korea
Professor of AI/Data Science @ SIAI

Input

2022-04-04 00:00

우리 SIAI의 Signature에 해당하는 Business 특화 수업들은 2개 수업을 통해 관련 통계학 지식과 주요 이슈를 배우고,

그 지식을 현실 Case에 응용해서 문제 풀이를 하는 형태로 구성되어 있다.

총 8개 수업에서 3개 주제로 그룹별 문제 풀이를 발표하고, 다른 그룹의 문제 풀이를 비판하고, 비판에 따라 자기 풀이를 보완한다.

그간 봐 왔던 여러 MBA 수업 방식을 우리 사정에 맞게 좀 변경해봤는데,

이런 수업 방식과 엮으려니 참 쉽지가 않더라. 그래도 노력 중이다.

아래는 Cohort analysis라는 주제를 현재 IT업계에서 쓰는 방식대로 지난 주, 지지난 주, 지지지난 주 방문자들 동향, 이딴 분석(?)으로 돌리는게 큰 의미 없고,

Sampling의 다양한 방법들, Factor analysis로 풀어내는 계산법 등을 응용해서, DGP 속 구조를 파악하는게 핵심이라는 강의를 한 후,

그걸 문제로 바꾼 내용이다. 어쩌다보니 최근 대선에 영향을 받아버렸는데,

정치권 관계자 표현에 따르면 "Hyper-realism" 소설형 문제란다. 칭찬으로 받아들여도 되겠지?ㅋㅋ

문제 전체의 목표는,

Systematic sampling, Cluster sampling, Stratified sampling 각각의 차이 파악
- 각각 출구조사, 여론조사에 어떻게 쓰이는지 + 왜 사전 투표 & 실제 투표와 다른지 파악
Cohort analysis가 Factor analysis로 어떻게 대체되는지 파악
(적절한 방법을 골랐다는 가정아래) Sampling 방식이 가지는 장점에 대한 파악
(+정치권 욕....)

하는 것이다.

통계학과 학부 2학년 정도에서 배울 실험계획법 스타일 같아서 평소에 내던 문제보다 상당히 쉽게 낸 것 같지만,

그래도 학생들이 Cohort anaylsis를 제대로 이해하는데 큰 도움이 되었으리라 생각한다.

DGP를 이해하고 Factor analysis 관점으로 데이터를 바라보면, 단순한 Sampling 마저도 어떤 이슈들을 고민해야하는지 이해했겠지.

더불어 나의 Deep-learning (& AI) 조롱이 들어간 문제(7-8번)에서 또 다시 Factor analysis와의 연관관계를 찾았으리라.

마지막까지 제대로 풀어내면 Data Science라는 전공에서 통계학의 Sampling 관련 주제를 잘 접목시키는 능력치를 키울 수 있게 될 것이다.

지난 대선이 워낙 후보간 격차가 작았던 탓에, 여론조사나 출구조사에 대한 예측 정확도에 대해 말들이 많았고,

K대 통계학과 교수님 한 분이 위와 비슷한 방식으로 계통 추출법 (Systematic), 집락 추출법 (Clustering)을 엮어서 특강을 하셨다고

열심히 공부하는 학생들 몇몇에게 전해들었다.

우리 학생들 몇 명도 그 강의를 들었던 것 같은데, 그 Zoom 채팅에서 나왔던 질문들 전해들은 내용을 일부 공유하면,

질문자1: 아까 출구조사는 계통표집을 한다고 하셨는데 여론조사는 어떤 표집을 하셨는지요?
과거에는 성별 혹은 지역별로 동일한 집단 혹은 투표 성향을 가질 것이라는 가정이 있었는데요, 말씀하신대로 미래에는 점점 지역 혹은 성별 간 동질성이 깨질 것 같은데 그럼 추후에는 어떤 특성으로 성향이 나뉠 것인지 에측하신 것이 있으신가요?
질문자2: 이번 언론에서 보도된 기사를 표현을 인용하자면 이른 바 '흰머리 청년', '진보대학생' 등 특정 집단에서의 허위 응답이 상당히 많았던 것으로 아는데 저렇게 정확하게 보정할 수 있었던 걸까요?? 그리고 앞으로 단일화 이슈 등에 있어서 허위 응답이 많아질 수도 있을 것 같은데 이런 걸 보정하는 매뉴얼이 마련되어 있을까요?
질문자3: 두 집단은 동일한 모집단(대한민국 국민)에서 렌덤으로 나왔다고 생각하는데 왜 특성이 정반대로 나온걸까요? 랜덤이 아니었던걸까요?
질문자4: 조사, 보정, 예측 등 여러 과정이 사람에 의해 시행되는 것이라 어느정도의 주관성이 존재할수밖에 없을 것 같은데, 이를 최소화하는 방법이 있는지 궁금합니다.
질문자5: 0.2프로는 이전에 실제 결과를 반영하여 적용된건가요?
질문자6: 통계학에 무지하여 잘 알지는 못하지만, 모집단을 전부 살펴보지 않고 일부 샘플을 뽑음으로써 모집단의 특성을 알 수 있어 가치가 있다고 알고 있습니다. 그런데 선거의 경우 투표자들 전부(모집단)의 특성을 조사하게 되는데, 출구조사의 의의 혹은 가치를 알 수 있을까요? 감사합니다.
질문자7: 실제로 사전투표를 한 모집단과 사전투표자를 대상으로 표본조사 하신 것은 '조사 방식'에 의해 랜덤성이 깨질 수도 있지 않을까? 라는 생각이 들었습니다. 전화조사 방식에 평소에 응답을 해주는 사람과 안 해주는 사람의 특성 간 heterogeneity(이질성)이 있을 수도 있을 것 같은데, 이번 추정이 정확했다는 것은 제가 생각한 사전투표자 중 전화조사 응답자 / 응답거부자 간 유의미한 이질성이 없다로 이해할 수 있을까요?
질문자8: 말씀하신 대로, 사전투표 전화조사의 경우 할당추출했기 때문에 10,000명이라는 적은 수에도 불구하고 전체 중 36.7%의 사전투표인을 대표할 수 있었다고 해석하면 될까요?

저 위에 우리 학교 과제를 이해했으면, 위의 질문 중 우리 학교 학생이 한 질문이 어떤 질문인지 아마 쉽게 찾을 수 있으리라 생각한다.

좀 더 힌트를 주면, 우리 학교는 DGP에 대해 엄청난 강조를 하기 때문에 Sampling 작업 중 Homogeneity / Heterogeneity 같은 이슈에 관심이 많다.

다른 질문 중에는, 우리 학교를 비난하거나, 잘못된 소문을 퍼뜨리고 돌아다니는 분들의 ID라고 짐작되는 분의 질문도 있었다.

딱히 그 분들에 대한 악감정이 있어서가 아니라, 우리 학생들과 타 그룹 학생들간의 질문을 비교해보면 느끼겠지만,

교육 수준이 완전히 다른 질문을 하고 있다는게 두드러지게 보여서, 우리 학생들 칭찬도 좀 해주고 싶고, 자랑스럽기도 하다.

세상에 나쁜 질문은 없다지만, 분명히 질문자의 지적 수준을 드러내는 질문들은 존재하고, 발표자가 그 질문자를 오랫동안 기억하게 만든다.

우리 SIAI학생들이 저런 특강 같은 곳에서 우리 교육의 퀄리티를 보여주는 고급 질문만 하고 끝낼게 아니라,

사람들이 혼란스러워할 때, 이번 K대 교수님 특강처럼 주변 사람들에게 적절한 설명을 해 줄 수 있는 인재로 거듭나시면 좋겠다.

우리 SIAI 교육도 내가 겪은 일들, 주변에서 겪는 일들을 좀 더 (Hyper-)Realistic case로 바꿔서 앞으로도 꾸준히 문제로 공유해드리려고 한다.

우리 교육 없이도 이해하실 수 있는 분들은 참고자료로 쓰시고, 안 되는 분들은 내가 말하는 고급(?) 교육이 어떤 것인지 감을 잡는 계기로 삼으면 좋겠다.

Picture