SNS를 많이 쓰는 사람들의 연봉은 낮다는 속설은 사실일까?

1변수 분석은 큰 오류 낳을 수 있어, 항상 다양한 변수 간 복합 관계 이해해야
데이터 사이언스는 다양한 변수 간 복합 관계를 찾아내는 모델 연구 작업
1변수 집착은 과거 방식, 빅데이터 시대에 맞춰 사고 방식 개선해야

데이터 사이언스 교육을 하거나, 직원들이 잘못된 결론을 갖고 왔거나, 외부에 강의를 나갔을 때 항상 강조하는 부분이 ‘1변수 회귀분석(One-variable regression)’을 하지 말라는 것이다.

가장 간단한 예시를 들면, 내가 주식을 사면 내리는 것 같다는 류의 인과관계가 잘못된 결론부터, 여성은 남성보다 급여가 낮다, 해외에서 일하는 한국인은 외국인보다 급여를 적게 받는다 등등의 1개 원인으로부터 성급한 결론을 얻는 것을 말한다. 비단 ‘인공지능’으로 알려진 계산법을 쓴다고 문제가 해결되는 것이 아니라, 원인과 결과를 구분할 수 있는 합리적인 사고 구조를 갖고 있어야 오류에 빠지지 않게 된다.

SNS 202312

SNS를 많이 쓰면 연봉이 떨어진다?

가장 최근에 본 예시 중에 SNS를 많이 쓰면 연봉이 떨어진다는 속설이 눈에 계속 거슬렸다. 거꾸로 SNS를 잘 활용하면 홍보비를 아낄 수 있으니 SNS 전문 마케터들의 연봉은 더 높을 것 같은데, 왜 집중해서 공부하는 고3 학생들에게나 적용할 법한 이야기를 일반 직장인의 연봉에까지 적용하는건지 도무지 공감이 되질 않더라.

연봉이라는 것이 본인의 역량, 회사에서 그 역량을 활용하는 정도, 그 역량을 통해 생산되는 부가가치, 유사 직군의 급여 상황 등등 다양한 요소에 영향을 받는다. 수 많은 변수를 내버려두고 ‘1변수 회귀분석’을 하게되면 연봉 높은 직장을 가려면 SNS를 끊어라는 성급한 결론이 나오게 된다.

당장 SNS를 통해서 정보를 얻고 적절한 취직 준비용 자료를 찾는 분들이 들으면 어떤 생각이 들까? ‘인공지능으로 분석해봐야 틀린 결론 밖에 안 나오는군요?’ 라고 생각하지 않을까?

아래는 이런 착각을 구조화한 분석이다.

출처=Swiss Institute of Artificial Intelligence

1변수 분석의 문제점

총 5가지의 회귀분석이 진행됐고, 각각 좌측에 정리된 변수들이 하나, 혹은 둘씩 더 추가됐다. 첫번째 변수는 SNS를 활용하고 있는지 여부, 두번째 변수는 여성이면서 SNS를 활용하고 있는지, 세번째 변수는 여성인지, 네번째 변수는 나이, 다섯번째 변수는 나이의 제곱, 마지막 여섯번째 변수는 SNS 상에서 친구들의 숫자다.

(1)로 정리된 첫번째 회귀분석이 위에 말했던 1변수 회귀분석의 대표적인 예시다. SNS를 쓰면 급여가 11.8% 인상된다는 결론이 나와있다. 위의 결론을 보고 1변수 회귀분석의 문제점을 인식하신 분이, 여성 분들이 SNS를 상대적으로 더 많이 쓰니까, 혹시 여성이면서 SNS를 쓰시는 분들이 급여를 적게 받는 것이 아니냐는 질문을 주시더라. (2)번에서는 여성이면서 SNS를 사용하시는 분들과 여성이 아니면서 SNS를 사용하시는 분들을 구분했는데, 여성이 아니면서 SNS를 쓰시는 분들은 급여는 18.2%나 증가했고, 반대로 여성이면서 SNS를 이용하시는 분들은 거꾸로 급여가 12% 떨어졌다.

여기까지 보신 분들은 ‘역시, 한국 사회에는 여성 차별이 이렇게 심하군’이라고 판단하실 수도 있고, 다른 한편으로는 단순히 여성이어서 급여가 떨어진 것인지, SNS를 사용했기 때문에 급여가 떨어진 것인지 분리하고 싶은 분도 있을 것이다.

해당 계산을 (3)에서 진행했다. 여성이 아니면서 SNS를 쓰신 분은 13.8% 급여가 인상됐고, 여성이면서 SNS를 쓰신 분은 급여가 1.5% 인상되는데 그친 반면, 여성의 급여가 13.5% 낮다는 것을 확인할 수 있다. 심지어 여성이면서 SNS를 쓰는 것은 큰 의미가 없는 변수라는 결론이 나오는 반면, 여성이라는 이유로 낮은 급여로 책정된 변수는 굉장히 유의미한 변수로 나온다.

이 때 혹시 나이가 중요한 변수가 아닌가는 질문이 나올 수 있고, (4)에서 나이를 추가해보니 크게 유의미한 변수라 아니라는 결론이 나왔다. 나이의 제곱을 쓴 이유는 주변에서 ‘인공지능’을 공부하고 싶어하시는 분들이 ‘인공지능’ 계산법을 쓰면 달라지지 않을까는 의문을 냈기 때문이고, SNS 사용, 남성/여성 등의 데이터는 단순히 0/1 데이터라 어떤 모델을 쓰건 결과값이 바뀔 수 없는 반면, 나이는 0/1로 구분되는 숫자가 아니기 때문에, 설명 변수와 결과값 간의 비선형 관계가 있는지 검증하기 위해 추가한 변수다. ‘인공지능’ 계산은 비선형 관계를 최대한 추출해내는 계산이기 때문이다.

위에서 나이의 제곱이라는 비선형 변수를 추가해도 유의미한 변수로 나오지 않는다. 즉, 나이는 선형으로도, 비선형으로도 급여에 직접적인 영향을 주고 있지 않은 것이다.

마지막으로 (5)에서 친구의 숫자를 더 추가해봤더니 친구 숫자가 많은 것이 급여를 5% 떨어뜨리는데 영향을 줬을 뿐, 단순히 SNS를 사용하는 것이 급여에 영향을 주지는 않는다는 결론을 얻게 된다.

위의 단계별 계산을 통해, SNS를 이용하는 것이 급여를 떨어뜨리는 것이 아니라 SNS를 매우 열심히 쓰고 있고, 온라인 세계에서 친구 관계에 더 집중하는 쪽이 급여 하락에 좀 더 큰 영향을 준다는 것을 확인할 수 있는 반면, 그 비중은 전체의 5%에 지나지 않는다는 것도 확인할 수 있다. 사실 더 큰 문제는 성별로 묶여서 표현된 또 다른 측면의 고용 관계인 것이다.

일상에서 만나는 수 많은 1변수 분석

증권가에 있는 친구를 만나면 ‘미 연준이 금리를 올려서 주가가 폭락했다’라는 표현을 쓰기도 하고, VC업계에 있는 친구를 만나면 ‘모태펀드가 줄어서 요즘 VC업계가 어렵다’는 표현을 쓰기도 한다.

한편으로는 맞는 말인 것이, 중앙은행의 금리 인상과 정책 자금의 공급 축소가 주가 폭락 및 시장 축소에 큰 영향을 주는 것이 사실이기 때문이다. 그러나, 다른 한편으로 보면 과연 얼마나 큰 영향을 줬는지, 다른 변수들은 전혀 영향을 주지 않고 오직 정책 변수들만 유의미한 영향을 준 것인지는 대화에 나타나지 않는다. 단순히 친구들 간의 대화에 나타나지 않는 것은 상관이 없겠지만, 정책 결정을 내리는 분들 사이에서 같은 방식으로 1변수 분석이 통용되고 있으면 더 이상 간단한 문제가 아니다. 다른 수 많은 요소들을 고려해야 하는 상황에서 단순한 인과 관계 상정하고 해결책을 찾다보면 엉뚱한 문제가 터지기 마련이기 때문이다.

미국 트루먼 대통령은 “언젠가 손이 하나 뿐인 외팔이 경제학자를 만났으면 좋겠다”는 표현을 쓴 적이 있다. 경제 자문으로 고용한 경제학자들이 항상 한 손으로 A사건에 대한 해석을 내놓으면서 동시에 다른 손으로 B방식의 해석과 필요한 정책들을 함께 꺼냈기 때문이다.

데이터 사이언스 관점에서 봤을 때, 트루먼 대통령은 1변수 분석을 요구했고, 자문 경제학자들은 최소한 2변수 분석을 해서 제공했던 것이다. 그리고 비단 미국의 트루먼 대통령에게서만 이런 사건을 겪는 것이 아니라, 수 많은 비전문가 결정권자들과의 대화가 언제나 위와 같은 방식으로 1변수 해결책을 요구하는 중에 2번째 변수를 좀 더 쉽게 전달해주기 위한 고민들을 담게 된다. 그런 현실을 겪을 때마다 의사 결정권자가 좀 똑똑해서 다양한 변수를 고려할 수 있으면 좋겠다는 생각도 들고, 차라리 내가 의사 결정권자가 되면 좀 더 많이 알고 있으니 좀 더 합리적인 선택을 할 수 있지 않을까는 생각이 들기도 한다.

출처=GIAI 내부 모델

1변수 분석의 위험성

약 2년 전의 일이다. 어느 외주 업체에서 신규 담당자가 와서 기존에 공급했던 모델을 다시 한번만 설명해달라는 요청이 왔다. 기존 모델은 네트워크 이론 기반의 그래프 모델로, 하나의 단어에 연결된 여러 단어들이 서로 어떤 관계를 가지며 엮여 있는지를 설명해주는 모델이었다. 키워드 분석을 통해 여론을 이해하고, 기업 혹은 조직이 적절한 마케팅 전략을 짜는데 유용하게 쓸 수 있는 모델이다.

해당 모델에 대한 설명을 듣던 신규 담당자가 굉장히 불쾌한 표정을 지으며 자신들의 주요 키워드에 대해서 평가가 좋은지 나쁜지 1개 숫자로 알려달라는 불만을 표현했다. 그런 호불호를 확연히 잡아낼 수 있는 단어는 많지 않은 반면, 관계된 단어들을 바탕으로 담당자가 현상을 가늠해볼 수 있는 단어들이 다양하게 공급되고, 해당 단어들과 주요 키워드 간의 관계를 파악할 수 있는 정보가 있으니 활용해보면 어떻겠냐는 대안을 제시했다.

끝까지 고집을 피우며 1변수의 숫자를 알려달라고 하길래, 그렇게 관련 단어를 다 버리고 욕 하는 단어, 칭찬하는 단어를 사전에서 찾아서 적용하면 전체 데이터의 5%도 쓰지 못한다는 것과, 그 5% 미만의 데이터로 호불호를 평가하는 것은 굉장히 조잡한 계산이라는 것을 설명했었다.

사실 그 시점에 이미 이 분은 손이 하나인 경제학자를 찾는 분, 전혀 데이터 기반의 이해에 관심이 없는 분이라는 생각이 들어서 빨리 미팅을 끝내고 이 자리를 정리하고 싶은 욕심이 굴뚝 같았는데, 그 분이 10년 전부터 매우 중요한 기관의 데이터 분석 담당자였다는 말씀을 동석한 분께 전해듣고 적지 않게 충격을 먹은 적이 있다.

아마 그 분이 10년간 하셨던 업무는 ‘긍정/부정’으로 나뉘는 단순한 정보 값을 만들어내는 1변수 기관의 값을 윗 분께 전달하는 업무를 하셨을 것이다. 어쩌면 그 긍정, 부정 구분이 사전적인 단어에 기반한 조잡한 분석이었다는 사실을 이해하고 있으셨을지도 모르겠지만, 나한테 같은 결론을 달라고 하니 많이 답답하더라. 결국 사전에 있는 긍정 단어, 부정 단어를 이용해서 단순한 파이 차트를 하나 만들어 드리기는 했지만, 이렇게 1변수 분석하시는 분들이 주요 기관의 데이터 전문가로 10년이나 업무를 하셨다는 사실이 한국의 현실을 보여주는 것 같아서 대단히 괴로운 경험이었다. 10년 동안 세상이 많이 바뀌었으니 바뀐 시대에 맞게 적응해주셨으면 어떨까 싶다.