인공지능 석·박사 학위 과정은 실제로 임금 상승에 도움을 줄 수 있을까?

국내 대기업 급여 산정 방식은 학위를 연차로 전환 계산해 모델 의미 없어
해외 방식 급여 산정시 학위 별 더미 변수 설정, 급여 성장률과 결합으로 분석 가능
더미 변수 설정 없이 단순 '인공지능 계산'으로는 잘못된 결론 얻을 수 있어

보통은 새로운 모임에 가면 공부를 많이 하고 왔다는 사실을 숨기는데, 본의 아니게 전문성이 담긴 발언을 꺼낼 수밖에 없는 순간이 오고, 결국 남들보다 가방 끈이 좀 더 길다는 사실을 토로하면 항상 받는 질문이 있다. 지식 수준이 높아진 것은 잠깐의 대화로 감을 잡을 수 있는데, 실제로 시장에서 그 가치를 더 높게 쳐 주느냐는 것이다.

같은 질문을 받을 경우, 보통 한국에서는 ‘이름 값’으로만 팔리는 것 같고, 해외에서는 실제로 더 많이 공부해서 더 많이 알고 있는지, 그래서 더 기업 업무에 쓰일 수 있는 인력인지 매우 꼼꼼하게 평가하는 절차를 거치는 것 같다고 대답한다. 그간 한국에서의 경험을 돌이켜보면, 저 분이 어느 대학의 대학원을 다녔다는 사실만으로 겁을 먹고 많이 알 것이라고 위축되거나, 반대로 질투하는 사례들을 종종 보기는 했던 것 같은데, 정작 실력 평가를 위한 깊이 있는 질문을 받은 적은 한 번도 없었던 것 같다.

artificialintelligence 202310

일반적인 한국식 급여 산정 방식

안타까운 한국의 현실을 꺼내는 이유는, 학위 교육이 실제로 임금 상승이 도움이 되려면 해외 방식으로 평가 작업이 있어야 된다는 생각 때문이다. 실제로 임금 상승에 도움이 되느냐를 판단하기 위해 데이터 기반의 모델을 만든다고 한번 가정해보자. 예를 들면, 신생 회사가 좀 덩치가 커져서 이제 상위 교육을 받은 인재들을 회사에 적극적으로 영입하려고 하는데, 급여 수준을 지금까지 뽑던 인력과 다른 수준으로 책정해야 한다는 막연한 인식은 있지만, 실제로 어느 수준의 급여를 줘야하는지에 대해서 매우 피상적인 수치만을 갖고 있는 경우에 생각해 볼 만한 상황이다.

국내의 경우는 대체로 동일 산업의 대기업이 얼마의 연봉을 주고 있는지, 국내에 진출한 해외 기업들이 한국 내 인력들에게 얼마의 급여를 주고 있는지와 같은, 비교군의 정보만을 찾고 끝난다. 그 학위 과정 중 어떤 공부를 했고, 그래서 회사에 어떤 도움이 되는지를 구체적으로 판단하는 것이 아니라, ‘박사 학위자’, ‘석사 학위자’, ‘해외파’, ‘국내파’ 이렇게 단순 분리를 통해 책정되는 ‘급여 테이블’을 만들어 버린다.

국내에서 그간 봤던 대기업의 연봉 구조는 학위 과정을 석사 2년, 박사 5년으로 정해놓고, 해당 연차만큼 회사를 다닌 것과 같은 값으로 연봉 테이블을 적용한다. 예를 들어, 서울대학교 학부 졸업 후 바로 하버드대학교 석·박사 통합과정을 들어가 고생 끝에 6년만에 졸업한 학생이 국내 대기업에 취직한다고 할 경우, 국내 대기업 인사 팀은 박사 학위 과정에 5년을 적용해 경력 6년차 사원과 같은 수준으로 급여 구간을 산정한다. 물론 명문대 출신이라 각종 상여금 등을 통해 더 많은 급여를 약속할 수는 있지만, 국내 대기업들의 ‘급여 테이블’ 구조가 지난 수십년간 바뀌지 않고 유지되어 왔던 만큼, 경력 6년차 사원으로 자기네 시스템에 통합시키는 것을 피할 수는 없다.

단순히 학부 출신, 석사 출신, 박사 출신 100명씩을 모아놓고, 이 분들의 급여를 알아내서 ‘인공지능’ 분석을 하면 알아낼 수 있는 것이 아니냐는 황당한 질문들을 많이 받는데, 일단 저 위의 사례가 사실이라면, 어떤 계산법을 쓰건 상관없이 급여는 대기업 방식의 연차 시스템에 의해서 산정될 뿐, 학위 과정이 도움이 된다는 결론이 나오지 않을 것이다. 굳이 따지자면 박사 졸업하기 위해 많은 추가 공부를 더 해야 해서 5년 졸업은 불가능하고 6년 만에 졸업해도 성공이라고 칭찬 받는 학문으로 갈 경우, 해당 학위 출신은 국내 대기업 방식의 산정이 연봉 계산에 매우 불리하게 작용할 것이고, 학위하면 오히려 연봉이 깎인다는 결론이 나올 수도 있다.

단순 급여 산정 방식이 낳는 폐해

이런 사정을 아는 매우 똑똑한 인재가 있다고 생각해보자. 본인이 매우 뛰어난 역량을 갖춘 인재라면 급여 테이블로 정해진 급여에 안주할 가능성이 낮은만큼, 해당 대기업에 관심도 없는 상황이 생길 것이다. 인공지능, 반도체 등등의 주요 기술 산업 역량을 갖춘 인재를 찾는 기업들이라면 급여에 대한 고민이 깊어질 수밖에 없다. 자칫 실력은 없지만 학위만 있는 인력들을 뽑는 인사 실패를 겪을 수도 있기 때문이다.

실제로 S대의 열정파 교수들 일부가 운영하는 연구실은 학위 과정이 몇 년이 걸리건 상관없이 좋은 논문을 써야 졸업을 시켜주는 해외 방식으로 운영되고 있는데, 국내 대기업 취직을 원하는 학생들에게 많은 비난을 듣는다. 국내 연구자들에 대한 평가를 모아놓은 김박사넷 등의 웹사이트에서 해당 열정파 교수들에 대한 각종 비난을 찾을 수 있다. 국내 대기업의 단순 연차 계산 방식이 제대로 된 연구자의 성장을 막고 있는 것이다.

결국 대기업이 복잡한 판단을 할 역량이 부족해 편의로 생긴 급여 구조 탓에 대기업에서 채용하게 되는 인력은 논문의 질 따위는 무시한 채, 일반의 인식에 맞춰 2년, 5년만에 학위 과정을 마친 분들 위주로 채용이 이뤄지는 결론을 얻게 된다.

역량 방식으로 급여 산정이 이뤄지는 해외의 급여 기준 모델

한국의 답답한 현실을 벗어나, 실제로 역량에 따라 학위를 받고, 그 학위가 역량에 대한 절대적인 지표가 될 수 있는 국가의 급여 산정 방식에 맞춰 데이터 분석을 진행해보자.

우선 설명 변수로 학위 유무를 판단하는 더미 변수(Dummy variable)을 생각해 볼 수 있다. 이어 급여 성장률이 또 하나의 중요한 변수가 된다. 학위에 따라 급여 성장률이 다를 수 있기 때문이다. 마지막으로는 학위 더미 변수와 급여 성장률 변수간의 상관관계도 변수로 포함하기 위해 두 변수를 곱셈한 변수도 추가한다. 이 마지막 변수를 추가하게 되면 학위가 없는 상태에서 급여 성장률과 학위가 있는 상태에서 급여 성장률을 구분할 수 있다. 만약 석사, 박사 학위 둘을 구분하고 싶다면 더미 변수를 2종류로 정하고, 급여 성장률도 역시 2개 변수와 곱셈한 변수들을 추가하면 된다.

만약 AI 관련 학위를 한 경우와 아닌 경우를 구분하고 싶다면? AI 관련 학위를 했다는 더미 변수를 추가하고, 역시 위와 같은 방식의로 급여 성장률과 곱셈한 변수를 더 추가하면 된다. 당연하겠지만 반드시 AI에 국한될 필요는 없고, 다양한 가능성들을 바꿔서 적용해볼 수 있을 것이다.

여기서 하나 나오는 질문이, 학교 별로 명성이 다르고, 실제로 졸업생들의 실력도 제각각일텐데, 구분할 수 있는 방법이 있냐는 것이다. 역시 위의 AI 관련 학위 조건 추가와 마찬가지로, 새로운 더미 변수를 하나씩 더 추가하면 된다. 예를 들어, 상위 5개 대학 졸업인지 여부, 졸업 논문이 고급 저널에 실린적이 있는지 여부 같은 것들을 더미 변수로 만들면 된다.

왜 한국에서는 못 쓰는 계산법이라고 생각하나요?

위의 해외 기준 급여 모델이 한국에서 적용되기 어려운 가장 큰 이유는, 한국 기업 문화에서 실제로 고급 학위 과정의 연구 방법론이 적용되는 경우가 극히 드물고, 그 가치가 실제로 회사의 이익으로 바뀌는 경우도 매우 희귀하기 때문이다.

최근 국가 연구개발(R&D) 프로젝트에 대한 지원금을 대규모로 감축하겠다는 발표가 나왔다. 2024년도 정부 예산안에 따르면 2023년 대비 약 20% 정도의 R&D 예산이 삭감될 예정이다. 지난 2017년 대비 2023년까지 20조원이 무려 30조원으로 늘었던만큼, 실질적으로는 과다 지급되었던 것이 일부 조정되는 상황이나, 현장에서 느끼는 감정들은 그렇지 않은가보다.

그런데, 그런 불만이 많은 분들이 하시는 연구들 대부분이 통계학 훈련이 전혀 되지 않은 상태다. 실제로 국내 귀국 후 통계학 기초 훈련을 거부하는 수 많은 공대 출신들에게 귀가 따갑게 듣는 내용 중 하나가, ‘인공지능 계산법’을 쓰면 굳이 통계학적인 데이터 변형을 쓰지 않아도 되지 않느냐는 반박이다. 예시를 하나 들어보자.

‘인공지능 계산법’을 쓰면 굳이 더미 변수 따위는 안 만들어도 되지 않나요?

위의 사례에서 더미 변수를 만들지 않고 단순히 카테고리 변수(Categorical variable)로 지정해서 데이터 분석 작업을 진행할 때, 실제로 컴퓨터 코드는 해당 카테고리들을 더미 변수로 변형하는 작업을 거친다. 머신러닝 분야에서 해당 작업을 ‘One-hot-encoding’이라고 부른다. 그러나, ‘학사-석사-박사’를 ‘1-2-3’ 혹은 ‘0-1-2’로 변형할 경우, 석사 학위자 대비 박사 학위자의 연봉 계산 가중치가 각각 1.5배(2-3의 비율), 혹은 2배(1-2의 비율)로 계산하는 오류가 발생하게 된다. 이 때는 석사 학위, 박사 학위를 독립된 변수로 구분해야 각각의 연봉 인상 효과를 분리할 수 있다. 잘못된 가중치가 들어갔을 경우, ‘0-1-2’일 경우에는 자칫 박사 학위는 연봉 상승률이 석사 학위 대비 절반 남짓으로 떨어진다는 결론이 나올 수도 있고, ‘1-2-3’의 경우에도 마찬가지로 석사, 박사 학위의 연봉 상승률을 실제 효과보다 50%, 67% 낮춰 평가하는 오류를 범하게 된다.

본질적으로 ‘인공지능 계산법’들이 통계학의 회귀분석을 비선형으로 처리하는 계산들인만큼, 회귀분석에서 변수 별 효과 구분을 위해 필수적인 데이터 전처리 작업을 피할 수 있는 경우는 매우 드물다. 일반에 알려진 파이썬(Python) 등의 기초 언어에서 널리 쓰이는 데이터 함수 집합(Library)들이 이런 경우들을 모두 고려해서 데이터 별로 상황에 맞게 비전공자 수준의 결론을 알려주지는 않는다.

특정 언론사 기사나 해당 기사들이 언급하는 논문들을 지적하지 않더라도, 학위 과정이 연봉 상승에 크게 도움이 되지 않는다는 표현들을 종종 본 적이 있을 것이다. 그런 논문들을 보고나면 꼭 위와 같은 기초적인 오류가 있는지를 점검하는 과정을 거친다. 안타깝게도 국내에서 이렇게 변수 선정 및 변형에 꼼꼼하게 신경을 쓴 논문을 보기는 쉽지 않다.

변수 선정 및 분리, 정제 작업에 대한 이해도가 부족해 잘못된 결론을 얻는 것은 비단 한국 공대 출신들에게서만 일어나는 일은 아니다. 아마존(Amazon)에서 개발자 채용 중에 개발자들이 코드 공유를 많이하는 플랫폼 중 하나인 깃헙(Github)에 올라간 코드의 문자열 길이 수(Byte)를 변수 중 하나로 썼다는 표현을 들은 적이 있는데, 역량을 판단하는 좋은 변수였다기보다는 잘 보여주기 위해 얼마나 더 신경을 썼느냐는 잣대로 볼 수는 있지 않을까 싶다.

공학도들 상당수가 단순히 구글 검색을 통해 본 유사 사례 코드를 그대로 복사해서 붙여넣기하고는 데이터 분석을 했다고 주장하는 경우가 매우 많은데, IT업계의 개발은 같은 방식으로 진행해도 큰 문제가 없는 경우가 있겠으나, 위의 사례와 같이 연구 주제에 맞춘 데이터 변형이 필수인 부분에서는 최소한 학부 수준 이상의 통계학 지식이 필수적인만큼, 고급 데이터를 모아놓고 잘못된 데이터 분석으로 잘못된 결론을 내는 경우는 피하도록 노력하자.