[논문이야기] Interpretable Topic Analysis ①

통계학, 머신러닝, 딥러닝이 모두 어우러진 '토픽 모델링' 분야
해외 경제에 전적으로 의존하는 한국 경제, '수출 다원화' 필요한 시점
본 논문 통해 기존 공공 기관이 제대로 해내지 못했던 '셀러-바이어 매칭 서비스' 제공한다

대학원 수업들을 절반 이상 이수하며 졸업을 얼마 안 남기고 있었던 시점에서, 데이터 사이언스와 인공지능을 배우기 위해 이 대학원에 왔기 때문에 기존 통계학 분석 방법이 사용되지 않는 머신러닝 및 딥러닝이 잘 사용되는 분야로 논문을 작성하고 싶었습니다. 그래야 대학원 교육과정을 마치는 의미가 더욱 있을 것 같았기 때문입니다.

데이터를 찾기 쉽고, 딥 러닝을 활용할 수 있는 분야

저를 포함한 많은 분들이 데이터를 확보하기 힘들다는 이유로 논문 작성에 많은 애로사항을 겪었습니다. 그래서 데이터를 쉽게 확보할 수 있으면서도 기존의 방법론으로 유의미한 정보를 뽑아낼 수 없었던 분야를 선정해야만 했습니다. 대학원에서 저희는 특정 주제에 국한해 연구를 한 것이 아닌, 수학・통계학적 이해를 바탕으로 데이터 분석의 방법론을 폭 넓게 배웠기 때문에 모든 선택지를 열어두고 주제를 탐색할 수 있었습니다.

그렇게 해서 논문의 주제를 찾게 된 분야가 딥 러닝(Deep Learning)의 토픽 모델링(Topic modeling)입니다. 토픽 모델링을 선택한 이유는 통계학 기반의 로직 활용을 넘어 해당 분야를 위한 딥 러닝 방법론이 잘 발전돼 왔으며, 판별 모델(discriminative model)이 아닌 데이터의 확률을 바탕으로 숨겨진 구조(underlying structure)를 추적하는 요인 분석(factor analysis)의 적층형 구조인 생성 모델(generative model)로 활용되기 때문입니다. 또한 우리나라에서 이와 관련해 연구하시는 훌륭한 분들이 많이 계셨기 때문에 좋은 교육 자료들을 참고하고 감을 잡기 용이했습니다.

한국 무역의 높은 선진국 수출 의존도를 해결할 수 있는 방법?

이후 저를 많이 아껴주시던 교수님과 얘기를 나누면서 “하고 싶은 분석을 하는게 아니라 사회에서 필요로 하는 인공지능 문제를 찾아보는 건 어떤가요?” 라는 말씀을 듣게 됐고, 이에 따라 IMRaD 접근 방법을 기준으로 내가 기여할 수 있을 만한 NLP 문제들을 찾아보기 시작했습니다. 그러던 중, 우연치 않게 한 논문을 접하게 됐습니다.

해당 논문에 따르면, 한국은 전세계에서 위상 높은 경제 구조를 가졌음에도 불구하고, 내수 시장보다 외수 시장이 차지하는 비율이 크기 때문에 구조적으로 해외 경제에 의존하는 비중이 높다고 했습니다. 다시 말해 곧 선진국의 수입 수요가 줄어드는 상황이 발생하면 한국의 경제 구조가 언제든 불황을 겪을 수 있다는 것이죠. 또한 최근 대中 무역 악화로 인해 한국 무역 시장이 전반적으로 타격을 입으면서, 이제는 수출의 다원화가 필수적인 시점이 됐다는게 저자의 설명입니다. 논문에서는 이러한 ‘수출의 다원화’를 꾀하기 위해 공공기관들(KOTRA, 한국무역협회, 소기업벤처진흥공단, 한국무역통계진흥원 등)이 다방면의 서비스를 내놓고 있으나, 제대로 된 역할을 수행하고 있다고 보기에는 어렵다고 지적했습니다. 아래는 공공기관의 실제 서비스 현황입니다.

‘11111111’은 어떤 기업이며, 구글에 Lee는 수십 개의 기업이 나오는 등 제대로 된 회사 확인조차 어렵다/사진=소기업벤처진흥공단-고비즈 코리아
2023년 4월 12일의 경우 국가가 7개도 되지 않는 등 제대로 된 정보를 전달하고 있다고 보기는 힘들다/사진=소기업벤처진흥공단-고비즈 코리아
빈도수, 순위, 총합 등 기본적인 산술 지표에 머물러 있다/사진=소기업벤처진흥공단-고비즈 코리아

한국의 수출 다원화를 위해 필요한 진정한 ‘빅데이터 서비스’

논문에서 가장 많이 지적되는 부분이 위와 같은 바입니다. 즉 공공기관들이 ‘빅데이터 서비스’ 라는 명목으로 제공하는 위의 수치들이 한국 기업 및 바이어 매칭에 실질적으로 도움이 되지 못하고 있다는거죠. 기존의 해외 수출을 하던 대기업들 입장에서는 적절한 도움 없이도 이미 연결돼있는 거래처가 있으며 시장을 뚫을 수 있는 노하우와 자본력이 있습니다 그러나 여건이 부족한 중소기업 혹은 셀러들은 혈혈단신으로 뚫고 나가야 합니다. 여기에 현 시점의 공공 기관들이 국가의 경제와 경쟁력을 키우기 위해서 이들에게 정보를 알맞는 정보를 제공하고 바이어를 매칭시켜주는 기능을 제공하고 있지 못하고 있다는 것입니다.

물론 앞서 언급한 기관들은 이 때까지 한국의 많은 기업들이 수출을 할 수 있도록 도와준 경험과 노하우들 그리고 공급책들을 가지고 있습니다. 논문에서 지적하는 바는 공공기관이 제공하는 부분이 단순히 빅데이터 및 AI 서비스가 아니라는 것 뿐이죠. 그렇다면 이 기관들의 장점을 살릴 수 있으면서도 수출하는 기업과 셀러들에게 도움이 되는 빅데이터, AI 서비스는 무엇이 될까요? 제가 생각했던 것은 데이터를 바탕으로 계산 과정, 모델, 분석 결과까지 ‘해석이 가능’해 의사 결정을 도울 수 있는 서비스였습니다. 그리고 이를 만드는 것이 제 논문의 주제가 됐습니다.

[논문이야기] Interpretable Topic Analysis ②로 이어집니다.