Mincheol Kim (MSc, 2023)
대학원 수업들을 절반 이상 이수하며 졸업을 얼마 안 남긴 시점에서, 데이터 사이언스와 인공지능을 배우기 위해 이 대학원에 온 만큼, 기존 통계학 분석 방법이 아닌 머신러닝과 딥러닝이 잘 사용되는 분야로 논문을 작성하고 싶었다. 그렇게 해야 대학원 교육과정을 마치는 의미가 더욱 클 것 같았기 때문이다.
데이터를 찾기 쉽고, 딥 러닝을 활용할 수 있는 분야
필자를 포함한 많은 사람들이 데이터를 확보하기 힘들다는 이유로 논문 작성에 많은 애로사항을 겪었다. 그래서 데이터를 쉽게 확보할 수 있으면서도 기존의 방법론으로 유의미한 정보를 뽑아낼 수 없었던 분야를 선정해야만 했다. 대학원에서 우리는 특정 주제에 국한된 연구를 한 것이 아니라, 수학적・통계학적 이해를 바탕으로 데이터 분석의 방법론을 폭넓게 배웠기 때문에 모든 선택지를 열어두고 주제를 탐색할 수 있었다.
그렇게 해서 논문의 주제로 선택한 분야가 딥러닝(Deep Learning)의 토픽 모델링(Topic modeling)이다. 토픽 모델링을 선택한 이유는 통계학 기반의 로직을 넘어 해당 분야를 위한 딥 러닝 방법론이 잘 발전돼 왔고, 판별 모델(discriminative model)이 아닌 데이터의 확률을 바탕으로 숨겨진 구조(underlying structure)를 추적하는 요인 분석(factor analysis)의 적층형 구조인 생성 모델(generative model)로 활용되기 때문이다. 또한 우리나라에서 이와 관련된 연구를 하시는 훌륭한 분들이 많이 계셔서 좋은 교육 자료들을 참고하고 감을 잡기 용이했기 때문이다.
한국 무역의 높은 선진국 수출 의존도를 해결할 수 있는 방법?
이후 많이 아껴주시던 교수님과 얘기를 나누던 중 “하고 싶은 분석을 하는 것이 아니라 사회에서 필요로 하는 인공지능 문제를 찾아보는 건 어떤가요?”라는 말씀을 듣게 됐고, 이에 따라 IMRaD 접근 방법을 기준으로 내가 기여할 수 있을 만한 NLP 문제들을 찾아보기 시작했다. 그러던 중 우연히 한 논문을 접하게 됐다.
논문에 따르면, 한국은 전 세계에서 위상이 높은 경제 구조를 가졌음에도 불구하고, 내수 시장보다 외수 시장이 차지하는 비율이 크기 때문에 구조적으로 해외 경제에 대한 의존도가 높다고 했다. 다시 말해, 선진국의 수입 수요가 줄어드는 상황이 발생하면 한국의 경제 구조가 언제든 불황을 겪을 수 있다는 것이다. 또한 최근 중국과의 무역 악화로 인해 한국 무역 시장이 전반적으로 타격을 입으면서 이제는 수출의 다원화가 필수적인 시점이 됐다고 설명했다. 논문에서는 이러한 ‘수출의 다원화’를 추진하기 위해 공공기관들(KOTRA, 한국무역협회, 소기업벤처진흥공단, 한국무역통계진흥원 등)이 다양한 서비스를 내놓고 있으나, 그들이 제대로 된 역할을 수행하고 있다고 보기에는 어렵다고 지적했다.
한국의 수출 다원화를 위해 필요한 진정한 ‘빅데이터 서비스’
논문에서 가장 많이 지적되는 부분이 위와 같은 바다. 즉, 공공기관들이 ‘빅데이터 서비스’라는 명목으로 제공하는 수치들이 한국 기업 및 바이어 매칭에 실질적으로 도움이 되지 못하고 있다는 것이다. 기존의 해외 수출을 하던 대기업들은 이미 연결된 거래처가 있으며, 시장을 뚫을 수 있는 노하우와 자본력이 있어 큰 어려움 없이 수출을 이어갈 수 있다. 그러나 여건이 부족한 중소기업이나 셀러들은 혈혈단신으로 새로운 시장을 개척해야 한다. 이러한 상황에서 현 시점의 공공기관들이 국가의 경제와 경쟁력을 키우기 위해 필요한 정보를 제공하고, 바이어를 매칭해주는 기능을 제대로 수행하지 못하고 있다는 것이다.
물론 앞서 언급한 기관들은 지금까지 한국의 많은 기업들이 수출할 수 있도록 도와준 경험과 노하우, 그리고 공급망을 가지고 있다. 논문에서 지적하는 바는 공공기관이 제공하는 서비스가 단순히 빅데이터와 AI 서비스가 아니라는 점이다. 그렇다면 이 기관들의 장점을 살리면서도 수출하는 기업과 셀러들에게 도움이 될 수 있는 빅데이터와 AI 서비스는 무엇일까? 내가 생각한 것은 데이터를 바탕으로 계산 과정, 모델, 그리고 분석 결과까지 ‘해석이 가능한’ 서비스로, 의사결정에 실질적인 도움을 줄 수 있는 서비스였다. 그리고 이를 구현하는 것이 나의 논문 주제가 다.
AI(Artificial Intelligence) 분야에서 가장 먼저 떠오르는 교수님은 누구일까? 나는 앤드류 응(Andrew Ng) 교수님이 떠오른다. 왜 그런지는 모르겠지만, 언젠가부터 주변에서 앤드류 응 교수의 강의, 인터뷰, 논문을 접했다고 말하는 사람들이 늘어나기 시작했다. 지금 생각해보면, 앤드류 응 교수의 논문이 2000년대 초반에 발표되었다는 점을 고려할 때, 최근에 이 교수의 명성을 접하게 된 나는 조금 늦은 감이 있다는 생각이 든다. 신기하게도 내 논문의 토픽 모델링(topic modeling)은 앤드류 응 교수님의 LDA(잠재 디리클레 할당, Latent Dirichlet Allocation) 논문에서 시작됐다
LDA는 ‘맥락’을 반영하지 못한다
LDA의 경우 토픽(topic)의 비율(분포)을 베타 분포(beta distribution)로 가정하고, 이 가정 하에서 모든 문서의 단어들을 토픽에 임시로 배정한다. 그 후 각 토픽에서 차지하는 단어들을 바탕으로 사전 파라미터(prior parameter)를 계산하고, 이를 쿨백-라이블러 발산(KL-divergence)으로 측정하여 변화량이 계속 좁혀질 때까지 토픽 배치를 반복적으로 바꾸고 수렴하는지 확인한다. 한편, LDA는 깁스 샘플링(gibbs sampling)을 사용하기 때문에 이후 설명할 NVI(Neural Network Variational Inference)와는 상당한 차이가 있다.
이렇게 어려운 용어를 쓰면서 결국 하고 싶은 것은 뭐냐고 묻는다면, LDA를 통해 문서라는 말뭉치(corpus)에서 토픽을 찾겠다는 것이다. 즉, 연구자가 $k$개의 토픽이 문서를 구성한다고 설정해주면 LDA 모델은 그 토픽을 추출하기 위한 학습을 수행한다.
LDA 계산의 가장 큰 맹점은 ‘단어의 순서와 앞뒤 관계를 조건적으로 독립’으로 가정한다는 것이다. 쉽게 말하면, LDA를 활용하면 상대방이 어떤 이야기를 하고 있는지에 상관없이 내가 다음에 할 말은 전혀 다른 새로운 토픽에 속하게 된다는 것이다. 예를 들어, 주제 B와 C에 대해 이야기하고 있었는데, 그런 맥락은 고려하지 않고 갑자기 A에 대해 이야기하게 된다는 것이다. 즉, LDA는 ‘맥락’을 반영하지 못하는 치명적인 단점이 있다.
문서 전반의 정보를 모두 활용하는 LSA
한편, LSA(Latent Semantic Analysis, 잠재 의미 분석)는 LDA의 단점을 상당 부분 보완한다. 즉, 단어와 단어, 단어와 문서, 문서와 문서 간의 ‘관계’를 특이값 분해(Singular Value Decomposition, SVD)로 풀어낸 것이다.
여기서 원리는 간단하다. 여러 문서(document)가 있는 상황에서, 문서 내의 단어가 동시에 등장했는지를 그래프 상으로 표현하고, $n \times m$ 행렬을 SVD로 분해하면 단어(word)를 나타내는 고유 벡터(eigen vector)와 문서를 나타내는 고유 벡터들이 벡터 공간(vector space)에서 문서의 맥락 안에서 어느 정도 비중을 차지하는지를 나타내는 고윳값(eigen value)을 추출할 수 있게 된다.
LSA는 SVD라는 간단한 계산으로 이뤄지는 베이직한 모델임에도 불구하고, 말뭉치(corpus) 전체의 통계적 정보를 모두 활용한다는 점에서 주목할 만한 방법론이라고 할 수 있다. 그러나 여기에도 단점이 있다. 앞서 언급했듯 LSA는 빈도수(count) 기반의 TF-IDF 행렬을 활용하며, 이 행렬의 요소가 단어가 나온 ‘횟수’에 불과하기 때문에 단어의 의미를 유추하는 데 있어서는 성능이 떨어진다는 것이다.
문서 전반에서, 단어적 맥락을 반영하는 워드 임베딩 기법, GloVe
위의 단어 간 순서, 즉 ‘맥락적 종속성’을 반영하기 위한 모델로는 글로브(Global Vectors for Word Representation, Glove)가 있다. 글로브는 단어 간 맥락적 관계를 반영하는 단어 벡터 표현, 즉 워드 임베딩(word embedding) 방법론이다. 이는 Word2Vec이 ‘맥락은 반영하지만, 문서 전체의 정보를 반영하지 못한다’는 한계를 극복하고, 장점만을 살린다는 취지에서 개발된 모델이기도 하다. 즉, 말뭉치 전체의 통계 정보를 반영하면서도, 밀집 표현(dense representation)을 통해 단어 간 유사도를 내적으로 쉽게 계산하겠다는 것이다. 이를 위해 Glove는 아래 목적함수 J를 최소화하는 임베딩 벡터를 찾아내는 것을 목표로 한다.
GloVe의 목적함수 J에 대한 복잡한 수식 도출 과정을 생략하고 직관만 전달하자면, GloVe의 핵심은 ‘임베딩된 두 단어 벡터의 내적’이 ‘전체 말뭉치의 동시 등장 확률’이 되도록 하는 것이라고 요약할 수 있다. 이는 목적함수에 최소제곱법(Least Square Estimation)을 적용함과 동시에, 언어 데이터를 인풋으로 사용하는 모델 특성상 빈번하게 발생하는 과적합(overfitting)을 방지하기 위해 적절한 가중치 $f(X_{ij})$를 곱해주는 방식으로 표현된다.
한편, GloVe 모델은 다양한 텍스트를 대량으로 학습시켜 광범위한 언어 규칙과 패턴을 포착할 수 있도록 해야 한다. 이렇게 학습된 모델은 다양한 작업 및 도메인에 걸쳐 일반화 가능한 단어 표현을 이해하고 활용할 수 있게 된다.
이렇게 LDA부터 GloVe까지 토픽 모델링 기술의 변천사를 언급한 이유는, GloVe를 통해 ‘문서의 정보를 충분히 반영한’ 임베딩 벡터가 본 논문의 핵심 알고리즘인 GNTM(Graph Neural Topic Model)의 입력값으로 사용되기 때문이다.
단어간 ‘그래프 관계’를 살펴보는 방법, Word Graph
지금까지 살펴본 기술들(LDA, LSA, GloVe)은 단어들의 독립성(independency) 가정에 대한 한계점을 보완하기 위해 설계된 모델들이다. 다시 말해 각 단어 간의 ‘맥락’을 반영하기 위한 워드 임베딩 기법의 단계적 발전으로 볼 수 있다. 이번에는 Word Graph를 활용해 단어 간 관계를 확인해보고자 한다.
앞서 논의한 GloVe와 후술될 Word Graph는 단어 간 관계를 이해해보겠다는 측면에서는 공통점이 있다. 그러나 GloVe를 통해 계산된 임베딩 단어 벡터는 유클리드 공간에 매핑되는 반면, Word Graph를 통해 파악되는 문서 내 그래프 구조는 비유클리드 공간에서 정의된다. 이를 통해 Word Graph는 유클리드 공간에서 정의된 기존 수치형 데이터가 미처 발견하지 못하는 ‘숨겨진’ 관계를 찾아낼 수 있다.
그렇다면 ‘주변에 있는 단어와의 관계를 나타내는 구조’는 도대체 어떻게 계산할 수 있을까? 우선 GRF(Global Random Field)는 단어 내 토픽의 가중치와 그래프를 연결하는 엣지(edge) 내 토픽들의 정보를 바탕으로 문서 내 그래프 구조를 표현한다. 이는 아래와 같다.
여기서 중요한 부분은 엣지의 마지막 항에서 이들의 합이 1이 아니라는 점이다. $w’$가 topic 1에 해당할 경우, $w’’$가 해당하는 모든 경우의 수의 합은 1이 되겠지만, $w’$는 topic 1 외에도 다른 topic에 할당될 수 있기 때문이다. 그래서 정규화(normalization) 역할을 하는 엣지의 총 개수 $|E|$가 분모로 곱해진 것이다.
Li et al. (2014)가 제시한 GTRF 또한 GRF와 크게 다르지 않다. 이제 topic z의 분포(distribution)가 $\theta$에 따른 조건부 분포(conditional distribution)가 되었으며, 이들을 학습하고 추론하는 과정에서도 EM 알고리즘이 동일하게 적용된다. 이를 통해 계산된 $p_{GTRF}(z|\theta)$는 두 토픽이 연관될 확률을 의미한다. 즉, 주변 단어인 $w’$와 $w”$가 동일한 토픽으로 배정되는지, 또는 다른 토픽으로 배정되는지를 모두 고려하여 그래프 구조의 확률을 구하는 것으로 이해할 수 있다.
본 연구의 핵심 워드 임베딩 기술로 사용하게 된 배경을 살펴보고, 나아가 그래프 표현을 통해 ‘토픽 내 단어 간 관계’를 심도 깊게 반영하는 GTRF를 소개했다.
위 논의를 기반으로, 본 연구의 핵심인 ‘GNTM(Graph Neural Topic Model)’을 살펴본다. GNTM은 higher order GNN(Graph Neural Network, 그래프 신경망)을 활용한다. 즉, 위 그림처럼 GNTM은 order를 확장하면서 다양한 단어들의 연결 관계를 심층적으로 이해하고 임베딩할 수 있게 된다.
한편, GNTM은 NVI 계산을 통해 신경망의 계산 비용을 상당히 개선할 수 있다.
Graph Neural Topic Model은 뭐가 다른 건데?
GNTM은 LDA에서 ‘그래프 구조’를 계산에 반영하는 과정을 하나 더 추가하는 한편, 학습을 효율적으로 하기 위해 변분 추론(Variational Inference, VI) 대신 신경망(Neural Network)을 이용한 신경망 변분 추론(Neural Variational Inference)를 활용하는 것이 특징이다.
GNTM(GTRF)의 메커니즘을 살펴보자. 위 그림은 GTRF 계산을 LDA 계산과 함께 펼쳐놓은 것이다. 앞서 살펴봤듯, GTRF는 $\theta$가 정해졌을 때의 조건부 분포(conditional distribution)에 따라서 z의 구조가 달라지는 것을 학습하는 계산이다.
어려울 수 있으니, 큰 틀에서 파악해보자. 먼저 문서 전체에 걸쳐 토픽들이 고루 퍼져 있다고 가정했을 때, 각 토픽이 차지하는 비율은 다를 것이다. 이 비율을 나타내는 파라미터를 $\alpha$라고 하자.
이때 $\alpha$는 (LDA 접근 방법과 동일하게) 베타 분포(Beta distribution)의 확장 버전인 디리클레 분포(Dirichlet Distribution)의 형태를 결정하는 파라미터다. $\alpha$에 따라 분포의 모양은 아래와 같이 변하게 된다.
이렇게 해서 $\alpha$라는 파라미터로 토픽들의 비율이 정해지면, 그 비율을 나타내는 파라미터인 $\theta_d$라는 변수가 나오게 된다. 이는 분포의 비율을 결정하는 것이지, 경우의 수가 고정된 것은 아니기 때문이다. 나아가, 토픽 $z$가 결정되면, 그에 따른 구조 $G$와 단어 셋 $V$가 결정된다.
GNTM의 차별점(1) : LDA에 그래프 구조 반영
지금까지의 논의를 통해, 우리가 가지고 있는 뉴스 정보를 수치화하는 과정을 거쳤다. 이제는 어떻게 정확하고 빠르게 계산할 수 있을지 고민할 시간이다.
처음 단계는 매우 간단하다. 디리클레 분포의 모든 파라미터($\alpha$)를 1로 설정하여 $n$차원에서 균등분포를 만든다. 이는 현재 가지고 있는 정보가 없기 때문에 토픽의 비율이 모두 동등하다고 가정하는 것이다.
다음으로, 토픽의 비율이 균등분포라는 가정 하에 랜덤하게 추출된다. 이 추출된 토픽 비율에 따라 토픽 $z$에 맞춰 기사 문서 속 단어들의 토픽 배분이 랜덤으로 결정될 것이다. 한편, 중간 그래프 구조(graph structure)인 $G$는 어떤 구조가 숨어 있는지 ‘학습’할 영역이므로 모델링 초기부터 정의할 필요는 없다. 따라서 처음의 식은 아래와 같이 정리된다.
GTRF에서도 이미 확인했듯, 주어진 조건(여기서는 topic)에 따라 그래프 구조가 나올 확률이 다르며, 이를 나타내는 방법은 이항 분포의 분산 모양에서 확인할 수 있는 $p(1-p)$를 모두 곱하는 것입니다. 다시 말해 단어들한테 임의로 토픽을 할당하고, 그 할당 비율을 통해 $m$를 구할 수 있으며, 그 값을 통해 토픽들 간에 구조가 나올 확률을 이항 분포의 분산으로 수치화한다는 것이다.
GNTM의 차별점(2) : NVI
마지막으로 살펴볼 부분은 NVI다. NVI는 텍스트 데이터 안에 있는 잠재 토픽의 사후 분포를 추정하는 방법이다. NVI 알고리즘은 다양한 분포에서 실제 사후 분포를 정확하게 추정하기 위해 Neural Network 구조를 이용해 파라미터화한다. 물론 그 과정에서 변분 추론(VI)에서 자주 사용하는 reparameterization(재파라미터화) 트릭을 통해 더 간단한 구조의 분포를 사용하여 추정하기도 한다. 신경망을 활용한다는 것은 적은 차원으로 데이터를 학습하는 VAE(Variational AutoEncoder)보다 다양한 분포에 적용할 수 있다는 것을 의미한다. 이는 보편적 근사 정리(Universal Approximation Theorem)를 바탕으로, 이론적으로 모든 함수를 신경망을 통해 추정할 수 있다는 점에서 뒷받침된다.
Reparameterization에 대해 부연하자면, 이는 기존의 확률 분포를 추론하는 과정에서 다른 분포로 대체하여 학습 가능한 파라미터로 표현하는 것이다. 이를 통해 역전파 계산이 가능해지고, 기울기를 효과적으로 계산할 수 있게 된다. 이 기법은 VAE에서 잠재 변수의 샘플링 과정에서 주로 사용된다.
앞서 언급했듯, NVI뿐만 아니라 VI에서도 reparameterization trick이 사용된다. 그러나 NVI만의 장점은 신경망을 통해 다양한 분포를 추정할 수 있다는 점이다. 기존의 디리클레 분포(Dirichlet Distribution) 기반 VI는 하나의 정보만을 활용할 수 있는 반면, NVI는 로지스틱 정규 분포(Logistic Normal Distribution)를 활용해 평균과 공분산이라는 두 개의 정보를 활용할 수 있다. 나아가 NVI는 토픽 간의 구조를 추정하던 GTRF처럼, 토픽 간 관계에 대한 정보를 추론하는 과정을 모델에 반영한다.
지금까지 ‘화려한’ 모델들을 사용해 계산 효율성(Computational Efficiency)을 최대화하면서도, 어휘 간 맥락을 반영할 수 있는 토픽 모델링을 설계했다. 그 다음으로 연구를 진행하면서 내가 가장 많이 고민했던 부분은 ‘이를 통해 어떻게 의사 결정을 내릴 수 있을까’라는 점이었다.
보편 근사 정리(Universal Approximation Theorem, 신경망 모델에서 하나의 레이어만으로도 여러 개의 노드를 추가하면 어떤 함수든 정확히 근사할 수 있다는 수학적 정리)에 따르면, 딥러닝은 계산 비용(Computational Efficiency)을 충분히 지불한다면 어떤 함수든 정확히 추정할 수 있다. 물론 이 과정에서 과적합(overfitting)에 대한 위험을 충분히 고려해야 한다. 하지만 내가 수요자들에게 제공하고자 했던 것은, 실질적으로 본 모델을 활용하는 사람들이 그 결과를 보고 정량적인 의사 결정을 내릴 수 있게 하는 것이었다.
이와 관련해 가장 먼저 의사 결정을 내려야 할 부분은 바로 ‘GNTM’이라는 모델을 통해 ‘토픽을 몇 개까지 뽑아내야 하는가’라는 점이다. 이는 PCA(Principal Component Analysis, 주성분 분석)에서 ‘변수를 몇 개까지 추출해야 하는가’와 같은 선상의 질문이라고 할 수 있다.
계산 효율 관점에서의 토픽 수 결정
먼저 계산 효율(Computational Efficiency) 관점에서, 그리고 계산 비용을 최소화하는 차원에서 토픽의 개수를 결정해보자. 나 역시 학교에서 이론으로 공부할 때는 왜 계산 효율을 따져야 하는지 공감하지 못했다. 그때 다뤘던 모델들은 몇 분이면 계산이 끝나는 ‘가벼운’ 모델들이었기 때문이다.
하지만 본 논문은 약 450만 개에서 500만 개의 어휘로 구성된 방대한 양의 텍스트를 다루며, 모델이 본격적으로 ‘무거워’지기 시작한다. 물론 앞서 계산 비용을 줄이고 정확도를 높이기 위해 LDA와 그래프 구조, NVI 등 다양한 방법론을 결합해 모델을 설계했지만, 그럼에도 불구하고 토픽의 개수를 적정한 선에서 제한하지 않으면 계산 비용은 천문학적으로 증가하게 된다.
이 문제를 해결하기 위해 먼저 토픽 수가 10개일 때와 20개일 때의 계산 효율성(Computational Efficiency)을 비교해 보았다. 이때, 같은 토픽에 의미론적으로 유사한 단어들이 분류되어 토픽 내용의 일관성을 평가하는 TC(주제 일관성, Topic Coherence)와, 토픽 간 내용이 얼마나 다양하게 분포되는지를 평가하는 TD(주제 다양도, Topic Diversity) 지표를 사용했다.
측정 결과, 토픽이 20개일 때보다 10개일 때 계산 속도가 약 1시간 정도 향상되었고(Epoch=100 기준), TD와 TC 역시 크게 하락하지 않는 것을 확인할 수 있었다. 개인적으로는 Epoch를 500까지 올려 더 정확한 검증을 해야 한다고 생각하지만, 본 논문의 실험이 GPU가 아닌 CPU로 진행된 만큼, Epoch 횟수를 늘리면 시간이 지나치게 소요되어 현실적인 검증이 어려웠다.
이와 관련해 Epoch 수치를 더 높여야 하지 않느냐는 지적이 있을 수 있지만, 본 모델이 적응적 모멘트 추정(Adaptive Moment Estimation, Adam)을 활성화 함수(activation function)로 사용하고 있어 Epoch 수치가 낮더라도 최적 범위(optimal range)에 빠르게 수렴한 후 크게 변동이 없을 것으로 예상된다.
클러스터링 관점에서의 토픽 수 결정
위 논의를 통해, 계산 효율성 관점에서 최적의 토픽 수는 10개임을 확인했다. 이를 기반으로 이번에는 몇 개의 토픽일 때 ‘셀러-바이어 매칭’이 최적으로 이루어지는지, 즉 몇 개의 산업으로 구분했을 때 해외 바이어가 적절한 관심사의 국내 셀러를 찾을 수 있는지 클러스터링 관점에서 살펴보겠다. 이때 텍스트를 분류하는 토픽이 무의미하게 많아지면, 오히려 TC(주제 일관성)가 감소하여 유의미한 정보를 추출하는 데 도움이 되지 않는다. 이는 선형 회귀(linear regression)에서 무의미한 변수를 추가하는 대신, 조정된 결정계수($R^2_{adj}$)를 사용하는 것과 같은 맥락이다. 또한 PCA에서 분산 설명력이 급격히 증가하지 않는 구간 이후에는 변수 선택에 주의하는 것과도 궤를 같이한다.
차원의 수가 커지면 유클리드 공간(Euclidean Space)에서는 차원의 저주(High Dimensional Curse)가 발생한다. 따라서 중복되는 변수의 수를 최소화하기 위해, 클러스터링 지표로는 코사인 유사도(cosine similarity)와 상관관계(correlation)를 기반으로 실루엣 인덱스(Silhouette Index), 칼린스키-하라바즈 인덱스(Calinski-Harabasz Index), 데이비스-볼딘 인덱스(Davies-Bouldin Index)를 사용했다.
해당 클러스터링 결과, 위 그림에서 볼 수 있듯 9개의 토픽에서 최적의 군집을 이루는 것을 확인할 수 있었다. 이 과정에서는 작은 단위로부터 클러스터링을 시작해 최종적으로 모든 데이터를 묶는 응집 계층 분석(Agglomerative Hierarchical Clustering)이 사용되었음을 밝힌다.
이 방법론의 핵심은 ‘해석 가능성(Interpretability)’에 있다. 즉, 각 클러스터에 속하는 국가가 어떤 계산 과정을 통해 매칭되었는지 덴드로그램(dendrogram)을 통해 쉽게 확인할 수 있다는 점이다. 이를 바꿔 말하면, 각 매칭 정도를 코사인 유사도를 통해 계산할 수 있고, 어떤 토픽에서 매칭이 되었는지, 그리고 그 토픽이 무엇인지 워드 네트워크로 제시할 수 있어 해석이 용이하다는 것이다.
본 연구의 강점
본 모델의 큰 장점은 코트라(KOTRA)의 토픽 서비스와 직접적으로 연계될 수 있다는 점이다. 즉, 본 모델은 기존 코트라의 수출·수입 데이터에서 뽑아낸 토픽을 그대로 활용할 수 있다. 이를 통해 코트라가 보유한 전 세계 문서 데이터를 기반으로 ‘AI 기반 바이어 매칭 서비스’의 강점을 극대화할 수 있을 것으로 기대된다. 나아가, 모델의 구조, 계산 과정, 그리고 결과까지 쉽게 해석할 수 있어 의사 결정뿐만 아니라 사후 해석 및 계산 추적 과정에도 큰 도움이 될 것으로 분석된다.
아울러 영어가 아닌 문서에도 본 모델이 적용될 수 있다는 장점이 있다. 이 경우 영어에 비해 일정 수준의 정보 손실이 있을 수 있지만, 앞서 언급했듯이 GloVe를 통해 언어와 상관없이 비슷한 단어는 유사한 벡터로 표현되며, 맥락적 관계 또한 반영되기 때문에 타 언어에 이 방법론을 적용하는 데 큰 문제가 없을 것으로 보인다.
마지막으로, 본 모델은 UMAP(Uniform Manifold Approximation and Projection) 클러스터링을 통해 기존의 선형 관계(linear relationship) 파악을 넘어 데이터 안에 숨겨진 비선형 관계(non-linear relationship)도 파악할 수 있다. 따라서 추후에는 계층적 클러스터링을 넘어 일반적인 클러스터링(general clustering)과 추천 알고리즘(recommendation algorithm) 적용에도 기대를 걸어볼 수 있겠다.
요약
본 논문을 한 문장으로 요약하자면, NLP(Natural Language Processing, 자연어 처리) 분야에서 토픽의 비율을 나타내는 $\theta$를 찾아내기 위해 비선형 요인 분석(Non-linear Factor Analysis)을 수행한 연구라고 볼 수 있다(실제로도 토픽들 간의 공분산이 존재한다).
이를 다시 말하면, 일반적으로 요인 분석(Factor Analysis, FA)은 수치형 데이터에서 사용되는데, 본 연구는 이를 NLP 분야에 적용하기 위해 비선형 요인 분석을 활용하여 단어와 각 토픽의 구조, 토픽들의 비율, 그리고 토픽 비율이 따르는 사전 분포(prior distribution)를 추출하고, 이를 기반으로 각 집단의 정보를 수치화한 것이다.
주성분 분석(Principal Component Analysis, PCA) 및 FA 관련 연구에서 가장 큰 난관은, 뽑아낸 요인(Factor)을 해석하고 정의하기 어렵다는 점이다. 그러나 본 논문의 모델인 ‘GNTM’은 각 요인에 해당하는 ‘토픽’에 워드 네트워크(word-network)를 제시함으로써, 기존 PCA・FA의 ‘요인을 정의하기 어렵다’는 한계를 극복할 수 있었다. 이제 각 토픽(factor)마다 중요한 단어들을 확인하고, 그 토픽이 무엇인지 해석할 수 있게 된 것이다. 예를 들어, 토픽 1에서 ‘bank’, ‘financial’, ‘business’, ‘market’, ‘economic’과 같은 단어들이 워드 네트워크 상에서 가장 높은 비중을 차지한다면, 이를 통해 토픽 1을 ‘투자(Investment)’로 정의할 수 있게 된다.
또한 본 논문은 TC(Topic Coherence), TD(Topic Diversity) 관점에서 토픽의 개수를 조절하며, 이를 바이어-셀러 매칭의 목적에 부합하도록 최적화했다. 최적화된 토픽 수에 따른 결과는 UMAP과 워드 네트워크를 통해 시각화하여 재확인되었다.
마지막으로, 차원의 저주(high dimension curse) 문제를 해결하기 위해 코사인 유사도(cosine similarity)와 상관관계(correlation)를 기반으로 한 지표들을 활용하여 토픽들을 군집화(clustering)했다.
데이터의 노이즈 이슈는 어떻게?
한편, 텍스트 데이터는 특수 문자, 구두점, 공백, 불필요한 태그 등 실질 데이터와 무관한 ‘노이즈’가 포함될 가능성이 매우 크다. 본 모델은 중요한 토큰(token)만을 추출하는 NVI를 사용하고, 에포치(epoch) 수를 크게 늘려 이러한 노이즈 문제를 최소화할 수 있다.
그러나 에포치 수를 늘릴수록 계산 비용(Computational Cost)은 기하급수적으로 증가하므로, 한정된 시간 안에서 분석을 진행해야 하는 실제 현장에서는 노이즈를 빠르고 효율적으로 줄일 수 있는 추가적인 방법을 고민할 필요가 있을 것으로 판단된다.
적용 가능성
GNTM이 다른 NLP 방법론과 구별되는 가장 큰 매력은 ‘해석 가능성(Interpretability)’이다. 기존의 딥러닝은 ‘블랙박스’로 불리며 계산 과정을 인간이 이해하기 어렵다는 단점이 있었으나, 본 모델은 그래프 기반의 계산을 통해 토픽을 결정짓는 요인을 직관적으로 이해할 수 있게 했다.
또한, GNTM은 적용하기 쉬운 장점도 있다. GNTM의 근간이 되는 그래프 신경망 모델(Graph Neural Network Model)은 패키지 형식으로 일반에 공개되어 있어, 이를 서비스 형식으로 정리해 잠재 수요자들이 쉽게 활용할 수 있는 서비스를 제공할 수 있다.
더불어, 본 연구는 영어 텍스트 데이터를 보유한 회사들이 이를 수치화하고 응용하고자 할 때 적용할 수 있는 ‘경량화’된 모델로 구성되었으므로, 회사의 목적과 상황에 맞게 유연하게 활용될 수 있을 것으로 기대된다.
또한, UMAP(Uniform Manifold Approximation and Projection)을 통해 데이터 내에 비선형 관계가 존재함을 시각적으로 확인했으며, 이에 따라 LightGCN과 같은 추가적인 비선형적 계산 방법을 적용할 여지도 있다.
아울러, 본 논문은 각 문서에 대해 토픽들의 세부 비율을 배정했으므로, 이러한 토픽 비율을 어떻게 활용할지에 대한 추가적인 연구 가치가 존재한다.
추후 리서치 방향
적은 비용으로 AI로부터 높은 수준의 결과물을 얻어내는 프롬프트 엔지니어링과 마찬가지로, 본 논문의 추후 연구 방향은 ‘최대한 노이즈를 배제하면서 정확하고 빠르게 모델을 학습할 수 있는 방법’이 될 것이다. 즉, 노이즈로 인해 모델이 과적합(overfitting)되지 않도록 정규화(regularization)를 적절히 적용하는 동시에, 계산 효율을 지금보다 더 높이는 것이 본 논문이 나아가야 할 방향이다.