[논문이야기] NGCF의 소개 ①

노이즈 적고 다양한 정보 획득하기 쉬운 '뉴스 기사 데이터'
'잠재 요인' 뽑아내는 요인 분석이 추천 알고리즘의 핵심
그래프 신경망 기반 추천 알고리즘, 'NGCF' 살펴보자
pexels goumbik 577210
사진=Pexels

SIAI MBA 과정이 막바지에 접어들고 논문을 써야 하는 시점이 다가오면서, ‘대학원에서 배운 내용 중 논문에 적용할 수 있는 주제는 어떤 것이 있을까?’ 를 고민하게 됐습니다. 그 와중 Data Management 수업에서 Term paper 주제로 다뤘던 주제인 ‘뉴스 기사 데이터 기반 언어모델’이 머릿속에 불현듯 떠올랐습니다. 그리고 이 생각은 ‘뉴스 기사에 대한 주요 요인(Factor)은 어떤 것이 있을까’로 자연스럽게 이어지게 됐습니다.

뉴스 데이터의 무궁무진한 활용 가능성

뉴스 기사는 사람들이 이해하기 쉬운 대중적인 언어로 구성돼 있으며, 많은 사람에게 노출돼 있기 때문에 데이터를 수집하기 쉽습니다. 또한 뉴스 기사의 댓글에는 관련 기사에 긍정적인 시각을 가진 사람이 있는 한편, 비판적인 의견을 가진 사람도 있는 등 이질적이고 다양한 데이터가 존재합니다. 따라서 이를 통해 대중에 대한 ‘감성분석’이나 ‘추천 알고리즘’과 같은 주제를 생각해 볼 수 있겠다는 생각도 들었습니다.

관련 조사를 추가로 진행하면서 ‘뉴스 기사 분석’이 다양한 아이디어를 낼 수 있는 좋은 주제라는 것을 확신하게 됐고, 뉴스 기사 데이터베이스(Data Base)를 인풋으로 할 수 있는 언어 모델을 찾아보기 시작했습니다.

요인 분석, 신경망, 그래프 구조, 그리고 ‘추천 알고리즘’

위와 같은 호기심을 가지고 SIAI에서 같이 공부하는 동료 학생분들과 논문 스터디를 하던 중, ‘뉴스 기사에 대한 요인 분석(Factor Analysis)을 통해 데이터 안에 숨겨진 잠재 요인(Latent Factor)을 분석하고, 이를 통해 도출된 인사이트를 기반으로 사람들에게 알맞은 콘텐츠를 연계해주는 추천 알고리즘을 만들어보면 어떨까?’라는 이야기가 우연히 나오게 됐습니다. 이후 제 생각을 구체화하기 위해 관련된 논문을 열심히 찾아보게 됐고, 이는 ‘페이스북이나 인스타그램 등의 SNS는 어떤 추천 알고리즘을 적용하고 있을까?’라는 호기심으로 발전하게 됐습니다.

이에 대한 답을 찾다가 사람들 간 관계, 질병 전파, 그리고 분자 구조식처럼 데이터의 연결 구조를 도식화하는 분야인 ‘그래프 데이터 구조(Graph Data Structure)’를 알게 됐고, 나아가 이를 신경망(Neural Network)과 결합해 유저와 아이템의 메시지 임베딩(Message Embedding)으로 활용될 수 있다는 것을 깨닫게 됐습니다. 이에 NGCF(Neural Graph Collaborative Filtering) 모델을 접하게 됐고, 공부한 것을 스스로 정리해 본다는 차원에서 [논문이야기]에 컬럼을 기고하게 됐습니다.

논문이야기 방향

글은 다음과 같은 순서로 정리 예정입니다. 먼저 추천 알고리즘의 계층적 관계에 대해 살펴봅니다. 추천 알고리즘은 ‘콘텐츠 기반 필터링(Contents-based Filtering)’, ‘협업 필터링(Collaborative Filtering)’으로 나뉩니다. 그리고 협업 필터링은 ‘유저-아이템 관계’를 정의하는 방식에 따라 다시 ‘이웃 방식(neighborhood method)’, ‘잠재 요인 방식(Latent Factor Model)’으로 나뉩니다. 이 때 협업 필터링의 잠재 요인을 비선형적(non-linear)로 표현하면 ‘신경망 협업 필터링(Neural Collaborative Filtering, NCF)’이 됩니다.

다음으로 그래프 관계형 데이터에 대해 소개합니다. 이는 ‘신경망 그래프 협업 필터링(Neural Graph Collaborative Filtering, NGCF)’을 이해하기 위해서는 필수적인 지식으로, 연구자는 그래프 관계형 데이터 표현을 통해 기존 수치형 데이터에서 발견할 수 없었던 새로운 ‘관계’를 찾아낼 수 있게 됩니다.

마지막으로 본 논문의 핵심 주제인 NGCF에 대해 살펴봅니다. NGCF는 기존 NCF에 그래프 관계형 데이터 표현을 추가한 모델로, 이를 통해 연구자는 추천 시스템에 유저-아이템 간 관계를 보다 심층적으로 반영할 수 있게 됩니다.

[논문이야기] NGCF의 소개 – ②로 이어집니다