[논문이야기] 측정오차 하 광고 시계열 모델링 연구 ③

측정오차, 과연 모델에 악영향 없는걸까
'해석적' 관점에서 살펴본 측정오차, '내생성' 문제로 변수 기여도 해석 방해해
도구변수 및 2SLS 활용으로 내생성 문제 확인

[논문이야기] 측정오차 하 광고 시계열 모델링 연구 ②에서 이어집니다.

이전 글 말미에, 예측적(Predictive) 관점에서 적절한 측정오차가 정규화(Regularization) 관점에서 도움을 줄 수 있다고 설명했죠. 또한 모두 다루지는 않았지만, 측정오차가 모형 잔차의 자기상관성(autocorrelation), 평균-분산 관계에(mean-variance trade-off) 유의미한 영향을 주지 않음도 확인할 수 있었습니다. 즉 이렇게만 보면 측정오차는 중요하지 않은 사소한 문제로 보입니다. 사실일까요?

이번 글에서는 ‘해석적(Analytic)’ 관점에서 측정오차가 광고 성과 예측에 어떤 영향을 주는지 살펴보겠습니다.

‘해석적’ 관점에서 측정오차가 모델에 미치는 영향

첫 글에서 ‘광고 자동화 운영’ 얘기를 잠깐 했었죠. 고객이 가지고 있는 광고비는 무한하지 않기에 제한된 예산으로 최대의 성과를 내기 위해서는 매체, 광고에 각각 얼마만큼 예산을 배분해야 하는지에 대한 최적화 문제를 푸는 것이 광고 자동화 운영 사업의 당락을 결정한다는 것입니다.

국내 모바일 광고 생태계 지도/출처=모비데이즈

위 그림처럼 매체 및 매체와 유사한 역할을 하는 파트너는 셀 수 없이 많습니다. 일반적으로 하나의 매체, 하나의 광고만 접하고 상품을 구매하는 경우는 드물죠. 가령 바지를 구매한다고 해봅시다. 인스타그램에서 바지의 특정 브랜드의 정보를 얻은 뒤 네이버, 구글에서 해당 브랜드를 검색해 쇼핑몰에 들어가겠죠. 이 때 바지를 구매하는 데 있어 인스타그램, 네이버, 구글이 모두 기여했다는 것은 당연할 것입니다.

그러면 각각 얼마나 기여했을까요? 이를 정량적으로 계산해내기 위해 광고 업계에서는 다양한 방법론을 활용하고 있습니다. 이중 대표적인 기법으로는 마케팅 미디어믹스 모델링(Marketing Media Mix Modeling)이 있습니다.

위에서 언급했듯 많은 모델이 광고 업계에서 활용되고 있지만 결국 회귀(Regression) 문제에서 계수들의 영향력을 보고 성과를 배분한다는 아이디어는 동일합니다. 그런데 이 때 종종 ‘내생성(Endogeneity)’ 문제로 회귀 계수를 제대로 계산해 내지 못하는 문제가 발생합니다. 내생성이란 선형 모형에서 설명변수와 오차항의 상관이 0이 아닌 경우를 의미하는데, 이에 따라 추정된 회귀 계수에 대해 제대로 신뢰하지 못하게 되는 것이죠. 계수의 크기를 정확하게 측정해야 각 매체의 기여도도 정확하게 알 수 있고, 이를 기반으로 성과 최적화 알고리즘을 제대로 구성할 수 있다는 점에서 내생성 문제를 해결하는 것은 중요합니다.

내생성 해결의 실마리, ‘2SLS’

계량경제학(Econometrics)에서는 내생성 문제를 해결하는 방법으로 ‘2SLS(2-Stage Least Squares)’를 제안합니다. 2SLS란 내생변수와 상관관계가 높으면서도, 모형의 잔차와는 상관관계가 없는 도구변수(Instrumental Variable)을 이용해 내생성을 해결하는 방법론입니다.

벤 다이어그램으로 표현한 도구변수

위 그림의 예시를 봅시다. 원래 종속변수 Y를 설명하기 위해 독립변수 X를 사용했으나, X의 빨강 부분에 내생성이 존재해 추정에 부정적인 영향을 미치고 있는 상황입니다. 이때 Y에서 X의 영향을 제거한 잔차(Y – X)와는 상관관계가 없으면서(유효성; Validity), 원 변수 X와는 상관관계가 있는(연관성; Relevance) 적절한 도구변수 Z를 이용해, Z와 X가 동시에 가지고 있는 (노랑+보라) 교집합 영역으로만 Regression을 해 Y를 설명하면 X의 내생성 문제를 해결할 수 있습니다. 즉 모형 적합도를 일부 포기하는 대신, 문제가 있는 영역(빨강)을 도려내자는 것이 도구변수의 핵심 아이디어입니다.

다시 본론으로 돌아와서, 우리 모형에서는 변수에 측정오차 문제가 있음과 동시에, ‘광고비’와 시차(Lag) 변수만 설명 변수로 사용했기 때문에 ‘중요 변수가 누락(omitted variable bias)’되면서 내생성 문제가 발생할 가능성이 있습니다. 본 논문의 취지는 측정오차가 광고 성과에 미치는 영향을 파악하는 것이므로, 적절한 도구변수를 활용한 2SLS(2 Stage Least Square) 검정을 통해, 해석적 측면에서 실제 우리 모형의 측정오차가 내생성 문제를 일으키는지 확인해 보겠습니다.

내생성 검정을 위해 찾은 광고비의 도구변수, ‘노출 수’

앞서 살펴봤듯 도구변수는 내생성을 해결하는 이른바 ‘데우스 엑스 마키나(Deus Ex Machina)’의 역할을 할 수 있습니다. 하지만 사용하는 도구변수가 ‘적절한지’를 검증하는 것은 생각보다 쉽지 않습니다. 무결하다고는 할 수 없지만, 본 모델에서는 광고 업계 도메인에 따라 최대한 적절해 보이는 도구변수를 ‘노출수’로 선정했습니다.

우선 노출 수가 ‘적절성’을 만족하는지 살펴봅시다. 배너, 동영상 등을 유저에게 보여주는 디스플레이 광고(DA)에서는 노출 당 과금(CPM) 방식을 채택하고 있습니다. 유저에게 광고만 노출시켜도 광고비를 청구하는 방식인데, 당연히 원 변수인 광고비와 노출수 간 상관관계가 매우 높겠죠. 실제로 간단하게 상관분석을 해도 0.9 이상의 상관계수가 도출됩니다. 즉 노출수와 광고비가 서로 상당히 비슷한 설명력을 가지므로, 적절성을 만족하고 있다는 것입니다.

한편 도구변수에서 가장 입증하기 어려운 것이 바로 유효성(Validity)인데요, 유효성이란 도구변수가 종속변수(광고 성과)에서 광고비의 영향을 제거한 잔차와 상관관계가 없어야 한다는 것입니다. 우리 모델에서 잔차에는 어떤 요인이 들어가 있을까요? 도메인적으로 생각해 볼 수 있는 것은 프로모션 여부, 브랜드 인지도 정도가 있을 것입니다. 내가 제품이나 업체에 관심이 있어서 능동적으로 탐색하는 검색광고(SA)와 다르게, 디스플레이 광고에서는 광고비만 내면 매체사들이 유저에게 광고를 ‘강제로’ 노출합니다. 따라서 유저가 강제로 광고에 노출되는 것(노출수)과, 브랜드 인지도 및 프로모션 여부 등 잔차가 가지고 있는 요인과는 상관관계가 없다고 할 수 있습니다.

그래도 유효성이 충족되는지 불안하다면 도구변수와 잔차 간 상관계수 검정을 하면 됩니다. 아래 테이블 결과를 보면, 상관관계가 없다는 귀무가설을 유의수준 = 0.05 하에서 기각하지 못하는 것을 확인할 수 있습니다.

상관계수 검정표

물론 도구변수인 노출수도 측정오차를 가지고 있습니다. 그러나 도구변수의 측정오차는 원 변수와의 상관계수를 일부 낮추지만, 유효성에는 영향을 주지 않음이 일반적으로 알려져 있습니다.

내생성 파악을 위한 2SLS 검정방법:Durbin-Wu-Hausman Test

위 과정을 통해 찾아낸 도구변수인 ‘노출수’를 기반으로, 이제 측정오차가 계수의 내생성에 영향을 주는지 확인해 봅시다. Durbin-Wu-Hausman 검정을 수행했을 때, 일부 구간에서 내생성이 없다는 귀무가설을 기각하고 있음을 확인할 수 있습니다. 즉 측정오차의 계수가 내생성에 영향을 준다는 것이죠.

Durbin-Wu-Hausman 검정

해당 검정을 통해 새로 획득한 데이터의 패턴이 어떻게 되냐 따라, 자칫 견고해 보였던 모형도 달라질 수 있으니, 측정오차 문제를 감안해 모델링하는 것이 안전하다는 결론을 도출할 수 있습니다.

[논문이야기] 측정오차 하 광고 시계열 모델링 연구 ④에서 이어집니다.