SIAI Yearbook – 2023

Jeongwoo Park (MSc, 2023)

Estimated reading: 2 minutes 125 views
160X600_GIAI_AIDSNote

Ⅰ. 측정오차 문제를 겪고 있는 광고 시장

디지털 광고는 매년 폭발적으로 성장하고 있습니다. 특히 글로벌 팬데믹으로 오프라인 시장이 크게 위축되던 시기에 소비의 중심축이 온라인으로 옮겨가면서 디지털 광고는 전 세계 광고 시장의 주류로 자리 잡게 되었습니다.

디지털 광고의 핵심은 단연 스마트폰입니다. 스마트폰으로 언제 어디서나 웹에 접속할 수 있게 되면서 웹 기반 매체들이 광고 시장에 등장하게 됐습니다. 사용자 편의성을 기반으로 양질의 서비스를 제공받고, 이에 따라 디지털 광고 시장 또한 새로운 성장 국면을 맞게 된 거죠.

그러나 현재 디지털 광고 업계에서는 ‘측정오차(Measurement Error)’라는 문제로 시름이 끊이지 않습니다. 즉 측정오차로 광고 성과 측정 및 예측에 큰 차질을 겪고 있습니다.

가파르게 성장하는 디지털 광고 시장

디지털 광고와 전통적인 광고의 차별점은 추적할 수 있다는 것입니다. 전통적인 광고 업체의 경우 “하루 00만 명이 보는 매체에 광고해서 내 브랜드를 알렸다” 정도의 광고 성과만 가늠할 수 있었습니다. 따라서 광고 업체 입장에서 광고 성과를 분석하더라도 각종 노이즈(Noise)로 인해 광고에 따른 성과를 정확하게 평가하기 어렵다는 불만이 많았습니다.

그런데 웹의 등장으로 광고는 새로운 국면을 맞게 된 거죠. 사이트에 접속할 때 사용자가 가지고 있는 정보를 쿠키(Cookie)에 저장해 사용자가 어떤 광고를 보고 들어왔는지, 어떤 상품을 보고 구매했는지 즉각적으로 추적 가능해진 거죠. 이에 따라 기업도 광고가 사용자에게 얼마나 효과적이었는지 쉽게 확인할 수 있게 됐습니다. 또 여러 개의 광고를 비교하고, 다음 광고는 어떻게 기획해야 할지 방향성을 쉽게 잡을 수 있게 됐습니다.

이런 패러다임을 가속화한게 바로 스마트폰의 등장입니다. 여러 명이 하나의 PC 또는 태블릿을 사용했던 과거와는 다르게, 이제는 ‘1인 1스마트폰’ 시대가 도래하면서 특정 기기의 행동 패턴을 특정 유저의 패턴으로 간주할 수 있게 됐습니다. 실제 2022년 한국갤럽 조사에 따르면 한국 성인 스마트폰 보급률은 97%로, 최근 몇 년 사이에 많은 업체가 초개인화 맞춤 타깃팅 서비스를 대중들에게 선보이며 디지털 광고 시장의 ‘전환점’을 알렸습니다.

디지털 광고 성과 분석 걸림돌: 측정오차

그러나 모든 것에는 명암이 있죠. 디지털 광고 또한 완벽한 것은 아닙니다. 업계 관계자들은 디지털 광고 효과가 사용자 피로도, 개인정보 등 여러 요인에 의해 저해되고 있다고 말합니다. 실제 광고 업계에 몸 담고 있는 제 입장에서는 그중에서도 ‘측정오차’라는 이슈가 가장 눈에 크게 들어옵니다.

측정오차란 특정 원인으로 인해 데이터가 왜곡되어 참값과 다른 결과가 나타나는 문제를 말합니다. 업계에서 흔히 접할 수 있는 문제는 한 사용자가 짧은 시간 안에 여러 번 광고에 노출되는 등 유의하지 않은 반응을 보이거나, 악의적으로 금전적 이익을 얻고자 허위로 광고 반응을 만들어 내는 광고 사기(Fraud) 등이 있습니다. 또한 기술적 원인으로는 서버 불안정으로 특정 사용자 데이터가 중복 집계 또는 누락되거나, 뒤늦게 데이터가 들어오는 경우를 꼽을 수 있습니다. 즉 여러 이유로 데이터가 ‘오염’돼서 광고 업체 입장에서는 제대로 된 광고 성과를 보지 못하게 된 거죠.

물론 광고를 송출하는 매체사에서도 가만히 있지는 않습니다. 매체사들은 광고 보고서를 지속적으로 갱신하면서 잘못된 광고비, 노출, 클릭 등의 광고 성과를 수정하는 작업을 거칩니다. 또한 이 과정에서 광고주는 통상 최대 1주일까지 보고서 내 광고 성과가 달라지는 일을 겪게 됩니다.

문제는 저처럼 광고 성과를 제대로 측정하는 것이 중요한 ‘수요자’ 입장에서는 앞서 살펴본 측정오차로 인해 광고 성과 분석에 내생성(Endogeneity) 문제가 발생하고, 이에 따라 분석의 신뢰도가 현저히 낮아지게 된다는 것입니다. 쉽게 말해 측정오차로 보고서를 계속 고치니까 광고 성과를 정확하게 분석하기 어렵게 된다는 거죠.

성과 측정이 중요하지 않고, 미랫값을 예측하는 것이 중요한 광고 업계에서도 측정오차 문제는 여전히 중요한 이슈입니다. 측정오차로 잔차의 분산이 커지면서 모형의 적합도(Goodness of Fit)가 떨어지기 때문입니다. 또한 디지털 광고 데이터와 같이 측정오차의 크기가 업데이트 횟수에 따라 매일 달라지는 경우 선형성(Linearity)을 담보하지 않는 비선형모형에서는 외삽법(Extrapolation)이 낮은 모델 예측 성능을 보여줄 가능성이 높습니다.

안타깝게도 디지털 광고 특징인 즉시성(Immediacy)으로 인해 광고 수요자는 데이터가 제대로 업데이트되는 1주일까지 마냥 기다릴 수 없습니다. 심지어 광고주는 의뢰한 광고의 성과가 낮다고 판단되면 즉시 노출 비중을 줄이거나, 광고를 아예 중단하기도 합니다. 또한 프로모션과 같이 짧은 기간만 송출되는 광고는 일주일까지 기다릴 수 없어 초기에 잘못된 판단을 하게 될 가능성도 커집니다.

자칭 ‘인공지능(AI)’을 이용해 자동으로 광고를 운영할 수 있다는 업체도 사정은 별반 다르지 않습니다. 광고 자동화는 한정된 광고비로 특정 기간에 전체 광고 성과를 최대화하는 일종의 강화학습(Reinforcement Learning) 문제를 푸는 것과 같습니다. 데이터에 측정오차가 생기면 초기 예산 배분에 차질을 겪게 돼 결국 최적화에 실패할 가능성이 있습니다.

연구 목적: 측정오차의 영향 분석 및 합리적인 예측 모델 제안

지금까지 이야기한 내용을 바탕으로 “디지털 광고에서 측정오차 문제가 중요할 수 있겠다”라고 생각했다면 성공입니다. 그런데 안타깝게도 광고 업계에서는 측정오차에 대한 고려가 제대로 이루어지지 않고 있습니다. 측정오차가 눈에 보이지 않는다는 이유에서 말입니다.

해당 부분에 주목해, 본 글에서는 다음 두 가지를 고려했습니다. 첫 번째로 측정오차가 광고 데이터에 미치는 영향을 측정오차의 크기와 데이터 크기에 따라 분석했습니다. 다음으로는 데이터 특성을 반영한 합리적인 예측 모델을 제안했습니다.

Ⅱ. 예측적 관점에서 본 측정오차

이번 챕터부터는 측정오차가 실제 광고 성과에 어떤 영향을 미치는지 살펴보겠습니다.

측정오차: 계통오차와 랜덤오차

측정오차에 관한 얘기를 조금 더 해볼까요? 측정오차는 계통오차(Systematic Error)와 랜덤오차(Random Error)로 구분됩니다. 계통오차는 일종의 방향성을 가집니다. 이를테면 실제 값(참값)보다 대개 큰 값으로 측정된다는 것이죠. 이를 오차가 드리프트(drift)를 가진다고도 표현합니다. 다음으로 랜덤오차는 말 그대로 참값을 기준으로 무작위로 측정값이 결정되는 것을 말합니다.

그렇다면 측정값은 어떤 분포(distributed)를 띨까요? 가령 드리프트의 크기를 $\alpha$, 참값을 $\mu$라고 하면 측정값이자 확률변수 X는 통계적으로 $N(\mu + \alpha, \sigma^{2})$를 따를 것이라고 볼 수 있습니다. 즉 측정값은 참값을 기준으로 $\alpha$만큼 커지면서도(계통오차) $\sigma^2$만큼의 변동성(랜덤오차)을 가진다는 거죠.

계통오차는 데이터 전처리와 스케일링으로 해결할 수 있어 분석가 입장에서 큰 문제는 아닙니다. 즉 측정값에서 $\alpha$만큼의 방향성만 제거해 주면 됩니다. 한편 위에서 변동성으로 정의된 랜덤오차는 측정오차의 크기를 크게 좌우하면서 문제를 발생시킵니다. 이를 해결하기 위해서는 분석가 입장에서 좀 더 통계학적으로 세련된 대처가 필요합니다.

랜덤오차가 있을 때 어떤 문제가 발생하는지 자세히 알아봅시다. 회귀 모형에서 독립변수에 측정오차가 포함될 경우, 추정된 회귀계수의 절댓값이 0 근처로 줄어드는 이른바 ‘Regression Dilution’이 발생합니다. 이해를 돕기 위해 측정오차가 가득한 독립변수를 회귀식에 포함했다고 생각해 봅시다. 이때 해당 독립변수는 랜덤 요소에 의해 무작위로 변동하므로 회귀계수의 효과는 당연히 없다고(0) 나올 것입니다. 이는 기본적인 선형 회귀 모형뿐만 아니라, 모든 선형/비선형모형에 공통적으로 발생하는 문제입니다.

디지털 광고 데이터 환경

지금까지 측정오차에 대해 알아봤습니다. 이제는 모델링 작업을 위해 디지털 광고 데이터가 들어오는 환경을 살펴보겠습니다. 챕터 1에서 매체사도 측정오차에 대응하고자 노출, 클릭, 광고비 등의 성과 데이터를 지속적으로 갱신한다고 말했죠. 1주일까지 데이터가 업데이트된다고 했을 때, 데이터를 처음 받아봤을 때는 업데이트가 아직 안 되었으니, 측정오차가 상당히 많이 포함됐을 것으로 짐작할 수 있습니다. 그러다 하루가 지나면 데이터가 업데이트됐으니 꽤 정확해졌을 것이고, 다음 날에는 더더욱 정확해졌을 것입니다. 이러한 과정을 거치면서 특정 일자의 데이터가 가지는 측정오차는 지수적(Exponentially)으로 감소하는 경향이 있습니다.

이처럼 업데이트 시점마다 측정오차의 크기가 달라지므로 모형 적합도 외에도 잔차의 이분산성(Heteroskedasticity) 문제가 발생할 수 있습니다. 이분산성 문제가 발생하면 해석적(Analytic) 관점에서는 추정량이 비효율성을 띠게 됩니다. 또한 예측(Predictive)적 관점에서는 기존 데이터를 통해 새로운 값을 예측하는 외삽법(Extrapolation)이 저조한 성능을 낸다는 문제점이 있습니다.

추가로 광고비가 커질수록 측정오차의 크기도 커집니다. 이를테면 광고비를 100원 사용했을 때는 측정오차가 몇 원 정도만 발생하는 반면, 광고비로 100만 원을 사용하면 측정오차가 몇만 원 이상 차이가 날 수 있는 것과 같은 맥락입니다. 따라서 광고비를 기준으로 일정 퍼센트(%) 증감이 랜덤하게 부여되는 승법(Multiplicative) 모형으로 구성하는 것이 합리적입니다. 물론 승법 모형에서도 가법(Additive) 모형과 마찬가지로 Regression Dilution이 발생하는 것으로 알려져 있습니다.

모형 및 변수 선택

종속변수는 사용자가 광고 반응 이후 웹이나 앱에서 행동한 ‘이벤트 횟수’로 정했습니다. 이때 이벤트 참여, 회원 가입, 구매와 같은 이벤트들은 0건, 1건, 2건과 같이 가산적(Countable)이므로 가산 데이터의 특성을 최대한 반영할 수 있는 모델링이 필요합니다.

독립변수는 광고사가 통제할 수 있는 ’광고비’와 ‘광고비의 시차(Lag)’만을 사용하겠습니다. 노출수, 클릭수와 같은 지표는 광고가 송출된 이후에 확인할 수 있는 변수이기 때문입니다. 즉 사전에 광고사가 통제할 수 없으니 비즈니스 관점에서 제외한다는 것입니다. 노출수는 광고비와 상관관계가 높아 두 변수가 가지고 있는 정보량이 비슷하다는 특징이 있습니다. 이는 나중에 모델링에서 중요하게 작용할 것입니다.

한편 측정오차의 영향을 파악하기 위해서는 광고비에 측정오차를 부여해 데이터를 고의로 ‘오염’시키는 과정을 거쳐야 합니다. 이때 측정오차의 크기는 통상 업계에서 발견되는 크기 이내로 잡았고, 여러 경우에 대해 시뮬레이션을 진행했습니다.

제안하는 모형은 포아송 회귀(Poisson regression) 기반의 시계열 모형(Time series model)과 포아송 칼만 필터(Poisson kalman filter) 두 가지가 되겠습니다. 가산 데이터의 특성을 반영하기 위해 포아송 분포(Poisson Distribution) 기반의 모형을 선정했습니다.

포아송 회귀를 사용한 이유는 잔차의 이분산성 문제를 회피할 수 있기 때문입니다. 포아송 회귀를 비롯한 일반화 선형 모형(Generalized Linear Model, GLM)의 특성상 연결함수(Link Function)를 통해 가정한 평균과 분산 관계에만 주목하기 때문에 앞서 언급한 이분산성 문제를 어느 정도 피할 수 있게 됩니다.

게다가 포아송 칼만 필터를 사용하면 측정오차 문제를 일부분 회피할 수 있게 됩니다. 이 모델은 관측 방정식(Observation Equation)에서 포아송 분포를 반영하면서도 상태 방정식(State Equation)을 통해 관측 방정식의 부정확함(측정오차 포함)을 내재적으로 보완하는 특징이 있기 때문입니다.

측정오차 영향

먼저 포아송 회귀 기반 시계열 모형으로 측정오차의 영향을 확인해 보겠습니다.

\[ \log(\lambda_{t}) = \beta_{0} + \sum_{k=1}^{7}\beta_{k}\log(Y_{t-k} + 1) + \alpha_{7}\log(\lambda_{t-7}) + \sum_{i=1}^{8}\eta_{i} Spend_{(t-i+1)} \]

여기서 Spend는 현재 시점부터 7 시점 전까지의 광고비이며, $\beta$는 광고비 외에 잔차에 내재한 시차 효과를 반영한 것입니다. 또한 $\alpha$를 통해 요일별 효과를 반영했습니다.

figure_1_jw
그림 1. 포아송 시계열 모델 분석표

장황할 수 있어 생략했지만, 모형 적합도나 복잡도를 따졌을 때 해당 모형이 데이터를 합리적으로 반영한 것을 확인했습니다.

사실 우리가 보고 싶은 것은 측정오차인데요, 과연 측정오차는 모형의 예측에 어떤 영향을 줬을까요? 이를 확인하기 위해서는 먼저 시계열 데이터 교차검증(Cross-Validation)에 대해 알아볼 필요가 있습니다.

보통 데이터를 교차검증할 때는 K-fold나, LOO(Leave-One-Out)과 같은 방식을 사용합니다. 그러나 순서가 존재하는 시계열 데이터의 경우 일정 데이터를 제외하는 것이 합리적이지 않기 때문에 다음과 같은 방식을 활용합니다.

  • 처음 d개의 데이터로 모형 적합 및 미래 구간 예측
  • 데이터 1개를 추가해 (d+1)개 데이터로 모형 적합 및 미래 예측
  • 위 과정 반복

그림으로 나타내면 다음과 같습니다.

figure_2_jw
그림 2. 시계열 교차검증/출처=Hyndman, R.J., & Athanasopoulos, G. (2021) Forecasting: principles and practice, 3rd edition

해당 교차검증 방법으로 미래 1구간(1-step)의 예측정확도를 계산했으며, 측정 기준은 포아송 분포를 고려해 MAE(Mean Absolute Error)로 삼았습니다.

figure_3_jw
그림 3. 측정오차의 크기 및 표본 크기에 따른 시계열 교차검증 결과

재밌는 결과가 도출됐는데요, 위 표에서 낮은 수준(0.5 ~ 0.7)의 측정오차 크기에서는 측정오차가 없는 모델보다 낮은 MAE를 기록했습니다. 상식대로라면 측정오차가 없는 모형이 더 좋아야 하지 않았을까요?

이는 측정오차가 가져다준 정규화(Regularization)로 발생한 현상입니다. 즉 측정오차로 인해 회귀계수에 감쇠 편향(Attenuation Bias)이 발생하면서 고(高) 분산 문제를 일정 부분 해결한 것입니다. 다시 말해 측정오차가 정규화에서 우리가 관심을 가지는 $\lambda$(정규화 파라미터)의 역할을 한 것이죠.

figure_4_jw
그림 4. 적절하게 적합된 모형(왼쪽)/과적합된 모형(오른쪽)
figure_5_jw
그림 5. $\lambda=0$(왼쪽)/$\lambda=\infty$(오른쪽)

그림 5를 봅시다. 만약 측정오차의 분산이 무한대까지 커지게 된다면, 해당 변수는 우측 그림처럼 쓸모없게 됩니다. 이 경우 모형은 종속변수의 표본평균으로만 적합 되며, 결정계수는 0으로 나타나겠죠. 그렇지만 우리는 왼쪽 그림처럼 아예 정규화하지 않은 모형이 좋지 않은 것도 알고 있습니다. 결국 적절한 타협점을 찾기 위해 “Listen to Data”를 하는 것이 매우 중요합니다.

다시 모형 결과로 돌아가 봅시다. 낮은 수준의 측정오차는 분명 MAE 관점에서 이득을 안겨주지만, 높은 수준의 측정오차에서는 원래 데이터 대비 MAE가 더 높습니다. 또한 측정오차는 최근 데이터에만 생기기 때문에 데이터 수가 증가할수록 측정오차를 포함한 데이터 대비 측정오차가 없는 데이터 비중이 커지게 돼 측정오차의 영향이 줄어듦을 확인할 수 있습니다.

데이터 크기가 증가하면서 MAE가 점차 개선되는 것은 무슨 의미일까요? 처음에는 복잡한 모형으로 인해 모형의 분산이 큰 상태였으나, 데이터가 점점 많아지면서 모형이 점차 데이터를 잘 설명하고 있다는 것입니다.

지금까지 논의한 결과를 정리하면 적은 수준의 측정오차는 MAE 측면에서 도움이 될 수 있습니다. 측정오차가 무조건 나쁘다는 것은 아니라는 의미죠. 그렇지만 우리가 사전에 독립변수의 측정오차 크기를 정할 수는 없는 노릇이기 때문에 측정오차 문제를 해결하는 모형이 좋을지 혹은 측정오차를 내버려 두는 모형이 좋을지 판단하기 어려울 수 있습니다.

현재보다 더 강하게 정규화하는 것이 나은지를 판단하기 위해서는 모형에 $\lambda$가 추가된 제약식을 넣어 테스트하는 방법이 있습니다. 이 경우 측정오차가 릿지 회귀(Ridge Regression)와 같은 형태로 작동했으므로, 마찬가지로 L2 정규화로 테스트하는 것이 적절합니다.

만약 현재보다 약하게 정규화해야 한다면 어떻게 하는 것이 좋을까요? 이 경우 매체사에서 업데이트해 준 최신 데이터를 받아 측정오차를 줄이거나, 반복측정 분산분석 아이디어를 활용해 측정오차의 크기를 줄이는 데이터 전처리 방법을 사용해 볼 수 있겠습니다.

Ⅲ. 해석적 관점에서 본 측정오차

챕터 2에서 예측적 관점에서 적절한 측정오차가 정규화 역할을 해 도움을 줄 수 있다고 설명했죠. 이렇게만 보면 측정오차는 중요하지 않은 사소한 문제로 보입니다. 정말일까요?

이번 챕터에서는 해석적 관점에서 측정오차가 광고 성과 예측에 어떤 영향을 주는지 살펴보겠습니다.

성과 측정을 방해하는 내생성

챕터 1에서 광고 자동화 얘기를 잠깐 했었죠. 고객이 가지고 있는 광고비는 무한하지 않기에 제한된 예산으로 최대의 성과를 내기 위해서는 매체, 광고에 각각 얼마만큼 예산을 배분해야 하는지, 즉 최적화 문제를 푸는 것이 광고 자동화 운영 사업의 당락을 결정합니다.

매체 및 매체와 유사한 역할을 하는 파트너는 셀 수 없이 많습니다. 일반적으로 하나의 매체, 하나의 광고만 접하고 상품을 구매하는 경우는 드물죠. 가령 바지를 구매한다고 해봅시다. 인스타그램에서 바지의 특정 브랜드의 정보를 얻은 뒤 네이버, 구글에서 해당 브랜드를 검색해 쇼핑몰에 들어가겠죠. 이때 바지를 구매하는 데 있어 인스타그램, 네이버, 구글이 모두 기여했다는 것은 당연합니다. 그러면 각각 얼마나 기여했을까요? 이를 정량적으로 계산하기 위해 광고 업계에서는 다양한 방법론을 활용하고 있습니다. 이중 대표적인 기법으로는 마케팅 미디어믹스 모델링(Marketing Media Mix Modeling)이 있습니다.

위에서 언급했듯 많은 모델이 광고 업계에서 활용되고 있지만, 결국 회귀 분석에서 계수들의 영향력을 보고 성과를 배분한다는 아이디어는 동일합니다. 그런데 이때 종종 ‘내생성’ 문제로 계수를 제대로 계산하지 못하는 문제가 발생합니다. 내생성이란 선형 모형에서 설명변수와 오차항의 상관관계가 0이 아닌 경우를 의미하는데, 이에 따라 추정된 회귀계수를 신뢰하지 못하게 됩니다. 계수의 크기를 정확하게 측정해야 각 매체의 기여도도 정확하게 알 수 있고, 이를 기반으로 성과 최적화 알고리즘을 제대로 구성할 수 있다는 점에서 내생성 문제를 해결하는 것은 매우 중요합니다.

내생성 문제 해결책: 2SLS

계량경제학에서는 내생성 문제를 해결하는 방법으로 ‘2SLS(2-Stage Least Squares)’를 제안합니다. 2SLS란 내생변수와 상관관계가 높으면서도, 모형의 잔차와는 상관관계가 없는 도구변수(Instrumental Variable)를 이용해 내생성을 해결하는 방법론입니다.

figure_6_jw
그림 6. 벤 다이어그램으로 표현한 도구변수

그림 6의 예시를 봅시다. 종속변수 Y를 설명하기 위해 독립변수 X를 사용했으나, X의 빨강 부분에 내생성이 존재해 추정에 부정적인 영향을 미치고 있는 상황입니다. 이때 Y에서 X의 영향을 제거한 잔차(초록)와는 상관관계가 없으면서(유효성; Validity), 원 변수 X와는 상관관계가 있는(연관성; Relevance) 적절한 도구변수 Z를 이용해, Z와 X가 동시에 가지고 있는 (노랑+보라) 교집합 영역으로만 회귀분석을 해서 Y를 설명하면 X의 내생성 문제를 해결할 수 있습니다. 즉 모형 적합도를 일부 포기하는 대신, 문제가 있는 영역(빨강)을 도려내자는 것이 도구변수의 핵심 아이디어입니다.

다시 본론으로 돌아와서, 우리 모형에서는 변수에 측정오차 문제가 있음과 동시에, ‘광고비’와 시차(Lag) 변수만 설명 변수로 사용했기 때문에 중요 변수가 누락(Omitted Variable Bias, OVB)되면서 내생성 문제가 발생할 수 있습니다. 본 논문의 취지는 측정오차가 광고 성과에 미치는 영향을 파악하는 것이므로 적절한 도구변수를 활용한 2SLS(2 Stage Least Square) 검정을 통해 해석적 측면에서 실제로 우리 모형의 측정오차가 내생성 문제를 일으키는지 확인해 보겠습니다.

광고비 도구변수: 노출 수

앞서 살펴봤듯 도구변수는 내생성을 해결하는 역할을 할 수 있습니다. 하지만 도구변수가 적절한지를 검증하는 것은 생각보다 쉽지 않습니다. 무결하다고는 할 수 없지만, 본 모델에서는 광고 업계 도메인에 따라 최대한 적절해 보이는 도구변수를 ‘노출수’로 선정했습니다.

우선 노출 수가 연관성을 만족하는지 살펴봅시다. 배너, 동영상 등을 사용자에게 보여주는 디스플레이 광고에서는 노출 당 과금(CPM) 방식을 채택하고 있습니다. 사용자에게 광고만 노출시켜도 광고비를 청구하는 방식인데, 당연히 원 변수인 광고비와 노출수 간 상관관계가 매우 높겠죠. 실제로 간단하게 상관분석을 해도 0.9 이상의 상관계수가 도출됩니다. 즉 노출수와 광고비가 서로 상당히 비슷한 설명력을 가지므로, 연관성을 만족하고 있습니다.

한편 도구변수에서 가장 입증하기 어려운 것이 바로 유효성인데요, 유효성이란 도구변수가 종속변수(광고 성과)에서 광고비의 영향을 제거한 잔차와 상관관계가 없어야 한다는 것입니다. 우리 모델에서 잔차에는 어떤 요인이 들어가 있을까요? 도메인적으로 생각해 볼 수 있는 것은 프로모션 여부, 브랜드 인지도 정도가 있습니다. 내가 제품이나 업체에 관심이 있어서 능동적으로 탐색하는 검색광고와 다르게, 디스플레이 광고에서는 광고비만 내면 매체사들이 사용자에게 광고를 강제로 노출합니다. 따라서 사용자가 강제로 광고에 노출되는 것(노출수)과, 브랜드 인지도 및 프로모션 여부 등 잔차가 가지고 있는 요인과는 상관관계가 없다고 할 수 있습니다.

그래도 유효성이 충족되는지 불안하다면 도구변수와 잔차 간 상관계수 검정을 하면 됩니다. 그림 7의 결과를 보면, 상관관계가 없다는 귀무가설을 유의수준 = 0.05 하에서 기각하지 못하는 것을 확인할 수 있습니다.

figure_7_jw
그림 7. 상관계수 검정표

물론 도구변수인 노출수도 측정오차를 가지고 있습니다. 그러나 도구변수의 측정오차는 원 변수와의 상관계수를 일부 낮추지만, 유효성에는 영향을 주지 않음이 알려져 있습니다.

내생성 파악하는 방법: Durbin-Wu-Hausman Test

위 과정을 통해 찾아낸 도구변수인 노출수를 기반으로 이제 측정오차가 계수의 내생성에 영향을 주는지 확인해 봅시다. Durbin-Wu-Hausman 검정을 수행했을 때, 일부 구간에서 내생성이 없다는 귀무가설을 기각하고 있음을 확인할 수 있습니다. 즉 측정오차의 계수가 내생성에 영향을 준다는 것이죠.

figure_8_jw
그림 8. Durbin-Wu-Hausman 검정

해당 검정을 통해 새로 획득한 데이터의 패턴이 어떻게 되냐 따라, 자칫 견고해 보였던 모형도 달라질 수 있으니, 측정오차 문제를 고려한 모델링이 안전하다고 결론 낼 수 있습니다.

Ⅳ. 포아송 칼만 필터 및 앙상블

이전까지는 예측 및 해석 관점에서 측정오차를 살펴봤습니다. 이번에는 측정오차 문제를 보정하는 포아송 칼만 필터(Poisson Kalman Filter)를 살펴보고, 나아가 이를 포아송 시계열 모형과 결합하는 ‘앙상블(Ensemble)’ 모형을 소개하는 시간을 가져보죠.

포아송 칼만 필터, 측정오차, 베이지안, 그리고 정규화

칼만 필터는 연구자가 이미 알고 있는 변수의 정보(State Equation, 상태 방정식)와 실제 관측값(Observation Equation, 측정 방정식)을 토대로 둘 사이의 합의점을 찾아내는 모형입니다. 이는 베이지안(Bayesian) 관점에서 연구자가 가진 사전 정보(Prior)와 데이터로부터 획득한 가능도(Likelihood)를 결합하는 것과 같은 맥락이라고 볼 수 있습니다.

figure_9_jw
그림 9. 칼만 필터의 추정 과정/출처=Youtube

챕터 3에서 소개한 측정오차의 정규화 역시 베이지안 관점으로 해석할 수 있습니다. 베이지안 모델링에서 $\beta=0$이라는 사전 믿음을 얼마나 강하게 가지고 갈 것이냐가 결국 정규화의 아이디어와 같기 때문입니다. 또한 챕터 3에서 (랜덤)측정오차 계수를 0으로 끌고 갔습니다. 즉 칼만 필터, 베이지안, 정규화, 측정오차의 직관이 서로 이어지고 있는 것이죠. 따라서 칼만 필터를 사용한다는 것은 결국 상태 방정식을 통해 측정오차를 반영하겠다는 것과 같은 의미이며, 나아가 정규화까지 반영하는 것으로 이해할 수 있습니다.

한편 측정 방정식은 어떻게 세워야 할까요? 우리가 다뤄야 할 종속변수는 가산 데이터므로 GLM의 로그-링크(log-link)를 활용하면 합리적으로 모델링할 수 있습니다.

포아송 시계열 모형 vs 포아송 칼만 필터
figure_10_jw
그림 10. 포아송 시계열 모형 vs 포아송 칼만 필터의 벤치마크

포아송 시계열 모형과 포아송 칼만 필터의 성능을 비교해 봅시다. 먼저 로그가능도(Log likelihood)를 보면, 포아송 시계열 모형이 전 구간에서 높음을 확인할 수 있습니다. 반면 MAE를 살펴보면 이번에는 포아송 칼만 필터가 우월한 성능을 보입니다. 이는 포아송 시계열 모형이 포아송 칼만 필터 대비 과적합됐음을 나타내는 것입니다. 연산 시간 측면에서도 포아송 칼만 필터가 우월한 모습을 보이기는 하는데요, 사실 두 모형 모두 계산에 2초가 채 걸리지 않으므로 실제 서비스에 적용하는데 크게 고려해야 할 요소는 아닙니다.

그림 10을 자세히 보면 재밌는 부분을 찾을 수 있습니다. 데이터 수가 증가함에 따라 줄어드는 MAE의 폭이 포아송 칼만 필터보다 포아송 시계열 모형이 압도적으로 크다는 점입니다. 그 이유는 다음과 같습니다.

포아송 칼만 필터는 초반 상태 방정식을 잘 반영해 예측 정확도(MAE) 측면에서 큰 이득을 가져왔으나, 데이터 수가 증가하더라도 관측 방정식에서 데이터를 합리적으로 반영하지 못한 것으로 보입니다. 그 결과 데이터 수가 늘어나더라도 MAE 개선 속도가 더딘 것을 볼 수 있습니다. 반면 포아송 시계열 모형은 모형 과적합으로 인해 초반 예측 정확도에서 손해를 많이 봤으나, 지속적으로 들어오는 데이터를 합리적으로 반영해 MAE가 큰 폭으로 개선됐습니다.

모델 강건성(Robustness) 검정에서도 유사한 결과가 나왔습니다. 즉 잔차의 자기상관성, 평균-분산 관계, 정규성 등의 검정에서 데이터 수가 적은 초반에는 포아송 칼만 필터가 우수한 성능을 보였던 반면, 중반부 이후에는 포아송 시계열 모형이 우수하게 나타났습니다.

앙상블: 포아송 시계열 모형과 포아송 칼만 필터 모형 결합

지금까지 한 논의를 토대로 두 모형이 가지는 이질적인 장점을 결합해 하나의 앙상블 모형을 구축했습니다.

편차(Bias)와 분산(Variance)을 동시에 고려하기 위해 MAE를 최소화하는 스태킹 모델(Stacked model)의 제약식은 다음과 같이 설정했습니다.

\[ p_{t+1} = argmin_{p}\sum_{i=1}^{t}w_{i}|y_{i} – (p * \hat{y}_{i}^{(GLM)} + (1 – p) * \hat{y}_{i}^{(KF)})| \]

\[ s.t. 0 \leq p \leq 1, \forall w > 0 \]

이때 앞서 살펴봤듯 모든 구간에서 포아송 칼만 필터의 MAE가 더 낮았기 때문에, MAE가 개선되는 모멘텀(Momentum)을 반영해주지 않는다면 스태킹 모델은 모든 구간에서 p=0을 출력하게 됩니다. 즉 포아송 칼만 필터만 100% 사용한다는 것이죠. 그러나 데이터 수가 꽤 많아지는 중후반부터 포아송 시계열 모형의 MAE가 크게 개선되는 만큼, 절대값의 제약식 앞에 가중치 W를 곱해 주었습니다.

가중치는 어떻게 부여하는 것이 합리적일까요? 우선 데이터 수가 많을수록 두 모형이 점차 합리적으로 변할 것이므로, 분산 또한 작아질 것입니다. 또한 두 모형 중, 더 좋은 쪽이 상대적으로 분산이 낮겠죠. 따라서 분산의 역수만큼 가중치를 높게 부여한다면, 시간이 지날수록 모형이 정확해지는 것을 반영하게 될 것입니다.

가중치를 반영한 최종 모형의 예측치는 아래와 같습니다.

\[ \hat{y}_{t+1} = p_{t+1}\hat{y}_{t+1}^{(GLM)} + (1 – p_{t+1})\hat{y}_{t+1}^{(KF)} \]

figure_11_jw
그림 11. 데이터 수에 따른 p(Poisson Time Series 비중) 변화

실제 위의 앙상블 모형으로 데이터를 분석한 결과, 초반부에는 p(앙상블 모델에서의 포아송 시계열 모형의 비중)가 0 근처에 머무르다가, 중반부터는 1 근처로 껑충 뛰는 것을 확인할 수 있습니다. 또한 데이터의 패턴이 변화하는 중후반 일부 구간에서는 상태 방정식의 장점을 살릴 수 있는 포아송 칼만 필터도 함께 사용하는 것을 엿볼 수 있습니다.

figure_12_jw
그림 12. 모형 간 MAE 벤치마크

그림 12에서 앙상블 모형의 MAE를 살펴봅시다. 이질성(Heterogeneity)을 보이는 두 모형을 합리적으로 결합함으로써 모든 구간에서 개별 모형 대비 MAE가 낮은 것을 확인할 수 있습니다. 또한 강건성 검정에서도 앙상블의 장점이 극대화되면서 개별 모형 대비 더 견고했음을 확인할 수 있었습니다.

결론

응용통계, 계량경제, 머신러닝, 데이터 사이언스 리그는 주 관심 분야나 특장점이 다를 수 있으나, 결국 공통적으로 고민하는 것은 “현실 세계에서의 문제를 어떻게 합리적으로 정량화할 수 있을까”로 귀결됩니다. 또한 이 과정에서 해당 문제가 속하는 도메인에 대한 이해는 필수입니다.

본 글에서는 디지털 광고 도메인에서 흔히 발생하는 측정오차 문제를 바탕으로, 이것이 예측적・해석적 모델링에서 각각 어떤 영향을 줄 수 있는지 설명하는 데 중점을 뒀습니다. 이를 위해 도메인 환경(광고 업계) 및 DGP(Data Generating Process)에 맞는 포아송 시계열 모형과 포아송 칼만 필터 두 모형을 제시했으며, 두 모형이 강한 이질성을 보이는 점을 고려해 앙상블 모형을 최종적으로 제안했습니다.

스마트폰이 상용화되면서 디지털 광고 시장은 앞으로 더욱 가파르게 성장할 것입니다. 모쪼록 본 글을 읽고 있는 여러분들도 바쁘게 텍스트를 머릿속에 넣는 것보다는, 여유롭게 지식을 음미하며 통계학이 어떻게 데이터 사이언스 및 인공지능 분야에 적용되는지에 대한 외연을 넓힐 수 있다면 좋겠습니다.

Share this Doc

Jeongwoo Park (MSc, 2023)

Or copy link

CONTENTS