[논문이야기] 측정오차 하 광고 시계열 모델링 연구 ①

'1인 1스마트폰 시대'가 일으킨 디지털 광고 '활황'
측정오차 문제로 인해 디지털 광고 업체들 골머리 앓아
측정오차가 디지털 광고에 미치는 영향 및 문제 해결 방법 살펴본다

디지털 광고는 매년 가히 폭발적으로 성장하고 있습니다. 특히 글로벌 팬데믹으로 인해 오프라인 시장이 크게 위축되던 시기에 소비의 중심축이 오프라인에서 온라인으로 옮겨가면서 디지털 광고는 전 세계 광고 시장의 메인스트림으로 자리잡게 됐습니다.

디지털 광고의 핵심은 단연 스마트폰입니다. 스마트폰 유저들이 PC, 노트북, 태블릿보다 우월한 편의성을 기반으로 언제 어디서나 웹에 접속할 수 있게 되면서 ‘웹 기반 매체’들이 새롭게 광고 시장에 등장하게 됐습니다. 유저 편의성을 기반으로 고객들이 양질의 서비스를 제공받게 되고, 이에 따라 디지털 광고 시장 또한 새로운 성장 국면을 맞게 된거죠.

그러나 현재 디지털 광고 업계에서는 ‘측정오차(measurement error)’라는 문제로 시름이 끊이지 않습니다. 측정오차로 인해 광고 성과 측정 및 관련 미래 값 예측에 큰 차질을 겪고 있다는 겁니다.

정성적(Qualitative)에서 정량적(Quantitative)으로

디지털 광고가 전통적인 광고와 차별되는 지점은 ‘추적 가능성(Trackability)’에 있다고들 말합니다. 기존의 전통적인 광고 업체들의 경우 ‘하루 00만명이 보는 매체에 광고를 해서 내 브랜드를 알렸다’ 정도의 광고 성과만을 가늠할 수 있었습니다. 또한 이로 인해 광고 업체 입장에서 광고 성과를 회고하더라도 각종 노이즈(Noise)로 인해 광고에 따른 성과를 정확하게 평가하기 어렵다는 불만이 많았습니다.

그런데 웹의 등장으로 광고가 새로운 국면을 맞게 된거죠. 사이트에 접속할 때 유저가 가지고 있는 정보를 쿠키(Cookie)에 저장해 유저가 어떤 광고를 보고 들어왔는지, 어떤 상품을 보고 구매했는지 즉각적인 추적이 가능해진거죠. 이에 따라 기업들도 광고가 유저들에게 얼마나 효과적이었는지 쉽게 확인할 수 있게 됐습니다. 또 여러 개의 광고들을 비교해보고, 다음 광고는 어떻게 기획해야 될지 방향성을 쉽게 잡을 수 있게 됐습니다.

웹사이트의 유저 행동 경로 예시/출처=구글

이런 패러다임을 가속화한게 바로 스마트폰의 등장입니다. 여러 명이 하나의 PC 또는 태블릿을 사용했던 과거와는 다르게, 이제는 ‘1인 1스마트폰’ 시대가 도래하면서 특정 기기의 행동 패턴을 특정 유저의 패턴으로 간주할 수 있게 됐습니다. 실제 2022년 한국갤럽 조사에 따르면 국내 성인 스마트폰 보급률은 97%로, 최근 몇 년 사이에 많은 업체들이 ‘초개인화’ 맞춤 타게팅 서비스를 대중들에게 선보이며 디지털 광고 시장의 ‘전환점’을 알렸습니다.

디지털 광고의 이슈: 측정오차 문제

그러나 모든 것에는 명암이 있죠. 디지털 광고 또한 완벽하지 못합니다. 업계 관계자들은 디지털 광고 효과가 유저 피로도, 개인정보 등 많은 요인들로 저해되고 있다고 말합니다. 실제 광고 업계에 몸 담고 있는 제 입장에서는 그 중에서도 ‘측정오차’라는 이슈가 가장 눈에 크게 들어옵니다.

측정오차란 특정 원인으로 인해 데이터가 왜곡되며 참값 대비 다른 결과가 나타나는 문제를 말합니다. 업계에서 흔히 접할 수 있는 문제는 한 유저가 단 시간 내 여러 번 광고에 노출됐거나 클릭하는 등 유의하지 않은 광고 반응을 보이거나, 악의적으로 금전적 이득을 얻기 위해 허위로 광고반응을 만들어내는 광고 사기(Fraud) 등이 있습니다. 또한 기술적 원인으로는 서버 불안정으로 인해 특정 유저의 데이터가 중복 집계 또는 누락되거나, 뒤늦게 데이터가 들어오는 경우를 꼽을 수 있습니다. 즉 일련의 이유로 데이터가 ‘오염’돼서 광고 업체 입장에서 제대로 된 광고 성과를 보지 못하게 된다는거죠.

광고를 송출하는 매체사 입장에서도 가만히 있지는 않죠. 매체사들은 광고 보고서를 지속적으로 갱신하면서 잘못된 광고비, 노출, 클릭 등의 광고 성과를 수정하는 작업을 거칩니다. 또한 이 과정에서 광고주는 통상 최대 1주일까지 보고서 내 광고 성과가 달라지는 일을 겪게 됩니다.

문제는 저처럼 광고의 성과를 제대로 측정하는 것이 중요한 수요자 입장에서는 앞서 살펴본 측정오차로 인해 광고 성과 분석에 내생성(Endogeneity) 문제가 발생하고, 이로 인해 분석의 신뢰도가 현저히 낮아지게 된다는 것입니다. 쉽게 말해 측정오차로 보고서를 계속 고치니까 광고 성과를 정확하게 분석하기 어렵게 된다는 거죠.

성과 측정이 중요하지 않고, 미래 값을 예측하는 것이 중요한 광고 필드에서도 측정오차 문제는 여전히 중요한 이슈로 작용하게 됩니다. 즉 측정오차로 인해 잔차의 분산이 증가하면서 모형의 적합도(Goodness of Fit)이 떨어지게 됩니다. 또한 디지털 광고 데이터와 같이 측정오차의 크기가 업데이트 횟수에 따라 매일 달라지는 경우 선형성(Linearity)를 담보하지 않는 비선형모형에서는 외삽법(Extrapolation) 측면에서 저조한 모델 예측 성능을 보여줄 가능성이 높게 됩니다.

시간은 기다려주지 않는다

디지털 광고의 특징인 즉시성(immediacy)으로 인해, 안타깝게도 광고 수요자들은 데이터가 제대로 업데이트되는 1주일까지 마냥 기다려주지 못합니다. 심지어 광고주들은 의뢰한 광고의 성과가 낮다고 생각되면 바로 노출 비중을 줄이거나, 광고를 아예 중단하기도 합니다. 또한 프로모션 성격으로 단기간만 송출되는 광고들의 경우, ‘단기간’이라 일주일까지 기다릴 수 없어 측정오차로 인해 초기에 잘못된 판단을 하게 될 가능성도 높아집니다.

자칭 ‘AI’를 기반으로 자동으로 광고를 운영할 수 있다는 업체들도 사정은 별반 다르지 않습니다. 광고 자동화(advertising automation)라는 것이 한정된 광고비로 특정 기간의 전체 광고 성과를 최대화하는, 일종의 강화학습(Reinforcement Learning) 문제를 푸는 것과 동일한데, 데이터에 측정오차가 생기게 되면 초기 예산 배분에 차질을 겪게 돼 결국 효율적인 최적화에 실패할 우려가 있습니다.

연구 목적: 측정오차의 영향 분석 및 합리적인 예측 모델 제안

지금까지 내용을 바탕으로 “디지털 광고에서 측정오차 문제가 중요할 수도 있겠다”라고 생각했다면 성공입니다. 그런데 안타깝게도 광고 업계에서는 앞서 언급한 측정오차에 대한 고려가 제대로 이루어지 않고 있는 실정입니다. 측정오차가 눈에 보이지 않는다는 이유로 말입니다.

해당 부분에 주목해, 본 [논문이야기]에서는 다음 두 가지를 주로 고려했습니다. 우선 측정오차가 광고 데이터에 미치는 영향을 측정오차의 크기, 데이터 사이즈에 따라 다각도로 분석했습니다. 이후 데이터의 특성을 반영한 합리적인 예측 모델을 제안하고자 합니다.

[논문이야기] 측정오차 하 광고 시계열 모델링 연구 ②로 이어집니다