SIAI Yearbook – 2024

Donggyu Kim (MBA, 2024)

Estimated reading: 1 minute 109 views
160X600_GIAI_AIDSNote

Ⅰ. 적정 상태 유지하기 어려운 혈액 보유량

한국은 역대 최저 출산율을 기록했다. 2023년 한국 합계출산율은 0.72명으로 미래에 여러 문제가 터질 것으로 예상된다. 그중 저출산으로 인한 혈액 부족 사태가 화두에 올랐다. 대한적십자사에 따르면 전혈 헌혈 기준으로 2028년이 되면 수요가 공급을 넘어설 것이라는 예측이 나온다. 게다가 이 격차는 점점 벌어질 것으로 짐작된다. 혈액 부족은 이전부터 계속 언급됐던 문제다. 특히 겨울철만 되면 헌혈자가 부족해, 병원 관계자들은 환자에게 혈액 공급이 원활하지 않을까 걱정이다. 하지만 걱정에도 불구하고 혈액 부족 문제는 점점 심해지고 있다. 대한적십자사는 혈액 보유량이 5일 이상이면 ‘적정 상태’, 혈액 보유량이 5일 미만인 경우 ‘부족 상태’로 판단하는데, 과거 데이터를 보면 적정 상태를 유지하는 날이 점점 적어지고 있다.

figure_1_kim_paper_story
그림1: 연도별 혈액 보유량 비율/출처=대한적십자사

적정 상태를 유지하기 어려운 이유가 무엇일까? 그 이유는 혈액 공급량과 사용량 모두 조절하기 어렵기 때문이다. 혈액은 수술 등 의료활동에 이용되어 사용량을 줄이면 큰 반발이 생길 것이다. 반대로 혈액은 오로지 헌혈로만 공급할 수 있어 공급이 제한된다. 아무리 혈액이 부족한 상황이더라도 강제로 사람을 붙잡고 피를 뽑을 수 없는 노릇이다. 따라서 대한적십자사의 노력에도 불구하고 혈액 보유량을 적정 상태로 유지하기 어려운 것이다.

연구 목적 및 선행연구 조사

본 연구에서는 혈액 공급량과 사용량의 동태를 파악해 혈액 부족 문제에 도움이 되고자 한다. 또한 혈액 공급량을 늘리는 중요한 요소 중 하나인 ‘헌혈 홍보/장려 활동’ 효과를 측정해 효율적인 방안을 제시할 예정이다.

분석으로 들어가기 전에 선행연구에서 혈액 공급량과 사용량에 대해 어떻게 접근했는지 알아보자. 혈액은 공공재적 특성을 지녀 법의 영향을 크게 받고, 국가별로 헌혈 및 혈액 관리 방식이 매우 다르다. 따라서 타국 연구 결과를 국내에 적용하기 어렵다고 판단해 국내 연구를 집중적으로 조사했다.

양지혜(2013), 이태민(2013), 양준석(2019), 신의영(2021)은 설문을 통해 헌혈 참여 동기를 파악하는 정성적 분석에 초점을 뒀다. 김신(2015)은 다중선형회귀분석을 이용해 개별 헌혈자의 헌혈 횟수를 예측했다. 하지만 설명변수로 헌혈자의 개인정보를 사용했고, 시계열성을 고려하지 않아 전체 헌혈자의 동태를 파악하기 어려웠다. 김은희(2023)는 COVID-19 유행이 헌혈 건수에 미친 영향을 연구했으나, 외생 변수와 헌혈 종류를 반영하지 않은 한계를 갖는다. 아쉽게도 기존 연구들은 혈액 공급량과 사용량 동태 파악에 초점을 맞추지 않아 본 분석에서 참고할 내용이 많지 않았다.

Ⅱ. 혈액 공급량 동태 파악

분석 대상 선정

이번 장부터는 분석 과정을 소개하겠다. 무작정 분석에 들어가기보다는 우선 분석 대상을 명확히 한 후 분석에 들어가겠다. 대한적십자사에서는 매년 혈액사업 통계연보를 발행하여, 헌혈자 그룹별(연령, 성별, 헌혈 방법 등) 헌혈자 수를 공개한다. 본 연구에서는 해당 데이터를 활용해 분석을 진행했다.

헌혈에도 여러 종류가 있다. 헌혈 방법에 따라 전혈, 혈장, 혈소판&다종성분으로 나뉜다. 우선 혈장부터 알아보면, 혈장은 68% 정도가 의약품 제조 원료로 활용되며 1년이라는 긴 유통기한으로 수입이 자유롭다. 따라서 혈장 부족 시 수입을 통해 문제를 해결할 수 있어 우리의 큰 관심사가 아니다.

다음으로 혈소판&다종성분 헌혈은 기준이 까다롭다. 임신 경험이 있는 여성은 헌혈하지 못하며 다른 헌혈에 비해 좋은 혈관 상태를 요구한다. 이에 따라 헌혈자의 성별 비율이 20:1로 편중되어 있고, 표본 편향이 우려되어 분석 시 올바른 추정량을 도출하기 어려울 것으로 짐작된다. 게다가 혈소판&다종성분은 전혈과 달리 특정 질환 위주로 사용된다. 이러한 이유로 본 연구에서는 ‘전혈’ 헌혈만을 분석 대상으로 삼았다.

전혈 헌혈을 분석 대상으로 삼고나니 한 가지 고민이 생겼다. 채혈량에 따라 데이터를 구분할지 말지의 고민이다. 필자가 받은 데이터는 320ml/400ml로 채혈량에 따라 데이터가 구분되어 있다. 남/여 그룹을 나누듯이 채혈량에 따라 그룹을 나눠야 할까? 이에 대해서는 나누지 않는 게 합당하다고 판단했다. 채혈량에 따라 그룹을 나눌 시 데이터 구조가 망가진다. 채혈량은 헌혈자가 선택할 수 있는 사항이 아니라 헌혈자의 연령과 체중으로 결정되기 때문이다. 채혈량은 헌혈자가 선택할 수 없으므로 320ml와 400ml는 같은 분포에서 나왔고 이를 나누게 되면 하나의 분포를 임의로 나누게 되는 셈이다. 따라서 본 분석에서는 채혈량으로 구분된 데이터를 통합해 ‘헌혈자 수’로 정의하고 분석을 진행했다.

figure_2_kim_paper_story
그림 2: 채혈량에 따른 헌혈자 수 분포(왼쪽), 전체 현혈자 수 분포(오른쪽)
요일 효과 반영

분석 대상이 전혈 헌혈자 수로 명확해졌으니, 이제 분석에 들어가자. 헌혈자 수는 시계열 데이터로 계절성이 있는지 없는지가 중요하다. 우선 헌혈자 수는 주간 계절성인 요일과 휴일에 따라 다를 것으로 예상된다. 데이터를 보며 확인해 보자.

figure_3_kim_paper_story
그림 3: 요일에 따른 헌혈자 수 분포(왼쪽), 평일과 휴일에 따른 헌혈자 수 분포(오른쪽)

그림 3에서 볼 수 있듯이 평일에 헌혈자 수가 많고 휴일에 헌혈자 수가 상대적으로 적다. 이 정보를 모델에 포함해 주자. 만약 데이터 내의 그룹 간 차이를 간과하여 모델에 포함하지 않으면, 추정량에 누락 변수 편향(OVB, Omitted Variable Bias)이 생겨 부정확한 결과가 도출된다. 따라서 그룹 간 차이가 발생할 수 있는 변수를 찾아내 모델에 반영시켜 주자.

그룹에 따라 데이터를 나눈다면, 성별에 따라서도 데이터를 나눠야 하지 않을까? 라는 생각이 자연스럽게 든다. 그러나 헌혈자 수 데이터는 성별에 따라 그룹을 나눌 필요가 없다. 분석 목적이 전체 인구 측면에서 혈액 공급량 동태 파악이기 때문이다. 만약 개인 헌혈 횟수를 파악하는 것이 목적이었다면, 성별은 중요한 변수로 작동했을 것이다. 하지만 우리가 보려는 데이터는 전체 인구 데이터이므로 성별을 나누지 않아도 된다. 또한 남/여 헌혈자 수 데이터는 평균과 분산을 정규화하면 아주 유사한 패턴을 보인다. 이러한 이유로 성별에 따라 나누지 않고 통합하여 분석했다.

figure_4_kim_paper_story
그림 4: 요일과 성별에 따른 헌혈자 수 분포(왼쪽), 평일과 휴일에 따른 남/여 헌혈자 수 분포(오른쪽)

다음으로 헌혈자 수를 그룹으로 나누면서 분포가 어떻게 바뀌는지 살펴보자. 우리의 목표는 데이터가 정규분포를 띠는 것이다. 정규분포를 띤다는 말은 더 이상 데이터에 설명하지 못한 요인이 남아있지 않은 상태이기 때문이다.

우선 그룹을 전혀 나누지 않은 헌혈자 수 분포를 보자. 분포는 쌍봉분포(Bimodal distribution)를 띤다. 아직 데이터를 설명할 요인이 많이 남아있다는 말이다. 위에서 발견한 요일 효과를 모델에 추가해 분포가 어떻게 바뀌는지 보자. 그림 5를 보면 요일 효과를 제거한 평일 데이터의 분포는 더 이상 쌍봉이 아니고, 종 모양(Bell shape)과 비슷하게 바뀌었다.

figure_5_kim_paper_story
그림 5: 전체 헌혈자 수 분포(왼쪽), 평일 헌혈자 수 분포(오른쪽)

요일 효과를 제거한 데이터의 분포는 종 모양을 갖지만, 왼쪽으로 길게 뻗어있는 꼬리(Left long tail)가 신경 쓰인다. 이는 대다수 헌혈의 집이 동시에 쉬어 발생한 현상으로 짐작했고 이를 모델에 반영했다. 요일 효과를 제거한 것처럼 ‘휴일이 아닌 날’의 데이터만 사용해 분포를 그리면 꼬리 형태가 사라졌다.

figure_6_kim_paper_story
그림 6: 평일 헌혈자 수 분포(왼쪽), 휴일이 아닌 날 헌혈자 수 분포(오른쪽)
연간 계절성 반영

지금까지 헌혈자 수에 영향을 주는 요인으로 요일과 휴일을 발견했다. 이를 회귀식으로 나타내고 이에 따른 잔차를 확인해 보자. 잔차의 분포가 정규분포를 띠지 않는다면, 아직 헌혈자 수를 설명할 요인이 남아있다는 뜻이다. 헌혈자 수에 요일과 휴일을 회귀식으로 나타내면 아래와 같다.

\[ \left(bd_{320ml} \cup bd_{400ml}\right) \sim d_{dow}, d_{holiday} \]

위 식이 의미하는 바는 반응 변수로 채혈량 320ml/400ml를 통합한 전혈 헌혈자 수를 두었고, 설명변수로는 요일과 휴일을 더미 형태로 식에 넣었다는 말이다.

figure_7_kim_paper_story
그림 7: 연간 계절성 제거 전 잔차 분포

요일과 휴일 효과를 제거한 잔차는 원본 데이터의 특이한 형태(쌍봉, 긴 꼬리)를 보이지 않는다. 그러나 평균의 오른쪽 부분을 보면, 헌혈자 수 분포에서 발견하지 못한 특이한 형태가 있다. 이는 요일과 휴일 변수로는 설명하지 못한 요인이 아직 남아있음을 의미한다. 어떤 요인일까?

계절성에는 두 가지 계절성이 있다. 요일과 휴일과 같은 주간 계절성과 봄, 여름, 가을, 겨울처럼 연간 계절성이 있다. 앞에서 주간 계절성을 반영했으니, 연간 계절성도 고려해 보자. 도입부에 겨울철만 되면 헌혈자 수가 부족하다는 사실을 알고 있으니, 연간 계절성도 존재할 것으로 짐작된다. 데이터를 보고 확인해 보자.

figure_8_kim_paper_story
그림 8: 요일별 헌혈자 수 분포(왼쪽), 월별 헌혈자 수 분포(오른쪽)

위 그래프를 보면, 월마다 헌혈자 수 분포가 다른 것을 볼 수 있다. 따라서 헌혈자 수에 연간 주기성이 존재한다고 판단하고 이를 모델에 반영해 주자. 연간 주기성이 잔차에 특이한 형태를 만든 게 아닌지 의심된다.

어떻게 연간 주기성을 모델에 반영할 수 있을까? 가장 간단한 방법은 365개의 더미 변수를 넣는 것이다. 그러나 이 방법은 불필요하게 변수를 많이 사용하는 비효율적인 방법이다. 변수가 많으면 모델의 분산이 높아지며 다중공선성(multicollinearity) 문제가 발생할 수 있다. 특히 헌혈자 수는 하루 단위로 큰 변화가 생기는 데이터가 아니므로 다중공선성이 있을 것으로 의심된다. 그럼 365개의 더미 변수를 사용한 것과 비슷한 정보를 주려면 어떻게 해야 할까?

‘주기’라는 단어에 집중해 보자. 주기하면 사인과 코사인 함수가 생각난다. 사인과 코사인 함수로 연간 계절성을 잡아내는 방법은 어떨까? 이를 ‘조화 회귀(Harmonic Regression)’라고 부른다.

figure_9_kim_paper_story
그림 9: 조화 회귀를 통해 연간 계절성을 잡아낸 모습

그림 9는 적당한 사인과 코사인으로 연간 계절성을 잡아낸 모습이다. 주기의 특성에 맞는 계산법을 사용함으로써 적은 수의 변수만으로 계절성을 표현했다. 물론 기온을 사용해서 연간 계절성을 잡는 방법도 있다. 이 방법이 더 직관적이며 변수를 통제하기 좋다는 장점이 있다. 다만 헌혈자 수 데이터에는 기온만으로 설명되지 않는 연간 계절성이 존재해 조화 회귀로 연간 계절성을 표현한 것이다.

figure_10_kim_paper_story
그림 10: 연간 계절성 제거 후 잔차 분포

연간 계절성을 모델에 반영한 결과, 잔차가 가진 특이한 패턴이 제거되었다. 연간 계절성을 회귀식에 넣으면 아래와 같다.

\[ \left(bd_{320ml} \cup bd_{400ml}\right) \sim d_{dow}, d_{holiday}, sin_i, cos_i \]

날씨 반영

지금까지는 데이터의 시계열 정보를 활용해 요일, 휴일, 연간 계절성 변수를 발견했다. 시계열 정보 외에 외부적 요인도 헌혈자 수에 영향을 미칠 것이다. 예를 들어 지역과 날씨가 대표적으로 헌혈자 수에 영향을 주는 변수일 것이다. 따라서 이후 분석에서는 지역별로 데이터를 분리하여 지역별 특성 차이가 모델에 빠지는 것을 방지하고, 특정 효과가 모든 지역에서 일관적으로 작동하는지 확인할 계획이다.

기온과 날씨는 헌혈자 수에 영향을 줄까? 자료를 조사해 보니 헌혈자의 70%는 헌혈의 집에 방문해 헌혈한다는 점을 발견했다. 따라서 외출에 영향을 주는 기온과 강수량이 헌혈자 수에 영향을 미칠 것이라는 강한 의심이 든다.

figure_11_kim_paper_story
그림 11: 강수량이 헌혈자 수에 미치는 영향

날씨는 지역에 따라 차이가 크므로, 지역을 나눠 분석을 진행했다. 개별 지역에 대해 기온과 강수량의 변수 유의성을 확인했다. 그 결과 모든 지역에서 강수량이 헌혈자 수에 부정적인 영향을 주는 것으로 나타났으나, 기온은 헌혈자 수에 유의한 영향을 주지 못했다. 이는 앞서 연간 계절성을 모델에 반영해 기온이 주는 정보를 이미 포함했기 때문이다. 강수량을 포함한 회귀식은 아래와 같다.

\[ \left(bd_{320ml} \cup bd_{400ml} |region \right) \sim d_{dow}, d_{holiday}, sin_i, cos_i, rain_i \]

Ⅲ. 코로나 시기 혈액 공급량과 사용량 동태

이번 장에서는 외부에 큰 충격이 발생했을 때, 혈액 보유량이 어떻게 반응하는지 알아보자. 최근에 일어난 가장 큰 충격인 코로나 시기에 혈액 보유량의 동태를 살펴볼 예정이다.

코로나 시기에 혈액 보유량을 일정 수준 이상 유지하기 어려웠을 것으로 예상된다. 해당 시기에 각종 방역 조치와 전염 우려로 인구 이동이 대폭 감소했기 때문이다. 게다가 그림 12를 보면, 2020년부터 헌혈 부적격자 수가 증가한 것을 볼 수 있다. 이는 코로나 시기에 새로운 건강 기준이 도입되었는데, 그 기준은 코로나 완치 또는 백신 접종 이후 일정 기간 헌혈을 할 수 없다는 것이다. 이러한 이유로 코로나 시기에 혈액 보유량이 크게 감소했을 것으로 예상된다. 데이터를 살펴보며 우리의 가설이 맞는지 확인해 보자.

figure_12_kim_paper_story
그림 12: 코로나를 기점으로 헌혈 부적격 비율이 늘어난 모습

그림 13을 보면, 신기하게도 코로나 시기에 혈액 보유량은 일정 수준 이상으로 유지되었다. 혈액 보유량이 2일 이하로 떨어지지 않은 모습이다. 대한적십자사는 코로나라는 외부 충격에도 불구하고 혈액 보유량을 일정 수준 이상 유지할 수 있었을까?

figure_13_kim_paper_story
그림 13: 코로나에도 불구하고 혈액 보유량이 일정 수준 유지된 모습

앞서 고려한 외생 요인들을 통제하여 회귀 분석한 결과, 코로나 유행 시기에 혈액 사용량은 4.25% 감소했다. 감소한 수치에는 혈액 보유량을 유지하기 위해 인위적으로 혈액 사용량을 감소시킨 부분과 자연적으로 코로나 시기에 부족해진 의료 인력과 병동으로 감소한 부분으로 나누어 생각할 수 있다.

동일한 변수로 혈액 공급량에 대해 회귀 분석한 결과, 혈액 공급량은 5.3% 감소했다. 코로나 시기에 혈액 보유량이 유지되었던 이유는 사용량과 공급량이 비슷한 수준으로 감소했기 때문이다. 하지만 코로나가 불러일으킨 사회적 영향에 비해 5.3%라는 수치는 굉장히 미미하다.

‘혈액 부족 상태’ 변수 발견

헌혈자 수를 지역별로 나눠서 회귀 분석한 결과, 특정 지역은 오히려 헌혈자 수가 증가했다. 코로나가 특정 지역에서만 발생한 것이 아니므로 이는 상식과 어긋난다. 따라서 코로나 시기에 ‘어떤 요인’이 혈액 공급량을 증가시켰을 것으로 추측된다. 또한 헌혈자 수가 5.3% 감소한 것은 해당 증가 요인에 의해 상쇄된 것으로 예상된다.

figure_14_kim_paper_story
그림 14: 코로나에도 불구하고 특정 지역은 헌혈자 수가 증가했다

코로나와 같이 혈액 부족 기간에 증가 요인이 작동할 것으로 예상해 ‘혈액 부족 상태’라는 대체 변수(Proxy Variable)를 만들었다. 혈액 보유량이 일정 수준 이하로 떨어진 날과 이후 일정 기간을 ‘부족 상태’로 정의했다. 이는 부족 상태에 진입하면 대한적십자사가 내리는 특정 조치의 효과를 반영한 것이다.

figure_15_kim_paper_story
그림 15: 혈액 부족 기간 예시

혈액 부족 상태 효과를 헌혈자 수에 분석한 결과, 대부분 지역에서 혈액 부족 상태가 헌혈자 수에 긍정적인 효과를 줬다. 이는 앞서 공급량을 증가시키는 요인이 있을 것이라는 가설을 입증한 셈이다. 마찬가지로 혈액 부족 상태 효과를 혈액 사용량에 대해서 보면, 해당 기간에 혈액 사용량이 감소한 것을 볼 수 있다. 이는 혈액 보유량이 일정 수준 이하로 떨어지게 되면 발동하는 혈액공급 위기대응 매뉴얼이 제대로 작동했음을 보여준다.

그러나 혈액 부족 상태라는 증가 요인은 헌혈자 수가 감소할 것을 미리 아는 상태에서만 유효할 것으로 짐작된다. 대한적십자사에서 헌혈자 수 감소를 예상할 수 있어야 홍보 및 장려를 통해 대처할 수 있기 때문이다. 이를 데이터로 확인해 보자.

모형의 잔차(그림 16)를 보면 예상치 못한 사건인 코로나 대유행 초기 대구/경북과 오미크론 대유행에서는 헌혈자 수가 감소한 것을 볼 수 있다. 그 외의 예측 가능한 기간에서는 헌혈자 수가 지속적으로 감소하지 않은 걸로 보아, 증가 요인이 제대로 작동한 것으로 예상된다. 해당 시기에 혈액 보유량이 유지된 이유는 혈액 부족 상태 진입에 따른 매뉴얼 작동과 국민이 혈액 부족을 인지하고 헌혈에 더 적극적인 모습을 보여 공급량을 증가시켰기 때문이다.

figure_16_kim_paper_story
그림 16: 예상치 못한 충격에서는 증가 요인이 작동하지 않았다

Ⅳ. 프로모션 효과 측정

기념품 추가 증정 프로모션 효과 측정

코로나 시기에 대한적십자사는 프로모션, 헌혈 촉구 문자, 공익광고 등 다양한 방법을 동원해 헌혈자 수가 감소하는 것을 막았다. 그중 효과가 가장 좋았던 방법은 무엇일까? 효과를 정확하게 측정할 수 있다면, 앞으로 대한적십자사에서 효과적으로 혈액 부족에 대처할 수 있을 것이다.

모든 방법의 효과를 측정할 수 있다면 좋겠지만, 데이터가 남아있지 않거나 일회성 이벤트를 진행하는 등 분석하기 어려운 방법들이 대다수였다. 다행히 프로모션은 정량적 분석이 가능하다고 판단해 이에 중점을 두고 효과를 측정했다. 프로모션이 헌혈자 수를 얼마나 증가시켰는지 알아보자.

프로모션 중 기념품 추가 증정 프로모션은 모든 지역에서 같은 방식으로 오랜 기간 진행됐다. 따라서 기념품 추가 증정 프로모션의 효과를 측정하기에는 큰 문제가 없을 것으로 예상된다. 효과를 측정하기 위해 이전에 발견한 변수들을 통제한 상태에서 ‘프로모션 진행일’을 더미 변수로 만들었다. 그 결과 프로모션에 대한 반응도는 성별에 따라 달랐으며 남성은 프로모션에 대한 반응이 컸으나, 여성은 프로모션에 유의하게 반응하지 않았다. 하지만 단순히 더미 변수를 추가하는 방법이 프로모션의 순수한 증가를 나타낼까?

figure_17_kim_paper_story
그림 17: 기간 효과 제거 전 성별에 따른 기념품 추가 증정 프로모션 효과

단순히 더미 변수를 사용하여 프로모션 기간의 효과를 잡아내는 방법은 ‘프로모션의 효과’만이 아닌 ‘프로모션 진행 기간의 추세’가 혼합된 결과를 얻게 된다. 예를 들어 5월과 12월의 헌혈자 수는 차이가 나는데, 날씨의 영향으로 5월에 헌혈자 수가 많고, 12월에 헌혈자 수가 적다. 따라서 단순히 더미 변수를 넣으면 기존에 5월 헌혈자 수가 많은 것과 프로모션 효과로 헌혈자 수가 증가한 것이 혼합되어 프로모션의 순수한 효과를 뽑아내기 어렵다. 이를 어떻게 하면 분리할 수 있을지 모색해야 한다.

그림 18을 보면, 기념품 추가 증정 프로모션이 분기별로 진행된 것을 볼 수 있다. 따라서 분기별로는 같은 계절성을 띠어 헌혈자 수에 큰 변화가 없을 것으로 보인다. 기간 효과를 제거하기 위해 전체 기간을 분기별로 나눠 프로모션 효과를 측정했다.

figure_18_kim_paper_story
그림 18: 프로모션 진행일을 나타낸 그래프로 색이 칠해져 있는 기간은 프로모션을 진행한 기간이고 회색은 프로모션을 진행하지 않은 기간이다

기간 효과를 제거했더니 남/여 그룹의 프로모션 반응도에는 유의한 차이가 없다. 비록 설명되지 못한 다양한 사회적 요인들에 의한 분산이 있으나, 평균적인 반응도는 비슷하여 단순 더미 변수를 사용했을 때보다 더 정확한 결과를 얻을 수 있었다.

특수 프로모션 효과 측정 

또한 대한적십자사는 기념품 추가 증정 프로모션 외에도 다양한 특수 프로모션을 진행했다. 기프티콘, 기념품, 여행 상품권, 스포츠 경기 관람권 증정 등이 있다. 특수 프로모션의 정확한 효과를 측정하기 위해서는 기념품 추가 증정과 마찬가지로 기간 효과를 제거해야 한다. 다시 말해 프로모션을 제외하고는 차이가 없을 것으로 짐작되는 기간을 잡아야 한다. 본 분석에서는 프로모션 기간 전후 2주와 프로모션 기간에 헌혈자 수 차이를 봤다.

figure_19_kim_paper_story
그림 19: 특수 프로모션 분석 예시

특수 프로모션으로 헌혈자 수 순 증가율을 측정한 결과, 많은 지역에서 좋은 성과를 거두었다. 그중에서 특히 스포츠 관람 티켓 증정 효과가 효과적이었다. 따라서 혈액 부족이 예상되는 기간에 스포츠 관람 티켓을 내세워 헌혈자 수를 효과적으로 늘릴 것을 제안한다.

figure_20_kim_paper_story
그림 20: 프로모션의 효과 중 스포츠 관람 티켓이 상위권에 자리한 모습
데이터 수집의 아쉬움

여기까지 분석을 마무리하고 데이터 수집 과정에 있었던 에피소드 하나를 소개하겠다. 연구에 사용된 데이터는 다양한 경로로 수집했다. 혈액사업 통계연보와 관련된 데이터는 통계청 API를 통해 깔끔하게 정리된 상태로 받을 수 있었다. 하지만 다른 데이터는 쉽게 얻을 수 없어 아쉬움이 남는다. 혈핵 보유량, 사용량, 공급량의 경우 API로 제공되긴 하나, 월간 데이터만 제공해 분석에 활용하기에는 해상도가 떨어졌다.

다행히 혈액을 관리하는 대한적십자사는 정부 기관이기에 ‘정보공개청구’를 통해 일간 혈액 보유량/사용량/공급량 데이터와 기념품 추가 증정 프로모션 데이터를 받을 수 있었다. 이처럼 정부 부처 또는 공공기관 데이터는 개인정보와 같이 민감한 데이터를 제외하면 정보공개청구를 통해 얻을 수 있다. 다른 연구자들도 정보공개청구를 적극적으로 활용해 고품질 데이터를 받길 바란다. 한국은 국가 기관 행정 자료의 디지털화가 잘 되어 있어 연구에 필요한 자료를 얻을 수 있을 것이다.

Share this Doc

Donggyu Kim (MBA, 2024)

Or copy link

CONTENTS