[논문이야기] 수면 상태 감지 ④, 일반화에 초점을 맞춰 수면·활동 분포를 활용한 우도비 비교 방법론

분포의 정보량을 사용하기 위한 사전 작업, ID 값별 vs. 전체 데이터 vs. 샘플 데이터
수면·활동 분포를 활용한 우도비 비교 방법론, 가우시안 커널 밀도 추정 기반 우도비 계산
시간차이(Time Difference) 기반 모델 평가 지표 제안, 예측 지연 및 과도 예측 현상 분석

[논문이야기] 수면 상태 감지 ③, 수면 신호의 변동성과 수면 간격의 불규칙성을 고려한 데이터 전처리 과정에서 이어집니다.


이전 글에서는 일반화 방법론의 하나로 데이터를 어떻게 변형할 수 있는지 살펴보았다. 이번 글에서는 모델 변형을 통해 어떻게 일반화 성능을 개선할 수 있는지 알아보려 한다.

수면과 활동 기간 분포의 비교 분석

앞서 롬-스카글 주기 분석법을 적용한 ENMO 신호 데이터를 확인했을 때, 활동·수면 구간의 데이터 모두 균일 분포(uniform distribution)를 가지고 있지 않았다.

Figure 10에서 볼 수 있듯이 두 구간의 분포 모양도 다르다. 특히 분포의 봉우리 모양에서 확연히 차이가 나는데, 수면 구간의 결합 분포 봉우리가 부드러운 곡선인 반면, 활동 구간의 결합 분포 봉우리는 각진 모습을 보이고 있다.

Sleep State Detection MDSA YeonsookKwak 12
Figure 10. 전처리된 ENMO 신호를 ID 값별로 본 수면·활동 구간 별 분포: 수면 분포(왼쪽), 활동 분포(오른쪽)

주목할 만한 점은 분포 모양은 다르지만 각 ID의 정점 값(peak value)이 수면·활동 구간과 무관하게 $x$축의 0을 중심으로 관찰된다는 것이다.

Sleep State Detection MDSA YeonsookKwak 13
Figure 11a. 전체 데이터의 분포
Sleep State Detection MDSA YeonsookKwak 14
Figure 11b. 결측값이 없는 데이터의 80%
(전체 데이터의 9%수준)

마찬가지로 Figure 11a(전체 데이터)와 11b(전체 데이터의 9%)에서도 수면·활동 분포의 정점 값이 크게 변하지 않았다. 또한 Figure 11b에서 800개의 관측 값을 무작위 추출한 Figure 12의 정점 값도 변동이 적었다.

Sleep State Detection MDSA YeonsookKwak 15
Figure 12. 훈련 데이터: Figure 11b 데이터에서 약 800ea 무작위 추출(Random Sampling)

수면·활동 구간의 분포를 활용한 우도비 비교 방법론

앞서 분포 함수의 정점 값이 다른지 같은지를 계속 살펴보았다. 이는 수면 상태 검출 방법을 일반화 하기 위해 수면·활동 구간의 분포 정보량을 활용해 우도비(likelihood ratio, LR) 비교 방법론을 적용하려는 노력의 일환이었다. 분포를 알고 있다면, 최대우도법(Maximum Likelihood Estimation, MLE)으로 접근하는 것이 가장 적절한 계산법인 것처럼, 수면·활동 분포의 정보를 활용해 우도비(Likelihood Ratio, LR)를 기준으로 모델링을 하고자 했다.

하지만 수면·활동 분포는 일반적으로 알려진 확률밀도함수(예: 가우시안, 포아송… 등)를 따르지 않을 수 있고, 종종 불규칙적이다. 그 대안으로 커널 밀도추정(kernel density estimation)을 적용한 분포를 사용했다. 커널 밀도추정은 관측된 데이터 각각마다 해당 데이터값을 중심으로 하는 커널 함수를 생성한 후 모두 더해, 전체 데이터 개수로 나눠주는 과정을 거친다. 보통 최적의 커널 함수는 에파네치코프(Epanechinikov) 커널이지만, 계산의 편의상 가우시안 커널을 많이 사용한다. 본 연구에서도 가우시안 커널을 사용했다.

먼저 LR 방법을 어떻게 적용했는지 수식으로 설명해 보자. $LR = \frac{L_{1} (D)}{L_{0} (D)}$.

각 데이터 입력 포인트에 대해서 우도비를 구할 수 있는데, $L_{0} (D)$은 귀무가설 하에 있는 데이터의 우도가 수면 신호일 가능성이 높은 것을 뜻한다. 그리고 $L_{1} (D)$는 대립가설하에서 데이터의 우도가 활동 신호일 가능성이 더 높은 것을 뜻한다. 만약 LR이 임계값(threshold)보다 크면, 데이터가 대립가설(활동 신호)하에 있을 가능성이 더 높다는 것을 의미한다.

Figure 15는 위 일반화 방법론을 통해 수면상태를 검출한 결과를 ID 한 개에 대해서 시각화한 그래프다. 아래 그래프 안에서 최하단에 있는 그래프는 데이터 변형을 마친 후, 활동 신호 첫 점(깨어나는 순간)과 마지막 점(잠드는 순간)까지 포인트를 최대한 많이 찾아주는 것을 볼 수 있다.

Sleep State Detection MDSA YeonsookKwak 16
Figure 13. Original ENMO 신호(최상단), 우도비(중간),
임곗값을 넘는 활동 기간을 빨간색 점으로 표시(최하단)

계산 효율성 측면에서도 LR은 매력적인 접근법이다. 컴퓨터 연산시간을 확인해 본 결과, 데이터가 입력과 동시에 데이터 변형이 이루어지고 LR 결과가 임곗값을 넘게 되는데 걸리는 시간은 짧았다. 대략 39,059ea의 데이터를 한 번에 처리할 경우, 7초 정도 소요되는 것을 확인했다. 예를 들어 10명의 하루치 데이터(17,280ea)는 총 약 1분 40초가 소모된다. 마지막으로 당연한 결과이지만 분포를 활용하기 때문에, 기기 누락에 대해서는 찾아주지 않고 기기 누락이 아니지만 라벨값이 없는 신호일 경우에는 찾아준다는 것을 시각적으로 확인할 수도 있었다.

모델의 강건성(Robustness)을 평가하기 위한 새로운 평가지표

모델의 강건성을 확인하기 위해 본 연구에서는 예측값과 라벨값의 시간 차이(time difference)를 성과지표로 사용하고자 한다. 위에서 소개한 우도비 방법론은 일반화에 초점을 맞췄기 때문에, 최적화 방법론을 위한 기존 수면 연구의 평가지표는 사용할 수 없다고 판단했다.

모델의 예측값과 라벨값의 시간 차이를 비교해 본 결과, 잠이 드는 시점은 전체적으로 실제 라벨값보다 빠르게 예측하는 경향성이 있었고, 깨어나는 시점은 전체적으로 실제 라벨값보다 느리게 예측하는 경향성이 있었다. 원인을 파악하기 위해 가공하지 않은 ENMO 신호에 대해서도 LR 방법을 적용해서 수면 상태를 검출해 봤다.

그 결과가 Figure 14a에서 확인 가능하듯이, 가공하지 않은 ENMO 신호를 사용하여도 예측의 빠르고 느린 경향성은 동일하게 나타났다. 따라서 이는 수집된 ENMO 신호 자체가 그런 특성이 있기 때문이라고 추정할 수 있다. 향후 맥박이나 다른 데이터를 보완적으로 사용한다면 time diff가 낮아질 것으로 기대된다.

Sleep State Detection MDSA YeonSookKwak Original ENMO
Figure 14a. time diff 결과(original ENMO사용)
Sleep State Detection MDSA YeonsookKwak 18
Figure 14b: time diff 결과(processed ENMO사용)

[논문이야기] 수면 상태 감지 ⑤, 한계 및 추후 연구 계획으로 이어집니다.

Similar Posts