[논문이야기] 수면 상태 감지 ⑤, 한계 및 추후 연구 계획

일반화 성능 입증, 훈련 데이터와 테스트 데이터 세트에서의 성능 차이가 크지 않아
데이터 생성 과정에 맞는 데이터 변형 및 모델링 필요
향후 연구 방향으로 보완 변수, 세부 데이터 전처리, ID 간 이질성 고려 등을 제시

[논문이야기] 수면 상태 감지 ④, 일반화에 초점을 맞춰 수면·활동 분포를 활용한 우도비 비교 방법론에서 이어집니다.


이전 글에서는 간단하게 예측값과 라벨값의 시간차이(time difference)로 우도비 비교 방법론의 성능을 확인했었다. 조금 더 객관적인 평가를 위해 이번에는 훈련 데이터에 미포함된 ID(테스트 세트)의 적용 결과도 함께 살펴보려고 한다.

Sleep State Detection MDSA YeonsookKwak 17
Figure 15a. 훈련 세트: 훈련 데이터에 포함된 ID의 적용 결과
Sleep State Detection MDSA YeonSookKwak SE 2
Figure 15b. 테스트 세트: 훈련 데이터에 미포함된 ID의 적용 결과

위의 표기된 숫자들은 각 ID의 시간차이 표준오차(within individual standar error, SE)를 구해 전체의 평균을 구한 값이다. 그리고 Figure 15a는 훈련 데이터에 포함된 ID 10개를 무작위로 선택해 우도비 비교 모델을 적용한 결괏값을, Figure 15b는 훈련 데이터에 포함되지 않은 ID 3개를 무작위로 사용한 결괏값을 보여주고 있다.

우도비 비교 방법론 강건성 검증, 훈련 데이터 vs. 테스트 데이터 성능 차이

결과적으로 가공된 ENMO 신호는 훈련·테스트 데이터 세트 간의 성능 차이가 크지 않아, 일반화에 초점을 맞춘 방법론의 강건성을 다시 한번 확인할 수 있었다. 가공된 ENMO 신호는 이해할 수 있을 만한 수준의 변동성이 관찰됐지만, 가공되지 않은 오리지널 ENMO 신호의 경우에는 평균 표준오차가 많이 증가했다.

아울러 Figure 15a & b에서는 데이터 변형의 성능 개선 기여도 눈에 띄었다. 데이터 전처리 과정을 생략한 오리지널 ENMO 신호는 가공된 ENMO 신호 보다 평균 표준오차가 크다. 테스트 세트에서는 그 차이가 더 명확해지는데(Figure 15b), 가공된 ENMO 신호 데이터의 평균 표준오차가 기상(wakeup)·취침(sleep onset) 모두 20분 이상 낮아지는 것을 확인할 수 있다. 앞서 일반화 성능을 끌어올리기 위해 데이터 전처리 과정에 힘을 쏟은 이유가 바로 여기에 있다.

따라서 본 연구에서 제시한 방법론은 훈련 데이터 세트와 테스트 데이터 세트의 성능 차이를 최소화하여 모델의 일반화 성능을 입증해 냈다고 할 수 있다. 훈련 데이터 세트는 ID 10개에 대해서 무작위로 표본을 추출해 성능을 확인했으며, 훈련 분포에 활용되지 않은 ID 3개를 무작위로 추출한 테스트 데이터 세트까지 추가로 검증하여 모델의 일반화 성능을 엄격하게 실험했다. 참고로 훈련·테스트 세트에서 사용된 13개 ID에 대해서 뽑은 결과의 총일수(night)는 110일 정도 되는 긴 기간이다. 평균 표준오차 비교를 위해 충분한 기간을 사용했다고 사료된다.

주요 연구 내용 요약, 일반화 성능 극대화를 위한 데이터 변형 및 모델 변형

요약하자면 이번 연구는 최적화보다는 일반화 방법론에 초점을 맞췄다. 특히 데이터 변형 단계에서부터 일반화 성능을 향상시키기 위해 노력했다. 가속도계 데이터 기반의 로우 데이터(raw data) 통계량을 사용하면 차원이 늘어나고 이상치(outlier)나 잡음에 영향을 많이 받을 수 있어 데이터 전처리의 필요성이 높았다. 또한 수면 패턴이 일정하지 않다는 데이터 특성을 함께 고려해야 하므로 간격이 고르지 않은 데이터에서 주기성을 찾아낼 수 있는 롬-스카글 주기 분석법(Lomb-Scargle periodogram)을 적용해 데이터 안정화를 꾀했다.

모델링 측면에서는 기존의 머신러닝이나 딥러닝 모델과 같이 데이터 하나하나에 대한 적합도를 높인 것이 아니라, 정보량이 많은 분포 데이터를 활용했다. 분포는 분산(variance)보다도 정보량이 더 많으므로 모델링의 관점에서 효율성이 더 높아질 수밖에 없는 구조다. 그 결과 웨어러블 기기 착용을 시작한 지 오래되지 않은 사용자도 초기 대응(단, 1시간 이상의 데이터는 필요함)할 수 있어 기기의 실용성도 높아졌다.

더 나아가 LR 방법론은 연산 효율이 높다는 장점이 있다. 머신러닝이나 딥러닝과 같이 복잡도가 높은 모델뿐만 아니라, 기존의 이동 통계량(rolling statistic)을 활용한 모델과 비교해 봐도 연산 효율의 차이가 크다. 같은 맥락에서 LR 방법론은 유지 관리가 편하다. 모델의 복잡도가 낮고, 데이터 전처리와 LR 모델 추론 단계가 차례대로 실행되기 때문에 이후 모델의 구조 수정도 간편하다.

미래 연구 방향 제시, 보완 변수·세부 데이터 전처리·ID 간 이질성 고려 등

현재는 ENMO 신호 데이터만 사용하고 있지만, 더 많은 보완 변수(e.g. 심박수)를 사용한다면, 수면 상태 검출이 한 단계 더 정교해질 것으로 예상된다. 그리고 ID 별로 데이터 전처리를 할 때에 업데이트 사항도 세부적으로 만든다면 성능이 향상될 것으로 보인다. 실제로 이번 연구에서는 간단한 실험으로만 과거 분포 데이터 사용 허용 기간이나, 주빈도(dominant frequency)를 결정짓는 기간을 선정했는데, 이후 정밀하게 조절하는 것을 고려해 볼 수 있을 것 같다.

ID 간(between individual) 존재하는 이질성도 고려해야 할 대상이다. 향후 연구에서 그룹(활동성이 보통 이상인 그룹 vs. 활동이 거의 없는 그룹)을 나눠서 분석한다면, 지금의 임곗값을 조정하는 방식보다 더 높은 정확도를 얻을 수 있을 것이다. 또한 연구 대상 집단을 확장하면, 비즈니스 측면이나 수면 연구 측면에서 사람 간의 인구학적 특징(demographic characteristic)을 반영할 수 있다는 점에서 공중보건 연구(public healthcare research)에 더 많은 기여가 가능할 것으로 전망된다.

불확실성 속에서의 의미 있는 추론, 현실적인 맥락에서의 모델 선택

아직은 보조적인 역할이 강하더라도 지속적으로 데이터의 특성을 업데이트하면 수면 연구 관련 분야에 잠재력이 크다고 생각된다. 실제로 이번 연구에서 사용한 데이터를 제공한 Healthy Brain Network에서는 수면 상태와 아이들의 심리 상태를 연관 지어서 연구하려는 의도도 가지고 있었다. 수면 상태 측정을 인간의 심리나 사회 현상에 연결 지어 분석하고자 하는 측면에서 보조도구로서의 중요성이나 흥미가 높다는 것을 엿볼 수 있다.

결국 현상에 대한 이해는 주어진 정보를 어떻게 활용하는가에 달려있다고 생각한다. 이번 연구에서 사용한 데이터는 신호 데이터다. 그리고 대부분의 신호 측정값은 잡음(noise)이 끼어 있어 기본적으로 불확실성을 가지고 있다. 게다가 수면 상태에 대한 이해는 도메인 전문성이 필수적으로 요구되며 직접 측정 또한 어려운 분야다. 어떻게 보면 직접 측정을 할 수 없거나 일부만 측정할 수 있는 연구지만, 최근 웨어러블 기기의 발전과 발맞춰 간접적으로 인간의 수면 상태에 대해 예측을 하고자 한 것이다.

끝으로 최적화와 일반화는 항상 큰 틀에서 보면 상충(trade-off)관계가 있을 수밖에 없다. 본 논문에서는 일반화에 초점을 맞춰 이야기를 풀어나갔지만, 비즈니스적으로 정밀함이 얼마나 요구되는지에 따라 최적화의 가중치도 유동적으로 결정해야 할 것으로 사료된다. “One size fits all”이란 말의 모순과 같이 언제나 완벽하게 100% 해결해 주는 것은 불가능에 가까운 것처럼, 데이터에 따라 때로는 처한 상황에 따라 선택이 필요하다는 생각으로 글을 마친다.

Similar Posts