[논문이야기] 건축물 별 월간 전기/가스 사용량 예측:결합확률분포 모델 기반 예측 ③

기존 연구들, 모델에 2차 모멘트 반영하지 않아 현실 설명에 어려움 겪어
2차 모멘트가 뭐길래?
오차항들간 공분산 추정으로 '다변량 정규분포' 정의 가능해지고 에너지 추정량 예측에 큰 도움 준다

[논문이야기] 건축물 별 월간 전기/가스 사용량 예측:결합확률분포 모델 기반 예측 ②에서 이어집니다.

이전 글에서 기존 개별 건축물의 에너지 사용량은 종속 변수는 (각 월별) 에너지 사용량으로, 독립 변수는 연면적,총수, 재질 등의 건축물 속성으로 하는 회귀(Regression) 기반의 모델로 추정된다고 설명했다. 아울러 이전 글 말미에, 기존 연구가 2차 모멘트(2nd moment) 계산이 반영되지 않았기 때문에 현실을 제대로 설명하지 못한다고도 넌지시 화두를 던진 바 있다. 그런데 2차 모먼트는 무엇이며, 이를 왜 모델에 반영해야할까? 도대체 기존 연구는 어떤 문제점이 있었다는 것일까?

변수 사이에 숨겨져 있는 팩터(Factor)를 찾아야 한다

이전 글에서 개별 건축물의 월별 전기/가스 사용량 추정을 위해 각 월별 에너지 사용량을 종속변수로 두고 연면적/층수/재질 등의 건축물 속성을 설명변수로 둔 회귀모델을 만든다고 설명했다. 이러한 회귀모델에 특정 건물의 설명변수들 값을 대입하면, 해당 건물의 예상 월별 에너지 사용량을 구할 수 있다. 그러면 충분한 것일까?

건축물 속성이 거의 같으나 실제 에너지 사용량은 다른 두 개의 가상의 업무용 건물들을 생각해 보자. 두 건물은 모두 업무용 건물이며, 연면적과 층수 등의 규모도 비슷하고 사용 연수도 비슷하고 건물 재질도 비슷하다. 그러나 한 건물은 직원들이 매일 야근하고 주말 특근도 종종 하는데다 에어컨을 많이 틀어 전기 사용량이 많은 반면, 또 다른 건물은 직원들이 매일 정시에 퇴근하며 에너지 절약을 중시하는 경향이 있다고 하자.

연면적이 비슷하지만 전기 사용량이 많이 다른 두 업무용 건물들의 7월 8월 사용량 간 상관관계
예: 연면적이 비슷하지만 전기 사용량이 많이 다른 두 업무용 건물들의 7월 및 8월 사용량 사이에는 ‘양’의 상관관계가 존재한다.

이 경우 두 건물의 설명변수 값들은 매우 비슷하더라도 실제 전기 사용량에는 상당한 차이가 있을 것이다. 같은 규모・재질의 평균적 업무용 건물들 대비 전자는 전기를 많이 쓸 것이고 후자는 전기를 적게 쓸 것이다. 즉 연면적/층수/재질 등의 건축물 속성 ‘값’이 동일한 두 건물의 에너지 사용량은 ‘정시 퇴근 여부’라는 숨겨져 있는 변수에 의해 달라지게 되는 것이다. 연구 건물의 직원들 모두의 출퇴근 시간을 데이터로 수집하는 것은 현실적으로 어렵기 때문에, 이 상황에서 기존 모델에 해당 변수를 포함하는 것은 불가능하다.

물론 회귀분석에서는 오차항(error term)을 통해 이러한 변동성을 반영한다. 평균적인 건물들의 에너지 사용량은 오차항을 0으로 두고 계산하고, 평균보다 많이 사용하는 건물에 대해서는 오차항이 양수, 적게 사용하는 건물에 대해서는 오차항이 음수이다.

기존 연구들은 종속 변수 간 ‘상관관계’가 반영되지 않았다

제대로 된 연구들에서는 회귀모델의 각 설명변수에 대한 계수 추정량 뿐 아니라 오차분산 추정량도 제공한다. 이 오차분산 추정량을 이용하면 각 월 별 예상 에너지 사용량을 하나의 점추정값 뿐 아니라 신뢰구간으로 얻을 수 있다. 정상적인 회귀모델이라면 해당 신뢰구간은 위에서 언급한 에너지 사용량의 변동 범위를 거의 다 포함할 것이다. 그러나 수학적으로는 한 가지를 더 고려해야 하는데, ‘서로 다른 월의 에너지 사용량 간 상관관계’이다.

이를테면 앞서 언급한 야근이 잦고 에어컨을 많이 트는 건물의 8월 전기 사용량이, 규모가 비슷한 다른 건물들의 8월 사용량 대비 매우 크다고 하자. 이 건물은 아마 8월뿐 아니라 1, 2, … ,12월에도 마찬가지로 규모가 비슷한 다른 건물들 대비 전기를 많이 쓸 것이다. 같은 맥락으로 정시퇴근만 하고 에너지를 아끼는 건물의 8월 전기 사용량이 작다고 하면, 이 건물은 아마 다른 월에도 전기를 적게 쓸 것이다.

항상 야근 특근 하는 건물의 회귀 모델
항상 야근/특근 하는 건물의 회귀 모델(또는 항상 정시퇴근 하는 건물의 회귀 모델)의 각각 i월과 j월의 오차항(앱실론)간에는 강한 양의 상관관계가 있다

이를 수학적으로 ‘양의 상관관계가 있다’고 일컫는다. 기존의 회귀분석 기반 연구들에서는 이런 양의 상관관계가 반영되지 않았다. 이를테면 각 월 별 전기 사용량이 기존 회귀모델로 추정되는 평균적 예상 사용량을 평균으로 하는 확률분포를 따른다고 보고, 특정 건물에 대한 각 월별 전기 사용량의 표본을 뽑는다고 하자. 이 때 7월 전기 사용량의 표본값은 7월의 평균적 사용량보다 매우 높은데 8월 전기 사용량의 표본값은 8월의 평균적 사용량보다 매우 낮을 수도 있다.

상식적으로 7월에 비슷한 규모의 다른 건물들 대비 매우 많은 전기를 쓰던 건물이 8월에는 다른 건물들 대비 매우 적은 전기를 쓸 가능성은 별로 없다. 즉 회귀모델이 모든 정보를 제대로 반영했다면 하나의 건물에 대해 7월과 8월의 전기 사용량 표본들을 뽑을 경우 표본값이 두 개 월 모두에 대해 크거나 작거나 하는 상관관계를 가져야 한다. 그러나 두 월의 오차항들 간 2차 모먼트 값, 다시 말해 ‘공분산(covariance)’ 정보가 따로 없다면, 위 예시처럼 상식에 반하는 표본이 추출될 수 있다.

오차항들 간 ‘공분산’, 2차 모멘트 계산의 중요성

위 내용을 좀 더 수학적으로 살펴보자. 개별 건물의 1년간의 1월, 2월, …, 12월의 전기 사용량을 12차원 벡터 확률변수로 볼 때, 그 다변량확률변수의 1차 모멘트 벡터와 2차 모멘트 행렬의 대각성분(각 월별 추정값 오차항의 분산)들은 기존 연구에서도 추정된 바 있다. 1차 모멘트 벡터는 회귀식에 설명변수 값들을 대입하고 오차항을 0으로 둔 결과이고, 2차 모멘트 행렬의 대각성분은 각 오차항의 분산 추정량에 해당한다. 그러나 기존 연구의 경우 2차 모멘트 행렬의 비대각 성분, 즉 서로 다른 두 회귀식들의 오차항들 간 ‘공분산’은 추정되지 않아 통계 모델이 제대로 된 현실 설명에 어려움을 겪었다는 것이다.

기존 연구의 1차 모먼트 벡터 계산과 함께, 공분산까지 고려한 2차 모멘트 행렬까지 완전히 추정한다면 수학적으로는 다변량 확률변수가 근사적으로 따르는 다변량 정규분포(Multivariate Normal Distribution)을 정의할 수 있게 된다. 실제 활용의 측면에서는 해당 다변량정규분포를 통해 특정 건물의 1~12월 각 월 별 사용량의 표본들을 ‘서로 다른 월의 에너지 사용량 간 상관관계를 반영하여’ 뽑을 수 있게 된다. 이를 통해 7월에 비슷한 규모의 다른 건물들 대비 매우 많은 전기를 쓰던 건물이, 비로소 8월에도 많은 전기를 사용한다고 추정할 수 있게 되는 것이다.

이렇게 정확하게 추출된 표본들(각 월별 에너지 추정량)은 도심지 에너지 관련 연구에 불확실성을 통계적으로 분석하는데 크게 도움을 줄 수 있다. 아울러 월별 에너지 사용량 데이터를 보면 종종 일부 값들이 누락돼 있는 경우, 2차 모먼트 계산을 통해 해당 누락치가 실제 어떤 값을 가지는지 추정(imputation)할 수 있다. 즉 누락치를 합리적인 값으로 메꿔넣음으로써 데이터 품질을 크게 제고할 수 있다는 것이다.

한편 위 맥락에서의 다변량 정규분포를 정의하려면 연구 데이터가 평균을 중심으로 대칭에 가까워야 하며, 나아가 분포의 꼬리 두께도 지나치게 두껍거나 얇지 않아야 함을 밝힌다. 아울러 본 [논문이야기]에서 예시로 다루는 2021년 1월 – 2021년 12월까지의 건물 데이터(에너지 사용량, 연면적, 건물용도 등)가 앞서 언급한 전제에서 크게 벗어나지 않는다는 점을 덧붙인다.

[논문이야기] 건축물 별 월간 전기/가스 사용량 예측:결합확률분포 모델 기반 예측 ⓸로 이어집니다.