건축물 별 월간 전기/가스 사용량 예측: 결합확률분포 모델 기반 예측

160X600_GIAI_AIDSNote

우리는 집에서 전기와 가스를 사용하고 매달 전기요금 고지서와 가스요금 고지서를 받는다. 여름에는 더위 때문에 에어컨을 많이 사용하고는 전기요금이 많이 나올까 걱정하고, 겨울에는 추위 때문에 난방을 온종일 틀어놓고 비싼 가스 요금을 걱정하기도 한다.

용도별 단위에너지생산량
용도별 단위에너지생산량 [kWh/y] 중 일부/출처=한국에너지공단 신재생에너지센터

송정훈 박사는 지난 5월 12일 개최된 ‘데이터사이언스경영학회 2023년 제1차 세미나’에서 한국에너지공단이 공개한 위의 통계자료를 지적하며, 이러한 전기와 가스 소비는 가정뿐만 아니라 비주거용 건물들 내 에너지 사용량 또한 건물의 용도에 따라 상당한 차이를 보인다고 전했다.

또한 그는 “정부 부처 및 공기업에서 신축/증축 예정 공공건물에 신재생에너지를 도입해 일정량의 에너지를 자체 생산하는 계획을 구상한다고 할 때 해당 건물의 예상 에너지 사용량을 계절적 추이를 반영하여 정확하게 추정하는 작업은 필수적”이라고 했다.

아울러 송 박사는 기존 ‘건축물별 월간 전기/가스 사용량 예측 연구’는 월 별 추정치에 대한 상관관계가 반영되지 않았다는 점을 지적했다. 예컨대 야근이 잦고 에어컨을 많이 트는 건물의 8월 전기 사용량이, 규모가 비슷한 다른 건물들의 8월 사용량 대비 매우 크다면 해당 건물의 1,2, …, 12월도 마찬가지로 규모가 비슷한 다른 건물들 대비 전기를 많이 쓸 것이다. 이를 수학적으로 ‘양의 상관관계가 있다’고 하는데, 기존의 연구에서는 이러한 관계를 반영하지 않았다는 것이다.

지난 12일 ‘데이터사이언스경영학회 제1차 세미나’에서 송정훈 박사가 ‘건축물 별 월간 전기/가스 사용량 예측’ 논문에 대해 설명하고 있다/사진=데이터사이언스 경영 연구소

이런 기존 연구의 한계점에 주목한 송 박사는 월 별 추정치의 상관관계를 반영하기 위해 2차 모먼트 행렬의 비대각성분(서로 다른 두 회귀식들의 오차항들 간 공분산)을 계산한 회귀 모델링을 통해 월별 에너지 사용량을 보다 정확하게 예측할 수 있었다고 강조했다.

이렇게 공분산, 즉 2차 모멘트 행렬의 비대각 성분을 구하게 되면 이를 이용해 월 별 전기/가스 사용량을 확률변수로 하는 다변량 정규분포를 정의할 수 있게 된다. 이 때 송 박사는 동일 규모의 건물들 대비 에너지를 상대적으로 적게 쓰는 건물의 사용량과 많이 쓰는 건물들 간 사용량 편차가 건물의 규모 증가에 따라 커지는 현상, 즉 이분산성(Heteroskedasticity)를 확인하고 이를 보정하기 위해 잔차의 제곱항 및 교차항을 종속변수, 연면적의 제곱을 독립변수로 하는 보조 회귀를 진행했다. 또한 보조 회귀로 구한 공분산행렬을 양의 부정부호(semi-positive)를 충족시키기 위해 대각화 분해 고윳값들 중 음수에 해당하는 값을 0으로 교체하는 추가적인 작업을 거쳤다.

이어 송 박사는 ‘보정된’ 다변량정규분포로부터 1년 간의 월 별 에너지 사용량의 표본을 추출하고 이를 실제 데이터의 추이와 비교해 본인의 모델이 현실을 제대로 설명함을 증명했다. 또한 그는 이번 연구를 통해 조건부 다변량정규분포의 평균을 활용해 공공 기관이 공개한 데이터 베이스 중 월별 에너지 사용량의 누락된 부분을 보다 정확히 추정할 수 있다고 밝혔다. 즉 제대로 기록된 데이터를 조건으로 하는 다변량정규분포의 조건부평균을 사용해 누락값을 합리적으로 추정할 수 있다는 것이다.

아래는 논문 발표 이후 송 박사가 받은 질문과 답변을 요약한 것이다.

(1) 최근 ESG가 각광받으면서 건축물의 연간 에너지 사용량이 가스 및 전기 에너지 사용량이 조금씩 바뀔 것으로 생각되는데, 해당 연구는 시계열 분석이 아니기 때문에 시간의 효과를 제대로 설명 못하지 않나. 시간불변 변수를 고정 효과로 보고, 시간의 영향을 받는 나머지 변수들은 랜덤 효과로 간주해 패널 분석을 진행한다면 나름의 현실을 반영하는 모델링이 가능하지 않나.

답변) 본 연구는 개별 건물 각각에 대한 연구가 아니기 때문에 통상적인 시계열 모델이라고 볼 수 없다고 판단된다. 또한 패널 모델로 이를 분석할 수 있겠으나, 일반적으로 에너지 사용량의 과거항을 포함하는 동적 패널 모델은 사용하지 않는다. 또한 동적 패널모형에서 시간불변 설명변수(연면적, 층수, 사용연수)를 포함할 경우 추정방법이 난해해 모델의 직관적 설명을 방해한다. 따라서 본 연구의 회귀 모델을 연도 별로 꾸준히 업데이트 하는 것이 최선이라고 본다.

(2) 건물 연면적 분포를 보면 왼쪽으로 상당히 쏠려있는 분포임을 확인할 수 있고, 이로 인해 이분산성이 발생한 것으로 짐작된다. 이를 보정하기 위해 로그변환을 시도해볼 수 있지 않았나.

답변) 말씀하신 바와 같이 변수 변환을 적용해봤으나 그 효과가 크지 않았다. 한편 Imputation(결측치 및 이상치 대체) 과정에서 데이터의 범위가 축소되어 이상치 탐지가 기존의 10% 수준으로 떨어지는 등 본 연구의 목적과 부합하지 않게 되는 이슈가 발생했다.

(3) 해당 연구는 2차 모먼트에 집중했는데, 3차 이상의 모먼트 값을 볼 인센티브는 없었나.

답변) 정규분포의 왼쪽 꼬리와 오른쪽 꼬리가 조금 다른 부분은 있었지만, 잔차의 분포의 최빈값(mode)이 0에 가깝기 때문에 3차 모먼트에 해당하는 왜도(skewness)가 유의미하게 나타나지 않았다. 한편으로는 3차 모먼트 이상의 정보를 반영할 시 과적합의 리스크가 있을 것으로 판단해 모델에 포함하지 않았다.

(4) 모델링 과정에서 선택 편향(selection bias)가 존재하진 않았나.

답변) 데이터 전처리 과정에서 이상치를 제거하면서 약간의 선택 편향이 존재 했을 가능성은 있다. 그러나 빈도 수 관점에서 봤을 때 표본이 모집단을 잘 설명한다고 판단했다. 원래 반영되어야 할 모집단의 특성이 전처리로 인해 반영되지 않았다고는 생각하지 않는다. 오히려 전처리 과정에서 이상치를 최대한 적절하게 제거해서 다변량정규분포를 만들고, 제거된 자리에 분포 정보를 이용해 적절한 값을 대체해주는 것이 선택 편향을 줄일 수 있는 방법일 것으로 생각된다.