SIAI Yearbook – 2023

Jeonghun Song (MSc, 2023)

Estimated reading: 1 minute 243 views
160X600_GIAI_AIDSNote

대내외 경제 불확실성으로 올겨울 에너지 관련 원자재 가격 급등은 ‘예견’된 가운데, 전문가들은 지금부터라도 겨울철 에너지 사용량을 정확하게 예측하는 한편, 에너지 절약을 위한 대응 방안을 마련해야 한다고 당부했다. 그러나 정작 업계에서는 기존 에너지 사용량 추정에 사용됐던 방법론에 대해 의문을 제기하는 분위기다. 해당 연구들의 방법론이 현실을 제대로 대변하지 못한다는 이유에서다.

그렇다면 어떻게 정확하게 에너지 사용량을 예측할 수 있을까? 또한 정확하게 예측된 에너지 사용량은 이외에도 어떤 파급효과를 불러올 수 있을까? 이번 글을 통해 ‘결합확률분포’ 모델을 기반으로 보다 현실적으로 에너지 사용량을 예측할 수 있는 통계적 방법론을 대중들에게 쉽게 풀어보고자 한다.

Figure 1. 미국 시카고상품거래소(CME)에 따르면 현지시간으로 지난 8월 11일 네덜란드 TTF의 LNG 현물가격이 MMBtu당 62.5달러까지 치솟았다/출처=CME

Ⅰ. 전 세계 원자재 수급 비상사태

지난 8월 11일 미국 시카고상품거래소(CME)에 따르면 2일 유럽 LNG 현물가격이 MMBtu당 62.5달러까지 치솟은 것으로 집계됐다. 이는 지난 해 동월 8~10달러 대비 6~7배 높은 수준이며, 올해 3월 역대 최고가를 갱신한 63달러에 거의 근접한 수치다.

전문가들은 유럽 LNG 가격이 급등한 이유를 러시아의 천연가스 공급량 ‘옥죄기’에서 비롯됐다고 보는 분위기다. 러・우 전쟁이 한창인 가운데 미국을 비롯한 서방이 원자재 수입에 루블화 대금 지불을 거부하는 등 러시아를 압박하면서, 이에 대응하기 위해 러시아 또한 천연가스 공급을 현저하게 줄였다는 것이다.

실제 러시아는 루블화로 대금지급을 거부한 불가리아, 폴란드, 네덜란드, 필란드, 라트비아, 덴마크에 천연가스 공급을 일절 중단했고, 지난달 말에는 최대 수요처인 독일의 노드스트림1 가스관의 공급량도 20% 수준으로 대폭 낮췄다. 이에 따라 천연가스 수급이 부족해진 유럽은 대체재인 글로벌 LNG 현물을 모두 끌어당기면서 동북아 LNG 현물가도 지난 7월 27일 50달러를 기록하는 등 크게 오르게 됐다.

LNG 공급난에 ‘기름’을 붓는 격으로 6월 기준 1500만 톤의 LNG를 수출하는 미국 최대 규모 수출기지인 프리포트LNG에서 폭발사고가 발생해 연말까지 가동이 제한된 데다, 세계 1위 LNG 수출국인 호주는 원자재 가격 안정을 명목으로 천연가스 수출 제한을 검토하면서 업계에서는 올 하반기 원자재 수급의 ‘암흑기’가 도래할 것이라고 보고 있다.

문제는 위 언급한 지정학적 배경으로 인해 우리나라도 원자재 수급에 엄청난 타격을 받고 있다는 것이다. 천연가스 수요가 적은 여름・가을철에 벌써 LNG 현물가격이 사상 최고 수준에 근접하고 있는 실정이며, 난방 수요가 발생하는 겨울철의 LNG 가격은 상상하기도 어려울 정도로 오를 것이라는게 업계에서의 공통된 의견이다.

‘예견된’ 에너지 대란, 지금부터 대비해야

이처럼 예견된 에너지 대란에, 전문가들은 겨울철 LNG 현물가격이 올 3월 역대 최고치를 기록한 MMBtu당 63달러를 넘어 100달러 이상을 훌쩍 넘길 가능성을 점치며, 우리나라 또한 지금부터 겨울철 에너지 사용량을 정확하게 예측하고, 에너지절약을 통한 자원 비축에 나서야 한다고 지적했다. 그렇다면, 우리나라에서 에너지 사용량은 어떻게 추정되고 있으며, 얼마나 정확하게 추정되고 있을까. 이를 이해하기 위해 먼저 우리나라의 전기・가스 소비가 어떻게 이뤄지고 있는지 살펴보자.

전기와 가스 소비는 일반 가정 뿐만 아니라 업무시설, 상업시설 등의 비주거용 건물들에서도 마찬가지로 다양한 형태로 이뤄진다. 특히 비주거용 건물들 내 에너지 사용량은 건물의 용도에 따라 상당한 차이를 보인다. 실제 한국에너지공단 신재생에너지센터가 발표한 ‘용도별 단위에너지사용량[kWh/y]'(아래 표)에 따르면, 각 건물의 용도별로 에너지 사용량의 편차가 상당 부분 존재하는 것을 확인할 수 있다.

아울러 아래 표의 ‘단위 면적 당 에너지 사용량의 평균값’을 활용해 1년 간 특정 건물이 사용할 에너지 총량의 추정값을 구해볼 수 있다. 이는 아래 표에서 용도에 맞는 연간 평균적 사용량 수치를 대상 건물의 연면적에 곱하는 방식으로 계산된다. 이를테면 연면적이 1,000 제곱미터인 업무시설의 연간 에너지 사용량의 추정치는 371,660 kWh이 되는 것이다.

Table 1. ‘용도별 단위에너지사용량 [kWh/y]의 평균값’ 중 일부/출처=한국에너지공단 신재생에너지센터
널리 활용되는 에너지 사용 추정치

이러한 개별 건물의 에너지 사용량 추정치는 광범위하게 사용될 수 있다. 앞서 살펴봤듯 에너지 원자재 가격이 최고치를 달성할 것이라는 전망이 지배적인 현 시점에서, ‘비싼’ 에너지가 낭비되지 않고 효율적으로 분배될 수 있도록 하는데 에너지 사용량 추정치가 활용될 수 있다.

또한 위 통계자료를 공개한 한국에너지공단은 해당 자료를 공공건축물의 신재생에너지 의무량 산정에 적극 활용하고 있다. 예컨대 어떤 신축/증축 예정 공공건물에 신재생에너지를 도입해 일정량의 에너지를 자체 생산할 계획이라고 하자. 만약 신재생에너지의 생산량이 많은지 부족한지를 판단하기 위해서는 해당 건물의 예상 에너지 사용량과 비교해야하는데, 이 때 위 통계자료를 이용해 해당 건물의 예상 에너지 사용량을 추정하고 그 추정치 대비 상대비율로 신재생에너지 생산량을 판단한다.

아울러 건물 에너지 사용량 추정치의 용도는 개별 건물에 국한되지 않고 구역/지역 단위로 확장될 수도 있다. 도시 내 특정 구역 내 대규모의 건물 신/증축 혹은 특정 지역 내 신도시 건설 계획이 추진된다고 하자. 해당 계획대로 건물들이 건설되면 지역적 에너지 수요도 증가할 것이다.

그러나 위 자료를 이용한 추정은 종속변수를 에너지 사용량, 독립변수를 연면적으로 하는 단변량 회귀분석(one-variable regression)에 불과하다는 단점이 있다. 다시 말해 건물의 에너지 사용량은 각 건물 내의 냉난방 및 공조시설, 건축 재질 및 구조, 단열 상태 등의 다양한 요소가 복합적으로 영향을 미치기 때문에, 이를 ‘연면적’이라는 하나의 변수로만 설명하는 것은 그 정확도를 담보하기 어렵다는 것이다.

그러므로 에너지 관련 업무를 담당하는 정부 부처 및 공기업에서는 해당 신/증축 건물들로 인한 에너지 수요 증가가 어느 정도일지를 가능한 한 정확히 추정해야 한다. 그래야 에너지원 수급, 에너지 생산 및 수송 설비 투자 등에 관한 효율적 의사결정이 가능하기 때문이다. 이러한 추정을 위해서 개별 건물의 에너지 사용량 추정 모델이 필요함은 자명하다.

Ⅱ. 회귀분석 기반 기존 에너지 추정 연구들

이상적으로는, 개별 건물의 에너지 사용량의 정확한 추정을 위해서 각 건물 내 냉난방 및 공조시설, 건출 재질 및 구조, 단열 상태, 재실 인원 및 스케줄 등의 상세한 모든 특성들을 분석에 반영하는 것이 맞을 것이다. 이런 방식으로 추정하는 모델을 물리적 모델(Physical Model)로도 부른다.

그러나 물리적 모델을 통한 에너지 사용량 예측은 현실적으로 어렵다. 대부분의 신축 건물의 경우 건설사에서 모든 정보를 공개하고 있지 않기 때문이다. 그나마 하나의 건물만을 대상으로 하는 프로젝트라면 건설사・시공사에 직접 ‘발로 뛰어가며’ 정보를 수집해볼 수 있겠으나, 구・지역 단위의 에너지 사용량을 추정하고자 할 경우 천문학적인 ‘돈’ 낭비를 하게 될 것이다.

따라서 연구자 입장에서는 에너지 사용량을 몇 가지 단순한 건물 속성들에 회귀해 에너지 사용량을 추정하는 통계적 모델(Statistical Model)을 활용하는 것이 최선이다. 다시 말해 종속변수가 개별 건물의 에너지 사용량, 설명변수가 건물의 몇 가지 속성들 (연면적, 용도, 층수, 사용연수, 재질 등) 인 회귀모델(Regression Model)을 만드는 것이다. 앞에서도 언급했듯, ‘한국에너지공단의 용도별 단위면적당 에너지 사용량’도 가장 단순한 형태의 회귀 모델(one-variable regression)에 해당한다는 것을 다시 한번 강조한다.

회귀 분석(Regression Analysis)은 관찰된 독립 변수들과 종속 변수 사이의 상관관계를 밝혀내는 대표적인 통계적 방법론이다. 연구자는 회귀분석을 사용해 특정 독립 변수의 변화가 ‘얼마 만큼’의 종속 변수의 변화를 견인하는지 통계적으로 검정할 수 있으며, 나아가 독립 변수를 통해 종속 변수의 값을 합리적으로 예측할 수 있다. 물론 합리적인 분석을 담보하기 위해서는 본인 모델이 가우스-마르코프(Gauss-Markov Assumption) 가정을 위배하지 않는지 등의 수학・통계학에 기반한 다양한 고민들이 필요하며, 이에 대한 세부사항은 본 연구 후반부에서 다시 언급될 예정이다.

개별 건물들의 월별 전기 사용량 기록 데이터
Table 2. 개별 건물들의 월별 전기 사용량 기록 데이터/출처=건축데이터 민간개방 시스템

개별 건축물의 월별 에너지 사용량을 종속변수로 두는 회귀모델 연구를 위해서는 그 데이터가 필요한데, 국내에서는 비주거용 건물들의 건축물 별 월별 에너지 사용 기록 데이터를 건축데이터 민간개방 시스템(https://open.eais.go.kr/main/main.do) 에서 공개하고 있다. 개별 건축물의 설명변수 자료는 표제부에 기록되어 있으며, 이 역시 건축데이터 민간개방 시스템에서 제공한다. 즉 건축물의 월별 에너지 사용량 데이터와 표제부 데이터를 결합하여 누구나 해당 연구를 수행할 수 있다.

본론으로 다시 돌아와보자. 앞서 언급한 현실적인 ‘비용’ 문제로 인해, 그리고 회귀모델 연구를 위한 데이터 수집이 쉽다는 이유로, 그간 개별 건물의 에너지 사용량 추정을 위한 연구들은 회귀분석 기반 통계적 모델이 주를 이뤘다. 특히 국내에서 수행된 대표적인 연구는 ‘서울시 가정/상업부문 건물에너지 표준모델 개발(김민경 등, 2014)’가 있다. 해당 연구에서는 전기의 월별 사용량을 다양한 설명변수들과 각 월별 더미 변수(dummy, 기존 변수를 특정 기준에 따라 0과 1로 변환한 변수)에 선형회귀(Linear Regression)해 모델을 도출한다. 한편 해외의 대표적인 난방 에너지 추정량 연구에서도 난방기간 내 각 월의 ‘단위 면적 당’ 난방 에너지 사용량을 건축 및 기후 설명변수에 회귀해 모델을 도출한다.

월별 에너지 사용 추이

앞서 살펴본 기존 연구들의 한 가지 공통점을 뽑자면, 회귀모델의 종속변수가 ‘연간’ 에너지 사용량이 아닌, ‘월별’ 에너지 사용량이라는 것이다. 이는 에너지 사용량의 계절적 추이를 반영하기 위해서다. 여름에 에어컨을 켜기 때문에 전기 사용량이 타 월 대비 높고, 겨울에 난방을 하기 때문에 가스 사용량이 타월 대비 높다는 것과 같은 맥락이다. 전기 사용량이 7,8월에 크고, 가스 사용량은 12~2월에 크다는 것은 우리에게 놀랍지 않은 사실이다. 실제 대부분의 건물에서 아래 Figure 4와 같은 에너지 사용량의 ‘계절적 추이’를 확인할 수 있다.

건물 내 전기 가스 사용량의 일반적 계절 추이
Figure 2. 건물 내 전기 가스 사용량의 일반적 계절 추이

따라서 에너지원 수급 계획과 에너지 생산 설비의 유지보수 계획을 수립할 때는 계절적 변동을 고려해 월별 에너지 수요를 정확히 예측해야 한다. 이를 통해 에너지 소비가 많은 시기에는 충분한 에너지를 확보하여 정전 사태를 예방하고, 소비가 적은 시기에는 에너지 재고를 최소화하여 정부 예산을 효율적으로 사용할 수 있어야 한다. 그러나 기존 연구들의 에너지 사용량 추정은 현실을 제대로 반영하지 못해 정확성이 낮다는 이유로 업계에서 충분히 활용되지 못하고 있다. 이는 기존 회귀 모델이 월별 에너지 사용량에 대한 2차 모멘트를 기반으로 한 ‘결합’ 확률분포 모델을 반영하지 않았기 때문이다.

변수 사이에 숨겨져 있는 팩터

건축물 속성이 거의 같으나 실제 에너지 사용량은 다른 두 개의 가상의 업무용 건물들을 생각해 보자. 두 건물은 모두 업무용 건물이며, 연면적과 층수 등의 규모도 비슷하고 사용 연수도 비슷하고 건물 재질도 비슷하다. 그러나 한 건물은 직원들이 매일 야근하고 주말 특근도 종종 하는데다 에어컨을 많이 틀어 전기 사용량이 많은 반면, 또 다른 건물은 직원들이 매일 정시에 퇴근하며 에너지 절약을 중시하는 경향이 있다고 하자.

연면적이 비슷하지만 전기 사용량이 많이 다른 두 업무용 건물들의 7월 8월 사용량 간 상관관계
Table 3. 연면적이 비슷하지만 전기 사용량이 많이 다른 두 업무용 건물들의 7월 및 8월 사용량 사이에는 ‘양’의 상관관계가 존재한다

이 경우 두 건물의 설명변수 값들은 매우 비슷하더라도 실제 전기 사용량에는 상당한 차이가 있을 것이다. 같은 규모・재질의 평균적 업무용 건물들 대비 전자는 전기를 많이 쓸 것이고 후자는 전기를 적게 쓸 것이다. 즉 연면적/층수/재질 등의 건축물 속성 ‘값’이 동일한 두 건물의 에너지 사용량은 ‘정시 퇴근 여부’라는 숨겨져 있는 변수에 의해 달라지게 되는 것이다. 연구 건물의 직원들 모두의 출퇴근 시간을 데이터로 수집하는 것은 현실적으로 어렵기 때문에, 이 상황에서 기존 모델에 해당 변수를 포함하는 것은 불가능하다.

물론 회귀분석에서는 오차항(error term)을 통해 이러한 변동성을 반영한다. 평균적인 건물들의 에너지 사용량은 오차항을 0으로 두고 계산하고, 평균보다 많이 사용하는 건물에 대해서는 오차항이 양수, 적게 사용하는 건물에 대해서는 오차항이 음수다.

종속 변수 간 ‘상관관계’

제대로 된 연구들에서는 회귀모델의 각 설명변수에 대한 계수 추정량 뿐 아니라 오차분산 추정량도 제공한다. 이 오차분산 추정량을 이용하면 각 월 별 예상 에너지 사용량을 하나의 점추정값 뿐 아니라 신뢰구간으로 얻을 수 있다. 정상적인 회귀모델이라면 해당 신뢰구간은 위에서 언급한 에너지 사용량의 변동 범위를 거의 다 포함할 것이다. 그러나 수학적으로는 한 가지를 더 고려해야 하는데, ‘서로 다른 월의 에너지 사용량 간 상관관계’이다.

이를테면 앞서 언급한 야근이 잦고 에어컨을 많이 트는 건물의 8월 전기 사용량이, 규모가 비슷한 다른 건물들의 8월 사용량 대비 매우 크다고 하자. 이 건물은 아마 8월뿐 아니라 1, 2, … ,12월에도 마찬가지로 규모가 비슷한 다른 건물들 대비 전기를 많이 쓸 것이다. 같은 맥락으로 정시퇴근만 하고 에너지를 아끼는 건물의 8월 전기 사용량이 작다고 하면, 이 건물은 아마 다른 월에도 전기를 적게 쓸 것이다.

항상 야근 특근 하는 건물의 회귀 모델
항상 야근/특근 하는 건물의 회귀 모델(또는 항상 정시퇴근 하는 건물의 회귀 모델)의 각각 i월과 j월의 오차항(앱실론)간에는 강한 양의 상관관계가 있다

이를 수학적으로 ‘양의 상관관계가 있다’고 일컫는다. 기존의 회귀분석 기반 연구들에서는 이런 양의 상관관계가 반영되지 않았다. 이를테면 각 월 별 전기 사용량이 기존 회귀모델로 추정되는 평균적 예상 사용량을 평균으로 하는 확률분포를 따른다고 보고, 특정 건물에 대한 각 월별 전기 사용량의 표본을 뽑는다고 하자. 이 때 7월 전기 사용량의 표본값은 7월의 평균적 사용량보다 매우 높은데 8월 전기 사용량의 표본값은 8월의 평균적 사용량보다 매우 낮을 수도 있다.

상식적으로 7월에 비슷한 규모의 다른 건물들 대비 매우 많은 전기를 쓰던 건물이 8월에는 다른 건물들 대비 매우 적은 전기를 쓸 가능성은 별로 없다. 즉 회귀모델이 모든 정보를 제대로 반영했다면 하나의 건물에 대해 7월과 8월의 전기 사용량 표본들을 뽑을 경우 표본값이 두 개 월 모두에 대해 크거나 작거나 하는 상관관계를 가져야 한다. 그러나 두 월의 오차항들 간 2차 모먼트 값, 다시 말해 ‘공분산(covariance)’ 정보가 따로 없다면, 위 예시처럼 상식에 반하는 표본이 추출될 수 있다.

오차항들 간 ‘공분산’

위 내용을 좀 더 수학적으로 살펴보자. 개별 건물의 1년간의 1월, 2월, …, 12월의 전기 사용량을 12차원 벡터 확률변수로 볼 때, 그 다변량확률변수의 1차 모멘트 벡터와 2차 모멘트 행렬의 대각성분(각 월별 추정값 오차항의 분산)들은 기존 연구에서도 추정된 바 있다. 1차 모멘트 벡터는 회귀식에 설명변수 값들을 대입하고 오차항을 0으로 둔 결과이고, 2차 모멘트 행렬의 대각성분은 각 오차항의 분산 추정량에 해당한다. 그러나 기존 연구의 경우 2차 모멘트 행렬의 비대각 성분, 즉 서로 다른 두 회귀식들의 오차항들 간 ‘공분산’은 추정되지 않아 통계 모델이 제대로 된 현실 설명에 어려움을 겪었다는 것이다.

기존 연구의 1차 모먼트 벡터 계산과 함께, 공분산까지 고려한 2차 모멘트 행렬까지 완전히 추정한다면 수학적으로는 다변량 확률변수가 근사적으로 따르는 다변량 정규분포(Multivariate Normal Distribution)를 정의할 수 있게 된다. 실제 활용의 측면에서는 해당 다변량정규분포를 통해 특정 건물의 1~12월 각 월 별 사용량의 표본들을 ‘서로 다른 월의 에너지 사용량 간 상관관계를 반영하여’ 뽑을 수 있게 된다. 이를 통해 7월에 비슷한 규모의 다른 건물들 대비 매우 많은 전기를 쓰던 건물이, 비로소 8월에도 많은 전기를 사용한다고 추정할 수 있게 되는 것이다.

이렇게 정확하게 추출된 표본들(각 월별 에너지 추정량)은 도심지 에너지 관련 연구에 불확실성을 통계적으로 분석하는데 크게 도움을 줄 수 있다. 아울러 월별 에너지 사용량 데이터를 보면 종종 일부 값들이 누락돼 있는 경우, 2차 모먼트 계산을 통해 해당 누락치가 실제 어떤 값을 가지는지 추정(imputation)할 수 있다. 즉 누락치를 합리적인 값으로 메꿔넣음으로써 데이터 품질을 크게 제고할 수 있다는 것이다.

한편 위 맥락에서의 다변량 정규분포를 정의하려면 연구 데이터가 평균을 중심으로 대칭에 가까워야 하며, 나아가 분포의 꼬리 두께도 지나치게 두껍거나 얇지 않아야 함을 밝힌다. 아울러 본 이야기에서 예시로 다루는 2021년 1월 – 2021년 12월까지의 건물 데이터(에너지 사용량, 연면적, 건물용도 등)가 앞서 언급한 전제에서 크게 벗어나지 않는다는 점을 덧붙인다.

Ⅲ. 다변량 정규분포를 활용한 표본 추출

2차 모멘트 행렬을 기반으로 다변량 정규분포를 정의하며, 이때 해당 다변량 정규분포로부터 1년간의 1월, 2월, …, 12월의 에너지 사용량의 표본을 추출할 수 있다. 이는 회귀 모델의 잔차(residual) 간 상관관계를 반영해 ‘계절적 추이를 반영해서’ 표본을 뽑는다는 점에서 앞에서 살펴본 기존 연구들과는 차별된다. 쉽게 말해 이제는 7월에 비슷한 규모의 다른 건물들 대비 매우 많은 전기를 쓰던 건물이, 비로소 8월에도 많은 전기를 사용한다고 추정할 수 있게 되는 것이다.

공분산을 반영한 예시

실제 필자의 위 주장이 타당한지 아래 그림의 다변량 정규분포로부터 추출된 에너지 사용량 데이터 표본들을 살펴보자.

주어진 건물 속성에 대한 월별 에너지 사용량 벡터의 표본들
Figure 3. 주어진 건물 속성에 대한 월별 에너지 사용량 벡터의 표본들

위 그림을 통해, 실제 표본들에서의 에너지 사용량의 계절적 추이가 실제 데이터의 추이와 매우 비슷하다는 것을 확인할 수 있다. 예컨대 에어컨을 많이 트는 여름철 7-8월의 경우 전기 사용량이 크게 증가하는 한편, 난방을 많이 가동하는 겨울철인 12-2월의 경우 가스 사용량이 크게 증가하는 것을 통해 우리의 통계 모델이 현실을 제대로 반영하고 있다는 것을 확인할 수 있다.

공분산을 반영하지 않은 예시

한편 기존 연구들처럼 서로 다른 월의 에너지 사용량 간 공분산(covariance)을 고려하지 않는 경우의 표본 추출이 어떻게 이뤄지는지 살펴보자. 이는 위 표본 추출에 사용한 다변량 정규분포에서 공분산행렬의 비대각 성분을 0으로 보는 것과 같다. 만약 비대각 성분을 0으로 만들고 표본을 뽑는다면, 아래와 같이 들쭉날쭉한 추이를 보이는 표본을 얻게 된다.

공분산을 고려하지 않을 경우 추출되는 비현실적 표본들
Figure 4. 공분산을 고려하지 않을 경우 추출되는 비현실적 표본들

상식대로라면, 만약 7월에 대해 평균보다 상당히 적은 에너지 사용량을 표본으로써 뽑았다면 이는 에너지를 적게 쓰는 건물이 돼야할 것이다. 이에 따라 같은 건물의 8월 사용량도 평균보다 상당히 적어야 할 것이다.

그러나, 이번에는 모델이 공분산이라는 정보를 활용하지 못해 비상식적인 표본이 추출된 것을 확인할 수 있다. 즉 위 자료의 첫 번째 그림이 보여주듯, 7월에 비슷한 규모의 다른 건물들 대비 매우 적은 전기를 쓰던 건물이 8월에는 다른 건물들 대비 매우 많은 전기를 쓰게 된 것이다.

다변량 정규분포를 활용한 누락치 추정

표본 추출에 이어서 또 하나의 활용 사례로, 누락치 추정(Imputation)을 들 수 있다. 예컨대 국토교통부 데이터에는 건물별 월별 에너지 사용량이 종종 누락되어 있다. 또는 기록된 사용량 중 일부가 이상한 경우도 있다. 나머지 월에 대해서는 올바르게 기록된 사용량이 존재할 때, (올바르게) 기록된 사용량들을 기반으로 누락된 사용량을 추정할 수 있을까?

빌딩 데이터 이상치
Table 4. 특정 건물의 월별 에너지 사용량이 연속적으로 누락돼 중간값 자체를 정의할 수 없는 경우 기존과는 다른 누락치 추정법이 필요하다

만약 세 개의 연속된 월 중 처음과 마지막 월은 사용량이 기록되어 있고 두 번째 월만 누락되어 있다면, 중간값을 쓰는 것으로 타협할 수 있다. 하지만 만약 두 개의 월이 연속적으로 누락되어 있다면? 혹은 시간적으로 마지막 월의 사용량이 누락되어 있어 후행하는 월의 사용량과의 중간값 자체가 정의되지 않는다면? 이 때는 어떻게 할 것인가?

조건부 다변량 정규분포의 평균치를 활용해서 누락치를 합리적으로 추정할 수 있다

이 연구에서 도출한 다변량 정규분포를 활용하면 어떤 경우에도 합리적으로 누락치를 추정할 수 있다. 위 수식에서 확인할 수 있듯, 다변량 정규분포를 따르는 확률변수 벡터의 원소들 중 일부의 값이 고정될 경우, 고정되지 않은 나머지 원소들의 확률분포는 고정값들을 조건부로 하는 축소된 차원의 다변량 정규분포를 따른다. 즉 이 조건부 다변량 정규분포의 조건부평균을 활용해 누락치를 합리적으로 추정할 수 있게 된 것이다.

조건부 다변량정규분포를 이용한 누락치 추정 예시
Figure 5. 조건부 다변량정규분포를 이용한 누락치 추정 예시

위 그림은 조건부 다변량 정규분포의 조건부 평균을 활용해 누적치를 실제로 메워넣은 그래프다. 파란색 실선은 어떤 건물의 실제 월별 에너지 사용량이고, 주황색 동그라미들은 2, 7, 10월 사용량이 누락됐다고 가정 시 나머지 월들의 사용량을 조건부로 하는 다변량 정규분포의 조건부 평균이다. 초록색 네모들은 1~9월의 사용량이 주어졌다고 가정 시 10~12월의 사용량이 따르는 다변량 정규분포의 조건부 평균으로, 미래 사용량 예측으로 볼 수 있다. 조건부 평균이 실제 참값에서 크게 벗어나지 않는다. 이를 볼 때 조건부 평균을 누락치의 추정치로 사용하는 것은 합리적이다.

이상 살펴본 바와 같이, 정확한 에너지 사용량 예측을 위해서는 단순한 회귀 분석 모델을 넘어, 다양한 변수들 간의 상관관계와 복합적인 요인들을 반영하는 통계적 방법론이 필요하다. 특히 다변량 정규분포 모델을 활용하면 월별 에너지 사용량의 상관관계를 고려해 보다 현실적인 예측을 할 수 있으며, 이를 통해 에너지 수급 계획의 효율성을 높일 수 있다. 이러한 방법론은 기존 연구에서 간과되었던 통계적 오차를 보완하고, 누락된 데이터를 추정하는 데도 유용하게 쓰일 수 있다. 결과적으로, 보다 정확한 에너지 사용량 예측은 겨울철 에너지 위기에 대비하는 데 중요한 기초 자료가 될 뿐 아니라, 에너지 효율 개선과 자원 낭비 방지에도 기여할 수 있을 것이다.

Share this Doc

Jeonghun Song (MSc, 2023)

Or copy link

CONTENTS