[논문이야기] 이 많은 따릉이들은 어디서 왔을까? ⑤

따릉이 이용량은 기온과 계절에 따라 변화하며, 월별·요일별·시간대별로도 이용량에 차이가 있어
기온이 15~17도 정도로 선선할 때 이용량이 가장 많았으며, 너무 춥거나 더울 때는 감소해
특히 주말보다 주중에, 그리고 출퇴근 시간대에 이용량이 많아

[논문이야기] 이 많은 따릉이들은 어디서 왔을까? 2편 – 초록에서 이어집니다

이번 글에서는 따릉이 대여량과 날씨 데이터의 관계를 집중적으로 분석하려고 합니다. 본격적인 분석에 앞서, 따릉이 이용량 예측에 활용되는 데이터의 특징을 먼저 살펴보겠습니다.

따릉이 대여 이력·날씨 정보 수집

Bicycle Part1 1 Paperstory SungsuHan
Bicycle Part1 2 Paperstory SungsuHan

따릉이 대여 이력 정보는 각 자전거 번호를 기준으로 관리됩니다. 대여 시점에는 대여 일시, 대여소 번호, 대여소 이름이 기록되고, 반납 시점에는 반납 일시와 반납 대여소 번호가 추가됩니다. 비록 이번 연구에서는 활용하지 않지만, 사용자 정보도 포함되어 있어 향후 사용자 분석 연구에 유용하게 활용될 수 있을 것으로 기대됩니다.

대여소 정보에는 주소가 포함되어 있지만, 정확한 위치 분석을 위해서는 위도와 경도 정보가 필요합니다. 이러한 정보는 서울시 열린 데이터 광장에서 제공하는 따릉이 대여소 정보 파일을 통해 추가적으로 확보할 수 있었습니다.

Bicycle Part1 3 Paperstory SungsuHan

위의 엑셀 캡처 사진에서 볼 수 있듯이, 따릉이 대여소 ID를 기준으로 상세 주소와 함께 위도 및 경도 데이터를 확보했습니다. 이렇게 얻은 따릉이 대여소의 위치 정보는 이후 논문에서 따릉이 대여소별 누적 대여량을 시각화하는 데 활용될 예정입니다.

또한 따릉이 대여량과 날씨의 상관관계를 분석하기 위해 서울시 종관 기상 관측 데이터를 활용하고자 합니다. 종관 기상 관측은 특정 시각에 모든 관측소에서 동시에 실시하는 지상 관측으로, 종합적인 날씨 파악을 위한 중요한 자료입니다.

이 데이터는 기상청 기상자료 개방 포털에서 제공되며, 서울 지역의 경우 종로구 송월길 52에 있는 서울 기상 관측소에서 수집된 데이터를 사용합니다. 참고로 ‘종관(Synoptic)’은 영어로 ‘Syn'(종합)과 ‘Optic'(시각)의 합성어로, 동시에 관측한다는 의미를 내포하고 있습니다.

Bicycle Part1 4 Paperstory SungsuHan
서울시 종관 기상 관측소 ASOS
Bicycle Part1 5 Paperstory SungsuHan
종관 날씨 수집 데이터

서울시 종관 날씨 데이터는 분 단위로 측정되고 있으며, 이를 따릉이 대여 데이터와 연동하여 날씨 변화에 따른 따릉이 이용량의 변화를 분석할 예정입니다.

24시간 기준 날씨 데이터와 대여량 상관관계

따릉이 대여량과 날씨의 상관관계를 분석하기 위해, 먼저 시간 변수를 기준으로 따릉이 이용 정보와 날씨 데이터를 통합하는 전처리 과정을 거쳤습니다. 아래에 제시된 전처리된 데이터는 마곡나루역 2번 출구 대여소의 2022년 1월부터 12월까지 1년간의 데이터입니다.

Bicycle Part1 6 Paperstory SungsuHan

가장 왼쪽 열부터 시간 변수인 월, 일, 대여 시간, 대여 분, 요일 정보가 차례로 나열되어 있으며, 그다음으로 날씨 변수인 기온, 풍향, 풍속, 누적 강수량이 이어집니다. 마지막으로 따릉이 이용 정보를 추가해 전처리를 완료했습니다.

이제 전처리된 데이터를 바탕으로 분당 이용 건수를 기준으로 날씨 데이터와의 상관관계를 분석해 보겠습니다.

먼저 풍속을 살펴보면, 바람이 강해질수록 따릉이 사용량이 줄어드는 경향을 확인할 수 있습니다. 특히 바람이 전혀 없는 상태보다 가볍고 산들바람처럼 느껴지는 3m/s 수준에서 따릉이 사용량이 가장 많았습니다.

누적 강수량과 이용 건수도 반비례 관계를 보이는데, 이는 비가 올 때 따릉이뿐만 아니라 자전거 이용량 전반이 감소한다는 일반적인 인식과 일치하는 결과입니다.

마지막으로 기온을 살펴보면, 사람들이 선선하다고 느끼는 15~17도 정도에서 따릉이 사용량이 가장 많았습니다. 반면 너무 춥거나 더운 날씨에는 사용량이 감소하는 것을 확인할 수 있었습니다.

Bicycle Part1 7 Paperstory SungsuHan
날씨 변수별 1분당 따릉이 이용 건수와의 상관관계 분석 결과

기온·계절·시간 따라 달라지는 따릉이 이용량

기온과 따릉이 대여량 간의 상관관계는 계절에 따라 달라지므로, 따릉이 대여량 데이터는 계절성을 가질 것으로 예상됩니다. 따라서 STL(Seasonal and Trend decomposition using Loess)을 통해 계절성과 추세를 분리한 후, 남은 잔차에 대해 날씨 외부 변수를 활용한 SARIMAX 모델을 적용해 시계열 분석을 진행할 계획입니다.

또한 앞서 확인한 기온과의 상관관계를 고려할 때, 계절에 따른 기온 변화와 함께 시간에 따른 상관관계도 존재할 것으로 예상됩니다. 이를 검증하기 위해 월별, 요일별, 그리고 대여 시점 시간별 이용 건수 간의 상관관계를 추가로 분석했습니다.

먼저 월별 이용 건수는 앞서 확인한 기온과의 상관관계에서 예상했던 것처럼 비슷한 경향을 보였습니다. 따릉이 이용량은 기온이 15~17도 사이인 9월부터 11월 사이에 가장 많았습니다. 또한 요일별로는 주중보다 주말에 이용량이 적었으며, 시간대별로는 출근 시간에 가장 많은 이용량이 집중되었고, 퇴근 시간이 그 뒤를 이었습니다.

Bicycle Part1 9 Paperstory SungsuHan

한 가지 흥미로운 점은 새벽 시간대에 토요일 이용량이 금요일 밤 이후보다 다소 높다는 것입니다. 이는 금요일 밤 대중교통 운행 종료 후 토요일 새벽까지 따릉이를 이용하는 사람들이 있기 때문으로 추측됩니다.

[논문이야기] 이 많은 따릉이들은 어디서 왔을까? ⑥로 이어집니다