SIAI Yearbook – 2024

Sungsu Han (MBA, 2024)

Estimated reading: 1 minute 119 views
160X600_GIAI_AIDSNote

마곡나루역 근처 사무실에서 일하는 40대 초반 직장인으로, 고양시 행신역 근처에 거주하고 있다. 예전에는 회사 셔틀버스를 이용해 출퇴근했지만, 최근 자전거를 취미로 시작하면서 자전거로 출퇴근하게 됐다. 자전거를 타게 된 가장 큰 이유는 서울시 공공 자전거 프로그램인 따릉이에 대한 긍정적인 이미지 때문이었다.

Ⅰ. 따릉이에 관심을 가지게 된 계기

어느 날, 셔틀버스에서 내려 졸린 눈을 비비며 주변을 둘러보니 수백 대의 초록색 자전거가 모여 있는 것을 보고 깜짝 놀랐다. 이전에는 그 자전거들을 눈치채지 못했던 것 같다. 아마 직장인으로서 늘 피곤한 상태로 출근하다 보니, 회사에 도착하고 나서는 주변을 잘 살피지 않아서 그랬을 것이다. 아니면 아침에 너무 졸려서 자전거들이 눈에 잘 들어오지 않았던 것일지도 모르겠다. 어쨌든 그날 본 광경은 큰 충격을 주었다.

SeoulBike 1
Ddareungyi docking station near the author’s office in the Magok area/Credit:https://steemit.com/hive-183959/@nasoe/58ha14
가장 붐비는 지역

마곡 교차로에 있는 수많은 따릉이 자전거들이 어디에서 왔는지 자주 궁금했다. 이것이 따릉이에 대한 관심을 불러일으켰고, 공공 자전거 프로그램을 논문 주제로 연구해 볼까 하는 생각도 하게 됐다.

생각을 계속 발전시키면서 문득 “마곡보다 자전거를 더 많이 사용하는 곳이 있을까?”라는 궁금증이 생겼다. 간단한 인터넷 검색을 통해 답을 찾을 수 있었다. 서울시에서 발간한 2022년 교통 이용 통계 보고서에 따르면, 서울에서 공공 자전거(따릉이)를 가장 많이 사용하는 지역은 강서구로, 총 16,871건의 이용 사례가 있었다.

서울 열린데이터광장에서 공개된 자료에 따르면, 강서구 내 공공 자전거 대여소 중 상위 7곳은 다음과 같다: ▲ 마곡나루역 2번 출구 88,001건 ▲ 발산역 1번 및 9번 출구 인근 63,166건 ▲ 마곡나루역 5번 출구 뒤편 59,095건 ▲ 가양역 8번 출구 56,627건 ▲ 마곡역 교차로 56,117건 ▲ 마곡나루역 3번 출구 52,167건 ▲ 발산역 6번 출구 뒤편 48,145건 등이다. 이 사실을 알게 되었을 때 상당히 놀랐다. 서울에서 따릉이 사용이 가장 많은 곳이 바로 내가 출퇴근하는 마곡 비즈니스 지구였기 때문이다.

출퇴근할 때마다 생각보다 많은 사람들이 자전거를 이용하는 모습을 점점 더 자주 보게 됐다. 자전거는 환경 문제를 해결하는 동시에 직장인들의 건강을 증진하는 수단으로 더욱 주목받고 있다. 이러한 트렌드에 영감을 받아, 서울의 많은 사람들처럼 자전거로 출근하는 것을 고려하기 시작했다. 하지만 거주지가 다른 지역이어서 고양시의 ‘피프틴’ 프로그램을 이용할지, 서울의 따릉이를 이용할지 고민하게 됐다. 연구를 진행하던 중 고양시의 피프틴 프로그램이 재정적 손실로 인해 중단됐다는 사실을 알게 됐다.

공공 자전거 프로그램 적자의 원인

그래서 다른 지역의 공공 자전거 프로그램 적자 규모를 조사해 보았다. 창원의 ‘누비자’는 45억 원, 대전의 ‘타슈’는 36억 원, 광주의 ‘타랑께’는 10억 원의 적자를 기록했다. 이를 통해 대부분의 지역 공공 자전거 프로그램이 적자에 시달리고 있음을 알 수 있었다. 심지어 잘 운영되고 있다고 생각했던 서울의 공공 자전거 프로그램인 따릉이도 103억 원 이상의 적자를 기록하고 있었다. 이 사실은 왜 공공 자전거 프로그램이 항상 적자를 내는지에 대한 궁금증을 불러일으켰다.

동시에 따릉이가 천만 서울 시민에게 사랑받는 교통수단임에도, 이 프로그램이 장기적으로 지속될 수 있을지 걱정되기 시작했다. 문제를 자세히 조사해 본 결과, 공공 자전거 프로그램 적자의 가장 큰 원인은 자전거를 도시 전역에 재배치하는 데 드는 높은 비용이라는 것을 발견했다.

고양시의 경우, 총 유지비 예산 17억 7,800만 원 중 약 3억 7,500만 원이 현장 배치에, 1억 5,000만 원이 재배치와 관련된 차량 운영비로 사용되는 것으로 추정된다. 이는 전체 예산의 약 30%가 재배치에 사용된다는 의미로, 가장 큰 단일 지출 항목이다. 창원시에서도 비슷한 경향이 나타나며, 재배치 비용이 예산의 상당 부분을 차지하고 있다. 이 정보는 따릉이에 대한 직접적인 자료는 아니지만, 공공 자전거 프로그램의 전체 운영비 중 약 30%가 자전거 재배치에 쓰일 가능성을 시사한다.

이로 인해 자전거 재배치 비용을 절감하는 것이 공공 자전거 대여 프로그램의 만성적인 적자를 해결하는 열쇠가 될 수 있다는 생각이 들었다. 또한 따릉이 이용자들의 사용 패턴을 분석해 재배치를 최적화하면 이러한 비용을 줄이는 데 도움이 될 수 있다고 생각했다. 이를 실현하기 위해서는 대여량에 영향을 미치는 요인을 분석하고, 예상 수요를 예측하는 모델을 만들어 자전거 부족을 방지하고 불필요한 재배치 노력을 최소화할 필요가 있었다.

Ⅱ. 수요 예측을 통한 재배치 최적화

따릉이 자전거 대여 데이터에는 자전거 ID, 반납 시간, 대여소 정보가 포함되어 있다. 각 대여소별 대여량을 시각화하기 위해 서울 열린데이터광장에서 제공하는 위치 정보(위도와 경도)가 추가로 사용되었다. 또한, 날씨가 자전거 이용에 미치는 영향을 분석하기 위해 서울 기상관측소의 종합 날씨 데이터도 대여 기록과 결합되었다. 마곡나루역 5번 출구 따릉이 대여소의 2019년부터 2023년까지 4년간의 데이터를 바탕으로 사용 패턴에 대한 상세 분석이 이뤄졌다.

따릉이 이용 패턴

분석 결과, 자전거 이용은 강한 바람과 비가 내릴 때 감소하지만, 기온이 15-17°C일 때 가장 많이 사용되는 것으로 나타났다. 자전거 이용량은 주중 아침과 저녁 출퇴근 시간에 최고치를 기록하며, 마곡, G밸리, 여의도 등 비즈니스 지구에서 집중적으로 발생했다. 이 지역들은 대부분 20~30대 사용자가 많으며, 특히 출퇴근 시간대에 대여와 반납의 불균형이 자주 발생했다.

일반적인 이용 패턴을 바탕으로 자전거 수요와 공급을 예측했다. 먼저 STL(Seasonal and Trend decomposition using Loess) 기법을 사용해 대여 및 반납량을 계절성, 추세, 주기로 분해했다. 그런 다음 이 분해에서 나온 잔차를 SARIMAX 모델에 적용해 날씨와 시간 변수를 포함하여 이용 패턴을 설명했다. 이 모델은 수요를 성공적으로 예측했으며, 반납량에서 R² 0.73, 대여량에서 0.65의 예측 정확도를 달성했다.

대여-반납 지수 기반 최적화

자전거 재배치를 최적화하기 위해 각 대여소에서 예상 대여량과 반납량의 차이를 측정하는 “대여-반납 지수”가 도입됐다.

\[ 대여-반납 \ 지수 = \frac{예상 \ 대여수}{예상 \ 반납수} \]

위의 공식에서 볼 수 있듯이, 대여소가 자전거의 과잉 또는 부족 없이 균형을 이룰 때 지수는 1이 된다. 지수가 1보다 크면 자전거가 부족함을 나타내며, 1보다 작으면 자전거가 과잉 상태임을 의미한다. 대여소를 과잉 또는 부족 카테고리로 분류함으로써, 재배치 노력을 지수가 1보다 큰 부족한 대여소에 집중할 수 있게 되어 고객 만족도를 향상시킬 수 있다.

또한 이 접근법은 서울시 자전거 시스템의 사용 가능한 예산을 기반으로 재배치 대상의 수를 정량화할 수 있어 매우 유용하다. 지수가 가장 높은 대여소가 우선순위로 선정되며, 배정된 예산에 따라 상위 대여소들이 재배치 대상으로 선택되어 비용 효율적이고 효과적인 재배치 노력을 보장한다.

자전거 재배치를 더욱 최적화하기 위해, 구역 내 대여 및 반납 분포를 기준으로 업무 지구와 주거 지역을 클러스터링하여 대여-반납 지수가 1에 근접하도록 그룹화할 수 있다. 이 방법은 재배치 과정에서 자전거가 이동해야 하는 거리를 최소화할 수 있는데, 작업자들이 특정 팀으로 배치되어 이러한 클러스터화된 지역을 관리하기 때문이다. 즉, 지수가 균형을 이루는 지역에 초점을 맞춤으로써 더 효율적인 재배치를 보장하고, 전체적인 운송 부담을 줄일 수 있다.

Ⅲ. 공간-시간 균형을 위한 클러스터링 아이디어

일반적인 클러스터링

초기에 K-평균 클러스터링 기법을 사용하여 자전거 대여와 반납의 차이가 0에 가까운 지역을 식별하려는 시도가 있었다. 서울의 25개 구에 맞춰 클러스터 수를 조정한 결과, 2023년 6월 데이터를 분석한 결과, 여러 구를 포함한 클러스터들이 대여와 반납의 평균 순량이 0에 가까워져 더 나은 균형을 보이는 것으로 나타났다. 반면, 구가 적은 작은 클러스터들은 더 큰 불균형을 보였다.

또한, 가우시안 혼합 모델(GMM)과 같은 다른 클러스터링 방법을 테스트한 결과, K-평균과 유사한 결과가 도출되었다. 그러나 두 방법 모두 자전거 이동 패턴을 완전히 반영하지 못했는데, 이는 이러한 클러스터링 모델이 자전거 공유 시스템의 동적인 이동 데이터를 충분히 설명하지 못했음을 시사했다. 이는 따릉이 데이터 구조에 적합한 모델이 아니며, 다른 모델링 접근법이 필요하다는 점을 강조했다.

따릉이 데이터는 대여소 간 자전거 이동을 반영하므로, 이러한 이동을 그래프 내의 연결(link)로 취급하고, 대여소와 반납소를 노드(node)로 간주하는 것이 논리적이다. 이를 통해 커뮤니티 탐지 방법을 적용하면 자전거 이동이 가장 빈번한 경로를 기반으로 클러스터를 식별할 수 있다. 이 그래프 기반 접근 방식은 실제 자전거 이동 패턴에 초점을 맞추어 더 효율적인 자전거 재배치를 가능하게 하고, 기존 클러스터링 방법보다 더 나은 결과를 도출할 수 있을 것이다.

네트워크 탐지 방법

이 접근법은 자전거 대여소와 반납소 사이의 자전거 이동을 노드 간의 연결로 간주하여 그래프를 구성하는 것을 포함한다. 가장 많은 연결을 가진 클러스터를 식별함으로써 자전거가 내부에서 순환하는 경향이 있는 커뮤니티 구분을 감지할 수 있다. 이는 자전거 재배치의 효율성을 네트워크 전반에서 크게 향상시킬 수 있다.

이 과정에서 네트워크 커뮤니티 탐지가 중요한 역할을 한다. 커뮤니티 탐지는 그래프를 내부 연결이 밀집된 그룹으로 나누는 방법이다. 따릉이 데이터에 적용하면, 대여와 반납이 균형을 이루는 지역을 클러스터링하여 대여-반납 패턴을 추적할 수 있다. 이러한 클러스터를 식별함으로써 공간적 균형을 유지하는 지역을 발견할 수 있으며, 더 밀집된 클러스터는 더 높은 모듈러리티를 반영하여 효율적인 자전거 재배치에 기여할 수 있다.

모듈러리티는 커뮤니티 내의 연결 밀도를 다른 커뮤니티 간의 연결과 비교하는 척도다. 모듈러리티 값은 -1에서 1 사이로, 0.3에서 0.7 사이의 값은 의미 있는 클러스터의 존재를 나타낸다. 모듈러리티 값이 높을수록 커뮤니티 내의 연결이 강하다는 것을 의미하며, 이는 더 효과적인 클러스터링으로 이어진다. 높은 모듈러리티를 가진 클러스터는 내부적으로 자전거가 더 많이 순환하므로, 재배치 효율성 또한 높아질 수 있다.

SeoulBike Modularity 12

모듈러리티 최적화를 위해 루뱅(Louvain) 알고리즘을 테스트했다. 이 알고리즘은 두 단계로 작동한다. 1단계에서는 모듈러리티를 극대화하기 위해 노드를 커뮤니티에 할당한다. 2단계에서는 커뮤니티 간 연결을 합쳐 네트워크를 단순화하고 구조를 더 정교하게 개선하여 클러스터 감지를 향상시킨다.

따릉이 데이터에 적용했을 때, 루뱅 알고리즘은 유클리드 좌표에 의존하는 K-평균 클러스터링보다 훨씬 더 나은 성능을 보였다. 이상적인 값인 0을 기준으로 한 평균 순 편차가 K-평균에서 21.19였던 것이 루뱅을 사용하자 9.23으로 급격히 감소하여, 대여소 클러스터링의 정확도가 크게 향상되었음을 나타냈다. K-평균은 한강과 같은 주요 지리적 특징을 무시한 반면, 루뱅 알고리즘은 서울의 지리를 고려하여 더 정밀하고 의미 있는 클러스터를 형성했다.

다음 지도를 비교하면 이 차이를 명확히 확인할 수 있다. 루뱅 알고리즘은 한강을 기준으로 더 명확한 클러스터 구분을 제공한 반면, K-평균은 이러한 지리적 차이를 제대로 반영하지 못했다.

SeoulBike Clustering 10

Ⅳ. 순환 구조

따릉이 자전거의 이동을 물의 흐름에 비유했다. 지구상의 물의 총량이 일정하게 유지되듯이, 따릉이 자전거의 총량도 고정되어 있다. 이 비유는 따릉이 시스템을 공간적, 시간적으로 폐쇄된 순환 체계로 개념화하는 데 도움이 된다. 클러스터링을 통해 자전거의 이동 흐름을 균형 있게 유지할 수 있는 방식으로 시스템을 이해할 수 있다.

SeoulBike Cycle 11

시간적 불균형은 하루 동안 자전거의 흐름을 추적함으로써 관리할 수 있다. 예를 들어, 비즈니스 지구는 아침에 수요가 높지만 저녁에는 자전거가 과잉으로 쌓이게 되고, 주거 지역은 그 반대의 상황을 겪는다. 재배치 노력을 최소화하려면, 비즈니스 지구에서 과잉된 자전거를 저녁 시간대에 주거 지역으로 옮겨 아침 출근 시간 전에 준비할 수 있다. 아침 러시아워가 지나면 자전거는 비즈니스 지구에 집중되지만, 저녁 퇴근 시간에 사용자가 다시 주거 지역으로 자전거를 타고 돌아가면서 자연스럽게 재분배된다.

저녁에는 사용자가 자전거를 선택할지 확신할 수 없다는 불확실성이 있지만, 과잉된 자전거는 밤사이에 정기적인 재배치 과정에서 해결할 수 있다. 이를 통해 다음날 아침 출근 시간 전에 비즈니스 지구에 남아 있는 자전거를 주거 지역으로 옮겨 균형을 맞출 수 있다. 하루 전체 흐름을 보면 이러한 변동이 자연스럽게 균형을 이루므로, 과도한 개입의 필요성이 줄어든다.

이러한 불균형을 보다 효과적으로 관리하기 위해 대여-반납 지수를 사용하여 재배치 우선 대여소를 선정하고, 이를 통해 운영 비용을 절감했다. 또한, 네트워크 커뮤니티 탐지, 특히 루뱅 알고리즘을 적용한 결과, 이전 방법보다 더 정확한 클러스터링을 제공했다. 이 방식은 서울의 지리적 특성, 특히 한강을 기준으로 한 클러스터 구분을 잘 반영하여 재배치 전략을 크게 개선했다.

따릉이 시스템을 공간적, 시간적 균형을 추구하는 시스템으로 바라보면, 자전거 부족 문제를 보다 효율적으로 관리할 수 있다. 이러한 접근법은 따릉이 시스템 최적화뿐만 아니라, 다른 공유 자원 시스템 관리의 개선에도 중요한 통찰을 제공한다.

Share this Doc

Sungsu Han (MBA, 2024)

Or copy link

CONTENTS