Skip to main content
Keith Lee
Head of GIAI Korea
Professor of AI/Data Science @ SIAI
한국 초명문대 컴공과 출신 개발자들이 만든 시스템보다
영어권 6개월 코딩 부트캠프 출신 인재들이 만든 시스템이 더 뛰어난 이유
한국은 인재 문제, 지식 기반 문제, 자본 문제를 총체적으로 갖춘 2류 국가이기 때문
박사 유학 중 가끔 들르던 한국어 권의 특정 노트북 브랜드 커뮤니티가 있었다. 영어권에서 더 활성화되어 있는 커뮤니티고, 보스턴에서는 가끔 오프라인 모임이 있으면 찾아가곤 했었기 때문에 한국에서도 비슷한 커뮤니티가 형성되어 있을 것이라는 기대가 있었고, 우연한 기회에 한국어로 검색하다가 찾은 곳이다. 꼭 해당 브랜드 노트북 이야기만 나오는 것은 아니고, 주제가 주제이다보니 국내 IT업계의 현실에 대한 이야기가 굉장히 자주 나왔었는데, 그 중
왜 SKY, SKP 컴퓨터 공학과 출신의 국내 최고급 인재들만 뽑아서 밤을 새어가며 프로젝트를 했는데, 영어권에서 코딩 6개월 배운 부트캠프 출신 애들이 만든 결과물보다 못 할까요?
2020년 겨울 무렵이었습니다. 모 정부 출연 기관에 있던 학부 동기가 국내 모 대학 교수에게 온라인 여론 빅데이터 분석 시스템을 만들어 달라고 그랬다가 사기 당했다면서 거기에 떼이고 남은 잔금으로 같은 시스템을 만들어 달라고 연락이 왔었습니다. 전 개발자들을 하나하나 내 보내고, 더 이상 한국에서 IT사업 하지 말자, 그냥 어디 해외에 조용한 곳에 데이터 과학 가르치는 교수나 하자고 생각하고 있었는데, 친구 부탁을 차마 거절하기가 뭣해서 1달 만에 뚝딱 그들의 최소 조건은 충족하는 시스템을 만들어줬습니다. 그런데, 어떻게 쓰는지를 아예 모르고 눈에 보기에 화려해 보이는 그래프만 윗선에 보고하는 용도로 쓰더군요. 1달 개발비 밖에 못 받는, 이 돈 받고 왜 하나 싶은 프로젝트이긴 했지만, 친구네 조직 사정을 보니 너무 딱했습니다. 그런데, 그 때까지 3년 남짓 1달 짜리 특강 코스로 '데이터 과학'을 가르쳤던 학생들이 저한테 '자문'을 해 달라고 보내주는 자료들을 보니 더 심각하더라구요.

I. 행정구역, 생활구역, 그리고 조세 제도

행정 경계가 겹치는 지역은 복잡한 경제적, 정치적 갈등을 일으킨다. 이러한 상황에서 각 지방 정부는 재원을 유치하려 경쟁하지만, 그 과정에서 예상치 못한 결과와 비효율이 발생할 수 있다. 우리나라에서도 새로운 도시 계획을 통해 신도시가 더 생겨나면서 생활권은 같지만 행정구역이 나뉘어 있어 많은 불편이 야기되는 경우가 생긴다. 그러나 단순히 행정구역을 통합한다고 해서 문제가 해결될 것 같지는 않다. 예를 들어, 위례와 강남을 연결하는 문제를 보자. 과연 통합으로 해결될 수 있을까? 문제의 핵심은 ‘재정’에 있다. 중앙 정부, 서울시, 경기도, 하남시, 성남시 등 여러 이해관계가 얽혀 있어 문제는 더욱 복잡하다. 또한, 생활권이 정말로 통합되어 있다고 할 수 있을까? 학군은 물론이고 소방 시설, 동사무소, 도서관 등 편의 시설이 각기 다르게 분포하고 있으며, 이들을 운영하기 위한 재원을 별도로 마련하고 관리하는 것도 큰 과제다.

Ⅰ. 적정 상태 유지하기 어려운 혈액 보유량

한국은 역대 최저 출산율을 기록했다. 2023년 한국 합계출산율은 0.72명으로 미래에 여러 문제가 터질 것으로 예상된다. 그중 저출산으로 인한 혈액 부족 사태가 화두에 올랐다. 대한적십자사에 따르면 전혈 헌혈 기준으로 2028년이 되면 수요가 공급을 넘어설 것이라는 예측이 나온다. 게다가 이 격차는 점점 벌어질 것으로 짐작된다. 혈액 부족은 이전부터 계속 언급됐던 문제다. 특히 겨울철만 되면 헌혈자가 부족해, 병원 관계자들은 환자에게 혈액 공급이 원활하지 않을까 걱정이다. 하지만 걱정에도 불구하고 혈액 부족 문제는 점점 심해지고 있다. 대한적십자사는 혈액 보유량이 5일 이상이면 ‘적정 상태’, 혈액 보유량이 5일 미만인 경우 ‘부족 상태’로 판단하는데, 과거 데이터를 보면 적정 상태를 유지하는 날이 점점 적어지고 있다.
마곡나루역 근처 사무실에서 일하는 40대 초반 직장인으로, 고양시 행신역 근처에 거주하고 있다. 예전에는 회사 셔틀버스를 이용해 출퇴근했지만, 최근 자전거를 취미로 시작하면서 자전거로 출퇴근하게 됐다. 자전거를 타게 된 가장 큰 이유는 서울시 공공 자전거 프로그램인 따릉이에 대한 긍정적인 이미지 때문이었다.

Ⅰ. 따릉이에 관심을 가지게 된 계기

어느 날, 셔틀버스에서 내려 졸린 눈을 비비며 주변을 둘러보니 수백 대의 초록색 자전거가 모여 있는 것을 보고 깜짝 놀랐다. 이전에는 그 자전거들을 눈치채지 못했던 것 같다. 아마 직장인으로서 늘 피곤한 상태로 출근하다 보니, 회사에 도착하고 나서는 주변을 잘 살피지 않아서 그랬을 것이다. 아니면 아침에 너무 졸려서 자전거들이 눈에 잘 들어오지 않았던 것일지도 모르겠다. 어쨌든 그날 본 광경은 큰 충격을 주었다.
국민건강보험공단이 공개한 수면장애 환자 건강보험 진료 현황에 따르면, 2022년 수면장애로 병원을 찾은 환자는 109만 8819명으로 2018년 85만 5025명보다 28.5% 늘었다. 수면장애 환자가 늘고 있는 만큼 양질의 수면에 대한 관심도 증가하고 있다. 하지만 환자마다 발생 원인과 특성이 달라 그에 맞는 치료법과 다양한 검사 방법이 동원돼야 하는 부담이 있다.

Ⅰ. 부동산 버블을 탐지할 수 있다면?

최근 부동산 시장은 버블(Bubble)이 꺼지면서 침체기에 접어들었다. 정부는 시장을 살리고자 부리나케 대책을 마련하고 있으나, 마음대로 되지 않아 보인다. 그런데 만약 부동산 버블을 미리 탐지할 수 있다면, 시장이 침체기로 접어드는 일을 막을 수 있지 않을까?
부동산 버블의 여파
부동산 버블의 충격은 어마어마했다. 전국 및 수도권 아파트 가격은 한국부동산원이 시세 조사를 시작한 이래 가장 큰 낙폭을 기록했고, 서울 주택 종합 매매가격은 서브프라임 모기지 사태 이후로 가장 크게 떨어졌다.
최근 부동산 시장이 심상치 않다. 전 세계적으로 긴축 기조가 시작됨에 따라, 전문가들 사이에서는 코로나19 이후 통화 완화 정책으로 엄청난 유동성 수혜를 봤던 국내 부동산 시장의 '거품'이 꺼지면서 실물시장 충격에 대비해야 하는 것 아니냐는 우려가 나온다. 작년 말부터 미국을 포함한 주요국 중앙은행을 중심으로 인플레이션을 대비하기 위해 기준금리 인상이 지속되고 있는 가운데, 이에 따라 주택가격이 하락하면서 가계의 순자산 감소 및 부동산 개발업자들의 손실 확대로 이어져 종국적으로는 경기 침체로 확산할 우려가 있다는 것이다.
대학원 수업들을 절반 이상 이수하며 졸업을 얼마 안 남긴 시점에서, 데이터 사이언스와 인공지능을 배우기 위해 이 대학원에 온 만큼, 기존 통계학 분석 방법이 아닌 머신러닝과 딥러닝이 잘 사용되는 분야로 논문을 작성하고 싶었다. 그렇게 해야 대학원 교육과정을 마치는 의미가 더욱 클 것 같았기 때문이다.

데이터를 찾기 쉽고, 딥 러닝을 활용할 수 있는 분야

필자를 포함한 많은 사람들이 데이터를 확보하기 힘들다는 이유로 논문 작성에 많은 애로사항을 겪었다. 그래서 데이터를 쉽게 확보할 수 있으면서도 기존의 방법론으로 유의미한 정보를 뽑아낼 수 없었던 분야를 선정해야만 했다. 대학원에서 우리는 특정 주제에 국한된 연구를 한 것이 아니라, 수학적・통계학적 이해를 바탕으로 데이터 분석의 방법론을 폭넓게 배웠기 때문에 모든 선택지를 열어두고 주제를 탐색할 수 있었다.

Ⅰ. 측정오차 문제를 겪고 있는 광고 시장

디지털 광고는 매년 폭발적으로 성장하고 있습니다. 특히 글로벌 팬데믹으로 오프라인 시장이 크게 위축되던 시기에 소비의 중심축이 온라인으로 옮겨가면서 디지털 광고는 전 세계 광고 시장의 주류로 자리 잡게 되었습니다. 디지털 광고의 핵심은 단연 스마트폰입니다. 스마트폰으로 언제 어디서나 웹에 접속할 수 있게 되면서 웹 기반 매체들이 광고 시장에 등장하게 됐습니다. 사용자 편의성을 기반으로 양질의 서비스를 제공받고, 이에 따라 디지털 광고 시장 또한 새로운 성장 국면을 맞게 된 거죠. 그러나 현재 디지털 광고 업계에서는 ‘측정오차(Measurement Error)’라는 문제로 시름이 끊이지 않습니다. 즉 측정오차로 광고 성과 측정 및 예측에 큰 차질을 겪고 있습니다.
대내외 경제 불확실성으로 올겨울 에너지 관련 원자재 가격 급등은 '예견'된 가운데, 전문가들은 지금부터라도 겨울철 에너지 사용량을 정확하게 예측하는 한편, 에너지 절약을 위한 대응 방안을 마련해야 한다고 당부했다. 그러나 정작 업계에서는 기존 에너지 사용량 추정에 사용됐던 방법론에 대해 의문을 제기하는 분위기다. 해당 연구들의 방법론이 현실을 제대로 대변하지 못한다는 이유에서다. 그렇다면 어떻게 정확하게 에너지 사용량을 예측할 수 있을까? 또한 정확하게 예측된 에너지 사용량은 이외에도 어떤 파급효과를 불러올 수 있을까? 이번 글을 통해 '결합확률분포' 모델을 기반으로 보다 현실적으로 에너지 사용량을 예측할 수 있는 통계적 방법론을 대중들에게 쉽게 풀어보고자 한다.
작년 발간된 SIAI YearBook 2023은 "기업 경영에서의 AI 알고리즘 활용"을 주제로 다뤘다. 올해는 기계 산업 내 AI 산업에 대한 관심이 커짐에 따라 시스템 효율성을 중점으로 2024 YearBook을 준비했다. 먼저 곽연숙 연구원은 헬스케어 산업에서 생체 행동 데이터를 적용한 연구를 주제로 삼았다. 웨어러블 기기의 사용이 증가하면서, 특히 수면 추적에 대한 관심이 높아지고 있다. 그러나 아직까지도 사람이 잠에 드는 시점과 깨어나는 시점을 정확하게 감지하는 데에는 여전히 한계가 존재한다. 이를 해결하기 위해, 곽 연구원은 최근 연구에서 수면 상태와 깨어 있는 상태의 데이터 분포 함수 차이를 활용해 정확도를 개선하는 방법을 제안했다. 기존의 1차원적인 평균만을 사용하는 AI 알고리즘과는 달리, 이 분포 함수는 평균과 분산 같은 다차원 데이터를 활용하여 잠드는 순간과 깨어나는 변화를 더욱 정교하게 식별할 수 있다. 이러한 접근 방식은 수면 추적뿐만 아니라 웨어러블 기기에서 수집되는 다양한 데이터를 분석하는 데에도 효과적으로 적용될 수 있을 것으로 기대된다.
처음으로 SIAI 학생들의 논문을 외부에 발표하는 자리를 가졌다. 2023년 논문을 요약하면 AI알고리즘의 기업 경영 활용이다. 챗GPT가 등장하면서 기업에서 AI알고리즘을 어떻게 사용할지 관심이 많아졌는데, 이에 학생들이 각자 연구 주제로 답을 내놓았다. Yearbook에서는 논문 해설 겸 학생들이 논문 쓰면서 겪었던 이야기를 소개할 것이다. 송정훈 연구원은 "개별 건축물 내 연간 월별 에너지 사용량의 결합확률분포 모델"을 주제로 잡았다. 개별 건물의 월별 에너지 사용량은 도심지의 에너지 소비량 추정에 중요한 정보다. 기존의 회귀분석 기반 연구에서는 월별 에너지사용량의 평균과 분산을 추정하는 모델들이 제시됐다. 하지만 서로 다른 월의 에너지 사용량 간 상관관계는 반영되지 않아 해당 종속변수의 추정에 어려움을 겪었다. 따라서 본 연구에서는 월별 에너지 사용량 간의 상관관계를 반영하여 건물별, 전기/가스별, 월별 사용량을 좀 더 현실적으로 예측했다.
들어가며 연세대학교 경제학과 출신으로 1998년 경원대 교수를 지낸, 문재인 정권에서 중소벤처기업부 장관을 지낸 홍종학 교수님이 IMF 구제금융기를 막 벗어나려던 2001년에 '한국은 망한다'라는 저서를 내셨습니다. 저는 이 책을 대입 논술을 잘 쓰기 위한 목적에서 2001년 말에 읽었는데, 한국 사회가 갖고 있는 각종 문제에 대해 고교생 수준의 매우 조잡한 지식만 갖고 있던 제게 쉽게 와 닿지 않는 충격적인 저서였습니다. 이 책의 내용이 좀 더 제게 강하게 와 닿은 것은 실제 한국 사회의 온갖 조잡함을 온 몸으로 겪고 있던 2020년 무렵이었습니다.
이 책은 SIAI를 졸업한 한국 학생들이 남긴 '논문 후기'를 엮었습니다. 처음 기획 의도는 학생들이 수업에서 들은 내용을 논문에 적용하기 위해 이런저런 고민을 했던 '날 것(Raw)'을 글로 옮기자는 관점이었는데, 정작 다들 눈치를 보더니 논문을 설명하는 글들만 써 버렸습니다. 수필이 나와야 되는데 논문 해석이 되었으니 '망한 글'이 됐는데, 기획 의도와는 매우 거리가 멀어져버렸습니다만, 논문을 읽기 어려운 분들께 논문을 풀어 써 놓은 글이라는 관점에서 가치는 있어 보입니다.
Many amateur data scientists have little respect to math/stat behind all computational modelsMath/stat contains the modelers' logic and intuition to real world data


Top brains in AI/Data Science are driven to challenging jobs like modelingSeldom a 2nd-tier company, with countless malpractices, can meet the expectations