Skip to main content
Keith Lee
Head of GIAI Korea
Professor of AI/Data Science @ SIAI
논문을 쓸 수 없는 학생들, 논문을 이해하지도 못하는 학생들직장에서 해야하는 업무를 상세하게 알려줘야만 따라가는 직장인들한국사회의 주입식 교육이 낳은 폐해비단 데이터 사이언스 분야 뿐만 아니라, 국내 기업 사회 전체에 뿌리 내린 후진성 낳아
지난 몇 년간 한국인들을 대상으로 직업 교육수준부터 학부, 석사까지 다양한 수준으로 AI/Data Science 교육을 하다 얼마 전부터 한국 교육 시장 자체를 포기했다. 가장 큰 원인을 꼽으라면 한국 학생들이 너무 심하게 주입식 교육에 사로잡혀 있기 때문이고, 기업들도 그런 주입식 지식을 바탕으로 한 빠른 답안지에 집착하고 있기 때문이다. 오늘 당장 보고서만 올라가면 될 뿐, 내일 그 모델이 문제를 일으켜도 모르겠다는 태도들이 너무 심하다.
스탠퍼드 대학 인간중심AI연구소, AI Index에서 한국 AI역량 이집트, UAE와 동급 취급'AI=IT개발'이라고 착각했던 정부 관계자들의 어리석은 예산 집행이 낳은 정책 실패돈만 투입하면 해결되는 인프라, 건설 사업 아냐, 늦었지만 인재 양성부터 천천히10년, 20년이 걸리더라도 A급 인재 길러낼 수 있도록 고교, 대학 교육 시스템부터 개선해야
지난 16일(현지시간), 미국 명문 스탠퍼드 대학의 인간중심AI연구소에서 발표한 2024년 전세계 AI지표(AI Index)에서 한국이 이집트, UAE 등의 중동 국가들과 유사한 수준의 AI역량을 가진 국가로 발표됐다. 챗GPT의 밑바닥에 있는 '대형언어모델(LLM)' 같은 기초 모델을 한국이 만들어 내질 못했다는 것이 평가의 원인이다.
Transition from column to matrix, matrix to tensor as a baseline of data feeding changed the scope of data science, 


비싼 하드웨어만 도입한다고 무조건 AI를 도입한 것 아냐고급 하드웨어는 계산 속도 개선을 위한 하나의 도구일 뿐AI는 반복 계산의 자동화가 필요한 구간에서 인간의 수고를 덜어주는 프로그램에 불과자동화 연산에 필요한 계산 비용 최소화는 하드웨어 뿐만 아니라 소프트웨어 최적화도 필수


지난 4월 6일을 끝으로 2023~2024년 졸업 기수들에 대한 논문 지도를 끝냈다. 5월 중에 데이터 사이언스 경영학회 세미나 발표를 거쳐 9월까지 논문을 제출하면 이제 졸업이다. 논문에 합격(Pass)를 받은 분들이 그렇게 많지 않고, 최선을 다한 분들이 집에서 혼자 울었다는 이야기도 들었다. 합격이라고 이야기를 못 해줘서 마음이 무겁고, 내 가슴에 박힌 못들이 다시 한번 날 찌르는 느낌이 들어서 시차를 둔 동병상련도 느껴졌지만, 어쩌랴, 학위 과정 졸업 요건 최소치는 지키면서 운영해야 다른 졸업생도 어디가서 SIAI 학위 받았다고 가슴을 펴고 당당해질 수 있을 것이 아닌가? 비록 논문을 통과하지는 못했지만, 많은 분들이 기업체의 주요 AI 포지션에 가 있는 경우도 듣고, 공부한 내용들이 회사에서 어떻게 쓰이는지, 답답한 윗 사람들 때문에 얼마나 어려움이 많은지 등등을 전해듣는데, 재밌는 것은 예전보다 그런 황당한 사례에 대한 이야기가 크게 줄었다는 것이다.
지난 2022학년도 입학생이 2년 학위 과정 끝에 졸업 논문 마무리에 한참이다. 2021학년도 입학생 중에 논문을 못 냈던 분들도 괴로운 마음을 다잡고 지난해 9월부터 재도전에 나섰다. 지난 3월 30일, 오는 4월 6일 양일간 1차로 심사를 진행하고, 합격하면 작년처럼 '데이터 사이언스 경영 학회(Managerial Data Science Association, MDSA)' 세미나에서 졸업 논문을 발표하게 된다. 발표 후 남은 몇 달간 논문형식으로 정리하고 나면 9월에 졸업장을 받아간다. 작년 5월에 5명이 발표 기회를 얻었고, 9월에 졸업장을 받아가는데 다른 학생들 표정에 부러움이 가득하더라. 졸업할 수 있는 논문에 대한 기준을 많이 낮춰줬다고 생각하지만, 정작 학생들 본인은 만만치 않다고 느꼈을 것이고, '불과 5명' 밖에 졸업을 못하는만큼 한편으로는 기준이 높다는 불만, 다른 한편으로는 내부 기준을 넘은 학생들에 대한 부러움이 컸을 것이라고 짐작한다.
대학을 설립해서라도 제대로 된 AI/Data Science 교육을 해야지, 이렇게 황당한 코딩 교육 수준의 학위 과정만 돌아다녀서는 안 된다며 목소리를 높이던 시절, 식견 있는 선배님들은 어지간하면 무리하지 말고 차라리 미국으로 돌아갈 방법을 찾거나, 한국에서 정부 프로젝트나 따며 조용히 살아라고 충고하셨다. 저렇게 심각한 통계문맹이면서 코드 몇 줄로 인공지능 전문가라고 현혹하고 정부 및 기업 프로젝트들을 갖고가고 있던데, 마케팅 비용을 쏟아부어서 만든 포장을 아무리 벗기려고 노력해도 정부나 기업에게 전달이 안 되더라고 불평을 늘어놨더니, 그래서 선배님들도 한국에서 사업 안 하셨단다. 지난 글에서 언급했듯이, 국내 기초 교육 수준은 엉망이고, 제대로 교육 시키면 따라오질 못하는게 한국 사회 현실이라는걸 이미 수십년간 겪으셨기 때문에 그렇게 날 말리셨을 것이다. 그 때도 틀린 말이 아니라는 걸 알고 있었지만, 이젠 더 뼈저리게 공감한다.
'잘 가르치면 학생들이 안 오죠'
지난 몇 년간 한국에서 AI/Data Science 교육을 하며 느낀 점이 많지만, AI 교육과 직접 관련 있는 수학적 사고력 부족 부분 말고, 한국 학생들의 '무모한 욕심'에 대한 부분도 글로 남겨 둘 필요가 있는 것 같다. 나 스스로도 '무모한 욕심'을 못 이기고 글로벌 최상위권의 Research school 수준의 교육을 한국 땅에서 해보겠다고 무리수를 뒀지만, SIAI를 찾아왔던 학생들, 오고 싶어했던 학생들에게서 느낀 감정도 '무모한 욕심' 범위에서 크게 벗어나지 않았기 때문이다. 지난 글에서 지적했듯이, 수학적 사고력, 응용력에 대한 내 강조점이 수학적 사고력, 응용력에 대한 강조로 바뀌어서 전달됐던 탓에 많은 분들이 수학 공부를 열심히 하면 'SIAI에서 제일 어렵다는 MSc AI/Data Science에 들어갈 수 있다'라고 생각하셨던 것 같더라.
그간 SIAI로 받은 학생들에 대한 교육만 마무리하고 국내 교육은 이제 완전히 접는 절차를 밟는 중이다. 올해도 신입생을 받겠다고 수요조사는 진행 중이지만, 지금까지처럼 수익성이 안 나와도 한국 AI/Data Science 교육을 어떻게든 살려보겠다며 또 다시 손해를 감수할 계획은 없다. SIAI 설립 이전에 AI/DS 교육을 했던 3년을 포함하면 대략 6년간 한국 시장에서 최대한 고급 교육을 공급하기 위해 노력했는데, 딱히 EduQua에서 한국인 대상 교육을 그만하라고 했기 때문이 아니라, 나 스스로 동력을 잃었기 때문에 그만두는 편이 맞을 것 같다. 모 글로벌 반도체 기업에 재직 중인 학생 하나가 '이 가격에 학위 주시는거면, 애초부터 수익 바라고 하신게 아니라 봉사활동 개념 아니었나요?'라는 농담을 하던데, 딱히 큰 수익을 바라지 않았던 것은 맞지만, 한국 시장이 공급해야하는 교육을 공급하지 못하고 있다는 문제를 해결해보려던 관점이 '봉사활동'이었는지, 나의 '무모한 욕심'이었는지는 잘 모르겠다.
온라인 학위 저평가 원인은 대학들이 오프라인보다 입학 난이도 및 교육 난이도를 가볍게 운영하기 때문
장기간 온라인 교육에 대한 평가 절하 인식이 퍼져 있어 편견 확대되는 효과도
난이도 높이면 결국 학생들의 기초 실력과 열정에 따라 성취도 구분되는 효과 나와
지난 코로나19 기간을 겪으며 한국 사회에서도 온라인 교육 과정에 대한 편견이 많이 사라지는 했지만, 여전히 온라인 교육은 오프라인 교육보다 품질이 낮다는 편견이 강하다. 실제로 교육을 해보면서 느끼는 거지만, 동영상 강의를 만드는 것과 현장에서 강의하는 것 간에 강의 내용 자체는 큰 차이가 없지만, 학생들과 의사소통에서 격차가 발생하고, 동영상을 매번 새로 만드는 것이 아니라면 과거 내용을 전달하게 되는 문제가 생길 수는 있는 것 같다.
상권과 특정 세대 소비자 집중도 관계 분석시 동시성의 오류 발생할 가능성 높아
도구 변수를 이용해 둘 간의 복합 상관관계를 단순 상관관계로 분리해야
실제 기업 사례에서도 잘못된 계산 후 잘못된 결론 얻는 경우 많아
데이터 사이언스 관련 프로젝트를 하다보면, 비일비재하게 발생하는 사안이 인과관계 오류다. 원인이라고 생각했던 변수가 사실은 결과였고, 반대로 결과라고 생각했던 변수가 원인인 경우들이 상당히 많다. 이런 오류를 데이터 사이언스에서는 '동시성의 오류(Simultaneity)'라고 부른다. 관련 연구가 가장 먼저 시작된 곳은 경제학 중 계량경제학으로, 일반적으로 중요 데이터 상실(Omitted Variable), 데이터 부정확성(Measurement error)와 더불어 3대 데이터 내부 오류(Endogeneity error)로 불린다.
구글 같은 검색 엔진들도 사용자가 찾는 정보를 보여줘야 살아남을 수 있어
검색 조작 차단은 검색 엔진들에게 필수적인 작업
기술적인 SEO는 기술적인 부분에 불과, 결국 고급 콘텐츠를 뽑아야
구글SEO를 잘 해서 검색 결과에 노출될 확률이 상대적으로 높아진 웹사이트를 운영 중이라고 설명하면, 무조건 1등으로 나오도록 조작했으니 사기를 친 것이다는 비난을 받는 경우들이 가끔 있다. 근데, 그렇게 사기를 쳐서라도 무조건 1등으로 나오도록 조작이 가능하다면 아마 모두가 몰래몰래 조작을 하고 있을 것이고, 결국 검색하는 사람들이 원하는 결과물이 안 나오니 사용자는 다 떠나버릴 것이다. 즉, 그런 조작이 가능했었으면 구글이 검색의 대명사가 됐을리가 없다. 네이버처럼 키워드 광고의 대명사가 됐었을지는 모르겠지만.
네이버 검색 조작은 '사기' 수준의 범죄
구글SEO는 시스템 최적화를 위한 기술적 고민의 결과물
둘의 차이를 이해하고 구글SEO에 힘 쓰는 회사들이 결국 트래픽을 더 모으게 될 것
구글SEO와 AI번역기를 이용해 월 방문자 100만명([공지] OTT랭킹 MAU 100만 달성!)이 들어오는 웹사이트로 성장시켰다는 정보를 바탕으로, 구글SEO 전문 광고 서비스를 내놨다.
구글SEO는 일반적인 광고 상품과 다른 관점에서 접근해야
방문자의 행동 패턴을 담은 네트워크 속에서 적절한 위치를 찾는 추론 작업 필수
광고 상품이라기보다 Data Science 기반의 연구 분석 상품이라고 접근해야
구글SEO는 ROAS가 없는 광고 상품([마천사] ⑦구글SEO vs. PPC, ROAS가 없는 광고 상품?)이라니까 이상한 상품이라고 하는 경우들을 굉장히 자주 겪는데, 그 분들께 내가 종종 쓰는 표현이, 구글SEO는 광고가 아니라 과학, 그것도 데이터 과학이라는 표현이다. 광고 상품이 아니라 과학 상품이라 다른 잣대로 다른 평가를 해야된다고 설명한다.
구글SEO는 기존 PPC형 광고랑 달리 ROAS 계산하기 어려운 광고 상품
검색 순위를 조작하는 것도 아냐, 고객이 정보를 더 효율적으로 찾도록 지원하는 작업
방문자의 웹사이트 네트워크를 추정하는 Data Science 기법이 구글SEO의 근간
구글SEO에 관련된 설명을 하다보면, '구글SEO는 평균 ROAS가 얼마냐?'는 질문을 종종 받는다. 광고비 대비 수익성(Return on Ad Spending)의 기준 값으로 흔히 쓰이는 광고업계의 지표 중 하나인데, 광고 상품의 대부분이 PPC(Pay Per Click) 형태로 운영되는만큼, 광고비 100만원을 써서 우리 쇼핑몰의 상품 2천만원을 팔았다고 치면 20배, 즉 ROAS가 2,000%라고 설명하는 것이 광고업계에서 흔히 통용되는 표준 용어다.
검색 조작, 사기 정보, 거짓 정보들로 검색 랭킹을 일시적으로 끌어올릴 수는 있어
그러나 장기적으로는 웹사이트에 대한 신뢰도를 떨어뜨려 구글 검색에서 배제되는 결과 낳기도
검색 엔진을 속이려고 하지 말고, 고급 콘텐츠로 사용자들에게 정보를 제공하려는 관점에서 접근해야
나는 네이버 검색을 쓰지 않는다. 네이버라는 회사의 역량에는 많은 존경심을 갖고 있지만, 검색 기능으로 내가 원하는 콘텐츠를 찾기가 매우 어렵기 때문이다. 개발 시스템에 대해 약간의 이해가 있는 사람들이라면 충분히 감을 잡겠지만, 네이버 검색은 블로그, 뉴스, 스토어 등등의 주요 섹션에서 검색어에 맞는 최신 콘텐츠를 단순 DB검색해서 취합한 결과를 보여주는 것 같은 느낌이다. 세부적으로 얼마나 고난이도의 검색 엔진을 갖고 있는지는 알려진 바가 없으니 함부로 단정지을 수는 없지만, 네이버에서 보유하고 있는 콘텐츠가 아니면 검색이 되질 않는데, 정작 네이버에서 볼 수 있는 대부분의 콘텐츠는 품질이 높질 않아서 별로 보고 싶지가 않다.
최고의 구글SEO는 고급 콘텐츠를 반복적으로 붓는 것
사람들이 찾는 정보들을 보여주는 웹사이트가 구글이 우선권을 주는 사이트
알짜 정보, 꿀팁, 최저가 상품 같은 정보들이 사용자들이 평소에 찾는 정보
가장 좋은 구글SEO 전략은 콘텐츠의 퀄리티를 끌어올리는 것이라는 설명을 했었는데, 그럼 콘텐츠의 퀄리티는 어떻게 끌어올리냐는 질문을 받게된다. 그런데, 세상에 사람들이 찾아볼만한 고급 콘텐츠를 제작할 수 있는 사람은 많지 않다. 남들이 작성해놓은 걸 베끼면서 살짝 고쳐서 올리는 것이 최대치인 사람들이 대부분인데, 그 분들이 아무리 기술적으로 구글SEO를 잘한 웹사이트를 만든다고 해도 장기적으로는 콘텐츠를 가진 분들이 이기는 싸움이 된다.
구글SEO 사례집은 해당 기업의 특수 사례이지 일반론이 아님
A를 넣으면 B가 나온다는 단순 논리가 작동하지 않는 상황을 이해 못하는 고객을 대상으로 한 광고 상품에 불과
백링크 같은 기술적인 작업 이전에, 콘텐츠의 수준을 끌어올리는 기본적인 작업에 더 충실해야
국내 대기업에 AI/Data Science 관련해서 강의 요청을 받으면 항상 요구 사항 목록에서 '사례집(Case study)'을 확인할 수 있다. 특히, 자기네 산업에서 얼마나 효과적으로 적용되었는지를 알려달라고 그러는데, 돌이켜보면 어린시절 컨설팅 회사 인턴할 때나 외국계IB 막내 시절에도 대기업 관계자들이 원했던 내용들은 항상 같았던 것 같다. 그들은 언제나 '벤치마크(Benchmark)'라고 표현할 수 있는 유사한 사례를 원했고, 그런 유사한 사례가 없으면 설득이 안 됐었다.
구글 검색 1등 노출은 검색 광고를 하지 않는 이상 확정적으로 답할 수 없는 도전
오히려 1페이지에 관련 콘텐츠를 여럿 보여주는 전략이 저비용 고효율 광고법 될 수 있어
궁극적으로는 목표하는 소비자 행동 패턴에 맞춰 콘텐츠 전략도 조정해야
특정 키워드에 대해서 구글 검색 1페이지 최상단에 자기 콘텐츠를 내보내고 싶은 마음은 콘텐츠 제작자 모두가 똑같을 것이다. 그런데, 고객 관점에서 보면 자기가 찾는 정보가 나와야지, 찾지도 않는 정보가 계속 1등으로 나오면 구글 검색 엔진을 안 쓰게 될 것이다. 더 큰 문제는 같은 키워드로 검색하는 사람이라고 해도 생각들이 제각각이고, 찾는 정보도 제각각인 경우가 많다는 점이다. 구글이 검색 결과물에 개인화 추천 알고리즘을 쓰는 것도 평소 행동 패턴을 봤을 때 다른 정보를 찾을 것이라는 예측을 바닥에 깔고 있는 것인데, 이런 개인화 작업이 더 효율적으로 돌아가야 사용자 경험이 나아진다. 말을 바꾸면, 특정 키워드에 대해 구글 검색 1페이지 최상단에 뜨는 것 자체가 누군가의 조작으로 되는 작업이 아니라는 설명이 된다.
네이버 검색 물량이 구글 대비 약 70~80% 수준으로 떨어졌다는 업계 평가
검색 물량을 구글에 뺏긴 것이 아니라 유튜브에 뺏겼다는 평가도
유튜브, 인스타그램의 성장, 중국발 이커머스 공룡들의 진입으로 네이버 시장 점유율의 지속 하락 예상하는 경우도 많아
온라인 마케팅 업계 사람들 중에 기술적으로 조금이라도 도전적인 업무를 했던 사람들은 대체로 '네이버가 한국 온라인 마케팅 업계 발전을 가로막고 있다'고 생각한다. 구글이 검색 최적화 알고리즘을 개발하고, 광고 효율화를 위해 수 많은 도전을 했던 덕분에 IT업계가 엄청나게 빠른 속도로 발전했는데, 네이버가 그런 글로벌 IT시장의 기술 발전을 거의 도입하지 않았고, 국내에서는 네이버 검색 물량이 압도적이었기 때문에, 대부분의 광고업계 관계자들이 2000년대 초반에 처음 검색/디스플레이 광고 시장이 형성되던 시점에서 한 발자국도 못 나간채로 시장이 돌아가고 있었기 때문이다.