AI/DS이야기

수학은 언어다, 다만 조금 특이한

수학은 언어다, 다만 조금 특이한

데이터 사이언스에서의 수학은 엄밀한 수학이 아니라 긴 문장을 짧게 표현한 것에 불과해데이터 사이언스는 수식이 의미하는 바를 직관적으로 이해하는 자세 필요해경제학에서 수학 기반 연구가 주류로 자리 잡은 이유는 수학이 효율적인 의사소통 수단이기 때문 고등학교 때 수학이 가장 자신 있는 과목이자 가장 좋아하는 과목이었다. 당연히 대학교에 진학해도 수학을 좋아할 줄 알았지만, 대학 시절부터 수학은 싫어하는 과목으로 바뀌었다….

AI 과대광고의 허상과 데이터 과학의 현주소

AI 과대광고의 허상과 데이터 과학의 현주소

AI 열풍에 휩쓸린 사람들은 대부분 심각한 오해에 빠져 있어현재 AI/데이터 과학은 여전히 통계적 방법론에 국한돼과장된 선전은 무지와 오해를 키울 뿐 AI/데이터 과학 교수로 일하다 보면, 이따금 AI 과대광고에 휩쓸린 사람들로부터 이메일을 받곤 한다. 그들이 ‘최신 AI’라고 부르는 것으로 내가 평소 비관적으로 생각해 온 문제들을 모두 해결할 수 있다고 주장하는 내용들이다. 보통 이런 사람들은 ‘최신 AI’…

직장의 ‘폐급’ 걸러내기에 등장한 ‘Z세대 Index’

직장의 ‘폐급’ 걸러내기에 등장한 ‘Z세대 Index’

과거 정신 감정, 지능 검사 등에 국한됐던 직원 선별에 조직 문화 적응 역량도 추가되는 추세미국은 직원들의 SNS 활동을 추척한 조용한 퇴사 지표 개발 필요성 제기되자 논란 되기도기업들이 고용 계약 대신 프리랜서 계약을 들이미는 경우도 늘어 가깝게 지내는 국내 주요 스타트업 핵심 멤버들을 만나면, 어느 중소기업이나 마찬가지듯이 직원을 못 뽑아서 힘들다는 이야기들을 한다. 나 역시 마음에…

텐서플로우 혁명? 적재적소에 써야 혁명이다

텐서플로우 혁명? 적재적소에 써야 혁명이다

데이터 처리 기준이 열에서 행렬로, 행렬에서 텐서로 전환되면서 데이터 과학 범위 확대돼 올바른 접근 방식으로 도구를 적재적소에 적용할 때만 더 나은 결과 얻을 수 있어기술의 발전을 아무 생각 없이 받아들이기보다는 그 기술이 ‘왜’ 필요한지 생각하는 자세 필요해 학부 시절인 2000년대 초로 돌아가보면, 기초적인 회귀분석 문제를 풀기 위해 매트랩(Matlab)을 처음 배웠다. 당시 매트랩은 혁명이었는데, 그 이유는…

한국식 주입식 교육과 데이터 사이언스 교육의 절망적인 결합이 낳은 한국의 데이터 사이언스 업계

한국식 주입식 교육과 데이터 사이언스 교육의 절망적인 결합이 낳은 한국의 데이터 사이언스 업계

논문을 쓸 수 없는 학생들, 논문을 이해하지도 못하는 학생들직장에서 해야하는 업무를 상세하게 알려줘야만 따라가는 직장인들한국사회의 주입식 교육이 낳은 폐해비단 데이터 사이언스 분야 뿐만 아니라, 국내 기업 사회 전체에 뿌리 내린 후진성 낳아 지난 몇 년간 한국인들을 대상으로 직업 교육수준부터 학부, 석사까지 다양한 수준으로 AI/Data Science 교육을 하다 얼마 전부터 한국 교육 시장 자체를 포기했다. 가장…

[선거] 전화 기반 여론조사와 인터넷 기반 여론조사

[선거] 전화 기반 여론조사와 인터넷 기반 여론조사

전화 기반 여론조사 대체해야 한다는 목소리 높아, 인터넷 여론조사 진행하는 경우도 많아한국은 휴대전화 기반 신원 확인 시스템이 잘 갖춰져 여론조사 정확도 높고 비용 저렴한 축에 속해인터넷 조사가 비용은 저렴하지만 정확도 높이기 어려워 아직 한계 있어 이번 22대 총선 기간 내내 스마트폰을 무음으로 처리해놨었다. 주소지가 경합지역이어서인지는 몰라도, 하루에도 최소한 4번 이상의 여론조사 전화를 받았었기 때문이다. 바쁜…

‘AI≠IT개발’을 상징적으로 보여준 스탠퍼드 대학의 한국 AI역량 평가를 보면서

‘AI≠IT개발’을 상징적으로 보여준 스탠퍼드 대학의 한국 AI역량 평가를 보면서

스탠퍼드 대학 인간중심AI연구소, AI Index에서 한국 AI역량 이집트, UAE와 동급 취급’AI=IT개발’이라고 착각했던 정부 관계자들의 어리석은 예산 집행이 낳은 정책 실패돈만 투입하면 해결되는 인프라, 건설 사업 아냐, 늦었지만 인재 양성부터 천천히10년, 20년이 걸리더라도 A급 인재 길러낼 수 있도록 고교, 대학 교육 시스템부터 개선해야 지난 16일(현지시간), 미국 명문 스탠퍼드 대학의 인간중심AI연구소에서 발표한 2024년 전세계 AI지표(AI Index)에서 한국이…

[선거] 사전투표와 당일투표는 왜 결과가 다를까?

[선거] 사전투표와 당일투표는 왜 결과가 다를까?

사전투표일에 투표장을 찾아갈 수 있는 직업군, 접근성이 당일투표에 그대로 적용되지 않아콘크리트 지지층이 있는 지방에서도 사전투표와 당일투표 투표율 크게 다른 것도통계학적으로 분포함수가 달라진 것, 향후 선거 예측에 활용할 변수 추출에 활용해야 지난 2020년 제21대 총선부터, 2022년 대선, 2022년 지선에 이어 10일에 치뤄진 제22대 총선까지 사전투표 표심이 당일투표와 상당히 다르게 나오는 것을 보고 왜 다르게 나오는 것인지에…

[선거] 1변수 회귀분석의 문제점과 정치권 패널들의 선거 분석

[선거] 1변수 회귀분석의 문제점과 정치권 패널들의 선거 분석

22대 총선의 여당 참패를 무조건 대통령 잘못으로만 설명하는 정치권 패널들의 해석 다수실제 사회 현상은 수 많은 변수들의 복합 작용으로 이뤄짐에도 단순히 쉬운 설명만 찾기 때문시민 사회 역량 성장을 위해서라도 다양한 원인을 찾아내는 분석 역량을 길러내야 지난 10일 치뤄진 제22대 총선에서 집권 여당의 참패로 결론이 나오자, 정치권 패널들 대부분이 정부 실패, 혹은 정부의 수장인 대통령에 대한…

[선거] 출구조사 오차와 데이터 사이언티스트의 책임감

[선거] 출구조사 오차와 데이터 사이언티스트의 책임감

출구조사 오차 탓에 누군가는 웃다고 울고, 또 누군가는 울다가 웃게됐다데이터 과학은 오차가 허락되는 학문이지만, 그렇다고 오차의 원인마저 무시하는 학문은 아냐이번 오차의 원인은 지역, 연령, 성별 기반의 과거 모델이 후보별 특성을 고려 못했기 때문패널 데이터 형태로 기본 데이터 구조를 바꾸 재접근하는 것도 도전해볼만한 방법 지난 22대 총선 투표가 종료되기 약 30분 전 무렵, 서울 동작을 지역구…

[선거] 출구조사와 ‘AI예측’은 왜 사전투표를 못 맞췄을까?

[선거] 출구조사와 ‘AI예측’은 왜 사전투표를 못 맞췄을까?

지역, 연령, 성별 기반 표심이 틀린 곳들 탓에 출구조사 오차 발생한 10개 선거구틀린 이유는 1주일 사이에 표심이 빠르게 바뀌었기 때문’스윙 보터’들의 표심은 단순 여론조사 데이터로 알기 어려워AI예측도 결국은 정확한 데이터 없으면 한계 지난 10일 제22대 총선 투표가 막 끝나자마자 오후 6시에 방송사들이 공개한 출구조사와 11일 오전에 확인한 투표 결과가 상당히 달랐다는 평들이 나온다. ‘투표함은 열어봐야…

계산 비용 최소화를 위한 ‘Trinity’, 하드웨어 – 소프트웨어 – 수학 모델

계산 비용 최소화를 위한 ‘Trinity’, 하드웨어 – 소프트웨어 – 수학 모델

비싼 하드웨어만 도입한다고 무조건 AI를 도입한 것 아냐고급 하드웨어는 계산 속도 개선을 위한 하나의 도구일 뿐AI는 반복 계산의 자동화가 필요한 구간에서 인간의 수고를 덜어주는 프로그램에 불과자동화 연산에 필요한 계산 비용 최소화는 하드웨어 뿐만 아니라 소프트웨어 최적화도 필수근간에는 데이터 변형, 데이터에 맞춘 수학 모델 변형 등이 깔려있어 ‘브라운 운동(Brownian motion)’은 1827년 스코틀랜드 식물학자 로버트 브라운이 발견한…

AI교육의 미래와 AI채용 시장의 미래

AI교육의 미래와 AI채용 시장의 미래

지난 4월 6일을 끝으로 2023~2024년 졸업 기수들에 대한 논문 지도를 끝냈다. 5월 중에 데이터 사이언스 경영학회 세미나 발표를 거쳐 9월까지 논문을 제출하면 이제 졸업이다. 논문에 합격(Pass)를 받은 분들이 그렇게 많지 않고, 최선을 다한 분들이 집에서 혼자 울었다는 이야기도 들었다. 합격이라고 이야기를 못 해줘서 마음이 무겁고, 내 가슴에 박힌 못들이 다시 한번 날 찌르는 느낌이 들어서…

고급 교육과 졸업 논문과 졸업장의 무게

고급 교육과 졸업 논문과 졸업장의 무게

지난 2022학년도 입학생이 2년 학위 과정 끝에 졸업 논문 마무리에 한참이다. 2021학년도 입학생 중에 논문을 못 냈던 분들도 괴로운 마음을 다잡고 지난해 9월부터 재도전에 나섰다. 지난 3월 30일, 오는 4월 6일 양일간 1차로 심사를 진행하고, 합격하면 작년처럼 ‘데이터 사이언스 경영 학회(Managerial Data Science Association, MDSA)’ 세미나에서 졸업 논문을 발표하게 된다. 발표 후 남은 몇 달간…

왜 온라인 학위 과정은 오프라인 학위 과정보다 수준이 떨어진다고 생각할까?

왜 온라인 학위 과정은 오프라인 학위 과정보다 수준이 떨어진다고 생각할까?

온라인 학위 저평가 원인은 대학들이 오프라인보다 입학 난이도 및 교육 난이도를 가볍게 운영하기 때문 장기간 온라인 교육에 대한 평가 절하 인식이 퍼져 있어 편견 확대되는 효과도 난이도 높이면 결국 학생들의 기초 실력과 열정에 따라 성취도 구분되는 효과 나와 지난 코로나19 기간을 겪으며 한국 사회에서도 온라인 교육 과정에 대한 편견이 많이 사라지는 했지만, 여전히 온라인 교육은…

홍대 앞 상권이 청년을 불러모았을까? 청년들이 상권을 만들었을까?

홍대 앞 상권이 청년을 불러모았을까? 청년들이 상권을 만들었을까?

상권과 특정 세대 소비자 집중도 관계 분석시 동시성의 오류 발생할 가능성 높아 도구 변수를 이용해 둘 간의 복합 상관관계를 단순 상관관계로 분리해야 실제 기업 사례에서도 잘못된 계산 후 잘못된 결론 얻는 경우 많아 데이터 사이언스 관련 프로젝트를 하다보면, 비일비재하게 발생하는 사안이 인과관계 오류다. 원인이라고 생각했던 변수가 사실은 결과였고, 반대로 결과라고 생각했던 변수가 원인인 경우들이 상당히…

[2류 국가, 2류 인재] ⑧이민 받지 말고 한국 기업이 해외진출 하는 건 어떨까?

[2류 국가, 2류 인재] ⑧이민 받지 말고 한국 기업이 해외진출 하는 건 어떨까?

해외의 지적 역량을 활용해야하는 기업은 인재 수입보다 기업의 해외 진출 선택하는 것이 바람직 리모트 활성화로 해외 인력 뽑아서 쓰고 더 높은 효율성 내는 기업들도 속속 늘고 있어 1990년대 관세 장벽 철폐 후 글로벌 상품 경쟁에 밀린 업체들이 도태된 것처럼, 2020년대 인력 이동 장벽 철폐되면 역량 부족한 인력들이 도태될 가능성 높아 이민청이 만들어진다는 이야기가 계속 나오는…

SNS를 많이 쓰는 사람들의 연봉은 낮다는 속설은 사실일까?

SNS를 많이 쓰는 사람들의 연봉은 낮다는 속설은 사실일까?

1변수 분석은 큰 오류 낳을 수 있어, 항상 다양한 변수 간 복합 관계 이해해야 데이터 사이언스는 다양한 변수 간 복합 관계를 찾아내는 모델 연구 작업 1변수 집착은 과거 방식, 빅데이터 시대에 맞춰 사고 방식 개선해야 데이터 사이언스 교육을 하거나, 직원들이 잘못된 결론을 갖고 왔거나, 외부에 강의를 나갔을 때 항상 강조하는 부분이 ‘1변수 회귀분석(One-variable regression)’을 하지…

[2류 국가, 2류 인재] ⑦고숙련 노동력이 한국에 이민오도록 만들려면

[2류 국가, 2류 인재] ⑦고숙련 노동력이 한국에 이민오도록 만들려면

고숙련 인력을 데려오고 싶지만, 한국이 이미 잘 하고 있는 산업이 아니면 인재 모시기 어려워 한국의 강점에 속하는 산업군 위주로 숙련 인력 이민 경험치를 쌓는 것이 먼저 무조건 선진국 출신이라고 가산점을 주는 관점도 피해야 이민청에 대한 논의가 활발하게 진행 중인데, 많은 관계자들이 고숙련 노동력을 한국에 적극적으로 유치하기 위해 노력해야 한다는 발언들을 내놓는다. 그런데, 한국인 유학생들이 한국에…

웹소설이 웹툰으로 바뀌는 과정과 데이터 사이언스

웹소설이 웹툰으로 바뀌는 과정과 데이터 사이언스

웹소설이 웹툰으로 바뀌는 구조는 ‘자본의 논리’만 작동하는 것 아냐 ‘작가의 의지’가 반영되는 비중 높으면 외부 알려진 단순 시장 변수로는 예측 불가능 데이터 사이언스 모델링은 언제나 시장 상황에 대한 이해부터 시작해야 SIAI의 MBA AI/BigData 졸업 논문 쓰느라 고생 중인 학생 하나가 잡은 주제가 웹소설이 웹툰으로 바뀌는 조건이다. 일반적으로 생각하기에는 조회수가 많고, 웹소설 판매량이 많은 경우에 웹툰…