[해외 DS] 아이의 시선으로 세상을 배운 AI, 인간과 기계의 학습 격차 좁혀

160X600_GIAI_AIDSNote
생후 6개월 된 아기의 시점으로 AI 모델 훈련
기존 AI 모델보다 훨씬 적은 데이터로 단어 습득해
아직 초기 단계이지만 인간 학습의 비밀 밝히는 데 중요한 한 걸음

[해외DS]는 해외 유수의 데이터 사이언스 전문지들에서 전하는 업계 전문가들의 의견을 담았습니다. 저희 데이터 사이언스 경영 연구소 (GIAI R&D Korea)에서 콘텐츠 제휴가 진행 중입니다.


Baby_taught_AI_ScientificAmerican_20240205
사진=Scientific American

대다수의 아이들은 만 2세가 되면 약 300개의 단어를 이해하고, 4세가 되면 평균 어휘력이 1,000단어 이상으로 늘어난다. 하지만 단어를 빠르게 습득하는 인간의 놀라운 학습 능력은 아직 완전히 이해되지 않았다. 일부 인지 과학자와 언어학자들은 인간이 선천적으로 가진 언어적 논리 때문이라고 분석했다. 그러나 최신 머신러닝 연구에 따르면 선천적인 능력 없이도 최소한의 데이터에서 단어의 의미를 파악할 수 있다.

지난 1일 사이언스지에 게재된 이 연구는 인지 및 컴퓨터 과학자들로 구성됐으며, 연구팀은 샘이라는 어린이의 관점에서 촬영한 61시간 분량의 영상과 소리만으로 이미지와 단어를 일치시킨 인공지능 모델을 성공적으로 선보였다. 샘이 생후 6개월에서 25개월 사이에 간헐적으로 착용한 헤드 마운트 카메라로 녹화된 영상과 음성을 학습 데이터로 사용했는데, 비록 길지 않지만 AI가 특정 명사의 의미를 파악하도록 유도하기엔 충분한 시간이었다고 연구팀은 말했다.

아이의 눈과 귀로 배운 세상, 수십억 개 단어는 필요 없어”

이번 연구 결과는 언어 습득의 경로가 기존에 생각했던 것보다 더 간단할 수 있음을 시사했다. 미국 스키드모어대학의 심리학 부교수인 제시카 설리번(Jessica Sullivan)은 아이들이 단어의 의미를 효율적으로 파악하기 위해 “맞춤형으로 만들어진 화려한 언어적 메커니즘이 필요하지 않을 수도 있다”고 전했다. 설리번 교수는 이번 연구에는 참여하지 않았지만, 다른 연구자들과 함께 연구에 사용된 영상 데이터 세트를 제작한 바 있다. 어린이의 시점에서 얻은 단순한 정보만으로도 패턴 인식과 단어 이해가 시작될 수 있다는 증거를 제시하여 이번 연구의 의미가 크다고 설리번 교수는 설명했다.

또한 이번 연구는 기계가 인간과 유사한 방식으로 학습하는 것이 가능하다는 것을 보여줬다. ChatGPT의 최신 버전인 GPT-4와 같은 대규모언어모델(LLM)은 수십억 개, 때로는 수조 개의 단어 조합을 포함한 방대한 양의 데이터로 학습되는 반면, 인간은 훨씬 적은 정보로 살아가며 적절한 유형의 데이터만 있다면 기계 학습과 인간 학습 사이의 격차는 크게 좁혀질 수 있다고 이 논문의 제1저자인 뉴욕대학교의 컴퓨터 인지 연구원 와이 킨 봉(Wai Keen Vong)은 언급했다. “오늘날의 모델은 의미 있는 일반화를 하기 위해 지금처럼 많은 입력이 필요하지 않다”고 이 연구의 또 다른 제1저자이자 뉴욕대학교의 심리학 및 데이터과학 부교수인 브렌든 레이크(Brenden Lake)도 봉의 말에 동의했다. “우리는 처음으로 한 아이의 눈과 귀를 통해 단어를 학습하도록 AI 모델을 훈련할 수 있다는 것을 보여줬다.”

멀티 모달 학습, AI가 인간처럼 시각과 청각을 연결한 방법

레이크 교수와 봉, 그리고 그들의 동료들은 비전 인코더와 텍스트 인코더로 구성된 일반적인 멀티모달 머신러닝 모델로 연구를 시작했다. 그런 다음 동기화된 신경망을 통해 이미지와 문자를 같은 수학적 공간으로 변환하여 AI가 해석할 수 있도록 결합했다. 연구원들은 모델에 61시간 동안 촬영된 영상을 정지된 프레임 형태로 제공하고, 오디오는 텍스트로 변환해서 입력했다. 카메라는 단순히 샘이 보고 들은 것을 기록했기 때문에 데이터 세트는 깔끔하게 정리된 상태가 아니였다. 여기에는 보호자가 아이에게 직접 말하는 장면과 배경에서 들리는 다른 사람들 간의 대화도 포함돼 있다. 게다가 음성의 내용이 장면이나 사물을 직접적으로 묘사하지 않는 경우가 많았다. 그럼에도 불구하고 샘과 AI 모델은 단어의 의미를 파악하는 데 성공한 것이다.

여러 테스트에서 이 모델은 많은 단어를 해당 이미지와 정확하게 일치시켰다. 또한 훨씬 더 많은 데이터로 학습된 다른 두 AI 모델의 정확도에 근접하는 성과를 이뤘다. 한 평가에서 연구자들은 기본 모델에 훈련 세트의 이미지 4개를 한 묶음으로 제시하고, 어떤 이미지에 공과 같은 특정 물체가 포함되어 있는지 테스트했다. 모델은 약 62%의 정확도를 보였는데, 이는 무작위 추측의 정확도인 25%보다 훨씬 높은 수치였다. 연구원들은 또한 샘의 영상에 없는 새로운 물체 이미지로 모델을 테스트했는데, 이 경우 역시 많은 물체를 정확하게 식별하여 학습한 내용을 일반화할 수 있는 능력을 보였다.

복잡한 인간 언어 습득 과정, “아직 완벽하게 반영 못 해”

그러나 이번 연구에서 밝혀진 것에는 중요한 한계가 있다. 우선 연구팀은 이번 연구 결과가 아이들이 어떻게 언어를 습득하는지를 증명하는 것이 아니라는 점을 인정했다. 미국 인디애나대학교 블루밍턴의 심리학 및 뇌과학 교수인 린다 스미스(Linda Smith)는 “아이들이 언어를 습득할 때 어떤 일이 일어나는지 보여주는 데에 충분한 증거를 제시하지 못했다”고 지적했다. 스미스 교수는 인간의 학습에는 단순한 패턴 인식뿐만 아니라 다른 요인도 관여할 가능성이 높다고 덧붙였다. 연구에 사용된 모델은 수십 개의 단어를 이해할 수 있었지만 여전히 이해하지 못한 단어가 많았다. 예를 들어 “sand”(모래)와 “car”(자동차)를 정확하게 식별하는 것은 잘했지만, “hand”(손)와 “room”(방)을 식별하는 데는 무작위와 비슷하거나 무작위보다 못했다. 레이크 교수는 모델의 특성이 아이들이 가장 빨리 기억하는 단어의 종류와 일치하지 않는 점을 짚었다.

아울러 이번 연구는 명사를 인식하는 데에만 초점을 맞췄다. 밀라-퀘벡 인공 지능 연구소의 컴퓨터 언어학 연구원 에바 포텔랑스(Eva Portelance)는 인간의 언어 학습은 이보다 훨씬 더 복잡하다며, 아이들은 자기 경험을 통해 동사, 문장 구조, 추상적인 개념도 일찍부터 이해하기 시작한다고 강조했다. 하지만 연구에서는 제한된 데이터로 AI가 동일한 작업을 수행할 수 있음을 입증하지 못한 것이다. 그러나 포텔랑스는 연구를 통해 인간의 마음을 한층 더 깊이 이해할 수 있으며, 궁극적으로 인간의 학습 방식을 개선하는 데 도움이 될 수 있다고 내다봤다. 그녀는 AI 연구가 기계의 능력과 기업의 이익을 극대화하는 데만 그쳐서는 안 되며, 우리 자신에 대해 오랫동안 해답을 찾지 못했던 질문에 명쾌한 해답을 제시하는 데에 더 많이 쓰여야 한다고 독려했다.

영어 원문 기사는 사이언티픽 아메리칸에 게재되었습니다.