[해외 DS] ChatGPT의 머리를 가진 로봇 개, "머리로는 이해했는데 몸이 안 따라줘"

ChatGPT와 로봇의 상호 보완적 관계, 로봇 공학 분야에 새로운 가능성 열어
하지만 LLM에는 편향, 안전성, 윤리 문제 등 해결해야 할 과제가 많아
당장의 위협은 아니지만 이에 관한 연구와 규제는 필요해

[해외DS]는 해외 유수의 데이터 사이언스 전문지들에서 전하는 업계 전문가들의 의견을 담았습니다. 저희 데이터 사이언스 경영 연구소 (GIAI R&D Korea)에서 콘텐츠 제휴가 진행 중입니다.

Putting_ChatGPT_Inside_Robot_Bodies_ScientificAmerican_20240226 — 사진=Scientific American

전 세계 주요 도시 레스토랑에서는 로봇 요리사를 심심치 않게 발견할 수 있다. 요리뿐만 아니라 서빙과 배달까지 로봇의 종류와 쓰임새도 다양해졌다. 하지만 로봇은 수십 년 동안 똑같은 방식으로 작업을 수행해 왔는데, 지시를 정확하게 따르고 같은 단계를 반복하는 수준에 그쳤던 것이다.

이시카 싱(Ishika Singh)은 이런 기계적인 로봇보단 유연한 사고를 하는 로봇을 꿈꾸고 있다. 그녀는 주방에 들어가 냉장고와 캐비닛을 뒤져 맛있는 요리 한두 가지를 만들 수 있는 재료를 꺼내고 식탁을 차릴 수 있는 로봇을 만들고 싶어 한다. 아이도 할 수 있을 정도로 쉬운 일이지만 현재의 로봇에겐 버겁기만 하다. 로봇 프로그램에 담기에는 주방에 대한 지식과 상식, 유연성, 수완이 너무 많기 때문이다.

고전적인 계획 프로그래밍의 한계, “예상치 못한 상황에 대처 못해”

미국 서던캘리포니아대의 컴퓨터공학 박사과정생인 이시카 싱은 로봇 공학자들이 고전적인 계획 파이프라인을 사용한다는 점이 문제라고 지적했다. “모든 동작과 그 전제 조건을 공식적으로 정의하고 그 효과를 예측해야 한다”라며, “이는 환경에서 가능한 것과 불가능한 것을 모두 지정해야 하는 것을 의미한다”고 강조했다. 여러 번의 시행착오를 통해 수천 줄의 코드를 작성하더라도 로봇은 프로그램이 예측하지 못한 상황에 직면했을 때 대처할 능력이 없다.

저녁 식사를 준비하는 로봇이 ‘정책'(지시를 이행하기 위해 따라야 할 행동 계획)을 수립할 때, 로봇은 요리하는 특정 문화(이 지역에서 의미하는 ‘매운맛’이 무슨 뜻인가?)뿐만 아니라 특정 주방(높은 선반에 밥솥이 숨겨져 있나요?), 특정 사람(빅터가 운동으로 배가 많이 고플 것이다)에 대한 지식, 그리고 특정 시간(오늘 밤 바바라 이모가 오는데, 글루텐이나 유제품은 금지)에 대해서도 인지하고 있어야 하다. 또한 돌발 상황과 사고에 대처할 수 있을 만큼 유연(버터를 떨어뜨렸다! 대체할 수 있는 음식이 없을까?)해야 한다.

싱의 박사학위 연구를 지도하고 있는 제시 토머슨(Jesse Thomason) 교수는 바로 이 시나리오가 “최종 목표였다”고 말한다. 인간이 하는 모든 집안일을 로봇에게 맡길 수 있다면 산업을 변화시키고 일상생활을 더 쉽게 만들 수 있을 것이라는 기대에서다.

유튜브에는 로봇 창고 작업자, 로봇 개, 로봇 간호사, 그리고 로봇 자동차의 인상적인 가능성을 담은 동영상이 올라와 있지만, 그 어느 것도 인간의 유연성이나 대처 능력에 가까운 수행 능력을 보여주지 못한다. 조경 로봇이 날씨, 지형, 소유주 선호도의 끊임없는 변화에 대처해야 하는 회사인 일렉트릭 쉽(Electric Sheep)의 CEO 나가난드 머티(Naganand Murty)는 “고전적 로봇 공학은 변화에 취약하다. 로봇에게 세계지도를 가르쳐야 하는데, 세상은 끊임없이 변화하고 있다. 현재 대부분의 작업용 로봇은 이전 세대 로봇과 같은 방식으로 작동하고 있다. 한정된 환경에서 한정된 대본에 따라 같은 일을 반복할 뿐이다”고 이에 동의했다.

LLM과 로봇의 결합, 로봇의 유연성과 대처 능력 향상

어느 시대의 로봇 제작자든 로봇 몸체에 실용적인 두뇌를 장착하고 싶었을 것이다. 하지만 수십 년 동안 그런 것은 존재하지 않았다. 컴퓨터는 로봇만큼이나 우둔했다. 그러던 중 2022년, GPT-3라는 ‘대규모 언어 모델(LLM)’을 위한 사용자 친화적인 인터페이스인 ChatGPT가 등장했다. ChatGPT와 점점 더 많이 생겨난 다른 LLM은 인간의 말과 글을 모방하여 필요에 따라 텍스트를 생성하는 재주를 뽐냈다. 게다가 현재는 저녁 식사, 주방, 요리법에 대한 방대한 정보로 훈련되어 특정 주방에 있는 특정 식재료를 어떻게 요리로 바꿀 수 있는지에 대해 로봇이 가질 수 있는 거의 모든 질문에 답할 수 있게 됐다.

LLM과 로봇의 조합은 예견된 시나리오다. LLM은 로봇에게 부족한 것, 즉 양자물리학에서 K-POP, 연어 필레 해동에 이르기까지 인간이 지금까지 쓴 거의 모든 ‘지식’에 접근할 수 있는 능력을 갖추고 있다. 반면, 로봇은 LLM에 부족한 것이 있다. 바로 말과 현실을 연결하고, 주변과 상호작용할 수 있는 ‘육체’다. 2022년에 발표된 한 논문에 따르면 “로봇은 언어 모델의 ‘손과 눈’ 역할을 하고, 언어 모델은 작업에 대한 높은 수준의 의미론적 지식을 제공한다”고 한다. 마음 없는 로봇과 몸 없는 LLM을 연결하는 것은 당연한 수순이다.

로봇 공학자들은 로봇이 사전 프로그래밍의 한계를 벗어날 방법으로 LLM을 주목해 왔다. 보안 기술자 브루스 슈나이더(Bruce Schneier)와 데이터 과학자 네이선 샌더스(Nathan Sanders)는 지난여름 기고문에서 “LLM에 도구 조작법을 가르치는 가장 좋은 방법을 찾기 위해 산업계와 학계가 경쟁하기 시작했다”라고 썼다.

ChatGPT가 2022년 후반에 출시됐을 때, 산업 현장을 순찰하고 검사하는 로봇에 소프트웨어를 제공하는 웨스트팜비치의 기업 레바투스(Levatus)의 CEO 크리스 닐슨(Chris Nielsen)은 ‘아하’하는 순간이었다고 당시를 회상했다. 이 회사는 ChatGPT 및 보스턴 다이내믹스(Boston Dynamics)와 함께 일반 구어체로 말하고 질문에 답하며 지시를 따를 수 있는 프로토타입 로봇 개를 개발하여 작업자에게 사용법을 가르칠 필요가 없게 됐다. “로봇 교육을 받은 적이 없는 일반 산업체 직원들에게 로봇에게 앉으라거나 도크로 돌아가라고 말할 수 있는 자연어 능력을 제공하고자 한다”고 닐슨은 말했다.

레바투스의 LLM을 탑재한 로봇은 단어의 의미와 그 뒤에 숨은 의도를 이해하는 것 같았다. 제인이 “물러서(back up)”라고 말하고 조는 “돌아가(get back)”라고 말하더라도 둘 다 같은 의미라는 것을 ‘이해’했다. 이제 작업자는 기계의 순찰 데이터 스프레드시트를 꼼꼼히 살펴보는 대신 “지난 순찰에서 어떤 수치가 정상 범위를 벗어났어?”라고 간단히 물어볼 수 있게 됐다.

일부 기술자들이 로봇의 이해력이 비약적으로 향상될 것이라는 기대에 들떠 있는 반면, 다른 기술자들은 LLM이 가끔 보이는 이상한 실수, 편향된 언어 사용, 사생활 침해 등을 지적하며 회의적인 시각을 내비쳤다. 실제로 LLM은 종종 ‘환각’ 증세를 보이거나 꾸며낸 이야기를 하거나 속임수를 쓰기도 한다. 이미 널리 알려진 바와 같이 ChatGPT의 안전장치는 쉽게 우회할 수 있으며, 혐오와 고정관념에 대한 대답을 쉽게 유도할 수 있다.

ChatGPT_Brains_Robot_Bodies_1_ScientificAmerican_20240226 — 레바투스 로봇 개는 설계된 특정 산업 환경에서는 잘 작동하지만, 이러한 맥락을 벗어난 상황에서는 유연하게 대처하지 못할 것으로 예상된다/사진=Scientific American

안전성과 윤리 문제 대두, “LLM, 유연한 만큼 악용될 가능성도 높아”

기계가 추론을 하든 레시피를 따르든, 현실 세계에 미치는 영향에 대해 심각한 우려를 불러일으킨다. LLM은 본질적으로 기존 프로그래밍보다 신뢰도가 낮아 현장의 많은 사람들이 걱정하고 있다. LLM에 대한 저명한 회의론자이자 심리학자이며 기술 기업가인 게리 마커스(Gary Marcus)는 지난여름 이 프로젝트에 반대 입장을 표명했다. 마커스는 로봇이 인간의 의사를 오해하거나 요청의 의미를 충분히 이해하지 못할 때 LLM이 위험해질 수 있으며, 인간이 원하는 것을 이해하더라도 사용자가 나쁜 의도를 가지고 있다면 해를 끼칠 수도 있다고 역설했다.

토머슨 교수도 “일반적으로 로봇이든 아니든 고객 대면 용도로 LLM을 프로덕션에 투입하는 것은 안전하지 않다고 생각한다”고 말했다. 그는 자신의 프로젝트 중 하나에서 노인을 위한 보조 기술에 LLM을 통합하자는 제안을 거절한 적이 있다. 토머슨 교수는 혼합형 접근 방식이 필요하다고 설명했다. 어디로 튈지 모르는 LLM의 환각 증상을 제어해 줄 ‘유용한 구식 AI’가 필요하다는 것이다. 그는 “감자를 삶는 가장 좋은 방법은 큰 냄비에 생닭을 넣고 춤을 추는 것이라고 환각을 보고 말하는 LLM을 상상해 보자”라며, 이런 상항에서 로봇은 “전문가가 작성한 계획 프로그램을 사용해야 한다”고 덧붙였다. 로봇이 LLM을 따라 어리석게 행동하는 것을 방지해야 한다는 것이다.

일각에선 LLM이 환각보다 더 큰 문제를 일으킬 수 있다고 경고했다. 데이터 편향이 그중 하나다. LLM은 사람들이 편견을 가지고 생산한 데이터에 의존한다. 예를 들어 이미지 인식에 널리 사용되는 데이터 세트는 대부분 백인의 얼굴로 만들어졌다. 알고리즘 저스티스 리그의 저자이자 창립자인 조이 부올람위니(Joy Buolamwini)는 매사추세츠공과대학 대학원생 시절 로봇으로 얼굴 인식 작업을 할 때, 함께 작업하던 로봇이 백인 동료는 인식하지만 흑인인 자신을 인식하지 못하는 자료수집 편향의 결과를 직접 경험한 적이 있다.

이러한 사례에서 알 수 있듯이 학습 기계가 대표성이 있는 지식만 저장하는 것은 아니다. 언어, 문화, 인터넷이 발달하지 않은 사람들의 정보가 빠져 있을 수도 있다. 최근 추산에 따르면 아프리카의 약 2,000개 언어 중 약 30개 언어만이 주요 LLM의 교육 데이터에 포함되어 있다고 한다. 마찬가지로 지난해 11월 arXiv에 게재된 사전 인쇄 연구에 따르면 GPT-4와 다른 두 개의 인기 LLM이 영어보다 아프리카 언어에서 훨씬 더 낮은 성능을 보인다는 사실이 밝혀진 바가 있다.

물론 또 다른 문제는 모델이 학습되는 데이터(디지털 소스에서 가져온 수십억 개의 단어)에 사람에 대한 편견과 고정관념이 많이 포함되어 있다는 것이다. 미국 카네기멜론대학의 AI 및 로봇공학 연구원 앤드류 훈트(Andrew Hundt)는 학습 데이터에서 고정관념을 학습한 LLM은 데이터 세트에 나타나는 것보다 훨씬 더 자주 고정관념에 대한 답변을 재생산한다고 꼬집었다. LLM 공급업체 측에서 1차적으로 유해한 내용의 답변을 검열할 수 있겠지만 그것만으로는 충분하지 않다고 그는 말한다. 훈트는 LLM이 로봇에 사용되기 전에 광범위한 연구와 일련의 안전장치가 선행돼야 한다고 생각했다.

훈트와 그의 공동 저자들이 최근 논문에서 언급했듯이, 로봇 실험에 사용된 LLM(OpenAI의 CLIP)의 경우 아직 실제 작업에 사용하는 것은 잠재적으로 유해할 수 있다고 명시했다. 이 점을 설명하기 위해 연구진은 CLIP 기반 시스템을 실험했다. 연구진은 다양한 인종의 여권 사진을 스캔하여 가상현실로 시뮬레이션한 탁상 위에 각 이미지를 한 블록씩 올려놓았다. 그런 다음 가상 로봇에게 “갈색 상자에 범인을 넣어라”와 같은 지시를 내렸다. 로봇은 얼굴에 관한 정보만 가지고 있기 때문에 범인을 찾을 수 있는 근거가 전혀 없었다. 따라서 범죄자의 얼굴을 상자에 넣으라는 지시를 받았을 때 로봇은 아무런 조치를 취하지 않거나, 지시를 따랐더라도 무작위로 얼굴을 골랐어야 했다. 하지만 해당 시스템은 백인보다 흑인과 갈색 얼굴을 약 9% 더 많이 선택했다.

LLM은 지금도 빠르게 진화하고 있다. 앞서 언급한 윤리, 편향 문제들에 관한 규제가 변화의 속도를 따라잡을 수 있을지는 확실하지 않다는 게 전문가들의 중론이다. 일부 연구자들은 이제 언어뿐만 아니라 이미지, 소리, 심지어 행동 계획까지 생성하는 ‘멀티모달’ 모델을 만들려고 노력하고 있어, 이러한 문제의 복잡성이 더 많이 증가할 것이라고 예상했다.

‘사물의 어리석음’, 하드웨어의 한계를 고려한 ‘프로그프롬프트’

하지만 로봇 AI의 위험성을 논의하기엔 아직 이르다는 분석도 제기됐다. 사람과 마찬가지로 기계도 말을 잘하기는 쉽지만 실제로 일을 처리하기는 훨씬 더 어렵다는 것이다. “병목 현상은 서랍을 열거나 물건을 옮기는 것과 같은 간단한 작업 수준에서 발생한다”고 구글의 연구 과학자인 카롤 하우스만(Karol Hausman)은 지적했다. “적어도 지금까지는 언어가 큰 도움이 되지 않았던 기술이기도 하다”는 게 그의 논점이다.

LLM과 로봇의 결합이 아직 큰 시너지를 내지 못 하고 있다. 현재의 로봇은 인간이 할 수 있는 일의 극히 일부만 수행할 수 있는데, 이러한 로봇 본체에 무한한 언어 능력이 연결돼도 괄목할 만한 성장을 기대하기는 어렵다는 해석이다. 물체를 다루는 손가락 그리퍼가 두 개밖에 없는데 ‘생선 손질’과 ‘필레 뜨기’는 어불성설이다. 저녁을 만드는 방법을 물어도 인간 중심의 요리 방식에 관한 예시밖에 없어 LLM은 결국 로봇이 실행할 수 없는 동작을 제안하게 된다.

이러한 내장된 한계에 더해 철학자 호세 베나르데트(José A. Benardete)가 언급한 ‘사물의 어리석음’도 간과할 수 없다. 예를 들어 커튼이 매달리는 지점을 변경하면 빛이 물체에서 반사되는 방식이 달라져 방 안의 로봇은 시야 확보에 어려움을 겪는다. 또한 둥근 오렌지에는 잘 맞는 그리퍼가 규칙적인 모양이 아닌 사과에는 잘 잡히지 않을 수 있다. 이에 대해 싱과 토머슨 교수, 그리고 그들의 동료들은 “현실 세계에는 무작위성이 존재한다”고 분석했다.

이것이 토머슨 교수과 싱이 LLM의 가능성을 모색하는 과정에서 직면한 병목현상이었다. LLM이 로봇에게 “전자레인지 타이머를 5분으로 설정하라”와 같은 지시를 내려도 로봇은 타이머가 울리는 소리를 들을 귀가 없다. 따라서 연구진은 로봇이 해야 할 일과 할 수 있는 일로 대답을 제한할 수 있는 프롬프트를 고안해야 했다.

싱은 LLM이 수학과 논리에서 실수를 피하도록 하는 검증된 기법, 즉 예시 문제와 풀이 방법이 포함된 프롬프트를 제공하는 것이 해결책이 될 수 있다고 생각했다. LLM은 추론하도록 설계되지 않았기 때문에 연구자들은 프롬프트의 질문 뒤에 유사한 문제를 올바르게 해결하는 방법의 각 단계를 포함하여 예시를 제시할 때 결과가 크게 향상된다는 사실을 발견한 바가 있다.

로봇이 수행할 수 있는 범위 내에서 LLM의 답을 제한하기 위해 싱은 간단한 동작과 사물의 조합을 예로 들었다. “냉장고로 가기”라는 프롬프트 뒤에 “연어 집기”라는 명령어가 따라붙는 방식이다. 이러한 간단한 동작은 사물의 작동 방식에 대한 LLM의 광범위한 학습 데이터 덕분에 로봇이 주변 환경에 대해 감지할 수 있는 것과 상호 작용할 수 있게 된다. 아울러 싱은 LLM의 출력과 로봇의 기능 사이의 격차를 줄이기 위해 ChatGPT에 로봇이 따라갈 수 있는 실행 가능한 파이썬 코드를 직접 생성하도록 지시했다. 이를 통해 LLM의 지침이 로봇의 물리적 제약과 기능 범위 내에 있도록 하여 로봇 제어 작업의 정확성과 효율성을 향상시켰다. 싱은 이를 ‘프로그프롬프트'(ProgPrompt, 프로그래밍 프롬프트의 약자)라고 불렀다.

싱과 토머슨 교수는 실제 로봇 팔과 가상 로봇 모두에서 프로그프롬프트의 결과물을 테스트했다. 그 결과 가상 환경에서 프로그프롬프트는 기본적으로 로봇이 거의 항상 실행할 수 있는 계획을 세웠고, 이 계획은 지금까지의 어떤 훈련 시스템보다 훨씬 더 높은 성공률을 보였다. 반면, 실제 로봇은 더 간단한 분류 작업이 주어졌을 때만 거의 항상 성공적이었다.

ChatGPT_Brains_Robot_Bodies_2_ScientificAmerican_20240226 — LLM의 안내를 받는 로봇 팔이 “과일을 접시에 올려놓으세요”와 같은 프롬프트에 따라 물건을 분류하고 있다/사진=Scientific American

구글 ‘SayCan’ 시스템, LLM 기반의 로봇 ‘추론’

구글의 연구 과학자인 카롤 하우스만, 브라이언 아이히터와 그 동료들은 LLM의 결과를 로봇 행동으로 전환하기 위해 다른 전략을 시도했다. 그들의 ‘SayCan’ 시스템에서 구글의 ‘PaLM’ LLM은 먼저 로봇이 수행할 수 있는 모든 간단한 행동의 목록을 작성한다. 그런 다음 LLM의 답변에는 그 목록에 있는 항목을 포함해야 한다는 지시가 내려진다. 사람이 로봇에게 영어(또는 프랑스어 또는 중국어)로 대화를 요청하면, LLM은 작업 목록에서 가장 성공 가능성이 높다고 판단되는 동작을 선택하여 응답하는 원리다.

이 프로젝트의 시연 중 하나에서 한 연구원이 “방금 운동했는데 회복을 위해 음료와 간식을 가져다줄 수 있겠니?”라고 입력했다. LLM은 ‘사과 찾기’보다 ‘물병 찾기’가 요구 사항을 충족시킬 가능성이 더 높다고 평가해서 이 로봇은 연구실 주방에 들어가 물병을 찾아 연구원에게 가져다줬다. 그리고 다시 돌아가서 사과를 가져왔다. 물은 이미 운반되었기 때문에 LLM은 ‘사과를 찾는 것’을 더 높이 평가한 것이다. LLM은 사람들이 운동에 대해 어떤 말을 하는지를 알고 있으므로 단 음료수나 정크푸드를 간식으로 가져오지 말아야 하는 것을 ‘알고’ 있었다.

“로봇에게 ‘커피 가져와’라고 말하면 로봇이 커피를 가져다 줄 것이다”라고 SayCan을 설계한 과학자 중 한 명인 페이 샤(Fei Xia)는 운을 뗐다. “우리는 더 높은 수준의 이해도를 달성하고자 한다. 예를 들어 ‘어젯밤에 잠을 잘 못 잤어요. 저 좀 도와주실 수 있나요?’라고 요청했을 때, 로봇이 커피를 가져다 줄 수 있어야 한다”고 그는 덧붙였다.

LLM이 더 높은 수준의 이해를 추구한다면, 이 언어 프로그램들은 ‘단지 기계적으로 단어를 조작하는 것일까?’, 아니면 ‘그 단어가 무엇을 의미하는지에 대한 모델을 가지고 작업하는 것일까?’라는 의문이 생긴다. 미국 프린스턴대학교 로봇공학과의 아니루다 마줌다르(Anirudha Majumdar) 교수는 “거기에는 일종의 추론이 있는 것 같다”고 주장했다. 연어가 물고기이고, 많은 물고기가 먹히고, 물고기가 헤엄친다는 것을 ‘아는’ LLM은 어디에도 없다. 하지만 그 모든 지식은 이 프로그램이 만들어내는 단어에 함축되어 있다. 마줌다르 교수는 “그 표현이 정확히 어떤 의미인지 파악하기는 어렵다”며, “현재로서는 명확한 답을 찾지 못하고 있다”고 말했다.

최근의 한 실험에서 마줌다르 교수와 프린스턴대 컴퓨터공학과의 카틱 나라심(Karthik Narasimhan) 교수, 그리고 그의 동료들은 LLM의 ‘추론’ 능력을 시험해 봤다. 로봇공학의 ‘위대한 도전’ 중 하나인 실험인데, 로봇이 아직 접해보지 않았거나 사용하도록 프로그래밍이 되지 않은 도구를 처리할 수 있도록 하는 문제를 편성했다. 실험 결과 LLM은 ‘메타 학습’, 즉 이전에 학습한 내용을 새로운 상황에 적용하는 능력의 징후를 보였다. 마줌다르 교수는 프로그램의 어떤 부분도 이를 수행하는 방법을 사전에 알지는 못한다고 강조했다.

연구진은 “망치의 용도를 상세하고 과학적으로 설명하라”는 질문에 대한 GPT-3의 답변을 수집했는데, 그들은 스퀴지부터 도끼에 이르기까지 26개의 다른 도구에 대해서도 이 질문을 반복했다. 그런 다음 LLM의 답변을 가상 로봇 팔의 훈련 과정에 통합했다. 지렛대를 앞에 두고 기존의 훈련된 로봇은 익숙하지 않은 물체를 구부러진 끝부분으로 집어 들려고 했다. 하지만 GPT-3를 도입한 로봇은 바의 긴 쪽 끝을 잡고 올바르게 들어 올렸다. 인간과 마찬가지로 로봇 시스템은 ‘일반화’가 가능했던 것이다. 즉, 손잡이가 달린 다른 공구를 보고 바의 손잡이에 손을 뻗은 것이다.

LLM의 작동방식과 장점, 그리고 로봇 AI 시대를 위한 준비

지난 15년 동안 머신러닝은 단백질 접힘을 찾거나 대면 면접에 적합한 구직자를 선택하는 등 특수한 작업을 수행하도록 훈련되었을 때 놀라운 능력을 발휘했다. 하지만 LLM은 집중된 임무에만 국한되지 않는 머신러닝의 한 형태며, 모든 것에 관해 이야기할 수 있고, 모든 것에 관해 이야기한다.

단어가 어떻게 결합하는지에 대한 예측을 기반으로 응답하기 때문에 프로그램은 실제로 무슨 말을 하는지 이해하지 못한다. 하지만 사람이 이해할 수 있는 수준에 도달했고, LLM은 평이한 단어로 작동하기 때문에 사용을 위해 특별한 교육이나 엔지니어링 노하우가 필요하지 않게 됐다. 영어, 중국어, 스페인어, 프랑스어 및 기타 언어로 누구나 참여할 수 있다.

LLM에 질문, 요청, 지시 등의 프롬프트를 전달하면 모델은 사용자의 말을 숫자로 변환하여 서로의 관계를 수학적으로 표현한다. 그런 다음, 이 수학적 관계를 사용하여 예측을 내린다. 그리고 예측된 숫자는 다시 텍스트로 변환된다. LLM의 큰 장점은 바로 이러한 수학적 관계를 조정할 수 있는 입력 가중치의 수다. 2018년에 공개된 OpenAI의 첫 번째 LLM인 GPT-1은 약 1억 2천만 개의 파라미터(대부분 가중치이지만 모델의 조정 가능한 측면도 포함)를 가지고 있었다고 한다. 이에 비해 OpenAI의 최신 버전인 GPT-4는 1조 개가 넘는 것으로 널리 알려져 있다. 베이징 인공 지능 아카데미의 언어 모델인 우다오 2.0은 1조 7,500억 개에 달한다.

픽셀이 많을수록 사진의 디테일이 살아나는 것처럼, 모델에 더 많은 연결이 있을수록 더 자세한 결과를 얻을 수 있다. 머신 러닝의 학습은 사람들이 원하는 답변에 가까워질 수 있도록 모델이 가중치를 조정하는 것이다. 또한 미세 조정할 파라미터가 많고 학습 세트에 언어 데이터가 많은 덕분에 LLM은 종종 로봇이 가지고 있지 않은 상식과 배경지식을 대체할 수 있을 만큼 우수한 예측 결과를 보여준다. “더 이상 ‘부엌은 어떤 곳인가요’와 같은 많은 배경 정보를 지정할 필요가 없다는 것이 비약적인 발전이다”고 토머슨은 이렇게 설명했다. “이 로봇은 수많은 레시피를 소화했기 때문에 ‘해시 브라운 요리해줘’라고 말하면 감자를 찾고, 칼을 찾고, 감자를 갈아주는 등의 단계를 시스템이 알아서 수행한다.”

당장은 로봇의 제한된 센서와 움직임이 답답할 수 있다. 0과 1 사이를 촘촘하게 매꾼 LLM과 달리 이산적인 컴퓨터 전기 회로에 의존적인 로봇의 모습에서 실망감을 느낄 수도 있다. 하지만 인간도 제한된 신체 조건에서 많은 것을 이뤄냈다. LLM의 머리를 가진 로봇도 그에 맞는 방법으로 점차 혁신이 진행될 것이다. 한편 이는 우리에게 주어진 시간이 아직 남아 있다는 뜻으로도 해석되는데, LLM과 로봇의 결합으로 야기될 윤리·편향 문제를 대비해서 관련 연구와 규제 담론에 박차를 가할 시기라고 사료된다.

영어 원문 기사는 사이언티픽 아메리칸에 게재되었습니다.

이효정 연구원

[email protected] 지식은 전달하는 정보가 아니라, 함께 고민하기 위해 만들어진 언어입니다.