[해외 DS] 로봇의 의사 결정, ‘체화된 사고 사슬’로 더 똑똑하게!

160X600_GIAI_AIDSNote
'체화된 사고 사슬', 단계별 문제 해결 능력 향상
시각-언어-행동 모델의 한계 극복, 다양한 로봇에서 적용 가능
끊임없이 변화하는 환경에서의 적응력과 실행 속도 개선 필요
ECoT 20240801
사진=Pixabay

UC 버클리, 스탠퍼드, 바르샤바대학교 공동 연구팀이 로봇의 의사 결정 능력을 혁신적으로 향상시키는 새로운 방법론, ‘체화된 사고 사슬'(Embodied Chain of Thought, 이하 ECoT)을 개발했다.

ECoT는 로봇이 인간처럼 단계별로 문제를 해결하고, 환경과의 상호작용을 통해 더 효과적인 의사 결정을 내릴 수 있도록 돕는다. 이는 고차원적인 사고와 저차원적인 감각 정보를 통합해 로봇의 작업 이해도와 수행 능력을 향상시키는 접근법이다.

또한 연구팀은 ECoT를 통해 로봇이 새로운 작업과 환경에 더 효과적으로 적응하고, 인간의 자연어 피드백을 통해 스스로 학습하며 행동을 교정할 수 있음을 입증했다. 이는 로봇의 자율성과 지능을 한 단계 더 발전시킨 획기적인 성과다.

시각-언어-행동 모델의 한계 극복

시각-언어-행동(Vision-Language-Action, VLA) 모델은 로봇이 언어 지시와 시각 정보를 종합적으로 이해해 다양한 작업을 수행하도록 훈련하는 데 유용하게 활용되고 있다. 아울러 로봇이 기존에 경험하지 못한 새로운 상황에서도 적절한 행동을 선택할 수 있도록 돕는다는 장점이 있다.

그러나 연구 결과에 따르면, VLA 모델은 복잡하고 새로운 환경에서 신중한 계획과 상황 적응이 요구되는 작업을 수행하는 데에는 어려움을 겪을 수 있다고 한다. 주로 행동 관찰을 통해 학습하기 때문에 중간 추론 과정을 거치지 않기 때문이다. 즉 VLA 모델은 주어진 정보를 바탕으로 즉각적인 행동을 선택하는 데에는 능숙하지만, 복잡한 상황에서 단계별 추론을 통해 최적의 행동 계획을 수립하는 데에는 한계를 보인다.

연구팀은 VLA 모델이 탑재된 로봇의 단계별 추론 능력을 향상시키기 위해 ECoT에 기반 모델(foundation model)을 접목했다. 다양한 작업 환경에서 로봇의 행동 데이터를 담은 ‘브리지데이터 V2(BridgeData V2)’에서 기반 모델을 통해 유용한 특징을 추출했으며, 이를 토대로 ECoT 방식의 단계별 사고 과정을 반영한 합성 훈련 데이터를 생성해 냈다.

또한 연구진은 로봇의 환경 이해를 돕기 위해 객체 감지기와 비전-언어 모델과 같은 다양한 기반 모델을 활용해 로봇 주변 환경에 대한 설명을 생성하고, 객체 정보에 주석을 달았다. 이후 구글의 제미나이 모델을 통해 작업 계획, 세부 단계, 이동 경로 등을 레이블 형태로 생성하고, 이전에 수집된 객체 정보와 로봇 그리퍼(집게)의 위치 정보를 결합했다. 마지막으로 전체 프로세스를 하위 모듈로 분할해 로봇이 작업을 수행하기 전에 철저한 분석을 거칠 수 있도록 체계적인 접근 방식을 취했다.

Step by Step 20240801
사진=Pixabay

개선점 및 향후 과제

더 나아가 연구팀은 ECoT 추론 방식이 다양한 로봇에도 적용될 수 있음을 확인했다. 학습 과정에서 접하지 못한 로봇에도 추론 능력을 일반화할 수 있다는 것이다. 특히 ECoT는 로봇 학습 데이터 없이도 까다로운 일반화 작업에서 오픈 소스 VLA인 ‘OpenVLA’의 절대 성공률을 28%나 향상시키는 괄목할 만한 성과를 보였다.

참고로 절대 성공률은 로봇 조작 작업에서 다양한 시각-언어-행동(VLA) 모델의 성능을 측정하는 데 사용되는 성과 지표를 의미한다. 이 지표는 시도된 전체 작업 중에서 성공적으로 완료된 작업의 비율을 나타내며, 모델이 작업을 올바르게 실행할 수 있는 능력을 단순하게 측정한다.

아직 개선해야 할 과제도 남아있다. 모든 추론 단계가 미리 정해진 순서대로 진행되기 때문에 급변하는 환경에 대한 로봇의 적응력과 유연성이 부족하다는 한계가 있다. 소규모 프로젝트에서는 더 많은 데이터를 활용하여 이를 개선하고 ECoT의 적용 범위를 넓힐 수 있지만, 대규모 과제에는 추가 연구가 필요할 것으로 예상된다. 또한 연구팀은 현재 제한적인 실행 속도를 개선하기 위해 제어 주파수 최적화를 통한 빠른 작동 방안을 모색하고 있다.

한편 ECoT의 기반이 되는 기반 모델은 로봇 연구 분야에서 주목받는 기술이다. 기반 모델은 로봇의 다양한 작업 수행 능력을 향상시키고 로봇 교육 비용을 절감할 수 있는 잠재력을 지니고 있다. ECoT 기술은 아직 발전 단계에 있지만, 꾸준한 연구와 개발을 통해 로봇 제어 분야의 혁신을 끌어낼 수 있을 것으로 기대된다.