[해외 DS] 애플, 이미지와 텍스트를 아우르는 첫 멀티모달 모델 ‘MM1’ 공개
최대 300억 개의 매개변수 지원, 사용자의 지시에 따라 이미지 전반을 추론 인컨텍스트 학습, 다중 이미지 추론, 효율적인 MoE 변형 및 최적화된 데이터 처리 전략 등의 기능을 갖추고 있어 어떤 용도로 사용될지 아직 밝히지 않았지만, 향후 Siri 개선·iMessage 기능 강화 등에 활용될 것으로 기대돼
최근 애플은 이미지와 텍스트를 처리할 수 있는 멀티모달 모델 ‘MM1’을 미국 코넬대 논문 저장 사이트 ‘아카이브(arXiv)’에 공개했다. 이 모델은 최대 300억 개의 매개변수를 지원하며 사용자의 지시에 따라 이미지 전반을 추론할 수 있는 능력이 있다.
효율성과 확장성을 위한 MoE 변형과 최적화된 데이터 처리 전략
MM1은 인컨텍스트 학습(in-context learning)을 지원하므로 새로운 유형의 쿼리나 작업에 대해 명시적으로 재교육하거나 미세 조정할 필요 없이 현재 대화에서 제공되는 문맥을 기반으로 질의를 이해하고 응답할 수 있다고 연구진은 밝혔다. 인컨텍스트 학습은 모델이 이전에 본 적이 없는 콘텐츠를 기반으로 이미지에 대한 설명을 생성하거나 사진 기반 프롬프트의 내용에 관한 질문에 답할 수 있게 한다.
MM1은 또한 다중 이미지 추론도 지원하므로 동일한 쿼리 내에서 여러 이미지를 이해하고 해석하여 결론을 도출할 수 있다. 다중 이미지 추론을 통해 시각적 콘텐츠와의 보다 복잡하고 미묘한 상호작용을 처리할 수 있다고 전했다. 향후 MM1의 다중 모드 이해 기능을 통해 애플은 이미지를 기반으로 질문에 답할 수 있게 함으로써 음성 비서 시리(Siri)를 개선하고, 아이메시지(iMessage) 내에서 공유된 이미지와 텍스트의 맥락을 이해하여 사용자에게 더욱 관련성 높은 답변을 제안할 수 있을 것으로 기대된다.
애플의 새로운 대형 멀티모달 모델에는 성능을 향상하는 몇 가지 메커니즘이 있다. 그중에는 시각적 데이터와 텍스트 데이터를 동시에 처리하는 하이브리드 인코더가 있는데, 이를 통해 MM1은 두 가지 데이터 형식을 통합한 콘텐츠를 이해하고 생성할 수 있게 된다. MM1의 또 다른 핵심 구성 요소는 비전-언어 커넥터다. 이는 이미지 인코더가 처리하는 시각적 인식과 언어 모델이 처리하는 텍스트 이해 사이의 틈을 메워준다. 기본적으로 비전-언어 커넥터는 이미지와 텍스트를 처리하는 모델의 개별 기능을 통합하여 이미지의 시각적 인식과 언어 이해가 함께 작동할 수 있도록 한다.
아울러 MM1은 기존의 신경망 모델과 전문가 혼합 모델(Mixture-of-Experts, MoE) 변형을 모두 사용하기 때문에 확장 가능하고 효율적이다. 특히 MoE를 사용하면 추론 중 계산 비용을 늘리지 않고도 모델 용량을 늘릴 수 있는 장점이 있다. 간단히 말해 MM1은 효율적이면서도 더 많은 것을 처리할 수 있다. 또한 이름에서도 알 수 있듯이 각 전문가 모델이 단어, 그림, 코드를 분리해 해를 찾고 이를 종합하여 답하는 방식으로 작동한다. 더 나아가 연구팀은 다양한 데이터 유형이 모델 성능에 미치는 영향을 조사하는 광범위한 연구를 통해 최적화된 데이터 처리 전략을 발굴했다. 예를 들어, 연구팀은 이미지-캡션이 있는 이미지-텍스트와 텍스트 전용 데이터를 혼합하여 사용하는 대규모 멀티모달 사전 학습의 경우가 최고의 성능을 달성하는 데 결정적이라는 사실을 밝혀냈다.
인공지능 영역에 큰 기여, 효율적인 AI 시스템 개발을 위한 핵심 정보 제공
성능 측면에서 300억 개의 파라미터가 포함된 MM1은 멀티모달 벤치마크에서 다른 모델보다 뛰어난 성능을 보였다. MM1은 크기가 두 배 이상 큰 플Flamingo 및 IDEFICS와 같은 모델을 능가했다.
일부 업계 관계자들은 애플의 이번 연구 결과 발표는 인공 지능 영역에 크게 기여 했다고 높게 평가했다. 먼저 연구의 내용이 포괄적이다. 모델의 아키텍처와 데이터의 다양한 조합의 절충, 그리고 각 부분이 학습된 모델의 결과에 어떤 영향을 미치는지에 대해 논의한 인사이트를 공유함으로써 애플은 챗GPT와 같은 모델에 도전할 뿐만 아니라, AI 커뮤니티가 그 결과를 바탕으로 더 정교하고 유능한 AI 시스템을 구축하도록 도왔다는 것이다. 또한 대규모 모델을 학습시키는 데에 막대한 비용이 드는 시대에 이러한 인사이트는 투자 대비 최대의 효과를 얻기 위해 어디를 최적화하고 어디를 줄여야 하는지를 알려주는 핵심적인 정보를 담은 지침서라고 일부 전문가들은 바라봤다.
지난달에는 애플이 자율주행차 프로젝트 타이탄을 중단하고 제너레이티브 AI에 집중한다는 소식이 전해졌다. 애플은 마이크로소프트나 구글과 달리 조용히 AI 프로젝트를 진행해 왔는데, 아직 구체적인 내용은 공개되지 않았지만, 지난여름에는 자체 웹 애플리케이션 기반 챗봇 서비스인 ‘Apple GPT’를 개발 중이라는 보도가 있었고, 개발자들이 애플의 하드웨어에서 대규모언어모델을 학습하고 실행할 수 있는 오픈소스 툴킷인 ‘MLX’를 공개했다. 멀티모달 모델을 연구하는 애플 수석 연구 엔지니어 브랜던 매켄지(Brandon McKinzie)에 따르면 MM1은 “시작에 불과하다”고 한다. 또한 그는 애플이 “이미 차세대 모델을 개발하기 위해 열심히 노력하고 있다”고 언급했다. 한편 애플은 MM1이 어떤 용도로 사용될지 아직 밝히지 않았다.