[해외 DS] 메타, 4050억 개 매개변수 가진 대형언어모델 '오픈 소스'로 공개해

역사상 최대 규모의 오픈 소스 대형언어모델 등장
라마 3.1, 여러 벤치마크 테스트에서 GPT-4와 비슷한 성능 보여
오픈 소스 공개를 통해 투명하고 안전한 대형언어모델 되어야

메타는 역사상 최대 규모의 오픈 소스 대형언어모델(LLM)인 라마 3.1을 공개했다. 라마 3.1을 두고 현존하는 최강의 AI 모델이라며 성능에 자신감을 보였다. 더불어 오픈AI가 챗GPT 코드를 공개하지 않는 모습을 보며 회사명과 모순인 점을 비난했다.

마크 저커버그 “대형언어모델 업계에서도 오픈 소스 문화 활성화 되어야”

라마 3.1은 영어뿐만 아니라 아랍어, 독일어, 힌디어 등 8개 언어로 대화할 수 있으며 긴 글 요약에서도 높은 성능을 보여 강력한 언어 모델로서 자리매김했다. 게다가 사용자가 언어 모델을 쉽게 구현할 수 있도록 API를 제공했다. 라마 3.1은 오픈 소스를 공개하면서도 오픈AI의 GPT-4와 앤트로픽의 클로드 3.5 등과 같이 최신 대형언어모델과 비슷한 성능을 보였다.

메타 CEO인 마크 저커버그는 라마 3.1을 오픈 소스로 과감히 공개한 사건을 두고 개발 업계에 변곡점이 될 것이라고 예상했다. 또한 대형언어모델 업계에서도 오픈 소스를 공개하는 문화가 정착해야 한다고 지적했다.

라마 3.1, GPT-4와 비슷한 성능 보여

이전에 공개한 라마 3는 700억 개의 매개변수로 학습했으나, 이번에 출시한 라마 3.1 405B는 무려 4050억 개의 매개변수로 모델을 학습했다. 이는 GPT-3를 한참 능가한 수준이다. 대형언어모델에서 매개변수 개수는 그 모델의 크기를 뜻한다. 일반적으로 매개변수 개수가 많을수록 더 많은 데이터를 활용해 나은 성능을 보일 것으로 예상한다.

또한 메타는 라마 3.1은 일반 지식, 조종성, 수학, 도구 사용, 다국어 번역 등 다양한 작업에서 GPT-4와 경쟁할 수 있는 수준이라고 밝혔다. 벤치마크 결과에 따르면, 라마 3.1은 수학 벤치마크 테스트에서 클로드 3.5와 GPT-4o 모델을 넘어섰다. 또한 업계 표준 테스트인 MMLU(Massive Multitask Language Understanding)에서도 경쟁력을 유지하는 모습을 보였다.

모델 효율성 혁신 이룬 메타

게다가 라마 3.1은 15조 개 이상의 토큰으로 훈련되었다. 토큰은 언어의 기본 구문 단위를 말한다. 훈련 과정에서 엔비디아의 H100 GPU를 16000개를 사용하여 몇 달이 걸릴 정도로 거대한 언어 모델이다.

라마 3.1의 컨텍스트(Context) 길이는 12만8천개 토큰이다. 컨텍스트 길이는 언어 모델이 한 번에 처리할 수 있는 입력 텍스트 길이를 뜻한다. 일반적으로 한 번에 처리할 수 있는 텍스트가 많을수록 더 높은 성능을 보인다. 그 이유는 대형언어모델 특성상 이전 문장과 가장 유사한 단어를 출력하여 한 번에 고려할 수 있는 단어가 많으면 많을수록 문맥을 더 정확하게 고려할 수 있기 때문이다. 그러나 컨텍스트 길이가 늘어날수록 비용은 기하급수적으로 증가하므로 그 사이의 균형을 찾는 것이 대형언어모델에서 주요한 과제로 꼽힌다.

제미나이 1.5 프로가 200만 컨텍스트를 고려한 것에 비해 라마 3.1의 컨텍스트는 길지 않지만, 추론 기능이 향상되어 긴 텍스트를 더 효과적으로 처리하고 이해할 수 있다.

또한 메타 AI 엔지니어들은 트랜스포머 모델 아키텍처에 약간의 변형을 줘서 더 높은 성능을 보이게 설계했다. 모델 효율성 혁신은 단순히 규모를 확장하는 것을 넘어 더 큰 도움이 된다. 작고 관리하기 쉬운 모델로 비슷하거나 우수한 결과를 달성하면, 비용뿐만 아니라 환경에도 영향을 줘 사용자와 애플리케이션이 고급 AI에 쉽게 접근할 수 있다.

오픈 소스 대형언어모델, 폐쇄형보다 투명하고 안전해

또한 메타는 라마 3.1을 공개하면서 모델 안전성을 강조했다. 모델이 커질수록 방대한 양의 데이터를 처리해야 하므로 안전성을 관리하기가 어렵다는 점을 짚었다. 메타는 라마 3.1을 출시하기 전에 여러 위험 평가와 안전성 평가는 물론 전문가와 함께 스트레스 테스트를 시행했다고 밝혔다.

게다가 메타는 모델의 다국어 기능 평가도 소홀히 하지 않았다. 영어 이외의 언어에서도 안전하고 합리적인 결과를 도출하도록 설계했다. 저커버그는 라마 3.1와 같이 오픈 소스 모델은 투명하고 광범위하게 조사할 수 있으므로 챗GPT와 같이 폐쇄형 모델보다 더 안전할 것이라고 강조했다.