[해외 DS] 소형 AI, 지속가능성·접근성·적합성 ‘3박자’

모델의 규모가 점점 커지고 있지만, 작은 모델도 비슷한 성능 낼 수 있어
작은 모델은 에너지 효율적이고, 접근하기 쉬우며, 다양한 장치에 적합해
인간의 학습 방식을 이해하고 모델을 훈련해야 혁신적인 기계 학습 가능

[해외DS]는 해외 유수의 데이터 사이언스 전문지들에서 전하는 업계 전문가들의 의견을 담았습니다. 저희 데이터 사이언스 경영 연구소 (GIAI R&D Korea)에서 영어 원문 공개 조건으로 콘텐츠 제휴가 진행 중입니다.


출처: Microsoft Bing Image Creator

인공 지능의 규모는 점점 커지고 있다. OpenAI의 ChatGPT나 Google의 Bard와 같은 유명한 챗봇을 구동하는 대규모 언어 모델(LLM)은 이제 1,000억 개 이상의 파라미터로 만들어진다. 이 모델들은 AI가 입력에 대한 출력을 결정하는 데 필요한 가중치와 변수를 담고 있는데, 이는 몇 년 전까지 가장 진보된 AI 모델에서도 상상할 수 없는 양의 정보다.

이러한 큰 규모의 AI 모델은 일반적으로 더 뛰어난 성능을 보장한다. 점점 더 방대해지는 학습 데이터와 그에 따른 모델의 크기로, 대학 시험에서부터 의대 입학시험까지 통과할 수 있는 수준의 챗봇이 나타났다. 그러나 이런 발전에는 단점도 따른다. 모델이 커질수록 관리가 어려워지고, 에너지 소모가 많아지며, 실행 및 구축 단계도 복잡해진다. 그래서 빅테크 기업에서는 더 작고 간단한 모델과 데이터 세트에 관심을 기울이는 추세다.

작은 크기에도 불구하고, Phi-1.5의 탁월한 성능

최근에는 Microsoft 연구팀이 Phi-1.5라는 새로운 언어 모델에 대한 기술 보고서를 발표했다. Phi-1.5는 13억 개의 파라미터로 이루어져 있는데, 이는 ChatGPT의 기반이 된 GPT-3.5 모델의 약 100분의 1 크기다. GPT-3.5와 Phi-1.5는 둘 다 트랜스포머 기반의 신경망으로, 언어의 문맥과 관계를 이해하여 작동하는 측면에서 공통점을 가지고 있다.

그러나 상대적으로 작은 크기에도 불구하고, phi-1.5는 (아직 동료 심사를 거치지 않은 사전 인쇄 논문으로) 공개된 보고서에서 “훨씬 더 큰 LLM의 많은 특장점을 공유하고 있다”라고 기술되었다. 이 모델은 벤치마킹 테스트에서 비슷한 크기의 많은 모델보다 우수한 성능을 보여주었으며, 5~10배 더 큰 다른 인공지능과도 견줄 만한 능력을 나타냈다. 지난 10월의 최신 업데이트를 통해 phi-1.5는 텍스트뿐만 아니라 이미지도 해석할 수 있는 멀티모달 기능을 갖추었다. 최근에 Microsoft는 27억 개의 매개 변수를 가진 phi-1.5의 후속 버전인 phi-2를 출시했는데, 이 제품은 여전히 소형인 것에 비해 더 많은 기능을 제공한다고 발표했다.

물론 Bard, GPT-3.5, GPT-4와 같은 LLM이 여전히 phi 모델보다 우세하다. 마이크로소프트 리서치의 수석 AI 연구원이자 보고서의 저자 중 한 명인 로넨 엘단(Ronen Eldan)은 “phi-1.5와 GPT-4를 비교하는 것은 중학생과 학부생을 비교하는 것과 같다”라고 말했다. 그러나 phi-1.5와 phi-2는 작은 AI 모델도 여전히 강력할 수 있고, 이는 GPT-4와 같은 거대한 AI 모델이 제기하는 몇 가지 문제를 해결할 수 있다는 가능성을 시사한다고 강조했다.

대규모 AI의 문제와 소형 AI의 가능성, “에너지·민주화·보안”

1,000억 개 이상의 파라미터를 가진 AI 모델을 학습하고 실행하는 데는 상당한 에너지가 필요하다. 워싱턴대학의 컴퓨터 엔지니어인 사자드 모아제니(Sajjad Moazeni)에 따르면, 전 세계에서 ChatGPT를 하루 사용하는 것은 미국 가정 33,000가구가 24시간 동안 소비하는 전력과 비슷한 양의 전력이 필요할 수 있다고 한다. Joule에 발표된 분석에 따르면, Google이 모든 검색 엔진 상호 작용을 Bard로 대체할 경우, 아일랜드의 전력 소비량과 비슷한 양의 전력이 소비될 것으로 조사됐다. 이러한 에너지 소비는 컴퓨팅 성능과 메가 모델을 학습하는 데 필요한 대량의 데이터로부터 비롯된다. 반면, 작은 규모의 AI가 실행에 필요한 컴퓨팅 성능과 에너지는 적다. 이러한 접근은 지속 가능성을 증진한다.

자원이 적게 필요한 AI는 더욱 접근하기 쉬운 AI다. 현재 상황에서 대규모 LLM을 구축하고 유지하는 데 필요한 자금과 서버 공간은 소수의 기업만 보유하고 있다. 작은 모델은 더 많은 사람이 개발하고 연구할 수 있게 해준다. 밀라-퀘벡 인공 지능 연구소의 계산 및 인지 언어학 연구원인 에바 포텔랑스(Eva Portelance)는 “작은 언어 모델은AI를 더욱 민주화할 수 있는 한 방법”이라며 “더 많은 데이터나 큰 모델을 필요로 하지 않기 때문에, 이는 대규모 기관 외부에서도 혁신을 이룰 기회를 제공한다”라고 언급했다.

현재 대부분의 LLM은 용량 때문에 스마트폰이나 노트북에 로컬로 저장하기 어려워 클라우드에서 실행된다. 그러나 작은 모델은 개인용 장치에서도 실행할 수 있다. ‘에지 컴퓨팅’으로 알려진 개인 장치에 연산 및 데이터 저장소를 통합하는 기술은 개별적인 드론과 같은 작은 장치에서 기계 학습 기반 센서 시스템을 가능케 한다. 언어 모델도 이처럼 작아진다면 다양한 애플리케이션에서 사용될 수 있을 것이다. 최신 가전제품인 스마트 냉장고나 웨어러블 기기인 애플 워치와 같은 기기에서 작은 언어 모델을 사용하면 클라우드에 연결하여 데이터를 전송하지 않고도 챗봇과 같은 인터페이스를 구현할 수 있다. 이는 데이터 보안을 강화하는 데 큰 도움이 될 것으로 예상된다.

‘인간 지능’을 이해하기 위해 축소형 LLM이 적합, 설명 가능성을 높여야

AI 모델이 클수록 성능이 뛰어나지만, 모든 AI가 강력한 성능을 요구하지 않는다. 예를 들어, 스마트 냉장고의 챗봇은 식품 용어를 이해하고 목록을 작성할 수 있어야 하지만, 코드를 작성하거나 복잡한 계산을 수행할 필요는 없다. 작고 특화된 AI 모델이 기능에 맞게 개발된는 것이 중요하다. 특화되지 않은 대규모 인공지능 모델의 경우 각 매개변수의 역할을 분석하는 것이 사실상 불가능하다. ‘해석 가능성’이 제한적일 때, 특화된 소형 모델의 필요성이 대두되는 이유다.

인공 지능은 가장 우수한 언어 모델을 구축하는 것뿐만 아니라 인간 학습 방식을 이해하고 이를 기계적으로 모방하는 방법을 탐구하는 것이다. 모델의 크기와 해석 가능성은 인간의 사고를 이해하는 데 핵심적인 역할을 한다. 더 작고 해석 가능한 AI를 사용하면 알고리즘이 결정을 내리는 이유를 더 쉽게 이해할 수 있다. 인간이 인지 및 학습에서 최고의 모범 사례다. 인간은 적은 양의 정보로도 많은 것을 이해하고 패턴을 파악할 수 있기 때문인데, 이러한 현상을 연구하고 AI로 이를 모방하는 데에는 큰 의의가 있다.

전문가들은 대규모 데이터 세트에서 대규모 모델을 훈련하는 것의 이익이 점점 줄어들고 있다고 지적한다. 이는 고품질 데이터를 확보하는 것이 어려워지고, 에너지 비용이 증가하며, 모델의 성능이 더 이상 빠르게 향상되지 않는다는 것을 의미한다. 그 대신, 더 얇은 신경망에 집중하고 다양한 훈련 전략을 실험함으로써 머신 러닝 분야에서 혁신을 이뤄내야 할 시기라는 점을 강조한다. 축소형 AI를 연구하면서 지능의 최소 요소를 발견하고 이해하면 그것을 기반으로 혁신적인 모델을 구축할 수 있다. 더 작은 모델을 통해 큰 질문에 접근하여 AI를 경제적으로 개선하고자 많은 연구들이 진행 중이다.


When It Comes to AI Models, Bigger Isn’t Always Better

Artificial intelligence models are getting bigger, along with the data sets used to train them. But scaling down could solve some big AI problems

Artificial intelligence has been growing in size. The large language models (LLMs) that power prominent chatbots, such as OpenAI’s ChatGPT and Google’s Bard, are composed of well more than 100 billion parameters—the weights and variables that determine how an AI responds to an input. That’s orders of magnitude more information and code than was common among the most advanced AI models just a few years ago.

In broad strokes, bigger AI tends to be more capable AI. Ever larger LLMs and increasingly massive training datasets have resulted in chatbots that can pass university exams and even entrance tests for medical schools. Yet there are drawbacks to all this growth: As models have gotten bigger, they’ve also become more unwieldy, energy-hungry and difficult to run and build. Smaller models and datasets could help solve this issue. That’s why AI developers, even at some of the largest tech companies, have begun to revisit and reassess miniaturized AI models.

In September, for instance, a team of Microsoft researchers released a technical report on a new language model named phi-1.5. Phi-1.5 is made up of 1.3 billion parameters, which is about one one-hundredth the size of GPT-3.5, the model that underlies the free version of ChatGPT. GPT-3.5 and phi-1.5 also share the same general architecture: they are both transformer-based neural networks, meaning they work by mapping the context and relationships of language.

But despite its relatively diminutive size, phi-1.5 “exhibits many of the traits of much larger LLMs,” the authors wrote in their report, which was released as a preprint paper that has not yet been peer-reviewed. In benchmarking tests, the model performed better than many similarly sized models. It also demonstrated abilities that were comparable to those of other AIs that are five to 10 times larger. And recent updates made in October even allow phi-1.5 to display multimodality—an ability to interpret images as well as text. Last week Microsoft announced the release of phi-2, a 2.7-billion-parameter follow-up to phi-1.5, which demonstrates even more ability in a still relatively compact package, the company claims.

Make no mistake, massive LLMs such as Bard, GPT-3.5 and GPT-4 are still more capable than the phi models. “I would say that comparing phi-1.5 to GPT-4 is like comparing a middle school student and an undergraduate student,” says Ronen Eldan, a principal AI researcher at Microsoft Research and one of the authors of the September report. But phi-1.5 and phi-2 are just the latest evidence that small AI models can still be mighty—which means they could solve some of the problems posed by monster AI models such as GPT-4.

For one, training and running an AI model with more than 100 billion parameters takes a lot of energy. A standard day of global ChatGPT usage can consume as much electricity as about 33,000 U.S. households do in the same time period, according to one estimate from University of Washington computer engineer Sajjad Moazeni. If Google were to replace all of its users’ search engine interactions with queries to Bard, running that search engine would use as much power as Ireland does, according to an analysis published last month in Joule. That electricity consumption comes, in large part, from all the computing power required to send a query through such a dense network of parameters, as well as from the masses of data used to train mega models. Smaller AI needs far less computing power and energy to run, says Matthew Stewart, a computer engineer at Harvard University. This energy payoff is a sustainability boost.

Plus, less resource-intensive AI is more accessible AI. As it stands now, just a handful of private companies have the funds and server space to build, store, train and modify the biggest LLMs. Smaller models can be developed and studied by more people. Thinking small “can in some sense democratize AI,” says Eva Portelance, a computational and cognitive linguistics researcher at the Mila-Quebec Artificial Intelligence Institute. “In not requiring as much data and not requiring the models to be as big…, you’re making it possible for people outside of these large institutions” to innovate. This is one of multiple ways that scaled-down AI enables new possibilities.

For one thing, smaller AI can fit into smaller devices. Currently, the size of most LLMs means they have to run on the cloud—they’re too big to store locally on an unconnected smartphone or laptop. Smaller models could run on personal devices alone, however. For example, Stewart researches so-called edge computing, in which the goal is to stuff computation and data storage into local machines such as “Internet of Things” gadgets. He has worked on machine-learning-powered sensor systems compact enough to run on individual drones—he calls this “tiny machine learning.” Such devices, Stewart explains, can enable things like much more advanced environmental sensing in remote areas. If competent language models were to become similarly small, they would have myriad applications. In modern appliances such as smart fridges or wearables such as Apple Watches, a smaller language model could enable a chatbotesque interface without the need to transmit raw data across a cloud connection. That would be a massive boon for data security. “Privacy is one of the major benefits,” Stewart says.

And although the general rule is that larger AI models are more capable, not every AI has to be able to do everything. A chatbot inside a smart fridge might need to understand common food terms and compose lists but not need to write code or perform complex calculations. Past analyses have shown that massive language models can be pared down, even by as much as 60 percent, without sacrificing performance in all areas. In Stewart’s view, smaller and more specialized AI models could be the next big wave for companies looking to cash in on the AI boom.

Then there’s the more fundamental issue of interpretability: the extent to which a machine-learning model can be understood by its developers. For larger AI models, it is essentially impossible to parse the role of each parameter, explains Brenden Lake, a computational cognitive scientist researching artificial intelligence at New York University. This is the “black box” of AI: developers build and run models without any true knowledge of what each weight within an algorithm accomplishes. In smaller models, it is easier, though often still difficult, to determine cause and effect and adjust accordingly. “I’d rather try to understand a million parameters than a billion parameters,” Lake says.

For both Lake and Portelance, artificial intelligence isn’t just about building the most capable language model possible but also about gaining insight into how humans learn and how we can better mimic that through machines. Size and interpretability are key factors in creating models that help illuminate things about our own mind. With mega AI models—generally trained on much bigger datasets—the breadth of that training information can conceal limitations and make it seem like an algorithm understands something it doesn’t. Conversely, with smaller, more interpretable AI, it is far easier to parse why an algorithm is producing an output. In turn, scientists can use that understanding to create “more cognitively plausible” and possibly better overall AI models, Portelance says. Humans, they point out, are the gold standard for cognition and learning: we can absorb so much and infer patterns from very small amounts of information. There are good reasons to try to study that phenomenon and replicate it through AI.

At the same time, “there are diminishing returns for training large models on big datasets,” Lake says. Eventually, it becomes a challenge to find high-quality data, the energy costs rack up and model performance improves less quickly. Instead, as his own past research has demonstrated, big strides in machine learning can come from focusing on slimmer neural networks and testing out alternate training strategies.

Sébastien Bubeck, a senior principal AI researcher at Microsoft Research, agrees. Bubeck was one of the developers behind phi-1.5. For him, the purpose of studying scaled-down AI is “about finding the minimal ingredients for the sparks of intelligence to emerge” from an algorithm. Once you understand those minimal components, you can build on them. By approaching these big questions with smaller models, Bubeck hopes to improve AI in as economical a way as possible.

“With this strategy, we’re being much more careful with how we build models,” he says. “We’re taking a slower and more deliberate approach.” Sometimes slow and steady wins the race—and sometimes smaller can be smarter.