[해외 DS] 전기 먹는 하마, AI 지속가능성 논의 필요

전 세계 전력 사용량의 1~1.5% 차지한 데이터 센터
학습과 추론 단계에서 효율성 제고 시급
효율성 증가로 순 전력 사용량은 늘어날 수 있어

[해외DS]는 해외 유수의 데이터 사이언스 전문지들에서 전하는 업계 전문가들의 의견을 담았습니다. 저희 데이터 사이언스 경영 연구소 (GIAI R&D Korea)에서 영어 원문 공개 조건으로 콘텐츠 제휴가 진행 중입니다.


사진=Scientific American

모든 온라인 상호 작용은 원격 서버에 저장된 정보에 의존한다. 국제에너지기구에 따르면 현재 전 세계의 데이터 센터는 전체 전력 사용량의 약 1~1.5%를 차지했고, 인공 지능 붐으로 인해 이 수치는 더욱 빠르게 증가할 수 있다는 전망이 보고되고 있다.

데이터 센터 전력 소모량에 비해 환경 문제 언급 적어

그간 AI의 막대한 에너지 사용량에 문제를 제기해 온 연구자들의 경고들은 그 근거가 빈약했었다. 하지만 10월 10일(현지 시각) 동료 평가를 거쳐 Joule에 발표된 연구는 인공지능의 에너지 수요를 정량화한 최초의 분석 중 하나다. 분석에 따르면 현재와 같은 AI 수요 추세가 지속될 경우, 2027년까지 엔비디아는 연간 150만 대의 AI 서버를 출하할 것으로 예상된다. 이 150만 대의 서버를 최대 용량으로 가동할 때 연간 최소 85.4테라와트시의 전력을 소비하게 되는데, 이는 소규모 국가가 1년 동안 사용하는 전력량보다 많은 양이다. 이 분석은 네덜란드 중앙은행의 데이터 과학자이자 암스테르담 자유대학교에서 신흥 기술의 에너지 비용을 연구하는 박사 과정의 알렉스 드 브리스(Alex de Vries)가 수행했다. 앞서 드 브리스는 암호화폐 채굴과 거래의 막대한 에너지 비용에 대한 경종을 울려 세간의 관심을 모았었다.

인공지능 프로그램은 에너지 집약적이다. Google의 검색 엔진을 ChatGPT와 같은 방식으로 완전히 바꾸고 모든 사람이 프롬프트를 사용한다면, 즉 하루에 90억 건의 일반적인 검색 대신 90억 건의 챗봇 상호작용이 발생한다면 Google은 검색 엔진을 유지하는 데만 아일랜드만큼이나 많은 전력이 필요할 것이다. 물론 이를 실현하기 위해 하드웨어에 1,000억 달러 이상을 투자해야 하므로 그렇게 되지는 않을 것이다. 그리고 구글이 투자할 돈이 있다고 해도 모든 서버를 바로 공급받을 수는 없다. 하지만 인공지능의 전력 소모량이 얼마나 위협적인지를 엿볼 수 있는 대목이다. AI의 위험성에 관해 이야기할 때 오류의 잠재적 위험, 블랙박스, 차별, 편향에 대해서는 자주 언급하지만 ‘지속가능성’에 대한 논의는 부족했다. 시류에 편승하기 위해 너도나도 AI 서비스를 출시하는 가운데, 무차별적인 인공지능 적용을 지양하고 책임감 있는 AI 사용 의식이 어느 때보다 간절한 시점이다.

컴퓨팅 부하 분산 및 재생 에너지 활용 방안

인공지능 프로그램은 크게 두 단계로 나뉜다. 하나는 학습 단계로 모델을 설정하고 패턴을 학습하는 과정이다. 그런 다음 모델을 서비스에 배포하여 사용자와 상호작용하는 추론 단계가 있다. 두 단계 모두 에너지 수요가 높으며 정확한 비율은 알 수 없다. 모델에 얼마나 많은 데이터가 포함되어 있는지와 같은 여러 요인에 따라 달라지기 때문이다. 흥미롭게도 추론 단계는 상대적으로 덜 주목받는 경향이 있었다. 2015년 이후 98편의 논문 중 17편만이 추론 단계에 초점을 맞추었지만 49편은 훈련 단계에 관해 다뤘다. 그러나 추론 단계도 모델의 생애 주기 비용에 큰 비중을 차지할 수 있다. 리서치 회사인 세미애널리시스(SemiAnalysis)는 OpenAI가 ChatGPT를 지원하기 위해 총 28,936개의 그래픽 처리 장치(GPU)를 갖춘 3,617대의 엔비디아 HGX A100 서버가 필요하며, 이는 하루 564MWh의 에너지 수요를 의미한다고 밝혔다. GPT-3의 훈련 단계에서 사용된 1,287MWh와 비교하면 추론 단계의 에너지 수요는 상당히 높은 것으로 보인다. 또한, 구글은 2019년부터 2021년까지 AI 관련 에너지 소비의 60%가 추론에서 발생한다고 보고했다.

한편 AI의 지속가능성을 위해 에너지 수요와 공급을 리밸런싱한 사례도 있다. 탄소 집약도가 낮은 지역 또는 시간대로 컴퓨팅 부하를 이동시켜 재생 에너지를 사용하는 방안이다. 화석 연료 대신 재생 에너지를 조달하면 탄소 배출량을 30배까지 줄이는 효과가 있고, 재생 에너지의 주요 단점인 간헐성과 저장 문제를 분산 컴퓨팅으로 극복할 수 있기 때문에 가능한 전략이다. 이러한 부하 전환은 지연 시간에 큰 영향을 받지 않는 학습 단계에서 특히 실현 가능성이 높다. 이는 기술 서비스 기업 액센츄어에서 수행한 작업에서도 입증되었다. 재생 에너지 공급에 맞춰 작업을 예약하는 등 재생 에너지를 사용할 수 있는 지역을 파악하고 GPU와 CPU 사용량을 모니터링하면서 머신 러닝 모델의 컴퓨팅 부하를 가장 적합한 지역으로 이전하는 시스템을 구축하는 것이 최종 목표다.

효율성 개선이 모든 문제를 해결하진 못해

모델 아키텍처와 알고리즘의 혁신으로 AI 관련 전력 소비를 완화하거나 심지어 줄이는 데 도움이 될 수 있다. 하지만 효율성 증가로 인해 오히려 수요가 증가하여 자원 사용량이 순증하는 반등 효과를 유발할 수 있다. 이러한 현상은 기술 변화와 자동화의 역사에서 오랫동안 관찰되어 왔으며 최근 AI 애플리케이션의 사례에서도 조짐이 보인다. 따라서 하드웨어 및 소프트웨어 효율성 개선이 AI 관련 전력 소비의 장기적인 변화를 완전히 상쇄할 것이라고 기대하는 것은 지나치게 낙관적인 전망이다. 모든 애플리케이션이 AI의 혜택을 받거나 혜택이 항상 비용을 능가할 가능성은 작기 때문에 애초에 AI 사용의 필요성을 비판적으로 고려하는 것이 바람직한 이유다.


The AI Boom Could Use a Shocking Amount of Electricity

Powering artificial intelligence models takes a lot of energy. A new analysis demonstrates just how big the problem could become

Every online interaction relies on a scaffolding of information stored in remote servers—and those machines, stacked together in data centers worldwide, require a lot of energy. Around the globe, data centers currently account for about 1 to 1.5 percent of global electricity use, according to the International Energy Agency. And the world’s still-exploding boom in artificial intelligence could drive that number up a lot—and fast.

Researchers have been raising general alarms about AI’s hefty energy requirements over the past few months. But a peer-reviewed analysis published this week in Joule is one of the first to quantify the demand that is quickly materializing. A continuation of the current trends in AI capacity and adoption are set to lead to NVIDIA shipping 1.5 million AI server units per year by 2027. These 1.5 million servers, running at full capacity, would consume at least 85.4 terawatt-hours of electricity annually—more than what many small countries use in a year, according to the new assessment.

The analysis was conducted by Alex de Vries, a data scientist at the central bank of the Netherlands and a Ph.D. candidate at Vrije University Amsterdam, where he studies the energy costs of emerging technologies. Earlier de Vries gained prominence for sounding the alarm on the enormous energy costs of cryptocurrency mining and transactions. Now he has turned his attention to the latest tech fad. Scientific American spoke with him about AI’s shocking appetite for electricity.

[An edited and condensed transcript of the interview follows.]

Why do you think it’s important to examine the energy consumption of artificial intelligence?

Because AI is energy-intensive. I put one example of this in my research article: I highlighted that if you were to fully turn Google’s search engine into something like ChatGPT, and everyone used it that way—so you would have nine billion chatbot interactions instead of nine billion regular searches per day—then the energy use of Google would spike. Google would need as much power as Ireland just to run its search engine.

Now, it’s not going to happen like that because Google would also have to invest $100 billion in hardware to make that possible. And even if [the company] had the money to invest, the supply chain couldn’t deliver all those servers right away. But I still think it’s useful to illustrate that if you’re going to be using generative AI in applications [such as a search engine], that has the potential to make every online interaction much more resource-heavy.

I think it’s healthy to at least include sustainability when we talk about the risk of AI. When we talk about the potential risk of errors, the unknowns of the black box, or AI discrimination bias, we should be including sustainability as a risk factor as well. I hope that my article will at least encourage the thought process in that direction. If we’re going to be using AI, is it going to help? Can we do it in a responsible way? Do we really need to be using this technology in the first place? What is it that an end user wants and needs, and how do we best help them? If AI is part of that solution, okay, go ahead. But if it’s not, then don’t put it in.

What parts of AI’s processes are using all that energy?

You generally have two big phases when it comes to AI. One is a training phase, which is where you’re setting up and getting the model to teach itself how to behave. And then you have an inference phase, where you just put the model into a live operation and start feeding it prompts so it can produce original responses. Both phases are very energy-intensive, and we don’t really know what the energy ratio there is. Historically, with Google, the balance was 60 percent inference, 40 percent training. But then with ChatGPT that kind of broke down—because training ChatGPT took comparatively very little energy consumption, compared with applying the model.

It’s dependent on a lot of factors, such as how much data are included in these models. I mean, these large language models that ChatGPT is powered by are notorious for using huge data sets and having billions of parameters. And of course, making these models larger is a factor that contributes to them just needing more power—but it is also how companies make their models more robust.

What are some of the other variables to consider when thinking about AI energy usage?

Cooling is not included in my article, but if there were any data to go on, it would have been. A big unknown is where those servers are going to end up. That matters a whole lot, because if they’re at Google, then the additional cooling energy use is going to be somewhere in the range of a 10 percent increase. But global data centers, on average, will add 50 percent to the energy cost just to keep the machines cool. There are data centers that perform even worse than that.

What type of hardware you’re using also matters. The latest servers are more efficient than older ones. What you’re going to be using the AI technology for matters, too. The more complicated a request, and the longer the servers are working to fulfill it, the more power is consumed.

In your assessment, you outline a few different energy-use scenarios from worst- to best-case. Which is the most likely?

In the worst-case scenario, if we decide we’re going to do everything on AI, then every data center is going to experience effectively a 10-fold increase in energy consumption. That would be a massive explosion in global electricity consumption because data centers, not including cryptocurrency mining, are already responsible for consuming about 1 percent of global electricity. Now, again, that’s not going to happen—that’s not realistic at all. It’s a useful example to illustrate that AI is very energy-intensive.

On the opposite end, you have this idea of no growth—zero. You have people saying that the growth in demand will be completely offset by improving efficiency, but that’s a very optimistic take that doesn’t include what we understand about demand and efficiency. Every time a major new technology makes a process more efficient, it actually leads to more people demanding whatever is being produced. Efficiency boosts demand, so boosting efficiency is not really saving energy in the end.

What do I think is the most likely path going forward? I think the answer is that there’s going to be a growth in AI-related electricity consumption. At least initially, it’s going to be somewhat slow. But there’s the possibility that it accelerates in a couple of years as server production increases. Knowing this gives us some time to think about what we’re doing.

What additional research or other steps might be needed?

We need a higher quality of data. We need to know where hese servers are going. We need to know the source of the energy itself. Carbon emissions are the real numbers that we care about when it comes to environmental impact. Energy demand is one thing, but is it coming from renewables? Is it coming from fossil fuels?

Maybe regulators should start requiring energy use disclosures from AI developers because there’s just very little information to go on. It was really hard to do this analysis—anyone who is trying to work on AI at the moment is facing the same challenges, where information is limited. I think it would help if there was more transparency. And if that transparency doesn’t come naturally, which it hasn’t so far, then we should think about giving it a little bit of a push