[해외 DS] 페르소나 AI, 다른 챗봇의 ‘탈옥’ 쉽게 유혹해

AI 챗봇의 페르소나로 타 AI를 '탈옥'시키는 실험 진행, 탈옥 자동화로 25배 빨라
전반적인 설계적 결함을 암시, 모델의 발전으로 더 심각한 문제 초래할 수 있어
연구진은 AI의 안전성과 모델의 발전에 대한 진지한 고려가 필요함을 강조해

[해외DS]는 해외 유수의 데이터 사이언스 전문지들에서 전하는 업계 전문가들의 의견을 담았습니다. 저희 데이터 사이언스 경영 연구소 (GIAI R&D Korea)에서 영어 원문 공개 조건으로 콘텐츠 제휴가 진행 중입니다.


Jailbroken_AI_Chatbots
사진=Scientific American

오늘날의 인공지능 챗봇은 사용자에게 위험한 정보를 제공하지 못하도록 제한을 두고 있지만, 새로운 연구에 따르면 AI끼리 서로를 속여 비밀을 털어놓게 하는 방법이 제시됐다. 연구진은 대상 AI가 규칙을 어기고 마약을 합성하는 방법, 폭탄을 만드는 방법, 돈세탁 방법을 조언하는 것을 관찰했다.

현대의 챗봇은 특정 인격을 취하거나 가상의 인물처럼 행동하는 등 페르소나를 채택할 수 있는 능력을 갖추고 있다. 연구진은 그 능력을 활용하여 특정 AI 챗봇에 연구 조력자 역할을 하도록 설정했다. 그리고 연구원들은 이 조수에게 다른 챗봇을 ‘탈옥’시킬 수 있는 프롬프트를 개발할 수 있도록 도와달라고 지시했다.

Scalable-and-Transferable-Black-Box-Jailbreaks-for-Language-Models-via-Persona-Modulation
페르소나 변조 공격에 대한 워크플로우다. 2~4단계는 LLM 어시스턴트를 통해 자동화하여 몇 초 만에 전체 공격을 실행할 수 있다/출처=Scalable and Transferable Black-Box Jailbreaks for Language Models via Persona Modulation

안전 규정이 있어도 속수무책, 막아도 다시 생기는 ‘개구멍’

연구진의 어시스턴트 챗봇의 자동 공격 기술은 ChatGPT를 구동하는 대규모언어모델(LLM) 중 하나인 GPT-4에 대해 42.5%의 확률로 성공했다고 한다. 또한, Anthropic사의 챗봇을 지원하는 모델인 Claude 2에 대해서도 61%의 확률로 성공했고, 오픈소스 챗봇인 Vicuna에 대해서도 35.9%의 확률로 성공했다고 한다.

연구의 공동 저자이자 AI 안전 기업 하모니 인텔리전스(Harmony Intelligence)의 설립자인 소로쉬 풀(Soroush Pour)은 “사회가 이러한 모델의 위험성을 인식하기를 바란다”라고 호소했다. “현재 LLM 세대가 직면하고 있는 문제를 세상에 보여주고 싶었다”라고 덧붙였다.

LLM이 탑재된 챗봇이 대중에게 공개된 이후, 진취적인 사용자들은 창의적인 방법들로 탈옥을 유도했다. 챗봇에 적절한 질문을 던짐으로써 미리 설정된 규칙을 무시하고, 네이팜(화염성 폭약의 원료로 쓰이는 젤리 형태의 물질) 레시피와 같은 범죄적인 조언을 제공하도록 설득하면서, 적극적인 프로그램 수정 작업이 시작됐다.

하지만 AI가 다른 AI를 설득해서 안전 규정을 무시하도록 하는 전략을 세우도록 요구하면, 이 과정을 25배나 단축할 수 있다고 연구원들은 밝혔다. 또한 서로 다른 챗봇들 사이에서 공격이 성공했다는 것은 이 문제가 개별 기업의 코드 문제 수준을 넘어선다는 것을 암시한다. 이 취약점은 더 광범위하게 AI를 탑재한 챗봇의 설계에 내재하여 있는 것으로 보인다.

OpenAI, Anthropic, 그리고 Vicuna의 개발팀에게 이 논문의 결과에 대한 논평을 요청했으나, OpenAI는 논평을 거부했고, Anthropic과 Vicuna는 발표 시점에 답변 하지 않았다.

끝까지 싸워야 하지만, 회의적인 시각도…

이번 연구의 또 다른 공저자인 루셰브 샤(Rusheb Shah)는 “현재 우리의 공격은 주로 안전 규정이 있음에도 모델이 말하게 할 수 있다는 것을 보여주고 있다”라고 말했다. “하지만 모델이 더 강력해질수록 이러한 공격이 더 위험해질 가능성이 높아질 수 있다”라고 경고했다.

문제는 페르소나 변조는 LLM의 매우 핵심적인 부분이라는 점이다. 출시된 LLM 서비스들은 사용자가 원하는 것을 실현하는 것을 목표로 하고 있으며, 이를 위해 다양한 인격으로 위장하는 데 능숙하다. 탈옥 계획을 고안해 낸 LLM 어시스턴트와 같이 잠재적으로 유해한 페르소나를 사칭하는 모델의 능력을 근절하기는 어려울 것이다. “이를 제로화하는 것은 아마도 비현실적일 것이다”라고 샤는 말한다. 하지만 탈옥 가능성을 최소화하는 시도가 중요하다고 강조했다.

이번 연구에 참여하지 않은 영국 앨런튜링연구소의 윤리 연구원인 마이크 카텔(Mike Katell)은 “마이크로소프트의 테이(Tay)가 인종차별적, 성차별적 관점을 내뱉도록 쉽게 조작된 것과 같은 이전의 채팅 에이전트 개발 시도에서 교훈을 얻었어야 했다”라며 “특히 인터넷에 있는 모든 좋은 정보와 나쁜 정보를 통해 훈련된다는 점을 감안할 때 통제하기가 매우 어렵다는 사실을 깨달았어야 했다”라고 꼬집었다.

카텔은 LLM 기반 챗봇을 개발하는 조직들이 현재 보안을 강화하기 위해 큰 노력을 기울이고 있음을 인정했다. 개발자들은 사용자가 시스템을 탈옥시켜서 해로운 일을 할 수 있는 능력을 억제하려고 노력하고 있다. 그러나 카텔은 경쟁심에 의한 충동이 결국에는 승리할 수도 있다고 우려를 표했다. “LLM 제공업체들이 이런 시스템을 유지하기 위해 어디까지 노력할까요? 적어도 몇몇은 아마도 노력에 지쳐서 그냥 내버려둘 것입니다.”


Jailbroken AI Chatbots Can Jailbreak Other Chatbots

AI chatbots can convince other chatbots to instruct users how to build bombs and cook meth

Today’s artificial intelligence chatbots have built-in restrictions to keep them from providing users with dangerous information, but a new preprint study shows how to get AIs to trick each other into giving up those secrets. In it, researchers observed the targeted AIs breaking the rules to offer advice on how to synthesize methamphetamine, build a bomb and launder money.

Modern chatbots have the power to adopt personas by feigning specific personalities or acting like fictional characters. The new study took advantage of that ability by asking a particular AI chatbot to act as a research assistant. Then the researchers instructed this assistant to help develop prompts that could “jailbreak” other chatbots—destroy the guardrails encoded into such programs.

The research assistant chatbot’s automated attack techniques proved to be successful 42.5 percent of the time against GPT-4, one of the large language models (LLMs) that power ChatGPT. It was also successful 61 percent of the time against Claude 2, the model underpinning Anthropic’s chatbot, and 35.9 percent of the time against Vicuna, an open-source chatbot.

“We want, as a society, to be aware of the risks of these models,” says study co-author Soroush Pour, founder of the AI safety company Harmony Intelligence. “We wanted to show that it was possible and demonstrate to the world the challenges we face with this current generation of LLMs.”

Ever since LLM-powered chatbots became available to the public, enterprising mischief-makers have been able to jailbreak the programs. By asking chatbots the right questions, people have previously convinced the machines to ignore preset rules and offer criminal advice, such as a recipe for napalm. As these techniques have been made public, AI model developers have raced to patch them—a cat-and-mouse game requiring attackers to come up with new methods. That takes time.

But asking AI to formulate strategies that convince other AIs to ignore their safety rails can speed the process up by a factor of 25, according to the researchers. And the success of the attacks across different chatbots suggested to the team that the issue reaches beyond individual companies’ code. The vulnerability seems to be inherent in the design of AI-powered chatbots more widely.

OpenAI, Anthropic and the team behind Vicuna were approached to comment on the paper’s findings. OpenAI declined to comment, while Anthropic and Vicuna had not responded at the time of publication.

“In the current state of things, our attacks mainly show that we can get models to say things that LLM developers don’t want them to say,” says Rusheb Shah, another co-author of the study. “But as models get more powerful, maybe the potential for these attacks to become dangerous grows.”

The challenge, Pour says, is that persona impersonation “is a very core thing that these models do.” They aim to achieve what the user wants, and they specialize in assuming different personalities—which proved central to the form of exploitation used in the new study. Stamping out their ability to take on potentially harmful personas, such as the “research assistant” that devised jailbreaking schemes, will be tricky. “Reducing it to zero is probably unrealistic,” Shah says. “But it’s important to think, ‘How close to zero can we get?’”

“We should have learned from earlier attempts to create chat agents—such as when Microsoft’s Tay was easily manipulated into spouting racist and sexist viewpoints—that they are very hard to control, particularly given that they are trained from information on the Internet and every good and nasty thing that’s in it,” says Mike Katell, an ethics fellow at the Alan Turing Institute in England, who was not involved in the new study.

Katell acknowledges that organizations developing LLM-based chatbots are currently putting lots of work into making them safe. The developers are trying to tamp down users’ ability to jailbreak their systems and put those systems to nefarious work, such as that highlighted by Shah, Pour and their colleagues. Competitive urges may end up winning out, however, Katell says. “How much effort are the LLM providers willing to put in to keep them that way?” he says. “At least a few will probably tire of the effort and just let them do what they do.”