[해외 DS] 음성 딥페이크 막는 ‘안티페이크’ 등장, “95% 이상의 보호율 달성”

안티페이크, 녹음된 음성을 왜곡하여 목소리 복제 방지
내성 강한 도구 개발로 95% 이상의 보호율 달성
범죄 도구와 함께 발전하는 아이러니, 끝없는 추격전 전망

해외DS]는 해외 유수의 데이터 사이언스 전문지들에서 전하는 업계 전문가들의 의견을 담았습니다. 저희 데이터 사이언스 경영 연구소 (GIAI R&D Korea)에서 영어 원문 공개 조건으로 콘텐츠 제휴가 진행 중입니다.


how_to_keep_ai_from_stealing_the_sound_of_your_voice
사진=Scientific American

생성형 인공 지능의 발전으로 실제와 같은 음성 합성이 가능해지면서 더 이상 다른 사람과 대화하는 것인지 딥페이크인지 구분할 수 없을 정도에 이르렀다. 그 부작용으로 개인의 목소리가 당사자의 동의 없이 제삼자에 의해 ‘복제’되면 악의적인 사용자에 의해 오용될 수 있다.

합성음성은 타인을 속이기 위해 악용되기 쉽다. 단 몇 초의 음성 녹음만으로도 사람의 목소리를 그럴듯하게 복제할 수 있다. 가끔이라도 음성메시지를 보내거나 자동응답기를 사용한다면 학습 데이터로 사용됐을 가능성이 높다. 이는 디지털 개인비서나 아바타를 만드는 데 유용한 기술의 이면이다.

적대적 AI, 사용되는 목적이 다를 뿐 수단은 같아

지능형 범죄가 증가하는 만큼 수사 지능도 함께 발전한다. 세인트루이스에 소재 워싱턴대학교 맥켈비공과대학의 컴퓨터과학자이자 엔지니어인 닝 장(Ning Zhang) 교수는 무단 음성 합성을 사전에 방지할 수 있는 새로운 방법인 안티페이크(AntiFake)라는 도구를 개발했다.

기존의 딥페이크 탐지 방법은 이미 피해가 발생한 후에야 효과를 발휘한다. 반면 안티페이크는 음성 데이터가 음성 딥페이크로 합성되는 것을 방지한다. 이 도구는 사이버 범죄자들이 음성 복제에 사용하는 것과 유사한 기법을 사용하여 불법 복제 및 위조로부터 음성을 보호할 수 있다. 연구팀은 안티페이크 프로젝트의 소스 코드와 텍스트 모두 공개했다.

안티페이크 소프트웨어는 사이버 범죄자가 음성 데이터를 탈취하고 녹음 파일에서 음성 합성에 중요한 특징을 추출하는 것을 더욱 어렵게 만들도록 설계됐다. 원래 사이버 범죄자들의 도구였던 적대적 AI 기술을 사용하여 녹음된 오디오 신호에 노이즈를 추가하는 방식이다. 사람에게는 여전히 올바르게 들리도록 하는 동시에 음성합성을 훈련하는 데는 사용할 수 없게 만들었다.

비슷한 접근 방식은 이미 인터넷상의 저작물 복제 방지에도 적용되고 있다. 인간의 눈에는 여전히 자연스럽게 보이는 이미지를 미세하게 왜곡하여 기계가 읽을 수 없는 정보로 변환시키는 작업이다. 글레이즈(Glaze)라는 소프트웨어는 같은 방식을 적용하여 대규모 AI 모델이 이미지를 사용할 수 없도록 설계되어 있으며, 특정 트릭을 사용해 사진의 얼굴 인식을 방지한다.

기술 발전의 역설, “범죄도 함께 발전하지만 한발 앞서가야”

끊임없이 변화하는 범죄 환경에 대항할 수 있는 도구를 개발하기 위해 장 교수는 박사과정 학생인 지위안 유(Zhiyuan Yu)와 함께 모델을 일반화했다. 일반화된 안티페이크 알고리즘은 5대의 최신 음성 합성기를 상대로 95%의 보호율을 달성했다. 또한 장과 유는 다양한 인구 집단에 속한 24명의 인간 테스트 참가자를 대상으로 도구의 유용성을 테스트하여 사용성이 높음을 확인했다.

안티페이크 개발에 참여하지 않은 시카고 대학교의 컴퓨터 과학 교수인 벤 자오(Ben Zhao)는 모든 디지털 보안 시스템과 마찬가지로 이 소프트웨어가 완벽한 보호 기능을 제공하지는 못하지만, 공격의 기준을 높이고 상당한 자원을 가진 동기 부여가 높은 소수의 개인으로 공격을 제한하는 효과가 있다고 말했다.

안티페이크는 이미 가장 흔한 위조 수단인 사칭으로부터 음성 녹음 데이터를 보호할 수 있다. 하지만 아직 짧은 음성 데이터에 대해서만 가능하다. 연구팀은 이 도구를 확장하여 더 큰 용량의 오디오 문서나 음악을 오용으로부터 보호할 수 있다고 전했다. 현재로서는 사용자가 직접 이 작업을 수행해야 한다.

장 교수는 음성 녹음을 온전히 보호하는 것이 목적이라고 밝혔다. 그러나 사이버 범죄자들이 이를 학습하고 함께 성장할 수밖에 없기 때문에 개발된 방법과 도구는 지속해서 조정될 것으로 예상된다.


How To Keep AI From Stealing the Sound of Your Voice

A new technology called AntiFake prevents the theft of the sound of your voice by making it more difficult for AI tools to analyze vocal recordings

Advances in generative artificial intelligence have enabled authentic-sounding speech synthesis to the point that a person can no longer distinguish whether they are talking to another human or a deepfake. If a person’s own voice is “cloned” by a third party without their consent, malicious actors can use it to send any message they want.

This is the flip side of a technology that could be useful for creating digital personal assistants or avatars. The potential for misuse when cloning real voices with deep voice software is obvious: synthetic voices can easily be abused to mislead others. And just a few seconds of vocal recording can be used to convincingly clone a person’s voice. Anyone who sends even occasional voice messages or speaks on answering machines has already provided the world with more than enough material to be cloned.

Computer scientist and engineer Ning Zhang of the McKelvey School of Engineering at Washington University in St. Louis has developed a new method to prevent unauthorized speech synthesis before it takes place: a tool called AntiFake. Zhang gave a presentation on it at the Association for Computing Machinery’s Conference on Computer and Communications Security in Copenhagen, Denmark, on November 27.

Conventional methods for detecting deepfakes only take effect once the damage has already been done. AntiFake, on the other hand, prevents the synthesis of voice data into an audio deepfake. The tool is designed to beat digital counterfeiters at their own game: it uses techniques similar to those employed by cybercriminals for voice cloning to actually protect voices from piracy and counterfeiting. The source text of the AntiFake project is freely available.

The antideepfake software is designed to make it more difficult for cybercriminals to take voice data and extract the features of a recording that are important for voice synthesis. “The tool uses a technique of adversarial AI that was originally part of the cybercriminals’ toolbox, but now we’re using it to defend against them,” Zhang said at the conference. “We mess up the recorded audio signal just a little bit, distort or perturb it just enough that it still sounds right to human listeners”—at the same time making it unusable for training a voice clone.

Similar approaches already exist for the copy protection of works on the Internet. For example, images that still look natural to the human eye can have information that isn’t readable by machines because of invisible disruption to the image file.

Software called Glaze, for instance, is designed to make images unusable for the machine learning of large AI models, and certain tricks protect against facial recognition in photographs. “AntiFake makes sure that when we put voice data out there, it’s hard for criminals to use that information to synthesize our voices and impersonate us,” Zhang said.

Attack methods are constantly improving and becoming more sophisticated, as seen by the current increase in automated cyberattacks on companies, infrastructure and governments worldwide. To ensure that AntiFake can keep up with the constantly changing environment surrounding deepfakes for as long as possible, Zhang and his doctoral student Zhiyuan Yu have developed their tool in such a way that it is trained to prevent a broad range of possible threats.

Zhang’s lab tested the tool against five modern speech synthesizers. According to the researchers, AntiFake achieved a protection rate of 95 percent, even against unknown commercial synthesizers for which it was not specifically designed. Zhang and Yu also tested the usability of their tool with 24 human test participants from different population groups. Further tests and a larger test group would be necessary for a representative comparative study.

Ben Zhao, a professor of computer science at University of Chicago, who was not involved in AntiFake’s development, says that the software, like all digital security systems, will never provide complete protection and will be menaced by the persistent ingenuity of fraudsters. But, he adds, it can “raise the bar and limit the attack to a smaller group of highly motivated individuals with significant resources.”

“The harder and more challenging the attack, the fewer instances we’ll hear about voice-mimicry scams or deepfake audio clips used as a bullying tactic in schools. And that is a great outcome of the research,” Zhao says.

AntiFake can already protect shorter voice recordings against impersonation, the most common means of cybercriminal forgery. The creators of the tool believe that it could be extended to protect larger audio documents or music from misuse. Currently, users would have to do this themselves, which requires programming skills.

Zhang said at the conference that the intent is to fully protect voice recordings. If this becomes a reality, we will be able to exploit a major shortcoming in the safety-critical use of AI to fight against deepfakes. But the methods and tools that are developed must be continuously adapted because of the inevitability that cybercriminals will learn and grow with them.