[해외 DS] 뛰는 탐지기술 위에 나는 ‘딥페이크’
한 고등학교 교장의 음성 파일 유포 돼, 딥페이크 가능성 높아 딥페이크 탐지 기술은 제한적, 책임 있는 기업·언론 대응 필요 민간, 기업, 정부의 협력을 강조하여 구체적인 대책 마련 절실
[해외DS]는 해외 유수의 데이터 사이언스 전문지들에서 전하는 업계 전문가들의 의견을 담았습니다. 저희 데이터 사이언스 경영 연구소 (GIAI R&D Korea)에서 콘텐츠 제휴가 진행 중입니다.
전문가들은 오랫동안 인공지능이 디지털상에서 사실과 허구의 구분을 불가능하게 만드는 미래에 대해 경고해 왔다. 그리고 이제 그 미래가 한 발 더 가까워졌다. 최근 한 고등학교 교장이 인종차별적인 발언을 한 것처럼 들리는 녹취록이 공개되면서 인공지능 도구가 가져올 위험과 그 사용을 식별하는 데 어려움이 있음을 보여주고 있다.
딥페이크로 교장 음성 조작 의혹, 이젠 일반 시민의 명예도 위협해
미국 메릴랜드주 볼티모어 카운티의 한 학교 교장의 목소리와 유사한 모욕적인 음성 클립이 지난 17일 소셜 미디어에 올라왔다. 이 영상은 빠르게 온라인에 퍼져나갔고 전국적인 뉴스로 보도됐다. 그러나 복수의 언론에 따르면, 이 영상은 아직 검증되지 않았으며, 한 노조 대변인은 이 영상이 인공지능에 의해 생성됐다고 주장했다. 현재 볼티모어 공립학교는 이 사건을 조사하고 있는 것으로 알려졌다.
잠재적으로 피해를 줄 수 있는 녹음 파일의 진위에 의문이 제기된 것은 이번이 처음이 아니다. 누군가가 딥페이크를 만들어 퍼뜨린 것도 이번이 처음은 아니다. 대부분 러시아 푸틴 대통령이나 조 바이든 미국 대통령과 같은 유명 인사들이지 일반 고등학교 교장은 더욱 아니었다. 해당 사건이 발생한 같은 주, 뉴햄프셔주에서는 사람들이 주 예비선거에 참여하지 못하게 하려고 바이든의 목소리를 위조한 로보콜이 급증했다. 이렇듯 최근 생성형 AI가 폭발적으로 증가하면서 그 어느 때보다 많은 사람들이 그럴듯한 가짜를 만들 수 있는 수단을 갖게 됐다. 하지만 그에 반해 사회는 피할 수 없는 디지털 사기의 물결, 모든 미디어 아이템이 사기일 가능성을 마주할 준비가 되어있지 않은 것 같다.
사이언티픽 아메리칸은 디지털 포렌식 및 미디어 분석을 연구하는 미국 버클리 캘리포니아대학교의 컴퓨터과학 교수 해니 파리드(Hany Farid)와 이번 사건에 대해 이야기를 나눴다. 파리드 교수는 오디오, 이미지, 동영상을 분석하는 딥페이크 탐지 도구를 개발했고, 아직 공개되지 않은 몇 가지 도구를 사용하여 해당 오디오를 분석했다. 그 결과, 이 오디오가 인공지능으로 생성된 것일 가능성이 높다고 생각되지만 확실하지는 않다고 전했다. 그러나 실제 음성과 AI가 생성한 음성을 구분하도록 훈련된 모델은 문제의 오디오를 AI가 생성한 것으로 분류했다. 또한 오디오의 스펙트로그램을 수동으로 분석한 결과, 5개의 개별 부분에서 디지털 접합의 흔적이 뚜렷하게 나타났는데, 이는 여러 개의 클립이 개별적으로 합성된 후 합쳐진 결과일 수 있다고 분석됐다.
딥페이크 사태, 수사 접근법과 탐지 기술의 한계
파리드 교수는 전반적으로 문제의 오디오는 딥페이크일 가능성이 높다고 생각되지만, 결론을 내리기 전에 더 많은 정보를 알아볼 필요가 있다고 강조했다. 해당 녹취록이 진짜인지 아닌지 알아내는 가장 좋은 방법은 어느 한쪽에 치우치지 않고 다각적으로 사안을 분석하는 것이라고 조언했다. 아울러 여러 전문가의 의견을 듣고, 모두가 함께 분석해서 오디오의 출처에 대해 더 많이 알아내야 이번 사안을 하루빨리 바로잡을 수 있다. 예를 들어 ‘어디서 기록된 것인가? 언제 기록된 것인가? 누가 기록했는가? 처음 사이트에 유출한 사람은 누구인가?’와 같은 질문들이 조사 당국과 언론 매체, 그리고 민간에서 활발하게 논의돼야 한다는 것이다.
한편 이어 붙이거나 편집한 흔적이 명백한 이유도 면밀하게 들여다봐야 한다. 대화가 진행 중이었는데 누군가 신원을 보호하기 위해 오디오를 잘라내거나 클립 길이를 줄였을 수 있다. 또는 여러 개의 AI 답변을 조합하여 하나의 문장처럼 들리도록 만들었을 수도 있는데, AI 생성은 긴 클립보다 짧은 클립에서 더 잘 작동하는 경향이 있기 때문이다. 이처럼 해석하는 관점에 따라서 전자와 같이 실제 음성일 수도 있고 후자와 같이 합성 음성일 수도 있으므로 최대한 다양한 각도로 사건을 재구성해야 하는 것이다.
수사 당국의 합리적인 조사 과정으로 이번 사건의 진상이 어느 정도 밝혀질 것이라는 믿음이 있지만, 현재 갖춰진 탐지 기술 수준은 기대 수준보다 낮다. 여기엔 심각한 비대칭성이 존재하는데, 가짜 음성을 만들어서 벌어들이는 돈은 많지만, 이를 탐지해서 얻는 수익은 많지 않기 때문이다. 게다가 미묘하고 복잡한 음성 딥페이크의 기술이 계속 발전하고 있고, 그 기준이 항상 높아지므로 탐지가 더 어려워지고 있다. 심지어 전 세계에서 탐지 작업을 안정적으로 수행할 수 있는 연구소의 수는 한 손으로 셀 수 있을 정도여서 앞으로의 딥페이크 사태가 더 걱정되는 것이 사실이다.
딥페이크 대응을 위한 법적·제도적 개선 필요
현재 공개적으로 사용할 수 있는 딥페이크 탐지 도구 중 충분히 신뢰할 수 있는 도구가 없다고 파리드 교수는 토로했다. 기존 탐지 분석 도구를 도입하기엔 “개인의 삶과 평판뿐만 아니라 각 사건이 가져오는 선례에 대한 파급력이 너무 크다. 신중하게 적용하고 판단해야 한다”고 그는 전했다. 탐지가 어려운 것에 반해 음성 딥페이크를 조작하는 방식은 놀라울 정도로 간단하다. 1분에서 2분 정도 사람의 목소리만 있으면 된다. 한 달에 5달러를 지불하면 레퍼런스 오디오를 업로드하고 음성을 복제할 수 있는 서비스가 있는데, 텍스트를 입력하면 몇 초 안에 실제 같은 음성 파일로 변환해 준다. 이것이 바로 텍스트-음성 변환의 예다. 음성-음성 변환이라는 두 번째 방법도 있다. 먼저 사용하고 싶은 사람의 목소리를 복제한 다음, 자신이 원하는 말 녹음하면 미리 녹음했던 상대방의 목소리로 변환되는 방식이다. 두 방법 모두 진입장벽이 낮고 특별한 기술력 없이 즉시 사용 가능하다. 그만큼 악용, 남용, 오용될 가능성이 크다.
여기서 한 가지 큰 법적 의문은 관련 기술을 개발한 AI 기업이 대중에 대해 갖는 책임 의식이다. 왜 기업들은 아무런 보호 장치 없이 이러한 AI 서비스를 제공할 수 있었을까? 딥페이크는 생성형 AI의 예상치 못한 결과가 아니라 분명히 예측할 수 있는 결과였다. 하지만 지금까지 많은 기업들이 피해를 막는 것보다 수익을 더 중요하게 생각했다. 하리드 교수는 기업에 책임을 물을 방법이 있어야 한다고 피력했다. 물론 책임 제도는 완벽한 제도는 아니지만, 결함이 있거나 위험한 기술로부터 소비자를 보호해 왔다. 자동차가 과거보다 훨씬 더 안전해진 이유 중 하나이기도 하다. AI 기업의 ‘책임 부재’에 대해 공식적으로 이의를 제기해야 한다는 것이다.
결과적으로 현재는 신뢰할 만한 탐지 도구도 없으며 AI 기업도 책임으로부터 자유로워 사법제도의 부담만 커지는 중이다. 제일 먼저 법정에서 증거를 고려하는 방식을 바꿔야 한다. 딥페이크의 정교함이 빚어낸 영상과 음성 파일로 인해 판결에 큰 혼선을 일으킬 것이 분명하기 때문이다. 다행인 것은 소셜 미디어나 뉴스 미디어와는 달리 실제 법정에서는 분석에 전념할 수 있는 시간이 주어진다는 점이다. 사법 시스템이 느리게 움직인다는 사실에 조금은 위안을 삼을 수 있는 부분이다.
미디어의 책임 더욱 중요해진다, “단순히 AI의 문제만은 아니야”
모두가 이렇게 될 줄은 알고 있었다. ‘만약’이 아니라 ‘언제’의 문제였다. 또한 이번 사건은 단순히 생성형 AI의 문제가 아니라, 소셜 미디어와 주류 미디어를 아우르는 생태계 전체의 문제다. 사건 당일 음성 파일에 대한 검증 절차 없이 기사 발표에 급급했던 미디어의 행태를 오히려 더 경계해야 한다. 딥페이크가 일으킨 혼란을 가중했기 때문이다.
딥페이크가 등장하기 전에도 온라인에서 읽고, 보고, 듣는 것을 믿기가 점점 더 어려워지고 있었다. 앞으로 이런 사건이 하루에 여러 번 발생하면 어떻게 될지 상상하기 어렵다. 누구라고 할 것 없이 민간, 기업, 정부 모두 나서야 할 때다.
영어 원문 기사는 사이언티픽 아메리칸에 게재되었습니다.