[해외 DS] 오픈AI의 새로운 텍스트 투 비디오 생성기, ‘소라’에 대해 알아야 할 모든 것

160X600_GIAI_AIDSNote
소라, 텍스트 프롬프트 입력으로 1분 동영상 생성 기능 제공
전문가들에 따르면 기존 기술에서의 확장일 뿐, 큰 기술적 도약은 아니야
윤리 및 허위 정보 우려와 함께 저작권 문제에 대한 대응책 마련 중

[해외DS]는 해외 유수의 데이터 사이언스 전문지들에서 전하는 업계 전문가들의 의견을 담았습니다. 저희 데이터 사이언스 경영 연구소 (GIAI R&D Korea)에서 콘텐츠 제휴가 진행 중입니다.


Sora_OpenAI_ScientificAmerican_20240305
사진=Scientific American

언뜻 보면 뮤직비디오나 세련된 자동차 광고 영상처럼 보이는 위 사진은 선글라스를 쓴 여성이 보행자와 밝은 불빛의 간판으로 둘러싸인 밤거리를 걸어가는 장면이다. 하지만 화면 너머의 여성은 존재하지 않으며 거리도 존재하지 않는다. 영상에 등장하는 모든 것은 오픈AI의 새로운 ‘텍스트 투 비디오’ 도구인 ‘소라(Sora)’로 제작됐다. 소라에 간단한 정지 이미지나 프롬프트를 입력하면 최대 1분 분량의 동영상을 만들어낸다.

오픈AI는 소라로 생성한 수십 개의 샘플 동영상을 블로그 게시물과 간단한 기술 보고서, 그리고 CEO 겸 설립자인 샘 알트먼의 계정을 통해 X(이전의 트위터)에 공유했다. 지난달 15일에 소라를 발표했지만 아직 일반에 공개하지는 않았다. 현재 일부 아티스트와 ‘레드팀’ 해커 그룹이 생성기를 테스트하고 있기 때문에 접근을 제한하고 있다고 전했다.

출력물의 길이와 사실감 측면에서 볼 때, 소라는 AI가 생성하는 동영상 중에 당연히 최고의 품질을 자랑한다. “소라가 보여주는 품질 수준에 매우 놀랐다”고 미국 미시간대학교 전기공학 및 컴퓨터과학의 박정준 교수는 강조했다. 그는 현재 머신러닝을 사용하여 생성적 3차원 모델링 기법을 개발하고 있다. 그리고 불과 7개월 전, 박정준 교수는 사이언티픽 아메리칸과의 인터뷰에서 텍스트만으로 사실적인 영상을 제작할 수 있는 AI 모델은 큰 기술적 도약이 필요한 먼 미래의 일이라고 생각한다고 밝힌 바 있다. “비디오 생성기가 이렇게 빨리 발전할 줄은 몰랐고, 소라의 품질은 예상을 완전히 뛰어넘었다”고 그는 덧붙였다.

소라, 기존 AI 도구와 어떻게 다른가?

소라는 프롬프트에 입력된 텍스트와 상관관계가 높은 영상 콘텐츠를 연결하도록 훈련된 매우 큰 컴퓨터 프로그램이다. 좀 더 기술적으로 설명하자면 소라는 다른 많은 이미지 생성 AI 도구와 마찬가지로 확산 모델 기반이며, 챗GPT와 유사한 트랜스포머 인코딩 시스템을 갖추고 있다. 개발자들은 비디오 클립에서 시각적 노이즈를 제거하는 반복적인 과정을 통해 텍스트 프롬프트에서 영상을 출력하도록 소라를 학습시켰다. 소라와 일반 이미지 생성기의 가장 큰 차이점은 텍스트를 정지 픽셀로 인코딩하는 대신 단어를 시간적-공간적 블록으로 변환하여 영상을 생성한다는 점이다. 구글의 뤼미에르(Lumiere)와 다른 많은 모델도 비슷한 방식으로 작동한다.

오픈AI는 소라로 최대 60초 길이의 동영상을 생성할 수 있고, 사용자가 추가적인 클립을 순서대로 생성하도록 요청하면 그 길이를 더 늘일 수 있다고 말했다. 이는 기술적으로 난이도가 높은 일인데, 이전의 생성형 AI 도구는 프롬프트 사이는 물론이고 비디오 프레임 간의 일관성을 유지하는 데도 어려움을 겪었다. 그러나 전문가들은 소라가 머신러닝 기술 자체에서 큰 도약을 이룬 것은 아니라고 지적했다. “소라의 알고리즘은 기존 방식과 거의 동일하다. 단지 더 큰 데이터와 모델로 확장했을 뿐이다”고 박정준 교수는 말했다. 미국 카네기멜론대의 컴퓨터과학 루슬란 살라쿠트디노프(Ruslan Salakhutdinov) 교수도 “반드시 새로운 것은 아니다”라며, “무차별 대입 방식(brute force approach)이 적용 됐다”고 전했다.

일부 전문가들은 오픈AI가 언리얼 엔진과 같은 비디오 게임 디자인 프로그램에서 생성된 합성 데이터를 함께 사용했을 것으로 추측했다. 살라쿠트디노프 교수는 출력물의 비정상적으로 매끄러운 모양과 일부 영상의 카메라 각도를 미루어 보아 그럴 가능성이 높다는 데 동의한다며, 비디오 게임의 인공성과 닮은 점이 소라가 놀랍긴 하지만 완벽하지 않은 이유 중 하나라고 설명했다. 특히 공개된 샘플 영상에서 여성이 걷는 영상을 자세히 살펴보면 특정 디테일이 어긋난다는 것을 알 수 있다. 드레스 밑단이 천인 것에 비해 너무 뻣뻣하게 움직이고 카메라 패닝이 이상할 정도로 매끄럽지 않다. 클로즈업 컷에서는 드레스에 이전에는 없던 얼룩덜룩한 무늬가 생겼고, 일부 장면에서는 목걸이가 빠져 있거나, 가죽 재킷의 옷깃에 있는 여밈이 움직이고 재킷 자체가 길어지는 등의 불일치는 오픈AI가 지금까지 공유한 동영상 전반에 걸쳐 나타난다. 이는 오픈AI가 과대광고 논란을 피하고자 일부러 고른 것일 가능성이 높다.

소라의 부상과 생성형 AI의 고질병, 윤리·저작권 문제

한편 생성형 AI가 등장할 때마다 그렇듯이 저작권 침해와 윤리적 문제에 대한 비판의 목소리도 높아지고 있다. 소라는 이미지를 생성하는 다른 모델과 마찬가지로 학습 데이터에 저작권이 있는 자료가 포함되어 있을 가능성이 높다. 이에 오픈AI는 소라를 공개하기 전 메타데이터 기반의 워터마크를 장착하는 등 생성형 AI 기술의 부작용을 최소화하겠다고 밝혔다. 플랫폼의 내부 테스트, 콘텐츠 가드레일, 메타데이터를 사용하여 콘텐츠의 출처를 쉽게 파악할 수 있도록 하는 C2PA(Coalition for Content Provenance and Authenticity) 표준 프로토콜 사용하여 소라를 더 안전하게 만들기 위한 조치를 취하고 있다고 강조했다.

하지만 사용자가 메타데이터를 제거하는 것을 방지하는 기능을 달리3(오픈AI의 이미지 생성기)에서조차 찾을 수 없는 게 현 실정이다. 더 나아가 워터마크와 메타데이터는 아직 기술적으로 완성도가 높지 않으며 우회 방법도 계속 개발되고 있다. 따라서 전문가들은 소라를 이용한 허위 정보 유포 및 확산은 막기 어려울 것으로 예상했다. 기존의 가짜 동영상을 제작하기 위해서는 AI를 이용한 조작과 실제 영상을 조합하여 작업해야 했는데, 텍스트-투-비디오 플랫폼은 사용자의 소스 자료가 필요 없기 때문에 잠재적인 남용을 가속화하고 확대할 전망이라는 것이다. 미국 캘리포니아대학교 버클리캠퍼스의 하니 파리드 컴퓨터과학 교수는 소라와 같은 도구가 딥페이크 포르노와 정치적 선전을 포함한 유해 콘텐츠의 ‘증폭 요인’이 될 수 있다고 경고했다.

그러나 잘못된 정보와 허위 정보를 연구하는 미국 메릴랜드대학교의 아이린 파스케토(Irene Pasquetto) 교수는 소라 외에도 허위 정보는 존재하며, 이 문제를 해결하는 것은 궁극적으로 기술적 문제가 아니라 사회적 문제라고 언급했다. 또한 파스케토 조교수는 소라의 위험성이나 피해 가능성을 과장하는 것은 AI에 대한 과대광고를 부추길 수 있다고 우려했다. 소라가 짧은 동영상을 더 쉽고 빠르게 제작할 수 있게 해주지만, 그 자체로 새로운 문제를 야기하는 것은 아니라고 지적하며, 피해를 맥락에 맞게 파악하고 근본 원인에 집중하는 것이 더 중요하다고 그녀는 말했다.

영어 원문 기사는 사이언티픽 아메리칸에 게재되었습니다.