“오픈AI, 유튜브 데이터 무단 사용하지 마라” AI 시장 내 데이터 소유권 분쟁 격화
오픈AI, GPT-4 모델 학습 과정에서 유튜브 데이터 무단 사용?
닐 모한 구글 CEO "유튜브 동영상 무단 사용은 약관 위반"
AI 학습 수요와 데이터 소유권의 충돌, 시장 분쟁 본격화
유튜브 모회사 구글이 오픈AI 측에 경고의 메시지를 보냈다. 유튜브 동영상을 오픈AI의 AI 모델 학습에 활용해서는 안 된다는 강경한 입장을 피력한 것이다. 4일(이하 현지시간) 블룸버그통신에 따르면, 유튜브의 닐 모한 CEO(최고경영자)는 인터뷰를 통해 “오픈AI의 텍스트-비디오 생성형 AI 도구를 훈련시키는 데 유튜브 동영상을 사용하는 것은 플랫폼의 서비스 약관을 위반하는 것”이라고 발언했다. 이후 지난 6일, 실제 오픈AI 측이 AI 학습에 유튜브 콘텐츠를 무단 사용했다는 소식이 전해졌다. ‘데이터 소유권’을 중심으로 한 AI 시장 분쟁이 본격화하는 모양새다.
구글, 오픈AI에 ‘경고’ 보내
구글 측은 오픈AI가 자체 AI 모델 소라(Sora, 오픈AI의 텍스트-비디오 AI 모델)의 학습 과정에서 유튜브 데이터를 무단 활용했을 수 있다는 의구심을 드러냈다. 모한 CEO는 “크리에이터가 열심히 만든 작품을 유튜브에 업로드할 때 기대하는 바가 있다”며 “그중 하나는 서비스 약관이 준수될 것이라는 점”이라고 짚었다. 이어 “(유튜브 내) 영상을 무단으로 내려받는 행위, 영상과 스크립트 데이터를 무단 활용하는 행위 등은 허용되지 않으며, 이는 명백한 서비스 약관 위반”이라고 부연했다.
모한 CEO는 또 “오픈AI가 소라를 개선하기 위해 유튜브 동영상을 사용했는지 여부에 대해 명확히 알 수는 없으나, 만약 활용했다면 유튜브의 서비스 약관을 위반한 것”이라고 지적했다. 구글이 제미나이(GEMINI, 구글의 텍스트·이미지·음성 등을 생성하는 멀티모달 기반 AI 모델)를 훈련하기 전 유튜브 및 제작자의 개별 계약을 준수한다는 점도 강조했다. 현재 구글은 제미나이를 비롯해 이마젠, 루미에르 등의 자체 AI 모델을 보유하고 있다.
한편 오픈AI가 소라의 학습·훈련에 어떤 자료를 사용하고 있는지는 아직 명확히 밝혀지지 않은 상태다. 미라 무라티 오픈AI CTO는 지난 3월 월스트리트저널과의 인터뷰에서 “소라가 유튜브와 페이스북, 인스타그램에서 사용자 제작 동영상을 학습했는지는 확실하지 않다”고 언급한 바 있다. 해당 발언이 업계 내에서 논란이 되자 차후에는 “(소라는) 제휴한 이미지로만 학습했다”고 입장을 번복하기도 했다.
오픈AI의 콘텐츠 무단 사용 정황
구글 측이 오픈AI에 대한 경고를 보낸 직후, 실제 오픈AI 측이 유튜브의 콘텐츠를 AI 학습에 무단 사용했다는 보도가 전해졌다. 6일 뉴욕타임스는 “오픈AI는 2021년부터 AI 훈련에 쓰일 양질의 텍스트 데이터 부족에 직면했다”며 오픈AI가 자사 AI모델인 ‘GPT-4′를 훈련하기 위해 100만 시간 이상의 유튜브 영상을 무단 활용했다고 보도했다. 오픈AI 측이 학습용 데이터 부족 문제를 타개하기 위해 영상에서 자동으로 스크립트를 추출하는 ‘위스퍼(Whisper)’라는 소프트웨어를 개발, 유튜브 영상 스크립트를 AI 학습에 활용했다는 것이다.
뉴욕타임스에 따르면 오픈AI는 위스퍼를 사용해 유튜브 영상에서 말소리를 텍스트로 받아적은 뒤 이를 ‘GPT-4′의 AI 훈련에 사용했다. 이는 명백한 유튜브 규정 위반 행위이지만, 오픈AI 측은 AI 학습이 유튜브 콘텐츠를 활용할 수 있는 ‘정당한 목적’에 해당한다고 판단한 것으로 전해진다. 이에 더해 뉴욕타임스는 유튜브 내부 사정을 잘 아는 구글 직원들을 인용, “(구글 측이) 오픈AI가 유튜브 영상을 사용하고 있다는 사실을 알고 있었지만 막지 않았다”는 주장을 소개했다. 구글이 이해관계를 고려해 오픈AI 측의 약관 위반을 방관했다는 것이다.
구글 직원들은 구글도 유튜브 영상을 자체 AI 개발에 사용하고 있었다고 주장했다. 오픈AI의 유튜브 콘텐츠 무단 사용을 문제삼을 경우, 구글 역시 관련 데이터를 활용하지 못하게 될 수 있다고 판단했다는 것이다. 뉴욕타임스는 구글·오픈AI 외에도 각 빅테크 기업이 온라인상의 콘텐츠를 AI 훈련에 무단 사용하고 있다고 전했다. 일례로 메타의 경우, 자사가 운영하는 페이스북·인스타그램 게시물뿐만 아니라 소설, 에세이 등 각종 저작물을 무단으로 AI훈련에 사용하고 있다는 전언이다.
시장 내 분쟁 격화 우려
이 같은 분쟁의 시발점은 생성형 AI의 본질적인 ‘특성’에 있다. 생성형 AI는 말 그대로 기존 콘텐츠에서 새로운 콘텐츠를 생성하는 모델이다. 이 같은 거대언어모델(LLM)이 제 기능을 하기 위해서는 수백억 개 이상의 매개변수(파라미터)를 갖춰야 하며, 이를 위해 매우 방대한 데이터를 학습해야 한다. 문제는 AI의 대규모 정보분석(AI 학습용 데이터 가공·추출) 과정이 기업·개인 등의 권리를 침해할 수 있다는 점이다.
현재 대다수의 생성형 AI 모델은 인터넷에 광범위하게 퍼져 있는 콘텐츠 등을 학습에 활용하고 있으며, 학습용 데이터의 출처를 명확히 밝히지 않고 있다. 기업의 콘텐츠·데이터 소유권은 물론, 개인의 저작권 등이 AI 학습으로 인해 침해당할 우려가 있다는 의미다. 이에 업계 일각에서는 차후 AI 산업이 발전할수록 LLM 관련 데이터 소유권 분쟁 역시 격화할 것이라는 우려가 흘러나온다.
실제 시장 곳곳에서는 AI의 데이터 무단 사용과 관련한 갈등이 벌어지고 있다. 지난해 스톡 이미지 서비스를 제공하는 기업 게티이미지(Getty Images)가 인공지능 사진 생성 도구 ‘스테이블 디퓨전(Stable Diffusion)’의 개발사 스테이빌리티AI(Stability AI)를 상대로 최대 1조8,000억 달러에 달하는 대규모 손해 배상 소송을 제기한 것이 대표적인 예다. 생성형 AI 모델을 중심으로 시장의 이해관계가 첨예하게 맞부딪히는 가운데, AI 산업은 ‘권리 침해’의 한계를 어떻게 극복할 수 있을까.