레딧과 ‘학습용 데이터’ 확보 계약 체결한 오픈AI, 데이터 무단 사용 멈췄나

160X600_GIAI_AIDSNote
레딧, 오픈AI와 데이터 라이선싱 계약 체결
오픈AI, 과거 유튜브·뉴욕타임스 등의 데이터 무단 사용
쏟아지는 소송과 시장 비판, '정식 라이선스 계약' 늘었다
reddit_openAI_20240517

미국 최대 온라인 커뮤니티 레딧이 챗GPT 개발사 오픈AI와 인공지능(AI) 학습용 콘텐츠 제공 등을 위한 파트너십을 체결했다. 오픈AI의 데이터 무단 사용으로 인한 ‘잡음’이 끊이지 않는 가운데, 콘텐츠 제공사와의 정식 파트너십 체결을 통해 투명한 학습 데이터를 확보하며 논란의 여지를 차단한 것이다.

레딧-오픈AI의 ‘윈-윈’ 계약

16일(현지시간) 레딧과 오픈AI는 데이터 라이선싱 계약을 체결했다고 밝혔다. 이에 따라 레딧은 자사 콘텐츠를 챗GPT와 오픈AI의 신제품에 제공할 예정이다. 오픈AI는 레딧의 광고 파트너가 되고, 레딧에 AI 기반 기능을 제공한다. 이번 계약과 관련해 레딧은 “(이번 파트너십을 통해) 오픈AI의 AI 도구가 특히 최신 주제를 포함한 레딧 콘텐츠를 더 잘 이해하게 될 것”이라는 기대를 드러냈다.

스티브 허프먼 레딧 최고경영자(CEO)는 “레딧을 챗GPT에 포함시킴으로써 연결된 인터넷에 대한 자사의 신념을 지키고, 사람들이 더 많은 것을 찾거나 원하는 것을 찾을 수 있도록 돕고, 새로운 잠재 고객이 레딧에서 커뮤니티를 찾을 수 있도록 지원할 것”이라고 밝혔다. 다만 두 기업의 구체적인 계약 조건은 아직 공개되지 않은 상태다.

오픈AI의 ‘파트너’가 된 레딧은 8,270만 명 이상의 일일활성사용자(DAU)를 보유한 미국 최대 온라인 커뮤니티로, 지난 2005년 설립 이후 아직까지 한 번도 흑자를 거두지 못했다. 이에 레딧은 수익 대부분을 책임지던 광고 사업을 넘어 데이터 라이선스 분야까지 영향력을 확대, 본격적으로 새로운 수익 창출 기회를 물색하고 있다. 올해 초에는 구글과 연간 6,000만 달러(약 813억원)의 ‘AI 학습용 콘텐츠 파트너십’을 체결하기도 했다.

오픈AI의 데이터 무단 사용 사례

한편 업계는 오픈AI가 데이터 확보를 위해 정식 라이선싱 계약을 체결했다는 점에 주목하고 있다. 지금까지 오픈AI는 AI 학습을 위해 각종 데이터를 무단 사용하며 여러 차례 시장의 뭇매를 맞아왔다. 지난달 외신 보도에 따르면, 오픈AI는 ‘GPT-4’를 개발 중이던 2021년 유튜브 영상과 팟캐스트 등의 콘텐츠를 무단으로 사용했다. 깃허브, 위키피디아 등 온라인 무료 오픈소스 플랫폼의 데이터가 고갈되자, 데이터 무단 활용이 금지돼 있는 유튜브 등 플랫폼에 손을 뻗은 것이다.

외신에 따르면 오픈AI는 영상에서 자동으로 스크립트를 추출하는 소프트웨어인 ‘위스퍼’를 사용, 유튜브 영상에서 말소리를 텍스트로 받아적은 뒤 이를 GPT-4의 AI 훈련에 사용했다. 이는 명백한 유튜브 규정 위반 행위이지만, 오픈AI 측은 AI 학습이 유튜브 콘텐츠를 활용할 수 있는 ‘정당한 목적’에 해당한다고 판단한 것으로 전해진다. 이 같은 소식이 알려진 이후 구글 측은 “오픈AI가 자체 AI 모델 소라(Sora, 오픈AI의 텍스트-비디오 AI 모델)의 학습 과정에서도 유튜브 데이터를 무단 활용했을 수 있다”며 본격적인 경계심을 표출했다.

sora_openai_20240517
사진=오픈AI

지난해 말에는 뉴욕타임스가 오픈AI와 MS를 상대로 소송을 제기하기도 했다. 뉴욕타임스는 미국 뉴욕 남부지방법원에 소를 제기하면서 “자사가 발행한 수백만 개의 기사가 오픈AI의 챗GPT와 MS의 코파일럿 등 챗봇을 운련하는데 무단으로 사용됐다”며 “이들 기사는 연간 수억 달러를 써 고용한 기자 수천 명이 작성한 작품으로, 오픈AI와 MS는 이를 허락 없이 사용하며 수십억 달러를 아끼는 효과를 얻었다”고 주장했다.

오픈AI의 태세 전환

오픈AI의 데이터 무단 사용 문제가 수면 위로 떠오르자, 영국 공영방송 BBC와 더 가디언 등 유력 언론사들은 줄줄이 오픈AI의 사이트 접근을 차단하고 나섰다. 오픈AI가 매체 허락 없이 정보를 사용한 뒤 기사 라이선스 비용을 지불하지 않는다는 이유에서다. 시장의 비판과 소송 부담이 본격화하자 오픈AI는 부랴부랴 ‘투명한’ 학습용 데이터 확보에 힘을 쏟기 시작했다.

지난해 AP통신과 정식으로 콘텐츠 라이선스를 제공하는 협약을 체결하는가 하면, 올해 초에는 폴리티코와 비즈니스인사이더 등 언론사를 보유한 독일 악셀스프링거와 연간 수천만 달러 규모의 라이선스 계약을 맺었다. 올해 1월 미국 디인포메이션은 오픈AI가 올해 추가적으로 매체와의 파트너십을 추진할 가능성이 높으며, 이를 위한 라이선스 비용으로 연간 최대 500만 달러를 지출할 계획이라고 보도하기도 했다.