[해외 DS] 美 생성형 AI 저작권 공개법 발의, 혁신과 책임의 조화 강조

160X600_GIAI_AIDSNote
미국 하원, 생성형 AI 모델 학습 데이터 공개 의무화 법안 발의
기업 불이행 시 5천 달러 벌금
저작권 침해 논란 속출하는 가운데 반색하는 미디어 업계
Bill Mandate Disclose Copyrighted Works 20240411
사진=Pexels

생성형 AI 모델을 개발하는 기업이 모델 학습에 사용한 저작권이 있는 저작물을 공개해야 한다는 법안이 미국 하원에서 발의됐다.

‘생성형 AI 저작권 공개법’은 오픈AI와 같은 AI 개발사가 새로운 시스템을 출시하기 전, 어떤 저작물을 학습과 미세 조정에 사용했는지에 대한 고지를 저작권 등록소에 제출하도록 강제할 예정이다.

생성형 AI 저작권 공개 법안의 의미, AI 혁신과 크리에이터 권리의 균형 개선

미국 민주당 소속인 애덤 시프(Adam Schiff) 캘리포니아주 하원의원은 9일(현지시간) 이 같은 내용을 골자로 한 법안을 발의했다.

이번 법안은 기업이 생성형 AI 모델 출시 후 30일 이내에 공개적으로 사용 가능한 모든 훈련 데이터 세트의 URL을 포함하여 사용된 저작물에 대한 “충분히 상세한 요약”이 포함된 고지문을 제출해야 한다고 못 박았다.

또한 해당 법안의 요건은 이전에 출시된 생성형 AI 시스템에도 소급 적용되므로 챗GPT 및 클로드(Claude)와 같은 모델이 면밀한 조사를 받을 가능성이 농후하다는 분석도 흘러나온다.

애덤 시프 의원은 ‘창의성 존중’과 ‘기술 발전’ 사이의 균형을 강조했다. “우리는 AI의 엄청난 잠재력과 윤리적 지침·보호의 필요성 사이에서 균형을 잡아야 한다”고 그는 성명에서 밝혔다. “생성형 AI 저작권 공개법은 이러한 방향으로 나아가는 중추적인 단계다. 이 법은 혁신을 지지하는 동시에 크리에이터의 권리와 기여를 보호하고, 자신의 작업이 AI 학습 데이터세트에 기여할 때 이를 인지할 수 있도록 보장한다”고 그는 덧붙였다.

인간을 위한 기술”, 미디어 업계의 전폭적인 지지 확보

이 법안이 법으로 제정될 경우 이를 준수하지 않는 기업은 최소 5,000달러의 민사 처벌을 받게 된다.

또한 저작권 등록소는 벌금을 부과할 뿐만 아니라 공개적으로 이용 가능한 온라인 데이터베이스를 구축하여, 기업에서 제출한 고지문 열람을 허락하고, 저작권 소유자가 자신의 저작물이 학습 데이터세트에 사용되었는지 확인할 수 있도록 준비할 것이라고 명시되어 있다.

시프 의원의 법안은 이미 미국 레코딩 산업 협회, 미국 배우·방송인 노동조합(SAG-AFTRA), 미국 작가 조합 등 미디어 업계 단체와 노동조합의 지지를 확보한 상태다.

SAG-AFTRA의 전국 전무이사이자 수석 협상가인 던컨 크랩트리 아일랜드(Duncan Crabtree-Ireland)는 “AI가 생성하는 모든 것은 궁극적으로 인간의 창의성에서 비롯됐다. 그러므로 인간의 창의적인 콘텐츠, 즉 지적 재산은 보호되어야 한다”라며, “이 법안은 기술이 인간을 위한 것이지 그 반대가 아니라는 것을 보장하는 중요한 조치이므로 SAG-AFTRA는 생성형 AI 저작권 공개법을 전폭적으로 지지한다”고 힘주어 말했다.

생성형 AI 저작권 침해 논란 속출, 주요 AI 개발사 모두 소송당해

지난 한 해 동안 생성형 AI 모델을 개발하는 기업들은 저작권이 있는 콘텐츠를 허가 없이 시스템 훈련에 사용했다는 이유로 여러 건의 소송에 직면했다. 최근에는 뉴욕타임스가 뉴스 무단 학습을 문제 삼아 챗GPT 개발사인 오픈AI를 상대로 소송을 제기한 바 있다.

아울러 책 저자, 음악 출판사, 예술가들이 저작권 침해 혐의로 AI 개발사들을 고소했으며, 소송을 당한 기업 중에는 엔비디아, 엔트로픽, 스태빌리티 AI도 포함되어 있다.

LLM의 오류·환각 포착을 자동화할 수 있다고 주장하는 AI 스타트업 패트로너스(Patronus)의 연구에 따르면 주요 4개 AI 모델 중 오픈AI의 GPT-4의 저작권 침해율이 가장 높았다고 한다.

GPT-4가 평균 44%, 믹스트랄과 라마 2가 각각 22%와 10%로 뒤를 이었고, 클로드 2는 8%만 저작권이 있는 콘텐츠를 생성했다. 레베카 첸 패트로너스 CTO는 “오픈 소스든 비공개 소스든 평가 대상이 된 모든 AI 모델에서 저작권이 있는 콘텐츠를 발견했다”며 “놀라운 점은 기업과 개인이 가장 많이 사용하는 GPT-4에서 가장 높은 비율이 발견됐다”고 꼬집었다.

기술 기업, 저작권 문제 해결하기 위한 데이터 파트너십 구축 나서

물론 저작권이 있는 자료에 대한 접근을 보장하기 위해 모델 개발업체들은 미디어 회사나 소셜 미디어 회사와 파트너십을 맺고 방대한 데이터를 모델 학습에 사용하려고 노력해 왔다.

예를 들어, 오픈AI는 독일의 미디어 그룹 악셀 슈프링거(Axel Springer)와 AP 통신의 콘텐츠 라이선스를 보유하고 있으며, 구글은 최근 레딧(Reddit)과 계약을 체결했다.

일각에선 책임감 있는 AI 사용이 거부할 수 없는 전세계적인 움직임으로 자리 잡았지만, 방대한 양의 학습 데이터를 검증하는 과정의 어려움과 해외 기업에 대한 규제의 한계 등을 지적하며 AI 기술 발전을 저해할 수 있다는 우려의 목소리를 높였다.

오픈AI도 지난 1월에 저작권이 있는 자료에 대한 접근 없이는 최첨단 모델을 개발하는 것이 “불가능”하다고 주장한 바 있다.

한편 인식의 전환이 필요하다는 주장도 늘어나고 있다. AI 기술 발전과 창작자 권리 보호는 상호 보완적 관계이며, 양쪽 모두를 위한 지속 가능한 방안을 모색해야 한다는 것이다. 이번 법안을 계기로 이러한 사회적 논의가 더욱 활발해질 것으로 사료된다.