[해외 DS] 데이터 활용과 IP 보호, 두 마리 토끼 잡는 스마트 IP 법 ②
분야별 경중과 내용에 따라 다른 제도 필요
보상 한계 극복한 오픈소스 배당금
국가적 규제는 국제적 경쟁의 큰 걸림돌
[해외 DS] 데이터 활용과 IP 보호, 두 마리 토끼 잡는 스마트 IP 법 ①에서 이어집니다.
최근 AI 기술 발전과 함께 새로운 법률·규제 논의가 활발히 진행되고 있다. 하지만 각 분야의 특수성을 고려하지 않은 획일적인 규제 적용은 자칫 산업 발전의 발목을 잡을 수 있다는 우려도 제기되고 있다.
예를 들어 예술 창작물에 대한 저작권 보호는 중요하지만, 이를 의료 연구 데이터나 과학 논문에도 똑같이 적용하는 것은 적절하지 않다. 생명과 직결된 의료 분야에서는 AI 개발에 필요한 과학 정보가 학습 데이터에서 제외될 경우 심각한 문제를 일으킬 수 있기 때문이다.
따라서 음반 저작권과 과학 논문 데이터 활용은 각각 다른 맥락에서 접근해야 할 필요가 있다. 저작권 보호가 중요한 음반 분야와 공익적 가치가 큰 과학 논문 분야는 각각의 특수성을 고려하여 데이터 활용 범위 및 규제를 설정해야 한다.
획일화된 규정의 위험성, 전혀 다른 길을 걸은 미국과 EU
1996년 세계지적재산권기구(World Intellectual Property Organization, 이하 WIPO)가 제안한 데이터베이스 조약은 데이터베이스 추출 정보에 대한 저작권 자동 부여를 골자로 했다. 하지만 모호한 정의와 획일적인 규제 적용으로 데이터 서비스 계약 부담 증가, 원치 않는 독점 발생 등 부작용 우려가 제기됐다.
미국 학계, 국립 도서관, 시민 단체는 물론 정부 관계자들까지 반대 의견을 표명해, WIPO 데이터베이스 조약은 1996년 외교 회의에서 결국 실패로 돌아갔다. 미국은 이후에도 데이터베이스 관련 법률을 채택하지 않았지만, 유럽 연합(EU)은 데이터베이스 법적 보호 지침을 시행했다. 그러나 EU는 수십 년간 법원 판결을 통해 해당 규정을 약화하려 노력했고, 2005년 내부 평가에서 데이터베이스 생산에 긍정적인 영향을 미치지 못했다고 솔직하게 인정했다. 반면 미국은 데이터베이스 투자가 급증하며 해당 분야에서 큰 발전을 이뤘다.
이처럼 획일화된 규제는 산업 발전을 저해하고 혁신을 가로막을 수 있다. 급변하는 디지털 시대에는 혁신을 장려하고 경쟁을 촉진하는 유연한 규제 환경 조성이 무엇보다 중요한 이유다.
저작권 보상 한계, 수익 분배로 돌파구 모색해야
인공지능 기술 발전과 함께 저작권 문제는 더욱 복잡하고 해결하기 어려운 난제로 떠올랐다. 특히 방대한 학습 데이터를 사용하는 대규모언어모델(LLM) 모델 개발 과정에서 저작권 문제는 더욱 심각해지고 있다. 사실 간단한 프로젝트조차 저작물에 대한 권리 정리가 쉽지 않고, 대규모 프로젝트는 메타데이터 분석과 계약 검토를 통해 권리 소유자를 파악하는 것이 사실상 불가능에 가깝다. 과학 분야에서도 저작물 사용 동의 의무가 있지만, 현실적인 어려움으로 인해 대부분의 저자가 정당한 보상을 받지 못하는 실정이다.
현대 LLM에 사용되는 데이터 규모는 측정하기 어려울 정도로 방대하다. 스테이블 디퓨전(Stable Diffusion)은 23억 개의 이미지를, GPT-3는 GPT-2보다 1,000배 이상 큰 45 테라바이트의 데이터를 학습에 사용했다. 오픈AI는 GPT-4의 학습 데이터 규모를 공개하지 않았지만, 업계 관계자들은 해당 모델에 멀티모달 기능이 추가되면서 훨씬 더 많은 양의 학습 데이터가 동원됐을 것이라고 분석했다.
이러한 상황에서 저작권 침해 소송은 막대한 비용과 시간을 소모할 뿐, 근본적인 해결책이 되지 못한다. 따라서 최근에는 AI 프로그램을 활용한 제품이 수익을 창출할 경우, ‘오픈소스 배당금’ 구조를 도입하여 데이터 제공자에게 수익을 분배하는 방안이 대안으로 떠오르고 있다. 저작권 침해 분쟁을 줄이고, 데이터 제공자에게 정당한 보상을 제공하며, AI 산업 발전을 촉진하는 윈윈 전략이 될 수 있다는 기대다. 물론 구체적인 배당 방식과 비율 등에 대한 사회적 합의가 필요하지만, AI 시대에 걸맞은 새로운 저작권 패러다임 모색이 시급한 시점이다.
AI 시대, 규제 완화 없인 글로벌 경쟁 ‘낙오’
한편 AI 학습 데이터를 탈중앙화하자는 주장도 제기되고 있다. AI 훈련 데이터를 분산 관리하면 개인 정보 보호를 강화하고 독점 통제를 방지하는 데 유리할 수 있다는 의견이다. 그러나 이 같은 탈중앙화는 데이터에 대한 지식재산권 보호를 어렵게 만들 수 있는데, 지식재산권은 국가별로 다르게 적용되지만, AI 서비스 개발 경쟁은 전 세계적으로 이루어지고 있어 데이터 규제가 강한 국가의 기업들은 상대적으로 불리한 위치에 놓일 수 있다는 분석이 흘러나온 것이다.
AI 프로그램은 인터넷과 전력만 있으면 어디서든 실행할 수 있어 대규모 인력이나 특수 연구 시설이 필요하지 않다. 이 때문에 데이터 규제가 엄격한 국가의 기업들은 상대적으로 규제가 덜한 환경에서 운영되는 기업들과의 경쟁에서 불리할 수 있다. 결국 AI 훈련 데이터의 탈중앙화는 기회와 과제를 동시에 안겨 준다. 개인 정보 보호 강화와 같은 긍정적인 측면이 있는 반면, 규제 및 실행 과정에서의 복잡성 증가와 같은 어려움도 존재한다.
따라서 AI의 이점을 극대화하고 위험을 최소화하기 위해서는 상황에 맞는 신중한 규제 마련이 필수적이다. 데이터 사용에 대한 수익 배분 구조 도입, 탈중앙화 방식 등 다양한 방안을 모색하되 각 방안의 장단점을 면밀히 검토해야 한다. 전문가들은 AI 기술 발전과 함께 발생하는 문제들을 해결하기 위해서는 다양한 이해관계자들의 의견을 종합적으로 고려해야 한다고 강조했다.
*편집진: 영어 원문의 출처는 사이언티픽 아메리칸(Scientific American)으로 본지의 편집 방향과 일치하지 않을 수도 있습니다.