[해외 DS] 페어리 트레인드, 생성형 AI의 ‘공정 학습’ 인증 프로그램 도입
AI 회사들은 '공정 사용'을 내세워 저작권 문제를 우회하려고 시도해 페어리 트레인드, 라이선스가 있는 데이터를 사용하는 '공정 학습'을 제안 인간 창작자에 대한 존중과 책임감 있는 AI 개발 문화 조성을 강조
[해외DS]는 해외 유수의 데이터 사이언스 전문지들에서 전하는 업계 전문가들의 의견을 담았습니다. 저희 데이터 사이언스 경영 연구소 (GIAI R&D Korea)에서 콘텐츠 제휴가 진행 중입니다.
생성형 AI 시스템은 텍스트, 이미지, 영상 등 인간이 만든 방대한 콘텐츠에서 영감을 얻고 학습한다. AI 회사들은 종종 ‘공정 사용’이라는 논리를 내세워 창작자와 상의하거나 비용을 지급할 필요 없이 모델을 학습시키는 것이 허용돼야 한다고 주장하고 있다. 심지어 인기 이미지 생성기인 스테이블 디퓨전을 만든 스태빌리티 AI는 작년 10월 미국 저작권청에 보낸 성명에서 “AI 개발을 위한 기존 콘텐츠의 사용은 공정 사용으로 보호되는 한 허용 가능하고, 혁신적이며, 사회적으로 유익하다”고 역설했다.
공정 사용 논란과 공정 학습을 위한 노력
하지만 문제는 공정 사용 관점이 보편적이지 않다는 데에 있다. 일례로 오픈AI는 챗GPT의 등장 이후 불과 1년여 만에 20여 건에 달하는 소송과 조사 등에 얽혀 있다. 현재 저작권이 있는 자료의 무단 사용에 대한 반발이 거세지고 있으며 책임감 있는 AI 사용 의식도 개인과 국가 차원에서 점차 개선되는 중이다. 그 결과 법적 위험 부담이 커지고 있어 AI 시장의 생태계 조정이 시급하다는 우려의 목소리가 높아지고 있다. 컴퓨터 과학자 에드 뉴턴-렉스(Ed Newton-Rex)도 이와 비슷한 감정으로 인해 스태빌리티 AI에서 퇴사하게 됐다. 그는 학습 데이터가 GPU와 AI 인재에 이어 AI 시스템을 구축하는 데 필요한 세 가지 주요 자원 중 하나인데, 수백만 달러를 투자하고 있는 다른 두 자원과 달리 학습 데이터를 공짜로 얻으려는 시도가 어떻게 정당화될 수 있는지 모르겠다고 밝혔다.
뉴턴-렉스는 현재 라이선스가 있는 자료로만 생성형 AI 모델을 학습시키는 기업을 인증하는 비영리 단체인 페어리 트레인드(Fairly Trained)를 설립했다. 페어리 트레인드는 이름에서도 그 뜻을 알 수 있듯이 ‘공정 학습’을 추구하며 모델이 어떻게 개발되는지 명확히 하는 것을 목표로 하고 있다. 따라서 인증을 받기 위해 기업은 라이선스가 있는 학습 데이터를 사용하고 라이선스 계약 준수를 보장하기 위한 내부 절차에 대해 자세히 보고해야 한다. 물론 페어리 트레인드에서 고객의 시스템을 직접 들여다보지 않기 때문에 현재 많은 부분이 신뢰에 기반하고 있는 것이 사실이다. 하지만 스태빌리티 AI처럼 라이선스가 없는 데이터를 사용하는 것에 거리낌이 없고, 이를 공개하는 개방적인 분위기가 형성되어 있어 인증에 관한 신뢰 측면을 크게 우려하지 않는다고 뉴턴-렉스는 전했다.
페어리 트레인드 인증의 한계와 텍스트 생성 모델 인증의 어려움
그러나 일각에서 페어리 트레인드의 인증 대상이 제한적이라는 지적이 나왔다. 시중에는 수많은 생성형 AI 모델이 있으며, 그중에는 세계 최대 규모의 기술 기업이 만든 모델도 있는데, 지금까지 9개 인증 승인 모두 비교적 작은 회사에서 이뤄졌다. 최근에 마지막으로 인증받은 이스라엘의 AI 회사 브리아(Bria)도 2,400만 달러의 시리즈 A 투자를 유치한 스타트업이다. 뉴턴-렉스는 의도적으로 이러한 소규모 AI 회사와 협업을 진행했다고 밝혔는데, 작은 회사의 경우 일부 대기업에서 볼 수 있는 관료주의가 없기 때문에 초기 인증 사례 대상으로 적합하다고 그 이유를 설명했다. 게다가 큰 규모의 AI 회사 중 상당수가 인증 기준에 부합하지 않았다고 덧붙였다.
한편 인증을 받은 모델 모두 음악, 오디오 또는 이미지와 관련이 있었는데, 텍스트를 생성하는 모델은 하나도 없었다. 그의 설명에 따르면 현재로서는 인증을 받을 수 있는 대규모언어모델(LLM)이 존재하지 않았다. 모든 텍스트가 라이선스가 있거나 퍼블릭 도메인 또는 올바른 종류의 오픈 라이선스 하에 있는 모델을 출시하는 것이 사실상 불가능하다는 것이다. 안타깝게도 지난 1년 반 또는 2년 동안 대다수의 기술 기업이 생성형 AI 시장에서 우위를 차지하기 위해 무분별한 대규모 학습을 감행해 출처에 대한 라이선스 구별 가능성 자체가 묘연해졌기 때문이라고 그는 분석했다. 또한 그는 일부 기업에서 반박하는 것처럼 블로그, 게시물, 코드, 정부 문서 등 거의 모든 텍스트 데이터가 저작권 보호를 받고 있기 때문에 저작권 데이터의 사용이 불가피하다고 주장할 것이 아니라, 소량의 데이터로 학습되고 라이선스가 부여되는 언어 모델을 개발하는 방향으로 기업에서 더 많이 노력해야 한다고 꼬집었다.
지속가능한 창작 활동을 위한 인간과 AI의 상호 존중
뉴턴-렉슨은 인간 예술가와 함께 평화롭게 공존할 수 있는 생성형 AI의 미래를 꿈꾼다고 말했다. 특히 공정 학습 인증을 통해 대중들이 어떤 기술 기업이 인간 창작자의 저작권을 존중하는 데 적극적인지를 구별할 수 있게 하는 것에 방점을 뒀다. 개인 창작자들에 대한 보상에 대해 논의하기에 앞서 라이선스 데이터 사용에 대한 동의를 구하는 것이 선행돼야 하며, 이는 곧 해당 기업의 저작권 문제를 향한 민감도를 엿볼 수 있는 기회라고 그는 바라봤다. 인간의 창작물을 기반으로 지금의 AI 모델을 개발할 수 있었기 때문에 앞으로 더 유용한 모델을 얻기 위해선 인간의 창작 활동을 존중하고 격려하는 노력이 뒷받침돼야 한다는 것이다. 인간 창작자에 대한 존중을 바탕으로 창작의 선순환을 만들어야 한다는 것이 페어리 트레인드의 핵심 가치다.
마지막으로 AI 연구와 함께 뉴턴-렉슨은 합창 음악을 작곡하는 클래식 작곡가이기도 하다. 그는 자신의 예술적 활동이 크리에이터를 옹호하는 데 동기를 부여했다며, “이 문제는 항상 나의 마음에 가까운 문제였으며, 이는 내가 음악가이기 때문이라고 생각한다”고 그는 전했다. 이처럼 예술 작품의 저작권 문제를 향한 그의 진정성과 스태빌리티 AI의 임원이었던 그의 전문성을 보고 합류한 4명의 자문위원도 함께 주목받고 있다. 이 위원회의 위원으로는 애플 시리(Siri)의 공동 제작자 톰 그루버, 변호사 엘리자베스 무디, 작곡가 맥스 리히터, 미국 출판사 협회의 최고 경영자인 마리아 팔란테가 있다.
영어 원문 기사는 사이언티픽 아메리칸에 게재되었습니다.