‘데이터 해적질’ 논란부터 할루시네이션까지, 챗GPT 열풍이 부른 논란

MS·깃허브와 저작권 관련 법적 분쟁 휘말린 챗GPT, 무분별한 데이터 수집·활용 논란도 2개월 만에 수많은 서비스 악용 사례 등장, AI 과신 않고 경각심 가져야 AI 경쟁력의 핵심은 데이터, 국내 시장 발전 위해선 법률 개선 시급해

160X600_GIAI_AIDSNote
사진=챗GPT

오픈AI가 제작한 생성 인공지능(AI) 챗봇 ‘챗GPT’가 출시 두 달 만에 전 세계적인 주목을 받고 있다. 이에 따라 챗GPT 서비스에 대한 불만을 제기하는 이들도 자연히 증가하는 추세다. 실제로 오픈AI는 현재 챗GPT 저작권 침해와 관련한 법적 분쟁에 직면해 있다.

미국 IT 전문 매체 더 버지(the Verge) 등 외신에 따르면 지난해 11월 오픈AI와 깃허브, MS(마이크로소프트) 등 3개 사를 대상으로 한 집단 소송이 제기된 바 있다. 소송을 제기한 조셉 사베리(Joseph Saveri) 로펌과 매튜 버터릭(Matthew Butterick) 변호사는 오픈AI와 깃허브가 만든 ‘깃허브 코파일럿’이 대규모 소프트웨어를 불법 복제했다고 주장했다.

깃허브 코파일럿은 기본적인 소프트웨어 기능을 제작하기 위한 코드를 생성하는 AI 코딩 비서로, 개발자들이 공유한 오픈소스 코드를 학습해 새로운 코드를 생성한다. 분쟁의 쟁점은 이들이 코파일럿을 학습시키는 과정에서 깃허브에 게재된 수십억 줄 규모의 코딩 저작권을 침해했는지 여부다. 오픈소스를 만든 개발자들은 이들의 AI가 자신의 코드를 불법 복제했다고 주장하고 있으며 오픈AI 등의 행태를 “전례 없는 규모의 소프트웨어 해적질”이라고 비판했다. 이에 오픈AI 등 피고 측은 IP 침해 소송을 기각해달라는 의견서를 법원에 제출한 상태다.

‘생성 AI’의 동의 없는 정보 수집 및 활용

일각에서는 챗GPT의 생성 AI 학습을 위해 사용자 동의 없이 무분별한 정보 수집이 이뤄졌다는 비판도 제기된다. 호주 시드니대 비즈니스스쿨의 유리 겔(Uri Gal) 교수는 최근 더컨버세이션에 올린 기고문을 통해 빅테크 기업들이 AI 경쟁을 본격화하는 과정에서 개인정보와 관련한 위협이 경시되고 있다고 지적했다.

겔 교수에 따르면 오픈AI가 챗GPT의 성능 고도화를 위해 활용한 단어의 수는 무려 3,000억 개에 달한다. 출판된 서적이나 기사, 각종 웹사이트는 물론 개인정보가 포함되어 있을 가능성이 큰 SNS 포스팅 등도 활용됐다. 심지어 사용자의 IP(인터넷 주소)와 브라우저 타입 및 설정은 물론, 사용자가 주로 사용하는 기능 및 수행하는 작업과 같은 웹사이트 활동 데이터까지 수집된 것으로 알려졌다.

겔 교수는 블로그 게시물, 제품 리뷰, 온라인 기사 댓글 등 인터넷상 대부분의 정보가 챗GPT 학습에 활용되었을 것이라고 봤다. 챗GPT는 이렇게 수집한 정보를 통해 기업가치를 지난해의 2배 수준까지 끌어올렸으며, 최근에는 더 빠른 응답 시간과 새로운 기능에 대한 우선 접근권을 보장하는 유료 모델 출시 계획을 내놓은 상태다. 시장에서는 챗GPT의 유료 모델이 2024년까지 10억 달러(한화 약 1조 2,600억원) 규모의 수익을 창출할 것이라는 전망이 제기된다.

챗GPT 열풍이 몰고 온 파장

챗GPT 서비스 사용량 자체가 늘면서 악용 사례도 점차 증가하는 추세다. 오픈AI는 서비스 약관에서 랜섬웨어, 키로거, 바이러스 또는 일정 수준의 피해를 입히려는 기타 소프트웨어 생성을 시도하는 콘텐츠를 악성코드로 정의하고, 생성을 구체적으로 금지하고 있다. 하지만 다크웹의 여러 해킹 포럼 활동을 분석한 결과, 사이버 범죄자들은 챗GPT로 악성코드를 개발하는 것을 넘어 개발이나 코딩 기술이 부족한 저급 범죄자의 악성코드 생성을 지원하고 있는 것으로 나타났다. 금지 규정이 사실상 효력이 없었던 셈이다.

교육 분야에서도 챗GPT 열풍의 파장이 일고 있다. 일례로 챗GPT가 의학 학술지에 실린 논문을 참조해 제작한 논문은 전문가마저 속일 만큼 정교한 것으로 나타났다. 미국 노스웨스턴대 연구진은 최근 “챗GPT로 작성한 의학 논문 초록 50편이 표절 검사 프로그램을 모두 통과했으며, 의학 전문가들마저 제출된 초록의 32%를 걸러내지 못했다”는 연구 결과를 발표한 바 있다.

교육기관의 경우 챗GPT를 이용해 숙제를 베껴서 제출하는 학생들이 증가하고 있어 골머리를 앓고 있다. 이에 미국과 영국 등에선 일부 학교의 챗GPT 사용을 금지하고 나섰다. 일부 교육기관은 AI를 활용할 수 없도록 구술시험과 그룹평가를 늘리는 추세다.

챗GPT와 같은 생성 AI가 ‘만능’이라고 믿어서는 안 된다. AI가 오류가 있는 데이터를 학습할 경우 틀린 답변을 정답처럼 말하는 ‘할루시네이션(환각) 현상’이 나타날 수 있기 때문이다. 이처럼 AI는 인간의 업무를 돕는 편리하고 유용한 도구가 될 수도 있지만, 편견과 가짜 뉴스, 성적·인종적 편견 등을 포함한 잘못된 정보를 확대·재생산하는 도구로 악용될 가능성도 있는 셈이다. AI가 제공하는 정보에 대해 경각심을 갖고 검증하는 것은 어디까지나 인간의 몫이다.

사진=pexels

한국에서도 ‘챗GPT’ 탄생할 수 있을까

챗GPT 열풍 이후 글로벌 빅테크 기업들은 너도나도 생성 AI 경쟁에 뛰어들고 있다. 우리나라가 글로벌 경쟁에서 뒤처지지 않기 위해서 데이터 관련 법률 개정이 시급하다는 분석이 나온다. 양질의 데이터 활용이 AI 서비스 품질을 좌우하는 만큼, 한국형 챗GPT가 등장하기 위해서는 저작권법·개인정보 보호법 개정안 등의 조속한 통과가 필요하다는 것이다.

현재 국내 기업이나 연구자는 저작권을 비롯한 법적 문제로 생성 AI 시장에 쉽게 도전하지 못하고 있다. 챗GPT와 같은 초거대 AI는 더 나은 결과물을 내기 위해 그만큼 거대한 양의 데이터를 학습해야 한다. 업계에서는 학습 데이터의 지식재산권, 생성된 결과물 저작권 등 문제에 보수적으로 접근해서 기술 운용 자체를 제한하는 것보다, 초거대 AI를 많은 사람이 사용하게 하면서 사회적 공감대를 형성하는 것이 중요하다는 의견에 힘이 실리는 추세다.

AI의 데이터 활용과 관련된 법안은 대부분 국회에서 계류되어 있다. 이용호 의원이 대표 발의한 ‘정보분석을 위한 복제·전송 시 저작 재산권 제한’ 법률안은 정보분석(데이터마이닝)을 위한 저작물 이용 시 저작 재산권자의 이용 허락을 받지 않고도 복제·전송하도록 규정하고 있으나, 아직 법제화 문턱을 넘지 못했다. 문화체육관광위원회는 법안 검토 보고서를 통해 “영국, 독일, 일본 등은 저작권법을 개정해 정보분석을 위한 복제를 명시적으로 허용한다”면서 “주요국의 입법 동향을 감안할 때 개정의 필요성이 인정된다”고 밝힌 바 있다.

‘개인정보 보호법 개정안'(개인정보 가명 처리), ‘디지털 헬스케어 진흥 및 보건의료데이터 활용 촉진에 관한 법률안'(의료 데이터 활용) 등도 국회 문턱을 넘지 못한 상태다. 개인정보 보호법 개정안에는 가명정보와 마이데이터 등 데이터 경제 활성화 정책이 포함되어 있다. 해당 제도가 시행될 경우, 일부 산업과 공공에 한정된 활용 데이터양이 증가하며 산업별 데이터를 활용한 AI 서비스 개발이 용이해진다.

‘디지털 헬스케어 진흥 및 보건의료데이터 활용 촉진에 관한 법률안’은 보건의료데이터 활용에 중점을 두고 있다. 헬스케어가 AI 기술 접목이 활발한 분야인 만큼, 해당 법안이 통과될 경우 보건의료데이터 가명처리, 빅데이터 연구 활성화 지원 등을 통해 관련 AI 서비스 개발에 속도가 붙을 것으로 보인다.

국내 AI 산업이 글로벌 경쟁에서 우위를 점하기 위해서는 제도적 기반 마련이 시급한 상황이다. 하지만 챗GPT가 주목받음과 동시에 수많은 분쟁 및 논란에 휘말렸듯, 한동안 국내에서도 AI 산업 발전과 개인정보 보호 사이 합의점을 찾기 위한 분쟁이 불가피할 것으로 보인다.