웹소설이 웹툰으로 바뀌는 과정과 데이터 사이언스

웹소설이 웹툰으로 바뀌는 구조는 '자본의 논리'만 작동하는 것 아냐
'작가의 의지'가 반영되는 비중 높으면 외부 알려진 단순 시장 변수로는 예측 불가능
데이터 사이언스 모델링은 언제나 시장 상황에 대한 이해부터 시작해야

SIAI의 MBA AI/BigData 졸업 논문 쓰느라 고생 중인 학생 하나가 잡은 주제가 웹소설이 웹툰으로 바뀌는 조건이다. 일반적으로 생각하기에는 조회수가 많고, 웹소설 판매량이 많은 경우에 웹툰 스튜디오랑 추가로 계약해서 웹툰화가 진행될 것이라고 단순하게들 생각할 것이다. 그 학생이 갖고 온 국내 연구자의 논문 예시를 봐도 크게 달라진 것이 없다. 기껏해야 웹소설, 웹툰 플랫폼들에서 좀 더 많은 데이터를 수집한 것이 전부고, 그 이후 작업들은 일반에 알려진 ‘딥러닝’, ‘SVM’, ‘나무모형’, ‘회귀분석’ 등등의 기본 모형들에 그대로 넣어본 작업에 지나지 않았다.

그간 모델링 작업이 들어간 계산이 되어야지, 그렇게 단순하게 ‘딥러닝’ 중에 모든 계층 구조를 다 돌려본다면서 단순하게 컴퓨터 계산에 의존하는 작업, ‘SVM’을 쓴다면서 라이브러리에서 제공해주는 모든 경우의 수를 다 돌려봤다는 둥의 계산은 컴퓨터 자원의 낭비에 지나지 않는다고 수천번도 더 말을 해 왔다. 여전히 그런 연구자들의 조잡한 보고서가 국내 학술 논문으로 등재되고, 수준 관리가 되지 않는 국내 학술지 등재 숫자로 논문 숫자를 인정하는 교육부의 조잡한 운영이 문제가 되는 부분에 대한 지적도 함께 해 왔으나, 어떻게 연구를 해야 제대로 된 연구가 되는지조차 제대로 교육이 되지 않은 상태인 탓에 자신들이 무슨 잘못을 했는지조차도 모르는 경우가 대부분이니, 이 부분을 한번 정리해보자.

인터넷에서 모은 데이터를 ‘딥러닝’에 넣으면 인공지능이 알아서 찾아준다?

웹소설이 웹툰으로 바뀌는 작업은 글로 된 이야기 책이 그림으로 된 이야기 책으로 바뀌는 것이라고 볼 수 있다. 중앙대학교 예술대학원장 이대영 교수님은 OTT로 바뀌는 것은 영상으로 된 이야기 책으로 바뀌는 것이라고 설명하신 바 있기도 하다.

이런 전환이 쉽지 않은 이유는 전환 비용이 만만치 않기 때문이다. 국내 웹툰 스튜디오들은 적게는 5명, 많게는 수십명의 디자이너 팀이 구성되어 있고, 우리 눈에 간단해 보이는 작은 캐릭터 이미지 하나, 문양 하나도 구매해서 써야하는 시장으로 시장 분화가 상당히 진행된 상태다. 그런 인건비와 캐릭터, 문양 등등에 대한 구매 비용을 다 내고 나면 웹소설 하나를 웹툰으로 만드는데 천만원 단위가 아니라 억 단위, 혹은 십억 이상 단위의 자금이 필요하다.

이렇게 투자금이 들어가고 새로운 사업화 도전을 해야하는만큼 웹툰으로 성공 가능성이 높아보이는 웹소설에 인력과 자금이 몰리지 않겠냐는 생각을 하는 것이 아마 일반적인 ‘사업 전문가’들, 혹은 ‘사업 기획가’들이 생각하는 사고방식일 것이다.

그런데, 시장은 그렇게 자본의 논리로만 돌아가지 않고, 자본의 논리에 기반한 ‘기획서’는 시장을 제대로 읽지 못해 틀리기 부지기수다. 말을 바꾸면, 플랫폼들에서 제공해주는 조회수, 댓글수, 구매수 등등의 데이터를 모아서 모델을 만들고 웹툰화 가능성, 웹툰 성공 가능성을 따진다고 해도 실제로 맞아들어갈 가능성은 낮다.

여기서 하나 지적하고 갈 점은, 시장의 불확실성 때문에 틀리는 부분도 많겠지만, 모델의 부정확성 때문에 틀리는 경우도 상당하다는 점이다.

잘못 만든 모델은 결국 잘못 정리한 데이터 탓에 발생

단순히 ‘딥러닝’이, ‘인공지능’이 알아서 해 줄 것이라고 생각하는 분들께는 모델을 잘못 만든다는 것이 그저 ‘딥러닝’ 알고리즘 중에 더 잘 맞는다는 알고리즘을 써야하는데 덜 잘 맞는 알고리즘을 써서 그렇다, 혹은 더 좋은 인공지능을 써야 하는데 덜 좋은 걸 써서 그렇다는 식의 이해로 귀결될 것이다.

그러나, 어떤 ‘딥러닝’, ‘인공지능’을 쓰는 것이 잘 맞고, 잘 맞지 않는 것은 후순위의 문제다. 정말 중요한 것은 데이터 속에 숨겨진 시장 구조를 얼마나 정확하게 잡아낼 수 있느냐, 그래서 오늘 뽑은 데이터에서만 우연히 잘 맞아들어가는 것이 아니라 앞으로 뽑을 데이터에서도 꾸준히 잘 맞아들어갈 수 있느냐를 검증할 수 있어야 한다. 안타깝게도 국내에 나온 거의 대부분의 ‘인공지능’ 관련 논문들이 일부러 잘 맞아들어가는 시점의 데이터를 골라 비교하고 있다는 것을 이미 오래전부터 보아왔는데, 단순히 K-SCI 논문 숫자로 교수들의 연구 역량을 판단하고, 논문이 많이 나오는 학회지가 좋은 학회지라는 조잡한 규정을 갖춘 교육부 탓에 제대로 된 검증이 진행되지 않는 점을 지적하지 않을 수 없다.

‘딥러닝’으로 알려진 계산은 단순히 비선형 패턴을 좀 더 계산 의존적으로 찾아내주는 그래프 모델 중 하나에 불과하다. 문법에 따라 써야하는 자연어, 규칙에 따라 운영해야하는 컴퓨터 게임 등에서는 데이터 자체가 오차가 생길 확률이 0%에 가까우니 사용에 큰 문제가 없을 수 있지만, 위의 웹툰화 과정은 시장에서의 반응에도 예상치 못한 문제가 있을 수 있고, 그 전에 웹툰화 의사 결정도 외부인의 눈과는 상당히 다른 작업이 진행될 공산이 크다.

단적으로 이미 성공한 ‘트랙 레코드’를 갖춘 작가들에게 주어진 장벽과 신규 작가들에게 주어진 장벽이 완전히 다를 것이라는 점을 지적할 수 있다. 최근 ‘무빙’으로 대성공을 거둔 작가 강풀은 한 인터뷰에서 웹툰의 지적재산권을 처음부터 가진 상태로 시작했고, OTT로 바뀌는 과정에서도 주요 의사 결정을 본인이 내렸다는 점을 설명한 바 있다. 일반적인 웹소설, 웹툰 작가들은 상상도 할 수 없는 상황이다. 대부분 웹소설, 웹툰 플랫폼이 2차 저작물에 대한 지적재산권을 갖고 가는 계약으로 자신의 콘텐츠를 플랫폼 위에서 팔 수 있기 때문이다.

이렇게 작가가 자기 의지를 반영해서 웹툰화, OTT화를 결정할 수 있는 비중은 얼마나 될까? 이런 비중이 많아지면 위의 ‘딥러닝’ 모델은 어떤 결론을 내놓게 될까?

일반인의 사고 방식은 작가의 의지로 웹툰화, OTT화가 진행되는 경우를 담고 있지 않다. 저 위에서 언급된 ‘인공지능’ 모델들은 웹소설, 웹툰 플랫폼 내부에서 돌아가는 ‘자본의 논리’가 몇 % 맞는지 정도를 설명하는데 그칠 것이다. 그러나 ‘자본의 논리’ 대신 ‘작가의 의지’가 반영되는 비중이 높아지는 순간, 저 모델은 우리가 기대했던 변수들의 효과를 훨씬 낮춰 판단하고, 반대로 예상치 못했던 변수의 효과가 더 높은 것처럼 나올 것이다. 실제로는 단순히 우리가 모델에 반영했어야 할 ‘작가의 의지’라는 중요한 변수를 포함시키지 못했던 탓이지만, 그 부분을 고려조차 하지 않았기 때문에 ‘인공지능이 알려준 웹툰화 과정’이라는 엉뚱한 제목만 달고 황당한 이야기만 하게 된다.

데이터 이전에 시장 상황에 대한 이해부터 먼저

학생이 저 모델을 갖고 온 지 이제 두 달이 됐다. 난 지난 두 달 내내 그런 국내 연구자들 논문은 다시 읽어볼 필요도 없고, 웹툰화 과정에서 일반인이 알지 못하는 시장 상황을 제대로 파악해라는 주문을 계속 보내는 중이다.

그간 사업해보니 저 회사는 충분히 데이터로 재밌는 도전을 해 볼 수 있겠다 싶어도 ‘회장님의 의지’가 없어서 진행이 안 되는 반면, 준비가 전혀 되어 있지 않은 회사, 필요한 인력마저 없는 회사들은 ‘회장님께서 듣고 오신 이야기대로’ 진행한다면서 황당한 프로젝트 아이디어들을 내놓고, 데이터 사이언스 전문 인력들 없이 IT개발자들만 투입해서 해외 시장의 공개된 라이브러리들을 베끼는 작업들만 반복하는 것을 헤아릴 수 없이 자주 봤다.

웹툰화 과정도 필요 자본의 금액과 시장 상황을 봤을 때, 상당한 숫자의 웹툰이 이미 성공한 웹소설 작가들을 유치하기 위해 당연히 끼워주는 ‘번들’ 형태로 웹소설 작가의 신작 계약에 포함될 가능성이 높고, 수익을 독차지 하고 싶은 작가들의 경우 본인이 직접 웹툰 스튜디오와 계약을 맺은 상태에서 웹소설 최초 100화, 300화 공개 이후부터 웹툰 연재를 시작하는 것으로 웹툰 플랫폼과 계약을 맺을 가능성이 높다. 웹툰화가 진행되면 웹소설이 추가 홍보되는 덕분에 수익이 늘어나는 것을 이미 겪어본 웹소설 작가 입장에서 자신의 지적재산권(IP)을 더 비싼 가격에 팔기 위한 홍보 전략 중 하나로 웹툰이라는 상품을 바라보는 경우도 생기는 것이다.

일반인의 눈에는 이런 ‘작가님의 의지’가 예외처럼 보일 수도 있으나, 웹툰화된 웹소설 중 위의 비중이 30%만 넘어도 일반적인 사고 방식으로 모은 데이터로 웹툰화를 설명하는 것은 불가능해진다. 이미 정확도를 높이기 어려운 다양한 시장 요소가 있는 상황에서 무려 30% 이상이 ‘시장의 논리’가 아니라 ‘작가의 의지’라는 다른 변수에 의해 돌아가는 상황에서 어떻게 일반 사고로 모은 데이터가 의미있는 설명을 도출할 수 있을까?

데이터 과학은 ‘딥러닝’을 배우는 것이 아니라 적절한 모델링을 위한 고민

결국 학생들에게 항상 하는 지적으로 돌아온다. ‘현실을 파악하고, 그 현실에 맞는 모델을 찾아야 한다’는 지적이다. 영어 표현으로는 ‘데이터 생성 과정(Data Generating Process, DGP)’에 맞는 모델을 찾아야 한다는 표현으로 바뀌는데, 위의 웹툰화 관련 설명 모델은 현재 ‘DGP에 대한 고려’가 전혀 되어 있지 않은 모델이다. 학자들끼리는 같은 발표를 듣는 상황이 되면 ‘도대체 누가 발표자들 선별했나’ 같은 불만도 나올 수 있고, 무례하다는 욕을 먹더라도 그냥 자리를 뜨는 경우도 많을 것이다. 저런 발표 자체가 이미 참석자들에 대한 무례이기 때문이다.

위의 상황에서 ‘DGP에 대한 고려’가 되는 모델을 만들려면 어쩔 수 없이 웹소설, 웹툰 시장에 대해 굉장히 많은 배경지식을 갖추고 있어야 한다. 주요 플랫폼의 웹소설 작가들이 어떻게 플랫폼 담당자들과 대화하고 있는지, 작가와 플랫폼 간의 시장 관계는 어떤지, 정부는 어디까지 어떻게 개입하고 있는지 등등의 요소들이 반영되지 않은 채 단순히 인터넷에서 긁어온 자료들을 집어넣고 단순히 ‘인공지능’ 교과서에 나온 모델들에 ‘데이터를 넣어봤다’는 작업을 해 봐야 아무런 의미가 없다. 그 데이터에서 시장에 대한 이해를 역으로 도출할 수 있다면 충분히 매력적인 데이터 작업이 되겠지만, 계속 말하는대로 문법에 따르는 자연어, 규칙에 따르는 게임 같은 형태의 데이터가 아니라면 아무런 의미가 없는 컴퓨터 자원의 낭비만 반복될 뿐이다.

저 학생이 다음달 만남에서는 어떤 시장 조사를 해 와서 내 반박 주장을 무너뜨릴 수 있을지, 혹은 시장 이해를 바탕으로 모델의 세부 구성을 변경할지, 더 심하게는 주제를 바꾸게 될지 알 수 없는 일이다. 확실한 것은 단순히 긁어 모은 데이터를 코딩 라이브러리에 넣어보기만한 논문으로는 데이터라는 이름을 핑게로 한 ‘논문’이 결국 혼자만의 망상을 담은 ‘짜집기 코드’와 ‘글만 채워넣은 소설’에 불과할 것이라는 점이다.