[해외 DS] AI가 펜을 잡으면 인간의 글쓰기는 어떻게 변할까?

언어학자도 AI가 썼는지 인간이 썼는지 구분 못해 ChatGPT의 저작권 문제, 구글 북스 소송 보다 훨씬 복잡할 것 ‘AI 기술 안정화’는 장기적 관점으로 바라봐야

160X600_GIAI_AIDSNote

[해외DS]는 해외 유수의 데이터 사이언스 전문지들에서 전하는 업계 전문가들의 의견을 담았습니다. 저희 데이터 사이언스 경영 연구소 (GIAI R&D Korea)에서 영어 원문 공개 조건으로 콘텐츠 제휴가 진행 중입니다.


사진=Pixabay

최근 인공지능의 발전은 우리가 종이에 펜을 대고 글을 쓴 이래로 계속 고민해 온 실존적 질문을 던지고 있다. 누가 이 글을 썼고, 신뢰할 수 있는가에 대한 질문에 확답을 내리지 못한다. 셰익스피어가 실제로 존재했는지 또는 여러 작가를 대표했는지에 대해 여전히 논쟁을 벌이는 사람들이 있는데 대규모언어모델(이하 LLM)이 각각 고유한 스타일, 목소리, 전문성을 가진 여러 저자의 조합인 것을 미뤄 보면 생성형 AI 프로그램도 5번째 비극을 쓸 수 있지 않을까 하는 생각마저 들게 된다.

언어학자 나오미 배런(Naomi S. Baron)은 아메리칸 대학교의 언어학자로서 수년 동안 AI의 영향에 대해서 고민해 왔다. 그녀의 최신 저서인 ‘누가 이걸 썼을까? AI와 효율성의 유혹이 어떻게 인간의 글쓰기를 위협하는가'(Who Wrote This?: How AI and the Lure of Efficiency Threaten Human Writing)에서 그녀는 문제의 핵심을 파헤쳤다. AI에 글쓰기를 넘겨주면 우리는 무엇을 잃게 될까?

AI의 예상을 뛰어넘는 창의성이 필요해

배런 교수 본인은 읽고 쓰는 행위에 크게 바뀐 것이 없지만 학생들의 과제물을 바라보는 태도가 바뀌었다고 전했다. 이전엔 학생들의 작업물이 학생들의 생각으로부터 왔다고 생각했지만, 이제는 그 출처를 알기 어렵다고 고민을 토로했다. 비단 과제물뿐만 아니라 메일의 경우 출처를 알기 더 어려워졌다. Microsoft의 Outlook과 Google의 Gmail 모두 사용자의 메일함을 학습해서 개인화된 자동완성 기능을 제공하기 때문이다. 배런 교수는 AI 도구의 편의성을 넘어 자기 생각과 노력이 들어간 글쓰기를 장려했다.

결국 AI는 다른 작가의 글이든 사용자가 직접 쓴 글이든 주어진 확률에 의해 다음 문장을 예측하기 때문에 인간의 창의성이 더욱 절실하다는 취지다. 학생 시절에 높은 수준의 사고력과 창의성을 갖추지 못하고 사회에 나가면 분야마다 차이가 있겠지만 고용 안정성에도 큰 영향을 미칠 것이다. 그중 적지 않은 타격을 받을 산업은 언론이다. 이제는 대형 언론사뿐만 아니라 중소형 뉴스룸에서도 생성형 AI 도입에 적극적인 움직임을 보인다. 패턴 인식이 가능한 흔한 글을 쓴 기자들은 자리를 오래 지키지 못하고 남은 기자들이 써낸 고급 콘텐츠로 AI의 창의성과 사고력이 점점 더 풍부해져 갈 전망이다. 여기서 웃지 못할 사실은 이미 AI의 창의성이 평균적인 인간의 것을 뛰어넘었다는 점이다.

완전히 새로운 국면에 접어든 저작권 문제

AI보다 뛰어난 창의력을 가진다고 해서 저작권 문제가 해결되지는 않는다. 생성형 AI로 인해 수익화의 속도와 접근성이 놀랍도록 개선됐기 때문이다. ChatGPT 3의 등장으로부터 약 1년간 셀 수 없이 많은 종류의 하위 도구들이 개발됐고 거래되고 있다. 오픈소스로 공개된 LLM 덕분에 소프트웨어 개발 속도는 더욱 빨라졌고 개발자뿐만 아니라 기존 사업에 AI 기술을 접목하고자 하는 사람 모두 수익화할 기회를 얻었다. 하지만 LLM의 특성상 방대한 인터넷 자료를 학습하기 때문에 직간접적으로 수익에 기여한 작가들의 수고와 노고에 대한 보상 문제가 대두됐다.

OpenAI의 저작권 소송 문제는 책을 통째로 스캔하여 논란이 됐던 ‘구글 vs 작가조합’의 사건과 완전히 다른 양상으로 전개되고 있다. 구글 북스를 통해 도서관에 소장된 도서들이 디지털에 영구히 저장되어 안전하게 보존되고 이용자에게 검색 편의성을 제공하며 열람하는 범위의 비중이 미미하므로 해당 프로젝트는 면죄부를 받을 수 있었다. 오히려 구글 북스를 통해 검색된 도서의 판매량이 증가할 수 있다는 직접적인 이점도 있지만 ChatGPT는 학습 데이터의 출처를 공개하지 않기 때문에 작가의 처지에서 뚜렷한 이익을 찾기 힘들다. 가짜 뉴스 공장을 만들거나 편향된 콘텐츠를 확대 재생산하는 인터넷 콘텐츠 위기를 일으킨 장본인이기 때문에 공공의 이익을 도모했다는 대의명분도 부족한 마당이다. 또한 기술적인 한계도 존재한다. 상품화된 생성형 AI의 답변 중 인용된 창작물의 저작권을 실시간으로 가려내서 일일이 보상하는 방안이 가능하지 않을 것이기 때문이다. 물론 공공의 이익이 있는 의학과 관련된 과학 논문들은 예외 조항이 적용될 필요성이 있고 적당한 타협점을 찾지 못하고 규제를 강화하면 차세대 먹거리를 잃을 수도 있다.

오랜 시간 용도에 맞게 길들여야

도저히 해결되지 않을 것 같은 생성형 AI가 가져온 위기에 대해서 배런 교수의 조언은 답답해 보이지만 대가다운 여유가 돋보인다. “위키피디아도 처음엔 신뢰할 수 없었죠. 하지만 지금 보세요. 얼마나 잘 길들여졌나요”. 생성형 AI가 일상에 선물한 변화는 단순하지 않았다. 범용성이 넓은 기술인 만큼 사회 전반에 걸쳐 공정성과 형평성 그리고 이익 분배 문제를 일으켰다. 기존에 숨겨졌던 문제가 수면 위로 올라온 예도 있고 새로운 종류의 문제가 나타난 경우도 생겼다. 그리고 아직 발생하지 않았지만 곧 다가올 위협 혹은 기회에 대해서도 준비해야해서 쉴틈이 없다. 하지만 에니악이 우리 주머니에 들어온 것처럼 늑대가 반려동물로 진화한 것처럼 좌충우돌하는 AI 기술도 믿고 신뢰할 수 있는 비서가될 날이 올 것이다.


What Humans Lose When AI Writes for Us

Artificial intelligence has pervaded much of our daily life, whether it’s in the form of scarily believable deepfakes, online news containing “written by AI” taglines or novel tools that could diagnose health conditions. It can feel like everything we do is run through some sort of software, interpreted by some mysterious program and kept on a server who knows where. When will the robots take over already? Have they already taken over?

The recent developments in AI offer existential questions we’ve been wrestling with since we put pen to proverbial paper: Who wrote this, and can I trust it? Fake news is old news, but some still argue over whether Shakespeare existed or represented multiple authors. Large language models (LLMs) are combinations of authors, each with their own style, voice and expertise. If the generative AI program ChatGPT keeps trying—and we keep feeding it Shakespeare—will it write our next great tragedy?

Linguist Naomi S. Baron of American University has been wading in the AI waters for years. In her latest book, Who Wrote This? How AI and the Lure of Efficiency Threaten Human Writing, she dives into the crux of the matter: If we hand over the written word to AI, what will we lose? Scientific American spoke with Baron on the issue of the ownership and trustworthiness of written communication now that AI is on the scene.

Did you use ChatGPT to write any of this book?

Sort of but just a smidge. I completed Who Wrote This? in mid-November 2022, two weeks before ChatGPT burst on the scene. It was a no-brainer that I needed to incorporate something about the new wonder bot.

My solution was to query ChatGPT about the intersection of this cutting-edge form of AI with issues such as creativity, education and copyright. In the book, I quote some of ChatGPT’s responses.

Cover: Who Wrote This? How AI and the Lure of Efficiency Threaten Human Writing by Naomi. S. Baron
Credit: Stanford University Press
When I asked ChatGPT if it could hold copyright on short stories that it authored, the answer was “no” the first time I asked and “yes” the second. The discrepancy reflected the particular part of the dataset that the program dipped into. For the “no” answer, ChatGPT informed me that as an LLM, it was “not capable of holding copyrights or owning any form of intellectual property.”

By U.S. copyright law, that’s true. But for the “yes” response, the bot invoked other aspects of U.S. copyright: “In order for a work to be protected by copyright, it must be original and fixed in a tangible form, such as being written down or recorded. If a short story written by GPT meets these criteria, [ChatGPT said], then it would be eligible for copyright protection.

Consistency is the hobgoblin of large language models.

When thinking about AI-written news, is it all just a snake eating its own tail? Is AI writing just fodder to train other AIs on?

You’re right. The only thing relevant to a large language dataset is having text to consume. AI isn’t sentient, and it’s incapable of caring about the source.

But what happens to human communication when it’s my bot talking to your bot? Microsoft, Google and others are building out AI-infused e-mail functions that increasingly “read” what’s in our inbox and then draft replies for us. Today’s AI tools can learn your writing style and produce a reasonable facsimile of what you might have written yourself.

My concern is that it’s all too tempting to yield to such wiles in the name of saving time and minimizing effort. Whatever else makes us human, the ability to use words and grammar for expressing our thoughts and feelings is a critical chunk of that essence.

In your book, you write, “We domesticate technology.” But what does that “domestication” look like for AI?

Think about our canine companions. They descended from wolves, and it took many years, plus evolution, for some of their species to evolve into dogs, to be domesticated.

Social scientists talk about “domestication” of technology. Forty years ago personal computers were novelties. Now they’re ubiquitous, as are software programs running on them. Even Wikipedia—once seen as a dubious information source—has become domesticated.

We take editing tools such as spell-check and autocomplete and predictive texting for granted. The same goes for translation programs. What remains to be seen is how domesticated we will make text-generation programs, such as ChatGPT, that create documents out of whole virtual cloth.

How has your understanding of AI and LLMs changed how you read and approach writing?

What a difference three years makes! For my own writing, I remain old-fashioned. I sometimes still draft by hand. By contrast, in my role as a university professor, I’ve changed how I approach students’ written work. In years past I assumed the text was their own—not so today. With AI-infused editing and style programs such as Microsoft Editor or Grammarly, not to mention full-blown text-generation tools, at students’ beck and call, I no longer know who wrote what.

What are the AI programs that you feel are the least threatening, or that you think should be embraced?

AI’s writing ability is an incredible tour de force. But like the discovery of fire, we must figure out how best to harness it. Given the novelty of current programs, it will take at least several years to feel our way.

Today’s translation programs, while not perfect, are remarkably good, and the benefit is that everyday users who don’t know a language can get immediate access to documents they would have no other way of reading. Of course, a potential drawback is losing motivation for learning foreign languages.

Another promising use of generative AI is for editing human-generated text. I’m enthusiastic when AI becomes a pedagogical tool but less so when it simply mops up after the writer, with no lessons learned. It’s on users to be active participants in the composition process.

As you say in your book, there is a risk of valuing the speed and potential efficiency of ChatGPT over the development of human skills. With the benefit of spell-check, we can lose our own spelling proficiency. What do you think we’ll similarly lose first from ChatGPT’s ability to write legal documents, e-mails or even news articles?

As I argue in my book, the journalism business will likely feel the effects on employment numbers, though I’m not so much worried about the writing skills of the journalists who remain.

E-mails are a more nuanced story. On the one hand, if you use Microsoft Outlook or Gmail, you’ve already been seeing a lot of autocomplete when you write e-mails. On the other hand, the new versions of AI (think of GPT-4) are writing entire e-mails on their own. It can now literally be my bot writing to your bot. I worry that the likes of ChatGPT will lull us into not caring about crafting our own messages, in our own voice, with our own sentiments, when writing to people who are personally important to us.

What do you think of the recent and potential copyright infringement cases involving authors or publishers and ChatGPT?

The copyright infringement cases are interesting because we really are in uncharted territory. You’ll remember the case of The Authors Guild v. Google, where the guild claimed Google Books enabled copyright infringement when it digitized books without permission and then displayed snippets. After many years of litigation, Google won … under the ruling of fair use.

From what I’ve been reading from lawyers who are copyright experts, I suspect that OpenAI [the company that developed ChatGPT] will end up winning as well. But here’s the difference from the Authors Guild case: With Google Books, authors stood to lose royalties because users of Google Books were presumably less likely to purchase copies of the books themselves. With ChatGPT, however, if a user invokes the bot to generate a text, and then said user looks to sell that text for a profit, it could be a different ball game. This is the basis of cases in the world of generative art. It’s a brave new legal world.