[해외 DS] ChatGPT가 뭐길래? 교육 현장을 뒤흔드는 AI

과제 대필로 챗GPT 활용하는 학생들 부정행위보단 배움 자체에 초점 맞춰야 교실 안팎 함께하는 AI

160X600_GIAI_AIDSNote

[해외DS]는 해외 유수의 데이터 사이언스 전문지들에서 전하는 업계 전문가들의 의견을 담았습니다. 저희 데이터 사이언스 경영 연구소 (MDSA R&D)에서 영어 원문 공개 조건으로 콘텐츠 제휴가 진행 중입니다.


사진=Scientific American

교육 현장을 위협하는 생성형 AI 

자신감 있고 자연스러운 문장을 즉각적으로 생성할 수 있는 ChatGPT는 학생들에게 유용한 커닝 도구다. 사이언티픽 리포트에 발표된 새로운 연구에 따르면, 대학 수준의 숙제나 시험 문제를 줬을 때, 생성형 인공지능이 대학생과 비슷한 점수를 받았다고 한다. AI 콘텐츠와 인간의 작업을 높은 정확도로 구별할 수 있는 도구가 없으므로 교육자들은 교육 과정 구성과 학생을 평가하는 체계를 재고해야 하며, 인간이 스스로 글을 쓰는 방법을 배우지 못하면 무엇을 잃게 될지 생각해야 할 때이다.

뉴욕대학교 아부다비 캠퍼스에서 연구를 위해 8개 학과를 가르치는 32명의 교수로부터 233개의 학생 평가 문제를 수집했다. 그런 다음 해당 질문에 대해 무작위로 선택된 세 가지 학생 답변을 수집하고 ChatGPT에서 세 가지 다른 답변을 생성했다. 연구 상황을 모르는 훈련된 채점자들에게 평가를 맡긴 결과, 32개 수업 중 9개 수업에서 ChatGPT가 학생의 과제와 동등하거나 더 높은 점수를 받았다. 이 연구의 저자인 뉴욕대학교 아부다비의 컴퓨터 과학자 야시르 자키(Yasir Zaki)와 탈랄 라환(Talal Rahwan)은 사이언티픽 아메리칸에 보낸 이메일에서 “현재 버전의 ChatGPT는 거의 30%의 수업에서 학생들과 비슷하거나 심지어 더 우수합니다.”라고 전했다. “이 비율은 향후 버전에서 더 높아질 것으로 예상됩니다.”

이번 연구 결과는 생성형 AI 모델이 주로 사람이 수행했던 업무에서 탁월한 능력을 발휘할 수 있음을 시사하는 최초의 사례가 아니다. OpenAI에 따르면 ChatGPT를 구동하는 모델인 GPT-3.5와 최신 모델인 GPT-4는 모두 다양한 대학수학능력시험, SAT, GRE의 여러 부문을 인상적인 성적으로 통과할 수 있다고 한다. 또한 GPT-4는 변호사 시험, 법학적성시험(LSAT), 각종 소믈리에 시험에서도 두각을 나타냈다고 회사 측은 평가했다. 외부 연구에서도 비슷한 결과가 나왔는데, 의과대학 입학시험과 아이비리그 기말고사 시험에서 GPT 3.5가 인간 평균 점수를 능가할 수 있다는 실험 결과가 있었다. 이 연구들은 생성형 AI가 교육에 미치는 파괴적인 영향력을 암시한다. 교사와 교육 전문가들은 그들도 이런 상황에 적응해야 한다고 말한다.

베를린 기술경제응용과학대학(HTW 베를린)의 컴퓨터 과학 교수인 데보라 웨버-울프(Debora Weber-Wulff)는 학생들이 ChatGPT로 과제 답을 조작하는 것을 막기 위해 대규모 언어 모델(LLM)에 직접 사용하기로 했다. 그녀는 AI를 통해 시험과 과제 문제를 출제한 다음, AI의 오답을 유도하는 문장 형태로 질문을 수정했다. “ChatGPT로 쉽게 풀 수 없는 문제를 만들고 싶어요.”라고 그녀는 강조했다. 이 전략이 완벽한 것은 아니다. 이미 더 발전된 LLM이 존재하며, 업데이트와 파인튜닝을 통해 ChatGPT가 시간이 지남에 따라 프롬프트에 응답하는 방식이 변경될 수 있다. 또한 웨버-울프 교수가 미처 생각하지 못한 적절한 답변을 얻기 위한 특정 요령이 ChatGPT에서 나올 수도 있다. “학생들이 저를 놀라게 하고 그것이 가능하다는 것을 보여줄 수도 있습니다.”라고 그녀도 인정했다. “모르죠. 저도 계속 배우고 있죠.” 분명한 것은 그녀는 이전보다 더 큰 노력을 기울여 부정행위를 막고 있다는 사실이다. 그리고 이 문제는 단순히 기술에 관한 이야기가 아니다.

근본적인 해결책은 제재가 아니라 개혁

AI 개발자가 부정행위를 발명하지 않았다. AI가 교육에 미치는 영향을 연구하는 펜실베이니아 대학교 와튼 경영대학원의 경영학 부교수 에단 몰릭(Ethan Mollick)은 ChatGPT가 출시되기 전 케냐에서는 수천 명의 사람들이 에세이 작성 서비스를 제공했다고 지적한다. 사람이 에세이를 써주면 비용이 들지만 ChatGPT는 무료다. LLM으로 인해 부정행위를 저지르는 일이 그 어느 때보다 쉬워지고 접근성이 좋아졌다. 그는 수십 년 동안 지속되어 온 문제, 즉 일부 학생들이 학교 과제를 배움의 기회가 아니라 단순히 해치워야 하는 작업으로 여긴다는 점을 꼬집었다.

조지아 주립대학교의 교육 심리학자인 조 마글리아노(Joe Magliano)는 교육의 인센티브 구조가 뒤죽박죽이 되었다고 비판했다. 학생들은 종종 노력이나 이해가 아닌 시험 성적에 따라 보상받는다. 특히 고등 교육은 학생들이 “명백히 열등한 학습 전략을 사용하도록 인센티브를 주었다”라고 마글리아노는 덧붙였다. 문해력과 기술을 연구하는 찰스턴대학의 교육학 교수인 이안 오번(Ian O’Byrne)도 이에 동의했다. “여기서 진짜 위기는 AI랑 연관성이 적습니다.”라고 그는 운을 뗐다. “이러한 생성 도구를 통해 교실 안팎에서 실제로 일어나는 일을 거울처럼 들여다볼 수 있게 되었을 뿐입니다.”

따라서 교육자들은 학생들의 ChatGPT 사용을 막는 데 초점을 맞출 것이 아니라 학업 부정행위의 근본 원인을 해결하는 데 중점을 두어야 한다고 미시간 주립대학교의 교육 심리학자 쿠이 시에(Kui Xie)는 역설했다. 시에 교수는 부정행위와 표절이 학습에 대한 학생의 태도와 관련이 있다고 진단했다. 학생이 실력을 익히고자 하는 동기가 있다면 부정행위를 할 이유가 없지만 유능해 보이거나, 동료보다 경쟁에서 앞서거나, 단순히 학점을 받는 것이 주된 목표라면 학생은 AI를 포함한 모든 도구를 사용해서 앞서 나가기 위해 부정행위를 저지를 수 있다.

AI 기반 부정행위는 학생의 지식을 평가하기 어렵게 만들 뿐만 아니라 학생들이 스스로 글 쓰는 방법을 배우지 못하게 할 위험도 있다. 글을 잘 쓰는 것은 대부분 직업에서 유용하며 개인의 표현 방식으로서도 가치가 있다. 하지만 글쓰기는 그 자체로 중요한 학습 도구이기도 하다. 인지 연구에 따르면 글쓰기는 사람들이 개념 간의 연결을 형성하고, 통찰력과 이해력을 높이며, 다양한 주제에 걸쳐 기억력과 기억 회상력을 향상하는 데 도움이 된다. 글쓰기와 학습의 상호 연관성을 연구하는 래드포드대학의 심리학자 캐슬린 아놀드(Kathleen Arnold)는 글쓰기의 중요성을 앞과 같이 강조했다. 작문 과제를 ChatGPT에 맡기면 더 나은 작문 실력을 갖추지 못할 뿐만 아니라, 학업 및 지적 성장의 모든 면에서 지장을 받을 수 있다. 아놀드 교수는 이런 상황이 걱정스럽다고 언급했다. 하지만 AI 도구를 위협이 아닌 교육적 기회로 재인식할 가능성도 존재 한다.

AI 도구와 교실의 지혜로운 공생

각급의 교육자들은 경쟁보다 성장을 장려하는 방향으로 수업과 과제를 설계할 수 있으며, 그 과정에서 기술을 활용할 수 있다. 교사는 학생들이 집에서 AI의 도움을 받아 자기 주도적으로 학습한 다음, 수업 시간을 동료와 협력하는 데 사용하는 ‘플립러닝’ 교육 방식을 제안할 수 있다. AI가 풀 수 있는 숙제를 통해 이해도를 확인하는 대신, 프로젝트를 통해 수업 중 지식을 쌓고 입증하는 양질의 교육 환경을 조성할 수 있다.

단계적으로 성적을 폐지하거나 최소화하는 것도 하나의 방법이라고 시에 교수는 주장했다. 교사가 학생의 최종 결과물에 정량적 가치를 부여하는 것이 아니라 개별화되고 과정에 초점을 맞춘 피드백을 제공하면 학생들은 AI를 이용해 부정행위를 하려는 경향이 줄어들 수 있다는 관점이다. 낮은 난도의 과제를 더 자주 출제하는 것도 도움이 될 수 있다. 정성적인 피드백과 대량의 과제를 평가하는 데는 교사의 시간과 노력이 더 많이 요구되지만, 여기서도 생성형 AI가 작업 속도를 높이는 도구로 활용될 수 있다고 시에 교수는 생각했다.

또한 아이디어 형성 과정에서 브레인스토밍 파트너로 ChatGPT를 활용하면 학생들 간 정보 교환에 유용할 수 있다고 오번 교수는 말했다. 교육자는 학생들에게 자신의 목적을 위해 AI 도구를 적용하는 방법을 가르치고, 윤리적 사용에 대한 기대치를 명확히 제시하고, 투명성을 장려함으로써 AI 도구를 적재적소에 사용하는 학생을 길러낼 수 있다. 다른 전략으로는 암기 위주의 평가를 지양하고 분석과 종합을 강화하는 방향으로 전환하는 것 등이 있다. 뉴욕대학교 아부다비 연구 결과에 따르면 ChatGPT는 사실 기반 질문 답변에 가장 능숙했으며, 개념적 프롬프트가 주어졌을 때는 학생의 성적에 크게 뒤처졌다.

마글리아노 교수는 이상적으로 생성형 AI가 계산기나 맞춤법 검사기와 비슷해질 수 있다고 내다봤다. 더 유용하기도 하고 덜 유용하기도 한 도구들일 뿐이다. 문제는 학생들이 이러한 도구를 사용할 때와 사용하지 않을 때를 알 수 있도록 안내하는 것이다.


With its ability to pump out confident, humanlike prose almost instantaneously, ChatGPT is a valuable cheating tool for students who want to outsource their writing assignments. When fed a homework or test question from a college-level course, the generative artificial intelligence program is liable to be graded just as highly, if not better, than a college student, according to a new study published on Thursday in Scientific Reports. With no reliable tools for distinguishing AI content from human work, educators will have to rethink how they structure their courses and assess students—and what humans might lose if we never learn how to write for ourselves.

In the new research, computer scientists and other academics compiled 233 student assessment questions from 32 professors who taught across eight different disciplines at New York University Abu Dhabi. Then they gathered three randomly selected student answers to those questions from each professor and also generated three different answers from ChatGPT. Trained subject graders, blind to the circumstances of the study, assessed all the answers. In nine of the 32 classes, ChatGPT’s text received equivalent or higher marks than the student work. “The current version of ChatGPT is comparable, or even superior, to students in nearly 30 percent of courses,” wrote study authors Yasir Zaki and Talal Rahwan, both computer scientists at N.Y.U. Abu Dhabi, in an e-mail to Scientific American. “We expect that this percentage will only increase with future versions.”

The findings are far from the first to suggest that generative AI models can excel at assessments that are typically reserved for humans. GPT-3.5, the model that powers ChatGPT, and the newer model GPT-4 can both pass various Advanced Placement tests, the SAT and sections of the GRE with impressive grades, according to OpenAI. GPT-4 also purportedly shines at a bar exam, the LSAT and various sommelier tests, per the company’s assessment. Outside research has shown similar results, with trials demonstrating that GPT 3.5 can surpass the human median score on the Medical College Admissions Test and Ivy League final exams. The new study adds to the growing body of work that hints at how disruptive generative AI is set to become in schools—assuming it hasn’t already covertly worked its way into every classroom. In response, teachers and education experts say they need to adapt.

To try to prevent students from fabricating assignment answers with ChatGPT, Debora Weber-Wulff, a computer science professor at the University of Applied Sciences for Engineering and Economics in Berlin (HTW Berlin), has turned to the popular large language model (LLM) herself. She has been preparing for next semester by running exam and homework questions through the AI and then modifying the questions to trip the machine up. “I want to make sure that I have exercises that can’t be simply solved using ChatGPT,” she says. This strategy isn’t foolproof: there are already more-advanced LLMs out there, and updates and fine-tuning mean ChatGPT is liable to change how it responds to prompts over time. There may also be certain tricks to yield suitable answers from ChatGPT that Weber-Wulff hasn’t thought of. “Maybe my students will surprise me and show me that it was possible,” she says. “I don’t know. I will be learning, too.” But what the computer scientist does know is that she’s putting in more effort to try to thwart academic dishonesty now than she was before. And the problem goes far beyond novel technology.

AI developers did not exactly invent cheating. Prior to ChatGPT’s release, thousands of people in Kenya offered essay-writing services to students, notes Ethan Mollick, an associate professor of management at the University of Pennsylvania’s Wharton School of Business, who researches the impacts of AI on education. But getting a person to write your essay costs money, while ChatGPT does not. LLMs have simply made cheating on certain assignments easier and more accessible than ever before, Mollick notes. He highlights a challenge that has been present and growing for decades: some students view school assignments as boxes to check, not opportunities to learn.

The incentive structure of education has become muddled, says Joe Magliano, an educational psychologist at Georgia State University. Students are often rewarded for and reduced to their grades—not their effort or understanding. Higher education, in particular, has “incentivized students to use demonstrably poor learning strategies,” Magliano adds. Ian O’Byrne, an education professor at the College of Charleston, who researches literacy and technology, agrees. “The real big crisis here, it’s less about AI,” he says. “It’s just these generative tools are allowing us to hold up a mirror to what’s really happening in and out of our classrooms.”

The focus for educators thus should not be on preventing students from using ChatGPT but rather on addressing the root causes of academic dishonesty, suggests Kui Xie, an educational psychologist at Michigan State University. Xie studies student motivation, and he chalks up cheating and plagiarism to people’s attitudes toward learning. If a student is motivated to master a skill, there’s no reason to cheat. But if their primary goal is to appear competent, outcompete peers or just get the grade, they’re liable to use any tool they can to come out ahead—AI included.

AI-based cheating not only makes it more difficult to assess students’ knowledge but also threatens to prevent them from learning how to write for themselves. Writing well is a basic human linguistic skill, useful in most professions and valuable as a mode of individual expression. But writing is also a key learning tool in and of itself. Cognitive research has shown that writing helps people build connections between concepts, boosts insight and understanding, and improves memory and recall across a variety of topics, says Kathleen Arnold, a psychologist at Radford University, who studies how writing and learning are interrelated. If a student opts to outsource all their written assignments to ChatGPT, they not only won’t become a better writer—they might also be stunted in their academic and intellectual growth elsewhere. Arnold says it’s a prospect that worries her. But at the same time, it’s an opportunity to rethink teaching and even reconceptualize AI tools as educational opportunities rather than threats to learning.

Educators at every level can design their courses and assignments to better encourage growth over competition, and technology can be a part of that. Teachers could use what Mollick calls “flipped classrooms,” where students would self-direct learning at home—aided in part by AI tutoring tools—and then use class time for working with peers. Instead of proving their grasp of the new material through homework, which could be completed by an AI, they would build on and demonstrate their knowledge through in-class projects.

Phasing out or minimizing grades is another possibility, Xie says. If a teacher’s feedback to students is more individualized and focused on process—rather than just assigning a quantitative value to the final product—students might be less inclined to cheat with AI. More frequent lower-stakes assignments could also help. Qualitative feedback and assessing a larger volume of student work both take more time and effort from teachers, but here again, Xie believes generative AI could be used as a tool to speed up the process.

ChatGPT might also be useful for students in the idea-formation process for any assignment as a brainstorming partner to bounce thoughts off of, O’Byrne says. By teaching students how to apply AI tools for their own benefit, clearly outlining expectations for ethical use and encouraging transparency, educators could end up with tech-savvier pupils who would be less prone to let AI steer the whole ship. Other strategies might include using assessments that avoid a focus on rote memorization and instead shift toward more analysis and synthesis. The N.Y.U. Abu Dhabi study found that ChatGPT was most adept at generating responses to fact-based questions; it fell significantly behind human students’ performance when it was given conceptual prompts.

In an ideal world, our relationship with generative AI might end up similar to the one we have with calculators and spellcheck, Magliano says. All are tools with helpful and less helpful applications. It’s just a matter of ensuring students know when to use them—and when not to.