[해외 DS] 악순환의 시작, 인간도 인공지능의 편향을 학습한다
짧은 상호작용만으로도 인공지능 편향이 인간에게 전염될 수 있다고 밝혀져 인공지능에 대한 신뢰가 높고 모델의 답변에 자신감이 묻어 나올 수록 심각해 AI 모델의 편향성을 줄이기 위해서는 투명성을 높이고, AI에 대한 교육 필요
[해외DS]는 해외 유수의 데이터 사이언스 전문지들에서 전하는 업계 전문가들의 의견을 담았습니다. 저희 데이터 사이언스 경영 연구소 (GIAI R&D Korea)에서 영어 원문 공개 조건으로 콘텐츠 제휴가 진행 중입니다.
인공 지능 프로그램은 이를 개발하고 훈련하는 인간과 마찬가지로 완벽하지 않다. 의료 이미지를 분석하는 머신러닝 소프트웨어든, 자연스러운 대화를 나누는 ChatGPT와 같은 생성형 챗봇이든, 알고리즘 기반 기술은 오류를 범할 수 있고 심지어 ‘환각’을 일으키거나 부정확한 정보를 제공할 수도 있다. 더 큰 문제는 이러한 프로그램이 학습된 방대한 데이터를 통해 많은 사용자가 감지할 수 없는 편견을 보여줄 수도 있다는 것이다. 새로운 연구에 따르면 사용자가 무의식적으로 편견을 흡수할 수 있다고 한다.
인공지능은 이미 우리 삶의 다양한 영역에 깊숙이 침투하고 실질적인 피해를 안겨다 주고 있다. 음성 인식 소프트웨어가 미국 억양이 아니면 이해하지 못해 홈 비서를 사용하는 데 불편을 초래하는 문제부터 백인, 특정 연령대, 특정 질병 단계에 있는 사람 등 일부 사람들에 대해서만 학습되어 오류가 발생하는 의료 알고리즘이나 흑인에 대한 부당 체포율을 높인 인종 편향적인 경찰 얼굴 인식 소프트웨어 등 더 심각한 사례들도 늘어나고 있다.
문제점을 인식해도 AI 모델의 편향을 신뢰한 실험 참가자들
알고리즘을 수정한다고 금방 해결될 문제가 아니다. 편견을 가진 AI 모델이 사람들의 무의식에도 지속적인 영향을 행사하기 때문이다. 최근 사이언티픽 리포트에 발표된 심리학 연구에 따르면 AI 모델에 의해 사용자에게 전염된 편견이 AI 프로그램 사용을 중단한 후에도 사람의 의사결정 행동에 지속될 수 있음을 보여준다. 스페인 데우스토 대학의 실험 심리학자인 헬레나 마투테(Helena Matute) 선임 연구원과 공동 연구자인 루시아 비센테(Lucía Vicente) 연구원은 각각 약 200명의 참가자가 참여한 세 가지 실험을 통해 비전문가인 참가자들에게 가상의 질병 유무를 나타내는 이미지를 분류하도록 요청하는 간단한 의료 진단 과제를 시뮬레이션했다. 이미지는 두 가지 색상의 점으로 구성되었으며, 참가자들은 이 점의 배열이 조직 샘플을 나타낸다는 설명을 들었다. 과제에 따라 한 가지 색의 점이 많으면 질병에 대한 긍정적인 결과를 의미하고, 다른 색의 점이 많으면 부정적인 결과를 의미했다.
실험을 진행하는 동안 마투테와 비센테는 일부 참가자에게 의도적으로 왜곡된 답안을 제시했으며 이미지를 잘못 분류하도록 유도했다. 참가자에겐 이러한 제안이 “인공 지능(AI) 알고리즘에 기반한 진단 지원 시스템”에서 비롯된 것이라고 설명했다. 대조군에는 평가할 라벨이 없는 일련의 점 이미지만 제공했다. 반면 실험 그룹은 가짜 AI로부터 ‘양성’ 또는 ‘음성’ 평가가 표시된 일련의 점 이미지를 받았다. 대부분은 라벨이 정확했지만, 각 색상의 개수가 비슷한 경우 연구진은 의도적으로 왜곡하여 오답을 유도했다. 한 실험 그룹에서는 AI 라벨이 거짓 음성을, 두 번째 실험 그룹에서는 거짓 양성 라벨을 제공하는 경향이 있도록 설정했다.
연구진은 거짓된 AI 제안을 받은 참가자들이 향후 의사 결정에 동일한 편견을 반영한다는 사실을 발견했다. 예를 들어, 참가자가 거짓 양성과 상호작용한 경우, 새로운 이미지가 주어졌을 때 계속해서 거짓 양성 오류를 범하는 경향이 있었다. 충격적인 점은 과제의 난도가 낮았다는 사실이다. 대조군에서는 AI의 안내 없이도 과제를 쉽게 완료할 수 있었으며, 실험 참가자 중 80%가 ‘AI’가 실수한 것을 알아차렸음에도 불구하고 편향은 그대로 유지되었다. 알고리즘의 편향이 얼마나 전염성이 높은지를 알 수 있는 대목이다.
AI의 확신에 찬 어조와 과대 광고효과도 한몫해
하버드 의대 피부과 교수이자 npj Digital Medicine 편집장인 조셉 크베다르(Joseph Kvedar)는 이 연구에 숙련된 의료 전문가가 참여하지 않았고 승인된 진단 소프트웨어를 평가하지 않았다는 점을 주의해야 한다고 지적했다. 따라서 이 연구가 의사와 의사가 사용하는 실제 AI 도구에 미치는 영향은 매우 제한적이라는 게 크베다르의 설명이다. 미국 영상의학 데이터 과학 연구소의 최고 과학 책임자인 키스 드레이어(Keith Dreyer)도 이에 동의하며 “의료 영상 데이터를 분석하는 전제와 다르다”라고 덧붙였다. 하지만 크베다르는 이 연구에서 가짜 AI의 진단 측면을 무시하고 심리적 관점에서 볼 때 “실험의 설계는 거의 완벽에 가까웠다”고 인정했다. 따라서 실제 의학 연구는 아니지만, 이 연구는 많은 머신러닝 알고리즘에 의도치 않게 내재한 편향을 통해 사람들이 어떻게 영향을 받을 수 있는지에 대한 인사이트를 제공하며, AI가 인간의 행동에 더 나쁜 영향을 미칠 수 있음을 시사했다.
사람이 정보의 출처를 통해 편견을 학습한다는 것은 널리 알려진 사실이다. 그러나 부정확한 콘텐츠나 지침이 인공지능에서 비롯된 경우 그 결과는 훨씬 더 심각할 수 있다. 우선, AI 모델이 인간보다 훨씬 더 쉽게 왜곡될 수 있다. 최근 블룸버그에서 발표한 평가에 따르면 생성형 AI가 사람보다 더 강한 인종적, 성별 편견을 보일 수 있다고 알려졌다. 또한 사람이 다른 출처보다 머신러닝 도구에 더 많은 객관성을 부여할 수 있는 위험도 있다. 정보 출처의 영향을 받는 정도는 정보 출처를 얼마나 지능적이라고 평가하는가와 관련이 있는데, 알고리즘은 종종 모든 인간 지식의 총합을 기반으로 하는 것으로 마케팅되기 때문에 사람들은 AI에 더 많은 권위를 부여하는 경향이 있다. 마투테와 비센테의 연구 결과는 이 같은 생각을 뒷받침하는 것으로 보인다. 자동화에 대한 신뢰도가 높다고 스스로 보고한 참가자들이 가짜 AI의 편견을 모방한 실수를 더 자주 저지르는 경향이 있었다.
또한 인간과 달리 알고리즘은 정확하든 정확하지 않든 모든 결과를 ‘자신감’을 가지고 전달한다. 인간과의 직접적인 커뮤니케이션에서는 불확실성의 미묘한 단서가 정보를 이해하고 맥락을 파악하는 데 중요하다. 대화 간의 긴 멈춤, 손짓 또는 눈동자의 변화는 상대방이 자기 말에 대해 그다지 긍정적이지 않다는 신호일 수 있다. 기계는 이러한 힌트를 제공하지 않는다. 일부 AI 개발자들이 불확실성 신호를 추가하여 이 문제를 해결하려고 시도하고 있지만, 실제 상황을 대체할 수 있도록 설계하기는 어렵다는 게 전문가들의 중론이다.
모델의 투명성 및 기술에 대한 이해 강화 필요
AI 개발자가 도구가 어떻게 학습되고 구축되는지에 대한 투명성이 부족하기 때문에 AI 편향성을 걸러내기가 더욱 어렵다는 지적도 나온다. 승인된 의료용 AI 도구에서도 투명성이 문제가 되고 있다. 미국 식품의약청(FDA)이 진단용 머신러닝 프로그램을 규제하고 있지만, 데이터 공개에 대한 연방 차원의 통일된 요건은 없는 것이 문제다. 미국 영상의학회는 수년 동안 투명성 강화를 주장해 왔으며 “의사들은 이러한 도구가 어떻게 작동하는지, 어떻게 개발되었는지, 훈련 데이터의 특성, 성능, 사용 방법, 사용 금지 시기, 도구의 한계에 대해 높은 수준에서 이해해야 합니다”라고 영상의학회 웹사이트에 게시된 2021년 기고문에서 밝히고 있다.
그리고 이는 비단 의사들만의 문제가 아닙니다. AI 편견의 영향을 최소화하기 위해서는 모든 사람이 AI 시스템이 어떻게 작동하는지 알고 있어야 한다. 그렇지 않으면 알고리즘의 ‘블랙박스’가 AI를 더욱 편향된 인간으로 만들고, 인간은 다시 더욱 편향된 알고리즘을 만들어 내는 자멸의 악순환에 빠질 위험이 있기 때문이다. 마투테는 빠져나오기 힘든 악순환이 이미 시작된 것이 아닌지 걱정이 앞선다고 말했다.
Humans Absorb Bias from AI—And Keep It after They Stop Using the Algorithm
People may learn from and replicate the skewed perspective of an artificial intelligence algorithm, and they carry this bias beyond their interactions with the AI
Artificial intelligence programs, like the humans who develop and train them, are far from perfect. Whether it’s machine-learning software that analyzes medical images or a generative chatbot, such as ChatGPT, that holds a seemingly organic conversation, algorithm-based technology can make errors and even “hallucinate,” or provide inaccurate information. Perhaps more insidiously, AI can also display biases that get introduced through the massive data troves that these programs are trained on—and that are indetectable to many users. Now new research suggests human users may unconsciously absorb these automated biases.
Past studies have demonstrated that biased AI can harm people in already marginalized groups. Some impacts are subtle, such as speech recognition software’s inability to understand non-American accents, which might inconvenience people using smartphones or voice-operated home assistants. Then there are scarier examples—including health care algorithms that make errors because they’re only trained on a subset of people (such as white people, those of a specific age range or even people with a certain stage of a disease), as well as racially biased police facial recognition software that could increase wrongful arrests of Black people.
Yet solving the problem may not be as simple as retroactively adjusting algorithms. Once an AI model is out there, influencing people with its bias, the damage is, in a sense, already done. That’s because people who interact with these automated systems could be unconsciously incorporating the skew they encounter into their own future decision-making, as suggested by a recent psychology study published in Scientific Reports. Crucially, the study demonstrates that bias introduced to a user by an AI model can persist in a person’s behavior—even after they stop using the AI program.
“We already know that artificial intelligence inherits biases from humans,” says the new study’s senior researcher Helena Matute, an experimental psychologist at the University of Deusto in Spain. For example, when the technology publication Rest of World recently analyzed popular AI image generators, it found that these programs tended toward ethnic and national stereotypes. But Matute seeks to understand AI-human interactions in the other direction. “The question that we are asking in our laboratory is how artificial intelligence can influence human decisions,” she says.
Over the course of three experiments, each involving about 200 unique participants, Matute and her co-researcher, Lucía Vicente of the University of Deusto, simulated a simplified medical diagnostic task: they asked the nonexpert participants to categorize images as indicating the presence or absence of a fictional disease. The images were composed of dots of two different colors, and participants were told that these dot arrays represented tissue samples. According to the task parameters, more dots of one color meant a positive result for the illness, whereas more dots of the other color meant that it was negative.
Throughout the different experiments and trials, Matute and Vicente offered subsets of the participants purposefully skewed suggestions that, if followed, would lead them to classify images incorrectly. The scientists described these suggestions as originating from a “diagnostic assistance system based on an artificial intelligence (AI) algorithm,” they explained in an email. The control group received a series of unlabeled dot images to assess. In contrast, the experimental groups received a series of dot images labeled with “positive” or “negative” assessments from the fake AI. In most instances, the label was correct, but in cases where the number of dots of each color was similar, the researchers introduced intentional skew with incorrect answers. In one experimental group, the AI labels tended toward offering false negatives. In a second experimental group, the slant was reversed toward false positives.
The researchers found that the participants who received the fake AI suggestions went on to incorporate the same bias into their future decisions, even after the guidance was no longer offered. For example, if a participant interacted with the false positive suggestions, they tended to continue to make false positive errors when given new images to assess. This observation held true despite the fact that the control groups demonstrated the task was easy to complete correctly without the AI guidance—and despite 80 percent of participants in one of the experiments noticing that the fictional “AI” made mistakes.
A big caveat is that the study did not involve trained medical professionals or assess any approved diagnostic software, says Joseph Kvedar, a professor of dermatology at Harvard Medical School and editor in chief of npj Digital Medicine. Therefore, Kvedar notes, the study has very limited implications for physicians and the actual AI tools that they use. Keith Dreyer, chief science officer of the American College of Radiology Data Science Institute, agrees and adds that “the premise is not consistent with medical imaging.”
Though not a true medical study, the research offers insight into how people might learn from the biased patterns inadvertently baked into many machine-learning algorithms—and it suggests that AI could influence human behavior for the worse. Ignoring the diagnostic aspect of the fake AI in the study, Kvedar says, the “design of the experiments was almost flawless” from a psychological point of view. Both Dreyer and Kvedar, neither of whom were involved in the study, describe the work as interesting, albeit not surprising.
There’s “real novelty” in the finding that humans might continue to enact an AI’s bias by replicating it beyond the scope of their interactions with a machine-learning model, says Lisa Fazio, an associate professor of psychology and human development at Vanderbilt University, who was not involved in the recent study. To her, it suggests that even time-limited interactions with problematic AI models or AI-generated outputs can have lasting effects.
Consider, for example, the predictive policing software that Santa Cruz, Calif., banned in 2020. Though the city’s police department no longer uses the algorithmic tool to determine where to deploy officers, it’s possible that—after years of use—department officials internalized the software’s likely bias, says Celeste Kidd, an assistant professor of psychology at the University of California, Berkeley, who was also not involved in the new study.
It’s widely understood that people learn bias from human sources of information as well. The consequences when inaccurate content or guidance originate from artificial intelligence could be even more severe, however, Kidd says. She has previously studied and written about the unique ways that AI can shift human beliefs. For one, Kidd points out that AI models can easily become even more skewed than humans are. She cites a recent assessment published by Bloomberg that determined that generative AI may display stronger racial and gender biases than people do.
There’s also the risk that humans might ascribe more objectivity to machine-learning tools than to other sources. “The degree to which you are influenced by an information source is related to how intelligent you assess it to be,” Kidd says. People may attribute more authority to AI, she explains, in part because algorithms are often marketed as drawing on the sum of all human knowledge. The new study seems to back this idea up in a secondary finding: Matute and Vicente noted that that participants who self-reported higher levels of trust in automation tended to make more mistakes that mimicked the fake AI’s bias.
Plus, unlike humans, algorithms deliver all outputs—whether correct or not—with seeming “confidence,” Kidd says. In direct human communication, subtle cues of uncertainty are important for how we understand and contextualize information. A long pause, an “um,” a hand gesture or a shift of the eyes might signal a person isn’t quite positive about what they’re saying. Machines offer no such indicators. “This is a huge problem,” Kidd says. She notes that some AI developers are attempting to retroactively address the issue by adding in uncertainty signals, but it’s difficult to engineer a substitute for the real thing.
Kidd and Matute both claim that a lack of transparency from AI developers on how their tools are trained and built makes it additionally difficult to weed out AI bias. Dreyer agrees, noting that transparency is a problem, even among approved medical AI tools. Though the Food and Drug Administration regulates diagnostic machine-learning programs, there is no uniform federal requirement for data disclosures. The American College of Radiology has been advocating for increased transparency for years and says more work is still necessary. “We need physicians to understand at a high level how these tools work, how they were developed, the characteristics of the training data, how they perform, how they should be used, when they should not be used, and the limitations of the tool,” reads a 2021 article posted on the radiology society’s website.
And it’s not just doctors. In order to minimize the impacts of AI bias, everyone “needs to have a lot more knowledge of how these AI systems work,” Matute says. Otherwise we run the risk of letting algorithmic “black boxes” propel us into a self-defeating cycle in which AI leads to more-biased humans, who in turn create increasingly biased algorithms. “I’m very worried,” Matute adds, “that we are starting a loop, which will be very difficult to get out of.”