[해외 DS] 위키백과, AI 도구로 검정 작업 효율 개선해

기본 출처의 정확성 판별 및 대안 제시
주장 자체의 참 거짓은 판별 못 해
학습 데이터의 편향 문제도 남아 있어

[해외DS]는 해외 유수의 데이터 사이언스 전문지들에서 전하는 업계 전문가들의 의견을 담았습니다. 저희 데이터 사이언스 경영 연구소 (GIAI R&D Korea)에서 영어 원문 공개 조건으로 콘텐츠 제휴가 진행 중입니다.


wikipedia 20231024
사진=Scientific American

위키피디아는 우리가 어떤 주제에 대한 확실한 정보를 원할 때 많이 찾는 곳 중 하나다. 위키백과의 모든 내용을 신뢰할 수는 없으므로 원본 출처를 참조하는 일은 매우 중요하다. 하지만 종종 1차 출처조차도 잘못 기재된 경우가 있다. 참고 문헌의 품질을 유지하고 개선하기 위해 더 나은 도구가 절실한 상황이다.

참고 문헌과 내용의 일치성 판별하는 AI 프로그램

런던에 본사를 둔 회사 Samaya AI의 파비오 페트로니(Fabio Petroni)와 그의 동료들은 위키피디아 참고 문헌이 관련 주장을 뒷받침하는지를 분석하고 그렇지 않으면 더 나은 대안을 제시하는 신경망 기반 시스템인 SIDE를 개발했다. 과학 학술지 네이처 머신 인텔리전스에 발표된 이 연구에 따르면 SIDE는 기본 출처가 정확한지 확인하고 새로운 출처를 제안하는 두 가지 작업을 수행한다. 그러나 이 AI는 위키백과 주장이 사실이라는 가정하에 작동하기 때문에 출처의 유효성을 확인하는 단계에 그친다.

ChatGPT가 인용을 엉망으로 만들고 환각을 일으키는 것으로 악명 높은 것을 고려할 때 인용을 돕기 위해 AI를 사용하는 것은 아이러니하게 보일 수 있다. 그러나 SIDE는 모든 것을 아는 체하는 일반 챗봇과 달리 수천 명의 위키피디아 편집자의 기여를 집중적으로 학습했다. 위키피디아의 검증 기준 미달로 지정될 가능성이 가장 높은 상위 10%의 인용에 대해서 사람들은 원래 인용된 참고 문헌보다 SIDE가 제안한 대안을 70% 더 선호한다는 사실이 관찰됐다. 시스템의 적용 가능성을 검증하기 위해 영어권 위키백과 커뮤니티를 대상으로 데모를 운영한 결과, 같은 상위 10%의 검증 불가한 주장에 대해 기존 위키백과 인용보다 SIDE의 첫 번째 인용 추천이 두 배 더 선호되는 것으로 나타났다. 이러한 결과는 인공지능 기반 시스템이 인간과 함께 위키백과의 검정력을 개선하는 데 사용될 수 있음을 보여준다.

SIDE는 편집자와 중재자로부터 많은 관심을 받은 기존의 추천 위키백과 문서를 사용하여 좋은 참고 문헌을 인식하도록 학습됐다. 그런 다음 검증 시스템을 통해 페이지 내에서 품질이 낮은 참조가 있는 주장을 식별하고 인터넷에서 평판이 좋은 출처를 검색해서 잘못된 인용을 대체할 수 있는 옵션의 순위도 매겨 준다. 페트로니와 그의 동료들은 시스템을 테스트하기 위해 SIDE가 보지 못했던 주요 위키백과 문서에 대한 추천 문헌을 검증했다. 그 결과 약 50%의 경우 SIDE가 Wikipedia에서 우수 참고 자료로 사용되고 있는 출처를 제시했고 21%의 경우 사람이 적절하다고 판단한 추천을 한 발 앞서서 제시했다.

아직 보완점 많지만, 적용 분야는 넓어

위키피디아 사용자 그룹 중 21%는 AI가 찾은 인용을 선호했고, 10%는 기존 인용을 선호했으며, 39%는 선호하는 인용이 없다고 답했다. 일부 전문가들은 SIDE 시스템을 테스트한 위키피디아 사용자 중 두 가지 모두 선호하지 않는다고 답한 비율이 AI가 추천한 인용을 선호한다고 답한 비유보다 두 배나 높았다는 점을 지적했다. 이는 사용자들이 여전히 온라인에서 관련 인용을 검색한다는 것을 의미하고 SIDE가 문서 자체의 정확성을 판단할 수 없는 한계점에 기인한 결과라고 분석했다. 또한 SIDE는 웹 페이지에 해당하는 참조만 고려한다는 점에서 기능에 한계가 있다. 실제로 위키피디아는 텍스트 외에 이미지나 동영상과 같은 다른 미디어를 통해 책과 과학 논문 등을 인용한다.

한편 학습에 의존하는 인공지능은 프로그램은 편견에 노출되기 쉽다는 것을 우리 모두 알고 있다. SIDE의 모델을 훈련하고 평가하는 데 사용되는 데이터도 편향에서 완전히 자유로울 수는 없다. 하지만 AI를 사용하여 사실 확인 과정을 간소화하거나 최소한 보조 도구로 사용하는 것의 이점은 많은 분야에서 긍정적 효과로 작용할 가능성이 높다. 특히 허위 정보가 넘쳐나는 현실을 감안하면 진실에 더 가까워지기 위해 개발된 SIDE와 같은 프로그램 하나하나가 소중하다.

한편 국내 상황은 녹록지 않다. 네이버가 지난 5년 8개월 동안 서울대 팩트체크센터와 제휴해 뉴스 홈에 제공했던 ‘팩트체크’ 서비스를 9월 26일부터 중단하고 리뉴얼된 서비스를 공개했다. 내년 총선을 앞두고 정부의 압력이 거세진 영향도 있었겠지만, 이번 사건으로 연구 단체들의 동기가 크게 꺾인 것도 사실이다. 게다가 지식iN은 뉴스 코너에 비해 팩트 체크 강도도 낮고 팩트체크단의 적극성은 위키피디아의 참여자들에 비할 바가 못 된다. 국내 검색 시장에서 네이버를 빠르게 추격하는 구글은 광고를 제외하면 위키피디아의 상단 노출 비중이 압도적으로 높다. 한국의 위키백과는 자료가 많지 않지만 구글의 페이지 번역 기능을 통해 영문 접근성이 좋아진 점을 간과할 수 없다. 구글은 유튜브에도 건강 콘텐츠 및 팩트체크 기능을 강화하고 있는데, 글보다 동영상 검색 비중이 높아지고 있는 가운데 국내 검색 포털의 미래는 더욱 불투명해지고 있다.


A More Reliable Wikipedia Could Come from AI Research Assistants

A neural network can identify Wikipedia references that are unlikely to support an article’s claims—and scour the web for better sources

Wikipedia lives and dies by its references, the links to sources that back up information in the online encyclopaedia. But sometimes, those references are flawed — pointing to broken websites, erroneous information or non-reputable sources.

A study published on 19 October in Nature Machine Intelligence suggests that artificial intelligence (AI) can help to clean up inaccurate or incomplete reference lists in Wikipedia entries, improving their quality and reliability.

Fabio Petroni at London-based company Samaya AI and his colleagues developed a neural-network-powered system called SIDE, which analyses whether Wikipedia references support the claims they’re associated with, and suggests better alternatives for those that don’t.

“It might seem ironic to use AI to help with citations, given how ChatGPT notoriously botches and hallucinates citations. But it’s important to remember that there’s a lot more to AI language models than chatbots,” says Noah Giansiracusa, who studies AI at Bentley University in Waltham, Massachusetts.

AI FILTER
SIDE is trained to recognize good references using existing featured Wikipedia articles, which are promoted on the site and receive a lot of attention from editors and moderators.

It is then able to identify claims within pages that have poor-quality references through its verification system. It can also scan the Internet for reputable sources, and rank options to replace bad citations.

To put the system to the test, Petroni and his colleagues used SIDE to suggest references for featured Wikipedia articles that it had not seen before. In nearly 50% of cases, SIDE’s top choice for a reference was already cited in the article. For the others, it found alternative references.

When SIDE’s results were shown to a group of Wikipedia users, 21% preferred the citations found by the AI, 10% preferred the existing citations and 39% did not have a preference.

The tool could save time for editors and moderators checking the accuracy of Wikipedia entries, but only if it is deployed correctly, says Aleksandra Urman, a computational communication scientist at the University of Zurich, Switzerland. “The system could be useful in flagging those potentially-not-fitting citations,” she says. “But then again, the question really is what the Wikipedia community would find the most useful.”

Urman points out that the Wikipedia users who tested the SIDE system were twice as likely to prefer neither of the references as they were to prefer the AI-suggested ones. “This would mean that in these cases, they would still go and search for the relevant citation online,” she says.

This article is reproduced with permission and was first published on October 19, 2023.