[해외 DS] 레딧 데이터로 들여다본 온라인 허위 정보의 위험성, 소셜 미디어가 공중 보건에 미치는 영향

160X600_GIAI_AIDSNote
온라인 허위 정보, 공중 보건에 심각한 위협
레딧 데이터 활용한 최신 연구, 온라인 언어 사용 패턴과 실제 행동 간의 상관관계 밝혀내
하지만 인과관계가 복잡하거나 명확한 핵심 메시지가 없는 경우 예측력이 떨어질 수 있어

[해외DS]는 해외 유수의 데이터 사이언스 전문지들에서 전하는 업계 전문가들의 의견을 담았습니다. 저희 글로벌AI협회 연구소(GIAI R&D)에서 콘텐츠 제휴가 진행 중입니다.


AI Predicts Whether Online Health Misinformation Will Cause Real Harm ScientificAmerican 20240520
사진=Scientific American

온라인 허위 정보 확산은 공중 보건에 심각한 위협이 되고 있다. 특히 백신 미접종으로 인한 코로나19 사망 증가 사례는 이 문제의 심각성을 여실히 보여줬다. 하이드록시클로로퀸(말라리아 치료제), 이버멕틴(구충제)과 같은 검증되지 않은 치료법이나 백신 음모론 등 온라인상의 잘못된 정보는 사람들의 건강을 위협했지만, 이러한 인과 관계를 과학적으로 규명하는 것은 어려운 과제로 남아있었다.

레딧을 통한 연구 활성화, 허위 정보의 부정적 영향 분석

온라인 허위 정보가 초래하는 부정적 결과를 입증하는 것은 공중 보건 시스템의 복잡성과 소셜 미디어 기업들의 데이터 접근 제한으로 어려움을 겪었다. 하지만 현재는 레딧이 연구 목적의 데이터 접근을 허용하면서 이 분야에서의 연구가 활성화되고 있다.

특히 최근에는 레딧 데이터를 활용하여 사회 심리학적 요소와 대규모언어모델(이하 LLM)을 결합한 혁신적인 분석 프레임워크가 개발됐다. 이 프레임워크는 온라인 언어 사용이 실제 행동에 미치는 영향을 분석할 가능성을 제시하여 학계의 주목을 받고 있다. 해당 연구 결과는 논문 사전 공개 사이트인 아카이브(arXiv)에 공개됐으며, 하와이에서 개최된 인간-컴퓨터 상호작용 분야 최고 권위의 ACM CHI 컨퍼런스에서 발표되어 큰 호응을 얻었다.

연구를 주도한 미국 버지니아 공과대학교의 컴퓨터 과학자 유지니아 로(Eugenia Rho) 박사 연구팀은 소셜 미디어 플랫폼 레딧을 통해 언어 사용 패턴과 실제 행동 간의 관계를 밝히는 연구를 진행했다. 연구팀은 백신 및 코로나19 예방 조치에 반대하는 레딧 내 검열된 포럼의 수천 개 게시물을 분석 대상으로 삼았다. LLM을 활용하여 각 게시글에서 문자 그대로의 단어가 아닌, 그 이면에 숨겨진 메시지의 ‘요점’을 파악하는 데 주력했다.

인과적 요점’의 힘, 온라인 게시물의 심층 분석

이 연구의 공동 저자인 미국 코넬대학교 심리학자 발레리 레이나(Valerie Reyna)는 게시물의 요점을 파악하는 것이 “이 연구의 핵심”이라고 강조했다. 레이나 박사는 1990년대에 ‘퍼지 트레이스 이론’을 개척한 인물로, 이 이론에 따르면 사람들은 정보의 문자 그대로의 의미보다는 함축된 의미에 더욱 주목하는 경향이 있다고 한다.

이는 왜 사람들이 범죄율에 대한 건조한 통계보다 누군가 강도를 당했다는 이야기를 더 잘 기억하는지, 또는 도박꾼들이 포커 게임에서 ‘폴드’를 손실을 막는 선택이 아닌, 베팅한 돈을 잃을 가능성으로 생각할 때 베팅을 더 많이 하는지 설명하는 데 도움이 된다. 레이나 박사는 “사람들은 특정 유형의 메시지에 더욱 감동한다”고 말하며, 이러한 인간의 특성을 이해하는 것이 온라인 언어 사용과 실제 행동 간의 연결고리를 밝히는 데 중요하다고 덧붙였다.

이처럼 신중하게 단어를 선택하는 것은 설득력을 높이는 데 효과적이다. 로 박사는 “수많은 연구에서 요점 형태의 언어가 더욱 기억에 남는다는 것을 보여준다”고 말하며, 특히 소셜 미디어에서는 두 사건 간의 직접적인 연관성을 암시하는 인과적 요점 정보가 더욱 강력한 영향력을 발휘한다고 강조했다. 예를 들어 한 레딧 사용자가 “지난 수요일에 화이자 백신을 맞았는데 그 이후로 죽을 것 같았다”라는 게시물을 올린 경우, 이는 백신 접종과 건강 악화 사이의 인과 관계를 암시하는 강력한 메시지로 작용할 수 있다고 그녀는 설명했다.

실제로 연구팀은 해당 레딧 포럼들이 검열된 후에도 코로나19 관련 게시물의 인과적 요점이 강해질 때마다 전국적으로 코로나19 입원 및 사망률이 증가하는 현상을 발견했다고 전했다. 연구팀은 2020년 5월부터 2021년 10월까지 20개의 주제별로 세분화된 토론방 ‘서브레딧’에서 약 8만 개의 게시물 데이터를 분석하여 이러한 결과를 도출했다.

인과관계의 복잡성, 예측 구조의 적용 한계

그러나 해당 분석 구조 모든 영역에서 뛰어난 예측력을 보이는 것은 아니다. 이번 연구에 참여하지 않은 미국 오하이오 마이애미대학교의 인지 심리학자 크리스토퍼 울프(Christopher Wolfe)는 “명확한 핵심 메시지가 없는 경우에는 이 접근 방식의 예측력이 떨어질 수 있다”고 지적했다. 유방암과 같은 일반적인 질병 치료를 받는 환자들의 행동 분석이나 오로라와 같은 일시적인 현상 관찰에는 이 분석 방법이 적합하지 않을 수 있다는 의미다.

또한, 이 접근 방식은 특정 유형의 인과 관계를 명확하게 구분하는 데 한계가 있을 수 있다. 미 뉴욕주립대 폴리테크닉 연구소의 인지 심리학자 레베카 웰던(Rebecca Weldon)은 “소셜 미디어의 핵심 메시지가 건강 결정 및 결과에 영향을 미칠 수 있지만, 그 반대의 경우도 가능하다”고 지적하며, 소셜 미디어 언어와 실제 행동 사이에 서로 영향을 주고받는 피드백 루프가 존재할 가능성을 제기했다.

원인이라고 생각했던 변수가 실제로는 결과일 수 있고, 결과라고 생각했던 변수가 원인일 수 있는 인과관계의 동시성 오류가 발생할 수 있다는 것이다. 따라서 원인-결과가 중첩되는 복합적인 인과관계를 발라낼 수 있는 적절한 데이터 전처리 작업이 없으면 분석 대상의 효과를 과대/과소 계산하는 오류를 범할 수 있다.

울프와 웰던 교수는 분석 구조의 한계점을 지적했지만, 동시에 혁신적인 접근 방식을 높이 평가했다. 울프 교수는 이 프레임워크가 온라인 정보 생태계 분석에 있어 새로운 가능성을 제시했다고 말했다. 연구팀은 이 프레임워크가 소셜 미디어 기업 및 공중 보건 관계자들의 콘텐츠 관리 전략 개선에 활용될 수 있을 것으로 보고, 궁극적으로는 허위 정보 퇴치에 기여할 수 있을 것으로 기대하고 있다.

*편집진: 영어 원문의 출처는 사이언티픽 아메리칸(Scientific American)으로 본지의 편집 방향과 일치하지 않을 수도 있습니다.