[해외DS] 구글 독점 깨질까? 대안 검색 엔진과 AI의 도전

160X600_GIAI_AIDSNote
구글, 검색 품질 저하 및 법적 리스크 우려 증가
경쟁 검색 엔진과의 차별성 감소
단, 플랫폼 통합 검색 경험은 여전히 우수
새로운 검색 엔진 출현 가능성, 데이터 수집 및 처리 비용이 장벽

[해외DS]는 해외 유수의 데이터 사이언스 전문지들에서 전하는 업계 전문가들의 의견을 담았습니다. 글로벌AI협회(GIAI)에서 번역본에 대해 콘텐츠 제휴가 진행 중입니다.


한때 혁신적인 도구로 여겨졌던 구글 검색이 최근 반독점 소송과 검색 품질 저하 문제가 부각되면서 시장 지배력에 대한 의문이 제기되고 있다. 여전히 시장 우위를 점하고 있지만, 변화하는 디지털 환경 속에서 점점 더 많은 도전에 직면하는 모습이다.

Google_Is_A_Monopoly_ScientificAmerican_20241004
사진=Scientific American

연이은 악재 속 위기 봉착

올해 구글은 여러 도전과 논란에 휩싸였다. 구글이 야심차게 내놓은 AI(인공지능) 서비스 관련 논란이 대표적이다. 지난 5월 구글은 AI 기반 검색 플랫폼 ‘AI 오버뷰(AI Overviews)’를 출시했지만, 검색 질의에 대한 자동 요약이 부자연스럽다는 비판이 쏟아졌다. 특히 특정 제품을 검색할 때 ‘검색엔진 최적화 스팸(SEO 스팸, 검색 순위를 높이기 위해 부자연스럽게 최적화된 저품질 콘텐츠)’ 페이지가 많이 포함되는 점이 문제가 됐다. 또한 버락 후세인 오바마 미국 전 대통령을 무슬림 대통령이라고 지칭하는 등 사실과 맞지 않거나 상식적이지 않은 답변을 내놓기도 했다.

구글이 직면한 문제는 이뿐만이 아니다. 불법적으로 검색 엔진 시장을 독점했다는 판결로 벌금 부과나 기업 분할 등의 제재가 예상되는 가운데, 디지털 광고 관행과 관련된 반독점 소송도 여전히 진행 중이다. 이와 관련해 유타 하이더(Jutta Haider) 스웨덴 보로스대학(University of Borås) 문헌정보학 교수는 “구글이 점점 나빠지고 있거나, 최소한 이전보다 덜 유용해지는 모습을 보고 있다”고 말했다. 이어 “사용자들이 검색 경험을 개선하기 위해 다양한 우회 방법을 사용하고 있다”고 덧붙였다.

그러면서 특정 웹사이트에서만 결과를 얻기 위해 사이트명을 검색어에 추가하거나, AI 응답 대신 전통적인 하이퍼링크를 선호하도록 설정을 변경하는 사례를 언급했다. 하이더 교수는 올로프 순딘(Olof Sundin) 스웨덴 룬드대학(Lund University) 예술문화과학부 정보학 교수와 함께 2019년 ‘보이지 않는 검색과 온라인 검색 엔진(Invisible Search and Online Search Engines)’이라는 책을 공동 집필한 바 있다.

가장 큰 문제는 대체할 수 있는 검색 엔진이 많지 않다는 점이다. 현재 미국에서는 약 90%의 검색이 구글을 통해 이뤄지고 있다. 게다가 웹 트래픽 분석 업체 스탯카운터(StatCounter)에 따르면, 미국 시장에서 점유율이 1%를 넘는 검색 엔진은 단 세 개뿐이다. 마이크로소프트(MS)의 빙(Bing)은 약 7%의 검색에서 사용되며, 빙의 인덱스(검색 엔진이 알고 있는 웹사이트 목록)를 사용하는 덕덕고(DuckDuckGo)는 약 2%의 점유율을 차지하고 있다. 야후 검색(Yahoo! Search) 역시 2%가량의 점유율을 기록하고 있다. 브레이브 검색(Brave Search)처럼 프라이버시를 중시해 사용자 데이터 추적을 제한하는 덜 알려진 옵션도 존재한다. 또한 비영어권 사용자를 주요 대상으로 하는 검색 엔진들도 있다. 대표적 예가 러시아의 얀덱스(Yandex)와 중국의 바이두(Baidu)다.

더욱이 일부 새로운 검색 엔진들은 생성형 AI를 통해 답변을 제공하는데 이러한 AI 검색 도구들은 대부분 표절 의혹을 받고 있다. 이에 대해 하이더 교수는 “AI 기반 검색 엔진이 기후 변화 부정과 같은 잘못된 정보를 제공할 수 있다”며 “이는 AI가 미디어를 사람처럼 정확하게 해석하지 못하기 때문”이라고 설명했다.

이렇다 보니 몇몇 검색 엔진들은 완전히 다른 방식을 취하기도 한다. 베를린에 본사를 둔 에코시아(Ecosia)는 검색을 통해 얻은 수익을 나무 심기 프로젝트에 기부한다. 피터 반 미드워드(Pieter Van Midwoud) 에코시아의 수목 담당 최고 책임자에 따르면, 약 50번의 검색이 나무 한 그루를 심을 수 있는 비용을 마련할 수 있다. 다만 사용자의 위치나 클릭한 광고 수에 따라 수치가 변동될 수 있다. 또한 제이드 데비(Jade Devey) 에코시아 글로벌 커뮤니케이션 책임자에 따르면 에코시아는 빙이나 구글 등 외부 소스에서 검색 결과를 가져오지만, 결과에 대한 통제권은 크지 않다. 대신 특정 링크에는 맞춤형 라벨을 적용하는데, 녹색 잎 아이콘은 ‘실질적인 기후 약속을 가진’ 기업을, 공장 굴뚝 모양의 아이콘은 “대형 오염원”을 나타낸다.

엔진 간 성능 차이 크지 않아

전문가들은 잘 알려진 사실을 확인하거나 회사 웹사이트를 찾고자 한다면, 구글이나 빙 외에 다른 검색 엔진들도 대부분 원하는 답변을 제공한다고 말한다. 검색 엔진과 사용자 행동을 연구하는 디르크 레반도프스키(Dirk Lewandowski) 독일 함부르크응용과학대 교수는 “대부분의 검색에서 어느 검색 엔진을 사용하든 큰 차이가 없다”고 진단했다.

레반도프스키 교수와 그의 동료들은 2022년 ‘정보과학및기술협회회보(Proceedings of the Association for Information Science and Technology)’에 발표한 연구에서 구글, 덕덕고, 빙, 그리고 독일의 메타 검색 엔진인 메타거(MetaGer)를 비교했다. 메타거는 다른 검색 엔진의 데이터를 종합하는 엔진이다. 연구팀은 ‘결과 평가 도구(Result Assessment Tool, RAT)’라는 소프트웨어를 사용해 2021년 말에서 2022년 초 사이 독일과 미국에서 약 3,500개의 구글 트렌드 검색어에 대해 상위 10개의 결과를 분석했다.

연구 결과 미국의 상위 결과에서는 위키피디아, 인스타그램, IMDb(영화리뷰 사이트)와 같은 인기 있는 웹사이트가 반복적으로 나타났다. 구글의 상위 10개 검색 결과는 다른 검색 엔진과 약 24~25% 정도 겹쳤으며, 구글을 제외한 검색 엔진들 간에는 더 높은 유사성을 보였다. 특히 빙과 덕덕고의 검색 결과는 64%가 일치했는데, 이는 두 검색 엔진이 빙의 인덱스를 공유하고 있기 때문이라고 연구진은 설명했다.

레반도프스키 교수는 이번 연구가 트렌드 검색에 의존한 점에서 한계가 있음을 인정했다. 그는 “잘 검색되지 않는 용어의 경우, 인기 검색어에 비해 결과의 일치율이 훨씬 낮을 것”이라고 지적하며, 위키피디아에서 답을 찾기 어려운 특수한 질문에 대해서는 각 검색 엔진이 인터넷의 다른 부분에서 답을 찾아낼 가능성이 크다고 설명했다. 그러면서 이러한 경우 여러 검색 엔진을 사용하는 것이 더 많은 정보를 얻는 데 유리하다고 조언했다.

그런가 하면 하이더 교수는 “많은 검색에서 구글과 빙, 혹은 덕덕고 사이의 차이는 이제 크지 않다”고 언급하면서도, 구글이 구글 지도나 유튜브와 같은 강력한 기능을 다른 검색 결과에 매끄럽게 통합한다는 점에서 다른 엔진들보다 앞서 있다고 분석했다. 하이더 교수는 검색 엔진을 평가할 때 주로 ‘파리 마드리드’나 ‘퀘벡 토론토’와 같은 두 주요 도시 이름을 검색해 본다고 말했다. 이때 검색 결과에서는 항공편 프로모션이 상위에 올라오는 경우가 많으며, 탄소 배출이 높은 항공편 같은 것이 보통 더 상위에 랭크된다고 설명했다. 또한 여름 옷이나 어린이 옷을 검색하면, 많은 검색 엔진들이 소비 성향이 강한 상업 사이트나 의류 쇼핑몰로 연결되는 경향이 있다고 말하며, 이러한 검색을 통해 검색 엔진이 보이지 않게 전제하고 있는 가정을 드러내려 한다고 강조했다.

검색 인덱스 구축의 어려움

구글이 시장을 독점하지 않더라도, 새로운 검색 엔진을 개발하는 일은 여전히 쉽지 않다. 웹 크롤러, 랭킹 알고리즘, 검색 인터페이스 등 여러 구성 요소 중에서도 가장 만들기 어려운 부분은 인덱스다. 지난해 판두 나야크(Pandu Nayak) 구글 검색 부사장은 구글의 인덱스가 2020년에 약 4,000억 개의 문서에 이른다고 밝히기도 했다.

소요되는 비용도 상당하다. 레반도프스키 교수는 이 정도 규모의 인덱스를 구축하고 유지하는 데는 엄청난 비용이 든다고 설명한다. 인덱스는 지속적으로 업데이트되고, 전 세계 사용자들이 접근할 수 있도록 관리돼야 하는데, 이런 작업을 감당할 자본을 가진 곳은 구글과 MS뿐이라고 강조했다. 이러한 문제를 해결하기 위해 레반도프스키 교수를 비롯한 여러 정보·컴퓨터 분야 과학자들은 공공 자금으로 운영되는 ‘웹 인덱스’를 제안하고 있다. 이들에 따르면 이를 통해 ‘수천 개의 검색 엔진’이 만들어질 수 있다.

물론 걸림돌이 없는 것은 아니다. 하이더 교수는 공공 인덱스 개발이 기술적으로는 가능하지만, 정부의 통제나 수익 동기에서 독립된 형태로 이를 구축하는 데는 여전히 정치적인 문제가 남아 있다고 지적한다. 다만 정치적 문제와는 별개로, 특정 검색 엔진에 대한 사용자 선호가 변화를 일으킬 수 있다. 웹 검색 엔진은 사용될수록 개선되기 때문이다. 하이더 교수는 “개발자들은 사람들이 무엇을 검색하고, 검색 결과가 어떻게 표시되며, 무엇이 클릭되는지에 대한 피드백을 받아 이를 토대로 시스템을 개선한다”고 설명했다.

원문의 저자는 벤 구아리노(Ben Guarino) 사이언티픽 아메리칸의 기술 부편집장입니다. 영어 원문은 What Search Engine Should You Use? | Scientific American에 게재돼 있습니다.