[해외DS] 구글 독점 깨질까? 대안 검색 엔진과 AI의 도전

160X600_GIAI_AIDSNote
구글, 검색 품질 저하 및 법적 리스크 우려 증가
경쟁 검색 엔진과의 차별성 감소, 자사 플랫폼 통합 검색 경험 여전히 우수
새로운 검색 엔진 출현 가능성 있지만, 데이터 수집 및 처리 비용이 큰 장벽

[해외DS]는 해외 유수의 데이터 사이언스 전문지들에서 전하는 업계 전문가들의 의견을 담았습니다. 글로벌AI협회(GIAI)에서 번역본에 대해 콘텐츠 제휴가 진행 중입니다.


구글 검색은 한때 혁신적인 도구로 여겨졌으나, 최근 반독점 소송과 검색 품질 저하 문제가 부각되면서 시장 지배력에 대한 의문이 제기되고 있다. 여전히 시장 우위를 점하고 있지만, 변화하는 디지털 환경 속에서 점점 더 많은 도전에 직면하고 있다.

Google_Is_A_Monopoly_ScientificAmerican_20241004
사진=Scientific American

연이은 악재 속 위기 봉착

올해 구글은 여러 도전과 논란에 휩싸였다. 지난 5월 AI 기반 검색 플랫폼 ‘AI 오버뷰(AI Overviews)’를 출시했지만, 사용자들은 검색 질의에 대한 자동 요약이 부자연스럽다는 비판을 제기했다. 특히 특정 제품을 검색할 때 ‘검색엔진 최적화 스팸(SEO 스팸, 검색 순위를 높이기 위해 부자연스럽게 최적화된 저품질 콘텐츠)’ 페이지가 많이 포함되는 문제가 논란이 됐다. 3월에 발표된 독일 라이프치히대와 바우하우스대 연구팀의 논문에서도 주요 검색 엔진들이 상품평 검색에서 스팸을 효과적으로 걸러내는 데 어려움을 겪고 있다는 사실이 드러났다. 또한 구글이 불법적으로 검색 엔진 시장을 독점했다는 판결로 벌금 부과나 기업 분할 등의 제재가 예상되는 가운데, 디지털 광고 관행과 관련된 반독점 소송도 여전히 진행 중이다.

“구글이 점점 나빠지고 있거나, 최소한 이전보다 덜 유용해지는 모습을 보고 있다”고 유타 하이더(Jutta Haider) 스웨덴 보로스대학(University of Borås) 문헌정보학 교수는 말했다. 이어 “사용자들이 검색 경험을 개선하기 위해 다양한 우회 방법을 사용하고 있다”고 덧붙이며, 특정 웹사이트에서만 결과를 얻기 위해 사이트명을 검색어에 추가하거나, AI 응답 대신 전통적인 하이퍼링크를 선호하도록 설정을 변경하는 사례를 언급했다. 하이더 교수는 올로프 순딘(Olof Sundin) 스웨덴 룬드대학(Lund University) 예술문화과학부 정보학 교수와 함께 2019년 ‘보이지 않는 검색과 온라인 검색 엔진(Invisible Search and Online Search Engines)’이라는 책을 공동 집필한 바 있다.

가장 큰 문제는 대체할 수 있는 검색 엔진이 많지 않다는 점이다. 미국에서 약 90%의 검색이 구글을 통해 이뤄지고 있다. 게다가 웹 트래픽 분석 업체 스탯카운터(StatCounter)에 따르면, 미국 시장에서 점유율이 1%를 넘는 검색 엔진은 단 세 개뿐이다. 마이크로소프트의 빙(Bing)은 약 7%의 검색에서 사용되며, 빙의 인덱스(검색 엔진이 알고 있는 웹사이트 목록)를 사용하는 덕덕고(DuckDuckGo)는 약 2%의 점유율을 차지하고 있다. 야후 검색(Yahoo! Search)도 약 2%의 점유율을 기록하며, 2009년부터 빙의 인덱스를 사용해 왔지만 덕덕고와 마찬가지로 자체 크롤러를 운영하고 있다.

브레이브 검색(Brave Search)처럼 프라이버시를 중시해 사용자 데이터 추적을 제한하는 덜 알려진 옵션도 존재한다. 또한 비영어권 사용자를 주요 대상으로 하는 검색 엔진들도 있다. 대표적으로 러시아의 얀덱스(Yandex)와 중국의 바이두(Baidu)가 그 예다. 일부 새로운 검색 엔진들은 생성형 AI를 통해 답변을 제공하지만, 많은 경우 이러한 AI 검색 도구들은 표절 의혹을 받고 있다. 나아가 하이더 교수는 AI 기반 검색 엔진이 기후 변화 부정과 같은 잘못된 정보를 제공할 수 있다고 경고하는데, 이는 AI가 미디어를 사람처럼 정확하게 해석하지 못하기 때문이라고 설명했다.

몇몇 검색 엔진들은 완전히 다른 방식을 취하고 있다. 베를린에 본사를 둔 에코시아(Ecosia)는 검색을 통해 얻은 수익을 나무 심기 프로젝트에 기부한다. 피터 반 미드워드(Pieter Van Midwoud) 에코시아의 수목 담당 최고 책임자에 따르면, 약 50번의 검색이 나무 한 그루를 심을 수 있는 비용을 마련할 수 있다고 한다. 다만 사용자의 위치나 클릭한 광고 수에 따라 수치가 변동될 수 있다. 에코시아는 빙이나 구글 등 외부 소스에서 검색 결과를 가져오지만, “결과에 대한 통제권은 크지 않다”고 제이드 데비(Jade Devey) 에코시아 글로벌 커뮤니케이션 책임자는 밝혔다. 대신 특정 링크에는 맞춤형 라벨을 적용하는데, 녹색 잎 아이콘은 “실질적인 기후 약속을 가진” 기업을, 공장 굴뚝 모양의 아이콘은 “대형 오염원”을 나타낸다.

엔진 간 성능 차이 크지 않아

잘 알려진 사실을 확인하거나 회사 웹사이트를 찾고자 한다면, 다른 검색 엔진들도 대부분 원하는 답변을 제공할 가능성이 높다. 검색 엔진과 사용자 행동을 연구하는 디르크 레반도프스키(Dirk Lewandowski) 독일 함부르크응용과학대 교수는 “대부분의 검색에서 어느 검색 엔진을 사용하든 큰 차이가 없다”고 말한다.

레반도프스키 교수와 그의 동료들은 2022년 ‘정보과학및기술협회회보(Proceedings of the Association for Information Science and Technology)’에 발표한 연구에서 구글, 덕덕고(DuckDuckGo), 빙(Bing), 그리고 독일의 메타 검색 엔진인 메타거(MetaGer)를 비교했다. 메타거는 다른 검색 엔진의 데이터를 종합하는 엔진이다. 연구팀은 ‘결과 평가 도구(Result Assessment Tool, RAT)’라는 소프트웨어를 사용해 2021년 말에서 2022년 초 사이 독일과 미국에서 약 3,500개의 구글 트렌드 검색어에 대해 상위 10개의 결과를 분석했다.

연구 결과 미국의 상위 결과에서는 위키피디아, 인스타그램, IMDb(영화리뷰 사이트)와 같은 인기 있는 웹사이트가 반복적으로 나타났다. 구글의 상위 10개 검색 결과는 다른 검색 엔진과 약 24~25% 정도 겹쳤으며, 구글을 제외한 검색 엔진들 간에는 더 높은 유사성을 보였다. 특히 빙과 덕덕고의 검색 결과는 64%가 일치했는데, 이는 두 검색 엔진이 빙의 인덱스를 공유하고 있기 때문이라고 레반도프스키 교수는 설명했다.

레반도프스키 교수는 이번 연구가 트렌드 검색에 의존한 점에서 한계가 있음을 인정했다. 그는 “잘 검색되지 않는 용어의 경우, 인기 검색어에 비해 결과의 일치율이 훨씬 낮을 것”이라고 지적하며, 위키피디아에서 답을 찾기 어려운 특수한 질문에 대해서는 각 검색 엔진이 인터넷의 다른 부분에서 답을 찾아낼 가능성이 크다고 설명했다. 이러한 경우 여러 검색 엔진을 사용하는 것이 더 많은 정보를 얻는 데 유리하다고 그는 조언했다.

한편 유타 하이더 교수는 “많은 검색에서 구글과 빙, 혹은 덕덕고 사이의 차이는 이제 크지 않다”고 언급하면서도, 구글이 구글 지도나 유튜브와 같은 강력한 기능을 다른 검색 결과에 매끄럽게 통합하는 점에서 다른 엔진들보다 앞서 있다고 부연했다. 하이더 교수는 검색 엔진을 평가할 때 주로 “파리 마드리드”나 “퀘벡 토론토”와 같은 두 주요 도시 이름을 검색해본다고 말했다. 이때 검색 결과에서는 항공편 프로모션이 상위에 올라오는 경우가 많으며, “탄소 배출이 높은 항공편 같은 것이 보통 더 상위에 랭크된다”고 그녀는 설명했다. 또한 여름 옷이나 어린이 옷을 검색하면, 많은 검색 엔진들이 소비 성향이 강한 상업 사이트나 의류 쇼핑몰로 연결되는 경향이 있다고 말하며, 이러한 검색을 통해 검색 엔진이 보이지 않게 전제하고 있는 가정을 드러내려 한다고 강조했다.

검색 인덱스 구축의 어려움

미래에 더 다양한 검색 엔진이 등장할 수 있을까? 구글이 시장을 독점하지 않더라도, 새로운 검색 엔진을 개발하는 일은 여전히 쉽지 않다. 웹 크롤러, 랭킹 알고리즘, 검색 인터페이스 등 여러 구성 요소 중에서도 인덱스는 가장 만들기 어려운 부분이다. 지난해 판두 나야크(Pandu Nayak) 구글 검색 부사장은 구글의 인덱스가 2020년에 약 4,000억 개의 문서에 이를 수 있다고 밝힌 바 있다.

이 정도 규모의 인덱스를 구축하고 유지하는 데는 “엄청난 비용”이 든다고 레반도프스키 교수는 설명한다. 인덱스는 지속적으로 업데이트되고, 전 세계 사용자들이 접근할 수 있도록 관리되어야 하는데, “이런 작업을 감당할 자본을 가진 곳은 구글과 마이크로소프트뿐”이라고 그는 강조했다. 이러한 문제를 해결하기 위해 레반도프스키 교수와 여러 정보·컴퓨터 분야 과학자들은 공공 자금으로 운영되는 웹 인덱스를 제안하고 있다. 이를 통해 “수천 개의 검색 엔진”이 만들어질 수 있다고 그는 역설했다.

하이더 교수는 공공 인덱스 개발이 기술적으로는 가능하지만, 정부의 통제나 수익 동기에서 독립된 형태로 이를 구축하는 데에는 여전히 정치적인 문제가 남아 있다고 지적한다. 물론 이러한 정치적 문제와는 별개로, 특정 검색 엔진에 대한 사용자 선호가 변화를 일으킬 수 있다. “웹 검색 엔진은 사용될수록 개선된다”고 하이더 교수는 말한다. “개발자들은 사람들이 무엇을 검색하고, 검색 결과가 어떻게 표시되며, 무엇이 클릭되는지에 대한 피드백을 받아 이를 토대로 시스템을 개선한다”고 그녀는 덧붙였다.

원문의 저자는 벤 구아리노(Ben Guarino) 사이언티픽 아메리칸의 기술 부편집장입니다. 영어 원문은 What Search Engine Should You Use? | Scientific American에 게재돼 있습니다.