Input
검색 조작, 사기 정보, 거짓 정보들로 검색 랭킹을 일시적으로 끌어올릴 수는 있어 그러나 장기적으로는 웹사이트에 대한 신뢰도를 떨어뜨려 구글 검색에서 배제되는 결과 낳기도 검색 엔진을 속이려고 하지 말고, 고급 콘텐츠로 사용자들에게 정보를 제공하려는 관점에서 접근해야
나는 네이버 검색을 쓰지 않는다. 네이버라는 회사의 역량에는 많은 존경심을 갖고 있지만, 검색 기능으로 내가 원하는 콘텐츠를 찾기가 매우 어렵기 때문이다. 개발 시스템에 대해 약간의 이해가 있는 사람들이라면 충분히 감을 잡겠지만, 네이버 검색은 블로그, 뉴스, 스토어 등등의 주요 섹션에서 검색어에 맞는 최신 콘텐츠를 단순 DB검색해서 취합한 결과를 보여주는 것 같은 느낌이다. 세부적으로 얼마나 고난이도의 검색 엔진을 갖고 있는지는 알려진 바가 없으니 함부로 단정지을 수는 없지만, 네이버에서 보유하고 있는 콘텐츠가 아니면 검색이 되질 않는데, 정작 네이버에서 볼 수 있는 대부분의 콘텐츠는 품질이 높질 않아서 별로 보고 싶지가 않다.
네이버도 이런 문제를 해결하기 위해서 블로그들을 저품질이라는 이유로 검색에 노출시키지 않는 처벌을 진행하기도 했고, 언론사들은 베껴쓰기 위주로 하는 언론사를 퇴출시키고 발로 뛰어 취재한 고급 기사만 담겠다는 의지를 담은 뉴스제휴평가위원회를 운영하기도 했다. 네이버 스토어 검색도 한국의 최저가 검색 엔진의 상징과도 같은 존재였던 다나와의 기업 가치를 100억원 대로 낮춰버릴만큼 고급 서비스를 내놨다.
그럼에도 불구하고, 내 입장에서 찾는 콘텐츠를 가장 빠르고, 쉽고, 효율적으로 찾을 수 있는 검색 엔진은 구글인 탓에 심지어 우리 회사 웹사이트에 등록된 콘텐츠조차도 웹사이트 내의 검색 도구 대신 구글 검색을 이용해서 찾을 정도다.

네이버의 검색 결과물이 나쁜 이유가 '검색 조작' 때문이었다?
한 때 구글SEO 상품을 팔기위해 구글SEO 설명을 다닌 적이 있었는데, 그 때 받았던 질문 중 하나가 네이버가 '검색 조작'을 한다는 소문이 있는데 사실이냐는 질문이었다.
- [사설] 네이버 ‘검색 조작’, 소문 아닌 사실이었다니 (hani.co.kr)
- 설마 설마 했는데…네이버 '검색 조작' 과징금 267억 - 머니투데이 (mt.co.kr)
- ‘네이버 검색 순위 조작’은 돈이 된다, 하지만 검찰에 들켰죠? - 데이터넷 (datanet.co.kr)
2020년 10월에 검색 조작 사실이 밝혀져 네이버는 267억원에 달하는 과징금을 맞기도 했고, 지난 2023년 6월에는 네이버 검색 순위 조작을 하다가 적발된 온라인 광고대행업자들 중 일부가 구속, 불구속 되기도 했다. 당시 알려진 불법수익은 224억원이었고, 온라인 광고 업계에서는 최소 100배 이상의 불법수익이 온라인 광고 시장을 지탱하는 중심축이었을 것이라는 낭설이 자자했었다. 검색 조작 패키지가 한 건에 5천만원까지 했었던 것을 생각해보면, 네이버 검색 순위 조작을 위해 2조원이 쓰였을 것이라는 시장의 예측이 그렇게 무리한 예측이라고 보이지도 않는다.
그럼에도 불구하고 이 부분에서 나는 네이버가 '검색 조작'을 했기 때문에, 혹은 일부 악덕 광고업자들이 네이버의 시스템을 악용해서 '검색 조작'을 했기 때문에 검색 품질이 나빴던 것은 아니라고 답변하고 싶다.
네이버의 가장 큰 한계는 구글처럼 다양한 웹페이지들에서 정보를 다 긁어오고 정리하는 크롤링(Crawling) 시스템이 굉장히 제한적인 탓에 경쟁사인 다음(DAUM)의 주요 웹서비스들, 워드프레스, 윅스 등으로 제작된 일반 웹사이트들의 정보를 거의 보여주지 않는다는 점이다. 네이버 검색에 콘텐츠를 노출시키고 싶으면 네이버가 운영하는 서비스들에 콘텐츠를 등록해야 했는데, 나처럼 네이버 검색에 노출되어서 큰 이득이 없는 사람들, 네이버 검색 노출을 위해서 뭘 해야하는지 모르는 사람들, 네이버가 뭔지 모르는 외국인들에게는 해당사항이 없는 작업이었던 탓에 네이버가 갖고 있는 콘텐츠 자체가 제한될 수밖에 없었다.

검색 조작보다 더 나쁜 것이 포장지만 번드르르한 정보
네이버가 갖고 있는 콘텐츠가 제한적이고, 검색 알고리즘이 구글의 '페이지 랭크(PageRank)'처럼 조작이 실제 사용자가 정보를 찾는 행동을 역추적을 할 수 있는 시스템도 아닌, 단순하게 조회수 위주로 움직인다는 사실이 알려져 있던 탓에 검색 조작이 횡행할 수밖에 없었다.
그러나 한 때 검색 엔진을 만들려고 해 봤던 내 입장에서 더 큰 문제는 포장지만 번드르르한 웹사이트들이었다. 겉으로 보기에는 매우 알찬 정보가 있는 웹사이트처럼 보이지만, 다른 웹사이트를 그대로 복사해서 붙여놓은 웹사이트인 경우도 많고, 매우 긴 텍스트가 있지만 정작 챗GPT를 이용해서 복제해낸, 말 그대로 남의 콘텐츠를 표절 시비에만 안 휘말리게 살짝 고쳐놓은 콘텐츠인 경우들도 많았다.
네이버도 그런 식으로 복사해서 붙여넣기만 하는 기자들을 쫓아내고, 블로거를 쫓아내는 작업 때문에 오랫동안 골머리를 앓았는데, 말을 바꾸면, 고급 콘텐츠를 생산해내기 어려우니, 어떻게든 쉽고, 편하게 콘텐츠를 만들어내서 사용자를 끌어모르려는 조잡한 술수를 쓰는 가짜 생산자들이 검색 품질 저하의 매우 큰 원인 중 하나였다. 검색하면 같은 콘텐츠가 우르르 나오는 경우가 이른바 '도배'해버리는 상황인데, 검색 순위를 조작할 것도 없이 그냥 한 가지 내용 밖에 볼 수가 없게 된다. 검색 엔진 운영자가 그런 상황에 얼마나 화가날지, 같은 정보가 여러 사이트에 반복적으로 나오는 것을 본 일반 사용자는 얼마나 황당해할지를 생각해보면, 왜 순위 조작보다 더 심각한 문제인지 충분히 납득히 될 것이다.
구글의 PageRank 시스템도 웹사이트 방문자 네트워크가 매우 중요하다는 것을 시장이 이해하고 교묘하게 악용하려고 들자 Factor 기반으로 사용자들의 그룹을 구분해 몇 명의 조작이 전체 시스템에서 큰 의미가 없도록 하는, Data Science의 Random Forest에서 쓰는 샘플 가중치 관점을 빌려온 적도 있다. 그 외 최근들어 Data Science 업계에서 논의됐던 각종 추천 알고리즘들을 이미 2013년에 적용하면서 알게 된 내용들을 논문으로 내놓은 경우도 많았는데, 가짜 생산자들이 검색 순위까지 조작하는 것을 잡아내기 위해 얼마나 많은 노력을 쏟았는지 짐작할 수 있는 대목이다
포장지만 번드르르한 정보보다 더 나쁜 것이 거짓 정보(or 가짜 뉴스)
사실 내 입장에서 표절한 웹사이트보다 더 나쁜 웹사이트가 가짜 뉴스 웹사이트, 혹은 거짓 정보를 담은 웹사이트다. 표절의 경우는 둘이 동일한 콘텐츠인지 확인하고, 등록되는 시간을 비교해서 늦게 등록되는 웹페이지인 경우에는 철퇴를 가하면 된다. 그런데, 겉으로 보기에 매우 잘 돌아가는 언론사처럼 웹사이트를 만들어놓고 가짜 뉴스를 뿌리는 경우들, 혹은 최저가 가격 정보 웹사이트라고 해 놓고 링크를 타고 가 보니 최저가가 아닌 거짓 정보 사이트들은 검색 엔진이 기술적으로 단기간에 잡아내기가 매우 어렵다.
예를 들어, 구글 검색 엔진의 기본은 백링크다. 이 글을 본 사용자가 다른 글도 함께 봤을 텐데, 같은 키워드로 검색해서 본 웹페이지 목록에 빈번하게 등장하는 웹사이트가 외부 채널에 광고 링크를 걸어서 백만명의 방문자를 하루 만에 만들어낸 경우보다 더 높은 순위에 나오도록 하는 것이 백링크의 본질이다. 실제 사용자들이 검색을 통해 정보를 얻고, 그렇게 정보 습득을 하는 과정 중에 자주 등장하는 웹사이트가 공통된 정보를 가장 많이 갖고 있을 것이라는 추론에 바탕한 알고리즘이다.
그런데, 위의 방식으로는 가짜 뉴스나 거짓 정보 웹사이트를 제거하기가 너무 어렵다. 거꾸로 사람들의 방문 목록에 더 자주 등장하는 웹사이트가 될 수도 있기 때문이다.
요즘 구글SEO를 홍보하고 있으면 '구글 검색 노출 1등 보장해 줄 수 있냐?'는 질문을 많이 받고, 그런 서비스를 하는 것으로 오해하는 분들도 많다. 위의 네이버 검색 순위 조작 서비스들이 낳은 폐해에 외부 효과를 그대로 맞고 있는 셈이다. 그간 한국 대학들의 Data Science 교육 수준이 지나치게 낮고, 코딩 교육이 Data Science 교육이 아니라, 고급 수학과 통계학 기반의 교육을 해야한다고 목소리를 높였는데, 날 폄하하려는 분들은 내 주장이 거짓 정보라고 음해를 씌우기도 했다. 국내 수 많은 콘텐츠 생산자들이 시장의 신뢰를 잃었던 폐해가 역시 외부 효과로 돌아온 것이다.
난 그 분들을 설득하기 위해 구글 검색 1페이지에서 67페이지로 쫓겨난 사례 같은 부정적인 사례도 공유해야했고, 실제로 글로벌 탑스쿨들에 있는 지인들에게 허락을 맡고 그 학교들이 가르치는 교재의 일부, 연습문제와 시험 문제의 일부, 그리고 내가 만든 강의노트, 시험 문제들의 유사도를 일반인들에게 일부러 보여줘야 했다. 아니, 일부러 시험문제를 좀 더 비슷하게 출제해서 신뢰도를 쌓는 길을 택해야 했다.
말을 바꾸면, 조작, 사기, 거짓 정보들을 검색 알고리즘 수준에서 제거하지 못하는 한계 탓에 정상적인 정보, 고급 정보들도 신뢰성을 의심받게 되는 외부 효과가 발생하는 것이다.
구글이 조작, 사기, 거짓 정보를 제거하기 위해 얼마나 많은 노력을 하고 있는지에 대해서는 제한적인 정보 밖에 없지만, 확실히 알려진 것이 하나 있다. 검색 순위를 조작하려다가 웹사이트를 버려야 했던 나 같은 사례부터, 지금도 수 많은 웹사이트들이 저품질, 부정확한 정보 등의 지적을 받으면서 검색에서 쫓겨난다. 경험상, 한번 그렇게 쫓겨나면 그 도메인은 아예 버려야 한다. 회복이 거의 불가능하더라.
즉, 구글SEO에서 가장 최악의 작업이 바로 조작, 사기, 거짓 정보인 것이다.
Comment