Александр Фельдман: Жизненный цикл поисковых систем. Часть первая

Александр Фельдман

Это третья часть «Введения в клиентоориентированный анализ». В первой части мы говорили о неравновесной термодинамике и «рефлекторном» стиле управления, во второй начали исследование процесса потребления. Теперь пришло время анализа поисковых систем.

«Рацио»-поиск информации

Рациональное потребление отличается от импульсивного и стереотипного прежде всего тем, что клиент предварительно собирает информацию о приобретаемых продуктах. Источником такой информации служат либо знакомые, либо менеджеры служб продаж, либо интернет и СМИ.

В предыдущей части было сказано, что реклама в СМИ (также как и наружная) не отвечает требованиям рационального выбора и работает только как направляющий ресурс. Осталось рассмотреть реалии поиска информации в интернете.

Вначале пропишем интересы участвующих сторон – собственника товара, посредника и потребителя.

Потребитель хочет: во-первых, понять каким образом предлагаемые товары и услуги решают его проблемы, т.е. получить квалифицированную и желательно независимую консультацию. Во-вторых, иметь достаточно представительную выборку и, в-третьих, провести сравнительный анализ выборки на основе понятных ему параметров.

Собственника товара интересуют только настоящие или будущие продажи и, соответственно, потенциальные клиенты, которые хотят и могут купить предлагаемый продукт.

В качестве посредника в интернете обычно выступают поисковые системы или доски объявлений и их главная задача предоставить информацию покупателю о продавце.

Поисковые системы

В подавляющем большинстве случаев поиск информации о товарах и услугах начинается с запроса в поисковой системе.

Пользователь вводит в поисковую строку некий набор слов или символов и получает поисковую выдачу – сайты, содержащие на своих страницах искомое сочетание слов, плюс контекстную рекламу. При этом, по умолчанию, сайты ранжируются по релевантности введенному запросу.

Это принципиальная схема. Разберем ее более подробно.

Качество поиска определяется релевантностью поисковой выдачи, т.е. тем, какой процент показанной пользователю информации соответствует его запросу. Но вводимый в произвольной форме запрос принципиально не полон. В нем почти всегда отсутствуют важные условия, влияющие на релевантность выдачи. Фактически, пользователь должен в своей голове каким-то образом смоделировать сочетания слов, имеющиеся на нужных ему сайтах.

Можно, конечно, вводить самые общие запросы (к таковым, например, относится большая часть односложных), но Закон обратного отношения между объемом и содержанием понятия неумолим. Применительно к рассматриваемой теме его можно сформулировать следующим образом: чем более общность запроса, тем менее релевантность поисковой выдачи.

И это еще не все. Против универсальных поисковых систем работает и закон Седова (иерархических компенсаций): в сложной иерархически организованной системе рост разнообразия на верхнем уровне системы обеспечивается ограничением разнообразия на предыдущих уровнях, и наоборот, рост разнообразия на нижних уровнях разрушает верхний уровень организации.

Наглядный пример, развитое дорожное движение невозможно построить без введения жестких правил его регулирующих.

Если применить данный Закон к интернету, то получается, что, давая возможность вводить произвольные запросы и индексируя сайты «как есть», вы принципиально не можете достичь максимальной релевантности. И это ограничение сродни запрету на создание вечного двигателя.

***

Следующий этап – поисковая выдача.

С контекстной рекламой вроде бы все понятно – кто больше заплатил, тот и стоит на первых позициях. Правда, возникает вопрос ангажированности такого представления.

Что же касается найденных по запросу страниц, то все поисковые системы дружно заявляют, что их беспристрастно расставляет алгоритм, руководствуясь только релевантностью запросу.

Посмотрим, насколько это соответствует действительности. Схематически работа поисковых систем выглядит примерно следующим образом.

Первыми в бой идут поисковые роботы, которые обходят интернет, выкачивая из него найденные страницы и передавая их индексным роботам. Индексный робот выбирает слова и строит из них индекс. Последний похож на словарь, где каждому слову (точнее, основе слова) противопоставляется номер страницы, на которой оно найдено, и номер вхождения.

Когда пользователь вводит поисковый запрос, то он соотносится с индексом и извлекаются все страницы, на которых присутствует введенное сочетание слов. При этом, чтобы в выдаче показывать цитаты с выделенными словами запроса, необходимо хранить на серверах, фактически, полную копию всего интернета.

Далее, найденное по поисковому запросу надо как-то расставить по порядку. Всякий поисковик стремится к максимуму релевантности и на первое место выводит страницы не просто содержащие заданные слова, а еще учитывает их плотность, компактность вхождения, присутствие в заголовках и так далее.

Второй параметр, определяющий положение в поисковой выдаче – ссылочный ранг. Это некий аналог индекса цитирования, чем больше на страницу ссылаются, тем больший вес она имеет и, соответственно, тем выше показывается.

Но интернет обновляется каждую секунду, то есть, по идее, многомиллиардную матрицу ссылок также необходимо пересчитывать с ежесекундным интервалом. Процесс этого пересчета с точки зрения вычислительных мощностей весьма трудозатратен, и идея ссылочного ранжирования так и осталась бы в области теории, если бы основатели Google – С.Брин и Л.Пейдж – не доказали эргодическую теорему. Суть ее сводится к утверждению, что ранги стремятся к предельным значениям и добавление нескольких ссылок не слишком влияет на их величину. Как следствие, матрицу ссылок можно пересчитывать не так часто, например, раз в несколько дней.

Идем далее. Вы являетесь владельцем сайта и вам очень хочется попасть на первые места в поисковой выдаче. Можно долго ждать пока кто-нибудь не сошлется на вас, а можно пойти и купить необходимое количество ссылок. Там, где есть спрос, сразу же появляется и предложение. В результате поисковый спам, то есть сайты созданные специально для продажи ссылок, по подсчетам «Яндекса» уже составляет 25% рунета.

***

Делаем выводы.

1. Для создания универсальной поисковой системы требуется: написать несколько поисковых роботов, разработать систему многоступенчатой индексации, разбираться в морфологии языка и суметь объяснить ее машине, а также иметь множество дата-центров, в которых на серверах будет храниться полная копия проиндексированного интернета.

2. Главный показатель качества поиска – релевантность, равен отношению страниц, соответствующих запросу пользователя, ко всей поисковой выдаче.

3. Поисковый запрос, формируемый с помощью произвольного набора слов, принципиально не полон. Если он краток, то не содержит важных условий влияющих на релевантность, а если развернут, т.е. низкочастотен, то может и не соотноситься с нужными пользователю сайтами.

4. Универсальные поисковые системы базирующиеся на словесном поиске:

имеют принципиальное ограничение по релевантности;
обладают многократно избыточной мощностью;
требуют значительных капитальных затрат на дата-центры и поддержание инфраструктуры;
превращают интернет в мусорную свалку, где четверть сайтов не предназначена для конечного пользователя и создана для продажи ссылок.

5. Пользователь при введении транзакционных запросов видит проплаченную собственниками товаров выдачу либо в виде контекстной рекламы, либо в виде SEO-продвижения.

Продолжение следует.