Как поисковики отличают пользователей от ботов?

Поисковыми системами пользуются не только люди, которые находятся в поисках информации.

К поисковым системам иногда обращаются роботы, которым нужно исследовать ключевые слова, собрать данные о положении определенных страниц или как можно больше раз кликнуть по контекстной рекламе или результатам выдачи, чтобы опередить конкурентов.

Такие роботы используют ресурсы поисковиков и, к тому же, могут получить информацию о пользователях, которую поисковые системы используют для работы над формированием поисковых подсказок и алгоритмом ранжирования.

Google давно попросил вебмастеров не пользоваться автоматическими программами, которые проверяют позиции или добавляют страницы. «Подобные программы перегружают сервера и нарушают правила пользования поисковиком».

Из-за возникновения подобных ситуаций многие поисковики разработали методы, с помощью которых можно отличить запрос робота от запроса человека. Когда поисковик отслеживает запросы, то собирает множество информации о пользователях. Кроме ключевых слов такая информация может включить и метаданные, например, время введения запроса, IP-адрес, цепочки поисковых запросов, страницы результатов.

Для того чтобы определить, принадлежит ли запрос пользователю или роботу, поисковая система использует две группы факторов: поведенческие характеристики и физические параметры запроса.

Один из способов узнать, кем был задан запрос, это отследить некоторые физические характеристики запроса. К физическим параметрам относится объем запросов и месторасположение. Пользователи не могут сделать большое количество запросов за небольшой период времени, в отличие от ботов. Также один пользователь не может делать запросы из различных точек планеты одновременно или с небольшим интервалом времени. Поэтому поисковик определяет ботнет или человека, который пользуется инструментом для анонимного поиска, но не отключил cookie. По физическим параметрам можно определить автоматические запросы. Однако некоторые автоматические запросы имитируют запросы, которые делает обычный пользователь. Для того чтобы отличить такие автоматические запросы, существуют поведенческие характеристики.

К ним относятся:

  • CTR (отслеживаются клики на результаты поиска);
  • порядок поиска (роботы иногда ищут в алфавитном порядке);
  • использование спамовых слов, обращения к тематике для взрослых;
  • большое количество слов в запросе, особенно в нескольких последовательных запросах;
  • периодичность запросов;
  • использование операторов запросов (часто операторами пользуются боты);
  • лимитированность категорий (у бота вся цепочка запросов принадлежит к одной или нескольким узким категориям).

Когда серия запросов кажется поисковику подозрительной, он просит пользователя ответить на вопрос или расшифровать CAPTCHA.