Принцип работы
Поисковый робот — это программа браузерного типа. Он постоянно сканирует сеть: посещает проиндексированные (уже известные ему) сайты, переходит по ссылкам с них и находит новые ресурсы. При обнаружении нового ресурса робот процедур добавляет его в индекс поисковика. Поисковый робот также индексирует обновления на сайтах, периодичность которых фиксируется. Например, обновляемый раз в неделю сайт будет посещаться пауком с этой частотой, а контент на новостных сайтах может попасть в индекс уже через несколько минут после публикации. Если на сайт не ведет ни одна ссылка с других ресурсов, то для привлечения поисковых роботов ресурс необходимо добавить через специальную форму (Центр вебмастеров Google, панель вебмастера Яндекс и т.д.).
Виды поисковых роботов
Пауки Яндекса:
- Yandex/1.01.001 I — основной бот, занимающийся индексацией,
- Yandex/1.01.001 (P) — индексирует картинки,
- Yandex/1.01.001 (H) — находит зеркала сайтов,
- Yandex/1.03.003 (D) — определяет, соответствует ли страница, добавленная из панели вебмастера, параметрам индексации,
- YaDirectBot/1.0 (I) — индексирует ресурсы из рекламной сети Яндекса,
- Yandex/1.02.000 (F) — индексирует фавиконы сайтов.
Пауки Google:
- Робот Googlebot — основной робот,
- Googlebot News — сканирует и индексирует новости,
- Google Mobile — индексирует сайты для мобильных устройств,
- Googlebot Images — ищет и индексирует изображения,
- Googlebot Video — индексирует видео,
- Google AdsBot — проверяет качество целевой страницы,
- Google Mobile AdSense и Google AdSense — индексирует сайты рекламной сети Google.
Другие поисковики также используют роботов нескольких видов, функционально схожих с перечисленными.