Зеркальщик — это робот поисковой системы, который склеивает зеркала сайтов при их обнаружении с целью очистки базы от дублированных ресурсов.
Зеркало сайта — это точная копия ресурса, расположенная по другому адресу. Причины зеркалирования следующие:
- распределение нагрузки на популярный проект с высокой посещаемостью,
- сохранение копии сайта,
- бронирование похожих по написанию или звучанию доменных имен,
- бэкап контента и др.
Обнаруживая сайты с одинаковой информацией, робот зеркальщик выбирает один из них в качестве главного зеркала, а все остальные исключает из индексации. Чтобы основным был выбран именно продвигаемый домен, необходимо сообщить поисковой системе, какое зеркало является главным. Следует учитывать, что апдейт зеркальщика происходит один раз в 2-12 недель.
Порядок склейки доменов
Основное зеркало для робота Яндекса указывается в файле robots.txt при помощи директивы host. Это не гарантирует, что зеркальщик определит указанное в ней зеркало как основное, но значение директивы он обязательно учитывает при принятии решения. Host прописывают следующим образом:
User-agent: Yandex
Disallow: /имя папки или файла/
Host: www.mysite.ru
После того как зеркальщик склеит зеркала, новый ресурс получит ТИЦ старого.
Редирект 301
Для остальных поисковых систем и посетителей достаточно настройки серверного подокументного 301-го редиректа (но только после того, как зеркальщик Яндекса выполнит склейку). Поисковые роботы или пользователи, запрашивая какой-либо файл с зеркала сайта, будут перенаправлены с помощью редиректа на соответствующую страницу главного ресурса. PR старого сайта будет присвоен основному зеркалу.
Редирект создается с помощью модуля mod_rewrite, для чего в корневом каталоге веб-сайта в файле .htaccess прописывают такие правила:
RewriteEngine On
RewriteBase /
RewriteCond %{HTTP_HOST} ^ (www\.)?site2\.ru$ [OR]
RewriteCond %{HTTP_HOST} ^ www\.site1\.ru$
RewriteRule ^ (.*)$ http://site1.ru/$1 [R=301,L]