Все современные поисковые системы используют файл robots.txt. Этот файл позволяет задавать поведение определенным поисковым ботам, указываемым в строке User-agent. В случае отсутствия такого файла поисковые системы посчитают, что доступ к вашему сайту неограничен, и будут индексировать все его страницы. Это может негативно отразиться на видимости вашего сайта в интернете. К примеру, стандартная страница отфильтрованного каталога в CMS Битрикс выглядит так:
очень часто множество таких страниц попадают в индекс поисковой системы, тем самым, уменьшая значимость других, оптимизированных страниц. Также в индекс могут попасть файлы, которые там совсем не нужны, и которые могут повлиять на безопасность вашего сайта.
Для того, чтобы этого избежать, существует файл robots.txt
Рассмотрим пример файла robots.txt для битрикс:
User-agent: * Disallow: /test/ Disallow: /dostavka/ Disallow: /information Disallow: /conf.php Disallow: /usl.php Disallow: /price/ Disallow: /contacts Disallow: /personal/ Disallow: /ext/ Disallow: /auth/ Disallow: /login/ Disallow: /include/ Disallow: /scripts/ Disallow: /sitemap/ Disallow: /*CODE Disallow: /index.php?id=* Disallow: *?clear_cache=Y Disallow: /*&sort= Disallow: *?r1=* Disallow: *?r2=* Disallow: /*action Disallow: /*showpath Disallow: /*shownotavail Disallow: /*arrFilter Disallow: /*PAGEN_ Disallow: /*SECTION_CODE Disallow: /*SHOWALL_ Disallow: /account.php/* Disallow: /checkout.php Disallow: /search/ Disallow: /news/rss/ Disallow: /specification/ Disallow: /brands/?letter=* Disallow: /index.php/manufacturers* Disallow: /index.php/* Disallow: *filter* Disallow: *letter* Host: https://www.site.ru Sitemap: https://www.site.ru/sitemap.xml
Это типичный robots.txt битрикс, например директива:
Disallow: /*PAGEN_
закрывает от индексации повторяющиеся страницы пагинации (1,2,3 и т д) каталога, оставляя только главную.
Также закрыты все страницы фильтра: *filter*
Таким образом, можно в разы снизить количество индексируемых страниц, отдаваемых в поисковик. Следует сказать, что файл robots.txt не обязателен к исполнению поисковиками, т.е. нет 100% гарантии, что закрытые таким образом страницы не попадут в сеть.
Возможно, следовало бы добавить директиву Disallow: /bitrix/*, чтобы закрыть от индексации системные файлы, но таким образом мы покажем потенциальному взломщику то, что наша CMS – битрикс.