Размещаем robots.txt в Битрикс

Все современные поисковые системы используют файл robots.txt. Этот файл позволяет задавать поведение определенным поисковым ботам, указываемым в строке User-agent. В случае отсутствия такого файла поисковые системы посчитают, что доступ к вашему сайту неограничен, и будут индексировать все его страницы. Это может негативно отразиться на видимости вашего сайта в интернете. К примеру, стандартная страница отфильтрованного каталога в CMS Битрикс выглядит так:

www.site.com/catalog/?arrFilter_ff%5BNAME%5D=&arrFilter_pf%5BLAST%5D=&arrFilter_pf%5BTO_DATA%5D=&arrFilter_cf%5B8%5D%5BLEFT%5D=100&arrFilter_cf%5B8%5D%5BRIGHT%5D=500&set_filter=Y

 очень часто множество таких страниц попадают в индекс поисковой системы, тем самым, уменьшая значимость других, оптимизированных страниц. Также в индекс могут попасть файлы, которые там совсем не нужны, и которые могут повлиять на безопасность вашего сайта.

Для того, чтобы этого избежать, существует файл robots.txt

Рассмотрим пример файла robots.txt для битрикс:

	User-agent: *
	Disallow: /test/
	Disallow: /dostavka/
	Disallow: /information
	Disallow: /conf.php
	Disallow: /usl.php
	Disallow: /price/
	Disallow: /contacts
	Disallow: /personal/
	Disallow: /ext/
	Disallow: /auth/
	Disallow: /login/
	Disallow: /include/
	Disallow: /scripts/
	Disallow: /sitemap/
	Disallow: /*CODE
	Disallow: /index.php?id=*
	Disallow: *?clear_cache=Y
	Disallow: /*&sort=
	Disallow: *?r1=*
	Disallow: *?r2=*
	Disallow: /*action
	Disallow: /*showpath
	Disallow: /*shownotavail
	Disallow: /*arrFilter
	Disallow: /*PAGEN_
	Disallow: /*SECTION_CODE
	Disallow: /*SHOWALL_
	Disallow: /account.php/*
	Disallow: /checkout.php
	Disallow: /search/
	Disallow: /news/rss/
	Disallow: /specification/
	Disallow: /brands/?letter=*
	Disallow: /index.php/manufacturers*
	Disallow: /index.php/*
	Disallow: *filter*
	Disallow: *letter*
	Host: https://www.site.ru
	Sitemap: https://www.site.ru/sitemap.xml

Это типичный robots.txt битрикс, например директива:

Disallow: /*PAGEN_

закрывает от индексации повторяющиеся страницы пагинации (1,2,3 и т д) каталога, оставляя только главную.

Также закрыты все страницы фильтра: *filter*

Таким образом, можно в разы снизить количество индексируемых страниц, отдаваемых в поисковик. Следует сказать, что файл robots.txt не обязателен к исполнению поисковиками, т.е. нет 100% гарантии, что закрытые таким образом страницы не попадут в сеть.

Возможно, следовало бы добавить директиву Disallow: /bitrix/*, чтобы закрыть от индексации системные файлы, но таким образом мы покажем потенциальному взломщику то, что наша CMS – битрикс.

 



Статьи на тему: Оставить комментарий
x
Комментарий успешно отправлен и будет доступен после проверки модератором!