Файл robots.txt.

Аватар пользователя krym.ru
Не в сети
Последнее посещение: 2 года 12 недель назад
Зарегистрирован: 2014-07-04
Сообщения:

Я знаю что файл robots.txt играет важную роль для сайта. В этот файл вносится информация, которая указывает поисковым роботам, какие файлы и папки нужно индексировать, а какие нет. Как правильно составить данный файл, чтоб он не закрыл от индексации нужную информацию. Какие команды нужно прописывать в robots.txt, чтоб скрыть от индексации комментарии и внешние ссылки.

Аватар пользователя ingwarua53
Не в сети
Последнее посещение: 3 года 19 недель назад
Зарегистрирован: 2014-06-24
Сообщения:
Спасибо за весьма интересную

Спасибо за весьма интересную и познавательную информацию. Лично я впервые слышу о таком файле и о его возможностях. Для меня это интересное открытие. Как я понимаю, данный файл играет довольно ключевое значение и имеет весьма широкое применение в области программирования.

Аватар пользователя sarks13
Не в сети
Последнее посещение: 3 года 18 недель назад
Зарегистрирован: 2014-06-11
Сообщения:
«robots.txt»

Файл «robots.txt» действительно очень важен, ведь при его отсутствии поисковые роботы будут индексировать всё подряд, начиная от файлов движка и заканчивая комментариями. Файл «robots.txt» в обязательном порядке должен присутствовать на любом сайте не зависимо от того на какой «CMS» он создан.

Так как данный раздел посвящён Wordpress, то и разберём мы, как должен выглядеть файл «robots.txt» для этого движка. И так поехали!

1 Директива «User-agent» данная директива предназначена для указания названия поискового робота, на пример: «User-agent: Yandex» или «User-agent: Googlebot». Все остальные директивы, прописанные ниже, будут относиться к тому поисковому роботу чьё название указано в директиве «User-agent». Так же можно написать «User-agent: *». Спец символ «*» переводится как «Любой текст». Таким символом обычно заменяют название всех остальных менее весомых поисковых роботов.

2 Директива «Disallow:» данная директива запрещает роботу индексировать указанную часть сайта или весь сайт. На пример:

User-agent: Yandex

Disallow: /

Директива «Disallow:» содержит спецсимвол «/», который является запрещающим знаком, а так как после него ни чего непрописанно, робот воспринимает эту команду, как запрет на индексацию всего сайта. Если после символа «/» прописано название любого каталога, например:

User-agent: Yandex

Disallow: /wp-admin

То роботу будет дана команда на запрет индексации всего, что находится в каталоге «wp-admin».

Не буду вас утомлять подробностями, а просто выложу пример свое файла «robots.txt»

Этот файл рабочий и вы можете скопировать его и использовать его для своего блога только замените слова «Ваш сайт» на название своего блога. Вы можете дополнить или удалить не нужные вам директивы.

Так же вы можете посмотреть файл «robots.txt» на любом блоге для этого просто наберите в адресной строке браузера «адрес сайта/robots.txt»

Проверить созданный вами файл «robots.txt» можно по этому адресу:

Яндекс вебмастер: http://webmaster.yandex.ru/robots.xml

Файл «robots.txt»

User-agent: Googlebot

Disallow: /cgi-bin

Disallow: /wp-admin

Disallow: /wp-login

Disallow: /webstat/

Disallow: /wp-includes

Disallow: /wp-content/plugins

Disallow: /wp-content/cache

Disallow: /wp-content/themes

Disallow: /wp-content/archive

Disallow: /wp-trackback

Disallow: /wp-feed

Disallow: /wp-comments

Disallow: /category/

Disallow: /author/

Disallow: /page/

Disallow: /*page*/

Disallow: /tag/

Disallow: /feed/

Disallow: /*feed

Disallow: /trackback

Disallow: /comments

Disallow: /comment

Disallow: /*attachment/

Disallow: /kontakty

Disallow: /xmlrpc*

Disallow: /img

Disallow: /*?

Disallow: /*?*

User-agent: Yandex

Disallow: /cgi-bin

Disallow: /wp-admin

Disallow: /wp-login

Disallow: /webstat/

Disallow: /wp-includes

Disallow: /wp-content/plugins

Disallow: /wp-content/cache

Disallow: /wp-content/themes

Disallow: /wp-content/archive

Disallow: /wp-trackback

Disallow: /wp-feed

Disallow: /wp-comments

Disallow: /category/

Disallow: /author/

Disallow: /page/

Disallow: /*page*/

Disallow: /tag/

Disallow: /feed/

Disallow: /*feed

Disallow: /trackback

Disallow: /comments

Disallow: /comment

Disallow: /*attachment/

Disallow: /kontakty

Disallow: /xmlrpc*

Disallow: /img

Disallow: /*?

Disallow: /*?*

Host: Ваш сайт.ru

User-agent: *

Disallow: /cgi-bin

Disallow: /wp-admin

Disallow: /wp-login

Disallow: /webstat/

Disallow: /wp-includes

Disallow: /wp-content/plugins

Disallow: /wp-content/cache

Disallow: /wp-content/themes

Disallow: /wp-content/archive

Disallow: /wp-trackback

Disallow: /wp-feed

Disallow: /wp-comments

Disallow: /category/

Disallow: /author/

Disallow: /page/

Disallow: /*page*/

Disallow: /tag/

Disallow: /feed/

Disallow: /*feed

Disallow: /trackback

Disallow: /comments

Disallow: /comment

Disallow: /*attachment/

Disallow: /kontakty

Disallow: /xmlrpc*

Disallow: /img

Disallow: /*?

Disallow: /*?*

Sitemap: http:// Ваш сайт.ru/sitemap.xml.gz

Sitemap: http:// Ваш сайт.ru/sitemap.xml

Аватар пользователя krym.ru
Не в сети
Последнее посещение: 2 года 12 недель назад
Зарегистрирован: 2014-07-04
Сообщения:
Спасибо, вы дали полный

Спасибо, вы дали полный исчерпывающий ответ на мой вопрос. Все понятно и доходчиво. Действительно файл robots.txt, выполняет важную роль, корректируя действия поисковых роботов на сайте или блоге. Этим самым позволяет скрывать от индексации нежелательные папки и файлы. А также увеличивает время индексации сайта роботами, за счет исключения ненужных объектов для индексации.

Аватар пользователя rexy-vanek
Не в сети
Последнее посещение: 3 года 22 недели назад
Зарегистрирован: 2014-07-12
Сообщения:
/

Даный файл, как отвечали пользователи действительно играет, ту или иную роль, о эго возможностях можно только рассказывать очень долго, в него вноситься информация, для поисковых работах, он очень необходим нам все, без него былоб намного плохо, в ползывании персонального компютера, файл нужно грамотно сотавить чтобы он не закрисся от индксации., а что насчёт команд, не помню, вроде в гугле должны найти ответ на свой вопрос. .Удачи вам в личной жызни.

Аватар пользователя sisnew
Не в сети
Последнее посещение: 2 года 2 недели назад
Модератор
Зарегистрирован: 2014-06-02
Сообщения:
Подмечу, что наличие файла

Подмечу, что наличие файла robots.txt в корне сайта обязательное условие поисковой индексации. Его присутствие увеличивает интерес поискового робота к сайту, а отсутствие может послужить причиной того, что поисковый робот оставит web-сайт не проиндексированными.

Аватар пользователя rai-duga94
Не в сети
Последнее посещение: 3 года 18 недель назад
Зарегистрирован: 2014-08-03
Сообщения:
Спасибо за помощь с этим

Спасибо за помощь с этим файлов. Долго искал подобную информацию, так как инет переполнен вариантами robots.txt, но не всегда понятно, кто, что и зачем там написал столько отсебятины. У меня же только осталась одна проблема: Яндекс не находит sitemap.

Аватар пользователя zzaxx
Не в сети
Последнее посещение: 2 года 45 недель назад
Зарегистрирован: 2014-08-17
Сообщения:
Вопрос

У меня есть такой вопрос. А нет ли такой программы чтобы в автоматическом режиме вносить нужные правки в файле robots.txt и не заморачиваться с прописыванием его этого. Это очень долго. если у кого-то есть такая информация поделитесь пожалуйста. Спасибо.

Аватар пользователя omglol
Не в сети
Последнее посещение: 3 года 15 недель назад
Зарегистрирован: 2014-08-25
Сообщения:
поправка

Позвольте заметить, что во втором ответе указаны такие строки:

Disallow: /*?

Disallow: /*?*

Понятно, что они скрывают страницы типа /?page, /?paged и т.д и защищают сайт от дублей, однако иногда такие страницы нужны. Например, на моем сайте на главной странице отображаются анонсы к новым статьям, а на страницах /?paged=... анонсы к более старым публикациям. Это не создает дублей, так как на страницах главная и всех /?paged нет повторяющегося материала.