Robots.txt — индексация сайта в Яндексе и Гугле, запрет индексации в файле robots txt для WordPress и Joomla (disallow, user-agent, host)

Рубрика: Инструменты вебмастера,Как самому раскрутить сайт

При самостоятельном продвижении и раскрутке сайта важно не только создание уникального контента или подбор запросов в статистике Яндекса (чтобы составить семантическое ядро), но и так же следует уделять должное внимание такому показателю, как индексация сайта в Яндексе и Гугле. Именно эти две поисковые системы доминируют в рунете и то, насколько полной и быстрой будет индексация вашего сайта в Яндексе и Гугле зависит весь дальнейший успех продвижения.

Файл robots txt

У нас с вами имеются в распоряжении два основных инструмента, с помощью которых мы можем управлять индексацией сайта в Гугле и Яндексе. Во-первых, это, конечно же, файл robots.txt, который позволит нам настроить запрет индексации всего того на сайте, что не содержит основного контента (файлы движка и дубли контента) и именно о robots.txt и пойдет речь в этой статье, но кроме robots.txt существует еще один важный инструмент для управления индексацией — карта сайта (Sitemap xml), о которой я уже довольно подробно писал в приведенной по ссылке статье.

Robots.txt — почему так важно управлять индексацией сайта в Яндексе и Гугле

Robots.txt и Sitemap xml (файлы позволяющие управлять индексацией сайта) очень важны для успешного развития вашего проект и это вовсе не голословное утверждение. В статье по Sitemap xml (см. ссылку выше) я приводил в пример результаты очень важного исследования по наиболее частым техническим ошибкам начинающих вебмастеров и там на втором и третьем месте (после не уникального контента) находятся как раз robots.txt и Sitemap xml, а точнее либо отсутствие этих файлов, либо их неправильное составление и использование.

Надо очень четко понимать, что не все содержимое сайта (файлы и директории), созданного на каком-либо движке (CMS Joomla, SMF или Вордпресс), должно быть доступно для индексации Яндексом и Гугле (другие поисковые системы я не рассматриваю, в силу их малой доли в поиске рунета).

Если не прописать определенные правила поведения в robots.txt для ботов поисковых систем, то при индексации в поисковые системы попадет множество страниц, не имеющих отношения к содержимому сайта, а также может произойти многократное дублирование контента информации (по разным ссылкам будет доступен один и тот же материал сайта), что поисковики не любят. Хорошим решением будет запрет индексации в robots.txt.

Для того, чтобы задать правила поведения для поисковых ботов используется файл robots.txt. С его помощью мы сможем влиять на процесс индексации сайта Яндексом и Google. Robot.txt представляет из себя обычный текстовый файл, который вы сможете создать, и в дальнейшем редактировать, в любом текстовом редакторе (например, Notepad++). Поисковый робот будет искать этот файл в корневом каталоге вашего сайта и если не найдет, то будет индексировать все до чего сможет дотянуться.

Поэтому после написания требуемого файла robots.txt (все буквы в названии должны быть в нижнем регистре — без заглавных букв) его нужно сохранить в корневую папку сайта, например, с помощью Ftp клиента Filezilla, так чтобы он был доступен по такому адресу: http://vash_site.ru/robots.txt (например, мой файл robots.txt доступен по адресу http://ktonanovenkogo.ru/robots.txt).

Кстати, если вы хотите узнать как выглядит файл robots.txt того или иного сайта, то достаточно будет дописать к адресу главной страницы этого сайта /robots.txt. Это может быть полезно для определения наилучшего варианта для вашего файла robots.txt, но при этом надо учитывать, что для разных сайтовых движков оптимальный файл robots.txt будет выглядеть по разному (запрет индексации в robots.txt нужно будет делать для разных папок и файлов движка). Поэтому если вы хотите определиться с лучшим вариантом файла robots.txt>, допустим для форума на SMF, то и изучать файлы robots.txt нужно для форумов, построенных на этом движке.

Директивы и правила написания файла robots.txt (disallow, user-agent, host)

Файл robots.txt имеет совсем не сложный синтаксис, который очень подробно описан, например, в яндексе. Обычно, в файле robots.txt указывается для какого поискового робота предназначены описанные ниже директивы (директива 'User-agent'), сами разрешающие ('Allow') и запрещающие директивы ('Disallow'), а также еще активно используется директива 'Sitemap' для указания поисковикам, где именно находится файл карты сайта.

Еще полезно указать в файле robots.txt какое из зеркал вашего сайта является главным в директиве 'Host'. Если даже у вашего сайта нет зеркал, то полезно будет указать в этой директиве, какой из вариантов написания вашего сайта является главным с www или без него. Т.к. это тоже является своего рода зеркалированием. Об этом я подробно рассказывал в этой статье: Домены с www и без www — история появления, использование 301 редиректа для их склеивания.

Теперь поговорим немного о правилах написания файла robots.txt. Директивы в файле robots.txt имеют следующий вид:

<поле>:<пробел><значение><пробел>
<поле>:<пробел><значение><пробел>

Правильный файл robots.txt должен содержать хотя бы одну директиву «Disallow» после каждой записи «User-agent». Пустой файл robots.txt предполагает разрешение на индексирование всего сайта.

Директива «User-agent» должна содержать название поискового робота. При помощи этой директивы в robots.txt можно настроить индексацию сайта для каждого конкретного поискового робота (например, создать запрет индексации отдельной папки только для Яндекса). Пример написания директивы «User-agent», адресованной всем поисковым роботам зашедшим на ваш ресурс, выглядит так:

User-agent: * 

Если вы хотите в директиве «User-agent» задать определенные условия индексации сайта только для какого то одного поискового робота, например, Яндекс, то нужно написать так:

User-agent: Yandex

Робот каждой поисковой системы имеет своё название (например, для рамблера это StackRambler), как в приведенном выше примере. Здесь я приведу список поисковых роботов, самых известных поисковиков:

Google       http://www.google.com     Googlebot
Yahoo!       http://www.yahoo.com      Slurp (или Yahoo! Slurp)
AOL          http://www.aol.com 	   Slurp
MSN 	     http://www.msn.com 	   MSNBot
Live 	     http://www.live.com 	   MSNBot
Ask 	     http://www.ask.com 	   Teoma
AltaVista    http://www.altavista.com  Scooter
Alexa        http://www.alexa.com 	   ia_archiver
Lycos        http://www.lycos.com 	   Lycos
Яндекс       http://www.ya.ru 	       Yandex
Рамблер      http://www.rambler.ru     StackRambler
Мэйл.ру      http://mail.ru 	       Mail.Ru
Aport        http://www.aport.ru 	   Aport
Вебальта     http://www.webalta.ru 	   WebAlta (WebAlta Crawler/2.0)

У крупных поисковых систем иногда кроме основных поисковых ботов имеются также отдельные боты для индексации блогов, новостей, изображений и т.д. Много информации по разновидностям поисковых роботов вы можете почерпнуть на этом ресурсе.

Приведу несколько простых примеров управления индексацией сайта в Яндексе, Гугле и других поисковиках с помощью директив файла robots.txt с объяснением его действий.

    1. Приведенный ниже код для файла robots.txt разрешает всем поисковым роботам проводить индексацию всего сайта без каких-либо исключений. Это задается пустой директивой Disallow.

    User-agent: *
    Disallow:

    2. Следующий код, напротив, полностью запрещает всем поисковикам проводить индексацию сайта. Устанавливает это директива Disallow с «/» в поле значения.

    User-agent: *
    Disallow: /

    3. Такой файл robots.txt будет запрещать всем поисковикам проводить индексацию содержимого каталога /image/ (http://mysite.ru/image/ — путь к этому каталогу)

    User-agent: *
    Disallow: /image/

    4. В приведенном ниже примере, для индексации будут запрещены директория «image», а так же все файлы и директории, начинающиеся с символами «image», т. е. файлы: «image.htm», «images.htm», директории: «image», «images1», «image34» и т. д.):

    User-agent: *
    Disallow: /image

    5. При описании путей для директив Allow-Disallow можно использовать символы '*' и '$', задавая, таким образом, определенные логические выражения. Символ '*' означает любую (в том числе пустую) последовательность символов. Следующий пример запрещает всем поисковикам индексацию файлов на сайте с расширение «.aspx»:

    User-agent: *
    Disallow: *.aspx

Во избежания возникновения неприятных проблем с зеркалами сайта (Домены с www и без www — история появления, использование 301 редиректа для их склеивания) , рекомендуется добавлять в файл robots.txt директиву Host, которая указывает роботу Яндекса на главное зеркало вашего сайта (Директива Host, позволяющая задать главное зеркало сайта для Яндекса). По правилам написания robots.txt в записи для User-agent должна быть хотя бы одна директива Disallow (обычно ставят пустую, ничего не запрещающую):

User-agent: Yandex
Disallow:
Host: www.site.ru 

либо

User-agent: Yandex
Disallow:
Host: site.ru 

в зависимости от того что для вас оптимальнее.

Директива Sitemap указывает на местоположение карты сайта (Sitemap xml). В качестве параметра указывается путь к файлу, включая http://. Например:

Sitemap: http://site.ru/sitemap.xml

Robots и Robots.txt — запрет индексации поисковыми системами дубликатов на сайте

Существует еще один способ настроить индексацию отдельных страниц сайта для Яндекса и Гугле . Для этого внутри тега «HEAD» нужной страницы, прописывается МЕТА-тег Robots и так повторяется для всех страниц, к которым нужно применить то или иное правило индексации (запрет или разрешение). Пример применения мета-тега:

<html>
<head>
<meta name="robots" content="noindex,nofollow">
<meta name="description" content="Эта страница ....">
<title>...</title>
</head>
<body>
...

В этом случае роботы всех поисковых систем должны будут забыть об индексации этой страницы (об это говорит noindex в мета-теге) и анализе размещенных на ней ссылок (об этом говорит nofollow) .

Существуют только две пары директив мета тега Robots: [no]index и [no]follow:

  1. Index — указывают, может ли робот проводить индексацию данной страницы
  2. Follow — может ли он следовать по ссылкам со страницы

Значения по умолчанию – «index» и «follow». Есть также укороченный вариант написания с использованием «all» и «none», которые обозначают активность всех директив или, соответственно, наоборот: all=index,follow и none=noindex,nofollow.

Для блога на WordPress вы сможете настроить мета-тег Robots, например, с помощью плагина All in One SEO Pack. Ну все, с теорией покончено и пора переходить к практике, а именно, к составлению оптимальных файлов robots.txt для Joomla, SMF и WordPress.

Как известно, у проектов, созданных на основе какого-либо движка (Joomla, WordPress, SMF и др), имеется множество вспомогательных файлов не несущих никакой информативной нагрузки.

Если не запретить индексацию всего этого мусора в robots.txt, то время, отведенное поисковыми системами Яндекс и Гугл на индексацию вашего сайта, будет тратиться на перебор поисковыми роботами файлов движка на предмет поиска в них информационной составляющей, т.е. контента, который, кстати, в большинстве CMS хранится в базе данных, к которой поисковым роботам никак не добраться (вы можете работать с базами через PhpMyAdmin). В этом случае, времени на полноценную индексацию сайта у роботов Яндекса и Гугла может не остаться.

Кроме того, следует стремиться к уникальности контента на своем проекте и не следует допускать дублирования контента (информационного содержимого) вашего сайта при индексировании. Дублирование может возникнуть в том случае, если один и тот же материал будет доступен по разным адресам (URL). Поисковые системы Яндекс и Гугл, проводя индексацию сайта, обнаружат дубли и, возможно, примут меры к некоторой пессимизации вашего ресурса при их большом количестве.

Если ваш проект создан на основе какого-либо движка (Joomla, SMF, WordPress), то дублирование контента будет иметь место возможно с высокой вероятностью, а значит нужно с ним бороться, в том числе и с помощью запрета индексации в robots.txt.

Например, в WordPress, страницы с очень похожим содержимым, могут попасть в индекс Яндекса и Гугле если разрешена индексация содержимого рубрик, содержимого архива тегов и содержимого временных архивов. Но если с помощью мета-тега Robots создать запрет на индексацию архива тегов и временного архива (можно теги оставить, а запретить индексацию содержимого рубрик), то дублирования контента не возникнет. Для этой цели в WordPress лучше всего будет воспользоваться возможностями плагина All in One SEO Pack.

Еще сложнее с дублированием контента обстоит дело в форумном движке SMF. Если не производить тонкую настройку (запрет) индексации сайта в Яндексе и Гугле через robots.txt, то в индекс поисковых систем попадут многократные дубли одних и тех же постов. В Joomla иногда возникает проблема с индексацией и дублированием контента обычных страниц и их копий, предназначенных для печати.

Robots.txt предназначен для задания глобальных правил запрета индексации в целых директориях сайта, либо в файлах и директориях, в названии которых присутствуют заданные символы (по маске). Примеры задания таких запретов индексации вы можете посмотреть в первой статье этой статьи.

Для запрета индексации в Яндексе и Гугле одной единственной страницы, удобно использовать мета-тег Robots, который прописывается в шапке (между тегами HEAD) нужной страницы. Подробно о синтаксисе мета-тега Robots чуть выше по тексту. Для запрета индексации внутри страницы можно использовать тег NOINDEX, но он, правда, поддерживается только поисковой системой Яндекс.

Директива Host в robots.txt для Яндекса

Теперь давайте рассмотрим конкретные примеры robots.txt, предназначенного для разных движков — Joomla, WordPress и SMF. Естественно, что все три файла robots.txt, созданные для разных движков, будут существенно (если не сказать кардинально) отличаться друг от друга. Правда, будет во всех этих robots.txt один общий момент и момент этот связан с поисковой системой Яндекс.

Т.к. в рунете поисковик Яндекс имеет достаточно большой вес, то нужно учитывать все нюансы его работы, то для корректной индексации сайта в Яндексе нужна директива Host в robots.txt. Эта директива, в явной форме, укажет Яндексу главное зеркало вашего сайта. Более подробно почитать об этом вы можете здесь: Директива Host, позволяющая задать главное зеркало сайта для Яндекса.

Для указания директивы Host советуют использовать отдельный блог User-agent в файле robots.txt, предназначенный только для Яндекса (User-agent: Yandex). Это связано с тем, что остальные поисковые системы могут не понимать директиву Host и, соответственно, ее включение в директиву User-agent, предназначенную для всех поисковиков (User-agent: *), может привести к негативным последствиям и неправильной индексации вашего сайта.

Как обстоит дело на самом деле — сказать трудно, ибо алгоритмы работы поисковиков — это вещь в себе, поэтому лучше сделать в robots.txt все так, как советуют. Но в этом случае в файле robots.txt вам придется дублировать в директиве User-agent: Yandex все те правила, что вы задали в директиве User-agent: *. Если вы оставите директиву User-agent: Yandex с пустой директивой Disallow:, то таким образом вы в robots.txt разрешите Яндексу индексацию всего сайта.

Прежде чем перейти к рассмотрению конкретных вариантов файла robots.txt, хочу вам напомнить, что проверить работу своего файла robots.txt вы можете в Яндекс Вебмастер и Гугл Вебмастер.

Правильный robots.txt для форума SMF

Для форума на движке SMF правильным будет файл robots.txt следующего содержания (взят с форума технической поддержки SMF из этой темы ) :

User-agent: *
Allow: /forum/*sitemap
Allow: /forum/*arcade
Allow: /forum/*rss
Disallow: /forum/attachments/
Disallow: /forum/avatars/
Disallow: /forum/Packages/
Disallow: /forum/Smileys/
Disallow: /forum/Sources/
Disallow: /forum/Themes/
Disallow: /forum/Games/
Disallow: /forum/*.msg
Disallow: /forum/*.new
Disallow: /forum/*sort
Disallow: /forum/*topicseen
Disallow: /forum/*wap
Disallow: /forum/*imode
Disallow: /forum/*action
User-agent: Slurp
Crawl-delay: 100

Обратите внимание, что этот robots.txt приведен для того случая, когда ваш форум SMF установлен в директории forum основного сайта. Если форум не стоит в директории, то просто удалите из всех правил /forum. Авторы данного варианта файла robots.txt для форума на движке SMF говорят, что он даст максимальный эффект для правильной индексации в Яндексе и Гугле, если вы не будете активировать на своем форуме дружественные URL (ЧПУ).

Дружественные URL в SMF можно активировать или дезактивировать в админке форума, пройдя по следующему пути: в левой колонке админки выбираете пункт «Характеристики и настройки», в нижней части открывшегося окна находите пункт "Разрешить дружественные URL ", где можете поставить или снять галочку.

Еще один правильный файл robots.txt для форума SMF (но, наверное, еще не окончательно оттестированный):

User-agent: *
Allow: /forum/*sitemap
Allow: /forum/*arcade # если не стоит мод игр, удалить без пропуска строки
Allow: /forum/*rss
Allow: /forum/*type=rss
Disallow: /forum/attachments/
Disallow: /forum/avatars/
Disallow: /forum/Packages/
Disallow: /forum/Smileys/
Disallow: /forum/Sources/
Disallow: /forum/Themes/
Disallow: /forum/Games/
Disallow: /forum/*.msg
Disallow: /forum/*.new
Disallow: /forum/*sort
Disallow: /forum/*topicseen
Disallow: /forum/*wap
Disallow: /forum/*imode
Disallow: /forum/*action
Disallow: /forum/*prev_next
Disallow: /forum/*all
Disallow: /forum/*go.php # либо тот редирект что стоит у вас
Host: www.мой сайт.ru # указать ваше главное зеркало
User-agent: Slurp
Crawl-delay: 100

Как вы можете видеть в этом robots.txt, директива Host, предназначенная только для Яндекса, включена в директиву User-agent для всех поисковиков. Я бы, наверное, все-таки добавил отдельную директиву User-agent в robots.txt только для Яндекса, с повтором всех правил. Но решайте сами.

Правило:

User-agent: Slurp
Crawl-delay: 100

связано с тем, что поисковая система Yahoo (Slurp — это имя его поискового бота) производит индексацию сайта в много потоков, что может негативно сказаться на его производительности. В этом правиле robots.txt, директива Crawl-delay, позволяет задать поисковому роботу Yahoo минимальный период времени (в секундах) между концом закачки одной страницы и началом закачки следующей. Это позволит снять нагрузку на сервер при индексации сайта поисковой системой Yahoo.

Для запрета индексации в Яндексе и Гугле версий для печати страниц форума SMF рекомендуют проделать, описанные ниже операции (для их осуществления понадобится открыть некоторые файлы SMF на редактирование с помощью программы FileZilla). В файле Sources/Printpage.php находите (например, с помощью встроенного поиска в Notepad++) строку:

fatal_lang_error(472, false);

Вставляете сразу под ней:

$context['robot_no_index'] = true;

В файле Themes/название_вашей_темы_оформления/Printpage.template.php находите строку:

<meta http-equiv="Content-Type" content="text/html; charset=', $context['character_set'], '" />

Вставляете ниже нее следующую строку:

<meta name="robots" content="noindex" />

Если вы так же хотите, чтобы в версии для печати была ссылка для перехода на полную версию форума (в случае, если часть страниц для печати уже прошла индексацию в Яндексе и Гугле), то в том же файле Printpage.template.php вы находите строку с открывающим тегом HEAD:

<head>

И вставляете ниже строку:

<a href="http://www.мой сайт.ru/">На форум</a>

Получить больше информации по этому варианту файла robots.txt для форума SMF вы можете, почитав эту ветку русскоязычного форума поддержки SMF.

Правильный robots.txt для сайта на Joomla

Рекомендованный файл robots.txt для Joomla выглядит так:

User-agent: *
Disallow: /administrator/
Disallow: /cache/
Disallow: /components/
Disallow: /images/
Disallow: /includes/
Disallow: /installation/
Disallow: /language/
Disallow: /libraries/
Disallow: /media/
Disallow: /modules/
Disallow: /plugins/
Disallow: /templates/
Disallow: /tmp/
Disallow: /xmlrpc/

В принципе, здесь практически все учтено и работает этот файл robots.txt для Joomla хорошо, создавая запрет на индексацию в Яндексе и Гугле того, что индексировать не следует. Единственное, в этот правильный robots.txt следует добавить отдельное правило User-agent: Yandex для вставки директивы Host, определяющей главное зеркало сайта для Яндекса, а так же указать в robots.txt путь к файлу Sitemap. Поэтому в окончательном виде правильный robots.txt для Joomla, по-моему мнению, должен выглядеть так:

User-agent: *
Disallow: /administrator/
Disallow: /cache/
Disallow: /includes/
Disallow: /installation/
Disallow: /language/
Disallow: /libraries/
Disallow: /media/
Disallow: /modules/
Disallow: /plugins/
Disallow: /templates/
Disallow: /tmp/
Disallow: /xmlrpc/

User-agent: Yandex
Disallow: /administrator/
Disallow: /cache/
Disallow: /includes/
Disallow: /installation/
Disallow: /language/
Disallow: /libraries/
Disallow: /media/
Disallow: /modules/
Disallow: /plugins/
Disallow: /templates/
Disallow: /tmp/
Disallow: /xmlrpc/
Host: vash_sait.ru
Sitemap: http://vash_sait.ru/index.php?option=com_xmap&sitemap=1&view=xml&no_html=1

Да, еще обратите внимание, что во втором варианте файла robots.txt для Joomla нет директивы Disallow: /images/, дающей запрет на индексацию картинок вашего сайта. Я забыл сначала акцентировать ваше внимание на этом, но мне об этом напомнил уважаемый Alex, написавший следующее:

В Joomla не правильно закрывать от индексации поисковыми системами папку Images. Закрыв ее от индексации в robots.txt, вы не будете участвовать в поиске по картинкам Яндекса и Google. А если у вас еще и изображения уникальные, так вы будете терять еще один весомый аргумент, для показа поисковикам, что ваш проект интересный

Полностью с ним согласен в том, что если изображения, используемые на вашем Joomla-проекте уникальные, и вы хотите, чтобы посетители находили ваш сайт еще и с поиска по картинкам от Яндекса и Google, то обязательно удалите это правило из своего файла robots.txt, но так же не забывайте прописывать всем вашим изображениям атрибуты Alt и Title (Для участия ваших изображений в поиске по картинкам Яндекса и Google прописываем теги ALT и TITLE). Именно по ключевым словам, прописанным в этих атрибутах и будут приходить целевые посетители на ваш проект с поиска по картинкам Яндекса и Google.

При создании интернет магазина для Joomla на основе компонента VirtueMart я столкнулся с тем, что при индексации в Яндекс и Гугле стали попадать версии для печати страниц этого самого магазина. Кнопка, ведущая на страницу для печати, была необходима (заказчик так хотел), поэтому оставался только вариант с запрета индексации страниц для печати в robots.txt.

Но все оказалось совсем не сложно. Дело в том, что для создания версии для печати в Joomla используется такой же адрес страницы, за исключением одного: обращение идет не к файлу index.php, а к файлу index2.php. При этом не осуществляется загрузка шаблона Joomla, т.е. выводится только содержимое страницы на весь экран. Поэтому, для запрета индексации версий страниц для печати в VirtueMart, я добавил в файл robots.txt для Joomla следующее правило:

Disallow: /index2.php?page=shop

Вы тоже можете добавлять свои правила в robots.txt, но после этого обязательно проверьте robots.txt — достигли ли вы желаемого результата. Для это используйте соответственно Яндекс Вебмастер и Гугл Вебмастер.

Правильный robots.txt для блога на WordPress

Не буду приводить пример файла robots.txt для WordPress, который рекомендуют разработчики. Вы и сами можете его посмотреть. Многие блогеры вообще не ограничивают роботов Яндекса и Гугла в индексации их блогов на WordPress. Чаще всего в WordPress блогах можно встретить файл robots.txt автоматически заполненный плагином Google XML Sitemaps.

Но, по-моему, все-таки следует создать запрет на индексацию в robots.txt для WordPress тех файлов вашего блога, которые не имеют отношения к информационный составляющей. Во-первых, на индексацию этого мусора уйдет много времени у поисковый роботов Яндекса и Гугла и может совсем не остаться времени для индексации статей на вашем блоге под управлением WordPress. Во-вторых, индексация всего того мусора, что вы поленитесь запретить в robots.txt для индексации в WordPress, будет создавать довольно приличную нагрузку на сервер, а у WordPress и без этого есть с этим проблемы.

Поэтому, здесь я приведу в правильный robots.txt для WordPress, а вам уже решать, использовать его в таком виде, либо использовать свой вариант robots.txt для WordPress или же не использовать robots.txt для запрета индексации мусора вовсе:

User-agent: *
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /trackback
Disallow: */trackback
Disallow: */*/trackback
Disallow: */*/feed/*/
Disallow: */feed
Disallow: /*?*

User-agent: Yandex
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /trackback
Disallow: */trackback
Disallow: */*/trackback
Disallow: */*/feed/*/
Disallow: */feed
Disallow: /*?*
Host: ktonanovenkogo.ru
Sitemap: http://ktonanovenkogo.ru/sitemap.xml.gz
Sitemap: http://ktonanovenkogo.ru/sitemap.xml

Пока что индексация блога при таком варианте файла robots.txt для WordPress меня полностью устраивает. Но запрет на индексацию определенных страниц блога у меня задается не в этом файл, а с помощью мете-тега Robots. Этот хитрый мета тег у меня используется для запрета индексации страниц с архивом тегов и временным архивом.

Для того, чтобы прописать этот тег Robots я не прибегал к правке кода файлов движка WordPress. В этом не было необходимости, т.к. все это можно осуществить простой установкой или снятием галочек в соответствующих пунктах чудесного плагина для WordPress — All in One SEO Pack.

Можете также посмотреть видео «Настройка файла robots.txt»:

У Евгения Попова вышел новый видекурс Все Технические Моменты Онлайн Бизнеса в Видеоформате, который стоит того, чтобы с ним ознакомиться.

Вы так же можете ознакомиться с другими статьями на тему продвижения сайта:

Удачи вам! До скорых встреч на страницах блога KtoNaNovenkogo.ru

Поиск:
Робот считает, что Вам это тоже может быть интересно:
Очень обяжете, если воспользуетесь этим блоком кнопок:
RSS
Рубрика : Инструменты вебмастера,Как самому раскрутить сайт
Наверх

Комментарии
16-11-2009 в 21:02

а вот я не пойму правильно ли я robots.txt составил. у меня яндекс карту сайта не хочет принимать вот ошибка : Некорректный URL (не соответствует местоположению файла Sitemap) ничего не понимаю правильно всё. Без Sitemap замедлится индексация

Alex

16-11-2009 в 22:56

Alex, простите, вы когда этот урл в адресную строку браузера вставляете, у вас карта сайта открывается?

Дмитрий

16-11-2009 в 23:31

да всё в порядке кажется я понял в чём дело,я неправильно файл robots заполнил щас обновил карту тоже посмотри что будет в Яндексе

Alex

17-11-2009 в 18:31

Блогу на WordPress около 3х недель — google проиндексировал 59 страниц, остальные поисковики по одной, кто нибудь может подсказать в чем может быть проблема? Хотя судя по панели вебмастеров того же Яндекса робот регулярно на блог заходит.

test

18-11-2009 в 11:39

test, есть определенные способы ускорить индексацию блога Яндексом, но не стопроцентные. Например, можно создать блог в Я.ру и написать текст со ссылкой на ваш блог WordPress. Тоже самое можно сделать на любом бесплатном блогохостинге (livejournal.com, blog.ru, liveinternet.ru и др.).

Иногда срабатывает способ создания ресурса на народе Яндекса с ссылкой в тексте на ваш блог. Можно попробовать добавить блог в яндекс закладки.

Дмитрий

19-11-2009 в 4:36

В joomla не правильно закрывать от индексации в robots.txt папку images. Закрыв ее от индексации вы не будете участвовать в поиске по картинкам Яндекса и Google. А если у вас еще и фото уникальные так будете терять еще один весомый аргумент, для показа поисковикам что ваш ресурс интересный .

Alex

19-11-2009 в 4:39

ах в предудыщем коменте ошибся, по умолчанию в роботс от joomla images закрыт, в вашем примере его нет.

Alex

19-11-2009 в 13:29

Alex, спасибо большое за напоминание. Я действительно открыл индексацию картинок в robots.txt, но забыл об этом упомянуть в статье. Сейчас добавлю. =)

Дмитрий

19-11-2009 в 14:22

обновил robots, но всё равно та же ошибка при попытке принять карту сайта в Яндекс. Некорректный URL (не соответствует местоположению файла Sitemap)

Alex

19-11-2009 в 14:25

и вот ещё не только в Яндексе, но и в Google не принимает Sitemap, возможно, что тоже из-за неправильно созданного robots

Пути не совпадают

Мы обнаружили, что Вы передали Карта сайта используя путь, который не включает WWW префикс (например, example.com/sitemap.xml). Однако, URL, перечисляются внутри файла Sitemap делают использование WWW префикс (например, www.example.com/myfile.htm).

Alex

Дмитрий

20-11-2009 в 0:59

Уважаемый автор и уважаемый Alex! Огромное спасибо вам за замечание о том, что нужно разрешить индексацию картинок в robots.txt! У меня ресурс с открытками, и я всё не мог понять, почему их нет при поиске картинок Яндекса и Google. Как же я рад!!(наверное всем знакомо чувство,когда ищешь какую-то ошибку и потом ее находишь).

medvedev

20-11-2009 в 1:08

и у меня еще вопрос. На моем проекте ра Joomla (указан на нике) стоит virtuemart (в качестве каталога). Пользуюсь sh404sef для создания уникальных title. Проблема в том, что у меня создаются странички типа www.имя проекта/имя страницы.html?pop=0.

Над каждым товаром сверху у меня две ссылки с названиями, как я понимаю, двух ближайших товаров. Нажимая на эту ссылку, я перехожу по адресу нужной открытки, но в конце стоит эта приставка ?pop=0. Проблема в том, что Яндекс осуществил индексацию, почему-то именно этих адресов,а на их title не оптимизирован.Тоже получается дублирование контента. Как мне убрать эти адреса из индекса поисковиков в robots.txt и появятся ли потом адреса без приставки в поиске?

medvedev

20-11-2009 в 1:25

Ага, порадовался, что разрешил индексировать папку images в robots.txt, а потом понял, что картинки у меня хранятся в /components/com_virtuemart/shop_image. Что мне теперь делать? Разрешать индексировать /components/или внести запреты на все папки в /components/ кроме /com_virtuemart/?

medvedev

20-11-2009 в 20:29

Дмитрий, посмотрел в хелпе Яндекса, но ничего такого не понял :(

Alex

20-11-2009 в 22:56

medvedev, попробуйте разные варианты создания robot.txt для доступа поисковиков к вашим картинкам. Работоспособность созданного вами файла вы можете проверить в панелях вебмастеров Гугла и Яндекса. Как это сделать вы можете прочитать в этих статьях:Работа с панелями вебмастеров Яндекса, Google, Yahoo, Bing (sitemap, robot.txt, индекс, запросы) — Часть 1 и здесь: Работа с панелями вебмастеров Яндекса, Google, Yahoo, Bing (sitemap, robot.txt, индекс, запросы) — Часть 2

Дмитрий

21-11-2009 в 11:05

Дмитрий, спасибо, я воспользовался вашими ссылками. В итоге у меня получилось запретить индексацию поисковиками адресов с концовкой в robots.txt .html?pop=0 из поиска, добавив правило:

Disallow: *.html?pop=0$.

Ну а картинки VirtueMart я разрешил к индексации в robots.txt, убрав из правил папку /components/,а затем запретив индексацию в ней всех папок, кроме той, в которой хранятся картинки VirtueMart. Буду ждать обновления Яндекса. Еще раз спасибо.

medvedev

22-11-2009 в 9:54

medvedev, не за что. Рад был помочь. Спасибо, что подробно описали ваш вариант решения отмены запрета индексации папок с изображениями в robots.txt. Может кому-нибудь пригодится. =)

Дмитрий

9-12-2009 в 13:42

Здравствуйте, уважаемые эксперты! Вопрос об улучшении и ускорении индексации поисковиками картинок. У меня стоит virtuemart, картинки выводятся там java-скриптом. И после скрипта альтернативный вывод картинки в тегах .

Проблема: картинки не индексируются поисковыми системами!

Получается то, что заключено между тегами , поисковики не видят. Подскажите, пожалуйста, что можно сделать для индексации картинок в robots.txt?

medvedev

9-12-2009 в 13:47

извиняюсь, имелся ввиду тег

<noscript>

medvedev

9-12-2009 в 13:48

medvedev: возможно, что у вас закрыта от индексации в robots.txt папка, где лежат изображения. Если с этим все в порядке, то не знаю, в чем может быть проблема.

Дмитрий

9-12-2009 в 17:22

Дмитрий:

Спасибо за ответ! Папка открытка для индексации поисковыми системами (научился благодаря вашему блогу). Думаю, проблема в самом выводе картинки.Она выводится через java-скрипт, а он не индексируется поисковиками. И, как видно, содержимое тегов noscript тоже. Как бы сделать так, чтобы сохранялось предназначение тегов noscript, и в то же время, картинка между этими тегами индексировалась? Кто знает, подскажите.

medvedev

5-01-2010 в 12:24

medvedev говорит, что:

Ну а картинки виртуемарта я разрешил к индексацию поисковиками, убрав из правил папку /components/,а затем запретил индексацию в ней все папки, кроме той, в которой хранятся картинки виртуемарта.

Подскажи, пожалуйста как какую именно строчку в robots.txt надо вписать, чтобы товары в вирте индексировались поисковыми системами. С уважением.

Алексей

6-01-2010 в 14:00

Алексей: для решения проблем с индексацией убираете из стандартного файла robots.txt для Joomla правило

Disallow: /components/

Но в замен него добавляете в robots.txt disallow на все папки внутри каталога components, кроме com_virtuemart, например:

Disallow: /components/com_banners/
Disallow: /components/com_contact/
и т.д.

Дмитрий

9-01-2010 в 16:47

Подскажите, а как запретить в robots.txt индексацию определенных страниц на движке joomla. Дело в том, что некоторые из них я удалил, а поисковыми системами они по прежнему индексируются. clickforeplay.ru/index.php/menu/173-lockerz-

одна из них. Как должна выглядеть запись в robots.txt ?

Огромное спасибо за индексацию images!

Вадим

10-01-2010 в 0:47

Вадим: из индекса Яндекс сам удалит такие страницы, со временем. А что бы пользователи, перешедшие с поисковиков по этим не рабочим ссылкам, не были для вас потеряны — оформите свою страницу 404 соответствующим образом. Например, так. Для ресурса, приведенного в пример, это было сделано с использование возможностей расширения ARTIO JoomSEF.

Дмитрий

10-01-2010 в 12:44

а есть ли какие-нибудь другие похожие расширения? или это только одно такого рода? (ARTIO JoomSEF.)

Cinema 4D

13-01-2010 в 10:09

Интересно, для бота Яндекса зачем дублировать строки Disallow в robots.txt.

Ведь есть *

близкий

14-01-2010 в 14:06

близкий: потому, что для Яндекса должно быть прописано в robots.txt хотя бы одно Disallow при добавлении директивы Host. А раз так, то придется повторять все для Яндекса отдельно, т.к. Disallow разрешающее индексирование всего сайта или запрещающее индексирование всего нам не подойдет.

Дмитрий

14-01-2010 в 15:27

Дмитрий: перепроверил, вот что рекомендует Яндекс:

#Пример корректно составленного robots.txt, при обработке

#которого директива Host учитывается

User-Agent: *

Disallow:

Host: www.myhost.ru

#Примеры некорректно составленных robots.txt, при обработке

#которых директива Host может не учитываться

User-Agent: *

Host: www.myhost.ru

близкий

14-01-2010 в 15:28

Пойду исправлю robots.txt :)

близкий

19-01-2010 в 16:36

Спасибо! отредактировал robots.txt

А то такое ощущение роботами мой сайт вообще не индексируется.

Николай

25-01-2010 в 23:35

Яндекс определил главную, как закрытую в robots.txt. Но на сайте вообще нет этого файла! Не подскажите в чём может быть проблема?

Puhtya

31-01-2010 в 1:45

хорошая статья про ускорение индексации сайта и правильный robots.txt. помогла лично мне. 5+

ирина

5-03-2010 в 23:46

Может мне сможете тоже помочь!? Проблема вот какого плана, в Яндекс Вебмастере мне выдаются предупреждения следующего вида:

— для главной

/index.php?format=feed&type=rss

/index.php?format=feed&type=atom

— и для страниц разделов тоже самое

/index.php/razdel?format=feed&type=rss

/index.php/razdel?format=feed&type=atom

Я так понимаю их можно запретить к индексации в robots.txt? А можно что то сделать с Joomla, чтобы эти страницы не генерировались?

Заранее спасибо!

Artem

12-03-2010 в 9:37

Дмитрий у меня текст на главной странице не индексируется поисковиками, выдает ошибку:"Сервер не указывает тип документа, указывает неправильно или указанный тип не поддерживается Яндексом. " что это может быть и как это можно исправить в robots.txt?

Александр

28-03-2010 в 12:26

Ой меня тоже очень волнует вопрос по поводу строчек rss в панели яндекс-вебмастера. И еще — как запретить к индексации страницы — ре6зультаты поиска (модуль Joomla стандартный)?

ivolga

28-03-2010 в 16:11

Artem: Александр: ivolga: извините, но ответов на ваши вопросы я не знаю.

Дмитрий

1-04-2010 в 17:31

Ваш robot.txt запрещает индексацию всех страниц. Ошибка здесь:

Disallow: */trackback

Disallow: */*/trackback

Disallow: */*/feed/*/

Disallow: */feed

т.к. Disallow: */ — означает запрет индексации всех без исключения страниц.

Grover29

4-04-2010 в 17:37

Вот что выкопал в руководстве Яндекса по составлению robots.txt:

При написании robots.txt необходимо помнить, что у робота есть разумное ограничение на его размер. Слишком большие robots.txt (более 256 Кб) считаются полностью разрешающими, то есть рассматриваются аналогично:

User-agent: Yandex

Disallow:

...предложенный Вами вариант файла тянет на все 690 Кб. Это что же получается — Ваш robots.txt по определению «отталкивает» индексирующего робота? (Или я не до конца разобрался?) о_О

И еще одно:

...в настройках XML-Sitemap Generator есть настраиваемый пунктик:

Add sitemap URL to the virtual robots.txt file. (Добавить карту сайта в виртуальный файл robots.txt)

...а под ним подпись:

The virtual robots.txt generated by WordPress is used. A real robots.txt file must NOT exist in the blog directory! (Используется виртуальный robots.txt, сгенерированный ВордПрессом. Настоящий robots.txt НЕ ДОЛЖЕН присутствовать в директории блога)

1. Где скрывается виртуальный robots.txt? Хочется взглянуть на его содержимое!

2. Если мы доверяем плагину создать robots.txt, соответственно — нам не нужно прописывать этот файл отдельно в корне, правильно?

Al-Iskander

11-04-2010 в 3:00

Директиву Host с www надо указывать в robots.txt для Яндекса или без WWW?

Life-trip

11-04-2010 в 10:10

Life-trip: Если главное зеркало вашего проекта определено с www, то в robots.txt для Яндекса в директиве Host имя вашего ресурса с www надо указывать. Подробнее о выборе и задании главного зеркала читайте здесь — Домены с www и без www — история появления, использование 301 редиректа для их склеивания

Дмитрий

11-04-2010 в 15:45

Спасибо, как раз искал правильный robots.txt для WordPress

Рома

14-04-2010 в 4:37

А как себя поведет робот того же Яндекса, когда в robots.txt встретит сначала правила для всех роботов? Будет ли он работать по правилам для него из конца роботс.txt или прогонит по первой части?

Не лучше ли блоки с отдельными роботами ставить вперед, а для всех остальных в конец robots.txt. Тогда zif пропустив «не его блок», дойдет до «своего» и учтет его правила. Остальные роботы пропустят так же не свои блоки и прогонят только по общим правилам.

Bahus

17-04-2010 в 22:31

Bahus: нет, все должно быть в robots.txt для Яндекса именно так, как я описал. Можете посмотреть robots.txt на разных ресурсах, наверняка, встретите подобную конструкцию.

Дмитрий

20-04-2010 в 15:06

не подскажите в чем может быть проблема, Яндекс произвел индексацию сайт, новые странички добавляет, но все странички видны только ТАЙТЛАМИ, под ссылкой нет текста. Как будто текст не про индексировался яндексом

MFT

25-04-2010 в 14:56

MFT: этот текст под ссылкой в поисковой выдаче, если не ошибаюсь, называется сниппет. Так вот, на первых порах поисковики в качестве сниппета используют содержимое мета-тега DESCRIPTION. Возможно, что этот мета-тег у вас пустой. Подробнее об этом можете почитать здесь — Внутренняя оптимизация сайта

Дмитрий

18-05-2010 в 11:02

Подскажите пожалуйста. Создал блог на Joomla, Вроде все основные поисковики провели индексацию сайта нормально. Но я заметил что в Яндексе индексация страницы разбиения главной страницы (мой проект.ru/index.php, мой проект/index.php?start=10, мой проект/index.php?start=20 и т.д.) на будет ли это дублированием контента. Может мне в robots.txt запретить индексацию index.php.

tschkh

18-05-2010 в 11:16

Извиняюсь, ещё вопрос. В панели инструментов Googlе на те же страницы которые я приводил в предыдущем вопросе выдаёт «Повторяющиеся заголовки (теги title)» на повредит ли это индексации сайта. Заранее спасибо.

tschkh

19-05-2010 в 23:47

tschkh: вопрос конечно интересный, у меню точно такая же ситуация с индексацией, как и у вас. Никаких мер не предпринимал, пока полет, вроде, нормальный. Думаю, что не стоит заморачиваться с этим, а пока оставить так, как есть.

Дмитрий

25-05-2010 в 15:32

Здравствуйте!В статье приведен пример правильного файла robots.txt для WordPress...у Вас в файле robots.txt перед строкой User-agent: * вставлен еще дополнительный код

User-agent:*
Crawl-delay: 2

User-agent: Unknown robot
Disallow: /

его тоже лучше добавить в robots.txt? Спасибо!!!

Ирина

25-05-2010 в 15:39

Ирина: директиву Crawl-delay в robots.txt вы можете использовать в том случае, если на сервер вашего хостинга идет серьезная нагрузка (например, при большой посещаемости). Директива Crawl-delay (во всяком случае пытается) поисковому роботу минимальный период времени (в секундах) между концом закачки одной страницы и началом закачки следующей.

Т.е она определяет интенсивность индексации сайта поисковом роботом. Тем самым вы несколько снизите нагрузку, создаваемую поисковыми роботами. Если проблем с нагрузкой на сервер хостера нет, то директиву Crawl-delay можно не добавлять.

Дмитрий

25-05-2010 в 15:52

Всё понятно... спасибо за разъяснения по robots.txt... Удачи Вам и Вашему замечательному блоку :)

Ирина

6-06-2010 в 0:16

Кто может помочь ? Закачиваю robots.txt на хостинг (случайно удалил) в ответ получаю 553 Disk full — please upload later .А места на диске 14 гб.У кого какие мысли на счет этого ?

Prado

9-06-2010 в 17:50

Добрый день! Подскажите кто понимает проблему. Sitemap Generator генерит много таких ссылок: mysite.com.ua/index2.php?..p;tmpl=component

Вставил в Robot.txt правило: Disallow: /index2.php?vmcchk=1&amp

по примеру Disallow: /index2.php?page=shop которое рекомендоал Дмитрий, но все равно генерит... Что я сделал криво?

Андрей

18-06-2010 в 23:56

Prado: не знаю, к хостеру попробовать обратиться надо, наверное.

Андрей: вроде все должно работать.

Дмитрий

14-08-2010 в 14:53

Составила для джумлы robots.txt, как Вы рассказали, загрузила в гугл Sitemap, а Гугл и говорит: не могу твой Sitemap посмотреть, т.к. он запрещен к индексации файлом robots.txt.

А Яндексу всё понравилось.

Подскажите, как Гугл допустить к Sitemap-у?

Ольга

14-08-2010 в 15:08

У меня имя файла Site Map enioway.ru/index.php?opti...p=1&view=xml содержит знак «?», а такие файлы, т.е. дубли контента, запрещены к индексации. Чё делать? Может как то еще по другому дубли запретить индексировать?

А то бедный Гугл никак не может посмотреть мой Sitemap

Ольга

30-08-2010 в 10:03

Подскажите, как правильно запретить страницы к индексации с суфиксом html.

Сайт на Joomla.

К примеру, надо запретить индексировать страницу _http://ktonanovenkogo.ru/new а страница вида _http://ktonanovenkogo.ru/new.html нужна для индексации.

Спасибо огромное, надеюсь получить ответ.

alan

4-09-2010 в 12:50

Ольга говорит, что:

У меня имя файла Site Map enioway.ru/index.php?opti...p=1&view=xml содержит знак “?”, а такие файлы, т.е. дубли контента, запрещены к индексации. Чё делать? Может как то еще по другому дубли запретить индексировать?

А то бедный Гугл никак не может посмотреть мой Sitemap

alan:Ольга, попробуйте вариант Disallow: /index.php?option=com_content* у меня такая же проблемма была, вродебы работает этот вариант.

NOalex

4-09-2010 в 13:04

NOalex: Спасибо! Я вот что сделала:

User-agent: *

Allow : /index.php?option=com_xmap&sitemap=1&view=xml

Disallow: /administrator/

............

............

...........

...........

Disallow: /*?

Sitemap: enioway.ru/index.php?opt...=xml

У Яндекса нашла, как правильно составлять robots.txt

Ольга

22-09-2010 в 4:50

Спасибо за интересный материал.

Виктор

1-10-2010 в 21:55

Пожалуйста подскажите!

составляю такой файл robots.txt

User-agent: *

Disallow:

User-agent: Yandex

Disallow:

Host: moisajt.ucoz.ru

в поисковике -открывается именно этот тектст ,всё вроде нормально...

НО!

хочу проиндексировать в Google и Yandex

так Google видит в его первой строчке : ?

и жалуется -"неправильная директива"

тоже Yandex -видит такой значок: О╩©

не понимаю,КАК это исправить!!???

Заранее спасибо

Форсмажор

Forsmazhor

4-10-2010 в 23:39

Forsmazhor: очень интересный случай, похоже, что проблема в кодировке, но только не понятно, как эта проблема вообще могла возникнуть.

Виктор: пожалуйста.

Дмитрий

14-10-2010 в 12:54

Спасибо за интересную статью! Практически все из нее уже давно применяю, но есть одно большое НО.

Яндекс очень долго не индексирует новые публикации на сайте (в день их добавляется около 4-5 штук, все эксклюзив). Новые статьи попадают в индекс только лишь спустя 2-3 недели!!! Google добавляет в поиск новые посту спустя 2-3 часа!!! Как так? Запарился уже — не знаю что делать, подскажите пожалуйста как ускорить индексацию Яндексом.

Doodle

14-10-2010 в 13:47

Doodle: у меня тоже, в определенное время была проблема с индексацией Яндексом. Уходило несколько дней на то, чтобы Яндекс нашел новую статью. Со временем это рассосалось, но как то опять возникло после довольно продолжительной недоступности вебсайта. Попробуйте добавлять страницы в аддурилку Яндекса, возможно это позволит ускорить индексацию, или же создайте блог на яндексовском сервисе и запостите туда анонсы статей, или прогоните анонсы по соцзакладкам или социальным сетям.

Дмитрий

27-10-2010 в 9:17

По моему я начудил с robot.txt и из за этого у меня не индексируются статьи... :( Т.е. главная страница блога индексируется а статьи нет. Кто нибудь может подсказать какую строчку убрать?

_http://www.foto4ka.ru/robots.txt

Меф

27-10-2010 в 23:18

Здраствуйте, тоже вопрос по robot.txt Почему в Вашем варианте для Joomla нет запрета — Disallow: /components/, его открывать надо?

Может не в тему, у меня не индексируются картинки, хоть и убрал Disallow: /images/. Возможно криво работает галерея Ignite Gallery 2.1 ,не смог там прописать title :(

Подскажите пожалуйста

Георгий

1-11-2010 в 18:21

А вот у меня Яндех вообще не хочет загружать robots.txt,выдает вот это:Не удалось загрузить robots.txt.Может кто подскажет в чем дело?

Олег

29-11-2010 в 8:24

Добрый день,

Спасибо за информацию. Регулярно читаю статьи, очень помогает.

По поводу robots.txt, я заметил: чем проще правила, чем меньше директив в файле, тем больше количество роботов на сайте.

_http://www.tes-service.com.ua/robots.txt

Serg

3-12-2010 в 10:43

Записи вида

Disallow: /cgi-bin

Disallow: /wp-admin

Disallow: /wp-includes

Предполагают что эти папки лежат в корне блога?

А если у меня блог в отдельной папке, например вот так:

мойсайт.ru/wordpress/wp-admin

то мне надо в robots.txt прописывать:

Disallow: /wordpress/cgi-bin

Disallow: /wordpress/wp-admin

Disallow: /wordpress/wp-includes

Правильно?

Павел

3-12-2010 в 11:33

Добрый день, хочу запретить к индексированию один из разделов сайта. Все страницы этого раздела имеют адресацию index.php/razdel/*

Будет ли правильно выставить запрет так:

Disallow: /razdel/*

Андрей

6-12-2010 в 21:07

Спасибо за статью. Она помогла мне понять зачем и как создать файл robots.txt, поскольку с помощью другого плагина WordPress я заметил что Гугл индексирует таки не нужные страницы, надеюсь это исправить. Еще раз спасибо.

Виталий

15-12-2010 в 12:17

Подскажите как можно запрерить индексацию тегов.Использую компонент Joomla Tags

Ande77

16-12-2010 в 18:33

Дмитрий, вопрос по Joomla:

1. «Disallow: /components/» нужно разрешать?

2. И «Sitemap: ...» только для «User-agent: Yandex» ?

Нужно «Sitemap: ...» прописать и для «User-agent: *» ?

Yana

16-12-2010 в 18:37

Дмитрий, вопрос по Joomla:

1. «Disallow: /components/» нужно разрешать?

2. И «Sitemap: ...» только для «User-agent: Yandex» ?

Нужно «Sitemap: ...» прописать и для «User-agent: *» ? Дмитрий:

Yana

16-12-2010 в 18:37

Дмитрий: вопрос по Joomla:

1. «Disallow: /components/» нужно разрешать?

2. И «Sitemap: ...» только для «User-agent: Yandex» ?

Нужно «Sitemap: ...» прописать и для «User-agent: *» ?

Yana

16-12-2010 в 18:42

Простите за три одинаковых сообщения...

Yana

27-12-2010 в 16:47

Disallow: /templates/

Для яндекса в джумле тоже надо убрать.

У меня там логотип сайта. Сижу и думаю почему в яндекс картинки никак не может попасть.

Евгений

26-01-2011 в 20:13

подскажите что прописать в роботс для Joomla, что бы запретить яндексу видеть старые названия категорий (менял название и плюс яндекс стал видеть id вместо названия итого три варианта одной статьи но по разным путям). Общий вид сайта после названия раздел потом категория и потом статья

Otpad

27-01-2011 в 9:19

Mosets Tree сохраняет картинки каталога внутри /components. Пока открыл директивой для индексаци — потом посмотрю как будет индексировать

Евгений

28-01-2011 в 20:34

не пойму зачем в robots для джумлы переписывать все для яши? Ведь User-agent:* подразумевает данные правила для все ботов... Да и Host не обязателен, т.к. итак яше понятно, какой он индексит сайт исходя из урла и урла сайтмапа... вобщем лишнее это... к стандартному файлу robots следует прибавить разве что:

Disallow: /index.php/index.php?option=com_content&view=frontpage (для урезания дублей)

Disallow: /index2.php (для закрытия от индексации страниц печати)

milanox

28-01-2011 в 20:42

milanox: весь процесс поискового продвижения состоит сплошь из таких мелочей, которые вы можете посчитать не существенными. Но дело в том, что успех придет только при соблюдении всех этих мелочей и нюансов, ибо у поисковиком любой момент может стать ключевым для вашего ресурса. ИМХО по собственному опыту. robots.txt желателен именно в таком виде, иначе возможны проблемы, которые вам вряд ли нужны.

Дмитрий

31-01-2011 в 22:24

Дмитрий подскажите пож.

Или кто понимает в этом вопросе.

Так получилось что я блог создал( на вордпресс) и закинул в инет.

Без файла robots.txt .

Позавачера смотрел в яндекс вебмастере — яша нашёл был до этого одну страницу и то не главную.

Начал разбираться почему так , и узнал о файле этом, для чего нужен.

Я сегодня со смены пришёл и в срочном порядке создал как у вас на блоге и закинул в корневую папку.

Но недолго радость моя продолжалась — яша меня опередил. Сегодня зашёл в вебмастер, яша загрузил 43 стр и в поиске 27.

В общем проиндексировал всё что только можно. У меня страниц столько нет.

Теперь вопрос — какие последствия от такой «подробной» индексации будут ?

И теперь получается что хоть robots.txt .есть у меня, яша запомнил весь тот мусор и будет помнить до конца ?

Не может быть такого что в следующий раз, увидя что файл показывает куда не надо заходить индексировать , яша о тех страницах забудет?

Извините за глупый вопрос. Хотя 1 и не глупый ( о последствиях такой инд.)

Виктор

1-02-2011 в 10:58

Виктор: у меня Google пару месяцев назад вообще по боку оставил robots.txt и насосал в индекс очень много запрещенных в этом файле страниц. Но в Google есть инструмент удаления ненужных страниц из индекса, а вот в Яндексе я такого инструмента не видел. Возможно, что со временем, мусор сам удалится из индекса.

Дмитрий

1-02-2011 в 11:43

Буду на это надеятся. Что остаётся , будет для меня урок на будущее.

В ответах маил один гуру написал- не забивай голову — Яндекс ненужное выкинет, нужное — оставит. Самое главное — чтобы контент уникальный был.

Виктор

2-02-2011 в 10:59

Здравствуйте,

у меня яндекс нашел 1 главную страницу тока,

связано ли это с disallow:/moduls/

так как ссылки с главной страницы на другие это же модуль меню?

Хотя на всех остальных страницах в мета теге стоит index, follow

Александр

2-02-2011 в 11:06

Александр: нет, скорее всего это никак не связано, ибо disallow:/moduls/ запрещает индексировать поисковым системам содержимое каталога moduls (там лежат php, css и js файлы установленных у вас модулей — технический материал, который совсем не нужен и не интересен поисковикам), а ссылки из модулей меню к этому каталогу отношения не имеют.

Дмитрий

9-02-2011 в 12:20

выставить на морде сайта RSS поток от news.yandex.ru — желательно по теме сайта? очень даже поможет.

Кирилл

9-02-2011 в 14:08

Статья понравилась но я думаю что нужно для джумлы прописывать еще пару строчек :

Disallow: /index.php?

Allow: /index.php?option=com_xmap&sitemap=1

благодаря этому мы избавимся от лишнего мусора (дублей страниц) что как на меня уже хорошо , как думаете ?

Олег

10-02-2011 в 11:01

А можете подсказать, актуален ли еще робот.тхт для вордпресса:

_http://times.fireg.ru/robots.txt

Или есть какие-то улучшения для индексации?

И если у меня на данный момент вообще нет робот.тхт сильно ли это плохо, из плагинов по индексации использую гугл сайт меп, сайтмеп генерал

Дмитрий

17-02-2011 в 9:23

Здравствуйте, после редактирования роботс, из Яндекса вылетели все страницы кроме главной, хотя сделал так, чтобы робот их видел. Но до этого часов 5 случайно поставил запрет их к индексации. Начнет ли Яндекс нормально сам индексировать вскоре сайт? Или писать платону?

Дмитрий

9-03-2011 в 17:56

«для корректной индексации сайта Яндексом нужно добавить директиву Host в файл robots.txt. Эта директива, в явной форме, укажет Яндексу главное зеркало вашего сайта.»

Здравствуйте, спасибо за статью! Позвольте вопрос, возможно глупый, но я не профи...:

если у моего сайта нет зеркала, то есть копии — то этот Host — мне не надо добавлять в robots.txt?

Юлия

9-03-2011 в 18:18

Юлия: зеркало есть у любого сайта Домены с www и без www — история появления, использование 301 редиректа для их склеивания. Директиву Host в robots.txt для Яндекса нужно прописывать обязательно, иначе поисковик может выбрать не то зеркало главным, которое вам нужно (с WWW или без WWW). И 301 редирект, описанный по ссылке выше, тоже же нужно будет сделать.

Дмитрий

9-03-2011 в 18:28

Дмитрий:

Дмитрий, спасибо большое за такой оперативный ответ! и позвольте спросить вдогонку: туда имя сата писать с www или без?

Юлия

9-03-2011 в 19:02

Юлия: нужно использовать тот вариант, на который вы сделаете 301 редирект, ибо в случае ошибки вы полностью закроете ваш сайт от индексации Яндексом. У меня, например, не было необходимости прописывать 301 редирект с www.ktonanovenkogo.ru на ktonanovenkogo.ru, ибо это можно было настроить в панели моего хостера (Инфобокс), указав в качестве главного зеркала вариант ktonanovenkogo.ru. В robots.txt у меня, соответственно, прописано:

Host: ktonanovenkogo.ru

Дмитрий

10-03-2011 в 16:15

Подскажите, пожалуйста, что необходимо исправить, чтобы индексировались картинки. За месяц не индексировалось ни одной!!!

_http://www.pimenovatv.ru/robots.txt

Александр

10-03-2011 в 23:23

почему в robots у joomla не закрывается Disallow: /cgi-bin/

Евгений

22-03-2011 в 1:11

Дмитрий скажите пожалуйста, в вашей сборке robots.txt для ВП указанной в статье запрещена индексация архивов и меток? И разрешена индексация новостей?

Извините за тупой вопрос, но я ноль пока что.

Антон

22-03-2011 в 23:15

Евгений говорит, что:

почему в robots у joomla не закрывается Disallow: /cgi-bin/

а действительно, эту папку нужно закрывать?

Сергей

27-03-2011 в 15:16

Спасибо автору!

Jane

30-03-2011 в 16:02

Спасибо большое, замечательный материал.

Grig

28-04-2011 в 15:32

Дмитрий, а как быть с .pdf,.doc их нужно закрывать от индексации? Потому что они вроде бы вес на себя забирают. Что скажете?

yusi4ka

28-04-2011 в 18:47

Подскажите пожалуйста, что нужно прописать для запрета на индексацию страниц типа /atom.html , /atom-2.html и так далее

а также для запрета /rss.html , /rss-2.html и т.д.

Николай

6-05-2011 в 17:57

Как лучше удержать фотки в индексе ?!

Выводить их в статьи или в фотогалерее расположить ?

Влад

13-05-2011 в 15:07

У меня на Joomla такой _http://veblik.ru/robots.txt:

Как считаете есть чтото лишнее или может наоборот еще чтото добавить нужно?

Андрей

14-05-2011 в 5:05

Спасибо за статю!

Сделала все так, как у Вас, сомневаясь — задавала вопросы и делала все как Вы говорили.

НО ЯНДЕКС ВЕБМАСТЕР НЕ ПОНИМАЕТ МОЙ _http://u-sovenka.ru/robots.txt!

Он выдет ошибку: О╩©User-agent: *

1: О╩©User-agent: *

Обнаружена неизвестная директива

2: Disallow: /administrator/

Перед правилом нет директивы User-agent

Юлия

25-05-2011 в 1:34

Автор пишет : "...для запрета индексации версий страниц для печати в VirtueMart, я добавил в файл robots.txt для Joomla следующее правило:

Disallow: /index2.php?page=shop "

Вопрос такой, конкретно куда его вставить, в верхнюю часть(которая для всех поисковиков) или для Яндекса которая.

И в конце ли аль в начале.

Я поставил в верхней части в самом низу (который для всех поисковиков), если я ошибся то исправте пожалуйста кто знает истину.

Ренат

25-05-2011 в 15:25

Спасибо за информацию! У меня есть один вопрос, если делать все правильно, то как делать настройки под robots WordPress плагина Platinum SEO Pack

Александр

5-06-2011 в 20:55

Здравствуйте! Поставил на свой сайт wp-money.ru плагин KB Robots.txt который формирует Robots.txt для блога на WordPress. Хотел уточнить, есть ли существенная разница прописывать домен с www или без него. Есть различные мнения, хотелось бы услышать Ваше.

Спасибо.

leon

12-06-2011 в 23:51

Спасибо, как всегда очень информативно. Скопировал ваш robots.

Дед

21-06-2011 в 13:04

Карточка товара в «Виртуемарте» отображается в двух категориях, например фотоаппарат отображается в категории «АКЦИИ» и в категории «Фототехника», соответственно адреса страниц двух категорий разные:

1). www.sait.ru/akcii.html?page=s...mp;category_id=6

2). www.sait.ru/akcii/bench.html?..p;category_id=17

Дмитрий подскажите пожалуйста как запретить к индексации определённую категорию, так как карточка товара одна и та же!

Не могу найти ответ.

Очень нужно. Спасибо!

Роман

21-06-2011 в 19:08

Здравствуйте!

Я собираю блог на Денвере, учусь, читая Ваши материалы, за что огромное спасибо...

Подскажите пожалуйста, Вы написали в начале статьи — «(все буквы в названии должны быть в нижнем регистре — без заглавных букв)»

А в Вашем же примере:

«User-agent: *

Disallow: /administrator/

Disallow: /cache/»

итд...

строки начинаются с заглавных букв...

Как же правильно написать robots.txt писать?

Заранее спасибо

Сергей

24-06-2011 в 9:47

Здравствуйте!

Спасибо за труд, выручает всегда!

У меня такой вопрос, для joomla строка sitemap должен быть прописан в <> или <>. НА примере robots.txt строка sitemap находится в <> а если сделать так, то другие ПС увидят это?

Удачи!

Aslan

30-06-2011 в 13:36

Здравствуйте, как закрыть от индексации роботом Яндекса страницы вида www.xxxxxxx.ru/tarifs_print.html (вариант для печати)

Колесников Александр Олегович

16-07-2011 в 0:34

Я так понимаю, что вы сами еще ищете пути для избавления от дублей

aleksandr

16-07-2011 в 0:44

Я смог только приостановить количество дублированных страниц на своем сайте( запрет на индексацию страниц в robots.txt не помогает ). В принципе это становится довольно актуальной проблемой для тех у кого сайт на wordpress, может кто нибудь поделится своим мнением насчет этого

aleksandr

16-07-2011 в 2:59

Тут уже давно никто не отвечал, только вопросы.

Ренат

19-07-2011 в 11:42

Спасибо! очень интересный и практически-полезный пост. Долго мучился с составлением robots.txt. У меня вопрос по сайтмапе: Вы в правильном файле robots.txt указали путь к сайтмапу от генератора Xmap кажется. Я вот добавил его на сайт и скопировал код с админки в Гугл и Яндекс вебмастер. Мало того что Яндекс его 20 лет проверял, так еще и выдал ошибку, мол неверный адрес и еще что-то — я уже не помню. Вы уверены в том, что если я добавлю ссылку на Xmap в файл «роботс», то Яндекс проиндексирует карту сайта. Еще я добавил генератор сайтмапы jcrawler. Его Яндекс индексирует на некоторых сайтах. Но на нескольких он выдает ошибку: Error loading stylesheet: An unknown error has occurred (805303f4)

Не подскажите в чем проблема?

Adrian

19-07-2011 в 11:49

Xmap — дает не SEF ссылку. От этого могут быть проблемы, если не SEF закрыт в robots.txt. У меня Гугл дает комментарий — на карту Xmap: запрещена в robots.txt. Открыл. jcrawler сканирует весь сайт и дает как мне кажется лишнее в индекс :)

А вот гуглу респект, стал брать RSS как карту сайта. Таким образом упрощается ему передача карты сайта и новые посты в индексе практически через 10 минут.

Piraman

23-07-2011 в 10:34

Подскажите какой код нужно поставить в robots.txt, чтобы запретить всем роботам посещать лишь одну страницу из сайта страница назывется logs.txt , а все остальные индексировать и и по всем ссылкам проходить, в данный момент в robots.txt такой код

User-agent: *
Disallow:
User-agent: Yandex
Disallow:
Host: site.ru

что добавить? заранее спаибо!

Zyyy

1-08-2011 в 20:30

Дмитрий, если форум (SMF) лежит в отдельной папке сайта (Joomla), то куда нужно помещать файл robots.txt для форума? Ведь в корневой папке уже есть такой файл robots.txt для самого сайта...

Спасибо

Людмила

4-08-2011 в 10:13

Здравствуйте!

Подскажите пожалуйста, если я удалил проиндексированную страницу и на ее место поместил страницу с другим названием( т.е. поменял название). Есть необходимость прописывать в robots запрет на индексацию старой страницы или нет. Если да, то это сделать так — Disallow: /stranica.html?

Андрей

11-08-2011 в 1:38

Дмитрий, большое спасибо за отличный пост. Да и вообще ОГРОМНОЕ спасибо за разжеванную информацию по коду. До знакомства с Вашим блогом это для меня был темный лес, а теперь после прочтения нескольких постов, въезжать начал что к чему. Теперь программиста можно будет проверить, если он чего упустил, да и на сайты конкурентов теперь по другому смотришь :) ! Еще раз спасиБО.

torsi

11-08-2011 в 13:32

Андрей! Странный вопрос. Если был запрещён каталог то ничего менять не надо. Если страница, то да ваш вариант.

Alex (AJxKorsar)

11-08-2011 в 20:09

Здравствуйте!

Такой вопрос: У меня интернет магазин на Joomla, VirtueMart. Клиенты при регистрации вводят свои личные данные, включаю номера счетов. Что нужно прописать в robots, чтобы эти данные не попали в поисковики?

Спасибо.

Ирина

11-08-2011 в 20:50

не совсем понимаю как написать робота для этого сайта 2art.at.ua

если можно подскажите,буду благодарен можно на мыло maliyai1@ukr.net

Алексей

12-08-2011 в 9:45

если бы еще гугл банил за флуд...за тупой, накручивающий «сленг»...

тут 70% слов можно выкинуть...

я только хотел узнать о конкретных строках роботс.тхт в джумле...

а понять или нет — ето уже мое дело...либо интуиция поможет...либо в конце концов есть справочники...

kostia-alania

30-08-2011 в 20:59

Скажите пожалуйста, а сколько вам нужно заплатить, чтобы вы создали для моего сайта правильный роботс файл? не могу в этом разобраться, хоть стреляйся! некоторые люди утверждают, что мой роботс файл катастрофически не правильно составлен.

И теперь у меня возникла проблема: при размещении ссылки на сайте система биржи их не находит!Я в отчаянии! И спросить некого! Хоть плачь! На днях обновляла некоторые плагины, может быть из — за них такая проблема.

Viktoria Zlata

2-09-2011 в 23:05

В правильном варианте robots.txt для joomla вы пропустили строку Disallow: /components/

Андрей

6-09-2011 в 22:32

Здравствуйте. Дмитрий, посоветуйте, в чем дело.

В панели Гугл Инструменты для Вебмастеров — Диагностика-Ошибки сканирования, Гуглебот в пункте «не найдено(404 не найдено)» — url страниц блога видит без рубрик. Идут: домен/название статьи.

Что необходимо изменить в robots.txt или дело в плагине All in One SEO Pack ( блог WordPress).

Спасибо.

Aleks

6-09-2011 в 22:59

Aleks: я могу ошибаться, но у меня было такая же ситуация из-за неправильно сгенерированной карты сайта. Виноват был Google XML Sitemaps. Он почему-то удалял названия рубрик из URL. Происходило это пару раз в течении полугода. Теперь я отключил этот плагин и активирую его только в случае долгой неиндексации Гуглом новых статей, но при этом обязательно вручную проверяю Url в созданной им карте сайта.

Дмитрий

7-09-2011 в 17:11

Спасибо Дмитрий, за ответ.

Были некоторые сомнения насчет плагина XML Sitemaps. Попробую проследить такой вариант.

Aleks

7-09-2011 в 18:39

Дмитрий, думаю была в нем загвоздка.

Зашел по вашей ссылке на онлайн генератор(рус.) — пишут, что для сайтов на WordPress не делают!!!

А вот на англояз. сделали. В файле от плагина ссылок было 77, и без рубрик, а в новом 109 ссылок.

Aleks

11-09-2011 в 18:07

Всем привет! У меня проблемка с Яндексом. Написал простенький robots типа:

User-agent: *

Disallow:

Host: art-of-war.3dn.ru

Sitemap: art-of-war.3dn.ru/sitemap.xml

Загрузил в корень сайта как пологается. При анализе robots.txt в яндексе, нажимаю на кнопку «Загрузить robots.txt с сайта» мне загружает стандартный запрещающий индексирование код:

User-agent: *

Disallow: /

И тем самым «Ваш сайт не проиндексирован Яндексом.»

Помогите пожалуйста, в чем проблема?

Евгений

12-09-2011 в 17:52

между директивами не должно быть пустых строк. Это будет означать начала нового правила.

олег

15-09-2011 в 12:24

Здравствуйте. У меня есть сайт, ему чуть больше полугода, но дело в том, что до сих пор проиндексировано только одна страница. Не могу понять по какой причине это происходит. Подскажите пожалуйста.

Спасибо.

Виталий

15-09-2011 в 12:42

Виталий: здравствуйте. У Яндекса есть фильтр АГС, при применении которого в индексе остается только главная страница сайта. Если индексация плохая еще и в Гуле, то проблема, скорее всего, в неправильном Robots.txt. Можете проверить правильность вашего Robots txt в Яндекс Вебмастер и в Гугл вебмастер.

Дмитрий

15-09-2011 в 15:26

Подскажите, а в каких случаях нужно ставить зарывающий слэш у правила? когда так Disallow: /category а в каком случае надо так

Disallow: /category/ Спасибо!

Олег

15-09-2011 в 22:34

Спасибо за подробные инструкции, пользуюсь вашим сайтом как настольным руководством. При проверке файла robots.txt через – имясайта/robots.txt получается

User-agent: *

Disallow:

Это означает, что файл уже есть? В менеджере файлов его не нашла — ни в корневой директории, нигде. Где он может быть? Или его все-таки нет еще. Сайт seobomba.com

alename

16-09-2011 в 9:45

Подскажите, а в каких случаях нужно ставить зарывающий слэш у правила? когда так Disallow: /category а в каком случае надо так

Disallow: /category/ Спасибо!

Oleg

20-09-2011 в 23:54

Здравствуйте!

есть основной раздел и в нем есть страницы типа сайт.ru/раздел/...ow&itemid=17

а есть еще подраздел... и из него идут такиеже страницы только с другими тайтлами и заголовками (там еще указывается название подраздела). Пишется как: сайт.ru/раздел/...ow&itemid=17. Так устроен движок да и удобно впринципе.

Но вот незадача... контент получается таким же. Поэтому требуется страницы подраздела закрыть в роботсе, но что бы сам подраздел сайт.ru/раздел/подраздел/ индексировался...

если сделать так :

Disallow: /подраздел/?action=show&itemid=*

так можно? не запретится ли тогда сам раздел? если да то как правильно сделать всетки?

markduck

23-09-2011 в 14:25

Скажите пожалуйста, нужно ли дублировать для User-agent: Yandex правило Crawl-delay: 10 ,которое хостер накинул?

Виталий

29-09-2011 в 20:53

Дмитрий, здравствуйте!

Хотела поинтересоваться, в robots.txt сайта Ktonanovenkogo.ru нет строчки Disallow: /cgi-bin .

Вы закрыли эти файлы от индексации как-то иначе, или их вообще можно не закрывать?

И еще вопрос, у вас есть строчка Disallow: /navigator/, если не секрет, что это такое? Нигде больше не встречала.

Заранее спасибо

Svetlana

30-09-2011 в 0:53

Svetlana: у меня в этой папке ничего нет (пустая директория), поэтому и закрывать ее в robots.txt я не стал.

Дмитрий

4-10-2011 в 10:43

На сайте 1200 статей,15 категорий, 50 подкатегорий, сейчас статьи доступны по таким ссылкам:

_http://сайт.ру/новости/статья.html

_http://сайт.ру/новости/категория/статья.html

_http://сайт.ру/новости/категория/подкатегория/статья.html

Подскажите как закрыть в robots.txt 2 верхние ссылки?

Антон

8-10-2011 в 12:52

Дима, здравствуйте!

Я не сильна в составлении роботс, поэтому доверилась вашему варианту файла для сайтов на Вордпресс. Но (как уже писали люди в этих комментариях) сделайте пожалуйста сноску о том, что для сайтов без настроек ЧПУ это вариант использовать нельзя КАТЕГОРИЧЕСКИ! Так как команда Disallow: /*?* запрещает к индексации страницы с видом *****/?p=1900 (как в моем случае)

В итоге я своими руками запретила к индексации весь сайт, плюс (робот видимо не понял в чем дело) и сайт попал под жесткий АГС в Яндексе.

Письма Платонам ничего не дают (6 раз писала им уже, отвечает Бот), даже после консультации оптимизаторов и изменения роботс. Будущее у нас с блогом впечатляющее...так как многие знакомые также не могут вывести свои сайты из-под фильтра по 8-9 месяцев, уточню АБСОЛЮТНО белые сайты, с уникальным контентом, стихами и рассказами...

Надеюсь на вашу консультацию.

Яна

11-10-2011 в 10:30

добрый день подскажите как мне быть сайт находится на ucoz подтвердил права пользования сайтом метатегом но дальше не могу справиться перепробовал все.залавал файл robot.txt через файловый менеджер прочитал в ответах залить чарез ftp и это пробовал прописал как положено без слеша но при загрузке все равно пишет заблокирован роботом и появляется слеш .подскажите что я не правильно делаю???вот сам сайт blogun.ucoz.com

юрий

12-10-2011 в 3:24

Доброе время суток. Если у меня карта сайта сгенерирована вот этим плагином Dagon Design Sitemap Generator, какими должны быть строки эти строк в robots.txt?

Вячеслав

12-10-2011 в 20:11

Дмитрий, вопрос по поводу Вашего robots.txt, который сейчас стоит на сайте ktonanovenkogo.ru

Вы там не закрываете от индексации страницы по адресу /page/ и получается что у вас есть повторения текста на сайте. Краткое описание статьи попадается на главной странице(на какой-то странице) и в самом разделе. Как к этому относятся поисковики? На форумах советуют, чтобы вообще никакого повторения текста на сайте не присутствовало. Как Вы можете это прокомментировать? Очень бы хотелось услышать Вашего мнения. Заранее спасибо!

Klivadenko33

13-10-2011 в 15:20

Я сейчас хожу на курсы Artox «Seo-cпециалист» и там вчера было занятие про CMS. Вел его Бобров its-raskrutka.ru/kursy_artox/cms/. Так вот он сказал, что незачем в robots.txt указывать папки типа /cgi-bin, /wp-admin, т.к. робот обходит только то, что видит на сайте. Как вы относитесь к такому мнению?

Артем

17-10-2011 в 21:04

Дмитрий, добрый день!

Присоединяесь к вопросу Klivadenko33. У Вас на сайте не закрыта папка /category/. Получается частичное дублирование контента. Можно оставить так или лучше ее закрыть?

Заранее спасибо за ответ и за тот материал, который Вы абсолютно безвозмездно выкладываете на своем сайте.

VoVanMen

17-10-2011 в 21:40

VoVanMen: здравствуйте. Вывод в категориях у меня отличается от главной (the excerpt), а временные и теговые архивы я закрыл от индексации в All in One SEO Pack. Поэтому, наверное, в robots.txt ничего дополнительно закрывать от индексации и не надо. ИМХО.

Дмитрий

17-10-2011 в 23:31

Дмитрий, а как на счёт того, что всё равно остаётся частичное дублирование текста на главной странице сайт и в самой статье? Вы ведь на главную страницу выносите первые несколько абзацев из самой статьи, а этот текст и получается небольшим дублем. Или поисковики не берут это во внимание?

Заранее спасибо за ответ!

Klivadenko33

17-10-2011 в 23:51

Klivadenko33: это обычная структура для блога и поисковикам, очевидно, об этом известно. Ну, как бы, при борьбе с дублями они до абсурда не доходят. Ведь все обвязка сайта (шапка, футер, сайдбар) тоже дублируется на всех страницах и ее через robots.txt от индексации не закроешь.

Дмитрий

18-10-2011 в 15:36

Ну да, я с Вами полностью согласен!

Огромное Вам спасибо за ответ и за те статьи, которые Вы пишите для людей. Очень много нового узнаю именно из Вашего блога.

Klivadenko33

18-10-2011 в 22:16

Всем добрый день.

Подскажите пож-та по поводу robots.txt У меня сайт на джумле и все доки, картинки и т.д. я кидал в папку по умолчанию /images/stories/ В папке с images помимо папки stories еще полно других папок с хламом. Как мне используя robots.txt закрыть от индексации все папки в папке images помимо папки stories? У меня сейчас сделано так:

Allow: /images/stories/about-us/

Allow: /images/stories/base/

Disallow: /images/

Т.е. весь хлам помимо нужных папок about-us и base блокируется, правильно?

и второй вопрос: папки вложенные к примеру в /images/stories/base/ будут индексироваться? не нужно для них прописывать отдельное разрешение?

Алексей

22-10-2011 в 23:00

Дмитрий,каким образом внутри тега «HEAD» нужной страницы прописывается МЕТА-тег Robots? Как туда залезть?

Лев

28-10-2011 в 23:52

Парни выручайте у меня магазин загружено роботами 10 000 (yandex) 15 000 (google), но в основной выдачи только по 100 страниц, думаю дело как раз в этих файлах, кто может детально посмотреть, отзовитесь

makc

2-11-2011 в 12:14

Доброго дня,

Сегодня решил проверить статью на уникальность и advego выдал мне что есть дубль. Получается, что сайт мой дублируется на дополнительный домен. Как запретить индексацию этого домена в robots.txt, если ненужный домен находиться по адресу: turdv.com/основной домен/

User-agent: *

Disallow: /turdv.com/основной домен/

Вот так?

Алексей

12-11-2011 в 9:49

Добрый день!

Сайт на Вордпрессе. Создал карту сайта с помощью плагина. Зарегистрировался в мастерах Гугла и Яндекса. Если набираю в браузере сайт/robot.txt файл отражается. Гуглы показывают, что сайт есть. Но когда захожу в корневой каталог сайта (включая и функцию "показывать скрытые файлы), я у себя robot.txt не нахожу. Хочу создать правильный робот и вкачать в корень, но сомнения мучают, не будет ли вступать в противоречие мой невидимый робот тхт?

Montero

19-11-2011 в 23:20

Большущее спасибо за статью! Очень помогла!

Татьяна

28-11-2011 в 12:26

Здравствуйте, у меня вопрос, robots.txt, в таком виде:

User-agent: *

Disallow: /cgi-bin

...

Disallow: /*?*

User-agent: Yandex

Disallow: /cgi-bin

...

Disallow: /*?*

Host: ktonanovenkogo.ru

Sitemap: ktonanovenkogo.ru/sitemap.xml.gz

Sitemap: ktonanovenkogo.ru/sitemap.xml>

Запрещает индексацию комментариев, и комментариев в корзине, а также спам ? И зачем нужно указывать sitemap.xml.gz, разьве просто sitemap.xml недостаточно ?

Александр

1-12-2011 в 22:22

Здравствуйте.

Помогите пожалуйста написать правильный robots к сайту написанному на html и css. Сайт еще доробатываю по ходу, но не хотелось бы иметь проблем с поисковиками-www.tirad.ru. Я еще новичек в этом деле, так что помогите кто может. Заранее спасибо

С уважением, Амир

Амир

7-12-2011 в 9:35

Насчет Вашего правильного robots (a) для Вашего блога. У Вас же feed (ы) все в индексе Google. Я вот понять не могу, почему Google все равно индексирует feed (ы). Я уже с этим robots.txt что только не делал, а он все равно их индексирует.

Вячеслав

7-12-2011 в 11:39

Парни, помогите настроить robots.txt не индексируются товары. ulovisto точка ru

Максим

13-12-2011 в 23:19

Дмитрий, подскажите, пожалуйста, что значит Crawl-delay: 4 в robots.txt. Дело в том, что у меня в файле robots.txt есть такая строчка, в остальном он не отличается от приведенного в Вашей статье правильного для Вордпресс. Может ли это быть причиной того, что в Яндексе не индексируются страницы моего сайта?

Спасибо.

Геннадий

14-12-2011 в 12:21

А какой правильный роботс для сайтов на динамическом HTML???

Подскажите пожалуйста, а то я уже собирался пихать туда роботс для джумлы

Adrian

16-12-2011 в 20:54

Приветствую. Подскажите пожалуйста почему страницы сайта не индексируются Яндексом? Robots.txt не правильный или почему? skachaj ТОЧКА net посмотрите плиз? отчего не индексируются? спасибо

Set

19-12-2011 в 12:13

прошу прощения

в вашем robots.txt

есть и

User-agent: *

и тоже самое продублировано с

User-agent: Yandex

зачем?

я это к тому, что я вроде запретил файлы и директории

через User-agent: *

, а они все равно в индексе

олег

22-12-2011 в 23:26

Очевидно, для слурпа надо тоже дублировать все дерективы, как и для яндекса, а не ограничиваться двумя строчками

User-agent: Slurp
Crawl-delay: 100

Григорий Гроздов

26-12-2011 в 16:26

Дмитрий, подскажите, пожалуйста. Ввожу название сайта и robots.txt выдает следующее:

User-agent: *

Disallow: /wp-admin/

Disallow: /wp-includes/

Пишу в Notepad++ файл как у Вас, загружаю в корневой каталог сайта. Результат тот же. Вроде бы с корневым каталогом не ошибся. Подскажите.

Сергей

26-12-2011 в 16:48

Сергей: возможно, что кеш браузера. Попробуйте в другом посмотреть.

Дмитрий

26-12-2011 в 19:20

Спасибо, Дмитрий, за ответ. Но, к сожалению, при просмотре в другом браузере результат тот же.

Сергей

28-12-2011 в 12:08

Дмитрий, посоветуйте. Что-то не ладится у меня с robots.txt. Показывает только:

User-agent: *

Disallow: /wp-admin/

Disallow: /wp-includes/

После загрузки нового файла показывает то же. Убираю новый — показывает опять тоже. Такое чувство, что где-то исходный robots.txt сиди, но в корневом каталоге нет. Прошу помочь. Спасибо.

Сергей

29-12-2011 в 11:49

Добрый день. Периодически обращаюсь к Вашему блогу, очень интересно даже просто почитать.

Возможно подскажите. Правда сайт на dle. В robot.txt прописал следующую строчку: Disallow: /2011/

Эта строчка закрывает страницы по календарю, т.е. публикации по дате (в dle это дубли). После того как robot.txt посетил Яша кол-во посетителей упало на «200». Не совсем понятно, почему? Повторюсь это дубли и по этим страницам захода в принципе не было.

Заранее спасибо!

Snake2010

31-12-2011 в 11:56

Если в meta-теге robots я пропишу index,nofollow. Будут ли индексироватья внутрение ссылки или nofollow закроет внутрение и внешние?

Денис

1-01-2012 в 15:21

Не надо выдумывать, смотрю (*) ставят где им вздумается, как кто считает нужным, вот как нужно писать без «я придумал» яндекс пишет — help.yandex.ru/webmaster/?id=996567

рулетка

1-01-2012 в 22:59

В рекомендованном роботе для joomla у вас прописано

Disallow: /components/

в том, что вы считаете правильным роботс уже нет запрета для индексации Disallow: /components/

Отсутствие запрета для индексации папки components может привести к дублированию страниц в поисковиках

VoxLex

3-01-2012 в 23:32

Статья хорошая, а комменты — «детский сад, штаны на лямках». Не хотите платить оптимизаторам, учите матчасть.

Алексей

10-01-2012 в 20:56

как правильно прописать в robots.txt

что бы сайт индексировался всеми поисковиками?

Сергей

2-02-2012 в 14:14

Здравствуйте!

Хотелось бы уточнить кое-что.

Вот есть robots.txt:

User-agent: *

Disallow: /folder1/

Disallow: /folder2/

User-agent: Yandex

Disallow: /folder1/

Disallow: /folder2/

Host: ktonanovenkogo.ru

Sitemap: lab.novikovoleg.ru/sitemap.xml

1. Директивы Host и Sitemap в данном случае будут восприниматься только роботом Яндекса или всеми роботами?

1.1. И где всё-таки лучше их указывать: в самом конце или в конце блока с User-agent: *?

2. Можно ли их отделить пустой строкой от предыдущих записей?

3. Если дублировать Host для каждого робота, то вроде как это не гуд, но нужно ли и можно ли Sitemap директиву дублировать?

4. Есть ли смысл писать отдельный блок для Google и что тогда в нем важнее?

5. Ещё волнующий вопрос: кодировка файла robots.txt. Методом проб выяснилось, что UTF-8 с сигнатурой явно не айс. Имеет ли кодировка значение?

Буду очень благодарен за ответы. Спасибо!

Олег Н.

5-02-2012 в 12:14

Не кайф читать статью и коменты полностью, может мой вопрос где нибудь уже оговаривался, но ПРОШУ КОНСУЛЬТАЦИИ!

У меня есть рубрика и к ней подрубрики " А Б В Г Д " в виде алфавита, как прописать в роботе чтоб эти подрубрики поисковики не индексировали (не нужны...), а главную рубрику индексировали конечно! ????

Пример урл такой /-/-/-/.ru›category/name/x/

BulletDSA

25-02-2012 в 12:12

Я новенький в создании сайтов и сделал robots как Вы написали! Вот вопрос, это нормально, что Яндекс пишет исключено роботом 485, с них: Документ запрещен в файле robots.txt — 399 и Документ содержит мета-тег noindex — 85.

А в Гугл: Заблокирован файлом robots.txt — 306.

И с каждым сканированием роботов постоянно увеличиваются ошибки. Это так и должно или я что то не так доделал???

oleg

29-02-2012 в 13:16

Здравствуйте, Дмитрий! У Вас очень хороший сайт, но таким новичкам, как я, не всегда все понятно. Сейчас я нуждаюсь в конкретной помощи. У меня блог создан на Вордпрессе. Он не индексируется Яндексом, указывает, что все страницы (кроме 1) под запретом.

robots.txt практически такой же, как у Вас

User-agent: *

Crawl-delay: 4

Disallow: /cgi-bin

...

Disallow: /*?*

User-agent: Yandex

Crawl-delay: 4

Disallow: /cgi-bin

...

Disallow: /*?*

Host: prosuperdom.com

Sitemap: _http://prosuperdom.com

/sitemap.xml.gz

Sitemap: _http://prosuperdom.com

/sitemap.xml

Нашла, что строчки с 4 указывают на какое-то время в 4 секунды. Думаю, что они не мешают. Думала, мешает перенос последних строчек, но в самом robots.txt исправила. Там записано Sitemap: _http://prosuperdom.com/sitemap.xml.gz

Sitemap: _http://prosuperdom.com/sitemap.xml, а при открытии через _http://prosuperdom.com/robots.txt перенос строчек не исчезает. Может ли это быть причиной? Или у меня есть еще одно предположение. Изначально мне не удавалось менять постоянные ссылки на человекоподобные URL. Не понимая важности, оставляла ссылки по умолчанию _http://prosuperdom.com/?p=123. Как теперь выйти из этой ситуации без ущерба, пока не знаю. Предполагаю, что строчка роботса Disallow: /*?* и является запрещающей для моих страниц. Но это предположение, а не знание. Подскажите, пожалуйста, это так и есть? Если да, то, что нужно сделать? И, если нет, то, в чем может быть причина? Заранее благодарю за ответ. Буду благодарна всем, кто сможет порекомендовать выход. Писать можно также на AntonSh22@yandex.ru

Antonina

7-03-2012 в 10:09

Дмитрий, а если я вообще через robots.txt запрещу все кроме моих записей, страниц, главной, ну и карты сайта. Это нормально будет?)

Aleksandr

16-03-2012 в 16:23

Здравствуйте! Подскажите, пожалуйста, как запретить индексацию только одной определенной рубрики и всех страниц в ней?

Наталья

18-03-2012 в 21:52

Спасибо за статью!

Вопрос по дублированию контента — я вставляю на сайт свой же авторский контент со страниц социальных сетей (зачем переписывать если уже все написано). Это одинаково критично для любых социальных сетей, что ЖЖ, что Вконтакте, что Фейсбук? Я где-то встречала что Гугл не индексирует некоторые социальные сети

Pooh

20-03-2012 в 12:50

Большое спасибо за ваш блог и эту статью!

Подскажите, пожалуйста, как мне быть. У меня на сайте (CMS Joomla) есть рубрики, созданные как шаблоны блога категории. Так вот яндекс проиндексировал только сами рубрики, а не статьи в них. Я запретила к индексации рубрики в надежде на то, что робот удалит из индекса их, но проиндексирует статьи. Рубрики есть в карте сайта. Я правильно сделала, или нет?

Ольга

20-03-2012 в 12:59

Спасибо вам большое за блог и эту статью! Свой сайт я сделала только благодаря вам.

Подскажите, пожалуйста, как мне быть. У меня на сайте (CMS Joomla) есть рубрики, созданные в качестве шаблонов блога категории. В каждой рубрике по нескольку статей. Так вот Яндекс проиндексировал только сами страницы рубрик, а статьи — нет (логично, да, контент же одинаковый). Я закрыла от индексации страницы рубрик своего сайта в надежде на то, что робот удалит из индекса их и проиндексирует статьи. Все рубрики, конечно же, есть в карте сайта.

Я правильно сделала (или накосячила так, что сейчас не оберусь проблем)?

Ольга

20-03-2012 в 21:57

Данный роботс для вордпресс не закрывает ссылки комментариев

Владимир

29-03-2012 в 13:11

Сайт у вас очень интересный. У меня вопрос: я проверяю страницы своего сайта на плотность ключевых слов. И на страницах разделов я вижу, что ключевыми словами с большой плотностью являеются «Подробнее» и «Добавить коментарии». Как сделать так, чтобы эти слова не индексировались. Спасибо.

Адександр

29-03-2012 в 19:50

Всем доброго времени суток. Ребят а какой правельный robots.txt для DLE сайта на движке 9,4 ? Сколько читаю все пишут по разному.

Сергей

29-03-2012 в 22:13

У Дмитрия очень полезный ресурс, каждый раз, когда у меня возникает какой-нибудь вопрос, я не раздумывая иду на этот сайт, но, видимо у автора очень много вопросов приходит, поэтому, если автор не ответит, может кто подскажет?Прописала robots.txt такой же, как приводится в статье, в инструментах для вебмастера в гугл у меня показывает файл sitemaps отправлено 19, проиндексировано 19, в разделе robots.txt заблокировано 18 и справка «Google tried to crawl these URLs in the last 90 days, but was blocked by robots.txt.» Что это значит?помогите, пожалуйста.

Ирина

29-03-2012 в 22:21

Забыла добавить, сайт на wordpress

Ирина

14-04-2012 в 10:43

Здравствуйте. Скажите,у меня такая проблема. Поставил блог на вордпресс, роботс тхт не настраивал. Ну как поставил блог на вордпресс был на 4 месте в нужном мне регионе по необходимому запросу. Через неделю после очередного индексирования яндекса ушёл вообще с 1 страницы яндекса, и там 79 или какое то такое места занял. Робот.тхт поправил но поизции не изменились, прошло уже 2 недели с изхменения файла роботс.хтх.

Скажите, в чём может бытьб дело.

Спасибо.

Владимир

17-04-2012 в 21:34

помогите не могу понять яндекс принял файл robots.txt а гугол нет,robots.txt открыт для всех роботов

виталик

30-04-2012 в 16:32

Подскажите, поставил компонент k2, импортировал материалы из Joomla стандартного, поставил Xmap, включил плагины в нем для content и к2. Теперь в карте сайта ссылки и те и те. Что отключить лучше, если 99% материала на сайте используется из к2? Или как лучше теперь сделать карту сайта чтоб поисковики читали и позиции не терять? Заранее спасибо за помощь!

Евгений

Написать

(обязательно)

(обязательно)

Ваш комментарий
Заключайте PHP и другой код в теги [php][/php]

Это не спам.

Подписаться без комментирования