Robots.txt — улучшаем индексацию сайта Яндексом и Google с помощью правильных файлов для WordPress, Joomla и SMF

16 Ноябрь, 2009

При самостоятельном продвижении и раскрутке сайтат важно не только создание уникального контента или подбор запросов в статистике Яндекса, но и так же следует уделять должное внимание такому показателю, как индексация ресурса поисковиками, ибо от этого тоже зависит весь дальнейший успех продвижения.

У нас с вами имеются в распоряжении два основных инструмента, с помощью которых мы можем управлять этим процессом. Во-первых, это, конечно же, файл robots.txt, который поможет нам запретить индексировать то, что не содержит основного контента (файлы движка и дубли контента) и именно о нем и пойдет речь в этой статье, но кроме этого существует еще один важный инструмент — карта сайта (Sitemap xml).

Почему так важно управлять индексацией сайта


Упомянутые выше инструменты очень важны для успешного развития вашего проекта и это вовсе не голословное утверждение. В статье по Sitemap xml (см. ссылку выше) я приводил в пример результаты очень важного исследования по наиболее частым техническим ошибкам начинающих вебмастеров, там на втором и третьем месте (после не уникального контента) находятся как раз отсутствие этих файлов роботс и сайтмап, либо их неправильное составление и использование.

Надо очень четко понимать, что не все содержимое интернет проекта (файлы и директории), созданного на каком-либо движке, должно быть доступно роботам поисковых систем.

Если не прописать определенные правила поведения в роботсе для этих ботов, то в индекс поисковиков попадет множество страниц, не имеющих отношения к значимому содержимому ресурса, а также может произойти многократное дублирование контента (по разным ссылкам будет доступен один и тот же, либо сильно пересекающийся контент), что поисковики не любят.

Хорошим решением будет запрет всего лишнего в robots.txt (все буквы в названии должны быть в нижнем регистре — без заглавных букв).

С его помощью мы сможем влиять на процесс индексации сайта Яндексом и Google. Представляет он из себя обычный текстовый файл, который вы сможете создать и в дальнейшем редактировать в любом текстовом редакторе (например, Notepad++). Поисковый бот будет искать этот файл в корневом каталоге вашего ресурса и если не найдет, то будет загонять в индекс все, до чего сможет дотянуться.

Поэтому после написания требуемого роботса, его нужно сохранить в корневую папку, например, с помощью Ftp клиента Filezilla так, чтобы он был доступен, например, по такому адресу:

http://ktonanovenkogo.ru/robots.txt

Кстати, если вы хотите узнать как выглядит этот файл у того или иного проекта в сети, то достаточно будет дописать к Урлу его главной страницы окончание вида /robots.txt. Это может быть полезно для понимания того, что в нем должно быть.

Однако, при этом надо учитывать, что для разных движков этот файл будет выглядеть по разному (папки движка, которые нужно запрещать индексировать, будут называться по разному в разных CMS). Поэтому, если вы хотите определиться с лучшим вариантом роботса, допустим для форума на SMF, то и изучать нужно только форумы, построенные на этом движке.

Директивы и правила написания файла robots.txt (disallow, user-agent, host)

Роботс имеет совсем не сложный синтаксис, который очень подробно описан, например, в хелпе яндекса. Обычно в нем указывается, для какого поискового бота предназначены описанные ниже директивы: имя бота ('User-agent'), разрешающие ('Allow') и запрещающие ('Disallow'), а также еще активно используется 'Sitemap' для указания поисковикам, где именно находится файл карты.

Еще полезно указать в этом файле, какое из зеркал вашего вебпроекта является главным в специальной директиве 'Host', которую понимает только Яндекс. Если даже у вашего ресурса нет зеркал, то полезно будет указать, какой из вариантов написания является главным — с www или без него. Т.к. это тоже является своего рода зеркалированием. Об этом я подробно рассказывал в статье про 301 редирект для доменов с WWW и без него.

Теперь поговорим немного о синтаксисе этого файла. Директивы в robots.txt имеют следующий вид:

<поле>:<пробел><значение><пробел>
<поле>:<пробел><значение><пробел>

Правильный код должен содержать хотя бы одну директиву «Disallow» после каждой записи «User-agent». Пустой файл предполагает разрешение на индексирование всего сайта.

Директива «User-agent» должна содержать название поискового бота. При помощи нее можно настроить правила поведения для каждого конкретного поисковика (например, создать запрет индексации отдельной папки только для Яндекса). Пример написания «User-agent», адресованной всем ботам зашедшим на ваш ресурс, выглядит так:

User-agent: * 

Если вы хотите в «User-agent» задать определенные условия только для какого-то одного бота, например, Яндекса, то нужно написать так:

User-agent: Yandex

Бот каждой поисковой системы имеет своё название (например, для рамблера это StackRambler). Здесь я приведу список самых известных из них:

Google       http://www.google.com     Googlebot
Yahoo!       http://www.yahoo.com      Slurp (или Yahoo! Slurp)
AOL          http://www.aol.com 	   Slurp
MSN 	     http://www.msn.com 	   MSNBot
Live 	     http://www.live.com 	   MSNBot
Ask 	     http://www.ask.com 	   Teoma
AltaVista    http://www.altavista.com  Scooter
Alexa        http://www.alexa.com 	   ia_archiver
Lycos        http://www.lycos.com 	   Lycos
Яндекс       http://www.ya.ru 	       Yandex
Рамблер      http://www.rambler.ru     StackRambler
Мэйл.ру      http://mail.ru 	       Mail.Ru
Aport        http://www.aport.ru 	   Aport
Вебальта     http://www.webalta.ru 	   WebAlta (WebAlta Crawler/2.0)

У крупных поисковых систем иногда, кроме основных ботов, имеются также отдельные экземпляры для индексации блогов, новостей, изображений и т.д. Много информации по разновидностям ботов вы можете почерпнуть на этом ресурсе.

Приведу несколько простых примеров использования директив с объяснением его действий.

    1. Приведенный ниже код разрешает всем ботам проводить индексацию всего содержимого без каких-либо исключений. Это задается пустой директивой Disallow.

    User-agent: *
    Disallow:

    2. Следующий код, напротив, полностью запрещает всем поисковикам добавлять в индекс страницы этого ресурса. Устанавливает это Disallow с «/» в поле значения.

    User-agent: *
    Disallow: /

    3. В этом случае будет запрещаться всем ботам просматривать содержимое каталога /image/ (http://mysite.ru/image/ — абсолютный путь к этому каталогу)

    User-agent: *
    Disallow: /image/

    4. В приведенном ниже примере будут запрещены директория «image», а так же все файлы и директории, начинающиеся с символов «image», т. е. файлы: «image.htm», «images.htm», каталоги: «image», «images1», «image34» и т. д.):

    User-agent: *
    Disallow: /image

    5. При описании путей для директив Allow-Disallow можно использовать символы '*' и '$', задавая, таким образом, определенные логические выражения. Символ '*' означает любую (в том числе пустую) последовательность символов. Следующий пример запрещает всем поисковикам индексацию файлов с расширение «.aspx»:

    User-agent: *
    Disallow: *.aspx

Во избежания возникновения неприятных проблем с зеркалами сайта рекомендуется добавлять в robots.txt директиву Host, которая указывает боту Yandex на главное зеркало. По правилам написания в записи для User-agent должна быть хотя бы одна директива Disallow (обычно ставят пустую, ничего не запрещающую):

User-agent: Yandex
Disallow:
Host: www.site.ru 

либо

User-agent: Yandex
Disallow:
Host: site.ru 

в зависимости от того, что для вас оптимальнее.

Директива Sitemap указывает на местоположение файла карты сайта (обычно он называется Sitemap.xml, но не всегда). В качестве параметра указывается путь к этому файлу, включая http:// (т.е. его Урл). Например:

Sitemap: http://site.ru/sitemap.xml

Мета-тег Robots — помогает закрыть дубли контента


Существует еще один способ настроить (разрешить или запретить) индексацию отдельных страниц вебсайта, как для Яндекса, так и для Гугле. Для этого внутри тега «HEAD» нужной вебстраницы дописывается МЕТА-тег Robots с нужными параметрами, и так повторяется для всех документов, к которым нужно применить то или иное правило (запрет или разрешение). Выглядеть это может, например, так:

<html>
<head>
<meta name="robots" content="noindex,nofollow">
<meta name="description" content="Эта страница ....">
<title>...</title>
</head>
<body>
...

В этом случае, боты всех поисковых систем должны будут забыть об индексации этой вебстраницы (об этом говорит присутствие noindex в данном мета-теге) и анализе размещенных на ней ссылок (об этом говорит присутствие nofollow — боту запрещается переходить по ссылкам, которые он найдет в этом документе) .

Существуют только две пары параметров у этого метатега: [no]index и [no]follow:

  1. Index — указывают, может ли робот проводить индексацию данного документа
  2. Follow — может ли он следовать по ссылкам, найденным в этом документе

Значения по умолчанию – «index» и «follow». Есть также укороченный вариант написания с использованием «all» и «none», которые обозначают активность обоих параметров или, соответственно, наоборот: all=index,follow и none=noindex,nofollow.

Более подробные объяснения можно найти, например, в хелпе Яндекса:

Для блога на WordPress вы сможете настроить мета-тег Robots, например, с помощью плагина All in One SEO Pack. Ну все, с теорией покончено и пора переходить к практике, а именно к составлению оптимальных robots.txt для Joomla, SMF и WordPress.

Как известно, у проектов, созданных на основе какого-либо движка (Joomla, WordPress, SMF и др), имеется множество вспомогательных объектов не несущих никакой информативной нагрузки.

Если не запретить индексацию всего этого мусора, то время, отведенное поисковиками на индексацию вашего сайта, будет тратиться на перебор файлов движка (на предмет поиска в них информационной составляющей, т.е. контента).

Но фишка в том, что в большинстве CMS контент хранится не в файликах, а в базе данных, к которой поисковым ботам никак не добраться. Полазив по мусорным объектам движка, бот исчерпает отпущенное ему время и уйдет не солоно хлебавши.

Кроме того, следует стремиться к уникальности контента на своем проекте и не следует допускать полного или даже частичного дублирования контента (информационного содержимого). Дублирование может возникнуть в том случае, если один и тот же материал будет доступен по разным адресам (URL).

Яндекс и Гугл, проводя индексацию, обнаружат дубли и, возможно, примут меры к некоторой пессимизации вашего ресурса при их большом количестве (им тоже не охото отыскивать зерна в кучи навоза).

Если ваш проект создан на основе какого-либо движка, то дублирование контента будет иметь место с высокой вероятностью, а значит нужно с ним бороться, в том числе и с помощью запрета в robots.txt, а особенно в мета-теге, ибо в первом случае Google запрет может и проигнорировать, а вот на метатег наплевать он уже не сможет (так воспитан).

Например, в WordPress страницы с очень похожим содержимым могут попасть в индекс поиск, если разрешена индексация и содержимого рубрик, и содержимого архива тегов, и содержимого временных архивов.

Но если с помощью описанного выше мета-тега создать запрет для архива тегов и временного архива (можно теги оставить, а запретить индексацию содержимого рубрик), то дублирования контента не возникнет. Для этой цели в WordPress лучше всего будет воспользоваться возможностями плагина All in One SEO Pack, ссылку на описание которого ищите чуть выше по тексту.

Еще сложнее с дублированием контента обстоит дело в форумном движке SMF. Если не производить тонкую настройку (запрет) через robots, то в поиск попадут многократные дубли одних и тех же постов. В Joomla тоже, кстати, иногда возникает проблема с дублированием обычных документов и их копий, предназначенных для печати.

Подводя итог скажу, что файл Роботс предназначен для задания глобальных правил запрета доступа в целые директории сайта, либо в файлы и папки, в названии которых присутствуют заданные символы (по маске). Примеры задания таких запретов вы можете посмотреть чуть выше.

Для запрета же индексации одной единственной страницы удобно использовать именно одноименный мета-тег, который прописывается в шапке (между тегами HEAD) нужного документа. Подробности о синтаксисе метатега смотрите чуть выше по тексту.

Правильные robots.txt для Joomla, Вордпресс и SMF


Теперь давайте рассмотрим конкретные примеры роботса, предназначенного для разных движков — Joomla, WordPress и SMF. Естественно, что все три варианта, созданные для разных CMS, будут существенно (если не сказать кардинально) отличаться друг от друга. Правда, у всех у них будет один общий момент и момент этот связан с поисковой системой Яндекс.

Т.к. в рунете Яндекс имеет достаточно большой вес, то нужно учитывать все нюансы его работы, и тут нам поможет директива Host. Она в явной форме укажет этому поисковику главное зеркало вашего сайта.

Для нее советуют использовать отдельный блог User-agent, предназначенный только для Яндекса (User-agent: Yandex). Это связано с тем, что остальные поисковые системы могут не понимать Host и, соответственно, ее включение в запись User-agent, предназначенную для всех поисковиков (User-agent: *), может привести к негативным последствиям и неправильной индексации.

Как обстоит дело на самом деле — сказать трудно, ибо алгоритмы работы поиска — это вещь в себе, поэтому лучше сделать так, как советуют. Но в этом случае придется продублировать в директиве User-agent: Yandex все те правила, что мы задали User-agent: *. Если вы оставите User-agent: Yandex с пустым Disallow:, то таким образом вы разрешите Яндексу заходить куда угодно и тащить все подряд в индекс.

Прежде, чем перейти к рассмотрению конкретных вариантов, хочу вам напомнить, что проверить работу своего robots.txt вы можете в Яндекс Вебмастере и Гугл Вебмастере. Там вы сможете указывать конкрентные Урлы своего ресурса и посмотреть (проверить), будет ли данный поисковик добавлять их в свой индекс или это действо удачно запрещено вами в чудо-файле.

Настройка индексации для форума SMF

Для форума на движке SMF правильным будет файл следующего содержания (взят с форума технической поддержки из этой темы ) :

User-agent: *
Allow: /forum/*sitemap
Allow: /forum/*arcade
Allow: /forum/*rss
Disallow: /forum/attachments/
Disallow: /forum/avatars/
Disallow: /forum/Packages/
Disallow: /forum/Smileys/
Disallow: /forum/Sources/
Disallow: /forum/Themes/
Disallow: /forum/Games/
Disallow: /forum/*.msg
Disallow: /forum/*.new
Disallow: /forum/*sort
Disallow: /forum/*topicseen
Disallow: /forum/*wap
Disallow: /forum/*imode
Disallow: /forum/*action
User-agent: Slurp
Crawl-delay: 100

Обратите внимание, что данный вариант приведен для того случая, когда ваш форум SMF установлен в директории forum основного сайта. Если форум не стоит в директории, то просто удалите из всех правил /forum.

Авторы данного варианта роботса говорят, что он даст максимальный эффект, если вы не будете активировать на своем форуме дружественные URL (ЧПУ).

Дружественные URL в SMF можно активировать или дезактивировать в админке форума, пройдя по следующему пути: в левой колонке админки выбираете пункт «Характеристики и настройки», в нижней части открывшегося окна находите пункт "Разрешить дружественные URL ", где можете поставить или снять галочку.

Есть еще один вариант robots.txt для SMF (но, наверное, еще не окончательно оттестированный):

User-agent: *
Allow: /forum/*sitemap
Allow: /forum/*arcade # если не стоит мод игр, удалить без пропуска строки
Allow: /forum/*rss
Allow: /forum/*type=rss
Disallow: /forum/attachments/
Disallow: /forum/avatars/
Disallow: /forum/Packages/
Disallow: /forum/Smileys/
Disallow: /forum/Sources/
Disallow: /forum/Themes/
Disallow: /forum/Games/
Disallow: /forum/*.msg
Disallow: /forum/*.new
Disallow: /forum/*sort
Disallow: /forum/*topicseen
Disallow: /forum/*wap
Disallow: /forum/*imode
Disallow: /forum/*action
Disallow: /forum/*prev_next
Disallow: /forum/*all
Disallow: /forum/*go.php # либо тот редирект, что стоит у вас
Host: www.мой сайт.ru # указать ваше главное зеркало
User-agent: Slurp
Crawl-delay: 100

Как вы можете видеть в этом файле, директива Host, предназначенная только для Яндекса, включена в User-agent для всех поисковиков. Я бы, наверное, все-таки добавил отдельную директиву User-agent только для Яндекса, с повтором всех правил. Но решайте сами.

Правило:

User-agent: Slurp
Crawl-delay: 100

связано с тем, что поисковая система Yahoo (Slurp — это имя его поискового бота) сканирует сервер во много потоков, что может негативно сказаться на его производительности.

В этом правиле директива Crawl-delay позволяет указать боту Yahoo минимальный период времени (в секундах) между концом закачки одного документа и началом закачки следующего. Это позволит снять нагрузку на сервер.

Для запрета версий для печати рекомендуют проделать описанные ниже операции (для их осуществления понадобится открыть некоторые файлы SMF на редактирование с помощью программы FileZilla).

В файле Sources/Printpage.php находите (например, с помощью встроенного поиска в Notepad++) строку:

fatal_lang_error(472, false);

Вставляете сразу под ней:

$context['robot_no_index'] = true;

В файле Themes/название_вашей_темы_оформления/Printpage.template.php находите строку:

<meta http-equiv="Content-Type" content="text/html; charset=', $context['character_set'], '" />

Вставляете ниже нее следующую строку:

<meta name="robots" content="noindex" />

Если вы так же хотите, чтобы в версии для печати была ссылка для перехода на полную версию форума (в случае, если часть страниц для печати уже прошла индексацию в Яндексе и Гугле), то в том же Printpage.template.php вы находите строку с открывающим тегом HEAD:

<head>

И вставляете ниже строку:

<a href="http://www.мой сайт.ru/">На форум</a>

Получить больше информации по этому варианту файла robots.txt вы можете, почитав эту ветку русскоязычного форума поддержки.

Правильный robots.txt для Joomla

Рекомендованный файл для Джумлы выглядит так:

User-agent: *
Disallow: /administrator/
Disallow: /cache/
Disallow: /components/
Disallow: /images/
Disallow: /includes/
Disallow: /installation/
Disallow: /language/
Disallow: /libraries/
Disallow: /media/
Disallow: /modules/
Disallow: /plugins/
Disallow: /templates/
Disallow: /tmp/
Disallow: /xmlrpc/

В принципе, здесь практически все учтено и работает он хорошо. Единственное, в него следует добавить отдельное правило User-agent: Yandex для вставки директивы Host, определяющей главное зеркало для Яндекса, а так же указать путь к файлу Sitemap.

Поэтому в окончательном виде правильный robots для Joomla, по-моему мнению, должен выглядеть так:

User-agent: *
Disallow: /administrator/
Disallow: /cache/
Disallow: /includes/
Disallow: /installation/
Disallow: /language/
Disallow: /libraries/
Disallow: /media/
Disallow: /modules/
Disallow: /plugins/
Disallow: /templates/
Disallow: /tmp/
Disallow: /xmlrpc/

User-agent: Yandex
Disallow: /administrator/
Disallow: /cache/
Disallow: /includes/
Disallow: /installation/
Disallow: /language/
Disallow: /libraries/
Disallow: /media/
Disallow: /modules/
Disallow: /plugins/
Disallow: /templates/
Disallow: /tmp/
Disallow: /xmlrpc/
Host: vash_sait.ru
Sitemap: http://vash_sait.ru/index.php?option=com_xmap&sitemap=1&view=xml&no_html=1

Да, еще обратите внимание, что во втором варианте нет директивы Disallow: /images/, дающей запрет индексации картинок вашего сайта. Я забыл сначала акцентировать ваше внимание на этом, но мне об этом напомнил уважаемый Alex.

Полностью с ним согласен в том, что если изображения уникальные и вы хотите, чтобы посетители находили ваш ресурс еще и с поиска по картинкам от Яндекса и Google, то обязательно удалите это правило из своего файла, но так же не забывайте прописывать всем вашим изображениям атрибуты Alt и Title в тег Img.

При создании интернет магазина для Joomla на основе компонента VirtueMart я столкнулся с тем, что в индексы поисковиков стали попадать версии для печати страниц этого самого магазина. Кнопка, ведущая на страницу для печати, была необходима (заказчик так хотел), поэтому оставался только вариант с их запретом в robots.txt.

Но все оказалось совсем не сложно. Дело в том, что для создания версии для печати в Джумле используется такой же Урл вебстраницы, за исключением одного: обращение идет не к index.php, а к index2.php. При этом не осуществляется загрузка шаблона, т.е. выводится только содержимое на весь экран.

Поэтому, для запрета версий для печати в VirtueMart я добавил в следующее правило:

Disallow: /index2.php?page=shop

Robots для WordPress

Не буду приводить пример файла, который рекомендуют разработчики. Вы и сами можете его посмотреть. Многие блогеры вообще не ограничивают ботов Яндекса и Гугла в их прогулках по содержимому движка WordPress. Чаще всего в блогах можно встретить роботс, автоматически заполненный плагином Google XML Sitemaps.

Но, по-моему, все-таки следует помочь поиску в нелегком деле отсеивания зерен от плевел. Во-первых, на индексацию этого мусора уйдет много времени у ботов Яндекса и Гугла, и может совсем не остаться времени для добавления в индекс вебстраниц с вашими новыми статьями. Во-вторых, боты, лазящие по мусорным файлам движка, будут создавать дополнительную нагрузку на сервер вашего хоста, что не есть хорошо.

Поэтому здесь я приведу свой вариант, а вам уже решать, использовать его в таком виде, либо подправить под свои нужды:

User-agent: *
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /trackback
Disallow: */trackback
Disallow: */*/trackback
Disallow: */*/feed/*/
Disallow: */feed
Disallow: /*?*

User-agent: Yandex
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /trackback
Disallow: */trackback
Disallow: */*/trackback
Disallow: */*/feed/*/
Disallow: */feed
Disallow: /*?*
Host: ktonanovenkogo.ru

Sitemap: http://ktonanovenkogo.ru/sitemap.xml.gz
Sitemap: http://ktonanovenkogo.ru/sitemap.xml

Пока что индексация блога при таком варианте robots.txt меня полностью устраивает. Использую я и одноименный мета-тег (его я добавил в заголовки страниц с временными и теговыми архивами).

Для того, чтобы прописать этот тег Robots, я не прибегал к правке кода движка WordPress. В этом не было необходимости, т.к. все это можно осуществить простой установкой или снятием галочек в соответствующих пунктах чудесного плагина — All in One SEO Pack.

Удачи вам! До скорых встреч на страницах блога KtoNaNovenkogo.ru

Еще:

Рубрики :Инструменты вебмастера ¦ Как самому раскрутить сайт

Комментарии и отзывы

Alex

а вот я не пойму правильно ли я robots.txt составил. у меня яндекс карту сайта не хочет принимать вот ошибка : Некорректный URL (не соответствует местоположению файла Sitemap) ничего не понимаю правильно всё. Без Sitemap замедлится индексация

Дмитрий

Alex, простите, вы когда этот урл в адресную строку браузера вставляете, у вас карта сайта открывается?

Alex

да всё в порядке кажется я понял в чём дело,я неправильно файл robots заполнил щас обновил карту тоже посмотри что будет в Яндексе

test

Блогу на WordPress около 3х недель — google проиндексировал 59 страниц, остальные поисковики по одной, кто нибудь может подсказать в чем может быть проблема? Хотя судя по панели вебмастеров того же Яндекса робот регулярно на блог заходит.

Дмитрий

test, есть определенные способы ускорить индексацию блога Яндексом, но не стопроцентные. Например, можно создать блог в Я.ру и написать текст со ссылкой на ваш блог WordPress. Тоже самое можно сделать на любом бесплатном блогохостинге (livejournal.com, blog.ru, liveinternet.ru и др.).

Иногда срабатывает способ создания ресурса на народе Яндекса с ссылкой в тексте на ваш блог. Можно попробовать добавить блог в яндекс закладки.

Alex

В joomla не правильно закрывать от индексации в robots.txt папку images. Закрыв ее от индексации вы не будете участвовать в поиске по картинкам Яндекса и Google. А если у вас еще и фото уникальные так будете терять еще один весомый аргумент, для показа поисковикам что ваш ресурс интересный .

Alex

ах в предудыщем коменте ошибся, по умолчанию в роботс от joomla images закрыт, в вашем примере его нет.

Дмитрий

Alex, спасибо большое за напоминание. Я действительно открыл индексацию картинок, но забыл об этом упомянуть в статье. Сейчас добавлю. =)

Alex

обновил robots, но всё равно та же ошибка при попытке принять карту сайта в Яндекс. Некорректный URL (не соответствует местоположению файла Sitemap)

Alex

и вот ещё не только в Яндексе, но и в Google не принимает Sitemap, возможно, что тоже из-за неправильно созданного robots

Пути не совпадают

Мы обнаружили, что Вы передали Карта сайта используя путь, который не включает WWW префикс (например, http://example.com/sitemap.xml). Однако, URL, перечисляются внутри файла Sitemap делают использование WWW префикс (например, http://www.example.com/myfile.htm).

medvedev

Уважаемый автор и уважаемый Alex! Огромное спасибо вам за замечание о том, что нужно разрешить индексацию картинок в robots.txt! У меня ресурс с открытками, и я всё не мог понять, почему их нет при поиске картинок Яндекса и Google. Как же я рад!!(наверное всем знакомо чувство,когда ищешь какую-то ошибку и потом ее находишь).

medvedev

и у меня еще вопрос. На моем проекте ра Joomla (указан на нике) стоит virtuemart (в качестве каталога). Пользуюсь sh404sef для создания уникальных title. Проблема в том, что у меня создаются странички типа www.имя проекта/имя страницы.html?pop=0.

Над каждым товаром сверху у меня две ссылки с названиями, как я понимаю, двух ближайших товаров. Нажимая на эту ссылку, я перехожу по адресу нужной открытки, но в конце стоит эта приставка ?pop=0. Проблема в том, что Яндекс осуществил индексацию, почему-то именно этих адресов,а на их title не оптимизирован.Тоже получается дублирование контента. Как мне убрать эти адреса из индекса поисковиков и появятся ли потом адреса без приставки в поиске?

medvedev

Ага, порадовался, что разрешил индексировать папку images в robots.txt, а потом понял, что картинки у меня хранятся в /components/com_virtuemart/shop_image. Что мне теперь делать? Разрешать индексировать /components/или внести запреты на все папки в /components/ кроме /com_virtuemart/?

Alex

Дмитрий, посмотрел в хелпе Яндекса, но ничего такого не понял 🙁

medvedev

Здравствуйте, уважаемые эксперты! Вопрос об улучшении и ускорении индексации поисковиками картинок. У меня стоит virtuemart, картинки выводятся там java-скриптом. И после скрипта альтернативный вывод картинки в тегах .

Проблема: картинки не индексируются поисковыми системами!

Получается то, что заключено между тегами , поисковики не видят. Подскажите, пожалуйста, что можно сделать для индексации картинок в robots.txt?

medvedev

извиняюсь, имелся ввиду тег

&lt;noscript&gt;

medvedev

Дмитрий:

Спасибо за ответ! Папка открытка для индексации поисковыми системами (научился благодаря вашему блогу). Думаю, проблема в самом выводе картинки.Она выводится через java-скрипт, а он не индексируется поисковиками. И, как видно, содержимое тегов noscript тоже. Как бы сделать так, чтобы сохранялось предназначение тегов noscript, и в то же время, картинка между этими тегами индексировалась? Кто знает, подскажите.

Алексей

medvedev говорит, что:

Ну а картинки виртуемарта я разрешил к индексацию поисковиками, убрав из правил папку /components/,а затем запретил индексацию в ней все папки, кроме той, в которой хранятся картинки виртуемарта.

Подскажи, пожалуйста как какую именно строчку в robots.txt надо вписать, чтобы товары в вирте индексировались поисковыми системами. С уважением.

Дмитрий

Алексей: для решения проблем й убираете из стандартного файла для Joomla правило

Disallow: /components/

Но в замен него добавляете в disallow на все папки внутри каталога components, кроме com_virtuemart, например:

Disallow: /components/com_banners/
Disallow: /components/com_contact/
и т.д.

Cinema 4D

а есть ли какие-нибудь другие похожие расширения? или это только одно такого рода? (ARTIO JoomSEF.)

Николай

Спасибо! отредактировал

А то такое ощущение роботами мой сайт вообще не индексируется.

Puhtya

Яндекс определил главную, как закрытую . Но на сайте вообще нет этого файла! Не подскажите в чём может быть проблема?

Artem

Может мне сможете тоже помочь!? Проблема вот какого плана, в Яндекс Вебмастере мне выдаются предупреждения следующего вида:

— для главной

/index.php?format=feed&type=rss

/index.php?format=feed&type=atom

— и для страниц разделов тоже самое

/index.php/razdel?format=feed&type=rss

/index.php/razdel?format=feed&type=atom

Я так понимаю их можно запретить к индексации в robots.txt? А можно что то сделать с Joomla, чтобы эти страницы не генерировались?

Заранее спасибо!

Александр

Дмитрий у меня текст на главной странице не индексируется поисковиками, выдает ошибку:"Сервер не указывает тип документа, указывает неправильно или указанный тип не поддерживается Яндексом. " что это может быть и как это можно исправить?

ivolga

Ой меня тоже очень волнует вопрос по поводу строчек rss в панели яндекс-вебмастера. И еще — как запретить к индексации страницы — ре6зультаты поиска (модуль Joomla стандартный)?

Grover29

Ваш robot.txt запрещает индексацию всех страниц. Ошибка здесь:

Disallow: */trackback

Disallow: */*/trackback

Disallow: */*/feed/*/

Disallow: */feed

т.к. Disallow: */ — означает запрет индексации всех без исключения страниц.

Life-trip

Директиву Host с www надо указывать в robots.txt для Яндекса или без WWW?

Рома

Спасибо, как раз искал правильный robots.txt для WordPress

MFT

не подскажите в чем может быть проблема, Яндекс произвел индексацию сайт, новые странички добавляет, но все странички видны только ТАЙТЛАМИ, под ссылкой нет текста. Как будто текст не про индексировался яндексом

Дмитрий

MFT: этот текст под ссылкой в поисковой выдаче, если не ошибаюсь, называется сниппет. Так вот, на первых порах поисковики в качестве сниппета используют содержимое мета-тега DESCRIPTION. Возможно, что этот мета-тег у вас пустой. Подробнее об этом можете почитать здесь — Внутренняя оптимизация сайта

tschkh

Подскажите пожалуйста. Создал блог на Joomla, Вроде все основные поисковики провели индексацию сайта нормально. Но я заметил что в Яндексе индексация страницы разбиения главной страницы (http://мой проект.ru/index.php, http://мой проект/index.php?start=10, http://мой проект/index.php?start=20 и т.д.) на будет ли это дублированием контента. Может мне в robots.txt запретить индексацию index.php.

tschkh

Извиняюсь, ещё вопрос. В панели инструментов Googlе на те же страницы которые я приводил в предыдущем вопросе выдаёт «Повторяющиеся заголовки (теги title)» на повредит ли это индексации сайта. Заранее спасибо.

Дмитрий

tschkh: вопрос конечно интересный, у меню точно такая же ситуация с индексацией, как и у вас. Никаких мер не предпринимал, пока полет, вроде, нормальный. Думаю, что не стоит заморачиваться с этим, а пока оставить так, как есть.

Ирина

Здравствуйте!В статье приведен пример...у Вас перед строкой User-agent: * вставлен еще дополнительный код

User-agent:*
Crawl-delay: 2

User-agent: Unknown robot
Disallow: /

его тоже лучше добавить? Спасибо!!!

Дмитрий

Ирина: директиву Crawl-delay вы можете использовать в том случае, если на сервер вашего хостинга идет серьезная нагрузка (например, при большой посещаемости). Директива Crawl-delay (во всяком случае пытается) поисковому роботу минимальный период времени (в секундах) между концом закачки одной страницы и началом закачки следующей.

Т.е она определяет интенсивность индексации сайта поисковом роботом. Тем самым вы несколько снизите нагрузку, создаваемую поисковыми роботами. Если проблем с нагрузкой на сервер хостера нет, то директиву Crawl-delay можно не добавлять.

Ирина

Всё понятно... спасибо за разъяснения по robots.txt... Удачи Вам и Вашему замечательному блоку 🙂

Prado

Кто может помочь ? Закачиваю robots.txt на хостинг (случайно удалил) в ответ получаю 553 Disk full — please upload later .А места на диске 14 гб.У кого какие мысли на счет этого ?

Андрей

Добрый день! Подскажите кто понимает проблему. Sitemap Generator генерит много таких ссылок: http://mysite.com.ua/index2.php?vmcchk=1&option=com_virtuemart&category_id=6&page=shop.browse&Itemid=2&pop=1&tmpl=component

Вставил в Robot.txt правило: Disallow: /index2.php?vmcchk=1&amp

по примеру Disallow: /index2.php?page=shop которое рекомендоал Дмитрий, но все равно генерит... Что я сделал криво?

Дмитрий

Prado: не знаю, к хостеру попробовать обратиться надо, наверное.

Андрей: вроде все должно работать.

Ольга

У меня имя файла Site Map http://enioway.ru/index.php?option=com_xmap&sitemap=1&view=xml содержит знак «?», а такие файлы, т.е. дубли контента, запрещены к индексации. Чё делать? Может как то еще по другому дубли запретить индексировать?

А то бедный Гугл никак не может посмотреть мой Sitemap

alan

Подскажите, как правильно запретить страницы к индексации с суфиксом html.

Сайт на Joomla.

К примеру, надо запретить индексировать страницу _http://ktonanovenkogo.ru/new а страница вида _http://ktonanovenkogo.ru/new.html нужна для индексации.

Спасибо огромное, надеюсь получить ответ.

NOalex

Ольга говорит, что:

У меня имя файла Site Map http://enioway.ru/index.php?option=com_xmap&sitemap=1&view=xml содержит знак “?”, а такие файлы, т.е. дубли контента, запрещены к индексации. Чё делать? Может как то еще по другому дубли запретить индексировать?

А то бедный Гугл никак не может посмотреть мой Sitemap

alan:Ольга, попробуйте вариант Disallow: /index.php?option=com_content* у меня такая же проблемма была, вродебы работает этот вариант.

Ольга

NOalex: Спасибо! Я вот что сделала:

User-agent: *

Allow : /index.php?option=com_xmap&sitemap=1&view=xml

Disallow: /administrator/

............

............

...........

...........

Disallow: /*?

Sitemap: http://enioway.ru/index.php?opt...=xml

У Яндекса нашла, как правильно составлять robots.txt

Виктор

Спасибо за интересный материал.

Doodle

Спасибо за интересную статью! Практически все из нее уже давно применяю, но есть одно большое НО.

Яндекс очень долго не индексирует новые публикации на сайте (в день их добавляется около 4-5 штук, все эксклюзив). Новые статьи попадают в индекс только лишь спустя 2-3 недели!!! Google добавляет в поиск новые посту спустя 2-3 часа!!! Как так? Запарился уже — не знаю что делать, подскажите пожалуйста как ускорить индексацию Яндексом.

Меф

По моему я начудил с robot.txt и из за этого у меня не индексируются статьи... 🙁 Т.е. главная страница блога индексируется а статьи нет. Кто нибудь может подсказать какую строчку убрать?

_http://www.foto4ka.ru/robots.txt

Георгий

Здраствуйте, тоже вопрос по robot.txt Почему в Вашем варианте для Joomla нет запрета — Disallow: /components/, его открывать надо?

Может не в тему, у меня не индексируются картинки, хоть и убрал Disallow: /images/. Возможно криво работает галерея Ignite Gallery 2.1 ,не смог там прописать title 🙁

Подскажите пожалуйста

Андрей

Добрый день, хочу запретить к индексированию один из разделов сайта. Все страницы этого раздела имеют адресацию index.php/razdel/*

Будет ли правильно выставить запрет так:

Disallow: /razdel/*

Виталий

Спасибо за статью. Она помогла мне понять зачем и как создать файл robots.txt, поскольку с помощью другого плагина WordPress я заметил что Гугл индексирует таки не нужные страницы, надеюсь это исправить. Еще раз спасибо.

Ande77

Подскажите как можно запрерить индексацию тегов.Использую компонент Joomla Tags

Евгений

Disallow: /templates/

Для яндекса в джумле тоже надо убрать.

У меня там логотип сайта. Сижу и думаю почему в яндекс картинки никак не может попасть.

Otpad

подскажите что прописать в роботс для Joomla, что бы запретить яндексу видеть старые названия категорий (менял название и плюс яндекс стал видеть id вместо названия итого три варианта одной статьи но по разным путям). Общий вид сайта после названия раздел потом категория и потом статья

Евгений

Mosets Tree сохраняет картинки каталога внутри /components. Пока открыл директивой для индексаци — потом посмотрю как будет индексировать

milanox

не пойму зачем в robots для джумлы переписывать все для яши? Ведь User-agent:* подразумевает данные правила для все ботов... Да и Host не обязателен, т.к. итак яше понятно, какой он индексит сайт исходя из урла и урла сайтмапа... вобщем лишнее это... к стандартному файлу robots следует прибавить разве что:

Disallow: /index.php/index.php?option=com_content&view=frontpage (для урезания дублей)

Disallow: /index2.php (для закрытия от индексации страниц печати)

Дмитрий

milanox<: весь процесс поискового продвижения состоит сплошь из таких мелочей, которые вы можете посчитать не существенными. Но дело в том, что успех придет только при соблюдении всех этих мелочей и нюансов, ибо у поисковиком любой момент может стать ключевым для вашего ресурса. ИМХО по собственному опыту. robots.txt желателен именно в таком виде, иначе возможны проблемы, которые вам вряд ли нужны.

Виктор

Дмитрий подскажите пож.

Или кто понимает в этом вопросе.

Так получилось что я блог создал( на вордпресс) и закинул в инет.

Позавачера смотрел в яндекс вебмастере — яша нашёл был до этого одну страницу и то не главную.

Начал разбираться почему так , и узнал о файле этом, для чего нужен.

Я сегодня со смены пришёл и в срочном порядке создал как у вас на блоге и закинул в корневую папку.

Но недолго радость моя продолжалась — яша меня опередил. Сегодня зашёл в вебмастер, яша загрузил 43 стр и в поиске 27.

В общем проиндексировал всё что только можно. У меня страниц столько нет.

Теперь вопрос — какие последствия от такой «подробной» индексации будут ?

И теперь получается что хоть .есть у меня, яша запомнил весь тот мусор и будет помнить до конца ?

Не может быть такого что в следующий раз, увидя что файл показывает куда не надо заходить индексировать , яша о тех страницах забудет?

Извините за глупый вопрос. Хотя 1 и не глупый ( о последствиях такой инд.)

Дмитрий

Виктор: у меня Google пару месяцев назад вообще по боку оставил robots.txt и насосал в индекс очень много запрещенных в этом файле страниц. Но в Google есть инструмент удаления ненужных страниц из индекса, а вот в Яндексе я такого инструмента не видел. Возможно, что со временем, мусор сам удалится из индекса.

Виктор

Буду на это надеятся. Что остаётся , будет для меня урок на будущее.

В ответах маил один гуру написал- не забивай голову — Яндекс ненужное выкинет, нужное — оставит. Самое главное — чтобы контент уникальный был.

Александр

Здравствуйте,

у меня яндекс нашел 1 главную страницу тока,

связано ли это с disallow:/moduls/

так как ссылки с главной страницы на другие это же модуль меню?

Хотя на всех остальных страницах в мета теге стоит index, follow

Дмитрий

Александр: нет, скорее всего это никак не связано, ибо disallow:/moduls/ запрещает индексировать поисковым системам содержимое каталога moduls (там лежат php, css и js файлы установленных у вас модулей — технический материал, который совсем не нужен и не интересен поисковикам), а ссылки из модулей меню к этому каталогу отношения не имеют.

Олег

Статья понравилась но я думаю что нужно для джумлы прописывать еще пару строчек :

Disallow: /index.php?

Allow: /index.php?option=com_xmap&sitemap=1

благодаря этому мы избавимся от лишнего мусора (дублей страниц) что как на меня уже хорошо , как думаете ?

Дмитрий

А можете подсказать, актуален ли еще робот.тхт для вордпресса:

_http://times.fireg.ru/robots.txt

Или есть какие-то улучшения для индексации?

И если у меня на данный момент вообще нет робот.тхт сильно ли это плохо, из плагинов по индексации использую гугл сайт меп, сайтмеп генерал

Дмитрий

Здравствуйте, после редактирования роботс, из Яндекса вылетели все страницы кроме главной, хотя сделал так, чтобы робот их видел. Но до этого часов 5 случайно поставил запрет их к индексации. Начнет ли Яндекс нормально сам индексировать вскоре сайт? Или писать платону?

Юлия

Дмитрий, спасибо большое за такой оперативный ответ! и позвольте спросить вдогонку: туда имя сата писать с www или без?

Дмитрий

Юлия: нужно использовать тот вариант, на который вы сделаете 301 редирект, ибо в случае ошибки вы полностью закроете ваш сайт от индексации Яндексом. У меня, например, не было необходимости прописывать 301 редирект с www.ktonanovenkogo.ru на ktonanovenkogo.ru, ибо это можно было настроить в панели моего хостера (Инфобокс), указав в качестве главного зеркала вариант ktonanovenkogo.ru. В robots.txt у меня, соответственно, прописано:

Host: ktonanovenkogo.ru

Евгений

почему в robots у joomla не закрывается Disallow: /cgi-bin/

Антон

Дмитрий скажите пожалуйста, в вашей сборке robots.txt для ВП указанной в статье запрещена индексация архивов и меток? И разрешена индексация новостей?

Извините за тупой вопрос, но я ноль пока что.

Сергей

Евгений говорит, что:

почему в robots у joomla не закрывается Disallow: /cgi-bin/

а действительно, эту папку нужно закрывать?

Jane

Спасибо автору!

Grig

Спасибо большое, замечательный материал.

yusi4ka

Дмитрий, а как быть с .pdf,.doc их нужно закрывать от индексации? Потому что они вроде бы вес на себя забирают. Что скажете?

Николай

Подскажите пожалуйста, что нужно прописать для запрета на индексацию страниц типа /atom.html , /atom-2.html и так далее

а также для запрета /rss.html , /rss-2.html и т.д.

Влад

Как лучше удержать фотки в индексе ?!

Выводить их в статьи или в фотогалерее расположить ?

Ренат

Автор пишет : "...для запрета индексации версий страниц для печати в VirtueMart, я добавил в файл robots.txt для Joomla следующее правило:

Disallow: /index2.php?page=shop "

Вопрос такой, конкретно куда его вставить, в верхнюю часть(которая для всех поисковиков) или для Яндекса которая.

И в конце ли аль в начале.

Я поставил в верхней части в самом низу (который для всех поисковиков), если я ошибся то исправте пожалуйста кто знает истину.

Александр

Спасибо за информацию! У меня есть один вопрос, если делать все правильно, то как делать настройки под robots WordPress плагина Platinum SEO Pack

Дед

Спасибо, как всегда очень информативно. Скопировал ваш robots.

Роман

Карточка товара в «Виртуемарте» отображается в двух категориях, например фотоаппарат отображается в категории «АКЦИИ» и в категории «Фототехника», соответственно адреса страниц двух категорий разные:

1). www.sait.ru/akcii.html?page=shop.product_details&flypage=flypage.tpl&product_id=25&category_id=6

2). www.sait.ru/akcii/bench.html?page=shop.product_details&flypage=flypage.tpl&product_id=44&category_id=17

Дмитрий подскажите пожалуйста как запретить к индексации определённую категорию, так как карточка товара одна и та же!

Не могу найти ответ.

Очень нужно. Спасибо!

Сергей

Здравствуйте!

Я собираю блог на Денвере, учусь, читая Ваши материалы, за что огромное спасибо...

Подскажите пожалуйста, Вы написали в начале статьи — «(все буквы в названии должны быть в нижнем регистре — без заглавных букв)»

А в Вашем же примере:

«User-agent: *

Disallow: /administrator/

Disallow: /cache/»

итд...

строки начинаются с заглавных букв...

Как же правильно написать robots.txt писать?

Заранее спасибо

Колесников Александр Олегович

Здравствуйте, как закрыть от индексации роботом Яндекса страницы вида http://www.xxxxxxx.ru/tarifs_print.html (вариант для печати)

aleksandr

Я так понимаю, что вы сами еще ищете пути для избавления от дублей

aleksandr

Я смог только приостановить количество дублированных страниц на своем сайте( запрет на индексацию страниц в robots.txt не помогает ). В принципе это становится довольно актуальной проблемой для тех у кого сайт на wordpress, может кто нибудь поделится своим мнением насчет этого

Ренат

Тут уже давно никто не отвечал, только вопросы.

Андрей

Здравствуйте!

Подскажите пожалуйста, если я удалил проиндексированную страницу и на ее место поместил страницу с другим названием( т.е. поменял название). Есть необходимость прописывать в robots запрет на индексацию старой страницы или нет. Если да, то это сделать так — Disallow: /stranica.html?

torsi

Дмитрий, большое спасибо за отличный пост. Да и вообще ОГРОМНОЕ спасибо за разжеванную информацию по коду. До знакомства с Вашим блогом это для меня был темный лес, а теперь после прочтения нескольких постов, въезжать начал что к чему. Теперь программиста можно будет проверить, если он чего упустил, да и на сайты конкурентов теперь по другому смотришь 🙂 ! Еще раз спасиБО.

Alex (AJxKorsar)

Андрей! Странный вопрос. Если был запрещён каталог то ничего менять не надо. Если страница, то да ваш вариант.

Ирина

Здравствуйте!

Такой вопрос: У меня интернет магазин на Joomla, VirtueMart. Клиенты при регистрации вводят свои личные данные, включаю номера счетов. Что нужно прописать в robots, чтобы эти данные не попали в поисковики?

Спасибо.

Алексей

не совсем понимаю как написать робота для этого сайта 2art.at.ua

если можно подскажите,буду благодарен можно на мыло maliyai1@ukr.net

kostia-alania

если бы еще гугл банил за флуд...за тупой, накручивающий «сленг»...

тут 70% слов можно выкинуть...

я только хотел узнать о конкретных строках роботс.тхт в джумле...

а понять или нет — ето уже мое дело...либо интуиция поможет...либо в конце концов есть справочники...

Viktoria Zlata

Скажите пожалуйста, а сколько вам нужно заплатить, чтобы вы создали для моего сайта правильный роботс файл? не могу в этом разобраться, хоть стреляйся! некоторые люди утверждают, что мой роботс файл катастрофически не правильно составлен.

И теперь у меня возникла проблема: при размещении ссылки на сайте система биржи их не находит!Я в отчаянии! И спросить некого! Хоть плачь! На днях обновляла некоторые плагины, может быть из — за них такая проблема.

Андрей

В правильном варианте robots.txt для joomla вы пропустили строку Disallow: /components/

Aleks

Здравствуйте. Дмитрий, посоветуйте, в чем дело.

В панели Гугл Инструменты для Вебмастеров — Диагностика-Ошибки сканирования, Гуглебот в пункте «не найдено(404 не найдено)» — url страниц блога видит без рубрик. Идут: домен/название статьи.

Что необходимо изменить в robots.txt или дело в плагине All in One SEO Pack ( блог WordPress).

Спасибо.

Aleks

Спасибо Дмитрий, за ответ.

Были некоторые сомнения насчет плагина XML Sitemaps. Попробую проследить такой вариант.

Aleks

Дмитрий, думаю была в нем загвоздка.

Зашел по вашей ссылке на онлайн генератор(рус.) — пишут, что для сайтов на WordPress не делают!!!

А вот на англояз. сделали. В файле от плагина ссылок было 77, и без рубрик, а в новом 109 ссылок.

олег

между директивами не должно быть пустых строк. Это будет означать начала нового правила.

Виталий

Здравствуйте. У меня есть сайт, ему чуть больше полугода, но дело в том, что до сих пор проиндексировано только одна страница. Не могу понять по какой причине это происходит. Подскажите пожалуйста.

Спасибо.

Олег

Подскажите, а в каких случаях нужно ставить зарывающий слэш у правила? когда так Disallow: /category а в каком случае надо так

Disallow: /category/ Спасибо!

Oleg

Подскажите, а в каких случаях нужно ставить зарывающий слэш у правила? когда так Disallow: /category а в каком случае надо так

Disallow: /category/ Спасибо!

markduck

Здравствуйте!

есть основной раздел и в нем есть страницы типа http://сайт.ru/раздел/?action=show&itemid=17

а есть еще подраздел... и из него идут такиеже страницы только с другими тайтлами и заголовками (там еще указывается название подраздела). Пишется как: http://сайт.ru/раздел/подраздел/?action=show&itemid=17. Так устроен движок да и удобно впринципе.

Но вот незадача... контент получается таким же. Поэтому требуется страницы подраздела закрыть в роботсе, но что бы сам подраздел http://сайт.ru/раздел/подраздел/ индексировался...

если сделать так :

Disallow: /подраздел/?action=show&itemid=*

так можно? не запретится ли тогда сам раздел? если да то как правильно сделать всетки?

Виталий

Скажите пожалуйста, нужно ли дублировать для User-agent: Yandex правило Crawl-delay: 10 ,которое хостер накинул?

VoVanMen

Дмитрий, добрый день!

Присоединяесь к вопросу Klivadenko33. У Вас на сайте не закрыта папка /category/. Получается частичное дублирование контента. Можно оставить так или лучше ее закрыть?

Заранее спасибо за ответ и за тот материал, который Вы абсолютно безвозмездно выкладываете на своем сайте.

Дмитрий

VoVanMen: здравствуйте. Вывод в категориях у меня отличается от главной (the excerpt), а временные и теговые архивы я закрыл от индексации в All in One SEO Pack. ИМХО.

Klivadenko33

Дмитрий, а как на счёт того, что всё равно остаётся частичное дублирование текста на главной странице сайт и в самой статье? Вы ведь на главную страницу выносите первые несколько абзацев из самой статьи, а этот текст и получается небольшим дублем. Или поисковики не берут это во внимание?

Заранее спасибо за ответ!

Дмитрий

Klivadenko33: это обычная структура для блога и поисковикам, очевидно, об этом известно. Ну, как бы, при борьбе с дублями они до абсурда не доходят. Ведь все обвязка сайта (шапка, футер, сайдбар) тоже дублируется на всех страницах и ее через robots.txt от индексации не закроешь.

Klivadenko33

Ну да, я с Вами полностью согласен!

Огромное Вам спасибо за ответ и за те статьи, которые Вы пишите для людей. Очень много нового узнаю именно из Вашего блога.

Алексей

Всем добрый день.

П У меня сайт на джумле и все доки, картинки и т.д. я кидал в папку по умолчанию /images/stories/ В папке с images помимо папки stories еще полно других папок с хламом. Как мне используя роботс закрыть все папки в папке images помимо папки stories? У меня сейчас сделано так:

Allow: /images/stories/about-us/

Allow: /images/stories/base/

Disallow: /images/

Т.е. весь хлам помимо нужных папок about-us и base блокируется, правильно?

и второй вопрос: папки вложенные к примеру в /images/stories/base/ будут индексироваться? не нужно для них прописывать отдельное разрешение?

Лев

Дмитрий,каким образом внутри тега «HEAD» нужной страницы прописывается МЕТА-тег Robots? Как туда залезть?

makc

Парни выручайте у меня магазин загружено роботами 10 000 (yandex) 15 000 (google), но в основной выдачи только по 100 страниц, думаю дело как раз в этих файлах, кто может детально посмотреть, отзовитесь

Алексей

Доброго дня,

Сегодня решил проверить статью на уникальность и advego выдал мне что есть дубль. Получается, что сайт мой дублируется на дополнительный домен. Как запретить индексацию этого домена в robots.txt, если ненужный домен находиться по адресу: turdv.com/основной домен/

User-agent: *

Disallow: /turdv.com/основной домен/

Вот так?

Татьяна

Большущее спасибо за статью! Очень помогла!

Вячеслав

Насчет Вашего правильного robots (a) для Вашего блога. У Вас же feed (ы) все в индексе Google. Я вот понять не могу, почему Google все равно индексирует feed (ы). Я уже с этим robots.txt что только не делал, а он все равно их индексирует.

Геннадий

Дмитрий, подскажите, пожалуйста, что значит Crawl-delay: 4 . Дело в том, что у меня есть такая строчка, в остальном он не отличается от приведенного в Вашей статье правильного для Вордпресс. Может ли это быть причиной того, что в Яндексе не индексируются страницы моего сайта?

Спасибо.

Adrian

А какой правильный роботс для сайтов на динамическом HTML???

Подскажите пожалуйста, а то я уже собирался пихать туда роботс для джумлы

олег

прошу прощения

в вашем robots.txt

есть и

User-agent: *

и тоже самое продублировано с

User-agent: Yandex

зачем?

я это к тому, что я вроде запретил файлы и директории

через User-agent: *

, а они все равно в индексе

Григорий Гроздов

Очевидно, для слурпа надо тоже дублировать все дерективы, как и для яндекса, а не ограничиваться двумя строчками

User-agent: Slurp
Crawl-delay: 100

Сергей

Дмитрий, подскажите, пожалуйста. Ввожу название сайта и robots.txt выдает следующее:

User-agent: *

Disallow: /wp-admin/

Disallow: /wp-includes/

Пишу в Notepad++ файл как у Вас, загружаю в корневой каталог сайта. Результат тот же. Вроде бы с корневым каталогом не ошибся. Подскажите.

Дмитрий

Сергей: возможно, что кеш браузера. Попробуйте в другом посмотреть.

Сергей

Спасибо, Дмитрий, за ответ. Но, к сожалению, при просмотре в другом браузере результат тот же.

Snake2010

Добрый день. Периодически обращаюсь к Вашему блогу, очень интересно даже просто почитать.

Возможно подскажите. Правда сайт на dle. В robot.txt прописал следующую строчку: Disallow: /2011/

Эта строчка закрывает страницы по календарю, т.е. публикации по дате (в dle это дубли). После того как robot.txt посетил Яша кол-во посетителей упало на «200». Не совсем понятно, почему? Повторюсь это дубли и по этим страницам захода в принципе не было.

Заранее спасибо!

Денис

Если в meta-теге robots я пропишу index,nofollow. Будут ли индексироватья внутрение ссылки или nofollow закроет внутрение и внешние?

рулетка

Не надо выдумывать, смотрю (*) ставят где им вздумается, как кто считает нужным, вот как нужно писать без «я придумал» яндекс пишет — http://help.yandex.ru/webmaster/?id=996567

VoxLex

В рекомендованном роботе для joomla у вас прописано

Disallow: /components/

в том, что вы считаете правильным роботс уже нет запрета для индексации Disallow: /components/

Отсутствие запрета для индексации папки components может привести к дублированию страниц в поисковиках

Алексей

Статья хорошая, а комменты — «детский сад, штаны на лямках». Не хотите платить оптимизаторам, учите матчасть.

Сергей

как правильно прописать в robots.txt

что бы сайт индексировался всеми поисковиками?

BulletDSA

Не кайф читать статью и коменты полностью, может мой вопрос где нибудь уже оговаривался, но ПРОШУ КОНСУЛЬТАЦИИ!

У меня есть рубрика и к ней подрубрики " А Б В Г Д " в виде алфавита, как прописать в роботе чтоб эти подрубрики поисковики не индексировали (не нужны...), а главную рубрику индексировали конечно! ????

Пример урл такой /-/-/-/.ru›category/name/x/

Antonina

Здравствуйте, Дмитрий! У Вас очень хороший сайт, но таким новичкам, как я, не всегда все понятно. Сейчас я нуждаюсь в конкретной помощи. У меня блог создан на Вордпрессе. Он не индексируется Яндексом, указывает, что все страницы (кроме 1) под запретом.

robots.txt практически такой же, как у Вас

User-agent: *

Crawl-delay: 4

Disallow: /cgi-bin

...

Disallow: /*?*

User-agent: Yandex

Crawl-delay: 4

Disallow: /cgi-bin

...

Disallow: /*?*

Host: prosuperdom.com

Sitemap: _http://prosuperdom.com

/sitemap.xml.gz

Sitemap: _http://prosuperdom.com

/sitemap.xml

Нашла, что строчки с 4 указывают на какое-то время в 4 секунды. Думаю, что они не мешают. Думала, мешает перенос последних строчек, но в самом robots.txt исправила. Там записано Sitemap: _http://prosuperdom.com/sitemap.xml.gz

Sitemap: _http://prosuperdom.com/sitemap.xml, а при открытии через _http://prosuperdom.com/robots.txt перенос строчек не исчезает. Может ли это быть причиной? Или у меня есть еще одно предположение. Изначально мне не удавалось менять постоянные ссылки на человекоподобные URL. Не понимая важности, оставляла ссылки по умолчанию _http://prosuperdom.com/?p=123. Как теперь выйти из этой ситуации без ущерба, пока не знаю. Предполагаю, что строчка роботса Disallow: /*?* и является запрещающей для моих страниц. Но это предположение, а не знание. Подскажите, пожалуйста, это так и есть? Если да, то, что нужно сделать? И, если нет, то, в чем может быть причина? Заранее благодарю за ответ. Буду благодарна всем, кто сможет порекомендовать выход. Писать можно также на AntonSh22@yandex.ru

Aleksandr

Дмитрий, а если я вообще через robots.txt запрещу все кроме моих записей, страниц, главной, ну и карты сайта. Это нормально будет?)

Наталья

Здравствуйте! Подскажите, пожалуйста, как запретить индексацию только одной определенной рубрики и всех страниц в ней?

Pooh

Спасибо за статью!

Вопрос по дублированию контента — я вставляю на сайт свой же авторский контент со страниц социальных сетей (зачем переписывать если уже все написано). Это одинаково критично для любых социальных сетей, что ЖЖ, что Вконтакте, что Фейсбук? Я где-то встречала что Гугл не индексирует некоторые социальные сети

Ольга

Большое спасибо за ваш блог и эту статью!

Подскажите, пожалуйста, как мне быть. У меня на сайте (CMS Joomla) есть рубрики, созданные как шаблоны блога категории. Так вот яндекс проиндексировал только сами рубрики, а не статьи в них. Я запретила к индексации рубрики в надежде на то, что робот удалит из индекса их, но проиндексирует статьи. Рубрики есть в карте сайта. Я правильно сделала, или нет?

Владимир

Данный роботс для вордпресс не закрывает ссылки комментариев

Адександр

Сайт у вас очень интересный. У меня вопрос: я проверяю страницы своего сайта на плотность ключевых слов. И на страницах разделов я вижу, что ключевыми словами с большой плотностью являеются «Подробнее» и «Добавить коментарии». Как сделать так, чтобы эти слова не индексировались. Спасибо.

Сергей

Всем доброго времени суток. Ребят а какой правельный robots.txt для DLE сайта на движке 9,4 ? Сколько читаю все пишут по разному.

Ирина

Забыла добавить, сайт на wordpress

Владимир

Здравствуйте. Скажите,у меня такая проблема. Поставил блог на вордпресс, роботс тхт не настраивал. Ну как поставил блог на вордпресс был на 4 месте в нужном мне регионе по необходимому запросу. Через неделю после очередного индексирования яндекса ушёл вообще с 1 страницы яндекса, и там 79 или какое то такое места занял. Робот.тхт поправил но поизции не изменились, прошло уже 2 недели с изхменения файла роботс.хтх.

Скажите, в чём может бытьб дело.

Спасибо.

Денис

Для Joomla роботс лучше писать так:

User-agent: *

Disallow: /administrator/

Disallow: /cache/

Disallow: /includes/

Disallow: /installation/

Disallow: /language/

Disallow: /libraries/

Disallow: /media/

Disallow: /modules/

Disallow: /plugins/

Disallow: /templates/

Disallow: /tmp/

Disallow: /xmlrpc/

Host: site.ru

Sitemap: httр://site.ru/index.php?option=com_xmap&sitemap=1&view=xml&no_html=1

ivvva

Дмитрий, приветствую!

Ситуация. Сначала в блоге были УРЛы вида: myblog.ru/2012/postname

Потом я поменял на myblog.ru/postname

Теперь в индексе есть некоторые страницы как постарому, так и поновому. Но это распространяется не на все статьи.

Если заходишь на старый адрес — происходит переадресация на новый.

Нужно ли что-то делать, например закрывать путь /2012/* ?

Максим

Я смотрю, Дмитрий тут очень давно не отвечал (. А меж тем есть пара вопросов ((.

Дмитрий. Очень надеюсь на вашу помощь в понимании мною некоторых моментов.

1. На счет зеркал. Я оставляю бесплатную платформу и создаю блог на WP. Могу ли я в роботсе бесплатной платформы прописать диркторию Host с указанием нового сайта чтобы Яндекс не считал это дублями??

Есть ли аналог этой директории для Гугла и других поисковиков? и если нет, то как поступать с зеркалами в их отношении??

2. Поскольку есть Директива Disallow и Allow, а в случае конфликта отдается предпочтение второй, то — Могу ли я просто запретить индексацию всего командой Disallow, а при добавлении статей в блог просто вносить их статичный URL в роботс под директиву Allow?

Очень надеюсь на Ваш ответ.

Спасибо.

Вячеслав

Здравствуйте Дмитрий! Возникла такая проблема, наткнулся в поисковике на то, что мой сайт еще проиндексирован с приставкой xsph.ru, т.е выглядит как site.ru.xsph.ru ? подскажите пожалуйста как мне в файле robots.txt запретить к индексированию данный сайт??

Заранее благодарен за ответ!

OLEG .DE

Здравствуйте Дмитрий!

Скажите, стоит ли добавить такие строки в роботс:

Disallow: /search

Disallow: /page

Виктор

Окончательно запутался с этим файлом.

Скажите, что у меня так возможно тут?

А то при просмотре статистике в яндексе, пишет, что некоторые страницы закрыты для индексации и показывает, что закрыты именно страницы с контентом.

domashnijremont.ru/robots.txt

woodhead

Нельзя в WordPress рекомендовать в robots.txt писать строку Disallow: /*?*, т.к. у многих страница имеет адрес вида http://*sitename*/?m=201208. Получается, все страницы с «?» будут запрещены к индексации.

Алексей

Доброго времени суток. Мой блог http://bizvweb.ru/ никак не хочет проиндексировать Яндекс. Подскажите в чем может быть причина.

Если будет положительный результат.Об оплате можно договориться.

Простой

Sitemap: http://ktonanovenkogo.ru/sitemap.xml.gz

Sitemap: http://ktonanovenkogo.ru/sitemap.xml -

— А зачем в robots указывать сразу два? Разве одного этого:

Sitemap: http://ktonanovenkogo.ru/sitemap.xml — недостаточна?

Простой

Как правильно в robots для wordpress скрыть вот такие архивы:

/2012/08/24

/2012/09

и т.д.

Кто-нибудь знает?

Простой

А почему в правильный robots.txt для WordPress не закрыты индексация комментариев???

Андрей

Существует ли ограничение по символам для файла robots.txt?

Дмитрий

Иван Евгеньевич: в общем то, это лишнее. Предназначено для бота Гугл Адсенса.

Маша

Help!

Как грамотно запретить к индексации весь сайт полностью (и главную страницу и все статьи)

за исключением одного раздела (и статей в нем)?

Примерно

User-agent: *

Disallow: /

Allow: /dadada (и все статьи начинающиесяна dadada)

Помогите, а то никак не пойму.

Андрей

Скажите, а как закрыть от индексации главную страницу? Но чтобы остальные индексировались?

Dima

Привет всем.

Ребят срочно нужна ваша помощь, сколько не искал, то брет какой то, то еще что-то.

Не подскажете какой robots.txt лучше всего использовать для «osCommerce».

Елена

Привет!

А какое время требуется боту Яндекса проиндексировать новый robot.txt ?

Данил

подскажите, в моём роботс.тхт присутствуют ещё запреты на некоторые папки, это правильно или запрет лучше снять для более качественной и полной индексации? вот эти строки:

Disallow: /cli/

Disallow: /components/

Disallow: /logs/

Максим

Вам следовало бы написать «Правильный robots.txt для joomla без дополнительных компонентов» — как то так, потому что с такими директивами индексация многих не нужных страниц всё равно будет производиться.

User:* — для любого поискового робота (для всех т.е Yandex Google можно не указывать)

Что бы индексировались товары в virtuemart достаточно при заполнении во вкладке описания товара в строке для meta robots внести index, follow

sergej-kapustin

не могу найти ваших контактов

Мишка

Здравствуйте у меня сайт на укоз, что означает когда после директивы dissallow стоит index/1 таких директив несколько и разные цифры

Alex

Сергей, самый оптимальный вариант — это запретить отображение названия категории в URL. И ссылка в каждой твоей категории будет одинаковой: сайт.ру/салат

Сергей

Вот это интересно, никогда не слышал о таком способе. А как это сделать? И как к этому отнесутся поисковики? Такой вариант был бы вообще самым шикарным. И страницы будут все второго уровня тогда?

Alex

Это делается просто. В админке заходишь в меню материалы, там выбираешь параметры. Название категории — скрыть.

Сергей

Да уж...вы тут сейчас насоветуете ))))

Причем тут название категории? Название категории отображается на странице материала, когда вы зашли на страницу уже и читаете материал, а я говорю про урлы страниц этих самых материалов. Когда каждый материал доступен по разным адресам.

Олег

В роботсе для Джумлы можно добавить запрет директории components/

Alt

Здравствуйте! я только создаю сайт визитку страниц на 5 не более, страницы не большие 1000—2000 символов, движок свой, есть анимация, стараюсь без всякой явыскрипт, а по старому по html для кроссброузерности и у меня вопрос: нужно ли мне все эти robots.txt, Sitemap.xml ставить (потому как везде в сети «если много текста, страниц...» понятие растяжимое) много ли пользы будет от этого в моём случае?

Иван

Доброе время суток! Не могу составить robots.txt. Т.е могу, но боюсь ошибиться. Есть страница, которую надо запретить от индексации mysite.ru/view_news.php?id=1‎ для всех роботов. Подскажите как это сделать правильно.? Если ее запретить от индексации, то получается все страницы начинающие с view_ тоже будут недоступны? А у меня они все начинаются с view_. К примеру:mysite.ru/view_gde_zarabotat_deneg.php?id=1 и она должна быть доступна. Или я чего-то не понимаю.? Заранее благодарен. Жду скорейшего ответа.

Андрей

Здравствуйте, Дмитрий!

При анализе работы моего сайта (htpp:\\kavent.ru) Гугл индексирует намного больше страниц, чем их и меня физически.

Из Вашей статьи я понял, что это не очень хорошо, но как это устранить не понял.

Сайт сделан на движке Joomla.

Буду очень признателен за подсказку.

С уважением, Андрей.

Евгений

Каким образом, возможно, удалить старую отдельную страницу через файл robots? Заранее весьма Вам буду благодарен за ответ.

Георгий

здравствуйте!

Так, что написать в роботе, если я хочу иметь дело только яндексом, гуглем и маил ру

Mirotvoretz

Disallow: /*? — что означает эта запись?

И как мне запретить к индексации страницы, имеющие в урле запись: .../?controller=default&task=callelement&format=raw&eleme...

Ирина

Присоединяюсь к вопросу:

Как правильно в robots для wordpress скрыть вот такие архивы:

/2012/08/24

/2012/09

и т.д.

Кто-нибудь знает?

маша

Поделитесь, пожалуйста, актуальным шаблоном robots.txt для blogspot!

Оскар

Отличный пост, доходчиво. Большое спасибо!

Георгий

Хотел поблагодарить вас за вашу статью и за книгу в целом! вот сейчас осваиваюсь очень познавательно! Хоть начал понимать что такое СЕО и с чем его едят =))) еще раз спасибо!

Роман

А что это значит

User-agent: Mediapartners-Google

Disallow:

Закрыть Гуглу все ?

Вадим

Здравствуйте,

Очень интересный материал.

Подскажите пожалуйста, :

User-agent: *

Disallow: /wp-admin/

Disallow: /wp-includes/

Что это значит? особенно 3-я строка «Disallow: /wp-includes/»

В панели веб мастер выходит — Документ запрещен следующего вида:

сайт.ru/wp-includes/wlwmanifest.xml — за что отвечает данная страница?

Заранее благодарен.

Анастасия

Добрый день! У меня сайт на вордпрессе, и яндекс индексирует только главную страницу, гугл проиндексировал еще страницы, но как-то криво и не все, новых при этом нет. Видимо индексировал, когда файла робота еще не было на сайте. Что нужно поправить, чтобы индексировалось?

http://mama-nassi.ru/robots.txt

Заранее спасибо!

Александр

Дмитрий, Вы разбиваете файл robots.txt на две части, для роботов всех поисковиков (*) и для яндекса (yandex) отдельно. Все правильно, но почему Вы не указываете карту сайта для всех поисковых роботов?

Допустим гул не нуждается в директиве host — это понятно, она нужна яндексу, но от подсказки адреса карты сайта гугл не откажется=)

Дмитрий

Александр: ну, наверное, да. Можно было бы его под общие правила подпихнуть, но, как я понимаю, он сам по себе. К тому же, есть мнение, что, например, молодому ресурсу или какому-либо другому лучше всего эту запись из роботса убрать.

Зачем палить все свои странички всяким редискам. При этом реальный файл карты сайта назвать yieieffdfs.xml и закопать в папочку десятого уровня вложенности. Ну, а потом быстренько пробежаться по панелям вебмастеров и сообщить кому надо (Яндексу, Гуглу, Бингу, Майл.ру), где это чудо лежит. Такие вот советы сейчас дают.

Александр

Дмитрий, «но, как я понимаю, он сам по себе» — это я так понимаю Вы о сайтмапе? Не уверен, но склоняюсь к мысли, что поисковики не учтут его если он будет в директиве для яндекса. Не знаю, но всегда прописываю его в обеих частях.

Насчет второй части — полностью согласен=)

Андрей

Дмитрий, спасибо за статью! В Вашем роботсе есть вот такая запись:

Disallow: /?feed=

Disallow: /*?*

Disallow: /?s=

Вопрос:

Разве вот эта строчка Disallow: /*?* не запрещает доступ к урлам в которых есть знак «?»

Обязательно ли прописывать вот эти две строчки:

Disallow: /?feed=

Disallow: /?s=

Вроди как эти две строки дублируют правило Disallow: /*?*

Олег

Для меня — начинающего, статья очень интересная. Огромное спасибо за полезную информацию по созданию файла robots.txt. Мой сайт — на Joomla. Подскажите, как прави льно определить главное зеркало сайта, чтобы прописать в этом файле директиву Host?

Orasulmd.Org

Платону письмо так и так, у меня такая хрень былая... сайту больше года, а ноль проиндексированных картинок было.

Написали в ответ, проблему исправили, ждите.

Через месяц появилось 49 картинок, жду снова апа картинок.

Руслан

Огромное спасибо за robots.txt для wordpress!

Олег

Добрый день, Дмитрий!

Много полезной информации в Вашей статье. Хотел уточнить один вопрос: что нужно все-таки прописать в robots.txt для сайта на Joomla для закрытия от индексирования страниц — дублей? В комментариях два варианта увидел, но, все-таки, хотелось узнать Ваше мнение.

Спасибо.

Сибиряк

Моё почтение! Помогите, пожалуйста разобраться несмышленному с проблемой. Суть такова: вебмастер Гугла перестал видеть мой Sitemap. Произошло это после изменений в robots.txt (перекрывал дыхание дублям). Анализ robots.txt в том же вебмастере РАЗРЕШАЕТ индексакцию Sitemap по прописанной директиве Allow: /index.php?option=com_xmap&sitemap=1&view=xml.

Но тем не менее, при проверке Sitemap вебмастером Гугл выдает «URL, запрещенный файлом robots.txt». Какой-то абсуд получается. В robots.txt у меня прописаны две запрещающие директивы, касающиеся Sitemap.

Disallow: /index.php

Disallow: /*&

Может, исходя из этого стоит дважды прописать (продублировать) разрешающую директиву? Очень надеюсь на помощь.

Наташа Давыдова

Добрый день, Дмитрий.

Подскажите, пожалуйста, это нормально ли что яндексом загружено более 2000 страниц, а в поиске 123?

тако

А че запрещено тут: Disallow: /cgi-bin и как быть с папками js и css ?

Игорь

Здравствуйте, Дмитрий.

Яндекс проиндексировал страницы сайта без .html и с .html.

Как закрыть индексацию страниц без .html в robots.txt.

Спасибо за Ваш труд.

Я много узнал интересного и полезного на вашем сайте.

Удачи!

Николай

Отличная и информативная статья.

Петр

Подскажите, если форум smf стоит в корневой папке wordpress, то нужна ли ему отдельная функция построения карты сайта или нет? С условием, что у wp уже есть свой такой плагин.

Галина

Везде информация по файлу Robots для сайтов на платформе WordPress. Что делать у кого блог на платформе Blogger. Как этот файл создавать на Blogger? Автор этого замечательного умного и очень интересного сайта — может что-то порекомендовать?

Триана

Здравствуйте. Подскажите пожалуйста, как исключить из роботс не админ панель, а именно админ бар?

На моем сайте возникла огромная куча ошибок, которые засели именно в Admin bar Custimaize. Это ссылка, которую я давно не могу удалить потому, что не вижи ее!!

Хочу хотя бы временно заблокировать админ бар пока не исправлю.

Егор

У меня Гугл хорошо индексирует сайт, а Яндекс проиндексировал тоько главню, еще 10 попали в список исключений, ответ такой: страницы содержат мета-тег ноиндекс. При этом у Гугла они в индексе после первого апа. Роботс такой-же кстати как у вас в публикации, Вордпрессовский. Я страницы смотрел, нет там мета тегов запрещающих никаких! Я думаю это настройки All in One. У меня и этот плагин настроен как у вас в статье был, кроме того, что стояла галочка напротив запрета индексации архивов рубрик. Снял. Непойму, где ошибка! Сайт filwebs.ru

тако

Егор сайту 22 дня, так что рано панику поднимать на счет яндекса, добавьте в адурили на худой конец, нет никаких ноиндексов в коде.

Алексей

Здравствуйте.

Никак не могу решить вопрос. Может тут мне помогут. Скажите пожалуйста как запретить пользователям открывать файл robots.txt? Например сейчас любой может перейти по ссылке http://имясайта.ru/robots.txt и увидеть какие страницы я прячу

User-agent: *

Disallow: /superzag

И перейдя по адресу http://имясайта.ru/superzag может перейти на страницу которую я разрешаю просматривать только подписавшимся на мой блог пользователям.

Можно как то сделать что бы люди не могли отрывать robots.txt? Что бы при попытке открыть

их переадресовывало на другую страницу. Или может даже выдавало ошибку 404. Да что угодно

лишь бы никто не видел этот файл.

Но для поисковых роботов все должно быть как положено, что бы они нормально воспринимали

роботс файл.

Егор

Алексей, просто добавьте следующую строчку в конфигурацию Apache или в .htaccess файл:

Options -Indexes

Это не тоже самое, что добавление Disallow: /wp* в файл robots.txt. Это не запретит индексацию директории, а запретит юзерам просмотр.

Алексей

Егор, добавил строку

Options -Indexes

в .htaccess файл.

Однако по прежнему могу открывать роботс в браузере и видеть что там написано.

Или я не так сделал что-то? Или не так понял?

Егор

Алексей, у вас на хостинге не спящая техподдержка? А если серьезно, то напишите в саппорт (тех.службу) хостинга, думаю, что проблема будет решена.

Игорь

Здравствуйте!

Подскажите пожалуйста, нужно ли закрывать от индексации страницы авторов сайта в файле Robots.txt?

У меня на сайте у авторов (в данный момент только у меня, как админа) есть отдельные страницы с уникальными урлами, где представлены все статьи с их кратким описанием.

Данная страница у меня попала в индекс.

В связи с чем получились дубли, на сколько я понимаю.

Нужно ли в Robots.txt прописать строку: Disallow: /author/*/* ??

Буду очень признателен за помощь!

Алекс

Здравствуйте. Первый свой сайт делал по вашим урокам. Спасибо. Подскажите пожалуйста, могут ли роботы гугл заходить на сайт через поисковик или у меня появился поисковый спам?

Сайхан

Здравствуйте.С помощью этой статьи наконец-то научился составлять роботс.

Но появилась одна проблема: Почему-то блогспот не принимает роботс с указанием главного зеркала. Пишет: содержимое robots.txt не соответствует правилам форматирования. Объясните пожалуйста в чем проблема.

Николай

На одном из сайтов в примере robots. txt предложено удалить Disallow: /*?* эту позицию.

А у вас она присутствует. Поясните. http://somemoreinfo.ru

Сайхан

Вот как выглядит мой Robots.txt:

User-agent: *

Disallow: /search

User-agent: Mediapartners-Google

Disallow:

Sitemap: http://мой сайт/sitemap.xml

Думаю что в моем случае удалять disallow, не лучший вариант. Потому-что без нее в поиске гугл появляются дубликаты страниц. Может вы знаете как это дело исправить.

Виталий

здравствуйте, подскажите пожалуйста!! Что означает вот такой роботс:

Disallow: /

Disallow: /users

Disallow: /admin/*

Sayxan

означает это то, что в роботсе запрещено индексировать все директории, адрес которых начинается с Users и admin

антолий

Здравствуйте, спасибо за ваши познавательные статьи. В свободное время веду блог на вордпрес и ваши материалы мне очень помогли хотя до сих пор остался двоечником, то ли время не хватает, или чего другого. Год назад я таки нашел место где находиться robots. txt и разместил там ваш немного подправив, не судите строго за «кражу», индексация шла отлично но эксперименты продолжались, и итог индексация начала идти туго. Но это не слишком волновало так как не было время заниматься блогом, но вот пришло время вспомнить, пришел опять к вам за информацией но не могу понять куда вткнуть роботекст для прикрепленного форума SMF. Хотя возможно и остальное всунул не туда куда надо. Не могли бы подсказать так или не так? navro. org / robots . txt

navro

Спасибо

slawa

Подскажите пожалуйста а подрубрики нужно закрывать от индексации,если нет могут быть дубли.Вот еще у вас на сайте в поиске главная страница выходит с категориями,как так же мне сделать.чтобы неотдельно а на главной.

vadim

Как правильно прописать робот, что бы индексировалась только главная страница сайта?

Сергей

Скажите пожалуйста хочу копированное описание (да и другие различные файлы-инструкции) закидывать в pdf и размещать на карточках товаров с анкором «Полное описание». А потом закрыть в robots все файлы pdf. По примеру из вашей стать:

User-agent: *

Disallow: *.pdf

Скажите такие действия рациональны? Я так добьюсь того, что в индекс не будут попадать различные файлы, которые я так закрою. Потому что много есть файлов которые попали в индекс: pdf, xls и т.д.

Артём

Ребята! Кто-нибудь, кто шарит, может мне настроить этот robots.txt и sitemap? Я заплачу деньги. Я запарился уже, весь интернет изрыл, ничего не понимаю. Ни кто не рассказывает от начала до конца, из чего слепить этот робот, куда и как засунуть. Все рассказывают только как для профессионалов.

Этот Саня Борисов тоже нарисовал там, всё как для себя. А ни кто не думал о том, что есть люди, которые не понимают в этих спицифических значках? И что до недавнего времени не знали, что вообще этот робот существует? Может поможет кто, популярно объяснит? Я уже бешусь. Откликнитесь пожалуйста...

Алексей

Здравствуйте Дмитрий!

Проанализировал файл robots.txt сайта ktonanovenkogo.ru и возникли вопросы

1. Для чего дублировать директивы указанные для всех ботов как директивы адресованные боту только Яндекса?

2. Вместо

Disallow: /vote

Disallow: /vote/

логично оставить что-то одно, скорее всего Disallow: /vote/

3.Вместо

Disallow: /feed/

Disallow: */*/feed/*/

Disallow: */feed

Disallow: */*/feed

также логично оставить только Disallow: /feed/

4.Вместо

Disallow: /wp-content/plugins

Disallow: /wp-content/cache

Disallow: /wp-content/uploads

целесообразно закрыть всю папку, т.к. там нечего индексировать Disallow: /wp-content/

5. Считаю необходимым запретить индексирование всех файлов .php Disallow: *.php$

P.S. Отдельно хотелось бы услышать (уже не по сайту ktonanovenkogo.ru) про целесообразность Allow: /wp-content/uploads/ насколько это необходимо, ведь робот и по ссылкам со страниц проиндексирует изображения?

Алексей

Артем, пиши на почту, помогу настроить

aleksandr

В robots.txt есть сточка Disallow: /*?*

Правильно я понимаю, что станицы , в которых присутствует знак ? не будут индексироваться. Например, http://morena.ru/catalog_content/faq/?CATEGORY_ID=1080 . Мне надо, что бы она индексировалась. Можно, это решить следующим образом

Disallow: /*?*

allow: /*?*faq*/

Александр

Подскажите, я добавил отредактированный файл robots.txt, открываю мойсайт/robots.txt а он не отредактированный с 2 строчками. Как быть, что делать?

Алексей

Добрый вечер.

Мне посоветовали для сайта на вордпресс этот робот тхт

на ваш взгляд он будет рабочий?

User-agent: *

Disallow: /wp-login.php

Disallow: /wp-register.php

Disallow: /xmlrpc.php

Disallow: /template.html

Disallow: /wp-admin

Disallow: /wp-includes

Disallow: /?s=

Host: pro-wordpress.ru

Sitemap: http://pro-wordpress.ru/sitemap.xml.gz

Sitemap: http://pro-wordpress.ru/sitemap.xml

User-agent: Googlebot-Image

Allow: /wp-content/uploads/

User-agent: YandexImages

Allow: /wp-content/uploads/

Антон

Здравствуйте.

У меня на сайте в статьях есть картинки, у каждой картинки есть своя страница вложения, и яндекс проиндексировал эти страницы и добавил их в поиск.

Вот ссылка с примером такой страницы:

http://zarabotok555.ru/zarabotok-na-vvode-kapchi/kapcha-registraciya/

Подскажите пожалуйста как запретить индексировать разом все такие страницы в robots.txt.

И нужно ли в обще запрещать индексировать такие страницы.

Заранее спасибо.

С уважением, Антон

александр

Добрый день прочитал статью...не нашёл ответа почему мне спецы по настройке сайта порекомендовали так сделать мой файл роботс. И как мне можно дать доступ к отдельным статьям на сайте или так и оставить? просто растёт колчество страниц запрещённых роботом, я делаю очень много уникальных статей.

User-agent: *

Allow: /

Disallow: /articles$

Disallow: /articles/tag/

User-agent: Yandex

Allow: /

Disallow: /articles$

Disallow: /articles/tag/

Host: grizli51.ru

Sitemap: http://grizli51.ru/sitemap.xml

Aleck

Спасибо за информацию!

Znet.ru

Даст ли какой-то плюс указание в роботсе отдельных директив для роботов Майла и Гугла?

Дмитрий

Отличная статья.Спасибо!

Алексей

Возможно напишу не совсем туда куда надо, но вроде бы и туда попал)

Проблема у меня в том, что я хочу закрыть от индексации gallery . Там у меня страницы с уникальными изображениями, но из-за того что движок был написан «гениальными программистами» при добавление галереи в статью она еще доступна в общей галереи и в итоге создается такой неприятный дубль... Я думал над решением проблемы и решил, что мне поможет закрыть от индексации каталог gallery и задался вопросом будут ли у меня индексироваться изображения который находятся в статье, но ссылки на эти изображения: сайт-gallery-images изображение.жпг Еще можно ли решить эту проблему просто запретив индексацию всем кроме бота картинок яндекса и гугла?

AgrikNug

Благодарю,

Аня

Здравствуйте. Скажите пожалуйста а в строке

Host: ваш_домен.ru

тут должен быть именно «.ru» ? или то что в доменном имени? «.сom» или «.ua» ? Извините за, возможно, тупой вопрос, но я прям чайник чайный, а знать нужно))

Андрей

Здравствуйте. что этот пунк запрещяет?- Disallow: /search

Дмитрий

Андрей: страницы внутреннего поиска по сайту (если ваш движок добавляет к их адресу слово search). Поисковые системы не любят, когда эти странички лезут в их индекс, ибо их может быть бесконечно много и они его попросту засоряют (повышают затраты поисковика на их хранение и обработку).

Никита

Здравствуйте, Дмитрий.

Создаю сайт на wp по вашим советам и интересует почему в роботсе блокируется feed,это же вроде rss лента.

Также, Алексей, писал выше пример его роботса, нужны ли там строки:

User-agent: Googlebot-Image

Allow: /wp-content/uploads/

User-agent: YandexImages

Allow: /wp-content/uploads/

Артем

А если я файл robots.txt не делал и не добавлял на сервак, но через адресную строку сайт/robots.txt он есть, хотя при подключении по фтп я его не нахожу, это значит его нет??? или он где-то спрятан? с файлом sitemap такая же ситуация

Артем

Дмитрий, не увидел ответ на главный вопрос: если стоит плагин all seo pack, нужно вручную создавать и заполнять robots.txt? Если да, то насколько актуален код Robots на сегодняшний день, ведь статье уже 7 лет

Сергей

Через браузер нахожу свой robots.txt такой:

Пользователь-агент: *

Запретить: /WP-администратора/

Позволит: /wp-admin/admin-ajax.php

Что он обозначает?

Но в панели TimeWeb не могу найти файл robots.txt Все папки просмотрел.

Где его найти?

anurik

Здравствуйте! Подскажите почему яндекс мне выдает, что сайт закрыт к индексации? хотя у меня стоит стандартный роботс joomla.

Данил

Подскажите а где в админ панели сайта я могу изменить файл robots.txt точнее куда вставлять скорректированный файл?

Подписаться не комментируя