Ускоряем индексацию сайта поисковиками — создание правильного файла robots.txt для Joomla, SMF, WordPress, добавляем в robots.txt директиву Host для Яндекса
Это вторая статья из серии, посвященной созданию и оптимизации файла robots.txt (с содержанием первой статьи вы можете ознакомиться здесь: Улучшаем индексацию сайта поисковиками — Robots.txt для Joomla, SMF, WordPress — Часть 1) . Файл robots.txt в купе с мета-тегом Robots позволяют указать поисковым системам какие страницы сайта индексировать, а какие нет.
К тому же, у проектов, созданных на основе какого-либо движка (Joomla, WordPress, SMF и др), имеется множество вспомогательных файлов не несущих никакой информативной нагрузки. Если не запретить индексацию всего этого мусора в robots.txt, то время, отведенное поисковыми системами на индексацию вашего сайта, будет тратиться на перебор поисковыми ботами файлов движка на предмет поиска в них информационной составляющей. В этом случае, времени на полноценную индексацию сайта может не остаться.
Как запретить индексацию поисковыми системами дубликатов на сайте через robots.txt
Кроме того, следует стремиться к уникальности контента на своем проекте и не следует допускать дублирования контента (информационного содержимого) вашего сайта в индексе поисковых систем. Дублирование может возникнуть в том случае, если один и тот же материал будет доступен по разным адресам. Поисковые системы, проводя индексацию сайта, обнаружат дубли и, возможно, примут меры к некоторой пессимизации вашего ресурса.
Если ваш проект создан на основе какого-либо движка (Joomla, SMF, WordPress), то дублирование контента будет иметь место возможно с высокой вероятностью, а значит нужно с ним бороться, в том числе и с помощью запрещающих индексацию директив файла robots.txt.
Например, в WordPress, страницы с очень похожим содержимым, могут попасть в индекс поисковика если разрешена индексация содержимого рубрик, содержимого архива тегов и содержимого временных архивов. Но если с помощью мета-тега Robots запретить индексацию архива тегов и временного архива (можно теги оставить, а запретить индексацию содержимого рубрик), то дублирования контента не возникнет. Для этой цели в WordPress лучше всего будет воспользоваться возможностями плагина All in One SEO Pack.
Еще сложнее с дублированием контента обстоит дело в форумном движке SMF. Если не производить тонкую настройку индексации сайта поисковиками в robots.txt, то в индекс поисковых систем попадут многократные дубли одних и тех же постов. В Joomla иногда возникает проблема с дублированием контента обычных страниц и их копий, предназначенных для печати.
Robots.txt предназначен для задания глобальных правил запрета индексации в целых директориях, либо в файлах и директориях, в названии которых присутствуют заданные символы (по маске). Примеры задания таких правил вы можете посмотреть в первой статье этой серии: Назначение и синтаксис файла robots.txt.
Для запрета индексации поисковыми системами одной единственной страницы, удобно использовать мета-тег Robots, который прописывается в шапке (между тегами HEAD) нужной страницы. Подробно о синтаксисе мета-тега Robots можно почитать здесь: Назначение и синтаксис мета-тега Robots. Для запрета индексации внутри страницы можно использовать тег NOINDEX, но он, правда, поддерживается только поисковой системой Яндекс.
Включение директивы Host в файл robots.txt для Яндекса
Теперь давайте рассмотрим конкретные примеры robots.txt, предназначенного для разных движков - Joomla, WordPress и SMF. Естественно, что все три файла robots.txt, созданные для разных движков, будут существенно (если не сказать кардинально) отличаться друг от друга. Правда, будет во всех этих robots.txt один общий момент и момент этот связан с поисковой системой Яндекс.
Т.к. в рунете поисковик Яндекс имеет достаточно большой вес, то нужно учитывать все нюансы его работы, то для корректной индексации сайта Яндексом нужно добавить директиву Host в файл robots.txt. Эта директива, в явной форме, укажет Яндексу главное зеркало вашего сайта. Более подробно почитать об этом вы можете здесь: Директива Host, позволяющая задать главное зеркало сайта для Яндекса.
Для указания директивы Host советуют использовать отдельную директиву User-agent в файле robots.txt, предназначенную только для Яндекса (User-agent: Yandex). Это связано с тем, что остальные поисковые системы могут не понимать директиву Host и, соответственно, ее включение в директиву User-agent, предназначенную для всех поисковиков (User-agent: *), может привести к негативным последствиям.
Как обстоит дело на самом деле - сказать трудно, ибо алгоритмы работы поисковиков - это вещь в себе, поэтому лучше сделать в robots.txt все так, как советуют. Но в этом случае в файле robots.txt вам придется дублировать в директиве User-agent: Yandex все те правила, что вы задали в директиве User-agent: *. Если вы оставите директиву User-agent: Yandex с пустой директивой Disallow:, то таким образом вы в robots.txt разрешите Яндексу индексировать все содержимое сайта.
Прежде чем перейти к рассмотрению конкретных вариантов файла robots.txt, хочу вам напомнить, что проверить работу своего файла robots.txt вы можете в панелях вебмастеров поисковых систем. О том, как это сделать, вы можете почитать в материалах этой рубрики - Панели для вебмастеров в поисковых системах.
Правильный robots.txt для форума на движке SMF (Simple Machines Forum)
Для форума на движке SMF правильным будет файл robots.txt следующего содержания (взят с форума технической поддержки SMF из ) :
User-agent: * Allow: /forum/*sitemap Allow: /forum/*arcade Allow: /forum/*rss Disallow: /forum/attachments/ Disallow: /forum/avatars/ Disallow: /forum/Packages/ Disallow: /forum/Smileys/ Disallow: /forum/Sources/ Disallow: /forum/Themes/ Disallow: /forum/Games/ Disallow: /forum/*.msg Disallow: /forum/*.new Disallow: /forum/*sort Disallow: /forum/*topicseen Disallow: /forum/*wap Disallow: /forum/*imode Disallow: /forum/*action User-agent: Slurp Crawl-delay: 100
Обратите внимание, что этот robots.txt приведен для того случая, когда ваш форум SMF установлен в директории forum основного сайта. Если форум не стоит в директории, то просто удалите из всех правил /forum. Авторы данного варианта файла robots.txt для форума на движке SMF говорят, что он даст максимальный эффект, если вы не будете активировать на своем форуме дружественные URL (ЧПУ).
Дружественные URL в SMF можно активировать или дезактивировать в админке форума, пройдя по следующему пути: в левой колонке админки выбираете пункт "Характеристики и настройки", в нижней части открывшегося окна находите пункт "Разрешить дружественные URL ", где можете поставить или снять галочку.
Еще один правильный файл robots.txt для форума SMF (но, наверное, еще не окончательно оттестированный):
User-agent: * Allow: /forum/*sitemap Allow: /forum/*arcade # если не стоит мод игр, удалить без пропуска строки Allow: /forum/*rss Allow: /forum/*type=rss Disallow: /forum/attachments/ Disallow: /forum/avatars/ Disallow: /forum/Packages/ Disallow: /forum/Smileys/ Disallow: /forum/Sources/ Disallow: /forum/Themes/ Disallow: /forum/Games/ Disallow: /forum/*.msg Disallow: /forum/*.new Disallow: /forum/*sort Disallow: /forum/*topicseen Disallow: /forum/*wap Disallow: /forum/*imode Disallow: /forum/*action Disallow: /forum/*prev_next Disallow: /forum/*all Disallow: /forum/*go.php # либо тот редирект что стоит у вас Host: www.мой сайт.ru # указать ваше главное зеркало User-agent: Slurp Crawl-delay: 100
Как вы можете видеть в этом robots.txt, директива Host, предназначенная только для Яндекса, включена в директиву User-agent для всех поисковиков. Я бы, наверное, все-таки добавил отдельную директиву User-agent в robots.txt только для Яндекса, с повтором всех правил. Но решайте сами.
Правило:
User-agent: Slurp Crawl-delay: 100
связано с тем, что поисковая система Yahoo (Slurp - это имя его поискового бота) сканирует ваш сайт в много потоков, что может негативно сказаться на его производительности. В этом правиле robots.txt, директива Crawl-delay, позволяет задать поисковому роботу Yahoo минимальный период времени (в секундах) между концом закачки одной страницы и началом закачки следующей. Это позволит снять нагрузку на сервер при индексации сайта поисковой системой Yahoo.
Для удаления из индекса поисковиков версий для печати страниц форума SMF рекомендуют проделать, описанные ниже операции (для их осуществления понадобится открыть некоторые файлы движка на редактирование - Как открыть файл вашего сайта на редактирование с помощью программы FileZilla). В файле Sources/Printpage.php находите (например, с помощью встроенного поиска в Notepad++) строку:
fatal_lang_error(472, false);
Вставляете сразу под ней:
$context['robot_no_index'] = true;
В файле Themes/название_вашей_темы_оформления/Printpage.template.php находите строку:
<meta http-equiv="Content-Type" content="text/html; charset=', $context['character_set'], '" />
Вставляете ниже нее следующую строку:
<meta name="robots" content="noindex" />
Если вы так же хотите, чтобы в версии для печати была ссылка для перехода на полную версию форума (в случае, если часть страниц для печати уже попали в индекс поисковиков), то в том же файле Printpage.template.php вы находите строку с открывающим тегом HEAD:
<head>
И вставляете ниже строку:
<a href="http://www.мой сайт.ru/">На форум</a>
Получить больше информации по этому варианту файла robots.txt для форума SMF вы можете, почитав русскоязычного форума поддержки SMF.
Правильный robots.txt для сайта на Joomla
Рекомендованный файл robots.txt для Joomla выглядит так:
User-agent: * Disallow: /administrator/ Disallow: /cache/ Disallow: /components/ Disallow: /images/ Disallow: /includes/ Disallow: /installation/ Disallow: /language/ Disallow: /libraries/ Disallow: /media/ Disallow: /modules/ Disallow: /plugins/ Disallow: /templates/ Disallow: /tmp/ Disallow: /xmlrpc/
В принципе, здесь практически все учтено и работает этот файл robots.txt для Joomla хорошо, запрещая индексацию поисковыми системами того, что индексировать не следует. Единственное, в этот правильный robots.txt следует добавить отдельное правило User-agent: Yandex для вставки директивы Host, определяющей главное зеркало сайта для Яндекса, а так же указать в robots.txt путь к файлу Sitemap. Поэтому в окончательном виде правильный robots.txt для Joomla, по-моему мнению, должен выглядеть так:
User-agent: * Disallow: /administrator/ Disallow: /cache/ Disallow: /includes/ Disallow: /installation/ Disallow: /language/ Disallow: /libraries/ Disallow: /media/ Disallow: /modules/ Disallow: /plugins/ Disallow: /templates/ Disallow: /tmp/ Disallow: /xmlrpc/ User-agent: Yandex Disallow: /administrator/ Disallow: /cache/ Disallow: /includes/ Disallow: /installation/ Disallow: /language/ Disallow: /libraries/ Disallow: /media/ Disallow: /modules/ Disallow: /plugins/ Disallow: /templates/ Disallow: /tmp/ Disallow: /xmlrpc/ Host: vash_sait.ru Sitemap: http://vash_sait.ru/index.php?option=com_xmap&sitemap=1&view=xml&no_html=1
Да, еще обратите внимание, что во втором варианте файла robots.txt для Joomla нет директивы Disallow: /images/, запрещающей индексацию картинок вашего сайта. Я забыл сначала акцентировать ваше внимание на этом, но мне об этом напомнил уважаемый Alex, написавший следующее:
В Joomla не правильно закрывать от индексации поисковыми системами папку Images. Закрыв ее от индексации в robots.txt, вы не будете участвовать в поиске по картинкам Яндекса и Google. А если у вас еще и изображения уникальные, так вы будете терять еще один весомый аргумент, для показа поисковикам, что ваш проект интересный
Полностью с ним согласен в том, что если изображения, используемые на вашем проекте уникальные, и вы хотите, чтобы посетители находили ваш сайт еще и с поиска по картинкам от Яндекса и Google, то обязательно удалите это правило из своего файла robots.txt, но так же не забывайте прописывать всем вашим изображениям атрибуты Alt и Title (Для участия ваших изображений в поиске по картинкам Яндекса и Google прописываем теги ALT и TITLE). Именно по ключевым словам, прописанным в этих атрибутах и будут приходить целевые посетители на ваш проект с поиска по картинкам Яндекса и Google.
При создании интернет магазина для Joomla на основе компонента VirtueMart я столкнулся с тем, что в индекс поисковой системы стали попадать версии для печати страниц этого самого магазина. Кнопка, ведущая на страницу для печати, была необходима (заказчик так хотел), поэтому оставался только вариант с запрещением индексации страниц для печати в robots.txt.
Но все оказалось совсем не сложно. Дело в том, что для создания версии для печати в Joomla используется такой же адрес страницы, за исключением одного: обращение идет не к файлу index.php, а к файлу index2.php. При этом не осуществляется загрузка шаблона Joomla, т.е. выводится только содержимое страницы на весь экран. Поэтому, для запрещения индексации версий страниц для печати в VirtueMart, я добавил в файл robots.txt для Joomla следующее правило:
Disallow: /index2.php?page=shop
Вы тоже можете добавлять свои правила в robots.txt, но после этого обязательно проверьте robots.txt - достигли ли вы желаемого результата. Для это используйте соответствующие инструменты панелей вебмастеров поисковиков.
Правильный robots.txt для блога на WordPress
Не буду приводить пример файла robots.txt для WordPress, который рекомендуют разработчики. Вы и сами можете его посмотреть. Многие блогеры вообще не ограничивают роботов поисковых систем в индексации их блогов на WordPress. Чаще всего в WordPress блогах можно встретить файл robots.txt автоматически заполненный плагином Google XML Sitemaps (Установка и настройка плагина для WordPress Google XML Sitemaps для создания карты сайта в формате XML — для поисковых систем), в котором присутствует лишь ссылка на адрес карты сайта для WordPress-блога, созданной этим плагином.
Но, по-моему, все-таки следует запретить индексацию в robots.txt тех файлов вашего блога на WordPress, которые не имеют отношения к информационный составляющей. Во-первых, на это уйдет много времени у поискового бота и может совсем не остаться времени для индексации статей на вашем блоге под управлением WordPress. Во-вторых, индексация всего того мусора, что вы поленитесь запретить в robots.txt для индексации в WordPress, будет создавать довольно приличную нагрузку на сервер, а у WordPress и без этого есть с этим проблемы (Оптимизируем блог на WordPress для снижения его нагрузки на сервер хостинг-провайдера).
Поэтому, здесь я приведу в правильный robots.txt для блога на WordPress, а вам уже решать, использовать его в таком виде, использовать свой вариант robots.txt для WordPress или же не использовать robots.txt вовсе:
User-agent: * Disallow: /cgi-bin Disallow: /wp-admin Disallow: /wp-includes Disallow: /wp-content/plugins Disallow: /wp-content/cache Disallow: /wp-content/themes Disallow: /trackback Disallow: */trackback Disallow: */*/trackback Disallow: */*/feed/*/ Disallow: */feed Disallow: /*?* User-agent: Yandex Disallow: /cgi-bin Disallow: /wp-admin Disallow: /wp-includes Disallow: /wp-content/plugins Disallow: /wp-content/cache Disallow: /wp-content/themes Disallow: /trackback Disallow: */trackback Disallow: */*/trackback Disallow: */*/feed/*/ Disallow: */feed Disallow: /*?* Host: ktonanovenkogo.ru Sitemap: http://ktonanovenkogo.ru/sitemap.xml.gz Sitemap: http://ktonanovenkogo.ru/sitemap.xml
Пока что индексация блога при таком варианте файла robots.txt для WordPress меня полностью устраивает. Но запрет на индексацию определенных страниц блога задаются не в этом файл, а с помощью мете-тега Robots. Он у меня используется для запрета индексации страниц с архивом тегов и временным архивом.
Для того, чтобы прописать этот тег я не прибегал к правке кода файлов движка WordPress. В этом не было необходимости, т.к. все это можно осуществить простой установкой или снятием галочек в соответствующих пунктах чудесного плагина для WordPress - All in One SEO Pack (Установка и настройка плагина All in One SEO Pack.). Более подробно об этом можете прочитать на здесь: Убираем дублированный контент из индекса поисковиков.
Вы так же можете ознакомиться с другими статьями на тему продвижения сайта:
- Продвижение сайта в поисковых системах (SEO)
- Панели вебмастеров Яндекса, Google, Yahoo, Bing
- Счетчики посещаемости LiveInternet, Mail.ru, Google Analytics, HotLog, SpyLog, Rambler, Я.Метрика
- Twitter и FriendFeed
- E-mail рассылки Subscribe, Content.Mail и MailList
- Постинг в сервисы социальных закладок для продвижения своего сайта, привлечения дополнительных посетителей и ускорения индексации сайта поисковиками
- Показатели продвижения вашего сайта — Google PageRank (PR), тематический индекс цитирования Яндекса (ТИЦ) и Alexa Rank
- Все про RSS (фид, feed)
- Улучшаем индексацию сайта поисковиками с помощью настройки файла robots.txt и мета-тега Robots
- GoGetLinks — самая выгодная биржа рекламных обзоров
- Получение множества бесплатных обратных ссылок (бэклинков) с трастовых сайтов
На сегодня все. Если вы не хотите пропустить появление новых материалов на этом сайте, то можете подписаться на рассылку новостной ленты через форму, расположенную чуть ниже, или же выбрать удобный для вас способ подписки на странице Подписка. Если у вас остались нерешенные вопросы из области вебмастеринга, то вы можете поискать на них ответы, посетив страницу Вопросы и ответы.
Удачи вам! До скорых встреч на страницах блога KtoNaNovenkogo.ru















а вот я не пойму правильно ли я robots.txt составил. у меня яндекс карту сайта не хочет принимать вот ошибка : Некорректный URL (не соответствует местоположению файла Sitemap) ничего не понимаю правильно всё. Без Sitemap замедлится индексация
Alex, простите, вы когда этот урл в адресную строку браузера вставляете, у вас карта сайта открывается?
да всё в порядке кажется я понял в чём дело,я неправильно файл robots заполнил щас обновил карту тоже посмотри что будет в Яндексе
Блогу на Wordpress около 3х недель — google проиндексировал 59 страниц, остальные поисковики по одной, кто нибудь может подсказать в чем может быть проблема? Хотя судя по панели вебмастеров того же Яндекса робот регулярно на блог заходит.
test, есть определенные способы ускорить индексацию блога Яндексом, но не стопроцентные. Например, можно создать блог в Я.ру и написать текст со ссылкой на ваш блог WordPress. Тоже самое можно сделать на любом бесплатном блогохостинге (livejournal.com, blog.ru, liveinternet.ru и др.).
Иногда срабатывает способ создания ресурса на народе Яндекса с ссылкой в тексте на ваш блог. Можно попробовать добавить блог в яндекс закладки.
В joomla не правильно закрывать от индексации в robots.txt папку images. Закрыв ее от индексации вы не будете участвовать в поиске по картинкам Яндекса и Google. А если у вас еще и фото уникальные так будете терять еще один весомый аргумент, для показа поисковикам что ваш ресурс интересный .
ах в предудыщем коменте ошибся, по умолчанию в роботс от joomla images закрыт, в вашем примере его нет.
Alex, спасибо большое за напоминание. Я действительно открыл индексацию картинок в robots.txt, но забыл об этом упомянуть в статье. Сейчас добавлю. =)
обновил robots, но всё равно та же ошибка при попытке принять карту сайта в Яндекс. Некорректный URL (не соответствует местоположению файла Sitemap)
и вот ещё не только в Яндексе, но и в Google не принимает Sitemap, возможно, что тоже из-за неправильно созданного robotshttp://example.com/sitemap.xml) . Однако, URL, перечисляются внутри файла Sitemap делают использование WWW префикс (например, http://www.example.com/myfile.htm) .
Пути не совпадают
Мы обнаружили, что Вы передали Карта сайта используя путь, который не включает WWW префикс (например,
Alex, попробуйте посмотреть“Справочник по ошибкам обработки файлов Sitemap от самого Яндекса” .
Уважаемый автор и уважаемый Alex! Огромное спасибо вам за замечание о том, что нужно разрешить индексацию картинок в robots.txt! У меня ресурс с открытками, и я всё не мог понять, почему их нет при поиске картинок Яндекса и Google. Как же я рад!!(наверное всем знакомо чувство,когда ищешь какую-то ошибку и потом ее находишь).
и у меня еще вопрос. На моем проекте ра Joomla (указан на нике) стоит virtuemart (в качестве каталога). Пользуюсь sh404sef для создания уникальных title. Проблема в том, что у меня создаются странички типаhttp://www.имя проекта/имя страницы.html?pop=0.
Над каждым товаром сверху у меня две ссылки с названиями, как я понимаю, двух ближайших товаров. Нажимая на эту ссылку, я перехожу по адресу нужной открытки, но в конце стоит эта приставка ?pop=0. Проблема в том, что Яндекс осуществил индексацию, почему-то именно этих адресов,а на их title не оптимизирован.Тоже получается дублирование контента. Как мне убрать эти адреса из индекса поисковиков в robots.txt и появятся ли потом адреса без приставки в поиске?
Ага, порадовался, что разрешил индексировать папку images в robots.txt, а потом понял, что картинки у меня хранятся в /components/com_virtuemart/shop_image. Что мне теперь делать? Разрешать индексировать /components/или внести запреты на все папки в /components/ кроме /com_virtuemart/?
Дмитрий, посмотрел в хелпе Яндекса, но ничего такого не понял
medvedev, попробуйте разные варианты создания robot.txt для доступа поисковиков к вашим картинкам. Работоспособность созданного вами файла вы можете проверить в панелях вебмастеров Гугла и Яндекса. Как это сделать вы можете прочитать в этих статьях:Работа с панелями вебмастеров Яндекса, Google, Yahoo, Bing (sitemap, robot.txt, индекс, запросы) – Часть 1 и здесь: Работа с панелями вебмастеров Яндекса, Google, Yahoo, Bing (sitemap, robot.txt, индекс, запросы) — Часть 2
Дмитрий, спасибо, я воспользовался вашими ссылками. В итоге у меня получилось запретить индексацию поисковиками адресов с концовкой в robots.txt
.html?pop=0из поиска, добавив правило:Disallow: *.html?pop=0$.Ну а картинки VirtueMart я разрешил к индексации в robots.txt, убрав из правил папку /components/,а затем запретив индексацию в ней всех папок, кроме той, в которой хранятся картинки VirtueMart. Буду ждать обновления Яндекса. Еще раз спасибо.
medvedev, не за что. Рад был помочь. Спасибо, что подробно описали ваш вариант решения отмены запрета индексации папок с изображениями в robots.txt. Может кому-нибудь пригодится. =)
Здравствуйте, уважаемые эксперты! Вопрос об улучшении и ускорении индексации поисковиками картинок. У меня стоит virtuemart, картинки выводятся там java-скриптом. И после скрипта альтернативный вывод картинки в тегах .
Проблема: картинки не индексируются поисковыми системами!
Получается то, что заключено между тегами , поисковики не видят. Подскажите, пожалуйста, что можно сделать для индексации картинок в robots.txt?
извиняюсь, имелся ввиду тег
medvedev: возможно, что у вас закрыта от индексации в robots.txt папка, где лежат изображения. Если с этим все в порядке, то не знаю, в чем может быть проблема.
Дмитрий:
Спасибо за ответ! Папка открытка для индексации поисковыми системами (научился благодаря вашему блогу). Думаю, проблема в самом выводе картинки.Она выводится через java-скрипт, а он не индексируется поисковиками. И, как видно, содержимое тегов noscript тоже. Как бы сделать так, чтобы сохранялось предназначение тегов noscript, и в то же время, картинка между этими тегами индексировалась? Кто знает, подскажите.
medvedev говорит, что:
Подскажи, пожалуйста как какую именно строчку в robots.txt надо вписать, чтобы товары в вирте индексировались поисковыми системами. С уважением.
Алексей: для решения проблем с индексацией убираете из стандартного файла robots.txt для Joomla правило
Но в замен него добавляете в robots.txt disallow на все папки внутри каталога components, кроме com_virtuemart, например:
Подскажите, а как запретить в robots.txt индексацию определенных страниц на движке joomla. Дело в том, что некоторые из них я удалил, а поисковыми системами они по прежнему индексируются.http://clickforeplay.ru/index.php/menu/173-lockerz-
одна из них. Как должна выглядеть запись в robots.txt ?
Огромное спасибо за индексацию images!
Вадим: из индекса Яндекс сам удалит такие страницы, со временем. А что бы пользователи, перешедшие с поисковиков по этим не рабочим ссылкам, не были для вас потеряны – оформите свою страницу 404 соответствующим образом. Например, так. Для ресурса, приведенного в пример, это было сделано с использование возможностей расширения ARTIO JoomSEF.
а есть ли какие-нибудь другие похожие расширения? или это только одно такого рода? (ARTIO JoomSEF.)
Интересно, для бота Яндекса зачем дублировать строки Disallow в robots.txt.
Ведь есть *
близкий: потому, что для Яндекса должно быть прописано в robots.txt хотя бы одно Disallow при добавлении директивы Host. А раз так, то придется повторять все для Яндекса отдельно, т.к. Disallow разрешающее индексирование всего сайта или запрещающее индексирование всего нам не подойдет.
Дмитрий: перепроверил, вот что рекомендует Яндекс:http://www.myhost.ru
#Пример корректно составленного robots.txt, при обработке
#которого директива Host учитывается
User-Agent: *
Disallow:
Host:
#Примеры некорректно составленных robots.txt, при обработкеhttp://www.myhost.ru
#которых директива Host может не учитываться
User-Agent: *
Host:
Пойду исправлю robots.txt
Спасибо! отредактировал robots.txt
А то такое ощущение роботами мой сайт вообще не индексируется.
Яндекс определил главную, как закрытую в robots.txt. Но на сайте вообще нет этого файла! Не подскажите в чём может быть проблема?
хорошая статья про ускорение индексации сайта и правильный robots.txt. помогла лично мне. 5+
Может мне сможете тоже помочь!? Проблема вот какого плана, в Яндекс Вебмастере мне выдаются предупреждения следующего вида:
- для главной
/index.php?format=feed&type=rss
/index.php?format=feed&type=atom
- и для страниц разделов тоже самое
/index.php/razdel?format=feed&type=rss
/index.php/razdel?format=feed&type=atom
Я так понимаю их можно запретить к индексации в robots.txt? А можно что то сделать с Joomla, чтобы эти страницы не генерировались?
Заранее спасибо!
Дмитрий у меня текст на главной странице не индексируется поисковиками, выдает ошибку:”Сервер не указывает тип документа, указывает неправильно или указанный тип не поддерживается Яндексом. ” что это может быть и как это можно исправить в robots.txt?
Ой меня тоже очень волнует вопрос по поводу строчек rss в панели яндекс-вебмастера. И еще – как запретить к индексации страницы – ре6зультаты поиска (модуль Joomla стандартный)?
Artem: Александр: ivolga: извините, но ответов на ваши вопросы я не знаю.
Ваш robot.txt запрещает индексацию всех страниц. Ошибка здесь:
Disallow: */trackback
Disallow: */*/trackback
Disallow: */*/feed/*/
Disallow: */feed
т.к. Disallow: */ – означает запрет индексации всех без исключения страниц.
Вот что выкопал в руководстве Яндекса по составлению robots.txt:
При написании robots.txt необходимо помнить, что у робота есть разумное ограничение на его размер. Слишком большие robots.txt (более 256 Кб) считаются полностью разрешающими, то есть рассматриваются аналогично:
User-agent: Yandex
Disallow:
…предложенный Вами вариант файла тянет на все 690 Кб. Это что же получается – Ваш robots.txt по определению “отталкивает” индексирующего робота? (Или я не до конца разобрался?) о_О
И еще одно:
…в настройках XML-Sitemap Generator есть настраиваемый пунктик:
Add sitemap URL to the virtual robots.txt file. (Добавить карту сайта в виртуальный файл robots.txt)
…а под ним подпись:
The virtual robots.txt generated by WordPress is used. A real robots.txt file must NOT exist in the blog directory! (Используется виртуальный robots.txt, сгенерированный ВордПрессом. Настоящий robots.txt НЕ ДОЛЖЕН присутствовать в директории блога)
1. Где скрывается виртуальный robots.txt? Хочется взглянуть на его содержимое!
2. Если мы доверяем плагину создать robots.txt, соответственно – нам не нужно прописывать этот файл отдельно в корне, правильно?
Директиву Host с www надо указывать в robots.txt для Яндекса или без WWW?
Life-trip: Если главное зеркало вашего проекта определено с www, то в robots.txt для Яндекса в директиве Host имя вашего ресурса с www надо указывать. Подробнее о выборе и задании главного зеркала читайте здесь – Домены с www и без www — история появления, использование 301 редиректа для их склеивания
Спасибо, как раз искал правильный robots.txt для WordPress
А как себя поведет робот того же Яндекса, когда в robots.txt встретит сначала правила для всех роботов? Будет ли он работать по правилам для него из конца роботс.txt или прогонит по первой части?
Не лучше ли блоки с отдельными роботами ставить вперед, а для всех остальных в конец robots.txt. Тогда zif пропустив “не его блок”, дойдет до “своего” и учтет его правила. Остальные роботы пропустят так же не свои блоки и прогонят только по общим правилам.
Bahus: нет, все должно быть в robots.txt для Яндекса именно так, как я описал. Можете посмотреть robots.txt на разных ресурсах, наверняка, встретите подобную конструкцию.
не подскажите в чем может быть проблема, Яндекс произвел индексацию сайт, новые странички добавляет, но все странички видны только ТАЙТЛАМИ, под ссылкой нет текста. Как будто текст не про индексировался яндексом
MFT: этот текст под ссылкой в поисковой выдаче, если не ошибаюсь, называется сниппет. Так вот, на первых порах поисковики в качестве сниппета используют содержимое мета-тега DESCRIPTION. Возможно, что этот мета-тег у вас пустой. Подробнее об этом можете почитать здесь – Внутренняя оптимизация сайта
Подскажите пожалуйста. Создал блог на Joomla, Вроде все основные поисковики провели индексацию сайта нормально. Но я заметил что в Яндексе индексация страницы разбиения главной страницы (http://мой проект.ru/index.php, http://мой проект/index.php?start=10, http://мой проект/index.php?start=20 и т.д.) на будет ли это дублированием контента. Может мне в robots.txt запретить индексацию index.php.
Извиняюсь, ещё вопрос. В панели инструментов Googlе на те же страницы которые я приводил в предыдущем вопросе выдаёт “Повторяющиеся заголовки (теги title)” на повредит ли это индексации сайта. Заранее спасибо.
tschkh: вопрос конечно интересный, у меню точно такая же ситуация с индексацией, как и у вас. Никаких мер не предпринимал, пока полет, вроде, нормальный. Думаю, что не стоит заморачиваться с этим, а пока оставить так, как есть.
Здравствуйте!В статье приведен пример правильного файла robots.txt для WordPress…у Вас в файле robots.txt перед строкой User-agent: * вставлен еще дополнительный код
его тоже лучше добавить в robots.txt? Спасибо!!!
Ирина: директиву Crawl-delay в robots.txt вы можете использовать в том случае, если на сервер вашего хостинга идет серьезная нагрузка (например, при большой посещаемости). Директива Crawl-delay (во всяком случае пытается) поисковому роботу минимальный период времени (в секундах) между концом закачки одной страницы и началом закачки следующей.
Т.е она определяет интенсивность индексации сайта поисковом роботом. Тем самым вы несколько снизите нагрузку, создаваемую поисковыми роботами. Если проблем с нагрузкой на сервер хостера нет, то директиву Crawl-delay можно не добавлять.
Всё понятно… спасибо за разъяснения по robots.txt… Удачи Вам и Вашему замечательному блоку
Кто может помочь ? Закачиваю robots.txt на хостинг (случайно удалил) в ответ получаю 553 Disk full – please upload later .А места на диске 14 гб.У кого какие мысли на счет этого ?
Добрый день! Подскажите кто понимает проблему. Sitemap Generator генерит много таких ссылок:http://mysite.com.ua/index2.php?vmcchk=1&option=com_virtuemart&category_id=6&page=shop.browse&Itemid=2&pop=1&tmpl=component
Вставил в Robot.txt правило: Disallow: /index2.php?vmcchk=1&
по примеру Disallow: /index2.php?page=shop которое рекомендоал Дмитрий, но все равно генерит… Что я сделал криво?
Prado: не знаю, к хостеру попробовать обратиться надо, наверное.
Андрей: вроде все должно работать.
Составила для джумлы robots.txt, как Вы рассказали, загрузила в гугл Sitemap, а Гугл и говорит: не могу твой Sitemap посмотреть, т.к. он запрещен к индексации файлом robots.txt.
А Яндексу всё понравилось.
Подскажите, как Гугл допустить к Sitemap-у?
У меня имя файла Site Maphttp://enioway.ru/index.php?option=com_xmap&sitemap=1&view=xml содержит знак “?”, а такие файлы, т.е. дубли контента, запрещены к индексации. Чё делать? Может как то еще по другому дубли запретить индексировать?
А то бедный Гугл никак не может посмотреть мой Sitemap
Подскажите, как правильно запретить страницы к индексации с суфиксом html.
Сайт на Joomla.
К примеру, надо запретить индексировать страницу _http://ktonanovenkogo.ru/new а страница вида _http://ktonanovenkogo.ru/new.html нужна для индексации.
Спасибо огромное, надеюсь получить ответ.