GoGetLinks — самая выгодная биржа рекламных обзоров

Ускоряем индексацию сайта поисковиками — создание правильного файла robots.txt для Joomla, SMF, WordPress, добавляем в robots.txt директиву Host для Яндекса

16 ноября, 2009 | Рубрика: Продвижение сайтов (SEO и SMO)

Улучшаем индексацию сайта поисковиками — Robots.txt для Joomla, SMF, WordPress — Часть 2Это вторая статья из серии, посвященной созданию и оптимизации файла robots.txt (с содержанием первой статьи вы можете ознакомиться здесь: Улучшаем индексацию сайта поисковиками — Robots.txt для Joomla, SMF, WordPress — Часть 1) . Файл robots.txt в купе с мета-тегом Robots позволяют указать поисковым системам какие страницы сайта индексировать, а какие нет.

К тому же, у проектов, созданных на основе какого-либо движка (Joomla, WordPress, SMF и др), имеется множество вспомогательных файлов не несущих никакой информативной нагрузки. Если не запретить индексацию всего этого мусора в robots.txt, то время, отведенное поисковыми системами на индексацию вашего сайта, будет тратиться на перебор поисковыми ботами файлов движка на предмет поиска в них информационной составляющей. В этом случае, времени на полноценную индексацию сайта может не остаться.

Как запретить индексацию поисковыми системами дубликатов на сайте через robots.txt

Кроме того, следует стремиться к уникальности контента на своем проекте и не следует допускать дублирования контента (информационного содержимого) вашего сайта в индексе поисковых систем. Дублирование может возникнуть в том случае, если один и тот же материал будет доступен по разным адресам. Поисковые системы, проводя индексацию сайта, обнаружат дубли и, возможно, примут меры к некоторой пессимизации вашего ресурса.

Если ваш проект создан на основе какого-либо движка (Joomla, SMF, WordPress), то дублирование контента будет иметь место возможно с высокой вероятностью, а значит нужно с ним бороться, в том числе и с помощью запрещающих индексацию директив файла robots.txt.

Например, в WordPress, страницы с очень похожим содержимым, могут попасть в индекс поисковика если разрешена индексация содержимого рубрик, содержимого архива тегов и содержимого временных архивов. Но если с помощью мета-тега Robots запретить индексацию архива тегов и временного архива (можно теги оставить, а запретить индексацию содержимого рубрик), то дублирования контента не возникнет. Для этой цели в WordPress лучше всего будет воспользоваться возможностями плагина All in One SEO Pack.

Еще сложнее с дублированием контента обстоит дело в форумном движке SMF. Если не производить тонкую настройку индексации сайта поисковиками в robots.txt, то в индекс поисковых систем попадут многократные дубли одних и тех же постов. В Joomla иногда возникает проблема с дублированием контента обычных страниц и их копий, предназначенных для печати.

Robots.txt предназначен для задания глобальных правил запрета индексации в целых директориях, либо в файлах и директориях, в названии которых присутствуют заданные символы (по маске). Примеры задания таких правил вы можете посмотреть в первой статье этой серии: Назначение и синтаксис файла robots.txt.

Для запрета индексации поисковыми системами одной единственной страницы, удобно использовать мета-тег Robots, который прописывается в шапке (между тегами HEAD) нужной страницы. Подробно о синтаксисе мета-тега Robots можно почитать здесь: Назначение и синтаксис мета-тега Robots. Для запрета индексации внутри страницы можно использовать тег NOINDEX, но он, правда, поддерживается только поисковой системой Яндекс.

Включение директивы Host в файл robots.txt для Яндекса

Теперь давайте рассмотрим конкретные примеры robots.txt, предназначенного для разных движков - Joomla, WordPress и SMF. Естественно, что все три файла robots.txt, созданные для разных движков, будут существенно (если не сказать кардинально) отличаться друг от друга. Правда, будет во всех этих robots.txt один общий момент и момент этот связан с поисковой системой Яндекс.

Т.к. в рунете поисковик Яндекс имеет достаточно большой вес, то нужно учитывать все нюансы его работы, то для корректной индексации сайта Яндексом нужно добавить директиву Host в файл robots.txt. Эта директива, в явной форме, укажет Яндексу главное зеркало вашего сайта. Более подробно почитать об этом вы можете здесь: Директива Host, позволяющая задать главное зеркало сайта для Яндекса.

Для указания директивы Host советуют использовать отдельную директиву User-agent в файле robots.txt, предназначенную только для Яндекса (User-agent: Yandex). Это связано с тем, что остальные поисковые системы могут не понимать директиву Host и, соответственно, ее включение в директиву User-agent, предназначенную для всех поисковиков (User-agent: *), может привести к негативным последствиям.

Как обстоит дело на самом деле - сказать трудно, ибо алгоритмы работы поисковиков - это вещь в себе, поэтому лучше сделать в robots.txt все так, как советуют. Но в этом случае в файле robots.txt вам придется дублировать в директиве User-agent: Yandex все те правила, что вы задали в директиве User-agent: *. Если вы оставите директиву User-agent: Yandex с пустой директивой Disallow:, то таким образом вы в robots.txt разрешите Яндексу индексировать все содержимое сайта.

Прежде чем перейти к рассмотрению конкретных вариантов файла robots.txt, хочу вам напомнить, что проверить работу своего файла robots.txt вы можете в панелях вебмастеров поисковых систем. О том, как это сделать, вы можете почитать в материалах этой рубрики - Панели для вебмастеров в поисковых системах.

Правильный robots.txt для форума на движке SMF (Simple Machines Forum)

Для форума на движке SMF правильным будет файл robots.txt следующего содержания (взят с форума технической поддержки SMF из этой темы ) :

User-agent: *
Allow: /forum/*sitemap
Allow: /forum/*arcade
Allow: /forum/*rss
Disallow: /forum/attachments/
Disallow: /forum/avatars/
Disallow: /forum/Packages/
Disallow: /forum/Smileys/
Disallow: /forum/Sources/
Disallow: /forum/Themes/
Disallow: /forum/Games/
Disallow: /forum/*.msg
Disallow: /forum/*.new
Disallow: /forum/*sort
Disallow: /forum/*topicseen
Disallow: /forum/*wap
Disallow: /forum/*imode
Disallow: /forum/*action

User-agent: Slurp
Crawl-delay: 100

Обратите внимание, что этот robots.txt приведен для того случая, когда ваш форум SMF установлен в директории forum основного сайта. Если форум не стоит в директории, то просто удалите из всех правил /forum. Авторы данного варианта файла robots.txt для форума на движке SMF говорят, что он даст максимальный эффект, если вы не будете активировать на своем форуме дружественные URL (ЧПУ).

Дружественные URL в SMF можно активировать или дезактивировать в админке форума, пройдя по следующему пути: в левой колонке админки выбираете пункт "Характеристики и настройки", в нижней части открывшегося окна находите пункт "Разрешить дружественные URL ", где можете поставить или снять галочку.

Еще один правильный файл robots.txt для форума SMF (но, наверное, еще не окончательно оттестированный):

User-agent: *
Allow: /forum/*sitemap
Allow: /forum/*arcade # если не стоит мод игр, удалить без пропуска строки
Allow: /forum/*rss
Allow: /forum/*type=rss
Disallow: /forum/attachments/
Disallow: /forum/avatars/
Disallow: /forum/Packages/
Disallow: /forum/Smileys/
Disallow: /forum/Sources/
Disallow: /forum/Themes/
Disallow: /forum/Games/
Disallow: /forum/*.msg
Disallow: /forum/*.new
Disallow: /forum/*sort
Disallow: /forum/*topicseen
Disallow: /forum/*wap
Disallow: /forum/*imode
Disallow: /forum/*action
Disallow: /forum/*prev_next
Disallow: /forum/*all
Disallow: /forum/*go.php # либо тот редирект что стоит у вас
Host: www.мой сайт.ru # указать ваше главное зеркало

User-agent: Slurp
Crawl-delay: 100

Как вы можете видеть в этом robots.txt, директива Host, предназначенная только для Яндекса, включена в директиву User-agent для всех поисковиков. Я бы, наверное, все-таки добавил отдельную директиву User-agent в robots.txt только для Яндекса, с повтором всех правил. Но решайте сами.

Правило:

User-agent: Slurp
Crawl-delay: 100

связано с тем, что поисковая система Yahoo (Slurp - это имя его поискового бота) сканирует ваш сайт в много потоков, что может негативно сказаться на его производительности. В этом правиле robots.txt, директива Crawl-delay, позволяет задать поисковому роботу Yahoo минимальный период времени (в секундах) между концом закачки одной страницы и началом закачки следующей. Это позволит снять нагрузку на сервер при индексации сайта поисковой системой Yahoo.

Для удаления из индекса поисковиков версий для печати страниц форума SMF рекомендуют проделать, описанные ниже операции (для их осуществления понадобится открыть некоторые файлы движка на редактирование - Как открыть файл вашего сайта на редактирование с помощью программы FileZilla). В файле Sources/Printpage.php находите (например, с помощью встроенного поиска в Notepad++) строку:

fatal_lang_error(472, false);

Вставляете сразу под ней:

$context['robot_no_index'] = true;

В файле Themes/название_вашей_темы_оформления/Printpage.template.php находите строку:

<meta http-equiv="Content-Type" content="text/html; charset=', $context['character_set'], '" />

Вставляете ниже нее следующую строку:

<meta name="robots" content="noindex" />

Если вы так же хотите, чтобы в версии для печати была ссылка для перехода на полную версию форума (в случае, если часть страниц для печати уже попали в индекс поисковиков), то в том же файле Printpage.template.php вы находите строку с открывающим тегом HEAD:

<head>

И вставляете ниже строку:

<a href="http://www.мой сайт.ru/">На форум</a>

Получить больше информации по этому варианту файла robots.txt для форума SMF вы можете, почитав эту ветку русскоязычного форума поддержки SMF.

Правильный robots.txt для сайта на Joomla

Рекомендованный файл robots.txt для Joomla выглядит так:

User-agent: *
Disallow: /administrator/
Disallow: /cache/
Disallow: /components/
Disallow: /images/
Disallow: /includes/
Disallow: /installation/
Disallow: /language/
Disallow: /libraries/
Disallow: /media/
Disallow: /modules/
Disallow: /plugins/
Disallow: /templates/
Disallow: /tmp/
Disallow: /xmlrpc/

В принципе, здесь практически все учтено и работает этот файл robots.txt для Joomla хорошо, запрещая индексацию поисковыми системами того, что индексировать не следует. Единственное, в этот правильный robots.txt следует добавить отдельное правило User-agent: Yandex для вставки директивы Host, определяющей главное зеркало сайта для Яндекса, а так же указать в robots.txt путь к файлу Sitemap. Поэтому в окончательном виде правильный robots.txt для Joomla, по-моему мнению, должен выглядеть так:

User-agent: *
Disallow: /administrator/
Disallow: /cache/
Disallow: /includes/
Disallow: /installation/
Disallow: /language/
Disallow: /libraries/
Disallow: /media/
Disallow: /modules/
Disallow: /plugins/
Disallow: /templates/
Disallow: /tmp/
Disallow: /xmlrpc/

User-agent: Yandex
Disallow: /administrator/
Disallow: /cache/
Disallow: /includes/
Disallow: /installation/
Disallow: /language/
Disallow: /libraries/
Disallow: /media/
Disallow: /modules/
Disallow: /plugins/
Disallow: /templates/
Disallow: /tmp/
Disallow: /xmlrpc/
Host: vash_sait.ru

Sitemap: http://vash_sait.ru/index.php?option=com_xmap&sitemap=1&view=xml&no_html=1

Да, еще обратите внимание, что во втором варианте файла robots.txt для Joomla нет директивы Disallow: /images/, запрещающей индексацию картинок вашего сайта. Я забыл сначала акцентировать ваше внимание на этом, но мне об этом напомнил уважаемый Alex, написавший следующее:

В Joomla не правильно закрывать от индексации поисковыми системами папку Images. Закрыв ее от индексации в robots.txt, вы не будете участвовать в поиске по картинкам Яндекса и Google. А если у вас еще и изображения уникальные, так вы будете терять еще один весомый аргумент, для показа поисковикам, что ваш проект интересный

Полностью с ним согласен в том, что если изображения, используемые на вашем проекте уникальные, и вы хотите, чтобы посетители находили ваш сайт еще и с поиска по картинкам от Яндекса и Google, то обязательно удалите это правило из своего файла robots.txt, но так же не забывайте прописывать всем вашим изображениям атрибуты Alt и Title (Для участия ваших изображений в поиске по картинкам Яндекса и Google прописываем теги ALT и TITLE). Именно по ключевым словам, прописанным в этих атрибутах и будут приходить целевые посетители на ваш проект с поиска по картинкам Яндекса и Google.

При создании интернет магазина для Joomla на основе компонента VirtueMart я столкнулся с тем, что в индекс поисковой системы стали попадать версии для печати страниц этого самого магазина. Кнопка, ведущая на страницу для печати, была необходима (заказчик так хотел), поэтому оставался только вариант с запрещением индексации страниц для печати в robots.txt.

Но все оказалось совсем не сложно. Дело в том, что для создания версии для печати в Joomla используется такой же адрес страницы, за исключением одного: обращение идет не к файлу index.php, а к файлу index2.php. При этом не осуществляется загрузка шаблона Joomla, т.е. выводится только содержимое страницы на весь экран. Поэтому, для запрещения индексации версий страниц для печати в VirtueMart, я добавил в файл robots.txt для Joomla следующее правило:

Disallow: /index2.php?page=shop

Вы тоже можете добавлять свои правила в robots.txt, но после этого обязательно проверьте robots.txt - достигли ли вы желаемого результата. Для это используйте соответствующие инструменты панелей вебмастеров поисковиков.

Правильный robots.txt для блога на WordPress

Не буду приводить пример файла robots.txt для WordPress, который рекомендуют разработчики. Вы и сами можете его посмотреть. Многие блогеры вообще не ограничивают роботов поисковых систем в индексации их блогов на WordPress. Чаще всего в WordPress блогах можно встретить файл robots.txt автоматически заполненный плагином Google XML Sitemaps (Установка и настройка плагина для WordPress Google XML Sitemaps для создания карты сайта в формате XML — для поисковых систем), в котором присутствует лишь ссылка на адрес карты сайта для WordPress-блога, созданной этим плагином.

Но, по-моему, все-таки следует запретить индексацию в robots.txt тех файлов вашего блога на WordPress, которые не имеют отношения к информационный составляющей. Во-первых, на это уйдет много времени у поискового бота и может совсем не остаться времени для индексации статей на вашем блоге под управлением WordPress. Во-вторых, индексация всего того мусора, что вы поленитесь запретить в robots.txt для индексации в WordPress, будет создавать довольно приличную нагрузку на сервер, а у WordPress и без этого есть с этим проблемы (Оптимизируем блог на WordPress для снижения его нагрузки на сервер хостинг-провайдера).

Поэтому, здесь я приведу в правильный robots.txt для блога на WordPress, а вам уже решать, использовать его в таком виде, использовать свой вариант robots.txt для WordPress или же не использовать robots.txt вовсе:

User-agent: *
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /trackback
Disallow: */trackback
Disallow: */*/trackback
Disallow: */*/feed/*/
Disallow: */feed
Disallow: /*?*

User-agent: Yandex
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /trackback
Disallow: */trackback
Disallow: */*/trackback
Disallow: */*/feed/*/
Disallow: */feed
Disallow: /*?*
Host: ktonanovenkogo.ru

Sitemap: http://ktonanovenkogo.ru/sitemap.xml.gz
Sitemap: http://ktonanovenkogo.ru/sitemap.xml

Пока что индексация блога при таком варианте файла robots.txt для WordPress меня полностью устраивает. Но запрет на индексацию определенных страниц блога задаются не в этом файл, а с помощью мете-тега Robots. Он у меня используется для запрета индексации страниц с архивом тегов и временным архивом.

Для того, чтобы прописать этот тег я не прибегал к правке кода файлов движка WordPress. В этом не было необходимости, т.к. все это можно осуществить простой установкой или снятием галочек в соответствующих пунктах чудесного плагина для WordPress - All in One SEO Pack (Установка и настройка плагина All in One SEO Pack.). Более подробно об этом можете прочитать на здесь: Убираем дублированный контент из индекса поисковиков.

Вы так же можете ознакомиться с другими статьями на тему продвижения сайта:

На сегодня все. Если вы не хотите пропустить появление новых материалов на этом сайте, то можете подписаться на рассылку новостной ленты через форму, расположенную чуть ниже, или же выбрать удобный для вас способ подписки на странице Подписка. Если у вас остались нерешенные вопросы из области вебмастеринга, то вы можете поискать на них ответы, посетив страницу Вопросы и ответы.

Удачи вам! До скорых встреч на страницах блога KtoNaNovenkogo.ru

Создание robots.txt 


Спасибо Вам за добавление этой статьи в
Подписаться на обновления по E-mail RSS
Получать обновления на E-mail
GoGetLinks — самая выгодная биржа рекламных обзоров
Кстати, тоже интересно почитать:
Рубрика : Продвижение сайтов (SEO и SMO) Теги : , , , ,

Комментарии
16 ноября 2009

а вот я не пойму правильно ли я robots.txt составил. у меня яндекс карту сайта не хочет принимать вот ошибка : Некорректный URL (не соответствует местоположению файла Sitemap) ничего не понимаю правильно всё. Без Sitemap замедлится индексация

Alex

16 ноября 2009

Alex, простите, вы когда этот урл в адресную строку браузера вставляете, у вас карта сайта открывается?


16 ноября 2009

да всё в порядке кажется я понял в чём дело,я неправильно файл robots заполнил щас обновил карту тоже посмотри что будет в Яндексе

Alex

17 ноября 2009

Блогу на Wordpress около 3х недель — google проиндексировал 59 страниц, остальные поисковики по одной, кто нибудь может подсказать в чем может быть проблема? Хотя судя по панели вебмастеров того же Яндекса робот регулярно на блог заходит.

test

18 ноября 2009

test, есть определенные способы ускорить индексацию блога Яндексом, но не стопроцентные. Например, можно создать блог в Я.ру и написать текст со ссылкой на ваш блог WordPress. Тоже самое можно сделать на любом бесплатном блогохостинге (livejournal.com, blog.ru, liveinternet.ru и др.).

Иногда срабатывает способ создания ресурса на народе Яндекса с ссылкой в тексте на ваш блог. Можно попробовать добавить блог в яндекс закладки.


19 ноября 2009

В joomla не правильно закрывать от индексации в robots.txt папку images. Закрыв ее от индексации вы не будете участвовать в поиске по картинкам Яндекса и Google. А если у вас еще и фото уникальные так будете терять еще один весомый аргумент, для показа поисковикам что ваш ресурс интересный .

Alex

19 ноября 2009

ах в предудыщем коменте ошибся, по умолчанию в роботс от joomla images закрыт, в вашем примере его нет.

Alex

19 ноября 2009

Alex, спасибо большое за напоминание. Я действительно открыл индексацию картинок в robots.txt, но забыл об этом упомянуть в статье. Сейчас добавлю. =)


19 ноября 2009

обновил robots, но всё равно та же ошибка при попытке принять карту сайта в Яндекс. Некорректный URL (не соответствует местоположению файла Sitemap)

Alex

19 ноября 2009

и вот ещё не только в Яндексе, но и в Google не принимает Sitemap, возможно, что тоже из-за неправильно созданного robots
Пути не совпадают
Мы обнаружили, что Вы передали Карта сайта используя путь, который не включает WWW префикс (например, http://example.com/sitemap.xml). Однако, URL, перечисляются внутри файла Sitemap делают использование WWW префикс (например, http://www.example.com/myfile.htm).

Alex


20 ноября 2009

Уважаемый автор и уважаемый Alex! Огромное спасибо вам за замечание о том, что нужно разрешить индексацию картинок в robots.txt! У меня ресурс с открытками, и я всё не мог понять, почему их нет при поиске картинок Яндекса и Google. Как же я рад!!(наверное всем знакомо чувство,когда ищешь какую-то ошибку и потом ее находишь).


20 ноября 2009

и у меня еще вопрос. На моем проекте ра Joomla (указан на нике) стоит virtuemart (в качестве каталога). Пользуюсь sh404sef для создания уникальных title. Проблема в том, что у меня создаются странички типа http://www.имя проекта/имя страницы.html?pop=0.

Над каждым товаром сверху у меня две ссылки с названиями, как я понимаю, двух ближайших товаров. Нажимая на эту ссылку, я перехожу по адресу нужной открытки, но в конце стоит эта приставка ?pop=0. Проблема в том, что Яндекс осуществил индексацию, почему-то именно этих адресов,а на их title не оптимизирован.Тоже получается дублирование контента. Как мне убрать эти адреса из индекса поисковиков в robots.txt и появятся ли потом адреса без приставки в поиске?


20 ноября 2009

Ага, порадовался, что разрешил индексировать папку images в robots.txt, а потом понял, что картинки у меня хранятся в /components/com_virtuemart/shop_image. Что мне теперь делать? Разрешать индексировать /components/или внести запреты на все папки в /components/ кроме /com_virtuemart/?


20 ноября 2009

Дмитрий, посмотрел в хелпе Яндекса, но ничего такого не понял :(

Alex

20 ноября 2009

medvedev, попробуйте разные варианты создания robot.txt для доступа поисковиков к вашим картинкам. Работоспособность созданного вами файла вы можете проверить в панелях вебмастеров Гугла и Яндекса. Как это сделать вы можете прочитать в этих статьях:Работа с панелями вебмастеров Яндекса, Google, Yahoo, Bing (sitemap, robot.txt, индекс, запросы) – Часть 1 и здесь: Работа с панелями вебмастеров Яндекса, Google, Yahoo, Bing (sitemap, robot.txt, индекс, запросы) — Часть 2


21 ноября 2009

Дмитрий, спасибо, я воспользовался вашими ссылками. В итоге у меня получилось запретить индексацию поисковиками адресов с концовкой в robots.txt .html?pop=0 из поиска, добавив правило:
Disallow: *.html?pop=0$.
Ну а картинки VirtueMart я разрешил к индексации в robots.txt, убрав из правил папку /components/,а затем запретив индексацию в ней всех папок, кроме той, в которой хранятся картинки VirtueMart. Буду ждать обновления Яндекса. Еще раз спасибо.


22 ноября 2009

medvedev, не за что. Рад был помочь. Спасибо, что подробно описали ваш вариант решения отмены запрета индексации папок с изображениями в robots.txt. Может кому-нибудь пригодится. =)


9 декабря 2009

Здравствуйте, уважаемые эксперты! Вопрос об улучшении и ускорении индексации поисковиками картинок. У меня стоит virtuemart, картинки выводятся там java-скриптом. И после скрипта альтернативный вывод картинки в тегах .
Проблема: картинки не индексируются поисковыми системами!
Получается то, что заключено между тегами , поисковики не видят. Подскажите, пожалуйста, что можно сделать для индексации картинок в robots.txt?


9 декабря 2009

извиняюсь, имелся ввиду тег

<noscript>

9 декабря 2009

medvedev: возможно, что у вас закрыта от индексации в robots.txt папка, где лежат изображения. Если с этим все в порядке, то не знаю, в чем может быть проблема.


9 декабря 2009

Дмитрий:
Спасибо за ответ! Папка открытка для индексации поисковыми системами (научился благодаря вашему блогу). Думаю, проблема в самом выводе картинки.Она выводится через java-скрипт, а он не индексируется поисковиками. И, как видно, содержимое тегов noscript тоже. Как бы сделать так, чтобы сохранялось предназначение тегов noscript, и в то же время, картинка между этими тегами индексировалась? Кто знает, подскажите.


5 января 2010

medvedev говорит, что:

Ну а картинки виртуемарта я разрешил к индексацию поисковиками, убрав из правил папку /components/,а затем запретил индексацию в ней все папки, кроме той, в которой хранятся картинки виртуемарта.

Подскажи, пожалуйста как какую именно строчку в robots.txt надо вписать, чтобы товары в вирте индексировались поисковыми системами. С уважением.


6 января 2010

Алексей: для решения проблем с индексацией убираете из стандартного файла robots.txt для Joomla правило

Disallow: /components/

Но в замен него добавляете в robots.txt disallow на все папки внутри каталога components, кроме com_virtuemart, например:

Disallow: /components/com_banners/
Disallow: /components/com_contact/
и т.д.

9 января 2010

Подскажите, а как запретить в robots.txt индексацию определенных страниц на движке joomla. Дело в том, что некоторые из них я удалил, а поисковыми системами они по прежнему индексируются. http://clickforeplay.ru/index.php/menu/173-lockerz-
одна из них. Как должна выглядеть запись в robots.txt ?

Огромное спасибо за индексацию images!


10 января 2010

Вадим: из индекса Яндекс сам удалит такие страницы, со временем. А что бы пользователи, перешедшие с поисковиков по этим не рабочим ссылкам, не были для вас потеряны – оформите свою страницу 404 соответствующим образом. Например, так. Для ресурса, приведенного в пример, это было сделано с использование возможностей расширения ARTIO JoomSEF.


10 января 2010

а есть ли какие-нибудь другие похожие расширения? или это только одно такого рода? (ARTIO JoomSEF.)


13 января 2010

Интересно, для бота Яндекса зачем дублировать строки Disallow в robots.txt.
Ведь есть *


14 января 2010

близкий: потому, что для Яндекса должно быть прописано в robots.txt хотя бы одно Disallow при добавлении директивы Host. А раз так, то придется повторять все для Яндекса отдельно, т.к. Disallow разрешающее индексирование всего сайта или запрещающее индексирование всего нам не подойдет.


14 января 2010

Дмитрий: перепроверил, вот что рекомендует Яндекс:
#Пример корректно составленного robots.txt, при обработке
#которого директива Host учитывается
User-Agent: *
Disallow:
Host: http://www.myhost.ru

#Примеры некорректно составленных robots.txt, при обработке
#которых директива Host может не учитываться
User-Agent: *
Host: http://www.myhost.ru


14 января 2010

Пойду исправлю robots.txt :)


19 января 2010

Спасибо! отредактировал robots.txt
А то такое ощущение роботами мой сайт вообще не индексируется.


25 января 2010

Яндекс определил главную, как закрытую в robots.txt. Но на сайте вообще нет этого файла! Не подскажите в чём может быть проблема?

Puhtya

31 января 2010

хорошая статья про ускорение индексации сайта и правильный robots.txt. помогла лично мне. 5+


5 марта 2010

Может мне сможете тоже помочь!? Проблема вот какого плана, в Яндекс Вебмастере мне выдаются предупреждения следующего вида:
- для главной

/index.php?format=feed&type=rss
/index.php?format=feed&type=atom

- и для страниц разделов тоже самое
/index.php/razdel?format=feed&type=rss
/index.php/razdel?format=feed&type=atom

Я так понимаю их можно запретить к индексации в robots.txt? А можно что то сделать с Joomla, чтобы эти страницы не генерировались?

Заранее спасибо!


12 марта 2010

Дмитрий у меня текст на главной странице не индексируется поисковиками, выдает ошибку:”Сервер не указывает тип документа, указывает неправильно или указанный тип не поддерживается Яндексом. ” что это может быть и как это можно исправить в robots.txt?

Александр

28 марта 2010

Ой меня тоже очень волнует вопрос по поводу строчек rss в панели яндекс-вебмастера. И еще – как запретить к индексации страницы – ре6зультаты поиска (модуль Joomla стандартный)?


28 марта 2010

Artem: Александр: ivolga: извините, но ответов на ваши вопросы я не знаю.


1 апреля 2010

Ваш robot.txt запрещает индексацию всех страниц. Ошибка здесь:
Disallow: */trackback
Disallow: */*/trackback
Disallow: */*/feed/*/
Disallow: */feed
т.к. Disallow: */ – означает запрет индексации всех без исключения страниц.


4 апреля 2010

Вот что выкопал в руководстве Яндекса по составлению robots.txt:

При написании robots.txt необходимо помнить, что у робота есть разумное ограничение на его размер. Слишком большие robots.txt (более 256 Кб) считаются полностью разрешающими, то есть рассматриваются аналогично:
User-agent: Yandex
Disallow:

…предложенный Вами вариант файла тянет на все 690 Кб. Это что же получается – Ваш robots.txt по определению “отталкивает” индексирующего робота? (Или я не до конца разобрался?) о_О

И еще одно:
…в настройках XML-Sitemap Generator есть настраиваемый пунктик:
Add sitemap URL to the virtual robots.txt file. (Добавить карту сайта в виртуальный файл robots.txt)
…а под ним подпись:
The virtual robots.txt generated by WordPress is used. A real robots.txt file must NOT exist in the blog directory! (Используется виртуальный robots.txt, сгенерированный ВордПрессом. Настоящий robots.txt НЕ ДОЛЖЕН присутствовать в директории блога)

1. Где скрывается виртуальный robots.txt? Хочется взглянуть на его содержимое!
2. Если мы доверяем плагину создать robots.txt, соответственно – нам не нужно прописывать этот файл отдельно в корне, правильно?


11 апреля 2010

Директиву Host с www надо указывать в robots.txt для Яндекса или без WWW?


11 апреля 2010

Life-trip: Если главное зеркало вашего проекта определено с www, то в robots.txt для Яндекса в директиве Host имя вашего ресурса с www надо указывать. Подробнее о выборе и задании главного зеркала читайте здесь – Домены с www и без www — история появления, использование 301 редиректа для их склеивания


11 апреля 2010

Спасибо, как раз искал правильный robots.txt для WordPress


14 апреля 2010

А как себя поведет робот того же Яндекса, когда в robots.txt встретит сначала правила для всех роботов? Будет ли он работать по правилам для него из конца роботс.txt или прогонит по первой части?
Не лучше ли блоки с отдельными роботами ставить вперед, а для всех остальных в конец robots.txt. Тогда zif пропустив “не его блок”, дойдет до “своего” и учтет его правила. Остальные роботы пропустят так же не свои блоки и прогонят только по общим правилам.


17 апреля 2010

Bahus: нет, все должно быть в robots.txt для Яндекса именно так, как я описал. Можете посмотреть robots.txt на разных ресурсах, наверняка, встретите подобную конструкцию.


20 апреля 2010

не подскажите в чем может быть проблема, Яндекс произвел индексацию сайт, новые странички добавляет, но все странички видны только ТАЙТЛАМИ, под ссылкой нет текста. Как будто текст не про индексировался яндексом

MFT

25 апреля 2010

MFT: этот текст под ссылкой в поисковой выдаче, если не ошибаюсь, называется сниппет. Так вот, на первых порах поисковики в качестве сниппета используют содержимое мета-тега DESCRIPTION. Возможно, что этот мета-тег у вас пустой. Подробнее об этом можете почитать здесь – Внутренняя оптимизация сайта


18 мая 2010

Подскажите пожалуйста. Создал блог на Joomla, Вроде все основные поисковики провели индексацию сайта нормально. Но я заметил что в Яндексе индексация страницы разбиения главной страницы (http://мой проект.ru/index.php, http://мой проект/index.php?start=10, http://мой проект/index.php?start=20 и т.д.) на будет ли это дублированием контента. Может мне в robots.txt запретить индексацию index.php.

tschkh

18 мая 2010

Извиняюсь, ещё вопрос. В панели инструментов Googlе на те же страницы которые я приводил в предыдущем вопросе выдаёт “Повторяющиеся заголовки (теги title)” на повредит ли это индексации сайта. Заранее спасибо.

tschkh

19 мая 2010

tschkh: вопрос конечно интересный, у меню точно такая же ситуация с индексацией, как и у вас. Никаких мер не предпринимал, пока полет, вроде, нормальный. Думаю, что не стоит заморачиваться с этим, а пока оставить так, как есть.


25 мая 2010

Здравствуйте!В статье приведен пример правильного файла robots.txt для WordPress…у Вас в файле robots.txt перед строкой User-agent: * вставлен еще дополнительный код

User-agent:*
Crawl-delay: 2

User-agent: Unknown robot
Disallow: /

его тоже лучше добавить в robots.txt? Спасибо!!!

Ирина

25 мая 2010

Ирина: директиву Crawl-delay в robots.txt вы можете использовать в том случае, если на сервер вашего хостинга идет серьезная нагрузка (например, при большой посещаемости). Директива Crawl-delay (во всяком случае пытается) поисковому роботу минимальный период времени (в секундах) между концом закачки одной страницы и началом закачки следующей.

Т.е она определяет интенсивность индексации сайта поисковом роботом. Тем самым вы несколько снизите нагрузку, создаваемую поисковыми роботами. Если проблем с нагрузкой на сервер хостера нет, то директиву Crawl-delay можно не добавлять.


25 мая 2010

Всё понятно… спасибо за разъяснения по robots.txt… Удачи Вам и Вашему замечательному блоку :)

Ирина

6 июня 2010

Кто может помочь ? Закачиваю robots.txt на хостинг (случайно удалил) в ответ получаю 553 Disk full – please upload later .А места на диске 14 гб.У кого какие мысли на счет этого ?


9 июня 2010

Добрый день! Подскажите кто понимает проблему. Sitemap Generator генерит много таких ссылок: http://mysite.com.ua/index2.php?vmcchk=1&option=com_virtuemart&category_id=6&page=shop.browse&Itemid=2&pop=1&tmpl=component

Вставил в Robot.txt правило: Disallow: /index2.php?vmcchk=1&amp

по примеру Disallow: /index2.php?page=shop которое рекомендоал Дмитрий, но все равно генерит… Что я сделал криво?

Андрей

18 июня 2010

Prado: не знаю, к хостеру попробовать обратиться надо, наверное.
Андрей: вроде все должно работать.


14 августа 2010

Составила для джумлы robots.txt, как Вы рассказали, загрузила в гугл Sitemap, а Гугл и говорит: не могу твой Sitemap посмотреть, т.к. он запрещен к индексации файлом robots.txt.
А Яндексу всё понравилось.
Подскажите, как Гугл допустить к Sitemap-у?


14 августа 2010

У меня имя файла Site Map http://enioway.ru/index.php?option=com_xmap&sitemap=1&view=xml содержит знак “?”, а такие файлы, т.е. дубли контента, запрещены к индексации. Чё делать? Может как то еще по другому дубли запретить индексировать?
А то бедный Гугл никак не может посмотреть мой Sitemap


30 августа 2010

Подскажите, как правильно запретить страницы к индексации с суфиксом html.
Сайт на Joomla.
К примеру, надо запретить индексировать страницу _http://ktonanovenkogo.ru/new а страница вида _http://ktonanovenkogo.ru/new.html нужна для индексации.

Спасибо огромное, надеюсь получить ответ.

alan

Написать

(обязательно)

(обязательно)


Это не спам.

Subscribe without commenting

» Подписаться на комментарии к этой статье по RSS