Карта сайта Sitemap в формате xml для Яндекса и Google — как создать сайтмап в Joomla и WordPress или в онлайн генераторе

13 Май, 2011

Здравствуйте, уважаемые читатели блога KtoNaNovenkogo.ru. Решил обобщить в одной статье все, что я уже писал про карту сайта (Sitemap xml), которая в первую очередь нужна для указания поисковым системам тех страниц, которые им следует индексировать в первую очередь. Она является очень важным и фактически обязательным атрибутом любого web проекта, но многие этого либо не знают, либо не придают Site map большого значения.

Сразу давайте расставим все точки над «i» и попробуем отделить два понятия — карты сайта в формате xml и в формате Html (есть еще и географическая интерпретация этого слова, о которой я писал в статье «Как вставить Яндекс карту на сайт»). Второй вариант представляет из себя обычный список всех материалов web ресурса, который будет доступен любому желающему по нажатию на соответствующий пункт меню. Такой вариант тоже полезен и способствует ускорению и улучшению индексации вашего ресурса поисковыми системами.

Карта сайта sitemap в формате xml — а оно мне надо


Но основным инструментом, предназначенным для прямого указания поисковикам тех страниц ресурса, которые нужно будет обязательно проиндексировать, является файл под названием Sitemap.xml (это его наиболее частое название, но по идее его можно обозвать как угодно, не суть важно), который не будет виден посетителям вашего web проекта.

Он составляется с учетом специального синтаксиса, понятного поисковым машинам, где будут перечислены все страницы, подлежащие индексации с указанием степени их важности, даты последнего обновления и примерной частоты обновления.

Есть два основных файла, которые должны иметься у любого web проекта — robots.txt и sitemap.xml. Если у вашего проекта их нет или они заполнены не правильно, то с большой долей вероятности вы сильно вредите своему ресурсу и не позволяете ему раскрыться на все сто процентов.

Вы, конечно же, можете не послушать меня (ибо я не есть авторитет, в силу относительно малого накопленного фактического материала), но думаю, что со специалистами, имеющими под рукой статистику с десятков тысяч проектов, вы огульно спорить не будете.

На этот случай у меня оказался припасен «рояль в кустах». Прямо перед написанием этой статьи попалась на глаза публикация специалистов из всем известной системы автоматического продвижения под необычным названием «Руки» (это аналог MegaIndex, о котором я писал Мегаиндекса).

Понятно, что любая подобная им система заинтересована в том, чтобы проекты их клиентов успешно продвигались, но они могут только накачивать ресурсы клиентов ссылочной массой, а влиять на наполнение и правильную техническую настройку сайтов они, к сожалению, не могут.

Поэтому и было проведено очень интересное и показательное исследование, которое было призвано выявить 10 самых популярных причин, которые затрудняют продвижение проектов и ткнуть этими данным клиентам прямо в ...

На первом месте, конечно же, был «не уникальный контент» (либо вы скопистили, либо у вас украли тексты, что сути не меняет). Но на втором месте была как раз именно карта сайта в формате xml, а точнее ее отсутствие или несоответствие признанному формату создания. Ну, а на третьем месте был уже упомянутый ранее файл robots.txt (его отсутствие или неправильное создание):

Когда голословно утверждаешь, что карта должна быть у вашего проекта обязательно (иначе кирдык), то это не звучит так убедительно, как в случае подкрепления данного утверждения реальными фактами из довольно-таки репрезентативного исследования.

Ладно, будем считать, что я вас убедил и давайте посмотрим, как можно самим создать сайтмап (синтаксис формата), как сделать ее для Joomla и WordPress, а так же посмотрим, как можно будет создать ее с помощью специальных онлайн генераторов (generator).

Но просто создать sitemap еще не достаточно для того, чтобы быть уверенным в правильной индексации вашего проекта поисковиками. Нужно еще будет сделать так, чтобы об этой самой карте сайта узнали поисковые системы (в нашем случае это Google и Яндекс). Сделать это можно будет двумя способами, но об этом мы поговорим чуть позже (должна же быть хоть какая-то интрига, удерживающая внимание читателей).

Зачем вообще нужен сайт мап и файл robots.txt

Давайте для начала попробуем обосновать логическую необходимость использования как файла robots.txt, запрещающего индексацию определенных элементов вашего web проекта, так и файла сайт мап, предписывающего индексацию определенных страниц. Для этого вернемся на пяток-десяток лет назад, когда большинство ресурсов в интернете представляли из себя просто набор Html файликов, в которых и содержались тексты всех статей.

Поисковый робот Гугла или Яндекса просто заходил на такой Html проект и начинал индексировать все, что ему попадется под руку, ибо практически везде содержался контент проекта. А что же происходит сейчас, в условиях повального использования CMS (систем управления контентом)? Собственно, даже сразу после установки движка поисковый робот уже обнаружит у вас несколько тысяч файлов и это при том, что никакого контента у вас еще может и не быть (ну, не написали вы еще ни одной статьи).

Да и вообще, контент в современных CMS, как правило, хранится не в файлах, а в базе данных, которую поисковый робот напрямую проиндексировать, естественно, не сможет (для работы с базами советую бесплатно скачать, установить и настроить PhpMyAdmin).

Понятно, что потыркавшись туда сюда, поисковые роботы Яндекса и Google все же найдут ваш контент и проиндексируют его, но вот насколько быстро это произойдет и насколько полной будет индексация вашего проекта — очень большой вопрос.

Вот именно для упрощения и ускорения индексации проектов поисковиками в условиях повального использования CMS и следует в обязательном порядке создавать robots.txt и sitemap.xml. C помощью первого файла вы подсказываете роботам поисковиков на индексацию каких файлов не стоит тратить время (объекты движка, например), а так же с помощью него можно закрыть от индексации и часть страниц для устранения эффекта дублирования контента, который присущ многим CMS (читайте об этом подробнее в статье про robots.txt).

А с помощью файла сайтмап вы четко и ясно говорите роботам Яндекса и Гугла, что именно на вашем проекте содержит контент, чтобы они не тыркались понапрасну по углам файлового хозяйства используемого движка. Не забывайте, что у ботов есть определенные лимиты на время и количество просмотренных документов. Он побродит у вас по файлам движка и уйдет, а контент останется не проиндексированным еще долгое время. О как.

Помните как в известной комедии говорил один колоритный персонаж: «Ты туда не ходи, ты сюда ходи, а то...». Вот именно функцию этого персонажа и выполняют robots.txt и сайт мап с расширением xml для регулирования перемещений поисковых ботов по закоулкам вашего web проекта. Понятно, что боты могут и взбрыктуть, но скорее всего они послушно будут выполнять ваши грамотно написанные запрещающие и предписывающие (в карте сайта) инструкции.

Понятно? Тогда приступаем непосредственно к решению вопроса, как создать sitemap.xml различным способами и как сообщить о его существовании двум китам поиска в рунете — Google и Яндексу, чтобы они не шарились по вашему проекту почем зря, создавая при этом еще и дополнительную нагрузку на сервер вашего хостинга, но это, правда, уже сильно второстепенная вещь, главное — это именно индексация (быстрая и всеобъемлющая).

В отличии от robots.txt, который вам писать придется скорее всего собственноручно, файл карты сайта в формте xml, как правило, стараются создать каким-либо автоматическим способом. Оно и понятно, ибо при большом количестве страниц на часто обновляемом проекте ручное его создание может привести к повреждению ума у вебмастера.

Да это вовсе и не обязательно, т.к. практически для каждой CMS найдется расширение, которое позволит создать, а при появлении новых материалов и пересоздать файл сайтмап. Ну, или можно будет всегда воспользоваться каким-либо онлайн генератором (generator) карты сайта в виде готового решения.

Но все же, мне кажется, будет не лишним ознакомиться с нехитрым (да что там говорить — простейшим) синтаксисом создания sitemap. К тому же на маленьких и редко обновляемых проектах можно набросать его и вручную.

Как создать Sitemap.xml самому в Joomla и Вордпрессе


Этот файл вы можете создать в любом текстовом редакторе, например, все в том же Notepad++, о котором тут я вам все уши прожужжал. Карта сайта в формате xml имеет обычно примерно такую структуру.

Сначала идет стандартная часть:

<?xml version="1.0" encoding="UTF-8"?>
<urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">

А затем идет серия повторяющихся блоков, заключенных в теги «url», каждый из которых описывает одну из страниц вашего проекта, для которого пишется данная карта:

<url>
		<loc>http://ktonanovenkogo.ru/</loc>
		<lastmod>2011-05-12T19:22:36+00:00</lastmod>
		<changefreq>daily</changefreq>
		<priority>1.0</priority>
	</url>

Обязательным в этом xml коде является только пара тегов «loc», в которых заключается адрес страниц вашего проекта, которую должны будут проиндексировать поисковые системы. В теги «lastmod» заключена дата последнего обновления данной страницы, что позволит роботу лишний раз не заходить на не изменившуюся с момента последнего захода страницу.

В тегах «changefreq» указывается примерная частота обновления данной страницы (раз в день, неделю, месяц), ну, а в теге «priority» указывается приоритетность ее индексации. Изначальный приоритет у всех страниц равен 0.5, но вы вольны изменять его для определения очередности индексации вашего web проекта (от 0 до 1).

Не забывайте, что за один проход робот не сможет пройти по всем ссылкам в большой карте сайта (обычно около сотни ссылок за раз проходит), а значит с помощью большего приоритета можно выбрать наиболее важные для быстрой индексации страницы.

По стандарту sitemap.xml не может содержать более 50 000 ссылок и весить более 10 Мб. Хотя, многие даже при превышении 500 — 1000 ссылок в карте сайта стараются ее разбить на несколько файлов, подсунув поисковым системам и указав в robots.txt индексный файл сайтмап, в котором имеются ссылки на все остальные файлы карт большого сайта.

Его синтаксис будет примерно таким:

<?xml version="1.0" encoding="UTF-8"?>
<urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9"

<sitemap>

      <loc>http://ktonanovenkogo.ru/sitemap.xml.gz</loc>

      <lastmod>2011-04-01T18:23:17+00:00</lastmod>

   </sitemap>

  <loc>http://ktonanovenkogo.ru/sitemap2.xml.gz</loc>

      <lastmod>2011-04-01T18:23:17+00:00</lastmod>
   </sitemap>

Генерация карты сайта в Joomla и WordPress

Создать карту сайта для WordPress можно будет с помощью плагина Google XML Sitemaps. Для нее вы сможете произвести множество настроек, которые позволят исключить часть материалов вашего сайта, а так же можете задать предполагаемую частоту обновления. Кроме создания карты, плагин Google XML Sitemaps при публикации новых материалов на вашем блоге уведомляет об этом многие поисковые системы, приглашая их побыстрее провести индексацию.

Путь до файла сайтмап можете задать сами в настройках плагина и даже можете дать ему название отличное от классического sitemap.xml. Многие владельцы именно так и делают — называю этот файл kjfdjkf.xml и закапывают его в огромном количестве вложенных папок. Тем самы они прячут карту сайта от посторонних глаз. В роботс.тхт они тоже этот путь не указывают, а сообщают его только Яндексу и Гуглу в их панелях для вебмастеров, о которых речь пойдет чуть ниже.

Создать карту сайта для Joomla можно с помощью компонента Xmap. По приведенной чуть выше ссылке вы найдете довольно подробную инструкцию, как по ее созданию в виде файла xml, так и в формате Html, ориентированную в первую очередь не на ускорение индексации, а на удобство пользователей.

Ссылку на созданный сайтмап сможете найти в настройках компонента, как показано на приведенном скриншоте.

Как добавить сайт мап в Яндекс и Гугл Вебмастер


Как видите, в отличии от файла robots.txt (который обязательно должен находиться в корневой папке вашего web проекта), файл сайт мап может лежать где угодно. Но вам нужно будет сообщить о его местоположении поисковым системам. Сделать это можно двумя способами.

Во-первых, в robots.txt предусмотрена специальная директива «Sitemap», которая, например, для моего блога будет выглядеть так:

Sitemap: http://ktonanovenkogo.ru/sitemap.xml

или так (файл карты сайта вовсе не обязательно должен называться sitemap.xml, как я уже упоминал выше)

Sitemap: http://ktonanovenkogo.ru/forum/index.php?action=sitemap;xml

Обязательно нужно прописывать полный абсолютный путь до сайтмапа, не опуская «http://ktonanovenkogo.ru». Это я говорю потому, что пути во всех остальных директивах robots.txt пишутся без указания «http://ktonanovenkogo.ru» (читайте тут про относительные и абсолютные пути).

Обычно директиву «Sitemap» прописывают в самом конце. Поисковые роботы при очередном заходе на ваш web проект обязательно просмотрят содержимое robots.txt и загрузят для изучения вашу карту. Однако, таким образом могут узнать о ее существования всякие редиски, которым сайт мап поможет тырить у вас контент.

Но существует еще один способ уже напрямую передать информацию о местоположении карты сайта поисковикам без посредничества robots.txt. Делается это через интерфейс Яндекс Вебмастера и панели инструментов Google, хотя можно Bing вебмастер использовать. Вы уже знакомы с этими инструментами поисковых систем?

Если нет, то обязательно добавьте свой проект и в инструменты Яндекс для вебмастеров, и в панель инструментов Гугла, а затем укажите в соответствующих вкладках путь до вашей карты сайта в формате Xml.

Так выглядит форма добавления сайтмапа для Яндекс Вебмастера:

А так выглядит аналогичная форма для прописывания пути в панели инструментов Google:

Онлайн генераторы Sitemap Generator и XML Sitemaps

Если вам не охота искать расширения для своей CMS, позволяющие автоматически создать сайт мап, то можете воспользоваться в этом случае онлайн генераторами. Тут, правда, есть один недостаток по сравнению с автоматическим созданием карты в самой CMS — после добавления новых материалов вам придется снова идти на онлайн сервис и повторно создавать этот файл, а затем загружать его к себе на сервер.

Наверное, один из самых известных онлайн генераторов карты сайта — это Sitemap Generator. Он обладает достаточно большим функционалом и позволит вам бесплатно генерировать сайтмап на 1500 страниц, что достаточно много.

Sitemap Generator будет учитывать содержимое вашего файла robots.txt, чтобы в карту не попали запрещенные к индексации страницы. Само по себе это не страшно, ибо запрет в роботсе по любому будет иметь больший приоритет, но зато избавит вас от лишней информации в создаваемом файле Site map. Для того, чтобы сделать карту, вам достаточно указать URL главной страницы и сообщить свой E-mail, после чего вас поставят в очередь на генерацию:

Когда до вас дойдет очередь, вы получите об этом почтовое уведомление и перейдя по ссылке из письма сможете скачать файл, который сделал для вас Sitemap Generator. Останется только закинуть его в нужное место на своем сервере. Ну, и такую процедуру вам придется повторять время от времени для того, чтобы поддерживать актуальность вашей карты сайта.

Есть похожий англоязычный сервис онлайн генератора, который вы можете найти по этой ссылке — XML Sitemaps. На нем существует ограничение в 500 страниц, а в остальном все практически тоже самое, что и в описанном выше.

Удачи вам! До скорых встреч на страницах блога KtoNaNovenkogo.ru

Подборки по теме:

Комментарии и отзывы

Евгений

Статья конечно хорошая. Но я вот не понял, как преобразовать _http://******/index.php?option=com_xmap&sitemap=1&view=xml в _http://******/sitemap.xml (движок Joomla)

Vladimir

я генерирую карту сайта плагином в WP, доволен сам отправляет все делает как нужно, и всем советую на WP, в индексе страницы буквально через 30мин)

Bdfy

Статья отличная, всё доходчиво и ясно, но ребята есть прога SiteMap Generator, генерирует все карты, вводите урл своего, да хоть чужого сайта и она находит все страницы и разных ракусах, пока я сам тут http://russbar.ru/001karta.html себе дописываю, так как особо не заморачиваюсь по этому поводу.

Эта прога нашла мне столько страниц по разным параметрам, что мне пришлось убирать, остановив её на полпути.

Попробуйте советую.

Bdfy

Вот что мне выдал интернет генгератор

А вот скажите, у меня форум и блог на последнем в поддоменах, сколько надо robots.txt — этот наверно один, как я понял в корне...

а sitemap.xml?

Как Vladimir выше писал, вордпресс генерирует хорошо, а для основного то нет? Надо в основном тоже забацать такой же, но с ссылками на сайт сам, а не на блог естественно?

Роман

Спасибо,а то все не мог найти где у меня карта сайта,сделал давно и забыл.

Юрий

приветствую! Ищу автономные блоги для дружбы RSS-ками. Есть желание взаимно подписаться и комменитить друг друга?

Юрий (AR00t)

CLASSIK

А Есть ли что-то подобное под друпал или скажем dle?

Марина

Андрей, ссылка на скачивание плагина не работает. Кстати, спасибо огромное еще раз. Для меня как самоучитель.

Александр

Дмитрий всех благ Вам. С Вашей помощью ТИц поднял от 40 до 80. Я давно знал о файле sitemap, но не знал как его сделать. А сейчас стоит и работает. Еще раз спасибо. С наступающим старым НОВЫМ ГОДОМ Вас! Всех благ,здоровья и Удачи в этом и последующих годах!

Kiano

Сделайте пожалуйста описание для Unlimited Sitemap Generator

Павел

Спасибо за хорошие статьи! Помогли исправить мне свои ошибки, которое совершил по не знанию.

Юля

Здравствуйте, Дмитрий! Постоянно читаю Ваш блог, очень многому научилась) сп) У меня такой вопрос: при просмотре сжатой карты сайта, выводится такая ошибка:

-----------------------------------------------

Ошибка синтаксического анализа XML: некорректно

Адрес: http://pr-ploshadka.net/sitemap.xml.gz

Строка 1, символ 1:

￿

------------------------------------------------

Олег

нормальный мужик ...ять, хоть объяснил по человечески

donxd

Здравствуйте — скажите пожалуйста , если у меня блог http://zdestochtonado.blogspot.com находится на бесплатном хостинге- можно ли сайтмап для яндекса сделать чтобы файл сайтмап лежал на стороннем хостинге , например чтобы ссылка была вида http://dl.dropbox.com/u/67141959/sitemap1.xml ???

такой вариант для яндекса пройдет или так нельзя ?

Александр

Спасибо за ваш пост, быстро узнал для чего карта сайта и как её разделить.

Андрей

Неужели здесь уже нет спецов?

Сибиряк

Моё почтение! Помогите, пожалуйста разобраться несмышленному с проблемой. Капризничает постраничная навигация на джумла 1.5 Скорее всего, проблема была изначально, а заметил лишь сейчас. На главной странице всё нормально работает, а вот в разделах и категориях сплошь саботаж. При клике на цифру страницы или «Следующая» происходит загрузка, но впустую — выкидывает на ту же страницу, откуда и кликал. Раздел или категория вмещают лишь 5 материалов + 4 материала в «Еще статьи...». Остальные материалы категории невозможно увидеть. Найти их можно лишь через меню главной или карту сайта. Помогите неучу разрешить проблему...

Ольга Суворова

Подскажите, пожалуйста, у меня в Инструментах для вебмастеров Google написано: «Файл Sitemap является страницей HTML», что делать? Что это значит?

Ольга

Здравствуйте! У меня сайт на бесплатном хостинге emoney.key.ua. Понятия не имею как там можно добавить файл sitemap и где robots. Подскажите, кто знает о таких нюансах с сайтами с бесплатным хостингом.

Вова

Ольга Суворова есть файл карты сайта с расширением xml, а есть html Вам надо создать файл .xml

почитайте здесь http://fileone.ru/seo-joomla/fajl-sitemap-xml-dlya-joomla.html

Ольга Суворова

Вова, спасибо!

Владимир

здравствуйте, я правильно понял статью? Карту необходимо создать и добавить один раз? Что делать после этого, её нужно редактировать, за ней необходимо следить?

Как узнать, правильно ли она составлена? прошу помощи, буду рад любой подсказке.

Андрей

Здравствуйте! Спасибо большое за статью, но у меня возник один вопрос. Можно ли закидывать sitemap.xml не в корень, а в отдельную папку? Спасибо.

Николай

Здравствуйте. Спасибо за статью. А зачем прятать файл сайтмапа? И еще: у меня сайт на вордпрессе, я создал карту с помощью плагина Google XML Sitemaps, активировал его, карта вроде создалась (появилась рабочая ссылка), но найти у себя на сайте (в т.ч. в корне) файл sitemap.xml я не могу. Где его искать?

Александр

Здравствуйте Дмитрий! С помощью чего у Вас реализован sitemap?

Спасибо.

Дмитрий

Александр: Sitemap Generator

Подписаться не комментируя