Морфология языка и проблемы решаемые поисковыми системами, виды поисковых запросов (низко- , средне- , высокочастотные), продвижение по низкочастотным запросам
Здравствуйте уважаемые читатели блога KtoNaNovenkogo.ru. В сегодняшней статье мы продолжим тему изучения работы поисковых систем, начатую в статье — Как работают поисковые системы. Чтобы оптимизировать свой сайт под поисковые системы, нужно хотя бы в общем виде представлять, как работают поисковые системы, как они проводят индексацию документов, как осуществляют поиск по индексной базе и многое другое.

Какие-то из этих вопросов мы уже успели рассмотреть в предыдущей статье:
- Алгоритмы работы поисковых систем — прямой поиск и алгоритм обратных (инвертированных) индексов
- Математическая модель используемая поисковыми системами для поиска и ранжирования документов по тем или иным поисковым запросам
- Оценка качества работы векторной математической модели поисковой системы
- Как поисковые системы собирают свою коллекцию документов (индексация документов поисковиками)
- Что такое сниппет и для чего поисковые системы хранят в своей базе копии документов (прямые индексы)
- Яндекс — только одна страница с каждого сайта в поисковой выдаче, ограничение количества индексируемых страниц для сайтов разного уровня доменов
- Задержка индексации Яндексом сайтов, расположенных в не русскоязычных доменных зонах; частота, с которой поисковый робот посещает уже проиндексированные страницы
Сегодня мы рассмотрим вопрос учета морфологии языка при формировании поисковой выдачи, узнаем какие проблемы сейчас актуальны для поисковых систем и как они пытаются их решать, а так же подробно рассмотрим виды и особенности поисковых запросов, исходя из их частоты использования в поисковых системах. Ну и немного затронем вопрос, как нужно осуществлять продвижение по низкочастотным поисковым запросам.
Как учитывается морфология языка в работе поисковых систем
Когда поисковая система, например, Яндекс, осуществляет индексацию какой-либо странички в интернете, то кроме того, что из оригинального документа (этой странички) создается так называемый обратный индекс (алгоритм обратных или по другому инвертированных индексов), осуществляется приведение всех используемых в этом документе слов к словарной форме (например, для существительных, которые чаще всего в поисковых запросах упоминаются имена существительные, именительный падеж единственного числа). Для того, чтобы это можно было делать в автоматическом режиме, поисковым системам необходимо располагать всеобъемлющими словарями, в частности, словарями русского языка.
Используемое в индексируемом документе слово автоматически отыскивается в таком толковом словаре, и вместо оригинального слова для этого документа в обратный индекс записывается словарная форма этого слова. Напомню вам, что поисковые системы ищут не по реальным документам (страницам), которые находятся в интернете, а по созданным на их основе обратным индексам. Обратные индексы создаются в момент индексации поисковой системой этого документа и обновляются по мере необходимости (например, при изменении документа).
Еще одной немаловажной особенностью формирования обратных индексов документов является то, что поисковые системы не добавляют в обратные индексы служебные символы (точки, запятые, двоеточия, вопросительные знаки, пробелы и т.д.). Эти служебные символы не способны по мнению разработчиков поисковых систем, улучшить качество поиска и повысить релевантность поисковых выдач, а значит их не зачем учитывать. Так что если у вас проблемы с орфографией, то поисковые системы об этом даже не будут догадываться, хотя посетители вашего ресурса это, конечно же, заметят.
В связи с этим становится ясно, что не так важно какие именно знаки препинания или же служебные символы (например, такой — |) вы используете в заголовках страниц (TITLE) или же в обратных ссылках (Бесплатные обратные ссылки). Но тут тоже есть свои нюансы и хитрости.
Стоп-слова — всякие там предлоги, местоимения, междометия, частицы, союзы, которые сами по себе не несут какой-либо смысловой нагрузки. На данный момент стоп-слова являются полноценными участниками поисковой выдачи, хотя до определенного времени, в целях экономии места на серверах, поисковые системы эти стоп-слова не индексировали. Сейчас поисковая выдача без какого-либо стоп-слова и поисковая выдача с этим стоп-словом, будут разительно отличаться друг от друга.
Мы уже говорили, что в обратный индекс документа попадает словарная форма используемых в нем слов. Но при этом учитывается изначальная форма слова, т.к. на данный момент поисковая выдача будет разная для разных форм слова (разного падежа, множественного или единственного числа и т.д). Еще пару лет назад Яндекс не формировал разные поисковые выдачи для разных словоформ (падеж, число и т.д.) в поисковом запросе, а сейчас поисковая выдача по запросу с ключевым словом в единственном и множественном числе будет разная.
Какие насущные проблемы встают перед поисковыми системами
Первая и основная проблема, которая встает перед любой поисковой системой — это постоянно растущий размер индексной базы поисковых систем. Индексную базу нужно где-то хранить, а в связи с тем, что размер коллекций поисковых систем постоянно растет, то и места для ее хранения требует все больше и больше. Проблема эта будет стоять перед поисковыми системами всегда и решать ее можно только за счет увеличения количества серверов в дата-центрах.
Яндекс использует для хранения своей индексной базы на данный момент уже около десятка дата-центров по несколько тысяч серверов в каждом дата-центре. При этом Яндекс до недавнего времени индексировал только русскоязычный интернет и лишь сейчас он выходит на мировой уровень и начинает индексировать отличные от русского языка документы. Что же говорить о поисковой системе Google, которая сейчас занимает одну из лидирующих позиций по сборке компьютеров, в то время как все эти компьютеры идут на личные нужды Google (их используют в дата-центрах Google для хранения индексной базы).
Второй основной проблемой, стоящей перед поисковыми системами, является борьба с дубликатами в поисковой выдаче. Зачем это нужно поисковикам? Им просто не хочется тратить такое дорогостоящее лишнее место для хранения индексной базы. Ведь если выкинуть из индексной базы все дубликаты, то поисковая выдача от этого не ухудшится, а вот место, требуемое для хранения уменьшившейся индексной базы, позволит сэкономить немалые средства.
Поэтому поисковики будут вести отчаянную борьбу за искоренение дубликатов из поисковой выдачи. Борятся с дубликатами поисковые системы как с помощью их удаления из поисковой выдачи, так и превентивными мерами, предписывающими вебмастерам самим бороться с дубликатами на своих собственных сайтах. Если вебмастера будут игнорировать это требование поисковых систем, то к их проектам возможно будут применены различные санкции в виде наложения фильтров, вылета страниц ресурса из индекса и прочих репрессивных действий. Поисковые системы можно понять — они защищают свой кошелек.
Еще одной проблемой, с которой довольно успешно борются современные поисковые системы — это спам в поисковых выдачах. Такой спам попадает в поисковую выдачу при использовании вебмастерами черных методов поисковой оптимизации. Те же самые дорвеи, которые попадают в топ поисковых выдач по каким-либо запросам, а при переходе на них пользователя из поисковой выдачи, перекидывают его на совершенно другой ресурс. Это может быть клоакинг, который заключается в предоставлении разной информации для поисковой системы и для пользователя, перешедшего из поисковой выдачи.
Со всеми этими черными методами поисковой оптимизации (черное SEO) поисковые системы довольно успешно борются. Те же дорвеи долго не живут, но все же до окончательной победы еще очень далеко, ибо черное SEO приносит не малый доход владельцам дорвеев и других хитро-оптимизированных ресурсов, а это значит, что они будут изыскивать все новые возможности утереть нос поисковым системам.
Так же перед поисковыми системами стоит задача не только хранения постоянно расширяющейся индексной базы, но и проблема обновления индексной базы, для того чтобы она соответствовала реальной действительности. Нужно не только индексировать новые документы в сети, но и обновлять индексы уже ранее проиндексированных документов.
Ну и последняя из глобальных проблем, стоящих перед поисковыми системами — это понять, что хочет увидеть в результатах поисковой выдачи пользователь, вводя тот или иной поисковый запрос. Понимание поисковыми системами намерений пользователя позволит поисковой системе сформировать наиболее подходящую для этого случая поисковую выдачу, тем самым удовлетворив запросы пользователя. Удовлетворенный пользователь опять вернется именно в эту поисковую систему, т.к. она хорошо понимает что он хотел получить в ответ на свой запрос (хотя он и сам до конца этого не понимал).
Одним из способов, позволяющих конкретизировать запрос пользователя (который реализован в поисковых системах Яндекс и Google), являются всем известные подсказки при вводе запроса в поисковой строке, которые появляются под строкой поиска в виде выпадающего списка. Пользователь ввел какое-либо слово в поисковой строке, а поисковая система подбрасывает ему наиболее часто встречающиеся варианты запросов с этим словом. Таким образом поисковики уточняют, что же именно хотел увидеть в поисковой выдаче пользователь, вводя это слово.

При вводе поискового запроса с грамматическими ошибками Яндекс покажет вам поисковую выдачу по этому запросу с ошибкой, но при этом предположит, что вы все же ошиблись и возможно захотите увидеть поисковую выдачу по грамматически правильно составленному запросу. Для этого пользователю нужно будет только щелкнуть по исправленному варианту написания запроса:

Конечно же, идеальным вариантом для поисковых систем, на мой взгляд, была возможность пользователю задать область поиска по введенному им запросу. Что я имею в виду? Например, когда вы ищите по названию какой-либо модели сотового телефона, то в зависимости от того, на какой стадии выбора продукта вы находитесь, вы захотите увидеть в поисковой выдаче либо конкретные предложения о продаже данного телефона, либо вы захотите увидеть в поисковой выдаче материалы, рассказывающие о преимуществах и недостатках данной модели.
Для уточнения своего желания вы, конечно же, можете использовать дополнительные слова в поисковом запросе, но как бы было здорово иметь возможность поставить галочку в полях «Коммерческий» или «Не коммерческий». И все, этого было бы достаточно, для фильтрации в поисковой выдачи того, что вам в данный момент не нужно. Но это, как я понимаю, либо довольно сложно реализовать, либо имеются какие-либо шкурные интересы у поисковых систем этого не делать. Говорят, что у одной из поисковых систем когда-то было что-то подобное реализовано, но потом все скурвилось.
Виды поисковых запросов пользователей в зависимости от частоты их использования в поисковых системах
Поисковые запросы пользователей можно разделить на три группы по частоте их повторения в течении одного месяца. Естественно, что существуют популярные поисковые запросы, которые очень часто используют пользователи при поиске, есть запросы, которые используются чуть менее часто и есть запросы, которые используются при поиске очень редко. В связи с этим принято относить те или иные запросы к определенной группе:
-
Высокочастотные поисковые запросы (ВЧ) — это такие запросы, которые вводят пользователи поисковых систем более десяти тысяч раз в месяц. Продвинуться в топ поисковой выдаче (первые десять позиций, как правило, делят между собой львиную долю пользователей, набравших этот запрос) по этим запросам очень сложно (я бы даже сказал, что неимоверно сложно) и дорого (несколько десятков тысяч долларов в месяц не предельная цена для продвижения по конкурентным высокочастотным запросам), но зато, если вам это удастся, то вы получите очень большой приток посетителей на ваш ресурс.
И как результат — повышение уровня продаж. Я говорю продаж, потому что продвигаться по высокочастотным запросам будут именно коммерческие проекты, способные платить за это серьезные деньги и которые способны затем отбить эти деньги за счет повышения уровня продаж, после попадания ресурса в топ поисковой выдачи по высокочастотному запросу.
Что примечательно, тенденция развития современного интернета такова, что процент высокочастотных запросов в общей массе поисковых запросов неуклонно снижается. Сейчас процент высокочастотных запросов может составлять всего лишь несколько процентов от всех запросов, вводимых в поисковых системах. Раньше высокочастотные запросы имели гораздо больший процент среди прочей массы поисковых запросов. Сейчас рулят низкочастотные поисковые запросы, о которых речь пойдет чуть ниже.
- Среднечастотные поисковые запросы (СЧ) — это такие запросы, которые вводят пользователи поисковых систем от тысячи до десяти тысяч раз в месяц. Продвижение по среднечастотным поисковым запросам похоже на продвижение по высокочастотным запросам, разве только, что бюджет на продвижение здесь можно закладывать поскромнее, но и отдача от попадания в топ поисковой выдачи по такому запросу будет ниже, чем при попадании в топ по высокочастотному поисковому запросу
-
Низкочастотные поисковые запросы (НЧ) — это такие запросы, которые вводят пользователи поисковых систем менее тысячи раз в месяц. На данный момент низкочастотные поисковые запросы забирают на себя львиную долю поискового трафика (пользователей, перешедших на какие-либо сайты с поисковых выдач). Связано это с тем, что низкочастотные запросы, как правило, состоят из нескольких слов, а тенденция развития интернета и поисковых систем в частности, сейчас заключается в том, что увеличивается число слов в запросах пользователей поисковых систем.
Скажем, если десять лет назад среднее количество слов, вводимое пользователем в поисковую строку, было чуть более одного слова, то сейчас пользователь в среднем составляет запрос почти из трех слов. Высокочастотные запросы более односложные и их доля в поисковом трафике снижается, а многосложные низкочастотники и сверхнизкочастотники забирают на себя около трех четвертей всего поискового трафика.
Еще одной немаловажной особенность низкочастотных поисковых запросов является то, что по ним можно продвинуться и попасть в топ поисковой выдачи не используя вообще внешнюю поисковую оптимизацию (покупка ссылок, например). Для продвижения по низкочастотным поисковым запросам будет достаточно одной лишь грамотной внутренней оптимизации страницы (Внутренняя оптимизация сайта).
Как правило, хорошо оптимизированные под нужные низкочастотные запросы внутренние страницы сайта, даже без проставления на них обратных ссылок с нужными анкорами, способны попасть в топ поисковых выдач. Хотя, для повышения вероятности этого события несколько обратных ссылочек не помешает проставить, но этого можно и не делать.
Стратегия продвижения по низкочастотным поисковым запросам
Удел такого блога как мой (http://ktonanovenkogo.ru/) — это низкочастотные запросы. Стратегия поискового продвижения по низкочастотным запросам при этом может быть примерно следующей: каждая отдельная статья затачивается под определенные ключевые слова, которые присутствуют в заголовке страницы TITLE, в промежуточных заголовках статьи, а так же выделяются тегами STRONG или EM в тексте статьи.
Так же, путем использования в тексте ключевых слов, достигается определенная тошнота страницы именно по этим ключевым словам, а не по каким либо другим паразитным и мешающим продвижению словам. После этого статья должна сама пробиться в топ по некоторым низкочастотным поисковым запросам, в которых будут присутствовать выбранные ключевые слова.
Так как доля низкочастотных запросов велика, то, таким образом, можно получить очень приличный трафик с поисковых систем на ваш ресурс (у меня поисковый трафик на данный момент составляет чуть менее полутора тысяч посетителей в сутки, пришедших с выдач поисковых систем по низкочастотным запросам).
О том, что такое внутренняя оптимизация и в чем она заключается вы можете почитать здесь — Внутренняя оптимизация сайта. Чуть выше я упомянул такое понятие как тошнота страницы, которая влияет на позицию сайта в поисковой выдаче. Об этом понятии я хочу подробно поговорить в одной из следующих статей рубрики «Продвижение сайтов (SEO и SMO)». Поэтому, если не хотите пропустить эту статью, то подписывайтесь на новостную рассылку этого блога по RSS или же по обычной электронной почте.
Можете также посмотреть видео «Яндекс ищет в режиме реального времени»:
У Евгения Попова вышел новый видекурс Все Технические Моменты Онлайн Бизнеса в Видеоформате, который стоит того, чтобы с ним ознакомиться.
Вы так же можете ознакомиться с другими статьями на тему продвижения сайта:
- Продвижение сайтов SEO
- Что такое SEO (сео) продвижение и оптимизация сайта
- База трастовых сайтов (бесплатно - за одну обратную ссылку)
- Яндекс Директ - альтернатива поисковому продвижению (SEO)
- Как добавить сайт в поиск Яндекса, Гугла, и др.
- Как добавить сайт в каталоги Яндекс, DMOZ и др.
- ТИЦ сайта, Виц и ПР - в чем отличие и где проверить
- GoGetLinks (гогетлинкс) - покупка ссылок "навсегда"
- Miralinks (миралинкс) - размещение статей "навсегда"
- RotaPost (ротапост) - покупка ссылок с разных типов ресурсов
- Сниппет или как работают поисковые системы
- Поисковик Google.ru - отличия от Google.com и Яндекса
- Яндекс (Yandex.ru) - особенности продвижения
- Гугл (Google) - отличительные особенности продвижения и оптимизации
- Продвижение сайта самостоятельно
- Как раскрутить сайт самому
- Семантическое ядро и подбор ключевых слов в wordstat.yandex.ru
- Ключевые слова в тексте и заголовках
- Как использовать статистику поисковых запросов Яндекса и Google
- Site-Auditor (сайт-аудитор) — определение позиций сайта в поисковых системах
- Релевантность и ранжирование - как не попасть в опалу к Яндексу и Гуглу
- Онлайн анализ сайта
- Копирайтер и SEO копирайтинг для своего сайта
- Анкоры ссылок - что это такое и какими они должны быть
- Копипаст (copypast) и как от него защититься
- Какие поведенческие факторы имеет ваш сайт
- Уникальный контент для сайта - главное условие успешного продвижения
- Технические аспекты продвижения сайтов
- Продвижение в социальных медиа (SMO)
Удачи вам! До скорых встреч на страницах блога KtoNaNovenkogo.ru
-
- Статистика поисковых запросов Яндекс, Google и Рамблер, как работать со статистикой Яндекса
- Траст (TrustRank), трастовость и авторитетность сайтов в глазах поисковых систем, что это такое и как траст ранк влияет на посещаемость
- Поисковое продвижение сайта в Google.com — Определение региона для сайта (Google.ru, Google.ua), работа поисковой системы, основной и дополнительный индексы поисковика Google
- Что влияет на продвижение сайта в поисковых системах по версии ТопЭксперт — ключевые слова
- Семантическое ядро, подбор ключевых слов в запросах статистики Яндекс Вордстат (Wordstat.Yandex.ru)
- Как работают поисковые системы — сниппет, алгоритм обратных индексов, индексация страниц, особенности работы поисковиков
- Значение контента и его оптимизация под поисковые системы, тематика сайта, что дают тематические ссылки, внутренние факторы продвижения сайта


Очень нравиться Ваш сайт. Всегда хорошие, грамотно написанные статьи! Читать очень приятно, интересно и легко. Большое спасибо!
Отличная статья, написанная понятным языком! Часто ссылаюсь на Ваш блог в своих постах. Почти все Ваши материалы подходят под определение Михаила Шакина — «писать статьи, как закладки для себя»! Всегда нахожу для себя много полезного, хотя мой блог на Blogger. Спасибо!
мне тоже очень понравился ваш ресурс, очень познавательный, только не сочтите мой комментарий за спам ; )))
Большое спасибо за статью, теперь продвигаю свой сайт, с помощью вашего труда
Согласен с Retliff-ом. Уважаю данный сайт, и сайт Шакина. Хотя уровень и целевая аудитория у них достаточно разная.
Очень продуманный сайт — приятно читать и учиться!