Учет морфология языка и другие проблемы решаемые поисковыми системами, а так же отличие ВЧ, СЧ и НЧ запросов

22 Июль, 2010

Здравствуйте, уважаемые читатели блога KtoNaNovenkogo.ru. В сегодняшней статье мы продолжим тему изучения работы поисковых систем, начатую здесь. Чтобы оптимизировать свой сайт, нужно хотя бы в общем виде представлять, как работают алгоритмы поиска, как они проводят индексацию документов, как осуществляют выборку по индексной базе и многое другое.

Сегодня мы рассмотрим вопрос учета морфологии языка при формировании выдачи (результатов поиска), узнаем какие проблемы сейчас актуальны для Яндекса и Гугла и как они пытаются их решать, а так же подробно рассмотрим виды и особенности запросов пользователей, исходя из их частоты использования. Ну, и немного затронем вопрос, как нужно осуществлять продвижение.

Какие проблемы встают перед поисковиками


Первая и основная проблема, которая встает перед любым алгоритмом, это постоянно растущий размер индексной базы. Ее нужно где-то хранить, а в связи с тем, что размер коллекций постоянно растет, то и места для ее хранения требует все больше и больше. Проблема эта будет стоять перед Яндексом и Google всегда и решать ее можно только за счет увеличения количества серверов в дата-центрах.

Яндекс использует для хранения, на данный момент, уже около десятка дата-центров по несколько тысяч серверов в каждом. При этом он до недавнего времени индексировал только русскоязычный интернет и лишь сейчас выходит на мировой уровень и начинает проявлять интерес к документам на других языках.

Что же говорить о Google, который сейчас занимает одну из лидирующих позиций по сборке компьютеров, в то время как все эти компьютеры идут исключительно на его личные нужды (их используют в дата-центрах для хранения индексной базы).

Второй основной проблемой, стоящей перед поисковиками, является борьба с дубликатами в выдаче. Зачем это нужно? Им просто не хочется тратить понапрасну такое дорогостоящее место для хранения базы. Ведь если выкинуть из нее все дубликаты, то выдача от этого не ухудшится, а вот место, требуемое для хранения, уменьшится, позволив сэкономить немалые средства.

Поэтому Гугл с Яндексом будут вести отчаянную борьбу за искоренение дубликатов. Борются с этим злом они как с помощью их удаления из выдачи, так и превентивными мерами, предписывающими вебмастерам самим бороться с дублирование контента на своих собственных сайтах.

Если вебмастера будут игнорировать это требование поисковых систем, то к их проектам, возможно, будут применены различные санкции в виде наложения фильтров, вылета страниц ресурса из индекса и прочих репрессивных действий. И это можно понять, ибо они защищают свой кошелек (святое для буржуев).

Еще одной проблемой, с которой довольно успешно борются современные гиганты поиска — это спам. Он попадает в выдачу при использовании вебмастерами черных методов оптимизации. Те же самые дорвеи, которые попадают в топ по каким-либо запросам, а при переходе на них пользователя, его перекидывают на совершенно другой ресурс.

Это может быть клоакинг, который заключается в предоставлении разной информации для поисковой системы и для пользователя, перешедшего из выдачи.

Со всеми этими черными методами оптимизации (черное SEO) алгоритмы довольно успешно борются. Те же дорвеи долго не живут, но все же до окончательной победы еще очень далеко, ибо черное СЕО приносит не малый доход владельцам дорвеев и других хитро-оптимизированных ресурсов, а это значит, что они будут изыскивать все новые возможности утереть нос Google и Яндексу.

Так же стоит задача не только хранения постоянно расширяющейся индексной базы, но и проблема ее обновления, для того, чтобы она соответствовала реальной действительности. Нужно не только индексировать новые документы в сети, но и обновлять индексы уже ранее проиндексированных.

Ну, и последняя из глобальных проблем — это понять, что хочет увидеть в результатах поиска пользователь, вводя тот или иной запрос (я уже писал тут, как правильно искать в Google, а здесь, как искать в Яндексе, но даже эти знания не всегда могут помочь).

Понимание намерений пользователя позволит сформировать наиболее подходящую для этого случая выдачу, тем самым удовлетворив запросы пользователя. А удовлетворенный пользователь опять вернется к этому поисковику, т.к. он хорошо понимает, что тот хотел получить в ответ на свой вопрос (хотя он и сам до конца этого не понимал).

Одним из способов, позволяющих конкретизировать запрос пользователя (который реализован в Яндексе и Google), являются всем известные подсказки, которые появляются под строкой поиска в виде выпадающего списка.

Пользователь ввел какое-либо слово в строке, а алгоритм подбрасывает ему наиболее часто встречающиеся варианты вопросов с этим словом. Таким образом поисковики уточняют, что же именно хотел увидеть в ответ пользователь, вводя это слово.

При вводе запроса с грамматическими ошибками, Яндекс покажет вам выдачу с ошибкой, но при этом предположит, что вы все же ошиблись и, возможно, захотите увидеть результаты по грамматически правильно составленному запросу. Для этого пользователю нужно будет только щелкнуть по исправленному варианту написания:

P.S. Сейчас все в точности до наоборот — неправильное написание исправляется автоматически, а чтобы увидеть результаты по вопросу с ошибкой, то придется щелкнуть по специальной ссылке.

Конечно же, идеальным вариантом, на мой взгляд, была возможность пользователю задать область поиска по введенному им вопросу. Что я имею в виду?

Например, когда вы ищите по названию какой-либо модели сотового телефона, то в зависимости от того, на какой стадии выбора продукта вы находитесь, вы захотите увидеть в ответах либо конкретные предложения о продаже, либо материалы, рассказывающие о преимуществах и недостатках данной модели.

Для уточнения своего желания вы, конечно же, можете использовать дополнительные слова, но как бы было здорово иметь возможность поставить галочку в полях «Коммерческий» или «Не коммерческий». И все, этого было бы достаточно для фильтрации того, что вам в данный момент не нужно.

Но это, как я понимаю, либо довольно сложно реализовать, либо имеются какие-либо шкурные интересы у поисковых систем этого не делать. Говорят, что у одной из них когда-то было что-то подобное реализовано, но потом все скурвилось.

Виды запросов в зависимости от их частотности — ВЧ, СЧ и НЧ


Запросы пользователей можно разделить на три группы по частоте их повторения в течении одного месяца. Естественно, что существуют популярные вопросы, которые очень часто используют пользователи при поиске, есть которые используются чуть менее часто и есть вопросы, которые задаются Яндексу или Гуглу крайне редко.

В связи с этим принято относить их к определенной группе:

  1. Высокочастотные запросы (ВЧ) — которые вводят пользователи более десяти тысяч раз в месяц. Продвинуться в топ (первые десять позиций, как правило, делят между собой львиную долю пользователей, набравших этот запрос) по ним очень сложно (я бы даже сказал, что неимоверно сложно) и дорого (несколько десятков тысяч долларов в месяц не предельная цена для продвижения по конкурентным ВЧ), но зато, если вам это удастся, то получите очень большой приток посетителей на ваш ресурс.

    И, как результат, повышение уровня продаж. Я говорю продаж, потому что продвигаться по ВЧ будут именно коммерческие проекты, способные платить за это серьезные деньги и которые способны затем отбить их за счет повышения уровня продаж, после попадания ресурса в топ по этому ВЧ.

    Что примечательно, тенденция развития современного интернета такова, что процент ВЧ в общей массе поисковых запросов неуклонно снижается. Сейчас он составляет всего лишь несколько процентов от всей массы. Раньше ВЧ имели гораздо больший процент, но сейчас рулят низкочастотные запросы (сильно уточненные ВЧ), о которых речь пойдет чуть ниже.

  2. Среднечастотные запросы (СЧ) — которые вводят пользователи от тысячи до десяти тысяч раз в месяц. Продвижение по СЧ похоже на продвижение по ВЧ, разве только, что бюджет здесь можно закладывать поскромнее, но и отдача от попадания в топ будет ниже.
  3. Низкочастотные запросы (НЧ) — которые вводят пользователи менее тысячи раз в месяц. На данный момент НЧ забирают на себя львиную долю поискового трафика. Связано это с тем, что НЧ, как правило, состоят из нескольких слов, а тенденция развития интернета, и поисковиков в частности, сейчас заключается в том, что увеличивается число слов в запросах пользователей.

    Скажем, если десять лет назад среднее количество слов, вводимое пользователем в поисковую строку, было чуть более одного слова, то сейчас средний запрос состоит почти из трех слов. ВЧ более односложные и их доля в поисковом трафике снижается, а многосложные низкочастотники и сверхнизкочастотники забирают на себя около трех четвертей от всего количества.

    Еще одной немаловажной особенность НЧ является то, что по ним можно продвинуться и попасть в топ не используя вообще внешнюю поисковую оптимизацию (покупку ссылок, например). Для продвижения по ним будет достаточно одной лишь грамотной внутренней оптимизации страницы (подробные статьи вы можете найти по этой теме тут и здесь про технический аудит).

    Как правило, хорошо оптимизированные внутренние страницы сайта, даже без проставления на них обратных ссылок с нужными анкорами, способны попасть в топ по НЧ. Хотя, для повышения вероятности этого события несколько обратных ссылочек не помешает проставить, но этого можно и не делать.

Стратегия продвижения по низкочастотным запросам

Удел такого блога, как мой (http://ktonanovenkogo.ru/), это НЧ запросы. Стратегия продвижения по ним при этом может быть примерно следующей: каждая отдельная статья затачивается под определенные ключевые слова, которые присутствуют в заголовке страницы TITLE, в промежуточных заголовках статьи, а так же слегка выделяются тегами STRONG или EM в тексте.

Так же, путем использования в тексте ключевых слов достигается определенная тошнота страницы именно по ним, а не по каким либо другим паразитным и мешающим продвижению словам. После этого статья должна сама пробиться в топ по некоторым НЧ, в которых будут присутствовать выбранные ключи.

Так как доля НЧ велика, то таким образом можно получить очень приличный трафик с поисковых систем (у меня он на данный момент составляет чуть менее полутора тысяч посетителей в сутки).

Как учитывается морфология языка в работе поисковых систем


Когда, например, Яндекс, осуществляет индексацию какой-либо странички в интернете, то кроме того, что из оригинального документа создается так называемый обратный индекс, осуществляется приведение всех используемых в нем слов к словарной форме (например, для существительных — именительный падеж единственного числа).

Для того, чтобы это можно было делать в автоматическом режиме, поисковикам необходимо располагать всеобъемлющими словарями, в частности, русского языка.

Используемое в индексируемом документе слово автоматически отыскивается в таком толковом словаре, и вместо оригинала в обратный индекс записывается его словарная форма. Напомню вам, что алгоритмы ищут не по реальным вебстраницам, которые находятся в интернете, а по созданным на их основе обратным индексам, которые создаются в момент индексации этих страниц и обновляются по мере необходимости.

Еще одной немаловажной особенностью формирования обратных индексов является то, что в них не попадают служебные символы (точки, запятые, двоеточия, вопросительные знаки, пробелы и т.д.). Эти символы не способны улучшить качество поиска и повысить релевантность поисковых выдач, а значит их не зачем учитывать.

Так что если у вас проблемы с орфографией, то Яндекс и Гугл об этом даже не будут догадываться, хотя посетители вашего ресурса это, конечно же, заметят.

В связи с чем становится ясно, что не так важно, какие именно знаки препинания или же служебные символы (например, такой — |) вы используете в заголовках страниц (TITLE) или же в обратных ссылках. Но тут тоже есть свои нюансы и хитрости.

Стоп-слова — всякие там предлоги, местоимения, междометия, частицы, союзы, которые сами по себе не несут какой-либо смысловой нагрузки. На данный момент они являются полноценными участниками выдачи, хотя до определенного времени в целях экономии места на серверах, поисковики их не индексировали.

Мы уже говорили, что в обратный индекс попадает словарная только форма. Но при этом учитывается и изначальная форма слова, т.к. на данный момент выдача будет разная для разных форм (падежа, множественного или единственного числа и т.д).

Еще пару лет назад Яндекс не делал разницы (падеж, число и т.д.) в поисковом запросе, а сейчас выдача по запросу с ключевым словом в единственном и множественном числе будет разная.

Удачи вам! До скорых встреч на страницах блога KtoNaNovenkogo.ru

Еще:

Рубрики :Учимся нравиться Яндексу и Google

Комментарии и отзывы

Елена

Очень нравиться Ваш сайт. Всегда хорошие, грамотно написанные статьи! Читать очень приятно, интересно и легко. Большое спасибо!

Retliff

Отличная статья, написанная понятным языком! Часто ссылаюсь на Ваш блог в своих постах. Почти все Ваши материалы подходят под определение Михаила Шакина — «писать статьи, как закладки для себя»! Всегда нахожу для себя много полезного, хотя мой блог на Blogger. Спасибо!

anastasia

мне тоже очень понравился ваш ресурс, очень познавательный, только не сочтите мой комментарий за спам ; )))

Александр

Большое спасибо за статью, теперь продвигаю свой сайт, с помощью вашего труда 🙂

Reklaman

Согласен с Retliff-ом. Уважаю данный сайт, и сайт Шакина. Хотя уровень и целевая аудитория у них достаточно разная.

Иван

Очень продуманный сайт — приятно читать и учиться!

Чайкина

Сколько же нового я узнала! Прямо глаза разбегаются. Столько всего, что меня интересовало, и все это на одном ресурсе.Спасибо за Ваш труд! Помчалась применять знания на практике...))

Oksana

Изучаю оптимизацию сайта и уже раз двадцатый попадаю на ваш сайт и только с десятого раза стала наконец понимать саму суть. Очень полезные статьи. Удачи вам.

Мой подопытный сайт vwomen.ru

Николай Перов

Добрый день Дмитрий

А по какому количеству НЧ лучше раскручивать статью? У меня молодой блог. Лучше взять много НЧ на одну стать с маленьким количеством показов wordstat по-каждому, например использую 10 НЧ по 100 показов на статью по точному вхождению за каждый. Или 5 НЧ по 200 показов. Или вообще 1 НЧ и 1000 показов по нему?

Информация насущная, актуальная, но пока нигде не могу найти ответ, если у вас есть статья с такой информацией, был бы благодарен за ссылку...

aleksaid

очень нравятся ваши статьи, в связи с чем возникает вопрос: откуда берете информацию вы? можно узнать какие то источники, книги например... очень нужно. буду благодарен если кто то подскажет хорошие книги в русском переводе о механизмах и особенностях поисковых машин)

Подписаться не комментируя