Поисковые системы России и лидирующие поисковики интернета

7 Ноябрь, 2013

Здравствуйте, уважаемые читатели блога KtoNaNovenkogo.ru. Когда интернет был еще совсем молодой, то его немногочисленным пользователям было достаточно собственных закладок. Однако, как вы помните, рост аудитории всемирной паутины происходил в геометрической прогрессии, и совсем скоро ориентироваться во всем ее многообразии стало сложнее.

Тогда появились каталоги (Яху, Дмоз и другие), в которых их авторы добавляли и сортировали по категориям различные сайты. Это сразу же облегчило жизнь тогдашним, еще не очень многочисленным пользователям глобальной сети. Многие из этих каталогов живы и до сих пор.

Но через некоторое время размеры их баз стали настолько большими, что разработчики сначала задумались о создании поиска внутри них, а потом уже и о создании автоматизированной системы индексации всего содержимого интернета, чтобы сделать его доступным всем желающим.

Основные поисковики русскоязычного сегмента интернета


Как вы понимаете, идея эта реализовалась с ошеломительным успехом, но, правда, все сложилось хорошо только для горстки избранных компаний, которым удалось не сгинуть на просторах интернета. Почти все поисковые системы, которые появились на первой волне, сейчас либо исчезли, либо прозябают, либо были куплены более удачными конкурентами.

Поисковая система представляет из себя очень сложный и, что немаловажно, очень ресурсоемкий механизм (имеются в виду не только материальные ресурсы, но и людские). За внешне простой главной страницей Яндекса, или ее аскетичным аналогом от Гугла, стоят тысячи сотрудников, сотни тысяч серверов и многие миллиарды вложений, которые необходимы для того, чтобы эта махина продолжала работать и оставалась конкурентоспособной.

Выйти на этот рынок сейчас и начать все с нуля — это скорее утопия, чем реальный бизнес проект. Например, одна из богатейших в мире корпораций Микрософт десятилетиями пыталась закрепиться на рынке поиска, и только сейчас их поисковик Бинг начинает потихоньку оправдывать их ожидания. А до этого была целая череда провалов и неудач.

Что уж говорить о том, чтобы выйти на этот рынок без особых финансовых влияний. К примеру, наша отечественная поисковая система Нигма имеет много чего полезного и инновационного в своем арсенале, но их посещаемость в тысячи раз уступает лидерам рынка России. Для примера взгляните на суточную аудиторию Яндекса:

В связи с этим можно считать, что список основных (лучших и самых удачливых) поисковиков рунета и всего интернета уже сформировался и вся интрига заключается только в том, кто кого в итоге сожрет, ну или каким образом распределится их процентная доля, если все они уцелеют и останутся на плаву.

Рынок поисковых систем России очень хорошо просматривается и тут, наверное, можно выделить двух или трех основных игроков и парочку второстепенных. Вообще, в рунете сложилась достаточно уникальная ситуация, которая повторилась, как я понимаю, только еще в двух странах в мире.

Я говорю о том, что поисковик Google, придя в Россию в 2004 году, не смог до сих пор захватить лидерства. На самом деле, они пытались примерно в этот период купить Яндекс, но что-то там не сложилось и сейчас «наша Раша» вместе с Чехией и Китаем являются теми местами, где всемогущий Гугл, если не потерпел поражение, то, во всяком случае, встретил серьезное сопротивление.

На самом деле, увидеть текущее положение дел среди лучших поисковиков рунета может любой желающий. Достаточно будет вставить этот Урл в адресную строку вашего браузера:

http://www.liveinternet.ru/stat/ru/searches.html?period=month;total=yes

Дело в том, что большая часть вебмастеров в RuNet использует на своих сайтах счетчик от ЛайвИнтернета, а данный Урл позволяет увидеть статистику захода посетителей с различных поисковых систем на все сайты, которые принадлежат доменной зоне RU.

После ввода приведенного Урла вы увидите не очень приглядную и презентабельную, но зато хорошо отражающую суть дела картинку. Обратите внимание на первую пятерку поисковых систем, с которых сайты на русском языке получают трафик:

Да, конечно же, не все ресурсы с русскоязычным контентом размещаются в этой зоне. Есть еще и SU, и РФ, да и общих зонах типа COM или NET полно интернет проектов ориентированных на рунет, но все же, выборка получается довольно-таки репрезентативная.

Эту зависимость можно оформить и более красочно, как, например, сделал кто-то в сети для своей презентации:

Сути это не меняет. Есть пара лидеров и несколько сильно и очень сильно отстающих поисковых систем. Кстати, о многих из них я уже писал. Иногда бывает довольно занимательно окунуться в историю успеха или, наоборот, покопаться в причинах неудач когда-то перспективных поисковиков.

Итак, в порядке значимости для России и рунета в целом, перечислю их и дам им краткие характеристики:

  1. Яндекс — из приведенных выше графиков видно, что это безусловный лидер. Более того, если брать в расчет коммерческие запросы, то их число, вводимое пользователями в этой поисковой системе, наверное, в разы превосходит ближайшего конкурента.

    Считают, что причиной этому является аудитория Яндекса — дескать там ищут одни лишь обыватели. Возможно, но скорее всего тут основную роль играет гораздо более выраженная региональность, которая еще не так отточена в Гугле.

    Этот поисковик ведет свое существование аж с далекого 1997 года и ему недавно стукнуло 16 лет. Про историю Яндекса читайте по приведенной ссылке, а я лишь подчеркну, что основатели этой компании (Илья Сегалович и Аркадий Волож) до сих находятся у руля.

    Про то, как искать что-то в Яндексе, я уже писал. Там же я упоминал, что у них есть аскетичный вариант главной страницы, семейный поиск и возможность в живую посмотреть, что в данный момент спрашивают пользователи. Ну, и еще сотни других сервисов и возможностей.

  2. Google.ru — региональное отделение самой популярной в мире, но не в России поисковой системы. Сама компания появилась на свет примерно в одно время с Yandex, а на российский рынок поиска вышла лишь в 2004, когда основной конкурент успел там уже хорошо окопаться (на приведенной чуть выше фотке справа стоят ее основатели — Лари Пейдж и Сергей Бринг, о которых можете почитать в истории поисковика Гугл).

    Поиск в Гугле стал для многих жителей планеты уже нарицательным — о том, как правильно гуглить, вы можете прочитать по ссылке. Мне в этом поисковике нравился вариант «перевод результатов», когда ответы вы получали со всего мира, но на своем родном языке, однако сейчас он, к сожалению, не доступен (во всяком случае на google.ru).

    Так же в последнее время меня озадачивает и качество их выдачи (Search Engine Result Page). Лично я всегда сначала использую поисковую систему зеркала рунете (там есть фавиконы сайтов, ну и привык я к ней) и только не найдя там вразумительного ответа обращаюсь к Гуглу.

    Обычно их выдача меня радовала, но последнее время только озадачивает — порой такой бред вылазит. Возможно, что их борьба за повышение дохода с контекстной рекламы и постоянная перетасовка выдачи с целью дискредитировать Seo продвижение могут привести к обратному результату. Во всяком случае в рунете конкурент у этого поисковика имеется, да еще какой.

  3. Поисковая система Майл.ру — по заявлениям их представителя, летом 2013 года они вышли из под крыла Google и за формирование ответов на вопросы пользователей теперь целиком и полностью отвечает их собственный поисковик Go.mail.ru. Ну, замечательно, ибо, чем сильнее конкуренция, тем лучше должно быть конечному пользователю, т.е. нам с вами, уважаемые читатели.

    Поисковая доля Майл.ру не велика, но уже приближается к десяти процентам, что можно считать величиной серьезной. Однако стоит понимать, что цифра эта обеспечена прежде всего огромным электоратом различных сервисов этой мегакорпарации (Одноклассники, Мой мир, почты Майл.ру и т.п.).

    Думаю, что вряд ли кто-то специально будет заходить на Go.mail.ru для поиска в рунете. Поэтому трафик на развлекательных проектах с этой поисковой системы может быть существенно больше, чем десять процентов. Владельцам таких проектов стоит обратить внимание на эту систему.

Ну, и по традиции (другие голосования) хотелось бы предложить Вам отдать голос за вашего любимчика, чтобы локально попытаться решить вопрос — а какой поисковик самый лучший в Рунете:

Код для вставки голосования на сайт:

<p><iframe src='http://ktonanovenkogo.ru/vote/voting.php?v=3&id=2' style='border: medium none; width: 715px; height: 300px;' frameborder='0' scrolling='no'></iframe></p>

Однако, кроме ярко выраженных лидеров на рынке поисковых систем русскоязычного сегмента интернета, существует еще несколько игроков, доля которых довольно низка, но тем не менее сам факт их существования заставляет сказать о них пару слов.

Поисковые системы рунета из второго эшелона


  1. Рамблер — старейшая поисковая система интернета, которая ведет свой отсчет с 1996. У нее были все шансы стать номером один в рунете, но этого не случилось по целому ряду причин. Теперь это уже не поисковик в общеизвестном смысле слова, а лишь набор сервисов с достаточно высокой посещаемостью, на которых в качестве поиска используется движок Яндекса.

    О том, как Рамблер перестал быть поисковой системой, читайте по ссылке. Собственно, его история началась с создания каталога Rambler Топ 100 и похоже, что они к этому же и вернулись.
  2. Бинг — за свою историю этот поисковик несколько раз менял название. Начиная с 1998 и до 2006 года он был MSN Search, потом Windows Live Search, затем просто Live Search и, наконец, стал зваться Bing. Качество поиска в нем вполне соответствует заложенному Гуглом стандарту.

    Из приведенных в этой части статьи участников, он, пожалуй, единственный, кто еще использует свой собственный движок, что само по себе заслуживает уважение. Стоит попробовать поисковую систему Бинг в работе, особенно, если вы иногда ищите не только в рунете, но и в глобальной сети интернет.

  3. Yahoo — доля этого поисковика в России и в русскоязычном интернете в целом очень мала, да и по большому счету это уже и не поисковая система, ибо не так давно они заключили с Майкрософт договор, по которому на всех площадках принадлежащих Яху будет использоваться поисковый движок Бинга. Подробнее про Yahoo по-русски читайте в приведенной статье.
  4. Вебальта — вот даже ссылку на нее ставить не буду, ибо этот, с позволения сказать, поисковик, сам себя добавляет поиском по умолчанию в браузеры пользователя и выковырить его потом оттуда не так то уж и просто. Конечно же, многие поисковые системы используют подобную тактику, но Webalta переходит все границы.

    Ее установка в браузер происходит без вашего ведома и больше напоминает действие вируса. Собственно, тот объем посетителей, которые получает этот сервис, обусловлен именно такими их бесцеремонными действиями. Поэтому пользователей в интернете больше интересует вопрос, как удалить Webalta с компьютера, а не то, насколько корректно работает ее поиск. Такая вот печальная история.

  5. Нигма — однозначно необычная поисковая система. Во-первых, она использует не только свою индексную базу, но и данные других популярных поисковиков. Во-вторых, она является кластеризующей, т.е. вы можете наложить определенные фильтры на результаты поиска, чтобы отсеять все лишнее.

    В-третьих, у них имеется Нигма математика и химия, которые помогут школьникам и студентам в решении задач по этим тематикам.

    Есть в Nigma так же отдельный поиск по торентам и по музыке:

    По приведенной ссылке вы найдете описание этой системы, которая стоит того, чтобы уделить ей какое-то время.

  6. Aport — домен, на котором размещалась эта поисковая система (существовала с 1997 года) был продан некоторое время назад коммерческой компании, после чего поисковик переехал на поддомен, указанные чуть выше. Естественно, что алгоритмы с тех пор не развиваются, поэтому Апорт можно считать скорее мертвым, чем живым.

Поисковые системы масштаба всего интернета


По большому счету в масштабах всего интернета серьезный игрок только один — Гугл. Это безусловный лидер, однако некоторая конкуренция у него все же имеется.

Во-первых, это все тот же Бинг, который, например, на американском рынке имеет очень хорошие позиции, особенно, если учитывать, что его движок используется так же и на всех сервисах Яху (почти треть от всего рынка поиска США).

Ну, а во-вторых, в силу огромной доли, которую составляют пользователи из Китая в общем числе пользователей интернета, их главный поисковик под названием Baidu вклинивается в распределение мест на мировом олимпе. Он появился на свет в 2000 году и сейчас его доля составляет около 80% процентов от всей национальной аудитории Китая.

Трудно о Байду сказать еще что-то вразумительное, но на просторах интернета встречаются суждения, что места в его Топе занимают не только наиболее релевантные запросу сайты, но и те, кто за это заплатил (напрямую поисковику, а не Сео конторе). Конечно же, это относится в первую очередь к коммерческой выдаче.

В самой поднебесной он является безусловным лидером (процент даже выше, чем у Яндекса в России) и поэтому общемировая картина использования поисковых систем выглядит сейчас примерно так:

В общем-то, глядя на статистику становится понятно, почему Google там легко идет на то, чтобы ухудшать свою выдачу в обмен на увеличение прибыли с контекстной рекламы. Фактически они не боятся оттока пользователей, ибо в большинстве случаев им уходить особо и некуда. Такая ситуация несколько печалит, но посмотрим, что будет дальше.

К слову сказать, чтобы еще больше усложнить жизнь оптимизаторам, а может быть, чтобы поддержать спокойствие пользователей этого поисковика, Google с недавних пор применяет шифрование при передаче запросов из браузера пользователей в поисковую строку. Скоро уже нельзя будет увидеть в статистике счетчиков посетителей, по каким запросам приходили к вам пользователи с Гугла.

Конечно же, кроме озвученных в этой публикации поисковых систем, существует еще не одна тысяча других — региональных, специализированных, экзотических и т.д. Пытаться их все перечислить и описать в рамках одной статьи будет не возможно, да и, наверное, не нужно. Давайте лучше скажу пару слов о том, как не легко создать поисковик и как не просто и не дешево его поддерживать в актуальном состоянии.

Подавляющее большинство систем работают по схожим принципам (читайте о том, как работают поисковики и про учет морфологии в поиске) и преследуют одну и ту же цель — дать пользователям ответ на их вопрос. Причем ответ этот должен быть релевантным (соответствующим вопросу), исчерпывающим и, что не маловажно, актуальным (первой свежести).

Решить эту задачу не так-то уж и просто, особенно учитывая, что поисковой системе нужно будет налету проанализировать содержимое миллиардов интернет страниц, отсеять лишние, а из оставшихся сформировать список (выдачу), где вначале будут идти наиболее подходящие под вопрос пользователя ответы.

Эта сверхсложная задача решается предварительным сбором информации с этих страниц с помощью различных индексирующих роботов. Они собирают ссылки с уже посещенных страниц и загружают с них информацию в базу поисковой системы. Бывают боты индексирующие текст (обычный и быстробот, который живет на новостных и часто обновляемых ресурсах, чтобы в выдаче всегда были представлены самые свежие данные).

Кроме этого бывают роботы индексаторы изображений (для последующего их вывода в Яндекс и Гугл картинках), фавиконок, зеркал сайтов (для их последующего сравнения и возможной склейки), боты проверяющие работоспособность интернет страниц, которые пользователи добавили через аддурилку поисковика или же через инструменты для вебмастеров (тут можете почитать про панели Яндекса, инструменты Гугла, вебмастер Бинга и кабинет Майл.ру).

Сам процесс индексации и следующий за ним процесс обновления индексных баз довольно времязатратный. Хотя Гугл делает это значительно быстрее конкурентов, во всяком случае Яндекса, которому на это дело требует неделя-другая (читайте про апы Яндекса).

Обычно текстовое содержимое интернет страницы поисковик разбивает на отдельные слова, которые приводит к базовым основам, чтобы потом можно было давать правильные ответы на вопросы, заданные в разных морфологических формах. Весь лишний обвес в виде Html тегов, пробелов и т.п. вещей удаляется, а оставшиеся слова сортируются по алфавиту и рядом с ними указывается их позиция в данном документе.

Такая шняга называется обратным индексом и позволяет искать уже не по вебстраницам, а по структурированным данным, находящимся на серверах поисковой системы.

Число таких серверов у Яндекса (который ищет в основном только по русскоязычным сайтам и чуток по украинским и турецким) исчисляется десятками или даже сотнями тысяч, а у Google (который ищет на сотнях языков) — миллионами.

Многие сервера имеют копии, которые служат как для повышения сохранности документов, так и помогают увеличить скорость обработки запроса (за счет распределения нагрузки). Оцените расходы на поддержание всего этого хозяйства.

Запрос пользователя будет направляться балансировщиком нагрузки на тот серверный сегмент, который менее всего сейчас нагружен. Потом проводится анализ региона, откуда пользователь поисковой системы отправил свой запрос, и делается его морфологически разбор. Если аналогичный запрос недавно вводили в поисковой строке, то пользователю подсовываются данные из кеша, чтобы лишний раз не грузить сервера.

Если запрос еще не был закеширован, то его передают в область, где расположена индексная база поисковика. В ответ будет получен список всех интернет страниц, которые имеют хоть какое-то отношение к запросу. Учитываются не только прямые вхождения, но и другие морфологические формы, а так же синонимы, омонимы и т.п. вещи.

Их нужно отранжировать, и на этом этапе в дело вступает алгоритм (искусственный интеллект). Фактически запрос пользователя размножается за счет всех возможных вариантов его интерпретации и ищутся одновременно ответы на множество запросов (за счет использования операторов языка запросов, некоторые из которых доступны и обычным пользователям).

Как правило, в выдаче присутствует по одной странице от каждого сайта (иногда больше). Алгоритмы ранжирования сейчас очень сложны и учитывают множество факторов. К тому же, для их корректировки используются и живые люди (асессоры), которые вручную оценивают реперные сайтыВ общем, дело ясное, что дело темное. Говорить об этом можно долго, но и так понято, что удовлетворенность пользователей поисковой системой достигается, ох как не просто. И всегда найдутся те, кому что-то не нравится, как, например, нам с вами, уважаемые читатели.

Удачи вам! До скорых встреч на страницах блога KtoNaNovenkogo.ru

Еще:

Рубрики :Онлайн сервисы

Комментарии и отзывы

Сидр

Лично я активно и с удовольствием пользуюсь Нигмой. Как правило происходит это когда не справляется мой основной поисковик- Гугл. А работа с Яндексом (поисковиком)вызывает у меня множественные повторяющиеся фэйспалмы и нервный тик, так что теперь я им практически не пользуюсь. Всем добра.

Дмитрий

Илья Сегалович вообще то умер...

alexeykushnarenko

мне тоже Google нравится

Дима

Автор, я в шоке... Похороны Ильи Сегаловича состоялись 1 августа этого года. Человек ушел из жизни 27 июля. Не думал встретить такую ужасающую ошибку на вашем блоге...

Дмитрий

Сидр и alexeykushnarenko: спасибо за комментарии.

Дмитрий: печально...

Дима: летние месяцы и начало сентября у меня выпали из восприятия действительности.

phcm

что-то не густой обзор, на самом деле сейчас начинается время когда можно и нужно запускать и выводить новые поисковики, алгоритмы гоши и яши уже достали, своей специфичностью, особенно заметно когда ищешь много и часто. для примера посмотрите выдачу картинок по запросу orange на яш, гугле и blekko

Дмитрий

phcm: как только новичок выйдет из тени, то и у него найдут массу изъянов, равно как и у текущих лидеров. Тем более, что сейчас ему пробиться в Топ поисковых систем будет на пару-тройку порядков сложнее и затратнее, чем в девяностые. Нужно предлагать что-то из ряда вон выходящее, а не просто гипотетическое улучшение серпа. ИМХО.

По поводу сравнения выдач не совсем понял.

Дмитрий

по поводу выдачи — это так, к слову пришлось, искал картинки мандарина в яше-гоше и мало того, что нефига нет такого что подошло бы, да еще и повторяется у обоих. тут что-то стукнуло в голову — дай на других посмотрю и, надо сказать, блеко убедил меня что в жизни не все так безнадежно :)))

Надежда

Почему яндекс не индексирует страницу? Вижу что поисковик приходил, но последних публикаций в списке — нет(

Дмитрий

Надежда: у Яндекса есть Быстроробот, который к вам, скорее всего, и заходил. А робот индексатор поисковой системы еще не удосужился, видимо. Либо заходил, но в роботс.тхт у вас много чего лишнего открыто и он банально не успел за отпущенное ему время добраться до новых статей (лазил по файлам движка, например, или по дублям). Неплохо было бы и сайтмап иметь в формате XML.

Для ускорения индексации хорошо работает добавление в Твиттер. Но тут одна заковыка. Все статьи добавлять в свой аккаунт бессмыслено, если только он не супер раскрученный. В противном случае можно по чужим аккаунтам за денежку раскидать трудно индексируемые страницы (например, это можно сделать тут).

Самым плохим вариантом для Вас можете быть тот, что лидер российского поиска посчитал вашу статью недостойной добавления в индекс. Например, если это скопированный у кого-то материал, либо если у вас на сайте оказалась сотня его дублей из-за бага движка.

Eving

Даже для времени написания статьи, она уже опоздала на пару — тройку годков. Я когда что-то очень хочу найти, хоть в Яндексе, хоть в Гугле и у меня не получается, то меня совсем мало интересуют эти сотни миллионов результатов за 2 секунды. Думаю вы тоже не раз сталкивались и даже злились на зарекламированные поисковики за то, что они дают вам не то, что нужно. Настолько они уже оборзели и зажрались эти яндексы с гуглами, что им плевать на твои запросы, они тебе показывают, сколько бабла им отвалили рекламодатели. Бинг ковыляет за ними, раздираясь между деньгами и точностью и он уже не особо популярен. Если меня интересует точность результатов и я уже вспотел и весь издергался от Яндекса с Гуглом, иду к Яху. Он не такой красочный, навороченный и загаженный рекламой, зато точность поиска на сегодняшний день у него самая высокая. И скорость поиска неплохая. Но даже если он мне откроет на две секунды позже чем сто раз проданные снобы, всего 300 результатов, то в этих результатах я найду именно то, что искал. Нигма студенческий не плохой и пока под Яндекс пляшет, но он себя еще проявит, если конечно не разрабы не начнут думать Только о деньгах, а не будут еще забывать и о пользователях

Хоровод

Яндекс, Спутник, Мэйлру — на всех офисных компах)))

Подписаться не комментируя