Webarchive (archive.org) — веб-архив всего интернета и имеющихся в нем сайтов (машина времени и бэкап одновременно)

6 Май, 2013

Здравствуйте, уважаемые читатели блога KtoNaNovenkogo.ru. Не так давно я писал про то, что такое народная энциклопедия Википедия, которая безусловно заслуживает всяких лестных эпитетов, несмотря на присущие ей небольшие недостатки и критику ее статей со стороны научного сообщества.

Сам факт того, что некоммерческий проект уже не одно десятилетие трудится на благо всего интернет сообщества, заслуживает огромного уважения. Но в сети есть еще подобный масштабный проект, который не получая с этого дохода выполняет очень важную роль — сохраняет архивы сайтов, видео, аудио и печатной продукции.

Я говорю, конечно же, про web.archive.org — глобальный проект с казалось бы невыполнимой миссией — создание архива всех сайтов, когда либо размещенных в интернете. Причем, сайты сохраняются не в виде скриншотов, а в виде полноценно работающих веб-страниц со всеми ссылками, картинками и стилевым оформлением (CSS). Причем, для каждого сайта за время его существования в сети в этом архиве может накопиться и по несколько сотен копий, датированных разными этапами жизни ресурса.

Как можно использовать архив сайтов интернета


Чем же может быть полезен данный webarchive?

  1. Ну, во-первых, вы можете погрузиться в приятную ностальгию путешествуя по вашему сайту многолетней давности. Проследить историю изменений можно будет для любого другого ресурса интернета (например, я брал скриншоты для статей про уже умерший Апорт именно из это вебархива, да и скриншоты, иллюстрирующие эволюцию главной страницы Яндекса, имеют тоже самое происхождение).
  2. Но это не все. Если страница добавленного вами в закладки сайта не открывается, то вы, конечно же, можете попробовать вытащить ее из кеша Яндекса или Гугла (читайте подробнее про то, как лучше искать в Google). Но если ресурс недоступен уже очень давно, то такие мертвые ссылки нигде кроме archive.org открыть уже будет не возможно (правда, и там его может не оказаться по описанным чуть ниже причинам).
  3. Так же, если вы по каким-либо форс-мажорным обстоятельствам не делали бэкап (резервное копирование) вашего сайта, то данный web archive будет единственной возможностью восстановить свой сайт. Имеется возможность очистить все ссылки от привязки к web.archive.org и сделать их прямыми именно для вашего ресурса (читайте об этом ниже).
  4. Ну, и последнее, что приходит в голову — поиск уникального контента. Если вы не способны сами создавать уникальный контента для сайта (писать статьи), то здесь вы сможете ими разжиться, правда, усилия приложить все равно придется. Суть такова, что многие сайты умирают и становятся недоступны вместе с имеющимся на них контентом.

    Отыскав такие ресурсы вы сможете вытащить тексты из интернет-архива и разместить их у себя, предварительно проверив их на уникальность. Таким образом вы не занимаетесь плагиатом и не нарушаете авторские права (копирайт), но искать в вебархиве многим может показаться очень уж трудоемкой задачей.

Онлайн сервис Webarchive ведет свою историю аж с 1996 года. Поставленная перед проектом задача казалась невыполнимой даже с учетом того, что сайтов на то время в интернете было значительно меньше, чем сейчас (на несколько порядков). По началу, сайты архивировались не очень часто, но со временем, повышая мощности хранилищ, Веб-архив стал делать все больше и больше слепков сайтов.

Сам себя этот веб архив занес в базу лишь в 1997 году и выглядела его главная страница тогда так:

Сейчас на все про все (включая аудио, видео и отсканированные книги) у этой некоммерческой организации задействовано дисковое пространство чудовищных размеров, измеряемое десяткой с пятнадцатью нулями байт. Сайт имеет зеркала в различных дата центрах, а сам проект с недавних пор получил официальный статус библиотеки. Если рассматривать только архив страниц сайтов, то их уже там насчитывается около ста миллиардов (тут учитываются все слепки страниц когда-либо снятые и сохраненные).

На главной странице доступен не только архив страниц интернета Wayback Machine, но и архивы различных кинохроник, телепередач, аудио записей и отсканированных в различных библиотеках книг:

Но нас интересует именно область WEB с логотипом Wayback Machine. В расположенную там форму можно ввести URL или доменное имя интересующего вас сайта (читайте про то, что такое домен и чем он отличается от URL), чтобы попасть на страницу с календарем:

Из приведенного примера видно, что мой блог был впервые архивирован 27 августа 2009 года (через пять дней после регистрации домена ktonanovenkogo.ru). За прошедший интервал времени было создано 125 архивных копий сайта, каждую из которым можно будет посмотреть и потрогать руками (осуществляя переходы по внутренним ссылкам).

Открытие мертвых ссылок и условия попадания сайта в archive.org

В календаре голубыми кружочками отмечены даты, в которые был создан слепок (вебархив) данного сайта. Естественно, что моменты снятия слепка никак не будет коррелироваться с производимыми на вашем ресурсе изменениями, и их время Webarchive определяет строго исходя из своих внутренних алгоритмов и таймеров.

Поэтому использовать архив интернета, как инструмент для открытия временно недоступных сайтов, наверное, не всегда будет резонным. Для этого у Яндекса имеется возможность просмотра архивной копии документа:

Да, и в Google можно всегда посмотреть сохраненную копию веб-страницы:

Данный же онлайн сервис понадобится в особо тяжелых случаях, когда искомая страница уже не существует и вряд ли уже будет существовать в реальном интернете, но зато она по прежнему будет доступна в машине времени.

Правда, тут должно быть соблюдено несколько условий того, чтобы сайт попал в archive.org:

  1. Он не должен содержать в своем файле robots.txt запрет для его индексации роботом с web.archive.org. Такой запрет, обычно выглядит так:

    User-agent: ia_archiver
     Disallow: /

    Когда я писал статью про электронную почту mail.ru, то не смог найти в Архиве Интернета сохраненных копий сайта mail.ru, т.к. его файл robots.txt содержал в себе похожий запрет:

  2. Некоторые сайты Вебархив по каким-либо причинам банально не нашел. Вероятность попадания ресурса в базу повышается, если он будет добавлен в каталог Dmoz или же если на него будут проставлены ссылки с других популярных ресурсов, которые в Webarchive уже находятся. В общем то, даже простой запрос через форму на главной странице этого сервиса может послужить толчком к привлечению внимания этого архиватора к вашему ресурсу.

Как найти нужный веб-архив и восстановить сайт без бекапа


По архивам можно перемещаться и с помощью временной шкалы расположенной вверху страницы, где вертикальными черными черточками отмечены имеющиеся для этого сайта слепки. Иногда, веб-архивы могут быть битыми, тогда придется открыть ближайший к нему слепок.

Щелкнув по голубому кружочку мы можем увидеть ссылки на несколько архивов, отличающихся временем их снятия.

Возможно, что это делается во избежании потери данных за счет неизбежной порчи жестких дисков в хранилищах. Перейдя к просмотру одного из веб-архивов, вы увидите копию своего (в данном примере моего) сайта с работающими внутренними ссылками и подключенным стилевым оформлением. Правда, не идеально работающим.

Например, кое-что из дизайна у меня все же перекосило и боковое меню работающее на ДжаваСкрипте полностью исчезло:

Но это не столь важно, ибо в исходном коде страницы с web.archive.org это меню, естественно, присутствует. Однако, просто так скопировать текст этой страницы к себе на сайт взамен утерянной не получится. Почему? Да потому что путешествие внутри сайта из прошлого будет возможно лишь в случае замены всех внутренних ссылок на те, что генерит Webarchive (в противном случае вас перебросило бы на современную версию ресурса).

Выглядят эти ссылки примерно так:

http://web.archive.org/web/20111013120145/http://ktonanovenkogo.ru/seo/search/samostoyatelnoe-prodvizhenie-sajta-kak-prodvigat-samomu-vnutrennej-optimizaciej.html

Понятно, что можно будет вручную отсечь вступительную часть ссылок (http://web.archive.org/web/20111013120145/), получив таким образом рабочий вариант. Можно этот процесс даже автоматизировать с помощью инструмента поиска и замены редактора Notepad, но еще проще будет воспользоваться встроенной в этот сервис возможностью замены внутренних ссылок на оригинальные.

Для этого копируете адрес страницы с нужным слепком вашего сайта (из адресной строки браузера — начинается с http://web.archive.org/). Он будет иметь примерно такой вид:

http://web.archive.org/web/20111013120145/http://ktonanovenkogo.ru/

И вставляете в него конструкцию «id_» в конце даты (20111013120145), чтобы получилось так:

http://web.archive.org/web/20111013120145id_/http://ktonanovenkogo.ru/

Теперь измененный адрес обратно возвращаете в адресную строку браузера и жмете на Enter. После этого страница c архивом вашего сайта обновится и все внутренние ссылки станут прямыми. Можно будет копировать текст статьи из исходного кода вебархива.

Понятно, что восстановление таким образом огромного сайта займет чудовищное количество времени, но когда другого варианта нет, то и такой покажется манной небесной. К тому же, страдают невозвратной потерей контента обычно только начинающие вебмастера, у которых этого самого контента было мало, а более-менее опытные сайтовладельцы, уж не раз обжигавшиеся на подобных вещах, делают бэкапы файлов и базы по пять раз на дню.

Если вы захотите увидеть все страницы вашего (или чужого) сайта, которые содержатся в недрах этого мастодонта, то вам нужно будет вставить в адресную строку браузера следующий адрес и нажать Enter:

http://wayback.archive.org/web/*/ktonanovenkogo.ru*

Вместо моего домена можно использовать свой. На открывшейся странице вы получите возможность наложить фильтр в предназначенной для этого форме:

Например, я захотел увидеть лишь текстовые файлы своего блога, которые заглотил Web Archive. Зачем — не знаю, но захотел.

Как вытянуть из Webarchive уникальный контент для сайта


Описанный ниже способ лично я не использовал, но чисто теоретически все должно работать. Саму идею я почерпнул на этом молодом ресурсе, где и были описаны все шаги. Принцип метода состоит в том, что каждый день умирают и никогда не возрождаются десятки сайтов.

Причин этому может быть много и большинство из почивших в бозе ресурсов никакой особой ценности в плане контента никогда и не представляли. Но из всякого правила бывают исключения и нужно будет всего-навсего отделить зерна от плевел. Главное чтобы исчезнувшие сайты с более-менее удобоваримым контентом были бы представлены в Web Archive, хотя бы одной копией.

Т.к. после смерти контент этих сайтов постепенно выпадет из индекса поисковых систем, то взяв его из интернет-архива вы, по идее, станете его законным владельцем и первоисточником для поисковых систем. Замечательно, если будет именно так (есть вариант, что еще при жизни ресурса его нещадно могли откопипастить). Но кроме проблемы уникальности текстов, существует проблема их отыскания.

Во-первых, нам нужен список сайтов, которые скоро умрут или уже померли. Автор метода предлагает скачать с сайта регистратора доменных имен Nic.ru список освобождающихся или уже освободившихся доменов.

Что примечательно, в последней колонке этого списка (его можно открыть в Excel) будет отображаться количество архивов, созданных для каждого сайта в Web Archive (правда, проверить наличие домена в веб-архиве можно и в ряде онлайн сервисов, например, на этом или на этом).

Список буржуйских доменных имен, освобождающихся или уже освободившихся, предлагается скачать по этой ссылке. Ну, а дальше просматриваем содержимое сайтов, которое сохранил Web Archive и пытаемся найти что-то стоящее. Потом проверяем уникальность этих материалов (ссылку приводил чуть выше) и в случае удачи публикуем их на своем ресурсе, либо продаем в какой-нибудь бирже контента.

Да, способ муторный и мною лично не проверенный. Но, думаю, что при некоторой степени автоматизации и обмозговывания он может давать неплохой выхлоп. Наверное, кто-нибудь уже это поставил на поток. А вы как думаете?

Удачи вам! До скорых встреч на страницах блога KtoNaNovenkogo.ru

Еще:

Рубрики :Онлайн сервисы

Комментарии и отзывы

Александр

То, что текст из вебархива уникальный на данный момент, совсем не значит что ПС про него не знают или забыли после того, как сайт умер. Так что тут надо осторожно.

Евгений Комиссаров

хм, так вот он этот способ о котором я так много слыхал... Часто всякие умники пишут ухмыляясь что знают как достать уникальный контент очень дешего )))

Класс буду использовать 100%...

Евгений

Интересно, а картинки с «почивших» сайтов также можно использовать как уникальные?

Lady Fox

Очень здорово все описано, спасибо за ценную информацию, как всегда все доступно и подробно.

Delight

Webarchive — замечательная весч. Иногда даже бывает очень нужна, если не помнишь как выглядел тот или иной сайт. Или выцепить код, рипнуть ))

За статью автору отдельное спасибо!

Алексей

Тяжкий труд выискивать уникальный контент в Вэбархиве, с учетом того, что сайты с такими материалами в легкую уходят под фильтр. И не надо слушать толкателей псевдокейсов кейсов, что это не так.

Антон

Дмитрий помогите пожалуйста, нашел несколько интересных сайтов по моей тематике, однако при попытке просмотреть их архив все они требуют работы кукисов. Все мои браузеры их принимают, настройки проверял, однако выдается такое сообщение «Этот сайт требует поддержки технологии Cookies»

Возможно что-нибудь сделать?

boris frank

Восстановление сайтов из архива — отличный, быстрый способ получить уникальный контент для Ваших проектов.

Восстанавление сайта из веб-архива (archive.org) http://vk.com/archive_org

Илья

При проверки большества сайтов — получаю ответ:

You don't have permission to access / on this server.

или

Этот сайт требует поддержки технологии Cookies.

можно как то это обойти или решить проблему человеческим способом?

Дмитрий

Помню раньше сайтец посещал про магические всякие штучки-дрючки,очень понравился. А потом админ перевела его на немецкий домен, который благополучно накрылся медным тазом. Восстанавливать сайт админ даже и не думала, а контактов не осталось, вот и решил я его сам из архива вытащить и реставрировать.

Глянул в веб архиве — всё норм.

Заплатил я за аккаунт в онлайн парсере, хотел сайт вытащить а там такая фигня:

Not Found

The requested URL /welcome.php was not found on this server.

Apache/2.2.16 (Debian) Server at witches.onio.de Port 80

Ни один снапшот не доступен. Это что уже всё, кранты, снапшоты навсегда утеряны?

(хотел обратится в поддержку, но к своему стыду, даже не смог найти их электронную почту)

Eugene

Саму идею я почерпнул на этом молодом ресурсе, — а ресурс то умер.

Eugene

Заметно что вебархив хранит не только живые(в прошлом) страницы, но и 404-редиректы хостера после того как ваш счет был закрыт. Из-за этого создается впечатление что снепшотов для сайта много, а на самом деле мусор(.

Евгений

Ваша статья мне очень помогла. Большое спасибо!

Алексей

Тема мертва, а тексты из вебархива больше вредят сайтам. Доказано неоднократно.

Sv_kar

Сегодня возникла необходимость поднять страницу из веб-архива, и знаете что? Веб-архив числится в списке запрещенных сайтов минюста РФ))

Денис

Скажите, а Вебархив видит страницы раньше того же Гугла или позже? Нет ли у Гугла такого же аналога, где можно было бы посмотреть, на каком сайте первым проиндексировалась страница? Например есть ряд страниц, которые по Вебархиву первыми проиндексировались у копипастера, но так ли это в Гугл? Проверять по кавычкам не вариант, сайт за что-то под Пандой (рассматривается и это как вариант), все тексты в кавычках не первые.

Семен

Заметно что вебархив хранит не только живые(в прошлом) страницы, но и 404-редиректы хостера после того как ваш счет был закрыт. Из-за этого создается впечатление что снепшотов для сайта много, а на самом деле мусор(.

Я Вам даже больше скажу — он ещё и не все сайты сохраняет, и в большинстве случаев даже то что сохраняет тоже мусор. Да и кстати нет смысла все подряд сохранять.

Кстати вот новинка — архив брошенных сайтов http://sitedrop.info

nuclearass

Здравствуйте! Поясните одну вещь — весной я сохранил несколько страниц одного сайта, а теперь в веб-архиве написано «Page cannot be displayed due to robots.txt.» и я не могу их просмотреть. Как это возможно, если страницы я сохранил до того, как админы обновили этот файл «robots.txt»? Ведь они сохранились на веб-архиве, а не у них на сайте, правильно я понимаю?

Подписаться не комментируя