Веб-архив сайтов Archive.Org — машина времени всего интернета (time machine webarhive)
Здравствуйте, уважаемые читатели блога KtoNaNovenkogo.ru. Не так давно я писал про то, что такое народная энциклопедия Википедия, которая безусловно заслуживает всяких лестных эпитетов, несмотря на присущие ей небольшие недостатки и критику ее статей со стороны научного сообщества.
Сам факт того, что некоммерческий проект уже не одно десятилетие трудится на благо всего интернет сообщества, заслуживает огромного уважения. Но в сети есть еще подобный масштабный проект, который не получая с этого дохода выполняет очень важную роль — сохраняет архивы сайтов, видео, аудио и печатной продукции.
Я говорю, конечно же, про web.archive.org — глобальный проект с казалось бы невыполнимой миссией — создание архива всех сайтов, когда либо размещенных в интернете. Причем, страницы сохраняются не в виде скриншотов, а в виде полноценно работающих веб-страниц со всеми ссылками, картинками и стилевым оформлением (CSS). Причем, для каждого сайта за время его существования в сети в этом архиве может накопиться и по несколько сотен копий, датированных разными этапами жизни ресурса.
Как можно использовать архив сайтов интернета
Чем же может быть полезен данный webarchive?
- Ну, во-первых, вы можете погрузиться в приятную ностальгию путешествуя по вашему сайту многолетней давности. Проследить историю изменений можно будет для любого другого ресурса интернета (например, я брал скриншоты для статей про уже умерший Апорт именно из это вебархива, да и скриншоты, иллюстрирующие эволюцию главной страницы Яндекса, имеют тоже самое происхождение).
- Но это не все. Если страница добавленного вами в закладки сайта не открывается, то вы, конечно же, можете попробовать вытащить ее из кеша Яндекса или Гугла (читайте подробнее про то, как лучше искать в Google). Но если ресурс недоступен уже очень давно, то такие мертвые ссылки нигде кроме archive.org открыть уже будет не возможно (правда, и там его может не оказаться по описанным чуть ниже причинам).
- Так же, если вы по каким-либо форс-мажорным обстоятельствам не делали бэкап (резервное копирование) , то данный вебархив будет единственной возможностью восстановить свой сайт. Имеется возможность очистить все ссылки от привязки к web.archive.org и сделать их прямыми именно для вашего ресурса (читайте об этом ниже).
Ну, и последнее, что приходит в голову — поиск уникального контента. Если вы не способны сами создавать уникальный контента (писать статьи), то здесь вы сможете ими разжиться, правда, усилия приложить все равно придется. Суть такова, что многие сайты умирают и становятся недоступны вместе с имеющимся на них контентом.
Отыскав такие ресурсы вы сможете вытащить тексты из интернет-архива и разместить их у себя, предварительно проверив их на уникальность. Таким образом вы не занимаетесь плагиатом и не нарушаете авторские права (копирайт), но искать в вебархиве многим может показаться очень уж трудоемкой задачей.
Онлайн сервис Webarchive ведет свою историю аж с 1996 года. Поставленная перед проектом задача казалась невыполнимой даже с учетом того, что веб-страниц на то время в интернете было значительно меньше, чем сейчас (на несколько порядков). По началу, сайты архивировались не очень часто, но со временем, повышая мощности хранилищ, Веб-архив стал делать все больше и больше слепков.
Сам себя этот веб архив занес в базу лишь в 1997 году и выглядела его главная страница тогда так:
Сейчас на все про все (включая аудио, видео и отсканированные книги) у этой некоммерческой организации задействовано дисковое пространство чудовищных размеров, измеряемое десяткой с пятнадцатью нулями байт. Сайт имеет зеркала в различных дата центрах, а сам проект с недавних пор получил официальный статус библиотеки. Если рассматривать только архив страниц сайтов, то их уже там насчитывается около ста миллиардов (тут учитываются все слепки страниц когда-либо снятые и сохраненные).
На главной странице доступен не только архив страниц интернета Wayback Machine, но и архивы различных кинохроник, телепередач, аудио записей и отсканированных в различных библиотеках книг:
Но нас интересует именно область WEB с логотипом Wayback Machine. В расположенную там форму можно ввести URL или доменное имя интересующего вас сайта (читайте про то, что такое домен и чем он отличается от URL), чтобы попасть на страницу с календарем:
Из приведенного примера видно, что мой блог был впервые архивирован 27 августа 2009 года (через пять дней после регистрации (покупки) домена ktonanovenkogo.ru). За прошедший интервал времени было создано 125 архивных копий сайта, каждую из которым можно будет посмотреть и потрогать руками (осуществляя переходы по внутренним ссылкам).
Открытие мертвых ссылок и условия попадания сайта в Web Archive Org
В календаре голубыми кружочками отмечены даты, в которые был создан слепок (вебархив) данного сайта. Естественно, что моменты снятия слепка никак не будет коррелироваться с производимыми на вашем ресурсе изменениями, и их время Webarchive определяет строго исходя из своих внутренних алгоритмов и таймеров.
Поэтому использовать архив интернета, как инструмент для открытия временно недоступных сайтов, наверное, не всегда будет резонным. Для этого у Яндекса имеется возможность просмотра архивной копии документа:
Да, и в Google можно всегда посмотреть сохраненную копию веб-страницы:
Данный же онлайн сервис понадобится в особо тяжелых случаях, когда искомая страница уже не существует и вряд ли уже будет существовать в реальном интернете, но зато она по прежнему будет доступна в машине времени.
Правда, тут должно быть соблюдено несколько условий того, чтобы сайт попал в archive.org:
Он не должен содержать в своем файле robots.txt запрет для его индексации роботом с web.archive.org. Такой запрет, обычно выглядит так:
User-agent: ia_archiver Disallow: /
Когда я писал статью про электронную почту mail.ru, то не смог найти в Архиве Интернета сохраненных копий mail.ru, т.к. его файл robots.txt содержал в себе похожий запрет:
- Некоторые сайты Вебархив по каким-либо причинам банально не нашел. Вероятность попадания ресурса в базу повышается, если он будет добавлен в каталог Dmoz или же если на него будут проставлены ссылки с других популярных ресурсов, которые в Webarchive уже находятся. В общем то, даже простой запрос через форму на главной странице этого сервиса может послужить толчком к привлечению внимания этого архиватора к вашему ресурсу.
Как найти нужный веб-архив и восстановить сайт без бекапа
По архивам можно перемещаться и с помощью временной шкалы расположенной вверху страницы, где вертикальными черными черточками отмечены имеющиеся для этого сайта слепки. Иногда, веб-архивы могут быть битыми, тогда придется открыть ближайший к нему слепок.
Щелкнув по голубому кружочку мы можем увидеть ссылки на несколько архивов, отличающихся временем их снятия.
Возможно, что это делается во избежании потери данных за счет неизбежной порчи жестких дисков в хранилищах. Перейдя к просмотру одного из веб-архивов, вы увидите копию своего (в данном примере моего) сайта с работающими внутренними ссылками и подключенным стилевым оформлением. Правда, не идеально работающим.
Например, кое-что из дизайна у меня все же перекосило и боковое меню работающее на ДжаваСкрипте полностью исчезло:
Но это не столь важно, ибо в исходном коде страницы с web.archive.org это меню, естественно, присутствует. Однако, просто так скопировать текст этой страницы к себе взамен утерянной не получится. Почему? Да потому что путешествие внутри сайта из прошлого будет возможно лишь в случае замены всех внутренних ссылок на те, что генерит вебархив (в противном случае вас перебросило бы на современную версию ресурса).
Выглядят эти ссылки примерно так:
http://web.archive.org/web/20111013120145/https://ktonanovenkogo.ru/seo/search/samostoyatelnoe-prodvizhenie-sajta-kak-prodvigat-samomu-vnutrennej-optimizaciej.html
Понятно, что можно будет вручную отсечь вступительную часть ссылок (http://web.archive.org/web/20111013120145/
), получив таким образом рабочий вариант. Можно этот процесс даже автоматизировать с помощью инструмента поиска и замены редактора Notepad, но еще проще будет воспользоваться встроенной в этот сервис возможностью замены внутренних ссылок на оригинальные.
Для этого копируете адрес страницы с нужным слепком вашего сайта (из адресной строки браузера — начинается с http://web.archive.org/
). Он будет иметь примерно такой вид:
http://web.archive.org/web/20111013120145/https://ktonanovenkogo.ru/
И вставляете в него конструкцию «id_» в конце даты (20111013120145
), чтобы получилось так:
http://web.archive.org/web/20111013120145id_/https://ktonanovenkogo.ru/
Теперь измененный адрес обратно возвращаете в адресную строку браузера и жмете на Enter. После этого страница c архивом вашего сайта обновится и все внутренние ссылки станут прямыми. Можно будет копировать текст статьи из исходного кода вебархива.
Понятно, что восстановление таким образом огромного сайта займет чудовищное количество времени, но когда другого варианта нет, то и такой покажется манной небесной. К тому же, страдают невозвратной потерей контента обычно только начинающие вебмастера, у которых этого самого контента было мало, а более-менее опытные сайтовладельцы, уж не раз обжигавшиеся на подобных вещах, делают бэкапы файлов и базы по пять раз на дню.
Если вы захотите увидеть все страницы вашего (или чужого) сайта, которые содержатся в недрах этого мастодонта, то вам нужно будет вставить в адресную строку браузера следующий адрес и нажать Enter:
http://wayback.archive.org/web/*/ktonanovenkogo.ru*
Вместо моего домена можно использовать свой. На открывшейся странице вы получите возможность наложить фильтр в предназначенной для этого форме:
Например, я захотел увидеть лишь текстовые файлы своего блога, которые заглотил Web Archive. Зачем — не знаю, но захотел.
Как вытянуть из Web Archive Org уникальный контент для сайта
Описанный ниже способ лично я не использовал, но чисто теоретически все должно работать. Саму идею я почерпнул на этом молодом ресурсе, где и были описаны все шаги. Принцип метода состоит в том, что каждый день умирают и никогда не возрождаются десятки веб-проектов.
Причин этому может быть много и большинство из почивших в бозе ресурсов никакой особой ценности в плане контента никогда и не представляли. Но из всякого правила бывают исключения и нужно будет всего-навсего отделить зерна от плевел. Главное чтобы исчезнувшие сайты с более-менее удобоваримым контентом были бы представлены в Web Archive, хотя бы одной копией.
Т.к. после смерти контент этих сайтов постепенно выпадет из индекса поисковых систем, то взяв его из интернет-архива вы, по идее, станете его законным владельцем и первоисточником для поисковых систем. Замечательно, если будет именно так (есть вариант, что еще при жизни ресурса его нещадно могли откопипастить). Но кроме проблемы уникальности текстов, существует проблема их отыскания.
Во-первых, нам нужен список сайтов, которые скоро умрут или уже померли. Автор метода предлагает скачать с регистратора доменных имен Nic.ru список освобождающихся или уже освободившихся доменов.
Что примечательно, в последней колонке этого списка (его можно открыть в Excel) будет отображаться количество архивов, созданных для каждого сайта (правда, проверить наличие домена в веб-архиве можно и в ряде онлайн сервисов).
Список буржуйских доменных имен, освобождающихся или уже освободившихся, предлагается найти в сети. Ну, а дальше просматриваем содержимое сайтов, которое сохранил Web Archive и пытаемся найти что-то стоящее. Потом проверяем уникальность этих материалов (ссылку приводил чуть выше) и в случае удачи публикуем их на своем ресурсе, либо продаем в какой-нибудь бирже контента.
Да, способ муторный и мною лично не проверенный. Но, думаю, что при некоторой степени автоматизации и обмозговывания он может давать неплохой выхлоп. Наверное, кто-нибудь уже это поставил на поток. А вы как думаете?
Комментарии и отзывы (18)
То, что текст из вебархива уникальный на данный момент, совсем не значит что ПС про него не знают или забыли после того, как сайт умер. Так что тут надо осторожно.
хм, так вот он этот способ о котором я так много слыхал... Часто всякие умники пишут ухмыляясь что знают как достать уникальный контент очень дешего )))
Класс буду использовать 100%...
Интересно, а картинки с «почивших» сайтов также можно использовать как уникальные?
Очень здорово все описано, спасибо за ценную информацию, как всегда все доступно и подробно.
Webarchive — замечательная весч. Иногда даже бывает очень нужна, если не помнишь как выглядел тот или иной сайт. Или выцепить код, рипнуть ))
За статью автору отдельное спасибо!
Тяжкий труд выискивать уникальный контент в Вэбархиве, с учетом того, что сайты с такими материалами в легкую уходят под фильтр. И не надо слушать толкателей псевдокейсов кейсов, что это не так.
Дмитрий помогите пожалуйста, нашел несколько интересных сайтов по моей тематике, однако при попытке просмотреть их архив все они требуют работы кукисов. Все мои браузеры их принимают, настройки проверял, однако выдается такое сообщение «Этот сайт требует поддержки технологии Cookies»
Возможно что-нибудь сделать?
Восстановление сайтов из архива — отличный, быстрый способ получить уникальный контент для Ваших проектов.
Восстанавление сайта из веб-архива (archive.org) http://vk.com/archive_org
При проверки — получаю ответ:
You don't have permission to access / on this server.
или
Этот сайт требует поддержки технологии Cookies.
можно как то это обойти или решить проблему человеческим способом?
Помню раньше сайтец посещал про магические всякие штучки-дрючки,очень понравился. А потом админ перевела его на немецкий домен, который благополучно накрылся медным тазом. Восстанавливать админ даже и не думала, а контактов не осталось, вот и решил я его сам из архива вытащить и реставрировать.
Глянул — всё норм.
Заплатил я за аккаунт в онлайн парсере, хотел вытащить а там такая фигня:
Not Found
The requested URL /welcome.php was not found on this server.
Apache/2.2.16 (Debian) Server at witches.onio.de Port 80
Ни один снапшот не доступен. Это что уже всё, кранты, снапшоты навсегда утеряны?
(хотел обратится в поддержку, но к своему стыду, даже не смог найти их электронную почту)
Саму идею я почерпнул на этом молодом ресурсе, — а ресурс то умер.
Заметно что вебархив хранит не только живые(в прошлом) страницы, но и 404-редиректы хостера после того как ваш счет был закрыт. Из-за этого создается впечатление что снепшотов для сайта много, а на самом деле мусор(.
Ваша статья мне очень помогла. Большое спасибо!
Тема мертва, а тексты из вебархива больше вредят сайтам. Доказано неоднократно.
Сегодня возникла необходимость поднять страницу из веб-архива, и знаете что? ОН числится в списке запрещенных сайтов минюста РФ))
Скажите, а Вебархив видит страницы раньше того же Гугла или позже? Нет ли у Гугла такого же аналога, где можно было бы посмотреть, на каком сайте первым проиндексировалась страница? Например есть ряд страниц, которые по Вебархиву первыми проиндексировались у копипастера, но так ли это в Гугл?
Заметно что вебархив хранит не только живые(в прошлом) страницы, но и 404-редиректы хостера после того как ваш счет был закрыт. Из-за этого создается впечатление что снепшотов много, а на самом деле мусор(.
Я Вам даже больше скажу — он ещё и не все сайты сохраняет, и в большинстве случаев даже то что сохраняет тоже мусор. Да и кстати нет смысла все подряд сохранять.
Здравствуйте! Поясните одну вещь — весной я сохранил несколько страниц одного сайта, а теперь в веб-архиве написано «Page cannot be displayed due to robots.txt.» и я не могу их просмотреть. Как это возможно, если страницы я сохранил до того, как админы обновили этот файл «robots.txt»?
Ваш комментарий или отзыв