Інтернет, в якому можна знайти майже будь-яку інформацію, дуже схожий на величезну бібліотеку , яка щодня стає більше і більше. Під масою нових надходжень тоне інформація, яка, швидше за все, рано чи пізно комусь точно знадобиться. Зміна інтернет-сайту, викликане якимись причинами, може зробити недоступною інформацію, яка дуже необхідна користувачеві в даний момент. Існує кілька можливостей добути інформацію, яка була доступна, а потім пропала.

Насправді всі можливості зводяться до одного і того ж: інформацію треба знайти там, де з якоїсь причини вона залишилася у вигляді архіву, кеша або в інший формі.

Найперший спосіб, яким слід скористатися, полягає в тому, щоб пошукати потрібний вам документ в кеші популярних пошукових сервісів. Називається така можливість у всіх по-різному, але так чи інакше присутнє у всіх популярних пошукових систем.

  1. "Збережена копія" на http://yandex.ru/- під кожним результатом, який видає пошук, розміщується посилання на копію сайту, яка була збережена в ході індексації. Таким чином, досить часто можна відкрити навіть ті сторінки, які вже деякий час не існують, але досі перебувають в індексі. Збережена копія документа буде представлена ??в тому вигляді, в якому сайт був у момент індексації. Це досить зручно тим, що дозволяє переглядати не тільки текстове вміст шуканої сторінки, але і графічні матеріали сайту.

  2. "Відновити текст" на http://rambler.ru/- принцип і обсяг наданої інформації приблизно такі ж, як і у всіх аналогів. Серйозною відмінністю від деяких аналогів є те, що ця система зберігає вже оброблену сторінку, яка зазвичай вже очищена від частини HTML-форматування. Повністю втрачаються вся графіка та інші елементи дизайну. Це не дуже зручно в тих випадках, коли потрібно відновити вміст сайту повністю, але текстове наповнення сторінки не втрачається і залишається цілком придатним для читання і використання.

    Популярні пошукові сервіси зберігають у кеші сторінки, які можуть бути вже недоступні

  3. Cached на http://google.com/- зберігає повністю весь вміст сторінки, не змінюючи його. Крім того, присутній посилання на цю ж сторінку, але очищену від HTML-форматування і без графіки. Крім того, відображаються дата і час, коли сторінка була занесена в індекс. Така інформація може стати досить корисною, якщо розшукується абсолютно конкретне вміст сторінки, яке було в якийсь момент, а потім було переміщено або видалено.

Так як пошукові сервіси безпосередньо показують кешувати сторінку, всі вони випереджають показ попередженням про те, що не несуть відповідальність за вміст даної сторінки.

Слід зазначити, що пошукові сервіси спеціально не займаються збором та обліком застарілих сторінок. Ця функція надається паралельно з основною їх діяльністю, так чи інакше дана інформація зберігається в індекс, і пошукові системи всього лише дають доступ до того, що і так зберігається. Вони не займаються каталогізацією або яким-небудь урахуванням сторінок. У кеші пошукових систем не можна знайти версію сайту старше, ніж версія, яка в останній раз була занесена в індекс.

На щастя, пошукові сервіси - не єдине місце, в якому можна шукати інформацію, яка була на сайті в якийсь момент, а потім пропала. Сервіси, які професійно займаються зберіганням різноманітної інформації, називаються інтернет-архівами. Одним з найбільших представників даної області являетсяThe Internet Archive ("Інтернет-архів"). Даний сайт підтримується некомерційною організацією, яка ставить своєю метою підтримку онлайн-бібліотеки і архіву веб-і мультімедіаресурсов. Даний архів безкоштовно надає величезну кількість різноманітної інформації, такої як збережені в різний час копії різних інтернет-сайтів, книги, відеозапису та аудіозаписи. Крім того, архів є членом організації, яка об'єднує бібліотеки в США, що дозволяє зберігати в архіві матеріали, які раніше були доступні тільки відвідувачам звичайних бібліотек. З деяких даних випливає, що багато найбільші бібліотеки світу зараз вже зберігають меншу кількість матеріалів, ніж "Інтернет-архів".

"Інтернет-архів" зберігає більше матеріалів, ніж будь-яка бібліотека світу

"Інтернет -архів "зберігає величезну кількість аудіо-, відео-та текстових матеріалів, пошук по яким дозволяє отримувати доступ до величезної кількості матеріалів, які раніше були доступні тільки користувачам спеціалізованих бібліотек. Проте одним з важливих сервісів, які надає даний архів, є сервіс Wayback Machine (дослівно - "машина, яка повертає назад"). Він являє собою величезний і постійно поповнюється архів різних інтернет-сторінок, який дозволяє користувачеві шукати збережену в конкретний момент сторінку. Розробники заявляють, що щомісяця розмір їх бази збережених матеріалів збільшується на 20 терабайт (два в сороковий ступеня байт), а сумарний розмір архіву вже майже досяг двох петабайт (два в п'ятдесяти ступеня байт).

Щомісяця кількість збережених матеріалів збільшується на 20 терабайт

Простий пошук в архіві збережених сайтів видає посилання на усі збережені копії запитуваної сторінки. Аналізуючи результати різних запитів, стає очевидно, що з кожним роком сервіс нарощує оберти: збережених копій з року в рік стає все більше і більше.

Приміром, за запросуhttp ://freebsd.orgвсего видано 1372 результату, з яких тільки 6 припадає на 1996 рік, коли цей сайт був вперше занесений в архів. У 1997 році результатів було трохи більше - всього 10, а в 1998 - вже 15. Далі кількість багаторазово збільшується з року в рік, досягаючи максимуму в 2006 році (за винятком 2002-2003 років, в які з якоїсь причини було відносно невелика кількість збережених копій).

Досить корисним є те, що знаком "*" відзначені копії сторінок, які були оновлені в порівнянні з попередньою копією.

Як показує результат, у багатьох випадках архів зберігає за кілька копій сайту в одному і тому ж його стані. У результатах поіскаhttp ://freebsd.orgвстречается до 10 сторінок поспіль, які відзначені як незмінною з часу останнього архівування.

Присутній спеціальна можливість вказати деякі параметри пошуку, такі як:

  • дата, з якої починати пошук збережених сторінок. Мається на увазі день, в який зроблена найраніша копія, яка повинна увійти в результати пошуку;
  • день, який повинен вважатися останнім днем ??для пошуку;
  • можливість порівняння двох результатів пошуку. Причому результати порівняння показуються настільки вдало (хоч і не без деяких збоїв на окремих сторінках), що порівняння стає дійсно зручною і корисною функцією для тих, хто зацікавлений у вивченні різниці між двома версіями сторінки. Причому кожну з порівнюваних копій можна оперативно подивитися по спеціальному посиланню в шапці сторінки порівняння;
  • Вибір збережених версій сторінки для порівняння

  • конвертація бажаної копії сторінки в PDF-формат. На даний момент поки бета-версія сервісу;
  • Збереження архівної копії сторінки в форматі PDF

  • тип файлів, які потрібні в результаті. Зараз це один з наступних типів: All Types, Images, Audio, Video, Binary, Text і PDF. Причому результат пошуку по будь-якому формату, крім All Types, видає тільки конкретні посилання на файли запитуваної формату;
  • Результати пошуку графічних файлів в архівних копіях сайту http://freebsd.org

  • пошук найбільш підходящої сторінки або усіх сторінок, які задовольняють запиту.

Окремої уваги заслуговує те, що сервіс намагається надавати максимальну зручність у використанні тим, хто готовий запам'ятати декілька досить простих способів написати запит одразу в рядку свого браузера. Наприклад, для того, щоб подивитися саму наступним збереженням копію сайтаhttp ://www.opennet.ru, треба набрати ссилкуhttp ://web.archive.org/http ://www.opennet.ru. Після чого система обробить запит і перенаправить на сторінку з останньої копією-http ://web.archive.org/web/20060428035504/www.opennet.ru/. В даному випадку фрагмент адреси "20060428035504" вказує на момент створення останньої копії в архіві. Точно таким же чином можна отримати архівну копію сторінки в конкретний день, для цього досить указати дату в такому ж форматі, але слід враховувати, що необов'язково є копія сайту саме в цей день. Якщо ж копії в зазначений день немає, то система перенаправляє на сторінку з найближчою датою збереження.

"Інтернет-архів" - це зручний пошук, можливість порівняння різних копій сторінки і миттєвої конвертації в PDF

Для того щоб розрізняти пошук конкретної сторінки сайту і пошук копії всього сайту, потрібно використовувати символ "*". Цей символ повинен бути доданий до адреси та в кінець адреси в тому випадку, якщо бажаний результат є сайтом, а не конкретної сторінкою. Наприклад, для пошуку конкретної страніциhttp ://opennet.ru/в рядку адреси браузера треба ввестіhttp ://web.archive.org/http ://www.opennet.ru, але для пошуку всіх сторінок даного сайту треба додати "*" , то стосується роботи самого сервісу з архівування інформації, то тут все стандартно і очікувано - з самого початку свого існування в 1996 році архів працює приблизно на тих же принципах: при роботі враховується інформація з robots.txt, якщо сервіс не знає про конкретному сайті (в тому числі якщо на сайт немає посилань на інших сайтах), то і архівувати він не буде. Певні проблеми у збереженні сторінок виникають в тих випадках, коли на сторінках використовуються елементи Java Script, особливо якщо вони генерують посилання без повного імені сторінки. Крім того, якщо скрипти або графіка повинні бути взяті зі стороннього сервера, то це теж викликає проблеми при архівуванні.

Таким чином, сервіс Wayback Machine надає відмінні можливості для пошуку інформації, яка могла бути на сайті ще рік тому, але зараз там відсутня. Незважаючи на те що зараз шукати можна тільки по імені сторінки або сайту, сервіс все одно являє інтерес для тих, хто цікавиться історією розвитку певних інтернет-ресурсів. Крім того, розробники "Інтернет-архіву" постійно ведуть роботу над розширенням функцій пошуку та додаванням можливості повноцінного пошуку по всьому тексту. Вже зараз архів є найбільшим і найдинамічнішим сховищем даних в Інтернеті, що дозволяє сподіватися на те, що він буде корисний при рішенні самих різних завдань.

Посилання по темі

  • Інформація про некомерційну організацію "Інтернет-архів"
  • Блог розробників і учасників проекту "Інтернет-архів"
  • Ще одна інтернет-бібліотека

Статьяполучена: hostinfo.ru

Детальніше »