2.1 Як працюють механізми пошуку

Cредства пошуку і структурування, іноді звані пошуковими механізмами, використовуються для того, щоб допомогти людям знайти інформацію, якої вони потребують. Засоби пошуку типу агентів, павуків, кроулери і роботів використовуються для збору інформації про документи, що знаходяться в Мережі Інтернет. Це спеціальні програми, які займаються пошуком сторінок в Мережі, витягають гіпертекстові посилання на цих сторінках і автоматично індексують інформацію, яку вони знаходять для побудови бази даних. Кожен пошуковий механізм має власний набір правил, що визначають, як cобірать документи. Деякі слідують за кожною посиланням на кожній знайденій сторінці і потім, у свою чергу, досліджують кожне посилання на кожній з нових сторінок, і так далі. Деякі ігнорують посилання, які ведуть до графічним і звуковим файлам, файлів мультиплікації; інші ігнорують лінки до ресурсів типу баз даних WAIS; інші проінструктірова-ни, що потрібно переглядати насамперед найбільш популярні сторінки.

  • Агенти - самі "інтелектуальні" з пошукових засобів. Вони можуть робити більше, ніж просто шукати: вони можуть виконувати навіть транзакції від Вашого імені. Вже зараз вони можуть шукати Сайти специфічної тематики і повертати списки Cайт, відсортованих за їх відвідуваністю. Агенти можуть обробляти вміст документів, знаходити та індексувати інші види ресурсів, не лише сторінки. Вони можуть також бути запрограмовані для витягання інформації з вже існуючих баз даних. Незалежно від інформації, яку агенти індексують, вони передають її назад базі даних пошукового механізму.

  • Загальний пошук інформації в Мережі здійснюють програми, відомі як павуки. Павуки повідомляють про зміст знайденого документа, індексують його і добувають підсумкову інформацію. Також вони переглядають заголовки, деякі посилання і посилають проіндексовану інформацію базі даних пошукового механізму.
  • Кроулери переглядають заголовки і возращаться тільки перше посилання.
  • Роботи можуть бути запрограмовані так, щоб переходити по різним Посилання різної глибини вкладеності, виконувати індексацію і навіть перевіряти посилання в документі. Через їх природи вони можуть застрявати в циклах, тому, проходячи за посиланнями, їм потрібні значні ресурси Мережі. Однак, є методи, призначені для того, щоб заборонити роботам пошук по сайтах, власники яких не бажають, щоб вони були проіндексовані.


Агенти витягують і індексують різні види інформації. Деякі, наприклад, індексують кожне окреме слово у встречающемся документі, в той час як інші індексують тільки найбільш важливих 100 слів в кожному, індексують розмір документу і кількість слів у ньому, назву, заголовки і підзаголовки і так далі. Вид побудованого індексу визначає, який пошук може бути зроблений пошуковим механізмом і як отримана інформація буде інтерпретована.

Агенти можуть також переміщатися по Інтернет і знаходити інформацію, після чого поміщати її в базу даних пошукового механізму. Адміністратори пошукових систем можуть визначити, які сайти або типи сайтів агенти повинні відвідати та проіндексувати. Проіндексована інформація відсилається базі даних пошукового механізму так само, як було описано вище.

Люди можуть розміщувати інформацію прямо в індекс, заповнюючи особливу форму для того розділу, в який вони хотіли б помістити свою інформацію. Ці дані передаються базі даних.

Коли хто-небудь хоче знайти інформацію, доступну в Інтернет, він відвідує сторінку пошукової системи і заповнює форму, що деталізує інформацію, яка йому необхідна. Тут можуть використовуватися ключові слова, дати та інші критерії. Критерії в формі пошуку повинні відповідати критеріям, використовуваним агентами при індексації інформації, яку вони знайшли при переміщенні по Мережі.

База даних відшукує предмет запиту, заснований на інформації, зазначеної в заповненій формі, і виводить відповідні документи, підготовлені базою даних. Щоб визначити порядок, в якому список документів буде показаний, база даних застосовує алгоритм ранжування. В ідеальному випадку, документи, найбільш релевантні для користувача запиту будуть поміщені першими в списку. Різні пошукові системи використовують різні алгоритми ранжирування, проте основні принципи визначення релевантності наступні:


  1. Кількість слів запиту в текстовому вмісті документу (тобто в html-коді).
  2. Теги, в яких ці слова розташовуються.
  3. Місцезнаходження шуканих слів у документі.
  4. Питома вага слів, відносно яких визначається релевантність, у загальній кількості слів документу.

    Ці принципи застосовуються всіма пошуковими системами. А представлені нижче використовуються деякими, але достатньо відомими (на зразок AltaVista, HotBot).

  5. Час - як довго сторінка знаходиться в базі пошукового сервера. Спочатку здається, що це досить безглуздий принцип. Але, якщо задуматися, як багато існує в Інтернеті сайтів, які живуть максимум місяць! Якщо ж сайт існує досить довго, це означає, що власник вельми досвідчений у даній темі і користувачу більше підійде сайт, який пару років віщає світові про правила поведінки за столом, ніж той, який з'явився тиждень тому з цією ж темою.
  6. Індекс цитованості - як багато посилань на дану сторінку веде з інших сторінок, зареєстрованих в базі пошукача.


База даних виводить ранжований подібним чином список документів з HTML і повертає його людині, зробив запит. Різні пошукові механізми також вибирають різні способи показу отриманого списку - деякі показують тільки посилання; інші виводять лінки c першими кількома пропозиціями, що містяться в документі або заголовок документа разом з Посилання.

Коли Ви клацаєте на посиланні до одного з документів, який вас цікавить, цей документ запитується у того сервера, на якому він знаходиться.

2.2 Порівняльний огляд пошукових систем

Lycos. У Lycos використовується наступний механізм індексації:


  • слова в title заголовку мають вищий пріоритет ;
  • слова на початку сторінки;
  • слова в посиланнях;
  • якщо в його базі індексу є сайти, посилання з яких вказує на індексований документ - релевантність цього документа зростає.


Як і більшість систем, Lycos дає можливість застосовувати простий запит і більш витончений метод пошуку.

В простому запиті в якості пошукового критерію вводиться пропозиція на природній мові, після чого Lycos виробляє нормалізацію запиту, видаляючи з нього так звані stop-слова, і тільки після цього приступає до його виконання. Майже відразу видається інформація про кількість документів на кожне слово, а пізніше і список посилань на формально релевантні документи. У списку проти кожного документа вказується його міра близькості запиту, кількість слів із запиту, що потрапили в документ, і оцінна міра близькості, яка може бути більше або менше формально обчисленої. Поки не можна вводити логічні оператори в рядку разом з термінами, але використовувати логіку через систему меню Lycos дозволяє. Така можливість застосовується для побудови розширеної форми запиту, призначеної для досвідчених користувачів, вже навчилися працювати з цим механізмом. Таким чином, видно, що Lycos відноситься до системи з мовою запитів типу "Like this", але намічається його розширення і на інші способи організації пошукових розпоряджень.


AltaVista</??strong>. Індексування в цій системі здійснюється за допомогою робота. При цьому робот має такі пріоритети:


  • слова містяться в тезі title мають вищий пріоритет; ключові фрази в Meta тегах;
  • ключові фрази, що знаходяться на початку сторінки;
  • ключові фрази в ALT - посиланнях
  • ключові фрази за кількістю вхожденійпрісутствія словфраз;


Якщо тегів на сторінці немає, використовує перші 30 слів, які індексує і показує замість опису (tag description)

Найбільш цікава можливість AltaVista - це розширений пошук. Тут варто відразу обмовитися, що, на відміну від багатьох інших систем AltaVista підтримує одномісний оператор NOT. Крім цього, є ще й оператор NEAR, який реалізує можливість контекстного пошуку, коли терміни повинні розташовуватися поряд в тексті документа. AltaVista дозволяє пошук за ключовими фразами, при цьому вона має досить великий фразеологічний словник. Крім усього іншого, при пошуку в AltaVista можна задати ім'я поля, де має зустрітися слово: гіпертекстова посилання, applet, назва образу, заголовок та ряд інших полів. На жаль, докладно процедура ранжирування в документації по системі не описана, але видно, що ранжування застосовується як при простому пошуку, так і при розширеному запиті. Реально цю систему можна віднести до системи з розширеним булевим пошуком.

Yahoo. Дана система з'явилася в Мережі однією з перших, і сьогодні Yahoo співпрацює з багатьма виробниками засобів інформаційного пошуку, а на різних її серверах використовується різне програмне забезпечення. Мова Yahoo досить простий: всі слова слід вводити через пробіл, вони з'єднуються зв'язкою AND або OR. При видачі не вказується ступінь відповідності документа запиту, а тільки підкреслюються слова із запиту, які зустрілися в документі. При цьому не проводиться нормалізація лексики і не проводиться аналіз на "загальні" слова. Хороші результати пошуку виходять тільки тоді, коли користувач знає, що в базі даних Yahoo інформація є напевно. Ранжування проводиться за кількістю термінів запиту в документі. Yahoo відноситься до класу простих традиційних систем з обмеженими можливостями пошуку.

OpenText. Інформаційна система OpenText являє собою самий комерціалізувати інформаційний продукт у Мережі. Всі описи більше схожі на рекламу, ніж на інформативне керівництво по роботі. Система дозволяє провести пошук з використанням логічних конекторів, однак розмір запиту обмежений трьома термінами або фразами. У даному випадку мова йде про розширеному пошуку. При видачі результатів повідомляється ступінь відповідності документа запиту та розмір документа. Система дозволяє також поліпшити результати пошуку в стилі традиційного булевого пошуку. OpenText можна було б віднести до розряду традиційних інформаційно-пошукових систем, якщо б не механізм ранжування.

Infoseek. У цій системі індекс створює робот, але він індексує не весь сайт, а тільки вказану сторінку. При цьому робот має такі пріоритети:


  • слова в заголовку title мають найвищий пріоритет ;
  • слова в теге keywords, description і частота вхожденійповтореній в самому тексті;
  • при повторенні однакових слів поруч викидає з індексу
  • Допускає до 1024 символів для тега keywords, 200 символів для тега description;
  • Якщо теги не використовувалися, індексує перші 200 слів на сторінці і використовує як опис;


Система Infoseek має досить розвиненим інформаційно-пошуковим мовою, що дозволяє не просто вказувати, які терміни повинні зустрічатися в документах, але й своєрідно зважувати їх. Досягається це за допомогою спеціальних знаків "+" - термін зобов'язаний бути в документі, і "-" - термін повинен бути відсутнім в документі. Крім цього, Infoseek дозволяє проводити те, що називається контекстним пошуком. Це означає, що використовуючи спеціальну форму запиту, можна зажадати послідовної спільної зустрічальності слів. Також можна вказати, що деякі слова повинні спільно зустрічатися не тільки в одному документі, а навіть в окремому параграфі або заголовку. Є можливість вказівки ключових фраз, що представляють собою єдине ціле, аж до порядку слів. Ранжування при видачі здійснюється за кількістю термінів запиту в документі, за кількістю фраз запиту за вирахуванням загальних слів. Всі ці фактори використовуються як вкладені процедури. Підводячи коротке резюме, можна сказати, що Infoseek належить до традиційних систем з елементом зважування термінів при пошуку.

WAIS. WAIS є однією з найбільш витончених пошукових систем Internet. У ній не реалізовані лише пошук по нечітким множинам та імовірнісний пошук. На відміну від багатьох пошукових машин, система дозволяє будувати не тільки вкладені булеві запити, вважати формальну релевантність по різним заходам близькості, зважувати терміни запиту та документа, але і здійснювати корекцію запиту за релевантністю. Система також дозволяє використовувати усікання термінів, розбиття документів на поля і ведення розподілених індексів. Не випадково саме ця система була обрана в якості основної пошукової машини для реалізації енциклопедії "Британіка" на Internet.

Детальніше »