В даній статті детальному розгляду будуть піддані наступні процеси роботи пошукової системи: індексування документів, обробка запитів, ранжірованіерезультатов.

Неймовірно, але факт, современниепоісковие системи, якими багато хто з нас користуються, мають у своїй основі науку, яка налічує вже не один десяток років, відому як інформаційний пошук. На зорі свого розвитку ця наука знайшла основне застосування у великих організаціях, таких як бібліотеки, науково-дослідні центри, урядові лабораторії. У той час вченими були визначені два основоположних компонента успішного пошуку. За аналогією можна виділити подібні компоненти і в сучасному пошуку.

Першим являетсярелевантность, що визначає ступінь соотношеніяконтента, какрезультатов пошуку, оригінальному запросупользователя. Документ вважається релевантним запитом в тому випадку, якщо слова запиту часто зустрічаються в тексті самого документа, особливо в найбільш важливих його частинах, таких як заголовок і підзаголовки. У сучасному пошуку даний процес відомий як аналіз документа. Сучасні пошукові системи перевіряють найбільш значимі області веб-сторінок: заголовок, мета-дані, теги заголовків, основну частину текстового повідомлення, щоб визначити, наскільки близький контент сторінки запиту.

Другим компонентом є популярність . Всі, хто писав курсові роботи, стикався з цим. Згадайте викладача, наполегливо вимагає Вас звернути особливу увагу на посилання і бібліографію джерел, зокрема, на ті посилання, які зустрічаються кілька разів. Такі роботи вважаються популярними, отже, важливими для досліджуваної теми. ВІнтернетеподобний процес представлений у вигляді посилального аналізу, за допомогою якого Пошукова система визначає загальну кількість вхідних посилань, хто посилається на дану сторінку або сайт, і що говорять про даній сторінці ілісайтессилающіеся джерела.

На додаток крелевантностіі популярності, пошуковим системам необхідно враховувати те, наскільки джерелами можна довіряти. Продовжуючи проводити аналогію з університетської середовищем, можна припустити, що комерційні інтереси не вплинуть на результати пошуку документа. Однак, в інтерактивному середовищі все якраз навпаки. Однією з причин, чому посилання зі сторінок з розширенням. Edu і. Gov представляються більш важливими, є саме їх некомерційний характер. Техніка аналізу документів і посилань припускає вивчення сотні процесів, що проходять в алгоритмах пошукової системи, і визначення порядку видачірезультатов поіскапользователю.

Кому можна довіряти

Бажаючи отримати більше інформації про людину, зазвичай вживають наступне: знайомляться з ним особисто, або наводять довідки про нього. При оцінці веб-сайту пошукова система виконує те ж саме: перевіряє, як сам сайт оцінює себе, і як його оцінюють інші сайти. Однак, переслідуючи фінансову вигоду, багато сайтів можуть завищувати власну оцінку, вдаючись до надмірного використання мета-тегів іключевих слів, що до 1998 р. залишалося абсолютно безкарним. Зараз пошукові системи не так вже просто провести, політика покарань часом зайво сувора.

Якщо забути на час про самооцінку сайтів, варто згадати про визначення популярності. Якщо сотні тисяч сайтів посилаються на певний сайт, то відповідно до теорії, він повинен бути популярним, а, отже, значимим. Якщо посилання зроблені з сайтів, що володіють великою кількістю вхідних посилань, це збільшує вагу всіх вихідних, з подібних сайтів, посилань. Тільки не варто забувати про якість посилань. Так, наприклад, посилання з сайтів, що володіють високим ступенем довіри (наприклад, сайти Гарвардського Університету, Агентства Рейтер, Міністерства Юстиції США і т.д.), неодмінно зроблять позитивний вплив напозіціі сайту. Відповідно, посилання з сайтів низької якості (наприклад, входять до складу посилальних ферм) не принесуть вигоди, а, можливо, і негативно позначаться вSERP.

Актуальним залишається питання: як пошукові системи визначають значимість вхідних посилань на сайт.

Аналізу піддається весь контент сторінки, з якої робиться посилання. Ось, наприклад, як работаетPageRankGoogle: для визначення важливості посилання до уваги береться не тільки сама посилання зі сторінки А на сторінку B, але і текст сторінки А.

Як пошукова система оцінює посилання

На оцінку якості посилання впливає велика кількість факторів. В рамках даної статті представляється можливим розглянути лише кілька з них, які мають більше значення.

Одним з таких факторів є "посилальний текст" - видимі символи або слова, клікаючи які, здійснюється перехід по гіперпосиланню . Наприклад, на сторінці, що розповідає про азартні ігри, Ви знаходите наступну фразу "I've looked all over, but so far I've only found one place that keeps the Xbox360 consistently in stock". Якщо останні чотири слова є гіперпосиланням, топоісковий робот, зіткнувшись з подібною фразою, зробить висновок, що сторінки, на які зроблено посилання (однією з яких може бути і eBay), були визначені згідно фразі "Xbox360 consistently in stock". Багато хто вважає, якщо певні сторінки релевантні певному набору слів і посиланнях, що містить даний набір слів, то сайт може бути високо оцінений навіть за умови, якщо цей набір слів більше ніде на сайті не зустрічається.

Популярність сайту, визначена кількістю вхідних посилань, впливає і на оцінку сайту. Наприклад, посилання сSEOChat на Ваш сайт має велику вагу, проте посилання з NYTimes.com буде важити набагато більше. Визначення подібних даних є однією з функцій PageRank, хоча найчастіше ці дані втрачають свою актуальність (тому Google оновлює PageRank лише кожні 3-6 місяців).

Всім сайтам знайти популярність складно. Можливо, саме тому пошукові системи стали помічати появу "тематичних співтовариств", раніше вони являли собою "webring-і". "Тематичні співтовариства" - сайти, об'єднані загальною тематикою і посиланнями один з одним. Відзначимо, що посилання з сайту, що складається в "тематичному співтоваристві", може придбати більшу вагу, якщо він посилається на сторінку з подібною тематикою. В іншому випадку, вага посилання буде набагато менше.

Текст, навколишній посилання (не посилальний текст), часто піддається більш ретельному аналізу й оцінці, ніж решта тексту на сторінці. Таким чином, внутрішні посилання є більш значущими. Предметом вивчення сторінки, що посилається також є визначення важливості "голоси", який сторінка передає тієї, на яку посилається.

Вивчення мови

Вже розглянувши такі функції пошукових систем, як індексування та ранжирування, слід згадати про те, для чого виконуються всі ці завдання, - про обробку запиту. І перше, з чим слід ознайомитися, це семантика, мовознавство. Пошукові системи використовують всі свої знання в даних областях для того, щоб представити релевантні запиту результати. Ось чому, наприклад, при запиті "старовинний автомобіль", поісковікможет уявити поряд зі сторінками, що містять дану фразу, сторінки, що мають відношення до запиту, але представлені синонімічно фразою "антикварний автомобіль".

Пошукові системи ретельно переглядають величезну кількість інформації, визначають спорідненість слів на основі частоти їх використання та контекстуального значення. Це означає наступне: чим більше даних збере пошукова система, тим більше точними будуть результати пошуку. Для помітних змін потрібно чимало часу. Однак слід зазначити, що відбуваються поліпшення збільшують швидкість прямо пропорційно збільшенню обсягу собраннихпоісковим роботомданних.

Можна сміливо стверджувати, що пошукові системи не зупиняться на досягнутому. Спроби покращити розуміння запитів користувачів будуть робитися до тих пір, поки "не прийдуть" до досконалості. Домігшись ідеалу в розумінні запитів, пошукові системи будуть представляти вчинені результати пошуку.

За інформацієюwww.seochat.com


Статьяполучена: www . SeoNews.ru

Детальніше »