У Мережі щорічно з'являються близько 100 мільярдів зображень. Цифра значна, і, щоб хоч якось з нею впоратися, необхідно удосконалювати критерії пошуку. Робота в цьому напрямку останнім часом активізувалася, і деякі цікаві результати можуть змінити наше ставлення не тільки до візуальних, але й до звичайним текстовим запитам.

Стандартний підхід до "графічної" проблемі виглядає досить просто. У тому сенсі, що провідні пошукачі, як, наприклад, Google з його системою PageRank, покладаються в першу чергу на добре відому методику оцінки релевантності контексту.

В основному аналізують зміст інтернет-сторінки, де розташований той чи інший об'єкт . Тобто якщо ви на своєму сайті помістили твір на тему "Як я провів відпустку на Багамах" з фотографіями власної персони, на запит "Багами" машина видасть саме ваші веселі посмішки. Зрозуміло, у випадку популярності ресурсу.


У найпростішому своєму варіанті візуальний аналіз передбачає аналіз збігу кольорів і яскравостей ділянок двох зображень. У більш просунутому - зіставлення відповідних точок. На даному прикладі видно, як всі варіації на тему "Джоконди" програма порівнює з оригіналом і один з одним (ілюстрація Yushi Jing, Shumeet Baluja).

Беруться до уваги і назви графічних файлів (наприклад "Я_на_Багамах.jpg""), і ряд інших параметрів. Однак "картинка" в переважній більшості випадків ніяк не враховується - дуже складне завдання.

Навіть у рамках заданих понятійних категорій (тобто програма знає, що треба шукати літаки, приміром) існуючі технології пошуку "схожих" зображень неідеальні .

Найбільший прогрес у цьому напрямку досягнуто в галузі розпізнавання осіб і фотографій - в настройках розширеного пошуку "Гугла" або "Яндекса" такі опції вже передбачені. Є й спеціалізовані ресурси, що працюють з візуальними запитами, як, наприклад, Riya, TinEye або Picollator.

Всі вони так чи інакше використовують технологію пошуку зображень за змістом - CBIR (Content Based Image Retrieval). Методика ця дозволяє оцінювати схожість малюнків або фотографій на підставі їх кольору, текстури, форми і, рідше, інших параметрів.


Завантаживши фото Арнольда на Picollator, ми отримали такий ось набір осіб. Ні, все, звичайно, можна зрозуміти, але за дам прикро. Мабуть, сервіс поки ще сируватий (ілюстрація MEMBRANA).

В основному це реалізовано на досить скромному рівні. Тобто сервіси аналізують збігу кольорів і яскравостей відповідних один одному ділянок порівнюваних зображень чи, наприклад, взаємне розташування кожної пари точок об'єкта.

Як бачите, навіть в лімітованої базі фотографій сервіси працюють не дуже успішно. Хоча теоретично для фото можна було б розробити систему, аналогічну за своєю точністю аналізу відбитків пальців.

Однак для пошукача з необмеженою кількістю індексованих зображень це буде занадто дорого. А найголовніше - довго: результатів видачі протягом декількох (в кращому випадку) хвилин не багато користувачів готові чекати.

Ще одним і навіть більш фундаментальним обмеженням є складність механізму зорового сприйняття людини. Основна проблема тут - розрив сприйняття або так званий семантичний розрив.


Сервіс TeenEye пропонує знайти схожі фото і зображення щодо зазначеного зразка. На ділі в ході серії завантажень портретів відомих людей ми отримували одні і ті ж фото, відрізняються лише по розмірності, яскравості і чіткості, - деколи на 20 сторінках (ілюстрація MEMBRANA).

Якщо перевести на звичайну мову, це означає, що не завжди можливо свідомо сформулювати "правильний" текстовий запит - принаймні, якщо мова йде про пошук. Один користувач, вводячи слово "сонце", очікує побачити зірку в оточенні планет, а інший - лужок, блакитне небо і багато-багато світла.

Але в цій складності і криється значний потенціал. Тільки уявіть: ви тільки подумали про щось, народився в голові якийсь образ, майнула неясна думка - і ви шукайте відповідну картинку. А вже далі отримуєте необхідну інформацію.

Втім, просто знайти "бажане" зображення, навіть не абстрактне, а цілком конкретне, - теж зовсім непогано.

Останнім часом роботу в цьому напрямку активно ведуть і гіганти на кшталт Google, і незалежні розробники. Так, наприклад, група вчених з університету Пенсільванії (Pennsylvania State University) оголосила про реєстрацію патенту на "семантичну" систему візуального пошуку ALIPR (Automatic Linguistic Indexing of Pictures in Real-Time).


Движок ALIPR розбиває картинки на просторові точки і порівнює їх один з одним (ілюстрація Jia Li, James Z. Wang).

Суть нового сервісу, який у своєму первісному урізаному вигляді з'явився ще в кінці 2006 року, в об'єднанні "піксельного" і смислового аналізу зображень.

У базі ALIPR знаходиться більше мільйона зображень, до кожного з яких проставлені теги - група смислових " ключів ". Основна ідея в тому, що сприйняття тих чи інших об'єктів у користувачів Інтернету все ж підкоряється законам нормального розподілу, і, отже, найбільш популярні зв'язки "поняття - об'єкт" повинні співпасти з очікуваннями.

На даний момент система оперує 332 поняттями, але це не означає, що знайти можна картинки лише за настільки обмеженому набору слів. За допомогою хитрого алгоритму, в основі якого лежить в тому числі імовірнісний лінгвістичний аналіз, значна частина англомовних термінів, введених у рядок пошуку, знаходить "своє" зображення. Але "шкала значень", звичайно, має обмеження: на таке слово, як "хромосома" (chromosome), ALIPR взагалі ніяк не реагує.

Може бути, тому що сервіс на даний момент знаходиться в стадії "самонавчання" . Автори проекту активно пропонують всім бажаючим завантажувати зображення - або з жорсткого диска, або скопіювавши URL.

Проаналізувавши зображення (на це йде на долі секунди більше у порівнянні зі звичайним текстовим запитом), система привласнює кожному файлу 15 тегів і просить при цьому оцінити їх релевантність. Або свій, новий "ключ" проставити.

ознайомитися на особистій сторінці Цзя Лі (Jia Li) - провідного розробника проекту (ілюстрація MEMBRANA). ' width=478 height=321>

Приклад видачі за запитом "Ейнштейн". Якщо ви дійсно шукали фото великого фізика, розумніше звернутися до звичайних пошуковиків. Більш докладно з технічними деталями візуального аналізу можна ознайомитися на особистій сторінці Цзя Лі (Jia Li) - провідного розробника проекту (ілюстрація MEMBRANA).

Результати поки не особливо вражають. Втім, за запевненнями розробників, в 90% випадків хоча б одне поняття збігається з "мейнстрімових" сприйняттям у добровольців, які брали участь у попередніх тестах.

"Навіть по одному смисловому критерієм результати ніколи не будуть повними", - визнає Цзя Чи. Однак, виходячи з архітектури ALIPR, навіть такі скромні можливості мають якийсь сенс: видача генерує ряд картинок, за кожною з яких "ховаються" схожі за змістом образи. На погляд машини і тих користувачів, які раніше присвоїли їм узагальнюючі поняття, зрозуміло.

Речі, єдина умова авторів при завантаженні зображення - "хороший смак". Коригувати смислові теги, мабуть, настільки ж безглуздо, наскільки нерозумно очікувати однакового сприйняття пейзажу за вікном або нового iPhone.

Але можна, виявляється, піти й іншим шляхом. Наприклад, взагалі обійтися без участі суб'єктивних семантичних категорій. Точніше кажучи, інженери з компанії Google вважають, що вони, категорії ці, нічим за великим рахунком не відрізняються від тих смислів, які користувачі вкладали в зображення, поміщаючи його в своєму блозі або на сайті. І які знаходяться за допомогою звичайного пошуку.


Прототип системи VisualRank індексує в першу чергу не тільки самі релевантні, але й кращі за якістю і розміром зображення (ілюстрація Yushi Jing, Shumeet Baluja).

Ще в квітні 2008 року найбільший у світі пошуковик розмістив на своєму блозі інформацію про перші результати в області розробки прототипу системи VisualRank. Враховуючи можливості і свободи, які, за чутками, надає Google своїм співробітникам, не зовсім зрозуміло, наскільки ця розробка є стратегічним пріоритетом, але блог начебто офіційний.

Cотрудник компанії Шумить балу (Shumeet Baluja) і Юсі Цзінь ( Yushi Jing) з технологічного інституту Джорджії запропонували наступне рішення: можна поліпшити результати видачі, використовуючи вже існуючу систему оцінки популярності сторінок.

Мова йде про дещо іншому принципі поєднання візуального і контекстуального аналізу в порівнянні з "семантичним". У цілому ідея така: для того щоб отримати найбільш релевантні посилання, потрібно графічно порівняти індексовані картинки з найпопулярнішими зображеннями по темі, по можливості згрупувавши їх у якісь більш загальні категорії.


Вгорі - оригінальний пошук розробників VisualRank, внизу - наш пошук по аналогічному запитом macdonalds. Не виключено, що саме на основі схеми, запропонованої в VisualRank, Google додав додаткові смислові категорії (підкреслено синім). Та й у цілому результати за якихось півроку стали більш передбачуваними (ілюстрація Yushi Jing, Shumeet Baluja/MEMBRANA).

Автори роботи приводять в якості прикладу запит по слову McDonalds. Якщо ви спробуєте провести аналогічну вправу, то вам поряд зі старим добрим М-подібним логотипом пошук видасть досить дивні результати.

Малюнки необхідно ранжувати по якомусь критерію. Але справа в тому, що критерій цей заздалегідь невідомий. Навіть якщо послідовно "порівняти пікселі" двох зображень на предмет наявності стилізованої літери "М", не факт, що значна частина користувачів не буде шукати при цьому Рональда Макдоналда.

Цю проблему дослідники вирішили, поєднавши візуальні збігу зі смисловим індексуванням . Вийшло щось на зразок "прогнозованого поведінки користувачів": пошук найбільш репрезентативних текстових маркерів супроводжувався відбором графічних "узагальнень" - по вже відомій нам технології CBIR. Але, природно, зі своїми тонкощами - подробиці ви можете знайти тут (PDF-документ).


Запит "малюнки Моне", оброблений по новому алгоритму, групує, з одного боку, найбільш популярні і кращі за якістю репродукції самого Моне, а з іншого-відомі портрети Моне роботи Ренуара (ілюстрація Yushi Jing, Shumeet Baluja).

"Польові випробування" на 150 співробітниках Google показали, що видачі VisualRank відображали на 83% менше нерелевантних картинок. Правда, не по всім запитам така закономірність дотримувалася - 70 з 272 були більш вдалими для звичайного Google image search.

Речі, станом на початок травня цього року технологія, за заявою розробників, ще не була "живою". Але, цілком можливо, гігант пошуку вже використовував ряд рішень на практиці.

Крім уже згаданих додаткових категорій, як у випадку з "Макдоналдса", це можливість сортування видачі за фотографіями - опція по-тихому з'явилася лише на початку жовтня і, судячи з усього, варто очікувати подальших апгрейдів популярного пошукача.

Загалом, інтернет-пошук - це та область, де прогрес в буквальному сенсі не стоїть на місці.

Цілком можливо, що в найближчому майбутньому можна буде абсолютно спокійно відрефлексувати свій архетип, знайшовши однодумців по картинках з сновидінь, або навчитися нарешті без проблем знаходити "то-не-знаю-що".
Статьяполучена: Membrana.ru

Детальніше »