Пошукова машина — складний комплекс програм, що автоматизує пошук з одночасним оперативним оновленням інформації у своїй базі даних без участі людей. До складу пошукової машини входять наступні основні програми:
Spider (“павук”) — блискавично “повзає” по Мережі для поповнення і оновлення своєї бази даних, знайдену веб-сторінку детально аналізує і лише потім завантажує в базу даних пошукової машини (щоб подивитися текст програми веб-сторінки в меню Вид Internet Explorer необхідно вибрати пункт Просмотр HTML-кода)
Crawler (“черв”як”) — відшукує на веб-сторінці всі гіперпосилання, щоб знати, куди треба далі “повзти павуку”
Indexer (індексатор) — виділяє й фіксує частки документу, який був використаний (заголовки, посилання, текст), та аналізує їх для подальшого форматування, оцінює частоту використання слів
Database (база даних) — вміст всіх даних, які пошукова машина має у своєму складі і постійно оновлює, аналізує їх, порівнюючи із запитом (це
- основна характеристика внутрішніх можливостей пошукової машини, вимагає серйозних ресурсів комп’ютера-сервера, щоб пошук був швидким і повним)
Results (видача результатів) — визначає відповідність отриманого результату запиту введеним ключовим словам.
Пошукова машина працює наступним чином: Користувач - вводить ключові слова (запит); Пошукова машина - аналізує свою базу даних, відбирає з неї результати за певними алгоритмами релевантності (правилами оцінювання відповідності знайденої веб-сторінки запиту) і формує з них відповідний список знайдених веб-сторінок. Ці алгоритми - knowhow авторів, деталі якого не розголошуються.
Різні пошукові машини мають власні бази даних і використовують різні алгоритми, тому результати пошуку за їх допомогою для одного й того ж запиту — будуть різні. Саме тому для професійного пошуку рекомендується користуватися кількома пошуковими машинами.
Пошукові алгоритми базуються на двох законах, сформульованих на основі вивчення людської поведінки. Закони були відкриті лінгвістом Дж. Зіпфом (1949 р.), який виявив, що довгі слова зустрічаються рідше, ніж короткі. Відповідно до цього, частоті появи слова Р відповідає ранг n. Тоді:
1) добуток імовірності появи слова на його ранг — величина приблизно постійна; в графічній формі ця залежність є нелінійною функцією - Рц1/п (гіпербола); звідси, якщо 100 раз зустрічається найбільш розповсюджене слово (з п=1), то наступне за ним слово з рангом п=2 зустрінеться лише 50 разів;
2) частота й кількість слів в тексті з певною частотою зв’язані між собою, тобто, для кожної частоти відома кількість слів й навпаки.
Якщо б пошукові машини шукали таким же чином як люди, ми б отримували кілька документів, схожих між собою. Але машинний “інтелект” пошукової машини іноді породжує результати пошуку, які іноді за змістом не мають ніякого відношення до запиту. В цьому випадку кажуть, що отримані результати не є релевантними. Поняття “релевантність” (змістовна відповідність між запитом та отриманим повідомленням) доповнюють поняттями “повнота” (коли нічого не втрачено) та “точність” (якщо не знайдено нічого зайвого).
Користувач починає шукати у Мережі інформацію за умови інформаційної потреби у випадках, коли є:
• реальна, але нечітко і несвідомо визначена потреба (тобто - він не уявляє собі, що є, що може бути і у якій формі);
• свідомо й чітко визначена потреба (тобто користувач уявляє, що треба знайти),
Тому дуже важливим моментом пошуку інформації є етап формулювання запиту. Запит може бути вираженим звичайною мовою або формалізованими (машинними) засобами мови запитів пошукової машини. Для досягнення релевантності відповідей іноді буває необхідним декілька разів переформульовувати запит. Саме тут вирішальним є досвід користувача і його знання. Треба вміти “правильно запитувати” пошукові машини. Ре- левантність знайденої інформації може бути змістовною (когнітивною) та алгоритмічною, з позицій формалізованого мовою “машини” пошуку. У будь-якому випадку мета пошуку в Мережі — отримати документ, що має пряме відношення до запиту і містить у собі необхідну інформацію, чи її частку (з позицій когнітивної релевантності).
» следующая страница »
1 ... 17 18 19 20 21 2223 24 25 26 27 ... 187