Призначення пошукових систем і як вони працюють

Пошукові системи з найбільшою дистрибуційною мережею продають найбільше рекламного простору. Поки я пишу це, Google вважається найрелевантнішою пошуковою системою. Їхні технології генерують більшість веб-пошуків.
Найбільша проблема нових веб-сайтів полягає в тому, що пошукові системи не уявляють, що вони існують. Навіть коли пошукова машина знаходить новий документ, йому важко визначити його якість. Пошукові системи покладаються на посилання, щоб допомогти визначити якість документа. Деякі двигуни, такі як Google, з віком ставлять ще більше довіри до сайтів.
Наступні рядки можуть містити деякі теми розширеного пошуку. Добре, якщо ви не відразу зрозумієте терміни, які веб-майстру не потрібно знати в технології поглибленого пошуку. Декого це може зацікавити, тому я писав про це трохи з думкою про цих людей. (Якщо ви новачок в Інтернеті і вас не цікавлять алгоритми, ви можете пропустити це)
У наступних кількох рядках я розгляну деякі частини пошукової системи, намагаючись дотримуватися основ. Не важливо повністю розуміти все це (насправді, я вважаю, що для більшості веб-майстрів краще, якщо вони не турбуються про якісь методи пошуку).
Модель простору векторних виразів, на якій все ще базуються алгоритми пошуку, бере свій початок з 1970-х рр. Джерард Салтон був відомим експертом з пошуку інформації, який започаткував багато сучасних методів.
Якщо ви зацікавлені дізнатись більше про системи швидкого пошуку інформації, ми рекомендуємо вам прочитати теорію індексації - коротку книгу Сальтона, яка описує багато загальних термінів та понять у галузі пошуку інформації.
У книзі Майка Грегана «Маркетинг у пошукових системах: основний посібник з найкращих практик» також детально розглядаються технічні аспекти отримання інформації. Його книга була створена як поточний посібник, в той час як вона більше зосереджена на наданні інформації про те, як працює пошук інформації.
Хоча існують різні способи впорядкування веб-вмісту, кожна пошукова система із сканерами має однакові основні компоненти:
- гусеничний робот
- індекс (або каталог)
- інтерфейс пошуку
Сканер робить саме те, що випливає з назви. Він шукає в Інтернеті посилання, оновлює сторінки та додає нові сторінки, коли мова заходить про них. Кожна пошукова система має тривалий та глибокий періоди доступу до сканування та поверхневі періоди доступу до сканування. Існує також механізм планування, який запобігає перевантаженню павука серверами.