Практикам по оптимизации полезно знать, как работают просмотр, индексирование и ранжирование, поскольку это помогает им определить, какие действия необходимо предпринять для достижения своих целей. В этой статье в основном описываются способы работы Google, Yahoo! и Microsoft, но, возможно, он неприменим для других популярных поисковых движков, таких как Baidu (Китай) и fever (Корея).
Поисковые движки имеют несколько основных целей и функций. В их число входят следующие:
* просмотр и индексирование миллиардов документов (страниц и файлов), доступных в Интернете;
* ответы на запросы пользователей (с выдачей списков релевантных страниц).
Мы рассмотрим основы этих функций с нетехнической точки зрения.
Просмотр и индексирование
Представьте себе, что Интернет — это сеть станций в подземке большого города Каждая станция — уникальный документ (обычно web-страница, но иногда это файл формата PDF, JPEG или другого формата). Поисковому движку нужен способ проползти" по всему городу и найти по дороге все станции, поэтому он использует самый лучший из имеющихся маршрутов: ссылки между web-страницами).
Допустим есть такие станции, как Embankment, Picadilly Circus и Moor - они являются страницами, а соединяющие их линии представляют ссылки с этих ниц на другие страницы Интернета. Как только Google доберется до Embankment, он увидит ссылки на Charing Cross, Westminster и Temple и жет получить доступ к любой из этих страниц.
Структура ссылок сети Интернета связывает между собой все страницы, к рые были сделаны публичными в результате установления ссылок на них. При помощи ссылок автоматизированные роботы поисковых движков, называемые "пауками" (именно поэтому они изображены в таком виде), могут добраться до многих миллиардов взаимосвязанных документов.
Когда поисковые движки находят эти страницы, их следующая задача состоит в том, чтобы сделать анализ кода этих страниц и сохранить элементы этих страниц в огромных массивах жестких дисков (чтобы при необходимости их можно было извлечь для ответа на запрос). Чтобы справиться с этой монументальной задаче) хранению миллиардов страниц (к которым можно получить доступ в доли ceкунды), поисковые движки создают огромные центры обработки данных.
Одна из ключевых концепций создания поискового движка — это начать поиск по сети. Несмотря на то, что теоретически начать можно из многих мест, в идеале следует начинать с доверенного набора web-сайтов. Фактором доверия к вашему сайту можно считать расстояние (в количестве кликов) между вашим сайтом и наиболее доверенными сайтами. Мы более подробно обсудим фактор доверия в алгоритмах поиска в следующих статьях.