Интернет-каталоги представляют собой списки сайтов, составляемые редакторами вручную. Индексы (базы данных) автоматических поисковых систем составляются с помощью специальных программ поисковых роботов, или «веб-пауков», собирающих информацию по веб-страницам.
Автоматические поисковые системы выполняют три основные задачи:
1. Поисковый робот-«паук» (spider) отыскивает веб-страницы и включает их в индекс (этот способ сбора информации называется сканированием crawling, spidering) специальный список.
2. Индекс слов и словосочетаний, найденных роботом на доступноых ему веб-страницах, хранится на сервере поисковой системы. Робот поисковой системы, отвечающая за помещение страниц в индексе называется индексатором.
3. Поисковые системы предоставляют конечным пользователям возможность осуществлять поиск по ключевым словам и словосочет ниям с помощью составленного индекса. Поисковая система сог ставляет слова, введенные в строке запроса, с веб-страницами индекса и отбирает страницы, наиболее близко соответствующему запросу пользователя. Эта часть поисковой системы называет процессором запросов.
С чего же поисковые системы начинают поиск веб-страниц? Обычно исходные пункты базы данных интенсивно используемых сервер ведущих интернет-провайдеров, таких как America Online, а также часто посещаемые сайты, например каталог Yahoo, Open Directory и другие. Поисковые роботы исследуют эти популярные сайты, индексируя слова на каждой странице и переходя при этом по каждой найденной ссылке на новую страницу. Это одна из главных причин, по которым для веб-сайта важно попасть в основные интернет-каталоги и на популярные и пользующиеся доверием специализированные сайты.