Определение намерений пользователя и выдача релевантного и свежего контента
Современные коммерческие поисковые движки основаны на науке информацией о го поиска. Эта наука существует с середины двадцатого столетия, когда системы информационного поиска работали на компьютерах в библиотеках, исследовательских центрах и правительственных лабораториях. В начале разработки поисковых систем исследователи обнаружили, что основную часть функционала поиска вставляют два самых важных компонента: релевантность и важность (которым мы к дали определения в этой же главе). Для измерения этих факторов поисковые движки выполняют анализ документов и анализ ссылок (цитирования).
При анализе документа поисковый движок ищет поисковые термины в важных частях документа (заголовке страницы, метаданных, тегах заголовков и в теле документа). Он также пытается автоматически измерить качество документа (при помощи анализа документа и множества прочих факторов).
Для сегодняшних поисковых движков одного анализа документа недостаточно, потому они также смотрят на семантическую связность.
Семантическая связность — это слова или фразы, которые обычно ассоциируйся друг с другом. Поисковые движки активно создают свои собственные слова, которые помогают им определить, как связаны определенные термины, сканируя свои огромные базы данных контента, они могут применить теорию четких множеств и некоторые уравнения (это описано по адресу http://forums.searchenginewatch.com/showthread.php?threadid=48) для связывания тер- ров и начать понимать web-страницы более похожим на человеческий образом. Профессиональному специалисту по оптимизации не обязательно применять аргументы измерения семантической связности для оптимизации web-сайтов, но тех продвинутых специалистов, которые хотят использовать каждую возможность, измерения семантической связности могут помочь в следующих областях: измерение целевых ключевых фраз;
измерение ключевых фраз для включения в страницу по определенной теме;
♦ измерение связей текста (на других сайтах с высоким рейтингом);
♦ поиск страниц, которые предоставляют релевантные ссылки по теме.
Несмотря на то, что источник этого материала имеет сугубо технический характер, специалисту по оптимизации нужно знать только принципы, чтобы получит эту ценную информацию. Важно помнить, что несмотря на то, что мир информационного поиска имеет сотни технических и часто трудных для понимания терминов их можно разделить на группы, которые способен понять даже новичок в облает оптимизации.
В таблице (в конце статьи) объясняются некоторые часто встречающиеся типы информационно го поиска.
Модели информационного поиска (поисковые движки) используют теорию четких множеств (ответвление нечеткой логики, созданной доктором Lotfi Zade 1969 г.) для обнаружения семантической связности между двумя словами. Вместо использования словаря для обоснования связи двух слов, система информационного поиска может применить свои большие базы данных контента для угадывай этой связи.
Несмотря на то, что этот процесс может показаться сложным, основы его просты. Поисковые движки полагаются на машинную логику (правда/ложь, да/нет и т. д.). Машинная логика имеет некоторые преимущества перед человеческой, i она не способна мыслить подобно человеку. И те вещи, которые интуитивно понятны человеку, может быть очень сложно понять компьютеру. Например, апельсины и бананы — это фрукты, но апельсины и бананы не круглые. Для человека: интуитивно понятно.
Чтобы машина поняла эту концепцию и подобные ей, ключом может стать семантическая связность. Огромные знания человечества (содержащиеся в Интернете) могут быть занесены в индекс системы и проанализированы, чтобы искусственным образом создать те связи, которые уже создали люди. Таким образом, машина знает, что апельсин круглый, а банан - нет (потому что она просканировала тысячи вхождений в свой индекс слов "банан" и "апельсин" и заметила, что "круглый" "банан" вместе встречаются редко, а "апельсин" и "круглый" вместе встречаются то).
Именно здесь вступает в игру нечеткая логика и применение теории нечетких множеств помогает компьютеру понять, как термины связаны. На этом понятии основана родственная концепция латентного семантического анализа (latent semantic analysis, LSA). Его идея состоит в том, что, взяв огромный "основной индекс из миллиардов web-страниц, поисковый движок может "выяснить", какие слова связаны и какие концепции имеют отношение друг к другу. Например, используя LSA, поисковый движок поймет, что trips (путешествия) zoo (зоопарк) часто включают в себя viewing wildlife и animals (наблюдение за природой и животными), причем это может быть частью tour (тура). Теперь выполним поиск в Google по ~zoo ~trips (тильда — это оператор поиска, подробнее об этом далее в следующих статьях). Google выводит "связанные" термины разным шрифтом и распознает, какие термины часто встречаются совместно в его индексах. Некоторые формы LSA имеют слишком высокую вычислительную стоимость, "например, в настоящее время поисковые движки недостаточно "умны" для того, чтобы "обучаться" так же, как это делают некоторые более новые обучающиеся компьютеры в Массачусетсом технологическом институте. Например, они не могут узнать из своего индекса, что зебры и тигры — это полосатые животные, хотя могут обнаружить, что "полосы" и "зебры" более семантически связаны, чем "полосы" и "утки".
Латентное семантическое индексирование (latent semantic indexing, LSI) делает не один шаг вперед, используя семантический анализ для идентификации связанных web-страниц. Например, поисковый движок может заметить одну страницу которой говорится о докторах) и другую (в которой говорится о терапевтах) и на основе других общих слов, имеющихся в этих двух страницах, определить, что между этими страницами есть связь. В результате страница с упоминанием докторов может быть показана по запросу, в котором используется слово терапевт. В такие технологии в течение многих лет вкладываются деньги. Например, апреле 2003 г. компания Google приобрела компанию Applied Semantics (http://www.appliedseniantics.com/), которая известна своей технологией семантической обработки текста. Эта технология теперь работает в рекламной программе AdSense компании Google и, скорее всего, применяется также и в основных алгоритмах поиска.
Все это дает нам общее понятие о том, как поисковые движки распознают связи между словами, фразами и идеями в сети Интернет. Поскольку семантическая связность играет все большую роль в алгоритмах поисковых движков, то можно придать и большего акцента на теме страниц, сайтов и ссылок. В будущем будет
очень важно реализовать способность поисковых движков к пониманию идей тем, а также к распознаванию контента, ссылок и страниц, которые не очень хорошо соответствуют схеме web-сайта.
|
Таблица. Часто встречающиеся типы поиска
|