В последнее время понятие «семантический поисковик» стало настолько часто употребляться, что неизбежно границы этого понятия размылись. В этой статье приведен перевод выдержек из доклада исполнительного вице-президента Отдела поиска и ответов Ask.com Томаша Имелински. В докладе, который будет полностью прозвучит только осенью 2009 года, он предлагает несколько условий, по которым можно определить, насколько поисковик понимает запросы пользователей и может считаться семантическим.
Представим четырехлетнего ребенка в качестве поисковика… Предположим, что поисковые системы обладают интеллектом четырехлетнего ребенка. В таком случае представим такой диалог
Пользователь: Как погодка в Москве?
Поисковик: Я не знаю.
Пользователь: Какая сейчас погода с Москве?
Поисковик: Я не знаю!
Пользователь: OK. Погода Москва.
Поисковик: И сколько раз нужно задавать один и тот же вопрос? Я же сказал, понятия не имею.
Несмотря на то, что этот поисковик совершенно не знает, какая погода сейчас в Москве, он все равно семантический, потому что он знает, что не знает о погоде. И к тому же он понимает, что пользователь продолжает задавать один и тот же вопрос, просто в разных формулировках.
Люди очень быстро понимают, что два вопроса могут быть разными формулировками одного и того же. А вот поисковые системы обычно это не понимают. И до тех пор, пока они этого не понимают, они не могут называться семантическими. Поэтому запросы «Топ-10 песен» и «десять лучших песен» выводят различные, но практически равнозначно релевантные результаты. Хотя поисковики не должны этого делать.
Это не технологии, которые вы используете, а результат, которого вы достигаете… Отражением семантичности поисковика можно считать уровень изменения результатов при перефразировании одного и того же запроса. Чем сильнее они отличаются, тем меньше возможности назвать этот поисковик семантическим.
Не имеет значения, каким образом достигается неизменность результатов при переформулировке запроса, т.е. не важно, какая используется технология (обработка натурального языка, статистический анализ серии запросов). Важен результат. Если результаты изменяются сильно, это означает, что пользователям приходится больше думать, чтобы правильно сформулировать свой запрос. А это означает, что поисковые системы плохо выполняют свою работу. Они не стараются сделать процесс поиска для пользователя проще.
Мы предполагаем, что с помощью нескольких показателей, измеряющих изменения результатов, выдаваемых поисковой системой на переформулированный запрос, можно определить уровень семантичности поисковика. Например, к таким показателям можно отнести изменение положения на странице выдачи результатов единственно правильного ответа или изменение порядка всех результатов при переформулировании запроса.
Выводы 1. В большинстве поисковиков результаты сильно изменяются от вида запроса. Современные поисковики все еще сильно зависят от формулировок запроса. В большинстве своем они основаны на ключевых словах, и далеки от понимания человеческого языка запросов.
2. Поисковые запросы с единственно возможным вариантом ответа (В каком году родился Гагарин?) хорошо воспринимаются поисковыми системами. Ответы на них на удивление мало отличаются при изменении порядка слов или переформулировке поискового запроса. Но скорее всего это заслуга не поисковиков, а Интернета, а, точнее, большого количества информации во всемирной сети, ее переписывании в различных вариантах от сайта к сайту, особенно информации на популярные темы. Это помогает поисковым системам найти правильный ответ опять же по ключевым словам.
По-настоящему семантический поисковик заботится о неизменяемости результатов при переформулировании запросов. Он собирает в одном кластере все возможные варианты одного и того же по смыслу запросу, чтобы предоставить одинаковые результаты, касающиеся как запросов на популярные, так и на нераспространенные темы.
Данные, которые мы собрали, подтверждают, что среди основных поисковиков даже простые перефразирования сильно изменяют результаты выдачи. Например, изменение числового написания «10» на текстовое «десять» меняет результаты в зависимости от варианта написания, которое присутствует на веб-странице. Также результаты меняются от добавления лишнего слова в запрос.
Ключевые слова, используемые в запросе, их порядок, сильно влияют на ранжирование результатов на странице выдачи. Это неприемлемо при семантическом поиске, задачей которого является снятие с пользователя тяжести «правильной формулировки запроса» для получения правильного ответа.
Оригинал статьи
Вы можете заказать разработку бизнес-плана любого уровня сложности для Вашего собственного проекта:
Уважаемый посетитель, Вы зашли на сайт как незарегистрированный пользователь. Мы рекомендуем Вам зарегистрироваться либо войти на сайт под своим именем.
Не всегда поисковыми системами пользуются люди, которые ищут информацию. Иногда к поисковым системам обращаются роботы, которые хотят собрать данные о позициях определенных страниц, исследовать ключевые слова или сделать максимальное количество клико ... Начать просмотр
Поисковые роботы – это специальные программы, которые постоянно сканируют содержание сети интернет. Здесь нужно сделать небольшую, но очень важную поправку – роботы сканируют только текст, т.е. только веб-страницы на языках html, htm, shtml, xml и т. ... Начать просмотр
Оптимизация сайта очень важный шаг, который поможет получать максимальное количество посетителей из поисков, затратив время лишь однажды. Оптимизация так же производится в несколько этапов.
Чтобы успешно продвигать сайт в поисковых системах, необходимо понимать, как они работают. Алгоритмы поисковиков тщательно скрываются их владельцами. Откуда же можно брать информацию о том, как функционирует поисковик?
SEO (Search Engine Optimization) - термин определяющий комплекс работ с сайтом для улучшения его видимости поисковыми системами.Не секрет, что поставщики основной части посетителей сайта ( 80-90 %) - это поисковые системы, такие как Yandex, Rambler, ... Начать просмотр
SEO копирайтинг или поисковая оптимизация – это определенная техника создания и редактирования текстов для web-сайтов таким образом, чтобы во-первых пользователь мог легко прочитать и понять текст, и во вторых, чтобы при этом текст содержал необходим ... Начать просмотр
Ни для кого не секрет, что оптимизация сайта для поисковых машин является мощным средством привлечения на него целевой аудитории. Статья посвящена одному из аспектов оптимизации, а именно, подбору и размещению ключевых слов как в тэге keywords, так и ... Начать просмотр
Существует много различных видов рекламы. Среди них телевизионная реклама, реклама в газетах и журналах, реклама на радио, интернет-реклама и т.д. Каждая из них хороша по-своему, но все-таки в последнее время все более и более популярной становится и ... Начать просмотр
Индексация - процесс, при котором, специальная программа (поисковый робот) постоянно обходит сеть и собирает информацию с веб-страниц для размещения в базе поисковой системы...