Филология в Сети

Поисковые системы: заметки и новости

Теория, обзоры

К другим новостям | Филологический поиск

Лучшие поисковики по версии Time

15.08.06. Вчера в журнале Time был опубликован список 50 лучших, по мнению редакции, сайтов 2006-го года. Нашлось место в этом списке и четырем поисковикам.

Первый — появившийся в октябре 2004-го Snap, который, по словам его создателей (а отец-основатель Snap, между прочим, — небезызвестный Билл Гросс), предлагает "Другой Поиск" ("The other way to Search"). Snap пытается изменить традиционную модель взаимодействия пользователя с поисковиком ("текстовый вход" — "текстовый выход"), считая ее крайне несовершенной. Главные особенности модели, предлагаемой Snap взамен, включают в себя:

визуальную демонстрацию результатов поиска (предпросмотр найденной страницы прямо в поисковике);
предугадывание намерений пользователя (подсказка возможных вариантов запроса в выпадающем меню);
учет поведения пользователей для ранжировании результатов (учитываются такие показатели как число переходов на кокретный сайт; время, проведенное пользователями на сайте, и то, совершали ли пользователи на данном сайте какие-либо действия).

Следующий избранный ресурс — Pixsy, "визуальный поисковик", предназначенный для поиска изображений и видео (запущен в июле 2005). (Цель Pixsy: собирать, индексировать и упорядочивать миллионы фото- и видеофайлов, добавляемых в Интернет каждый день.) . Выдачу поисковика, помимо разбиения ее на очевидные "Изображения" и "Видео", можно структурировать по группам (например, постеры, трейлеры фильмов, новости, игры и др.) и по сайтам-источникам. Кстати, Pixsy умеет извлекать изображения из rss-фидов, за счет чего индекс поисковика пополняется весьма оперативно. В качестве возможной альтернативы Pixsy — как "запасные" варианты — в статье названы Google Images и Google Video.

Еще один поисковик, заслуживший одобрения Time, — Acoona (открыт в декабре 2004) — позволяет делать многоуровневое уточнение запроса. Например, по таким критериям как география (отбираются страницы, содержащие то или иное географическое название), упомянутые на страницах компании, персоналии, язык страницы и ряд других. В разных субпоисковиках Acoona — а их три: Web, Business (поиск информации о компаниях) и News — уточняющие критерии отличаются, в зависимости от специфики конкретного субпоисковика.

Собственно, как основное достоинство Acoona преподносится наличие у него искусственного интеллекта, способного понимать значение поискового запроса и, соответственно, выдавать наиболее релевантные результаты. Однако по этому поводу сложно сказать что-либо определенное; вполне возможно, что "искусственный интеллект" Acoona основан просто на чем-то вроде подбора синонимов к словам запроса.

Наконец, последний из выделенных Time поисковиков — Kosmix (перешел из альфы в бету в феврале 2006). Он включает в себя пять специализированных поисковых сервисов: "Здоровье" (старейший и, похоже, наиболее проработанный), "Видеоигры", "Финансы", "Путешествия" и "Американская политика". Kosmix, конечно, может искать не только по запросам, связанным с этими пятью темами, однако лучшие результаты получает при поиске именно в них. Выдаваемые результаты Kosmix структурирует по группам, список которых отображается в меню слева от выдачи. Например, в "Здоровье" возможные группы таковы: "Симптомы", "Лечение", "Альтернативная медицина", "Диета и питание", "Женское здоровье" и др., в "Видеоиграх" — "Обзоры", "Скриншоты", "Прохождения" и т. д. К сожалению, распределение по группам Kosmix'у удается далеко не на 100 % (и сама группировка не во всех случаях правильно отражает характер материала), но попытка эта весьма похвальна.

В прошлогодний список Time, напомню, вошли такие поисковики как BlinkxTV, Clusty и Answers.com.

Письмо автору

Автофокус: приятная мелочь

13.08.06. Есть в интерфейсах поисковиков ряд мелочей, которые мы обычно не очень-то замечаем, но без которых пользоваться ими было бы куда менее удобно. Одна из таких мелочей — автоматическая установка фокуса на строку поиска. Это когда заходишь на поисковик и можешь сразу же вводить поисковый запрос, без лишних движений мышью.

В этом месте процитирую, пожалуй, Джефа Джонсона — фрагмент из его книги "Web-дизайн: типичные ляпы и как их избежать" : "Если форма не устанавливает фокус ввода текста по умолчанию, пользователи должны переместить курсор в поле текста и щелкнуть там прежде, чем они смогут начать вводить текст. Это не только неудобство — это нарушает ожидания пользователей. Они начинают печатать и... ничего нет. Их нажатия на клавиши — и секунды их ценного времени потрачены впустую. Это удар для печатающих вслепую пользователей и людей, которые не используют мышь <...> Ошибка особенно раздражает на Web-страницах, которые имеют только одно поле текста" (по изданию: М.: Кудиц-образ, 2005. — С. 174).

Далее Джеф Джонсон ругает в частности поисковик Yahoo, у которого на момент написания главы (март 2002) эта функция была как раз не реализована. Сейчас Yahoo исправился.

У отечественных поисковиков — имею в виду Яндекс, Рамблер, Апорт и Вебальту — автофокус на строку поиска есть. Однако же у двух из них он реализован не совсем верно — угадайте, у каких двух? — Апорта и Вебальты. Дело в том, что с автоматической установкой фокуса связан один небольшой нюанс — она должна производиться только на главной странице! На страницах же с результатами поиска автофокус — колоссальное зло, поскольку он лишает пользователя возможности пролистывать результаты с клавиатуры (т. е. приходится обращаться к мыши там, где это совершенно не нужно). Так вот, у Апорта и Вебальты, как вы уже догадались, автофокус на страницах выдачи есть. А не надо б. (Из мировых поисковиков, скажем, у Google, Yahoo или MSN такой проблемы нет, а вот у AltaVista — есть).

Если говорить о технической стороне дела, то в обычном случае автофокус реализуется очень просто, путем написания одной строчки на JavaScript. Например, такой: <body onload="javascript: document.[имя формы].[имя строки поиска].focus();">

Письмо автору

Гуглократии — нет

11.08.06. Есть в мире поисковых систем, а точнее, в мире тех, кто эти системы исследует и обсуждает, такая теория — теория Гуглократии (Googlocracy, или, другой — менее эстетически привлекательный — вариант, Гуглеархия, Googlearchy). Согласно которой поисковые системы распределяют веб-трафик прежде всего между известными и крупными сайтами, более мелкие и менее известные, соответственно, оставляя за бортом. Причем, как считают сторонники Гуглократии, со временем пропасть между популярными и менее популярными увеличивается все больше и больше.

Разумеется, теорию эту поддерживают далеко не все. В числе наиболее активных ее противников — исследователи из университета Индианы, долго и упорно занимающиеся данной проблемой (см., напр., прошлогоднюю ноябрьскую новость на Cnews и последний пресс-релиз университета от 7-го числа). Сопоставив действия двух групп испытуемых — а) пользовавшихся для веб-серфинга поисковиками и б) не пользовавшихся оными (т. е. переходивших с сайта на сайт посредством случайных ссылок), — исследователи пришли к выводу, что на самом деле поисковики оказывают выравнивающее воздействие на распределение трафика между сайтами. То есть, не будь поисковиков, популярные сейчас ресурсы, вероятно, имели бы еще больше посетителей, а некоторые из не очень популярных почти не имели бы их вообще. Что, надо сказать, неплохо согласуется и со здравым смыслом.

P. S. И не потому ли крупные СМИ время от времени восстают против Гугла?

Письмо автору

Microsoft изучает поведение пользователей

10.08.06. На проходящей сейчас конференции SIGIR, судя по инфопотокам Интернета, более всего заметны веб-разработчики из Майкрософт. По их собственным словам (см. пресс-релиз), они представили на SIGIR целых 13 (больше всех) докладов. Основная деятельность майкрософтовцев направлена на изучение взаимодействия пользователя и поисковой системы с целью совершенствования последней (повышения качества ранжирования, обнаружения клик-спама, внедрения поисковой персонализации и т. п.).

Как отмечает один из разработчиков Юджин Агиштейн (Eugene Agichtein), "большинство современных поисковых систем используют двухмерный подход, подбирая в соответствие запросам пользователей определенное содержание и ссылочную структуру веб-страниц <...> Мы же пытаемся добавить еще и третье измерение — самих пользователей — для улучшения возможностей работы с поисковой системой. Изучая паттерны переходов и просмотров страниц на материале большого числа пользователей, мы можем многое узнать о том, как люди взаимодействуют с поисковой технологией и с помощью этого знания повысить ее точность".

Возможности использования такой имплицитной обратной связи (implicit feedback), т. е. информации о поисковых действиях пользователя (термин "имплицитная" означает, что обратная связь такого рода не предоставляется пользователем специально, в отличие, например, от обратной связи в форме письма в техподдержку), рассмотрены исследователями из Майкрософт, к примеру, в работе "Улучшение поискового ранжирования путем учета информации о поведении пользователей" (Improving Web Search Ranking by Incorporating User Behavior Information, E. Agichtein, E. Brill, S. Dumais; эту и ряд других работ, представленных на SIGIR, можно найти на странице Microsoft Research Contributions to SIGIR).

В ходе исследования авторы проанализировали массив данных из более чем 3000 запросов и 12 млн интеракций (актов взаимодействия пользователя с поисковиком). Как и можно было предположить, помимо учета числа переходов, к улучшению качества ранжирования приводили также: учет времени, проведенного пользователем на странице, и учет разного рода отклонений от стандартного поведения (например, неожиданно большого числа переходов по ссылке). При сравнении двух возможных вариантов использования имплицитной обратной связи — для первичного ранжирования (наряду с контентными и ссылочными факторами) или для реранкинга уже отранжированных результатов — был сделан резонный вывод о большей эффективности первого из них. Максимальный результат, полученный исследователями, весьма неплох — им удалось добиться улучшения ранжирования на 31 %. Особенно ценной информация о поведении пользователей оказалась для обработки результатов, плохо поддающихся ранжированию стандартными средствами (ср. относительно частую ситуацию ранжирования страниц, отличающихся друг от друга нюансами юзабилити — скажем, ряда страниц с текстом одного и того же художественного произведения etc.).

Письмо автору