Филология в Сети

Поисковые системы: заметки и новости RSS

Новости Microsoft

Microsoft изучает поведение пользователей

10.08.06. На проходящей сейчас конференции SIGIR, судя по инфопотокам Интернета, более всего заметны веб-разработчики из Майкрософт. По их собственным словам (см. пресс-релиз), они представили на SIGIR целых 13 (больше всех) докладов. Основная деятельность майкрософтовцев направлена на изучение взаимодействия пользователя и поисковой системы с целью совершенствования последней (повышения качества ранжирования, обнаружения клик-спама, внедрения поисковой персонализации и т. п.).

Как отмечает один из разработчиков Юджин Агиштейн (Eugene Agichtein), "большинство современных поисковых систем используют двухмерный подход, подбирая в соответствие запросам пользователей определенное содержание и ссылочную структуру веб-страниц <...> Мы же пытаемся добавить еще и третье измерение — самих пользователей — для улучшения возможностей работы с поисковой системой. Изучая паттерны переходов и просмотров страниц на материале большого числа пользователей, мы можем многое узнать о том, как люди взаимодействуют с поисковой технологией и с помощью этого знания повысить ее точность".

Возможности использования такой имплицитной обратной связи (implicit feedback), т. е. информации о поисковых действиях пользователя (термин "имплицитная" означает, что обратная связь такого рода не предоставляется пользователем специально, в отличие, например, от обратной связи в форме письма в техподдержку), рассмотрены исследователями из Майкрософт, к примеру, в работе "Улучшение поискового ранжирования путем учета информации о поведении пользователей" (Improving Web Search Ranking by Incorporating User Behavior Information, E. Agichtein, E. Brill, S. Dumais; эту и ряд других работ, представленных на SIGIR, можно найти на странице Microsoft Research Contributions to SIGIR).

В ходе исследования авторы проанализировали массив данных из более чем 3000 запросов и 12 млн интеракций (актов взаимодействия пользователя с поисковиком). Как и можно было предположить, помимо учета числа переходов, к улучшению качества ранжирования приводили также: учет времени, проведенного пользователем на странице, и учет разного рода отклонений от стандартного поведения (например, неожиданно большого числа переходов по ссылке). При сравнении двух возможных вариантов использования имплицитной обратной связи — для первичного ранжирования (наряду с контентными и ссылочными факторами) или для реранкинга уже отранжированных результатов — был сделан резонный вывод о большей эффективности первого из них. Максимальный результат, полученный исследователями, весьма неплох — им удалось добиться улучшения ранжирования на 31 %. Особенно ценной информация о поведении пользователей оказалась для обработки результатов, плохо поддающихся ранжированию стандартными средствами (ср. относительно частую ситуацию ранжирования страниц, отличающихся друг от друга нюансами юзабилити — скажем, ряда страниц с текстом одного и того же художественного произведения etc.).

  © АБ, 2006.