Филология в СетиПоисковые системы: заметки и новостиНовости SIGIRЯн Педерсен (Yahoo) о SIGIR 200611.08.06. Сообщение Яна Педерсена (Jan Pedersen) о конференции SIGIR 2006 в блоге Yahoo: "29-я ежегодная конференция SIGIR проходит сейчас среди живописных корпусов Университета Вашингтона в Сиэтле. Хотя прошлогодняя конференция была в Бразилии [что многим пришлось весьма по душе :) — А.Б.], в этот год на нее приехало действительно много народу; более 700 ученых и инженеров, а также других поклонников поисковых систем собрались вместе, чтобы выслушать идеи тех избранных 20 % от заявителей, кому удалось таки пройти жесткий отбор. Принятые на конференцию работы варьируются по своей тематике от интернет-поиска (особенно интересного нам, но сравнительно нового для аудитории SIGIR'а) до фундаментальных работ по машинному обучению, эффективности и оценке систем. Мой нынешний любимец, которому вчера вечером довелось получить награду за лучшую работу (см. фотографии с SIGIR), описывает, каким образом с помощью интеллектуальных методов выборочного обследования (clever sampling techniques) можно ощутимо снизить стоимость сравнительной оценки поисковых систем. Другая интересная работа, принадлежащая перу коллег из Microsoft, рассказывает о том, как можно использовать информацию о поведении пользователей для ранжирования результатов поиска [см. "Microsoft изучает поведение пользователей" — А.Б.]. Кстати, о Microsoft, их присутствие здесь большое и впечатляющее, и не только из-за близости места конференции к Редмонду, но также и потому, что различные группы исследователей из Microsoft представляют почтенной публике целых двенадцать [на самом деле даже тринадцать — А.Б.] работ, примерно 17 % от программы конференции в целом, беспрецедентый показатель. Yahoo! представляет три работы (все исключительного качества...), а Google две. Очень жаль, что доли поисковиков не выступают в такой же последовательности ;-) Общение с коллегами, которых я не видел в течение нескольких лет, — вот, конечно, ключевое измерение конференции. Поверите ли, но мы, поисковые ученые, знаем, как развлекаться! Банкет конференции стал настоящим событием — подобный пиршеству лососевый обед с обязательным (но, к счастью, кратким) танцевальным представлением, и переправа на пароме через Пьюджет-Саунд с расстилавшимся перед нами сиэтлским горизонтом была чрезвычайно красива. Прием Yahoo!, прошедший во вторник в Музее истории научной фантастики, конечно, задал верный тон — Yahootini [официальное мартини Yahoo - А.Б.] было у всех". Microsoft изучает поведение пользователей10.08.06. На проходящей сейчас конференции SIGIR, судя по инфопотокам Интернета, более всего заметны веб-разработчики из Майкрософт. По их собственным словам (см. пресс-релиз), они представили на SIGIR целых 13 (больше всех) докладов. Основная деятельность майкрософтовцев направлена на изучение взаимодействия пользователя и поисковой системы с целью совершенствования последней (повышения качества ранжирования, обнаружения клик-спама, внедрения поисковой персонализации и т. п.). Как отмечает один из разработчиков Юджин Агиштейн (Eugene Agichtein), "большинство современных поисковых систем используют двухмерный подход, подбирая в соответствие запросам пользователей определенное содержание и ссылочную структуру веб-страниц <...> Мы же пытаемся добавить еще и третье измерение — самих пользователей — для улучшения возможностей работы с поисковой системой. Изучая паттерны переходов и просмотров страниц на материале большого числа пользователей, мы можем многое узнать о том, как люди взаимодействуют с поисковой технологией и с помощью этого знания повысить ее точность". Возможности использования такой имплицитной обратной связи (implicit feedback), т. е. информации о поисковых действиях пользователя (термин "имплицитная" означает, что обратная связь такого рода не предоставляется пользователем специально, в отличие, например, от обратной связи в форме письма в техподдержку), рассмотрены исследователями из Майкрософт, к примеру, в работе "Улучшение поискового ранжирования путем учета информации о поведении пользователей" (Improving Web Search Ranking by Incorporating User Behavior Information, E. Agichtein, E. Brill, S. Dumais; эту и ряд других работ, представленных на SIGIR, можно найти на странице Microsoft Research Contributions to SIGIR). В ходе исследования авторы проанализировали массив данных из более чем 3000 запросов и 12 млн интеракций (актов взаимодействия пользователя с поисковиком). Как и можно было предположить, помимо учета числа переходов, к улучшению качества ранжирования приводили также: учет времени, проведенного пользователем на странице, и учет разного рода отклонений от стандартного поведения (например, неожиданно большого числа переходов по ссылке). При сравнении двух возможных вариантов использования имплицитной обратной связи — для первичного ранжирования (наряду с контентными и ссылочными факторами) или для реранкинга уже отранжированных результатов — был сделан резонный вывод о большей эффективности первого из них. Максимальный результат, полученный исследователями, весьма неплох — им удалось добиться улучшения ранжирования на 31 %. Особенно ценной информация о поведении пользователей оказалась для обработки результатов, плохо поддающихся ранжированию стандартными средствами (ср. относительно частую ситуацию ранжирования страниц, отличающихся друг от друга нюансами юзабилити — скажем, ряда страниц с текстом одного и того же художественного произведения etc.). |
© АБ, 2006. |