Поисковые системы: заметки и новости
Август 2006
Сервисы для поиска по базе запросов AOL
16.08.06. Вот уже две недели как шумит в Интернете история с базой пользователей AOL, в конце июля по ошибке или же сознательно выложенной на http://research.aol.com. Напомню, что база эта, объемом чуть больше 2 Gb, содержит информацию о примерно 21 млн поисковых запросов, сделанных 657 тысячами пользователей в период с 1 марта по 31 мая 2006 (каждому пользователю приписан уникальный id, что дает возможность просмотреть его историю поиска).
Разумеется, сейчас на http://research.aol.com базы уже не найти (найти можно тут), но за те десять дней, что она там пробыла, ее успели скачать все заинтересованные лица. И не просто скачать, но сделать на основе базы ряд поисковых сервисов.
Так, AOLSearchDatabase позволяет вести поиск по id пользователя, словам запроса и — как заявлено — по адресам сайтов, на которые совершались переходы, однако последняя функция у меня работать отказалась (возможно, это временное явление). Из приятных особенностей — возможность сортировки данных в таблице выдачи. Помимо поиска, на AOLSearchDatabase также есть Randomizer, выдающий историю запросов случайного пользователя.
Более продвинутый ресурс — AOLSearchLogs. Поиск здесь работает быстрее и, в отличие от AOLSearchDatabase, ищет не точные совпадения слов, а точные совпадения последовательностей символов. Так, на запрос "pushkin" AOLSearchLogs выдает и "pushkin's", и "pushkin1", а AOLSearchDatabase — нет. Помимо поиска (и того же Randomizer'а), на AOLSearchLogs есть оживленный раздел, который посвящен стихийному Data Mining, разысканиям в области aol'овской базы. Основное развлечение там — составление психологических портретов пользователей по их поисковым историям, выдвижение гипотез относительно их занятий, мест проживания и т. д. Для каждого id пользователя в AOLSearchLogs создается свой профиль, куда можно занести подобную гипотетическую историю, скажем: "From that massive list of search terms, for instance, it's possible to guess that AOL user 710794 is an overweight golfer, owner of a 1986 Porsche 944 and 1998 Cadillac SLS, and a fan of the University of Tennessee Volunteers Men's Basketball team".
Еще один сайт — AOLPsycho — уже полностью посвящен "психоанализу пользователей AOL и их поисковым историям". AOLPsycho предлагает выбрать поисковую историю случайного пользователя и написать по ее мотивам "психоаналитическую" заметку (или отредактировать чужую). Каждой заметке можно приписать характеризующие ее теги. Сто самых частотных отображаются на главной странице сайта. Конечная цель AOLPsycho амбициозна — описать все 650 тысяч пользователей. Пока что их описано около двухсот, но полку "психоаналитиков" прибывает... Искать в базе на AOLPsycho, в отличие от AOLSearchDatabase и AOLSearchLogs, можно только по id.
Как оценить эту новую народную забаву, не знаю. С одной стороны, действительно забавно, с другой — жаль aol и ее пользователей.
Поисковик по резюме и вакансиям на JobsMarket
15.08.06. Сегодня электронный рынок труда JobsMarket (открылся 1-го августа 2006), позиционирующий себя как проект WEB 2.0, запустил специализированный поисковый сервис — "Поиск резюме и вакансий Рунета" (бесплатен для зарегистрированных пользователей). На данный момент поиск ведется по 61 сайту Рунета, причем, как обещают разработчики, вскоре будет сделан фильтр, позволяющий удалять из результатов поиска дубликаты. Что в данном случае принципиально.
Для того, чтобы воспользоваться новым сервисом на JobsMarket, нужно после регистрации нажать на оранжевые "ВАКАНСИИ" либо синие "РЕЗЮМЕ" вверху страницы. (Они выглядят не как ссылки, а как заголовки, потому поначалу запросто можно запутаться.)
Свой подход к поиску авторы JobsMarket называют "принципом одного окна", подразумевая под этим объединение информации, получаемой с ряда сайтов, на одной странице.
Будем надеяться, у Jobster.ru теперь появился серьезный конкурент.
Лучшие поисковики по версии Time
15.08.06. Вчера в журнале Time был опубликован список 50 лучших, по мнению редакции, сайтов 2006-го года. Нашлось место в этом списке и четырем поисковикам.
Первый — появившийся в октябре 2004-го Snap, который, по словам его создателей (а отец-основатель Snap, между прочим, — небезызвестный Билл Гросс), предлагает "Другой Поиск" ("The other way to Search"). Snap пытается изменить традиционную модель взаимодействия пользователя с поисковиком ("текстовый вход" — "текстовый выход"), считая ее крайне несовершенной. Главные особенности модели, предлагаемой Snap взамен, включают в себя:
- визуальную демонстрацию результатов поиска (предпросмотр найденной страницы прямо в поисковике);
- предугадывание намерений пользователя (подсказка возможных вариантов запроса в выпадающем меню);
- учет поведения пользователей для ранжировании результатов (учитываются такие показатели как число переходов на кокретный сайт; время, проведенное пользователями на сайте, и то, совершали ли пользователи на данном сайте какие-либо действия).
Следующий избранный ресурс — Pixsy, "визуальный поисковик", предназначенный для поиска изображений и видео (запущен в июле 2005). (Цель Pixsy: собирать, индексировать и упорядочивать миллионы фото- и видеофайлов, добавляемых в Интернет каждый день.) . Выдачу поисковика, помимо разбиения ее на очевидные "Изображения" и "Видео", можно структурировать по группам (например, постеры, трейлеры фильмов, новости, игры и др.) и по сайтам-источникам. Кстати, Pixsy умеет извлекать изображения из rss-фидов, за счет чего индекс поисковика пополняется весьма оперативно. В качестве возможной альтернативы Pixsy — как "запасные" варианты — в статье названы Google Images и Google Video.
Еще один поисковик, заслуживший одобрения Time, — Acoona (открыт в декабре 2004) — позволяет делать многоуровневое уточнение запроса. Например, по таким критериям как география (отбираются страницы, содержащие то или иное географическое название), упомянутые на страницах компании, персоналии, язык страницы и ряд других. В разных субпоисковиках Acoona — а их три: Web, Business (поиск информации о компаниях) и News — уточняющие критерии отличаются, в зависимости от специфики конкретного субпоисковика.
Собственно, как основное достоинство Acoona преподносится наличие у него искусственного интеллекта, способного понимать значение поискового запроса и, соответственно, выдавать наиболее релевантные результаты. Однако по этому поводу сложно сказать что-либо определенное; вполне возможно, что "искусственный интеллект" Acoona основан просто на чем-то вроде подбора синонимов к словам запроса.
Наконец, последний из выделенных Time поисковиков — Kosmix (перешел из альфы в бету в феврале 2006). Он включает в себя пять специализированных поисковых сервисов: "Здоровье" (старейший и, похоже, наиболее проработанный), "Видеоигры", "Финансы", "Путешествия" и "Американская политика". Kosmix, конечно, может искать не только по запросам, связанным с этими пятью темами, однако лучшие результаты получает при поиске именно в них. Выдаваемые результаты Kosmix структурирует по группам, список которых отображается в меню слева от выдачи. Например, в "Здоровье" возможные группы таковы: "Симптомы", "Лечение", "Альтернативная медицина", "Диета и питание", "Женское здоровье" и др., в "Видеоиграх" — "Обзоры", "Скриншоты", "Прохождения" и т. д. К сожалению, распределение по группам Kosmix'у удается далеко не на 100 % (и сама группировка не во всех случаях правильно отражает характер материала), но попытка эта весьма похвальна.
В прошлогодний список Time, напомню, вошли такие поисковики как BlinkxTV, Clusty и Answers.com.
Quintura Search получила одобрение Доктора Файл Файндера
15.08.06. Как сообщает официальный блог Quintura, недавно — 24 июля — Майкл Каллахан (Michael E. Callahan), один из ведущих экспертов в области shareware (известен миру как Доктор Файл Файндер), назвал Quintura Search в числе своих любимых программ. Вот что он по этому поводу пишет:
"Quintura Search — интереснейшая программа, которая открывает новые перспективы интернет-поиска. Она дает возможность визуально представлять процесс поиска, что кажется мне действительно интересным. В отличие от стандартных поисковиков, которые выводят результаты страница за страницей, Quintura Search располагает их в виде облака тегов. Кликая по различным тегам, вы можете уточнять и сужать область поиска. Вы даже можете сохранять результаты и делиться ими. Когда я впервые загрузил эту программу, я провел немало часов, просто делая поисковые запросы и наблюдая за тем, как программа отображает результаты поиска. Превосходно!
Для получения результатов Quintura Search использует ряд наиболее популярных поисковых систем, таких как Google, MSN Search, Yahoo и другие. Уникальность ее — в способе отображения этих результатов. Программа позволяет сузить область поиска путем удаления отдельных тегов одним щелчком мыши. Вы также можете добавить теги, если захотите. В конечном счете, главное здесь, на мой взгляд, то, что с помощью Quintura Search вы получаете результаты быстрее и проще. Программа действительно проста в использовании и имеет интуитивно понятный интерфейс. Она отлично подходит как начинающим, так и опытным пользователям".
Благотворительные поисковики
14.08.06. Продолжая наш культпоход по Большому Интернету, коснемся еще одного диковинного для Рунета явления — благотворительных поисковиков (а касались мы уже, напомню, поисковиков детских). Принцип действия такого рода поисковиков прост — каждый сделанный в них запрос автоматически приводит к небольшому отчислению в благотворительный фонд. Названия конкретных фондов, в которые поступают средства, приводятся, как правило, в справке поисковика. А в некоторых продвинутых случаях пользователь сам может выбирать, куда должны пойти заработанные им за время поиска деньги.
Первый благотворительный поисковик — CharityCafe — был открыт в 2000 году. CharityCafe, как и большинство других благотворительных поисковиков (а вполне возможно, что и все, но про всех не знаю), не имеет собственного индекса. С его помощью можно вести благотворительный поиск на Ask.com, Lycos и Amazon, которые, собствено, и платят CharityCafe — за трафик. Деньги это совсем небольшие (в среднем всего 100-200 долларов в месяц), но зато они на 100 % идут на благотворительные нужды.
Иная, более коммерчески выгодная, модель была избрана, например, британским Everyclick: в данном случае поисковик зарабатывает на контекстной рекламе и отдает на благотворительность половину своего дохода. Впрочем, и доходы Everyclick не особенно велики (на благотворительность выходит примерно две тысячи фунтов в месяц). Такая же рекламная модель — и тоже с отчислением 50 % - лежит и в основе открывшегося в ноябре прошлого года GoodSearch.com. Который, что важно, использует поисковую выдачу Yahoo и, как следствие, понимает кириллицу (в отличие от других известных мне благотворительных поисковиков).
CharityCafe, Everyclick и GoodSearch.com не ограничиваются какой-то одной благотворительной целью, однако же существуют и такие поисковики, которые собирают средства в поддержку определенного направления благотворительности. Скажем, функционирующий с октября 2005 ProLife Search активно ратует за борьбу с абортами (ProLife Search - метапоисковик, т. е. он объединяет в своих результатах выдачу сразу нескольких поисковых систем; кириллицу, разумеется, не понимает тоже).
Кстати, о кириллице. Интересно, есть ли какие-нибудь перспективы развития благотворительных поисковиков на рунетовской почве? С этим вопросом я обратился к Антону Носику (занимающемуся, помимо прочего, и благотворительностью), который любезно согласился высказать свое мнение:
"Надеюсь, не раскрою ничьих корпоративных секретов, если сообщу, что
переговоры по этому поводу уже несколько лет ведутся между московским
представительством крупной российской благотворительной организации
CAF Russia и руководством поисковой системы Яndex. Проблема в том, что
трудно отчетливо сформулировать цели и задачи подобного сервиса:
должен ли он рейтинговать благотворителей, по какому критерию, и кто
там в основном целевая аудитория — жертвователи, получатели помощи
или сами благотворители? Без внятного ответа на такой вопрос
строительство предсказуемо буксует. Тем временем, на многих
благотворительных сайтах можно найти каталоги — от рубрицированного по
типам помощи линклиста на Pomogi.Ru до базы, доступной сквозному поиску, на InfoBlago.Ru".
Автофокус: приятная мелочь
13.08.06. Есть в интерфейсах поисковиков ряд мелочей, которые мы обычно не очень-то замечаем, но без которых пользоваться ими было бы куда менее удобно. Одна из таких мелочей — автоматическая установка фокуса на строку поиска. Это когда заходишь на поисковик и можешь сразу же вводить поисковый запрос, без лишних движений мышью.
В этом месте процитирую, пожалуй, Джефа Джонсона — фрагмент из его книги "Web-дизайн: типичные ляпы и как их избежать" : "Если форма не устанавливает фокус ввода текста по умолчанию, пользователи должны переместить курсор в поле текста и щелкнуть там прежде, чем они смогут начать вводить текст. Это не только неудобство — это нарушает ожидания пользователей. Они начинают печатать и... ничего нет. Их нажатия на клавиши — и секунды их ценного времени потрачены впустую. Это удар для печатающих вслепую пользователей и людей, которые не используют мышь <...> Ошибка особенно раздражает на Web-страницах, которые имеют только одно поле текста" (по изданию: М.: Кудиц-образ, 2005. — С. 174).
Далее Джеф Джонсон ругает в частности поисковик Yahoo, у которого на момент написания главы (март 2002) эта функция была как раз не реализована. Сейчас Yahoo исправился.
У отечественных поисковиков — имею в виду Яндекс, Рамблер, Апорт и Вебальту — автофокус на строку поиска есть. Однако же у двух из них он реализован не совсем верно — угадайте, у каких двух? — Апорта и Вебальты. Дело в том, что с автоматической установкой фокуса связан один небольшой нюанс — она должна производиться только на главной странице! На страницах же с результатами поиска автофокус — колоссальное зло, поскольку он лишает пользователя возможности пролистывать результаты с клавиатуры (т. е. приходится обращаться к мыши там, где это совершенно не нужно). Так вот, у Апорта и Вебальты, как вы уже догадались, автофокус на страницах выдачи есть. А не надо б. (Из мировых поисковиков, скажем, у Google, Yahoo или MSN такой проблемы нет, а вот у AltaVista — есть).
Если говорить о технической стороне дела, то в обычном случае автофокус реализуется очень просто, путем написания одной строчки на JavaScript. Например, такой: <body onload="javascript: document.[имя формы].[имя строки поиска].focus();">
Феномен детских поисковиков
13.08.06. Любопытно все ж, до чего в западных СМИ популярна тема семейного интернета и — как одна из ее составляющих, которая нам прежде всего и интересна — тема специализированных поисковиков для детей. О степени разработанности темы (и продвинутости самого явления) свидетельствует, например, вот такой заголовок одной из вышедших позавчера статей: "Руководство для родителей по оценке детских поисковых систем" (Parents' Guide to Evaluating Search Engines for Kids, Pam Gaulin). Можете представить такой заголовок в отечественных СМИ? Я — с трудом. Просто потому, что оценивать у нас еще нечего.
Как поясняет автор упомянутой статьи, "один из способов для родителей, учителей и библиотекарей помочь детям оставаться в безопасности он-лайн состоит в том, чтобы познакомить детей с поисковыми системами, которые индексируют сайты специально для них". И ведь действительно есть с чем знакомить: начиная с ветерана Ask for kids (ветеран, кстати, только-только сменил название, прежде он назывался Ask Jeeves for kids) и заканчивая открывшимся на днях StuddyBuddy от AOL. Довольно обширные списки детских поисковиков без труда найдутся в Интернете — например, такой: http://www.ivyjoy.com/rayne/kidssearch.html.
В общем, довольно самобытный культурный феномен эти детские поисковики, и жаль, что у нас их пока нет. Хотя ведь и могли бы быть, потому как есть у нас, к примеру, внушительных размеров каталог сайтов для детей (и, насколько я видел и читал, вполне качественный) KINDER.RU, а каталог — это самая что ни на есть благодатная почва для взращивания специализированной поисковой системы (к примеру, и наша "Филология в Сети" выросла во многом на основе раздела "Гуманитарные науки" каталога "ЕЖЕ-топ"). Такая затея могла бы быть тем более интересной, что KINDER.RU, похоже, не страдает главной болезнью англоязычных детских поисковиков — боязнью социальных сервисов наподобие чатов, форумов, блогов (эту их боязнь отчасти можно понять, но...).
Изменения в интерфейсе Google.com
12.08.06. Google перетасовал ссылки на своей главной странице. Теперь туда добавлена ссылка на Google Video, а Froogle и Groups убраны в меню, раскрывающееся при нажатии на more ». В этом же меню появилась и прежде отсутствовавшая на главной странице ссылка на Google Book Search.
Изменения наглядно дают понять, какие из своих проектов на данный момент Google считает более приоритетными, а какие менее. Согласно данным Hitwise, добавление ссылки на Google Video привело более чем к двухкратному росту посещаемости данного сервиса 9-го августа (день появления ссылки):
Вероятно, посещаемость Google Book Search в результате также подросла, хотя, конечно, и не в такой пропорции. При этом следует сказать, что полной уверенности в долговременном характере данных изменений пока нет. Вполне возможно, мы видим лишь тестовый вариант.
Google Book Search заключил партнерство с Калифорнийским университетом
12.08.06. Девятого августа к проекту Google Book Search присоединились библиотеки университета Калифорнии, UC (коих, кстати сказать, насчитывается более сотни).
Google Books Library Project стартовал в декабре 2004 года. Цель его — перевод книг из библиотечных коллекций в цифровой формат с возможностью полнотекстового поиска. Первыми участниками проекта стали библиотеки Гарвардского и Стэнфордского университетов, университета Мичиган, а также Нью-Йоркская публичная библиотека.
Как обещают калифорнийцы, в ходе проекта будет оцифрована в том числе и большая часть книжных сокровищ из исторических и других специальных отделов библиотеки. "Проект оцифровки книг способствует выполнению миссии UC", — отмечает президент университета Роберт Динс (Robert C. Dynes). — "Он существенно расширяет наши возможности по предоставлению ученым и общественности доступа к тем видам информации, которые служат научному прогрессу, формируют общественное знание и дискурс".
Помимо прочего, оцифровка книг — это еще и средство сохранения библиотечных коллекций. По словам Брайана Шотлендера (Brian E. C. Schottlaender), университетского библиотекаря из кампуса в Сан-Диего, "Десятки тысяч томов, вверенных нам на хранение, напечатаны на кислотной бумаге и рассыпаются в пыль. К тому же, все наши фонды находятся в постоянной опасности, поскольку расположены они в сейсмически нестабильной Калифорнии".
В библиотечных фондах "в наихудшем состоянии находятся не древнейшие памятники письменности и печати, а документы второй пол. XIX—XX вв. Половина книг, напечатанных в этот период на бумаге с повышенной кислотностью, не пригодна для использования уже сейчас, поскольку такая бумага подвержена быстрому старению, желтеет, становится ломкой и разрушается при использовании" (Национальная программа сохранения библиотечных фондов Российской Федерации) — А. Б.
Мнение Уайета Хьюма (Wyatt R. Hume), исполнительного вице-президента и проректора UC, подтверждает слова его коллег: "Партнерство с Гугл обещает огромные выгоды университету Калифорнии и всем людям, которым он служит. В числе их, конечно, свободный и неограниченный полнотекстовый доступ к тем нашим фондам, которые имеют статус общественного достояния. Для столь большого учреждения высшего образования как наше, решение присоединиться к библиотечной партнерской программе Google — безусловно правильный шаг".
Обновление Yahoo Site Explorer
11.08.06. Восьмого числа был обновлен сервис Yahoo Site Explorer, открытый в сентябре прошлого года. Site Explorer представляет собою поисковую базу данных, содержащую информацию о веб-страницах и структуре Сети. Эта база данных хранит сведения о ссылках между веб-страницами и использует их, наряду с дополнительными алгоритмами, для определения меры популярности конкретных страниц. С помощью Site Explorer'а можно увидеть, какие сайты и страницы проиндексированы Yahoo и какие ссылки ведут на тот или иной сайт/страницу (inlinks). Данная информация может быть сохранена в текстовый файл в формате TSV (tab-separated value) и использована для анализа офф-лайн.
Владельцам сайтов Site Explorer предлагает ряд "сверхвозможностей". Так, вы можете предоставить Site Explorer'у rss-фид сайта, сверяясь с которым поисковик Yahoo будет отслеживать изменения на ваших страницах. Текущее обновление сервиса принесло с собой ряд новых функций. Процесс добавления фидов и управления ими стал более удобным, а об их обновлениях теперь можно сообщать автоматически с помощью UpdateNotification Web Service (входит в состав Web Services API). Кроме того, после аутентификации вашего сайта в системе Site Explorer теперь вы сможете узнать, какие его субдомены известны Yahoo и какой дополнительной информацией Yahoo о нем владеет (например, информацией о языке сайта).
Ян Педерсен (Yahoo) о SIGIR 2006
11.08.06. Сообщение Яна Педерсена (Jan Pedersen) о конференции SIGIR 2006 в блоге Yahoo:
"29-я ежегодная конференция SIGIR проходит сейчас среди живописных корпусов Университета Вашингтона в Сиэтле. Хотя прошлогодняя конференция была в Бразилии [что многим пришлось весьма по душе :) — А.Б.], в этот год на нее приехало действительно много народу; более 700 ученых и инженеров, а также других поклонников поисковых систем собрались вместе, чтобы выслушать идеи тех избранных 20 % от заявителей, кому удалось таки пройти жесткий отбор. Принятые на конференцию работы варьируются по своей тематике от интернет-поиска (особенно интересного нам, но сравнительно нового для аудитории SIGIR'а) до фундаментальных работ по машинному обучению, эффективности и оценке систем.
Мой нынешний любимец, которому вчера вечером довелось получить награду за лучшую работу (см. фотографии с SIGIR), описывает, каким образом с помощью интеллектуальных методов выборочного обследования (clever sampling techniques) можно ощутимо снизить стоимость сравнительной оценки поисковых систем. Другая интересная работа, принадлежащая перу коллег из Microsoft, рассказывает о том, как можно использовать информацию о поведении пользователей для ранжирования результатов поиска [см. "Microsoft изучает поведение пользователей" — А.Б.].
Кстати, о Microsoft, их присутствие здесь большое и впечатляющее, и не только из-за близости места конференции к Редмонду, но также и потому, что различные группы исследователей из Microsoft представляют почтенной публике целых двенадцать [на самом деле даже тринадцать — А.Б.] работ, примерно 17 % от программы конференции в целом, беспрецедентый показатель. Yahoo! представляет три работы (все исключительного качества...), а Google две. Очень жаль, что доли поисковиков не выступают в такой же последовательности ;-)
Общение с коллегами, которых я не видел в течение нескольких лет, — вот, конечно, ключевое измерение конференции. Поверите ли, но мы, поисковые ученые, знаем, как развлекаться! Банкет конференции стал настоящим событием — подобный пиршеству лососевый обед с обязательным (но, к счастью, кратким) танцевальным представлением, и переправа на пароме через Пьюджет-Саунд с расстилавшимся перед нами сиэтлским горизонтом была чрезвычайно красива. Прием Yahoo!, прошедший во вторник в Музее истории научной фантастики, конечно, задал верный тон — Yahootini [официальное мартини Yahoo - А.Б.] было у всех".
Гуглократии — нет
11.08.06. Есть в мире поисковых систем, а точнее, в мире тех, кто эти системы исследует и обсуждает, такая теория — теория Гуглократии (Googlocracy, или, другой — менее эстетически привлекательный — вариант, Гуглеархия, Googlearchy). Согласно которой поисковые системы распределяют веб-трафик прежде всего между известными и крупными сайтами, более мелкие и менее известные, соответственно, оставляя за бортом. Причем, как считают сторонники Гуглократии, со временем пропасть между популярными и менее популярными увеличивается все больше и больше.
Разумеется, теорию эту поддерживают далеко не все. В числе наиболее активных ее противников — исследователи из университета Индианы, долго и упорно занимающиеся данной проблемой (см., напр., прошлогоднюю ноябрьскую новость на Cnews и последний пресс-релиз университета от 7-го числа). Сопоставив действия двух групп испытуемых — а) пользовавшихся для веб-серфинга поисковиками и б) не пользовавшихся оными (т. е. переходивших с сайта на сайт посредством случайных ссылок), — исследователи пришли к выводу, что на самом деле поисковики оказывают выравнивающее воздействие на распределение трафика между сайтами. То есть, не будь поисковиков, популярные сейчас ресурсы, вероятно, имели бы еще больше посетителей, а некоторые из не очень популярных почти не имели бы их вообще. Что, надо сказать, неплохо согласуется и со здравым смыслом.
P. S. И не потому ли крупные СМИ время от времени восстают против Гугла?
Поисковик для школьников от AOL
11.08.06. AOL открыла новый поисковый сервис (StudyBuddy), ориентированный на школьников. Разумеется, на школьников прежде всего американских. Основная идея сервиса — помощь в выполнении домашних заданий — определила и основные его черты: разбиение поисковой выдачи по школьным предметам и классам. К сожалению, сама выдача поиска на сегодняшний день довольно скудна (в этой связи см. и список источников поисковика), но идея, нельзя не признать, полезна и интересна.
Cделали б еще, что ли, поисковик по готовым домашним заданиям. Ей-богу, был бы популярен :)
Microsoft изучает поведение пользователей
10.08.06. На проходящей сейчас конференции SIGIR, судя по инфопотокам Интернета, более всего заметны веб-разработчики из Майкрософт. По их собственным словам (см. пресс-релиз), они представили на SIGIR целых 13 (больше всех) докладов. Основная деятельность майкрософтовцев направлена на изучение взаимодействия пользователя и поисковой системы с целью совершенствования последней (повышения качества ранжирования, обнаружения клик-спама, внедрения поисковой персонализации и т. п.).
Как отмечает один из разработчиков Юджин Агиштейн (Eugene Agichtein), "большинство современных поисковых систем используют двухмерный подход, подбирая в соответствие запросам пользователей определенное содержание и ссылочную структуру веб-страниц <...> Мы же пытаемся добавить еще и третье измерение — самих пользователей — для улучшения возможностей работы с поисковой системой. Изучая паттерны переходов и просмотров страниц на материале большого числа пользователей, мы можем многое узнать о том, как люди взаимодействуют с поисковой технологией и с помощью этого знания повысить ее точность".
Возможности использования такой имплицитной обратной связи (implicit feedback), т. е. информации о поисковых действиях пользователя (термин "имплицитная" означает, что обратная связь такого рода не предоставляется пользователем специально, в отличие, например, от обратной связи в форме письма в техподдержку), рассмотрены исследователями из Майкрософт, к примеру, в работе "Улучшение поискового ранжирования путем учета информации о поведении пользователей" (Improving Web Search Ranking by Incorporating User Behavior Information, E. Agichtein, E. Brill, S. Dumais; эту и ряд других работ, представленных на SIGIR, можно найти на странице Microsoft Research Contributions to SIGIR).
В ходе исследования авторы проанализировали массив данных из более чем 3000 запросов и 12 млн интеракций (актов взаимодействия пользователя с поисковиком). Как и можно было предположить, помимо учета числа переходов, к улучшению качества ранжирования приводили также: учет времени, проведенного пользователем на странице, и учет разного рода отклонений от стандартного поведения (например, неожиданно большого числа переходов по ссылке). При сравнении двух возможных вариантов использования имплицитной обратной связи — для первичного ранжирования (наряду с контентными и ссылочными факторами) или для реранкинга уже отранжированных результатов — был сделан резонный вывод о большей эффективности первого из них. Максимальный результат, полученный исследователями, весьма неплох — им удалось добиться улучшения ранжирования на 31 %. Особенно ценной информация о поведении пользователей оказалась для обработки результатов, плохо поддающихся ранжированию стандартными средствами (ср. относительно частую ситуацию ранжирования страниц, отличающихся друг от друга нюансами юзабилити — скажем, ряда страниц с текстом одного и того же художественного произведения etc.).
Yahoo Search Builder
10.08.06. Yahoo вывел в свет свой Search Builder, с помощью которого можно сделать поисковик по заданному набору сайтов (или по одному сайту — своему, например), и опубликовать его в каком-нибудь милом сердцу уголке Интернета. При сравнении Yahoo Search Builder с похожими по назначению сервисами, — например, с "Персональным поиском" от "Новотеки" (на основе которого сделана наша "Филология в Сети"), — обнаруживается как ряд его достоинств, так и масса недостатков.
Одно из достоинств — наличие какой ни какой, но все ж статистики (знание хотя б Top Queries делает жизнь куда приятнее). Плюс, конечно, простота и наглядность процесса создания поисковика. Однако недостатки Search Builder'а перевешивают его достоинства с лихвой. В числе основных, во-первых, отсутствие сколько-нибудь точных настроек выкачки ("Персональный поиск" позволяет до определенной степени контролировать процесс выкачки и индексации каждого сайта), а во-вторых, то, что на свой сайт можно утащить только поисковую форму Search Builder'а, результаты же поиска будут выдаваться на yahoo.com (отсюда следует и невозможность, в отличие от "Персонального поиска", полного контроля над внешним видом выдачи). Наконец, главное (и, думается, для российских пользователей это особенно критично), поисковик от Yahoo может осуществлять поиск только по страницам, уже имеющимся в базе Yahoo, "Персональный поиск" же индексирует все нужные страницы "по заказу" пользователя.
Для примера приведем поисковую форму Search Builder'а (поиск по Рутении):
Кстати, по умолчанию Yahoo Search Builder не понимает кириллицу, но это можно поправить. Нужно лишь поменять значение параметра value в строке <input name="ei" value="UTF-8" type="hidden"> с "UTF-8" на "windows-1251".
Уровень доверия "Вебальты"
10.08.06. Чуть-чуть о "Вебальте" — есть у нее такой фактор ранжирования выдачи как "уровень доверия" ("включает в себя WebaltaRank (WR) — значение, определяющее положение интернет-ресурса в поисковой системе www.webalta.ru, с учетом ссылок <censored> на него с других сайтов — и множество других факторов, вплоть до времени регистрации доменного имени и репутации компании, на чьих серверах физически размещены страницы сайта", см. http://www.webalta.net/ru/about_index_trust.html). Узнать уровень доверия "Вебальты" к тому или иному сайту можно, подставив искомый сайт в "http://www.webalta.ru/reliancebutton?url=искомый сайт".
Так вот, что интересно (и отчасти странно), у "Тютчевианы" этот уровень доверия — 4, а у ее дочерней "Филологии в Сети", которой от роду всего месяц, — уже 11.
Наверх: новые функции
09.08.06. С сегодняшнего дня ссылка "Наверх" на странице результатов выдачи "Филологии в Сети" обременена дополнительной функцией, даже почти двумя. Нажав на эту ссылку, вы теперь не просто перенесетесь на верх страницы, но, перенесясь, сразу же – без лишних телодвижений – сможете вводить новый поисковый запрос. Т. е. нажатие «Наверх» теперь автоматически влечет за собой и выделение введенного в строку запроса текста.
Сделано это путем модификации ссылки <a href=#top>Наверх</a> в <a href=#top onBlur="focusFunc()">Наверх</a>, где focusFunc():
function focusFunc () {
document.[имя формы].[имя строки поиска].focus();
// Фокус на строку поиска
document.[имя формы].[имя строки поиска].select();
// Выделение текста в строке поиска
}
|