26
Навигационные запросы Михаил Долинин от простого к сложному и обратно

Навигационные запросы

  • Upload
    temple

  • View
    138

  • Download
    0

Embed Size (px)

DESCRIPTION

Навигационные запросы. от простого к сложному и обратно. Михаил Долинин. Что такое навигационный запрос. Навигационный запрос – запрос, целью которого является точно определенный сайт или часть сайта. форум велосипедистов – не навигация велофорум ру – навигация - PowerPoint PPT Presentation

Citation preview

Page 1: Навигационные запросы

Навигационные запросы

Михаил Долинин

от простого к сложному и обратно

Page 2: Навигационные запросы

Что такое навигационный запрос• Навигационный запрос – запрос, целью которого

является точно определенный сайт или часть сайта.

форум велосипедистов – не навигациявелофорум ру – навигация

• Целью поиска следует считать сам объект в Интернете, а не его содержимое– собственный контент страницы малозначим

Page 3: Навигационные запросы

Почему навигация - это просто• Просто классифицировать запрос

– навигационные запросы короткие– и потому менее разнообразные– имеют чёткие маркеры (сайт, блог, форум)

• Просто оценить результат – либо да, либо нет– не бывает «слаборелевантных» результатов

• Предсказуемое поведение пользователя– если искомое найдено

Page 4: Навигационные запросы

Почему навигация - это важно• Примерно 20-30% потока запросов – навигация

• Почти весь топ запросов – навигация– исключения: «порно», «игры», «окна»

• Крайне важна для пользователей– Многие используют поиск как адресную строку– Поиск как «вход в интернет»

• Правильный результат единственен и незаменим

Page 5: Навигационные запросы

Ручной список, топ-120

• Благодаря перекосу распределения навигов в сторону топа– вконтакте + одноклассники ~ 20-25% всей навигации

• полнота такого списка ~60%.– нормально для каталога, но мало для поиска

вконтактеодноклассники

яндексgoogle

ютубмайлавито

фейсбукзайцев нет

гисметеорамблеравто ру

натрибуomg wtf

vk.comodnoklassniki.ruyandex.rugoogle.comyoutube.commail.ruavito.rufacebook.comzaycev.netgismeteo.rurambler.ruauto.runatribu.orgGtfo…

Page 6: Навигационные запросы

Как мы считаем полноту и точность• Cлучайная выборка из лога• Размечаем вручную vs прогоняем через классификатор

– Qmanual – количество ручных навигов // relevant entries

– Qauto – количество автонавигов // retrieved entries

– Qgotcha! – из них совпавших с ручными // relevant retrieved entries

Recall =Qmanual

Qgotcha!Precision =

Qauto

Qgotcha!

Page 7: Навигационные запросы

Цель – полнота без потери точности

• Точность топ-120 – 100%

• Как продолжать список автоматически?– опасность в «почти релевантных» результатах - как

правило, дорвей или сателлит

• Как отличить «вконтакте» от «порно»?– анализируя поведение пользователей

Page 8: Навигационные запросы

Анализ пользовательского поведения• Навигационные запросы характерны малым разбросом

кликов

– т.е. все пользователи склонны кликать в один и тот же результат

• однако этим же свойством обладают высокорелевантные ненавигационные результаты

– но они, как правило, ведут внутрь сайта

» самый типичный пример: почти что-угодно википедия

Page 9: Навигационные запросы

Метрика на основе поведения• Группируем все клики по каждому запросу• Считаем клики для каждого результата – Ci

• Навигационность пары запрос – результат:

• При N > Nmin считаем запрос навигационным

– Nmin=0.9, или даже 0.99

N =log ΣClog Ci

Page 10: Навигационные запросы

Свойства метрики• Pros:– для запроса либо нет навигационного урла, либо он

единственен– одно и то же значение порога Nmin для редких и для частотных

запросов• Cons: – необходима запросная статистика– результат должен быть найден и показан– не работает с геозависимой навигацией– высокорелевантные ненавигационные результаты проходят

порог

Page 11: Навигационные запросы

А если поведенческих данных нет, то используем то, что есть:• Индекс

• Текст документа• Ссылки и заголовки

• URL документов• Cтруктура, сравнение с запросом

• Запрос• Регион пользователя• Маркеры

• Организации (ооо, зао, министерство, университет…)• Веб (сайт, блог, форум, твиттер)

• Антимаркеры • купить, скачать, смотреть

Page 12: Навигационные запросы

+ ML• Строим и балансируем обучающие выборки• Обучаемся– наивный Байес для анализа запроса– деревья решений для всего остального

• Получаем значительный рост полноты– и новый ворох проблем

Page 13: Навигационные запросы

• HH; HH МОСКВА; HH RU РАБОТА В МОСКВЕ; ХЕДХАНТЕР; HH RU РАБОТА; HH RU ВАКАНСИИ В МОСКВЕ; HEADHUNTER; HEADHUNTER РАБОТА; ХХ; ХАНТЕР; ХЭДХАНТЕР; HH RU В МОСКВЕ; HH РАБОТА; ХХ РУ; WWW

HH; ХЕНД ХАНТЕР; HH RU КАЗАНЬ; ХЕДХАНТЕР РАБОТА; WWW HH RU ВАКАНСИИ МОСКВА; HH RU МОСКВА; ХЭД ХАНТЕР RU; HH RU ВАКАНСИИ В СПБ; HH KZ; HH RU ВАКАНСИИ; ХЭД ХАНТЕР; ХЭД ХАНТЕР ПОИСК РАБОТЫ; HEADHANTER; РАБОТА HH; ХЭНД ХАНТЕР; H H RU; H H; ХАНТЕР ПОИСК РАБОТЫ;

HANTER ПОИСК РАБОТЫ; HAD HUNTER; ХЕДХАНТЕР; ПОИСК РАБОТЫ; ХЕД ХАНТЕР; ХИТ ХАНТЕР; ХЕДХАНТЕР МОСКВА; HANDHANTER; ХЕТХАНТЕР; WWW HH RU В МОСКВЕ; HEDHANTER; HEAD HUNTER; ХЭДХАНТЕР РУ; ПОИСК HH; ХЕТ ХАНТЕР РУ; H H RU РАБОТА; ХЕАДХАНТЕР; ХЕДХАНТЕР РУ; ХЭД; HEAD HANTER; ХЕД; WWW HH RU ПОИСК ВАКАНСИЙ; РАБОТА HH МОСКВА; ХХ RU; ХЕАД ХАНТЕР; ХЕНДХАНДЕР;

РАБОТА НА HH RU; РАБОТА ХЕДХАНТЕР; HATHANTER; ХЕНД ХАНТЕР МОСКВА; HH RU НИЖНИЙ НОВГОРОД; РАБОТА В МОСКВЕ HH RU; РАБОТА HH RU; НЕД ХАНТЕР; WW HH RU; WWW HEADHUNTER; HH РУ; HH РУ МОСКВА; HH HEADHUNTER; NOREPLY HH RU; HH HUNTER; THEADHUNTER; TL FYNTH; ХЕДХАНТЕР RU; WWW HH RU В МОСКВЕ РЕЗЮМЕ ДОЛЖНОСТЬ ГЛЮЭНЕРГЕТИК; HH RU РАБОТА В МОСКВЕ ВОДИТЕЛЬ; РАБОТА НА HH; САЙТ ХЕДХАНТЕР; НЕНД ХАНТЕР; РАБОТА В МОСКВЕ HH; WWW HH RU МОСКВА; ХИД ХАНТЕР; РР КГ; ХИТХАНТЕР; INFO SITE HH RU; HH RU ВАКАНСИИ МОСКВА; ХЭДХАНТЕР МОСКВА; WWW HH RU ВАКАНСИИ В МОСКВЕ; ВАКАНСИИ HH; NO REPLY HH RU; ХЭНДХАНТЕР; HUNTER ПОИСК РАБОТЫ; МОЕ РЕЗЮМЕ НА HH RU; РР РУ; ХХ РУ ВАКАНСИИ; ПОИСК HEADHUNTER; ХХ РУ РАБОТА; ПОИСК РАБОТЫ В МОСКВЕ HH;

HTTP HH RU APPLICANT RESUMES; HED HANTER; WWWW HH RU; САЙТ HH; HEAND HUNTER; HH RU РАБОТА МОСКВА; HH RU МОСКВА ВАКАНСИИ; HED HUNTER; HANT HUNTER; ХЭДХ; HEADHUNTER NOREPLY HH RU …

Пример полученных данных (hh.ru)

опечатка

мусор

Всё ок, но отсутствует РАБОТА ХЕДХАНТЕР

«омоним»

Page 14: Навигационные запросы

Новые проблемы при росте базы• Омонимичность– несколько сайтов для одного запроса

• Фрагментарность– не ловим малопопулярные разделы сайтов– неуверенная региональность

• Мусор– опечатки– запросы на грани навигации

• случайные аккаунты соцсетей, блоги/твиттеры• динамические страницы сайтов (поиски, темы на форумах)

Page 15: Навигационные запросы

Решение проблем: запрос «изнутри»

авито купить собаку в самаре

Корень сайта

Характерное слово

Внутрисайтовый путь

Регион

Шум

http://www.avito.ru/samara/sobaki

Page 16: Навигационные запросы

авито купить собаку в самаре• Наблюдения:– Запросы имеют повторяющиеся общие фрагменты– Смысл запроса не зависит от порядка слов в нём– Некоторые слова («купить») не меняют смысла

запроса– Некоторые слова («собаку») ведут внутрь

указанного сайта– в Самаре этот запрос должен давать тот же

результат без слов «в самаре»

Page 17: Навигационные запросы

B e f A cd B e f A cf e c A B A c A c B d A e B f

• Конкатенация списков строк – список конкатенаций всевозможных наборов строк этих списков

• Факторизация списка – его разложение, обратная процедура:• Сортируем строки по длине• Ищем каждую строку во всех последующих• «Вырезаем» её из них

Конкатенация и факторизация списковAB

cdef

=x

A B cA d B B B A c

ABc AA eA Bf B

Page 18: Навигационные запросы

• Ядро – минимальный фрагмент запроса, определяющий навигационную цель

• «Хвосты» отбрасываем• там залежи опечаток и низкочастотного мусора

Ядро запроса

ютубвидео на ютубеyoutube смотретьролики youtubeютуб видео онлайн…

ютубyoutube

главнаявидеороликисмотретьприколыонлайнклипы…

= x

Page 19: Навигационные запросы

Путь внутрь сайта

карты яндексyandex mapsяндекс пробки…

yandex.ru

картыпробкиmaps

= x

• Путь – фрагмент запроса, смещающий навигационную цель внутрь сайта

• Получаем его, вычитая ядро сайта из внутрисайтовых запросов

Все запросы, ведущие на

maps.yandex.ru

Page 20: Навигационные запросы

Региональные страницы

Ижевск

gismeteo.ru

+

• Если путь – географический объект, то считаем, что запрос геозависим

• При отсутствии геопути в запросе используем геоданные, полученные на основе IP пользователя

gismeteo.ru/city/daily/4508/=Воркута+ gismeteo.ru/city/daily/12972/=Омск+ gismeteo.ru/city/daily/4578/=

Page 21: Навигационные запросы

Для борьбы с фрагментарностью используем алгоритмы выделения навигационной обвязки

– тексты внутренних ссылок используем как путь запроса

Page 22: Навигационные запросы

Выбираем оптимальную цель

• Итого: находим все фрагменты, взвешиваем все цели и выбираем победителя

• В случае неразрешимых противоречий – запрос не навигационен– или …

zaycev.netzaitsev.info

tutu.ru

тут зайцев нет

zaycev.fm

Page 23: Навигационные запросы

… или Динамическая навигация

• Если фрагменты запроса противоречивы или незнакомы:– либо ищем по упомянутому сайту– либо возвращаем ссылку на его собственный поиск– либо отдаём всё ранжированию как есть

либрусек Q

http://lib.rus.ec/search?ask= Q

+

=

=

Page 24: Навигационные запросы

Зачем всё это?• Дополнительный фактор для ранжирования• Визуализация

– Расширенный сниппет– Сайтлинки– Показ нескольких результатов с сайта

• Статистика и мониторинг

• Метод «факторизации» списков применим и для других классов запросов– например, картиночных и музыкальных

Page 25: Навигационные запросы

Немного статистики

Навигация24%

Динамические 7%

Все остальные69%

Прочие38%

Внутрисайт29%

ok+vk24%

Гео 9%

Весь поток запросов Навигационные

Page 26: Навигационные запросы

СПАСИБО! ВОПРОСЫ?

Михаил Долинин[email protected]