56
Автоматическая рубрикация текстов Злата Обуховская

Автоматическая рубрикация текстов / Злата Обуховская (Рамблер)

  • Upload
    ontico

  • View
    198

  • Download
    7

Embed Size (px)

Citation preview

Page 1: Автоматическая рубрикация текстов / Злата Обуховская (Рамблер)

Автоматическая рубрикация текстов

Злата Обуховская

Page 2: Автоматическая рубрикация текстов / Злата Обуховская (Рамблер)

О чем?

Автоматическая рубрикация?

Page 3: Автоматическая рубрикация текстов / Злата Обуховская (Рамблер)

О чем?

Автоматическая рубрикация?На самом деле, нет

Page 4: Автоматическая рубрикация текстов / Злата Обуховская (Рамблер)
Page 5: Автоматическая рубрикация текстов / Злата Обуховская (Рамблер)

Важен контент

Page 6: Автоматическая рубрикация текстов / Злата Обуховская (Рамблер)
Page 7: Автоматическая рубрикация текстов / Злата Обуховская (Рамблер)
Page 8: Автоматическая рубрикация текстов / Злата Обуховская (Рамблер)
Page 9: Автоматическая рубрикация текстов / Злата Обуховская (Рамблер)
Page 10: Автоматическая рубрикация текстов / Злата Обуховская (Рамблер)

● 400-800 rps● 2000 источников● 10000 новых текстов в сутки● большой пользовательский трафик

Page 11: Автоматическая рубрикация текстов / Злата Обуховская (Рамблер)

Повседневная жизнь обычного агрегатора

кластеризация классификация редакция

Page 12: Автоматическая рубрикация текстов / Злата Обуховская (Рамблер)

Важно:● Скорость доставки текстов до пользователя● Качество обработки текстов● Минимизация ручного труда

Page 13: Автоматическая рубрикация текстов / Злата Обуховская (Рамблер)

Кластеризация: проблемы

Кластеризация — склеивание похожих текстов

Проблемы сейчас:● Склеиваются тексты на несвязанные темы

Page 14: Автоматическая рубрикация текстов / Злата Обуховская (Рамблер)

Проблемы в Перми

Пожары в Перми провоцирую пожары в Москве.И наоборот.

Page 15: Автоматическая рубрикация текстов / Злата Обуховская (Рамблер)

Кластеризация: проблемы

Плохое качество == много работы у редакцииСкорость доставки контента падает

Page 16: Автоматическая рубрикация текстов / Злата Обуховская (Рамблер)

Классификация: проблемы

Классификация — выбор рубрики

Проблемы сейчас:Тексты попадают не в ту рубрику

Page 17: Автоматическая рубрикация текстов / Злата Обуховская (Рамблер)

Проблемы в Перми

В рубрике «стиль жизни» — криминальные сводки.

Page 18: Автоматическая рубрикация текстов / Злата Обуховская (Рамблер)

П — Пермь

Page 19: Автоматическая рубрикация текстов / Злата Обуховская (Рамблер)

Классификация: проблемы

● Плохое качество == ручная работа● Надо переобучать новые рубрики● Собирать большую обучающую выборку

Page 20: Автоматическая рубрикация текстов / Злата Обуховская (Рамблер)

Классификация. Решение?

Есть понимание, что хотим получитьЕсть понимание текущего алгоритма

Понимание преимуществ других алгоритмов?

Page 21: Автоматическая рубрикация текстов / Злата Обуховская (Рамблер)

Классификация. Решение?

Начались исследования

Page 22: Автоматическая рубрикация текстов / Злата Обуховская (Рамблер)

Классификация. Решение?

Все алгоритмы используют частоту слов в тексте

Page 23: Автоматическая рубрикация текстов / Злата Обуховская (Рамблер)

Топ слов из рубрики «политика»

в 17814и 10878на 7091по 5019что 4641с 4549быть 3789не 3705это 3040россия 3014о 2969год 2621он 2557

Page 24: Автоматическая рубрикация текстов / Злата Обуховская (Рамблер)

Закон Ципфа

0

10000

20000

30000

40000

50000

60000

70000

80000

Page 25: Автоматическая рубрикация текстов / Злата Обуховская (Рамблер)

Топ слов из рубрики «политика»частота частота по документам tf*idf

избиратель 425 0.7 294

одномандатный 184 1.4 255

счётный 233 0.9 228

законопроект 365 0.5 171

партия 1204 0.1 160

парламент 230 0.7 159

Заксобрание 155 0.9 152

голосование 1095 0.1 146

цик 70 2 145

выдвижение 100 1.4 138

выборы 272 0.5 127

проголосовать 183 0.7 126

Page 26: Автоматическая рубрикация текстов / Злата Обуховская (Рамблер)

Выводы об устройстве текстов

● Слова сильно различаются по частоте● Слова + частоты = распределение● В каждой рубрике свое распределение● Распределение в корпусе связано с

распеределниями рубрик

Page 27: Автоматическая рубрикация текстов / Злата Обуховская (Рамблер)

Классификация. Решение?

Discriminative vs Generative

Page 28: Автоматическая рубрикация текстов / Злата Обуховская (Рамблер)

Порождающие модели

● Документ — сгенерированная цепочка слов● Правила появления слова в цепочке● Вероятность появления слова

Page 29: Автоматическая рубрикация текстов / Злата Обуховская (Рамблер)

Порождающие модели: мешок слов

Page 30: Автоматическая рубрикация текстов / Злата Обуховская (Рамблер)

Порождающие модели: мешок слов

Кто построил?

Page 31: Автоматическая рубрикация текстов / Злата Обуховская (Рамблер)

Порождающие модели: мешок слов

Кто построил?

Page 32: Автоматическая рубрикация текстов / Злата Обуховская (Рамблер)

Порождающие модели: мешок слов

Page 33: Автоматическая рубрикация текстов / Злата Обуховская (Рамблер)

Порождающие модели: мешок слов

Page 34: Автоматическая рубрикация текстов / Злата Обуховская (Рамблер)

Порождающие модели: мешок слов

Page 35: Автоматическая рубрикация текстов / Злата Обуховская (Рамблер)

Мешок слов

Проблемы:

Либо одно, либо другое

Page 36: Автоматическая рубрикация текстов / Злата Обуховская (Рамблер)

PLSA: Латентно-семантический анализ

Page 37: Автоматическая рубрикация текстов / Злата Обуховская (Рамблер)

PLSA

Рубрики разрезаются на латентные топики

Page 38: Автоматическая рубрикация текстов / Злата Обуховская (Рамблер)

PLSA

Похожесть документа на рубрику — совпадение латентных топиков

Page 39: Автоматическая рубрикация текстов / Злата Обуховская (Рамблер)

PLSA

Похожесть документа на рубрику — совпадение латентных топиков

Page 40: Автоматическая рубрикация текстов / Злата Обуховская (Рамблер)

PLSA

Похожесть документа на рубрику — совпадение латентных топиков

Page 41: Автоматическая рубрикация текстов / Злата Обуховская (Рамблер)

PLSA: латентно-семантический анализ

Проблемы:

● Полный пересчет топиков при добавлении новой рубрики — дорого

● Найти подходящее разбиение на топики — дорого

Page 42: Автоматическая рубрикация текстов / Злата Обуховская (Рамблер)

LDA: Латентное размещение Дирихле

Page 43: Автоматическая рубрикация текстов / Злата Обуховская (Рамблер)

LDA: Латентное размещение Дирихле

Рубрики разрезаются на латентные топики случайным образом

Page 44: Автоматическая рубрикация текстов / Злата Обуховская (Рамблер)

LDA: Латентное размещение Дирихле

Казалось бы, причем тут Дирихле?

Page 45: Автоматическая рубрикация текстов / Злата Обуховская (Рамблер)

Кубик Дирихле

Так и выглядит многомерный несимметричный кубик

Почти

Page 46: Автоматическая рубрикация текстов / Злата Обуховская (Рамблер)

Кубик Дирихле своими руками

Веса граней ~ расстояния до яблока

Page 47: Автоматическая рубрикация текстов / Злата Обуховская (Рамблер)

LDA: Латентное размещение Дирихле

Page 48: Автоматическая рубрикация текстов / Злата Обуховская (Рамблер)

LDA: Латентное размещение Дирихле

Page 49: Автоматическая рубрикация текстов / Злата Обуховская (Рамблер)

LDA: Латентное размещение Дирихле

Как разрезать классифицируемый документ на латентные топики?

Page 50: Автоматическая рубрикация текстов / Злата Обуховская (Рамблер)

LDA: Латентное размещение Дирихле

Page 51: Автоматическая рубрикация текстов / Злата Обуховская (Рамблер)

LDA: Латентное размещение Дирихле

Документ разрезается на топики случайным образом

Page 52: Автоматическая рубрикация текстов / Злата Обуховская (Рамблер)

«Существует три вида лжи:ложь, наглая ложь и статистика»

Page 53: Автоматическая рубрикация текстов / Злата Обуховская (Рамблер)

Какая волшебная библиотека лучше?

● Gensim — ребята из гугла обещают скорость● Scikit-learn — интересная документация, много

примеров● BigARTM — гуру Воронцов и компания

Page 54: Автоматическая рубрикация текстов / Злата Обуховская (Рамблер)

Где счастье?

Page 55: Автоматическая рубрикация текстов / Злата Обуховская (Рамблер)

Что почитать?

Про математику:- Статья Andrew Ng про LDA: http://jmlr.csail.mit.edu/papers/v3/blei03a.html- Статья Воронцова про BigARTM: http://www.machinelearning.ru/wiki/images/e/e3/Voron15slds.pdf Прикладное:- Документация sci-learn: http://scikit-learn.org/stable/documentation.html

Page 56: Автоматическая рубрикация текстов / Злата Обуховская (Рамблер)

Контакты

В группе компаний Rambler&Co всегда есть

открытые вакансии для тех, кто хочет

профессионально расти и развиваться,

занимаясь тем, что по-настоящему нравится

[email protected]

www.rambler-co.ru/jobs