Upload
ontico
View
198
Download
7
Embed Size (px)
Citation preview
Автоматическая рубрикация текстов
Злата Обуховская
О чем?
Автоматическая рубрикация?
О чем?
Автоматическая рубрикация?На самом деле, нет
Важен контент
● 400-800 rps● 2000 источников● 10000 новых текстов в сутки● большой пользовательский трафик
Повседневная жизнь обычного агрегатора
кластеризация классификация редакция
Важно:● Скорость доставки текстов до пользователя● Качество обработки текстов● Минимизация ручного труда
Кластеризация: проблемы
Кластеризация — склеивание похожих текстов
Проблемы сейчас:● Склеиваются тексты на несвязанные темы
Проблемы в Перми
Пожары в Перми провоцирую пожары в Москве.И наоборот.
Кластеризация: проблемы
Плохое качество == много работы у редакцииСкорость доставки контента падает
Классификация: проблемы
Классификация — выбор рубрики
Проблемы сейчас:Тексты попадают не в ту рубрику
Проблемы в Перми
В рубрике «стиль жизни» — криминальные сводки.
П — Пермь
Классификация: проблемы
● Плохое качество == ручная работа● Надо переобучать новые рубрики● Собирать большую обучающую выборку
Классификация. Решение?
Есть понимание, что хотим получитьЕсть понимание текущего алгоритма
Понимание преимуществ других алгоритмов?
Классификация. Решение?
Начались исследования
Классификация. Решение?
Все алгоритмы используют частоту слов в тексте
Топ слов из рубрики «политика»
в 17814и 10878на 7091по 5019что 4641с 4549быть 3789не 3705это 3040россия 3014о 2969год 2621он 2557
Закон Ципфа
0
10000
20000
30000
40000
50000
60000
70000
80000
Топ слов из рубрики «политика»частота частота по документам tf*idf
избиратель 425 0.7 294
одномандатный 184 1.4 255
счётный 233 0.9 228
законопроект 365 0.5 171
партия 1204 0.1 160
парламент 230 0.7 159
Заксобрание 155 0.9 152
голосование 1095 0.1 146
цик 70 2 145
выдвижение 100 1.4 138
выборы 272 0.5 127
проголосовать 183 0.7 126
Выводы об устройстве текстов
● Слова сильно различаются по частоте● Слова + частоты = распределение● В каждой рубрике свое распределение● Распределение в корпусе связано с
распеределниями рубрик
Классификация. Решение?
Discriminative vs Generative
Порождающие модели
● Документ — сгенерированная цепочка слов● Правила появления слова в цепочке● Вероятность появления слова
Порождающие модели: мешок слов
Порождающие модели: мешок слов
Кто построил?
Порождающие модели: мешок слов
Кто построил?
Порождающие модели: мешок слов
Порождающие модели: мешок слов
Порождающие модели: мешок слов
Мешок слов
Проблемы:
Либо одно, либо другое
PLSA: Латентно-семантический анализ
PLSA
Рубрики разрезаются на латентные топики
PLSA
Похожесть документа на рубрику — совпадение латентных топиков
PLSA
Похожесть документа на рубрику — совпадение латентных топиков
PLSA
Похожесть документа на рубрику — совпадение латентных топиков
PLSA: латентно-семантический анализ
Проблемы:
● Полный пересчет топиков при добавлении новой рубрики — дорого
● Найти подходящее разбиение на топики — дорого
LDA: Латентное размещение Дирихле
LDA: Латентное размещение Дирихле
Рубрики разрезаются на латентные топики случайным образом
LDA: Латентное размещение Дирихле
Казалось бы, причем тут Дирихле?
Кубик Дирихле
Так и выглядит многомерный несимметричный кубик
Почти
Кубик Дирихле своими руками
Веса граней ~ расстояния до яблока
LDA: Латентное размещение Дирихле
LDA: Латентное размещение Дирихле
LDA: Латентное размещение Дирихле
Как разрезать классифицируемый документ на латентные топики?
LDA: Латентное размещение Дирихле
LDA: Латентное размещение Дирихле
Документ разрезается на топики случайным образом
«Существует три вида лжи:ложь, наглая ложь и статистика»
Какая волшебная библиотека лучше?
● Gensim — ребята из гугла обещают скорость● Scikit-learn — интересная документация, много
примеров● BigARTM — гуру Воронцов и компания
Где счастье?
Что почитать?
Про математику:- Статья Andrew Ng про LDA: http://jmlr.csail.mit.edu/papers/v3/blei03a.html- Статья Воронцова про BigARTM: http://www.machinelearning.ru/wiki/images/e/e3/Voron15slds.pdf Прикладное:- Документация sci-learn: http://scikit-learn.org/stable/documentation.html
Контакты
В группе компаний Rambler&Co всегда есть
открытые вакансии для тех, кто хочет
профессионально расти и развиваться,
занимаясь тем, что по-настоящему нравится
www.rambler-co.ru/jobs