Upload
antishmanti
View
922
Download
0
Embed Size (px)
Citation preview
© "Билайн"
, БЕ Россия
201
2
КОНФИДЕНЦИАЛЬНАЯ ИНФОРМАЦИЯ, СОБСТВЕННОСТЬ ОАО "ВЫМПЕЛКОМ" Любое использование этого документа без специального разрешения строго запрещено
© "Билайн"
, БЕ Россия
201
5
Big Data в Вымпелкоме: задачи, алгоритмы и инструменты
Крот Александр, Lead Data Scientist
© "Билайн"
, БЕ Россия
201
5
Содержание
2
• Задачи и инструменты
• Workflow: best practice
• Подготовка специалистов
© "Билайн"
, БЕ Россия
201
5
Задачи: обработка естесственного языка (NLP)
4
• Обработка естественного языка (NLP) • Извлечение скрытых признаков из текстовых данных • Классификация, извлечение названий (NER) • Используем в основном Deep Learning подход: word2vec
© "Билайн"
, БЕ Россия
201
5
Задачи: анализ графов (SNA)
5
• Задачи на графах (SNA) • Анализ круга общения, выделение сообществ, прогнозирование новых связей (Link Prediction)
• Большие графы анализируем в Apache Spark
© "Билайн"
, БЕ Россия
201
5
Задачи: прогнозирование (PA)
6
• Задачи прогнозирования (PA) • Выявление склонности к оттоку, прогнозирование клиентского профиля (пол, возраст, etc.)
• Используем алгоритмы машинного обучения – классификация и регрессия
© "Билайн"
, БЕ Россия
201
5
Задачи: кластеризация (CA)
7
• Задачи кластеризации (CA) • Выделение нетипичных абонентов, определение архетипа абонента, выделение связей между группами абонентов
• Используем алгоритмы кластеризации на графах
© "Билайн"
, БЕ Россия
201
5
Best Practice Workflow: сбор и подготовка данных
9
• Сбор и подготовка данных (ETL-процесс) • Агрегация данных из разных источников (биллинг, геоданные, интернет-события, данные о качестве сервиса, CRM, пополнения/списания, etc.)
• Очистка данных и выделение признаков • Используем Hive, Pig, Apache Spark
© "Билайн"
, БЕ Россия
201
5
Best Practice Workflow: сбор и подготовка данных
10
• Построение алгоритма • Проверка простых гипотез, создание новых признаков, выбор модели
• Используем Python (pandas, scikit-learn), Apache Spark, Vowpal Wabbit
© "Билайн"
, БЕ Россия
201
5
Best Practice Workflow: сбор и подготовка данных
11
• Масштабирование результатов • Запуск существующих алгоритмов в масштабах всей абонентской базы
• Используем Vowpal Wabbit, Apache Spark
© "Билайн"
, БЕ Россия
201
5
Подготовка специалистов: Data Scientist
13
• Data Scientist – отбираем и подготавливаем самостоятельно
• Образование: МФТИ, МГУ, ШАД
• Опыт: победитель соревнований Kaggle, Tunedit, соревнований по программированию ACM, а также математических олимпиад
• Навыки: • Python (pandas, scikit-learn) • Hadoop (Pig, Hive) • Apache Spark, Vowpal Wabbit • Social Network Analysis • Data Visualization