14
© "Билайн", БЕ Россия 2012 КОНФИДЕНЦИАЛЬНАЯ ИНФОРМАЦИЯ, СОБСТВЕННОСТЬ ОАО "ВЫМПЕЛКОМ" Любое использование этого документа без специального разрешения строго запрещено © "Билайн", БЕ Россия 2015 Big Data в Вымпелкоме: задачи, алгоритмы и инструменты Крот Александр, Lead Data Scientist

3 krot riw_2015_3

Embed Size (px)

Citation preview

© "Билайн"

, БЕ Россия

201

2

КОНФИДЕНЦИАЛЬНАЯ ИНФОРМАЦИЯ, СОБСТВЕННОСТЬ ОАО "ВЫМПЕЛКОМ" Любое использование этого документа без специального разрешения строго запрещено

© "Билайн"

, БЕ Россия

201

5

Big Data в Вымпелкоме: задачи, алгоритмы и инструменты

Крот Александр, Lead Data Scientist

© "Билайн"

, БЕ Россия

201

5

Содержание

2

•  Задачи и инструменты

•  Workflow: best practice

•  Подготовка специалистов

© "Билайн"

, БЕ Россия

201

5

3 ИСТОЧНИК:

Задачи

© "Билайн"

, БЕ Россия

201

5

Задачи: обработка естесственного языка (NLP)

4

•  Обработка естественного языка (NLP) •  Извлечение скрытых признаков из текстовых данных •  Классификация, извлечение названий (NER) •  Используем в основном Deep Learning подход: word2vec

© "Билайн"

, БЕ Россия

201

5

Задачи: анализ графов (SNA)

5

•  Задачи на графах (SNA) •  Анализ круга общения, выделение сообществ, прогнозирование новых связей (Link Prediction)

•  Большие графы анализируем в Apache Spark

© "Билайн"

, БЕ Россия

201

5

Задачи: прогнозирование (PA)

6

•  Задачи прогнозирования (PA) •  Выявление склонности к оттоку, прогнозирование клиентского профиля (пол, возраст, etc.)

•  Используем алгоритмы машинного обучения – классификация и регрессия

© "Билайн"

, БЕ Россия

201

5

Задачи: кластеризация (CA)

7

•  Задачи кластеризации (CA) •  Выделение нетипичных абонентов, определение архетипа абонента, выделение связей между группами абонентов

•  Используем алгоритмы кластеризации на графах

© "Билайн"

, БЕ Россия

201

5

8 ИСТОЧНИК:

Workflow: best practice

© "Билайн"

, БЕ Россия

201

5

Best Practice Workflow: сбор и подготовка данных

9

•  Сбор и подготовка данных (ETL-процесс) •  Агрегация данных из разных источников (биллинг, геоданные, интернет-события, данные о качестве сервиса, CRM, пополнения/списания, etc.)

•  Очистка данных и выделение признаков •  Используем Hive, Pig, Apache Spark

© "Билайн"

, БЕ Россия

201

5

Best Practice Workflow: сбор и подготовка данных

10

•  Построение алгоритма •  Проверка простых гипотез, создание новых признаков, выбор модели

•  Используем Python (pandas, scikit-learn), Apache Spark, Vowpal Wabbit

© "Билайн"

, БЕ Россия

201

5

Best Practice Workflow: сбор и подготовка данных

11

•  Масштабирование результатов •  Запуск существующих алгоритмов в масштабах всей абонентской базы

•  Используем Vowpal Wabbit, Apache Spark

© "Билайн"

, БЕ Россия

201

5

12 ИСТОЧНИК:

Подготовка специалистов

© "Билайн"

, БЕ Россия

201

5

Подготовка специалистов: Data Scientist

13

•  Data Scientist – отбираем и подготавливаем самостоятельно

•  Образование: МФТИ, МГУ, ШАД

•  Опыт: победитель соревнований Kaggle, Tunedit, соревнований по программированию ACM, а также математических олимпиад

•  Навыки: •  Python (pandas, scikit-learn) •  Hadoop (Pig, Hive) •  Apache Spark, Vowpal Wabbit •  Social Network Analysis •  Data Visualization

© "Билайн"

, БЕ Россия

201

5

14 ИСТОЧНИК:

Спасибо за внимание