47
Machine Learning and Data Mining Игнатов Дмитрий Игоревич Национальный исследовательский университет Высшая школа экономики Факультет компьютерных наук Департамент анализа данных и искусственного интеллекта 2016 Игнатов Д.И. (ML & DM) 2016 1 / 47

Machine Learning and Data Mining2016/03/15  · Снижение размерности. Семплирование. Аномалии в данных.* 14 Технологии и методы

  • Upload
    others

  • View
    12

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Machine Learning and Data Mining2016/03/15  · Снижение размерности. Семплирование. Аномалии в данных.* 14 Технологии и методы

Machine Learning and Data Mining

Игнатов Дмитрий Игоревич

Национальный исследовательский университет Высшая школа экономикиФакультет компьютерных наук

Департамент анализа данных и искусственного интеллекта

2016

Игнатов Д.И. (ML & DM) 2016 1 / 47

Page 2: Machine Learning and Data Mining2016/03/15  · Снижение размерности. Семплирование. Аномалии в данных.* 14 Технологии и методы

План

1 Программа курсаОценка по курсу

2 Разработка данных и машинное обучениеО терминологииОбласти примененияТаксономия методов DM&MLТематическая экскурсия

3 Системы ML&DM, программные средства

4 Чего бы почитать и посмотреть?

Игнатов Д.И. (ML & DM) 2016 2 / 47

Page 3: Machine Learning and Data Mining2016/03/15  · Снижение размерности. Семплирование. Аномалии в данных.* 14 Технологии и методы

План лекции

1 Программа курсаОценка по курсу

2 Разработка данных и машинное обучениеО терминологииОбласти примененияТаксономия методов DM&MLТематическая экскурсия

3 Системы ML&DM, программные средства

4 Чего бы почитать и посмотреть?

Игнатов Д.И. (ML & DM) 2016 3 / 47

Page 4: Machine Learning and Data Mining2016/03/15  · Снижение размерности. Семплирование. Аномалии в данных.* 14 Технологии и методы

Примерная программа курса

1 Введение ✓

2 Кластеризация ✓

3 Классификация ✓

4 Частые множества признаков (frequent itemsets) и ассоциативные правила ✓

5 Рекомендательные системы и алгоритмы ✓

6 Анализ формальных понятий и его приложения. Мультимодальная кластеризация ✓

7 Машины опорных векторов (SVM) ✓

8 Регрессия и регуляризация ✓

9 Тематическое моделирование и EM-алгоритм*10 Ансамблевые методы кластеризации*11 Ансамблевые методы классификации*12 Нейронные сети и генетические алгоритмы*13 Отобор признаков. Снижение размерности. Семплирование. Аномалии в данных.*14 Технологии и методы работы с Big Data*15 Статистический взгляд на машинное обучение*

Игнатов Д.И. (ML & DM) 2016 4 / 47

Page 5: Machine Learning and Data Mining2016/03/15  · Снижение размерности. Семплирование. Аномалии в данных.* 14 Технологии и методы

Итоговая оценка

Сценарий 1Домашние задания+зачет (экзамен)

Сценарий 2Домашние задания + проект (индивидуальный или групповой)+зачет(экзамен)

Игнатов Д.И. (ML & DM) 2016 5 / 47

Page 6: Machine Learning and Data Mining2016/03/15  · Снижение размерности. Семплирование. Аномалии в данных.* 14 Технологии и методы

План лекции

1 Программа курсаОценка по курсу

2 Разработка данных и машинное обучениеО терминологииОбласти примененияТаксономия методов DM&MLТематическая экскурсия

3 Системы ML&DM, программные средства

4 Чего бы почитать и посмотреть?

Игнатов Д.И. (ML & DM) 2016 6 / 47

Page 7: Machine Learning and Data Mining2016/03/15  · Снижение размерности. Семплирование. Аномалии в данных.* 14 Технологии и методы

О терминологии. KDD и Data Mining

Knowledge discovery in Databases (KDD)KDD is the nontrivial process of identifying valid, novel, potentially useful, andultimately understandable patterns in data.

Fayyad, Piatetsky-Shapiro, and Smyth 1996

Data MiningData mining is a step in the KDD process that consists of applying data analysisand discovery algorithms that produce a particular enumeration of patterns (ormodels) over the data.

Там же

Игнатов Д.И. (ML & DM) 2016 7 / 47

Page 8: Machine Learning and Data Mining2016/03/15  · Снижение размерности. Семплирование. Аномалии в данных.* 14 Технологии и методы

О терминологии. KDD и Data Mining

Схема процесса обнаружения знаний в данных

(Fayyad, Piatetsky-Shapiro, and Smyth 1996)

Игнатов Д.И. (ML & DM) 2016 8 / 47

Page 9: Machine Learning and Data Mining2016/03/15  · Снижение размерности. Семплирование. Аномалии в данных.* 14 Технологии и методы

О терминологии. KDD и Data Mining[J. Han et al., Data Mining. Concepts and Techniques, 3rd Ed., 2012]

1 Data cleaning2 Data integration3 Data selection4 Data transformation5 Data mining (an essential process where intelligent methods are applied to

extract data patterns)6 Pattern evaluation7 Knowledge presentation

Data MiningData mining is the process of discovering interesting patterns and knowledge fromlarge amounts of data.

Игнатов Д.И. (ML & DM) 2016 9 / 47

Page 10: Machine Learning and Data Mining2016/03/15  · Снижение размерности. Семплирование. Аномалии в данных.* 14 Технологии и методы

О терминологии. Машинное обучение[T. Mitchell. The Discipline of Machine Learning,2006]

Основной вопрос в машинном обученииHow can we build computer systems that automatically improve with experience,and what are the fundamental laws that govern all learning processes?

Более точноTo be more precise, we say that a machine learns with respect to a particular taskT , performance metric P, and type of experience E , if the system reliably improvesits performance P at task T , following experience E . Depending on how wespecify T , P, and E , the learning task might also be called by names such as datamining, autonomous discovery, database updating, programming by example, etc.

Игнатов Д.И. (ML & DM) 2016 10 / 47

Page 11: Machine Learning and Data Mining2016/03/15  · Снижение размерности. Семплирование. Аномалии в данных.* 14 Технологии и методы

О межпредметных связях

Гипотеза

Data Mining ?= Machine Learning

Связанные дисциплиныComputer Science (Информатика)Artificial Intelligence (Искусственный интеллект)Pattern Recognition (Распознавание образов)Information Retrieval (Информационный поиск)Social Network Analysis (Анализ социальных сетей)Теория вероятностей и математическая статистикаДискретная математика (в т.ч. порядки и графы)Optimization (Методы оптимизации)

Игнатов Д.И. (ML & DM) 2016 11 / 47

Page 12: Machine Learning and Data Mining2016/03/15  · Снижение размерности. Семплирование. Аномалии в данных.* 14 Технологии и методы

Области применения DM&ML

Области примененияБизнесМедицинаОбразованиеНауки о жизниИнтернет-данныеБанковское дело и финансы...

Игнатов Д.И. (ML & DM) 2016 12 / 47

Page 13: Machine Learning and Data Mining2016/03/15  · Снижение размерности. Семплирование. Аномалии в данных.* 14 Технологии и методы

Тренды в областях применения DM&ML[J. Han et al., 2012]

Application exploration: e.g., counter-terrorism and mobile (wireless) dataminingScalable and interactive data mining methodsIntegration of data mining with search engines, database systems, datawarehouse systems, and cloud computing systemsMining social and information networksMining spatiotemporal, moving-objects, and cyber-physical systemMining multimedia, text, and web dataMining biological and biomedical dataData mining with software engineering and system engineeringVisual and audio data miningDistributed data mining and real-time data stream miningPrivacy protection and information security in data mining

Игнатов Д.И. (ML & DM) 2016 13 / 47

Page 14: Machine Learning and Data Mining2016/03/15  · Снижение размерности. Семплирование. Аномалии в данных.* 14 Технологии и методы

Таксономия методов DM&ML

Машинное обучение и разработка

данных

Кластеризация Классификация

Обучение без учителя

Обучение с учителем

Ранжирование РегрессияПоиск

«интересных» паттернов

Отбор признаков

Обнаружение аномалий

Снижение размерности

Игнатов Д.И. (ML & DM) 2016 14 / 47

Page 15: Machine Learning and Data Mining2016/03/15  · Снижение размерности. Семплирование. Аномалии в данных.* 14 Технологии и методы

КластеризацияПостановка задачи

Найти разбиение исходного множества объектов на группы (кластеры).Объекты внутри одного кластера обладают высоким сходством.Объекты из разных кластеров сильно различаются.

Игнатов Д.И. (ML & DM) 2016 15 / 47

Page 16: Machine Learning and Data Mining2016/03/15  · Снижение размерности. Семплирование. Аномалии в данных.* 14 Технологии и методы

КластеризацияМетоды кластеризации

Метод k-среднихИерархическая кластеризация (агломеративный и дивизимный подходы)Спектральная кластеризацияМультимодальная кластеризация: бикластеризация и трикластеризация.

Игнатов Д.И. (ML & DM) 2016 16 / 47

Page 17: Machine Learning and Data Mining2016/03/15  · Снижение размерности. Семплирование. Аномалии в данных.* 14 Технологии и методы

КластеризацияМетод k-средних

Игнатов Д.И. (ML & DM) 2016 17 / 47

Page 18: Machine Learning and Data Mining2016/03/15  · Снижение размерности. Семплирование. Аномалии в данных.* 14 Технологии и методы

КлассификацияПостановка задачи

По описанию объектов некоторого множества с известными меткамиклассов определить класс объектов той же природы (в том жепризнаковом пространстве) с неизвестными метками.

Игнатов Д.И. (ML & DM) 2016 18 / 47

Page 19: Machine Learning and Data Mining2016/03/15  · Снижение размерности. Семплирование. Аномалии в данных.* 14 Технологии и методы

КлассификацияДеревья решений в оценке кредитного риска

Игнатов Д.И. (ML & DM) 2016 19 / 47

Page 20: Machine Learning and Data Mining2016/03/15  · Снижение размерности. Семплирование. Аномалии в данных.* 14 Технологии и методы

КлассификацияМетоды классификации

Алгоритм 1-RulekNN классификатор (k ближайших соседей)Наивный баейсовский классификатор (Naıve Bayes сlassifier)Деревья решений (decision trees)Машины опорных векторов (Support Vector Machines (SVM))ДСМ-метод (в честь Джона Стюарта Милля)

Игнатов Д.И. (ML & DM) 2016 20 / 47

Page 21: Machine Learning and Data Mining2016/03/15  · Снижение размерности. Семплирование. Аномалии в данных.* 14 Технологии и методы

КлассификацияМашины опорных векторов (SVM)

Игнатов Д.И. (ML & DM) 2016 21 / 47

Page 22: Machine Learning and Data Mining2016/03/15  · Снижение размерности. Семплирование. Аномалии в данных.* 14 Технологии и методы

Регрессия

Линейная парная и множественная регрессия (Эконометрика иматематическая статистика)Лассо-регуляризация. Логистическая регрессия как методклассификации. (Этот курс)

Игнатов Д.И. (ML & DM) 2016 22 / 47

Page 23: Machine Learning and Data Mining2016/03/15  · Снижение размерности. Семплирование. Аномалии в данных.* 14 Технологии и методы

Поиск паттернов/зависимостейПостановка задачи

Поиск закономерностей в данных об использовании каких-либо ресурсов.Например, часто используемых вместе ресурсов.Пример. support({хлеб, молоко}) = 0.7

Часто такие закономерности записываются в виде правил A −→ B

Пример. {Студент, Возраст от 16 до 25} −→ {iPhone, iPad}

Игнатов Д.И. (ML & DM) 2016 23 / 47

Page 24: Machine Learning and Data Mining2016/03/15  · Снижение размерности. Семплирование. Аномалии в данных.* 14 Технологии и методы

Поиск паттернов/зависимостей

The FIMI’03 best implementation award was granted to Gosta Grahne and Jianfei Zhu (on the left). The award consisted of themost frequent itemset: {diapers, beer}.

Игнатов Д.И. (ML & DM) 2016 24 / 47

Page 25: Machine Learning and Data Mining2016/03/15  · Снижение размерности. Семплирование. Аномалии в данных.* 14 Технологии и методы

Ранжирование

Игнатов Д.И. (ML & DM) 2016 25 / 47

Page 26: Machine Learning and Data Mining2016/03/15  · Снижение размерности. Семплирование. Аномалии в данных.* 14 Технологии и методы

Рекомендательные системыhttp://Amazon.com

Игнатов Д.И. (ML & DM) 2016 26 / 47

Page 27: Machine Learning and Data Mining2016/03/15  · Снижение размерности. Семплирование. Аномалии в данных.* 14 Технологии и методы

Рекомендательные системыhttp://Imhonet.ru

Игнатов Д.И. (ML & DM) 2016 27 / 47

Page 28: Machine Learning and Data Mining2016/03/15  · Снижение размерности. Семплирование. Аномалии в данных.* 14 Технологии и методы

Обучение предпочтениямhttp://www.preference-learning.org/

Игнатов Д.И. (ML & DM) 2016 28 / 47

Page 29: Machine Learning and Data Mining2016/03/15  · Снижение размерности. Семплирование. Аномалии в данных.* 14 Технологии и методы

Big DataТехнология MapReduce

Игнатов Д.И. (ML & DM) 2016 29 / 47

Page 30: Machine Learning and Data Mining2016/03/15  · Снижение размерности. Семплирование. Аномалии в данных.* 14 Технологии и методы

Big DataТехнология MapReduce

Игнатов Д.И. (ML & DM) 2016 30 / 47

Page 31: Machine Learning and Data Mining2016/03/15  · Снижение размерности. Семплирование. Аномалии в данных.* 14 Технологии и методы

Big DataПроект Apache Mahout

Что такое Apache Mahout?Apache MahoutTM – библиотека масштабируемых методов машинногообучения в основном по технологии MapReduce.

Игнатов Д.И. (ML & DM) 2016 31 / 47

Page 32: Machine Learning and Data Mining2016/03/15  · Снижение размерности. Семплирование. Аномалии в данных.* 14 Технологии и методы

Big DataПроект Apache Spark

Что такое Apache Spark?“Apache SparkTM is a fast and general engine for large-scale data processing.”Включает библиотеку методов машинного обучения MLlib.Работает как с Hadoop, так и без.

Игнатов Д.И. (ML & DM) 2016 32 / 47

Page 33: Machine Learning and Data Mining2016/03/15  · Снижение размерности. Семплирование. Аномалии в данных.* 14 Технологии и методы

План лекции

1 Программа курсаОценка по курсу

2 Разработка данных и машинное обучениеО терминологииОбласти примененияТаксономия методов DM&MLТематическая экскурсия

3 Системы ML&DM, программные средства

4 Чего бы почитать и посмотреть?

Игнатов Д.И. (ML & DM) 2016 33 / 47

Page 34: Machine Learning and Data Mining2016/03/15  · Снижение размерности. Семплирование. Аномалии в данных.* 14 Технологии и методы

Системы машинного обучения и анализа данных

1 Orange (freely available)2 Weka (freely available)3 Knime (community edition for free)4 RapidMiner (community edition for free)5 Deductor (бесплатная версия для обучения)6 QuDA (freely available)

Игнатов Д.И. (ML & DM) 2016 34 / 47

Page 35: Machine Learning and Data Mining2016/03/15  · Снижение размерности. Семплирование. Аномалии в данных.* 14 Технологии и методы

Библиотеки машинного обучения и анализа данных

1 scikit-learn (freely available Machine Learning in Python)2 MALLET –– MAchine Learning for LanguagE Toolkit (freely available)3 Accord.NET Framework (.NET machine learning framework combined with

audio and image processing libraries completely written in C#)4 Infer.NET (framework for running Bayesian inference in graphical models)5 R (free software environment for statistical computing and graphics+many

packages for ML&DM)

Игнатов Д.И. (ML & DM) 2016 35 / 47

Page 36: Machine Learning and Data Mining2016/03/15  · Снижение размерности. Семплирование. Аномалии в данных.* 14 Технологии и методы

Стандарты в ML&DMhttp://www.dmg.org

PMMLЯзык разметки для прогнозного моделирования (Predictive Model MarkupLanguage — PMML) разработан Data Mining Group (DMG) на основе XML,обеспечивает приложениям способ определения моделей машинногообучения и Data Mining, а также обмен такими моделями междуPMML-совместимыми приложениями.

Игнатов Д.И. (ML & DM) 2016 36 / 47

Page 37: Machine Learning and Data Mining2016/03/15  · Снижение размерности. Семплирование. Аномалии в данных.* 14 Технологии и методы

План лекции

1 Программа курсаОценка по курсу

2 Разработка данных и машинное обучениеО терминологииОбласти примененияТаксономия методов DM&MLТематическая экскурсия

3 Системы ML&DM, программные средства

4 Чего бы почитать и посмотреть?

Игнатов Д.И. (ML & DM) 2016 37 / 47

Page 38: Machine Learning and Data Mining2016/03/15  · Снижение размерности. Семплирование. Аномалии в данных.* 14 Технологии и методы

Книги

P. Flach Machine Learning: The Art and Science of Algorithms that MakeSense of Data, 2012M. Zaki et al. Data Mining and Analysis: Fundamental Concepts andAlgorithms, 2014 (free)J. Leskovec et al. Mining of Massive Datasets, 2014 (free)C.M. Bishop Pattern Recognition and Machine Learning, 2006D. Barber Bayesian Reasoning and Machine Learning, 2012 (free)K.P. Murphy Machine Learning: a Probabilistic Perspective, 2012T. Hastie et al. Elements of Statistical Learning, 2009 (free)G. James et al. An Introduction to Statistical Learning with Applications inR, 2013 (free)J. Han et al. Data Mining. Concepts and Techniques, 2012Т. Митчелл Machine Learning, 1997Т. Сегаран Программируем коллективный разум, 2007 (на английском)Барсегян А. и др. Анализ данных и процессов, 2009

Игнатов Д.И. (ML & DM) 2016 38 / 47

Page 39: Machine Learning and Data Mining2016/03/15  · Снижение размерности. Семплирование. Аномалии в данных.* 14 Технологии и методы

Портал machinelearning.ruhttp://machinelearning.ru

Лекции К.В. Воронцова. Математические методы обучения попрецедентам (машинное обучение)Лекции Д.П. Ветрова, Д.А. Кропотова Байесовские методы машинногообучения, 2014Учебник А.Г. Дьяконова. Анализ данных, обучение по прецедентам,логические игры, системы WEKA, RapidMiner и MatLab, 2010

Игнатов Д.И. (ML & DM) 2016 39 / 47

Page 40: Machine Learning and Data Mining2016/03/15  · Снижение размерности. Семплирование. Аномалии в данных.* 14 Технологии и методы

Лекции и книга С. Николенкоhttp://logic.pdmi.ras.ru/~sergey/

Игрок Что?Где?Когда?С.Николенко, А. Тулупьев. Самообучающиеся системы 2009

Игнатов Д.И. (ML & DM) 2016 40 / 47

Page 41: Machine Learning and Data Mining2016/03/15  · Снижение размерности. Семплирование. Аномалии в данных.* 14 Технологии и методы

Coursera: курсы и специализацииhttp://www.coursera.org/

Andrew Ng. Machine LearningJiawei Han Pattern Discovery in Data MiningJure Leskovec et al. Mining Massive DatasetsHastie & Tibshirani Statistical Learning

Специализации (платные сертификаты) –– состоят из отдельных курсов(участие бесплатно)

Data MiningData Science

Игнатов Д.И. (ML & DM) 2016 41 / 47

Page 42: Machine Learning and Data Mining2016/03/15  · Снижение размерности. Семплирование. Аномалии в данных.* 14 Технологии и методы

Deep Learning (Глубинное обучение или глубокоеобучение)

Deep Learning by UdacityDeep Learning Course by NVIDIAGeoffrey Hinton. Neural Networks for Machine Learning (2012)

Игнатов Д.И. (ML & DM) 2016 42 / 47

Page 43: Machine Learning and Data Mining2016/03/15  · Снижение размерности. Семплирование. Аномалии в данных.* 14 Технологии и методы

ИНТУИТhttp://intuit.ru

Интернет-университет информационных технологийК.В. Воронцов Машинное обучение, 2015 (Видео к курсу на сайте ШАД)И.А. Чубукова. Data Mining, 2006

Игнатов Д.И. (ML & DM) 2016 43 / 47

Page 44: Machine Learning and Data Mining2016/03/15  · Снижение размерности. Семплирование. Аномалии в данных.* 14 Технологии и методы

Сообщество

IMLS – The International Machine Learning SocietyKaggle – платформа для соревнований по анализу данныхKDD Nuggets – Data Mining Community Top ResourceOpen ML – Machine Learning community portalUCI Machine Learning Repository – Репозиторий данных

Игнатов Д.И. (ML & DM) 2016 44 / 47

Page 45: Machine Learning and Data Mining2016/03/15  · Снижение размерности. Семплирование. Аномалии в данных.* 14 Технологии и методы

Конференции

ICML – International Conference on Machine LearningIEEE ICDM – IEEE International Conference on Data MiningKDD – ACM SIGKDD Conference on Knowledge Discovery and Data MiningECML & PKDD – European Conference on Machine Learning and Principlesand Practice of Knowledge Discovery in DatabasesNIPS – Neural Information Processing SystemsRecSys – The ACM conference series on Recommender SystemsИОИ & ММРО – Серия конференций «Интеллектуализация обработкиинформации»/«Математические методы распознавания образов»АИСТ – International conference on Analysis of Images, Social Networks,and Texts

Игнатов Д.И. (ML & DM) 2016 45 / 47

Page 46: Machine Learning and Data Mining2016/03/15  · Снижение размерности. Семплирование. Аномалии в данных.* 14 Технологии и методы

Just for fun или шутки радиhttp://dilbert.com

Игнатов Д.И. (ML & DM) 2016 46 / 47

Page 47: Machine Learning and Data Mining2016/03/15  · Снижение размерности. Семплирование. Аномалии в данных.* 14 Технологии и методы

Вопросы и контактыwww.hse.ru/staff/dima

Спасибо!dmitrii.ignatov[at]gmail.com

Игнатов Д.И. (ML & DM) 2016 47 / 47