Upload
others
View
9
Download
0
Embed Size (px)
Citation preview
Тема доклада: операционализация машинного обучения в облаке Azure
Евгений ГригоренкоTech. Evangelist | Microsoft CSE
DevOps Summit:микросервисы
Машинное обучение — процесс, в результате которого машина
(компьютер) способна показывать поведение, которое в нее не
было явно заложено (запрограммировано)
(Arthur Samuel, 1959)
Говорят, что компьютерная программа обучается на основе опыта E
по отношению к некоторому классу задач T и меры качества P, если
качество решения задач из T, измеренное на основе P, улучшается
с приобретением опыта E.
(Tom Mitchel, 1998)
Что такое Машинное Обучение?Это компьютерные системы, которые становятся умнее с полученным опытом.
Чем машинное обучение может вам помочь?
Социальные медиа
Предсказание погоды
Медицинская диагностика
Диагностическое обслуживание
Таргетированная реклама
Разведка природных ресурсов
Детектирование спама
Анализ данных телеметрии
Программы лояльности
Анализ оттока клиентов
Научные исследования
Оптимизация веб-приложений
Обнаружение сетевых атак
Умные системы мониторинга
Gartner Hype
ML курильщика
• 1910-е – ключевые работы
Фишера по статистике
• 1943 – работы Мак-Калокка
и Питтса по основам
нейронных сетей
• 1617-1622 – основные
работы Кеплера по
астрономии на базе
наблюдений Тихо Браге
ML нормального
человека
Глобальный процесс ML
Определение
задачи
Подготовка
данных
Обучение
модели
Проверка
результата
Работа
Обучающая выборка (training
sample) — выборка, по которой
производится настройка
(оптимизация
параметров) модели
зависимости.
Тестовая (или контрольная)
выборка (test sample) — выборка,
по которой оценивается качество
построенной модели.
Внутренний процесс ML
Определение
гипотезы
Подготовка
признаков
Обучение
модели
Проверка
результата
Обучающая выборка (training
sample) — выборка, по которой
производится настройка
(оптимизация
параметров) модели
зависимости.
Тестовая (или контрольная)
выборка (test sample) — выборка,
по которой оценивается качество
построенной модели.
Это не каскад, это итерация
100 120 140 160 180 200 220 240-0.6
-0.5
-0.4
-0.3
-0.2
-0.1
0
0.1
0.2
0 200 400 600 800 1000 1200 1400 1600 1800 2000-0.1
0
0.1
0.2
0.3
0.4
0.5
0.6
33503450355036503750385039504050415042504350445045504650475048504950505051505250535054505550565057505850595060506150625063506450655066506750
-0.6
-0.5
-0.4
-0.3
-0.2
-0.1
0
0.1
0.2
335034503550365037503850395040504150425043504450455046504750485049505050515052505350545055505650575058505950605061506250635064506550665067500
20
40
60
80
100
120
140
Постановка задачи
По возможности сводите задачу к классической и хорошо изученной.
Так вы сузите область поиска.
Чем точнее поставлена задача/гипотеза, тем измеримее итоговый результат.
Жаль, что это не всегда возможно.
Если уже есть готовое решение, а сроки горят, используйте его!
CNTK – не замена для Bing Speech API
Примеры из практики Microsoft
Партнер X: минимизация издержек завода по производству хлеба
РТС-Тендер: поиск поставщиков к закупкам на площадке
ManzanaGroup: рекомендации в Retail
Партнер Y: BI чеков с касс
The Question: поиск близких вопросов
Action Media: разбор писем
Партнер Z: оптимизация поставок в пиццерию
Партнер W: высокочастотный трейдинг
Подготовка/предобработка данных
Azure Batch
(AI Training)
Azure ML
(Studio)
Azure Data Lake
Analytics
Azure Data Lake
StoreAzure HDInsight Azure Data
Warehouse
Azure SQL
Database
Azure App
Service
Azure Functions Azure Storage Data Science
VM
Azure Service
Fabric
Azure Cloud
Service
Azure
CosmosDB
Azure Search Azure Container
Service
Azure Stream
Analytics
Azure Cognitive
Services
Azure Data
Factory
Action
People
Automated Systems
Apps
Web
Mobile
Bots
Intelligence
Dashboards &
Visualizations
Cortana
Bot
Framework
Cognitive
Services
Power BI
Information
Management
Event Hubs
Data Catalog
Data Factory
Machine Learning
and Analytics
HDInsight
Stream Analytics
Intelligence
Data Lake
Analytics
Machine
Learning
Big Data Stores
SQL Data
Warehouse
Data Lake Store
Data Sources
Apps
Sensors and devices
Data
Cortana Intelligence SuiteTransform data into intelligent action
Azure Machine LearningМощный сервис машинного обучения
и предиктивной аналитики
Apps + insightsSocial
LOB
Graph
IoT
Image
CRM INGEST STORE PREP & TRAIN MODEL & SERVE
Data orchestration and monitoring
Data lake and storage
Hadoop/Spark/SQL and ML
Increasing data volumes. New data sources and types. Open Source languages.
Azure Machine Learning
IoT
A Z U R E M A C H I N E L E A R N I N G V N E X T
• Workbench
• Experimentation service
• Model management
• Visual Studio Code Tools for AI
• MMLSpark
Azure Data Lake Store
A No limits Data Lake that powers Big Data Analytics
Petabyte size files and Trillions of objects
Scalable throughput for massively parallel
analytics
HDFS for the cloud
Always encrypted, role-based security &
auditing
Enterprise-grade support
Azure Data Lake Analytics
A No limits Analytics Job Service to power intelligent action
Start in seconds, scale instantly, pay per job
Develop massively parallel programs with
simplicity
Debug and optimize your big data programs
with ease
Virtualize your analytics
Enterprise-grade security, auditing and
support
Azure HDInsight
A Cloud Spark and Hadoop service for the Enterprise
Reliable with an industry leading SLA
Enterprise-grade security and monitoring
Productive platform for developers and
scientists
Cost effective cloud scale
Integration with leading ISV applications
Easy for administrators to manage
63% lower TCO than deploy your own
Hadoop on-premises*
*IDC study “The Business Value and TCO Advantage of Apache Hadoop in the Cloud with Microsoft Azure HDInsight”
Applications
Legacy IOT (custom protocols)
Devices
IP-capable devices(Windows/Linux)
Low-power devices (RTOS)
Event Hubs
SQL DB
Storage Blobs and Tables
Power BI
Document DB
Reference
Data
Service Bus Queues, Topics
Azure Data Lake
Saas
Azure
PublicCloud
Office 365Office 365
AzureAzure
Azure Data Factory
Collect data from many different on-premises data sources, ingest and prepare it, organize and analyze it with a range of transformations, then publish ready-to-use
data for consumption
Подготовка/предобработка данных
Azure Batch
(AI Training)
Azure ML
(Studio)
Azure Data Lake
Analytics
Azure Data Lake
StoreAzure HDInsight Azure Data
Warehouse
Azure SQL
Database
Azure App
Service
Azure Functions Azure Storage Data Science
VM
Azure Service
Fabric
Azure Cloud
Service
Azure
CosmosDB
Azure Search Azure Container
Service
Azure Stream
Analytics
Azure Cognitive
Services
Azure Data
Factory
Примеры из практики Microsoft
Партнер X: минимизация издержек завода по производству хлеба
РТС-Тендер: поиск поставщиков к закупкам на площадке
Manzana Group: рекомендации в Retail
Партнер Y: BI чеков с касс
The Question: поиск близких вопросов
Action Media: разбор писем
Партнер Z: оптимизация поставок в пиццерию
Партнер W: высокочастотный трейдинг
Выбор и обучение модели
Azure Batch
(AI Training)
Azure ML
(Studio)
Azure Data Lake
Analytics
Azure Data Lake
StoreAzure HDInsight Azure Data
Warehouse
Azure SQL
Database
Azure App
Service
Azure Functions Azure Storage Data Science
VM
Azure Service
Fabric
Azure Cloud
Service
Azure
CosmosDB
Azure Search Azure Container
Service
Azure Stream
Analytics
Azure Cognitive
Services
Azure Data
Factory
Примеры из практики Microsoft
Патнер X: минимизация издержек завода по производству хлеба
РТС-Тендер: поиск поставщиков к закупкам на площадке
ManzanaGroup: рекомендации в Retail
Партнер Y: BI чеков с касс
The Question: поиск близких вопросов
Action Media: разбор писем
Партнер Z: оптимизация поставок в пиццерию
Партнер W: высокочастотный трейдинг
Внедрение
Azure Batch
(AI Training)
Azure ML
(Studio)
Azure Data Lake
Analytics
Azure Data Lake
StoreAzure HDInsight Azure Data
Warehouse
Azure SQL
Database
Azure App
Service
Azure Functions Azure Storage Data Science
VM
Azure Service
Fabric
Azure Cloud
Service
Azure
CosmosDB
Azure Search Azure Container
Service
Azure Stream
Analytics
Azure Cognitive
Services
Azure Data
Factory
Примеры из практики Microsoft
Партнер X: минимизация издержек завода по производству хлеба
РТС-Тендер: поиск поставщиков к закупкам на площадке
ManzanaGroup: рекомендации в Retail
Партнер Y: BI чеков с касс
The Question: поиск близких вопросов
Action Media: разбор писем
Партнер Z: оптимизация поставок в пиццерию
Партнер W: высокочастотный трейдинг
Глобальная задача НИИ НДХиТИсходные данные: анализ КЩС крови пациентов реанимации НИИ НДХиТ.
Глобальная задача: выявление скрытой информации о состоянии пациента, поиск метода поддержки принятия решений
Метод проверки результатов: ретроспективное сравнение с историями болезней/онлайн мониторинг с попытками предсказания
𝐻𝑏 𝐾+ 𝑁𝑎+ 𝐶𝑎+ 𝑝𝐻 𝑝𝐶02 𝑝𝑂2 𝑠𝑂2 𝐵𝐸 𝐺𝑙𝑢 𝐿𝑎𝑐 𝐵𝑖𝑙
Визуализация данных НИИ НДХиТВизуализация 16-мерного пространства исходных данных
Выборка: данные за последний день перед выпиской из реанимации, окрашенные исходом
Гипотеза: данные разделимы
Проверка результатов НИИ НДХиТ
1 2 3 4 5 6 7 8 9 10 11 12 13
-10
-5
0
5
10
01 02 03 04 05 06 07 08 09 10 11 12 13 14 15
-10
-5
0
5
10