19
#DevoxxFR @cfalguiere Devoxx France 2016 Claude Falguière @cfalguiere 1 https://github.com/cfalguiere/H2ODemo/blob/master/h2o-devoxx-2016.pdf www.h2o.ai H2O Le Machine Learning sans coder … ou presque

H2O , Le machine learning sans coder ou presque - Devoxx france 2016

Embed Size (px)

Citation preview

#DevoxxFR @cfalguiere

Devoxx France 2016 Claude Falguière @cfalguiere

�1

https://github.com/cfalguiere/H2ODemo/blob/master/h2o-devoxx-2016.pdf

www.h2o.ai

H2O Le Machine Learning sans coder … ou presque

#DevoxxFR @cfalguiere �2

Open Source Math & Machine learning for Big Data!!

importer et parser des sources manipuler les dataframes

ajuster un modèle prédictif calculer une prédiction

sauver les modèles et les réutiliser

#DevoxxFR @cfalguiere �3

Source Wikipedia

20

192

27 76 77

24 80 14

6 140 57

Données Titanic

#DevoxxFR @cfalguiere �4

Données connues

Ajustement d’un Modèle Prédictif

Nouvelles données

Calcul d’une Prédiction

#DevoxxFR @cfalguiere �5

Class (x1)

Age (x2)

Sex (x3)

Survived (x4)

1 42 1 1

3 26 1 0

2 33 2 1

2 6 1 1

Par exemple déterminer p0, p1, p2, p3 pour que

p0 + p1x1 + p2x2 + p3x3 = x4

fixer p0, p1, p2, p3 calculer x’4

évaluer l’écart avec x4 (Loss function) Adapter p0, p1, p2, p3 pour minimiser l’écart itérer

Machine Learning

Données

Modèle

#DevoxxFR @cfalguiere �6

Données connues

!

Entrainement d’un modèle prédictif

Jeu d’entraînement Jeu de validation

Prédiction et vérification

!

Modèle potentiel

!

Modèle validé

#DevoxxFR @cfalguiere �7

Nouvelles données

PrédictionJeu de travail+ ->!

Modèle validé

#DevoxxFR @cfalguiere �8

Données

p0

p1

p2

p3

C A Sx Su

1 42 1 13 26 1 02 33 2 12 6 1 1

Modèle Prédiction

Su’

1011

#DevoxxFR @cfalguiere �9

C A Sx Su

1 42 1 13 26 1 02 33 2 12 6 1 1

Su’

1011

p0

p1

p2

p3

p0

p1

p2

p3

p0

p1

p2

p3

p0 p0 p3

p0 p0 p3

p0 p0 p3

p0

p1

p2

p3

Réseau de neurones

Données Modèle Prédiction

#DevoxxFR @cfalguiere

Menu pour générer les cellules et autres actions

H2O Flow

�10

Les cellules contiennent Une instruction H2O ou du texte ou du code R ou Python

L’ensemble des cellules constitue un Flow

#DevoxxFR @cfalguiere �11

DémoH2O Flow

#DevoxxFR @cfalguiere �12

Jeu préparé !classe, sexe, adulte/enfant!

avec équipage

Distributed Random ForestDistributed Random Forest

Jeu détaillé !avec en plus âge, poids, bateau, destination !

passagers seulement

Deep Learning

#DevoxxFR @cfalguiere

Algorithmes dans H2O

�13

Supervised*learning*!On!a!un!jeu!de!données!dont!on!connait!les!réponses!et!on!veut!une!formule!pour!es5mer!la!réponse!sur!d’autres!jeux!de!données!

#DevoxxFR @cfalguiere �14

Unsupervised+learning+!On!recherche!!une!formule!perme.ant!de!définir!des!!groupes!d’observa:ons!se!ressemblant!ou!suivant!le!même!pa.ern.!

Algorithmes dans H2O

#DevoxxFR @cfalguiere �15

Autre

Pré-requis Java

Architectures

Flow UI API REST Langages Bindings R et Python Tout en mémoire RAM = 4 x Data

#DevoxxFR @cfalguiere

Clusters

�16

Peut constituer son propre cluster Ou fonctionner sur des clusters Spark ou Hadoop existants Versions spécifiques Hadoop Sparkling Water pour Spark Même mode de fonctionnement

#DevoxxFR @cfalguiere

APIs

�17

#DevoxxFR @cfalguiere �18

H2O Flow est attractif Utilisation très facile du cluster Hadoop Essayer des modèles très rapidement !

Conclusion

Compléter avec l’API!

Combiner les modèles Intégrer la préparation des données Industrialiser

Prise en main facile!

#DevoxxFR @cfalguiere �19

Merci !

Avez vous des questions ?