109
Julien Diard — LPNC-CNRS Cours EDISCE/EDMSTII - M2R Sciences Cognitives, « Cognition bayésienne » — 2012 1 Cours 5 Julien Diard Laboratoire de Psychologie et NeuroCognition – CNRS UE Cognition bayésienne 18/01/2012 http://diard.wordpress.com Julien.Diard@upmf- grenoble.fr

Julien Diard LPNC-CNRS Cours EDISCE/EDMSTII - M2R Sciences Cognitives, « Cognition bayésienne » 2012 1 Cours 5 Julien Diard Laboratoire de Psychologie

Embed Size (px)

Citation preview

Page 1: Julien Diard LPNC-CNRS Cours EDISCE/EDMSTII - M2R Sciences Cognitives, « Cognition bayésienne » 2012 1 Cours 5 Julien Diard Laboratoire de Psychologie

Julien Diard — LPNC-CNRSCours EDISCE/EDMSTII - M2R Sciences Cognitives, « Cognition bayésienne » — 2012 1

Cours 5

Julien DiardLaboratoire de Psychologie et NeuroCognition – CNRS

UE Cognition bayésienne18/01/2012

http://diard.wordpress.com [email protected]

Page 2: Julien Diard LPNC-CNRS Cours EDISCE/EDMSTII - M2R Sciences Cognitives, « Cognition bayésienne » 2012 1 Cours 5 Julien Diard Laboratoire de Psychologie

Julien Diard — LPNC-CNRSCours EDISCE/EDMSTII - M2R Sciences Cognitives, « Cognition bayésienne » — 2012 2

Plan des cours1. Introduction à la Programmation Bayésienne :

incomplétude, incertitude2. Programmation bayésienne : exemple détaillé,

Classes de modèles probabilistes3. Distributions usuelles, Programmation

bayésienne des robots4. Modélisation bayésienne de la perception et de

l’action5. Comparaison bayésienne de modèles6. Compléments : inférence, apprentissage,

principe d’entropie

Page 3: Julien Diard LPNC-CNRS Cours EDISCE/EDMSTII - M2R Sciences Cognitives, « Cognition bayésienne » 2012 1 Cours 5 Julien Diard Laboratoire de Psychologie

Julien Diard — LPNC-CNRSCours EDISCE/EDMSTII - M2R Sciences Cognitives, « Cognition bayésienne » — 2012 3

Plan• Résumé + questions !• Comparaison et sélection de modèles

– Cadre général : fit, complexité, capacité de généralisation– Méthodes de validation croisée– Apparté : mesures de distance entre distribution de probabilités

• Sélection bayésienne de modèles– Sélection probabiliste vs. Bayésienne– Tel monsieur Jourdain… un exemple– Apparté : vocabulaire– Sélection « bayésienne » de modèles : AIC, BIC, MDL, BMS– Sélection bayésienne de modèles

• Questions ouvertes

• Modélisation de la perception et de l’action– Exemple : boucle perception et action de la lecture et l’écriture

• Modélisation : choix des variables

Page 4: Julien Diard LPNC-CNRS Cours EDISCE/EDMSTII - M2R Sciences Cognitives, « Cognition bayésienne » 2012 1 Cours 5 Julien Diard Laboratoire de Psychologie

Julien Diard — LPNC-CNRSCours EDISCE/EDMSTII - M2R Sciences Cognitives, « Cognition bayésienne » — 2012 4

Plan• Résumé + questions !• Comparaison et sélection de modèles

– Cadre général : fit, complexité, capacité de généralisation– Méthodes de validation croisée– Apparté : mesures de distance entre distribution de probabilités

• Sélection bayésienne de modèles– Sélection probabiliste vs. Bayésienne– Tel monsieur Jourdain… un exemple– Apparté : vocabulaire– Sélection « bayésienne » de modèles : AIC, BIC, MDL, BMS– Sélection bayésienne de modèles

• Questions ouvertes

• Modélisation de la perception et de l’action– Exemple : boucle perception et action de la lecture et l’écriture

• Modélisation : choix des variables

Page 5: Julien Diard LPNC-CNRS Cours EDISCE/EDMSTII - M2R Sciences Cognitives, « Cognition bayésienne » 2012 1 Cours 5 Julien Diard Laboratoire de Psychologie

Julien Diard — LPNC-CNRSCours EDISCE/EDMSTII - M2R Sciences Cognitives, « Cognition bayésienne » — 2012 5

P Vrot Vtrans px0..px7 lm0..lm7 veille feu obj? eng tach_t -1 td_t -1 tempo tour dir prox dirG proxG vtrans_c dnv mnv mld per

πWatchman

⎝ ⎜ ⎜

⎠ ⎟ ⎟

=1Z

P Td Tach

td_t - 1 tempo tour πMoove

⎝ ⎜

⎠ ⎟

P Tach

Base

veille feu obj?

eng tach_t - 1

πTask

⎜ ⎜ ⎜

⎟ ⎟ ⎟

P Base px0...px7

lm0...lm7 πBase

⎝ ⎜

⎠ ⎟

⎜ ⎜ ⎜ ⎜ ⎜ ⎜

⎟ ⎟ ⎟ ⎟ ⎟ ⎟

Base∑

⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜

⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟

Tach∑

P ThetaL DistL lm0..lm7 πFusion( )DistL∑

P H prox πHoming( )

P Vrot Vtrans H Td ThetaL

dir prox dirG proxG vtrans_c πWatchman

⎝ ⎜

⎠ ⎟

⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜

⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟

TdThetaL H

∑ .

• Inférence exacte – sommation, propagation

des incertitudes

• Inférence approximée– décisions intermédiaires

(tirage de points), propagation d’une partie des incertitudes

Page 6: Julien Diard LPNC-CNRS Cours EDISCE/EDMSTII - M2R Sciences Cognitives, « Cognition bayésienne » 2012 1 Cours 5 Julien Diard Laboratoire de Psychologie

Julien Diard — LPNC-CNRSCours EDISCE/EDMSTII - M2R Sciences Cognitives, « Cognition bayésienne » — 2012 6

Modélisation de la

perception• Perception

– Un problème inverse (Poggio, 1984)

• Modèle bayésien– Inversion + hypothèse

d’indépendance conditionnelle–

S1

S2

Sn

V

S1S2Sn

V?

P S1S2K SnV | C( )

= P V | C( )P S1 |VC( )P S2 |VC( )K P Sn |VC( )

stimulus

sensations

perception

Page 7: Julien Diard LPNC-CNRS Cours EDISCE/EDMSTII - M2R Sciences Cognitives, « Cognition bayésienne » 2012 1 Cours 5 Julien Diard Laboratoire de Psychologie

Julien Diard — LPNC-CNRSCours EDISCE/EDMSTII - M2R Sciences Cognitives, « Cognition bayésienne » — 2012 7

Humans integrate visual and haptic information in a

statistically optimal fashion

• Mécanisme d’integration visuo-haptique par fusion de gaussiennes

• Utilisé par les humains

Page 8: Julien Diard LPNC-CNRS Cours EDISCE/EDMSTII - M2R Sciences Cognitives, « Cognition bayésienne » 2012 1 Cours 5 Julien Diard Laboratoire de Psychologie

Julien Diard — LPNC-CNRSCours EDISCE/EDMSTII - M2R Sciences Cognitives, « Cognition bayésienne » — 2012 8

Causal inference (Körding et al., 07; Sato et al., 07)

• Y a-t-il une source unique, ou deux sources distinctes ?

Page 9: Julien Diard LPNC-CNRS Cours EDISCE/EDMSTII - M2R Sciences Cognitives, « Cognition bayésienne » 2012 1 Cours 5 Julien Diard Laboratoire de Psychologie

Julien Diard — LPNC-CNRSCours EDISCE/EDMSTII - M2R Sciences Cognitives, « Cognition bayésienne » — 2012 9

Plan• Résumé + questions !• Comparaison et sélection de modèles

– Cadre général : fit, complexité, capacité de généralisation– Méthodes de validation croisée– Apparté : mesures de distance entre distribution de probabilités

• Sélection bayésienne de modèles– Sélection probabiliste vs. Bayésienne– Tel monsieur Jourdain… un exemple– Apparté : vocabulaire– Sélection « bayésienne » de modèles : AIC, BIC, MDL, BMS– Sélection bayésienne de modèles

• Questions ouvertes

• Modélisation de la perception et de l’action– Exemple : boucle perception et action de la lecture et l’écriture

• Modélisation : choix des variables

Page 10: Julien Diard LPNC-CNRS Cours EDISCE/EDMSTII - M2R Sciences Cognitives, « Cognition bayésienne » 2012 1 Cours 5 Julien Diard Laboratoire de Psychologie

Julien Diard — LPNC-CNRSCours EDISCE/EDMSTII - M2R Sciences Cognitives, « Cognition bayésienne » — 2012 10

Sources

Page 11: Julien Diard LPNC-CNRS Cours EDISCE/EDMSTII - M2R Sciences Cognitives, « Cognition bayésienne » 2012 1 Cours 5 Julien Diard Laboratoire de Psychologie

Julien Diard — LPNC-CNRSCours EDISCE/EDMSTII - M2R Sciences Cognitives, « Cognition bayésienne » — 2012 11

Devinette n° 1

• Quel est le suivant ?– {1, 3, 5, 7, 9, 11, ?}– {1, 1, 2, 3, 5, 8, 13, ?}– {0, 4, 7, 6, 8, 2, 5, 8, 9, ?}

Page 12: Julien Diard LPNC-CNRS Cours EDISCE/EDMSTII - M2R Sciences Cognitives, « Cognition bayésienne » 2012 1 Cours 5 Julien Diard Laboratoire de Psychologie

Julien Diard — LPNC-CNRSCours EDISCE/EDMSTII - M2R Sciences Cognitives, « Cognition bayésienne » — 2012 12

Réponses

– {1, 3, 5, 7, 9, 11, ?} 42– {1, 1, 2, 3, 5, 8, 13, ?} 42– {0, 4, 7, 6, 8, 2, 5, 8, 9, ?} 42

Page 13: Julien Diard LPNC-CNRS Cours EDISCE/EDMSTII - M2R Sciences Cognitives, « Cognition bayésienne » 2012 1 Cours 5 Julien Diard Laboratoire de Psychologie

Julien Diard — LPNC-CNRSCours EDISCE/EDMSTII - M2R Sciences Cognitives, « Cognition bayésienne » — 2012 13

Devinette n° 2

• Combien de méthodes pour définir une relation mathématique ?

Page 14: Julien Diard LPNC-CNRS Cours EDISCE/EDMSTII - M2R Sciences Cognitives, « Cognition bayésienne » 2012 1 Cours 5 Julien Diard Laboratoire de Psychologie

Julien Diard — LPNC-CNRSCours EDISCE/EDMSTII - M2R Sciences Cognitives, « Cognition bayésienne » — 2012 14

• Combien de méthodes pour définir une relation mathématique ?

– Par fonction analytique f• E F• x | f(x)

– Par extension• Ensemble de points• (pas pratique pour un

ensemble infini)

Page 15: Julien Diard LPNC-CNRS Cours EDISCE/EDMSTII - M2R Sciences Cognitives, « Cognition bayésienne » 2012 1 Cours 5 Julien Diard Laboratoire de Psychologie

Julien Diard — LPNC-CNRSCours EDISCE/EDMSTII - M2R Sciences Cognitives, « Cognition bayésienne » — 2012 15

Quelle méthode pour la devinette ?

• Passage de points à une fonction

• Utilisation de la fonction pour prédire le point suivant

≅ Modélisation

Page 16: Julien Diard LPNC-CNRS Cours EDISCE/EDMSTII - M2R Sciences Cognitives, « Cognition bayésienne » 2012 1 Cours 5 Julien Diard Laboratoire de Psychologie

Julien Diard — LPNC-CNRSCours EDISCE/EDMSTII - M2R Sciences Cognitives, « Cognition bayésienne » — 2012 16

Modélisation : méthode

• Définir une classe de modèles M

• Définir une mesure de « qualité »

• Sélectionner le modèle dans M qui maximise la mesure

mod

élis

ati

on data set

set of models set of parameters

Page 17: Julien Diard LPNC-CNRS Cours EDISCE/EDMSTII - M2R Sciences Cognitives, « Cognition bayésienne » 2012 1 Cours 5 Julien Diard Laboratoire de Psychologie

Julien Diard — LPNC-CNRSCours EDISCE/EDMSTII - M2R Sciences Cognitives, « Cognition bayésienne » — 2012 17

Modélisation

• Méthode très générale !– Machine learning

• Réseau de neurone• Algorithmes

génétiques• Apprentissage

bayésien

– Curve fitting– Optimisation– Regression

mod

élis

ati

on data set

set of models set of parameters

Page 18: Julien Diard LPNC-CNRS Cours EDISCE/EDMSTII - M2R Sciences Cognitives, « Cognition bayésienne » 2012 1 Cours 5 Julien Diard Laboratoire de Psychologie

Julien Diard — LPNC-CNRSCours EDISCE/EDMSTII - M2R Sciences Cognitives, « Cognition bayésienne » — 2012 18

Précaution

• Toute l’activité scientifique n’est pas que la modélisation

– Modèle vs. Théorie– Modèle vs. Expérience

Page 19: Julien Diard LPNC-CNRS Cours EDISCE/EDMSTII - M2R Sciences Cognitives, « Cognition bayésienne » 2012 1 Cours 5 Julien Diard Laboratoire de Psychologie

Julien Diard — LPNC-CNRSCours EDISCE/EDMSTII - M2R Sciences Cognitives, « Cognition bayésienne » — 2012 19

Mesures de qualité de modèles• Falsifiability (réfutabilité, pas falsifiabilité !)

– Existe-t-il des observations incompatibles ?

• Explanatory adequacy– Make sense of the data but also of established findings

• Interpretability– Réifiabilité : les paramètres sont liés à d’autres processus

• Faithfulness– La qualité du modèle vient de sa structure, pas de propriétés

du calcul, ni de la simulation

• Goodness of fit• Complexity (or simplicity)• Generalizability

(Karl Popper, La connaissance objective, 1985)(Léna Soler, Introduction à l’épistémologie, 2000)

(Myung, 2003)

Page 20: Julien Diard LPNC-CNRS Cours EDISCE/EDMSTII - M2R Sciences Cognitives, « Cognition bayésienne » 2012 1 Cours 5 Julien Diard Laboratoire de Psychologie

Julien Diard — LPNC-CNRSCours EDISCE/EDMSTII - M2R Sciences Cognitives, « Cognition bayésienne » — 2012 20

Mesures de qualité de fit

• Residual• Pourcentage de la variance

– Percent variance accounted for PVAF

• Root mean square deviation RMSD= root mean square error RMSE

Page 21: Julien Diard LPNC-CNRS Cours EDISCE/EDMSTII - M2R Sciences Cognitives, « Cognition bayésienne » 2012 1 Cours 5 Julien Diard Laboratoire de Psychologie

Julien Diard — LPNC-CNRSCours EDISCE/EDMSTII - M2R Sciences Cognitives, « Cognition bayésienne » — 2012 21

Mesures de qualité de fit

• Correlation coefficient R2

– aka• Pearson’s sample correlation coefficient• Simple correlation coefficient• Cross-correlation coefficient• Product-moment coefficient

• Formes multidimensionnelles– Matricielles– Multiple Correlation Coefficient R

Page 22: Julien Diard LPNC-CNRS Cours EDISCE/EDMSTII - M2R Sciences Cognitives, « Cognition bayésienne » 2012 1 Cours 5 Julien Diard Laboratoire de Psychologie

Julien Diard — LPNC-CNRSCours EDISCE/EDMSTII - M2R Sciences Cognitives, « Cognition bayésienne » — 2012 22

Correlation coefficient

Page 23: Julien Diard LPNC-CNRS Cours EDISCE/EDMSTII - M2R Sciences Cognitives, « Cognition bayésienne » 2012 1 Cours 5 Julien Diard Laboratoire de Psychologie

Julien Diard — LPNC-CNRSCours EDISCE/EDMSTII - M2R Sciences Cognitives, « Cognition bayésienne » — 2012 23

Correlation coefficient

• r = 0.816

• Explorer les données !

Page 24: Julien Diard LPNC-CNRS Cours EDISCE/EDMSTII - M2R Sciences Cognitives, « Cognition bayésienne » 2012 1 Cours 5 Julien Diard Laboratoire de Psychologie

Julien Diard — LPNC-CNRSCours EDISCE/EDMSTII - M2R Sciences Cognitives, « Cognition bayésienne » — 2012 24

Fit vs complexity

• Fit to regularity– Intéressant à

modéliser

• Fit to experimental noise– Pas intéressant

Page 25: Julien Diard LPNC-CNRS Cours EDISCE/EDMSTII - M2R Sciences Cognitives, « Cognition bayésienne » 2012 1 Cours 5 Julien Diard Laboratoire de Psychologie

Julien Diard — LPNC-CNRSCours EDISCE/EDMSTII - M2R Sciences Cognitives, « Cognition bayésienne » — 2012 25

Théorème

• Par n points passe un unique polynôme de degré n-1– n points (ou contraintes)– Polynôme degré n-1 a n paramètres

• f(x) = ax2 + bx + c

• Par deux points passe une unique droite• Par trois points passe une unique

parabole

Page 26: Julien Diard LPNC-CNRS Cours EDISCE/EDMSTII - M2R Sciences Cognitives, « Cognition bayésienne » 2012 1 Cours 5 Julien Diard Laboratoire de Psychologie

Julien Diard — LPNC-CNRSCours EDISCE/EDMSTII - M2R Sciences Cognitives, « Cognition bayésienne » — 2012 26

Théorème• Par n points passe un unique polynôme

de degré n-1

• Idem– développement limité de Taylor– Transformée de Fourier– Somme de noyaux Gaussiens

avec assez de paramètres, on approxime tout

Page 27: Julien Diard LPNC-CNRS Cours EDISCE/EDMSTII - M2R Sciences Cognitives, « Cognition bayésienne » 2012 1 Cours 5 Julien Diard Laboratoire de Psychologie

Julien Diard — LPNC-CNRSCours EDISCE/EDMSTII - M2R Sciences Cognitives, « Cognition bayésienne » — 2012 27

Fit vs complexity

overfitting

underfitting

« sweet spot »

Page 28: Julien Diard LPNC-CNRS Cours EDISCE/EDMSTII - M2R Sciences Cognitives, « Cognition bayésienne » 2012 1 Cours 5 Julien Diard Laboratoire de Psychologie

Julien Diard — LPNC-CNRSCours EDISCE/EDMSTII - M2R Sciences Cognitives, « Cognition bayésienne » — 2012 28

Complexité d’un modèle = Nombre de paramètres + Forme

fonctionnelle

– M1 : y = sin(cos(ax))aexp(-bx)/xb

– M2 : y = axb

– M3 : y = ax + b

a=12b=1

Page 29: Julien Diard LPNC-CNRS Cours EDISCE/EDMSTII - M2R Sciences Cognitives, « Cognition bayésienne » 2012 1 Cours 5 Julien Diard Laboratoire de Psychologie

Julien Diard — LPNC-CNRSCours EDISCE/EDMSTII - M2R Sciences Cognitives, « Cognition bayésienne » — 2012 29

Fonctionnelle de Tikhonov

• Mesure à minimiser– R(M, Δ) = GM(Δ) + λ H(M)

– GM(Δ) mesure de fit

– H(M) mesure de complexité • indépendante de Δ

– λ : poids relatif• Compromis à résoudre : complexity

regularization (central en machine learning)

Page 30: Julien Diard LPNC-CNRS Cours EDISCE/EDMSTII - M2R Sciences Cognitives, « Cognition bayésienne » 2012 1 Cours 5 Julien Diard Laboratoire de Psychologie

Julien Diard — LPNC-CNRSCours EDISCE/EDMSTII - M2R Sciences Cognitives, « Cognition bayésienne » — 2012 30

Page 31: Julien Diard LPNC-CNRS Cours EDISCE/EDMSTII - M2R Sciences Cognitives, « Cognition bayésienne » 2012 1 Cours 5 Julien Diard Laboratoire de Psychologie

Julien Diard — LPNC-CNRSCours EDISCE/EDMSTII - M2R Sciences Cognitives, « Cognition bayésienne » — 2012 31

Generalizability

Fit sur les points observés

Fit sur les points pas encore observés

overfittingunderfitting « sweet spot »

Page 32: Julien Diard LPNC-CNRS Cours EDISCE/EDMSTII - M2R Sciences Cognitives, « Cognition bayésienne » 2012 1 Cours 5 Julien Diard Laboratoire de Psychologie

Julien Diard — LPNC-CNRSCours EDISCE/EDMSTII - M2R Sciences Cognitives, « Cognition bayésienne » — 2012 32

Mesure de generalisation

– Mesure de la divergence moyenne (discrepancy) entre un modèle M et le vrai modèle MT

– Mesure de divergence entre distribution de probabilité D

– D(f,g) > D(f,f)=0 si f ≠ g€

E D(M, MT )[ ] = D(P(Δ ˆ θ M),P(Δ MT ))P(Δ MT )dy∫

Page 33: Julien Diard LPNC-CNRS Cours EDISCE/EDMSTII - M2R Sciences Cognitives, « Cognition bayésienne » 2012 1 Cours 5 Julien Diard Laboratoire de Psychologie

Julien Diard — LPNC-CNRSCours EDISCE/EDMSTII - M2R Sciences Cognitives, « Cognition bayésienne » — 2012 33

Mesure de generalisation

• Mesure de la divergence moyenne (discrepancy) entre un modèle M et le vrai modèle MT

• MT est évidemment inconnu

E D(M,MT )[ ] = D(P(Δ ˆ θ M),P(Δ MT ))P(Δ MT )dy∫

Page 34: Julien Diard LPNC-CNRS Cours EDISCE/EDMSTII - M2R Sciences Cognitives, « Cognition bayésienne » 2012 1 Cours 5 Julien Diard Laboratoire de Psychologie

Julien Diard — LPNC-CNRSCours EDISCE/EDMSTII - M2R Sciences Cognitives, « Cognition bayésienne » — 2012 34

Plan• Résumé + questions !• Comparaison et sélection de modèles

– Cadre général : fit, complexité, capacité de généralisation– Méthodes de validation croisée– Apparté : mesures de distance entre distribution de probabilités

• Sélection bayésienne de modèles– Sélection probabiliste vs. Bayésienne– Tel monsieur Jourdain… un exemple– Apparté : vocabulaire– Sélection « bayésienne » de modèles : AIC, BIC, MDL, BMS– Sélection bayésienne de modèles

• Questions ouvertes

• Modélisation de la perception et de l’action– Exemple : boucle perception et action de la lecture et l’écriture

• Modélisation : choix des variables

Page 35: Julien Diard LPNC-CNRS Cours EDISCE/EDMSTII - M2R Sciences Cognitives, « Cognition bayésienne » 2012 1 Cours 5 Julien Diard Laboratoire de Psychologie

Julien Diard — LPNC-CNRSCours EDISCE/EDMSTII - M2R Sciences Cognitives, « Cognition bayésienne » — 2012 35

Cross-validation (CV)

• Estimer la généralisation du modèle sans connaître le vrai modèle– Partitionner les données Δ– Identification de

paramètres sur la partie calibration

– Estimation de la capacité de généralisation sur la partie validation

Page 36: Julien Diard LPNC-CNRS Cours EDISCE/EDMSTII - M2R Sciences Cognitives, « Cognition bayésienne » 2012 1 Cours 5 Julien Diard Laboratoire de Psychologie

Julien Diard — LPNC-CNRSCours EDISCE/EDMSTII - M2R Sciences Cognitives, « Cognition bayésienne » — 2012 36

Méthodes de CV• Split-sample, hold-out method• Split-half cross-validation

– Coupe en deux Δ = Δ1, Δ2

– Estime les paramètres sur Δ1

– Calcule l’erreur de prédiction sur Δ2 e1

– Intervertir Δ1, Δ2, recommencer e2

• Validation croisée

– Erreur de prédiction finale : moyenne des erreurs de prédiction (e1 + e2) / 2

Page 37: Julien Diard LPNC-CNRS Cours EDISCE/EDMSTII - M2R Sciences Cognitives, « Cognition bayésienne » 2012 1 Cours 5 Julien Diard Laboratoire de Psychologie

Julien Diard — LPNC-CNRSCours EDISCE/EDMSTII - M2R Sciences Cognitives, « Cognition bayésienne » — 2012 37

Méthodes de CV

• Leave-one-out cross-validation– Découper en n-1 données pour

l’identification, et 1 donnée pour l’erreur de prédiction

– Répéter n fois– Erreur de prédiction moyenne sur les

n étapes

Page 38: Julien Diard LPNC-CNRS Cours EDISCE/EDMSTII - M2R Sciences Cognitives, « Cognition bayésienne » 2012 1 Cours 5 Julien Diard Laboratoire de Psychologie

Julien Diard — LPNC-CNRSCours EDISCE/EDMSTII - M2R Sciences Cognitives, « Cognition bayésienne » — 2012 38

Méthodes de CV

• K-fold cross-validation– K blocs de taille n/K– Données pour l’identification : K-1

blocs (taille n-n/K)– Données pour la prédiction : 1 bloc

(taille n/K)– Idem leave-n/K-out– Choix de K change le résultat

Page 39: Julien Diard LPNC-CNRS Cours EDISCE/EDMSTII - M2R Sciences Cognitives, « Cognition bayésienne » 2012 1 Cours 5 Julien Diard Laboratoire de Psychologie

Julien Diard — LPNC-CNRSCours EDISCE/EDMSTII - M2R Sciences Cognitives, « Cognition bayésienne » — 2012 39

Méthode de CV

• Bootstrapping– Tirage avec replacement

subsamples au lieu de subsets des données

– .632+ bootstrap method• 63,2 % de Δ pour l’identification

Page 40: Julien Diard LPNC-CNRS Cours EDISCE/EDMSTII - M2R Sciences Cognitives, « Cognition bayésienne » 2012 1 Cours 5 Julien Diard Laboratoire de Psychologie

Julien Diard — LPNC-CNRSCours EDISCE/EDMSTII - M2R Sciences Cognitives, « Cognition bayésienne » — 2012 40

Critique de la CV

• Large training set overfitting• Small training set underfitting• Trouver le bon découpage

– même problème que trouver la bonne pondération dans la fonctionnelle de Tikhonov

• Rien résolu (mais facile à coder)

Page 41: Julien Diard LPNC-CNRS Cours EDISCE/EDMSTII - M2R Sciences Cognitives, « Cognition bayésienne » 2012 1 Cours 5 Julien Diard Laboratoire de Psychologie

Julien Diard — LPNC-CNRSCours EDISCE/EDMSTII - M2R Sciences Cognitives, « Cognition bayésienne » — 2012 41

Plan• Résumé + questions !• Comparaison et sélection de modèles

– Cadre général : fit, complexité, capacité de généralisation– Méthodes de validation croisée– Apparté : mesures de distance entre distribution de probabilités

• Sélection bayésienne de modèles– Sélection probabiliste vs. Bayésienne– Tel monsieur Jourdain… un exemple– Apparté : vocabulaire– Sélection « bayésienne » de modèles : AIC, BIC, MDL, BMS– Sélection bayésienne de modèles

• Questions ouvertes

• Modélisation de la perception et de l’action– Exemple : boucle perception et action de la lecture et l’écriture

• Modélisation : choix des variables

Page 42: Julien Diard LPNC-CNRS Cours EDISCE/EDMSTII - M2R Sciences Cognitives, « Cognition bayésienne » 2012 1 Cours 5 Julien Diard Laboratoire de Psychologie

Julien Diard — LPNC-CNRSCours EDISCE/EDMSTII - M2R Sciences Cognitives, « Cognition bayésienne » — 2012 42

Mesures de distances entre distributions de

probabilités• Déf : Une métrique est une

fonction g non-négative telle que– Inégalité triangulaire g(x,y)+g(y,z) ≥

g(x,z)– Symétrique g(x,y) = g(y,x)– g(x,x) = 0– g(x,y) = 0 => x = y

Page 43: Julien Diard LPNC-CNRS Cours EDISCE/EDMSTII - M2R Sciences Cognitives, « Cognition bayésienne » 2012 1 Cours 5 Julien Diard Laboratoire de Psychologie

Julien Diard — LPNC-CNRSCours EDISCE/EDMSTII - M2R Sciences Cognitives, « Cognition bayésienne » — 2012 43

Mesures de distances entre distributions de

probabilités• Kullback-Leibler

– Distance / divergence de Kullback-Leibler

– KL divergence– Information gain– Relative entropy

• Cross entropy• Mutual information

Page 44: Julien Diard LPNC-CNRS Cours EDISCE/EDMSTII - M2R Sciences Cognitives, « Cognition bayésienne » 2012 1 Cours 5 Julien Diard Laboratoire de Psychologie

Julien Diard — LPNC-CNRSCours EDISCE/EDMSTII - M2R Sciences Cognitives, « Cognition bayésienne » — 2012 44

KL divergence

• Pas une mesure de distance– D(p,q) ≠ D(q,p)

• se symétrise Ds(p,q)=Ds(q,p)= (D(p,q)+D(q,p)) /2

– D(p,q) > 0 pour tout p,q

– D(p,q) = 0 ssi pk = qk pour tout k

D( p,q) = DKL ( p q) = pk log2

pk

qkk

Page 45: Julien Diard LPNC-CNRS Cours EDISCE/EDMSTII - M2R Sciences Cognitives, « Cognition bayésienne » 2012 1 Cours 5 Julien Diard Laboratoire de Psychologie

Julien Diard — LPNC-CNRSCours EDISCE/EDMSTII - M2R Sciences Cognitives, « Cognition bayésienne » — 2012 45

Cross entropy

• Entropie H(p), cross-entropie H(p,q)

• Relation avec la KL divergence€

D( p,q) = H( p,q) = − pk logqk

k

DKL ( p q) = pk log2

pk

qkk

DKL ( p q) = H(p,q) − H(p)

Page 46: Julien Diard LPNC-CNRS Cours EDISCE/EDMSTII - M2R Sciences Cognitives, « Cognition bayésienne » 2012 1 Cours 5 Julien Diard Laboratoire de Psychologie

Julien Diard — LPNC-CNRSCours EDISCE/EDMSTII - M2R Sciences Cognitives, « Cognition bayésienne » — 2012 46

Mutual information

• mesurée en bits• I(X,Y) = I(Y,X)• I(X,Y) ≥ 0• €

I(X,Y ) = P(xy)log2

P(xy)

P(x)P(y)y∈Y

∑x∈X

I(X,Y ) = DKL (P(XY ) P(X)P(Y ))

Page 47: Julien Diard LPNC-CNRS Cours EDISCE/EDMSTII - M2R Sciences Cognitives, « Cognition bayésienne » 2012 1 Cours 5 Julien Diard Laboratoire de Psychologie

Julien Diard — LPNC-CNRSCours EDISCE/EDMSTII - M2R Sciences Cognitives, « Cognition bayésienne » — 2012 47

Plan• Résumé + questions !• Comparaison et sélection de modèles

– Cadre général : fit, complexité, capacité de généralisation– Méthodes de validation croisée– Apparté : mesures de distance entre distribution de probabilités

• Sélection bayésienne de modèles– Sélection probabiliste vs. Bayésienne– Tel monsieur Jourdain… un exemple– Apparté : vocabulaire– Sélection « bayésienne » de modèles : AIC, BIC, MDL, BMS– Sélection bayésienne de modèles

• Questions ouvertes

• Modélisation de la perception et de l’action– Exemple : boucle perception et action de la lecture et l’écriture

• Modélisation : choix des variables

Page 48: Julien Diard LPNC-CNRS Cours EDISCE/EDMSTII - M2R Sciences Cognitives, « Cognition bayésienne » 2012 1 Cours 5 Julien Diard Laboratoire de Psychologie

Julien Diard — LPNC-CNRSCours EDISCE/EDMSTII - M2R Sciences Cognitives, « Cognition bayésienne » — 2012 48

Notation probabiliste• Soient

– Θ = {θ1, θ2, …} paramètres des modèles

– Δ = {δ1, δ2, …, δn} données expérimentales

– δi = {x, y} une donnée• x condition : var indépendante contrôlée VI• y observation pour cette condition : var dépendante

VD

• Un modèle– –

48

Page 49: Julien Diard LPNC-CNRS Cours EDISCE/EDMSTII - M2R Sciences Cognitives, « Cognition bayésienne » 2012 1 Cours 5 Julien Diard Laboratoire de Psychologie

Julien Diard — LPNC-CNRSCours EDISCE/EDMSTII - M2R Sciences Cognitives, « Cognition bayésienne » — 2012 49

En modélisation probabiliste

• Plusieurs modèles– Espace de paramètres Θ = {θ1, θ2,

…}

– Classe des modèles M = {m1, m2, …}

– Un modèle : P(y | x [Θ = θ1] [M = m1])

• Méta-modèle, modèle hiérarchique–

Page 50: Julien Diard LPNC-CNRS Cours EDISCE/EDMSTII - M2R Sciences Cognitives, « Cognition bayésienne » 2012 1 Cours 5 Julien Diard Laboratoire de Psychologie

Julien Diard — LPNC-CNRSCours EDISCE/EDMSTII - M2R Sciences Cognitives, « Cognition bayésienne » — 2012 50

Méta-modèle

Page 51: Julien Diard LPNC-CNRS Cours EDISCE/EDMSTII - M2R Sciences Cognitives, « Cognition bayésienne » 2012 1 Cours 5 Julien Diard Laboratoire de Psychologie

Julien Diard — LPNC-CNRSCours EDISCE/EDMSTII - M2R Sciences Cognitives, « Cognition bayésienne » — 2012 51

Méta-modèle• Version simplifiée : une seule classe de

modèle

Page 52: Julien Diard LPNC-CNRS Cours EDISCE/EDMSTII - M2R Sciences Cognitives, « Cognition bayésienne » 2012 1 Cours 5 Julien Diard Laboratoire de Psychologie

Julien Diard — LPNC-CNRSCours EDISCE/EDMSTII - M2R Sciences Cognitives, « Cognition bayésienne » — 2012 52

Mesure de comparaison des modèles

• Calculer la probabilité d’un modèle m1, au vu de données expérimentales Δ

Page 53: Julien Diard LPNC-CNRS Cours EDISCE/EDMSTII - M2R Sciences Cognitives, « Cognition bayésienne » 2012 1 Cours 5 Julien Diard Laboratoire de Psychologie

Julien Diard — LPNC-CNRSCours EDISCE/EDMSTII - M2R Sciences Cognitives, « Cognition bayésienne » — 2012 53

• Si P() = uniforme–

• Modèle de maximum de vraisemblance• Maximum Likelihood (MLE)

• Si P() uniforme– Modèle = prior vraisemblance

• Modèle de maximum a posteriori (MAP)• Modèle bayésien

Posterior Prior Vraisemblance

Page 54: Julien Diard LPNC-CNRS Cours EDISCE/EDMSTII - M2R Sciences Cognitives, « Cognition bayésienne » 2012 1 Cours 5 Julien Diard Laboratoire de Psychologie

Julien Diard — LPNC-CNRSCours EDISCE/EDMSTII - M2R Sciences Cognitives, « Cognition bayésienne » — 2012 54

Goodness of fit en probabilités

• Maximiser la vraisemblance •

Page 55: Julien Diard LPNC-CNRS Cours EDISCE/EDMSTII - M2R Sciences Cognitives, « Cognition bayésienne » 2012 1 Cours 5 Julien Diard Laboratoire de Psychologie

Julien Diard — LPNC-CNRSCours EDISCE/EDMSTII - M2R Sciences Cognitives, « Cognition bayésienne » — 2012 55

Plan• Résumé + questions !• Comparaison et sélection de modèles

– Cadre général : fit, complexité, capacité de généralisation– Méthodes de validation croisée– Apparté : mesures de distance entre distribution de probabilités

• Sélection bayésienne de modèles– Sélection probabiliste vs. Bayésienne– Tel monsieur Jourdain… un exemple– Apparté : vocabulaire– Sélection « bayésienne » de modèles : AIC, BIC, MDL, BMS– Sélection bayésienne de modèles

• Questions ouvertes

• Modélisation de la perception et de l’action– Exemple : boucle perception et action de la lecture et l’écriture

• Modélisation : choix des variables

Page 56: Julien Diard LPNC-CNRS Cours EDISCE/EDMSTII - M2R Sciences Cognitives, « Cognition bayésienne » 2012 1 Cours 5 Julien Diard Laboratoire de Psychologie

Julien Diard — LPNC-CNRSCours EDISCE/EDMSTII - M2R Sciences Cognitives, « Cognition bayésienne » — 2012 56

Tel monsieur Jourdain…

• Un phénomène génère des couples di = x,y• Un modèle

– prédit y = F(x), F linéaire, F = ax + b– autorise du « bruit » dans les mesures

• On observe D = {dx1, …, dxn}• Question

– Quels sont les paramètres a, b les plus probables ?

p(di Θ) =1

2πσexp −

(di − F(Θ))2

2σ 2

⎝ ⎜

⎠ ⎟

Page 57: Julien Diard LPNC-CNRS Cours EDISCE/EDMSTII - M2R Sciences Cognitives, « Cognition bayésienne » 2012 1 Cours 5 Julien Diard Laboratoire de Psychologie

Julien Diard — LPNC-CNRSCours EDISCE/EDMSTII - M2R Sciences Cognitives, « Cognition bayésienne » — 2012 57

Tel monsieur Jourdain…

P Θ | D( )∝ P Θ( ) P di | Θ( )i=1

n

p(di Θ) =1

2πσexp −

(di − F(Θ))2

2σ 2

⎝ ⎜

⎠ ⎟

Page 58: Julien Diard LPNC-CNRS Cours EDISCE/EDMSTII - M2R Sciences Cognitives, « Cognition bayésienne » 2012 1 Cours 5 Julien Diard Laboratoire de Psychologie

Julien Diard — LPNC-CNRSCours EDISCE/EDMSTII - M2R Sciences Cognitives, « Cognition bayésienne » — 2012 58

Tel monsieur Jourdain…

* = argmaxP Θ | D( )

= argmaxP Θ( )P D | Θ( )

= argmax P di | Θ( )i=1

n

= argmax log P di | Θ( )( )i=1

n

∑ ⎡

⎣ ⎢

⎦ ⎥

= argmin(di − F(Θ))2

2σ i2

i=1

n

∑ ⎡

⎣ ⎢

⎦ ⎥

= argmin (di − F(Θ))2

i=1

n

∑ ⎡

⎣ ⎢

⎦ ⎥

P Θ | D( )∝ P Θ( ) P di | Θ( )i=1

n

p(di Θ) =1

2π σexp −

(di − F(Θ))2

2σ 2

⎝ ⎜

⎠ ⎟

Page 59: Julien Diard LPNC-CNRS Cours EDISCE/EDMSTII - M2R Sciences Cognitives, « Cognition bayésienne » 2012 1 Cours 5 Julien Diard Laboratoire de Psychologie

Julien Diard — LPNC-CNRSCours EDISCE/EDMSTII - M2R Sciences Cognitives, « Cognition bayésienne » — 2012 59

Moindre carrés de l’erreur

• Comme – un Réseau de Neurones &

Backpropagation• (Mitchell 95, p167)

– Une régression linéaire– residual– …

Page 60: Julien Diard LPNC-CNRS Cours EDISCE/EDMSTII - M2R Sciences Cognitives, « Cognition bayésienne » 2012 1 Cours 5 Julien Diard Laboratoire de Psychologie

Julien Diard — LPNC-CNRSCours EDISCE/EDMSTII - M2R Sciences Cognitives, « Cognition bayésienne » — 2012 60

Least square fitting sur Mathworldhttp://mathworld.wolfram.com

Page 61: Julien Diard LPNC-CNRS Cours EDISCE/EDMSTII - M2R Sciences Cognitives, « Cognition bayésienne » 2012 1 Cours 5 Julien Diard Laboratoire de Psychologie

Julien Diard — LPNC-CNRSCours EDISCE/EDMSTII - M2R Sciences Cognitives, « Cognition bayésienne » — 2012 61

Pour aller plus loin…

• Inférence dans les cas non-linéaires

• Moindres carrés Bayésien

• Espace de modèles = {3x+2, 4x3-

2x2+4}

• Priors hiérarchiques– P( | )

• Rasoir d’Occam automatique…

P Θ( ) =1

2π σ Θ

exp −(Θ − μ Θ )2

2σ Θ2

⎝ ⎜

⎠ ⎟

* = arg max P Θ | D( )

= arg max P Θ( )P D | Θ( )

= arg max P Θ( ) P di | Θ( )i =1

n

= arg max log P Θ( )( ) + log P di | Θ( )( )i =1

n

∑ ⎡

⎣ ⎢

⎦ ⎥

= arg min(Θ − μ Θ )2

2σ Θ2 +

(di − F(Θ))2

2σ i2

i =1

n

∑ ⎡

⎣ ⎢

⎦ ⎥

= arg min(Θ − μ Θ )2

σ Θ2 +

(di − F(Θ))2

σ i2

i =1

n

∑ ⎡

⎣ ⎢

⎦ ⎥

Page 62: Julien Diard LPNC-CNRS Cours EDISCE/EDMSTII - M2R Sciences Cognitives, « Cognition bayésienne » 2012 1 Cours 5 Julien Diard Laboratoire de Psychologie

Julien Diard — LPNC-CNRSCours EDISCE/EDMSTII - M2R Sciences Cognitives, « Cognition bayésienne » — 2012 62

Plan• Résumé + questions !• Comparaison et sélection de modèles

– Cadre général : fit, complexité, capacité de généralisation– Méthodes de validation croisée– Apparté : mesures de distance entre distribution de probabilités

• Sélection bayésienne de modèles– Sélection probabiliste vs. Bayésienne– Tel monsieur Jourdain… un exemple– Apparté : vocabulaire– Sélection « bayésienne » de modèles : AIC, BIC, MDL, BMS– Sélection bayésienne de modèles

• Questions ouvertes

• Modélisation de la perception et de l’action– Exemple : boucle perception et action de la lecture et l’écriture

• Modélisation : choix des variables

Page 63: Julien Diard LPNC-CNRS Cours EDISCE/EDMSTII - M2R Sciences Cognitives, « Cognition bayésienne » 2012 1 Cours 5 Julien Diard Laboratoire de Psychologie

Julien Diard — LPNC-CNRSCours EDISCE/EDMSTII - M2R Sciences Cognitives, « Cognition bayésienne » — 2012 63

Odds, posterior odds, evidence

• Un modèle à 2 cas : – Une hypothèse H, et

P(H Δ) =P(H)P(Δ H)

P(Δ)

P(H Δ) =P(H )P(Δ H )

P(Δ)

P(H Δ)

P(H Δ)=

P(H)

P(H )

P(Δ H)

P(Δ H )

H

Page 64: Julien Diard LPNC-CNRS Cours EDISCE/EDMSTII - M2R Sciences Cognitives, « Cognition bayésienne » 2012 1 Cours 5 Julien Diard Laboratoire de Psychologie

Julien Diard — LPNC-CNRSCours EDISCE/EDMSTII - M2R Sciences Cognitives, « Cognition bayésienne » — 2012 64

Odds, posterior odds, evidence

• Odds , log odds (stats)

• Posterior odds

• Odds en bijection avec p

O(H Δ) =P(H Δ)

P(H Δ)

O(H Δ) = O(H)P(Δ H)

P(Δ H )

Page 65: Julien Diard LPNC-CNRS Cours EDISCE/EDMSTII - M2R Sciences Cognitives, « Cognition bayésienne » 2012 1 Cours 5 Julien Diard Laboratoire de Psychologie

Julien Diard — LPNC-CNRSCours EDISCE/EDMSTII - M2R Sciences Cognitives, « Cognition bayésienne » — 2012 65

• Evidence (en decibels db)

• Evidence en bijection avec p

Odds, posterior odds, evidence

e(H Δ) =10log10 O(H Δ)

e(H Δ) = e(H) +10log10

P(Δ H)

P(Δ H )

e(H Δ) = e(H) +10 log10

P(δ i H)

P(δi H )i

Page 66: Julien Diard LPNC-CNRS Cours EDISCE/EDMSTII - M2R Sciences Cognitives, « Cognition bayésienne » 2012 1 Cours 5 Julien Diard Laboratoire de Psychologie

Julien Diard — LPNC-CNRSCours EDISCE/EDMSTII - M2R Sciences Cognitives, « Cognition bayésienne » — 2012 66

Odds, posterior odds, evidence

Page 67: Julien Diard LPNC-CNRS Cours EDISCE/EDMSTII - M2R Sciences Cognitives, « Cognition bayésienne » 2012 1 Cours 5 Julien Diard Laboratoire de Psychologie

Julien Diard — LPNC-CNRSCours EDISCE/EDMSTII - M2R Sciences Cognitives, « Cognition bayésienne » — 2012 67

Plan• Résumé + questions !• Comparaison et sélection de modèles

– Cadre général : fit, complexité, capacité de généralisation– Méthodes de validation croisée– Apparté : mesures de distance entre distribution de probabilités

• Sélection bayésienne de modèles– Sélection probabiliste vs. Bayésienne– Tel monsieur Jourdain… un exemple– Apparté : vocabulaire– Sélection « bayésienne » de modèles : AIC, BIC, MDL, BMS– Sélection bayésienne de modèles

• Questions ouvertes

• Modélisation de la perception et de l’action– Exemple : boucle perception et action de la lecture et l’écriture

• Modélisation : choix des variables

Page 68: Julien Diard LPNC-CNRS Cours EDISCE/EDMSTII - M2R Sciences Cognitives, « Cognition bayésienne » 2012 1 Cours 5 Julien Diard Laboratoire de Psychologie

Julien Diard — LPNC-CNRSCours EDISCE/EDMSTII - M2R Sciences Cognitives, « Cognition bayésienne » — 2012 68

Identification de paramètres vs Sélection de modèles

• Identification de paramètres learning– –

• Sélection de modèle– –

Page 69: Julien Diard LPNC-CNRS Cours EDISCE/EDMSTII - M2R Sciences Cognitives, « Cognition bayésienne » 2012 1 Cours 5 Julien Diard Laboratoire de Psychologie

Julien Diard — LPNC-CNRSCours EDISCE/EDMSTII - M2R Sciences Cognitives, « Cognition bayésienne » — 2012 69

Comparaison de modèles

• Basés sur la vraisemblance– AIC Akaike Information Criterion– BIC Bayesian Information Criterion– MDL Minimum Description Length

– BMS Bayesian Model Selection

Page 70: Julien Diard LPNC-CNRS Cours EDISCE/EDMSTII - M2R Sciences Cognitives, « Cognition bayésienne » 2012 1 Cours 5 Julien Diard Laboratoire de Psychologie

Julien Diard — LPNC-CNRSCours EDISCE/EDMSTII - M2R Sciences Cognitives, « Cognition bayésienne » — 2012 70

AIC

• avec k le nombre de paramètres

• Modèle M qui minimise la mesure AIC• Fonctionnelle de Tikhonov

– AIC = lack of fit + complexity

• Dérive de l’approximation pour de larges ensembles de données de la KL divergence

Page 71: Julien Diard LPNC-CNRS Cours EDISCE/EDMSTII - M2R Sciences Cognitives, « Cognition bayésienne » 2012 1 Cours 5 Julien Diard Laboratoire de Psychologie

Julien Diard — LPNC-CNRSCours EDISCE/EDMSTII - M2R Sciences Cognitives, « Cognition bayésienne » — 2012 71

BIC

• avec – k le nombre de paramètres– n le nombre de données

• Dérive de l’approximation pour de larges ensembles de données de la Bayesian Model Selection

Page 72: Julien Diard LPNC-CNRS Cours EDISCE/EDMSTII - M2R Sciences Cognitives, « Cognition bayésienne » 2012 1 Cours 5 Julien Diard Laboratoire de Psychologie

Julien Diard — LPNC-CNRSCours EDISCE/EDMSTII - M2R Sciences Cognitives, « Cognition bayésienne » — 2012 72

MDL

avec– k le nombre de paramètres– n le nombre de données– I(θ) la matrice d’information de Fisher

• Matrice des espérances des log des dérivées partielles de la vraisemblance selon les dimensions

– |.| le déterminant de la matrice

Page 73: Julien Diard LPNC-CNRS Cours EDISCE/EDMSTII - M2R Sciences Cognitives, « Cognition bayésienne » 2012 1 Cours 5 Julien Diard Laboratoire de Psychologie

Julien Diard — LPNC-CNRSCours EDISCE/EDMSTII - M2R Sciences Cognitives, « Cognition bayésienne » — 2012 73

MDL

• Mesure de complexité qui prend en compte la forme fonctionnelle

• Provient de la théorie de l’information– Compression des données Δ par

modèle + déviation

Page 74: Julien Diard LPNC-CNRS Cours EDISCE/EDMSTII - M2R Sciences Cognitives, « Cognition bayésienne » 2012 1 Cours 5 Julien Diard Laboratoire de Psychologie

Julien Diard — LPNC-CNRSCours EDISCE/EDMSTII - M2R Sciences Cognitives, « Cognition bayésienne » — 2012 74

BMS

• • Vraisemblance

• Vraisemblance marginale–

Page 75: Julien Diard LPNC-CNRS Cours EDISCE/EDMSTII - M2R Sciences Cognitives, « Cognition bayésienne » 2012 1 Cours 5 Julien Diard Laboratoire de Psychologie

Julien Diard — LPNC-CNRSCours EDISCE/EDMSTII - M2R Sciences Cognitives, « Cognition bayésienne » — 2012 75

Bayesian model selection

• Attention– BMS Bayesian model selection– BMS Bootstrap model selection

Page 76: Julien Diard LPNC-CNRS Cours EDISCE/EDMSTII - M2R Sciences Cognitives, « Cognition bayésienne » 2012 1 Cours 5 Julien Diard Laboratoire de Psychologie

Julien Diard — LPNC-CNRSCours EDISCE/EDMSTII - M2R Sciences Cognitives, « Cognition bayésienne » — 2012 76

Plan• Résumé + questions !• Comparaison et sélection de modèles

– Cadre général : fit, complexité, capacité de généralisation– Méthodes de validation croisée– Apparté : mesures de distance entre distribution de probabilités

• Sélection bayésienne de modèles– Sélection probabiliste vs. Bayésienne– Tel monsieur Jourdain… un exemple– Apparté : vocabulaire– Sélection « bayésienne » de modèles : AIC, BIC, MDL, BMS– Sélection bayésienne de modèles

• Questions ouvertes

• Modélisation de la perception et de l’action– Exemple : boucle perception et action de la lecture et l’écriture

• Modélisation : choix des variables

Page 77: Julien Diard LPNC-CNRS Cours EDISCE/EDMSTII - M2R Sciences Cognitives, « Cognition bayésienne » 2012 1 Cours 5 Julien Diard Laboratoire de Psychologie

Julien Diard — LPNC-CNRSCours EDISCE/EDMSTII - M2R Sciences Cognitives, « Cognition bayésienne » — 2012 77

« vraie » Bayesian model selection

• Prior sur M uniforme ou pas• Prior sur les paramètres θ

uniformes ou pas

Page 78: Julien Diard LPNC-CNRS Cours EDISCE/EDMSTII - M2R Sciences Cognitives, « Cognition bayésienne » 2012 1 Cours 5 Julien Diard Laboratoire de Psychologie

Julien Diard — LPNC-CNRSCours EDISCE/EDMSTII - M2R Sciences Cognitives, « Cognition bayésienne » — 2012 78

Bayesian model selection •

• Intégrale sur l’espace des paramètres– MAP si on la fait– méthodes de Monte-Carlo (voire, méthode de

Gibbs (Mitchell 95)) si on tire aléatoirement dans θ pour approximer

• Gibbs sampling• Metropolis-Hastings• Random walk methods

– Approximation du log vraisemblance autour de• BMSL Bayesian Model Selection Laplace approximation

ˆ θ

Page 79: Julien Diard LPNC-CNRS Cours EDISCE/EDMSTII - M2R Sciences Cognitives, « Cognition bayésienne » 2012 1 Cours 5 Julien Diard Laboratoire de Psychologie

Julien Diard — LPNC-CNRSCours EDISCE/EDMSTII - M2R Sciences Cognitives, « Cognition bayésienne » — 2012 79

Bayes Factor

• Extension du odds

• Ratio de vraisemblances marginales si prior uniforme sur M– P(M1) = P(M2)€

P(M1 Δ)

P(M2 Δ)=

P(M1)

P(M2)

P(Δ M1)

P(Δ M2)

Page 80: Julien Diard LPNC-CNRS Cours EDISCE/EDMSTII - M2R Sciences Cognitives, « Cognition bayésienne » 2012 1 Cours 5 Julien Diard Laboratoire de Psychologie

Julien Diard — LPNC-CNRSCours EDISCE/EDMSTII - M2R Sciences Cognitives, « Cognition bayésienne » — 2012 80

Bayesian Model Selection

– n’a pas la forme d’une fonctionnelle de Tikhonov

– et pourtant, mesure la complexité des M

Page 81: Julien Diard LPNC-CNRS Cours EDISCE/EDMSTII - M2R Sciences Cognitives, « Cognition bayésienne » 2012 1 Cours 5 Julien Diard Laboratoire de Psychologie

Julien Diard — LPNC-CNRSCours EDISCE/EDMSTII - M2R Sciences Cognitives, « Cognition bayésienne » — 2012 81

BMS et mesure de complexité

• « Occam automatique » : intuition

• Si • et P(Δ | θ) concentré autour de

– Alors P(θ2 | Δ) pénalisé par la normalisation sur Θ2 (espace plus grand)

P(M1 Δ)

P(M2 Δ)=

P(M1)

P(M2)

P(Δθ1M1)θ 1∫ P(θ1 M1)

P(Δθ2M2)θ 2

∫ P(θ2 M2)

1 ⊂Θ2

ˆ θ ∈ Θ1

Page 82: Julien Diard LPNC-CNRS Cours EDISCE/EDMSTII - M2R Sciences Cognitives, « Cognition bayésienne » 2012 1 Cours 5 Julien Diard Laboratoire de Psychologie

Julien Diard — LPNC-CNRSCours EDISCE/EDMSTII - M2R Sciences Cognitives, « Cognition bayésienne » — 2012 82

Rasoir d’Occam automatique

MacKay, 03

Page 83: Julien Diard LPNC-CNRS Cours EDISCE/EDMSTII - M2R Sciences Cognitives, « Cognition bayésienne » 2012 1 Cours 5 Julien Diard Laboratoire de Psychologie

Julien Diard — LPNC-CNRSCours EDISCE/EDMSTII - M2R Sciences Cognitives, « Cognition bayésienne » — 2012 83

Plan• Résumé + questions !• Comparaison et sélection de modèles

– Cadre général : fit, complexité, capacité de généralisation– Méthodes de validation croisée– Apparté : mesures de distance entre distribution de probabilités

• Sélection bayésienne de modèles– Sélection probabiliste vs. Bayésienne– Tel monsieur Jourdain… un exemple– Apparté : vocabulaire– Sélection « bayésienne » de modèles : AIC, BIC, MDL, BMS– Sélection bayésienne de modèles

• Questions ouvertes

• Modélisation de la perception et de l’action– Exemple : boucle perception et action de la lecture et l’écriture

• Modélisation : choix des variables

Page 84: Julien Diard LPNC-CNRS Cours EDISCE/EDMSTII - M2R Sciences Cognitives, « Cognition bayésienne » 2012 1 Cours 5 Julien Diard Laboratoire de Psychologie

Julien Diard — LPNC-CNRSCours EDISCE/EDMSTII - M2R Sciences Cognitives, « Cognition bayésienne » — 2012 84

Question ouverte 1 • Sélectionner un modèle, ok

• Boucle expérimentale – où prendre la prochaine

donnée expérimentale ?– Notion d’expérience cruciale

(discriminante)• Distinguer les modèles

Distinguabilité des modèles– Design optimization– Active learning (active

perception)– Optimal experimental

design– Bayesian model

distinguishability

mod

élis

ati

on data set

set of models set of parameters

?

Page 85: Julien Diard LPNC-CNRS Cours EDISCE/EDMSTII - M2R Sciences Cognitives, « Cognition bayésienne » 2012 1 Cours 5 Julien Diard Laboratoire de Psychologie

Julien Diard — LPNC-CNRSCours EDISCE/EDMSTII - M2R Sciences Cognitives, « Cognition bayésienne » — 2012 85

Question ouverte 2

• Deux problèmes inverses– Perception

• Phénomène = f -1 (stimuli)

– Modélisation• Modèle = f -1 (observations)

• Doit-on conclure que le cerveau construit des modèles comme un scientifique le fait ?

• Le cerveau est-il bayésien ?

Page 86: Julien Diard LPNC-CNRS Cours EDISCE/EDMSTII - M2R Sciences Cognitives, « Cognition bayésienne » 2012 1 Cours 5 Julien Diard Laboratoire de Psychologie

Julien Diard — LPNC-CNRSCours EDISCE/EDMSTII - M2R Sciences Cognitives, « Cognition bayésienne » — 2012 86

Question ouverte 3

• Pourquoi 42 ?

Page 87: Julien Diard LPNC-CNRS Cours EDISCE/EDMSTII - M2R Sciences Cognitives, « Cognition bayésienne » 2012 1 Cours 5 Julien Diard Laboratoire de Psychologie

Julien Diard — LPNC-CNRSCours EDISCE/EDMSTII - M2R Sciences Cognitives, « Cognition bayésienne » — 2012 87

Plan• Résumé + questions !• Comparaison et sélection de modèles

– Cadre général : fit, complexité, capacité de généralisation– Méthodes de validation croisée– Apparté : mesures de distance entre distribution de probabilités

• Sélection bayésienne de modèles– Sélection probabiliste vs. Bayésienne– Tel monsieur Jourdain… un exemple– Apparté : vocabulaire– Sélection « bayésienne » de modèles : AIC, BIC, MDL, BMS– Sélection bayésienne de modèles

• Questions ouvertes

• Modélisation de la perception et de l’action– Exemple : boucle perception et action de la lecture et l’écriture

• Modélisation : choix des variables

Page 88: Julien Diard LPNC-CNRS Cours EDISCE/EDMSTII - M2R Sciences Cognitives, « Cognition bayésienne » 2012 1 Cours 5 Julien Diard Laboratoire de Psychologie

Julien Diard — LPNC-CNRSCours EDISCE/EDMSTII - M2R Sciences Cognitives, « Cognition bayésienne » — 2012 88

Modélisation du contrôle

• Mouvements de pointage, volontaire, chez l’humain

• Etude des régularités– Lois du mouvement

• Isochronie, loi de Fitts, loi de la puissance 2/3

• Hypothèses sur les mécanismes – Modèles (neuro)cognitifs

Page 89: Julien Diard LPNC-CNRS Cours EDISCE/EDMSTII - M2R Sciences Cognitives, « Cognition bayésienne » 2012 1 Cours 5 Julien Diard Laboratoire de Psychologie

Julien Diard — LPNC-CNRSCours EDISCE/EDMSTII - M2R Sciences Cognitives, « Cognition bayésienne » — 2012 89

Modèles de planification de mouvements

Planification de mouvement =Sélection d’une trajectoire selon un coût

Page 90: Julien Diard LPNC-CNRS Cours EDISCE/EDMSTII - M2R Sciences Cognitives, « Cognition bayésienne » 2012 1 Cours 5 Julien Diard Laboratoire de Psychologie

Julien Diard — LPNC-CNRSCours EDISCE/EDMSTII - M2R Sciences Cognitives, « Cognition bayésienne » — 2012 90

Quelle grandeur manipulée par le système

de contrôle ?

+ free energy principle(Friston 10)+ inactivation principle(Berret 08)+ …

Page 91: Julien Diard LPNC-CNRS Cours EDISCE/EDMSTII - M2R Sciences Cognitives, « Cognition bayésienne » 2012 1 Cours 5 Julien Diard Laboratoire de Psychologie

Julien Diard — LPNC-CNRSCours EDISCE/EDMSTII - M2R Sciences Cognitives, « Cognition bayésienne » — 2012 91

Minimum variance

• Bruit dépendant du signal (signal dependent noise SDN)

Page 92: Julien Diard LPNC-CNRS Cours EDISCE/EDMSTII - M2R Sciences Cognitives, « Cognition bayésienne » 2012 1 Cours 5 Julien Diard Laboratoire de Psychologie

Julien Diard — LPNC-CNRSCours EDISCE/EDMSTII - M2R Sciences Cognitives, « Cognition bayésienne » — 2012 92

Bayesian Decision Theory

• Modèle probabiliste + modèle de coût (reward, cost, loss function)

Prior

Posterior

Likelihood

Cost function

X

X

Bayes theorem Bayesian

decision theory

outputobservation i

Page 93: Julien Diard LPNC-CNRS Cours EDISCE/EDMSTII - M2R Sciences Cognitives, « Cognition bayésienne » 2012 1 Cours 5 Julien Diard Laboratoire de Psychologie

Julien Diard — LPNC-CNRSCours EDISCE/EDMSTII - M2R Sciences Cognitives, « Cognition bayésienne » — 2012 93

Plan• Résumé + questions !• Comparaison et sélection de modèles

– Cadre général : fit, complexité, capacité de généralisation– Méthodes de validation croisée– Apparté : mesures de distance entre distribution de probabilités

• Sélection bayésienne de modèles– Sélection probabiliste vs. Bayésienne– Tel monsieur Jourdain… un exemple– Apparté : vocabulaire– Sélection « bayésienne » de modèles : AIC, BIC, MDL, BMS– Sélection bayésienne de modèles

• Questions ouvertes

• Modélisation de la perception et de l’action– Exemple : boucle perception et action de la lecture et l’écriture

• Modélisation : choix des variables

Page 94: Julien Diard LPNC-CNRS Cours EDISCE/EDMSTII - M2R Sciences Cognitives, « Cognition bayésienne » 2012 1 Cours 5 Julien Diard Laboratoire de Psychologie

Julien Diard — LPNC-CNRSCours EDISCE/EDMSTII - M2R Sciences Cognitives, « Cognition bayésienne » — 2012 94

• Modélisation bayésienne d’une boucle sensorimotrice : application à l’écriture

Page 95: Julien Diard LPNC-CNRS Cours EDISCE/EDMSTII - M2R Sciences Cognitives, « Cognition bayésienne » 2012 1 Cours 5 Julien Diard Laboratoire de Psychologie

Julien Diard — LPNC-CNRSCours EDISCE/EDMSTII - M2R Sciences Cognitives, « Cognition bayésienne » — 2012 95

Plan• Résumé + questions !• Comparaison et sélection de modèles

– Cadre général : fit, complexité, capacité de généralisation– Méthodes de validation croisée– Apparté : mesures de distance entre distribution de probabilités

• Sélection bayésienne de modèles– Sélection probabiliste vs. Bayésienne– Tel monsieur Jourdain… un exemple– Apparté : vocabulaire– Sélection « bayésienne » de modèles : AIC, BIC, MDL, BMS– Sélection bayésienne de modèles

• Questions ouvertes

• Modélisation de la perception et de l’action– Exemple : boucle perception et action de la lecture et l’écriture

• Modélisation : choix des variables

Page 96: Julien Diard LPNC-CNRS Cours EDISCE/EDMSTII - M2R Sciences Cognitives, « Cognition bayésienne » 2012 1 Cours 5 Julien Diard Laboratoire de Psychologie

Julien Diard — LPNC-CNRSCours EDISCE/EDMSTII - M2R Sciences Cognitives, « Cognition bayésienne » — 2012 96

Importance des variables cachées

Page 97: Julien Diard LPNC-CNRS Cours EDISCE/EDMSTII - M2R Sciences Cognitives, « Cognition bayésienne » 2012 1 Cours 5 Julien Diard Laboratoire de Psychologie

Julien Diard — LPNC-CNRSCours EDISCE/EDMSTII - M2R Sciences Cognitives, « Cognition bayésienne » — 2012 97

Modélisation d’une série temporelle

t y delta_y dy seuillé81 1,982 1,98 0,08 183 2,01 0,03 184 2,1 0,09 185 2,15 0,05 186 2,14 -0,01 087 2,18 0,04 188 2,18 0 089 2,24 0,06 190 2,33 0,09 191 2,33 0 092 2,33 0 093 2,38 0,05 194 2,32 -0,06 -195 2,28 -0,04 -196 2,26 -0,02 -197 2,19 -0,07 -198 2,14 -0,05 -199 2,16 0,02 1100 2,19 0,03 1101 2,2 0,01 0102 2,23 0,03 1103 2,17 -0,06 -1104 2,14 -0,03 -1105 2,13 -0,01 0

Page 98: Julien Diard LPNC-CNRS Cours EDISCE/EDMSTII - M2R Sciences Cognitives, « Cognition bayésienne » 2012 1 Cours 5 Julien Diard Laboratoire de Psychologie

Julien Diard — LPNC-CNRSCours EDISCE/EDMSTII - M2R Sciences Cognitives, « Cognition bayésienne » — 2012 98

-1 7,00 0,290 6,00 0,251 11,00 0,46

t y delta_y dy seuillé81 1,982 1,98 0,08 183 2,01 0,03 184 2,1 0,09 185 2,15 0,05 186 2,14 -0,01 087 2,18 0,04 188 2,18 0 089 2,24 0,06 190 2,33 0,09 191 2,33 0 092 2,33 0 093 2,38 0,05 194 2,32 -0,06 -195 2,28 -0,04 -196 2,26 -0,02 -197 2,19 -0,07 -198 2,14 -0,05 -199 2,16 0,02 1100 2,19 0,03 1101 2,2 0,01 0102 2,23 0,03 1103 2,17 -0,06 -1104 2,14 -0,03 -1105 2,13 -0,01 0

P(y)

Page 99: Julien Diard LPNC-CNRS Cours EDISCE/EDMSTII - M2R Sciences Cognitives, « Cognition bayésienne » 2012 1 Cours 5 Julien Diard Laboratoire de Psychologie

Julien Diard — LPNC-CNRSCours EDISCE/EDMSTII - M2R Sciences Cognitives, « Cognition bayésienne » — 2012 99

Variable cachée V1 = {Bleu, Rouge}

V1=R V1=B

Page 100: Julien Diard LPNC-CNRS Cours EDISCE/EDMSTII - M2R Sciences Cognitives, « Cognition bayésienne » 2012 1 Cours 5 Julien Diard Laboratoire de Psychologie

Julien Diard — LPNC-CNRSCours EDISCE/EDMSTII - M2R Sciences Cognitives, « Cognition bayésienne » — 2012 100

t y delta_y dy seuillé81 1,982 1,98 0,08 183 2,01 0,03 184 2,1 0,09 185 2,15 0,05 186 2,14 -0,01 087 2,18 0,04 188 2,18 0 089 2,24 0,06 190 2,33 0,09 191 2,33 0 092 2,33 0 093 2,38 0,05 194 2,32 -0,06 -195 2,28 -0,04 -196 2,26 -0,02 -197 2,19 -0,07 -198 2,14 -0,05 -199 2,16 0,02 1100 2,19 0,03 1101 2,2 0,01 0102 2,23 0,03 1103 2,17 -0,06 -1104 2,14 -0,03 -1105 2,13 -0,01 0

-1 2,00 0,140 4,00 0,291 8,00 0,57

P(y | [V1=R])

-1 5,00 0,500 2,00 0,201 3,00 0,30

P(y | [V1=B])

Page 101: Julien Diard LPNC-CNRS Cours EDISCE/EDMSTII - M2R Sciences Cognitives, « Cognition bayésienne » 2012 1 Cours 5 Julien Diard Laboratoire de Psychologie

Julien Diard — LPNC-CNRSCours EDISCE/EDMSTII - M2R Sciences Cognitives, « Cognition bayésienne » — 2012 101

V2 = {Bleu, Rouge}t y delta_y dy seuillé

81 1,982 1,98 0,08 183 2,01 0,03 184 2,1 0,09 185 2,15 0,05 186 2,14 -0,01 087 2,18 0,04 188 2,18 0 089 2,24 0,06 190 2,33 0,09 191 2,33 0 092 2,33 0 093 2,38 0,05 194 2,32 -0,06 -195 2,28 -0,04 -196 2,26 -0,02 -197 2,19 -0,07 -198 2,14 -0,05 -199 2,16 0,02 1100 2,19 0,03 1101 2,2 0,01 0102 2,23 0,03 1103 2,17 -0,06 -1104 2,14 -0,03 -1105 2,13 -0,01 0

[V1

=R

][V

1=

B]

P(y | [V1=R] [V2=R])

P(y | [V1=R] [V2=B])

P(y | [V1=B] [V2=R])

P(y | [V1=B] [V2=B])

Page 102: Julien Diard LPNC-CNRS Cours EDISCE/EDMSTII - M2R Sciences Cognitives, « Cognition bayésienne » 2012 1 Cours 5 Julien Diard Laboratoire de Psychologie

Julien Diard — LPNC-CNRSCours EDISCE/EDMSTII - M2R Sciences Cognitives, « Cognition bayésienne » — 2012 102

Digression : entropie

• Déf :

• Exemple :

[Shannon, 1948]

Page 103: Julien Diard LPNC-CNRS Cours EDISCE/EDMSTII - M2R Sciences Cognitives, « Cognition bayésienne » 2012 1 Cours 5 Julien Diard Laboratoire de Psychologie

Julien Diard — LPNC-CNRSCours EDISCE/EDMSTII - M2R Sciences Cognitives, « Cognition bayésienne » — 2012 103

• Exemple 2 : P(X), X = {-1, 0, 1}

Page 104: Julien Diard LPNC-CNRS Cours EDISCE/EDMSTII - M2R Sciences Cognitives, « Cognition bayésienne » 2012 1 Cours 5 Julien Diard Laboratoire de Psychologie

Julien Diard — LPNC-CNRSCours EDISCE/EDMSTII - M2R Sciences Cognitives, « Cognition bayésienne » — 2012 104

Variables cachées, connaissance et entropie

• Théorème :Les variables cachées apportent de l’information

P(y | [V1=B] [V2=B])P(y)

Page 105: Julien Diard LPNC-CNRS Cours EDISCE/EDMSTII - M2R Sciences Cognitives, « Cognition bayésienne » 2012 1 Cours 5 Julien Diard Laboratoire de Psychologie

Julien Diard — LPNC-CNRSCours EDISCE/EDMSTII - M2R Sciences Cognitives, « Cognition bayésienne » — 2012 105

Prédiction de la prochaine valeur ?

P(y)

P(y | [V1=B] [V2=B])t y delta_y dy seuillé

81 1,982 1,98 0,08 183 2,01 0,03 184 2,1 0,09 185 2,15 0,05 186 2,14 -0,01 087 2,18 0,04 188 2,18 0 089 2,24 0,06 190 2,33 0,09 191 2,33 0 092 2,33 0 093 2,38 0,05 194 2,32 -0,06 -195 2,28 -0,04 -196 2,26 -0,02 -197 2,19 -0,07 -198 2,14 -0,05 -199 2,16 0,02 1100 2,19 0,03 1101 2,2 0,01 0102 2,23 0,03 1103 2,17 -0,06 -1104 2,14 -0,03 -1105 2,13 -0,01 0

Page 106: Julien Diard LPNC-CNRS Cours EDISCE/EDMSTII - M2R Sciences Cognitives, « Cognition bayésienne » 2012 1 Cours 5 Julien Diard Laboratoire de Psychologie

Julien Diard — LPNC-CNRSCours EDISCE/EDMSTII - M2R Sciences Cognitives, « Cognition bayésienne » — 2012 106

Pour 2007, [V1=B] et [V2=B]

Page 107: Julien Diard LPNC-CNRS Cours EDISCE/EDMSTII - M2R Sciences Cognitives, « Cognition bayésienne » 2012 1 Cours 5 Julien Diard Laboratoire de Psychologie

Julien Diard — LPNC-CNRSCours EDISCE/EDMSTII - M2R Sciences Cognitives, « Cognition bayésienne » — 2012 107

Merci de votre attention !

Questions ?

Page 108: Julien Diard LPNC-CNRS Cours EDISCE/EDMSTII - M2R Sciences Cognitives, « Cognition bayésienne » 2012 1 Cours 5 Julien Diard Laboratoire de Psychologie

Julien Diard — LPNC-CNRSCours EDISCE/EDMSTII - M2R Sciences Cognitives, « Cognition bayésienne » — 2012 108

Distinguabilité des modèles

• Modèle de distinguabilité– Extension du méta-modèle de fit– P(Δ Θ M)

= P(y | x Θ M) P(x | Θ M) P(Θ | M) P(M)

Page 109: Julien Diard LPNC-CNRS Cours EDISCE/EDMSTII - M2R Sciences Cognitives, « Cognition bayésienne » 2012 1 Cours 5 Julien Diard Laboratoire de Psychologie

Julien Diard — LPNC-CNRSCours EDISCE/EDMSTII - M2R Sciences Cognitives, « Cognition bayésienne » — 2012 109

Distinguabilité des modèles