View
1
Download
0
Category
Preview:
Citation preview
Introduction Organisation Presentation Preprocessing Modeles Simulations Resultats Conclusion
Reunion sur le projet RedCVO
Nouvelles techniques de ML pour la medecine :
FACTEURS PREDICTIFS DE LAREHOSPITALISATION PRECOCE DE
DREPANOCYTAIRES ADULTES POUR CRISEVASO-OCCLUSIVE
Simon Bussy
encadre par
Anne-Sophie Jannot, Stephane Gaiffas, Agathe Guilloux
Presentation Brigitte Ranque
5 fevrier 2016
Presentation HEGP | Simon BUSSY 1/31
Introduction Organisation Presentation Preprocessing Modeles Simulations Resultats Conclusion
Introduction
Stage de 5 mois : CMAP et equipe INSERM no 22 del’HEGP.
Doctorat de Mathematiques au LSTA.Travail de modelisation des donnees pendant lestage.Creation d’un nouveau modele d’apprentissage.
Presentation HEGP | Simon BUSSY 2/31
Introduction Organisation Presentation Preprocessing Modeles Simulations Resultats Conclusion
Introduction
Stage de 5 mois : CMAP et equipe INSERM no 22 del’HEGP.Doctorat de Mathematiques au LSTA.
Travail de modelisation des donnees pendant lestage.Creation d’un nouveau modele d’apprentissage.
Presentation HEGP | Simon BUSSY 2/31
Introduction Organisation Presentation Preprocessing Modeles Simulations Resultats Conclusion
Introduction
Stage de 5 mois : CMAP et equipe INSERM no 22 del’HEGP.Doctorat de Mathematiques au LSTA.Travail de modelisation des donnees pendant lestage.
Creation d’un nouveau modele d’apprentissage.
Presentation HEGP | Simon BUSSY 2/31
Introduction Organisation Presentation Preprocessing Modeles Simulations Resultats Conclusion
Introduction
Stage de 5 mois : CMAP et equipe INSERM no 22 del’HEGP.Doctorat de Mathematiques au LSTA.Travail de modelisation des donnees pendant lestage.Creation d’un nouveau modele d’apprentissage.
Presentation HEGP | Simon BUSSY 2/31
Introduction Organisation Presentation Preprocessing Modeles Simulations Resultats Conclusion
Organisation des donnees
Donnees heterogenes, differentes sources
1 sejour / patient : ”choix aleatoire par classe”, tauxde rechute de 12,84%
Presentation HEGP | Simon BUSSY 3/31
Introduction Organisation Presentation Preprocessing Modeles Simulations Resultats Conclusion
Organisation des donnees
Donnees heterogenes, differentes sources1 sejour / patient : ”choix aleatoire par classe”, tauxde rechute de 12,84%
Presentation HEGP | Simon BUSSY 3/31
Introduction Organisation Presentation Preprocessing Modeles Simulations Resultats Conclusion
Organisation des donnees
Reorganisation des donnees
Presentation HEGP | Simon BUSSY 4/31
Introduction Organisation Presentation Preprocessing Modeles Simulations Resultats Conclusion
Organisation des donnees
Creation d’un fichier JSON
Presentation HEGP | Simon BUSSY 5/31
Introduction Organisation Presentation Preprocessing Modeles Simulations Resultats Conclusion
Presentation des donnees
218 patients, 479 visites
Nombre de visites par patient Temps inter-visites
Presentation HEGP | Simon BUSSY 6/31
Introduction Organisation Presentation Preprocessing Modeles Simulations Resultats Conclusion
Les parametres vitaux
Les parametres vitaux
9 variables gardeesProbleme : durees 6= et alignement
Nombre de pointspar parametre vital
Variables biologiques en communa tous les sejours
Presentation HEGP | Simon BUSSY 7/31
Introduction Organisation Presentation Preprocessing Modeles Simulations Resultats Conclusion
Les parametres vitaux
Les parametres vitaux9 variables gardees
Probleme : durees 6= et alignement
Pression arterielle systolique [mmHg], notee PA max ;pression arterielle diastolique [mmHg], notee PA min ;
saturation en oxygene [%] ; Douleur EVA [U] ; frequencerespiratoire [mvt/min] ; temperature [◦C] ; poids [kg] ;
oxygene [L/min] ; frequence cardiaque [bpm]
Presentation HEGP | Simon BUSSY 7/31
Introduction Organisation Presentation Preprocessing Modeles Simulations Resultats Conclusion
Les parametres vitaux
Les parametres vitaux9 variables gardeesProbleme : durees 6= et alignement
Evolution de la temperature au cours de 10 sejours
Presentation HEGP | Simon BUSSY 7/31
Introduction Organisation Presentation Preprocessing Modeles Simulations Resultats Conclusion
Les parametres vitaux
Rescaling entre [0,1]
Interpolation : p valeursPuis filtre de Savitzky–Golay : p′ valeurs de gradient
∀j ∈ J1,NK, xj =xj−mink (xk )
maxk (xk )−mink (xk )
Presentation HEGP | Simon BUSSY 8/31
Introduction Organisation Presentation Preprocessing Modeles Simulations Resultats Conclusion
Les parametres vitaux
Rescaling entre [0,1]Interpolation : p valeursPuis filtre de Savitzky–Golay : p′ valeurs de gradient
Frequence respiratoire pourun patient positif
Frequence respiratoire pourun patient negatif
Presentation HEGP | Simon BUSSY 8/31
Introduction Organisation Presentation Preprocessing Modeles Simulations Resultats Conclusion
Les parametres vitaux
Comportements differents en moyenne
Test de Mann-Whitney-Wilcoxon
Pression arterielle diastolique et moyennes par classe
Presentation HEGP | Simon BUSSY 9/31
Introduction Organisation Presentation Preprocessing Modeles Simulations Resultats Conclusion
Les parametres vitaux
Comportements differents en moyenneTest de Mann-Whitney-Wilcoxon
Test de Mann-Whitney-Wilcoxon pour la temperature
Presentation HEGP | Simon BUSSY 9/31
Introduction Organisation Presentation Preprocessing Modeles Simulations Resultats Conclusion
Selection de p et p′
Procedure suivie :
Presentation HEGP | Simon BUSSY 10/31
Introduction Organisation Presentation Preprocessing Modeles Simulations Resultats Conclusion
Selection de p et p′
Procedure suivie :
Presentation HEGP | Simon BUSSY 10/31
Introduction Organisation Presentation Preprocessing Modeles Simulations Resultats Conclusion
Selection de p et p′
Procedure suivie :
Presentation HEGP | Simon BUSSY 10/31
Introduction Organisation Presentation Preprocessing Modeles Simulations Resultats Conclusion
Selection de p et p′
Resultats apres 50 iterations
Dimension de l’espace : 446Donnees manquantes remplacees par les moyennes
Concept Nombre de points Ecart typeFq cardiaque 28 0,3∇ Fq cardiaque 26 0
PA max 28 0∇ PA max 26 0
Temperature 30 8,4∇ Temperature 18 0Saturation O2 34 4,8∇ Saturation O2 26 0
Douleur EVA 21 0,7∇ Douleur EVA 26 0
Debit O2 16 4,6∇ Debit O2 26 0
Fq respiratoire 21 5,3∇ Fq respiratoire 26 0
PA min 28 0∇ PA min 26 0
Presentation HEGP | Simon BUSSY 11/31
Introduction Organisation Presentation Preprocessing Modeles Simulations Resultats Conclusion
Selection de p et p′
Resultats apres 50 iterationsDimension de l’espace : 446
Donnees manquantes remplacees par les moyennes
Presentation HEGP | Simon BUSSY 11/31
Introduction Organisation Presentation Preprocessing Modeles Simulations Resultats Conclusion
Selection de p et p′
Resultats apres 50 iterationsDimension de l’espace : 446Donnees manquantes remplacees par les moyennes
Presentation HEGP | Simon BUSSY 11/31
Introduction Organisation Presentation Preprocessing Modeles Simulations Resultats Conclusion
Benjamini-Hochberg
Tests de Mann-Whitney-Wilcoxon : 446 p-values
Procedure de Benjamini-Hochbergα = 0,9 ; 50 iterations
Presentation HEGP | Simon BUSSY 12/31
Introduction Organisation Presentation Preprocessing Modeles Simulations Resultats Conclusion
Benjamini-Hochberg
Tests de Mann-Whitney-Wilcoxon : 446 p-valuesProcedure de Benjamini-Hochberg
α = 0,9 ; 50 iterations
On conserve k features avec
k = argmax{
j : p(j) ≤ αjK
}
Presentation HEGP | Simon BUSSY 12/31
Introduction Organisation Presentation Preprocessing Modeles Simulations Resultats Conclusion
Benjamini-Hochberg
Tests de Mann-Whitney-Wilcoxon : 446 p-valuesProcedure de Benjamini-Hochbergα = 0,9 ; 50 iterations
Presentation HEGP | Simon BUSSY 12/31
Introduction Organisation Presentation Preprocessing Modeles Simulations Resultats Conclusion
Benjamini-Hochberg
45 features selectionnees (> 13 des cas)
Presentation HEGP | Simon BUSSY 13/31
Introduction Organisation Presentation Preprocessing Modeles Simulations Resultats Conclusion
Binarisation
Binarisation par quartiles ; dim = 156 ∼ 4× 45
Presentation HEGP | Simon BUSSY 14/31
Introduction Organisation Presentation Preprocessing Modeles Simulations Resultats Conclusion
Binarisation
Binarisation par quartiles ; dim = 156 ∼ 4× 45
Presentation HEGP | Simon BUSSY 14/31
Introduction Organisation Presentation Preprocessing Modeles Simulations Resultats Conclusion
Binarisation
Binarisation par quartiles ; dim = 156 ∼ 4× 45
Presentation HEGP | Simon BUSSY 14/31
Introduction Organisation Presentation Preprocessing Modeles Simulations Resultats Conclusion
Binarisation
Binarisation par quartiles ; dim = 156 ∼ 4× 45
Presentation HEGP | Simon BUSSY 14/31
Introduction Organisation Presentation Preprocessing Modeles Simulations Resultats Conclusion
Association + decorrelation
Ajout des produits cartesiens
dim = 11978 ∼(156
2
)Decorrelation |ρ| < 0,95Finalement, dim = 10574
Presentation HEGP | Simon BUSSY 15/31
Introduction Organisation Presentation Preprocessing Modeles Simulations Resultats Conclusion
Association + decorrelation
Ajout des produits cartesiensdim = 11978 ∼
(1562
)
Decorrelation |ρ| < 0,95Finalement, dim = 10574
Presentation HEGP | Simon BUSSY 15/31
Introduction Organisation Presentation Preprocessing Modeles Simulations Resultats Conclusion
Association + decorrelation
Ajout des produits cartesiensdim = 11978 ∼
(1562
)Decorrelation |ρ| < 0,95
Finalement, dim = 10574
Presentation HEGP | Simon BUSSY 15/31
Introduction Organisation Presentation Preprocessing Modeles Simulations Resultats Conclusion
Association + decorrelation
Ajout des produits cartesiensdim = 11978 ∼
(1562
)Decorrelation |ρ| < 0,95Finalement, dim = 10574
Presentation HEGP | Simon BUSSY 15/31
Introduction Organisation Presentation Preprocessing Modeles Simulations Resultats Conclusion
Schema recapitulatif
Presentation HEGP | Simon BUSSY 16/31
Introduction Organisation Presentation Preprocessing Modeles Simulations Resultats Conclusion
Modelisation
Presentation HEGP | Simon BUSSY 17/31
Introduction Organisation Presentation Preprocessing Modeles Simulations Resultats Conclusion
Modelisation
Presentation HEGP | Simon BUSSY 17/31
Introduction Organisation Presentation Preprocessing Modeles Simulations Resultats Conclusion
Modele de melange
Zi ∈ {0, 1} v .a. latente t.q. ∀i ∈ J1, nK, ∀k ∈ {0, 1}, Ti |Zi = k ∼ `k
Quantite primordiale : π0(Xi ) = P(Zi = 0|Xi ) =1
1+e−X>i β
∀i ∈ J1, nK, ∀t ∈ N∗, fTi |Xi(t) = π0(Xi )fTi |Xi ,0(t) + (1− π0(Xi ))fTi |Xi ,1(t)
Parametres a estimer : θ = {p0, p1, β} ∈ Rd+3
Presentation HEGP | Simon BUSSY 18/31
Introduction Organisation Presentation Preprocessing Modeles Simulations Resultats Conclusion
Modele de melange
Zi ∈ {0, 1} v .a. latente t.q. ∀i ∈ J1, nK, ∀k ∈ {0, 1}, Ti |Zi = k ∼ `k
Quantite primordiale : π0(Xi ) = P(Zi = 0|Xi ) =1
1+e−X>i β
∀i ∈ J1, nK, ∀t ∈ N∗, fTi |Xi(t) = π0(Xi )fTi |Xi ,0(t) + (1− π0(Xi ))fTi |Xi ,1(t)
Parametres a estimer : θ = {p0, p1, β} ∈ Rd+3
Presentation HEGP | Simon BUSSY 18/31
Introduction Organisation Presentation Preprocessing Modeles Simulations Resultats Conclusion
Modele de melange
Zi ∈ {0, 1} v .a. latente t.q. ∀i ∈ J1, nK, ∀k ∈ {0, 1}, Ti |Zi = k ∼ `k
Quantite primordiale : π0(Xi ) = P(Zi = 0|Xi ) =1
1+e−X>i β
∀i ∈ J1, nK, ∀t ∈ N∗, fTi |Xi(t) = π0(Xi )fTi |Xi ,0(t) + (1− π0(Xi ))fTi |Xi ,1(t)
Parametres a estimer : θ = {p0, p1, β} ∈ Rd+3
Presentation HEGP | Simon BUSSY 18/31
Introduction Organisation Presentation Preprocessing Modeles Simulations Resultats Conclusion
Simulations
Idee : tester le schema de prediction suivant :
Pour la regression logistique : Zi ∼ Yi = 1{Ti≤s} , AUC surles Yi
Pour l’EM : AUC sur les Zi
Presentation HEGP | Simon BUSSY 19/31
Introduction Organisation Presentation Preprocessing Modeles Simulations Resultats Conclusion
Simulations
Idee : tester le schema de prediction suivant :
Pour la regression logistique : Zi ∼ Yi = 1{Ti≤s} , AUC surles Yi
Pour l’EM : AUC sur les Zi
Presentation HEGP | Simon BUSSY 19/31
Introduction Organisation Presentation Preprocessing Modeles Simulations Resultats Conclusion
Simulations
Idee : tester le schema de prediction suivant :
Pour la regression logistique : Zi ∼ Yi = 1{Ti≤s} , AUC surles Yi
Pour l’EM : AUC sur les Zi
Presentation HEGP | Simon BUSSY 19/31
Introduction Organisation Presentation Preprocessing Modeles Simulations Resultats Conclusion
Estimation des vrais parametres
Comparaison des histogrammes de temps de retour reels et simules apres estimation
Parametres p0 p1 π
θ 0,005 0,511 0,872
Resultats de prediction sur les vraies donnees
Presentation HEGP | Simon BUSSY 20/31
Introduction Organisation Presentation Preprocessing Modeles Simulations Resultats Conclusion
Resultats : regression logistique
Courbe ROC pour la prediction de la regression logistique
Presentation HEGP | Simon BUSSY 21/31
Introduction Organisation Presentation Preprocessing Modeles Simulations Resultats Conclusion
Resultats : regression logistique
β appris par la regression logistique
Presentation HEGP | Simon BUSSY 22/31
Introduction Organisation Presentation Preprocessing Modeles Simulations Resultats Conclusion
Resultats : EM
Courbe ROC pour la prediction de l’EM
Presentation HEGP | Simon BUSSY 23/31
Introduction Organisation Presentation Preprocessing Modeles Simulations Resultats Conclusion
Resultats : EM
β appris par l’EM
Presentation HEGP | Simon BUSSY 24/31
Introduction Organisation Presentation Preprocessing Modeles Simulations Resultats Conclusion
Resultats : Support du lasso
Coefficients de |βlasso| non nuls tries
Presentation HEGP | Simon BUSSY 25/31
Introduction Organisation Presentation Preprocessing Modeles Simulations Resultats Conclusion
Resultats : regression ridge (dim = 30)
Courbe ROC pour la regression `2 dans l’espace de dimension 30
Classe Precision Recall Support0 0,96 0,89 561 0,57 0,80 10
Moyenne/Total 0,90 0,88 66
Presentation HEGP | Simon BUSSY 26/31
Introduction Organisation Presentation Preprocessing Modeles Simulations Resultats Conclusion
Resultats : regression ridge (dim = 30)
Probabilites predites sur le jeu de test
Presentation HEGP | Simon BUSSY 27/31
Introduction Organisation Presentation Preprocessing Modeles Simulations Resultats Conclusion
Melange censure
Censure : T c = T ∧ C et δ = 1{T≤C}
Minimiser −`n(θ) + γ((1− η)‖β‖1 + η
2 ‖β‖22)
Algorithme qui s’inspire d’un EM mais qui differe sur plusieurs points,notamment avec la presence d’une regularisation.
Presentation HEGP | Simon BUSSY 28/31
Introduction Organisation Presentation Preprocessing Modeles Simulations Resultats Conclusion
Melange censure
Censure : T c = T ∧ C et δ = 1{T≤C}
Minimiser −`n(θ) + γ((1− η)‖β‖1 + η
2 ‖β‖22)
Algorithme qui s’inspire d’un EM mais qui differe sur plusieurs points,notamment avec la presence d’une regularisation.
Presentation HEGP | Simon BUSSY 28/31
Introduction Organisation Presentation Preprocessing Modeles Simulations Resultats Conclusion
Melange censure
Censure : T c = T ∧ C et δ = 1{T≤C}
Minimiser −`n(θ) + γ((1− η)‖β‖1 + η
2 ‖β‖22)
Algorithme qui s’inspire d’un EM mais qui differe sur plusieurs points,notamment avec la presence d’une regularisation.
Presentation HEGP | Simon BUSSY 28/31
Introduction Organisation Presentation Preprocessing Modeles Simulations Resultats Conclusion
Performance en simulation
0.0
0.2
0.4
0.6
0.8
1.0
r_c = 0.1
gap = 0.1
0.0
0.2
0.4
0.6
0.8
1.0
gap = 0.5
0.0
0.2
0.4
0.6
0.8
1.0
gap = 1.0
0.0
0.2
0.4
0.6
0.8
1.0
r_c = 0.3
0.0
0.2
0.4
0.6
0.8
1.0
0.0
0.2
0.4
0.6
0.8
1.0
0 50 100 150 200 250 300 3500.0
0.2
0.4
0.6
0.8
1.0
r_c = 0.6
0 50 100 150 200 250 300 3500.0
0.2
0.4
0.6
0.8
1.0
0 50 100 150 200 250 300 3500.0
0.2
0.4
0.6
0.8
1.0
QNEM (mean)
95%
Cox PH (mean)
95%
Censored level (mean)
95%
AUC(t) comparisons, n_samples = 200
Presentation HEGP | Simon BUSSY 29/31
Introduction Organisation Presentation Preprocessing Modeles Simulations Resultats Conclusion
Performance sur donnees reelles
Presentation HEGP | Simon BUSSY 30/31
Introduction Organisation Presentation Preprocessing Modeles Simulations Resultats Conclusion
Conclusion
Objectif : publication pour presenter le modelemathematique.
Puis publication clinique applicative sur les donneesde RedCVO.
Presentation HEGP | Simon BUSSY 31/31
Introduction Organisation Presentation Preprocessing Modeles Simulations Resultats Conclusion
Conclusion
Objectif : publication pour presenter le modelemathematique.Puis publication clinique applicative sur les donneesde RedCVO.
Presentation HEGP | Simon BUSSY 31/31
Recommended