Click here to load reader
View
214
Download
2
Embed Size (px)
Mthodes dapprentissage
statistique ( Machine Learning )
Journes dEtudes IARD
Niort, 21 Mars 2014
Fabrice TAILLIEU
Sbastien DELUCINGE
Rmi BELLINA
2014 Milliman. All rights reserved
2
Sommaire
Introduction
Les mthodes dapprentissage statistique
Illustration
3
Le march de lassurance non-vie est extrmement comptitif
en France, ce qui fait peser une incertitude importante sur les
marges des compagnies.
Plusieurs facteurs accentuent ce phnomne, notamment :
Laggravation des charges sinistres sur certaines branches (accidents corporels
lourds, assurance sant, vnements climatiques, )
Lenvironnement conomique et financier
Les changements lgislatifs (rforme FGAO, fin de la diffrenciation lie au critre
de genre, loi Hamon, entre en vigueur de Solvabilit II, )
Lincertitude lie de nouveaux risques (risques technologiques, risques
climatiques, )
Introduction Lenvironnement du march de lassurance
4
Introduction Lenvironnement du march de lassurance
0
1
2
3
4
5
6
7
0
10
20
30
40
50
60
70
2002 2003 2004 2005 2006 2007 2008 2009 2010 2011 2012
Cotisations acquises (Mds )
Rsultat technique (Mds )
Rsultat net comptable (Mds )
Source : Rapport annuel FFSA 2012, Socits dommages
Les rsultats des compagnies sen ressortent fortement :
5
Dans ce contexte, il est primordial pour toute compagnie :
Didentifier les segments de clientle fragilisant ses rsultats, ou linverse ceux
qui peuvent tres crateurs de richesse
De suivre les rsultats des affaires en portefeuille de manire objective,
indpendamment de la structure tarifaire utilise lors de la souscription de ces
affaires
Dtre capable didentifier les actions mettre en uvre, et dans la mesure du
possible avant ses concurrents
De mettre en uvre les actions ncessaires pendant les priodes de
renouvellement (rsiliations, augmentations/baisses tarifaires) et tout au long de
lanne (suivi de la performance dun rseau de distribution, actions marketing vis--
vis des clients conserver en portefeuille, efforts commerciaux sur les affaires
nouvelles, etc)
Dans la plupart des compagnies dassurance, ces travaux sont
aujourdhui mens en utilisant des techniques et des
indicateurs relativement standardiss.
Introduction Les enjeux pour une compagnie dassurance
6
De nouvelles dimensions prendre en compte :
Choix du type de modlisation
(GLM, Apprentissage statistique, Mix des 2, etc)
Temps ncessaire limplmentation des modles
Les contraintes des Systmes dInformations existants
Le diagnostic recherch par le modle (tarif, revue, scoring, valeur client, )
Les variables candidates la modlisation (leur nombre et leur connaissance par lactuaire) et leurs interactions
La distribution des donnes
Pour un grand nombre de ces dimensions, le choix des
mthodes dapprentissage statistique sera le plus mme de
rpondre aux besoins croissants en termes de modlisations.
Introduction Les dimensions de modlisation
7
Pour rpondre aux
problmatiques nouvelles
souleves par le management,
les actuaires ont besoin doutils
adapts au nouvel
environnement dans lequel leur
compagnie exerce.
Quelles solutions apportent les
mthodes dapprentissage
statistique pour effectuer les
bons diagnostics ?
Est-ce pour autant la fin des GLM
en tarification ?
Introduction Les enjeux pour une compagnie dassurance
8
Sommaire
Introduction
Les mthodes dapprentissage statistique
Illustration
9
Dfinition : on parle de machine
learning ou dapprentissage
lorsquun algorithme est mis en
uvre pour apprendre et extraire des
informations dune base de donnes.
Une fois la phase dapprentissage
termine, on peut utiliser les rsultats
pour raliser des prdictions.
Cela couvre un domaine trs vaste,
tant par les mthodes (rseaux de
neurones, arbres, mthodes
ensemblistes, etc.) que par les
applications (filtre anti-spam,
marketing, etc.).
Nous nous concentrons sur
lalgorithme CART (Classification
And Regression Tree) et ses
mthodes dagrgation.
Les mthodes dapprentissage statistique Machine learning
Source : Michie D., Spiegelhalter D.J., Taylor
C.C. (1984) Machine Learning, Neural and
Statistical Classification
10
Les mthodes dapprentissage statistique Base de donnes pour illustration
BASE DE DONNES
1 2 3 4 5
LUXE CITADINE CYLINDRE USAGE AGE_COND NOMBRE_SIN
1 N N 4 PRIVE 50 0
2 N N 6 PRIVE 60 0
3 N Y 4 COMMERCIAL 40 1
4 N Y 4 PRIVE 30 0
5 N N 4 PRIVE 70 0
6 Y Y 4 COMMERCIAL 23 0
7 N N 4 BUSINESS 40 0
8 N N 6 PRIVE 40 1
9 Y Y 4 PRIVE 60 0
10 N N 6 PRIVE 50 0
11 N N 8 PRIVE 30 1
12 N Y 4 BUSINESS 30 0
13 Y N 6 PRIVE 40 0
14 N N 6 PRIVE 30 0
998 N N 4 BUSINESS 60 0
999 N Y 4 PRIVE 60 2
1000 N N 4 COMMERCIAL 40 1
Apprentissage Validation Test
70% 20% 10%
11
Variables explicatives : 1, , .
Variable expliquer : .
On cherche parmi un ensemble de fonctions admissibles :
, = 1, , =
Comment trouver une bonne fonction ?
Selon un critre quadratique et sans restriction sur , la meilleure fonction est lesprance
conditionnelle :
= argmin 2 = arg min
2 2 = |
La meilleure reprsentation de sachant que lon dispose de lchantillon est | .
On souhaite obtenir un bon estimateur de lesprance conditionnelle.
Lerreur dun modle sur une base est donne par base = 2
base .
Les mthodes dapprentissage statistique Cadre mathmatique (1/4)
12
Problme : | = traduit un sur-apprentissage.
Les mthodes dapprentissage statistique Cadre mathmatique (2/4)
Meilleur modle
apprentissage
Erreur de prdiction
Complexit
du modle Taille de
Estimateur trivial
= Estimateur sur-appris
= | =
validation
Solution : garder une certaine gnralit/distance par rapport aux donnes dapprentissage.
13
Plus formellement, crivons :
= + = 0 et = 2
est une fonction dterministe certaine mais inconnue
Dans labsolu, on souhaite estimer mais on ne dispose que des observations bruites .
Le sur-apprentissage consiste apprendre (et ) en sloignant de .
Les mthodes dapprentissage permettent dobtenir un modle estim . On peut montrer :
2
2
minimiser
= 2= 2 +
biais
2+ variance
Le meilleur modle traduit un compromis entre le biais et la variance.
Les mthodes dapprentissage statistique Cadre mathmatique (3/4)
14
0 20 40 60 80 100
-10
00
01
00
02
00
03
00
04
00
05
00
0
Comparaison des mthodes
Valeurs de X
Va
leu
rs d
e Y
Observs
Vrai Modle
GLM
Modle Simple
Modle Optimal
Modle Complexe
0 20 40 60 80 100
-10
00
01
00
02
00
03
00
04
00
05
00
0
Comparaison des mthodes
Valeurs de X
Va
leu
rs d
e Y
Observs
Vrai Modle
GLM
Modle Simple
Modle Optimal
Modle Complexe
0 20 40 60 80 100
-10
00
01
00
02
00
03
00
04
00
05
00
0
Comparaison des mthodes
Valeurs de X
Va
leu
rs d
e Y
Observs
Vrai Modle
GLM
Modle Simple
Modle Optimal
Modle Complexe
0 20 40 60 80 100
-10
00
01
00
02
00
03
00
04
00
05
00
0
Comparaison des mthodes
Valeurs de X
Va
leu
rs d
e Y
Observs
Vrai Modle
GLM
Modle Simple
Modle Optimal
Modle Complexe
0 20 40 60 80 100
-10
00
01
00
02
00
03
00
04
00
05
00
0
Comparaison des mthodes
Valeurs de X
Va
leu
rs d
e Y
Observs
Vrai Modle
GLM
Modle Simple
Modle Optimal
Modle Complexe
Les mthodes dapprentissage statistique Cadre mathmatique (4/4)
15
Les arbres CART sont une reprsentation graphique dune analyse rcursive dune base de
donnes, permettant den extraire de linformation servant la dcision/prdiction.
On retrouve deux types distincts :
Les arbres de classification (variable de sortie qualitative ou discrte)
Les arbres de rgression (variable de sortie quantitative continue).
Les mthodes dapprentissage statistique CART - Gnralits
Racine
Feuille 1
Feuille 2 Feuille 3
BASE DE DONNES 1 2 3 4 5
LUXE CITADINE CYLINDRE USAGE AGE_COND NOMBRE_SIN
1 N N 4 PRIVE 50 0
2 N N 6 PRIVE 60 0
3 N Y 4 COMMERCIAL 40 1
4
5