Upload
assia-belhouchet
View
226
Download
0
Embed Size (px)
Citation preview
8/11/2019 Modele d Apprentissage
1/34
BULLETIN FRANAIS DACTUARIAT, Vol. 11, n22, juillet - dcembre 2011, pp. 49 - 81
TARIFICATION DES RISQUES EN ASSURANCE NON-VIE, UNEAPPROCHE PAR MODELE D'APPRENTISSAGE STATISTIQUE1
Antoine PAGLIA2
Martial V. PHELIPPE-GUINVARCH3
Euro-Institut d'Actuariat - Groupama
Abstract:
Non-life actuarial researches mainly focus on improving Generalized Linear
Models. Nevertheless, this type of model sets constraints on the risk structure and on the
interactions between explanatory variables. Then, a bias between the real risk and the
predicted risk by the model is often observed on a part of data. Nonparametric tools such as
machine learning algorithms are more efficient to explain the singularity of the
policyholder.
Among these models, regression trees offer the benefit of both reducing the bias and
improving the readability of the results of the pricing estimation. Our study introduces a
modification of the Classification And Regression Tree (CART) algorithm to take intoaccount the specificities of insurance data-sets. It compares the results produced by this
algorithm to these obtained using Generalized Linear Models. These two approaches are
then applied to the pricing of a vehicle insurance portfolio.
Rsum :
Les dveloppements rcents en tarification de l'assurance non-vie se concentrent
majoritairement sur la matrise et l'amlioration des Modles Linaires Gnraliss.
Performants, ces modles imposent la fois des contraintes sur la structure du risque
modlis et sur les interactions entre les variables explicatives du risque. Ces restrictions
peuvent conduire dans certaines populations d'assurs une estimation biaise de la prime
d'assurance. De par leur nature non paramtrique, les algorithmes d'apprentissage statistiques'affranchissent de ces contraintes. Nous cherchons donc dans cet article les dcrire et
les tester.
Mots-cls: tarification, apprentissage statistique, arbres de dcision
1Cet article est le rsultat du mmoire d'Antoine Paglia pour le titre d'actuaire ralis l'EURIA. Une partie del'tude, notamment les dveloppements spcifiques l'algorithme CART-ANV, a fait l'objet d'une communication(Paglia et al., 2011). Ce travail a t encadr par Martial Phlipp-Guinvarc'h. Il a bnfici du soutien de PhilippeLenca, (Dpt. Logique des Usages, Sciences Sociales et de l'Information, Telecom Bretagne), de Franck Vermet etde Pierre Ailliot, (Dpartement de Mathmatiques, Universit de Bretagne Occidentale) que nous tenons remercier.2Actuaire, Euro Institut d'Actuariat, [email protected]
Actuaire, Docteur, Groupama, [email protected]
8/11/2019 Modele d Apprentissage
2/34
50 A. PAGLIA M. V. PHELIPPE-GUINVARCH
1. INTRODUCTION
Les compagnies d'assurances utilisent quotidiennement des modles statistiques
pour valuer les risques auxquels elles doivent faire face. En particulier, les modles de
rgression permettent de quantifier les relations entre la valeur des contrats des risques
assurs et les variables dcrivant ce risque. Les trente dernires annes ont t marques par
la sophistication des modles de rgression utiliss pour quantifier ces risques. Largression linaire simple qui permettait de modliser par une droite les variations d'une
variable cible - le risque tudi -, a t remplace partir des annes 1980 par les Modles
Linaires Gnraliss mccullagh, nots GLM par la suite. Ces modles permettent la fois
de modliser des comportements non linaires et des distributions de rsidus non gaussiens.
Cela est particulirement utile en assurance non-vie o les cots des sinistres, quand ils se
concrtisent, suivent une densit trs asymtrique clairement non gaussienne. Ils ont permis
d'amliorer la qualit des modles de prdiction du risque et sont aujourd'hui largement
utiliss par les compagnies d'assurance.
Paralllement ces dveloppements, des quipes de chercheurs en informatique ont
mis au point un grand nombre d'algorithmes dont l'objectif tait soit li la prdiction devaleurs soit la classification d'individus. Ces travaux ont donn naissance la thorie de
l'apprentissage statistique - machine learning - dont les modles les plus connus sont les
rseaux de neurones, les arbres de dcision ou encore les support vector machines (pour
approfondir, voir Hastie et al. (2008) ou Mitchell (1997)). Ces mthodes ont t appliques
avec succs dans les domaines de la gntique, de la dtection de maladies rares ou de
l'cologie (Elith et al. (2008)) pour rsoudre des problmes complexes. Nanmoins, leur
utilisation en assurance est cependant moins rpandue et/ou confidentielle, notamment en
assurance de vhicule, notre domaine applicatif. La littrature est ainsi peu abondante. Nous
renvoyons cependant le lecteur intress aux tudes de Apte et al. (1999), Dugas et al.
(2003) et Christmann (2004). Les rsultats obtenus dans ces domaines montrent qu'il estpossible grce ces algorithmes d'extraire des structures de dpendance entre les donnes
qui restaient jusque l non dtectes par les outils de rgression classique. Nous utilisons
volontairement des algorithmes de rfrence dans le cadre de cet article pour faciliter la
lecture de nos rsultats. Pour autant, la littrature sur l'extraction et la gestion des
connaissances propose des dveloppements utiles en assurance non-vie o la probabilit
d'avoir un sinistre est trs faible comparativement la probabilit oppose de ne pas en
avoir. Le lecteur pourra se rfrer par exemple aux algorithmes spcifiques de Lenca et al.
(2010) ou de Washio et al. (2008) .
8/11/2019 Modele d Apprentissage
3/34
TARIFICATION DES RISQUES EN ASSURANCE NON-VIE, UNE APPROCHE PAR MODELED'APPRENTISSAGE STATISTIQUE
51
L'objectif de cet article est de prsenter les bnfices lis l'application d'un de ces
algorithmes la tarification de produits d'assurance non-vie. Il expose une modification de
l'algorithme CART (Classification And Regression Tree) pour prendre en compte les
spcificits de l'assurance non-vie. La premire partie est consacre l'expos de l'tat de
l'art et des enjeux mathmatiques, conomiques et stratgiques. Les modles d'estimation
de la prime pure qui sont compars dans notre tude, en particulier l'algorithme CART ,
sont ensuite prsents. La troisime partie prsente les lments clefs de la base de donnes.
Enfin, la dernire partie est consacre l'tude des rsultats des modles statistiques.
2. TAT DE L'ART ET ENJEUX
L'objectif de cette section est de montrer les enjeux mathmatiques et conomiques
de la tarification par l'apprentissage machine. La premire sous-section est consacre aux
mthodes actuelles d'estimation de la prime actuarielle. Leurs limites sont ensuite
prsentes. Ces limites conduisent la deuxime sous-section consacre au machine
learning. La troisime sous-section illustre ces techniques en utilisant les donnes sur le brisde glace. Enfin, nous exposerons les enjeux de la comparaison entre les Modles Linaires
Gnraliss et l'apprentissage machine pour l'assureur.
2.1 Les limites des Modles Linaires Gnraliss
Dans les annes 1960, des actuaires canadiens ont dvelopp une mthode de
tarification connue sous le nom de minimum bias procedures,(Bayley et Simon, 1960). Le
principe de cette mthode consiste dfinir arbitrairement un lien entre les variables
explicatives (multiplicatif, additif), les classes de risques (par exemple les conducteurs de
moins de 20 ans ayant une voiture de puissance comprise entre 70 et 100 chevaux) et une
distance entre les valeurs prdites et les valeurs mesures. Une fois ces trois lments
imposs, un algorithme itratif calcule le coefficient associer chaque classe de risques
en minimisant le critre de distance.
Bien que construits en dehors d'un cadre statistique existant, ces algorithmes se
sont rvls par la suite tre des cas particuliers d'utilisation de Modles Linaires
Gnraliss. Les modles GLM sont des extensions du modle linaire simple et
permettent la fois de modliser des comportements non-linaires (grce aux fonctions de
liens) et des distributions de rsidus non-gaussiens (McCullagh et Nelder (1989)).
Par rapport aux techniques de minimum bias procedures, les modles GLM
8/11/2019 Modele d Apprentissage
4/34
52 A. PAGLIA M. V. PHELIPPE-GUINVARCH
bnficient d'un cadre thorique dans lequel il est possible d'effectuer des tests statistiques
pour valuer la qualit du modle produit. Toutefois, ces modles issus de la statistique
paramtrique possdent deux limites qui sont de nature rduire leurs capacits prdictives.
Ces limites concernent la dtection et la modlisation d'interactions entre les variables
quantitatives ou qualitatives et la modlisation de la prime en fonction de variables
quantitatives (l'ge, la puissance).Dans un modle GLM, les interactions doivent tre spcifies priori par le
statisticien. Si celui-ci dispose de 6 variables explicatives prenant chacune 10 valeurs, il
existe 1=106 million d'interactions possibles dont il faut tester la significativit. Ceci
montre les limites de la statistique paramtrique dans laquelle les rsultats des modles sont
produits avec une bonne prcision sur la valeur estime et son erreur mais pour des
structures de risques qui ne correspondent pas forcment la ralit des donnes.
2.2 Les apports du machine learning
Contrairement la statistique classique qui ncessite de formuler des hypothses sur
la structure et la distribution des donnes, la thorie de l'apprentissage statistique ne
formule qu'une seule hypothse : les donnes prdire, que nous noterons Y, sont gnres
de faons identiques et indpendantes par un processus P partir du vecteur des variables
explicatives X.
A partir de cette hypothse, le but est de construire un algorithme qui va apprendre
prdire la valeur de Yen fonction des valeurs explicatives X(i.e. ]|[ XYE ). Le rsultat
de cet apprentissage est une fonction note )( Xfw . Elle fait intervenir les variables Xet
un paramtre de complexit w . Ce paramtre dsigne par exemple le nombre de neurones
dans un rseau de neurones ou le nombre de nuds dans un arbre de dcision. Cette
fonction qui devient de plus en plus complexe mesure que l'algorithme apprend permet demodliser les singularits de la structure des donnes (notamment des interactions ou des
comportements non linaires). Le critre d'arrt de l'algorithme d'apprentissage correspond
l'tape o la complexification du modle )( Xfw conduit diminuer ses performances de
prdiction sur une autre base de donnes. Ce phnomne est appel surapprentissage et son
effet en terme de mesure d'erreur est prsent dans la figure 2.
Les performances d'un modle se mesurent aprs avoir dfini une fonction de risque
))(,( XfYR w . Celle-ci mesure la distance entre Y et son estimation )( Xfw . Des choix
typiques pour la fonction de risque lorsque Y est une variable quantitative sont les
8/11/2019 Modele d Apprentissage
5/34
TARIFICATION DES RISQUES EN ASSURANCE NON-VIE, UNE APPROCHE PAR MODELED'APPRENTISSAGE STATISTIQUE
53
suivants:
absolueerreurXfY
equadratiquerreurXfYXfYR
w
ww
|)(|
))((=))(,(
2
L'erreur de gnralisation est l'erreur commise sur une base de donnes
indpendante de la base ayant servie construire )( Xfw . Elle est dfinie comme tant
l'esprance de l'erreur sur une base indpendante note testB :
]|))(,([= testwtest BXfYREErr
Toutefois, lors de l'apprentissage, l'algorithme ne dispose que des N lignes de la
base de donnes et c'est donc l'erreur empirique sur la base d'apprentissage qui est
mesure :1
))(,(1
=,
iwi
ageapprentissBiyixageapprentiss xfyRN
Err
La validation croise permet cependant d'ajuster des modles qui minimisent testErr
pour un nombre fini de bases de donnes. Cette mthode consiste, lorsque la base de
donnes est suffisamment volumineuse, la dcouper en trois parties (Cf. figure 1). La
premire base appele base d'apprentissage est utilise pour construire )( Xfw . La seconde,
appele base de validation, permet de dfinir le paramtre w qui minimise l'erreur
]|))(,([= validationwvalidation BXfYREErr . Enfin, la dernire base, appele base de test,
permet de mesurer l'erreur sur une base qui n'a pas servie paramtrer le modle ( testErr )
et est utile pour comparer les performances de plusieurs algorithmes d'apprentissage.
Figure 1: 50% de la base servent l'apprentissage, 25% servent trouver le paramtre decomplxit w optimal du modle, les 25% restant permettent de comparer diffrents
modles sur une base qui n'a pas servie paramtrer le modle.
1La thorie de la Structural Risk Minimization dveloppe par Vapnik (1998) permet de trouver le
paramtre w de )( Xfw qui minimise testErr par une quantit qui dpend de l'erreur sur la base d'apprentissageet d'un paramtre appel Vapnik Dimension (VC) qui dpend du paramtre .
w
8/11/2019 Modele d Apprentissage
6/34
54 A. PAGLIA M. V. PHELIPPE-GUINVARCH
Figure 2: L'volution de l'erreur en fonction de la complexit du paramtre w .
La figure 2 illustre des comportements typiques rencontrs pour l'volution de
l'erreur en fonction de la complexit du paramtre w . Les courbes en trait fort sont les
valeurs moyennes de plusieurs apprentissages. Celles en trait plein reprsentent l'volution
de l'erreur sur la base d'apprentissage ageapprentissErr et celles en trait discontinu
reprsentent l'erreur sur une base de validation validationErr . L'erreur sur la base
d'apprentissage diminue au fur et mesure que l'algorithme apprend. L'algorithme
d'apprentissage doit s'arrter lorsque l'erreur augmente sur la base de validation. La
complexit w optimale est celle qui minimise l'erreur sur la base de validation. Dans cet
exemple, prsent dans la figure 2, le w qui minimise l'erreur est 10.
Ainsi, les modles d'apprentissage statistique possdent deux qualits qui sont de
nature amliorer la prdiction de la prime pure d'un contrat d'assurance non-vie. Tout
d'abord, ils sont capables de modliser des structures de dpendances complexes partir
des donnes, alors que ces dpendances doivent tre spcifies par le statisticien, dans le
cas de la tarification par modles GLM . De plus, le modle produit )( Xfw est optimis,
non pas pour donner le meilleur ajustement sur la base de donnes, mais pour rduire
l'erreur de la valeur prdite sur une autre base, ce qui est de nature renforcer la robustesse
des rsultats prdits.
2.3 Illustration
Pour illustrer les deux limites, nous prsentons les rsultats de l'estimation de la
frquence de sinistres de la garantie bris de glace en fonction de l'ge et de la puissance du
8/11/2019 Modele d Apprentissage
7/34
v
eff
est
de
tu
po
fig
du
c
pa
fo
va
mo
TARIFICATIO
icule qui so
ets sur la frq
imation. Le p
la thorie du
de et nous re
r une explic
ure 3 et perm
vhicule sur l
igure 3: L'
pacits des
t leur nature
Le seco
ction de vari
iables Age
dlise par u
DES RISQUESD'
t deux varia
uence de sini
remier modl
machine lear
nvoyons le l
tion de l'alg
ettent de visu
a frquence
ude de la fr
odles rep
paramtriqu
s'a
d modle es
ance poisson
t Puissance
e rponse de
=freq
EN ASSURANAPPRENTISSA
les quantitati
stres. Nous a
e est un mod
ing. L'explic
cteur Hasti
rithme. Les
aliser la form
es sinistres.
uence prdit
senter l'infl
, les deux mo
apter aux sin
t un Modle
et une fonc
du vhicule
type :
( 10exp +
CE NON-VIE,E STATISTIQ
ves et qui pr
ons retenu q
le GAM. C'e
ation de cet
e et al. (200
aleurs prdit
e de l'influen
selon deux
ence jointe
dles GLM p
gularits des
Linaire G
ion de lien l
ne sont pas
2 PAge +
NE APPROCHE
sentent une
atre modles
st un modle
lgorithme d
) ou Denuit
es par ce mo
ce jointe de l'
imensions pe
e deux variab
sents ici m
donnes.
nralis -not
ogarithmique
iscrtises.
)uissance
PAR MODEL
interaction d
statistiques p
on paramtr
asse le cadre
et Charpentie
le sont mo
ge et de la p
rmet de mont
les quantitati
ontrent leurs
GLM 1-
. Dans ce m
a frquence
55
ns leurs
our cette
que issu
de cette
r (2005)
tres en
uissance
rer les
ves. De
limites
vec une
dle les
est donc
8/11/2019 Modele d Apprentissage
8/34
56
sol
sol
mo
mo
poval
cla
l'al
pr
l'o
no
rep
Les figur
ution pour p
ution la plus
dlisation av
ntrent que po
r le modleeurs limites s
Une solu
sses et leurs
gorithme des
sentation de
jet de cet arti
Fig
Les cour
bre de niv
rsentation p
A.
es 3&4 mont
llier ce pr
souvent utilis
ec quatre cl
ur ce modle
LM 1 sansparant les cl
tion ce pro
limites en fo
arbres de d
cet algorith
cle.
re 4: Courb
bes de nivea
aux entre le
us fidle du
PAGLIA M. V
rent que ceci
blme consi
e en assuran
sses pour la
, la reprsent
iscrtisation.asses est souv
lme serait
nction de cri
ision CART
e et son ada
s de niveaux
ux prsente
s modles
isque. Ce gr
. PHELIPPE-G
n'est pas ada
te discrtis
ce. Le modl
puissance e
tion de la str
Toutefois, leent arbitraire
'avoir un alg
tres statistiq
qui est le qu
ptation des
des graphiqu
s dans la fig
LM 2 et C
phique mont
INVARCH
t la struct
er les variabl
e appel GL
six pour l'
ucture du ris
choix du noet non optim
orithme qui c
ues. C'est pr
trime modl
donnes d'a
s prsents e
ure 4 montr
RT , il est
e notamment
ure des donn
es continues.
2 correspon
ge. Les figu
ue est plus fi
bre de classl.
hoisisse le no
cisment ce
e des figures
surance non
n figure 3
nt qu'avec u
possible d'a
que le modl
es. Une
C'est la
d cette
res 3&4
dle que
es et des
mbre de
que fait
3&4. La
vie font
n mme
oir une
e CART
8/11/2019 Modele d Apprentissage
9/34
TARIFICATION DES RISQUES EN ASSURANCE NON-VIE, UNE APPROCHE PAR MODELED'APPRENTISSAGE STATISTIQUE
57
sgmente plus les risques dans la zone correspondant aux vhicules intressants l'assureur
(i.e.vhicules rcents et de puissance moyenne) alors que le modle GLM 2 impose une
segmentation uniforme sur le portefeuille.
Ce premier exemple montre que les modles issus de la thorie de l'apprentissage
machine permettent de dtecter et modliser des structures de dpendance entre les
variables explicatives du risque sans devoir les spcifier priori. Le cadre gnral dans
lequel sont construits ces modles non paramtriques est prsent dans la section suivante.
2.4 Enjeux de la comparaison entre Modles Linaires Gnraliss et apprentissage
machine
Le premier enjeu de l'assureur est la bonne mesure du risque. L'article vise donc
premirement comparer la performance globale des GLM par rapport aux diffrents
algorithmes d'apprentissage machine. Dans le cadre de cette comparaison, nous
prsenterons le fonctionnement de trois algorithmes de rfrence et prsenterons les
rsultats obtenus sur notre base de donnes. Nous prsenterons plus en dtail l'algorithmeCART et son adaptation l'assurance non-vie, note CART-ANV.
L'amlioration de la segmentation d'un portefeuille d'assurs constitue un enjeu
conomique et stratgique majeur. En effet, l'assureur cherche dvelopper sa part de
march sur les segments qui conduisent la fois un avantage concurrentiel et un profit.
La qualit d'une segmentation par groupe de risques peut se mesurer selon quatre critres
majeurs que sont l'quit, l'homognit, le caractre ralisable et le caractre incitatif
(Feldblum (2006)). L'absence de biais entre le risque mesur et le risque prdit correspond
au critre d'quit et stipule que les primes payes par le groupe doivent reflter les pertes
occasionnes par ce groupe. Le critre d'homognit exprime le fait que les risques au sein
d'un groupe sont homognes et qu'il n'est pas possible de subdiviser ce groupe en plusieurs
sous groupes ayant des primes significativement diffrentes. Nous comparons donc
galement la performance des deux approches par segment sur les deux principaux critres
d'quit et d'homognit.
Enfin, nous comparons galement les deux approches dans leurs aspects pratiques
i.e. dans la prparation des donnes, la mise en uvre des outils, la fiabilisation des
rsultats et leur lisibilit tant en communication interne qu'externe.
8/11/2019 Modele d Apprentissage
10/34
58 A. PAGLIA M. V. PHELIPPE-GUINVARCH
3. MODELISATIONS MATHEMATIQUES
La premire section a montr les limites de la statistique classique pour le problme
de l'estimation de la prime pure, et les avantages qu'il est possible d'obtenir grce
l'utilisation des mthodes d'apprentissage statistique. Cette section a pour objectif de
prsenter les modles mathmatiques utiliss pour la tarification d'un portefeuille
d'assurance non-vie.
3.1 Prambule aux travaux de modlisation
Nous faisons le choix de traiter sparment les valeurs extrmes et donc de
dcomposer notre modlisation selon la formule suivante (Cf. graphique 8) :
],|[]
8/11/2019 Modele d Apprentissage
11/34
TARIFICATION DES RISQUES EN ASSURANCE NON-VIE, UNE APPROCHE PAR MODELED'APPRENTISSAGE STATISTIQUE
59
segmentation, le caractre ralisable et le caractre incitatif correspondent un choix des
variables explicatives insrer dans le modle. Par contre l'quit et l'homognit sont
directement impacts par l'algorithme et peuvent se mesurer de manire mathmatique de la
faon suivante.
L'quit correspond l'absence de biais entre le risque mesur et le risque prdit
dans un groupe de risques. Le biais moyen dans un groupe d'assurs G est not :
iiwGiyix
yxfG
Gb
)(||
1=)(
,
o || G dsigne le nombre d'individus dans G .
L'homognit implique qu'aucun groupe d'assurs payant la mme prime ne peut
tre subdivis en deux groupes dont la nouvelle prime serait significativement diffrente.
Ceci revient minimiser la variance intra-groupe pour tous les groupes et donc minimiser
la somme des variances intra-groupe qui est gale l'erreur de gnralisation. Comme
mentionn dans la section sur les apports du machine learning, nous mesurerons cette erreur
sur une base de test testB qui n'a pas servie paramtrer l'estimateur de la prime :2
,
))((||
1= iiw
testBiyixtest
test yxfBErr
Cette erreur est souvent appeleMean Square Error(MSE) dans la littrature. Une
tude comparative des performances en terme de minimisation du MSE par divers
algorithmes pour l'estimation de la prime pure est prsente dans Dugas et al. (2003). Ce
papier montre la supriorit des algorithmes de machine learning en matire de rduction
du MSE par rapport aux techniques classiques ( GLM ) mais ne prcise pas le traitement
qui a t effectu sur les donnes (crtement des valeurs extrmes, traitement des variables
quantitatives) ni les paramtres utiliss dans les modles (fonction de variance pour lesmodles GLM , nombre de nuds, nombre de rseaux de neurones).
Nous avons donc effectu une tude similaire en appliquant le traitement sur la
base de donnes de la section 4.2.5 rduite la seule garantie bris de glace (dont
l'histogramme de la figure 7 avait montr que cette garantie tait celle qui avait la
distribution de sinistres la plus homogne). Trois algorithmes d'apprentissage statistique
issus des dix principaux algorithmes supports par la communaut scientifique Wu et al.
(2008) ont t paramtrs puis compars aux rsultats produits par les mthodes classiques
GLM.
8/11/2019 Modele d Apprentissage
12/34
60 A. PAGLIA M. V. PHELIPPE-GUINVARCH
La mthodologie utilise pour estimer la prime pure a consist utiliser la fois
l'approche directe et la dcomposition cot-frquence. Nous ne prsentons ici que les
rsultats obtenus pour l'valuation du montant moyen (i.e. ]0,>|[ XYYE ) mais les
conclusions sur les modles sont similaires pour les autres quantits. Les modles ont t
ajusts sous le logiciel R.1
3.2.1
Rgression par arbre de dcision simple (CART)
Un arbre de rgression simple (algorithme CART du package rpart Therneau et al.
(2009)) a t ajust sur la base d'apprentissage. Le choix du critre d'arrt a t fix en
choisissant le nombre de nuds qui minimise l'erreur sur la base de validation (42 nuds
dans cet exemple). Cet algorithme est prsent en dtail dans la section 3.3.
3.2.2 Rgression par arbre de dcision boost
Un arbre de rgression boost (combinaison d'un grand nombre d'arbres de petites
tailles) a t ajust sur la base d'apprentissage en utilisant le package gbr. L'explication de
cet algorithme dpasse le cadre de cette tude. Le lecteur pourra par exemple se rfrer
Elith et al. (2008) et Christmann (2004) pour plus de dtails. Le choix du critre d'arrt a
t fix en choisissant le nombre d'arbres qui minimise l'erreur sur la base de validation. Le
choix du taux d'apprentissage est crucial pour obtenir un modle qui apprend la bonne
vitesse, sans construire trop d'arbres. La combinaison des deux paramtres, learning
rate=0,006 et du nombre de nuds=13 a permis d'obtenir le MSE le plus faible (nombre
d'arbres=900).
3.2.3 Rgression par rseaux de neurones
Un rseau de neurones une couche cache (package nnet) a t ajust sur la base
d'apprentissage. Le lecteur pourra se rfrer Hastie et al. (2008) pour plus de dtails. Le
choix du critre d'arrt a t fix en choisissant le nombre de neurones dans la couche
cache qui minimise l'erreur sur la base de test. L'erreur minimale a t trouve pour un
rseaux dix neurones dans la couche cache.
3.2.4 Rgression par modle linaire gnralis
Un modle linaire gnralis a t ajust sur la base d'apprentissage. La fonction de
variance utilise est la fonction Gamma avec sa fonction de lien canonique (fonction
inverse).
1
www.r-project.org
8/11/2019 Modele d Apprentissage
13/34
TARIFICATION DES RISQUES EN ASSURANCE NON-VIE, UNE APPROCHE PAR MODELED'APPRENTISSAGE STATISTIQUE
61
La slection de modle a t effectue selon une stratgie de slection forward. Cette
stratgie consiste partir du modle sans variable explicative puis ajouter la variable qui
rduit le plus l'erreur sur la base de validation. Cette opration est ritre jusqu' ce que
l'ajout de variables augmente l'erreur sur la base de validation. Le modle final est celui
dont le choix des variables explicatives minimise l'erreur sur la base de validation. Cette
stratgie de slection de modle est cohrente avec la stratgie utilise pour paramtrerl'algorithme CART-ANV et permet de comparer de manire objective les rsultats produits
par l'algorithme CART-ANV et le modle GLM .
Dans cet exemple, la suppression des variables nUtilisatio et vehiculeduGenre du
modle a permis de rduire l'erreur sur la base de validation. Il convient de noter que dans
cet exemple, la stratgie forward de slection de modle retenait le mme modle que dans
une stratgie consistant ne retenir que les variables dont les coefficients sont
statistiquement significatifs (au sens de la p-value infrieure 5% sous l'hypothse 0H que
le coefficient est nul).
3.2.5
Comparaison des rsultats et choix de l'algorithme
La table 1 montre les rsultats en terme de MSE pour les quatre algorithmes dans
l'valuation du montant moyen de la garantie bris de glace. Les rsultats sur cet exemple
montrent que l'arbre de rgression boost est le modle qui donne la meilleure prdiction en
terme de MSE. Toutefois, le prix payer pour obtenir ces performances est d'avoir des
rsultats de type boite noire dans lequel il est difficile d'identifier l'effet d'une variable sur le
rsultat final. Cette remarque est valable pour les rseaux de neurones, mais pas pour les
arbres de rgression simple qui offrent une lecture visuelle du modle.
Algorithme MSEtraining MSEvalidation MSEtestRgression GLM (Gamma) 485685 551574 516501
Rseaux de neurones 473112 555147 514836Arbre de rgression simple 474858 545724 511344Arbre de rgression boost 459099 536985 503793
Table 1: MSE calcul sur les trois bases(class du moins bon au meilleur sur la base de test)
8/11/2019 Modele d Apprentissage
14/34
62 A. PAGLIA M. V. PHELIPPE-GUINVARCH
Figure 5: Arbre de rgression simple appliqu sur la base de donne
La figure 5 prsente le rsultat graphique produit par l'algorithme. Le graphique
indique que la sinistralit moyenne du portefeuille est de 210,9 et concerne 874 423
individus (valeurs au sommet de l'arbre). Parmi l'ensemble des variables explicatives de
l'assur (l'ge du vhicule, la puissance du vhicule, la formule), la variable qui effectue la
meilleure sparation binaire de la base de donnes est la variable ge. La meilleure
sparation a lieu pour l'ge de 7,25 ans. L'algorithme cre alors deux nuds et cherche
parmi ces deux nuds celui qui ncessite le plus d'tre spar en deux. Pour le nud de
sinistralit 89,89 , la variable qui spare le mieux le risque est la formule tandis que pour
le nud de sinistralit 470,70 , la variable qui spare le mieux le risque est la variable
Puissance . L'algorithme arrte de crer des divisions binaires lorsqu'un critre d'arrt est
rencontr. Cet exemple montre que l'algorithme peut s'arrter diffrents niveaux de
l'arbre.
C'est cette lecture visuelle associe au principe de l'algorithme - qui est de crer des
groupes de risques homognes - et aux bonnes performances en terme de MSE de l'arbre dergression qui nous ont invit retenir ce modle pour l'estimation de la prime pure dans la
suite de notre tude.
3.3 Prsentation de la rgression par arbre simple CART
Les mthodes d'arbres de dcision partitionnent l'espace des variables explicatives
en diffrentes classes de risques et assignent ensuite cette classe la valeur moyenne prise
par le montant de sinistre dans la classe. L'algorithme utilis est l'algorithme CART
dvelopp dans Breiman et al. (1984) et Hastie et al. (2008). Il peut tre utilis pour des
8/11/2019 Modele d Apprentissage
15/34
TARIFICATION DES RISQUES EN ASSURANCE NON-VIE, UNE APPROCHE PAR MODELED'APPRENTISSAGE STATISTIQUE
63
problmes de classification ou de rgression. Dans le cadre de l'estimation de la prime pure,
le problme est li une rgression sur le montant et la frquence des sinistres.
La section consacre aux apports du machine learning a montr que l'ajustement
d'un algorithme d'apprentissage machine se faisait en deux tapes. La premire tape est
l'ajustement de la fonction )( xfw sur la base d'apprentissage par minimisation de l'erreur
sur cette base trainingErr et la deuxime tape consiste trouver le paramtre de complexitw qui minimise l'erreur de gnralisation testErr . La fonction wf est de la forme :
}{=)( ,,1=
wjwj
w
jw RxIYxf
o w dsigne le nombre de nuds terminaux de l'arbre, }{ ,wjRxI est la fonction
indicatrice associe au nud final wjR , et wjY , dsigne la moyenne empirique dans le
groupe j .
Dans le cadre des arbres de dcision, minimiser trainingErr pour la fonction )( xfw
n'est gnralement pas rsolvable informatiquement puisqu'il faudrait tester toutes les
combinaisons de tous les groupes de risque possibles. L'algorithme CART est un
heuristique qui permet de s'approcher de la solution optimale et qui consiste minimiser
trainingErr chaque cration d'un nud.
L'heuristique procde ainsi. Dans la premire tape, l'algorithme sub-divise de
manire rcurente la base d'apprentissage en deux. Chaque nud cr vise maximiser la
rduction de dviance .R L'algorithme calcule pour chaque variable et pour chaque
sparation possible la valeur de la dviance du nud parent, fils gauche et fils droit.
Plusieurs fonctions de dviance peuvent tre dfinies. Dans le cas d'une minimisation de
l'erreur quadratique, cette dviance a pour expression :
2)(= iiNoeudi
yyD L'algorithme calcule ensuite, pour chacune des sparations possibles, la valeur R de
la rduction de dviance : )(= filsdroitfilsgaucheparent DDDR + . Le nud finalement retenu
est la sparation qui maximise la rduction de dviance R . L'algorithme recommence
ensuite la cration d'un nouveau nud jusqu' ce que le critre d'arrt sur le nombre
minimum d'individu dans un nud soit rencontr.
L'arbre produit de nombreux nuds. La deuxime tape, appele lagage, consiste
retirer tous les nuds qui rsultent du surapprentissage en utilisant une deuxime base, la
base de validation. mesure que le nombre de nud augmente, l'erreur sur la base de
8/11/2019 Modele d Apprentissage
16/34
64 A. PAGLIA M. V. PHELIPPE-GUINVARCH
validation diminue puis atteind un minimum (Cf. figure 2). L'algorithme arrte d'ajouter des
nuds lorsque ce minimum est atteint.
3.4 Adaptation de l'algorithme pour l'assurance non-vie ( CART-ANV)
Cette sous-section pose le problme li la prise en compte de la priode
d'exposition dans le portefeuille. Si cette priode d'exposition n'est pas prise en compte,l'arbre identifie les vhicules prsents moins longtemps dans le portefeuille comme tant
moins risqu ce qui conduit une sous-estimation de la prime pour ces groupes de risque.
Dans son papier sur l'application des algorithmes de support vector machine
l'estimation de la prime pure, Christmann (2004) propose de diviser les sinistres dans la
base de donnes par leur priode d'exposition. Or, si un assur prsent 3 mois dans le
portefeuille dclare un sinistre, cette mthode comptabilise 4 sinistres sur l'anne.
Mathmatiquement, l'effet de cette transformation est prsent dans l'inquation suivante :
i
M
i
i
M
i
i
M
ii
iM
i
i
M
i
YYtsoitYt
Y
Mt
1=1=1=1=1=
~)
1(
o dsigne le nombre d'individus dans un groupe d'assurs payant la mme prime, iY
dsigne le montant de sinistre et it la priode d'exposition. La dmonstration de cette
inquation se fait par rcurrence. Cette approche conduit une surestimation de la prime
(notamment dans les groupes de risque qui sont structurellement moins d'un an dans le
portefeuille : les premires souscriptions des jeunes conducteurs).
Afin d'obtenir l'galit entre les primes pures actuarielles et la sommes des sinistres
rels tel que :
i
M
ii
M
i
YYt 1=1=
=~
il vient algbriquement que la quantit Y~ estime par l'algorithme dans un nud et la
fonction de dviance D~
deviennent :
2
1=
1= )~(=~
=~
iiiNoeudi
i
M
i
i
M
i tyyDet
t
Y
Y
Nous avons donc intgr cette modification directement dans l'algorithme CART
pour devenir l'algorithme CART-ANV. Cette approche permet de prendre en compte l'effet
de la priode d'exposition sur la sinistralit du portefeuille et est quivalente
8/11/2019 Modele d Apprentissage
17/34
TARIFICATION DES RISQUES EN ASSURANCE NON-VIE, UNE APPROCHE PAR MODELED'APPRENTISSAGE STATISTIQUE
65
mathmatiquement l'introduction d'un offset dans les modles GLM qui possdent une
fonction de lien logarithmique. Le package rpart permet de recoder en langage R la fonction
de cration des nuds de l'arbre.
4. TUDE ET PREPARATION DES DONNEES
Nous avons suivi une mthodologie proche de CRISP-DM 1(Shearer 2000), dontl'une des tapes les plus importantes consiste prparer les donnes. Face l'importance de
cette tape prliminaire, nous avons dcid d'y consacrer une section. Nous dcrivons ci-
dessous les principaux lments de la base de donnes brute et les transformations opres.
Nous prcisons que nous utilisons une base de donnes relle, brute et volumineuse
d'un assureur. Pour des raisons -videntes- de confidentialit, nous avons dpersonnalis la
base. Par exemple, nous n'avons pas explicit des variables comme l'usage des vhicules
(not usage1, usage2 ) et avons effectu des homothties des variables quantitatives comme
le montant du sinistre.
Par ailleurs, l'assureur est en charge de la mesure de son propre risque et donc devalider les modles sur sa propre base de donnes correspondant son business. Nous ne
comparons donc les modles que sur une seule base de donnes. Une comparaison sur
d'autres bases ne rpond pas l'objectif que nous poursuivons car leurs caractristiques
seraient diffrentes. Par exemple, elles pourraient tre issues de processus mtier diffrents
ou viseraient une cible diffrente.
La premire section est consacre l'tude descriptive de la base de donnes
regroupant les informations sur les vhicules et les sinistres d'un portefeuille de vhicules.
La prparation des donnes en vue d'tre utilises pour paramtrer des modles statistiques
est ensuite prsente. La troisime section traite de la prsence de sinistres extrmes dans la
base de donnes et la manire dont ces sinistres doivent tre traits. Enfin, la dernire
section prsente les caractristiques de la base de donnes aprs traitement et sur laquelle
sera appliqu l'algorithme.
4.1 Description de la base de donnes
La base de donnes qui sert de support notre tude rassemble plusieurs exercices
pour atteindre un peu plus de trois millions de contrats. Ce fichier contient 45 variables
explicatives (l'ge du vhicule, sa puissance, le montant de la franchise) dont la majorit
1
http://www.crisp-dm.org
8/11/2019 Modele d Apprentissage
18/34
66 A. PAGLIA M. V. PHELIPPE-GUINVARCH
sont discrtes et comportent de nombreuses modalits (le code postal, la Catgorie Socio-
Professionnelle - CSP, la marque du vhicule).
Figure 6 : L'histogramme restreint aux sinistres compris entre 0 et 30 000 montre unedistribution trs asymtrique et la prsence d'un pic
Notre base contient environ 150 000 sinistres. Le montant enregistr est le montant
d'indemnisation de l'assureur sur une garantie, ce qui correspond la valeur totale du
sinistre diminue de la franchise. La frquence moyenne des sinistres est de 7,49% pour un
montant moyen de 3 711 , soit une prime pure en ne tenant compte d'aucune variable
explicative de 276 . La table 2 dtaille la rpartition des sinistres. Ainsi, 6,48% des assurs
ont eu un sinistre compris entre 1 et 4 500 . Ces sinistres de faible montant contribuent
39,30% de la charge totale des sinistres. Il est intressant de noter l'importance prise par les
sinistres extrmes : seulement 0,01% des assurs ont eu un sinistre extrme mais la somme
de ces sinistres contribue 19% du montant total des sinistres. Le montant maximum de
sinistre est de 7,8M.
Charge de sinistre % obs. % du montant total Moyenne Mdiane0 92,51 0 0 0
]0,4 500] 6,48 39,30 1 680 1 266]4 500,30 000] 0,92 28,00 8 394 6 762
]30 000,150 000] 0,06 13,78 60 705 50 682[150 000, max] 0,01 19,10 471 627 276 012
Table 2: Rpartition de la charge de sinistre. Elle montre l'importance des valeursextrmes.
8/11/2019 Modele d Apprentissage
19/34
TARIFICATION DES RISQUES EN ASSURANCE NON-VIE, UNE APPROCHE PAR MODELED'APPRENTISSAGE STATISTIQUE
67
L'cart entre le montant moyen et la mdiane dans une tranche de sinistres montre
que la distribution des sinistres est trs asymtrique. Ceci est confirm par le coefficient
d'asymtrie skewness- qui est de 3,2 et l'histogramme de la distribution des sinistres par
contrats prsent dans la figure 6. La lecture de l'histogramme rvle un pic de sinistralit
correspondant au montant du remboursement dans le cas d'une procdure IDA
(Indemnisation Direct de l'Assur). Pour acclrer le remboursement des assurs, les
assureurs ont mis en place cette procdure qui se traduit statistiquement par une
dformation de la distribution des sinistres avec un pic et trs peu de sinistres autour de ce
pic. La dformation est d'autant plus visible lorsque l'histogramme des sinistres est tudi
garantie par garantie comme le montre la figure 7.
Le premier histogramme de la figure 7 correspond la garantie responsabilit civile
et montre l'importance de la distorsion lie au pic. Les autres histogrammes sont prsents
afin de montrer les diffrences de distributions entre les garanties. La distribution de la
garantie incendie apparat moins rgulire que la distribution de la garantie pour le bris de
glace. Le dernier histogramme est associ la garantie sur la collision et montre aussi unpic, mais avec une influence moindre sur la distribution que pour la garantie RC.
Ces histogrammes confirment le fait que les distributions entre garanties sont trs
peu homognes. Cependant l'tude de l'histogramme des sinistres par vhicule de la figure
6, montre une distribution des sinistres beaucoup plus rgulire et suggre que les modles
dvelopps sur cette distribution seront moins perturbs par les donnes que les modles
paramtrs sur les distributions des sinistres pris garantie par garantie.
Figure 6: Histogrammes par garanties assures
8/11/2019 Modele d Apprentissage
20/34
68 A. PAGLIA M. V. PHELIPPE-GUINVARCH
4.2 Prparation des donnes
Les variables prsentes dans la base de donnes ne peuvent tre utilises par un
modle statistique sans un traitement pralable. En effet, la prsence de valeurs non-
cohrentes, de valeurs manquantes, de variables discrtes avec un trs grand nombre de
modalits ou de valeurs extrmes posent certains problmes. Nous prsentons dans cette
section les traitements les plus importants et leurs consquences ventuelles sur les rsultatsdu modle.
4.2.1 Les valeurs non-cohrentes et extrmes pour les variables explicatives
Les valeurs non-cohrentes doivent tre dtectes l'aide d'un expert sur le risque
assur. Dans notre exemple, la connaissance des puissances et des ges des diffrents
vhicules permet d'identifier les valeurs non-cohrentes. Une fois identifies, ces valeurs
peuvent soit tre remplaces par la valeur la plus probable (aprs une rgression sur la
variable remplacer) soit tre dfinies comme valeurs manquantes.
4.2.2
Regroupements
Bien que les regroupements des variables qualitatives ne soient pas ncessaires pour
CART-ANV, ils sont utiles dans le cadre d'une comparaison avec les modles GLM. En
effet, les variables qualitatives sont transformes en variables binaires par la majorit des
algorithmes statistiques (GLM, rseaux de neurones). Ainsi, une variable comme la CSP
qui possde l'origine une centaine de modalits conduit la cration de 100 variables
binaires. Un trop grand nombre de variables en entre des modles pose plusieurs
problmes majeurs : les temps de calculs sont multiplis, les interactions entre variables
sont plus difficiles modliser ou dtecter, les rsultats produits perdent de leur
interprtabilit et de leur significativit statistique. La solution consiste oprer des
regroupements, soit en utilisant des outils de classification statistique soit en utilisant l'avis
d'experts.
Dans notre tude, la variable iculeGenreduveh est issue d'un regroupement d'une
cinquantaine de variables en 6 groupes dont les caractristiques sont prsentes dans le
tableau 3.
8/11/2019 Modele d Apprentissage
21/34
TARIFICATION DES RISQUES EN ASSURANCE NON-VIE, UNE APPROCHE PAR MODELED'APPRENTISSAGE STATISTIQUE
69
vehiculeduGenre %obs. frq. montant chargecharge150 000
A 97,29 0,075 3636 273 222B 0,11 0,018 6462 117 117D 1,60 0,050 4680 237 71E 0,17 0,176 7140 1260 924G 0,45 0,102 11985 1121 570
Autres 0,38 0,049 2538 126 126
Table 3: Analyse univarie par rapport la variable genre du vhicule
La variable Usage a galement t cre partir d'un regroupement d'une
cinquantaine de catgories et possde 8 niveaux (Usage1, Usage2).
Les variables quantitatives (Age et Puissance ) ne ncessitent pas d'tre regroupes
pour tre traites par des algorithmes de machine learning. Ceci est un avantage face aux
modles GLM qui ncessitent souvent de discrtiser les variables continues. En effet, dans
ces modles, nous avons montr que si les variables quantitatives ne sont pas discrtises,
l'effet de celles-ci sur le risque n'est paramtr que par un seul paramtre ce qui est
gnralement insuffisant (Cf. section 2.1 sur les limites des Modles Linaires Gnraliss).
4.2.3 Prise en compte de la priode d'exposition
Suite la sous-section 3.4, nous savons que la dure de prsence du vhicule est
ncessaire pour une juste valuation de l'algorithme CART-ANV. Nous calculons donc la
variable Temps qui indique la dure de prsence du contrat dans le portefeuille. Sa valeur
moyenne est de 0,84 an.
4.2.4 Agrgation au niveau du vhicule
Comme not en prambule de la section modlisation, nous proposons de modliser
le tarif global d'un vhicule plutt que de modliser le risque de chaque garantie souscrite.Pour cela, nous avons dcid de crer deux nouvelles variables.
La premire est le montant de sinistre annuel pour un vhicule et correspond la
somme des sinistres pour toutes les garanties du vhicule.
La seconde est une variable qui dcrit la formule thorique de garantie utilise par le
vhicule. L'objectif de la cration de cette variable est de passer de l'ajustement d'un modle
par garantie l'ajustement d'un seul modle mais qui prendrait en variable d'entre
l'information sur les garanties souscrites par l'assur. Les modalits de cette variable sont
8/11/2019 Modele d Apprentissage
22/34
70 A. PAGLIA M. V. PHELIPPE-GUINVARCH
prsentes dans la table 4. Lorsque la garantie1est entre parenthses cela signifie que la
garantie peut tre prsente ou absente de la formule :
Nom de la formule garanties associes % obs. prime pureformule 1 RC 25 % 45formule 2 RC+INC+BDG+(VOL) 10 % 51
formule 3 RC+INC+BDG+(VOL)+DOE 6 % 91formule 4 formule 3+COL+TAC+(PNE) 45 % 321autres formules 14 % 132
Table 4: Description de la variable formule.
La catgorie autre formule correspond aux vhicules dont les combinaisons de
garanties n'ont pas pu tre incluses dans l'une des quatre formules. Il s'agit le plus souvent
de formules souscrites il y a longtemps, et qui ne figure plus dans la cible commerciale
actuelle. Ces vhicules reprsentent 14 % du portefeuille et les informations sur ces
vhicules ne pourront pas tre utilises pour la modlisation par l'approche vhicule.
4.2.5
Les sinistres extrmes
La table 2 montre l'importance des sinistres extrmes dans le montant final de la
prime puisque ces sinistres qui ne reprsentent que 0,01 % du nombre total d'assurs
contribuent hauteur de 19 % du montant total des sinistres. Toutefois, ces sinistres ne
peuvent pas tre directement modliss dans le calcul de la prime pure pour deux raisons.
La premire est lie aux modles statistiques qui minimisent gnralement une
distance quadratique et ne sont donc pas robustes la prsence de valeurs extrmes. La
figure 8 montre le rsultat de la prdiction (rgression GLM avec fonction de variance
gamma) en laissant les sinistres extrmes dans la base de donnes (courbe en trait plein)
tandis que la courbe en trait discontinu est le rsultat de la prdiction en crtant le sinistreextrme. Cette dernire reprsente mieux la tendance gnrale de l'influence de la variable
ge.
Les sinistres extrmes sont essentiellement lis la garantie responsabilit civile.
Cela constitue la deuxime raison pour crter les sinistres extrmes. Dans cette garantie, le
montant du sinistre couvre les frais d'un tiers. Son montant ne dpend donc pas des
caractristiques de l'assur ou de son vhicule. En revanche, la frquence de sinistres est
directement lie aux caractristiques de l'assur et pourra tre modlise. Le tableau 5
1Responsabilit Civile, INCendie, Bris De Glace, VOL du vhicule, DOmmage Electrique, COLlision,
dommage Tous ACcidents, dommage aux PNEumatiques
8/11/2019 Modele d Apprentissage
23/34
TARIFICATION DES RISQUES EN ASSURANCE NON-VIE, UNE APPROCHE PAR MODELED'APPRENTISSAGE STATISTIQUE
71
illustre cette caractristique en montrant que la charge finale due aux sinistres extrmes est
davantage influence par une frquence sinistre leve (genre Eet G ) que par le montant
de ces sinistres. La mme tude a t mene sur d'autres variables et confirme cette
remarque. Ceci montre l'importance de pouvoir identifier les sinistres extrmes et justifie de
crer un modle de frquence pour ces sinistres.
Genre du vhicule % obs. frq. extrme montant charge 150 000A 97,29 0,000107 479 511 51D 1,60 0,000139 156 570 21E 0,17 0,001279 262 830 336G 0,45 0,001220 534 474 651
Table 5: Analyse univarie des sinistres extrmes: cette analyse montre l'importance jouepar la frquence par rapport l'influence exerce par le montant moyen
Le choix du seuil partir duquel un sinistre est dclar extrme peut tre calcul
partir de considrations issues de la thorie des valeurs extrmes. Ce seuil peut tre fix
pour l'ensemble du portefeuille ou fix au niveau de chaque classe de risques. Benlagha etal. (2009) comparent trois mthodes statistiques pour dterminer ce seuil au sein de chaque
classe de risques. Cette approche possde l'avantage de fixer des seuils qui prennent en
compte les caractristiques des classes de risques (le seuil est plus lev dans les classes
risques).
Figure 8 : Graphique montrant la distorsion introduite par la prsence d'un sinistreextrme.
8/11/2019 Modele d Apprentissage
24/34
72 A. PAGLIA M. V. PHELIPPE-GUINVARCH
Dans notre approche, les classes de risques ne sont pas fixes priori ce qui
ncessite de fixer un seuil d'crtement pour l'ensemble du portefeuille. En utilisant la
mthode de la fonction moyenne des excs - mean excess loss- prsente dans Embrechts
et al. (1997), on obtiendrait un seuil d'crtement de 300 000 pour le montant des sinistres
agrgs au niveau du vhicule. Toutefois, il peut tre prfrable de fixer le seuil
d'crtement selon d'autres critres en fonction du modle statistique utilis (en particulierpour les modles minimisant une distance quadratique). Le seuil Sest fix au quantile
99 % de la distribution des montants des sinistres strictement positifs, soit 30 000 (parmi
les 2,2 millions d'observations de la base, 1 600 observations sont suprieures ce seuil).
4.3 Paramtrage de l'algorithme sous R
Figure 9 : volution du MSE sur la base de validation en fonction du pourcentaged'individus minimum admis dans un nud. Le minimum est ralis dans cet exemple pour
0,5% du nombre d'individus prsents dans la base d'apprentissage.
Plusieurs packages existent sous R pour construire des arbres de dcision avec
l'algorithme CART. Nous avons retenu le package de rfrence rpart de Therneau et al.
(2009) car il nous permet de recoder les modifications apporter sur l'algorithme pour
intgrer le temps d'exposition.La fonction rpart a 6 paramtres : xval, minbucket, maxcompete , temaxsurroga ,
cp et maxdepth .
Le paramtre xval dsigne le nombre de validations croises effectues par le
8/11/2019 Modele d Apprentissage
25/34
TARIFICATION DES RISQUES EN ASSURANCE NON-VIE, UNE APPROCHE PAR MODELED'APPRENTISSAGE STATISTIQUE
73
modle ( 10=xval par dfaut). Pour un portefeuille d'assurance qui possde une forte
variance dans la variable Y expliquer, la validation croise n'est pas trs adapte moins
d'utiliser un faible nombre de validations croises de faon ce qu' chaque tape la
proportion de la base utilise pour la validation contienne un grand nombre d'observations.
Notre approche prconise donc de ne pas utiliser cette option ( 0=xval ) et de dcouper
alatoirement, classiquement, la base de donnes en trois parties : 50% de la base servent
l'apprentissage, 25% servent la validation et trouver le paramtre de complexit w
optimal du modle, les 25% restant serviront de base de test permettant de comparer les
diffrents modles. Les modles GLM et CART-ANV seront donc compars
objectivement sur les mmes bases.
Le paramtre minbucketdsigne le nombre minimum d'individus dans un groupe de
risques final. Ce paramtre est un des deux critres d'arrt dans la construction de l'arbre.
Une valeur trop grande ne permet pas de modliser les singularits des donnes. Une valeur
trop petite cre des nuds trop spcifiques qui seront supprims par le second critre
d'arrt. Dans notre cas, il est fix 1000 vhicules. En effet, l'ordre de grandeur de lafrquence de survenance d'un sinistre ( 10%< ) et l'importance de la variance et de
l'asymtrie de ,Y font qu'une moyenne sur moins de 1000 vhicules a peu de chance d'tre
significative. Les temps de traitement tant raisonnables, il n'tait pas utile d'optimiser ce
paramtre une valeur suprieure.maxcompete impacte uniquement l'affichage mais pas les rsultats (il permet
l'affichage des maxcompete meilleurs critres de rduction de dviance R du nud
parent).
temaxsurroga est le paramtre qui permet de dfinir le nombre de variables de
substitution pour les variables prdictives ayant des valeurs manquantes dans la base de
donnes. En effet, d'une part, CART ne supprime pas les observations ayant des valeurs
manquantes et d'autre part, ne remplace pas les valeurs manquantes par des valeurs
estimes. Une fois le nud cr, l'algorithme slectionne parmi les variables de substitution
celles qui reprsentent le mieux le nud cr pour rpartir les observations o la variable
est manquante. Par exemple, si la sparation du nud est cre sur l'ge et que la seconde
variable, qui explique le mieux cette sparation est la puissance, l'algorithme va classer les
observations o l'ge n'est pas renseign dans le nud en fonction de la puissance. Dans
notre cas, deux variables de substitution sont suffisantes.
cp est un critre d'arrt qui utilise le critre de complexit w et qui vise optimiser
8/11/2019 Modele d Apprentissage
26/34
74 A. PAGLIA M. V. PHELIPPE-GUINVARCH
les temps de calcul. Nous l'avons fix zro pour ne pas retenir ce critre d'arrt.
maxdepth dsigne la profondeur maximum de l'arbre, fixe 11 dans notre
estimation car l'arbre, une fois lagu, a une longueur maximale de 10 nuds.
5. EVALUATION DES RESULTATS
Dans cette section, nous prsentons les rsultats pour l'valuation de la prime pure.La premire sous-section prsente les Mean Square Errors et la deuxime l'analyse des
biais. La troisime dcrit les rsultats produits par l'algorithme CART-ANV. Enfin, les
rsultats de l'estimation de la frquence des sinistres extrmes seront prsents.
5.1 Le Mean Square Error
Nous comparons d'abord les modles l'aide du Mean Square Error (MSE), un
critre usuel de performance d'un modle. Nous constatons que, sur la base de test,
l'algorithme CART-ANV sur-performe le modle GLM (Cf. tableau 6).
Modle MSEapprentissage MSEtestRgression GLM (poisson) 1148103 1177830
CART-ANV 1144881 1176777
Table 7: MSE calcul sur la base d'apprentissage et sur la base de test
Comme le MSE est intrinsquement trs lev en assurance, mme cette faible
rduction du MSE est utile.1
Figure 10 : Montrant l'erreur sur la base de validation.
1Nous ne cherchons pas prouver que l'algorithme CART-ANV sur-performe la GLM de manire
systmatique en assurance non-vie.
8/11/2019 Modele d Apprentissage
27/34
TARIFICATION DES RISQUES EN ASSURANCE NON-VIE, UNE APPROCHE PAR MODELED'APPRENTISSAGE STATISTIQUE
75
Le graphique 10 compare les performances de l'algorithme sur la base de test. La
courbe en trait plein montre que plus le nombre de nuds augmente dans l'arbre plus
l'erreur commise par ce modle diminue. A partir d'un certain nombre de nuds, l'erreur
devient infrieure celle du modle GLM .
5.2
Le critre d'quitNous cherchons illustrer graphiquement la performance des deux approches en
terme d'quit en projetant les rsultats par segment ( i.e.groupe de vhicules homognes).
Cette approche est prsente dans la figure 11. Les valeurs retenues pour la charge de
sinistres et les primes prdites sont celles de la base de test testB .
Raliser cette analyse pose le problme du choix de la taille du groupe dans lequel
on mesure le biais. Si le segment est trop grand, les carts tendent s'effacer quelques
soient leurs performances. Si au contraire, on cherche mesurer les carts dans des
segments trop petits, le caractre alatoire de la sinistralit ne permet plus de comparer les
carts produits par les modles.
Figure 11 : graphique montrant les valeurs prdites et les montants de sinistres moyens enfonction de quatre variables explicatives.
Ainsi que le montre la figure 11, l'algorithme CART-ANV et la GLM montrent des
performances comparables en terme de biais lors d'une projection des rsultats sur une
8/11/2019 Modele d Apprentissage
28/34
76 A. PAGLIA M. V. PHELIPPE-GUINVARCH
seule variable explicative (segments-unidimensionnels). En effet, les courbes CART-ANV
et GLM pousent toutes les deux l'histogramme des sinistres.
En revanche, la projection des rsultats sur deux variables explicatives (segments
multi-dimensionnels) tend montrer que l'algorithme CART-ANV est moins biais que la
GLM , tendance qu'il s'agirait de confirmer dans des travaux futurs, comme cela est illustr
dans la figure 12. Elles montrent la projection sur la puissance du vhicule pour diffrentestranches d'ge. Dans ces quatre cas, nous observons que la courbe CART-ANV pouse
beaucoup mieux l'histogramme des sinistres. Considrons par exemple les assurs dont
l'ge des vhicules est compris entre 0 et 15 ans (partie en haut droite de la figure 12) et
dont la puissance se situe entre 50 et 75 ch. Nous remarquons un cart significatif de la
GLM qui inciterait ces assurs souscrire au juste prix chez un autre assureur.
Figure 12 : Montant de sinistres en fonction de la puissance du vhicule pour leportefeuille global puis restreint diffrentes tranches d'ge
Ainsi, l'tude du biais selon deux variables explicatives tend montrer que les
rsultats produits par l'arbre de rgression sont moins biaiss que ceux produits par un
modle de type GLM dont les limites des classes de risques sont fixes priori par le
statisticien.
5.3 Lecture des rsultats produits par l'arbre
L'arbre ajust sur la base d'apprentissage puis lagu sur la base de validation
8/11/2019 Modele d Apprentissage
29/34
TARIFICATION DES RISQUES EN ASSURANCE NON-VIE, UNE APPROCHE PAR MODELED'APPRENTISSAGE STATISTIQUE
77
possde un total de 65 nuds finaux. Pour des raisons de confidentialit, seule une partie de
l'arbre est prsente dans la figure 13 (ge 24,5 an).
Le premier constat est la possibilit d'avoir une vision la fois sur le montant des
primes en fonction des variables explicatives et le nombre d'assurs concerns par le
montant de prime modlis. En effet un nud terminal donne la fois le montant de la
prime et le nombre d'assurs concerns. Ceci est comparer avec l'ensemble des autres
modles statistiques qui produisent des rsultats issus de multiplications de plusieurs
coefficients et dont il est impossible d'estimer la fois les effets des variables explicatives
et le nombre d'assurs concerns.
Cette lisibilit de la tarification permet ainsi de runir une mme table techniciens,
responsables marketing et actuaires pour discuter des stratgies tarifaires mettre en place.
Concernant cette stratgie, il peut par exemple tre dcid de supprimer une sparation
finale en deux nuds si celle-ci segmente le risque d'une faon incompatible avec les prix
de march. Le tarif appliquer aux deux nuds fils supprims est alors le tarif du nud
parent. Si ce tarif est appliqu il y a encore quilibre entre primes et sinistres sur l'ensembledu portefeuille.
La reprsentation graphique de l'arbre permet une lecture plusieurs niveaux. Elle
permet tout d'abord de hirarchiser l'importance des variables expliquant le risque assur.
En effet, plus la variable intervient haut dans l'arbre et plus son effet est discriminant dans
l'explication du risque. Dans notre exemple, l'ge du vhicule est la variable la plus
discriminante puisqu'elle est la premire variable intervenir (sparation 14,5 ans) puis
intervient rgulirement dans la partie haute de l'arbre.
De plus, l'arbre permet de montrer que certains critres de risques sont plus
importants dans certaines sous-populations que d'autres. Ainsi, la seconde variabled'influence chez les vhicules rcents (l'ge est infrieur 14,5 ans) est la puissance alors
que pour les vhicules anciens, la variable Puissance intervient beaucoup plus bas dans
l'arbre pour discriminer les risques.
Un autre avantage des arbres de rgression tient au fait que l'algorithme cherche
chaque tape crer le nud qui engendre la rduction d'erreur quadratique la plus
importante. Ainsi, CART-ANV produit un arbre dont le nombre de branches n'est pas
uniforme, de 3 7 branches dans notre tude. Par exemple, pour les vhicules d'ge
suprieur 24,5 ans qui reprsentent la moiti du portefeuille, seuls six tarifs sont produits
par l'arbre sur une profondeur de deux ou trois nuds seulement (figure 13). La
8/11/2019 Modele d Apprentissage
30/34
78 A. PAGLIA M. V. PHELIPPE-GUINVARCH
segmentation des risques sur cette partie du portefeuille n'ayant pas un grand intrt pour
l'assur (les majorations/minorations de tarif tant faibles), cette proprit de l'algorithme
apparat comme un avantage face aux mthodes statistiques qui segmentent uniformment
le risque sur le portefeuille.
Il convient de signaler que sur les huit variables potentiellement utilisables par
l'algorithme, la variable vehiculeduGenre n'apparat jamais tandis que la variablenUtilisatio n'apparat que deux fois dans l'arbre. Ceci peut tre peru comme un
inconvnient si l'assureur dcide de segmenter selon ces deux critres. Toutefois, ce choix
ne serait pas judicieux puisque l'arbre indique que segmenter selon ces deux critres ne
conduit pas la rduction d'erreur quadratique la plus importante.
Figure 13 : Arbre de rgression pour la branche concernant les vhicules anciens.
5.4 Les sinistres extrmes
La section 3.1 consacr la mthodologie d'valuation de la prime pure a introduit
l'utilit de ne modliser que la frquence de sinistres pour les sinistres extrmes. Un arbre a
donc t ajust pour valuer la quantit ]|[ XSYPr avec un seuil S de 30 000
correspondant au quantile 99% de la distribution des sinistres strictement positifs. Le
rsultat graphique de cet arbre est prsent dans la figure 14.
8/11/2019 Modele d Apprentissage
31/34
TARIFICATION DES RISQUES EN ASSURANCE NON-VIE, UNE APPROCHE PAR MODELED'APPRENTISSAGE STATISTIQUE
79
Figure 14: L'arbre de prdiction de la frquence des sinistres extrmes (frquence en % ).
Le rsultat produit par l'algorithme est trs intressant pour l'identification des
risques extrmes. En effet, il permet d'identifier les facteurs de risque qui expliquent une
frquence de sinistres extrmes plus leve. Parmi les groupes les plus sinistrs, les
vhicules du genre Eet G sont particulirement exposs ainsi que les CSP G et .H Ceciconfirme l'analyse univarie du tableau 5.
Cependant, utiliser cette frquence de sinistres pour calculer le surplus de prime lie
aux sinistres extrmes conduit des montants de prime relativement levs pour certaines
classes de risques. Le montant moyen des sinistres suprieurs 30 000 tant de
123 402 , la surprime lie aux risques extrmes pour les vhicules serait de 714
( 0,5808%402123 ). Ce chiffre est comparer aux 102 de surprime si l'ensemble des
risques extrmes est mutualis sur l'ensemble des assurs du portefeuille.
6. CONCLUSION
Cette tude prsente une approche innovante de la tarification des risques
d'assurance non-vie. Alors que les dveloppements rcents en actuariat de l'assurance
dommage se sont focaliss sur la matrise et l'amlioration des Modles Linaires
Gnraliss, nous proposons une version modifie de l'algorithme CART pour la
rgression.
De par leur nature non paramtrique, les algorithmes d'arbre de dcision utiliss
dans cette tude ont permis de faire ressortir des informations nouvelles sur le risque tout
en amliorant les mesures d'erreur entre le risque mesur et le risque modlis. De plus,
contrairement aux Modles Linaires Gnraliss, nous avons vu que l'algorithme de
8/11/2019 Modele d Apprentissage
32/34
80 A. PAGLIA M. V. PHELIPPE-GUINVARCH
cration de l'arbre de dcision optimise ses rsultats en utilisant plusieurs bases de donnes.
Cela le rend robuste en laguant les classes de risques dont le nombre de personnes assures
n'est pas assez significatif (phnomne de surapprentissage).
L'assureur trouve galement une relle plus-value dans la segmentation produite par
l'algorithme. Les vhicules anciens, trs nombreux, mais qui ont un risque faible et peu
d'enjeux commerciaux, sont modliss trs simplement sur six classes. Par contre, lasegmentation est beaucoup plus fine pour les vhicules rcents, tout en vitant de
paramtrer le modle sur des classes de risques dont le nombre de personnes assures n'est
pas significatif (vite donc le phnomne de surapprentissage). De plus, les tests raliss
tendent montrer que l'algorithme CART est moins biais que la GLM sur les diffrents
segments de la base.
En outre, nous montrons comment cette approche vhicule, conjugue avec la
lisibilit des arbres de dcision permet de runir une mme table techniciens, responsables
marketing et statisticiens pour discuter des stratgies tarifaires mettre en place.
7.
REFERENCES
C. APTE, E. GROSSMAN, E. PEDNAULT, B. ROSEN, F. TIPU et B. WHITE :
Probabilistic estimation based data mining for discovering insurance risks.IEEE Intelligent
Systems, 14:49-58, 1999.
R.A. BAILEY et L.R.J. SIMON : Two studies in automobile insurance
ratemaking.ASTIN Bulletin, 1(4):192-217, 1960.
N. BENLAGHA, M. GRUN-REHOMME et O. VASECHKO : Les sinistres
graves en assurance automobile : Une nouvelle approche par la thorie des valeurs
extrmes.Revue MODULAD, 47:39, 2009.
L. BREIMAN, JH FRIEDMAN, RA OLSHEN et CJ STONE : Classification and
regression trees. Chapman & Hall/CRC, 1984.
A. CHRISTMANN : An approach to model complex high-dimensional insurance
data.Allgemeines Statistisches Archiv, 88(4):375-396, 2004.
M. DENUIT et A. CHARPENTIER : Mathmatiques de l'assurance non-vie.
Economica, 2005.
C. DUGAS, N. CHAPADOS, Y. BENGIO, P. VINCENT, G. DENONCOURT et
C. FOURNIER : Statistical learning algorithms applied to automobile insurance
ratemaking.InCasualty Actuarial Society Forum-Arlington, pages 179-213, 2003.
8/11/2019 Modele d Apprentissage
33/34
TARIFICATION DES RISQUES EN ASSURANCE NON-VIE, UNE APPROCHE PAR MODELED'APPRENTISSAGE STATISTIQUE
81
J. ELITH, JR LEATHWICK et T. HASTIE : A working guide to boosted
regression trees.Journal of Animal Ecology, 77(4):802-813, 2008.
P. EMBRECHTS, C. KLUPPELBERG et T. MIKOSCH : Modelling extremal
events. Springer Berlin, 1997.
S. FELDBLUM :Risk Classifications,Pricing Aspects. Encyclopedia of Actuarial
Science. John Wiley and Sons, 2006.
T M. HASTIE, R. TIBSHIRANI et J. FRIEDMAN : The Elements of Statistical
Learning. Springer Series in Statistics, 2008.
P. LENCA, S. LALLICH et B. VAILLANT : Construction of an off-centered
entropy for the supervised learning of imbalanced classes : Some first results.
Communications in Statistics - Theory and Methods, Taylor & Francis, 39(3):493-507,
2010.
P. MCCULLAGH et JA NELDER : Generalized linear models. UK : Chapman
and Hall, 2 dition, 1989.
Tom M. MITCHELL :Machine learning. WCB/McGraw-Hill, 1997.Antoine PAGLIA, Martial Vincent PHELIPPE-GUINVARC'H et Philippe
LENCA : Adaptation de l'algorithme cart pour la tarification des risques en assurance non-
vie. In 11e Confrence Internationale Francophone sur l'Extraction et la Gestion des
Connaissances, EGC 2011, pages 611-622, Brest, France, janvier 2011. URL
http://www.ensta-bretagne.fr/egc11/index.php/articles-longs/.
Colin SHEARER : The crisp-dm model : The new blueprint for data mining.
Journal of data Warehousing, 5(4):13-22, 2000. URL http://www.crisp-
dm.org/News/86605.pdf.
Terry M THERNEAU, Beth ATKINSON et Brian RIPLEY. : Rpart : RecursivePartitioning. CRAN, 2009. URL http://CRAN.R-project.org/package=rpart. R package
version 3.1-45.
V. VAPNIK : Statistical learning theory. Wiley, New York, 1998.
T. WASHIO, E. SUZUKI, K. M. TING et A. INOKUCHI, diteurs.A comparison
of different off-centered entropies to deal with class imbalance for decision trees, 5012,
Osaka, Japan, May 2008. Springer.
X. WU, V. KUMAR, J. ROSS QUINLAN, J. GHOSH, Q. YANG, H. MOTODA,
G.J. MCLACHLAN, A. NG, B. LIU, P.S. YU et al. : Top 10 algorithms in data mining.
Knowledge and Information Systems, 14(1):1-37, 2008.
8/11/2019 Modele d Apprentissage
34/34