Modele d Apprentissage

8/11/2019 Modele d Apprentissage

1/34

BULLETIN FRANAIS DACTUARIAT, Vol. 11, n22, juillet - dcembre 2011, pp. 49 - 81

TARIFICATION DES RISQUES EN ASSURANCE NON-VIE, UNEAPPROCHE PAR MODELE D'APPRENTISSAGE STATISTIQUE1

Antoine PAGLIA2

Martial V. PHELIPPE-GUINVARCH3

Euro-Institut d'Actuariat - Groupama

Abstract:

Non-life actuarial researches mainly focus on improving Generalized Linear

Models. Nevertheless, this type of model sets constraints on the risk structure and on the

interactions between explanatory variables. Then, a bias between the real risk and the

predicted risk by the model is often observed on a part of data. Nonparametric tools such as

machine learning algorithms are more efficient to explain the singularity of the

policyholder.

Among these models, regression trees offer the benefit of both reducing the bias and

improving the readability of the results of the pricing estimation. Our study introduces a

modification of the Classification And Regression Tree (CART) algorithm to take intoaccount the specificities of insurance data-sets. It compares the results produced by this

algorithm to these obtained using Generalized Linear Models. These two approaches are

then applied to the pricing of a vehicle insurance portfolio.

Rsum :

Les dveloppements rcents en tarification de l'assurance non-vie se concentrent

majoritairement sur la matrise et l'amlioration des Modles Linaires Gnraliss.

Performants, ces modles imposent la fois des contraintes sur la structure du risque

modlis et sur les interactions entre les variables explicatives du risque. Ces restrictions

peuvent conduire dans certaines populations d'assurs une estimation biaise de la prime

d'assurance. De par leur nature non paramtrique, les algorithmes d'apprentissage statistiques'affranchissent de ces contraintes. Nous cherchons donc dans cet article les dcrire et

les tester.

Mots-cls: tarification, apprentissage statistique, arbres de dcision

1Cet article est le rsultat du mmoire d'Antoine Paglia pour le titre d'actuaire ralis l'EURIA. Une partie del'tude, notamment les dveloppements spcifiques l'algorithme CART-ANV, a fait l'objet d'une communication(Paglia et al., 2011). Ce travail a t encadr par Martial Phlipp-Guinvarc'h. Il a bnfici du soutien de PhilippeLenca, (Dpt. Logique des Usages, Sciences Sociales et de l'Information, Telecom Bretagne), de Franck Vermet etde Pierre Ailliot, (Dpartement de Mathmatiques, Universit de Bretagne Occidentale) que nous tenons remercier.2Actuaire, Euro Institut d'Actuariat, [email protected]

Actuaire, Docteur, Groupama, [email protected]


2/34

50 A. PAGLIA M. V. PHELIPPE-GUINVARCH

1. INTRODUCTION

Les compagnies d'assurances utilisent quotidiennement des modles statistiques

pour valuer les risques auxquels elles doivent faire face. En particulier, les modles de

rgression permettent de quantifier les relations entre la valeur des contrats des risques

assurs et les variables dcrivant ce risque. Les trente dernires annes ont t marques par

la sophistication des modles de rgression utiliss pour quantifier ces risques. Largression linaire simple qui permettait de modliser par une droite les variations d'une

variable cible - le risque tudi -, a t remplace partir des annes 1980 par les Modles

Linaires Gnraliss mccullagh, nots GLM par la suite. Ces modles permettent la fois

de modliser des comportements non linaires et des distributions de rsidus non gaussiens.

Cela est particulirement utile en assurance non-vie o les cots des sinistres, quand ils se

concrtisent, suivent une densit trs asymtrique clairement non gaussienne. Ils ont permis

d'amliorer la qualit des modles de prdiction du risque et sont aujourd'hui largement

utiliss par les compagnies d'assurance.

Paralllement ces dveloppements, des quipes de chercheurs en informatique ont

mis au point un grand nombre d'algorithmes dont l'objectif tait soit li la prdiction devaleurs soit la classification d'individus. Ces travaux ont donn naissance la thorie de

l'apprentissage statistique - machine learning - dont les modles les plus connus sont les

rseaux de neurones, les arbres de dcision ou encore les support vector machines (pour

approfondir, voir Hastie et al. (2008) ou Mitchell (1997)). Ces mthodes ont t appliques

avec succs dans les domaines de la gntique, de la dtection de maladies rares ou de

l'cologie (Elith et al. (2008)) pour rsoudre des problmes complexes. Nanmoins, leur

utilisation en assurance est cependant moins rpandue et/ou confidentielle, notamment en

assurance de vhicule, notre domaine applicatif. La littrature est ainsi peu abondante. Nous

renvoyons cependant le lecteur intress aux tudes de Apte et al. (1999), Dugas et al.

(2003) et Christmann (2004). Les rsultats obtenus dans ces domaines montrent qu'il estpossible grce ces algorithmes d'extraire des structures de dpendance entre les donnes

qui restaient jusque l non dtectes par les outils de rgression classique. Nous utilisons

volontairement des algorithmes de rfrence dans le cadre de cet article pour faciliter la

lecture de nos rsultats. Pour autant, la littrature sur l'extraction et la gestion des

connaissances propose des dveloppements utiles en assurance non-vie o la probabilit

d'avoir un sinistre est trs faible comparativement la probabilit oppose de ne pas en

avoir. Le lecteur pourra se rfrer par exemple aux algorithmes spcifiques de Lenca et al.

(2010) ou de Washio et al. (2008) .


3/34

TARIFICATION DES RISQUES EN ASSURANCE NON-VIE, UNE APPROCHE PAR MODELED'APPRENTISSAGE STATISTIQUE

51

L'objectif de cet article est de prsenter les bnfices lis l'application d'un de ces

algorithmes la tarification de produits d'assurance non-vie. Il expose une modification de

l'algorithme CART (Classification And Regression Tree) pour prendre en compte les

spcificits de l'assurance non-vie. La premire partie est consacre l'expos de l'tat de

l'art et des enjeux mathmatiques, conomiques et stratgiques. Les modles d'estimation

de la prime pure qui sont compars dans notre tude, en particulier l'algorithme CART ,

sont ensuite prsents. La troisime partie prsente les lments clefs de la base de donnes.

Enfin, la dernire partie est consacre l'tude des rsultats des modles statistiques.

2. TAT DE L'ART ET ENJEUX

L'objectif de cette section est de montrer les enjeux mathmatiques et conomiques

de la tarification par l'apprentissage machine. La premire sous-section est consacre aux

mthodes actuelles d'estimation de la prime actuarielle. Leurs limites sont ensuite

prsentes. Ces limites conduisent la deuxime sous-section consacre au machine

learning. La troisime sous-section illustre ces techniques en utilisant les donnes sur le brisde glace. Enfin, nous exposerons les enjeux de la comparaison entre les Modles Linaires

Gnraliss et l'apprentissage machine pour l'assureur.

2.1 Les limites des Modles Linaires Gnraliss

Dans les annes 1960, des actuaires canadiens ont dvelopp une mthode de

tarification connue sous le nom de minimum bias procedures,(Bayley et Simon, 1960). Le

principe de cette mthode consiste dfinir arbitrairement un lien entre les variables

explicatives (multiplicatif, additif), les classes de risques (par exemple les conducteurs de

moins de 20 ans ayant une voiture de puissance comprise entre 70 et 100 chevaux) et une

distance entre les valeurs prdites et les valeurs mesures. Une fois ces trois lments

imposs, un algorithme itratif calcule le coefficient associer chaque classe de risques

en minimisant le critre de distance.

Bien que construits en dehors d'un cadre statistique existant, ces algorithmes se

sont rvls par la suite tre des cas particuliers d'utilisation de Modles Linaires

Gnraliss. Les modles GLM sont des extensions du modle linaire simple et

permettent la fois de modliser des comportements non-linaires (grce aux fonctions de

liens) et des distributions de rsidus non-gaussiens (McCullagh et Nelder (1989)).

Par rapport aux techniques de minimum bias procedures, les modles GLM


4/34


bnficient d'un cadre thorique dans lequel il est possible d'effectuer des tests statistiques

pour valuer la qualit du modle produit. Toutefois, ces modles issus de la statistique

paramtrique possdent deux limites qui sont de nature rduire leurs capacits prdictives.

Ces limites concernent la dtection et la modlisation d'interactions entre les variables

quantitatives ou qualitatives et la modlisation de la prime en fonction de variables

quantitatives (l'ge, la puissance).Dans un modle GLM, les interactions doivent tre spcifies priori par le

statisticien. Si celui-ci dispose de 6 variables explicatives prenant chacune 10 valeurs, il

existe 1=106 million d'interactions possibles dont il faut tester la significativit. Ceci

montre les limites de la statistique paramtrique dans laquelle les rsultats des modles sont

produits avec une bonne prcision sur la valeur estime et son erreur mais pour des

structures de risques qui ne correspondent pas forcment la ralit des donnes.

2.2 Les apports du machine learning

Contrairement la statistique classique qui ncessite de formuler des hypothses sur

la structure et la distribution des donnes, la thorie de l'apprentissage statistique ne

formule qu'une seule hypothse : les donnes prdire, que nous noterons Y, sont gnres

de faons identiques et indpendantes par un processus P partir du vecteur des variables

explicatives X.

A partir de cette hypothse, le but est de construire un algorithme qui va apprendre

prdire la valeur de Yen fonction des valeurs explicatives X(i.e. ]|[ XYE ). Le rsultat

de cet apprentissage est une fonction note )( Xfw . Elle fait intervenir les variables Xet

un paramtre de complexit w . Ce paramtre dsigne par exemple le nombre de neurones

dans un rseau de neurones ou le nombre de nuds dans un arbre de dcision. Cette

fonction qui devient de plus en plus complexe mesure que l'algorithme apprend permet demodliser les singularits de la structure des donnes (notamment des interactions ou des

comportements non linaires). Le critre d'arrt de l'algorithme d'apprentissage correspond

l'tape o la complexification du modle )( Xfw conduit diminuer ses performances de

prdiction sur une autre base de donnes. Ce phnomne est appel surapprentissage et son

effet en terme de mesure d'erreur est prsent dans la figure 2.

Les performances d'un modle se mesurent aprs avoir dfini une fonction de risque

))(,( XfYR w . Celle-ci mesure la distance entre Y et son estimation )( Xfw . Des choix

typiques pour la fonction de risque lorsque Y est une variable quantitative sont les


5/34


53

suivants:

absolueerreurXfY

equadratiquerreurXfYXfYR

w

ww

|)(|

))((=))(,(

2

L'erreur de gnralisation est l'erreur commise sur une base de donnes

indpendante de la base ayant servie construire )( Xfw . Elle est dfinie comme tant

l'esprance de l'erreur sur une base indpendante note testB :

]|))(,([= testwtest BXfYREErr

Toutefois, lors de l'apprentissage, l'algorithme ne dispose que des N lignes de la

base de donnes et c'est donc l'erreur empirique sur la base d'apprentissage qui est

mesure :1

))(,(1

=,

iwi

ageapprentissBiyixageapprentiss xfyRN

Err

La validation croise permet cependant d'ajuster des modles qui minimisent testErr

pour un nombre fini de bases de donnes. Cette mthode consiste, lorsque la base de

donnes est suffisamment volumineuse, la dcouper en trois parties (Cf. figure 1). La

premire base appele base d'apprentissage est utilise pour construire )( Xfw . La seconde,

appele base de validation, permet de dfinir le paramtre w qui minimise l'erreur

]|))(,([= validationwvalidation BXfYREErr . Enfin, la dernire base, appele base de test,

permet de mesurer l'erreur sur une base qui n'a pas servie paramtrer le modle ( testErr )

et est utile pour comparer les performances de plusieurs algorithmes d'apprentissage.

Figure 1: 50% de la base servent l'apprentissage, 25% servent trouver le paramtre decomplxit w optimal du modle, les 25% restant permettent de comparer diffrents

modles sur une base qui n'a pas servie paramtrer le modle.

1La thorie de la Structural Risk Minimization dveloppe par Vapnik (1998) permet de trouver le

paramtre w de )( Xfw qui minimise testErr par une quantit qui dpend de l'erreur sur la base d'apprentissageet d'un paramtre appel Vapnik Dimension (VC) qui dpend du paramtre .

w


6/34


Figure 2: L'volution de l'erreur en fonction de la complexit du paramtre w .

La figure 2 illustre des comportements typiques rencontrs pour l'volution de

l'erreur en fonction de la complexit du paramtre w . Les courbes en trait fort sont les

valeurs moyennes de plusieurs apprentissages. Celles en trait plein reprsentent l'volution

de l'erreur sur la base d'apprentissage ageapprentissErr et celles en trait discontinu

reprsentent l'erreur sur une base de validation validationErr . L'erreur sur la base

d'apprentissage diminue au fur et mesure que l'algorithme apprend. L'algorithme

d'apprentissage doit s'arrter lorsque l'erreur augmente sur la base de validation. La

complexit w optimale est celle qui minimise l'erreur sur la base de validation. Dans cet

exemple, prsent dans la figure 2, le w qui minimise l'erreur est 10.

Ainsi, les modles d'apprentissage statistique possdent deux qualits qui sont de

nature amliorer la prdiction de la prime pure d'un contrat d'assurance non-vie. Tout

d'abord, ils sont capables de modliser des structures de dpendances complexes partir

des donnes, alors que ces dpendances doivent tre spcifies par le statisticien, dans le

cas de la tarification par modles GLM . De plus, le modle produit )( Xfw est optimis,

non pas pour donner le meilleur ajustement sur la base de donnes, mais pour rduire

l'erreur de la valeur prdite sur une autre base, ce qui est de nature renforcer la robustesse

des rsultats prdits.

2.3 Illustration

Pour illustrer les deux limites, nous prsentons les rsultats de l'estimation de la

frquence de sinistres de la garantie bris de glace en fonction de l'ge et de la puissance du


7/34

v

eff

est

de

tu

po

fig

du

c

pa

fo

va

mo

TARIFICATIO

icule qui so

ets sur la frq

imation. Le p

la thorie du

de et nous re

r une explic

ure 3 et perm

vhicule sur l

igure 3: L'

pacits des

t leur nature

Le seco

ction de vari

iables Age

dlise par u

DES RISQUESD'

t deux varia

uence de sini

remier modl

machine lear

nvoyons le l

tion de l'alg

ettent de visu

a frquence

ude de la fr

odles rep

paramtriqu

s'a

d modle es

ance poisson

t Puissance

e rponse de

=freq

EN ASSURANAPPRENTISSA

les quantitati

stres. Nous a

e est un mod

ing. L'explic

cteur Hasti

rithme. Les

aliser la form

es sinistres.

uence prdit

senter l'infl

, les deux mo

apter aux sin

t un Modle

et une fonc

du vhicule

type :

( 10exp +

CE NON-VIE,E STATISTIQ

ves et qui pr

ons retenu q

le GAM. C'e

ation de cet

e et al. (200

aleurs prdit

e de l'influen

selon deux

ence jointe

dles GLM p

gularits des

Linaire G

ion de lien l

ne sont pas

2 PAge +

NE APPROCHE

sentent une

atre modles

st un modle

lgorithme d

) ou Denuit

es par ce mo

ce jointe de l'

imensions pe

e deux variab

sents ici m

donnes.

nralis -not

ogarithmique

iscrtises.

)uissance

PAR MODEL

interaction d

statistiques p

on paramtr

asse le cadre

et Charpentie

le sont mo

ge et de la p

rmet de mont

les quantitati

ontrent leurs

GLM 1-

. Dans ce m

a frquence

55

ns leurs

our cette

que issu

de cette

r (2005)

tres en

uissance

rer les

ves. De

limites

vec une

dle les

est donc


8/34

56

sol

sol

mo

mo

poval

cla

l'al

pr

l'o

no

rep

Les figur

ution pour p

ution la plus

dlisation av

ntrent que po

r le modleeurs limites s

Une solu

sses et leurs

gorithme des

sentation de

jet de cet arti

Fig

Les cour

bre de niv

rsentation p

A.

es 3&4 mont

llier ce pr

souvent utilis

ec quatre cl

ur ce modle

LM 1 sansparant les cl

tion ce pro

limites en fo

arbres de d

cet algorith

cle.

re 4: Courb

bes de nivea

aux entre le

us fidle du

PAGLIA M. V

rent que ceci

blme consi

e en assuran

sses pour la

, la reprsent

iscrtisation.asses est souv

lme serait

nction de cri

ision CART

e et son ada

s de niveaux

ux prsente

s modles

isque. Ce gr

. PHELIPPE-G

n'est pas ada

te discrtis

ce. Le modl

puissance e

tion de la str

Toutefois, leent arbitraire

'avoir un alg

tres statistiq

qui est le qu

ptation des

des graphiqu

s dans la fig

LM 2 et C

phique mont

INVARCH

t la struct

er les variabl

e appel GL

six pour l'

ucture du ris

choix du noet non optim

orithme qui c

ues. C'est pr

trime modl

donnes d'a

s prsents e

ure 4 montr

RT , il est

e notamment

ure des donn

es continues.

2 correspon

ge. Les figu

ue est plus fi

bre de classl.

hoisisse le no

cisment ce

e des figures

surance non

n figure 3

nt qu'avec u

possible d'a

que le modl

es. Une

C'est la

d cette

res 3&4

dle que

es et des

mbre de

que fait

3&4. La

vie font

n mme

oir une

e CART


9/34


57

sgmente plus les risques dans la zone correspondant aux vhicules intressants l'assureur

(i.e.vhicules rcents et de puissance moyenne) alors que le modle GLM 2 impose une

segmentation uniforme sur le portefeuille.

Ce premier exemple montre que les modles issus de la thorie de l'apprentissage

machine permettent de dtecter et modliser des structures de dpendance entre les

variables explicatives du risque sans devoir les spcifier priori. Le cadre gnral dans

lequel sont construits ces modles non paramtriques est prsent dans la section suivante.

2.4 Enjeux de la comparaison entre Modles Linaires Gnraliss et apprentissage

machine

Le premier enjeu de l'assureur est la bonne mesure du risque. L'article vise donc

premirement comparer la performance globale des GLM par rapport aux diffrents

algorithmes d'apprentissage machine. Dans le cadre de cette comparaison, nous

prsenterons le fonctionnement de trois algorithmes de rfrence et prsenterons les

rsultats obtenus sur notre base de donnes. Nous prsenterons plus en dtail l'algorithmeCART et son adaptation l'assurance non-vie, note CART-ANV.

L'amlioration de la segmentation d'un portefeuille d'assurs constitue un enjeu

conomique et stratgique majeur. En effet, l'assureur cherche dvelopper sa part de

march sur les segments qui conduisent la fois un avantage concurrentiel et un profit.

La qualit d'une segmentation par groupe de risques peut se mesurer selon quatre critres

majeurs que sont l'quit, l'homognit, le caractre ralisable et le caractre incitatif

(Feldblum (2006)). L'absence de biais entre le risque mesur et le risque prdit correspond

au critre d'quit et stipule que les primes payes par le groupe doivent reflter les pertes

occasionnes par ce groupe. Le critre d'homognit exprime le fait que les risques au sein

d'un groupe sont homognes et qu'il n'est pas possible de subdiviser ce groupe en plusieurs

sous groupes ayant des primes significativement diffrentes. Nous comparons donc

galement la performance des deux approches par segment sur les deux principaux critres

d'quit et d'homognit.

Enfin, nous comparons galement les deux approches dans leurs aspects pratiques

i.e. dans la prparation des donnes, la mise en uvre des outils, la fiabilisation des

rsultats et leur lisibilit tant en communication interne qu'externe.


10/34


3. MODELISATIONS MATHEMATIQUES

La premire section a montr les limites de la statistique classique pour le problme

de l'estimation de la prime pure, et les avantages qu'il est possible d'obtenir grce

l'utilisation des mthodes d'apprentissage statistique. Cette section a pour objectif de

prsenter les modles mathmatiques utiliss pour la tarification d'un portefeuille

d'assurance non-vie.

3.1 Prambule aux travaux de modlisation

Nous faisons le choix de traiter sparment les valeurs extrmes et donc de

dcomposer notre modlisation selon la formule suivante (Cf. graphique 8) :

],|[]


11/34


59

segmentation, le caractre ralisable et le caractre incitatif correspondent un choix des

variables explicatives insrer dans le modle. Par contre l'quit et l'homognit sont

directement impacts par l'algorithme et peuvent se mesurer de manire mathmatique de la

faon suivante.

L'quit correspond l'absence de biais entre le risque mesur et le risque prdit

dans un groupe de risques. Le biais moyen dans un groupe d'assurs G est not :

iiwGiyix

yxfG

Gb

)(||

1=)(

,

o || G dsigne le nombre d'individus dans G .

L'homognit implique qu'aucun groupe d'assurs payant la mme prime ne peut

tre subdivis en deux groupes dont la nouvelle prime serait significativement diffrente.

Ceci revient minimiser la variance intra-groupe pour tous les groupes et donc minimiser

la somme des variances intra-groupe qui est gale l'erreur de gnralisation. Comme

mentionn dans la section sur les apports du machine learning, nous mesurerons cette erreur

sur une base de test testB qui n'a pas servie paramtrer l'estimateur de la prime :2

,

))((||

1= iiw

testBiyixtest

test yxfBErr

Cette erreur est souvent appeleMean Square Error(MSE) dans la littrature. Une

tude comparative des performances en terme de minimisation du MSE par divers

algorithmes pour l'estimation de la prime pure est prsente dans Dugas et al. (2003). Ce

papier montre la supriorit des algorithmes de machine learning en matire de rduction

du MSE par rapport aux techniques classiques ( GLM ) mais ne prcise pas le traitement

qui a t effectu sur les donnes (crtement des valeurs extrmes, traitement des variables

quantitatives) ni les paramtres utiliss dans les modles (fonction de variance pour lesmodles GLM , nombre de nuds, nombre de rseaux de neurones).

Nous avons donc effectu une tude similaire en appliquant le traitement sur la

base de donnes de la section 4.2.5 rduite la seule garantie bris de glace (dont

l'histogramme de la figure 7 avait montr que cette garantie tait celle qui avait la

distribution de sinistres la plus homogne). Trois algorithmes d'apprentissage statistique

issus des dix principaux algorithmes supports par la communaut scientifique Wu et al.

(2008) ont t paramtrs puis compars aux rsultats produits par les mthodes classiques

GLM.


12/34


La mthodologie utilise pour estimer la prime pure a consist utiliser la fois

l'approche directe et la dcomposition cot-frquence. Nous ne prsentons ici que les

rsultats obtenus pour l'valuation du montant moyen (i.e. ]0,>|[ XYYE ) mais les

conclusions sur les modles sont similaires pour les autres quantits. Les modles ont t

ajusts sous le logiciel R.1

3.2.1

Rgression par arbre de dcision simple (CART)

Un arbre de rgression simple (algorithme CART du package rpart Therneau et al.

(2009)) a t ajust sur la base d'apprentissage. Le choix du critre d'arrt a t fix en

choisissant le nombre de nuds qui minimise l'erreur sur la base de validation (42 nuds

dans cet exemple). Cet algorithme est prsent en dtail dans la section 3.3.

3.2.2 Rgression par arbre de dcision boost

Un arbre de rgression boost (combinaison d'un grand nombre d'arbres de petites

tailles) a t ajust sur la base d'apprentissage en utilisant le package gbr. L'explication de

cet algorithme dpasse le cadre de cette tude. Le lecteur pourra par exemple se rfrer

Elith et al. (2008) et Christmann (2004) pour plus de dtails. Le choix du critre d'arrt a

t fix en choisissant le nombre d'arbres qui minimise l'erreur sur la base de validation. Le

choix du taux d'apprentissage est crucial pour obtenir un modle qui apprend la bonne

vitesse, sans construire trop d'arbres. La combinaison des deux paramtres, learning

rate=0,006 et du nombre de nuds=13 a permis d'obtenir le MSE le plus faible (nombre

d'arbres=900).

3.2.3 Rgression par rseaux de neurones

Un rseau de neurones une couche cache (package nnet) a t ajust sur la base

d'apprentissage. Le lecteur pourra se rfrer Hastie et al. (2008) pour plus de dtails. Le

choix du critre d'arrt a t fix en choisissant le nombre de neurones dans la couche

cache qui minimise l'erreur sur la base de test. L'erreur minimale a t trouve pour un

rseaux dix neurones dans la couche cache.

3.2.4 Rgression par modle linaire gnralis

Un modle linaire gnralis a t ajust sur la base d'apprentissage. La fonction de

variance utilise est la fonction Gamma avec sa fonction de lien canonique (fonction

inverse).

1

www.r-project.org


13/34


61

La slection de modle a t effectue selon une stratgie de slection forward. Cette

stratgie consiste partir du modle sans variable explicative puis ajouter la variable qui

rduit le plus l'erreur sur la base de validation. Cette opration est ritre jusqu' ce que

l'ajout de variables augmente l'erreur sur la base de validation. Le modle final est celui

dont le choix des variables explicatives minimise l'erreur sur la base de validation. Cette

stratgie de slection de modle est cohrente avec la stratgie utilise pour paramtrerl'algorithme CART-ANV et permet de comparer de manire objective les rsultats produits

par l'algorithme CART-ANV et le modle GLM .

Dans cet exemple, la suppression des variables nUtilisatio et vehiculeduGenre du

modle a permis de rduire l'erreur sur la base de validation. Il convient de noter que dans

cet exemple, la stratgie forward de slection de modle retenait le mme modle que dans

une stratgie consistant ne retenir que les variables dont les coefficients sont

statistiquement significatifs (au sens de la p-value infrieure 5% sous l'hypothse 0H que

le coefficient est nul).

3.2.5

Comparaison des rsultats et choix de l'algorithme

La table 1 montre les rsultats en terme de MSE pour les quatre algorithmes dans

l'valuation du montant moyen de la garantie bris de glace. Les rsultats sur cet exemple

montrent que l'arbre de rgression boost est le modle qui donne la meilleure prdiction en

terme de MSE. Toutefois, le prix payer pour obtenir ces performances est d'avoir des

rsultats de type boite noire dans lequel il est difficile d'identifier l'effet d'une variable sur le

rsultat final. Cette remarque est valable pour les rseaux de neurones, mais pas pour les

arbres de rgression simple qui offrent une lecture visuelle du modle.

Algorithme MSEtraining MSEvalidation MSEtestRgression GLM (Gamma) 485685 551574 516501

Rseaux de neurones 473112 555147 514836Arbre de rgression simple 474858 545724 511344Arbre de rgression boost 459099 536985 503793

Table 1: MSE calcul sur les trois bases(class du moins bon au meilleur sur la base de test)


14/34


Figure 5: Arbre de rgression simple appliqu sur la base de donne

La figure 5 prsente le rsultat graphique produit par l'algorithme. Le graphique

indique que la sinistralit moyenne du portefeuille est de 210,9 et concerne 874 423

individus (valeurs au sommet de l'arbre). Parmi l'ensemble des variables explicatives de

l'assur (l'ge du vhicule, la puissance du vhicule, la formule), la variable qui effectue la

meilleure sparation binaire de la base de donnes est la variable ge. La meilleure

sparation a lieu pour l'ge de 7,25 ans. L'algorithme cre alors deux nuds et cherche

parmi ces deux nuds celui qui ncessite le plus d'tre spar en deux. Pour le nud de

sinistralit 89,89 , la variable qui spare le mieux le risque est la formule tandis que pour

le nud de sinistralit 470,70 , la variable qui spare le mieux le risque est la variable

Puissance . L'algorithme arrte de crer des divisions binaires lorsqu'un critre d'arrt est

rencontr. Cet exemple montre que l'algorithme peut s'arrter diffrents niveaux de

l'arbre.

C'est cette lecture visuelle associe au principe de l'algorithme - qui est de crer des

groupes de risques homognes - et aux bonnes performances en terme de MSE de l'arbre dergression qui nous ont invit retenir ce modle pour l'estimation de la prime pure dans la

suite de notre tude.

3.3 Prsentation de la rgression par arbre simple CART

Les mthodes d'arbres de dcision partitionnent l'espace des variables explicatives

en diffrentes classes de risques et assignent ensuite cette classe la valeur moyenne prise

par le montant de sinistre dans la classe. L'algorithme utilis est l'algorithme CART

dvelopp dans Breiman et al. (1984) et Hastie et al. (2008). Il peut tre utilis pour des


15/34


63

problmes de classification ou de rgression. Dans le cadre de l'estimation de la prime pure,

le problme est li une rgression sur le montant et la frquence des sinistres.

La section consacre aux apports du machine learning a montr que l'ajustement

d'un algorithme d'apprentissage machine se faisait en deux tapes. La premire tape est

l'ajustement de la fonction )( xfw sur la base d'apprentissage par minimisation de l'erreur

sur cette base trainingErr et la deuxime tape consiste trouver le paramtre de complexitw qui minimise l'erreur de gnralisation testErr . La fonction wf est de la forme :

}{=)( ,,1=

wjwj

w

jw RxIYxf

o w dsigne le nombre de nuds terminaux de l'arbre, }{ ,wjRxI est la fonction

indicatrice associe au nud final wjR , et wjY , dsigne la moyenne empirique dans le

groupe j .

Dans le cadre des arbres de dcision, minimiser trainingErr pour la fonction )( xfw

n'est gnralement pas rsolvable informatiquement puisqu'il faudrait tester toutes les

combinaisons de tous les groupes de risque possibles. L'algorithme CART est un

heuristique qui permet de s'approcher de la solution optimale et qui consiste minimiser

trainingErr chaque cration d'un nud.

L'heuristique procde ainsi. Dans la premire tape, l'algorithme sub-divise de

manire rcurente la base d'apprentissage en deux. Chaque nud cr vise maximiser la

rduction de dviance .R L'algorithme calcule pour chaque variable et pour chaque

sparation possible la valeur de la dviance du nud parent, fils gauche et fils droit.

Plusieurs fonctions de dviance peuvent tre dfinies. Dans le cas d'une minimisation de

l'erreur quadratique, cette dviance a pour expression :

2)(= iiNoeudi

yyD L'algorithme calcule ensuite, pour chacune des sparations possibles, la valeur R de

la rduction de dviance : )(= filsdroitfilsgaucheparent DDDR + . Le nud finalement retenu

est la sparation qui maximise la rduction de dviance R . L'algorithme recommence

ensuite la cration d'un nouveau nud jusqu' ce que le critre d'arrt sur le nombre

minimum d'individu dans un nud soit rencontr.

L'arbre produit de nombreux nuds. La deuxime tape, appele lagage, consiste

retirer tous les nuds qui rsultent du surapprentissage en utilisant une deuxime base, la

base de validation. mesure que le nombre de nud augmente, l'erreur sur la base de


16/34


validation diminue puis atteind un minimum (Cf. figure 2). L'algorithme arrte d'ajouter des

nuds lorsque ce minimum est atteint.

3.4 Adaptation de l'algorithme pour l'assurance non-vie ( CART-ANV)

Cette sous-section pose le problme li la prise en compte de la priode

d'exposition dans le portefeuille. Si cette priode d'exposition n'est pas prise en compte,l'arbre identifie les vhicules prsents moins longtemps dans le portefeuille comme tant

moins risqu ce qui conduit une sous-estimation de la prime pour ces groupes de risque.

Dans son papier sur l'application des algorithmes de support vector machine

l'estimation de la prime pure, Christmann (2004) propose de diviser les sinistres dans la

base de donnes par leur priode d'exposition. Or, si un assur prsent 3 mois dans le

portefeuille dclare un sinistre, cette mthode comptabilise 4 sinistres sur l'anne.

Mathmatiquement, l'effet de cette transformation est prsent dans l'inquation suivante :

i

M

i

i

M

i

i

M

ii

iM

i

i

M

i

YYtsoitYt

Y

Mt

1=1=1=1=1=

~)

1(

o dsigne le nombre d'individus dans un groupe d'assurs payant la mme prime, iY

dsigne le montant de sinistre et it la priode d'exposition. La dmonstration de cette

inquation se fait par rcurrence. Cette approche conduit une surestimation de la prime

(notamment dans les groupes de risque qui sont structurellement moins d'un an dans le

portefeuille : les premires souscriptions des jeunes conducteurs).

Afin d'obtenir l'galit entre les primes pures actuarielles et la sommes des sinistres

rels tel que :

i

M

ii

M

i

YYt 1=1=

=~

il vient algbriquement que la quantit Y~ estime par l'algorithme dans un nud et la

fonction de dviance D~

deviennent :

2

1=

1= )~(=~

=~

iiiNoeudi

i

M

i

i

M

i tyyDet

t

Y

Y

Nous avons donc intgr cette modification directement dans l'algorithme CART

pour devenir l'algorithme CART-ANV. Cette approche permet de prendre en compte l'effet

de la priode d'exposition sur la sinistralit du portefeuille et est quivalente


17/34


65

mathmatiquement l'introduction d'un offset dans les modles GLM qui possdent une

fonction de lien logarithmique. Le package rpart permet de recoder en langage R la fonction

de cration des nuds de l'arbre.

4. TUDE ET PREPARATION DES DONNEES

Nous avons suivi une mthodologie proche de CRISP-DM 1(Shearer 2000), dontl'une des tapes les plus importantes consiste prparer les donnes. Face l'importance de

cette tape prliminaire, nous avons dcid d'y consacrer une section. Nous dcrivons ci-

dessous les principaux lments de la base de donnes brute et les transformations opres.

Nous prcisons que nous utilisons une base de donnes relle, brute et volumineuse

d'un assureur. Pour des raisons -videntes- de confidentialit, nous avons dpersonnalis la

base. Par exemple, nous n'avons pas explicit des variables comme l'usage des vhicules

(not usage1, usage2 ) et avons effectu des homothties des variables quantitatives comme

le montant du sinistre.

Par ailleurs, l'assureur est en charge de la mesure de son propre risque et donc devalider les modles sur sa propre base de donnes correspondant son business. Nous ne

comparons donc les modles que sur une seule base de donnes. Une comparaison sur

d'autres bases ne rpond pas l'objectif que nous poursuivons car leurs caractristiques

seraient diffrentes. Par exemple, elles pourraient tre issues de processus mtier diffrents

ou viseraient une cible diffrente.

La premire section est consacre l'tude descriptive de la base de donnes

regroupant les informations sur les vhicules et les sinistres d'un portefeuille de vhicules.

La prparation des donnes en vue d'tre utilises pour paramtrer des modles statistiques

est ensuite prsente. La troisime section traite de la prsence de sinistres extrmes dans la

base de donnes et la manire dont ces sinistres doivent tre traits. Enfin, la dernire

section prsente les caractristiques de la base de donnes aprs traitement et sur laquelle

sera appliqu l'algorithme.

4.1 Description de la base de donnes

La base de donnes qui sert de support notre tude rassemble plusieurs exercices

pour atteindre un peu plus de trois millions de contrats. Ce fichier contient 45 variables

explicatives (l'ge du vhicule, sa puissance, le montant de la franchise) dont la majorit

1

http://www.crisp-dm.org


18/34


sont discrtes et comportent de nombreuses modalits (le code postal, la Catgorie Socio-

Professionnelle - CSP, la marque du vhicule).

Figure 6 : L'histogramme restreint aux sinistres compris entre 0 et 30 000 montre unedistribution trs asymtrique et la prsence d'un pic

Notre base contient environ 150 000 sinistres. Le montant enregistr est le montant

d'indemnisation de l'assureur sur une garantie, ce qui correspond la valeur totale du

sinistre diminue de la franchise. La frquence moyenne des sinistres est de 7,49% pour un

montant moyen de 3 711 , soit une prime pure en ne tenant compte d'aucune variable

explicative de 276 . La table 2 dtaille la rpartition des sinistres. Ainsi, 6,48% des assurs

ont eu un sinistre compris entre 1 et 4 500 . Ces sinistres de faible montant contribuent

39,30% de la charge totale des sinistres. Il est intressant de noter l'importance prise par les

sinistres extrmes : seulement 0,01% des assurs ont eu un sinistre extrme mais la somme

de ces sinistres contribue 19% du montant total des sinistres. Le montant maximum de

sinistre est de 7,8M.

Charge de sinistre % obs. % du montant total Moyenne Mdiane0 92,51 0 0 0

]0,4 500] 6,48 39,30 1 680 1 266]4 500,30 000] 0,92 28,00 8 394 6 762

]30 000,150 000] 0,06 13,78 60 705 50 682[150 000, max] 0,01 19,10 471 627 276 012

Table 2: Rpartition de la charge de sinistre. Elle montre l'importance des valeursextrmes.


19/34


67

L'cart entre le montant moyen et la mdiane dans une tranche de sinistres montre

que la distribution des sinistres est trs asymtrique. Ceci est confirm par le coefficient

d'asymtrie skewness- qui est de 3,2 et l'histogramme de la distribution des sinistres par

contrats prsent dans la figure 6. La lecture de l'histogramme rvle un pic de sinistralit

correspondant au montant du remboursement dans le cas d'une procdure IDA

(Indemnisation Direct de l'Assur). Pour acclrer le remboursement des assurs, les

assureurs ont mis en place cette procdure qui se traduit statistiquement par une

dformation de la distribution des sinistres avec un pic et trs peu de sinistres autour de ce

pic. La dformation est d'autant plus visible lorsque l'histogramme des sinistres est tudi

garantie par garantie comme le montre la figure 7.

Le premier histogramme de la figure 7 correspond la garantie responsabilit civile

et montre l'importance de la distorsion lie au pic. Les autres histogrammes sont prsents

afin de montrer les diffrences de distributions entre les garanties. La distribution de la

garantie incendie apparat moins rgulire que la distribution de la garantie pour le bris de

glace. Le dernier histogramme est associ la garantie sur la collision et montre aussi unpic, mais avec une influence moindre sur la distribution que pour la garantie RC.

Ces histogrammes confirment le fait que les distributions entre garanties sont trs

peu homognes. Cependant l'tude de l'histogramme des sinistres par vhicule de la figure

6, montre une distribution des sinistres beaucoup plus rgulire et suggre que les modles

dvelopps sur cette distribution seront moins perturbs par les donnes que les modles

paramtrs sur les distributions des sinistres pris garantie par garantie.

Figure 6: Histogrammes par garanties assures


20/34


4.2 Prparation des donnes

Les variables prsentes dans la base de donnes ne peuvent tre utilises par un

modle statistique sans un traitement pralable. En effet, la prsence de valeurs non-

cohrentes, de valeurs manquantes, de variables discrtes avec un trs grand nombre de

modalits ou de valeurs extrmes posent certains problmes. Nous prsentons dans cette

section les traitements les plus importants et leurs consquences ventuelles sur les rsultatsdu modle.

4.2.1 Les valeurs non-cohrentes et extrmes pour les variables explicatives

Les valeurs non-cohrentes doivent tre dtectes l'aide d'un expert sur le risque

assur. Dans notre exemple, la connaissance des puissances et des ges des diffrents

vhicules permet d'identifier les valeurs non-cohrentes. Une fois identifies, ces valeurs

peuvent soit tre remplaces par la valeur la plus probable (aprs une rgression sur la

variable remplacer) soit tre dfinies comme valeurs manquantes.

4.2.2

Regroupements

Bien que les regroupements des variables qualitatives ne soient pas ncessaires pour

CART-ANV, ils sont utiles dans le cadre d'une comparaison avec les modles GLM. En

effet, les variables qualitatives sont transformes en variables binaires par la majorit des

algorithmes statistiques (GLM, rseaux de neurones). Ainsi, une variable comme la CSP

qui possde l'origine une centaine de modalits conduit la cration de 100 variables

binaires. Un trop grand nombre de variables en entre des modles pose plusieurs

problmes majeurs : les temps de calculs sont multiplis, les interactions entre variables

sont plus difficiles modliser ou dtecter, les rsultats produits perdent de leur

interprtabilit et de leur significativit statistique. La solution consiste oprer des

regroupements, soit en utilisant des outils de classification statistique soit en utilisant l'avis

d'experts.

Dans notre tude, la variable iculeGenreduveh est issue d'un regroupement d'une

cinquantaine de variables en 6 groupes dont les caractristiques sont prsentes dans le

tableau 3.


21/34


69

vehiculeduGenre %obs. frq. montant chargecharge150 000

A 97,29 0,075 3636 273 222B 0,11 0,018 6462 117 117D 1,60 0,050 4680 237 71E 0,17 0,176 7140 1260 924G 0,45 0,102 11985 1121 570

Autres 0,38 0,049 2538 126 126

Table 3: Analyse univarie par rapport la variable genre du vhicule

La variable Usage a galement t cre partir d'un regroupement d'une

cinquantaine de catgories et possde 8 niveaux (Usage1, Usage2).

Les variables quantitatives (Age et Puissance ) ne ncessitent pas d'tre regroupes

pour tre traites par des algorithmes de machine learning. Ceci est un avantage face aux

modles GLM qui ncessitent souvent de discrtiser les variables continues. En effet, dans

ces modles, nous avons montr que si les variables quantitatives ne sont pas discrtises,

l'effet de celles-ci sur le risque n'est paramtr que par un seul paramtre ce qui est

gnralement insuffisant (Cf. section 2.1 sur les limites des Modles Linaires Gnraliss).

4.2.3 Prise en compte de la priode d'exposition

Suite la sous-section 3.4, nous savons que la dure de prsence du vhicule est

ncessaire pour une juste valuation de l'algorithme CART-ANV. Nous calculons donc la

variable Temps qui indique la dure de prsence du contrat dans le portefeuille. Sa valeur

moyenne est de 0,84 an.

4.2.4 Agrgation au niveau du vhicule

Comme not en prambule de la section modlisation, nous proposons de modliser

le tarif global d'un vhicule plutt que de modliser le risque de chaque garantie souscrite.Pour cela, nous avons dcid de crer deux nouvelles variables.

La premire est le montant de sinistre annuel pour un vhicule et correspond la

somme des sinistres pour toutes les garanties du vhicule.

La seconde est une variable qui dcrit la formule thorique de garantie utilise par le

vhicule. L'objectif de la cration de cette variable est de passer de l'ajustement d'un modle

par garantie l'ajustement d'un seul modle mais qui prendrait en variable d'entre

l'information sur les garanties souscrites par l'assur. Les modalits de cette variable sont


22/34


prsentes dans la table 4. Lorsque la garantie1est entre parenthses cela signifie que la

garantie peut tre prsente ou absente de la formule :

Nom de la formule garanties associes % obs. prime pureformule 1 RC 25 % 45formule 2 RC+INC+BDG+(VOL) 10 % 51

formule 3 RC+INC+BDG+(VOL)+DOE 6 % 91formule 4 formule 3+COL+TAC+(PNE) 45 % 321autres formules 14 % 132

Table 4: Description de la variable formule.

La catgorie autre formule correspond aux vhicules dont les combinaisons de

garanties n'ont pas pu tre incluses dans l'une des quatre formules. Il s'agit le plus souvent

de formules souscrites il y a longtemps, et qui ne figure plus dans la cible commerciale

actuelle. Ces vhicules reprsentent 14 % du portefeuille et les informations sur ces

vhicules ne pourront pas tre utilises pour la modlisation par l'approche vhicule.

4.2.5

Les sinistres extrmes

La table 2 montre l'importance des sinistres extrmes dans le montant final de la

prime puisque ces sinistres qui ne reprsentent que 0,01 % du nombre total d'assurs

contribuent hauteur de 19 % du montant total des sinistres. Toutefois, ces sinistres ne

peuvent pas tre directement modliss dans le calcul de la prime pure pour deux raisons.

La premire est lie aux modles statistiques qui minimisent gnralement une

distance quadratique et ne sont donc pas robustes la prsence de valeurs extrmes. La

figure 8 montre le rsultat de la prdiction (rgression GLM avec fonction de variance

gamma) en laissant les sinistres extrmes dans la base de donnes (courbe en trait plein)

tandis que la courbe en trait discontinu est le rsultat de la prdiction en crtant le sinistreextrme. Cette dernire reprsente mieux la tendance gnrale de l'influence de la variable

ge.

Les sinistres extrmes sont essentiellement lis la garantie responsabilit civile.

Cela constitue la deuxime raison pour crter les sinistres extrmes. Dans cette garantie, le

montant du sinistre couvre les frais d'un tiers. Son montant ne dpend donc pas des

caractristiques de l'assur ou de son vhicule. En revanche, la frquence de sinistres est

directement lie aux caractristiques de l'assur et pourra tre modlise. Le tableau 5

1Responsabilit Civile, INCendie, Bris De Glace, VOL du vhicule, DOmmage Electrique, COLlision,

dommage Tous ACcidents, dommage aux PNEumatiques


23/34


71

illustre cette caractristique en montrant que la charge finale due aux sinistres extrmes est

davantage influence par une frquence sinistre leve (genre Eet G ) que par le montant

de ces sinistres. La mme tude a t mene sur d'autres variables et confirme cette

remarque. Ceci montre l'importance de pouvoir identifier les sinistres extrmes et justifie de

crer un modle de frquence pour ces sinistres.

Genre du vhicule % obs. frq. extrme montant charge 150 000A 97,29 0,000107 479 511 51D 1,60 0,000139 156 570 21E 0,17 0,001279 262 830 336G 0,45 0,001220 534 474 651

Table 5: Analyse univarie des sinistres extrmes: cette analyse montre l'importance jouepar la frquence par rapport l'influence exerce par le montant moyen

Le choix du seuil partir duquel un sinistre est dclar extrme peut tre calcul

partir de considrations issues de la thorie des valeurs extrmes. Ce seuil peut tre fix

pour l'ensemble du portefeuille ou fix au niveau de chaque classe de risques. Benlagha etal. (2009) comparent trois mthodes statistiques pour dterminer ce seuil au sein de chaque

classe de risques. Cette approche possde l'avantage de fixer des seuils qui prennent en

compte les caractristiques des classes de risques (le seuil est plus lev dans les classes

risques).

Figure 8 : Graphique montrant la distorsion introduite par la prsence d'un sinistreextrme.


24/34


Dans notre approche, les classes de risques ne sont pas fixes priori ce qui

ncessite de fixer un seuil d'crtement pour l'ensemble du portefeuille. En utilisant la

mthode de la fonction moyenne des excs - mean excess loss- prsente dans Embrechts

et al. (1997), on obtiendrait un seuil d'crtement de 300 000 pour le montant des sinistres

agrgs au niveau du vhicule. Toutefois, il peut tre prfrable de fixer le seuil

d'crtement selon d'autres critres en fonction du modle statistique utilis (en particulierpour les modles minimisant une distance quadratique). Le seuil Sest fix au quantile

99 % de la distribution des montants des sinistres strictement positifs, soit 30 000 (parmi

les 2,2 millions d'observations de la base, 1 600 observations sont suprieures ce seuil).

4.3 Paramtrage de l'algorithme sous R

Figure 9 : volution du MSE sur la base de validation en fonction du pourcentaged'individus minimum admis dans un nud. Le minimum est ralis dans cet exemple pour

0,5% du nombre d'individus prsents dans la base d'apprentissage.

Plusieurs packages existent sous R pour construire des arbres de dcision avec

l'algorithme CART. Nous avons retenu le package de rfrence rpart de Therneau et al.

(2009) car il nous permet de recoder les modifications apporter sur l'algorithme pour

intgrer le temps d'exposition.La fonction rpart a 6 paramtres : xval, minbucket, maxcompete , temaxsurroga ,

cp et maxdepth .

Le paramtre xval dsigne le nombre de validations croises effectues par le


25/34


73

modle ( 10=xval par dfaut). Pour un portefeuille d'assurance qui possde une forte

variance dans la variable Y expliquer, la validation croise n'est pas trs adapte moins

d'utiliser un faible nombre de validations croises de faon ce qu' chaque tape la

proportion de la base utilise pour la validation contienne un grand nombre d'observations.

Notre approche prconise donc de ne pas utiliser cette option ( 0=xval ) et de dcouper

alatoirement, classiquement, la base de donnes en trois parties : 50% de la base servent

l'apprentissage, 25% servent la validation et trouver le paramtre de complexit w

optimal du modle, les 25% restant serviront de base de test permettant de comparer les

diffrents modles. Les modles GLM et CART-ANV seront donc compars

objectivement sur les mmes bases.

Le paramtre minbucketdsigne le nombre minimum d'individus dans un groupe de

risques final. Ce paramtre est un des deux critres d'arrt dans la construction de l'arbre.

Une valeur trop grande ne permet pas de modliser les singularits des donnes. Une valeur

trop petite cre des nuds trop spcifiques qui seront supprims par le second critre

d'arrt. Dans notre cas, il est fix 1000 vhicules. En effet, l'ordre de grandeur de lafrquence de survenance d'un sinistre ( 10%< ) et l'importance de la variance et de

l'asymtrie de ,Y font qu'une moyenne sur moins de 1000 vhicules a peu de chance d'tre

significative. Les temps de traitement tant raisonnables, il n'tait pas utile d'optimiser ce

paramtre une valeur suprieure.maxcompete impacte uniquement l'affichage mais pas les rsultats (il permet

l'affichage des maxcompete meilleurs critres de rduction de dviance R du nud

parent).

temaxsurroga est le paramtre qui permet de dfinir le nombre de variables de

substitution pour les variables prdictives ayant des valeurs manquantes dans la base de

donnes. En effet, d'une part, CART ne supprime pas les observations ayant des valeurs

manquantes et d'autre part, ne remplace pas les valeurs manquantes par des valeurs

estimes. Une fois le nud cr, l'algorithme slectionne parmi les variables de substitution

celles qui reprsentent le mieux le nud cr pour rpartir les observations o la variable

est manquante. Par exemple, si la sparation du nud est cre sur l'ge et que la seconde

variable, qui explique le mieux cette sparation est la puissance, l'algorithme va classer les

observations o l'ge n'est pas renseign dans le nud en fonction de la puissance. Dans

notre cas, deux variables de substitution sont suffisantes.

cp est un critre d'arrt qui utilise le critre de complexit w et qui vise optimiser


26/34


les temps de calcul. Nous l'avons fix zro pour ne pas retenir ce critre d'arrt.

maxdepth dsigne la profondeur maximum de l'arbre, fixe 11 dans notre

estimation car l'arbre, une fois lagu, a une longueur maximale de 10 nuds.

5. EVALUATION DES RESULTATS

Dans cette section, nous prsentons les rsultats pour l'valuation de la prime pure.La premire sous-section prsente les Mean Square Errors et la deuxime l'analyse des

biais. La troisime dcrit les rsultats produits par l'algorithme CART-ANV. Enfin, les

rsultats de l'estimation de la frquence des sinistres extrmes seront prsents.

5.1 Le Mean Square Error

Nous comparons d'abord les modles l'aide du Mean Square Error (MSE), un

critre usuel de performance d'un modle. Nous constatons que, sur la base de test,

l'algorithme CART-ANV sur-performe le modle GLM (Cf. tableau 6).

Modle MSEapprentissage MSEtestRgression GLM (poisson) 1148103 1177830

CART-ANV 1144881 1176777

Table 7: MSE calcul sur la base d'apprentissage et sur la base de test

Comme le MSE est intrinsquement trs lev en assurance, mme cette faible

rduction du MSE est utile.1

Figure 10 : Montrant l'erreur sur la base de validation.

1Nous ne cherchons pas prouver que l'algorithme CART-ANV sur-performe la GLM de manire

systmatique en assurance non-vie.


27/34


75

Le graphique 10 compare les performances de l'algorithme sur la base de test. La

courbe en trait plein montre que plus le nombre de nuds augmente dans l'arbre plus

l'erreur commise par ce modle diminue. A partir d'un certain nombre de nuds, l'erreur

devient infrieure celle du modle GLM .

5.2

Le critre d'quitNous cherchons illustrer graphiquement la performance des deux approches en

terme d'quit en projetant les rsultats par segment ( i.e.groupe de vhicules homognes).

Cette approche est prsente dans la figure 11. Les valeurs retenues pour la charge de

sinistres et les primes prdites sont celles de la base de test testB .

Raliser cette analyse pose le problme du choix de la taille du groupe dans lequel

on mesure le biais. Si le segment est trop grand, les carts tendent s'effacer quelques

soient leurs performances. Si au contraire, on cherche mesurer les carts dans des

segments trop petits, le caractre alatoire de la sinistralit ne permet plus de comparer les

carts produits par les modles.

Figure 11 : graphique montrant les valeurs prdites et les montants de sinistres moyens enfonction de quatre variables explicatives.

Ainsi que le montre la figure 11, l'algorithme CART-ANV et la GLM montrent des

performances comparables en terme de biais lors d'une projection des rsultats sur une


28/34


seule variable explicative (segments-unidimensionnels). En effet, les courbes CART-ANV

et GLM pousent toutes les deux l'histogramme des sinistres.

En revanche, la projection des rsultats sur deux variables explicatives (segments

multi-dimensionnels) tend montrer que l'algorithme CART-ANV est moins biais que la

GLM , tendance qu'il s'agirait de confirmer dans des travaux futurs, comme cela est illustr

dans la figure 12. Elles montrent la projection sur la puissance du vhicule pour diffrentestranches d'ge. Dans ces quatre cas, nous observons que la courbe CART-ANV pouse

beaucoup mieux l'histogramme des sinistres. Considrons par exemple les assurs dont

l'ge des vhicules est compris entre 0 et 15 ans (partie en haut droite de la figure 12) et

dont la puissance se situe entre 50 et 75 ch. Nous remarquons un cart significatif de la

GLM qui inciterait ces assurs souscrire au juste prix chez un autre assureur.

Figure 12 : Montant de sinistres en fonction de la puissance du vhicule pour leportefeuille global puis restreint diffrentes tranches d'ge

Ainsi, l'tude du biais selon deux variables explicatives tend montrer que les

rsultats produits par l'arbre de rgression sont moins biaiss que ceux produits par un

modle de type GLM dont les limites des classes de risques sont fixes priori par le

statisticien.

5.3 Lecture des rsultats produits par l'arbre

L'arbre ajust sur la base d'apprentissage puis lagu sur la base de validation


29/34


77

possde un total de 65 nuds finaux. Pour des raisons de confidentialit, seule une partie de

l'arbre est prsente dans la figure 13 (ge 24,5 an).

Le premier constat est la possibilit d'avoir une vision la fois sur le montant des

primes en fonction des variables explicatives et le nombre d'assurs concerns par le

montant de prime modlis. En effet un nud terminal donne la fois le montant de la

prime et le nombre d'assurs concerns. Ceci est comparer avec l'ensemble des autres

modles statistiques qui produisent des rsultats issus de multiplications de plusieurs

coefficients et dont il est impossible d'estimer la fois les effets des variables explicatives

et le nombre d'assurs concerns.

Cette lisibilit de la tarification permet ainsi de runir une mme table techniciens,

responsables marketing et actuaires pour discuter des stratgies tarifaires mettre en place.

Concernant cette stratgie, il peut par exemple tre dcid de supprimer une sparation

finale en deux nuds si celle-ci segmente le risque d'une faon incompatible avec les prix

de march. Le tarif appliquer aux deux nuds fils supprims est alors le tarif du nud

parent. Si ce tarif est appliqu il y a encore quilibre entre primes et sinistres sur l'ensembledu portefeuille.

La reprsentation graphique de l'arbre permet une lecture plusieurs niveaux. Elle

permet tout d'abord de hirarchiser l'importance des variables expliquant le risque assur.

En effet, plus la variable intervient haut dans l'arbre et plus son effet est discriminant dans

l'explication du risque. Dans notre exemple, l'ge du vhicule est la variable la plus

discriminante puisqu'elle est la premire variable intervenir (sparation 14,5 ans) puis

intervient rgulirement dans la partie haute de l'arbre.

De plus, l'arbre permet de montrer que certains critres de risques sont plus

importants dans certaines sous-populations que d'autres. Ainsi, la seconde variabled'influence chez les vhicules rcents (l'ge est infrieur 14,5 ans) est la puissance alors

que pour les vhicules anciens, la variable Puissance intervient beaucoup plus bas dans

l'arbre pour discriminer les risques.

Un autre avantage des arbres de rgression tient au fait que l'algorithme cherche

chaque tape crer le nud qui engendre la rduction d'erreur quadratique la plus

importante. Ainsi, CART-ANV produit un arbre dont le nombre de branches n'est pas

uniforme, de 3 7 branches dans notre tude. Par exemple, pour les vhicules d'ge

suprieur 24,5 ans qui reprsentent la moiti du portefeuille, seuls six tarifs sont produits

par l'arbre sur une profondeur de deux ou trois nuds seulement (figure 13). La


30/34


segmentation des risques sur cette partie du portefeuille n'ayant pas un grand intrt pour

l'assur (les majorations/minorations de tarif tant faibles), cette proprit de l'algorithme

apparat comme un avantage face aux mthodes statistiques qui segmentent uniformment

le risque sur le portefeuille.

Il convient de signaler que sur les huit variables potentiellement utilisables par

l'algorithme, la variable vehiculeduGenre n'apparat jamais tandis que la variablenUtilisatio n'apparat que deux fois dans l'arbre. Ceci peut tre peru comme un

inconvnient si l'assureur dcide de segmenter selon ces deux critres. Toutefois, ce choix

ne serait pas judicieux puisque l'arbre indique que segmenter selon ces deux critres ne

conduit pas la rduction d'erreur quadratique la plus importante.

Figure 13 : Arbre de rgression pour la branche concernant les vhicules anciens.

5.4 Les sinistres extrmes

La section 3.1 consacr la mthodologie d'valuation de la prime pure a introduit

l'utilit de ne modliser que la frquence de sinistres pour les sinistres extrmes. Un arbre a

donc t ajust pour valuer la quantit ]|[ XSYPr avec un seuil S de 30 000

correspondant au quantile 99% de la distribution des sinistres strictement positifs. Le

rsultat graphique de cet arbre est prsent dans la figure 14.


31/34


79

Figure 14: L'arbre de prdiction de la frquence des sinistres extrmes (frquence en % ).

Le rsultat produit par l'algorithme est trs intressant pour l'identification des

risques extrmes. En effet, il permet d'identifier les facteurs de risque qui expliquent une

frquence de sinistres extrmes plus leve. Parmi les groupes les plus sinistrs, les

vhicules du genre Eet G sont particulirement exposs ainsi que les CSP G et .H Ceciconfirme l'analyse univarie du tableau 5.

Cependant, utiliser cette frquence de sinistres pour calculer le surplus de prime lie

aux sinistres extrmes conduit des montants de prime relativement levs pour certaines

classes de risques. Le montant moyen des sinistres suprieurs 30 000 tant de

123 402 , la surprime lie aux risques extrmes pour les vhicules serait de 714

( 0,5808%402123 ). Ce chiffre est comparer aux 102 de surprime si l'ensemble des

risques extrmes est mutualis sur l'ensemble des assurs du portefeuille.

6. CONCLUSION

Cette tude prsente une approche innovante de la tarification des risques

d'assurance non-vie. Alors que les dveloppements rcents en actuariat de l'assurance

dommage se sont focaliss sur la matrise et l'amlioration des Modles Linaires

Gnraliss, nous proposons une version modifie de l'algorithme CART pour la

rgression.

De par leur nature non paramtrique, les algorithmes d'arbre de dcision utiliss

dans cette tude ont permis de faire ressortir des informations nouvelles sur le risque tout

en amliorant les mesures d'erreur entre le risque mesur et le risque modlis. De plus,

contrairement aux Modles Linaires Gnraliss, nous avons vu que l'algorithme de


32/34


cration de l'arbre de dcision optimise ses rsultats en utilisant plusieurs bases de donnes.

Cela le rend robuste en laguant les classes de risques dont le nombre de personnes assures

n'est pas assez significatif (phnomne de surapprentissage).

L'assureur trouve galement une relle plus-value dans la segmentation produite par

l'algorithme. Les vhicules anciens, trs nombreux, mais qui ont un risque faible et peu

d'enjeux commerciaux, sont modliss trs simplement sur six classes. Par contre, lasegmentation est beaucoup plus fine pour les vhicules rcents, tout en vitant de

paramtrer le modle sur des classes de risques dont le nombre de personnes assures n'est

pas significatif (vite donc le phnomne de surapprentissage). De plus, les tests raliss

tendent montrer que l'algorithme CART est moins biais que la GLM sur les diffrents

segments de la base.

En outre, nous montrons comment cette approche vhicule, conjugue avec la

lisibilit des arbres de dcision permet de runir une mme table techniciens, responsables

marketing et statisticiens pour discuter des stratgies tarifaires mettre en place.

7.

REFERENCES

C. APTE, E. GROSSMAN, E. PEDNAULT, B. ROSEN, F. TIPU et B. WHITE :

Probabilistic estimation based data mining for discovering insurance risks.IEEE Intelligent

Systems, 14:49-58, 1999.

R.A. BAILEY et L.R.J. SIMON : Two studies in automobile insurance

ratemaking.ASTIN Bulletin, 1(4):192-217, 1960.

N. BENLAGHA, M. GRUN-REHOMME et O. VASECHKO : Les sinistres

graves en assurance automobile : Une nouvelle approche par la thorie des valeurs

extrmes.Revue MODULAD, 47:39, 2009.

L. BREIMAN, JH FRIEDMAN, RA OLSHEN et CJ STONE : Classification and

regression trees. Chapman & Hall/CRC, 1984.

A. CHRISTMANN : An approach to model complex high-dimensional insurance

data.Allgemeines Statistisches Archiv, 88(4):375-396, 2004.

M. DENUIT et A. CHARPENTIER : Mathmatiques de l'assurance non-vie.

Economica, 2005.

C. DUGAS, N. CHAPADOS, Y. BENGIO, P. VINCENT, G. DENONCOURT et

C. FOURNIER : Statistical learning algorithms applied to automobile insurance

ratemaking.InCasualty Actuarial Society Forum-Arlington, pages 179-213, 2003.


33/34


81

J. ELITH, JR LEATHWICK et T. HASTIE : A working guide to boosted

regression trees.Journal of Animal Ecology, 77(4):802-813, 2008.

P. EMBRECHTS, C. KLUPPELBERG et T. MIKOSCH : Modelling extremal

events. Springer Berlin, 1997.

S. FELDBLUM :Risk Classifications,Pricing Aspects. Encyclopedia of Actuarial

Science. John Wiley and Sons, 2006.

T M. HASTIE, R. TIBSHIRANI et J. FRIEDMAN : The Elements of Statistical

Learning. Springer Series in Statistics, 2008.

P. LENCA, S. LALLICH et B. VAILLANT : Construction of an off-centered

entropy for the supervised learning of imbalanced classes : Some first results.

Communications in Statistics - Theory and Methods, Taylor & Francis, 39(3):493-507,

2010.

P. MCCULLAGH et JA NELDER : Generalized linear models. UK : Chapman

and Hall, 2 dition, 1989.

Tom M. MITCHELL :Machine learning. WCB/McGraw-Hill, 1997.Antoine PAGLIA, Martial Vincent PHELIPPE-GUINVARC'H et Philippe

LENCA : Adaptation de l'algorithme cart pour la tarification des risques en assurance non-

vie. In 11e Confrence Internationale Francophone sur l'Extraction et la Gestion des

Connaissances, EGC 2011, pages 611-622, Brest, France, janvier 2011. URL

http://www.ensta-bretagne.fr/egc11/index.php/articles-longs/.

Colin SHEARER : The crisp-dm model : The new blueprint for data mining.

Journal of data Warehousing, 5(4):13-22, 2000. URL http://www.crisp-

dm.org/News/86605.pdf.

Terry M THERNEAU, Beth ATKINSON et Brian RIPLEY. : Rpart : RecursivePartitioning. CRAN, 2009. URL http://CRAN.R-project.org/package=rpart. R package

version 3.1-45.

V. VAPNIK : Statistical learning theory. Wiley, New York, 1998.

T. WASHIO, E. SUZUKI, K. M. TING et A. INOKUCHI, diteurs.A comparison

of different off-centered entropies to deal with class imbalance for decision trees, 5012,

Osaka, Japan, May 2008. Springer.

X. WU, V. KUMAR, J. ROSS QUINLAN, J. GHOSH, Q. YANG, H. MOTODA,

G.J. MCLACHLAN, A. NG, B. LIU, P.S. YU et al. : Top 10 algorithms in data mining.

Knowledge and Information Systems, 14(1):1-37, 2008.


34/34

Documents

Modele d Apprentissage