Xavier Milaud - Techniques d'arbres de classification et de régression

Techniques d’arbre de classification et derégression

GT Big Data, sous GT 2Maison des actuaires, le 5 mai 2014

Xavier Milhaud1,2

1 ENSAE ParisTech, département d’actuariat2 CREST, Laboratoire de Finance et d’Assurance

1 / 37

Plan de l’exposé

1 Introduction à la problématique

2 Exemples d’utilisation

3 Construction de l’arbre

4 Procédure d’élagage de l’arbre

5 Robustesse de la méthode CART

6 Application sur un cas concret d’assurance

2 / 37

Contexte classique d’étude des risques en assurance

Pour prévoir le futur, un assureur essaie généralement d’avoir lameilleure connaissance possible du coût de ses sinistres.

Les bases de données des assureurs comportent un ensembled’informations sur

les caractéristiques de l’assuré,

les options du contrat,

les conditions de marché.

Ces informations jouent un rôle crucial dans les prévisions desinistralité⇒ il faut conserver les caractéristiques individuelles.

3 / 37

Objectif : prévision individualisée d’une quantitéd’intérêt

Pour cela, on va regrouper des individus homogènes...∃ de nombreuses techniques de classification (création degroupes d’assurés homogènes), parmi lesquelles :

pour la classification non-supervisée :→ les algorithmes dits des k -plus proches voisins ;→ les techniques ascendantes d’arbre de classification (CAH) ;→ la classification par model-based clustering : [Bau09].

pour la classification supervisée :→ les modèles de choix (LOGIT) ;→ les réseaux de neurones ;→ les méthodes descendantes d’arbre (CART, CHAID, ...) ;

4 / 37

Quelques références sur l’utilisation des arbres enactuariat (pas du tout exhaustif)

Prévision de taux de mortalité par tranche d’âge : [Olb12]

Prévision des comportements de rachat : [MMDL11]

Applications en assurance non vie de techniques d’arbre : R.A.DERRIG et L. FRANCIS, Casualty Actuarial Society (CAS),Variance, vol. 2 issue 2.

Lien entre scoring d’assurés par arbre et pertes : GUSZCZA, WUet CHENG-SHENG, Casualty Actuarial Society Forum, 2003

5 / 37

Arbre et clustering : quelques premiers éléments

Pour estimer notre quantité d’intérêt, on choisit d’utiliser un arbre...Mais qu’est-ce qu’un arbre ?

1 Une racine : contient l’ensemble de la population à segmenter(le portefeuille global)⇒ c’est le point de départ ;

2 Un tronc et des branches : contiennent les règles de divisionqui permettent de segmenter la population ;

3 Des feuilles : contiennent les sous-populations homogènescréées, fournissent l’estimation de la quantité d’intérêt.

6 / 37

2 Exemples d’utilisationUne méthode populaire : un premier exempleApplication à la classification du statut propriétaire

7 / 37

Aparté sur la lecture d’un arbre

Un arbre de classification / régression se lit de la racine vers lesfeuilles.

A chaque ramification, une règle de division apparait : dans CART,

cette règle (' question) admet une réponse binaire,

elle n’est basée que sur un facteur de risque.

Un noeud est l’intersection d’un ensemble de règles. L’estimationde la quantité d’intérêt se lit dans les noeuds terminaux (feuilles).

N’importe quel individu de la population initiale appartient à uneunique feuille : les sous-populations créées sont disjointes.

8 / 37

Exemple 1 : prévisions des résultats des primaires aux US

Il s’agit de déterminer les facteurs clefs qui ont joué sur lesrésultats des primaires de 2008 aux USA :

Qui de H. Clinton ou B. Obama remportera tel ou tel état ?

Entre Clinton et Obama, deux critères de population de votantsapparaissent comme essentiels :

1 la couleur de peau des votants,2 leur niveau d’éducation.

On peut visualiser ces résultats sur la publication suivante du NYTimes...

9 / 37

Exemple 2 : prévisions propriétaire | salaire et surface

!"#$%&#'(

! )*'+,-./01,*2'3#'456/71&#8',/$#.,/2'2.914#.'1*'$9:#*'3#'7&,88#.'&#8'+,$/&&#8'3,*8'1*#'4/&&#'01/'89*2';'$<$#'3=,76#2#.'1*'456/71&#'#2'7#&&#8'01/'*#'89*2'%,8'%.<2#*2';'#*',76#2#.>')*'576,*2/&&9*'3#'(?'%.9%./52,/.#8'#2'(?'*9*@%.9%./52,/.#8'#82'769/8/>'A#8'3#1"'4,./,-&#8'/*35%#*3,*2#8'89*2'B'"('C!"#$%&'91'.#4#*18D'#2'"?'C'$()*!+&'91'81.+,7#'#*'%/#38'%,.'$?D

!"#$%&#'(

! )*'+,-./01,*2'3#'456/71&#8',/$#.,/2'2.914#.'1*'$9:#*'3#'7&,88#.'&#8'+,$/&&#8'3,*8'1*#'4/&&#'01/'89*2';'$<$#'3=,76#2#.'1*'456/71&#'#2'7#&&#8'01/'*#'89*2'%,8'%.<2#*2';'#*',76#2#.>')*'576,*2/&&9*'3#'(?'%.9%./52,/.#8'#2'(?'*9*@%.9%./52,/.#8'#82'769/8/>'A#8'3#1"'4,./,-&#8'/*35%#*3,*2#8'89*2'B'"('C!"#$%&'91'.#4#*18D'#2'"?'C'$()*!+&'91'81.+,7#'#*'%/#38'%,.'$?D

10 / 37

Partitionnement et arbre correspondant

!"# $%&'# ()*+# ,)--%"'# .%#$/+'*'*)""%-%"'# +0,&+1*2#$%+-%'#34/22*"%+#.4%"1%-5.%#3%1#+%,'/"6.%1# $)&+# 3%(%"*+# $.&1#$&+1# 3%# ./# -/"*7+%# 3)"'#$+),73%#.4/.6)+*8'-%9#

:# 3+)*'%# )"# ()*'# .40'/$%# 2*"/.%#3&#$/+'*'*)""%-%"'#+0,&+1*29

Partitionnement qui maximise l’homogénéité dans chq rectangle.

11 / 37

Voici l'arbre complet. On a représenté par des cercles les noeuds qui ont des successeurs. Les nombres à l'intérieur des cercles sont les valeurs de division et le nom de la variable choisie pour la division à ce noeud est écrit sous le noeud. Les nombres sur la fourche gauche à un noeud de décision ont des valeurs inférieures ou égales à la valeur de division tandis que le nombre de la fourche droite montre un nombre qui a une valeur plus grande.

12 / 37

3 Construction de l’arbreCroissance de l’arbre pour estimer une moyenneLien avec le problème de régression classiqueArrêt de la ramificationGénéralisation et extensions

13 / 37

Notations utilisées dans l’exposé

→ i ∈ ~1, n� : identifiant de l’individu / l’assuré ;

→ j ∈ ~1, k� : identifiant du facteur de risque (continu ou discret) ;

→ Yi : variable réponse du ième individu (continue ou discrète) ;

→ Xi = (Xi1, ...,Xik ) : vecteur des facteurs de risque de l’indiv. i ;

→ X : espace des covariables (facteurs de risque) ;

→ l ∈ ~1, L� : identifiant des feuilles de l’arbre ;

→ Xl : ensemble de la partition correspondant à la feuille l ;

→ π0(x) : quantité d’intérêt à estimer.

14 / 37

Arbre de régression : cas classique avec Y continue

Dans le cas d’une régression classique, la quantité d’intérêt est

π0(x) = E0[Y |X = x] (1)

En supposant une relation linéaire (dc se restreignant à une classed’estimateurs), on estime les paramètres de régression par MCO.

En toute généralité, on ne peut pas considérer ts les estimateurspotentiels de π0(x)⇒ arbres sont 1 autre classe d’estimateurs :ce sont des fonct. constantes par morceaux pour le problème (1).

Construire un arbre génére une suite d’estimateurs selon uneprocédure spécifique : divisions successives de l’espace X.

15 / 37

Construction de l’arbre : critère de division

La ramification de l’arbre est basée sur la définition d’un critère dedivision cohérent avec l’estimation de la quantité d’intérêt.

Dans l’estimation de (1), les MCO sont utilisés car la solution estdonnée par

π0(x) = arg minπ(x)

E0[Φ(Y , π(x)) |X = x], (2)

où Φ(Y , π(x)) = (Y − π(x))2.

La fonction de perte Φ correspond donc à l’erreur quadratique, etle critère est la minimisation de l’EQM.

16 / 37

Lien entre régression et arbre : la notion de “règles”

Tout arbre de régression est un ensemble de règles. Pour chaquenoeud m, une règle Rm est associée à un ss-ensemble Xm ⊆ X.

Notation : dans la suite, En[Y ] désigne la moyenne empirique deY , et Xpa(m) est le sous-ensemble associé au noeud parent de m.

L’arbre est associé à la fonction de régression

π̂(x) =M∑

m=1

β̂treem Rm(x) (3)

où β̂treem = En[Y | x ∈ Xm] − En[Y | x ∈ Xpa(m)] si m , racine,β̂tree

m = En[Y ] sinon.

17 / 37

Cela équivaut en régression classique à chercher

β̂tree = arg minβtree

En

[(Y −

∑βtree

m Rm(x))2

].

A partir de (3) et en sommant sur ts les noeuds :

π̂(x) := π̂L (x) =L∑

l=1

γ̂l Rl(x) (4)

avec

L est le nombre de feuilles de l’arbre, l leur indice,

Rl(x) = 11(x ∈ Xl) : une “règle” de division,

γ̂l = En[Y | x ∈ Xl] : moyenne empirique de Y dans la feuille l,les sous-ensembles Xl ⊆ X de la partition sont

disjoints (Xl ∩ Xl′ = ∅, l , l′

),exhaustifs (X = ∪l Xl).

18 / 37

(4) généralisable qlq soit la quantité d’intérêt. Ainsi, tout arbre peutêtre vu comme un estimateur par morceaux.

Interprétation :

chaque morceau est une feuille, dont la valeur est la moyenneempirique des valeurs de Y de cette feuille,

chaque division vise à minimiser la somme des variancesintra-noeuds résultantes. Idée : maximiser l’homogénéité...

La construction étant récursive, on génère une suite d’estimateursdepuis le nd racine : soit une suite {ΠK } de ss-espaces t.q. ΠK ⊆ Π,

ΠK ={πL (.) =

L∑l=1

γl Rl(.) : L ∈ N∗, L ≤ K}. (5)

19 / 37

A K fixé, on cherche πK0 tq πK

0 (x) = arg minπ(x)∈ΠK

E0[Φ(Y , π(x)) |X = x].

En pratique on cherche la version empirique, π̂K , telle que

π̂K (x) = arg minπ(x)∈ΠK

En[ Φ(Y , π(x)) ].

ou encoreπ̂K (x) = arg min

γ=(γ1,...,γL )

En[ Φ(Y , πL (x)) ]. (6)

Les estimateurs par arbre ne cherchent pas tous les estimateurspossibles avec L ≤ K : ils approchent ce minimum récursivement.

20 / 37

Arrêt de la procédure de division

Le principe de l’algorithme CART est de ne pas fixer de règled’arrêt arbitraire pour la procédure.

L’algorithme arrête ainsi de diviser les feuilles quand :

il n’y a qu’une observation dans la feuille, ou

les individus de la feuille ont les mêmes valeurs de facteursde risque.

On construit ainsi l’arbre “maximal”, qui sera ensuite élagué.

Cet arbre maximal est donc l’estimateur par morceaux final le pluscomplexe de la suite d’estimateurs construits : sa convergence estgarantie (voir [BFOS84]).

21 / 37

Généralisation et extensions avec Φ fonction de perte

π0(x) = arg minπ(x)

E0[Φ(Y , π(x)) |X = x]

Estimation de moyenne : π0(x) = E0[Y |X = x]→ critère de division (MCO) : Φ(Y , π(x)) = (Y − π(x))2.

Estim. quantile : π0(x) = QY (α|X = x) = inf{y : F(y |X = x) ≥ α}→ critère de division :Φα(y, π(x)) = α|y−π(x)|11(y > π(x)) + (1−α)|y−π(x)|11(y ≤ π(x))

Estimation de densité de la loi de Y→ Φ(Y , π(x)) = − log π(Y , x),avec π la densité jointe de (Y ,X).

22 / 37

4 Procédure d’élagage de l’arbreCritère d’élagage de l’arbreAlgorithme d’élagage de l’arbre

23 / 37

Elagage : critère coût-complexité

Une fois l’arbre maximal construit (de taille K(n)), on obtient unesuite d’estimateurs (π̂K (x))K=1,...,K(n).

Eviter estimateur trop complexe⇒ trouver le meilleur sous-arbrede l’arbre maximal selon un critère “adéquation - complexité” :

Rα(π̂K (x)) = En[ Φ(Y , π̂K (x)) ] + α (K/n).

Pour α fixé, l’estimateur retenu satisfait

π̂Kα (x) = arg min

(π̂K )K=1,...,K(n)

Rα(π̂K (x)). (7)

24 / 37

Elagage : procédure de sélection de modèle et estimateur final

On fait croître itérativement α : 0 = α1 < ... < αz < ... < αZ−1 < αZ ,et on choisit pour chaque αz le meilleur estimateur donné par (7).

Par construction, on a une suite décroissante de sous-arbresoptimaux de l’arbre maximal vers la racine. Dans cette listed’estimateurs, on choisit finalement α̂ tel que

π̂Kα̂ (x) = arg min

(π̂Kαz )α=α1 ,...,αZ

Rαz (π̂Kαz

(x)). (8)

Consistance : voir [MDvdL04] and [GN05].

25 / 37

5 Robustesse de la méthode CART

26 / 37

Un mot sur la robustesse de la méthode CART

Certaines techniques ont été développées afin de stabiliser laprévision donnée par un estimateur arbre.

En effet, la construction d’un arbre optimal peut varier fortementquand bien même le jeu de données initial varie peu.

D’où l’idée de proposer des procédures avec

1 choix aléatoire des facteurs de risque considérés lors d’unedivision : il s’agit de la méthode dite de “bagging”.

2 tirage aléatoire de sous-jeux de données (' valid. croisées).

27 / 37

Exemple le plus connu : les forêts aléatoires

L’objectif des forêts aléatoires est de proposer un estimateur detype “bootstrap” afin d’améliorer la robustesse de l’estimation de laquantité d’intérêt.

Il s’agit de moyenner les prévisions obtenues.Cette approche est intéressante pour deux raisons principales :

on peut dégager un classement du pouvoir explicatif dechacun des facteurs de risque,

sa consistance a été démontrée récemment dans plusieursarticles récents : [IK10], [Mei09], [Mei06]...

28 / 37

6 Application sur un cas concret d’assurance

29 / 37

Exemple illustratif : prévisions de taux de mortalité

Résultats suivants extraits de l’article [Olb12].

C’est un portefeuille de SwissRe avec les carsctéristiquessuivantes :

comprenant 1 463 964 enregistrements,

couvrant une période de 4 ans,

les variables explicatives en jeu sont le sexe et l’âge.

Les résultats obtenus par CART sont comparés à la table demortalité actuelle “German standard life table DAV 2008 T”.

30 / 37

Arbre obtenu par algorithme CART

conceals it). Imagine that two customers apply for a life insurance policy. Youknow that one is male and the other female and you know that one is aged 30and the other 50. You are allowed to ask either for SEX or for AGE but not forboth and you have to calculate the contract afterwards. Which question should

Fig. 8 Final tree for the standard life table example. For each terminal node the number of cases and themortality rate (per mille) are given (the numbers in brackets are the labels for the nodes used in Table 6)

0 10 20 30 40 50 60 70

0.00

00.

002

0.00

40.

006

0.00

80.

010

0.01

2

Age

Mor

talit

y ra

te

male

female

both

Fig. 9 Visualization of the final tree for the standard life table example

142 W. Olbricht

123

31 / 37

Courbe de mortalité

conceals it). Imagine that two customers apply for a life insurance policy. Youknow that one is male and the other female and you know that one is aged 30and the other 50. You are allowed to ask either for SEX or for AGE but not forboth and you have to calculate the contract afterwards. Which question should

Fig. 8 Final tree for the standard life table example. For each terminal node the number of cases and themortality rate (per mille) are given (the numbers in brackets are the labels for the nodes used in Table 6)

0 10 20 30 40 50 60 70

0.00

00.

002

0.00

40.

006

0.00

80.

010

0.01

2

Age

Mor

talit

y ra

temale

female

both

Fig. 9 Visualization of the final tree for the standard life table example

142 W. Olbricht

123

32 / 37

Performance de la prévision par arbre CART

atypical we would like this to show up. In order to separate such variation whichwould affect all methods from potential weaknesses of the tree-based method assuch we compared the tree with the classical procedure (i.e. predictions for theindependent test set based on the adjusted DAV 2008 T). For present purposes wewill not go into a detailed analysis since the example serves for illustration only.Table 6 summarizes the results. It shows both the results for the learning set and theindependent test set broken down to single nodes. In addition to the tree-basedpredictions the classical predictions (based on the adjusted DAV 2008 T) are givenfor the independent test set. Overall the tree performs impressively—in particular ifone considers that it is based on ten nodes only and on far less data than went intoDAV 2008 T (DAV 2008 T was based on a huge data base—more than 100 milliondata records—from various sources, but not all records were used in order toexclude selection effects. The tree was based on the 753,024 data records from thelearning set—all of which were used). One can also see that the most importantvariation is not between the two methods but rather between years in the 4-yearobservation period. Overall there were 1,414 deaths in the test set. The treepredicted 1,521 or 107.6% whereas the classical prediction was 1,503 correspondingto 106.3%. While both methods perform almost equivalently, they both overesti-mate reality somewhat. This is due to a distinct shift between the 2 years selectedfor the learning set and the 2 years chosen for the independent test set. In as much assuch shifts are due to a real breakdown of the model assumptions, they cannot becovered by any method that extrapolates essentially from past experience—not evenby methods that include a time component, since some assumptions have to be madein any case. Thus, the phenomenon underscores the importance to use a selection ofyears as an independent test set (and not just a sample of all data records) in order toget some idea of the real extent of this type of variability.

Table 6 Performance of the tree from Fig. 8

Node Learning set Independent test set

No. ofelementsin node

No. ofdeaths innode

Estimatedmortality rate(per mille)

No. ofelementsin node

No. ofdeaths innode

Treeprediction(Fig. 8)

Classicalprediction(DAV 2008 T)

1 286,298 137 0.479 254,995 143 122 127

2 77,812 96 1.234 75,882 60 94 79

3 78,792 118 1.498 79,202 146 119 116

4 163,197 406 2.488 155,912 361 388 389

5 32,293 92 2.849 33,163 119 94 96

6 7,315 37 5.058 7,440 26 38 36

7 36,921 176 4.767 41,759 163 199 188

8 24,515 148 6.037 20,708 118 125 118

9 9,835 68 6.914 8,354 59 58 55

10 36,046 305 8.461 33,525 219 284 299

Total 753,024 1,583 710,940 1,414 1,521 1,503

144 W. Olbricht

123 33 / 37

Conclusion

Pourquoi cette technique est-elle intéressante pour le big data ?

→ Algorithme naturellement adapté à la gestion de grandes basesde données :

→ Technique non-paramétrique : pas d’hypothèses sur le lienentre quantité d’intérêt et facteurs de risque. Capte bien lesstructures de dépendance non linéaires ;

→ Simplicité de l’estimateur final : faible dimension, interprétationde l’arbre et visionnage des résultats ;

→ Consistance de la procédure théoriquement prouvée ;

34 / 37

→ Classement naturel du pouvoir discriminant des facteurs derisque ;

→ Multiples extensions possibles en travaillant sur les propriétésde la fonction de perte.

Quels en sont les points faibles ?

→ Hypothèses sous-jacentes pouvant parfois être remises encause ;

→ Manque de résultats théoriques dans des cas moinsclassiques ;

→ Instabilité : nécessité de la compléter avec des techniques detype forêts aléatoires.

35 / 37

Bibliographie

J.P. Baudry.Sélection de modèle pour la classification non supervisée. Choix du nombre declasses.PhD thesis, Univ. Paris Sud XI, 2009.

L. Breiman, J. Friedman, R. A. Olshen, and C. J. Stone.Classification and Regression Trees.Chapman and Hall, 1984.

Servane Gey and Elodie Nedelec.Model selection for cart regression trees.IEEE Transactions on Information Theory, 51(2) :658–670, 2005.

Hemant Ishwaran and Udaya B. Kogalur.Consistency of random survival forests.Statistics and Probability Letters, 80(13-14) :1056–1064, 2010.

Annette M. Molinaro, Sandrine Dudoit, and Mark J. van der Laan.Tree-based multivariate regression and density estimation with right-censored data.JMVA, 90(1) :154–177, 2004.

36 / 37

Nicolai Meinshausen.Quantile regression forests.Journal of Machine Learning Research, 7 :983–999, 2006.

Nicolai Meinshausen.Forest garrote.Electronic Journal of Statistics, 3 :1288–1304, 2009.

X. Milhaud, V. Maume-Deschamps, and S. Loisel.Surrender triggers in life insurance : what main features affect the surrender behaviorin a classical economic context ?Bulletin Français d’Actuariat, 22 :5–48, 2011.

Walter Olbricht.Tree-based methods : a useful tool for life insurance.European Actuarial Journal, 2(1) :129–147, 2012.

37 / 37

Data & Analytics

Xavier Milaud - Techniques d'arbres de classification et de régression