77
REPUBLIQUE DU CAMEROUN REPUBLIC OF CAMEROON MINISTERE DE LENSEIGNEMENT SUPERIEUR MINISTRY OF HIGHER EDUCATION UNIVERSITE DES MONTAGNES UNIVERSITE DES MONTAGNES FACULTE DES SCIENCES ET DE TECHNOLOGIE FACULTY OF SCIENCES AND TECHNLOGY Thème Méthodes d’apprentissage statistique appliquées à la tarification non-vie : Tarification Automobile Présenté par : FOTIA SANTSA Raïssa Paulette En vue de l’obtention du Master professionel en Mathématiques et Informatique pour la Finance et l’Assurance Option : Actuariat Encadreur académique : Encadreur professionnel : Pr FONO Louis Aimé M. Eric MANIABLE Maître de Conférences Actuaire Année universitaire 2017/2018

Thème - maison-actuaires-cameroun.commaison-actuaires-cameroun.com/memoire/Tarification... · Pays %duCA Tauxdechargement S/P Ratiocombiné Bénin 31,0% 51,0% 51,1% 102,1% BurkinaFaso

  • Upload
    others

  • View
    5

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Thème - maison-actuaires-cameroun.commaison-actuaires-cameroun.com/memoire/Tarification... · Pays %duCA Tauxdechargement S/P Ratiocombiné Bénin 31,0% 51,0% 51,1% 102,1% BurkinaFaso

REPUBLIQUE DU CAMEROUN REPUBLIC OF CAMEROONMINISTERE DE LENSEIGNEMENT SUPERIEUR MINISTRY OF HIGHER EDUCATION

UNIVERSITE DES MONTAGNES UNIVERSITE DES MONTAGNESFACULTE DES SCIENCES ET DE TECHNOLOGIE FACULTY OF SCIENCES AND TECHNLOGY

Thème

Méthodes d’apprentissage statistique appliquées à latarification non-vie : Tarification Automobile

Présenté par :FOTIA SANTSA Raïssa Paulette

En vue de l’obtention du Master professionel en Mathématiques et Informatiquepour la Finance et l’Assurance

Option : Actuariat

Encadreur académique : Encadreur professionnel :

Pr FONO Louis Aimé M. Eric MANIABLEMaître de Conférences Actuaire

Année universitaire 2017/2018

Page 2: Thème - maison-actuaires-cameroun.commaison-actuaires-cameroun.com/memoire/Tarification... · Pays %duCA Tauxdechargement S/P Ratiocombiné Bénin 31,0% 51,0% 51,1% 102,1% BurkinaFaso

Dedicaces

:

Page 3: Thème - maison-actuaires-cameroun.commaison-actuaires-cameroun.com/memoire/Tarification... · Pays %duCA Tauxdechargement S/P Ratiocombiné Bénin 31,0% 51,0% 51,1% 102,1% BurkinaFaso

Remerciement

Page 4: Thème - maison-actuaires-cameroun.commaison-actuaires-cameroun.com/memoire/Tarification... · Pays %duCA Tauxdechargement S/P Ratiocombiné Bénin 31,0% 51,0% 51,1% 102,1% BurkinaFaso

Résumé

La tarification constitue une préoccupation majeure de l’actuariat. Ce mémoire étudieune méthode statistique(GLM) et trois méthodes d’apprentissage statistique (les arbres declassification et de régression CART, les forêts aléatoires et les réseaux de neurones) et lesappliquent sur les données de plusieurs compagnies d’assurance automobile pour proposerla prime pure. L’enjeu est de proposer une prime adaptée à la nouvelle reglementationde l’assurance automobile en zone CIMA tout en s’assurant de la qualité des resultats àl’aide de ces méthodes.La première partie présente le GLM et trois méthodes d’apprentissage statistique : lesarbres de classification et de régression CART, les forêts aléatoires et les réseaux deneurones. Dans la deuxième partie, nous décrivons les données des portefeuilles et lestraitements appliqués sur ces données. L’implementation des méthodes d’apprentissage apermis d’obtenir une prime comprise dans l’intervalle de confiance du GLM. En majorantla prime pure obtenue par les frais de gestion nous obtenons une prime commerciale prochede celle utilisée depuis 1994 et prenant en compte les changements reglémentaires de 2014.

Mots-clefs : Tarification, modèles linéaires généralisés, apprentissage statistique

Page 5: Thème - maison-actuaires-cameroun.commaison-actuaires-cameroun.com/memoire/Tarification... · Pays %duCA Tauxdechargement S/P Ratiocombiné Bénin 31,0% 51,0% 51,1% 102,1% BurkinaFaso

Abstract

Pricing is a major concern of actuaries. This memory examines a statistical method(GLM) and three machine learning methods (CART classification and regression trees,random forests and neural networks) and applies them to the data of several car insurancecompanies to propose the pure premium. The challenge is to offer a premium adapted tothe new regulation of car insurance in CIMA zone while ensuring the quality of resultsusing these methods.The first part presents the GLM and three machine learning methods : CART classificationand regression trees, random forests and neural networks. In the second part, we describethe data of the portfolios and the treatments applied on these data. The implementationof the learning methods resulted in a premium within the GLM confidence interval. Byincreasing the pure premium obtained by the management fees we obtain a commercialpremium similar to that used since 1994 and taking into account the regulatory changesof 2014.

Keywords : Pricing, generalized linear models, statistical learning

Page 6: Thème - maison-actuaires-cameroun.commaison-actuaires-cameroun.com/memoire/Tarification... · Pays %duCA Tauxdechargement S/P Ratiocombiné Bénin 31,0% 51,0% 51,1% 102,1% BurkinaFaso

Table des matières

Liste des tableaux ii

Table des figures iii

Liste des abréviations iv

Introduction Génerale 1

I Généralités en Assurance Automobile et modèles de tarifi-cation 2

1 Généralités sur l’assurance Automobile 31.1 Généralités sur l’assurance automobile en zone CIMA . . . . . . . . . . . . 4

1.1.1 Etat des lieux, Faiblesses et Standards . . . . . . . . . . . . . . . . 41.1.2 Changements règlementaires . . . . . . . . . . . . . . . . . . . . . . 5

1.2 Généralités sur l’assurance automobile au Cameroun . . . . . . . . . . . . 71.2.1 Arsenal Juridique,evolution du parc automobile et chiffre de l’assu-

rance automobile . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71.2.2 Indicateur de l’assurance automobile au Cameroun . . . . . . . . . 8

2 Modèles de tarification en assurance automobile 132.1 Motivation du coût et la fréquence sinistre pour la tarification automobile . 132.2 Modèle linéaire généralisé (GLM) . . . . . . . . . . . . . . . . . . . . . . . 15

2.2.1 Description du modèle . . . . . . . . . . . . . . . . . . . . . . . . . 152.2.2 Estimation des paramètres . . . . . . . . . . . . . . . . . . . . . . . 162.2.3 Qualité d’ajustement , intervalle de confiance et limites de ce modèle 17

2.3 Modèle d’apprentissage statistiques . . . . . . . . . . . . . . . . . . . . . . 192.3.1 Arbres de décision . . . . . . . . . . . . . . . . . . . . . . . . . . . 202.3.2 Random Forest . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 232.3.3 Réseaux de Neurones . . . . . . . . . . . . . . . . . . . . . . . . . . 27

i

Page 7: Thème - maison-actuaires-cameroun.commaison-actuaires-cameroun.com/memoire/Tarification... · Pays %duCA Tauxdechargement S/P Ratiocombiné Bénin 31,0% 51,0% 51,1% 102,1% BurkinaFaso

II Mise en œuvre des modèles GLM et de machine Learning 30

3 Etude du modèle GLM 313.1 Présentation et Traitement de données . . . . . . . . . . . . . . . . . . . . 31

3.1.1 Présentation données . . . . . . . . . . . . . . . . . . . . . . . . . . 313.1.2 Traitement de données . . . . . . . . . . . . . . . . . . . . . . . . . 33

3.2 Statistiques descriptives et Sélection des variables . . . . . . . . . . . . . . 373.2.1 Analyse descriptive des données . . . . . . . . . . . . . . . . . . . . 373.2.2 Sélection des variables . . . . . . . . . . . . . . . . . . . . . . . . . 40

3.3 Application de la tarification et résultats . . . . . . . . . . . . . . . . . . . 413.3.1 Choix de la distribution des modèles . . . . . . . . . . . . . . . . . 413.3.2 Application du GLM au portefeuille . . . . . . . . . . . . . . . . . . 433.3.3 RESULTATS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 433.3.4 Validation des modèles . . . . . . . . . . . . . . . . . . . . . . . . . 44

4 Application des méthodes de machine Learning pour la tarification au-tomobile 464.1 Application du modèle CART . . . . . . . . . . . . . . . . . . . . . . . . . 46

4.1.1 Estimation de la fréquence par CART . . . . . . . . . . . . . . . . . 464.1.2 Estimation du coût moyen . . . . . . . . . . . . . . . . . . . . . . . 50

4.2 Application du Random Forest . . . . . . . . . . . . . . . . . . . . . . . . 524.2.1 Estimation de la fréquence de sinistre par Random Forest . . . . . . 52

4.3 Application des réseaux de neurones . . . . . . . . . . . . . . . . . . . . . . 534.3.1 Fréquence de sinistre . . . . . . . . . . . . . . . . . . . . . . . . . . 54

4.4 Analyse comparative des résultats des modèles . . . . . . . . . . . . . . . . 56

Conclusion générale 58

Bibliographie 58

Annexe 60

ii

Page 8: Thème - maison-actuaires-cameroun.commaison-actuaires-cameroun.com/memoire/Tarification... · Pays %duCA Tauxdechargement S/P Ratiocombiné Bénin 31,0% 51,0% 51,1% 102,1% BurkinaFaso

Liste des tableaux

1.1 Etat des lieux de l’assurance automobile dans la zone CIMA ; Source :FANAF 2017[9] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5

2.1 Fonctions de liens . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 162.2 Estimation des paramètres d’une loi de bernoulli B(p) . . . . . . . . . . . . 172.3 Estimation des paramètres d’une loi de poisson P(λ) . . . . . . . . . . . . 172.4 Estimation des paramètres d’une loi de normale N(µ, σ) . . . . . . . . . . . 172.5 Estimation des paramètres d’une loi de gamma Gam(v, µ

v) . . . . . . . . . 17

3.1 Coefficients estimés par la méthode de ChainLadder . . . . . . . . . . . . . 363.2 Coefficients estimés le tail facteur . . . . . . . . . . . . . . . . . . . . . . . 363.3 Variables explicatives sélectionnées . . . . . . . . . . . . . . . . . . . . . . 413.4 Déviance pour les véhicules de catégorie 1 et de la zone A . . . . . . . . . . 45

4.1 Resultat du CART sur trois catégories . . . . . . . . . . . . . . . . . . . . 524.2 Resultat du Random Forest sur trois catégories . . . . . . . . . . . . . . . 534.3 Résultats des 3 catégories sur les réseaux de neurones . . . . . . . . . . . . 554.4 Prime commerciale des véhicules de catégorie 1 . . . . . . . . . . . . . . . 564.5 Prime commerciale des véhicules de catégorie 2 . . . . . . . . . . . . . . . 564.6 Prime commerciale des véhicules de catégorie 3 . . . . . . . . . . . . . . . 564.7 MSE des différents modèles pour le segment 1 ;Source=auteur . . . . . . . 57

iii

Page 9: Thème - maison-actuaires-cameroun.commaison-actuaires-cameroun.com/memoire/Tarification... · Pays %duCA Tauxdechargement S/P Ratiocombiné Bénin 31,0% 51,0% 51,1% 102,1% BurkinaFaso

Table des figures

1.1 Évolution du parc automobile entre 2006 et 2016 ; Source :Auteur . . . . . 81.2 Rentabilité RC Auto Cameroun . . . . . . . . . . . . . . . . . . . . . . . . 91.3 Combined Ratio branche Auto Cameroun . . . . . . . . . . . . . . . . . . . 91.4 S/P branche RC Auto Cameroun . . . . . . . . . . . . . . . . . . . . . . . 101.5 chargement de gestion RC Auto Cameroun . . . . . . . . . . . . . . . . . . 11

2.1 À gauche : un arbre de classification permettant de prédire le label corres-pondant à un x donné. À droite : la partition associée dans l’espace desvariables explicatives . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20

2.2 Schéma général des forêts aléatoires . . . . . . . . . . . . . . . . . . . . . . 242.3 Schéma du Bagging avec pour règle de base un arbre CART . . . . . . . . 252.4 Schéma des forêts aléatoires RF-RI . . . . . . . . . . . . . . . . . . . . . . 262.5 Caractéristiques d’un Neurone . . . . . . . . . . . . . . . . . . . . . . . . . 27

3.1 réglements non cumulés . . . . . . . . . . . . . . . . . . . . . . . . . . . . 353.2 Coefficients brutes et coefficient extrapolés . . . . . . . . . . . . . . . . . . 363.3 Véhicule assuré par zone géographique . . . . . . . . . . . . . . . . . . . . 373.4 Sinistre par zone géographique . . . . . . . . . . . . . . . . . . . . . . . . . 383.5 Coût moyen par zone géographique . . . . . . . . . . . . . . . . . . . . . . 383.6 véhicule assuré par catégorie . . . . . . . . . . . . . . . . . . . . . . . . . . 393.7 Proportion de sinistre par source d’énergie . . . . . . . . . . . . . . . . . . 393.8 Coût moyen par source d’energie . . . . . . . . . . . . . . . . . . . . . . . 403.9 coût moyen ultime en fonction du nombre de place assises . . . . . . . . . 403.10 Nombre sinistre . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42

4.1 arbre maximal fréquence sinistre ; Source=auteur . . . . . . . . . . . . . . 474.2 cp en fonction du nombre de feuilles ;Source=auteur . . . . . . . . . . . . . 484.3 arbre optimal de la fréquence de sinistre ;Source=auteur . . . . . . . . . . . 494.4 arbre maximal coût moyen,Source=auteur . . . . . . . . . . . . . . . . . . 504.5 paramètre de complexité coût moyen,Source=auteur . . . . . . . . . . . . . 514.6 Arbre élagué coût moyen,Source=auteur . . . . . . . . . . . . . . . . . . . 51

iv

Page 10: Thème - maison-actuaires-cameroun.commaison-actuaires-cameroun.com/memoire/Tarification... · Pays %duCA Tauxdechargement S/P Ratiocombiné Bénin 31,0% 51,0% 51,1% 102,1% BurkinaFaso

4.7 Variation de l’erreur en fonction du nombre d’arbres pour la fré-quence ;Source=auteur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52

4.8 Variation de l’erreur en fonction du nombre d’arbres pour le coût moyen . 534.9 Réseau de neurones optimal ;Source=auteur . . . . . . . . . . . . . . . . . 544.10 Réseau de neurones optimal ;Source=auteur . . . . . . . . . . . . . . . . . 55

v

Page 11: Thème - maison-actuaires-cameroun.commaison-actuaires-cameroun.com/memoire/Tarification... · Pays %duCA Tauxdechargement S/P Ratiocombiné Bénin 31,0% 51,0% 51,1% 102,1% BurkinaFaso

Liste des abréviations

CA : Chiffre d’Affaire

MS : Marge de solvabilité

TC : Taux de Chargement

RC : Responsabilité Civile

CART : Classification And Regression Tree

SVM : Support Vector Machine

FANAF : Fédération des Sociétés d’Assurance de Droit National Africain

ASAC : Association des Sociétés d’Assurance du Cameroun

CIMA : Conférence Interafricaine des Marchés d’Assurance

GLM : Generalized Linear Models .

vi

Page 12: Thème - maison-actuaires-cameroun.commaison-actuaires-cameroun.com/memoire/Tarification... · Pays %duCA Tauxdechargement S/P Ratiocombiné Bénin 31,0% 51,0% 51,1% 102,1% BurkinaFaso

Introduction Générale

Comme dans un grand nombre de pays, l’assurance responsabilité civile automobileest obligatoire. Au Cameroun, elle constitue l’une des principales branches d’assurance(20%) et la détermination des tarifs de cette branche est très importante pour le marchéde l’assurance surtout avec les nouveaux changements règlementaires et l’augmentationdu SMIG. L’assurance automobile (Responsabilité Automobile), comme tous les autrestypes d’assurance dommage est basée sur le principe de la mutualité qui consiste à ras-sembler des risques similaires et le moins corrélés possible et à redistribuer sur chaqueindividu une part du risque agrégé, il permet de réduire voire éliminer le risque total dugroupe, et donc efficace économiquement. L’ensemble des primes payées par les assurés dela branche RC auto d’une société donnée servira donc à couvrir l’ensemble des sinistres.La particularité de cette branche est la prise en compte des caractéristiques du véhiculeet de l’assuré et par conséquent l’assuré peut avoir une grande influence sur la sinistralitéde par son comportement et l’état de son véhicule. L’objectif de ce travail, est d’étudierles méthodes statistiques et d’apprentissage afin d’analyser et implémenter les donnéeset méthodes pour évaluer une prime actualisée prenant en compte les changements rè-glementaires et adaptés à notre environnement. Pour ce faire le travail est subdivisé endeux parties de deux chapitres chacun. Dans le chapitre 1 nous présenterons les généra-lités sur l’assurance automobile en zone CIMA et au Cameroun. Le chapitre 2 nous sertà présenter les méthodes GLM et d’apprentissage statistique. Le chapitre 3 présente lesdonnées et application du GLM et enfin dans le chapitre 4 nous appliquons les méthodesd’apprentissage statistique. Nous terminons par de remarques finales qui présentent lesprimes obtenues ainsi que quelques perspectives.

1

Page 13: Thème - maison-actuaires-cameroun.commaison-actuaires-cameroun.com/memoire/Tarification... · Pays %duCA Tauxdechargement S/P Ratiocombiné Bénin 31,0% 51,0% 51,1% 102,1% BurkinaFaso

Première partie

Généralités en AssuranceAutomobile et modèles de

tarification

2

Page 14: Thème - maison-actuaires-cameroun.commaison-actuaires-cameroun.com/memoire/Tarification... · Pays %duCA Tauxdechargement S/P Ratiocombiné Bénin 31,0% 51,0% 51,1% 102,1% BurkinaFaso

Chapitre 1

Généralités sur l’assuranceAutomobile

L’assurance, aujourd’hui, est devenue un bien de consommation courante, voire de pre-mière nécessité. Il suffit de recenser les assurances dont dispose une famille dans sa vie quo-tidienne : assurance auto, habitation, santé, pour les plus fréquentes, auxquelles viennents’ajouter les assurances vie. Faisant de plus en plus partie des moeurs, l’assurance accom-pagne les agents économiques dans leur projet.

Le marché de l’assurance en Afrique se porte mieux depuis des décennies et connait unveritable boom bien que le niveau reste faible. Il répresente 1,4% du marché vie et nonvie du marché mondial de l’assurance(source SIGMA).

Selon le magazine de l’ASAC (Association des Sociétés d’Assurances du Cameroun)n0042 de Décembre 2017 l’assurance automobile qui est le pôle de controverse a connuune croissance remarquable aussi bien dans le domaine de la production que du règlementdes sinistres (soit une hausse de 11,1%). Ce regain de santé de l’assurance automobilebien que perceptible au Cameroun et dans toute la zone FANAF (Fédération des Sociétésd’Assurance de Droit National Africaines) laisse tout de même apparaître quelques diffi-cultés qui paralysent son essor véritable à cause de l’environnement poreux dans lequel ilévolue.

L’objectif de ce chapitre est de présenter l’environnement juridique et économique dusecteur de l’assurance automobile.

3

Page 15: Thème - maison-actuaires-cameroun.commaison-actuaires-cameroun.com/memoire/Tarification... · Pays %duCA Tauxdechargement S/P Ratiocombiné Bénin 31,0% 51,0% 51,1% 102,1% BurkinaFaso

1.1. GÉNÉRALITÉS SUR L’ASSURANCE AUTOMOBILE EN ZONE CIMA

1.1 Généralités sur l’assurance automobile en zoneCIMA

En Afrique sub-saharienne francophone, l’idée d’harmoniser la gestion des sociétésd’assurance a conduit le 10 juillet 1992, à la signature du Traité instituant une organisa-tion intégrée de l’industrie des assurances dans les États africains, dénommée ConférenceInterafricaine des Marchés d’Assurances (CIMA). Ce Traité est conclu par les gouverne-ments de 14 pays, Bénin, Burkina Faso, Cameroun, Centrafrique, Congo Brazzaville, Côted’Ivoire, Gabon, Guinée Équatoriale, Mali, Niger, Sénégal, Tchad et Togo et est entré envigueur en 1995. La Guinée Bissau, pays non francophone, y adhère en 2002.

1.1.1 Etat des lieux, Faiblesses et Standards

En zone CIMA, l’assurance maladie et l’assurance automobile ont constitué les prin-cipaux moteurs de croissance au cours des 10 dernières années. Ces deux branches consti-tuent presque 60% du chiffre d’affaires de la zone et enregistrent une croissance moyenneà long terme de plus de 8%.

L’assurance automobile est une branche qui nuit le plus à l’image de l’assurance enzone CIMA à cause de la mauvaise gestion de celle-ci par les assureurs. Les différentesfaiblesses sont :

— Des milliers de victimes corporelles sont en attente d’indemnisation dont certainesdepuis plusieurs années ;

— Les victimes en dommages matériels ne savent plus à quel saint se vouer comptetenu du mauvais fonctionnement du système de recours Inter-compagnies dans laplupart des pays ;

— Des entorses aux règles élémentaires de gestion des sinistres (absence d’offres, ba-rème d’indemnisation revu à la baisse, paiement fractionné,...) ;

— Mauvaise foi dans l’application des conventions d’indemnisation et dans le paiementdes recours ;

— Sous tarification et présence des contrats fictifs bénéficiant des réductions en dehorsdes fourchettes.

En plus de ces faiblesses, nous présentons et analysons les standards appliqués enassurance automobile dans les 14 pays de la zone CIMA en 2015 dans le tableau ci dessous.Nous definissons les 4 notions qui nous permettrons de mieux comprendre le tableau.

— Le chiffre d’affaires représente le montant des affaires (hors taxes) réalisées parl’entreprise avec les tiers dans l’exercice de son activité professionnelle ;

— S/P c’est le rapport entre la charge sinistre sur les primes acquises.

FOTIA SANTSA Raïssa Paulette 4 Tarification Automobile

Page 16: Thème - maison-actuaires-cameroun.commaison-actuaires-cameroun.com/memoire/Tarification... · Pays %duCA Tauxdechargement S/P Ratiocombiné Bénin 31,0% 51,0% 51,1% 102,1% BurkinaFaso

1.1. GÉNÉRALITÉS SUR L’ASSURANCE AUTOMOBILE EN ZONE CIMA

— Le Combined Ratio est le rapport entre les charges (charges de sinistres, commis-sions, frais généraux) et les ressources (primes acquises, augmentées des produitsfinanciers).

Pays %du CA Taux de chargement S/P Ratio combinéBénin 31,0% 51,0% 51,1% 102,1%Burkina Faso 30,0% 44,5% 42,9% 87,4%Cameroun 25,0% 53,2% 45,2% 98,4%Centrafrique 55,0% 46,4% 38,2% 84,7%Congo Brazzaville 17,0% 55,5% 58,7% 144,2%Gabon 24,0% 40,2% 37,9% 78,1%Guinée Équatoriale 23,0% 56,3% 231,2% 287,5%Mali 33,0% 51,1% 30,7% 81,8%Niger 45,0% 49,1% 43,6% 92,7%Sénégal 26,0% 46,1% 36,9% 83%Tchad 27,0% 37,8% 50,9% 88,7%Togo 22,0% 52,2% 55,9% 108,1%

Table 1.1 – Etat des lieux de l’assurance automobile dans la zone CIMA ; Source :FANAF 2017[9]

Nous constatons que la Centrafrique, le Niger et le Mali sont les 3 premiers pays dela CIMA dont le poids de la branche Automobile est le plus lourd dans leur marchéd’assurance respectif. Nous ressortons l’information selon laquelle tous les pays de la CIMAont des taux de chargement supérieur à celui généralement admis par la réglementationCIMA (28%). A l’exception de la Guinée Équatoriale qui a un S/P supérieur à 60%, lesautres pays ont une bonne sinistralité. Lorsqu’on observe les diffèrents S/P nous pourronsa priori dire que la branche Automobile se porte bien dans la zone CIMA à l’exceptionde la Guinée Équatoriale qui possède un mauvais S/P (supérieure à 60%) et un mauvaisCombined Radio (supérieure à 100%).

1.1.2 Changements règlementaires

La sous section suivante présente le nouvel arsenal juridique qui regule le secteur.Les nouvelles dispositions réglementaires du Chapitre IV(INDEMNISATION DES VIC-TIMES), portent sur les Section III (Procédure d’offre), Section V (Recours des tierspayeur), Section VII (Modalités d’indemnisation des préjudices subis par la victime di-recte) et Section VIII (Modalités d’indemnisation des préjudices subis par les ayantsdroit de la victime décédée), et plus précisement les Article 231 à 266 du code CIMA.Ces nouvelles dispositions sont salutaires pour tous les victimes du secteur Automobile dela sous-région. Les règlements des sinistrés se sont vus à la hausse pour chaque préjudice.Nous terminons cette Sous Section en présentant les nouvelles dispositions pour l’incapa-cité temporaire et incapacité permanente.

FOTIA SANTSA Raïssa Paulette 5 Tarification Automobile

Page 17: Thème - maison-actuaires-cameroun.commaison-actuaires-cameroun.com/memoire/Tarification... · Pays %duCA Tauxdechargement S/P Ratiocombiné Bénin 31,0% 51,0% 51,1% 102,1% BurkinaFaso

1.1. GÉNÉRALITÉS SUR L’ASSURANCE AUTOMOBILE EN ZONE CIMA

Incapacité temporaire

La durée de l’incapacité temporaire est fixée par expertise médicale. En cas de pertesde revenus, l’évaluation du préjudice est basée :

— pour les personnes salariées, sur le revenu net (salaires, avantages ou primes denature statutaire) perçu au cours des six mois précédant l’accident ;

— pour les personnes non salariées disposant de revenus, sur les déclarations fiscalesdes deux dernières années précédant l’accident ;

— pour les personnes majeures ne pouvant justifier de revenus, sur le SMIGmensuel[6].

En 2012 le code CIMA stipule que dans les deux premiers cas, l’indemnité mensuelle àverser est plafonnée à trois fois le SMIG annuel. Le SMIG s’entend pour le pays sur leterritoire duquel s’est produit l’accident.

Depuis 2014 le code CIMA stipule que dans les deux premiers cas, l’indemnité mensuelleà verser est plafonnée à six fois le SMIG annuel. Le SMIG s’entend pour le pays sur leterritoire duquel s’est produit l’accident, ou, s’il est plus élevé, pour le pays de l’espaceCIMA où la victime a sa résidence habituelle[7].

Incapacité permanente

En cas d’incapacité permanente, le code CIMA prévoit trois Préjudices à indemniser :— Préjudice physiologique— Préjudice économique— Préjudice moral

En 2012 le code CIMA stipule que pour un Préjudice économique avec un taux d’incapacitépermanente d’au moins 50%, l’indemnité est plafonnée à sept fois le montant du SMIGannuel du pays où s’est produit l’accident. Et en cas de Préjudice moral avec un tauxd’incapacité permanente d’au moins 80%, l’indemnité est fixée à une fois le montant duSMIG annuel du pays où s’est produit l’accident[6].

Depuis 2014 le code CIMA stipule que pour un Préjudice économique avec un tauxd’incapacité permanente d’au moins 50%, l’indemnité est plafonnée à dix fois le montantdu SMIG annuel du pays où s’est produit l’accident, ou, s’il y est plus élevé, du pays del’espace CIMA où la victime a sa résidence habituelle. Et en cas de Préjudice moral avecun taux d’incapacité permanente d’au moins 80%, l’indemnité est fixée à deux fois lemontant du SMIG annuel du pays où s’est produit l’accident, ou, s’il y est plus élevé, dupays de l’espace CIMA où la victime a sa résidence habituelle[7].

FOTIA SANTSA Raïssa Paulette 6 Tarification Automobile

Page 18: Thème - maison-actuaires-cameroun.commaison-actuaires-cameroun.com/memoire/Tarification... · Pays %duCA Tauxdechargement S/P Ratiocombiné Bénin 31,0% 51,0% 51,1% 102,1% BurkinaFaso

1.2. GÉNÉRALITÉS SUR L’ASSURANCE AUTOMOBILE AU CAMEROUN

1.2 Généralités sur l’assurance automobile au Came-roun

L’assurance automobile au Cameroun connait un développement très marginal quicontraste avec un marché assez large de par son potentiel assurable. Le Marché des as-surances au Cameroun est, pour l’instant, loin d’être à la hauteur de son potentiel. Il atoutefois des perspectives prometteuses. L’effort à consacrer sur la réduction des coûtsd’acquisition et de gestion de cette branche et l’élément le plus déterminant.

1.2.1 Arsenal Juridique,evolution du parc automobile et chiffrede l’assurance automobile

Elle fut introduite par la loi n0 65LF9 du 22 mai 1965. C’est une obligation d’assuranceresponsabilité civile pour les dommages matériels et corporels causés par des automobi-listes à des tiers. Ce contrat concerne l’ensemble des véhicules terrestres à moteur ainsique les remorques. Cette obligation d’assurance s’applique même si le véhicule ne circulepas, exemple lorsqu’il est remisé dans un garage. Au-delà de la seule garantie " d’assu-rance au tiers " obligatoire, le contrat peut aussi garantir : les dommages corporels duconducteur, les dommages de collision, les dommages tous accidents, le vol et l’incendiedu véhicule, les bris de glace.

Dans ce qui suit nous présentons le parc automobile au Cameroun entre 2006 et2016.

Le secteur automobile Camerounais est un marché de distribution grâce au port auto-nome de Douala, qui fait du Cameroun l’un des pôles de distribution dans la zone CIMA.C’est un secteur dynamique et en constante progression, le parc automobile du Camerounest l’un des plus importants de la CIMA après la Cote d’Ivoire. Le graphisme ci-aprèsfait ressortir en moyenne l’évolution du parc automobile surtout le volume de véhiculesde tourisme de l’année 2006 à 2016 du portefeuille utilisé.

Le parc automobile connait une expansion remarquable. Ceci s’accompagne d’une aug-mentation de souscription de la responsabilité civile et des garanties complémentaires,mais le taux de souscription ne correspond pas nécessairement au nombre de véhicules encirculation. Cette situation est le fait de la non assurance de certains véhicules notammenten zone campagne et dans les zones enclavées. Ainsi, de nombreux véhicules assurent letransport généralement clandestin des personnes sans être assurés, ceci parfois au su desautorités compétentes. Toute chose qui constitue tout au moins un manque à gagner pour

FOTIA SANTSA Raïssa Paulette 7 Tarification Automobile

Page 19: Thème - maison-actuaires-cameroun.commaison-actuaires-cameroun.com/memoire/Tarification... · Pays %duCA Tauxdechargement S/P Ratiocombiné Bénin 31,0% 51,0% 51,1% 102,1% BurkinaFaso

1.2. GÉNÉRALITÉS SUR L’ASSURANCE AUTOMOBILE AU CAMEROUN

Figure 1.1 – Évolution du parc automobile entre 2006 et 2016 ; Source :Auteur

les compagnies d’assurance.Nous terminons cette Sous Section en présentant les chiffres de ce secteur au Cameroun.

Selon le rapport d’activité de l’ASAC (Association des Société d’Assurance) N0 042Décembre 2017, le marché de l’assurance automobile a enregistré un chiffre d’affaires en2016 de 48,1 milliards FCFA, contre 43,3 milliards FCFA au cours de l’année 2015, soitune hausse de 11,1%. Cette branche continue toujours d’occuper une place prépondé-rante puisqu’elle assure 36,6% de la production totale d’assurance dommage (IARDT).Le montant des primes collectées (RC Auto et Autres risques Auto) en 2016 était de128 842 038 463 milliards FCFA. Les compagnies GMC (Garantie Mutuelle des Cadres)(14,5%), SAAR (14,4%) et AREA (5,9%) dominent le marché de l’assurance automobile(Responsabilité Civile)[4].

1.2.2 Indicateur de l’assurance automobile au Cameroun

La sous section suivante présente 5 indicateurs du secteur au Cameroun.

Rentabilité et Combined Ratio

La rentabilité de cette branche diminue régulièrement depuis 10 ans. Rapportée auchiffre d’affaires (primes acquises), elle était supérieure à 25% il y a 10 ans, et a décrueà quelques pourcents désormais. Pour mieux comprendre notre figure nous allons definirles notions suivantes :

— La rentabilité représente le rapport entre les revenus d’une société et les sommesqu’elle a mobilisées pour les obtenir ;

FOTIA SANTSA Raïssa Paulette 8 Tarification Automobile

Page 20: Thème - maison-actuaires-cameroun.commaison-actuaires-cameroun.com/memoire/Tarification... · Pays %duCA Tauxdechargement S/P Ratiocombiné Bénin 31,0% 51,0% 51,1% 102,1% BurkinaFaso

1.2. GÉNÉRALITÉS SUR L’ASSURANCE AUTOMOBILE AU CAMEROUN

— Marge de Solvabilité c’est une contrainte réglementaire qui détermine le montantminimum des ressources exigées pour la pratique des opérations d’assurance.

Figure 1.2 – Rentabilité RC Auto Cameroun

La rentabilité est négative ces trois dernières années sans les produits financiers. Elle esten moyenne de 15% avant impôts avec les produits financiers. Si les compagnies arriventà contenir la sinistralité et à améliorer les coûts de gestion, la rentabilité pourrait êtrepréservée à un niveau satisfaisant pour leurs actionnaires.

En suivant un autre indicateur, le Combined Ratio, souvent pris comme référence parles analystes financiers, il ressort également que l’activité est de moins en moins rentable.

Figure 1.3 – Combined Ratio branche Auto Cameroun

FOTIA SANTSA Raïssa Paulette 9 Tarification Automobile

Page 21: Thème - maison-actuaires-cameroun.commaison-actuaires-cameroun.com/memoire/Tarification... · Pays %duCA Tauxdechargement S/P Ratiocombiné Bénin 31,0% 51,0% 51,1% 102,1% BurkinaFaso

1.2. GÉNÉRALITÉS SUR L’ASSURANCE AUTOMOBILE AU CAMEROUN

Ce ratio doit être inférieur à 100% : les dépenses sont inférieures aux ressources. Surles 10 années cumulées, le Combined Ratio était plutôt bon (de l’ordre de 94%), mais ilse dégrade, en particulier ces 3 dernières années.

Sinistralité automobile au Cameroun

Sur la base de l’analyse des éléments comptables de toutes les compagnies (y compriscelles ayant été liquidées), sur la période 2006 à 2016 inclus, il en ressort que le risquecontinue d’être rentable, mais moins ces 3 dernières années.

Figure 1.4 – S/P branche RC Auto Cameroun

En y regardant de plus près, la sinistralité s’est effectivement fortement dégradée àpartir de 2014, essentiellement du fait de l’augmentation du SMIG et des modificationsréglementaires (CIMA,. . . ). Mais elle reste très soutenable, étant considérée comme bonnelorsqu’elle est inférieure à 60%.Ce qui plombe la rentabilité de la branche, est la guerre commerciale qui conduit lesassureurs à verser aux apporteurs plus de commissions que le maximum autorisé (17% aulieu de 12%). Et l’organisation de la gestion qui pourrait être optimisée pour ne pas leurcoûter jusqu’à 45% des primes.Cette approche globale suggère déjà que la prime pure ne devrait pas être élevée, et quetoute la négociation pourrait se situer sur la baisse de la rentabilité de la branche et dequi doit en supporter les conséquences : le consommateur ou l’actionnaire.

Coûts de gestion

La CIMA recommande que les coûts de gestion (acquisition et frais généraux) restentinférieurs à 33% des primes. La branche RC automobile est loin de remplir ces objectifs.

FOTIA SANTSA Raïssa Paulette 10 Tarification Automobile

Page 22: Thème - maison-actuaires-cameroun.commaison-actuaires-cameroun.com/memoire/Tarification... · Pays %duCA Tauxdechargement S/P Ratiocombiné Bénin 31,0% 51,0% 51,1% 102,1% BurkinaFaso

1.2. GÉNÉRALITÉS SUR L’ASSURANCE AUTOMOBILE AU CAMEROUN

Même si les frais généraux sont en légère baisse ces 3 dernières années, ils restent très

Figure 1.5 – chargement de gestion RC Auto Cameroun

élevés (57% en moyenne, en cumulant frais de gestion et commissions versées aux appor-teurs externes). Il est à constater également que les commissions sont au-delà des tauxfixés par l’arrêté 0022/MINEFI/DCE/A du 22/01/1999.Il peut être espéré que certaines actions seront de nature à permettre aux assureurs deles conduire à une baisse plus conséquente :

— Accélération des cadences de règlements ;— Mise en place de l’Indemnisation Directe de l’Assuré.

La mauvaise rentabilité connue ces 3 dernières années vient de la non-maîtrise des coûtsd’acquisition et de gestion, et qui ne peut plus être compensée par une bonne sinistralité(inférieure à 40%).

Impact de l’augmentation du SMIG

En cas d’accident Corporel (invalidité temporaire ou permanente) du sinistré, l’assu-reur se doit de calculer une indemnité qui sera fonction de son revenu net (salaires, avan-tages ou primes de nature statutaire). Pour les personnes sinistrées majeures ne pouvantjustifier de revenus, l’assureur utilisera le SMIG (Le Salaire minimum interprofessionnel)mensuel pour évaluer son indemnité. Le SMIG qui était de 28.216 FCFA est désormaispassé à 36270 FCFA au Cameroun, soit une hausse de 28,5%. Cette augmentation a unimpact direct sur la tarification : les primes devraient être plus élevée à cause de l’aug-mentation des coûts des sinistres. De plus le coût des sinistres corporels consécutifs à unaccident de la circulation devrait augmenter d’environ 12% (source Financial Afrik).

FOTIA SANTSA Raïssa Paulette 11 Tarification Automobile

Page 23: Thème - maison-actuaires-cameroun.commaison-actuaires-cameroun.com/memoire/Tarification... · Pays %duCA Tauxdechargement S/P Ratiocombiné Bénin 31,0% 51,0% 51,1% 102,1% BurkinaFaso

1.2. GÉNÉRALITÉS SUR L’ASSURANCE AUTOMOBILE AU CAMEROUN

CONCLUSION

Au terme de ce chapitre où nous avons fait une présentation générale de l’assuranceautomobile dans la zone CIMA et au Cameroun en particulier, nous pouvons dire quemalgré toutes les précautions prises, le Cameroun se démarque de sa branche Automobileces trois dernières années par une forte sinistralité. Toute fois nous pouvons a priori direque cette approche globale suggère déjà que la prime pure ne devrait pas être élevée.

FOTIA SANTSA Raïssa Paulette 12 Tarification Automobile

Page 24: Thème - maison-actuaires-cameroun.commaison-actuaires-cameroun.com/memoire/Tarification... · Pays %duCA Tauxdechargement S/P Ratiocombiné Bénin 31,0% 51,0% 51,1% 102,1% BurkinaFaso

Chapitre 2

Modèles de tarification en assuranceautomobile

L’assurance non –vie regroupe les opérations d’assurance qui n’ont pour objet la viede l’assuré. Elle est donc principalement composée des assurances de choses ou de biens,des assurances de responsabilité et des assurances de personnes. En assurance non-vie, lecoût et la fréquence du sinistre sont rarement connus d’avance.C’est ainsi qu’un modèle collectif de sinistralité d’un portefeuille en assurance non-vie doitpermettre de simuler à la fois la fréquence et le coût de sinistre. L’objet de ce chapitreest de présenter les modèles statistiques permettant de tarifier une assurance automobileà l’aide de la fréquence et le coût du sinistre.

2.1 Motivation du coût et la fréquence sinistre pourla tarification automobile

On définit C un ensemble de contrats du portefeuille que l’on considère qu’ils sont tousidentiques (d’où l’importance du choix des variables tarifaires pour toute segmentationd’un portefeuille).Dans le modèle collectif (composé), la charge sinistre S de C est fonction du nombre desinistre N et des montants Xi de ceux-ci .

Soient S la charge sinistre et N la variable aléatoire à valeur entière représentantle nombre de sinistres affectant C pour une période de temps [0,t]. On considèreX = (Xn)n∈N la suite des variables aléatoires réelles représentant les montants individuelsde sinistre dans l’ordre de survenance.Alors dans le modèle collectif, on a :

S=∑Ni=1Xi

13

Page 25: Thème - maison-actuaires-cameroun.commaison-actuaires-cameroun.com/memoire/Tarification... · Pays %duCA Tauxdechargement S/P Ratiocombiné Bénin 31,0% 51,0% 51,1% 102,1% BurkinaFaso

2.1. MOTIVATION DU COÛT ET LA FRÉQUENCE SINISTRE POUR LATARIFICATION AUTOMOBILE

Pour utiliser facilement ce modèle, deux hypothèses fortes doivent être faites :H1) Indépendance entre la fréquence et le cout des sinistres, c’est dire que les variablealéatoires N et (Xi)i>0 sont supposés indépendants ;H1) Indépendance et stationnarité des montants de sinistres , les(Xi)i>0 sont indépen-dantes et surtout ne varient pas avec l’effet du temps[15]. Ces deux hypothèses conduisentdes observation dont l’une est : en effet, la première hypothèse n’est quand a elle vérifiéque si le portefeuille étudié est homogène, ce qui peut être réalisé en pratique par undécoupage en sous classes homogène du portefeuille d’origine.

Le paragraphe suivant evalue la charge sinistre sous les hypothéses H1) et H2).Proposition :Lorsque les moments de premier ordre de N et X existent, on a :

E(S|N) = N · E(Xi)

Preuve :

E(S|N = n) = E(∑Ni=1 Xi|N = n) = E(∑n

i=1 Xi) = n · E(X i)

Car les Xi sont indépendants et identiquement distribués.D’où E(S|N) = N · E(Xi)La tarification, quel que soit le domaine concerné, consiste à étudier les données du passéavec des méthodes statistiques, puis faire une modélisation mathématique du comporte-ment afin de projeter les coûts futurs.Avec le resultat précédent la méthode consiste à trouver un ensemble de modèles qui nouspermettront de mieux approximer E[N |Y ] et E[Xi|Y ] avec E[N |Y ] représentant l’espe-rance du nombre de sinistre sachant les variables explicatives et E[Xi|Y ] l’esperance ducoût d’un sinistre sachant les variables explicatives[8].

Dans la suite de ce chapitre nous décrirons un ensemble de modèles statistiques (GLM)et d’intelligence artificielle (Arbres de Régressions et de Classifications, Réseau de neu-rones et Random Forest) qui se basent sur les caractéristiques de chaque véhicule, et dessinistres antérieurs, pour évaluer sa prime pure. Les raisons d’utiliser des méthodes aussidifférentes ont été de pouvoir justifier la qualité des résultats dans un environnement despays de la zone CIMA où l’existence et la qualité des données restent un challenge .

FOTIA SANTSA Raïssa Paulette 14 Tarification Automobile

Page 26: Thème - maison-actuaires-cameroun.commaison-actuaires-cameroun.com/memoire/Tarification... · Pays %duCA Tauxdechargement S/P Ratiocombiné Bénin 31,0% 51,0% 51,1% 102,1% BurkinaFaso

2.2. MODÈLE LINÉAIRE GÉNÉRALISÉ (GLM)

2.2 Modèle linéaire généralisé (GLM)

Dans cette sous section nous décrivons le modéle GLM.

2.2.1 Description du modèle

Les modèles linéaires généralisés (Generalized Linear Models, GLM) ont fait leur ap-parition en 1972 (NELDER et WEDDERBURN). Ils sont adaptés à de nombreuses pro-blématiques et sont d’utilisations courantes dans le domaine de la statistique . L’actuariatn’échappe pas à leurs champs d’action, notamment en ce qui concerne la Tarification desrisques de masse.La théorie des GLM bénéficie d’un avantage par rapport aux modèles linéaires : le ca-ractère normal des variables à expliquer n’est plus imposé, seule une appartenance à unefamille exponentielle est indispensable[15].

La loi de la variable aléatoire Y appartient à la famille exponentielle si sa densité peuts’écrire sous la forme :

f(y; Φ, θ) = exp{y·θ−b(θ)Φ + c(y,Φ)},

avec Φ un paramètre canonique, b une fonction définie sur R deux fois dérivable et dederivée première injective et c une fonction définie sur R2. L’espérance et la variance dela variable aléatoire Y s’expriment aisément en fonction de ces différents paramétres :

E(Y ) = b′(θ),V (Y ) = b′′(θ)Φ = b′′(b′−1(E[Y ]))Φ = v(E[Y ])Φ

où v est appelée fonction variance du modèle.Si Y correpond à la variable à expliquer et si le modèle comprend p variables explicativesXi(i=1,...,p) et g la fonction de lien (stritement et dérivable verifie la relation) :

g(E[Y ]) = ∑pi=1 βkxk où les xk

correpondent aux réalisations des variables Xk,et les coefficients de régression(que nousvoulons estimer) sont notés βk. On peut ensuite réécrire l’expression du paramètre cano-nique en fonction des notations utilisées :θi = b′−1(E(Yi)) = b′−1(g−1(∑p

i=1 βkxk))

Le modèle linéaire généralisé se distingue en trois composantes qui sont : la composantealéatoire, la composante déterministe et la fonction de lien[15].

FOTIA SANTSA Raïssa Paulette 15 Tarification Automobile

Page 27: Thème - maison-actuaires-cameroun.commaison-actuaires-cameroun.com/memoire/Tarification... · Pays %duCA Tauxdechargement S/P Ratiocombiné Bénin 31,0% 51,0% 51,1% 102,1% BurkinaFaso

2.2. MODÈLE LINÉAIRE GÉNÉRALISÉ (GLM)

Composante aléatoire

La composante aléatoire dans notre cas est la variable à expliquer dont les densitésappartiennent à la famille exponentielle. Dans notre cas les variables à expliquer seront lenombre de sinistres d’un véhicule et le coût d’un sinistre.

Composante déterministe

C’est l’ensemble des variables explicatives qui nous permettrons de déterminer les va-riables expliquées (nombre de sinistre et coût d’un sinistre). Pour ce travail la composantedéterministe est constituée d’une vingtaine de variables qui seront décrites au chapitresuivant.

La fonction de lien

C’est une fonction de la forme :

g(E[Yi|X]) = β0 + βX1 + βX2 + ...+ βXn

Chacune des lois de probabilités de la famille exponentielle possède une fonction de lienspécifique, dite « canonique ». Le tableau présente des liens classiques. Dans le contexte denotre base de données automobile, nous allons mettre en œuvre la régression de Poissonet nous choisissons la fonction de lien canonique. Nous terminons cette sous-section en

Loi de probabilité Nom de la Fonction Fonction de lien canoniqueNormale Fonction identité g(µ) = µPoisson Fonction logarithme g(µ) = lnµGamma Fonction inverse g(µ) = 1

µ

Binomiale Fonction logit g(µ) = lnµ− ln(1− µ)

Table 2.1 – Fonctions de liens

rappelant l’estimation des paramètres pour le modèle choisi.

2.2.2 Estimation des paramètres

L’estimation des paramétres βk et Φ se fait par la méthode du maximun de vraissem-blance. A cet égard, la vraissemblance d’un n-échantillon de réalisation de Y s’écrit :

L(y1, ..., yn) = ∏ni=1 exp{yi·θ−b(θ)

Φ + c(yi,Φ)}.Les estimateurs de ak et Φ sont obtenus en maximisant la logvraissemblance :

lnL = ∑pi=1{yib′−1[g−1(∑p

i=1 βkxk)]Φ−1 − bb′−1[g−1(∑pi=1 βkxk)]Φ−1 + c(yi,Φ)}

les tableaux suivants donnent les valeurs des différents paramètres pour certaines loisdiscrètes et continues.

FOTIA SANTSA Raïssa Paulette 16 Tarification Automobile

Page 28: Thème - maison-actuaires-cameroun.commaison-actuaires-cameroun.com/memoire/Tarification... · Pays %duCA Tauxdechargement S/P Ratiocombiné Bénin 31,0% 51,0% 51,1% 102,1% BurkinaFaso

2.2. MODÈLE LINÉAIRE GÉNÉRALISÉ (GLM)

Loi de probabilité Pr(Y = y) = exp{y ln p1−p + ln(1− p)}

θ ln( p1−p)

φ 1b(θ) 0E[Y] p

Fonction variance V(p)=p(1-p)

Table 2.2 – Estimation des paramètres d’une loi de bernoulli B(p)

Loi de probabilité Pr(Y = y) = exp{y ln λ− λ+ c(y)}θ ln λφ 1b(θ) exp θE[Y] λ

Fonction variance V (λ) = λ

Table 2.3 – Estimation des paramètres d’une loi de poisson P(λ)

Densité f(y) = exp[(µy − µ2

2 ) 1σ2 + c(y, σ2)]

θ µ

φ σ2

b(θ) θ2

2E[Y] µ

Fonction variance V (µ) = 1

Table 2.4 – Estimation des paramètres d’une loi de normale N(µ, σ)

Densité f(y) = exp[−( yµ

+ lnµ) + c(y, v)]θ −1

µ

φ 1v

b(θ) ln −1θ

E[Y] µ

Fonction variance V (µ) = µ2

Table 2.5 – Estimation des paramètres d’une loi de gamma Gam(v, µv)

2.2.3 Qualité d’ajustement , intervalle de confiance et limites dece modèle

Il s’agit d’évaluer la qualité d’ajustement du modèle sur la base des différences entreobservations et estimations. Plusieurs critères sont proposés.

Déviance

Le modèle estimé est comparé avec le modèle dit saturé, c’est-à-dire le modèle possé-dant autant de paramètres que d’observations et estimant donc exactement les données.Cette comparaison est basée sur l’expression de la déviance D des log-vraisemblances L

FOTIA SANTSA Raïssa Paulette 17 Tarification Automobile

Page 29: Thème - maison-actuaires-cameroun.commaison-actuaires-cameroun.com/memoire/Tarification... · Pays %duCA Tauxdechargement S/P Ratiocombiné Bénin 31,0% 51,0% 51,1% 102,1% BurkinaFaso

2.2. MODÈLE LINÉAIRE GÉNÉRALISÉ (GLM)

et Lsat :

D = 2(L− Lsat)

qui est le logarithme du carré du rapport des vraisemblances. Ce rapport remplace ougénéralise l’usage des sommes de carrés propres au cas gaussien et donc à l’estimation parmoindres carrés.On montre qu’asymptotiquement, D suit une loi du χ2 à n-p degrés de liberté ce quipermet de construire un test de rejet ou d’acceptation du modèle selon que la dévianceest jugée significativement ou non importante. Attention, l’approximation de la loi duχ2 peut être douteuse.Cet indicateur global est en pratique complété par une analyseobservation par observation ; cette analyse se base souvent sur l’analyse des résidus[2].

L’analyse des résidus

La déviance fournit des indications globales sur la qualité du modèle. L’analyse desrésidus est éssentielle pour vérifier l’adéquation des modèles en ce qui concerne le choixde la fonction de variance, de la fonction de lien ou des termes du prédicteur linéaire. Lesrésidus permettent également de déterminer la présence des valeurs aberrantes.Le résidu de déviance

rpi = √wi yi−µi√V (µi)

On peut noter que la somme des carrés des résidus est dans ce cas, asymptotiquement,un Khi2 à n – p – 1 degrés de liberté.

Intervalle de confiance des estimateurs des paramètres du GLM

La détermination d’intervalle de confiance pour les paramètres βk,(k allant de 1 à n)est important dans le calcul de la prime pure. Il permet d’apprécier la marge d’erreurentre les valeurs observées et les valeurs estimées pour un niveau de seuil donné.Plusieurs méthodes sont disponibles pour ces intervalles de confiance entre autres nousavons la méthode du rapport de vraisemblance et la méthode de Wald. Mais nous uti-liserons la méthode de Wald qui est la méthode utilisée par défaut par le logiciel R. Icinous utiliserons l’approximation normale des coefficients β ∼ N(β, I−1) afin d’obtenir unintervalle de confiance au niveau 1-α pour βk donné. On a donc pour un βk trouvé

IC = [βk ± µα2

√I−1]

I étant la matrice d’information de Fisher.

FOTIA SANTSA Raïssa Paulette 18 Tarification Automobile

Page 30: Thème - maison-actuaires-cameroun.commaison-actuaires-cameroun.com/memoire/Tarification... · Pays %duCA Tauxdechargement S/P Ratiocombiné Bénin 31,0% 51,0% 51,1% 102,1% BurkinaFaso

2.3. MODÈLE D’APPRENTISSAGE STATISTIQUES

Remarque : Variable offset

Lorsque la variable à expliquer dans le cas d’un modèle linéaire généralisé dépendégalement linéairement d’une autre variable,cette dernière est déclarée offset. Exemple,pour modéliser le nombre de sinistres déclarés par catégorie de conducteurs, la variableexposition est déclarée offset.

Limites du GLM

Le modèle GLM est dit paramétrique, en effet il nécessite de préciser une loi pour lavariable d’intérêt. Le modèle est de plus linéaire et donc l’impact des variables explicativeségalement. La litterature propose les modèles additifs généralisés (GAM). Les modèlessont parfois longs à s’exécuter et l’on ne peut se permettre de tester toutes les interactionsenvisageables pour conserver le meilleur modèle.Pour toutes ces raisons, nous étudions dans la suite de chapitre des nouvelles méthodesnon paramétriques.

2.3 Modèle d’apprentissage statistiques

Il existe de nombreuses méthodes d’apprentissage statistique : les arbres de décision, lesréseaux de neurones, Random Forest, etc. Si leurs fondements mathématiques, hypothèseset algorithmes de calculs sont tous très différents, leur objectif commun est de prédire lesvaleurs d’une variable ciblée sur un ensemble d’observations à partir de variables ditesexplicatives, ou à défaut de classer ces dernières. Pour la mise en oeuvre de ces methodes,nous subdivisons l’échantillon en deux parties[16]

Échantillon d’apprentissage (constitué de 80% des données)

c’est l’échantillon principal où sont appliquées les méthodes, sur lequel les algorithmesapprennent. Il sert à ajuster le modèle.

Échantillon de test (constitué 20% des données)

Utilisé pour tester l’adéquation du modèle optimal. Cet échantillon permet d’évaluerobjectivement l’erreur réelle.

FOTIA SANTSA Raïssa Paulette 19 Tarification Automobile

Page 31: Thème - maison-actuaires-cameroun.commaison-actuaires-cameroun.com/memoire/Tarification... · Pays %duCA Tauxdechargement S/P Ratiocombiné Bénin 31,0% 51,0% 51,1% 102,1% BurkinaFaso

2.3. MODÈLE D’APPRENTISSAGE STATISTIQUES

2.3.1 Arbres de décision

L’acronyme CART(Classification And Regression Trees) désigne une méthode statis-tique, introduite par Breiman et al. (1984) qui construit des prédicteurs par arbre aussibien en régression qu’en classification. Le principe général de CART est de partitionnerrécursivement l’espace d’entrée X de façon binaire, puis de déterminer une sous-partitionoptimale pour la prédiction. Bâtir un arbre CART se fait en deux étapes. Une premièrephase est la construction d’un arbre maximal, qui permet de définir la famille de modèlesà l’intérieur de laquelle on cherchera à sélectionner le meilleur, et une seconde phase, dite

Figure 2.1 – À gauche : un arbre de classification permettant de prédire le label cor-respondant à un x donné. À droite : la partition associée dans l’espace des variablesexplicatives

d’élagage, qui construit une suite de sous-arbres optimaux élagués de l’arbre maximal.Détaillons chacune de ces étapes

Construction d’un arbre binaire maximal

PrincipeA chaque pas du partitionnement, on découpe une partie de l’espace en deux sous-parties.associant ainsi un arbre binaire à la partition construite. Les nœuds de l’arbre sont associésaux éléments de la partition. Par exemple, la racine de l’arbre est associé à l’espaced’entrée tout entier. Ses deux nœuds fils sont associés aux deux sous-parties obtenues parla première découpe du partitionnement, et ainsi de suite. La figure ci-dessus illustre bienla correspondance entre un arbre binaire et la partition associée [10].Critère de divisionDétaillons maintenant la règle de découpe. L’espace d’entrée est alors Rp, où p est lenombre de variables explicatives. Partons de la racine de l’arbre (associée à Rp tout entier),qui contient toutes les observations de l’échantillon d’apprentissage Ln. La première étapede CART consiste à découper au mieux cette racine en deux nœuds fils. Nous appelons

FOTIA SANTSA Raïssa Paulette 20 Tarification Automobile

Page 32: Thème - maison-actuaires-cameroun.commaison-actuaires-cameroun.com/memoire/Tarification... · Pays %duCA Tauxdechargement S/P Ratiocombiné Bénin 31,0% 51,0% 51,1% 102,1% BurkinaFaso

2.3. MODÈLE D’APPRENTISSAGE STATISTIQUES

coupure (ou découpe ou même split) un élément de la forme

{Xj ≤ d} ∪ {Xj ≥ d}

où j ∈ { 1,...,p} et d ∈ R,signifie que toutes les observations avec une valeur de la j-ièmevariable plus petite que d vont dans le nœud fils de gauche, et toutes celles avec unevaleur plus grande que d vont dans le nœud fils de droite. La méthode sélectionne alors lameilleure découpe c’est-à-dire, le couple (j,d)qui minimise une certaine fonction de coûtEn régression, on cherche à minimiser la variance intra-groupes résultant de la découped’un nœud t en 2 nœuds fils tL et tR. La variance d’un nœud t étant définie par V (t) =1

#t∑i=1:xi(yi − yt)2 où yt est la moyenne des yi des observations présentes dans le nœud

t,#t est la somme des observations présentes dans le nœud t et l’on est donc conduit àminimiser

1n

∑(xi,yi)∈tL(yi − ytL)2 + 1

n

∑(xi,yi)∈tR(yi − ytR)2 = #tL

nV (tL) + #tR

nV (tR)

Mentionnons que dans le cas d’une variable explicative Xj catégorielle, la coupure estsimplement un élément de la forme

{Xj ∈ d} ∪ {Xj ∈ d}

où d et d sont non vides et constituent une partition de l’ensemble des modalités de lavariable Xj.Une fois la racine de l’arbre découpée, on se restreint à chacun des nœuds fils et onrecherche alors, suivant le même procédé, la meilleure façon de les découper en deuxnouveaux nœuds, et ainsi de suite. Les arbres sont ainsi développés, jusqu’à atteindre unecondition d’arrêt.Une règle d’arrêt classique consiste à ne pas découper des nœuds qui contiennent moinsd’un certain nombre d’observations. Les nœuds terminaux sont appelés les feuilles del’arbre et l’arbre pleinement développé est appelé Tmax. Dans le même temps, on associe àchaque nœud t de l’arbre une valeur (Y t en régression ou le label de la classe majoritairedes observations présentes dans le nœud t en classification). Donc, à un arbre est associéeune partition (définie par ses feuilles) et également des valeurs qui sont attachées à chaqueélément de cette partition. Le prédicteur par arbre est alors la fonction constante parmorceaux, associée à l’arbre[5].

Élagage de l’arbre optimal

La deuxième étape de l’algorithme CART, s’appelle l’élagage et consiste à chercher lemeilleur sous-arbre élagué de l’arbre maximal (meilleur au sens de l’erreur de généralisa-tion). L’idée est que l’arbre maximal possède une très grande variance et un biais faible.Acontrario, un arbre constitué uniquement de la racine (qui engendre alors un prédicteurconstant) a une très petite variance mais un biais élevé. L’élagage est une procédure de

FOTIA SANTSA Raïssa Paulette 21 Tarification Automobile

Page 33: Thème - maison-actuaires-cameroun.commaison-actuaires-cameroun.com/memoire/Tarification... · Pays %duCA Tauxdechargement S/P Ratiocombiné Bénin 31,0% 51,0% 51,1% 102,1% BurkinaFaso

2.3. MODÈLE D’APPRENTISSAGE STATISTIQUES

sélection de modèles, où les modèles sont les sous-arbres élagués de l’arbre maximal, soittous les sous-arbres binaires de Tmax ayant la même racine que Tmax. Cette procédureminimise un critère pénalisé où la pénalité est proportionnelle au nombre de feuilles del’arbre.

Tous les sous-arbres binaires de Tmax contenant la racine sont des modèles admissibles.Entre Tmax, le modèle de complexité maximale, qui conduit au sur ajustement aux donnéesde l’échantillon d’apprentissage et l’arbre restreint à la racine qui est fortement biaisé, ils’agit de trouver l’arbre optimal parmi les admissibles. En nombre fini, il suffirait donc aumoins en principe, de construire la suite de tous les meilleurs arbres à k feuilles pour 1 ≤k ≤ | Tmax | ,où | T | désigne le nombre de feuilles de l’arbre T, et de les comparer parexemple sur un échantillon test. Mais le nombre de modèles admissibles est exponentield’où une complexité algorithmique explosive. Fort heureusement, une énumération impli-cite et efficace suffit pour atteindre un résultat optimal. Le moyen consiste simplementdans l’algorithme d’élagage qui assure l’extraction d’une suite de sous-arbres emboîtés(c’est-à-dire élagués les uns des autres) T1,...,TK tous élagués de Tmax, où TK minimiseun critère des moindres carrés pénalisé en régression. Cette suite est obtenue de manièreitérative en coupant des branches à chaque étape, ce qui ramène la complexité à un ni-veau très raisonnable. On se restreint sans inconvénient au cas de la régression dans lesquelques lignes qui suivent, la situation étant identique en classification. La clé est depénaliser l’erreur d’ajustement d’un sous-arbre T élagué de Tmax :

err(T ) = 1n

∑{tfeuillesdeT}

∑(xi,yi)(yi − yt)2

par une fonction linéaire du nombre de feuilles |T| conduisant au critère des moindrescarrés pénalisés :

critα(T ) = err(T ) + α(T )

Ainsi err(T ) qui mesure l’ajustement du modèle T aux données, décroît avec le nombrede feuilles alors que | T| qui quantifie la complexité du modèle T, croît avec le nombre defeuilles. Le paramètre α régle la pénalité : plus α est grand, plus les modèles complexesc’est-à-dire comptant beaucoup de feuilles, sont pénalisés.L’algorithme d’élagage est donné ci dessous, où pour tout nœud interne t d’un arbre T,on note Tt la branche de T issue du nœud t (contenant tous les descendants du nœud t)et l’erreur correspondante est donnée par err(T ) = 1

n

∑{xi∈t}(yi − yt)2

Le résultat principal nous montre que la suite T1, ..., TK contient toute l’information sta-tistique utile puisque pour tout α ≥ 0, le sous-arbre minimisant critα est un sous-arbrede la suite produite par l’algorithme d’élagage.

Comme nous le verrons plus bas, les forêts aléatoires sont, la plupart du temps, desforêts d’arbres non élagués. Un arbre CART, s’il est utilisé seul,doit être élagué.

FOTIA SANTSA Raïssa Paulette 22 Tarification Automobile

Page 34: Thème - maison-actuaires-cameroun.commaison-actuaires-cameroun.com/memoire/Tarification... · Pays %duCA Tauxdechargement S/P Ratiocombiné Bénin 31,0% 51,0% 51,1% 102,1% BurkinaFaso

2.3. MODÈLE D’APPRENTISSAGE STATISTIQUES

2.3.2 Random Forest

Afin de reduire la variance des prédicteurs de la méthode CART,Breiman (2001) a proposé d’introduire de l’aléatoire dans le processus de constructionde cet arbre. L’agrégation des arbres aléatoires ainsi obtenus est appelée forêt aléatoire.L’estimation effectuée grâce à la forêt toute entiére et non plus grâce à un seul arbre, estobtenue en calculant la moyenne(régression) ou par majorité des votes (classification)desestimations des différents arbres de la forêt.Intuitivement, si les arbres sont assez distincts, les estimateurs seront suffisammentdifférents pour que leur moyenne permettent de s’affranchir d’aberrations ponctuellesdans les données.DéfinitionSoit (h(., θ1), ..., h(., θn))Une collection de prédicteurs par arbres, avec θ1, ..., θn variables aléatoires i.i.d. indépen-dantes de Ln. Le prédicteur des forêts aléatoires est obtenu est agrégeant cette collectiond’arbres aléatoires de la façon suivante :

régression nous avons la moyenne. hRF (x) = 1q

∑ql=1 h(x, θl)

classification en vote majoritaire parmi les prédictions individuelles des arbres.hRF (x) = argmax︸ ︷︷ ︸

1≤k≤K

∑ql=11h(x,θl)

Cette définition est illustrée par le schéma de la Figure ci dessous.

FOTIA SANTSA Raïssa Paulette 23 Tarification Automobile

Page 35: Thème - maison-actuaires-cameroun.commaison-actuaires-cameroun.com/memoire/Tarification... · Pays %duCA Tauxdechargement S/P Ratiocombiné Bénin 31,0% 51,0% 51,1% 102,1% BurkinaFaso

2.3. MODÈLE D’APPRENTISSAGE STATISTIQUES

Figure 2.2 – Schéma général des forêts aléatoires

Le terme forêt aléatoire vient du fait que les prédicteurs individuels sont, ici, explicite-ment des prédicteurs par arbre, et du fait que chaque arbre dépend d’une variable aléatoiresupplémentaire (c’est-à-dire en plus de Ln).

Une forêt aléatoire est l’agrégation d’une collection d’arbres aléatoires. Les forêts aléa-toires font bien partie de la famille des méthodes d’ensemble. Remarquons d’ailleurs que,parmi les méthodes d’ensemble précédemment citées (lorsque l’on choisit comme règle debase un arbre de décision), seul le Boosting ne rentre pas dans la définition de forêts aléa-toires. En effet, les arbres individuels du Boosting ne dépendent pas d’aléas indépendantsles uns des autres. Le Bagging, Randomizing Outputs et Random Subspace sont alorsdes cas particuliers de forêts aléatoires, avec respectivement pour aléa supplémentaire letirage de l’échantillon bootstrap, la modification aléatoire des sorties de Ln et le tiragedes sous-ensembles de variables. En plus de ces trois méthodes, il existe de nombreux casparticuliers de forêts aléatoires dans la littérature.Dans la suite de cette section, nous nous concentrons tout d’abord sur le Bagging quiest central dans l’analyse en évoquant quelques résultats avant de décrire en détails lesRandom Forests-RI et de définir l’erreur OOB qui en est une sortie très utile.

Bagging

L’idée du Bagging, et qu’en appliquant la règle de base sur différents échantillonsbootstrap, on en modifie les prédictions, et donc on construit ainsi une collection variéede prédicteurs. L’étape d’agrégation permet alors d’obtenir un prédicteur performant.

Le mot Bagging est la contraction des mots Bootstrap et Aggregating. Étant donnéun échantillon d’apprentissage Ln et une méthode de prédiction (appelée règle de base),qui construit sur Ln un prédicteur h(., Ln). Le principe du Bagging est de tirer indépen-damment plusieurs échantillons bootstrap (Lθ1

n · · ·Lθqn ), d’appliquer la règle de base surchacun d’eux pour obtenir une collection de prédicteurs (h(., Lθ1

n ), · · · , h(., Lθqn )), et enfin

FOTIA SANTSA Raïssa Paulette 24 Tarification Automobile

Page 36: Thème - maison-actuaires-cameroun.commaison-actuaires-cameroun.com/memoire/Tarification... · Pays %duCA Tauxdechargement S/P Ratiocombiné Bénin 31,0% 51,0% 51,1% 102,1% BurkinaFaso

2.3. MODÈLE D’APPRENTISSAGE STATISTIQUES

d’agréger ces prédicteurs de base.Initialement, le Bagging a été introduit avec comme règle de base un arbre de décision.

Cependant, le schéma est très général et peut-être appliqué à d’autres règles de basecomme par exemple, la règle du plus proche voisin. Le fait d’appliquer la méthode, sur

Figure 2.3 – Schéma du Bagging avec pour règle de base un arbre CART

un échantillon bootstrap permet de prendre en compte les sorties des observations pluséloignées de x (ce qui arrive lorsque les plus proches voisins de x ne sont pas présents dansl’échantillon bootstrap courant). Le plus proche voisin “baggé” met alors un poids surchacune des données de Ln et le prédicteur agrégé est finalement une moyenne pondéréedes Yi de l’échantillon d’apprentissage. Les résultats théoriques nous assurent en fait quela méthode règle automatiquement et de façon optimale ces poids.

Forêts aléatoires à variables d’entrées aléatoires

Random Forests-RI signifie “forêts aléatoires à variables d’entrée aléatoires” (Ran-dom Forests with Random Inputs) et le principe de leur construction est tout d’abord degénérer plusieurs échantillons bootstrap (Lθ1

n · · ·Lθqn )(comme dans le Bagging). Ensuite,sur chaque échantillon Lθ1

n , une variante de CART est appliquée et nous obtenons ainsil’arbre complètement développé (arbre maximal) et non pas élagué. La collection d’arbresobtenus est enfin agrégée (moyenne en régression, vote majoritaire en classification) pourdonner le prédicteur Random Forests-RI.La Figure ci dessous fournit le schéma récapitula-tif de l’algorithme RF-RI, où θ désigne le tirage bootstrap et θ’ désigne le tirage aléatoiredes variables. Ainsi, les Random Forests-RI peuvent être vues comme une variante du

FOTIA SANTSA Raïssa Paulette 25 Tarification Automobile

Page 37: Thème - maison-actuaires-cameroun.commaison-actuaires-cameroun.com/memoire/Tarification... · Pays %duCA Tauxdechargement S/P Ratiocombiné Bénin 31,0% 51,0% 51,1% 102,1% BurkinaFaso

2.3. MODÈLE D’APPRENTISSAGE STATISTIQUES

Figure 2.4 – Schéma des forêts aléatoires RF-RI

Bagging, où la différence intervient dans la construction des arbres individuels (les étapesde bootstrap et d’agrégation étant les mêmes). Le tirage, à chaque nœud, des m variablesse fait, sans remise, et uniformément parmi toutes les variables (chaque variable a unprobabilité 1

pd’être choisie). Le nombre m (m ≤ p) est fixé au début de la construction de

la forêt et est donc identique pour tous les arbres et pour tous les nœuds d’un même arbremais naturellement les m variables impliquées dans deux nœuds distincts sont en généraldifférentes. C’est un paramètre très important de la méthode. Une forêt construite avecm = p revient à faire du Bagging d’arbres CART non élagués.

Erreur OOB

En plus de construire un prédicteur, l’algorithme des Random Forests-RI calcule uneestimation de son erreur de généralisation : l’erreur Out-Of-Bag (OOB) où Out-Of-Bagsignifie en dehors du bootstrap. Cette erreur était déjà calculée par l’algorithme duBagging, d’où la présence du mot “Bag”. Le procédé de calcul de cette erreur est le suivantet il est très astucieusement intriqué dans l’algorithme de construction d’une RF.Fixons une observation (Xi;Yi) de l’échantillon d’apprentissage Ln et considérons l’en-semble des arbres construits sur les échantillons bootstrap ne contenant pas cette obser-vation, c’est-à-dire pour lesquels cette observation est Out-Of-Bag. Nous agrégeons alorsuniquement les prédictions de ces arbres pour fabriquer notre prédiction Yi de Yi. Aprèsavoir fait cette opération pour toutes les données de Ln, nous calculons alors l’erreurcommise :l’erreur quadratique moyenne en régression 1

n

∑ni=1(Yi − Yi)2, et la proportion

d’observations mal classées en classification ( 1n

∑ni=11Yi 6=Yi). Ces quantités sont appelées

FOTIA SANTSA Raïssa Paulette 26 Tarification Automobile

Page 38: Thème - maison-actuaires-cameroun.commaison-actuaires-cameroun.com/memoire/Tarification... · Pays %duCA Tauxdechargement S/P Ratiocombiné Bénin 31,0% 51,0% 51,1% 102,1% BurkinaFaso

2.3. MODÈLE D’APPRENTISSAGE STATISTIQUES

erreur OOB du prédicteur Random Forests-RI.

2.3.3 Réseaux de Neurones

Le réseau de neurones artificiels ou réseau neuronal artificiel est un ensemble d’al-gorithmes dont la conception est à l’origine très schématiquement inspirée du fonction-nement des neurones biologiques, généralement utilisés dans des problèmes de naturestatistique.grâce à leur capacité de classification et de généralisation.

Un neurone unité élémentaire de traitement d’un réseau de neurones, est connectéà des sources d’information en entrée (d’autres neurones par exemple) et renvoie uneinformation en sortie. Voyons comment tout cela s’organise avec la figure suivante :

Figure 2.5 – Caractéristiques d’un Neurone

Les entrées

On note (xi)1≤i≤k les k informations parvenant au neurone. De plus, chacune seraplus ou moins valorisée vis à vis du neurone par le biais d’un poids( coefficient wi lié àl’information xi). La i-ème information qui parviendra au neurone sera donc en fait xi∗wi.Il y a toutefois un poids supplémentaire noté w0 représentant le coefficient de biais. Nousle noterons w0 lié à une information x0 = −1. Nous verrons plus tard son utilité, dans lasection Fonction d’activation.Le neurone artificiel (qui est une modélisation des neurones du cerveau) va effectuerune somme pondérée de ses entrées plutôt que de considérer séparément chacune desinformations et nous obtenons la nouvelle donnée, in, par :

in = ∑ki=0 xi ∗ wi = ∑k

i=1 xi ∗ wi − w0

FOTIA SANTSA Raïssa Paulette 27 Tarification Automobile

Page 39: Thème - maison-actuaires-cameroun.commaison-actuaires-cameroun.com/memoire/Tarification... · Pays %duCA Tauxdechargement S/P Ratiocombiné Bénin 31,0% 51,0% 51,1% 102,1% BurkinaFaso

2.3. MODÈLE D’APPRENTISSAGE STATISTIQUES

Celle ci(neurones ou unité de traitement) est passée à la fonction d’activation.

Fonction d’activation

La fonction d’activation ou fonction de transfert est une fonction qui donne une sortieproche de 1 pour une unité active et pour une unité inactive 0. On utilise généralementdes fonctions à valeurs dans l’intervalle réel [0,1]. Quand le réel est proche de 1, on ditque l’unité (le neurone) est active alors que quand le réel est proche de 0, on dit quel’unité est inactive. Le réel en question est appelé la sortie du neurone et sera noté a.Si la fonction d’activation est linéaire, le réseau de neurones se réduirait à une simplefonction linéaire qui est l’équivalent d’une régression multilinéaire (méthode utilisée enstatistiques). L’utilisation du réseau de neurone est toutefois bien plus intéressante lorsquel’on utilise des fonctions d’activations non linéaires.En notant g la fonction d’activation, on obtient donc la formule donnant la sortie d’unneurone (incluant le coefficient de biais) .

a = g(in) = g(∑ki=0 xi ∗ wi)

Les fonctions d’activations les plus utilisées sont :Fonction de HeavisideLa fonction de Heaviside est définie par ∀x ∈ R, g(x) = 1six ≥0, 0 sinon.Fonction SigmoïdeLa fonction sigmoïde est définie par :

∀ x ∈ R g(x) = 1(1+e(−x))

La fonction sigmoïde présente l’avantage d’être dérivable (ce qui va être utile par lasuite) ainsi que de donner des valeurs intermédiaires (des réels compris entre 0 et 1) paropposition à la fonction de Heaviside qui elle renvoie soit 0 soit 1. Toutefois, les deuxfonctions possèdent un seuil. Celui de la fonction de Heaviside est en x = 0 et vaut 1 alorsque celui de la fonction sigmoïde est en 0 également mais vaut 1/2.Revenons au neurone et examinons le cas où le seuil est atteint, ou dépassé dans le casde la fonction sigmoïde. Il est dans tous les cas atteint quand in vaut 0.

in = 0 ⇐⇒ ∑ki=0 xi ∗ wi = 0 ⇐⇒ ∑k

i=1 xi ∗ wi − w0 = 0 ⇐⇒ ∑ki=1 xi ∗ wi = w0

Ainsi le coefficient du biais est la somme pondérée des informations d’entrées lorsque lafonction seuil est nul(seuil atteint).Les propriétés énoncées ci-dessus sont vraies grâce à la croissance des fonctions d’activa-tions.Activation et condition d’activationLe neurone est actif lorsque in ≥ 0, c-à-d a = g(in) ≥ seuil = g(0). Le neurone est inactiflorsque in ≤ 0,c-à-d a = g(in) ≤ seuil = g(0).

FOTIA SANTSA Raïssa Paulette 28 Tarification Automobile

Page 40: Thème - maison-actuaires-cameroun.commaison-actuaires-cameroun.com/memoire/Tarification... · Pays %duCA Tauxdechargement S/P Ratiocombiné Bénin 31,0% 51,0% 51,1% 102,1% BurkinaFaso

2.3. MODÈLE D’APPRENTISSAGE STATISTIQUES

Fonctionnement d’un réseau de neurone

De ce qui précède nous pouvons voir qu’un réseau de neurone est un ensemble deneurones interconnectés. Le calcul de la valeur prédite par un réseau de neurones secompose de 2 étapes simples.

Premièrement, on calcule une série de combinaisons linéaires des variables explicatives :

vi = αi,0 + ∑kj=1 αi,jxj

où xj est la jème variable explicative et k est le nombre de variables explicatives. Les αi,0et αi,j sont les coefficients à estimer de la iième combinaison linéaire (ième relation entreles variables explicatives).

La seconde étape consiste à appliquer une transformation non linéaire à chacune descombinaisons linéaires afin d’obtenir les valeurs de ce que l’on appelle les unités cachéesou neurones. En utilisant la sigmoïde pour effectuer les transformations non-linéaires nousavons la iéme unité cachée : gi(vi) = 1

(1+e(−vi)) La valeur prédite par le réseau de neurones :p(~x) = β0 + ∑s

i=1 βigi où s est le nombre de couches cachées, β0 est un seuil servant àdépartager les prédictions et les βi sont des coefficients à estimer associés aux couchescachées.p(~x) met en exergue la puissance de modèle de neurones artificiels par rapport aux modèlesrégression logistiques et aux modèles de régression linéaires. En effet, les estimationspar les réseaux de neurones artificiels permettent d’utiliser plusieurs relations entre lesvariables (à travers les couches cachées) et introduire la non-linéarité en utilisant unefonction d’activation. La prédiction se fait donc en départageant l’espace des explicativesen deux blocs délimités par une relation non linéaire.

La présence de transformation non linéaire dans l’équation du calcul de la valeur préditefait en sorte que l’on ne peut trouver de solution analytique pour le calcul des paramètresoptimaux d’un réseau de neurones. Les paramètres du réseau de neurones sont initialisésà des valeurs aléatoires. On présente au réseau de neurones un exemple d’entraînement,c’est-à-dire une paire qui comprend le vecteur des valeurs des variables explicatives etla valeur observée y du processus. On calcule la valeur prédite p(~x) par le réseau deneurones et l’erreur de prédiction e qui découle. Les paramètres optimaux sont obtenusen minimisant l’erreur quadratique e2 = [y − p(~x)]2.

FOTIA SANTSA Raïssa Paulette 29 Tarification Automobile

Page 41: Thème - maison-actuaires-cameroun.commaison-actuaires-cameroun.com/memoire/Tarification... · Pays %duCA Tauxdechargement S/P Ratiocombiné Bénin 31,0% 51,0% 51,1% 102,1% BurkinaFaso

Deuxième partie

Mise en œuvre des modèles GLM etde machine Learning

30

Page 42: Thème - maison-actuaires-cameroun.commaison-actuaires-cameroun.com/memoire/Tarification... · Pays %duCA Tauxdechargement S/P Ratiocombiné Bénin 31,0% 51,0% 51,1% 102,1% BurkinaFaso

Chapitre 3

Etude du modèle GLM

Avant de procéder à la modélisation de la prime pure, à l’aide du nombre et du coûtdes sinistres, des analyses préliminaires sont nécessaires afin de bien connaitre la base dedonnées et effectuer de traitement.

3.1 Présentation et Traitement de données

Les données de notre étude proviennent du portefeuille d’assurance automobile deplusieurs compagnies d’assurance collectées sur 11 ans à savoir 2006 à 2016. Il s’agitd’un certain nombre d’information dont l’assureur a besoin lors d’une souscription à unegarantie responsabilité civile. Nous disposons de deux fichiers : un fichier sinistre et unfichier production. Chaque ligne du fichier sinistre correspond à un mouvement comptableou à une modification quelconque.

Nombre de lignes Nombre de colonnesPRODUCTION Environ 2 millions de lignes 14 colonnes

SINISTRE Environ 200 milles lignes 11 colonnes

3.1.1 Présentation données

Nous avons à notre disposition 2 fichiers avec des structures différentes.

Structure du fichier production

Ce fichier comporte Environ 2 millions de lignes et 14 colonnes et présente les variablessuivantes :

— Numero_ assure— Numero_ police— Prime— Catégorie_vehicule— Nbre_ place_assises

31

Page 43: Thème - maison-actuaires-cameroun.commaison-actuaires-cameroun.com/memoire/Tarification... · Pays %duCA Tauxdechargement S/P Ratiocombiné Bénin 31,0% 51,0% 51,1% 102,1% BurkinaFaso

3.1. PRÉSENTATION ET TRAITEMENT DE DONNÉES

— Places_ hors_ cabine— Puissance_ ad :Force fiscale— Puissance réel— Poids_ a_ vide— Charge_ utile— Zone_geo— Genre_ véhicule— Usage_ véhicule— libelle_ Marque

Structure du fichier sinistre

Ce fichier comporte Environ 200 milles lignes et 11 colonnes et présente les variablessuivantes :

— Date_surv— Numero_sinistre— Numero_assure— Type_sinistre— Nbre_veh_impli— Nbre_vict_deces— Nbre_vict_ble— Etat_sinistre— Reglement_sinistre— Recours_sinistre— Date_reglement

L’objet de suite est de présenter les 4 types d’anomalies rencontrées lors de l’observationdes données. Avant toute modelisation il nous faudra identififier toutes les anomalies etapporter des corrections. Les différentes anomalies rencontrées sont : la mauvaise saisied’information, le manque d’information et la présence des données aberantes· · ·

Manque d’information

Certaines compagnies n’ont pas renseigné les informations utiles pour notre étude commepar exemple :

— La date au terme des contrats ;— L’identification des véhicules ;— Véhicule individuelle ou flotte ;— La puissance réelle ;— Remorque ou sans remorque ;

FOTIA SANTSA Raïssa Paulette 32 Tarification Automobile

Page 44: Thème - maison-actuaires-cameroun.commaison-actuaires-cameroun.com/memoire/Tarification... · Pays %duCA Tauxdechargement S/P Ratiocombiné Bénin 31,0% 51,0% 51,1% 102,1% BurkinaFaso

3.1. PRÉSENTATION ET TRAITEMENT DE DONNÉES

— Matière inflammable ou dangereuse.

Mauvaise saisie des informations

— Règlements qui apparaissent plusieurs fois avec les mêmes montants, même dateet même motifs

— Sinistre survenu en 2006 mais réglé en 2004— Mauvaise saisie des catégories par exemple des motos qui se retrouvent en catégories

1— Mauvaise saisie de la puissance administrative : on y retrouve des motos de puis-

sance supérieure à 20— Présence des années de règlements comme 2059 alors que l’étude se fais entre 2006

et 2016— Présence des primes négatives.

Présence des données aberrantes et Formats de saisie des informationsdifférents

— Nous avons constaté qu’il existe plus de 1500 sinistres avec des coûts très élevésdonc nous ne pouvons pas expliquer la provenance car n’ayant aucun rapport avecfichier production ;

— Chaque compagnie a une mise en forme des données complètement différente desautres compagnies. Par exemple pour la source d’énergie, certaines compagniesnoteront D pour diesel et d’autres noteront plutôt Diesel· · ·

3.1.2 Traitement de données

Par rapport aux anomalies citées ci-dessus,nous proposons les solutions suivantes :

— Reconstruction de certaines colonnes à partir des informations des autres colonnes.Par exemple la colonne véhicule individuel ou flotte qui est construite à partir del’indentification du véhicule et le numéro police.

— Suppression des sinistres ayant les mêmes motifs, les mêmes dates de survenanceet les montants de règlements identiques.

— Mise sous le même format des données— Pour des sinistres survenus en 2008 et dont le véhicule assuré à une date d’effet

de 2008 ayant comme date de règlement 2059 nous replaçons la date de règlementpar 2009 ;

— Suppression des doublons mais en conservant les dernières mises à jour.

FOTIA SANTSA Raïssa Paulette 33 Tarification Automobile

Page 45: Thème - maison-actuaires-cameroun.commaison-actuaires-cameroun.com/memoire/Tarification... · Pays %duCA Tauxdechargement S/P Ratiocombiné Bénin 31,0% 51,0% 51,1% 102,1% BurkinaFaso

3.1. PRÉSENTATION ET TRAITEMENT DE DONNÉES

Validation(test d’indépendance du khi-deux)

Aprés la suppression des doublons et les différentes corrections apportées à nos diffé-rents fichiers nous obtenons un total de près de 500 milles lignes pour le fichier productionet de 10 milles lignes pour le fichier sinistre. Pour la validation des données nous utilisonsun test d’indépendance du khi-deux pour supprimer les colonnes qui sont liées comme parexemple la colonne catégories et genre. Avec le genre nous obtenons la catégorie, de mêmeavec la catégorie nous obtenons le genre.

Création de nouvelles variables

Pour l’élaboration de notre tarif nous aurons besoin de créer des données des 3 variablesà savoir : exposition, nombre de sinistre et coût ultime du sinistre.

Exposition

Elle correspond à la durée du contrat dans le portefeuille pendant une année. Elleinfluence la fréquence de sinistre car un véhicule ayant souscrit à un contrat sur 6 moisest moins exposé qu’un véhicule ayant fait 1 an. L’exposition de chaque observation ausein du portefeuille d’étude impacte la mesure de la fréquence des sinistres et mérite, àce titre,une considération spécifique. Le nombre de sinistre imputable à chaque contratcorrespond à une exposition différente. Cette mesure de durée n’est donc pas constantepour chaque observation. Afin de prendre en compte cette hétérogénéité, il faut plutôtmodéliser le taux de sinistres par durée élémentaire et ce, quel que soit le modèle considéré.La variable exposition est créée à partir de 2 variables qui sont date_terme et date_effet[11].

exposition = (date_terme− date_effet)/365

Nombre de sinistre

Il represente le nombre de sinistres d’un véhicule assuré survenu durant la périoded’observation. Nous utilisons dans ce cas la liaison entre le fichier production et le fichiersinistre (numéro assuré où association entre le numéro assuré et l’identification du véhiculepour certaines compagnies)pour ressortir les données de cette variable.

Coût ultime sinistre

Le coût ultime d’un sinistre est égal au total des règlements multiplier des coefficientspondérés en fonction de la durée moyenne d’un sinistre dans le portefeuille. Ici noustravaillons sur les données de chaque compagnie à cause de la politique de gestion sinistrede chacune d’elle. Nous combinons la méthode de Chainladder et le tail factor pour obtenirle coût ultime car sur 11 années on constate que certains sinistres ne sont toujours pas clos,

FOTIA SANTSA Raïssa Paulette 34 Tarification Automobile

Page 46: Thème - maison-actuaires-cameroun.commaison-actuaires-cameroun.com/memoire/Tarification... · Pays %duCA Tauxdechargement S/P Ratiocombiné Bénin 31,0% 51,0% 51,1% 102,1% BurkinaFaso

3.1. PRÉSENTATION ET TRAITEMENT DE DONNÉES

avec 11 ans d’ancienneté. Donc le tail facteur est nécessaire pour poursuivre l’évolutiondes dossiers au delà de l’observation.

La méthode de chainladder la plus souvent utilisée, n’est plus suffisante pour l’esti-mation des charges finales et donc des provisions pour les branches sur le long terme.Elles permettent uniquement d’estimer les paiements cumulés jusqu’au développement Ndu triangle[14]. Pour la branche Responsabilité Civile Automobile (RCA) il est néces-saire d’avoir recours à un "tail factor" pour estimer la charge ultime sans quoi celle-cisera sous-estimée. Pour cela, il faut estimer les facteurs de la queue de développement.Nous utilisons ici l’extrapolation par un modèle paramétrique pour l’évaluation du tailfactor[12][1].

Extrapolation par un modèle paramètrique

Dans cette méthode, les facteurs sont extrapolés par l’utilisation de lois paramètriquespermettant l’ajustement des facteurs de développement et ainsi l’estimation des facteurspour les années de développement j ≤ n. Quatres lois sont habituellement choisies : expo-nentielle, puissance,puissance inverse et Weibull. Ce lissage des facteurs de développementpar ces lois peut se faire sur tous les facteurs estimés par la méthode de ChainLadder ouse faire après exclusion des points aberrants selon le jugement d’un expert. Dans notrecas nous utilisons le modèle exponentiel car il nous donne le meilleur coefficient de déter-mination et ses coefficients du tail factor ne sont jamais inférieur a 1. Il est défini par lafonction :fj = 1 + b · exp(−a · j) peut aussi s’écrire ln(fj−1) = ln(b)− a · j. Par régressionlinéaire on obtient alors les paramètres a et b (en minimisant les écarts des carrés entrela courbe f(j, ln(fj−1))(où f est le facteur de développement de ChainLadder).

La figure 3.1 présente le triangle de réglements non cumulés d’une compagnie de nosdonnées dont les dates de survenance vont de 2007 à 2016 [13]. Pour la détermination

Figure 3.1 – réglements non cumulés

des coefficients nous utilisons la méthode de chainladder pour les 9 premiers coefficients

FOTIA SANTSA Raïssa Paulette 35 Tarification Automobile

Page 47: Thème - maison-actuaires-cameroun.commaison-actuaires-cameroun.com/memoire/Tarification... · Pays %duCA Tauxdechargement S/P Ratiocombiné Bénin 31,0% 51,0% 51,1% 102,1% BurkinaFaso

3.1. PRÉSENTATION ET TRAITEMENT DE DONNÉES

et la méthode du tail factor pour les 6 derniers. Les neufs facteurs de la methode duchainLadder sont répresentés dans le tableau ci-dessous : La méthode de chainladder ne

j 1 2 3 4 5 6 7 8 9fj 4.2 1.5 1.3 1.23 1.15 1.1 1.06 1.05 1.04

Table 3.1 – Coefficients estimés par la méthode de ChainLadder

peut nous donner que 9 facteurs, nous utilisons le tail factor pour compléter les six derniersfacteurs afin de faire des prévisions sur 15 ans (durée moyenne de résolution d’un sinistreCorporel de notre portefeuille). On constate bien que les coefficients du tail factor sont

j 10 11 12 13 14 15fj 1.017 1.011 1.006 1.004 1.002 1.001

Table 3.2 – Coefficients estimés le tail facteur

sensiblement égaux à 1 dès la neuvième année jusqu’ à la quinzième année mais ne sontjamais inférieurs à 1.

Figure 3.2 – Coefficients brutes et coefficient extrapolés

Nous constatons que les coefficients extrapolés à partir de la cinquième année s’ac-crochent très bien aux coefficients brutes de ChainLadder. En applicant les coefficientsbrutes et extrapolés sur le coût total d’un sinistre nous obtenons son coût ultime qui seraune variable de notre étude.

FOTIA SANTSA Raïssa Paulette 36 Tarification Automobile

Page 48: Thème - maison-actuaires-cameroun.commaison-actuaires-cameroun.com/memoire/Tarification... · Pays %duCA Tauxdechargement S/P Ratiocombiné Bénin 31,0% 51,0% 51,1% 102,1% BurkinaFaso

3.2. STATISTIQUES DESCRIPTIVES ET SÉLECTION DES VARIABLES

3.2 Statistiques descriptives et Sélection des va-riables

Dans cette section nous ferons une analyse descriptive et une sélection des variablesde nos données.

3.2.1 Analyse descriptive des données

Nous faisons l’analyse descriptive pour comprendre nos données et avoir une idée surnotre tarif futur.

zone géographique

La figure 3.3 nous montre que la majorité des véhicules assurés se trouvent dans lazone géographique A donc dans les grandes villes. Dans notre étude nous nous limiteronsaux tarifs pour tous les véhicules de la zone A de par le nombre important de données s’ytrouvant.

Figure 3.3 – Véhicule assuré par zone géographique

Sinistre par zone géographique

On constate bel et bien que la zone géographique A présente plus grand nombre desinistres avec 88% de sinistre, ensuite la zone C et enfin la zone B. Cela pourrait s’expliquerpar le fait qu’il y’a plus de véhicules assurés dans cette zone géographique.

FOTIA SANTSA Raïssa Paulette 37 Tarification Automobile

Page 49: Thème - maison-actuaires-cameroun.commaison-actuaires-cameroun.com/memoire/Tarification... · Pays %duCA Tauxdechargement S/P Ratiocombiné Bénin 31,0% 51,0% 51,1% 102,1% BurkinaFaso

3.2. STATISTIQUES DESCRIPTIVES ET SÉLECTION DES VARIABLES

Figure 3.4 – Sinistre par zone géographique

Coût moyen de sinistre par zone géographique

Figure 3.5 – Coût moyen par zone géographique

A sa lecture nous constatons que la zone B est la zone la moins sinistrée mais ayantun coût de sinistre très élevé.

— Le coût moyen des sinistres est 32% plus élevé en zone B que A— Le coût total de la zone A est relativement plus élévé qu’en zone B— Les véhicules en zone C ont 80% de moins d’accident qu’en zone A— Le coût moyen des sinistres est 2% plus élevé en zone C que A— Le coût moyen des sinistres est 30% plus élevé en zone B que C

Catégorie véhicule

La figure 3.6 représente la repartition de nos données en fonction des différentes caté-gories. On constate que les catégories 1 et 4A sont les plus fortement représentées.

FOTIA SANTSA Raïssa Paulette 38 Tarification Automobile

Page 50: Thème - maison-actuaires-cameroun.commaison-actuaires-cameroun.com/memoire/Tarification... · Pays %duCA Tauxdechargement S/P Ratiocombiné Bénin 31,0% 51,0% 51,1% 102,1% BurkinaFaso

3.2. STATISTIQUES DESCRIPTIVES ET SÉLECTION DES VARIABLES

Figure 3.6 – véhicule assuré par catégorie

Sinistre par source d’énergie

la figure 3.7 montre que la source d’énergie essence a le plus grand nombre de sinistrede notre portefeuille cela pourrait s’expliquer par le fait qu’il y’a plus de véhicules utilisantl’essence que le diesel.

Figure 3.7 – Proportion de sinistre par source d’énergie

Coût moyen par source d’énergie

Le coût moyen d’un véhicule sinistré utilisant le Diesel comme source d’énergie est10% plus élevé qu’un véhicule utilisant l’essence.

FOTIA SANTSA Raïssa Paulette 39 Tarification Automobile

Page 51: Thème - maison-actuaires-cameroun.commaison-actuaires-cameroun.com/memoire/Tarification... · Pays %duCA Tauxdechargement S/P Ratiocombiné Bénin 31,0% 51,0% 51,1% 102,1% BurkinaFaso

3.2. STATISTIQUES DESCRIPTIVES ET SÉLECTION DES VARIABLES

Figure 3.8 – Coût moyen par source d’energie

Nombres de place assises

Figure 3.9 – coût moyen ultime en fonction du nombre de place assises

Nous avons constaté que les véhicules ayant un nombres de place assises supérieur à40 ont un coût moyen très élevé.

3.2.2 Sélection des variables

La prime d’un véhicule est fonction de plusieurs variables donc le mode de sélectionest décrit ci-dessous.

La sélection des variables se fait à partir de la méthode du type backward. Il s’agit dedémarrer le modèle avec toutes variables exogènes et ne retenir que les variables signifi-catives. Pour se faire on éliminera à chaque étape la variable ayant la plus petite valeurpour la statistique du test de Student (valeur-p la plus grande) en valeur absolue, à condi-tion qu’il soit non significatif (au seuil α ). Pour notre travail nous choisissonsα = 5%(c’est-à-dire la variable dont la valeur-p sera supérieure à 5% sera retiré du modèle). Après

FOTIA SANTSA Raïssa Paulette 40 Tarification Automobile

Page 52: Thème - maison-actuaires-cameroun.commaison-actuaires-cameroun.com/memoire/Tarification... · Pays %duCA Tauxdechargement S/P Ratiocombiné Bénin 31,0% 51,0% 51,1% 102,1% BurkinaFaso

3.3. APPLICATION DE LA TARIFICATION ET RÉSULTATS

application de cette procédure sur nos données nous récapitulons les variables explicativesdans la Table 3.3.

Coût moyen FréquenceNbre_de_place_assise ExpositionPuissance administrative Nbre_deplace_assise

Charge Utile Puissance administrativePoids_V ide Charge UtileCodecat Poids_V ide

Code_Zone CodecatCode_Energie Code_Zone

Code_Energie

Table 3.3 – Variables explicatives sélectionnées

3.3 Application de la tarification et résultats

Dans la tarification dite a priori, l’idée est de séparer les contrats en plusieurs catégo-ries de façon qu’à l’intérieur d’une catégorie, les risques puissent être considèrés commeéquivalents. L’hétérogénéité au sein d’un portefeuille pose un grand nombre de problèmes,en particulier d’anti sélection : si la même prime est appliquée à l’ensemble du portefeuille,les mauvais risques s’assureront (à un prix d’ailleurs moins élevé que celui qui devrait leurêtre réclamé), mais les bons pourraient être découragés par le tarif trop élevé, ce qui auratendance à dégrader le résultat[12].

3.3.1 Choix de la distribution des modèles

Pour le choix de la distribution, nous utilisons le critère de l’AIC (Akaike InformationCriterion) qui stipule de choisir la distribution donc le modèle linéaire généralisé a le pluspetit AIC [3]. Nous illustrons cela en considérant tous les véhicules de la catégorie 1 de lazone A avec une force fiscale inférieur 4 pour diesel et 6 pour essence.

FOTIA SANTSA Raïssa Paulette 41 Tarification Automobile

Page 53: Thème - maison-actuaires-cameroun.commaison-actuaires-cameroun.com/memoire/Tarification... · Pays %duCA Tauxdechargement S/P Ratiocombiné Bénin 31,0% 51,0% 51,1% 102,1% BurkinaFaso

3.3. APPLICATION DE LA TARIFICATION ET RÉSULTATS

Fréquence

Figure 3.10 – Nombre sinistre

D’aprés la figure 3.10 nous modéliserons le nombre de sinistres par la loi de poissonou la loi binomiale-négative(lois le plus souvent recommandée pour la modélisation dunombre de sinistre)[3]. En testant les différentes lois nous obtenons le tableau suivant :

distribution DF AICLoi poisson 230925 23130

Loi binomiale-négative 230925 23000

On constate que dans ce segment la loi binomiale-négative est la mieux adaptée.

Coût moyen

La modélisation pour les coûts moyens se fait classiquement à l’aide d’une loi log-normale ou d’une loi gamma. Il faut donc au préalable chercher la plus adéquate pour nosdonnées.

distribution DF AICLoi Gamma 2107 71580

Loi Log-Normale 2107 71600

Dans ce segment nous constatons que la loi Log-Normale fonctionne mieux que la loiGamma.

FOTIA SANTSA Raïssa Paulette 42 Tarification Automobile

Page 54: Thème - maison-actuaires-cameroun.commaison-actuaires-cameroun.com/memoire/Tarification... · Pays %duCA Tauxdechargement S/P Ratiocombiné Bénin 31,0% 51,0% 51,1% 102,1% BurkinaFaso

3.3. APPLICATION DE LA TARIFICATION ET RÉSULTATS

3.3.2 Application du GLM au portefeuille

Avec les lois et les variables selectionnées, nous appliquons le GLM sur les données enutilisant le logiciel R avec sa fonction GLM.

Le modèle de la fréquence

La fonction de lien logarithme étant choisi pour notre modélisation nous obtenons :

ln(freq) = β0 + β1 · xi,1 + · · ·+ βP · xi,p

freq = exp(β0 + β1 · xi,1 + · · ·+ βP · xi,p)

Où :p désigne le nombre de variables explicatives sélectionnées pour la fréquenceβ représente le vecteur des estimations des paramètres du GLM pour chacune des variablessélectionnées pour la fréquence.xi,p représente les modalités des variables tarifaires pour l‘individu i, prenant les valeurs1 si l’individu présente la caractéristique, 0 sinon [8].

Le modèle du coût moyen

ln(coutmoy) = α0 + α1 · xi,1 + · · ·+ αq · xi,q

coutmoy = exp(α0 + α1 · xi,1 + · · ·+ αq · xi,q)

Où :q désigne le nombre de variables explicatives sélectionnées pour le coûtα représente le vecteur des estimations des paramètres du GLM pour chacune des variablessélectionnées pour la fréquence.xi,q représente les modalités des variables tarifaires pour l‘individu i, prenant les valeurs1 si l’individu présente la caractéristique, 0 sinon.

La prime pure annuelle

prime_purei = exp(α0 + α1 · xi,1 + · · ·+ αq · xi,q) · exp(β0 + β1 · xi,1 + · · ·+ βP · xi,p)

3.3.3 RESULTATS

Dans les tableaux suivants nous mettrons les résultats des catégories 1, 2 et 4A dansla zone A. Ces trois catégories représentent plus de 85% de nos données. En fonction dela force fiscale nous subdivisons chaque catégorie en 3 segments :segment 1 représente tous les véhicules de zone A de force fiscale comprise entre 7 et 10

FOTIA SANTSA Raïssa Paulette 43 Tarification Automobile

Page 55: Thème - maison-actuaires-cameroun.commaison-actuaires-cameroun.com/memoire/Tarification... · Pays %duCA Tauxdechargement S/P Ratiocombiné Bénin 31,0% 51,0% 51,1% 102,1% BurkinaFaso

3.3. APPLICATION DE LA TARIFICATION ET RÉSULTATS

pour essence et 5 à 7 pour diesel.segment 2 représente tous les véhicules de zone A de force fiscale comprise entre 11 et14 pour essence et 8 à 10 pour diesel.segment 3 représente tous les véhicules de zone A de force fiscale comprise entre 15 et23 pour essence et 11 à 16 pour diesel.

Véhicule de catégorie 1Applicable aux véhicules de tourisme utilisés pour des besoins professionnels

et déplacement privés

segment Tarif Tarif Min Tarif Maxsegment 1 29376 18164 40445segment 2 28115 19836 47560segment 3 46106 25510 75543

Véhicule de catégorie 2Applicable aux véhicules utilitaire d’une charge utile ≤ 3.5 (utilisés pour letransport de marchandises ou produit appartenant à l’exclusion de tout

public de marchandise)

segment Tarif Tarif Min Tarif Maxsegment 1 37400 31031 73066segment 2 44876 30368 57604segment 3 156577 56340 299466

Véhicule de catégorie 4AApplicable aux taxis

segment Tarif Tarif Min Tarif Maxsegment 1 45320 27937 82393segment 2 50636 14870 90076segment 3 193819 24718 331299

3.3.4 Validation des modèles

Pour la validation de nos différents résultats nous comparons la déviance résiduelleà la statique du test de khi deux. Si la déviance est inférieur au quantile à 95% d’unkhi-deux à n-p-1 degré de liberté ou n est le nombre de lignes et p le nombre de variablesexplicatives sélectionnées on peut donc conclure que nous avons un bon modèle et doncdes bons résultats.La fonction déviance dans le logiciel R nous permet de calculer aisément la déviancerésiduelle de chaque modèle. Le tableau ci-dessus présente les résultats d’une analyse dela déviance pour les véhicules de catégories 1 zone A.

FOTIA SANTSA Raïssa Paulette 44 Tarification Automobile

Page 56: Thème - maison-actuaires-cameroun.commaison-actuaires-cameroun.com/memoire/Tarification... · Pays %duCA Tauxdechargement S/P Ratiocombiné Bénin 31,0% 51,0% 51,1% 102,1% BurkinaFaso

3.3. APPLICATION DE LA TARIFICATION ET RÉSULTATS

Segment Coût moyen FréquencDéviance(Dobs) q1−α

n−p−1 Déviance(Dobs) q1−αn−p−1

segment1 865 934.5329 8028 111976.8segment2 1024 1027.14 9124 106075segment3 220 934.5329 1838 16359.96

Table 3.4 – Déviance pour les véhicules de catégorie 1 et de la zone A

D’après le tableau ci-dessus nous pouvons conclure que la déviance observée (Dobs) estinférieure au quantile à 95% d’ordre n-p-1 pour tous les segments de la catégorie 1 zonegéographique A.

FOTIA SANTSA Raïssa Paulette 45 Tarification Automobile

Page 57: Thème - maison-actuaires-cameroun.commaison-actuaires-cameroun.com/memoire/Tarification... · Pays %duCA Tauxdechargement S/P Ratiocombiné Bénin 31,0% 51,0% 51,1% 102,1% BurkinaFaso

Chapitre 4

Application des méthodes demachine Learning pour la tarificationautomobile

Contrairement à la statistique classique qui nécessite de formuler des hypothèses surla structure et la distribution des données, la théorie de l’apprentissage statistique neformule qu’une seule hypothèse : les données à prédire, notées par Y, sont générées defaçon identique et indépendante par un processus P à partir du vecteur des variablesexplicatives X.

Dans ce chapitre nous mettons en oeuvre les trois méthodes d’apprentissages supervisésétudiées au Chapitre 2, pour prevoir la fréquence de sinistre et le coût moyen d’un véhiculeà partir de ses caractéristiques afin de trouver une prime qui reflète bien le risque. Nousprésentons les resultats de la modélisation par le CART, le Random Forest et les reseauxde neurones et enfin nous ferons une analyse comparative des résultats des différentsmodéles.

4.1 Application du modèle CART

Dans cette section, nous modélisons le nombre de sinistres et le coût ultime par laméthode CART pour les véhicules des catégories 1,2 et 4A en construisant deux arbresde regressions ; un pour la fréquence de sinistre et un autre pour le coût moyen.

4.1.1 Estimation de la fréquence par CART

Pour l’estimation de la fréquence de sinistres à partir des caracteristiques observées,nous construisons à l’aide de la base d’apprentissage un premier arbre de regression (l’arbremaximal ou saturé) pour tous les véhicules de catégories 1.

46

Page 58: Thème - maison-actuaires-cameroun.commaison-actuaires-cameroun.com/memoire/Tarification... · Pays %duCA Tauxdechargement S/P Ratiocombiné Bénin 31,0% 51,0% 51,1% 102,1% BurkinaFaso

4.1. APPLICATION DU MODÈLE CART

Figure 4.1 – arbre maximal fréquence sinistre ; Source=auteur

La figure 4.1 présente l’arbre maximal qui est constitué de 84 feuilles. Cet arbre surap-prend, notre objectif est de prédire la fréquence de sinistre et donc nous devons construireun modèle qui tient compte plus des généralités que des exceptions.

La construction d’un modèle exige la recherche d’un compromis entre son adéquationaux données et sa complexité(troc biais-variance).

Pour prendre en compte cette exigence, nous appliquons l’élagation dudit arbre dont leprincipe est remonter cet arbre en partant des feuilles et de supprimer les nœuds dont ladivision n’améliore pas significativement l’arbre sur une base de validation.L’arbre qui nous intéresse est celui qui minimise la complexité notée cp et définie commela somme de l’erreur dans la validation croisée à 10 plis notée xerror et l’écart-type del’erreur de validation croisée notée xstd. Si plusieurs arbres minimisent cette quantité,on privilège l’arbre le plus petit (principe de parcimonie qui stipule que à performanceséquivalentes, on sélectionne le modèle le moins complexe dans le sens du nombre deparamètres à estimer).

FOTIA SANTSA Raïssa Paulette 47 Tarification Automobile

Page 59: Thème - maison-actuaires-cameroun.commaison-actuaires-cameroun.com/memoire/Tarification... · Pays %duCA Tauxdechargement S/P Ratiocombiné Bénin 31,0% 51,0% 51,1% 102,1% BurkinaFaso

4.1. APPLICATION DU MODÈLE CART

Figure 4.2 – cp en fonction du nombre de feuilles ;Source=auteur

La figure 4.2 présente le paramètre de complexité en fonction du nombre de feuilles.En considérant cp= 0.0003107986 qui minimise la somme des erreurs(xerror et xstd), nousobtenons un arbre a 10 feuilles qui est largement plus petit que les 84 feuilles de notrearbre maximal.

FOTIA SANTSA Raïssa Paulette 48 Tarification Automobile

Page 60: Thème - maison-actuaires-cameroun.commaison-actuaires-cameroun.com/memoire/Tarification... · Pays %duCA Tauxdechargement S/P Ratiocombiné Bénin 31,0% 51,0% 51,1% 102,1% BurkinaFaso

4.1. APPLICATION DU MODÈLE CART

Figure 4.3 – arbre optimal de la fréquence de sinistre ;Source=auteur

Nous constatons que la variable la plus importante de notre arbre est la Zone géogra-phique. La fréquence la plus élévée (0,03) qui est celle des véhicules de catégories 1, zonegéographique A, source d’energie D (diesel) et de force fiscale suppérieur à 12.

FOTIA SANTSA Raïssa Paulette 49 Tarification Automobile

Page 61: Thème - maison-actuaires-cameroun.commaison-actuaires-cameroun.com/memoire/Tarification... · Pays %duCA Tauxdechargement S/P Ratiocombiné Bénin 31,0% 51,0% 51,1% 102,1% BurkinaFaso

4.1. APPLICATION DU MODÈLE CART

4.1.2 Estimation du coût moyen

L’estimation du coût moyen d’un sinistre de cette catégorie se fera avec le mêmeprocédé que celui de l’estimation de la fréquence.

Figure 4.4 – arbre maximal coût moyen,Source=auteur

FOTIA SANTSA Raïssa Paulette 50 Tarification Automobile

Page 62: Thème - maison-actuaires-cameroun.commaison-actuaires-cameroun.com/memoire/Tarification... · Pays %duCA Tauxdechargement S/P Ratiocombiné Bénin 31,0% 51,0% 51,1% 102,1% BurkinaFaso

4.1. APPLICATION DU MODÈLE CART

Figure 4.5 – paramètre de complexité coût moyen,Source=auteur

Nous avons un arbre maximal de 166 feuilles qui est illisible. En l’élaguant avec un cpde 0,00868608, nous obtenons un arbre optimal de 13 feuilles.

Figure 4.6 – Arbre élagué coût moyen,Source=auteur

Nous constatons que la variable la plus importante est dans ce cas est la puissanceadministrative (force fiscale).

L’aide des deux arbres élagués (arbre fréquence de sinistre et coût moyen d’un sinistre),nous construisons le tableau ci-dessous.

FOTIA SANTSA Raïssa Paulette 51 Tarification Automobile

Page 63: Thème - maison-actuaires-cameroun.commaison-actuaires-cameroun.com/memoire/Tarification... · Pays %duCA Tauxdechargement S/P Ratiocombiné Bénin 31,0% 51,0% 51,1% 102,1% BurkinaFaso

4.2. APPLICATION DU RANDOM FOREST

catégorie 1 catégorie 2 catégorie 4Asegment 1 27600 31200 44800segment 2 46800 46800 66140segment 3 42000 126652 112000

Table 4.1 – Resultat du CART sur trois catégories

Nous constatons que le tarif du CART appartient à l’intervalle de confiance du ModèleLinéaire Gèneralisé (GLM).

4.2 Application du Random Forest

dans cette section nous estimons la fréquence de sinistre et coût moyen en construisantdeux forêts aléatoires. Pour construire ces forêts nous devons fixer à priori le nombred’arbres de chaque forêt et ensuite faire une analyse pour trouver le nombre d’arbres quiminimisent l’erreur.

4.2.1 Estimation de la fréquence de sinistre par Random Forest

Nous représentons le graphe ci dessous pour choissir le nombre d’arbres optimales pourla construiction de la forêt aléatoire afin d’estimer la fréquence des véhicules du segment1 ;

Figure 4.7 – Variation de l’erreur en fonction du nombre d’arbres pour la fré-quence ;Source=auteur

D’après le graphe ci-dessus nous pouvons dire que le nombre d’arbres optimal pournotre forêt aléatoire est 5 car il possède la plus petite erreur. Cette forêt aléatoire nousdonne une fréquence de sinistre de 0.02460687 pour les véhicules de ce segment.

FOTIA SANTSA Raïssa Paulette 52 Tarification Automobile

Page 64: Thème - maison-actuaires-cameroun.commaison-actuaires-cameroun.com/memoire/Tarification... · Pays %duCA Tauxdechargement S/P Ratiocombiné Bénin 31,0% 51,0% 51,1% 102,1% BurkinaFaso

4.3. APPLICATION DES RÉSEAUX DE NEURONES

Terminons cette sous section par l’estimation du coût moyen par RandomForest

Nous procédons de la même façon que pour la fréquence de sinistre.

Figure 4.8 – Variation de l’erreur en fonction du nombre d’arbres pour le coût moyen

D’après le graphe ci-dessus nous pouvons dire que le nombre d’arbres optimal pournotre forêt aléatoire est 5. Cette forêt aléatoire nous donne un coût moyen de sinistrede 1342041 pour les véhicules de ce segment. Nous procédons de la même manière pourtrouver pour les autres segments.

D’après les deux forêts aléatoires nous ressortons le tableaux ci dessous.

catégorie 1 catégorie 2 catégorie 4Asegment 1 33268 37964 63102segment 2 30241 44464 71798segment 3 62003 204291 142861

Table 4.2 – Resultat du Random Forest sur trois catégories

4.3 Application des réseaux de neurones

Dans cette partie nous modélisons le nombre de sinistre et le coût par les réseaux deneurones. Nous construisons donc deux réseaux de neurones pour la fréquence et le côutmoyen à l’aide de la fonction neuralnet de R. Pour se faire toutes nos variables doiventêtre numeriques et comprisent dans l’intervalle [0, 1]. Nous subdivisons donc notre travailen deux Sous Sections, la premiére pour la modélisation de la fréquence et la seconde pourla modèlisation du coût moyen.

FOTIA SANTSA Raïssa Paulette 53 Tarification Automobile

Page 65: Thème - maison-actuaires-cameroun.commaison-actuaires-cameroun.com/memoire/Tarification... · Pays %duCA Tauxdechargement S/P Ratiocombiné Bénin 31,0% 51,0% 51,1% 102,1% BurkinaFaso

4.3. APPLICATION DES RÉSEAUX DE NEURONES

Traitement des variables numériques : On applique une standardisation « min-max» aux données numérique :

x′ = (x−min(X))/(max(X)−min(X))

Si on applique les résultats à un segment dans lequel le min et le max ont changé, on peutobtenir des résultats erronés.

Traitement des variables catégorielles : si elles sont ordonnées, on peut affecter àchaque catégorie une valeur comprise entre 0 et 1. Ainsi chaque catégorie peut alors êtretraitée comme une variable booléenne.

Exploitation des résultats Pour l’exploitation des résultats, il sera « dénormalisé » :x = x′ ∗ [max(X)−min(X)] +min(X)

4.3.1 Fréquence de sinistre

Nous construisons le réseau de neurones optimal des véhicules du segment 1 en utilisantles fonctions tune.nnet() et best.nnet() de R.

Figure 4.9 – Réseau de neurones optimal ;Source=auteur

Nous constatons que le réseau de neurones optimale dans ce segment possède 7 neuroneset 2 couches cahées. A partir de ce réseau de neurones nous avons une fréquence de sinistrede 0.023 pour tous les véhicules de ce segment.

FOTIA SANTSA Raïssa Paulette 54 Tarification Automobile

Page 66: Thème - maison-actuaires-cameroun.commaison-actuaires-cameroun.com/memoire/Tarification... · Pays %duCA Tauxdechargement S/P Ratiocombiné Bénin 31,0% 51,0% 51,1% 102,1% BurkinaFaso

4.3. APPLICATION DES RÉSEAUX DE NEURONES

Nous procédons de la même manière que pour la fréquence pour estimer le coût moyen.

Figure 4.10 – Réseau de neurones optimal ;Source=auteur

Nous constatons que le réseau de neurones optimale dans ce segment possède 5 neuroneset 1 couches cahées. A partir de ce réseau de neurones nous avons un coût moyen ultimede 1.2e+9 pour tous les véhicules de ce segment.

catégorie 1 catégorie 2 catégorie 4Asegment 1 33406 39613 60114segment 2 42587 32600 77637segment 3 61170 155911 152385,

Table 4.3 – Résultats des 3 catégories sur les réseaux de neurones

FOTIA SANTSA Raïssa Paulette 55 Tarification Automobile

Page 67: Thème - maison-actuaires-cameroun.commaison-actuaires-cameroun.com/memoire/Tarification... · Pays %duCA Tauxdechargement S/P Ratiocombiné Bénin 31,0% 51,0% 51,1% 102,1% BurkinaFaso

4.4. ANALYSE COMPARATIVE DES RÉSULTATS DES MODÈLES

4.4 Analyse comparative des résultats des modèles

Dans cette partie, nous menons des analyses comparatives des résultats obtenus surles différents modèles sélectionnés. Pour l’instant, seules les bases d’apprentissage et detest du segement 1 ont été utilisées. Toutes les erreurs ont été estimées sur la base de test.

Nous constatons que pour les 3 catégories considérées, nous obtenons des primes puresqui appartiennent à l’intervalle de confiance du modèle GLM.

Comparaison des tarifsPour comparer nos tarifs avec les tarifs utilisés depuis 1994 nous majorons la prime purede 33 % pour la gestion (acquisition, production, indemnisation), et de 5% pour la rému-nération de l’actionnaire et la marge de risque, soit 38% au total. Pour prendre en comptedes récentes modifications réglementaires (SMIG et code CIMA), et dont l’impact devraitperdurer nous la majorons de 20%.

Dans les tableaux ci-dessous nous présentons nos différentes primes pures majorées.

Tarif1994 TarifGLM TarifCART TarifRéseauNeurones TarifRandomForestsegment 1 70877 56696 53268 64474 64209segment 2 92497 54263 67164 86587 58366segment 3 117764 88985 81060 118060 119667

Table 4.4 – Prime commerciale des véhicules de catégorie 1

Tarif1994 TarifGLM TarifCART TarifRéseauNeurones TarifRandomForestsegment 1 80918 72183 60216 78613 73271segment 2 121212 86612 90324 62918 85817segment 3 150086 302194 244440 300909 394283

Table 4.5 – Prime commerciale des véhicules de catégorie 2

Tarif1994 TarifGLM TarifCART TarifRéseauNeurones TarifRandomForestsegment 1 215897 87468 86464 120114 121788segment 2 281766 97728 127652 149841 138572segment 3 375498 374072 216160 294104 275723

Table 4.6 – Prime commerciale des véhicules de catégorie 3

Les tableaux 4.4, 4.5, 4.6 montrent qu’ils existent des faibles variations entre les primesde 1994 et nos différentes primes. Cela confirme une baisse ou maintien du tarif (démontréau Chapitre 1 grâce à nos 5 indicateurs) pour tous les segments à l’exception du segment3 de la catégorie 2.

FOTIA SANTSA Raïssa Paulette 56 Tarification Automobile

Page 68: Thème - maison-actuaires-cameroun.commaison-actuaires-cameroun.com/memoire/Tarification... · Pays %duCA Tauxdechargement S/P Ratiocombiné Bénin 31,0% 51,0% 51,1% 102,1% BurkinaFaso

4.4. ANALYSE COMPARATIVE DES RÉSULTATS DES MODÈLES

Le tableau 4.1 montre les résultats en termes de MSE pour les quatre algorithmes dansl’évaluation de la fréquence de sinistre et du coût moyen de la garantie responsabilitécivile.

Méthodes MSEFrequence MSECoûtmoyeGLM 0.18 4.32e+12CART 0.12 4.07e+12

Random Forest 0.17 1.34+13Reseau de Neurones 0.22 6.80+12

Table 4.7 – MSE des différents modèles pour le segment 1 ;Source=auteur

Les résultats sur ce segment montrent que l’arbre de régression et de classification est lemodèle qui donne la meilleure prédiction en termes de MSE. Toutefois, il est intéressantde construire ce tableau sur tous les segments et de considérer le modèle ayant le pluspetit MSE dans chaque segment.

FOTIA SANTSA Raïssa Paulette 57 Tarification Automobile

Page 69: Thème - maison-actuaires-cameroun.commaison-actuaires-cameroun.com/memoire/Tarification... · Pays %duCA Tauxdechargement S/P Ratiocombiné Bénin 31,0% 51,0% 51,1% 102,1% BurkinaFaso

Conclusion générale

Dans ce mémoire, nous avons appliqué trois méthodes d’apprentissage statistique etune méthode statistique sur les données provenant de plusieurs compagnies camerounaisesd’assurance automobile. Nous constatons que toutes les primes calculées appartiennent àl’intervalle de confiance du modèle linéaire généralisé. Par exemple, pour tous les véhiculesde catégorie 1 du segment 1 l’implémentation du GLM sur les données donne une primede 29376 FCFA avec une prime minimale de 18164FCFA et une prime maximale de 40445FCFA, et celles des trois méthodes d’apprentissage donne une prime de 27600 FCFA pourle CART, 33268 FCFA pour le Random Forest et 33406 pour les réseaux de neurones.

Ayant majoré chacune des primes pures de 58 % (33 % pour les frais de gestion, 5%pour la rémunération de l’actionnaire et 20% pour les récentes modifications réglemen-taires), nous trouvons des primes commerciales proches de la prime ministérielle actuelleet appliquée depuis 1994. Cela confirme une baisse ou maintien du tarif (démontré auChapitre 1 grâce à nos 5 indicateurs) pour tous les segments à l’exception du segment 3de la catégorie 2.

Notre travail a permis de relever les insuffisances que présentent les données des com-pagnies d’assurance et d’effectuer les prétraitements utiles pour l’application des modèles.De plus, la méthode CART, algorithme rapide, présente des meilleurs résultats avec uneplus petite erreur pour le segment choisi.A l’issu de ce travail, il serait intéressant de :

1. Combiner le GLM et le CART en appliquant le CART sur les résidus ;

2. Etudier et appliquer le Support Vector Machine) pour évaluer les primes pures etcomparer aux autres primes ;

3. Appliquer toutes ces méthodes aux données de toutes les compagnies pour évaluerune prime représentative du marché de l’assurance automobile Camerounais, afinde Compléter les suggestions à faire a pour la direction des assurances.

58

Page 70: Thème - maison-actuaires-cameroun.commaison-actuaires-cameroun.com/memoire/Tarification... · Pays %duCA Tauxdechargement S/P Ratiocombiné Bénin 31,0% 51,0% 51,1% 102,1% BurkinaFaso

Bibliographie

[1] CHARPENTIER A. Risques et assurance. Sigma, 2010.

[2] CHARPENTIER A. Statistique de l’assurance. HAL Id : cel-00550583, Universitéde Rennes 1 et Université de Montréal, 2010.

[3] CHARPENTIER A. Computational Actuarial whith R. 2014.

[4] ASAC. Rapport sur le marché Camerounais des Assurances exercice 2017. ASAC.ASAC, 2017.

[5] REMI. B. Méthodes d’apprentissage appliquées à la tarification non-vie. PhD thesis,Université Claude Bernard – Lyon 1, 2014.

[6] CIMA. Traité instituant. la CIMA, 2012.

[7] CIMA. Traité instituant. la CIMA, 2014.

[8] PLANCHET F. and MISERAY A. Tarification iard : Introduction aux techniquesavancées. Technical report, ISFA, 2017.

[9] FANAF. Spécial chiffres fanaf. FANAF, 2017.

[10] ROBIN G. and POGGI2 J. M. Arbres CART et Forêts aléatoires Importance etsélection de variables. arXiv :1610.08203V, 2017.

[11] LEMAIRE J. Automobile Insurance. Kluwer-Nijhoff Publishing, 1985.

[12] DENUIT M. and CHARPENTIER A. Mathématiques de l’assurance non-vie TomeI. Economica, 2005.

[13] LOUIS M. Evaluation des provisions techniques non-vie dans le contexte de solvabi-lité ii. Master’s thesis, Université de Strasbourg, 2010.

[14] HENIN P. Un modéle de provisionnement ligne à ligne en assurance responsabilitécivile. Master’s thesis, ISUP.

[15] THEROND P. PLANCHET F. and JACQUEMIN J. Modéles Financiers en assu-rance. Ed.ECONOMICA, 49, rue Héricart, 75015 Paris, 2005.

[16] PAGLIA A.and Martial V. and GUINVARC’H P. Tarification des risques en as-surance non-vie, une approche par modele d’apprentissage statistique. BULLETINFRANÇAIS D’ACTUARIAT, 2011.

59

Page 71: Thème - maison-actuaires-cameroun.commaison-actuaires-cameroun.com/memoire/Tarification... · Pays %duCA Tauxdechargement S/P Ratiocombiné Bénin 31,0% 51,0% 51,1% 102,1% BurkinaFaso

Annexe

Code R pour le GLM et le CART

60

Page 72: Thème - maison-actuaires-cameroun.commaison-actuaires-cameroun.com/memoire/Tarification... · Pays %duCA Tauxdechargement S/P Ratiocombiné Bénin 31,0% 51,0% 51,1% 102,1% BurkinaFaso

ANNEXE

FOTIA SANTSA Raïssa Paulette Tarification Automobile

Code GLM R

rm(list = ls())

production=read.csv("production.csv",sep=";",header=TRUE,dec=",")

sinistre=read.csv("sinistre.csv",sep=";",header = TRUE,dec=",")

sum(sinistre$cout_ultime)

wilcox.test(production$nbresinistre,sinistre$cout_ultime)

chisq.test(production$codecat,production$Puissance_Administrative)

set.seed(123)

#CATEGORIE 1

cat1=production[which(production$codecat==1),]

#CATEGORIE 1 ET ZONE GEO

zonea=cat1[which(cat1$Code_Zone=="A"),]

E=zonea[which(zonea$Code_Energie=="E"),]

D=zonea[which(zonea$Code_Energie=="D"),]

essence=E[which(E$Puissance_Administrative<=8),]

diesel=D[which(D$Puissance_Administrative<=7),]

production1=rbind(essence,diesel)

str(production1)

sinistreproduction1=sinistre[-(1:length(sinistre$code_assureur)),]

for(i in 1:length(unique(sinistre$Numero.ContratIdentification.Vehicule))){

if(length(grep(sinistre$Numero.ContratIdentification.Vehicule[i],production

1$identifiant_veh,ignore.case = TRUE))!=0){

sinistreproduction1[i,]=sinistre[i,]

}

else{

grep(production1$identifiant_veh[i],sinistre$Numero.ContratIdentification.V

ehicule,ignore.case = TRUE)

}

}#modele lineaire generalise sur la nombre de sinistre

library(MASS)

library(MASS)

str(production1)

sum(na.omit(production1$nbresinistre))/sum(na.omit(production1$exposition))

sum(na.omit(production1$exposition))

Page 73: Thème - maison-actuaires-cameroun.commaison-actuaires-cameroun.com/memoire/Tarification... · Pays %duCA Tauxdechargement S/P Ratiocombiné Bénin 31,0% 51,0% 51,1% 102,1% BurkinaFaso

ANNEXE

FOTIA SANTSA Raïssa Paulette Tarification Automobile

sum(na.omit(sinistreproduction1$cout_ultime))/sum(na.omit(production1$expos

ition))

sum(na.omit(sinistreproduction1$cout_ultime))/sum(na.omit(production1$nbres

inistre))

length(production1$code_assureur)

lig=which(production1$exposition<=0)

production1[lig,12]=0.001

########ibrary(questionr)

sinistreproduction1=na.rm(sinistreproduction1,13)

n=glm(production1$nbresinistre~offset(log(production1$exposition))+producti

on1$Charge_Utile+production1$Nombre_Place+production1$Poids_Vide,family =

poisson(link=log),data=production1)

n

summary(n)

qchisq(0.95,16064)

moynfreq=exp(n$coefficients[1]+n$coefficients[2]*production1$Charge_Utile+n

$coefficients[3]*production1$Nombre_Place+n$coefficients[4]*production1$Poi

ds_Vide)*100/84.6

moyn=mean(na.omit(moynfreq))

moyn

SSEfreq=sum(na.omit((production1$nbresinistre-

moynfreq))^2)/length(production1)

SSEfreq

borneinf=round(moyn-

1.96*(sqrt(var(na.omit(production1$nbresinistre))))/sqrt(length(production1

$Charge_Utile)),3)

bornesup=round(moyn+1.96*(sqrt(var(na.omit(production1$nbresinistre))))/sqr

t(length(production1$Charge_Utile)),3)

borneinf

bornesup

#moyn=exp(n$coefficients[1]+n$coefficients[2]*production1$Charge_Utile+n$co

efficients[3]*production1$Nombre_Place+n$coefficients[4]*production1$Poids_

Vide)*100/84.6

#mean(na.omit(moyn))

##########################intervalle confiance cout

moyen################################

library(questionr)

cout=glm(sinistreproduction1$cout_ultime~sinistreproduction1$Charge_Utile+s

inistreproduction1$Nombre_Place+sinistreproduction1$Poids_Vide,family=gauss

ian(link=log),na.rm(sinistreproduction1))

Page 74: Thème - maison-actuaires-cameroun.commaison-actuaires-cameroun.com/memoire/Tarification... · Pays %duCA Tauxdechargement S/P Ratiocombiné Bénin 31,0% 51,0% 51,1% 102,1% BurkinaFaso

ANNEXE

FOTIA SANTSA Raïssa Paulette Tarification Automobile

summary(cout)

cout

qchisq(0.95,865)

moycout=exp(cout$coefficients[1]+cout$coefficients[2]*sinistreproduction1$C

harge_Utile+cout$coefficients[3]*sinistreproduction1$Nombre_Place+cout$coef

ficients[4]*sinistreproduction1$Poids_Vide)

####moycout1=exp(cout$coefficients[1]+cout$coefficients[2]+cout$coefficient

s[3]+cout$coefficients[4])

coutmoyen=mean(na.omit(moycout))

coutmoyen

borneinfcout=round(coutmoyen-

1.96*(sqrt(var(na.omit(sinistreproduction1$cout_ultime))))/sqrt(length(sini

streproduction1$cout_ultime)),3)

bornesupcout=round(coutmoyen+1.96*(sqrt(var(na.omit(sinistreproduction1$cou

t_ultime))))/sqrt(length(sinistreproduction1$cout_ultime)),3)

borneinfcout

bornesupcout

prime=mean(na.omit(moycout))*mean(na.omit(moyn))

primeinf=borneinfcout*borneinf

primesup=bornesupcout*bornesup

prime

primeinf

primesup

SSEcout=sum(na.omit((sinistreproduction1$cout_ultime-

moycout))^2)/length(sinistreproduction1$cout_ultime)

SSEcout

n=cout

v=fitted(n)

u=resid(n)

sigma=sigma.hat(n)

plot(resid(cout))#graphique

qqnorm(resid(cout))

qqline(resid(cout),col="blue")

Page 75: Thème - maison-actuaires-cameroun.commaison-actuaires-cameroun.com/memoire/Tarification... · Pays %duCA Tauxdechargement S/P Ratiocombiné Bénin 31,0% 51,0% 51,1% 102,1% BurkinaFaso

ANNEXE

FOTIA SANTSA Raïssa Paulette Tarification Automobile

Code CART R

rm(list = ls())

production=read.csv("production.csv",sep=";",header=TRUE,dec=",")

sinistre=read.csv("sinistre.csv",sep=";",header = TRUE,dec=",")

str(sinistre)

set.seed(100)

productioncat1=production[which(production$codecat==1),]

cat1=productioncat1[,c(9,10,11,7)]

######################### selection des données pour l'entrainement et le

test

lignecat1=sample(1:length(cat1$nbresinistre),floor(0.8*length(cat1$nbresini

stre)),replace = FALSE)

train=cat1[lignecat1,]##############données d'entrainement

test=cat1[-lignecat1,]#############données test

###############################abre frequence pour la categorie 1

library(rpart)

library(rpart.plot)

modelabre=rpart(nbresinistre~.,data=train,control = rpart.control(minsplit =

5,cp=0),method="poisson")#construction de mon abre de regresion

modelabre$variable.importance

plotcp(modelabre)

cptabl=printcp(modelabre)

############################recherche du meilleur cp##########

mincp=cptabl[,4]+cptabl[,5]####### somme de la colonne xerror et xstd

cptabl=cbind(cptabl,mincp)

cpvrai=cptabl[which.min(cptabl[,6]),1]########### retourne le cp ayant la

plus petite valeur de la somme entre le xerror et le xstd

cpvrai

cptabl[which(cptabl[,1]<=4),]

#######################recuperation de l'abre avec le meilleur

cp######################

ad=prune.rpart(modelabre,cp=cpvrai)

library(rpart.plot)

rpart.plot(ad,extra = 1,cex = 0.45)

printcp(ad)

rpart.plot(modelabre,cex = 0.15)

Page 76: Thème - maison-actuaires-cameroun.commaison-actuaires-cameroun.com/memoire/Tarification... · Pays %duCA Tauxdechargement S/P Ratiocombiné Bénin 31,0% 51,0% 51,1% 102,1% BurkinaFaso

ANNEXE

FOTIA SANTSA Raïssa Paulette Tarification Automobile

##############prediction sur la base

test#########################################

test1=test[,-3]#######retrait de la colonne nombre de sinistre dans le data

frame TEST

modelpredict=predict(modelabre,newdata = test1)

#################performance sur les données

d'apprentissage######################

msemodelprediction=mean((modelpredict-test$nbresinistre)^2)

msemodelprediction

plot(test$nbresinistre~modelpredict,col="blue")

1-cor(test$nbresinistre,modelpredict,method = "kendall")

#quantification de la performance du modéle via le taux d'erreur

#rel error*root note node error

#taux d'erreurde validation croisée

#xerror*root node error azertyuip$ w

sinistreproduction1=sinistre[-(1:length(sinistre$code_assureur)),]

production1=productioncat1

for(i in 1:length(unique(sinistre$Numero.ContratIdentification.Vehicule))){

if(length(grep(sinistre$Numero.ContratIdentification.Vehicule[i],production

1$identifiant_veh,ignore.case = TRUE))!=0){

sinistreproduction1[i,]=sinistre[i,]

}

else{

grep(production1$identifiant_veh[i],sinistre$Numero.ContratIdentification.V

ehicule,ignore.case = TRUE)

}

}

str(sinistreproduction1)

sinist=sinistreproduction1[,c(21,22,13,17,18,19)]

str(sinist)

library(questionr)

sinist=na.rm(sinist,1)

str(sinist)

######################### selection des données pour l'entrainement et le

test

Page 77: Thème - maison-actuaires-cameroun.commaison-actuaires-cameroun.com/memoire/Tarification... · Pays %duCA Tauxdechargement S/P Ratiocombiné Bénin 31,0% 51,0% 51,1% 102,1% BurkinaFaso

ANNEXE

FOTIA SANTSA Raïssa Paulette Tarification Automobile

lignesinist=sample(1:length(sinist$cout_ultime),floor(0.8*length(sinist$cou

t_ultime)),replace = FALSE)

traincout=sinist[lignesinist,]##############données d'entrainement

testcout=sinist[-lignesinist,]#############données test

str(testcout)

###############################abre frequence pour la categorie 1

#####################abre pour la coût moyen des sinistre

modelabrecout=rpart(cout_ultime~.,data=traincout,control =

rpart.control(minsplit = 5,cp=0))#construction de mon abre de regresion

modelabrecout

rpart.plot(modelabrecout)

plotcp(modelabrecout)

cptabl=printcp(modelabrecout)

############################recherche du meilleur cp##########

mincp=cptabl[,4]+cptabl[,5]

cptabl=cbind(cptabl,mincp)

cpvrai=cptabl[which.min(cptabl[,4]),1]

cpvrai

##############################################################

ad=prune.rpart(modelabrecout,cp=cpvrai)

library(rpart.plot)

rpart.plot(ad,extra = 1,col="blue",cex=0.48)

##############prediction sur la base

test#########################################

testcout1=testcout[,-3]#######retrait de la colonne nombre de sinistre dans

le data frame production

str(testcout)

modelpredictcout=predict(modelabrecout,newdata = testcout1)

#################performance sur les données

d'apprentissage######################

msemodelprediction=mean((modelpredictcout-testcout$cout_ultime)^2)

v=c(modelpredictcout,testcout$cout_ultime)

msemodelprediction

write.csv2(v,file="latexmsecar.csv")

plot(testcout$cout_ultime~modelpredictcout,col="blue")

1-cor(test$nbresinistre,modelpredict)