Modélisation prédictive en assurance de personnes

Séminaire RGA / Decavi

Modèles prédictifs :

quelles utilisations pour améliorer les processus de

souscription en assurance de personnes ?

Bruxelles, 29 avril 2014

David Dubois, Actuaire-Expert ERM, CERA

Directeur du Développement, RGA France

Damien Migout, Actuaire

Souscripteur, RGA France

2

3

Processus par lequel un modèle est choisi et mis en

œuvre pour prédire au mieux la probabilité de réalisation

d’un évènement ou d’un comportement futur

Faciliter la prise en compte et l’interprétation

des « bonnes » informations dans le

processus décisionnel

Disponibilité et qualité de données

factuelles fondamentales au

développement de modèles robustes

Interprétation des résultats préalable au

développement du modèle prédictif

Prédiction d’une probabilité de survenance

en tant qu’aide à la prise de décision dans

un environnement incertain

Qu’est-ce que la modélisation prédictive ?

Amélioration radicale

(sélection, tarification,

sinistre)

Expansion des

informations disponibles

Stockage et traitement des bases de données

Expertise en techniques statistiques

Logiciels de traitement

Puissance de

traitement des

informations

Tests des modèles à l’épreuve des faits

Pourquoi parler de modélisation prédictive ?

4

Innover dans les processus

Pression concurrentielle

Réactivité

Contrôle & discipline

Innovation des processus

Sélection des risques

• Identification rapide des facteurs de risque

• Accélération des décisions

• Tri en amont des propositions

• Compréhension des résultats de souscription (taux d’acceptation et de refus)

Sinistre

• Scoring

• Détection de la fraude

• Détection des comportements anormaux / atypiques

Développement produit

• Variables de tarifications

• Meilleure intégration des corrélations

• Optimisation du prix

• Identification du meilleur modèle de tarification

5

Ventes et Marketing

• Amélioration des taux de retour client

• Recommandations par cible

• Recrutement des réseaux

Analyse de l’expérience

• Facteurs discriminants de la sinistralité

• Moins de crédibilité aux analyses univariées

• Tables d’expérience

Gestion

• Gestion de la relation client (fidélisation)

Quelques exemples d’application dans l’assurance

Tarification en assurance de personnes

6

Trop souvent résumée en un problème univarié

dans un univers additif !

+ CSP Risque

aggravé

SEXE

X

Classiquement, à l’aide de tests statistiques dans les modèles

« classiques »

Scores obtenus par régression logistique ou analyse discriminante

Modèle de Poisson

Modèles linéaires généralisés

Inconvénients

Liste souvent restreinte à des indicateurs classiques

Tests peu informatifs sur de grands jeux de données (tout est significatif !)

Nécessité de nouvelles méthodes de validation (échantillons test, bootstrap)

7

Recherche de variables tarifaires : problème multivarié

Comment choisir les bonnes variables ?

Corrélation Colinéarité entre prédicteurs numériques ou dépendance entre prédicteurs

qualitatifs (2)

Eviter de garder des variables corrélées

Possibilités de « proxy »

Interaction Action différenciée sur la réponse (sinistralité) d’une variable selon les valeurs

d’une autre

Effet d’atténuation des effets d’une variable sur une autre

Amélioration de la prédictibilité des modèles

Omission d’une variable explicative

Situation fréquente (mauvaise identification ou réglementation)

Effets statistiques +/- dommageables (estimateurs biaisés, moindre efficacité,

tarif moyenné)

Recherche de variables tarifaires : problème multivarié

Nécessité d’étudier les liens entre les variables

8

Modélisation prédictive

9

Processus en 5 étapes

1

Objet

2

Données

3

Estimation

4

Analyse

5

Monitoring

10


Identifier les

objectifs

Identifier les

motivations Pourquoi mettre en place le modèle ?

A quelles questions cherche-t-on la

réponse ?

Quelles en seront les applications

concrêtes ?

1

Objet

2

Données

3

Estimation

4

Analyse

5

Monitoring


1

Objet

2

Données

3

Estimation

4

Analyse

5

Monitoring


11


Comprendre

Nettoyer

Transformer (?)

Répartir entre

données-test et

modélisation

Collecter

Inclusion de variables explicatives et de

variables “à expliquer”

Compilation et agrégation de données issues

de sources différentes

Quantité et qualité des données

Importance de la prise en compte des “bonnes”

variables


12


1

Objet

2

Données

3

Estimation

4

Analyse

5

Monitoring

Sélection du

type

Estimation

Test

Validation

Attentes

satisfaites ?

Identification

contraintes

Importance de la phase de

sélection des variables explicatives

Processus itératif

Choix du modèle dépendant de la

structure des données et des

résultats attendus

Risques de modèle

Quelques exemples de modèles :

Régression

Modèles linéaires généralisés

(Binomial / Multinomial, Poisson,

Logistique, Gaussien, Gamma,

Inverse Gaussien, etc.

Séries chronologiques

Arbres de décision (CART, MARS)

Algorithme d’apprentissage

(réseaux neuronaux, clusters, …)


13


1

Objet

2

Données

3

Estimation

4

Analyse

5

Monitoring

Interprétation

Création de

règles

Diffusion

Déploiement du

modèle

Communication

Difficultés d’interprétation des résultats

Implication du “management” notamment

si les résultats Iraient à l’encontre des “conventions” Amèneraient à changer radicalement le

point de vue Réviseraient profondément certains

processus établis

Déploiement du modèle délicat


14


1

Objet

2

Données

3

Estimation

4

Analyse

5

Monitoring

Performance du

modèle

Test des résultats

Mise à jour des

données

Evolutions du

modèle

Analyse de la performance du

modèle pour en tester l’efficacité

Validation du modèle au fur et à

mesure de la mise à jour des

données

Recalibration du modèle

Etude développée sur le portefeuille d’un bancassureur en Asie

Objectifs

Prévision des décisions médicales sur ses clients existants

Allègement du processus de souscription en réduisant le nombre de cas

nécessitant une sélection médicale traditionnelle

Avantages

Identification des meilleurs risques

Accéleration de la sélection

Augmentation des ventes

Réduction des coûts d’acquisition

Moyens

Construction d’un modèle mathématique (GLM) répliquant les décisions

médicales de la sélection traditionnelle

Exemple n°1 – Predictive Underwriting

15

Présentation

Méthodologie

Calibrage du modèle sur le portefeuille d’assurés ayant bénéficié d’une sélection

médicale traditionnelle

Application du modèle à l’ensemble du portefeuille du bancassureur

Portefeuille utilisé pour le calibrage

Environ 9 000 assurés ayant fait l’objet d’une sélection médicale traditionnelle

Environ 8 700 avec une “acceptation standard”

Environ 300 avec une “non acceptation standard” (refus ou surprime)


16

Présentation


17

Statistiques

Portefeuille sélection traditionnelle

Logit (E[Yi]) = 𝛽𝑘𝑝𝑘=1 *Xi,k

E[Yi] : espérance de la variable Y (“acceptation standard”) pour l’individu i

Logit : fonction de lien, logit (x) = ln [x /( 1-x)]

𝛽𝑘𝑝𝑘=1 *Xi,k : facteurs explicatifs (prédicteurs)

11 facteurs explicatifs retenus sur les 65 variables initiales dans le

modèle optimal, dont:

Age à la souscription

Sexe

Statut marital (marié, célibataire)

Statut “bancaire” du client (advance, premier, non-premier)

…

Regroupement des individus en 10 groupes de taille égale et calcul

du pourcentage d’acceptation “standard” pour chaque groupe


18

Modèle Linéaire Généralisé (GLM)


19

Résultats

Les 20% les meilleurs (vert) sont éligibles à un produit sans sélection médicale

Les 20% suivant (rouge) à un produit avec une sélection simplifiée

Les 60% restant auront une sélection traditionnelle


20

Résultats

Objectif

Détermination de facteurs d’ajustements à des tables de mortalité de base

utilisées pour la tarification

Tables de mortalité de base fonction de/du

Sexe

Age atteint

Duration de la police

Statut fumeur / non fumeur

Ajustements

Utilisation d’un Modèle Linéaire Généralisé (GLM)

Exemple n°2 – Bases de Mortalité

21

Présentation

Données d’expérience disponibles

5 années d’expérience: 2005-2009

Nombre de décès durant la période d’étude: environ 18,000

Nombre de combinaisons clients / canal de distribution: 21

Trois facteurs d’ajustements retenus par le modèle

Canal de distribution

Somme assurée

Statut marital: célibataire, marié


22

Ajustements

Model1<-glm(Deaths ~ Channel + SABand + SingleorJoint +

offset(log(Expected)),family=poisson(log), data=DataSet1)


Deaths = eChannel(i)eSABand(i)eSingleorJoint(i)elog(Expected)

= eChannel(i)eSABand(i)eSingleorJoint(i)Expected

Link Function - log

Modelling Number of deaths

Poisson Distribution Offset term – expected deaths

Co-Variates

Modèle Linéaire Généralisé


24

Résultats

Exemple 1

Somme assurée 150,000 €

Channel Supermarket

Célibataire

Exemple 2

Somme assurée 600,000 €

Channel IFA

Marié


25

Résultats

=> Coefficient d’ajustement: 92,4%*106,7%*103,9%*96,4% = 98,7%

=> Coefficient d’ajustement: 79,9%*100,0%*100,0%*96,4% = 77,0%

Merci pour votre attention

Economy & Finance

Modélisation prédictive en assurance de personnes