Upload
david-dubois
View
291
Download
1
Embed Size (px)
DESCRIPTION
La modélisation prédictive est un processus par lequel on cherche à identifier le meilleur modèle qui va permettre d'estimer la probabilité de survenance d'un événement ou d'un comportement. En ce sens, elle est un outil d'aide à la décision.
Citation preview
Séminaire RGA / Decavi
Modèles prédictifs :
quelles utilisations pour améliorer les processus de
souscription en assurance de personnes ?
Bruxelles, 29 avril 2014
David Dubois, Actuaire-Expert ERM, CERA
Directeur du Développement, RGA France
Damien Migout, Actuaire
Souscripteur, RGA France
2
3
Processus par lequel un modèle est choisi et mis en
œuvre pour prédire au mieux la probabilité de réalisation
d’un évènement ou d’un comportement futur
Faciliter la prise en compte et l’interprétation
des « bonnes » informations dans le
processus décisionnel
Disponibilité et qualité de données
factuelles fondamentales au
développement de modèles robustes
Interprétation des résultats préalable au
développement du modèle prédictif
Prédiction d’une probabilité de survenance
en tant qu’aide à la prise de décision dans
un environnement incertain
Qu’est-ce que la modélisation prédictive ?
Amélioration radicale
(sélection, tarification,
sinistre)
Expansion des
informations disponibles
Stockage et traitement des bases de données
Expertise en techniques statistiques
Logiciels de traitement
Puissance de
traitement des
informations
Tests des modèles à l’épreuve des faits
Pourquoi parler de modélisation prédictive ?
4
Innover dans les processus
Pression concurrentielle
Réactivité
Contrôle & discipline
Innovation des processus
Sélection des risques
• Identification rapide des facteurs de risque
• Accélération des décisions
• Tri en amont des propositions
• Compréhension des résultats de souscription (taux d’acceptation et de refus)
Sinistre
• Scoring
• Détection de la fraude
• Détection des comportements anormaux / atypiques
Développement produit
• Variables de tarifications
• Meilleure intégration des corrélations
• Optimisation du prix
• Identification du meilleur modèle de tarification
5
Ventes et Marketing
• Amélioration des taux de retour client
• Recommandations par cible
• Recrutement des réseaux
Analyse de l’expérience
• Facteurs discriminants de la sinistralité
• Moins de crédibilité aux analyses univariées
• Tables d’expérience
Gestion
• Gestion de la relation client (fidélisation)
Quelques exemples d’application dans l’assurance
Tarification en assurance de personnes
6
Trop souvent résumée en un problème univarié
dans un univers additif !
+ CSP Risque
aggravé
SEXE
X
Classiquement, à l’aide de tests statistiques dans les modèles
« classiques »
Scores obtenus par régression logistique ou analyse discriminante
Modèle de Poisson
Modèles linéaires généralisés
Inconvénients
Liste souvent restreinte à des indicateurs classiques
Tests peu informatifs sur de grands jeux de données (tout est significatif !)
Nécessité de nouvelles méthodes de validation (échantillons test, bootstrap)
7
Recherche de variables tarifaires : problème multivarié
Comment choisir les bonnes variables ?
Corrélation Colinéarité entre prédicteurs numériques ou dépendance entre prédicteurs
qualitatifs (2)
Eviter de garder des variables corrélées
Possibilités de « proxy »
Interaction Action différenciée sur la réponse (sinistralité) d’une variable selon les valeurs
d’une autre
Effet d’atténuation des effets d’une variable sur une autre
Amélioration de la prédictibilité des modèles
Omission d’une variable explicative
Situation fréquente (mauvaise identification ou réglementation)
Effets statistiques +/- dommageables (estimateurs biaisés, moindre efficacité,
tarif moyenné)
Recherche de variables tarifaires : problème multivarié
Nécessité d’étudier les liens entre les variables
8
Modélisation prédictive
9
Processus en 5 étapes
1
Objet
2
Données
3
Estimation
4
Analyse
5
Monitoring
10
Processus en 5 étapes
Identifier les
objectifs
Identifier les
motivations Pourquoi mettre en place le modèle ?
A quelles questions cherche-t-on la
réponse ?
Quelles en seront les applications
concrêtes ?
1
Objet
2
Données
3
Estimation
4
Analyse
5
Monitoring
Modélisation prédictive
1
Objet
2
Données
3
Estimation
4
Analyse
5
Monitoring
Modélisation prédictive
11
Processus en 5 étapes
Comprendre
Nettoyer
Transformer (?)
Répartir entre
données-test et
modélisation
Collecter
Inclusion de variables explicatives et de
variables “à expliquer”
Compilation et agrégation de données issues
de sources différentes
Quantité et qualité des données
Importance de la prise en compte des “bonnes”
variables
Modélisation prédictive
12
Processus en 5 étapes
1
Objet
2
Données
3
Estimation
4
Analyse
5
Monitoring
Sélection du
type
Estimation
Test
Validation
Attentes
satisfaites ?
Identification
contraintes
Importance de la phase de
sélection des variables explicatives
Processus itératif
Choix du modèle dépendant de la
structure des données et des
résultats attendus
Risques de modèle
Quelques exemples de modèles :
Régression
Modèles linéaires généralisés
(Binomial / Multinomial, Poisson,
Logistique, Gaussien, Gamma,
Inverse Gaussien, etc.
Séries chronologiques
Arbres de décision (CART, MARS)
Algorithme d’apprentissage
(réseaux neuronaux, clusters, …)
Modélisation prédictive
13
Processus en 5 étapes
1
Objet
2
Données
3
Estimation
4
Analyse
5
Monitoring
Interprétation
Création de
règles
Diffusion
Déploiement du
modèle
Communication
Difficultés d’interprétation des résultats
Implication du “management” notamment
si les résultats Iraient à l’encontre des “conventions” Amèneraient à changer radicalement le
point de vue Réviseraient profondément certains
processus établis
Déploiement du modèle délicat
Modélisation prédictive
14
Processus en 5 étapes
1
Objet
2
Données
3
Estimation
4
Analyse
5
Monitoring
Performance du
modèle
Test des résultats
Mise à jour des
données
Evolutions du
modèle
Analyse de la performance du
modèle pour en tester l’efficacité
Validation du modèle au fur et à
mesure de la mise à jour des
données
Recalibration du modèle
Etude développée sur le portefeuille d’un bancassureur en Asie
Objectifs
Prévision des décisions médicales sur ses clients existants
Allègement du processus de souscription en réduisant le nombre de cas
nécessitant une sélection médicale traditionnelle
Avantages
Identification des meilleurs risques
Accéleration de la sélection
Augmentation des ventes
Réduction des coûts d’acquisition
Moyens
Construction d’un modèle mathématique (GLM) répliquant les décisions
médicales de la sélection traditionnelle
Exemple n°1 – Predictive Underwriting
15
Présentation
Méthodologie
Calibrage du modèle sur le portefeuille d’assurés ayant bénéficié d’une sélection
médicale traditionnelle
Application du modèle à l’ensemble du portefeuille du bancassureur
Portefeuille utilisé pour le calibrage
Environ 9 000 assurés ayant fait l’objet d’une sélection médicale traditionnelle
Environ 8 700 avec une “acceptation standard”
Environ 300 avec une “non acceptation standard” (refus ou surprime)
Exemple n°1 – Predictive Underwriting
16
Présentation
Exemple n°1 – Predictive Underwriting
17
Statistiques
Portefeuille sélection traditionnelle
Logit (E[Yi]) = 𝛽𝑘𝑝𝑘=1 *Xi,k
E[Yi] : espérance de la variable Y (“acceptation standard”) pour l’individu i
Logit : fonction de lien, logit (x) = ln [x /( 1-x)]
𝛽𝑘𝑝𝑘=1 *Xi,k : facteurs explicatifs (prédicteurs)
11 facteurs explicatifs retenus sur les 65 variables initiales dans le
modèle optimal, dont:
Age à la souscription
Sexe
Statut marital (marié, célibataire)
Statut “bancaire” du client (advance, premier, non-premier)
…
Regroupement des individus en 10 groupes de taille égale et calcul
du pourcentage d’acceptation “standard” pour chaque groupe
Exemple n°1 – Predictive Underwriting
18
Modèle Linéaire Généralisé (GLM)
Exemple n°1 – Predictive Underwriting
19
Résultats
Les 20% les meilleurs (vert) sont éligibles à un produit sans sélection médicale
Les 20% suivant (rouge) à un produit avec une sélection simplifiée
Les 60% restant auront une sélection traditionnelle
Exemple n°1 – Predictive Underwriting
20
Résultats
Objectif
Détermination de facteurs d’ajustements à des tables de mortalité de base
utilisées pour la tarification
Tables de mortalité de base fonction de/du
Sexe
Age atteint
Duration de la police
Statut fumeur / non fumeur
Ajustements
Utilisation d’un Modèle Linéaire Généralisé (GLM)
Exemple n°2 – Bases de Mortalité
21
Présentation
Données d’expérience disponibles
5 années d’expérience: 2005-2009
Nombre de décès durant la période d’étude: environ 18,000
Nombre de combinaisons clients / canal de distribution: 21
Trois facteurs d’ajustements retenus par le modèle
Canal de distribution
Somme assurée
Statut marital: célibataire, marié
Exemple n°2 – Bases de Mortalité
22
Ajustements
Model1<-glm(Deaths ~ Channel + SABand + SingleorJoint +
offset(log(Expected)),family=poisson(log), data=DataSet1)
Exemple n°2 – Bases de Mortalité
Deaths = eChannel(i)eSABand(i)eSingleorJoint(i)elog(Expected)
= eChannel(i)eSABand(i)eSingleorJoint(i)Expected
Link Function - log
Modelling Number of deaths
Poisson Distribution Offset term – expected deaths
Co-Variates
Modèle Linéaire Généralisé
Exemple n°2 – Bases de Mortalité
24
Résultats
Exemple 1
Somme assurée 150,000 €
Channel Supermarket
Célibataire
Exemple 2
Somme assurée 600,000 €
Channel IFA
Marié
Exemple n°2 – Bases de Mortalité
25
Résultats
=> Coefficient d’ajustement: 92,4%*106,7%*103,9%*96,4% = 98,7%
=> Coefficient d’ajustement: 79,9%*100,0%*100,0%*96,4% = 77,0%
Merci pour votre attention