Click here to load reader

Title Slide; Always Title Case Subtitle Is 28pt; Highlight ... · PDF filesoulevées par le management, ... Définition: on parle de machine ... marketing, etc.). Nous nous concentrons

  • View
    214

  • Download
    2

Embed Size (px)

Text of Title Slide; Always Title Case Subtitle Is 28pt; Highlight ... · PDF filesoulevées par...

  • Mthodes dapprentissage

    statistique ( Machine Learning )

    Journes dEtudes IARD

    Niort, 21 Mars 2014

    Fabrice TAILLIEU

    Sbastien DELUCINGE

    Rmi BELLINA

    2014 Milliman. All rights reserved

  • 2

    Sommaire

    Introduction

    Les mthodes dapprentissage statistique

    Illustration

  • 3

    Le march de lassurance non-vie est extrmement comptitif

    en France, ce qui fait peser une incertitude importante sur les

    marges des compagnies.

    Plusieurs facteurs accentuent ce phnomne, notamment :

    Laggravation des charges sinistres sur certaines branches (accidents corporels

    lourds, assurance sant, vnements climatiques, )

    Lenvironnement conomique et financier

    Les changements lgislatifs (rforme FGAO, fin de la diffrenciation lie au critre

    de genre, loi Hamon, entre en vigueur de Solvabilit II, )

    Lincertitude lie de nouveaux risques (risques technologiques, risques

    climatiques, )

    Introduction Lenvironnement du march de lassurance

  • 4

    Introduction Lenvironnement du march de lassurance

    0

    1

    2

    3

    4

    5

    6

    7

    0

    10

    20

    30

    40

    50

    60

    70

    2002 2003 2004 2005 2006 2007 2008 2009 2010 2011 2012

    Cotisations acquises (Mds )

    Rsultat technique (Mds )

    Rsultat net comptable (Mds )

    Source : Rapport annuel FFSA 2012, Socits dommages

    Les rsultats des compagnies sen ressortent fortement :

  • 5

    Dans ce contexte, il est primordial pour toute compagnie :

    Didentifier les segments de clientle fragilisant ses rsultats, ou linverse ceux

    qui peuvent tres crateurs de richesse

    De suivre les rsultats des affaires en portefeuille de manire objective,

    indpendamment de la structure tarifaire utilise lors de la souscription de ces

    affaires

    Dtre capable didentifier les actions mettre en uvre, et dans la mesure du

    possible avant ses concurrents

    De mettre en uvre les actions ncessaires pendant les priodes de

    renouvellement (rsiliations, augmentations/baisses tarifaires) et tout au long de

    lanne (suivi de la performance dun rseau de distribution, actions marketing vis--

    vis des clients conserver en portefeuille, efforts commerciaux sur les affaires

    nouvelles, etc)

    Dans la plupart des compagnies dassurance, ces travaux sont

    aujourdhui mens en utilisant des techniques et des

    indicateurs relativement standardiss.

    Introduction Les enjeux pour une compagnie dassurance

  • 6

    De nouvelles dimensions prendre en compte :

    Choix du type de modlisation

    (GLM, Apprentissage statistique, Mix des 2, etc)

    Temps ncessaire limplmentation des modles

    Les contraintes des Systmes dInformations existants

    Le diagnostic recherch par le modle (tarif, revue, scoring, valeur client, )

    Les variables candidates la modlisation (leur nombre et leur connaissance par lactuaire) et leurs interactions

    La distribution des donnes

    Pour un grand nombre de ces dimensions, le choix des

    mthodes dapprentissage statistique sera le plus mme de

    rpondre aux besoins croissants en termes de modlisations.

    Introduction Les dimensions de modlisation

  • 7

    Pour rpondre aux

    problmatiques nouvelles

    souleves par le management,

    les actuaires ont besoin doutils

    adapts au nouvel

    environnement dans lequel leur

    compagnie exerce.

    Quelles solutions apportent les

    mthodes dapprentissage

    statistique pour effectuer les

    bons diagnostics ?

    Est-ce pour autant la fin des GLM

    en tarification ?

    Introduction Les enjeux pour une compagnie dassurance

  • 8

    Sommaire

    Introduction

    Les mthodes dapprentissage statistique

    Illustration

  • 9

    Dfinition : on parle de machine

    learning ou dapprentissage

    lorsquun algorithme est mis en

    uvre pour apprendre et extraire des

    informations dune base de donnes.

    Une fois la phase dapprentissage

    termine, on peut utiliser les rsultats

    pour raliser des prdictions.

    Cela couvre un domaine trs vaste,

    tant par les mthodes (rseaux de

    neurones, arbres, mthodes

    ensemblistes, etc.) que par les

    applications (filtre anti-spam,

    marketing, etc.).

    Nous nous concentrons sur

    lalgorithme CART (Classification

    And Regression Tree) et ses

    mthodes dagrgation.

    Les mthodes dapprentissage statistique Machine learning

    Source : Michie D., Spiegelhalter D.J., Taylor

    C.C. (1984) Machine Learning, Neural and

    Statistical Classification

  • 10

    Les mthodes dapprentissage statistique Base de donnes pour illustration

    BASE DE DONNES

    1 2 3 4 5

    LUXE CITADINE CYLINDRE USAGE AGE_COND NOMBRE_SIN

    1 N N 4 PRIVE 50 0

    2 N N 6 PRIVE 60 0

    3 N Y 4 COMMERCIAL 40 1

    4 N Y 4 PRIVE 30 0

    5 N N 4 PRIVE 70 0

    6 Y Y 4 COMMERCIAL 23 0

    7 N N 4 BUSINESS 40 0

    8 N N 6 PRIVE 40 1

    9 Y Y 4 PRIVE 60 0

    10 N N 6 PRIVE 50 0

    11 N N 8 PRIVE 30 1

    12 N Y 4 BUSINESS 30 0

    13 Y N 6 PRIVE 40 0

    14 N N 6 PRIVE 30 0

    998 N N 4 BUSINESS 60 0

    999 N Y 4 PRIVE 60 2

    1000 N N 4 COMMERCIAL 40 1

    Apprentissage Validation Test

    70% 20% 10%

  • 11

    Variables explicatives : 1, , .

    Variable expliquer : .

    On cherche parmi un ensemble de fonctions admissibles :

    , = 1, , =

    Comment trouver une bonne fonction ?

    Selon un critre quadratique et sans restriction sur , la meilleure fonction est lesprance

    conditionnelle :

    = argmin 2 = arg min

    2 2 = |

    La meilleure reprsentation de sachant que lon dispose de lchantillon est | .

    On souhaite obtenir un bon estimateur de lesprance conditionnelle.

    Lerreur dun modle sur une base est donne par base = 2

    base .

    Les mthodes dapprentissage statistique Cadre mathmatique (1/4)

  • 12

    Problme : | = traduit un sur-apprentissage.

    Les mthodes dapprentissage statistique Cadre mathmatique (2/4)

    Meilleur modle

    apprentissage

    Erreur de prdiction

    Complexit

    du modle Taille de

    Estimateur trivial

    = Estimateur sur-appris

    = | =

    validation

    Solution : garder une certaine gnralit/distance par rapport aux donnes dapprentissage.

  • 13

    Plus formellement, crivons :

    = + = 0 et = 2

    est une fonction dterministe certaine mais inconnue

    Dans labsolu, on souhaite estimer mais on ne dispose que des observations bruites .

    Le sur-apprentissage consiste apprendre (et ) en sloignant de .

    Les mthodes dapprentissage permettent dobtenir un modle estim . On peut montrer :

    2

    2

    minimiser

    = 2= 2 +

    biais

    2+ variance

    Le meilleur modle traduit un compromis entre le biais et la variance.

    Les mthodes dapprentissage statistique Cadre mathmatique (3/4)

  • 14

    0 20 40 60 80 100

    -10

    00

    01

    00

    02

    00

    03

    00

    04

    00

    05

    00

    0

    Comparaison des mthodes

    Valeurs de X

    Va

    leu

    rs d

    e Y

    Observs

    Vrai Modle

    GLM

    Modle Simple

    Modle Optimal

    Modle Complexe

    0 20 40 60 80 100

    -10

    00

    01

    00

    02

    00

    03

    00

    04

    00

    05

    00

    0

    Comparaison des mthodes

    Valeurs de X

    Va

    leu

    rs d

    e Y

    Observs

    Vrai Modle

    GLM

    Modle Simple

    Modle Optimal

    Modle Complexe

    0 20 40 60 80 100

    -10

    00

    01

    00

    02

    00

    03

    00

    04

    00

    05

    00

    0

    Comparaison des mthodes

    Valeurs de X

    Va

    leu

    rs d

    e Y

    Observs

    Vrai Modle

    GLM

    Modle Simple

    Modle Optimal

    Modle Complexe

    0 20 40 60 80 100

    -10

    00

    01

    00

    02

    00

    03

    00

    04

    00

    05

    00

    0

    Comparaison des mthodes

    Valeurs de X

    Va

    leu

    rs d

    e Y

    Observs

    Vrai Modle

    GLM

    Modle Simple

    Modle Optimal

    Modle Complexe

    0 20 40 60 80 100

    -10

    00

    01

    00

    02

    00

    03

    00

    04

    00

    05

    00

    0

    Comparaison des mthodes

    Valeurs de X

    Va

    leu

    rs d

    e Y

    Observs

    Vrai Modle

    GLM

    Modle Simple

    Modle Optimal

    Modle Complexe

    Les mthodes dapprentissage statistique Cadre mathmatique (4/4)

  • 15

    Les arbres CART sont une reprsentation graphique dune analyse rcursive dune base de

    donnes, permettant den extraire de linformation servant la dcision/prdiction.

    On retrouve deux types distincts :

    Les arbres de classification (variable de sortie qualitative ou discrte)

    Les arbres de rgression (variable de sortie quantitative continue).

    Les mthodes dapprentissage statistique CART - Gnralits

    Racine

    Feuille 1

    Feuille 2 Feuille 3

    BASE DE DONNES 1 2 3 4 5

    LUXE CITADINE CYLINDRE USAGE AGE_COND NOMBRE_SIN

    1 N N 4 PRIVE 50 0

    2 N N 6 PRIVE 60 0

    3 N Y 4 COMMERCIAL 40 1

    4

    5

Search related