I modelli lineari generalizzati - Altervista

I modelli lineari generalizzati per

la tariffazione nel ramo RCA

Giuseppina BozzoGiuseppina Bozzo

I modelli per l’analisi dei datiI notevoli sviluppi tecnologici che hanno

caratterizzato gli ultimi decenni, hanno messo a

disposizione delle aziende una grande quantità di

dati.

Una delle grandi sfide per l’azienda, e in particolare

per una compagnia assicurativa, è quella di

elaborare questi dati, così da estrarne rilevantiinformazioni.

Per quanto riguarda l’analisi statistica, un maggiore numero di dati a disposizioneimplica maggiore capacità di previsione. È da notare però che nei campioni di

dati a disposizione, sta aumentando anche il numero di variabili attraverso cui è

possibile descrivere il fenomeno.

Questa è una caratteristica di fondamentale importanza e necessita di modelliavanzati in grado di sfruttare e di gestire il numero sempre maggiore di variabili

I modelli lineari generalizzati nel

ramo danni

In ambito assicurativo, il flusso di dati in questione

riguarda le polizze assicurative che possono essere

descritte attraverso un vasto numero di variabili

numeriche e non. Si rende necessario perciò l’utilizzo di

modelli statistici.

In particolare, facendo riferimento al ramo danni, ci

occuperemo dei modelli lineari generalizzati, utilizzati

per uno dei principali scopi di una compagnia

assicurativa danni: determinare il premio, ovvero il

corrispettivo in denaro, da richiedere al contraente

della polizza.

Alcuni richiami…

In diversi campi della ricerca, capita spesso di ritrovarsi a

studiare le relazioni presenti tra le variabili oggetto di

studio.

Formalizzando il problema, indichiamo con y la variabile

dipendente e con 𝑥1, 𝑥2, …, 𝑥𝑘, le k variabili indipendenti,

dette anche regressori o variabili esplicative. Il modello

sarà:

𝑦 = 𝑓 𝑥1, 𝑥2, …, 𝑥𝑘 + 𝜀,dove la variabile 𝜀, è un vettore aleatorio di variabili non

osservabili.

Le variabili esplicativeLe variabili esplicative rappresentano delle caratteristiche osservabili, che influiscono

sulla valutazione probabilistica delle variabili risposta.

Esistono due tipi di variabili esplicative:

Variabili numeriche: hanno determinazioni numeriche, come ad esempio lavariabile “età dell’assicurato”;

Variabili nominali: hanno determinazioni non numeriche, come ad esempio la

variabile “sesso dell’assicurato”.

Le variabili che hanno una determinazione numerica possono essere inserite

direttamente nel modello, mentre le variabili non numeriche devono essere

precedentemente codificate numericamente attraverso una variabile binaria 0-1.

Solitamente, una variabile nominale con ℓ modalità 𝑐1, 𝑐2, … , 𝑐𝑙 può essere codificata

con variabili indicatrici, dette variabili dummy.

Esempio. Sesso dell’assicurato (Maschio-Femmina)

Variabile dummy →

Il modello lineare Se nella fase di specificazione del modello, si ipotizza che la funzione f sia lineare, si

avrà il modello lineare di equazione:

dove

Per completare la specificazione del modello è necessario effettuare le cosiddette

ipotesi fondamentali:

Inoltre, successivamente alla stima dei parametri, sarà necessario costruire intervalli di confidenza e test d’ipotesi. Affinché questo possa avvenire, è necessario ipotizzare che 𝜀~𝑁 0, 𝜎2𝐼

OMOSCHEDASTICITA’

Dai modelli lineari ai modelli lineari

generalizzati (GLM)

Dei modelli lineari, noti per la loro semplicità,

vengono criticati diversi aspetti, tra cui l’ipotesi di

omoschedasticità e l’ipotesi di normalità.

Infatti, si assume che la distribuzione della variabile

risposta sia normale, ma spesso non si ha a che fare

con variabili di questa natura.

Inoltre, la varianza del termine di errore e quindi anche della variabile risposta è

stata posta costante, ma spesso si

riscontra empiricamente che ciò non è

vero.

RESIDUI

I modelli lineari generalizzati

Anche nei modelli lineari generalizzati è possibile mettere in relazione una variabile risposta con un insieme di regressori. La novità, però, risiede nella

rimozione di quelle ipotesi che nei modelli lineari semplici risultavano necessarie.

In particolare, l’ipotesi di normalità viene generalizzata, ipotizzando che la

variabile dipendente y appartenga alla « famiglia esponenziale» e che quindi abbia la seguente funzione di densità:

𝑓𝑦 𝑦, 𝜗, 𝜑 = 𝑒𝑥𝑝𝑦𝜗 − 𝑏 𝜗

𝑎 𝜑+ 𝑐 𝑦, 𝜑 ,

Dove 𝑎 𝜑 , 𝑏 𝜗 e 𝑐 𝑦, 𝜑 sono delle funzioni note, la cui scelta individua una

particolare distribuzione. Il parametro 𝜑 è detto parametro di dispersione,

poiché è legato alla varianza di y.

E’ possibile dimostrare che 𝐸 𝑦𝑖 = 𝑏′ 𝜗𝑖 e 𝑉 𝑦𝑖 = 𝑎 𝜑 ∙ 𝑏′′ 𝜗𝑖 .

ETEROSCHEDASTICITA’

Un esempio…Verifichiamo che la distribuzione di Poisson può essere vista come caso

particolare della famiglia esponenziale:

Posto ϑ = ln 𝜆 e 𝑦 = 𝑛, otteniamo:

Tale funzione di densità appartiene alla famiglia esponenziale con funzioni:

La relazione tra media e predittore

lineareNei modelli lineari 𝑦 = 𝑋𝛽 + 𝜀, calcolando la media sulla i-esima componente si ha:

Viceversa, nei GLM, come generalizzazione, si suppone che media e predittore

lineare siano legati dalla funzione invertibile h. Per cui:

LA MEDIA E’ UGUALE AL PREDITTORE LINEARE

La funzione g è detta funzione link

LA MEDIA E’ FUNZIONE DEL PREDITTORE LINEARE

LINK CANONICI

Alcune famiglie della classe

esponenziale

Diagnostica

I vettori dei parametri 𝛽 e 𝜑 vengono stimati con il metodo della massima

verosimiglianza. Questo permette di sfruttare le proprietà degli stimatori di massima

verosimiglianza. Sotto opportune ipotesi, infatti, questi stimatori risultano essere:

asintoticamente normali

asintoticamente non distorti: 𝐸 𝛽 = β

asintoticamente pienamente efficienti: la matrice di varianze-covarianze coincide

con il reciproco della matrice d’informazione di Fisher 𝐼 𝛽

Sfruttando queste importanti proprietà degli stimatori MLE, è possibile ottenere

intervalli di confidenza per le stime del parametro 𝛽, ma anche test d’ipotesi sulla

validità dei parametri.

Validazione del modello

Per misurare la bontà di adattamento del modello, si definisce la devianza, data da:

Dove 𝑙 𝜗 è la log-verosimiglianza del modello stimato, mentre 𝑙 𝜗 è la log-verosimiglianza del modello saturo, ovvero il modello avente un numeri di parametri parialla dimensione del campione. Tanto più piccola è la devianza, tanto migliore sarà ilmodello stimato.

Inoltre, per quantificare la differenza tra i valori attesi e i valori reali, possiamo definire i

residui standardizzati di Pearson:

Infine, riportiamo la definizione dell’ Akaike's information criterion (AIC):

k=numero dei parametri

L=massima verosimiglianza del modello stimato

Le assicurazioni contro i danniOggetto del contratto di «assicurazione contro i danni» è l’intervento dell’assicuratore neiriguardi delle conseguenze di eventi dannosi o sinistri che possono colpire, in un fissatoperiodo temporale, il rischio assicurato. (…)A fronte degli impegni aleatori assuntidall’assicuratore, è richiesto al contraente il pagamento di un importo certo che prende ilnome di premio. (Daboni, 1989)

Nella tecnica attuariale esistono diverse

configurazioni di premio. Il punto di

partenza per la definizione del premio, è

il premio equo che corrisponde al valore

atteso del totale dei risarcimenti aleatori

a carico dell’impresa di assicurazione,

durante il periodo assicurato. Troviamo

poi il premio puro che comprende al suo

interno anche il cosiddetto caricamento

di sicurezza. L’ultima configurazione è il

premio di tariffa, pari alla somma tra

premio puro e caricamenti per spese,

destinati a coprire i costi di gestione.

La tariffazione nelle assicurazioni RCA Dal punto di vista teorico, è possibile rappresentare il risarcimento aleatorio totale X di

un generico assicurato in un certo periodo di riferimento, come:

N → numero aleatorio dei sinistri

𝑍𝑗→ importo aleatorio del danno arrecato dal j-esimo

sinistro

Calcolare il premio significa determinare il valore atteso e la varianza della variabile X

ed applicarvi dei caricamenti (di sicurezza e di spese). Il modello classico prevede le

seguenti ipotesi: ● 𝑍𝑗 e N sono stocasticamente indipendenti

● 𝑍𝑗 sono indipendenti ed identicamente distribuite

Calcolando il valore atteso del risarcimento aleatorio, si ottiene il premio equo, per il

quale è possibile verificare che:E’ NECESSARIO

STIMARE

E[N] E E[Z]

La personalizzazione della tariffaria

I portafogli assicurativi sono formati da un insieme di rischi fra loro eterogenei,

e tale eterogeneità è dovuta a fattori endogeni, insiti nella particolare natura

del rischio, ma anche a fattori esogeni tipicamente ambientali o socio-

economici. Mediante le tecniche di tariffazione l’assicuratore suddivide la

collettività di rischi in sottogruppi o classi, che presentano caratteristiche

analoghe, in modo da poter attribuire ai rischi appartenenti alla stessa classe, la medesima base tecnica.

La personalizzazione del premio può essere: a priori o a posteriori.

Nella personalizzazione a priori, i premi sono differenziati in funzione di caratteristiche dei rischi, osservabili al momento della conclusione del

contratto.

Nella personalizzazione a posteriori, si cerca di ovviare all’eterogeneità

rimanente in seguito alla personalizzazione a priori, tenendo conto dell’esperienza sulla sinistrosità di ciascun assicurato.

Le variabili tariffarie nella personalizzazione

del premio L’assicuratore individua dei sottogruppi di rischi analoghi, detti classi tariffarie

o classi di rischio, sulla base di variabili tariffarie, ovvero i fattori di rischio

selezionati. Esempi di fattori di rischio nell’ambito RCA sono:

I modelli tariffari Il modello tariffario consente di associare ad ogni classe il corrispondente premio,

grazie ad alcuni parametri da cui dipende, detti relatività. Una volta scelto il

modello tariffario e stimato le relatività è possibile ottenere la tariffa.

Supponendo di aver selezionato due sole variabili tariffarie aventi rispettivamente I

e J modalità ciascuna. Il portafoglio sarà quindi suddiviso in 𝐼 × 𝐽 classi tariffarie e la

coppia 𝑖, 𝑗 identifica la classe in cui la prima variabile ha modalità i, mentre la

seconda ha modalità j.

I modelli tariffari utilizzati sono:

MODELLO MOLTIPLICATIVO

MODELLO ADDITIVO

RELATIVITA’ PRIMA

VARIABILE

RELATIVITA’ SECONDA

VARIABILECOSTANTE

I modelli di regressione lineare nei

processi di tariffazione del ramo danni I modelli di regressione lineare permettono di stimare il valore atteso di una variabile risposta

attraverso una combinazione lineare delle determinazioni delle variabili esplicative. Dopo quanto visto in precedenza, si potrebbe pensare di applicare tali modelli per la determinazione della tariffa.

In realtà, per i processi di tariffazione, i modelli di regressione lineare possono risultare non completamente adatti, in particolare per ciò che concerne la tariffazione nei rami danni.

Il numero dei sinistri, infatti, segue una distribuzione di probabilità discreta e gli importi dei danni provocati dai sinistri hanno come supporto la semiretta positiva, generalmente con distribuzione asimmetrica positiva (IPOTESI DI NORMALITA’ NON SUPPORTATA)

Inoltre, in molti casi, non è accettabile l’ipotesi di un legame lineare tra il valore atteso della variabile risposta e le determinazioni delle variabili esplicative. Ad esempio, nei modelli tariffari moltiplicativi tale struttura non è rispettata (LINK IDENTITA’ RISULTA RESTRITTIVO)

LM GLM

I GLM nei processi di tariffazione del ramo danni In campo assicurativo i GLM sono impiegati per la definizione a priori della tariffa

e anche nella valutazione delle riserve tecniche.

Contrariamente ai ML, infatti, si assume che la variabile risposta appartenga alla

famiglia esponenziale e quindi che possa essere una Poisson, una binomiale, etc.

Inoltre, nel processo di tariffazione la funzione link indica come calcolare il

premio equo, in funzione delle caratteristiche delle variabili tariffarie. Quindi,

attraverso g si determina il modello tariffario. Ad esempio:

Modello per il numero di sinistri

I dati disponibili per i diversi assicurati di un portafoglio sono: ● Determinazioni delle variabili esplicative

● Numeri dei sinistri che hanno colpito i rischi nel periodo di osservazione

● Tempi di esposizione, ovvero le esposizioni o rischi/anno

Indichiamo con K il numero delle classi tariffarie in cui è ripartito il portafoglio, con 𝑛𝑘 il

numero degli assicurati nella classe k e con 𝑥𝑘 il vettore delle determinazioni delle variabili

esplicative comune ai rischi della classe

Per l’i-esimo assicurato della classe k, indichiamo con 𝑚𝑘𝑖 il numero dei sinistri nel periodo di

osservazione e con 𝑡𝑘𝑖 l’esposizione. Nel contesto dei GLM, 𝑚𝑘𝑖 è il valore osservato del

numero aleatorio 𝑀𝑘𝑖 dei sinistri che colpiscono il rischio assicurato nel periodo di

osservazione.

Siano 𝜂𝑘 = 𝑥𝑘′𝛽 e 𝜆𝑘 > 0 rispettivamente il predittore lineare e il numero atteso annuo di

sinistri per ciascun assicurato della classe k. Indicando con g la funzione link avremo:

Modello Poisson per il numero di sinistri

Il parametro della distribuzione è il prodotto tra l’esposizione e il numero atteso annuo

di sinistri per un assicurato nella classe k.

Data la natura delle variabili aleatorie 𝑀𝑘𝑖 si assume solitamente:

Partendo da questa ipotesi è possibile definire una distribuzione che appartiene alla

famiglia esponenziale, ma è necessario riparametrizzare, considerando, 𝜇𝑘𝑖 = 𝑡𝑘𝑖𝜆𝑘 e

ln 𝜇𝑘𝑖 = 𝜗𝑖.

Per la speranza matematica, ricordando che 𝑔 𝜆𝑘 = 𝜂𝑘, si ha:

Scegliendo per il link g il logaritmo naturale, la sua funzione inversa sarà l’esponenziale

e quindi:

Dove, il termine ln 𝑡𝑘𝑖 viene interpretato come la determinazione di una variabile

aggiuntiva con effetto noto, ovvero come un termine di offset.

Modello per il costo medio dei sinistri Per la definizione di tali modelli è fondamentale disporre dei seguenti dati:

● le determinazioni delle variabili esplicative

● il numero di sinistri

● gli importi del costo, causati dai singoli sinistri o i danni totali per polizza.

Bisogna notare, però, che spesso i dati a disposizione sono quelli dei risarcimenti che,

in caso di limitazioni di copertura (es. massimali, franchigia), differiscono dal danno

provocato

Inoltre, i dati sono spesso relativi a sinistri non chiusi, per i quali il costo viene stimatosommando il pagato e l’importo della riserva sinistri di inventario.

È da aggiungere che , il numero di polizze sinistrate è molto ristretto, quindi i dati

disponibili sono pochi e gli importi di danno sono per la grande maggioranza di

importo contenuto; mentre quelli di importo particolarmente elevato sono un numero

ristretto.

Tali problematiche rendono spesso le stime derivanti dai modelli per i danni meno

affidabili rispetto alle stime relative al numero di sinistri

Modello Gamma per il costo medio dei

sinistri Al fine di costruire il modello, indichiamo con 𝑚𝑘𝑖 il numero totale di sinistri che hanno

colpito una determinata classe tariffaria e con 𝐶𝑘𝑖 il danno aleatorio totale

Il danno medio per sinistro per la i-esimo polizza sinistrata della classe k potrà essere

calcolata come:

La distribuzione più utilizzata è la distribuzione gamma, che rientra a far parte della

famiglia esponenziale. È da notare che questa distribuzione ha come supporto 𝑅+ e

presenta asimmetria positiva. È possibile verificare che:

Anche in questo caso, il link scelto è il logaritmo, necessario per fare in modo che il

modello sia moltiplicativo.

Applicazione: stima del

premio equo attraverso i

modelli lineari generalizzati

per il ramo RCA

Considerazioni preliminariLa costruzione di un GLM è preceduta da alcune importanti fasi:

Raggruppamento Territoriale: negli ultimi anni le imprese di assicurazione utilizzano per

ogni CAP un coefficiente tariffario. Questo comporta una sovra parametrizzazione del

modello, con conseguenti problemi di significatività dei parametri e conseguente AIC

alto dato l’elevato numero di parametri. Inoltre, è naturale pensare che zone vicine

siano similmente rischiose. Per tale raggruppamento, quindi, utilizzeremo le tecniche di

cluster analysis, sfruttando delle variabili rappresentative del rischio, ma anche variabili

volte a tener conto della vicinanza territoriale.

Selezione delle variabili: i modelli di regressione sono spesso utilizzati in situazioni in cui ci sono numerose variabili esplicative potenzialmente influenti sulla valutazione della

variabile risposta. La costruzione di un modello con molte variabili comporta

l’introduzione di molti parametri, mentre una desiderabile proprietà di ogni modello

statistico è quella della parsimonia nel numero dei parametri. I procedimenti di

selezione delle variabili hanno l’obiettivo di determinare un sottoinsieme di variabili

esplicative significative, in modo che il modello stimato realizzi un buon adattamento ai valori osservati, ma che dipenda da un numero relativamente basso di parametri.

Descrizione del database Il database è costituito da 570385 record:

Le variabili considerate sono: PROVINCIA

CLASSE BONUS-MALUS

ETA’ DEL VEICOLO

ETA’ DEL CONDUCENTE

Le variabili numeriche che saranno modellate con i GLM: numero dei sinistri NO CARD

costo NO CARD

MIN MAX MEDIA TOTALE

NUMERO SX 0 3 0,005 2’835

COSTO SX 0€ 1’200’500€ 12’694€ 35’690’078€

Ricordiamo che La CARD, ovvero la Convenzione tra gli Assicuratori per il Risarcimento Diretto, è laconvenzione tra le compagnie assicuratrici con lo scopo di regolamentare i rapporti tra esse nell'ambito

dell’ RC Auto. Consente al proprietario dell'auto che subisce un danno, causato da un incidente stradale,

di rivolgersi direttamente alla propria agenzia per ottenere il rimborso dei danni. Vi sarà poi una

compensazione tra le Imprese.

Analisi territoriali e cluster analysis La cluster analysis è una tecnica di analisi multivariata attraverso la quale è possibile

raggruppare le unità statistiche, in modo da minimizzare la “lontananza logica”

interna a ciascun gruppo e di massimizzare quella tra i gruppi. La “lontananza logica”

viene quantificata per mezzo di misure di similarità/dissimilarità definite tra le unità

statistiche.

La regola in base alla quale si formano i gruppi dipende dal tipo di dati. Infatti, per

dati quantitativi si hanno misure di distanza, mentre per dati qualitativi si hanno misure

di associazione.

DISTANZA EUCLIDEA

Le tecniche di cluster analysis possono essere gerarchiche e non gerarchiche. Queste

a sua volta possono essere di tipo aggregativo o divisivo.

L’algoritmo che utilizzeremo per creare i gruppi è l’algoritmo di Ward, un algoritmo di

tipo gerarchico aggregativo, che mira a minimizzare la varianza all’interno dei gruppi.

Per tale motivo, questo algoritmo può essere utilizzato solo per variabili quantitative.

I cluster ottenutiNel database sono presenti le 110 provincie italiane. Si è scelto di

suddividerle in gruppi sulla base di tre variabili:

Latitudine

Longitudine

Quota danni media per provincia, definita come il rapporto tra il

costo e il numero dei veicoli.

I cluster vengono creati in modo iterativo con l’algoritmo di Ward. Tra i

diversi raggruppamenti ottenuti, è necessario scegliere quello più

appropriato. Per fare fronte a questa delicata scelta, si utilizza un criterio di arresto noto come criterio di Elbow. In particolare, si stabilisce una

«soglia di aumento» della varianza spiegata (ev) e si sceglie il numero di

cluster che garantisce una differenza sulla varianza spiegata inferiore

alla soglia di aumento.

VICINANZA TERRITORIALE

I risultati del test di Elbowll numero di classi derivante dal test di Elbow è pari a 11 e corrisponde al numero di

classi, che comporta un incremento della varianza spiegata inferiore a 0,01

k ev differenze

1 0

2 0,558057 0,5580569

3 0,695304 0,1372475

4 0,787718 0,0924134

5 0,854852 0,0671342

6 0,893411 0,0385586

7 0,912856 0,0194449

8 0,925722 0,0128666

9 0,937866 0,0121441

10 0,948587 0,0107208

11 0,953559 0,0049719

12 0,95752 0,0039613

Il dendogramma

AVELLINO, BENEVENTO, CAMPOBASSO,

CESENA, ISERNIA, NAPOLI, SALERNO

Il modello per il numero sinistri e la

selezione delle variabiliRicordiamo che, per la variabile risposta «numero dei sinistri», il relativo GLM avrà le seguenti

caratteristiche:

Regressori: PROVINCIA, CLASSE BONUS-MALUS, ETA’ DEL VEICOLO, ETA’ DEL CONDUCENTE.

Distribuzione della variabile risposta: Poisson

Link: Logaritmo

Offset: Logaritmo delle esposizioni

Passando alla fase di selezione delle variabili, solitamente si utilizzano dei procedimenti

automatici di selezione. Quest’ultimi hanno una duplice funzione:

Riducono il numero di modelli da analizzare

Guidano nella selezione

I più diffusi sono procedimenti automatici iterativi di tipo forward, backward e stepwise e si basano sul confronto tra modelli, uno annidato nell'altro.

Questi modelli sono guidati dall’Akaike Information Criterion e dal p-value.

Procedimento forwardSi parte dal modello con sola intercetta e si aggiunge una variabile ad ogni passo, partendo dalla più significativa.

Le variabili vengono aggiunte tramite l’AIC:

Si parte dal modello con sola intercetta e si calcola il primo AIC, che chiameremo AIC0

Si fanno girare 4 modelli di tipo intercetta+variabile1 (un modello per ognuna delle 4 variabili da scegliere) e si vede quello che tra questi genera l’AIC minimo. Indichiamo tale valore con AIC1

Successivamente, si guarda alla Differenza tra i due AIC, scegliendo come sogliail valore 5

In particolare, se la differenza AIC0 – AIC1> 5 allora si procede con il passo 2, inserendo una nuova variabile tra quelle rimanenti e si fanno girare 3 modelli del tipo intercetta+variabile1+variabile2 , altrimenti mi fermo alle variabili selezionate fino a quel momento

Procedimento backward e procedimento

stepwise

Il procedimento backward è il procedimento opposto rispetto al «forward». Infatti, in

questo caso, si parte dal modello completo con tutte le variabili inserite.

Successivamente, al primo passo, si toglie dal modello la variabile meno significativa, ovvero quella tra le non significative (con p-value ≥ 𝛼) e alla quale corrisponde il p-

value più elevato

Anche in questo tipo di procedimento, è sempre doveroso guardare all’AIC del

modello, o meglio alla differenza di AIC sui modelli che si vanno a creare.

Infine, il procedimento stepwise, combina il procedimento forward con il

procedimento backward. In un generico passo, quello che si fa è considerare un

passo forward, quindi inserire una nuova variabile, e un passo backward per

verificare se la variabile appena inserita renda superflua qualcuna delle variabili

precedentemente inserite nel modello.

Il procedimento termina quando si trova un modello uguale ad uno già ottenuto.

Il modello GLMMediante il software R, è possibile creare il modello utilizzando la seguente sintassi

Effettuiamo in modo

automatico la procedura

stepwise

La variabile Bonus-MalusLa variabile Bonus-Malus è una variabile particolare, perché ne conosciamo l’andamento

«a priori». Essa infatti, deve essere crescente al crescere delle classi

Ho a disposizione due approcci:

Scelgo dei parametri fissati dall’impresa e li inserisco nel modello

Effettuo un variate, ovvero trasformo la variabile da qualitativa a quantitativa e inserisco

un polinomio con andamento crescente

Variate per la variabile Bonus-Malus

FASE 1

FASE 2

FASE 3

Modello finale per il numero sinistri

AIC(FINALE)=12610

Lettura dell’outuput

La colonna valore: Indica il valore del parametro β per una modalità (non è il

coefficiente tariffario)

La colonna standard error: è il reciproco della statistica test di Wald 𝑠𝑑 𝛽 𝛽,

quando l’ipotesi nulla è β=0

La terza colonna contiene i p-value che permettono di verificare la significatività del parametro

La colonna Exp(Valore): è l’inverso della funzione link applicata al parametro e

corrisponde al coefficiente tariffario. Infatti, ricordiamo che:

Il predittore lineareRicordiamo le ipotesi alla base dei GLM

Per ogni combinazione di variabili è possibile calcolare il predittore lineare e quindi 𝐸 𝑁 ,

ovvero il numero atteso di sinistri

OFFSET

VALORI OTTENUTI DALLA

VARIATE POLINOMIALE

Modello per il costo medio

Ricordiamo le scelte fatte per la costruzione del glm per

il costo medio dei sinistri:

VARIABILE RISPOSTA: costo medio dei sinistri

VARIABILI ESPLICATIVE: province(cluster), classi bonus-

malus, età del veicolo, età del conducente

DISTRIBUZIONE DELLA VARIABILE RISPOSTA: Gamma

FUNZIONE LINK: logaritmo

PESI: numero dei sinistri

Stepwise regression

Variate per la variabile Bonus-Malus

FASE 1

FASE 2

FASE 3

FASE 1

Modello finale per il costo medio

AIC(FINALE)=61333

Bibliografia

«La tariffazione nei rami danni con modelli lineari

generalizzati», Gigante P., Picech L., Sigalotti L. , EUT

Edizioni Università di Trieste(2010).

«An introduction to generalized linear models, Second Edition», Annette J. Dobson, CHAPMAN & HALL/CRC

(2002)

«Modelli stocastici della classe GLM», SIFA, http://www.sifa-attuari.it/materiale/stampa_2_GLM.pdf

Documents

I modelli lineari generalizzati - Altervista