Upload
others
View
27
Download
0
Embed Size (px)
Citation preview
I modelli lineari generalizzati per
la tariffazione nel ramo RCA
Giuseppina BozzoGiuseppina Bozzo
I modelli per l’analisi dei datiI notevoli sviluppi tecnologici che hanno
caratterizzato gli ultimi decenni, hanno messo a
disposizione delle aziende una grande quantità di
dati.
Una delle grandi sfide per l’azienda, e in particolare
per una compagnia assicurativa, è quella di
elaborare questi dati, così da estrarne rilevantiinformazioni.
Per quanto riguarda l’analisi statistica, un maggiore numero di dati a disposizioneimplica maggiore capacità di previsione. È da notare però che nei campioni di
dati a disposizione, sta aumentando anche il numero di variabili attraverso cui è
possibile descrivere il fenomeno.
Questa è una caratteristica di fondamentale importanza e necessita di modelliavanzati in grado di sfruttare e di gestire il numero sempre maggiore di variabili
I modelli lineari generalizzati nel
ramo danni
In ambito assicurativo, il flusso di dati in questione
riguarda le polizze assicurative che possono essere
descritte attraverso un vasto numero di variabili
numeriche e non. Si rende necessario perciò l’utilizzo di
modelli statistici.
In particolare, facendo riferimento al ramo danni, ci
occuperemo dei modelli lineari generalizzati, utilizzati
per uno dei principali scopi di una compagnia
assicurativa danni: determinare il premio, ovvero il
corrispettivo in denaro, da richiedere al contraente
della polizza.
Alcuni richiami…
In diversi campi della ricerca, capita spesso di ritrovarsi a
studiare le relazioni presenti tra le variabili oggetto di
studio.
Formalizzando il problema, indichiamo con y la variabile
dipendente e con 𝑥1, 𝑥2, …, 𝑥𝑘, le k variabili indipendenti,
dette anche regressori o variabili esplicative. Il modello
sarà:
𝑦 = 𝑓 𝑥1, 𝑥2, …, 𝑥𝑘 + 𝜀,dove la variabile 𝜀, è un vettore aleatorio di variabili non
osservabili.
Le variabili esplicativeLe variabili esplicative rappresentano delle caratteristiche osservabili, che influiscono
sulla valutazione probabilistica delle variabili risposta.
Esistono due tipi di variabili esplicative:
Variabili numeriche: hanno determinazioni numeriche, come ad esempio lavariabile “età dell’assicurato”;
Variabili nominali: hanno determinazioni non numeriche, come ad esempio la
variabile “sesso dell’assicurato”.
Le variabili che hanno una determinazione numerica possono essere inserite
direttamente nel modello, mentre le variabili non numeriche devono essere
precedentemente codificate numericamente attraverso una variabile binaria 0-1.
Solitamente, una variabile nominale con ℓ modalità 𝑐1, 𝑐2, … , 𝑐𝑙 può essere codificata
con variabili indicatrici, dette variabili dummy.
Esempio. Sesso dell’assicurato (Maschio-Femmina)
Variabile dummy →
Il modello lineare Se nella fase di specificazione del modello, si ipotizza che la funzione f sia lineare, si
avrà il modello lineare di equazione:
dove
Per completare la specificazione del modello è necessario effettuare le cosiddette
ipotesi fondamentali:
Inoltre, successivamente alla stima dei parametri, sarà necessario costruire intervalli di confidenza e test d’ipotesi. Affinché questo possa avvenire, è necessario ipotizzare che 𝜀~𝑁 0, 𝜎2𝐼
OMOSCHEDASTICITA’
Dai modelli lineari ai modelli lineari
generalizzati (GLM)
Dei modelli lineari, noti per la loro semplicità,
vengono criticati diversi aspetti, tra cui l’ipotesi di
omoschedasticità e l’ipotesi di normalità.
Infatti, si assume che la distribuzione della variabile
risposta sia normale, ma spesso non si ha a che fare
con variabili di questa natura.
Inoltre, la varianza del termine di errore e quindi anche della variabile risposta è
stata posta costante, ma spesso si
riscontra empiricamente che ciò non è
vero.
RESIDUI
I modelli lineari generalizzati
Anche nei modelli lineari generalizzati è possibile mettere in relazione una variabile risposta con un insieme di regressori. La novità, però, risiede nella
rimozione di quelle ipotesi che nei modelli lineari semplici risultavano necessarie.
In particolare, l’ipotesi di normalità viene generalizzata, ipotizzando che la
variabile dipendente y appartenga alla « famiglia esponenziale» e che quindi abbia la seguente funzione di densità:
𝑓𝑦 𝑦, 𝜗, 𝜑 = 𝑒𝑥𝑝𝑦𝜗 − 𝑏 𝜗
𝑎 𝜑+ 𝑐 𝑦, 𝜑 ,
Dove 𝑎 𝜑 , 𝑏 𝜗 e 𝑐 𝑦, 𝜑 sono delle funzioni note, la cui scelta individua una
particolare distribuzione. Il parametro 𝜑 è detto parametro di dispersione,
poiché è legato alla varianza di y.
E’ possibile dimostrare che 𝐸 𝑦𝑖 = 𝑏′ 𝜗𝑖 e 𝑉 𝑦𝑖 = 𝑎 𝜑 ∙ 𝑏′′ 𝜗𝑖 .
ETEROSCHEDASTICITA’
Un esempio…Verifichiamo che la distribuzione di Poisson può essere vista come caso
particolare della famiglia esponenziale:
Posto ϑ = ln 𝜆 e 𝑦 = 𝑛, otteniamo:
Tale funzione di densità appartiene alla famiglia esponenziale con funzioni:
La relazione tra media e predittore
lineareNei modelli lineari 𝑦 = 𝑋𝛽 + 𝜀, calcolando la media sulla i-esima componente si ha:
Viceversa, nei GLM, come generalizzazione, si suppone che media e predittore
lineare siano legati dalla funzione invertibile h. Per cui:
LA MEDIA E’ UGUALE AL PREDITTORE LINEARE
La funzione g è detta funzione link
LA MEDIA E’ FUNZIONE DEL PREDITTORE LINEARE
LINK CANONICI
Alcune famiglie della classe
esponenziale
Diagnostica
I vettori dei parametri 𝛽 e 𝜑 vengono stimati con il metodo della massima
verosimiglianza. Questo permette di sfruttare le proprietà degli stimatori di massima
verosimiglianza. Sotto opportune ipotesi, infatti, questi stimatori risultano essere:
asintoticamente normali
asintoticamente non distorti: 𝐸 𝛽 = β
asintoticamente pienamente efficienti: la matrice di varianze-covarianze coincide
con il reciproco della matrice d’informazione di Fisher 𝐼 𝛽
Sfruttando queste importanti proprietà degli stimatori MLE, è possibile ottenere
intervalli di confidenza per le stime del parametro 𝛽, ma anche test d’ipotesi sulla
validità dei parametri.
Validazione del modello
Per misurare la bontà di adattamento del modello, si definisce la devianza, data da:
Dove 𝑙 𝜗 è la log-verosimiglianza del modello stimato, mentre 𝑙 𝜗 è la log-verosimiglianza del modello saturo, ovvero il modello avente un numeri di parametri parialla dimensione del campione. Tanto più piccola è la devianza, tanto migliore sarà ilmodello stimato.
Inoltre, per quantificare la differenza tra i valori attesi e i valori reali, possiamo definire i
residui standardizzati di Pearson:
Infine, riportiamo la definizione dell’ Akaike's information criterion (AIC):
k=numero dei parametri
L=massima verosimiglianza del modello stimato
Le assicurazioni contro i danniOggetto del contratto di «assicurazione contro i danni» è l’intervento dell’assicuratore neiriguardi delle conseguenze di eventi dannosi o sinistri che possono colpire, in un fissatoperiodo temporale, il rischio assicurato. (…)A fronte degli impegni aleatori assuntidall’assicuratore, è richiesto al contraente il pagamento di un importo certo che prende ilnome di premio. (Daboni, 1989)
Nella tecnica attuariale esistono diverse
configurazioni di premio. Il punto di
partenza per la definizione del premio, è
il premio equo che corrisponde al valore
atteso del totale dei risarcimenti aleatori
a carico dell’impresa di assicurazione,
durante il periodo assicurato. Troviamo
poi il premio puro che comprende al suo
interno anche il cosiddetto caricamento
di sicurezza. L’ultima configurazione è il
premio di tariffa, pari alla somma tra
premio puro e caricamenti per spese,
destinati a coprire i costi di gestione.
La tariffazione nelle assicurazioni RCA Dal punto di vista teorico, è possibile rappresentare il risarcimento aleatorio totale X di
un generico assicurato in un certo periodo di riferimento, come:
N → numero aleatorio dei sinistri
𝑍𝑗→ importo aleatorio del danno arrecato dal j-esimo
sinistro
Calcolare il premio significa determinare il valore atteso e la varianza della variabile X
ed applicarvi dei caricamenti (di sicurezza e di spese). Il modello classico prevede le
seguenti ipotesi: ● 𝑍𝑗 e N sono stocasticamente indipendenti
● 𝑍𝑗 sono indipendenti ed identicamente distribuite
Calcolando il valore atteso del risarcimento aleatorio, si ottiene il premio equo, per il
quale è possibile verificare che:E’ NECESSARIO
STIMARE
E[N] E E[Z]
La personalizzazione della tariffaria
I portafogli assicurativi sono formati da un insieme di rischi fra loro eterogenei,
e tale eterogeneità è dovuta a fattori endogeni, insiti nella particolare natura
del rischio, ma anche a fattori esogeni tipicamente ambientali o socio-
economici. Mediante le tecniche di tariffazione l’assicuratore suddivide la
collettività di rischi in sottogruppi o classi, che presentano caratteristiche
analoghe, in modo da poter attribuire ai rischi appartenenti alla stessa classe, la medesima base tecnica.
La personalizzazione del premio può essere: a priori o a posteriori.
Nella personalizzazione a priori, i premi sono differenziati in funzione di caratteristiche dei rischi, osservabili al momento della conclusione del
contratto.
Nella personalizzazione a posteriori, si cerca di ovviare all’eterogeneità
rimanente in seguito alla personalizzazione a priori, tenendo conto dell’esperienza sulla sinistrosità di ciascun assicurato.
Le variabili tariffarie nella personalizzazione
del premio L’assicuratore individua dei sottogruppi di rischi analoghi, detti classi tariffarie
o classi di rischio, sulla base di variabili tariffarie, ovvero i fattori di rischio
selezionati. Esempi di fattori di rischio nell’ambito RCA sono:
I modelli tariffari Il modello tariffario consente di associare ad ogni classe il corrispondente premio,
grazie ad alcuni parametri da cui dipende, detti relatività. Una volta scelto il
modello tariffario e stimato le relatività è possibile ottenere la tariffa.
Supponendo di aver selezionato due sole variabili tariffarie aventi rispettivamente I
e J modalità ciascuna. Il portafoglio sarà quindi suddiviso in 𝐼 × 𝐽 classi tariffarie e la
coppia 𝑖, 𝑗 identifica la classe in cui la prima variabile ha modalità i, mentre la
seconda ha modalità j.
I modelli tariffari utilizzati sono:
MODELLO MOLTIPLICATIVO
MODELLO ADDITIVO
RELATIVITA’ PRIMA
VARIABILE
RELATIVITA’ SECONDA
VARIABILECOSTANTE
I modelli di regressione lineare nei
processi di tariffazione del ramo danni I modelli di regressione lineare permettono di stimare il valore atteso di una variabile risposta
attraverso una combinazione lineare delle determinazioni delle variabili esplicative. Dopo quanto visto in precedenza, si potrebbe pensare di applicare tali modelli per la determinazione della tariffa.
In realtà, per i processi di tariffazione, i modelli di regressione lineare possono risultare non completamente adatti, in particolare per ciò che concerne la tariffazione nei rami danni.
Il numero dei sinistri, infatti, segue una distribuzione di probabilità discreta e gli importi dei danni provocati dai sinistri hanno come supporto la semiretta positiva, generalmente con distribuzione asimmetrica positiva (IPOTESI DI NORMALITA’ NON SUPPORTATA)
Inoltre, in molti casi, non è accettabile l’ipotesi di un legame lineare tra il valore atteso della variabile risposta e le determinazioni delle variabili esplicative. Ad esempio, nei modelli tariffari moltiplicativi tale struttura non è rispettata (LINK IDENTITA’ RISULTA RESTRITTIVO)
LM GLM
I GLM nei processi di tariffazione del ramo danni In campo assicurativo i GLM sono impiegati per la definizione a priori della tariffa
e anche nella valutazione delle riserve tecniche.
Contrariamente ai ML, infatti, si assume che la variabile risposta appartenga alla
famiglia esponenziale e quindi che possa essere una Poisson, una binomiale, etc.
Inoltre, nel processo di tariffazione la funzione link indica come calcolare il
premio equo, in funzione delle caratteristiche delle variabili tariffarie. Quindi,
attraverso g si determina il modello tariffario. Ad esempio:
Modello per il numero di sinistri
I dati disponibili per i diversi assicurati di un portafoglio sono: ● Determinazioni delle variabili esplicative
● Numeri dei sinistri che hanno colpito i rischi nel periodo di osservazione
● Tempi di esposizione, ovvero le esposizioni o rischi/anno
Indichiamo con K il numero delle classi tariffarie in cui è ripartito il portafoglio, con 𝑛𝑘 il
numero degli assicurati nella classe k e con 𝑥𝑘 il vettore delle determinazioni delle variabili
esplicative comune ai rischi della classe
Per l’i-esimo assicurato della classe k, indichiamo con 𝑚𝑘𝑖 il numero dei sinistri nel periodo di
osservazione e con 𝑡𝑘𝑖 l’esposizione. Nel contesto dei GLM, 𝑚𝑘𝑖 è il valore osservato del
numero aleatorio 𝑀𝑘𝑖 dei sinistri che colpiscono il rischio assicurato nel periodo di
osservazione.
Siano 𝜂𝑘 = 𝑥𝑘′𝛽 e 𝜆𝑘 > 0 rispettivamente il predittore lineare e il numero atteso annuo di
sinistri per ciascun assicurato della classe k. Indicando con g la funzione link avremo:
Modello Poisson per il numero di sinistri
Il parametro della distribuzione è il prodotto tra l’esposizione e il numero atteso annuo
di sinistri per un assicurato nella classe k.
Data la natura delle variabili aleatorie 𝑀𝑘𝑖 si assume solitamente:
Partendo da questa ipotesi è possibile definire una distribuzione che appartiene alla
famiglia esponenziale, ma è necessario riparametrizzare, considerando, 𝜇𝑘𝑖 = 𝑡𝑘𝑖𝜆𝑘 e
ln 𝜇𝑘𝑖 = 𝜗𝑖.
Per la speranza matematica, ricordando che 𝑔 𝜆𝑘 = 𝜂𝑘, si ha:
Scegliendo per il link g il logaritmo naturale, la sua funzione inversa sarà l’esponenziale
e quindi:
Dove, il termine ln 𝑡𝑘𝑖 viene interpretato come la determinazione di una variabile
aggiuntiva con effetto noto, ovvero come un termine di offset.
Modello per il costo medio dei sinistri Per la definizione di tali modelli è fondamentale disporre dei seguenti dati:
● le determinazioni delle variabili esplicative
● il numero di sinistri
● gli importi del costo, causati dai singoli sinistri o i danni totali per polizza.
Bisogna notare, però, che spesso i dati a disposizione sono quelli dei risarcimenti che,
in caso di limitazioni di copertura (es. massimali, franchigia), differiscono dal danno
provocato
Inoltre, i dati sono spesso relativi a sinistri non chiusi, per i quali il costo viene stimatosommando il pagato e l’importo della riserva sinistri di inventario.
È da aggiungere che , il numero di polizze sinistrate è molto ristretto, quindi i dati
disponibili sono pochi e gli importi di danno sono per la grande maggioranza di
importo contenuto; mentre quelli di importo particolarmente elevato sono un numero
ristretto.
Tali problematiche rendono spesso le stime derivanti dai modelli per i danni meno
affidabili rispetto alle stime relative al numero di sinistri
Modello Gamma per il costo medio dei
sinistri Al fine di costruire il modello, indichiamo con 𝑚𝑘𝑖 il numero totale di sinistri che hanno
colpito una determinata classe tariffaria e con 𝐶𝑘𝑖 il danno aleatorio totale
Il danno medio per sinistro per la i-esimo polizza sinistrata della classe k potrà essere
calcolata come:
La distribuzione più utilizzata è la distribuzione gamma, che rientra a far parte della
famiglia esponenziale. È da notare che questa distribuzione ha come supporto 𝑅+ e
presenta asimmetria positiva. È possibile verificare che:
Anche in questo caso, il link scelto è il logaritmo, necessario per fare in modo che il
modello sia moltiplicativo.
Applicazione: stima del
premio equo attraverso i
modelli lineari generalizzati
per il ramo RCA
Considerazioni preliminariLa costruzione di un GLM è preceduta da alcune importanti fasi:
Raggruppamento Territoriale: negli ultimi anni le imprese di assicurazione utilizzano per
ogni CAP un coefficiente tariffario. Questo comporta una sovra parametrizzazione del
modello, con conseguenti problemi di significatività dei parametri e conseguente AIC
alto dato l’elevato numero di parametri. Inoltre, è naturale pensare che zone vicine
siano similmente rischiose. Per tale raggruppamento, quindi, utilizzeremo le tecniche di
cluster analysis, sfruttando delle variabili rappresentative del rischio, ma anche variabili
volte a tener conto della vicinanza territoriale.
Selezione delle variabili: i modelli di regressione sono spesso utilizzati in situazioni in cui ci sono numerose variabili esplicative potenzialmente influenti sulla valutazione della
variabile risposta. La costruzione di un modello con molte variabili comporta
l’introduzione di molti parametri, mentre una desiderabile proprietà di ogni modello
statistico è quella della parsimonia nel numero dei parametri. I procedimenti di
selezione delle variabili hanno l’obiettivo di determinare un sottoinsieme di variabili
esplicative significative, in modo che il modello stimato realizzi un buon adattamento ai valori osservati, ma che dipenda da un numero relativamente basso di parametri.
Descrizione del database Il database è costituito da 570385 record:
Le variabili considerate sono: PROVINCIA
CLASSE BONUS-MALUS
ETA’ DEL VEICOLO
ETA’ DEL CONDUCENTE
Le variabili numeriche che saranno modellate con i GLM: numero dei sinistri NO CARD
costo NO CARD
MIN MAX MEDIA TOTALE
NUMERO SX 0 3 0,005 2’835
COSTO SX 0€ 1’200’500€ 12’694€ 35’690’078€
Ricordiamo che La CARD, ovvero la Convenzione tra gli Assicuratori per il Risarcimento Diretto, è laconvenzione tra le compagnie assicuratrici con lo scopo di regolamentare i rapporti tra esse nell'ambito
dell’ RC Auto. Consente al proprietario dell'auto che subisce un danno, causato da un incidente stradale,
di rivolgersi direttamente alla propria agenzia per ottenere il rimborso dei danni. Vi sarà poi una
compensazione tra le Imprese.
Analisi territoriali e cluster analysis La cluster analysis è una tecnica di analisi multivariata attraverso la quale è possibile
raggruppare le unità statistiche, in modo da minimizzare la “lontananza logica”
interna a ciascun gruppo e di massimizzare quella tra i gruppi. La “lontananza logica”
viene quantificata per mezzo di misure di similarità/dissimilarità definite tra le unità
statistiche.
La regola in base alla quale si formano i gruppi dipende dal tipo di dati. Infatti, per
dati quantitativi si hanno misure di distanza, mentre per dati qualitativi si hanno misure
di associazione.
DISTANZA EUCLIDEA
Le tecniche di cluster analysis possono essere gerarchiche e non gerarchiche. Queste
a sua volta possono essere di tipo aggregativo o divisivo.
L’algoritmo che utilizzeremo per creare i gruppi è l’algoritmo di Ward, un algoritmo di
tipo gerarchico aggregativo, che mira a minimizzare la varianza all’interno dei gruppi.
Per tale motivo, questo algoritmo può essere utilizzato solo per variabili quantitative.
I cluster ottenutiNel database sono presenti le 110 provincie italiane. Si è scelto di
suddividerle in gruppi sulla base di tre variabili:
Latitudine
Longitudine
Quota danni media per provincia, definita come il rapporto tra il
costo e il numero dei veicoli.
I cluster vengono creati in modo iterativo con l’algoritmo di Ward. Tra i
diversi raggruppamenti ottenuti, è necessario scegliere quello più
appropriato. Per fare fronte a questa delicata scelta, si utilizza un criterio di arresto noto come criterio di Elbow. In particolare, si stabilisce una
«soglia di aumento» della varianza spiegata (ev) e si sceglie il numero di
cluster che garantisce una differenza sulla varianza spiegata inferiore
alla soglia di aumento.
VICINANZA TERRITORIALE
I risultati del test di Elbowll numero di classi derivante dal test di Elbow è pari a 11 e corrisponde al numero di
classi, che comporta un incremento della varianza spiegata inferiore a 0,01
k ev differenze
1 0
2 0,558057 0,5580569
3 0,695304 0,1372475
4 0,787718 0,0924134
5 0,854852 0,0671342
6 0,893411 0,0385586
7 0,912856 0,0194449
8 0,925722 0,0128666
9 0,937866 0,0121441
10 0,948587 0,0107208
11 0,953559 0,0049719
12 0,95752 0,0039613
Il dendogramma
AVELLINO, BENEVENTO, CAMPOBASSO,
CESENA, ISERNIA, NAPOLI, SALERNO
Il modello per il numero sinistri e la
selezione delle variabiliRicordiamo che, per la variabile risposta «numero dei sinistri», il relativo GLM avrà le seguenti
caratteristiche:
Regressori: PROVINCIA, CLASSE BONUS-MALUS, ETA’ DEL VEICOLO, ETA’ DEL CONDUCENTE.
Distribuzione della variabile risposta: Poisson
Link: Logaritmo
Offset: Logaritmo delle esposizioni
Passando alla fase di selezione delle variabili, solitamente si utilizzano dei procedimenti
automatici di selezione. Quest’ultimi hanno una duplice funzione:
Riducono il numero di modelli da analizzare
Guidano nella selezione
I più diffusi sono procedimenti automatici iterativi di tipo forward, backward e stepwise e si basano sul confronto tra modelli, uno annidato nell'altro.
Questi modelli sono guidati dall’Akaike Information Criterion e dal p-value.
Procedimento forwardSi parte dal modello con sola intercetta e si aggiunge una variabile ad ogni passo, partendo dalla più significativa.
Le variabili vengono aggiunte tramite l’AIC:
Si parte dal modello con sola intercetta e si calcola il primo AIC, che chiameremo AIC0
Si fanno girare 4 modelli di tipo intercetta+variabile1 (un modello per ognuna delle 4 variabili da scegliere) e si vede quello che tra questi genera l’AIC minimo. Indichiamo tale valore con AIC1
Successivamente, si guarda alla Differenza tra i due AIC, scegliendo come sogliail valore 5
In particolare, se la differenza AIC0 – AIC1> 5 allora si procede con il passo 2, inserendo una nuova variabile tra quelle rimanenti e si fanno girare 3 modelli del tipo intercetta+variabile1+variabile2 , altrimenti mi fermo alle variabili selezionate fino a quel momento
Procedimento backward e procedimento
stepwise
Il procedimento backward è il procedimento opposto rispetto al «forward». Infatti, in
questo caso, si parte dal modello completo con tutte le variabili inserite.
Successivamente, al primo passo, si toglie dal modello la variabile meno significativa, ovvero quella tra le non significative (con p-value ≥ 𝛼) e alla quale corrisponde il p-
value più elevato
Anche in questo tipo di procedimento, è sempre doveroso guardare all’AIC del
modello, o meglio alla differenza di AIC sui modelli che si vanno a creare.
Infine, il procedimento stepwise, combina il procedimento forward con il
procedimento backward. In un generico passo, quello che si fa è considerare un
passo forward, quindi inserire una nuova variabile, e un passo backward per
verificare se la variabile appena inserita renda superflua qualcuna delle variabili
precedentemente inserite nel modello.
Il procedimento termina quando si trova un modello uguale ad uno già ottenuto.
Il modello GLMMediante il software R, è possibile creare il modello utilizzando la seguente sintassi
Effettuiamo in modo
automatico la procedura
stepwise
La variabile Bonus-MalusLa variabile Bonus-Malus è una variabile particolare, perché ne conosciamo l’andamento
«a priori». Essa infatti, deve essere crescente al crescere delle classi
Ho a disposizione due approcci:
Scelgo dei parametri fissati dall’impresa e li inserisco nel modello
Effettuo un variate, ovvero trasformo la variabile da qualitativa a quantitativa e inserisco
un polinomio con andamento crescente
Variate per la variabile Bonus-Malus
FASE 1
FASE 2
FASE 3
Modello finale per il numero sinistri
AIC(FINALE)=12610
Lettura dell’outuput
La colonna valore: Indica il valore del parametro β per una modalità (non è il
coefficiente tariffario)
La colonna standard error: è il reciproco della statistica test di Wald 𝑠𝑑 𝛽 𝛽,
quando l’ipotesi nulla è β=0
La terza colonna contiene i p-value che permettono di verificare la significatività del parametro
La colonna Exp(Valore): è l’inverso della funzione link applicata al parametro e
corrisponde al coefficiente tariffario. Infatti, ricordiamo che:
Il predittore lineareRicordiamo le ipotesi alla base dei GLM
Per ogni combinazione di variabili è possibile calcolare il predittore lineare e quindi 𝐸 𝑁 ,
ovvero il numero atteso di sinistri
OFFSET
VALORI OTTENUTI DALLA
VARIATE POLINOMIALE
Modello per il costo medio
Ricordiamo le scelte fatte per la costruzione del glm per
il costo medio dei sinistri:
VARIABILE RISPOSTA: costo medio dei sinistri
VARIABILI ESPLICATIVE: province(cluster), classi bonus-
malus, età del veicolo, età del conducente
DISTRIBUZIONE DELLA VARIABILE RISPOSTA: Gamma
FUNZIONE LINK: logaritmo
PESI: numero dei sinistri
Stepwise regression
Variate per la variabile Bonus-Malus
FASE 1
FASE 2
FASE 3
FASE 1
Modello finale per il costo medio
AIC(FINALE)=61333
Bibliografia
«La tariffazione nei rami danni con modelli lineari
generalizzati», Gigante P., Picech L., Sigalotti L. , EUT
Edizioni Università di Trieste(2010).
«An introduction to generalized linear models, Second Edition», Annette J. Dobson, CHAPMAN & HALL/CRC
(2002)
«Modelli stocastici della classe GLM», SIFA, http://www.sifa-attuari.it/materiale/stampa_2_GLM.pdf