La regressione logistica - UniBG · mente per cui si possono effettuare i test di significatività sui parametri, e quando ci sono più parametri i test sull’opportunità di includerli

Statistica Industriale Lez. 9

La regressione logistica

Supponiamo che la variabile di interesse y sia una variabile dicotoma, cheassuma solo i valori 0 ovvero 1, corrispondenti a successo o insuccesso.Sia p = P (S) = P (Y = 1) la probabilita di osservare un successo. In molteapplicazioni e realistico pensare che p dipenda dal valore di una qualchevariabile x quantitativa, o anche da piu di una, p = p(x). Ad esempio laprobabilita che una macchina abbia bisogno del servizio di soccorso puodipendere dai km percorsi, dal numero di interventi di manutenzione, etc.Se supponiamo un modello lineare del tipo Y = β0 + β1x1 + . . . + βkxk + ε

allora

E(Y |x) = p(x) = β0 + β1x + . . . + βkxk = β · x

non sembra essere realistico in quanto deve essere 0 < p(x) < 1 per ogni x.Si richiede allora a E(Y |x) di essere una funzione di β0 + β1x + . . . + βkxk.La funzione che si e dimostrata utile in molte applicazioni e la funzionelogistica f(z) = ez

1+ez . Si suppone quindi che il legame sia

E(Y |x) = p(x) =eβ·x

1 + eβ·x ovvero logitp(x) = lnp(x)

1− p(x)= β · x

1


0 2 4 6 8 10

0.0

0.2

0.4

0.6

0.8

1.0

x

p(x)

β1 < 0

0 2 4 6 8 10

0.0

0.2

0.4

0.6

0.8

1.0

x

p(x)

β1 > 0

I grafici rappresentano la funzione p(x) per particolari valori di β0 e β1. In

particolare per β1 < 0 la probabilita di successo decresce al crescere di x,

mentre per β1 > 0 la probabilita del successo cresce al crescere di x.

La funzione p(x)1−p(x) e detto ODDS RATIO e rappresenta quante volte il

successo e piu plausibile dell’insuccesso.

2


La regressione logistica e una caso particolare di Modello lineare gene-

ralizzato (glm). In questi modelli e una trasformazione (tramite la link

function) di E(Y ) che segue un modello lineare. Nel modello logit la link

function e la funzione logit. Abbiamo infatti

E(Y ) = p lnp

1− p= β · x

La stima dei parametri avviene, una volta costruita la funzione di verosimi-

glianza per le osservazioni Yi, con metodi iterativi in quanto non si riesce

a dare una forma esplicita al massimo della logverosimiglianza. Il metodo

usato e l’IWLS (iterative weighted least squares). Si noti che nella re-

gressione logistica si ipotizza che Y e distribuita come una Binomiale con

parametri n = 1 e p incognita.

Si puo dimostrare che asintoticamente i parametri si distribuiscono normal-

mente per cui si possono effettuare i test di significativita sui parametri, e

quando ci sono piu parametri i test sull’opportunita di includerli nel modello.

3


Esempio: Si considerino i dati relativi alla temperatura di lancio e all’in-cidenza dei fallimenti per gli O rings in 24 lanci dello Space Shuttle primadel disastro del Challenger nel gennaio 1986.

Temp Failure1 53 Y2 56 Y3 57 Y4 63 N5 66 N6 67 N7 67 N8 67 N

Temp Failure9 68 N

10 69 N11 70 N12 70 Y13 70 Y14 70 Y15 72 N16 73 N

Temp Failure17 75 N18 75 Y19 76 N20 76 N21 78 N22 79 N23 80 N24 81 N

In questo caso abbiamo solo una variabile esplicativa, Temp. Ipotizziamoun modello logistico per l’incidenza dei successi (No Failure= successo).

lnp(x)

1− p(x)= β0 + β1x

p(x) e la probabilita di successo, ovvero di Failure=No, quando osserviamoTemp = x.

4


I valori dei parametri stimati sono riportati nella seguente tabella

Estimate Std. Error z value Pr(>|z|)(Intercept) −10.8753 5.7029 −1.91 0.0565

Temp 0.1713 0.0834 2.05 0.0400

La curva stimata per p(x) e data da

50 55 60 65 70 75 80 85

0.2

0.4

0.6

0.8

1.0

La funzione p(x) stimata

x

p(x)

Siamo in grado anche di stimare l’odds ratio per x = 31 (Temp per ilChallenger esploso) che vale 0.0038172 cioe la probabilita di un successo(N) e 0.004 volte quella di un insuccesso (Y).

5


Regressione non lineare

A volte, per motivi teorici o esaminando i risultati della diagnostica basata

sull’analisi dei residui, il modello lineare semplice o multiplo puo risultare

non adatto a spiegare la variabilita della variabile y. Si ricorre allora a

modelli alternativi.

Consideriamo una vasta gamma di modelli che non sono lineari nei para-

metri o nella variabili esplicative. Supponiamo che il legame tra le variabili

y e x sia del tipo y = f(x) ma a causa di un errore non osserviamo y ma il

valore di una v.c.

Y = f(x) + ε

In generale f e una funzione che dipende da un certo numero di parametri

(θ) e da un certo numero di variabili esplicative x. Il termine di errore ε

si suppone normalmente distribuito. Se la forma della funzione f e nota a

meno di un numero finito di parametri si parla di regressione parametrica.

Se la f e totalmente incognita si parla di regressione non parametrica.

6


Se il modello e del tipo

Y = f(x, θ) + ε, θ = (θ1, . . . , θp), E(ε) = 0, V ar(ε) = σ2

supponiamo di avere n osservazioni indipendenti (xi, yi) che soddisfano

yi = f(xi, θ) + εi, θ = (θ1, . . . , θp), εi i.i.d, E(εi) = 0, V ar(εi) = σ2

Introducendo la notazione matriciale

y = (y1, . . . , yn)′, f(x, θ) = (f(x1, θ), . . . , f(xn, θ))′, ε = (ε1, . . . , εn)

′

la stima ai minimi quadrati e data da

θ = argminθSSE, dove SSE = |y − f(x, θ)|2 =n∑

i=1

(yi − f(xi, θ))2

La procedura che ci da la stima θ si chiama NLS (non linear least squares)

e differisce da quella OLS in quanto:

a) non c’e una formula esplicita per la stima θ

b) per trovare θ si usano procedure iterative

c) occorre fornire dei valori iniziali ai parametri

7


La procedura iterativa

Seppure esistano numerose tecniche per trovare θ = argminθSSE, mol-te seguono questo schema. Sia θ(0) un valore iniziale del parametro θ.Possiamo scrivere

f(x, θ) = f(x, θ(0)) +p∑

j=1

(θj − θ(0)j )

∂

∂θjf(x, θ)

∣∣∣θ=θ(0)

Questo definisce un piano tangente alla superficie definita da f nel puntoθ(0).

Posto

Fkj(xk, θ(0)) =∂

∂θjf(xk, θ)

∣∣∣θ=θ(0) w(0)k = f(xk, θ(0))−

p∑j=1

θ(0)j Fkj(xk, θ(0))

possiamo riscrivere

f(x, θ) = w(0) + F (x, θ(0)) · θ,

dove w(0) = (w(0)1 , . . . , w

(0)n )′ e F (x, θ(0)) e la matrice di componenti Fkj(xk, θ(0)),

k = 1, . . . , n, j = 1, . . . , p.

8


Il processo iterativo consiste nel regredire f sul piano tangente con inter-

cetta w(0). Il modello approssimato diviene, posto F (x, θ) = F (θ)

y = w(0) + F (θ(0)) · θ

e la stima ai minimi quadrati ci da l’approssimazione successiva

θ(1) =(F (θ(0))TF (θ(0))

)−1F (θ(0))T (y −w(0))

Il processo continua fino a convergenza, cioe fino a quando la differenza

tra due valori successivi di θ(k) non e piu piccolo di un valore prefissato.

La stima θ ottenuta e una approssimazione della stima θ NLS.

Si noti che nel modello lineare w(0) = 0, F (θ(0)) = X e il processo converge

in un passo.

9


Inferenza per θ

Sotto opportune ipotesi (legate alla derivabilita) sulla funzione f si ha cheasintoticamente (quando il numero delle osservazioni n →∞)

θ ∼ N(θ, σ2(F (θ)′F (θ))−1).

La stima della varianza asintotica di θ si ottiene sostituendo F (θ) con unasua stima F = F (θ) e come stima di σ2 la quantita s2 = SSE

n−p . La stima della

matrice di varianza e covarianza di θ risulta quindi s2(F ′F )−1. In analogiaa quanto fatto nel caso dell’analisi di regressione multivariata, indichiamocon C = (F ′F )−1. L’intervallo di confidenza (asintotico) a livello di fiducia1− α per il parametro θi e dato da(

θi − t1−α/2

√s2cii; θi + t1−α/2

√s2cii

),

dove cii sono gli elementi sulla diagonale principale della matrice C.

La verifica di ipotesi per la significativita dei parametri θ si basa sullastatistica che asintoticamente si distribuisce come una tn−p.

t =θi − θ0

i√s2cii

10


Modelli intrinsecamente lineari

Una funzione y = f(x) e detta intrinsecamente lineare se attraverso unatrasformazione di x, di y o di entrambe le variabili la funzione puo essereespressa come y′ = β0 + β1x′, y′ = g(y), x′ = h(x).

Le piu utilizzate funzioni di questo tipo sono descritte nella tabella seguentedove si riportano anche le trasformazioni da applicare per rendere il legamelineare

Funzione Trasf. variabile x Trasf. variabile y Forma Linearey = αeβx – y′ = ln y y′ = ln(α) + βx

y = αxβ x′ = logx y′ = ln y y′ = ln(α) + βx′

y = α + β logx x′ = logx – y = α + βx′

y = α + β1x x′ = 1

x – y = α + βx′

Un modello probabilistico che lega il valore di una v.c. Y a x e dettointrinsecamente lineare se attraverso una trasformazione di x o di Y o dientrambe le variabili la funzione puo essere espressa come

Y ′ = β0 + β1x′ + ε′

11


0 1 2 3 4 5

050

100

150

x

e(βx)

β > 0

0 1 2 3 4 5

0.0

0.2

0.4

0.6

0.8

1.0

xe(β

x)

β < 0

0 1 2 3 4 5

05

1015

2025

x

xβ

β > 1β < 0

0 1 2 3 4 5

0.0

0.5

1.0

1.5

2.0

x

xβ

0 < β < 1

0 1 2 3 4 5

01

23

4

x

βlog

(x)

β > 0

0 1 2 3 4 5

23

45

6

x

βlog

(x)

β < 0

0 1 2 3 4 5

02

46

810

x

α+

β1x

β < 0

y = α

0 1 2 3 4 5

−4

−2

02

4

x

α+

β1x

β < 0

y = α

12


I modelli probabilistici che corrispondono alle quattro funzioni della tabella

precedente sono

Il modello esponenziale moltiplicativo: Y = αeβx · ε

Con la trasformazione Y ′ = lnY otteniamo il modello Y ′ = β0+β1x′+ε′ con

x′ = x, β0 = lnα β1 = β e ε′ = ln ε. Se ε ha una distribuzione Lognormale

con E(ε) = eσ2/2 e V ar(ε) = eσ2(eσ2 − 1) allora ε′ e N(0, σ2).

Il modello con potenza moltiplicativo: Y = αxβ · ε

Otteniamo il modello Y ′ = β0 + β1x′+ ε′ con Y ′ = lnY , x′ = lnx, β0 = lnα

β1 = β e ε′ = ln ε. Se ε ha una distribuzione Lognormale con E(ε) = eσ2/2

e V ar(ε) = eσ2(eσ2 − 1) allora ε′ e N(0, σ2).

13


Il modello logaritmico additivo: Y = α + β logx + ε

Otteniamo il modello Y ′ = β0 + β1x′ + ε′ con Y ′ = Y , x′ = logx, β0 = α

β1 = β e ε′ = ε. In questo caso ε = ε′ e N(0, σ2).

Il modello reciproco additivo: Y = α + β1x + ε

Otteniamo il modello Y ′ = β0+β1x′+ε′ con Y ′ = Y , x′ = 1x, β0 = α β1 = β

e ε′ = ε. In questo caso ε = ε′ e N(0, σ2).

Si noti che il modello esponenziale additivo Y = αeβx + ε e il modello conpotenza additivo Y = αxβ + ε non sono intrinsecamente lineari.

I parametri dei modelli trasformati si possono direttamente stimare utiliz-zando OLS per i dati trasformati y′ e x′. Dalle stime di di β0 e β1 si puoeventualmente risalire ai parametri dei modelli di partenza trasformandoliopportunamente.

Queste stime in generale non coincidono con quelle ottenute direttamentecon NLS sui dati non trasformati.

14


Esempio: I seguenti dati sono tratti dall’articolo Thermal Endurance of

Polyester Enameled Wires Using Twisted Wire Specimens, IEEE Trans.

Insulation, 1965, 38–44, dove in un test per verificare la resistenza termica

si vuole capire il legame tra la temperatura e il tempo di vita del filo di

poliestere smaltato.

1 2 3 4 5 6 7 8 9Temp 200 200 200 200 200 200 220 220 220

Lifetime 5933 5404 4947 4963 3358 3878 1561 1494 747

10 11 12 13 14 15 16 17 18Temp 220 220 220 240 240 240 240 240 240

Lifetime 768 609 777 258 299 209 144 180 184

I seguenti grafici riportano i dati con varie trasformazioni sia per la variabile

x che per la variabile y.

15


200 210 220 230 240

020

0040

0060

00

Temp

Life

time

0.0042 0.0044 0.0046 0.0048 0.0050

020

0040

0060

00

1/Temp

Life

time

200 210 220 230 240

56

78

Temp

log(

Life

time)

0.0042 0.0044 0.0046 0.0048 0.0050

56

78

1/Temp

log(

Life

time)

16


Se applichiamo il modello lineare semplice Y = β0 + β1x + ε otteniamo laretta riportata in figura

200 210 220 230 240

−10

000

1000

2000

3000

4000

5000

6000

Modello 1

Temp

Life

time

Le stime dei parametri sono β0 = 26925.64 e β1 = −113.37, entrambisignificativi, la statistica r2 = 0.8113 denota un discreto adattamento madal grafico si nota come i valori previsti per x = 240 siano negativi (y e untempo di attesa!)

L’analisi dei residui mostra delle patologie per cui il modello lineare nonsembra adatto a spiegare la dipendenza di y da x.

17


200 210 220 230 240

−1.

5−

0.5

0.5

1.5

x vs residui

xi

Res

idui

Sta

ndar

dizz

ati

0 1000 2000 3000 4000

−1.

5−

0.5

0.5

1.5

y stimati vs residui

yi

Res

idui

Sta

ndar

dizz

ati

0 1000 2000 3000 4000 5000 6000

010

0030

00

y vs y stimati

y

y i

−2 −1 0 1 2

−1.

5−

0.5

0.5

1.5

Normal Q−Q Plot

Theoretical Quantiles

Sam

ple

Qua

ntile

s

18


La relazione tra ln(y) e x sembra essere lineare per cui ipotizziamo un

legame esponenziale del tipo y = αeβx. Il modello trasformato risulta

ln y = lnα + βx. Supponendo che il modello probabilistico sia il mo-

dello esponenziale moltiplicativo, possiamo stimare con il metodo OLS

i parametri del modello trasformato

y′ = β0 + β1x′

Otteniamo i seguenti risultati

Estimate Std. Error t value Pr(>|t|)(Intercept) 24.0183 0.9350 25.69 0.0000

Temp −0.0780 0.0042 −18.39 0.0000

Inoltre r2 = 0.95. Questo valore si riferisce all’adattibilita della retta ai

dati trasformati. Per misurare la performance del modello e meglio risalire

dai valori previsti dal modello y′i tramite l’antitrasformata ai dati yi = ey′i e

quindi effettuare il grafico di yi contro yi

19


200 210 220 230 240

56

78

Modello 2

Temp

log(

Life

time)

0 1000 2000 3000 4000 5000 6000

1000

2000

3000

4000

y vs y stimati Modello 2

y

y i

Una ulteriore misura della performance del modello puo essere valutata

andando a calcolare la somma dei residui sui dati di partenza per entrambi

i modelli.

20


Osservando il grafico dei dati originari si puo anche ipotizzare un modello

del tipo

y = αeβ1x

In questo caso le stime sono

Estimate Std. Error t value Pr(>|t|)(Intercept) −10.2045 0.9366 −10.89 0.0000I(1/Temp) 3735.4511 204.3551 18.28 0.0000

Si noti che calcolare la stima di s per i tre modelli sui dati originali da questi

risultati

s1 = 947.0366, s2 = 596.3623, s3 = 591.3055

poiche il numero di parametri utilizzati nei tre modelli e lo stesso si prefe-

risce il terzo.

21


I grafici riportano la retta stimata per i dati trasformati e il grafico dei

valori y contro i valori y ottenuti ritrasformando i dati previsti con il modello

lineare

0.0042 0.0044 0.0046 0.0048 0.0050

56

78

Modello 3

1/Temp

log(

Life

time)

0 1000 2000 3000 4000 5000 6000

1000

2000

3000

4000

y vs y stimati Modello 3

yy i

Si noti come l’adattabilita sia lievemente migliorata rispetto al modello 2.

22


Osservazioni

1. Stimare i parametri β0 e β1 del modello lineare trasformato e poi trasfor-

mare questi parametri per ottenere i parametri del modello originario non e

come stimare con il metodo NLS i parametri del modello non linearizzato.

2. Se i modelli non sono intrinsecamente lineari occorre ricorrere diretta-

mente alla stima dei parametri del modello tramite NLS. Le soluzioni si

trovano con procedure iterative

3. Per i modelli trasformati le stime ottenute con OLS sono ottime per la

stima dei parametri trasformati. L’ottimalita non si trasmette sulla stima

dei parametri dei modelli originari ottenuta trasformando le stime ottenute

con OLS.

4. Una volta stimati i parametri del modello trasformato, r2 si riferisce

all’adattabilita di questo modello ai dati trasformati. Sebbene un r2 alto

sia indice di una buona adattabilita del modello originario non lineare ai

dati osservati, questo valore non e riferito alle osservazioni originarie.

23


Minimi quadrati pesati WLS

In molti contesti applicativi non e realistico pensare ad errori omoscheda-

stici. Ad esempio se pensiamo ad uno studio sulla dipendenza del profitto

di un impresa dal livello di investimenti in ricerca e sviluppo e ragionevole

pensare che la variabilia del profitto cresca all’aumentare degli investimenti.

16 18 20 22 24

8085

9095

100

Errori Eteroschedastici

x

y

24


Supponiamo che gli errori del modello Y = Xβ + ε siano tali che

E(εi) = 0 e Var(εi) = λiσ2, Cov(εi, εj) = 0

con λi noti e σ2 incognito. Se denotiamo con Ω la matrice (n×n) varianza

e covarianza del vettore ε il miglior stimatore lineare non distorto risulta

β = (XTΩ−1X)−1XTΩ−1y

β e detto stima ai minimi quadrati pesati (WLS, weighted least squares) in

quanto e ottenuto con OLS sui dati trasformati opportunamente in modo

da ricondursi ad errori omoschedastici.

La matrice varianza e covarianza per lo stimatore β e

Varβ = σ2(XTΩ−1X)−1

25


Esempio: il seguente grafico rappresenta i dati rilevati su 39 aziende rela-

tivi agli investimenti effettuati in ricerca e sviluppo (x in migliaia di euro)

e il profitto (y in centinaia di migliaia di euro)

0 5 10 15 20

510

1520

2530

35

Scatter−plot

x

y

26


Dalla regressione lineare otteniamo i seguenti risultati


x 1.2850 0.1371 9.37 0.0000

con un standard error pari a s = 4.819 e r2 = 0.7036.

27


L’analisi dei residui mostra una forte eteroschedasticita.

5 10 15 20

−10

−5

05

10

x

Res

idui

5 10 15 20 25−

10−

50

510

Valori Stimati

Res

idui

28


Proponiamo quindi una regressione con errori eteroschedastici e con i WLS

otteniamo i seguenti risultati


x 1.1232 0.0800 14.03 0.0000

con un standard error pari a 0.7451 e r2 = 0.8418.

29

Documents

La regressione logistica - UniBG · mente per cui si possono effettuare i test di significatività sui parametri, e quando ci sono più parametri i test sull’opportunità di includerli