Upload
nguyenthuy
View
214
Download
0
Embed Size (px)
Citation preview
Statistica Industriale Lez. 9
La regressione logistica
Supponiamo che la variabile di interesse y sia una variabile dicotoma, cheassuma solo i valori 0 ovvero 1, corrispondenti a successo o insuccesso.Sia p = P (S) = P (Y = 1) la probabilita di osservare un successo. In molteapplicazioni e realistico pensare che p dipenda dal valore di una qualchevariabile x quantitativa, o anche da piu di una, p = p(x). Ad esempio laprobabilita che una macchina abbia bisogno del servizio di soccorso puodipendere dai km percorsi, dal numero di interventi di manutenzione, etc.Se supponiamo un modello lineare del tipo Y = β0 + β1x1 + . . . + βkxk + ε
allora
E(Y |x) = p(x) = β0 + β1x + . . . + βkxk = β · x
non sembra essere realistico in quanto deve essere 0 < p(x) < 1 per ogni x.Si richiede allora a E(Y |x) di essere una funzione di β0 + β1x + . . . + βkxk.La funzione che si e dimostrata utile in molte applicazioni e la funzionelogistica f(z) = ez
1+ez . Si suppone quindi che il legame sia
E(Y |x) = p(x) =eβ·x
1 + eβ·x ovvero logitp(x) = lnp(x)
1− p(x)= β · x
1
Statistica Industriale Lez. 9
0 2 4 6 8 10
0.0
0.2
0.4
0.6
0.8
1.0
x
p(x)
β1 < 0
0 2 4 6 8 10
0.0
0.2
0.4
0.6
0.8
1.0
x
p(x)
β1 > 0
I grafici rappresentano la funzione p(x) per particolari valori di β0 e β1. In
particolare per β1 < 0 la probabilita di successo decresce al crescere di x,
mentre per β1 > 0 la probabilita del successo cresce al crescere di x.
La funzione p(x)1−p(x) e detto ODDS RATIO e rappresenta quante volte il
successo e piu plausibile dell’insuccesso.
2
Statistica Industriale Lez. 9
La regressione logistica e una caso particolare di Modello lineare gene-
ralizzato (glm). In questi modelli e una trasformazione (tramite la link
function) di E(Y ) che segue un modello lineare. Nel modello logit la link
function e la funzione logit. Abbiamo infatti
E(Y ) = p lnp
1− p= β · x
La stima dei parametri avviene, una volta costruita la funzione di verosimi-
glianza per le osservazioni Yi, con metodi iterativi in quanto non si riesce
a dare una forma esplicita al massimo della logverosimiglianza. Il metodo
usato e l’IWLS (iterative weighted least squares). Si noti che nella re-
gressione logistica si ipotizza che Y e distribuita come una Binomiale con
parametri n = 1 e p incognita.
Si puo dimostrare che asintoticamente i parametri si distribuiscono normal-
mente per cui si possono effettuare i test di significativita sui parametri, e
quando ci sono piu parametri i test sull’opportunita di includerli nel modello.
3
Statistica Industriale Lez. 9
Esempio: Si considerino i dati relativi alla temperatura di lancio e all’in-cidenza dei fallimenti per gli O rings in 24 lanci dello Space Shuttle primadel disastro del Challenger nel gennaio 1986.
Temp Failure1 53 Y2 56 Y3 57 Y4 63 N5 66 N6 67 N7 67 N8 67 N
Temp Failure9 68 N
10 69 N11 70 N12 70 Y13 70 Y14 70 Y15 72 N16 73 N
Temp Failure17 75 N18 75 Y19 76 N20 76 N21 78 N22 79 N23 80 N24 81 N
In questo caso abbiamo solo una variabile esplicativa, Temp. Ipotizziamoun modello logistico per l’incidenza dei successi (No Failure= successo).
lnp(x)
1− p(x)= β0 + β1x
p(x) e la probabilita di successo, ovvero di Failure=No, quando osserviamoTemp = x.
4
Statistica Industriale Lez. 9
I valori dei parametri stimati sono riportati nella seguente tabella
Estimate Std. Error z value Pr(>|z|)(Intercept) −10.8753 5.7029 −1.91 0.0565
Temp 0.1713 0.0834 2.05 0.0400
La curva stimata per p(x) e data da
50 55 60 65 70 75 80 85
0.2
0.4
0.6
0.8
1.0
La funzione p(x) stimata
x
p(x)
Siamo in grado anche di stimare l’odds ratio per x = 31 (Temp per ilChallenger esploso) che vale 0.0038172 cioe la probabilita di un successo(N) e 0.004 volte quella di un insuccesso (Y).
5
Statistica Industriale Lez. 9
Regressione non lineare
A volte, per motivi teorici o esaminando i risultati della diagnostica basata
sull’analisi dei residui, il modello lineare semplice o multiplo puo risultare
non adatto a spiegare la variabilita della variabile y. Si ricorre allora a
modelli alternativi.
Consideriamo una vasta gamma di modelli che non sono lineari nei para-
metri o nella variabili esplicative. Supponiamo che il legame tra le variabili
y e x sia del tipo y = f(x) ma a causa di un errore non osserviamo y ma il
valore di una v.c.
Y = f(x) + ε
In generale f e una funzione che dipende da un certo numero di parametri
(θ) e da un certo numero di variabili esplicative x. Il termine di errore ε
si suppone normalmente distribuito. Se la forma della funzione f e nota a
meno di un numero finito di parametri si parla di regressione parametrica.
Se la f e totalmente incognita si parla di regressione non parametrica.
6
Statistica Industriale Lez. 9
Se il modello e del tipo
Y = f(x, θ) + ε, θ = (θ1, . . . , θp), E(ε) = 0, V ar(ε) = σ2
supponiamo di avere n osservazioni indipendenti (xi, yi) che soddisfano
yi = f(xi, θ) + εi, θ = (θ1, . . . , θp), εi i.i.d, E(εi) = 0, V ar(εi) = σ2
Introducendo la notazione matriciale
y = (y1, . . . , yn)′, f(x, θ) = (f(x1, θ), . . . , f(xn, θ))′, ε = (ε1, . . . , εn)
′
la stima ai minimi quadrati e data da
θ = argminθSSE, dove SSE = |y − f(x, θ)|2 =n∑
i=1
(yi − f(xi, θ))2
La procedura che ci da la stima θ si chiama NLS (non linear least squares)
e differisce da quella OLS in quanto:
a) non c’e una formula esplicita per la stima θ
b) per trovare θ si usano procedure iterative
c) occorre fornire dei valori iniziali ai parametri
7
Statistica Industriale Lez. 9
La procedura iterativa
Seppure esistano numerose tecniche per trovare θ = argminθSSE, mol-te seguono questo schema. Sia θ(0) un valore iniziale del parametro θ.Possiamo scrivere
f(x, θ) = f(x, θ(0)) +p∑
j=1
(θj − θ(0)j )
∂
∂θjf(x, θ)
∣∣∣θ=θ(0)
Questo definisce un piano tangente alla superficie definita da f nel puntoθ(0).
Posto
Fkj(xk, θ(0)) =∂
∂θjf(xk, θ)
∣∣∣θ=θ(0) w(0)k = f(xk, θ(0))−
p∑j=1
θ(0)j Fkj(xk, θ(0))
possiamo riscrivere
f(x, θ) = w(0) + F (x, θ(0)) · θ,
dove w(0) = (w(0)1 , . . . , w
(0)n )′ e F (x, θ(0)) e la matrice di componenti Fkj(xk, θ(0)),
k = 1, . . . , n, j = 1, . . . , p.
8
Statistica Industriale Lez. 9
Il processo iterativo consiste nel regredire f sul piano tangente con inter-
cetta w(0). Il modello approssimato diviene, posto F (x, θ) = F (θ)
y = w(0) + F (θ(0)) · θ
e la stima ai minimi quadrati ci da l’approssimazione successiva
θ(1) =(F (θ(0))TF (θ(0))
)−1F (θ(0))T (y −w(0))
Il processo continua fino a convergenza, cioe fino a quando la differenza
tra due valori successivi di θ(k) non e piu piccolo di un valore prefissato.
La stima θ ottenuta e una approssimazione della stima θ NLS.
Si noti che nel modello lineare w(0) = 0, F (θ(0)) = X e il processo converge
in un passo.
9
Statistica Industriale Lez. 9
Inferenza per θ
Sotto opportune ipotesi (legate alla derivabilita) sulla funzione f si ha cheasintoticamente (quando il numero delle osservazioni n →∞)
θ ∼ N(θ, σ2(F (θ)′F (θ))−1).
La stima della varianza asintotica di θ si ottiene sostituendo F (θ) con unasua stima F = F (θ) e come stima di σ2 la quantita s2 = SSE
n−p . La stima della
matrice di varianza e covarianza di θ risulta quindi s2(F ′F )−1. In analogiaa quanto fatto nel caso dell’analisi di regressione multivariata, indichiamocon C = (F ′F )−1. L’intervallo di confidenza (asintotico) a livello di fiducia1− α per il parametro θi e dato da(
θi − t1−α/2
√s2cii; θi + t1−α/2
√s2cii
),
dove cii sono gli elementi sulla diagonale principale della matrice C.
La verifica di ipotesi per la significativita dei parametri θ si basa sullastatistica che asintoticamente si distribuisce come una tn−p.
t =θi − θ0
i√s2cii
10
Statistica Industriale Lez. 9
Modelli intrinsecamente lineari
Una funzione y = f(x) e detta intrinsecamente lineare se attraverso unatrasformazione di x, di y o di entrambe le variabili la funzione puo essereespressa come y′ = β0 + β1x′, y′ = g(y), x′ = h(x).
Le piu utilizzate funzioni di questo tipo sono descritte nella tabella seguentedove si riportano anche le trasformazioni da applicare per rendere il legamelineare
Funzione Trasf. variabile x Trasf. variabile y Forma Linearey = αeβx – y′ = ln y y′ = ln(α) + βx
y = αxβ x′ = logx y′ = ln y y′ = ln(α) + βx′
y = α + β logx x′ = logx – y = α + βx′
y = α + β1x x′ = 1
x – y = α + βx′
Un modello probabilistico che lega il valore di una v.c. Y a x e dettointrinsecamente lineare se attraverso una trasformazione di x o di Y o dientrambe le variabili la funzione puo essere espressa come
Y ′ = β0 + β1x′ + ε′
11
Statistica Industriale Lez. 9
0 1 2 3 4 5
050
100
150
x
e(βx)
β > 0
0 1 2 3 4 5
0.0
0.2
0.4
0.6
0.8
1.0
xe(β
x)
β < 0
0 1 2 3 4 5
05
1015
2025
x
xβ
β > 1β < 0
0 1 2 3 4 5
0.0
0.5
1.0
1.5
2.0
x
xβ
0 < β < 1
0 1 2 3 4 5
01
23
4
x
βlog
(x)
β > 0
0 1 2 3 4 5
23
45
6
x
βlog
(x)
β < 0
0 1 2 3 4 5
02
46
810
x
α+
β1x
β < 0
y = α
0 1 2 3 4 5
−4
−2
02
4
x
α+
β1x
β < 0
y = α
12
Statistica Industriale Lez. 9
I modelli probabilistici che corrispondono alle quattro funzioni della tabella
precedente sono
Il modello esponenziale moltiplicativo: Y = αeβx · ε
Con la trasformazione Y ′ = lnY otteniamo il modello Y ′ = β0+β1x′+ε′ con
x′ = x, β0 = lnα β1 = β e ε′ = ln ε. Se ε ha una distribuzione Lognormale
con E(ε) = eσ2/2 e V ar(ε) = eσ2(eσ2 − 1) allora ε′ e N(0, σ2).
Il modello con potenza moltiplicativo: Y = αxβ · ε
Otteniamo il modello Y ′ = β0 + β1x′+ ε′ con Y ′ = lnY , x′ = lnx, β0 = lnα
β1 = β e ε′ = ln ε. Se ε ha una distribuzione Lognormale con E(ε) = eσ2/2
e V ar(ε) = eσ2(eσ2 − 1) allora ε′ e N(0, σ2).
13
Statistica Industriale Lez. 9
Il modello logaritmico additivo: Y = α + β logx + ε
Otteniamo il modello Y ′ = β0 + β1x′ + ε′ con Y ′ = Y , x′ = logx, β0 = α
β1 = β e ε′ = ε. In questo caso ε = ε′ e N(0, σ2).
Il modello reciproco additivo: Y = α + β1x + ε
Otteniamo il modello Y ′ = β0+β1x′+ε′ con Y ′ = Y , x′ = 1x, β0 = α β1 = β
e ε′ = ε. In questo caso ε = ε′ e N(0, σ2).
Si noti che il modello esponenziale additivo Y = αeβx + ε e il modello conpotenza additivo Y = αxβ + ε non sono intrinsecamente lineari.
I parametri dei modelli trasformati si possono direttamente stimare utiliz-zando OLS per i dati trasformati y′ e x′. Dalle stime di di β0 e β1 si puoeventualmente risalire ai parametri dei modelli di partenza trasformandoliopportunamente.
Queste stime in generale non coincidono con quelle ottenute direttamentecon NLS sui dati non trasformati.
14
Statistica Industriale Lez. 9
Esempio: I seguenti dati sono tratti dall’articolo Thermal Endurance of
Polyester Enameled Wires Using Twisted Wire Specimens, IEEE Trans.
Insulation, 1965, 38–44, dove in un test per verificare la resistenza termica
si vuole capire il legame tra la temperatura e il tempo di vita del filo di
poliestere smaltato.
1 2 3 4 5 6 7 8 9Temp 200 200 200 200 200 200 220 220 220
Lifetime 5933 5404 4947 4963 3358 3878 1561 1494 747
10 11 12 13 14 15 16 17 18Temp 220 220 220 240 240 240 240 240 240
Lifetime 768 609 777 258 299 209 144 180 184
I seguenti grafici riportano i dati con varie trasformazioni sia per la variabile
x che per la variabile y.
15
Statistica Industriale Lez. 9
200 210 220 230 240
020
0040
0060
00
Temp
Life
time
0.0042 0.0044 0.0046 0.0048 0.0050
020
0040
0060
00
1/Temp
Life
time
200 210 220 230 240
56
78
Temp
log(
Life
time)
0.0042 0.0044 0.0046 0.0048 0.0050
56
78
1/Temp
log(
Life
time)
16
Statistica Industriale Lez. 9
Se applichiamo il modello lineare semplice Y = β0 + β1x + ε otteniamo laretta riportata in figura
200 210 220 230 240
−10
000
1000
2000
3000
4000
5000
6000
Modello 1
Temp
Life
time
Le stime dei parametri sono β0 = 26925.64 e β1 = −113.37, entrambisignificativi, la statistica r2 = 0.8113 denota un discreto adattamento madal grafico si nota come i valori previsti per x = 240 siano negativi (y e untempo di attesa!)
L’analisi dei residui mostra delle patologie per cui il modello lineare nonsembra adatto a spiegare la dipendenza di y da x.
17
Statistica Industriale Lez. 9
200 210 220 230 240
−1.
5−
0.5
0.5
1.5
x vs residui
xi
Res
idui
Sta
ndar
dizz
ati
0 1000 2000 3000 4000
−1.
5−
0.5
0.5
1.5
y stimati vs residui
yi
Res
idui
Sta
ndar
dizz
ati
0 1000 2000 3000 4000 5000 6000
010
0030
00
y vs y stimati
y
y i
−2 −1 0 1 2
−1.
5−
0.5
0.5
1.5
Normal Q−Q Plot
Theoretical Quantiles
Sam
ple
Qua
ntile
s
18
Statistica Industriale Lez. 9
La relazione tra ln(y) e x sembra essere lineare per cui ipotizziamo un
legame esponenziale del tipo y = αeβx. Il modello trasformato risulta
ln y = lnα + βx. Supponendo che il modello probabilistico sia il mo-
dello esponenziale moltiplicativo, possiamo stimare con il metodo OLS
i parametri del modello trasformato
y′ = β0 + β1x′
Otteniamo i seguenti risultati
Estimate Std. Error t value Pr(>|t|)(Intercept) 24.0183 0.9350 25.69 0.0000
Temp −0.0780 0.0042 −18.39 0.0000
Inoltre r2 = 0.95. Questo valore si riferisce all’adattibilita della retta ai
dati trasformati. Per misurare la performance del modello e meglio risalire
dai valori previsti dal modello y′i tramite l’antitrasformata ai dati yi = ey′i e
quindi effettuare il grafico di yi contro yi
19
Statistica Industriale Lez. 9
200 210 220 230 240
56
78
Modello 2
Temp
log(
Life
time)
0 1000 2000 3000 4000 5000 6000
1000
2000
3000
4000
y vs y stimati Modello 2
y
y i
Una ulteriore misura della performance del modello puo essere valutata
andando a calcolare la somma dei residui sui dati di partenza per entrambi
i modelli.
20
Statistica Industriale Lez. 9
Osservando il grafico dei dati originari si puo anche ipotizzare un modello
del tipo
y = αeβ1x
In questo caso le stime sono
Estimate Std. Error t value Pr(>|t|)(Intercept) −10.2045 0.9366 −10.89 0.0000I(1/Temp) 3735.4511 204.3551 18.28 0.0000
Si noti che calcolare la stima di s per i tre modelli sui dati originali da questi
risultati
s1 = 947.0366, s2 = 596.3623, s3 = 591.3055
poiche il numero di parametri utilizzati nei tre modelli e lo stesso si prefe-
risce il terzo.
21
Statistica Industriale Lez. 9
I grafici riportano la retta stimata per i dati trasformati e il grafico dei
valori y contro i valori y ottenuti ritrasformando i dati previsti con il modello
lineare
0.0042 0.0044 0.0046 0.0048 0.0050
56
78
Modello 3
1/Temp
log(
Life
time)
0 1000 2000 3000 4000 5000 6000
1000
2000
3000
4000
y vs y stimati Modello 3
yy i
Si noti come l’adattabilita sia lievemente migliorata rispetto al modello 2.
22
Statistica Industriale Lez. 9
Osservazioni
1. Stimare i parametri β0 e β1 del modello lineare trasformato e poi trasfor-
mare questi parametri per ottenere i parametri del modello originario non e
come stimare con il metodo NLS i parametri del modello non linearizzato.
2. Se i modelli non sono intrinsecamente lineari occorre ricorrere diretta-
mente alla stima dei parametri del modello tramite NLS. Le soluzioni si
trovano con procedure iterative
3. Per i modelli trasformati le stime ottenute con OLS sono ottime per la
stima dei parametri trasformati. L’ottimalita non si trasmette sulla stima
dei parametri dei modelli originari ottenuta trasformando le stime ottenute
con OLS.
4. Una volta stimati i parametri del modello trasformato, r2 si riferisce
all’adattabilita di questo modello ai dati trasformati. Sebbene un r2 alto
sia indice di una buona adattabilita del modello originario non lineare ai
dati osservati, questo valore non e riferito alle osservazioni originarie.
23
Statistica Industriale Lez. 9
Minimi quadrati pesati WLS
In molti contesti applicativi non e realistico pensare ad errori omoscheda-
stici. Ad esempio se pensiamo ad uno studio sulla dipendenza del profitto
di un impresa dal livello di investimenti in ricerca e sviluppo e ragionevole
pensare che la variabilia del profitto cresca all’aumentare degli investimenti.
16 18 20 22 24
8085
9095
100
Errori Eteroschedastici
x
y
24
Statistica Industriale Lez. 9
Supponiamo che gli errori del modello Y = Xβ + ε siano tali che
E(εi) = 0 e Var(εi) = λiσ2, Cov(εi, εj) = 0
con λi noti e σ2 incognito. Se denotiamo con Ω la matrice (n×n) varianza
e covarianza del vettore ε il miglior stimatore lineare non distorto risulta
β = (XTΩ−1X)−1XTΩ−1y
β e detto stima ai minimi quadrati pesati (WLS, weighted least squares) in
quanto e ottenuto con OLS sui dati trasformati opportunamente in modo
da ricondursi ad errori omoschedastici.
La matrice varianza e covarianza per lo stimatore β e
Varβ = σ2(XTΩ−1X)−1
25
Statistica Industriale Lez. 9
Esempio: il seguente grafico rappresenta i dati rilevati su 39 aziende rela-
tivi agli investimenti effettuati in ricerca e sviluppo (x in migliaia di euro)
e il profitto (y in centinaia di migliaia di euro)
0 5 10 15 20
510
1520
2530
35
Scatter−plot
x
y
26
Statistica Industriale Lez. 9
Dalla regressione lineare otteniamo i seguenti risultati
Estimate Std. Error t value Pr(>|t|)(Intercept) 1.7005 1.6334 1.04 0.3046
x 1.2850 0.1371 9.37 0.0000
con un standard error pari a s = 4.819 e r2 = 0.7036.
27
Statistica Industriale Lez. 9
L’analisi dei residui mostra una forte eteroschedasticita.
5 10 15 20
−10
−5
05
10
x
Res
idui
5 10 15 20 25−
10−
50
510
Valori Stimati
Res
idui
28