Il modello di Regressione Lineare
Statistica Applicata all’edilizia: il modello diregressione
Orietta Nicolis
E-mail: [email protected]
27 aprile 2009
Orietta Nicolis Statistica Applicata all’edilizia: il modello di regressione
Il modello di Regressione Lineare
Indice
1 Il modello di Regressione Lineare
Orietta Nicolis Statistica Applicata all’edilizia: il modello di regressione
Il modello di Regressione Lineare
Analisi di regressione
Nell’ambito dell’analisi del mercato immobiliare possiamo essereinteressati alla relazione che lega:
i prezzi delle case all’indice Euribor;l’indice della produzione industriale all’indice della produzionenelle costruzioni;i prezzi delle case alla superficie riscaldata, alla presenza dibalconi/giardini, ecc.
Nell’ambito del monitoraggio di strutture possiamo essere interessatialla relazione che lega:
gli spostamenti alla temperatura, pressione, umidità, ecc.gli spostamenti ad altri fenomeni o altre misurazioni.
Orietta Nicolis Statistica Applicata all’edilizia: il modello di regressione
Il modello di Regressione Lineare
Il modello di Regressione LineareDescrive il legame fra due (o più) grandezze tramite una relazionelineare del tipo
yt = β0 + β1xt1 + β2xt2 + · · ·+ βpxtp + εt
per t = 1, · · · , T , dove
yt : variabile casuale dipendente;xt1, xt2, . . . , xtp: regressori (deterministici o stocastici);εt : componente stocastica di valore atteso nullo e varianzacostante, E (εt) = 0 e Var (εt) = σ2.Funzione di regressione:
E [yt |xt ] = β0 + β1xt1 + β2xt2 + · · ·+ βpxtp
Per p = 1, si ha il modello di regressione lineare semplice
yt = β0 + β1xt1 + εt
Orietta Nicolis Statistica Applicata all’edilizia: il modello di regressione
Il modello di Regressione Lineare
Notazione matriciale
y = xβ + u (1)
dove:
y =
y1...yT
è un vettore T × 1;
x =
1 x11 . . . x1p...
......
...1 xT1 . . . xTp
è una matrice T × (p + 1);
β =
β0...βp
è un vettore (p + 1)× 1;
u =
ε1...εT
è un vettore T × 1.
Orietta Nicolis Statistica Applicata all’edilizia: il modello di regressione
Il modello di Regressione Lineare
Le ipotesi del modello lineare:
1 la funzione di regressione E(y|X) = Xβ è correttamentespecificata;
2 u è un vettore di T variabili casuali indipendenti;3 le componenti di u sono variabili casuali di valore atteso nullo e
varianza σ2(omoschedastiche);4 le componenti di u sono variabili casuali normali5 X è una matrice di costanti note (regressori non stocastici);6 le colonne di X sono linearmente indipendenti: X′X è invertibile.
Orietta Nicolis Statistica Applicata all’edilizia: il modello di regressione
Il modello di Regressione Lineare
La stima ai minimi quadrati
La stima ai minimi quadrati del vettore β si determina minimizzandola seguente forma quadratica:
Q (β) = (y− Xβ)′ (y− xβ)
Si definisce stima Least Squares (LS) la soluzione dei minimiquadrati:
βLS = β = arg min Q (β) .
che ha forma esplicita data da
βLS = (X ′X )−1 X ′Y .
Orietta Nicolis Statistica Applicata all’edilizia: il modello di regressione
Il modello di Regressione Lineare
L’espressione di β si trova dalle p + 1 condizioni del prim’ordine:
∂Q∂βj
= −2∑
x ′ij (yi − βxi) = 0
o, in forma matriciale,
∂Q∂β
= −2X ′ (Y − Xβ) = 0.
Si ha così il sistema detto delle eqni normali
X ′X β = X ′Y
che ha, appunto, soluzione
βLS = (X ′X )−1 X ′Y .
Orietta Nicolis Statistica Applicata all’edilizia: il modello di regressione
Il modello di Regressione Lineare
Esistenza
La condizione det (X ′X ) > 0 è sempre soddisfatta a meno che una opiù colonne della matrice X non sia una combinazione lineare dellealtre. Supponiamo, per esempio, che l’ultima colonna sia una talecombinazione:
xip =k−1∑j=0
ajxij
allora l’osservazione della corrispondente variabile esplicativa xp nonporta informazioni aggiuntive rispetto alle altre per il sistema che sista studiando e va eliminata dal modello.
Orietta Nicolis Statistica Applicata all’edilizia: il modello di regressione
Il modello di Regressione Lineare
Problemi
1 dato y = xβ + ε, con x ∈ R1 mostrare che β =∑
xt yt∑x2
t
2 y = β0 + x1β1 calcolare X ′X . ed (X ′X )−1
.
3 f (x ;β) = β0 + β1x + ... + βk xk con β = (β0, ..., βk )′ : studiareβ.
Orietta Nicolis Statistica Applicata all’edilizia: il modello di regressione
Il modello di Regressione Lineare
Esempio
Si vuole trovare una relazione lineare che leghi il valore di vendita (inmigliaia di Euro) al valore accertato (in migliaia di Euro), all’età dellacasa (in anni) e alla presenza di almeno un balcone (si o no)
Prezzo di vendita Valore accertato Età della casa Balcone94.1 78.17 2 1101.9 80.24 5 188.65 74.03 17 0115.5 86.31 12 187.5 75.22 15 072 65.54 20 0
91.5 72.43 17 1113.9 85.61 15 169.34 60.8 10 096.9 81.88 1 0
Orietta Nicolis Statistica Applicata all’edilizia: il modello di regressione
Il modello di Regressione Lineare
Consideriamo per ora solo la relazione tra il prezzo di vendita ed ilvalore accertato.
60 65 70 75 80 85 9060
70
80
90
100
110
120
valore accertato
prez
zo d
elle
cas
e
Orietta Nicolis Statistica Applicata all’edilizia: il modello di regressione
Il modello di Regressione Lineare
Le matrici y e X sono, rispettivamente,
y =
94.1101.988.65115.587.572
91.5113.969.3496.9
X =
1 78.171 80.241 74.031 86.311 75.221 65.541 72.431 85.611 60.801 81.88
Orietta Nicolis Statistica Applicata all’edilizia: il modello di regressione
Il modello di Regressione Lineare
da cui si ricava:
X′X =
(10 760
760 58409
); (X′X)−1 =
(9.5192 −0.1239−0.1239 0.0016
);
X′y =
(0.09317.1893
).
La stima ai minimi quadrati risulta
β = (X′ · X)−1 · X′y =
(−42.3364
1.7819
).
Orietta Nicolis Statistica Applicata all’edilizia: il modello di regressione
Il modello di Regressione Lineare
Se consideriamo anche la variabile Età delle case, si ha:
X =
1 78.17 21 80.24 51 74.03 171 86.31 121 75.22 151 65.54 201 72.43 171 85.61 151 60.80 101 81.88 1
; X′X =
10 760 114760 58409 8496114 8496 1702
;
(X′X)−1 =
12.4964 −0.1493 −0.0916−0.1493 0.0018 0.0008−0.0916 0.0008 0.0028
;
X′y =
9317189310398
, da cui risulta
β = (X′ · X)−1 · X′y =
−50.07421.84800.2380
.
Orietta Nicolis Statistica Applicata all’edilizia: il modello di regressione
Il modello di Regressione Lineare
Esercizi
1 Si consideri il database TAV1.1. Si vuole determinare in qualemisura ciascun fattore (costo della manodopera, costo materiali etrasporto) influisce sul costo generale delle costruzioni. Stimareun modello di regressione multipla e commentare i risultati.
2 Considerate i dati relativi al monitoraggio del monumento AraPacis. Stimare un modello di regressione multipla in cui lavariabile risposta è Ch0 e i regressori sono dati dalletemeperature T − Ch11 e T − Ch12.
3 Considerate i dati relativi al monitoraggio del Ponte di Certosa.Stimare un modello di regressione multipla in cui la variabilerisposta è il misuratore di giunti Mg − S1 e la variabile esogena èla temperatura T − S1.
Orietta Nicolis Statistica Applicata all’edilizia: il modello di regressione
Il modello di Regressione Lineare
LS o ML ?
Seεi = yi − β′xi iid N
(0, σ2
ε
)è facile scrivere la verosimiglianza
L (β) =1
(2πσ2)n2
exp
(−1
2
∑(yi − β′xi
σ
)2)
e la log-verosimiglianza è
ln L (β) = H + K (Y − Xβ)′ (Y − Xβ)
= H − K∑
(yi − β′xi)2
= H − KQ (β)
dove H e K > 0 non dipendono da β.
Orietta Nicolis Statistica Applicata all’edilizia: il modello di regressione
Il modello di Regressione Lineare
Proprietà della stima LS
1 Non distorsione
E(β)
= β
2 Matrice di varianze-covarianze
V(β)
= σ2ε (X ′X )
−1
det (X ′X ) ∼= 0⇒ stime scadenti.Posto
ν = diag((
X ′X)−1
)si ha
Var(βj
)= σ2
ενj
3 NormalitàSe ε iid N
(0, σ2
)allora β è Np+1
(β, σ2
ε (X ′X )−1)
Orietta Nicolis Statistica Applicata all’edilizia: il modello di regressione
Il modello di Regressione Lineare
Scomposizione della Varianza
Dtot = Dsp + Dres
dove:Devianza totale
Dtot =∑
(yt − y)2 ≈ σ2χ2n−1
Devianza spiegata
Dsp =∑
(yt − y)2
= Dtot − Dres ≈ σ2χ2p
Devianza residua
Dres =∑
(yt − yt)2 ≈ σ2χ2
n−k−1
es2 =
1n − p − 1
Dres.
è la stima della varianza residua, σ2ε :
Orietta Nicolis Statistica Applicata all’edilizia: il modello di regressione
Il modello di Regressione Lineare
Esempio
Si considerino i dati sui prezzi delle case (prezzi delle case, valoreaccertato ed età delle case). La stima dei parametri di un modello diregressione multipla è
β = (X′ · X)−1 · X′y =
−50.07421.84800.2380
.
La matrice di varianza-covarianza è data da
σ2ε · (X′X)−1 = 12.1383 ·
12.4964 −0.1493 −0.0916−0.1493 0.0018 0.0008−0.0916 0.0008 0.0028
=
76.0260 −0.9224 −0.4794−0.9224 0.0114 0.0048−0.4794 0.0048 0.0106
.
Quindi Var(β0) = 76.0260, Var(β1) = 0.0114 e Var(β2) = 0.0106.
Orietta Nicolis Statistica Applicata all’edilizia: il modello di regressione
Il modello di Regressione Lineare
Adattamento
Coefficiente di Determinazione Multipla
R2 = 1− Dres
Dtot
sotto H0 : β = 0, per n grande, nR2 ha distribuzioneapprossimata di tipo χ2
p.
Coefficiente corretto di Determinazione Multipla
R2
= 1− N − 1N − p − 1
(1− R2)
Tuttavia quando n non è grande si possono avere R2 alti comesolo effetto di interpolazione. Procediamo perciò a formulare deitest per l’analisi del modello trovato dai minimi quadrati.
Orietta Nicolis Statistica Applicata all’edilizia: il modello di regressione
Il modello di Regressione Lineare
Esempio
Con riferimento all’esercizio sui prezzi delle case,il coefficiente di determinazione multipla è
R2 = 1− Dres
Dtot= 1− 327.7339
4544.8= 0.9279
che indica che il modello approssima molto bene i dati;mentre il coefficiente corretto di determinazione multipla è
R2
= 1− 97
(1− R2) = 0.9073
Orietta Nicolis Statistica Applicata all’edilizia: il modello di regressione
Il modello di Regressione Lineare
Analisi della Varianza e Test F
Il modello è significativo ?Interessa valutare la significatività del modello nel suo insieme:
H0 : β1 = ... = βp = 0A tal fine usiamo la statistica
F0 =Dsp/p
Dres/ (n − p − 1).
In ipotesi di normalità, sotto H0 la statistica F ha distribuzione Fdi Snedecor con p ed n − p − 1 gradi di libertà
F0˜Fp,n−p−1
Tabella ANOVA
DF SS MS F p-valueregressione p Dsp MSsp =
Dspp
MSsp
s2 P(F > F0|H0)
errori n-1-p Dres s2 = Dresn−p−1
totale n-1 Dtot
Orietta Nicolis Statistica Applicata all’edilizia: il modello di regressione
Il modello di Regressione Lineare
Esercizio
Eseguire un test ANOVA sui dati dei prezzi delle case e commentareil risultato ottenuto.
Orietta Nicolis Statistica Applicata all’edilizia: il modello di regressione
Il modello di Regressione Lineare
Test t sui coefficienti
Interessa valutare la significatività dei singoli coefficienti βj :
H0j : βj = 0
si usa la statistica t :
t =βj
s√νj
doveν = diag
((X′X)
−1)
e t ha distribuzione t di Student con n − p − 1 gradi di libertà.
Orietta Nicolis Statistica Applicata all’edilizia: il modello di regressione
Il modello di Regressione Lineare
Esercizio
Eseguire un test sui coefficienti del modello di regressione multiplasui dati dei prezzi delle case e commentare i risultati ottenuti.
Orietta Nicolis Statistica Applicata all’edilizia: il modello di regressione
Il modello di Regressione Lineare
Intervalli di Confidenza nella regressione
IC sui coefficienti
βj − tn−p−1, α2s√νj ≤ βj ≤ βj + tn−p−1, α
2s√νj
dove tn−p−1, α2
è il valore critico della t di Student con n − p − 1 gradidi libertà.
Grandi campioni
βj − z α2s√νj ≤ βj ≤ βj + z α
2s√νj
Orietta Nicolis Statistica Applicata all’edilizia: il modello di regressione
Il modello di Regressione Lineare
Esercizio
Determinare gli intervalli di confidenza dei coefficienti del modello diregressione multipla usando i dati dei prezzi delle case ecommentare i risultati ottenuti.
Orietta Nicolis Statistica Applicata all’edilizia: il modello di regressione
Il modello di Regressione Lineare
IC sulla superficie attesa
Interessa l’IC perµy (x) = E (y |x)
in corrispondenza ad x non osservato. La sua stima LS è
µy (x) = β′x
con varianzaVar
(β′x)
= σ2x′ (X′X)−1 x.
Perciò l’IC per µy (x) è
β′x∓ tn−p−1, α2s√
x′ (X′X)−1 x
dove tn−p−1, α2
è il valore critico della t di Student con n − p − 1 gradidi libertà.
Orietta Nicolis Statistica Applicata all’edilizia: il modello di regressione
Il modello di Regressione Lineare
IC sulle previsioniInteressa l’IC per
y = β′x + ε
in corrispondenza ad una x non osservata.La sua stima è
y = β′x
osservando cheβ = β + (X′X)
−1 X′ε,
si ottiene la varianza della previsione:
Var (y− y) = σ2[1 + x′ (X′X)
−1 x]
Perciò l’IC per y è
β′x∓ tn−p−1, α2s√
1 + x′ (X′X)−1 x
dove tn−p−1, α2
è il valore critico della t di Student con n − p − 1 gradidi libertà.
Orietta Nicolis Statistica Applicata all’edilizia: il modello di regressione
Il modello di Regressione Lineare
Esercizio
Considerate i dati sui prezzi delle case. Utilizzando i risultati delmodello di regressione lineare multipla,
determinare il valore previsto quando il valore accertato è 85 (inmigliaia di eruro) e l’età della casa è 10 anni;Calcolare un intervallo di confidenza per tale valore previsto.
Orietta Nicolis Statistica Applicata all’edilizia: il modello di regressione