31
Il modello di Regressione Lineare Statistica Applicata all’edilizia: il modello di regressione Orietta Nicolis E-mail: [email protected] 27 aprile 2009 Orietta Nicolis Statistica Applicata all’edilizia: il modello di regressione

Statistica Applicata all'edilizia: il modello di regressione fileIl modello di Regressione Lineare Analisi di regressione Nell’ambito dell’analisi del mercato immobiliare possiamo

  • Upload
    others

  • View
    12

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Statistica Applicata all'edilizia: il modello di regressione fileIl modello di Regressione Lineare Analisi di regressione Nell’ambito dell’analisi del mercato immobiliare possiamo

Il modello di Regressione Lineare

Statistica Applicata all’edilizia: il modello diregressione

Orietta Nicolis

E-mail: [email protected]

27 aprile 2009

Orietta Nicolis Statistica Applicata all’edilizia: il modello di regressione

Page 2: Statistica Applicata all'edilizia: il modello di regressione fileIl modello di Regressione Lineare Analisi di regressione Nell’ambito dell’analisi del mercato immobiliare possiamo

Il modello di Regressione Lineare

Indice

1 Il modello di Regressione Lineare

Orietta Nicolis Statistica Applicata all’edilizia: il modello di regressione

Page 3: Statistica Applicata all'edilizia: il modello di regressione fileIl modello di Regressione Lineare Analisi di regressione Nell’ambito dell’analisi del mercato immobiliare possiamo

Il modello di Regressione Lineare

Analisi di regressione

Nell’ambito dell’analisi del mercato immobiliare possiamo essereinteressati alla relazione che lega:

i prezzi delle case all’indice Euribor;l’indice della produzione industriale all’indice della produzionenelle costruzioni;i prezzi delle case alla superficie riscaldata, alla presenza dibalconi/giardini, ecc.

Nell’ambito del monitoraggio di strutture possiamo essere interessatialla relazione che lega:

gli spostamenti alla temperatura, pressione, umidità, ecc.gli spostamenti ad altri fenomeni o altre misurazioni.

Orietta Nicolis Statistica Applicata all’edilizia: il modello di regressione

Page 4: Statistica Applicata all'edilizia: il modello di regressione fileIl modello di Regressione Lineare Analisi di regressione Nell’ambito dell’analisi del mercato immobiliare possiamo

Il modello di Regressione Lineare

Il modello di Regressione LineareDescrive il legame fra due (o più) grandezze tramite una relazionelineare del tipo

yt = β0 + β1xt1 + β2xt2 + · · ·+ βpxtp + εt

per t = 1, · · · , T , dove

yt : variabile casuale dipendente;xt1, xt2, . . . , xtp: regressori (deterministici o stocastici);εt : componente stocastica di valore atteso nullo e varianzacostante, E (εt) = 0 e Var (εt) = σ2.Funzione di regressione:

E [yt |xt ] = β0 + β1xt1 + β2xt2 + · · ·+ βpxtp

Per p = 1, si ha il modello di regressione lineare semplice

yt = β0 + β1xt1 + εt

Orietta Nicolis Statistica Applicata all’edilizia: il modello di regressione

Page 5: Statistica Applicata all'edilizia: il modello di regressione fileIl modello di Regressione Lineare Analisi di regressione Nell’ambito dell’analisi del mercato immobiliare possiamo

Il modello di Regressione Lineare

Notazione matriciale

y = xβ + u (1)

dove:

y =

y1...yT

è un vettore T × 1;

x =

1 x11 . . . x1p...

......

...1 xT1 . . . xTp

è una matrice T × (p + 1);

β =

β0...βp

è un vettore (p + 1)× 1;

u =

ε1...εT

è un vettore T × 1.

Orietta Nicolis Statistica Applicata all’edilizia: il modello di regressione

Page 6: Statistica Applicata all'edilizia: il modello di regressione fileIl modello di Regressione Lineare Analisi di regressione Nell’ambito dell’analisi del mercato immobiliare possiamo

Il modello di Regressione Lineare

Le ipotesi del modello lineare:

1 la funzione di regressione E(y|X) = Xβ è correttamentespecificata;

2 u è un vettore di T variabili casuali indipendenti;3 le componenti di u sono variabili casuali di valore atteso nullo e

varianza σ2(omoschedastiche);4 le componenti di u sono variabili casuali normali5 X è una matrice di costanti note (regressori non stocastici);6 le colonne di X sono linearmente indipendenti: X′X è invertibile.

Orietta Nicolis Statistica Applicata all’edilizia: il modello di regressione

Page 7: Statistica Applicata all'edilizia: il modello di regressione fileIl modello di Regressione Lineare Analisi di regressione Nell’ambito dell’analisi del mercato immobiliare possiamo

Il modello di Regressione Lineare

La stima ai minimi quadrati

La stima ai minimi quadrati del vettore β si determina minimizzandola seguente forma quadratica:

Q (β) = (y− Xβ)′ (y− xβ)

Si definisce stima Least Squares (LS) la soluzione dei minimiquadrati:

βLS = β = arg min Q (β) .

che ha forma esplicita data da

βLS = (X ′X )−1 X ′Y .

Orietta Nicolis Statistica Applicata all’edilizia: il modello di regressione

Page 8: Statistica Applicata all'edilizia: il modello di regressione fileIl modello di Regressione Lineare Analisi di regressione Nell’ambito dell’analisi del mercato immobiliare possiamo

Il modello di Regressione Lineare

L’espressione di β si trova dalle p + 1 condizioni del prim’ordine:

∂Q∂βj

= −2∑

x ′ij (yi − βxi) = 0

o, in forma matriciale,

∂Q∂β

= −2X ′ (Y − Xβ) = 0.

Si ha così il sistema detto delle eqni normali

X ′X β = X ′Y

che ha, appunto, soluzione

βLS = (X ′X )−1 X ′Y .

Orietta Nicolis Statistica Applicata all’edilizia: il modello di regressione

Page 9: Statistica Applicata all'edilizia: il modello di regressione fileIl modello di Regressione Lineare Analisi di regressione Nell’ambito dell’analisi del mercato immobiliare possiamo

Il modello di Regressione Lineare

Esistenza

La condizione det (X ′X ) > 0 è sempre soddisfatta a meno che una opiù colonne della matrice X non sia una combinazione lineare dellealtre. Supponiamo, per esempio, che l’ultima colonna sia una talecombinazione:

xip =k−1∑j=0

ajxij

allora l’osservazione della corrispondente variabile esplicativa xp nonporta informazioni aggiuntive rispetto alle altre per il sistema che sista studiando e va eliminata dal modello.

Orietta Nicolis Statistica Applicata all’edilizia: il modello di regressione

Page 10: Statistica Applicata all'edilizia: il modello di regressione fileIl modello di Regressione Lineare Analisi di regressione Nell’ambito dell’analisi del mercato immobiliare possiamo

Il modello di Regressione Lineare

Problemi

1 dato y = xβ + ε, con x ∈ R1 mostrare che β =∑

xt yt∑x2

t

2 y = β0 + x1β1 calcolare X ′X . ed (X ′X )−1

.

3 f (x ;β) = β0 + β1x + ... + βk xk con β = (β0, ..., βk )′ : studiareβ.

Orietta Nicolis Statistica Applicata all’edilizia: il modello di regressione

Page 11: Statistica Applicata all'edilizia: il modello di regressione fileIl modello di Regressione Lineare Analisi di regressione Nell’ambito dell’analisi del mercato immobiliare possiamo

Il modello di Regressione Lineare

Esempio

Si vuole trovare una relazione lineare che leghi il valore di vendita (inmigliaia di Euro) al valore accertato (in migliaia di Euro), all’età dellacasa (in anni) e alla presenza di almeno un balcone (si o no)

Prezzo di vendita Valore accertato Età della casa Balcone94.1 78.17 2 1101.9 80.24 5 188.65 74.03 17 0115.5 86.31 12 187.5 75.22 15 072 65.54 20 0

91.5 72.43 17 1113.9 85.61 15 169.34 60.8 10 096.9 81.88 1 0

Orietta Nicolis Statistica Applicata all’edilizia: il modello di regressione

Page 12: Statistica Applicata all'edilizia: il modello di regressione fileIl modello di Regressione Lineare Analisi di regressione Nell’ambito dell’analisi del mercato immobiliare possiamo

Il modello di Regressione Lineare

Consideriamo per ora solo la relazione tra il prezzo di vendita ed ilvalore accertato.

60 65 70 75 80 85 9060

70

80

90

100

110

120

valore accertato

prez

zo d

elle

cas

e

Orietta Nicolis Statistica Applicata all’edilizia: il modello di regressione

Page 13: Statistica Applicata all'edilizia: il modello di regressione fileIl modello di Regressione Lineare Analisi di regressione Nell’ambito dell’analisi del mercato immobiliare possiamo

Il modello di Regressione Lineare

Le matrici y e X sono, rispettivamente,

y =

94.1101.988.65115.587.572

91.5113.969.3496.9

X =

1 78.171 80.241 74.031 86.311 75.221 65.541 72.431 85.611 60.801 81.88

Orietta Nicolis Statistica Applicata all’edilizia: il modello di regressione

Page 14: Statistica Applicata all'edilizia: il modello di regressione fileIl modello di Regressione Lineare Analisi di regressione Nell’ambito dell’analisi del mercato immobiliare possiamo

Il modello di Regressione Lineare

da cui si ricava:

X′X =

(10 760

760 58409

); (X′X)−1 =

(9.5192 −0.1239−0.1239 0.0016

);

X′y =

(0.09317.1893

).

La stima ai minimi quadrati risulta

β = (X′ · X)−1 · X′y =

(−42.3364

1.7819

).

Orietta Nicolis Statistica Applicata all’edilizia: il modello di regressione

Page 15: Statistica Applicata all'edilizia: il modello di regressione fileIl modello di Regressione Lineare Analisi di regressione Nell’ambito dell’analisi del mercato immobiliare possiamo

Il modello di Regressione Lineare

Se consideriamo anche la variabile Età delle case, si ha:

X =

1 78.17 21 80.24 51 74.03 171 86.31 121 75.22 151 65.54 201 72.43 171 85.61 151 60.80 101 81.88 1

; X′X =

10 760 114760 58409 8496114 8496 1702

;

(X′X)−1 =

12.4964 −0.1493 −0.0916−0.1493 0.0018 0.0008−0.0916 0.0008 0.0028

;

X′y =

9317189310398

, da cui risulta

β = (X′ · X)−1 · X′y =

−50.07421.84800.2380

.

Orietta Nicolis Statistica Applicata all’edilizia: il modello di regressione

Page 16: Statistica Applicata all'edilizia: il modello di regressione fileIl modello di Regressione Lineare Analisi di regressione Nell’ambito dell’analisi del mercato immobiliare possiamo

Il modello di Regressione Lineare

Esercizi

1 Si consideri il database TAV1.1. Si vuole determinare in qualemisura ciascun fattore (costo della manodopera, costo materiali etrasporto) influisce sul costo generale delle costruzioni. Stimareun modello di regressione multipla e commentare i risultati.

2 Considerate i dati relativi al monitoraggio del monumento AraPacis. Stimare un modello di regressione multipla in cui lavariabile risposta è Ch0 e i regressori sono dati dalletemeperature T − Ch11 e T − Ch12.

3 Considerate i dati relativi al monitoraggio del Ponte di Certosa.Stimare un modello di regressione multipla in cui la variabilerisposta è il misuratore di giunti Mg − S1 e la variabile esogena èla temperatura T − S1.

Orietta Nicolis Statistica Applicata all’edilizia: il modello di regressione

Page 17: Statistica Applicata all'edilizia: il modello di regressione fileIl modello di Regressione Lineare Analisi di regressione Nell’ambito dell’analisi del mercato immobiliare possiamo

Il modello di Regressione Lineare

LS o ML ?

Seεi = yi − β′xi iid N

(0, σ2

ε

)è facile scrivere la verosimiglianza

L (β) =1

(2πσ2)n2

exp

(−1

2

∑(yi − β′xi

σ

)2)

e la log-verosimiglianza è

ln L (β) = H + K (Y − Xβ)′ (Y − Xβ)

= H − K∑

(yi − β′xi)2

= H − KQ (β)

dove H e K > 0 non dipendono da β.

Orietta Nicolis Statistica Applicata all’edilizia: il modello di regressione

Page 18: Statistica Applicata all'edilizia: il modello di regressione fileIl modello di Regressione Lineare Analisi di regressione Nell’ambito dell’analisi del mercato immobiliare possiamo

Il modello di Regressione Lineare

Proprietà della stima LS

1 Non distorsione

E(β)

= β

2 Matrice di varianze-covarianze

V(β)

= σ2ε (X ′X )

−1

det (X ′X ) ∼= 0⇒ stime scadenti.Posto

ν = diag((

X ′X)−1

)si ha

Var(βj

)= σ2

ενj

3 NormalitàSe ε iid N

(0, σ2

)allora β è Np+1

(β, σ2

ε (X ′X )−1)

Orietta Nicolis Statistica Applicata all’edilizia: il modello di regressione

Page 19: Statistica Applicata all'edilizia: il modello di regressione fileIl modello di Regressione Lineare Analisi di regressione Nell’ambito dell’analisi del mercato immobiliare possiamo

Il modello di Regressione Lineare

Scomposizione della Varianza

Dtot = Dsp + Dres

dove:Devianza totale

Dtot =∑

(yt − y)2 ≈ σ2χ2n−1

Devianza spiegata

Dsp =∑

(yt − y)2

= Dtot − Dres ≈ σ2χ2p

Devianza residua

Dres =∑

(yt − yt)2 ≈ σ2χ2

n−k−1

es2 =

1n − p − 1

Dres.

è la stima della varianza residua, σ2ε :

Orietta Nicolis Statistica Applicata all’edilizia: il modello di regressione

Page 20: Statistica Applicata all'edilizia: il modello di regressione fileIl modello di Regressione Lineare Analisi di regressione Nell’ambito dell’analisi del mercato immobiliare possiamo

Il modello di Regressione Lineare

Esempio

Si considerino i dati sui prezzi delle case (prezzi delle case, valoreaccertato ed età delle case). La stima dei parametri di un modello diregressione multipla è

β = (X′ · X)−1 · X′y =

−50.07421.84800.2380

.

La matrice di varianza-covarianza è data da

σ2ε · (X′X)−1 = 12.1383 ·

12.4964 −0.1493 −0.0916−0.1493 0.0018 0.0008−0.0916 0.0008 0.0028

=

76.0260 −0.9224 −0.4794−0.9224 0.0114 0.0048−0.4794 0.0048 0.0106

.

Quindi Var(β0) = 76.0260, Var(β1) = 0.0114 e Var(β2) = 0.0106.

Orietta Nicolis Statistica Applicata all’edilizia: il modello di regressione

Page 21: Statistica Applicata all'edilizia: il modello di regressione fileIl modello di Regressione Lineare Analisi di regressione Nell’ambito dell’analisi del mercato immobiliare possiamo

Il modello di Regressione Lineare

Adattamento

Coefficiente di Determinazione Multipla

R2 = 1− Dres

Dtot

sotto H0 : β = 0, per n grande, nR2 ha distribuzioneapprossimata di tipo χ2

p.

Coefficiente corretto di Determinazione Multipla

R2

= 1− N − 1N − p − 1

(1− R2)

Tuttavia quando n non è grande si possono avere R2 alti comesolo effetto di interpolazione. Procediamo perciò a formulare deitest per l’analisi del modello trovato dai minimi quadrati.

Orietta Nicolis Statistica Applicata all’edilizia: il modello di regressione

Page 22: Statistica Applicata all'edilizia: il modello di regressione fileIl modello di Regressione Lineare Analisi di regressione Nell’ambito dell’analisi del mercato immobiliare possiamo

Il modello di Regressione Lineare

Esempio

Con riferimento all’esercizio sui prezzi delle case,il coefficiente di determinazione multipla è

R2 = 1− Dres

Dtot= 1− 327.7339

4544.8= 0.9279

che indica che il modello approssima molto bene i dati;mentre il coefficiente corretto di determinazione multipla è

R2

= 1− 97

(1− R2) = 0.9073

Orietta Nicolis Statistica Applicata all’edilizia: il modello di regressione

Page 23: Statistica Applicata all'edilizia: il modello di regressione fileIl modello di Regressione Lineare Analisi di regressione Nell’ambito dell’analisi del mercato immobiliare possiamo

Il modello di Regressione Lineare

Analisi della Varianza e Test F

Il modello è significativo ?Interessa valutare la significatività del modello nel suo insieme:

H0 : β1 = ... = βp = 0A tal fine usiamo la statistica

F0 =Dsp/p

Dres/ (n − p − 1).

In ipotesi di normalità, sotto H0 la statistica F ha distribuzione Fdi Snedecor con p ed n − p − 1 gradi di libertà

F0˜Fp,n−p−1

Tabella ANOVA

DF SS MS F p-valueregressione p Dsp MSsp =

Dspp

MSsp

s2 P(F > F0|H0)

errori n-1-p Dres s2 = Dresn−p−1

totale n-1 Dtot

Orietta Nicolis Statistica Applicata all’edilizia: il modello di regressione

Page 24: Statistica Applicata all'edilizia: il modello di regressione fileIl modello di Regressione Lineare Analisi di regressione Nell’ambito dell’analisi del mercato immobiliare possiamo

Il modello di Regressione Lineare

Esercizio

Eseguire un test ANOVA sui dati dei prezzi delle case e commentareil risultato ottenuto.

Orietta Nicolis Statistica Applicata all’edilizia: il modello di regressione

Page 25: Statistica Applicata all'edilizia: il modello di regressione fileIl modello di Regressione Lineare Analisi di regressione Nell’ambito dell’analisi del mercato immobiliare possiamo

Il modello di Regressione Lineare

Test t sui coefficienti

Interessa valutare la significatività dei singoli coefficienti βj :

H0j : βj = 0

si usa la statistica t :

t =βj

s√νj

doveν = diag

((X′X)

−1)

e t ha distribuzione t di Student con n − p − 1 gradi di libertà.

Orietta Nicolis Statistica Applicata all’edilizia: il modello di regressione

Page 26: Statistica Applicata all'edilizia: il modello di regressione fileIl modello di Regressione Lineare Analisi di regressione Nell’ambito dell’analisi del mercato immobiliare possiamo

Il modello di Regressione Lineare

Esercizio

Eseguire un test sui coefficienti del modello di regressione multiplasui dati dei prezzi delle case e commentare i risultati ottenuti.

Orietta Nicolis Statistica Applicata all’edilizia: il modello di regressione

Page 27: Statistica Applicata all'edilizia: il modello di regressione fileIl modello di Regressione Lineare Analisi di regressione Nell’ambito dell’analisi del mercato immobiliare possiamo

Il modello di Regressione Lineare

Intervalli di Confidenza nella regressione

IC sui coefficienti

βj − tn−p−1, α2s√νj ≤ βj ≤ βj + tn−p−1, α

2s√νj

dove tn−p−1, α2

è il valore critico della t di Student con n − p − 1 gradidi libertà.

Grandi campioni

βj − z α2s√νj ≤ βj ≤ βj + z α

2s√νj

Orietta Nicolis Statistica Applicata all’edilizia: il modello di regressione

Page 28: Statistica Applicata all'edilizia: il modello di regressione fileIl modello di Regressione Lineare Analisi di regressione Nell’ambito dell’analisi del mercato immobiliare possiamo

Il modello di Regressione Lineare

Esercizio

Determinare gli intervalli di confidenza dei coefficienti del modello diregressione multipla usando i dati dei prezzi delle case ecommentare i risultati ottenuti.

Orietta Nicolis Statistica Applicata all’edilizia: il modello di regressione

Page 29: Statistica Applicata all'edilizia: il modello di regressione fileIl modello di Regressione Lineare Analisi di regressione Nell’ambito dell’analisi del mercato immobiliare possiamo

Il modello di Regressione Lineare

IC sulla superficie attesa

Interessa l’IC perµy (x) = E (y |x)

in corrispondenza ad x non osservato. La sua stima LS è

µy (x) = β′x

con varianzaVar

(β′x)

= σ2x′ (X′X)−1 x.

Perciò l’IC per µy (x) è

β′x∓ tn−p−1, α2s√

x′ (X′X)−1 x

dove tn−p−1, α2

è il valore critico della t di Student con n − p − 1 gradidi libertà.

Orietta Nicolis Statistica Applicata all’edilizia: il modello di regressione

Page 30: Statistica Applicata all'edilizia: il modello di regressione fileIl modello di Regressione Lineare Analisi di regressione Nell’ambito dell’analisi del mercato immobiliare possiamo

Il modello di Regressione Lineare

IC sulle previsioniInteressa l’IC per

y = β′x + ε

in corrispondenza ad una x non osservata.La sua stima è

y = β′x

osservando cheβ = β + (X′X)

−1 X′ε,

si ottiene la varianza della previsione:

Var (y− y) = σ2[1 + x′ (X′X)

−1 x]

Perciò l’IC per y è

β′x∓ tn−p−1, α2s√

1 + x′ (X′X)−1 x

dove tn−p−1, α2

è il valore critico della t di Student con n − p − 1 gradidi libertà.

Orietta Nicolis Statistica Applicata all’edilizia: il modello di regressione

Page 31: Statistica Applicata all'edilizia: il modello di regressione fileIl modello di Regressione Lineare Analisi di regressione Nell’ambito dell’analisi del mercato immobiliare possiamo

Il modello di Regressione Lineare

Esercizio

Considerate i dati sui prezzi delle case. Utilizzando i risultati delmodello di regressione lineare multipla,

determinare il valore previsto quando il valore accertato è 85 (inmigliaia di eruro) e l’età della casa è 10 anni;Calcolare un intervallo di confidenza per tale valore previsto.

Orietta Nicolis Statistica Applicata all’edilizia: il modello di regressione