Upload
severo-belli
View
218
Download
0
Embed Size (px)
Citation preview
L’analisi di regressione lineare ed i passaggi logici
1. Si ipotizzaipotizza e verifica tramite ispezione grafica una una relazione funzionalerelazione funzionale lineare tra una variabile dipendente ed una o più variabili esplicative (indipendenti)
2. Si stimano i parametristimano i parametri di tale relazione funzionale sulla base dei dati disponibilidati disponibili
3. L’analisi viene statisticamente verificata ricorrendo a diversi strumenti quali: i test statistici di significatività; costruendo intervalli di confidenza; ricorrendo al p-value (probabilità di commettere un errore di I specie).
4. Nel contempo si verifica che le ipotesi di base per l’utilizzo degli stimatori OLS siano rispettate.
5.5. Infine si considera se il modello è Infine si considera se il modello è ancheanche economicamente significativoeconomicamente significativo
La scelta del legame funzionale
• Il concetto di regressione è indipendente dalla linearità del modello utilizzato
• Viene utilizzato il modello lineare perché è più facile da interpretare
• Quando i dati disponibili, dovessero seguire un andamento diverso rispetto a quello lineare – laddove possibile – si interviene sulle variabili per “linearizzarle” (anamorfosi lineare)
• Nella regressione semplice il primo strumento per fare un’analisi preventiva della linearità è il diagramma a dispersione
La regressione e la natura dei dati
• I dati che possono essere utilizzati nella regressione possono essere quantitativi e qualitativi;
• I dati qualitativi, se riguardanti variabili indipendenti, possono essere utilizzati attraverso l’uso delle dummy (ad.esempio maschio =1 e femmina = 0; si veda come esempio la matrice dei dati in Verbeek bwages)
• Se invece l’utilizzo delle variabili dummy riguarda le variabili dipendenti, noi ci troviamo innanzi ai modelli: A) LPM (Linear Probability Model); B) LOGIT model; C) PROBIT model;
….e i dati di conteggio
• Occorre anche fare attenzione che la variabile dipendente non utilizzi dati di conteggio (ad esempio il numero di brevetti).
• Ed infatti in questo caso, nonostante le risposte siano discrete ed ordinate è possibile evidenziare due differenze importanti rispetto al caso di risposte discrete ed ordinate:
- il valore osservato può avere un significato cardinale e non semplicemente ordinale;
- Non esiste un limite superiore naturale per il risultato La classe dei modelli in questo caso sono i modelli di
Poisson e la binomiale negativa
La regressione lineare semplice
Su n unità statistiche sono stati osservati i valori relativi a due due distinte variabili:distinte variabili:
Y variabile dipendente o variabile risposta
X variabile indipendente o variabile esplicativa
Sulla base dei dati osservati, effettuata una rappresentazione grafica delle osservazioni, può essere formulata la seguente relazione lineare
i i iY X u
I parametri della retta di regressione
Dove:
- α e ββ sono i parametriparametri del modello di regressione- α è chiamata intercetta; ββ coefficiente di regressione
Occorre inoltre ricordare che mentre il termine di errore è una variabile casuale, la xi è “solitamente” considerata una variabile matematica.
i i iY X u
Il modello matematico e il modello statistico
• Il termine ui, indica il passaggio da una relazione certa ad una incerta.
• Nel modello matematico la 1] viene riscritta senza il termine di errore; ad ogni valore di xi corrisponde un valore esatto di yi
• Nel modello statisticomodello statistico la relazione non è certa perché esiste il termine di errore.
• Per poter sviluppare una teoria econometricateoria econometrica è però importante fare delle ipotesi sugli erroriipotesi sugli errori.
…..cosa troviamo nell’errore
- Nell’errore troviamo tutte le variabili non esplicitate nel modello
- Nell’errore troviamo anche gli errori di misurazione;
- Analizzare il comportamento dell’errore (le ipotesi) è importante per comprendere lo stesso significato della regressione
Ma cosa rappresenta una regressione?• Regredire una variabile sull’altra, significa spiegare il
comportamento di una variabile mediante il comportamento di un’altra
• La retta di regressione esprime una tendenzatendenza; questo vuol dire che mediamentemediamente al variare della xi la yi assumerà certi valori (ricorda che c’è sempre un termine di errore!)
• Possiamo fare una considerazione di ordine generale: -la regressione rappresenta lo stesso concetto studiato con la
media aritmetica; -l’errore standard (media dei quadrati degli errori) della retta
di regressione equivale allo scarto quadratico medio. • Il modello di regressione quindi esprime una misura di
tendenza, alla quale viene associata una misura della variabilità (errore standard della regressione)(errore standard della regressione)
…quale ipotesi sugli errori
1] La media degli errori deve essere uguale a zero: E(u) = 0
2] La varianza degli errori deve essere costante (omoschedasticità): E(u2) = σ2
u
3] Gli errori devono essere tra loro incorrelati: Cov(ui,uj) = 0
Dalla 1 e 2 segue – importante per fare inferenza statistica su parametri della retta di regressione:
4] Gli errori devono distribuirsi normalmente.
…ancora sulle ipotesi di regressione
• Tra la 1 e la 2 è possibile inserire un’ ulteriore ipotesi che in molti casi viene implicitamente contenuta nella 1 e 2, ovvero:
2a) Gli errori sono indipendenti da Xi.
Le condizioni appena elencate possono essere così riassunte:
I termini di errore uI termini di errore uii sono estrazioni indipendenti da una sono estrazioni indipendenti da una
distribuzione normale (n.i.d) di media nulla e varianza distribuzione normale (n.i.d) di media nulla e varianza costantecostante
Sul metodo di stima
• Il metodo di stima utilizzato per la specificazione dei parametri nel modello di regressione lineare è il metodo dei minimi quadrati;
• Esso impone che la distanza tra i valori osservati ed i valori teorici al quadrato sia un minimo considerando che l’errore o residuo è 5]:
ˆi i i i ie Y Y Y a bX
….dalla popolazione alla retta di regressione campionaria e viceversa
• Il termine errore utilizzato nella vera retta di regressione della popolazione, diventa il residuo nella retta di regressione campionaria
• I coefficienti a e b, rappresentati nella 5] sono degli stimatori di α e β
• Cosa permette di utilizzare a e b come stimatori di α e β ?
• Il rispetto delle ipotesi 1] e 3], ci permette di affermare che lo stimatore OLS b, è il migliore stimatore corretto e lineare di β.
• Si dice così che b è lo stimatore BLUE (Best Linear Unbiased Estimator)
…ancora sulla stima dei parametri
• Applicando il metodo dei minimi quadrati, a e b, sono scelti in modo da minimizzare la somma dei quadrati dei residui campionari 6]:
22
1 1
( , )n n
i i ii i
f a b e Y a bX
….e sul procedimento matematico
Le condizioni necessarie per un punto stazionario sono date da
7]:
applicando queste condizioni, si ottiene il seguente sistema di equazioni nelle incognite a e b, da cui si ricava:
8]:
( , ) ( , )0
f a b f a ba b
1 1
n n
i ii i
Y na b X
2
1 1 1
n n n
i i i ii i i
X Y a X b X
….ancora sul procedimento matematico
• Da cui si ottengono le seguenti 8] e 9] stime dei parametri considerando xi e yi come scarti dalla media:
a Y bX 2
1 1
n n
i i ii i
b x y x
Ancora qualche riflessione • Ricorda che:Ricorda che: - I dati campionari sono solo una delle possibili
determinazioni, ovvero quella che è stata “estratta”- Che yi e ui, sono variabili casuali- Al variare del campione e, quindi, dei dati disponibili, si
modificherà anche la retta di regressione stimata;- ci muoviamo nell’ambito del campionamento casuale; la
distribuzione dei campioni, come ricorderai ha, sotto specifiche ipotesi, un andamento normale;
- Questo vuol dire che la possibilità di avere “cattivi campioni” è minore rispetto a quella di avere “buoni” campioni;
- Gli stimatori hanno anch’essi una distribuzione normale, e, quindi, la possibilità di commettere grandi errori è bassa.
….è importante ricordare
• Lo stimatore bb ha anch’esso una distribuzione normale, esso inoltre è corretto, ovvero mediamente è pari al vero valore β della popolazione
• Per la correttezza dello stimatore OLS è sufficiente che i termini di errore abbiano media nulla e siano indipendenti da tutte le variabili esplicative, anche in presenza di autocorrelazione e eteroschedasticità.
• In presenza di autocorrelazione ed eteroschedasticitàautocorrelazione ed eteroschedasticità lo stimatore OLS può essere comunque corretto e consistente, ma solo relativamente efficientesolo relativamente efficiente (non è più BLUES)
…come intervenire
• In questi casi lo stimatore OLS, sebbene corretto, non è il miglioremigliore
• A questo punto si aprono due possibilità:
1] Si può derivare un nuovo stimatorenuovo stimatore (GLS o minimi quadrati ponderati) che è BLUE
2] Si può continuare ad utilizzare lo stimatore stimatore OLSOLS, correggendo gli standard error per ammettere la possibilità di eteroschedasticitàeteroschedasticità e/o autocorrelazioneautocorrelazione
….esiste però una terza possibilità
• Si ricordi infine che in molti casi la presenza di eteroschedasticità e/o autocorrelazione, indica una non corretta specificazione del modello.
• Si può quindi intervenire in un altro modo, ovvero riconsiderare il modello. riconsiderare il modello.
La regressione lineare multipla
• Il modello statistico di riferimento può essere così stilizzato:
Quanto detto per la regressione semplice sulle iotesi di base, può essere riproposto per la regressione multipla
1 2 ... k 1 2 ky x x x u
…la multicollinearità come ipotesi aggiuntiva
• Consiste nella dipendenza linearedipendenza lineare o quasi dipendenza linearequasi dipendenza lineare (un legame molto intenso anche se non perfetto) di due o più variabili esplicative, sebbene in letteratura non sia stata individuata una precisa “soglia”
• In presenza di una forte combinazione lineare delle variabili esplicative, si ha una perdita di efficienza degli stimatori;
• Si registra infatti un aumento della variabilità delle stime che quindi diventano meno precise
• Da un punto di vista concettuale, se una variabile è “collineare” con un’altra, vuol dire che è “ridondante” per spiegare la variabile dipendente (principio della parsimonia)
….può essere misurata?
• Può anche essere computato il VIFVIF ( (Variance Inflation Variance Inflation FactorFactor)), basato sul coefficiente di determinazione multiplo R2
j relativo alla regressione della j-sima variabile esplicativa
• Valori superiori a 4-5 possono iniziare ad essere considerati sospetti
• L’inverso del VIF è il TOL = (1-R2)• TOL= 0 perfetta collinearità tra i regressori; TOL = 1 non
c’è collinearità tra i regresssori
2
11
j
VIFR
…i rimedi possibili
• I rimedi possono essere diversi:
• A) eliminare la variabile collineare;
• B) trasformare le variabili iniziali, ad esempio inserendo una nuova variabile combinazione di quelle correlate.
• Se i dati sono in serie storica, può essere utile una trasformazione logaritmica, oppure una differenziazione
Il modello si adatta bene ai dati?..L’R2
• Il coefficiente di determinazione “R2”, misura la quota di variabilità della Y spiegata dal modello, utilizzando quelle variabili.
• La devianza totale può essere scomposta nella devianza di regressione (devianza spiegata) e nella devianza residua (devianza non spiegata).
22 2
1 1 1
ˆn n n
i i ii i i
Y Y Y Y e
ancora sulla valutazione del modelloancora sulla valutazione del modello
• Il coefficiente di determinazione R2=Devianza di regressione/Devianza Totale e varia tra 0 (indica che il modello non si adatta per niente ai dati) e 1 (il modello si adatta perfettamente ai dati).
• Può anche essere espresso come il complemento a 1 del rapporto tra la Devianza Residua/Devianza Totale
• Per valutare la bontà di una regressione è importante però guardare sempre gli errori standarderrori standard
• Inoltre se si vuole confrontare l’RInoltre se si vuole confrontare l’R2 2 di due regressioni di due regressioni diverse sarà bene considerare la numerosità delle diverse sarà bene considerare la numerosità delle osservazioni e il numero delle variabili esplicative inserite osservazioni e il numero delle variabili esplicative inserite nel modellonel modello
• Si perviene così all’RSi perviene così all’R2 2 correttocorretto
…continua
• Si perviene così all’RSi perviene così all’R2 2 correttocorretto
• Se l’RR22 è alto, ma le tt hanno un basso livello di significatività statistica, questo è un segnale di multicollinearità
• Anche la matrice di correlazionematrice di correlazione è uno strumento diagnostico utile.
2 2( ) 11 1 1
( 1)RSS n k n
R RTSS n n k
Significatività statistica dei parametri nel loro complesso
• Si può analizzare la significatività statistica dei parametri nel loro complesso
• La statistica statistica FF della tavola ANOVA può essere impiegata per effettuare un test di significatività per l’intero modellotest di significatività per l’intero modello utilizzando come ipotesi nulla e alternativa:
H0: β2 = β3 = … = βk = 0
H1: almeno un βj ≠ 0 j=2, …, k
• Ipotesi nulla (H0): le variabili esplicative non influiscono su variabili esplicative non influiscono su YY
• Ipotesi alternativa (H1):almeno una delle variabili esplicative almeno una delle variabili esplicative influisce su Y influisce su Y
Il Test FIl Test F
• Sotto H0 il rapporto delle due quantità ESS (devianza spiegata) e RSS (devianza residua) - divise per i rispettivi gradi di libertà - si distribuisce come una variabile F di Fisher con (k-1) e (n-k) gradi di libertà
• Per sottoporre a verifica l’ipotesi nulla si procede come precedentemente fatto per la t;t;
• Si confronta - ad un determinato livello di significatività α - il valore F calcolato con il corrispondente valore della distribuzione F di Fisher teorico
…ancora sulla F
• Se vale la seguente relazione (così come accadeva per la t), si rifiuta l’ipotesi nulla e quindi la regressione è nel complesso statisticamente significativa
• Ricorda infine che tra la statistica TT e la F esiste una precisa relazione
• Si può utilizzare anche il p-value che per rifiutare l’ipotesi nulla dovrà essere inferiore al livello di significatività prescelto
, 1 ,
/( 1)/( ) k n k
ESS kF F
RSS n k
L’analisi dei residuiL’analisi dei residui
• Sia nella regressione lineare semplice, sia in quella multipla, l’analisi dei residui consente di diagnosticare il rispetto delle condizioni di base.
• Si ricordi che la violazione delle ipotesi di base, produce stime non efficienti e, comunque, possono portare a risultati fuorvianti.
• L’analisi dei residui è quindi determinante e può essere condotta mediante
A) ispezione grafica;
B) utilizzo di test statistici;
L’Ispezione Grafica
Il grafico utilizzato è il diagramma a dispersionediagramma a dispersione che riporta i residui eeisis in ordinata in ordinata mentre, in ascissa è possibile riportare:
- i valori stimativalori stimati della variabile dipendentevariabile dipendente Ŷi (si evince la linearità del modello)
- i valorivalori osservatiosservati di una delle variabilivariabili indipendentiindipendenti Xj (questo è il diagramma più corretto per evidenziare l’eteroschedasticità)
Se le assunzioni sono verificate,assunzioni sono verificate, i residui danno luogo ad una nuvola di punti, e quindi nonnon esiste una particolare particolare struttura (andamento)struttura (andamento)
I punti del diagramma tendono a disporsi casualmente intorno allo 0
……il grafico a dispersione….se le cose vanno beneil grafico a dispersione….se le cose vanno bene
-2
-1,5
-1
-0,5
0
0,5
1
1,5
2
2,5
0 50 100 150 200 250
Ŷ i
esi
Il ricorso ai test..
• A) Esiste il Test di Linearità (Test Reset_Regression Equation specification Error Test)
• B) Esiste il Test per la verifica della Normalità degli errori/residui
• C) Esiste il Test per la verifica dell’Eteroschedasticità degli errori/residui
• D) Esiste il Test per la verifica dell’Autocorrelazione dei errori/residui
Violazione dell’ipotesi di linearità
Si può diagnosticarediagnosticare principalmente in due modi:
1. osservando una certa strutturacerta struttura nei residui mediante ispezione grafica
2. Ricorrendo al Test Reset
-2
-1,5
-1
-0,5
0
0,5
1
1,5
2
-50 0 50 100 150 200
Vendite (valori stimati)
Res
idui
stu
d.
Come intervenire…
Laviolazione delle ipotesi possono essere risolte trasformando le variabili:
1) Per la normalizzazione dei Residui
2) Per stabilizzare la Varianza errori
3-4) Per linearizzare le relazione
1)
2) log
3) log
4) log log log
Y X u
Y X u
Y X u
Y X u
Ancora ispezione grafica
Per avvalorare l’ipotesi che la relazione stimata sia lineare nella trasformata, si esaminano i residui della nuova residui della nuova regressioneregressione e si verifica che non ci sia nessunanessuna particolare strutturastruttura
Violazione dell’ipotesi di omoschedasticità
-3
-2,5
-2
-1,5
-1
-0,5
0
0,5
1
1,5
2
2,5
Variabile X
Res
idui
stu
dent
izzat
i
…ancora sull’omoschedasticità
-2
-1,5
-1
-0,5
0
0,5
1
1,5
2
Variabile X
Res
idui
stu
dent
izzat
i
I test dell’eteroschedasticità…
• Sono diversi ma noi considereremo solamente il Test di Breusch-Pagan (BP) e il test di White
• Il metodo di White è estremamente generale e la potenza del test è estremamente bassa se il numero di osservazioni è modesto
• Il test di (BP) è, spesso, anche per la facilità di calcolo il più utilizzato.
• Si ricorre ad una regressione ausiliara degli errori rispetto alle variabili esplicative, testando l’ipotesi nulla Eteroschedasticità non presenteEteroschedasticità non presente
…la soluzione per l’eteroschedasticità
• Le soluzione consiste, come precedentemente illustrato:
• A) Nel trasformare le variabili in logaritmi;
B) Oppure, applicare stimatori diversi agli OLS, ad esempio il metodo GLS come il metodo dei minimi metodo dei minimi quadrati ponderatiquadrati ponderati (WLS)(WLS)
• Gretl esempio Price-Sqrm
La regressione in serie storicaLa regressione in serie storica
…le ipotesi di base sono sempre valide
• Queste ipotesi però vanno rispettate tenuto conto che esse si manifestano in serie storica.
• Formalmente le ipotesi di base così come formulate nella regressione cross-section, sostituisconi a i, t
• Lo stesso avviene per la stilizzazione della regressione lineare semplice
1] ytα0+β1xt+εt (vedremo che il modello presenta alcune particolarità)
esempio: • inflazione = α0 + β1 disoccupazionet+ εt (vedremo che il
modello presenta delle particolarità)
…però ci sono anche i modelli dinamici
• I modelli 1] sono anche definiti modelli statistici;
mentre
2] ytα0+β0xt+ β2xt-1+εt
• Sono detti anche modelli dinamici e pur non mutando il significato del coefficiente di regressione essi presentano alcune particolarità
• Ad esempio nei modelli dinamici, come la 2] la somma dei coefficienti descrive l’effetto cumulato sulla y (long-run propensity)
…cross-sectional e time series…
• Dal punto di vista metodologico il Pil nei diversi anni, il valore in ciascun anno rappresenta una variabile casuale, come particolare realizzazione;
• La distinzione tra processo stocastico e la sua realizzazione è la stessa distinzione che abbiamo fatto tra la popolazione ed il campione nei dati crss-sectional.
• Così come accadeva nel ragionamento cross-sectional, che utilizzavamo i dati campionari per fare inferenza sulla popolazione, nelle serie storiche noi utilizziamo i dati per fare inferenza sul processo stocastico sottostante che li ha generati.
…anche nella regressione in serie storica
• Valgono le ipotesi di base che abbiamo già visto per l’utilizzo degli stimatori OLS nella regressione cros-section (teorema Gauss-Markov)
• Si ricordi che però l’ipotesi di errori non correlati, acquista maggiore rilevanza
• Le considerazioni fatte in merito alla forma funzionale, valgono anche nella regressione in time-series.
• Spesso nei lavori applicati, viene utilizzata la trasformazione logaritmica delle variabili;
…variabili e “tempo”
• Spesso le variabili dummy possono essere utilizzate per isolare certi periodi che possono essere sistematicamente differenti da altri periodi.
• Molte serie storiche hanno una tendenza comune a crescere nel tempo e questo è il principale problema.
• Se le serie storiche contengono un trend nella stessa/opposta direzione, possiamo concludere in maniera sbagliata che un cambiamento in una delle variabili, causa un cambiamento nell’altra.
• Questo fenomeno è noto come regressione spuria
…la stazionarietà…ovvero non c’è l’influenza del tempo
• Un particolare processo stocastico utilizzato nelle analisi di serie storiche è il processo stocastico stazionario;
• Un processo stocastico è un insieme di variabili ordinate rispetto al tempo;
• La stazionarietà di un processo si ha quando la sua media e la sua varianza sono costanti nel tempo e la sua covarianza dipende solamente dalla distanza legata ai due periodi
…in sintesi si ha
Per la media
E(Yt) = μ
Per la varianza
Var (Yt) = E(Yt-μ)2=σ2
Per la Covarianza
γk =E[(Yt-μ)(Yt+K-μ)
Sono quindi invariati rispetto al tempo
…un particolare tipo di processo stazionario
• Se il processo stocastico ha media 0, varianza costante ed è serialmente incorrelato allora siamo davanti ad un processo white noise
• Molte serie storiche economiche non sono stazionarie, il più chiaro esempio è il modello random walk
1] yt= yt-1+μt
Si può dimostrare che Var(yt) = tσ2
…la radice unitaria e i trend stocastici
1] yt= ρyt-1+μt
Se nella 1, ρ=1 siamo in presenza di una radice unitaria che indica una non stazionarietà del processo;
Il termine non stazionarietà, passeggiata aleatoria (random walk), radice unitaria, trend stocastico possono essere utilizzati con lo stesso significato
…ma le differenze prime sono stazionarie
• Ma è interessante notare che :
(Yt-Yt-1) = ΔYt= ut
• Quindi se Yt non è stazionario, la sua differenza prima è invece stazionaria
• Se dalla 1 passiamo alla 2 si ha:
2] yt=α+yt-1+μt
• Si ottiene un random walk with drift
• Il modello random walk è un esempio di quello che chiamiamo un processo a radice unitaria
…il trend deterministico ed il trend stocastico
• Se il trend di una serie storica è una funzione deterministica del tempo, lineare quadrata, ecc.. Si dice che il trend è deterministico
• Il trend detrministico è quindi prevedibile infatti la 3]
3] yt= β1+ β2t+μt
È chiamata anche trend stazionario. Questo vuol dire che mentre la media di yt è β1+ β2t, e quindi non è costante, lo è la sua varianza.
… in una serie storica possono coesistere trend deterministici e trend stocastici
4] yt= β1+β2 t+ β3yt-1+ μt
Se β1e β2 sono diversi da 0, ma β3<1Indica un trend stazionario intorno ad un trend deterministico
Si ricordi che un processo è integrato di ordine p, I(d),se viene differenziato d volte
Se viene utilizzata la differenza prima diciamo che la serie è differenziata di ordine 1, I(1)
La serie differenziata è uno strumento che può rendere la serie stazionaria, eliminando il problema relativo al trend stocastico o radice unitaria
…per evidenziare la stazionarietà..
• Abbiamo l’ispezione grafica dei dati originari.
• Il correlogramma
• I test di stazionarietà (Dickey-Fuller test)