12

Click here to load reader

Gretl - Caschool (Multipla)

Embed Size (px)

DESCRIPTION

statistica

Citation preview

Page 1: Gretl - Caschool (Multipla)

CASCHOOL – GRETLREGRESSIONE MULTIPLA

TEST SCR & STR

STR STUDENT TEACHER RATIO

Totale iscritti/Numero di insegnanti

ENRL_TOT/TEACHERS

TESTSCR AVG TEST SCORE

Media dei punteggi ottenuti nelle prove di lettura e di mate

(READ_SCR+MATH_SCR)/2

EL_PCT PERCENT OF ENGLISH LEARNERS

Percentuale di studenti non madrelingua

FRACEL Frazione di studenti non madrelingua

EL_PCT/100

EXPN_STU EXPENTITURES PER STUDENT ($’S);

Spesa annua totale per studente nel distretto in dollari

EXPN EXPENTITURES PER STUDENT ($1000’S);

Spesa annua totale per studente nel distretto in migliaia di dollari

EXPN_STU/1000

MEAL_PCT PERCENT QUALIFYING FOR REDUCED-PRICE LUNCH

Percentuale di studenti che hanno diritto ad un sussidio mensa parziale o totale

CALW_PCT PERCENT QUALIFYING FOR CALWORKS

Percentuale di studenti la cui famiglia è idonea per il programma di assistenza pubblica sul reddito

Matrice di correlazione

Coefficienti di correlazione, usando le osservazioni 1 - 420Valore critico al 5% (per due code) = 0,0957 per n = 420

str el_pct1,0000 0,1876 str

1,0000 el_pctLa correlazione tra il rapporto studenti-insegnanti e la percentuale di studenti non madrelingua nel distretto è 0.19 . Questa correlazione seppur piccola è positiva e quindi suggerisce che i distretti con un numero maggiore di studenti non madrelingua hanno tendenzialmente un più alto rapporto studenti-insegnanti. Solo se il rapporto studenti-insegnanti non dipendesse dalla percentuale di non madrelingua sarebbe legittimo ignorare quest’ultima nella regressione.

Modello di regressione lineare

Page 2: Gretl - Caschool (Multipla)

Modello 7: OLS, usando le osservazioni 1-420Variabile dipendente: testscr

Errori standard robusti rispetto all'eteroschedasticità, variante HC1

Coefficiente Errore Std. rapporto t p-valueconst 686,032 8,72822 78,5993 <0,00001 ***el_pct -0,649777 0,0310318 -20,9391 <0,00001 ***str -1,1013 0,432847 -2,5443 0,01131 **

Media var. dipendente 654,1565 SQM var. dipendente 19,05335Somma quadr. residui 87245,29 E.S. della regressione 14,46448R-quadro 0,426431 R-quadro corretto 0,423680F(2, 417) 223,8229 P-value(F) 9,28e-67Log-verosimiglianza -1716,561 Criterio di Akaike 3439,123Criterio di Schwarz 3451,243 Hannan-Quinn 3443,913

Retta di regressione lineare: TESTSCR = 686,032 – 1,10 STR – 0,65 EL_PCTL’intercetta 0 è stimata da 686.032, la stima OLS del coefficiente 1 del rapporto studenti-insegnanti è -1.1013, la stima OLS del coefficiente 2 della percentuale di studenti non madrelingua è -0.6498.Dunque con due regressori si stima che un decremento unitario del rapporto studenti-insegnati aumenti di soli 1,10 punti i punteggi dei test, contro i 2.28 punti della regressione con un singolo regressore. Riconosciamo dunque una distorsione da variabile omessa.La differenza tra l’R2 e l’ R2 corretto è piccola perché la dimensione campionaria è grande e i regressori sono solo due.Si noti che con l’aggiunta della variabile sulla percentuale di non madrelingua è spiegato il 42.6 % della variazione dei punteggi, contro il 5.1 % della regressione con il solo rapporto studenti-insegnanti.Il SER diminuisce da 18.6 a 14.5; questo indica che le predizioni circa i punteggi nei test sono più precise quando vengono incluse sia STR che EL_PCT.Per verificare l’ipotesi nulla che il vero coefficiente di STR sia uguale a 0, guardiamo il valore della statistica t che è -2.54 e il relativo p-value che è 1.131 % < 5 % quindi l’ipotesi nulla può essere rifiutata ad un livello di significatività del 5 % (ma ad esempio non ad un livello di significatività dell’1%).L’intervallo di confidenza al 95% per il coefficiente di STR nella popolazione può essere calcolato come (-1.1013– 1.96*0.433 , -1.1013+ 1.96*0.433) = (-1.95 , -0.25) cioè al 95 % il vero valore del coefficiente si trova in questo intervallo. L’intervallo di confidenza per l’effetto sui test di una diminuzione di due unità del rapporto studenti-insegnanti è -2 * (-1.95 , -0.25) = (0.5 , 3.9). Usando Gretl:

Intervalli di confidenza per i coefficienti

t(417, 0,025) = 1,966

Variabile Coefficiente Intervallo di confidenza al 95const 686,032 (668,875, 703,189) str -1,10130 (-1,95213, -0,250462)

el_pct -0,649777 (-0,710775, -0,588779)

Page 3: Gretl - Caschool (Multipla)

ESEMPIO DI COLLINEARITA’ PERFETTA

Modello 9: OLS, usando le osservazioni 1-420Variabile dipendente: testscr

Omesse per perfetta collinearità: fracel

Coefficiente Errore Std. rapporto t p-valueconst 686,032 7,41131 92,5656 <0,00001 ***el_pct -0,649777 0,0393425 -16,5159 <0,00001 ***str -1,1013 0,380278 -2,8960 0,00398 ***

Media var. dipendente 654,1565 SQM var. dipendente 19,05335Somma quadr. residui 87245,29 E.S. della regressione 14,46448R-quadro 0,426431 R-quadro corretto 0,423680F(2, 417) 155,0136 P-value(F) 4,62e-51Log-verosimiglianza -1716,561 Criterio di Akaike 3439,123Criterio di Schwarz 3451,243 Hannan-Quinn 3443,913

La variabile FRACEL viene omesse in quanto mostra collinearità perfetta con la variabile EL_PCT poiché ne è una funzione lineare.

AGGIUNGIAMO UN’ALTRA VARIABILE

Modello 3: OLS, usando le osservazioni 1-420Variabile dipendente: testscr

Errori standard robusti rispetto all'eteroschedasticità, variante HC1

Coefficiente Errore Std. rapporto t p-valueconst 649,578 15,4583 42,0212 <0,00001 ***str -0,286399 0,482073 -0,5941 0,55277el_pct -0,656023 0,0317844 -20,6397 <0,00001 ***expn 3,8679 1,58072 2,4469 0,01482 **

Media var. dipendente 654,1565 SQM var. dipendente 19,05335Somma quadr. residui 85699,71 E.S. della regressione 14,35301R-quadro 0,436592 R-quadro corretto 0,432529F(3, 416) 147,2037 P-value(F) 5,20e-65Log-verosimiglianza -1712,808 Criterio di Akaike 3433,615Criterio di Schwarz 3449,776 Hannan-Quinn 3440,003

Retta di regressione lineare: TESTSCR = 649,578 – 0,286 STR – 0,656 EL_PCT + 3.868 EXPN

Tenendo costante la spesa per studente e la percentuale di non madrelingua, la variazione nel rapporto studenti-insegnanti ha un effetto molto ridotto, infatti oltre al valore del coefficiente che passa da -1.10 a -0.29 si noti la statistica t con relativo p-value 55,28 % che dice che l’ipotesi nulla che questo coefficiente sia pari a 0 non può essere rifiutata neanche ad un livello di significatività del 10 %: quindi questo modello di regressione non fornisce evidenza a favore del fatto che l’assumere più insegnanti migliori i punteggi dei test se la spesa totale è tenuta costante.

Page 4: Gretl - Caschool (Multipla)

Lo SE relativo al coefficiente di STR è aumentato dopo l’aggiunta di EXPN e questo è manifestazione del fenomeno della collinearità imperfetta, infatti STR e EXPN sono fortemente correlati.

Coefficienti di correlazione, usando le osservazioni 1 - 420Valore critico al 5% (per due code) = 0,0957 per n = 420

expn str1,0000 -0,6200 expn

1,0000 strPer testare l’ipotesi nulla che siano contemporaneamente nulli i coefficienti di STR e di EXPN usiamo la statistica F:

Insieme di vincoli 1: b[str] = 0 2: b[expn] = 0

Statistica test: F robusta(2, 416) = 5,43373, con p-value = 0,0046823

Stime vincolate:

coefficiente errore std. rapporto t p-value --------------------------------------------------------------- const 664,739 0,940642 706,7 0,0000 *** str 0,000000 0,000000 NA NA el_pct -0,671156 0,0389837 -17,22 1,36e-050 *** expn 0,000000 0,000000 NA NA

Errore standard della regressione = 14,5917

La statistica F è pari a 5.43373 > 4.61 quindi l’ipotesi nulla può essere rifiutata ad un livello di significatività dell’ 1% e inoltre 5.43373 > 3 quindi l’ipotesi nulla può essere rifiutata ad un livello di significatività del 5 %. Quindi possiamo rifiutare l’ipotesi nulla che STR e EXPN non siano statisticamente rilevanti per l’effetto sui punteggi.

La regressione vincolata è dunque TESTSCR = 664,739 – 0,671 EL_PCT ovvero

Modello 4: OLS, usando le osservazioni 1-420Variabile dipendente: testscr

Errori standard robusti rispetto all'eteroschedasticità, variante HC1

Coefficiente Errore Std. rapporto t p-valueconst 664,739 0,974037 682,4578 <0,00001 ***el_pct -0,671156 0,0321211 -20,8946 <0,00001 ***

Media var. dipendente 654,1565 SQM var. dipendente 19,05335Somma quadr. residui 89000,02 E.S. della regressione 14,59173R-quadro 0,414895 R-quadro corretto 0,413496F(1, 418) 436,5823 P-value(F) 6,69e-67Log-verosimiglianza -1720,743 Criterio di Akaike 3445,486Criterio di Schwarz 3453,567 Hannan-Quinn 3448,680

e dunque ha un R2 pari a 0.4149.

Si può anche scegliere di testare se due coefficienti sono uguali:

Vincolo:

Page 5: Gretl - Caschool (Multipla)

-1

0

1

2

3

4

5

6

7

8

-1,5 -1 -0,5 0 0,5 1

exp

n

str

Ellisse di confidenza al 95% e intervalli marginali al 95%

-0,286, 3,87

b[str] - b[expn] = 0

Statistica test: F robusta(1, 416) = 8,9403, con p-value = 0,00295511

Stime vincolate:

coefficiente errore std. rapporto t p-value -------------------------------------------------------------- const 685,822 11,3696 60,32 4,31e-208 *** str -0,854052 0,459004 -1,861 0,0635 * el_pct -0,656690 0,0396393 -16,57 9,96e-048 *** expn -0,854052 0,459004 -1,861 0,0635 *

Errore standard della regressione = 14,5489

Regione di confidenza e intervalli marginali al 95 % per i coefficienti di STR e EXPN

L’ellisse contiene al 95 % le coppie di valori che non possono essere rifiutati usando la statistica F al livello di significatività del 5 %. Si noti che questa ellisse non contiene la coppia (0,0), ciò vuol dire che l’ipotesi nulla che i coefficienti di STR e EXPN siano contemporaneamente nulli è rifiutata ad un livello di significatività del 5 %.

ALTRA REGRESSIONE

Matrice di correlazione:Coefficienti di correlazione, usando le osservazioni 1 - 420Valore critico al 5% (per due code) = 0,0957 per n = 420

calw_pct meal_pct el_pct1,0000 0,7394 0,3196 calw_pct

1,0000 0,6531 meal_pct1,0000 el_pct

Page 6: Gretl - Caschool (Multipla)

test

scr

calw_pctte

stsc

rmeal_pct

test

scr

el_pct

Quindi le CALW_PCT e MEAL_PCT sono fortemente correlate (infatti misurano entrambi la percentuale di bambini economicamente svantaggiati nel distretto)

Grafici X-Y a dispersione

Ciascuna di queste variabili mostra una correlazione negativa con il punteggio nei test.

Procediamo nel fare tre modelli di regressione, tutti con variabile dipendente TESTSCR:1) Variabili indipendenti: STR, EL_PCT, CALW_PCT

Modello 14: OLS, usando le osservazioni 1-420Variabile dipendente: testscr

Errori standard robusti rispetto all'eteroschedasticità, variante HC1

Coefficiente Errore Std. rapporto t p-valueconst 697,999 6,92037 100,8615 <0,00001 ***str -1,30798 0,339076 -3,8575 0,00013 ***el_pct -0,48762 0,0295823 -16,4835 <0,00001 ***calw_pct -0,789965 0,0676596 -11,6756 <0,00001 ***

Media var. dipendente 654,1565 SQM var. dipendente 19,05335Somma quadr. residui 56502,17 E.S. della regressione 11,65429R-quadro 0,628543 R-quadro corretto 0,625864

Page 7: Gretl - Caschool (Multipla)

F(3, 416) 170,3655 P-value(F) 4,93e-72Log-verosimiglianza -1625,328 Criterio di Akaike 3258,656Criterio di Schwarz 3274,817 Hannan-Quinn 3265,043

TESTSCR = 698 – 1,308 STR – 0,488 EL_PCT – 0,79 CALW_PCT

2) Variabili indipendenti: STR, EL_PCT, MEAL_PCT

Modello 15: OLS, usando le osservazioni 1-420Variabile dipendente: testscr

Errori standard robusti rispetto all'eteroschedasticità, variante HC1

Coefficiente Errore Std. rapporto t p-valueconst 700,15 5,56845 125,7352 <0,00001 ***str -0,998309 0,27008 -3,6963 0,00025 ***el_pct -0,121573 0,0328317 -3,7029 0,00024 ***meal_pct -0,547346 0,0241072 -22,7046 <0,00001 ***

Media var. dipendente 654,1565 SQM var. dipendente 19,05335Somma quadr. residui 34298,30 E.S. della regressione 9,080079R-quadro 0,774516 R-quadro corretto 0,772890F(3, 416) 453,4792 P-value(F) 1,0e-130Log-verosimiglianza -1520,499 Criterio di Akaike 3048,999Criterio di Schwarz 3065,160 Hannan-Quinn 3055,386

TESTSCR = 700,15 – 0,998 STR – 0,122 EL_PCT – 0,547 MEAL_PCT

Statistica F

Vincolo: b[str] - b[el_pct] = 0

Statistica test: F robusta(1, 416) = 9,87264, con p-value = 0,00179751

Stime vincolate:

coefficiente errore std. rapporto t p-value -------------------------------------------------------------- const 683,761 0,992955 688,6 0,0000 *** str -0,151716 0,0316370 -4,796 2,26e-06 *** el_pct -0,151716 0,0316370 -4,796 2,26e-06 *** meal_pct -0,542058 0,0218507 -24,81 4,11e-084 ***

Errore standard della regressione = 9,20756

Poiché 9,87 > 3 l’ipotesi nulla, che i coefficienti di STR e di EL_PCT siano uguali, può essere rifiutata ad un livello di significatività del 5%.

3) Variabili indipendenti: STR, EL_PCT, CALW_PCT, MEAL_PCT

Modello 16: OLS, usando le osservazioni 1-420

Page 8: Gretl - Caschool (Multipla)

Variabile dipendente: testscrErrori standard robusti rispetto all'eteroschedasticità, variante HC1

Coefficiente Errore Std. rapporto t p-valueconst 700,392 5,53742 126,4835 <0,00001 ***str -1,01435 0,268861 -3,7728 0,00018 ***el_pct -0,129822 0,0362579 -3,5805 0,00038 ***calw_pct -0,0478537 0,0586541 -0,8159 0,41505meal_pct -0,528619 0,0381167 -13,8684 <0,00001 ***

Media var. dipendente 654,1565 SQM var. dipendente 19,05335Somma quadr. residui 34247,46 E.S. della regressione 9,084273R-quadro 0,774850 R-quadro corretto 0,772680F(4, 415) 361,6835 P-value(F) 8,9e-134Log-verosimiglianza -1520,188 Criterio di Akaike 3050,376Criterio di Schwarz 3070,577 Hannan-Quinn 3058,360

TESTSCR = 700,4 – 1,014 STR - 0,13 EL_PCT - 0,048 CALW_PCT – 0,529 MEAL_PCT

Intervalli di confidenza per i coefficienti

t(415, 0,025) = 1,966

Variabile Coefficiente Intervallo di confidenza al 95const 700,392 (689,507, 711,277) str -1,01435 (-1,54285, -0,485853)

el_pct -0,129822 (-0,201094, -0,0585498) calw_pct -0,0478537 (-0,163150, 0,0674424) meal_pct -0,528619 (-0,603545, -0,453693)

Tali intervalli di confidenza non contengono lo zero, quindi si può rifiutare la nulla che ogni coefficiente sia singolarmente pari a 0.

Confrontiamo gli R2 delle tre regressioni:

Regressione con solo CALW_PCT

R-quadro 0,628543 R-quadro corretto 0,625864

Regressione con solo MEAL_PCT

R-quadro 0,774516 R-quadro corretto 0,772890

Regressione con CALW_PCT e MEAL_PCT

R-quadro 0,774850 R-quadro corretto 0,772680

Notiamo che gli R2 delle ultime due regressioni sono molto simili ed in particolare che l’R2 corretto è maggiore nel modello con solo MEAL_PCT quindi siamo portati a pensare che a causa dell’alta correlazione tra MEAL_PCT e CALW_PCT non sia conveniente includere entrambe le variabili

Page 9: Gretl - Caschool (Multipla)

nella regressione per non incappare nel fenomeno della collinearità imperfetta e dunque teniamo infine il modello numero 2.