D.ssa Roberta Romanelli Psicometria II (fascia I-Z)

Preview:

Citation preview

d.ssa Roberta RomanelliPsicometria II (fascia I-Z)

http://www.psicometria.unich.it

• L’ANOVA è una tecnica statistica che permette di verificare ipotesi su differenze tra medie di 2 o più popolazioni.

Che cosa è?

Var. DipendenteScala a Intervalli e/o a Rapporti

equivalenti

Var. Indipendente

Scala Nominale

Gruppo sperimentale VS Gruppo di controllo

TerminologiaVariabile indipendente/

sperimentaleuna variabile che il

ricercatore sottopone a manipolazione sperimentale

Variabile quasi-indipendente una variabile utilizzata per

distinguere fra diversi gruppi di

risultati (es: sesso)

Variabile dipendente: una variabile il cui valore è determinato da quello dei fattori

FATTORI

• È una tecnica statistica basata sulla scomposizione della variabilità totale dei dati in due parti:

Una prima definizione

VARIABILITA’ SPERIMENTALE che

è dovuta alle variabili introdotte o

studiate dallo sperimentatore

VARIABILITA’ ACCIDENTALE o

RESIDUA dovuta a tutte le variabili che

non è possibile controllare o che non sono state controllate

può assumere diversi valoriOgni punteggio Y dipende dal gruppo cui appartiene il soggetto

(più un errore).

Possiamo prevedere il

punteggio di ogni soggetto in base

al gruppo cui appartiene

Come verifichiamose i punteggi

osservati dipendono

dall’appartenenza a gruppi diversi?

1 2 … j k1 x11 x12 … x1j x1k

2 x21 x22      . . . …    . . . …    i xi1 xi2 … xij xik

. . . . . .

. . . . . .

. . . . . .n xn1 xn2 … xnj xnk

• Differenza tra le medie = Variabilità tra gruppi

VARIABILITA’ TOTALE

VARIABILITA’ TRA I GRUPPI (o Between)

VARIABILITA’ ENTRO I GRUPPI

(o Within)

-Trattamento- Differenze individuali-Errore casuale

- Differenze individuali-Errore casuale

• Differenza tra le medie = Variabilità tra gruppi

VARIABILITA’ TOTALE

VARIABILITA’ TRA I GRUPPI (o Between)

VARIABILITA’ ENTRO I GRUPPI

(o Within)

Viene isolata eliminando la variabilità che esiste all’interno di ogni gruppo

Deve essere isolata dalla variabilità tra i gruppi

Il punteggio ottenuto da ogni soggetto viene confrontato con la media generale

Il punteggio ottenuto da ogni soggetto viene confrontato con la media del proprio gruppo

• Non ci sono differenze significative tra le medie dei gruppi• Il trattamento non produce effetti• La variabilità tra gruppi e quella entro i gruppi sono molto

simili perché comprendono entrambe solo la varianza d’errore

Quando l’IPOTESI NULLA è vera

• Ci sono differenze significative tra le medie dei gruppi• Il trattamento produce effetti• La variabilità tra gruppi sarà maggiore di quella entro i

gruppi

Quando l’IPOTESI NULLA è falsa

Il modello teorico

Media generale dei punteggi nel campione totale

Effetto dovuto al trattamento

Errore casuale (o Residuo)

-È specifica per ogni soggetto- Il suo valore dipende da:

- differenze individuali tra i soggetti-Errore di specificazione del modello-Non attendibilità delle misure

Questo modello è relativo ai dati della

popolazione

…. Noi lavoriamo sulle stime campionarie dei parametri della popolazione….

Stima

Media generale del campione

Differenza tra la media dei gruppi e la media generale del campione

Differenza tra il punteggio del soggetto e la media del gruppo in cui si trova

Quanto il punteggio del soggetto j è determinato

dall’appartenenza alla condizione

i

Variabilità dei punteggi del

soggetto j all’interno di ogni gruppo

Solo 1 Var.Indipendente ANOVA A 1 VIA

2 o più Var.Indipendenti ANOVA FATTORIALE

Solo 1 Var.Dipendente ANOVA UNIVARIATA

2 o più Var.Dipendenti ANOVA MULTIVARIATA o MANOVA

Classificazione generale

• È definita anche:• “Disegno di ricerca tra i soggetti” ad un solo

fattore• Disegni per gruppi indipendenti

• La condizione sperimentale è determinata dai livelli della VI

• Ad ogni condizione troviamo un gruppo di soggetti diversi

Gruppi indipendenti

ANOVA UNIVARIATA

• 3 gruppi esposti a 3 trattamenti diversi T1,T2,T3.

• La media complessiva è 10

Se il punteggio del soggetto fosse dovuto solo all’effetto della media allora ….

Esempio

T1 T2 T3

10 10 10

10 10 10

TUTTI I SOGGETTI HANNO LO STESSO PUNTEGGIO

• Se il trattamento ha effetto. Ad esempio:– T1: diminuzione di 2

punti– T2: diminuzione di 1

punto– T3: aumento di 3

puntiIl punteggio di ogni

soggetto sarà:

• Se nel punteggio influiscono sia la media generale, sia il trattamento sia la variabilità dovuta all’errore casuale

Il punteggio di ogni soggetto sarà:

T1 T2 T3

8 9 13

8 9 13

T1 T2 T3

9 (ε = 1) 8 (ε = -1) 13 (ε=0)

7 (ε = -1) 9 (ε = 0) 13 (ε=1)

somma dei quadrati degli scostamenti di ogni punteggio dalla media

La devianzaDEVIANZA

1)DEVIANZA TOTALE Somma dei quadrati degli scarti dei punteggi ( ) dalla media generale ( )

2) DEVIANZA TRA I GRUPPI Somma dei quadrati degli scarti dei punteggi (o Dev. BETWEEN) medi del gruppo di appartenenza ( ) dalla media generale

3) DEVIANZA ENTRO I GRUPPI Somma dei quadrati degli scarti dei punteggi di (o Dev. WITHIN) ogni singolo soggetto ( ) dalla media del

gruppo di appartenenza ( )

…..in formuleDEVIANZA

TOTALE

DEVIANZA BETWEEN

DEVIANZA WITHIN+

= +

n - 1

k - 1 n - k

n – 1 = k – 1 + n - k

Riprendendo i dati dell’esempio precedente

Calcoliamo le devianze:

… esempio

T1 T2 T3

9 (ε = 1) 8 (ε = -1) 13 (ε=0)

7 (ε = -1) 9 (ε = 0) 13 (ε=1)

media 8 8,5 13

yij Gr.appartenenza

Dev.Totale Dev.Between

Dev.Within

9 1 (9-10)2= 1 (8-10)2 (9-8)2

7 1 (7-10)2= 9 (8-10)2 (7-8)2

8 2 (8-10)2= 4 (8.5-10)2 (8-8.5)2

9 2 (9-10)2= 1 (8.5-10)2 (9-8.5)2

13 3 (13-10)2= 9 (13-10)2 (13-13)2

14 3 (14-10)2=16 (13-10)2 (14-13)2

• Dividendo le devianze per i rispettivi gradi di libertà otteniamo:

…. come ricaviamo la varianza?

Riflette l’effetto del trattamento sperimentale, delle differenze

individuali e dell’errore

Riflette l’effetto delle differenze individuali e

dell’errore casuale

Differenze sulla VD tra le medie dei gruppi sottoposti a trattamenti diversi

Differenze sulla VD tra i punteggi di soggetti appartenenti allo stesso gruppo

FONTI DI VARIAZION

EDEVIANZA GDL VARIANZA CONFRONTI

Trai i gruppik - 1

Entro i gruppi/residua

n – k

Totale n - 1

• Supponiamo di aver effettuato un esperimento nel quale abbiamo assegnato casualmente 10 soggetti ad un gruppo sperimentale e di controllo.

• Supponiamo che la nostra variabile dipendente sia QUANTITA’ DI PAROLE DI UNA LISTA RICORDATE DOPO 5 MINUTI

• Supponiamo che la nostra variabile indipendente sia MODO DIVERSO DI DARE LE ISTRUZIONI (amichevole VS neutro)

Esempio

Modo amichevole (gr. Sperimentale)

Modo neutro (gr. di Controllo)

Soggetto

Nr. Parole ricordate

Soggetto

Nr. Parole ricordate

1 10 1 8

2 10 2 7

3 14 3 10

4 16 4 14

5 15 5 11

MEDIAMEDIA 1313 MEDIAMEDIA 1010

Media totale = 11,5

Gr.Sperimentale

Gr. Controllo

10 8 (13-11,5)2 (10-11,5)2

10 7 (13-11,5)2 (10-11,5)2

14 10 (13-11,5)2 (10-11,5)2

16 14 (13-11,5)2 (10-11,5)2

15 11 (13-11,5)2 (10-11,5)2

Media Media gr.sperimentagr.sperimenta

lele1313

Media Media gr.controllgr.controll

oo1010

11,2511,25 11,25

DEVIANZA BETWEEN CON DEVIANZA BETWEEN CON k-1 gdlk-1 gdl

11,25 + 11,25 = 22,50 con 2-1=1 gdl

Calcoliamo la variabilità between

Media totale = 11,5

Gr.Sperimentale

Gr. Controllo

10 8 (10-13)2 (8-10)2

10 7 (10-13)2 (7-10)2

14 10 (14-13)2 (10-10)2

16 14 (16-13)2 (14-10)2

15 11 (15-13)2 (11-10)2

Media Media gr.sperimentalgr.sperimental

ee1313

Media Media gr.controllogr.controllo

1010 3232 30

DEVIANZA WITHIN CON n-k DEVIANZA WITHIN CON n-k gdlgdl

32+30= 62 con 10-2=8 gdl

Calcoliamo la variabilità within

FONTI DI VARIAZION

E

DEVIANZA

GDL VARIANZA CONFRONTI

Trai i gruppi 22,501 22,50/1=22,

50F = 22,50/7,75

= 2,90

Entro i gruppi/residua 62 8 62/8 = 7,75

Totale 84,50 9

Con le formule abbreviate…

1 2 … j k1 x11 x12 … x1j x1k

2 x21 x22      

. . . …    

. . . …    

i xi1 xi2 … xij xik

. . . . . .

. . . . . .

. . . . . .

n xn1 xn2 … xnj xnk  

T1 T2 Tj Tk TQ1 Q2 Qj Qk Qn1 n2 nj nk Nμ1 μ2 μj μk μ

CQDevT

Cn

TDev

k

1jj

2

B

j

k

1jj

2

W n

TQDev j

Somma dei Qj

Somma dei singoli valori elevati al quadrato di ciascun campione

NT

C2

Somma dei singoli valori di ciascun campione

Somma dei Tj

gruppo 1 gruppo 2 gruppo 3soggetti xi1 xi1

2 xi2 xi22 xi3 xi3

2

1 2 4 2 4 1 12 1 1 4 16 1 13 3 9 3 9 2 44 2 4 2 4 2 45 1 1 4 16 1 1

T1=9 Q1=19 T2=15 Q2=49 T3=7 Q3=11

317159 T 79114919 Q

07.6415

312

C

93.1407.6479DevT

CQDevT

gruppo 1 gruppo 2 gruppo 3soggetti xi1 xi1

2 xi2 xi22 xi3 xi3

2

1 2 4 2 4 1 12 1 1 4 16 1 13 3 9 3 9 2 44 2 4 2 4 2 45 1 1 4 16 1 1

T1=9 Q1=19 T2=15 Q2=49 T3=7 Q3=11

07.6415

312

C

• Le osservazioni devono essere raccolte indipendentemente le une dalle altre: il punteggio che presenta un soggetto non deve essere stato influenzato da quello osservato in un altro soggetto

• Gli errori εij si distribuiscono normalmente con media =0. Indici di Asimmetria e Curtosi

• La variabile indipendente ha k≥2 livelli ed è su scala nominale o ordinale

• La variabile dipendente è misurata su scala a intervalli e/o a rapporti equivalenti

Assunzioni di base

• OMOSCHEDASTICITA’: in base alla quale la varianza degli errori σε deve essere uguale in ogni gruppo ( test di Levene). Se non è rispettata i diversi gruppi hanno un peso diverso nel determinare la varianza d’errore

• Gli effetti hanno natura addittiva la VI aggiunge qualcosa alla condizione base in maniera identica per tutti i soggetti

• Gli errori εij devono essere indipendenti il punteggio di un soggetto non deve essere correlato con quello di altri soggetti. Randomizzazione

Assunzioni di base

• Il test di verifica delle ipotesi si basa sulle seguenti considerazioni:

– Se HO è vera i dati differiscono tra loro solo per l’effetto del caso

– Se H1 è vera entrambe le fonti di variabilità determinano la variabilità complessiva

Verifica delle ipotesi (1)

• Segue la distribuzione della F

Verifica delle ipotesi (2)

Le ipotesi che esamina sono:Ho le popolazioni da cui provengono i campioni hanno medie uguali sulla VD

H1 almeno due medie sono diverse, cioè almeno due campioni provengono da popolazioni con medie diverse tra loro

• Si fissa il livello di α (solitamente pari a .05)

• Si calcolano i Gradi di Libertà

• Si calcola il valore dell’Fcrit(gdlB, gdlW) usando le tavole

• Si calcola il valore del nostro F secondo la formula Fott = VarB/VarW

Verifica delle ipotesi (3)

Verifica delle ipotesi (4)

• Si prende una decisione:– Se Fott < Fcrit si accetta H0

le medie delle popolazioni da cui i campioni sono stati estratti non sono significativamente diverse

• Il trattamento non produce effetto

• Le VarB e VarW sono molto simili

• F assume valori bassi, cioè F<1

– Se Fott > Fcrit si rifiuta H0

almeno due medie delle popolazioni da cui i campioni sono stati estratti sono significativamente diverse La VarB sarà > della VarW

F assume valori elevati

I pacchetti statistici forniscono due indicazioni:• il valore della statistica test• il p-value

Il p-value rappresenta, intuitivamente, la probabilità di osservare, sotto l’ipotesi nulla, un valore meno verosimile di quello dellastatistica test.

P-value

• Il p-value (p) `e quindi un valore compreso tra 0 e 1 tale che:

– se α < p si accetta H0

– se α > p si rifiuta H0

• Il p-value è molto utile perchè consente di fare il test anche non conoscendo nei dettagli la regola di decisione specifica (è sufficiente conoscere l’ipotesi nulla).

Il test mediante il p-value

• Se i gruppi (k) sono 2 t di Student F di Fisher

• Se i gruppi (k) sono più di 2 non si può usare la t di Student perché:a) I diversi t non sono indipendenti:

aumento del livello di α

a) Diminuzione della potenza del testb) La varianza d’errore è maggiore con la t di

Student perché la numerosità del campione è ridotta.

• Se F è significativo e quindi la VI ha un effetto significativo possiamo dire che:

Almeno tra due delle medie dei gruppi a confronto esiste una differenza significativa

Ma quali gruppi

differiscono?

Uso dei confronti

• Il ricercatore non può selezionare in anticipo i gruppi da confrontare

• Ogni media viene confrontata con tutte le altre

Confronti post hoc

k (k – 1) /2

Il livello di probabilità per un confronto è α

Il livello di probabilità per k confronti è

Svantaggio

All’aumentare del numero dei gruppi aumenta il numero dei confronti

Aumenta la probabilità di commettere l’errore di I° Tipo (rifiuto Ho quando è vera)

• Il ricercatore decide in anticipo quali medie vanno confrontate.

• Le medie possono essere relative ai singoli gruppi oppure è possibile combinare le medie di più gruppi

• Per valutare la significatività del gruppo di confronti pianificati, si usa il livello di significatività che si utilizzerebbe se si facesse un unico confronto.

Confronti pianificati