“Teoria e metodi della ricerca sociale e organizzativa”

Preview:

DESCRIPTION

“Teoria e metodi della ricerca sociale e organizzativa”. Corso di Laurea in Scienze dell’Organizzazione Facoltà di Sociologia Università Milano-Bicocca 2009 Simone Sarti. Relazioni tra variabili. La relazione tra variabili può essere caratterizzata da: forma forza direzione. - PowerPoint PPT Presentation

Citation preview

1

“Teoria e metodi della ricerca sociale e organizzativa”

Corso di Laurea in Scienze dell’OrganizzazioneFacoltà di Sociologia

Università Milano-Bicocca

2009Simone Sarti

2

Relazioni tra variabili

La relazione tra variabili può essere caratterizzata da:

forma forza direzione.

3

Forma della relazione

La forma di una relazione caratterizza i possibili modi in cui i valori delle variabili sono associati.La forma può caratterizzare anche il segno di una relazione (quando le variabili sono metriche o ordinali).

4

ESEMPIO: forma di una relazione

Percentuali di riga (di cella e marginali)

Tavola di contingenza sex SESSO * titolo

% entro sex SESSO

66.2% 27.7% 6.1% 100.0%

67.7% 27.0% 5.3% 100.0%

66.9% 27.3% 5.7% 100.0%

1 maschio

2 femmina

sex SESSO

Totale

1 Obbligo 2 Diploma 3 Università

titolo

Totale

I maschi sono più istruiti delle donne.

5

Presenza di malattie per fascia d’età

Elaborazioni Multiscopo AVQ 2003

0

10

20

30

40

50

60

70

80

90

100

15-24 anni 25-34 anni 35-44 anni 45-54 anni 55-64 anni 65-74 anni 75 anni e+

1 Molto gravi 2 Abbastanza gravi 3 Poco gravi

4 Allergie 5 Nessuna

ESEMPIO: forma di una relazione

6

Forza della relazione

La forza della relazione misura il grado di “covariazione” tra le variabili. In altre parole indica il potere predittivo di una variabile sull’altra.

“Qualunque fenomeno, che vari in un modo qualsiasi ogni volta che un altro fenomeno varia in qualche modo particolare, è una causa o un effetto di quel fenomeno, p è connesso a quel fenomeno mediante qualche fatto di causazione”

John Stuart Mill

7

ESEMPIO: forza di una relazione

V di cramer = 0,035

Soddisfatti del lavoro

Non soddisfatti del lavoro

totale

maschio 536 287 823

femmina 304 139 443

totale 840 426 1266

8

ESEMPIO: forza di una relazione

Coefficiente di determinazione

tra anni di scolarità del padre

e anni di scolarità del figlio

r2 = 0.37

9

Direzione della relazione

Quando è possibile ipotizzare un rapporto di causazione, allora è possibile attribuire alle variabili lo status di dipendenti o indipendenti e definire quindi una direzione di successione.

X Y

10

Coefficientsa

263,435 312,994 ,842 ,424

128,288 29,870 ,835 4,295 ,003

(Constant)

anniscol

Model1

B Std. Error

UnstandardizedCoefficients

Beta

StandardizedCoefficients

t Sig.

Dependent Variable: redditoa.

ESEMPIO: direzione della relazione

Ogni anno di scolarità in più “produce” in media un incremento nel reddito di 128 euro

Stabiliamo che l’istruzione condizioni il reddito !

Regressione lineare

11

Variabili indipendenti e dipendenti

A seconda della posizione che le variabili occupano in un’ipotesi causale esse si costituiscono come variabili dipendenti o indipendenti.Una stessa variabile dunque può essere dipendente o indipendente a seconda del modello analitico in cui è inserita. Ad esempio la coorte d’età (X) può condizionare il titolo di studio (Y). Ma in un altro caso il titolo di studio (X) può essere il fattore condizionante della carriera lavorativa (Y).

12

Applicazioni di analisi bivariata

su variabili categorialisu variabili ordinalisu variabili cardinali

Applicazioni di analisi bivariata su variabili

categoriali

Variabili categoriali (o nominali)

Su esse registriamo un numero finito di stati (modalità) che riteniamo non ordinabili lungo alcuna dimensione

concettuale.

Le modalità godono di un alto grado di autonomia semantica.

L’Analisi BivariataTratta lo studio della distribuzione dei dati osservati sugli stati di due

variabili.

Si indagano le relazioni intercorrenti tra due variabili.

Possono dare risposta a semplici interrogativi teorici.

L’Analisi BivariataTavole di contingenza, o tabelle a

doppia entrata, o incroci

Costituiscono lo fase più elementare nello studio delle

relazioni tra due variabili.

Struttura di una tavola di contingenza

YX

Y1 Y2 Y3

X1 f11 f12 f13 f1.

X2 f21 f22 f23 f2.

f.1 f.2 f.3 N

Frequenze di cella (R x C) e marginali (R + C)

Variabile X sulle righe, variabile Y sulle colonne

Struttura di una tavola di contingenza

Righe: i = 1…R

Colonne: j = 1…C

fij frequenza della cella della i-esima riga e j-esima colonna

f.j frequenza marginale della j-esima colonna

fi. frequenza marginale della i-esima riga

Struttura di una tavola di contingenza

Frequenze di cella e marginali

Variabile X sulle righe, variabile Y sulle colonne

Tavola di contingenza sex SESSO * titolo

Conteggio

8542 3575 792 12909

9134 3640 722 13496

17676 7215 1514 26405

1 maschio

2 femmina

sex SESSO

Totale

1 Obbligo 2 Diploma 3 Università

titolo

Totale

Struttura di una tavola di contingenza

YX

Y1 Y2 Y3

X1f11/N % f12/N % f13/N % f1. /N %

X2f21/N % f22/N % f23/N % f2. /N %

f.1/N % f.2/N % f.3/N % 100

Percentuali totali di cella e marginali

Struttura di una tavola di contingenza

Percentuali totali di cella e marginali

Tavola di contingenza sex SESSO * titolo

% del totale

32.3% 13.5% 3.0% 48.9%

34.6% 13.8% 2.7% 51.1%

66.9% 27.3% 5.7% 100.0%

1 maschio

2 femmina

sex SESSO

Totale

1 Obbligo 2 Diploma 3 Università

titolo

Totale

Struttura di una tavola di contingenza

YX

Y1 Y2 Y3

X1 f11/f1. % f12/f1. % f13/f1. % 100

X2 f21/f2. % f22/f2. % f23/f2. % 100

f.1/N % f.2/N % f.3/N % 100

Percentuali CONDIZIONATE di riga (di cella e marginali).

)%|&(% 11111 XYXpP

Struttura di una tavola di contingenza

Percentuali CONDIZIONATE di riga (di cella e marginali)

Tavola di contingenza sex SESSO * titolo

% entro sex SESSO

66.2% 27.7% 6.1% 100.0%

67.7% 27.0% 5.3% 100.0%

66.9% 27.3% 5.7% 100.0%

1 maschio

2 femmina

sex SESSO

Totale

1 Obbligo 2 Diploma 3 Università

titolo

Totale

Le percentuali di riga considerano lo stesso numero di maschi e femmine (=100).

)%1|1&1(%11 SessoTitoloSessopP

Differenze percentuali tra percentuali condizionate

Tavola di contingenza sex SESSO * titolo

% entro sex SESSO

66.2% 27.7% 6.1% 100.0%

67.7% 27.0% 5.3% 100.0%

66.9% 27.3% 5.7% 100.0%

1 maschio

2 femmina

sex SESSO

Totale

1 Obbligo 2 Diploma 3 Università

titolo

Totale

Le differenze calcolate confrontando le percentuali di riga (ossia rispetto alla variabile indipendente) sulla stessa modalità della variabile dipendente permettono di misurare l’influenza (ipotetica) della variabile indipendente.

- 1,5 %Differenza % tra maschi e

femmine sul titolo dell’obbligo ( a parità di numero).

+ 0,8 %

Differenza % tra maschi e femmine sul titolo universitario

( a parità di numero).

Struttura di una tavola di contingenza

YX

Y1 Y2 Y3

X1 f11/f.1 % f12/f.2% f13/f.3 % f1./N %

X2 f21/f.1 % f22/f.2 % f23/f.3 % f2./N %

100 100 100 100

Percentuali di colonna (di cella e marginali).

26

Gli odds ratio

Le relazioni tra variabili possono essere analizzate in termini probabilistici.L’odds ratio è una misura dell’associazione tra due variabili.

L’odds è un rapporto di probabilità.L’odds ratio è un rapporto di odds.

27

OddsUn odds è un rapporto di frequenze tra osservazioni che appartengono ad una data categoria e osservazioni che non appartengono ad una data categoria.

Freq.

Laureati 471

Non laureati 685

Tot. 1156

Odd= 471/685 = 0,688 (in decimali)

Prob.= 471/1156 = 0,407 = 40,7%

Le probabilità variano da 0 a 1Gli odds variano da 0 a +inf.

Esempio: distribuzione di freq. in base alla variabile “diploma di laurea”

28

Gli odds assumono valori inferiori ad 1 se la probabilità che si verifichi un dato evento è inferiore alla probabilità che non si verifichi

Gli odds assumono valori superiori ad 1 se la probabilità che si verifichi un dato evento è superiore alla probabilità che non si verifichi

Gli odds assumono valore 1 se la probabilità che un evento si verifichi è pari alla probabilità che non si verifichi.

29

La relazione tra odds e probabilità è la seguente:

i

ii p

pOdds

1

30

Odds e Odds ratio

SEX * EDUC Crosstabulation

237 271 508

46.7% 53.3% 100.0%

234 414 648

36.1% 63.9% 100.0%

471 685 1156

40.7% 59.3% 100.0%

Count

% within SEX

Count

% within SEX

Count

% within SEX

male

female

SEX

Total

coll less

EDUC

Total

31

Odds marginali

L’odds marginale di aver conseguito un’istruzione superiore piuttosto che inferiore è pari a 471/685=0.688

L’odds marginale inverso sarà 1/0.688=1.454. La propensione marginale che qualcuno abbia un livello di istruzione inferiore è circa 1.5 volte superiore rispetto a quella di avere un livello di istruzione superiore.

32

Odds condizionali

La distribuzione condizionale del livello di istruzione mostra che per gli uomini gli odds di raggiungere un livello di istruzione superiore piuttosto che inferiore sono 0.875 =237/271.

Per le donne i corrispondenti odds si attestano a 0.565 =234/414

33

Odds ratioIl modo in cui i due odds condizionali

differiscono l’uno dall’altro può essere espresso dal loro rapporto:

0.875/0.565=(237/271)/(234/414)=1.547

L’odds ratio indica il rapporto fra il prodotto delle celle della diagonale principale e il prodotto delle celle della diagonale secondaria.

L’odds di raggiungere un livello di istruzione superiore piuttosto che inferiore è 1.5 volte più favorevole per i maschi che le donne.

34

Relazione tra probabilità, odds ed odds ratio e in una tavola due X due:

a

a

b

a

p

p

p

p

b

aOdds

111

cb

da

dc

ba

Oddsratio

2

1

21

21

a b

c d

X

Y

Misure di associazione tra variabili categoriali

Chi-quadrato (Test di significatività)

V di Cramer

Q di Yule

Phi

Chi-Quadrato χ2

Il Chi-quadrato si basa su un confronto tra l’ipotesi di perfetta indipendenza delle due variabili, ed il fenomeno così come è stato osservato.

Si confrontano le frequenze di cella attese con quelle osservate.

Le frequenze attese di cella si trovano assumendo che la relazione tra le variabili sia dovuta al caso, e si calcolano attraverso la scomposizione delle frequenze marginali.

N

fff ji

ij..* .

Chi-Quadrato χ2

Frequenze attese di cella (R x C):

N

fff ji

ij..* .

Tavola di contingenza sex SESSO * titolo

Conteggio atteso

8641.5 3527.3 740.2 12909.0

9034.5 3687.7 773.8 13496.0

17676.0 7215.0 1514.0 26405.0

1 maschio

2 femmina

sex SESSO

Totale

1 Obbligo 2 Diploma 3 Università

titolo

Totale

In situazione di perfetta indipendenza il χ2 vale zero

Chi-Quadrato χ2

Maggiore è il valore di χ 2 , maggiore è l’associazione tra le variabili, poiché maggiore è la distanza dall’ipotesi di perfetta indipendenza. Se le due variabili sono indipendenti χ 2 vale 0.

i=1…R j=1…C

Dove f*ij è la frequenza attesa di cella

R

i

C

j ij

ijij

f

ff

1 1*

2*2

Test del Chi-Quadrato χ2

Quando N è abbastanza ampio (N>100) è possibile effettuare un test di significatività ricorrendo alla distribuzione nota del Chi-Quadrato.

Dunque, considerando il numero di gradi di libertà, è possibile sottoporre a test di significatività l’ipotesi nulla che la relazione tra due variabili sia dovuta al caso.

gl =(R-1)(C-

1)

Test del Chi-Quadrato χ2

Gradi di libertà:

gl =(R-1)(C-

1)

Il grado di libertà consiste nei valori da immettere che non possono essere calcolati automaticamente con i totali marginali.

40

20

50 10 60

10

020

30

df=1

Test di significatività

Testiamo l’H0, l’ipotesi nulla che afferma l’indipendenza, ossia che la relazione tra le due variabili è dovuta al caso.

Si stabilisce un livello di significatività oltre il quale respingere l’Ho.

Distribuzione di probabilità nota della v.c. χ2

P(T<11,78) = 0.7 =

φ(χ2) Funzione di densità di χ2 con gl=10

χ2

AREA di Rifiuto di H0

= 1 - α dtt

0

2

11,780

0.30.702

Logica falsificazionista, Ipotesi

H1 IPOTESI di LAVORO:

- Ipotesi di associazione tra due variabili

χ2 >0

H0 IPOTESI NULLA:

-Le due variabili sono tra loro indipendenti

χ2 =0

Logica falsificazionista, Ipotesi

Per corroborare H1 devo falsificare H0.

Non verifico H1, ma ne falsifico l’ipotesi “complementare” attraverso un test empirico che mi porterà ad accettare o respingere H0.

Se rifiuto H0, allora l’ipotesi di lavoro H1 viene corroborata.

Se “accetto” H0, non possiamo escludere che l’associazione non sia dovuta al caso, l’ipotesi di lavoro H1 viene falsificata.

ATTENZIONE: Nella logica falsificazionista H0 non è un’ipotesi alternativa che sostituisce H1. Più correttamente occorrerebbe affermare che H0 non può essere rifiutata, non che H0 è accettata.

Logica falsificazionista, errori

H0 vera H0 falsa

H0 non rifiutata

No erroreErrore

II tipo (β)

H0 rifiutata

Errore

I tipo (α)No errore

Esito del test

Realtà del fenomeno

α è la probabilità teorica di rifiutare a priori l’H0 quando questa è vera.

α viene fissata arbitrariamente, solitamente si utilizza una soglia del 5 %.

α = 0,05

veraHRifiutoHp 00

2

2 12 2

2

2

gg

e dg

Livello di significatività α ; costituisce l’area di RIFIUTO di H0, ossia l’area di ACCETTAZIONE di H1

0

αχ2

α

02

χ2

φ(χ2) Funzione di densità di χ2

2 12 2 22

( )

2

gg

eg

0

φ(χ2)

χ2

2

0( ) 1d

02

Il χ2 E’ FUNZIONE DEI GRADI DI LIBERTA’

2 12 2 22

( )

2

gg

eg

0

φ(χ2)

χ2

2

0( ) 1d

02

g=10

g=20

g=4

Valore critico del Chi-quadro corrispondente

per 2 gradi di libertà e area alfa dello 0,05

Il Chi-Quadrato χ2 è utile come test di significatività statistica, ma non come misura dell’intensità della relazione.

Un grave limite del Chi-quadrato è la sua dipendenza dalla numerosità dei casi

considerati.

In caso di perfetta indipendenza esso vale 0, ma in caso di dipendenza il valore è

proporzionale a N.

Sensibilità del χ2 alla numerosità

15 32 6711

4

14 56 8015

0

29 8814

726

4

150 320 670114

0

140 560 800150

0

290 880147

0264

0

χ2 χ2 = 2,87 = 28,74

2

0,05 = 5,99

ESEMPIO: Hp. relazione tra genere e frequenza alla messa

M

F

M

F

Basso Medio Alto Basso Medio Alto

V di Cramer

Per superare i limiti del Chi-quadrato (dovuti alla sensibilità alla numerosità dei casi) come misura di associazione sono stati proposti degli indici corretti.

V varia tra 0 ed 1, ed è 0 in situazione di indipendenza.

Se le variabili sono dicotomiche V coincide con il coefficiente di correlazione r di Pearson (misura d’associazione cardinale).

Dove m è il numero minore tra R e C

)1(

2

mNV

Q di Yule

Si utilizza nelle tavole 2x2 e considera il rapporto tra somma e differenza dei prodotti delle celle sulle diagonali.

Q =

bc - adbc + ad

a ba+b

c dc+d

a+c

b+d

NQ varia tra -1 e 1, ed è 0 in situazione di indipendenza. Il valore negativo indica una relazione inversa, ossia le modalità delle due variabili sono associate in modo inverso.

Q di Yule

Avvertenze:

Q assume valore -1 o +1 quando una cella delle quattro è vuota. In questo caso la dipendenza non è perfetta, ma la Q raggiunge il suo massimo.

Gli autori suggeriscono di attribuire una forza espressa in quartili al valore assoluto di Q.

Phi

Si utilizza nelle tavole 2x2 e considera il rapporto tra differenza dei prodotti delle celle sulle diagonali e la radice del prodotto delle marginali.E’ basato sul Chi-quadrato, come la V di Cramer.

Phi varia tra -1 e 1, ed è 0 in situazione di indipendenza. Il valore negativo indica una relazione inversa, ossia le modalità delle due variabili sono associate in modo inverso.

dbcadcba

adbc

Phi

Avvertenze:

Talvolta Phi richiede una procedura di standardizzazione poiché il valore massimo può essere lontano dai valori ipotetici -1, +1.

Phi è per definizione sensibile alle frequenze marginali.

Si dimostra inoltre che:

N

2

Gamma

Tau-c

d di Somers

Misure di cograduazione tra variabili ordinali

Applicazioni di analisi bivariata su variabili ordinali

Gamma

E’ una misura simmetrica, insensibile alle marginali, e si utilizza tra variabili ordinali. Considera la determinazione di coppie concordanti e discordanti.

=nc - nd

nc + nd

Gamma varia tra -1 e 1, ed è 0 in situazione di indipendenza.

Una coppia è concordante quando una delle due è superiore all’altra in entrambe le variabili.

E’ discordante quando una delle due è superiore all’altra in una variabile, ma inferiore nella seconda variabile.

Misure di cograduazione

Coppie concordanti e discordanti

Non bene

BeneMoltoBene

Licenzaelementare

28773 9299 12023927

4

Licenza media

10657 11373 23592438

9

Diploma e più

10334 15236 35532912

3

49764 35908 71149278

6

Titolo di studio e salute percepita

Coppie concordanti: quando, rispetto ad una determinata cella ij, le altre celle hanno un titolo di studio più alto associato a una salute migliore.

IPOTIZZIAMO UNA COGRADUAZIONE POSITIVA TRA TITOLO DI STUDIO E SALUTE

PERCEPITA, cioè:

ALL’AUMENTARE DEL TITOLO di STUDIO CORRISPONDE UNA SALUTE MIGLIORE.

IN BASE A CIO DEFINIAMO:

Coppie discordanti: quando, rispetto ad una determinata cella ij, le altre celle hanno un titolo di studio più alto associato a una salute peggiore (o viceversa).

Coppie concordanti

nc11=28773 X (11373+2359+15236+3553)= 935726733

Non bene

BeneMoltoBene

Licenzaelementare

28773 9299 12023927

4

Licenza media 10657 11373 23592438

9

Diploma e più 10334 15236 35532912

3

49764 35908 71149278

6

Coppie concordanti

nc12=9299 X (2359+3553)= 54975688

Non bene

BeneMoltoBene

Licenzaelementare

28773 9299 12023927

4

Licenza media 10657 11373 23592438

9

Diploma e più 10334 15236 35532912

3

49764 35908 71149278

6

Coppie concordanti

nc13= 1202 X (0) = 0

Nessuna coppia concordante

Non bene

BeneMoltoBene

Licenzaelementare

28773 9299 12023927

4

Licenza media 10657 11373 23592438

9

Diploma e più 10334 15236 35532912

3

49764 35908 71149278

6

Coppie concordanti

nc21=10657 X (15236+3553)= 200234373

Non bene

BeneMoltoBene

Licenzaelementare

28773 9299 12023927

4

Licenza media 10657 11373 23592438

9

Diploma e più 10334 15236 35532912

3

49764 35908 71149278

6

Coppie concordanti

nc22=11373 X (3553)= 40408269

Non bene

BeneMoltoBene

Licenzaelementare

28773 9299 12023927

4

Licenza media 10657 11373 23592438

9

Diploma e più 10334 15236 35532912

3

49764 35908 71149278

6

Coppie discordanti

Non bene

BeneMoltoBene

Licenzaelementare

28773 9299 12023927

4

Licenza media 10657 11373 23592438

9

Diploma e più 10334 15236 35532912

3

49764 35908 71149278

6

nd11=28773 X (0)= 0

Nessuna coppia discordante

Coppie discordanti

Non bene

BeneMoltoBene

Licenzaelementare

28773 9299 12023927

4

Licenza media 10657 11373 23592438

9

Diploma e più 10334 15236 35532912

3

49764 35908 71149278

6

nd12=9299 X (10657+10334)= 195195309

Coppie discordanti

Non bene

BeneMoltoBene

Licenzaelementare

28773 9299 12023927

4

Licenza media 10657 11373 23592438

9

Diploma e più 10334 15236 35532912

3

49764 35908 71149278

6

nd13=1202 X (10657+11373+10334+15236)=57215200

Coppie discordanti

Non bene

BeneMoltoBene

Licenzaelementare

28773 9299 12023927

4

Licenza media 10657 11373 23592438

9

Diploma e più 10334 15236 35532912

3

49764 35908 71149278

6

nd22=11373 X (10334)= 117528582

Coppie discordanti

Non bene

BeneMoltoBene

Licenzaelementare

28773 9299 12023927

4

Licenza media 10657 11373 23592438

9

Diploma e più 10334 15236 35532912

3

49764 35908 71149278

6

nd23=2359 X (10334+15236)= 60319630

Misure di cograduazione

nd = nd12 + nd13 + nd22 + nd23 = 430.258.721

nc = nc11 + nc12 + nc21 + nc22 = 1.231.345.063

Totale coppie discordanti

Totale coppie concordanti

Le celle che generano coppie concordanti sono (R-1)(C-1) = 4

Così come le celle che generano coppie discordanti.

Gamma

=nc - nd

=1231345063 – 430258721 =

0,482nc + nd 1231345063 + 430258721

Misure di cograduazione

nd= 430258721 nc= 1231345063

Gamma uguale a 0,482 significa che la relazione tra titolo di studio e salute percepita è positiva, e che la probabilità che in una coppia di soggetti estratta a caso il soggetto che ha maggiore titolo di studio sia anche quello che ha migliore salute è superiore del 48,2 % della probabilità di trovare l’opposto.

75

Test di significatività per Gamma

Misure di cograduazione

Anche per Gamma esiste un test di significatività che ci permette di testare l’ipotesi nulla di indipendenza.

I software permettono di calcolare la probabilità asintotica che viene utilizzata per respingere o meno

l’ipotesi nulla.

Recommended