Upload
pierina-martinez
View
225
Download
0
Embed Size (px)
Citation preview
Le distribuzioni multipleSi definisce distribuzione statistica multipla la
distribuzione ottenuta dalla rilevazione di più
caratteri su unità appartenenti ad una
determinata popolazione.
Se vengono rilevati due caratteri su ogni unità si
definisce una distribuzione doppia.
Se vengono rilevati tre caratteri su ogni unità si
definisce una distribuzione tripla.
Le distribuzioni multipleSe vengono rilevati m caratteri su ogni unità si
definisce una distribuzione m-pla e le singole
variabili vengono definite variabili componenti.
Si parla di mutabile multipla se tutti i caratteri
componenti sono di natura qualitativa;
Si parla di variabile multipla se tutti caratteri
componenti sono di natura quantitativa.
Le distribuzioni multiple
Se le N unità del collettivo non sono molto numerose, si
può rappresentare la distribuzione multipla indicando
per ciascuna unità le m modalità presenti in essa:
Unità X1 X2 … Xm
1 x11 x12 ... x1m
2 x21 x22 ... x2m
… ... ... ... ...
N xN1 xN2 ... xNmdove x11 indica la modalità del carattere X1 presente nella prima unità e così via.Questa è definita distribuzione doppia per unità - modalità.
Le distribuzioni multipleConsideriamo un collettivo di sei studenti sui quali sono
stati rilevati l’età e il voto all’esame di statistica, la
distribuzione unità - modalità è la seguente:
Unità 1 2 3 4 5 6
età 18 19 20 19 21 22
voto 20 21 23 25 26 23
Le distribuzioni doppieConsideriamo ora una popolazione sulla quale sono stati
rilevati due caratteri.
Quando le unità del collettivo sono numerose, è
preferibile rappresentare la distribuzione doppia tramite
una tabella a doppia entrata (distribuzione doppia di
frequenze) dove ad ogni modalità (xi,yj) di (X,Y)
corrisponde la frequenza assoluta nij, con i=1,2,…,k e
j=1,2,…,s.
In altre parole si registra quante volte una coppia di
modalità si presenta contemporaneamente per X e Y.
Le distribuzioni doppie
dove:
y1 … yj … yh
x1 n11 n1j n1h n10
… … … … …
xi ni1 … nij … nih ni0
… … … … …
xk nk1 … nkj … nkh nk0
n01 ... n0j ... n0h N
h
jiji nn
10
k
iijj nn
10
k
i
h
jijnN
1 1
Le distribuzioni doppieLe frequenze ni0, i=1,2,…,k sono definite frequenze
marginali assolute della variabile X, mentre le frequenze
n0j j=1,2,…,h sono definite frequenze marginali assolute
della variabile Y.
Consideriamo ora le frequenze fij, = nij/N con i=1,2,…,k e
j=1,2,…,s; in questo caso la tabella a doppia entrata può
essere scritta come:
Le distribuzioni doppiey1 … yj … yh
x1 f11 f1j f1h f10
… … … … …
xi fi1 … fij … fih fi0
… … … … …
xk fk1 … fkj … fkh fk0
f01 ... f0j ... f0k 1
dove:
h
jiji ff
10
k
iijj ff
10 1
1 1
k
i
h
jijf
Le distribuzioni doppieIn questo caso, le frequenze fi0, i=1,2,…,k sono le
frequenze marginali relative della variabile X mentre le
frequenze f0j, j=1,2,…,h sono le frequenze marginali
relative della variabile Y.
Le frequenze assolute marginali ni0 (le frequenze relative
marginali fi0) esprimono i soggetti (la porzione di soggetti)
che possiedono la modalità xi a prescindere da quello che
avviene per il carattere Y.
Le distribuzioni condizionateConsideriamo una distribuzione doppia (X,Y) e fissiamo il
valore xi per la variabile X, se studiamo la distribuzione di
Y per i soli soggetti che possiedono quel valore xi della
variabile X, si ottiene la distribuzione condizionata di Y
dato xi .
Tale distribuzione si indica con Y|(X=xi)
Valori di Y|(X=xi) y1 y2 … yh Tot.
Freq.assolute ni1 ni2 ... nih ni0
Freq.relative ni1/ni0 ni2/ni0 ... nih/ni0 1
Le distribuzioni condizionateSe fissiamo, invece, il valore yj per la variabile Y, se
studiamo la distribuzione di X per i soli soggetti che
possiedono quel valore yj della variabile Y, si ottiene la
distribuzione condizionata di X dato yj .
Tale distribuzione si indica con X|(Y=yj)
Valori di X|(Y=yj) x1 x2 … xk Tot.
Freq.assolute n1j n2j ... nkj n0j
Freq.relative n1j/n0j n2j/n0j ... nkj/n0j 1
Le distribuzioni condizionate
X x1 x2 … xk
Freq.assolute n10 n20 ... nk0
OSSERVAZIONE:
Data una distribuzione doppia (X,Y) si possono
definire 2+h+k distribuzioni semplici:
2 distribuzioni marginali:
Y y1 y2 … yh
Freq.assolute n01 n02 ... n0h
Le distribuzioni condizionateh distribuzioni condizionate di X dato yj la cui distribuzione generica è:
Valori di X|(Y=yj) x1 x2 … xk Tot
Freq.relative n1j/n0j n2j/n0j ... nkj/n0j 1
corrispondente alla modalità yj di Y con j=1,2,…,h.
k distribuzioni condizionate di Y dato xi la cui distribuzione generica è:
y1 y2 … yh Tot
Freq.relative ni1/ni0 ni2/ni0 ... nih/ni0 1
corrispondente alla modalità xi di X con i=1,2,…,k.
Un esempioConsideriamo la seguente distribuzione doppia che descrive una popolazione di 100 individui sui quali sono stati rilevati il carattere grado di istruzione (X) e il carattere sesso (Y):
X Y TOT.
M F
Analfabeta 1 4 5
Licenza elementare 5 5 10
Licenza media 22 16 38
Licenza media superiore 18 17 35
Laurea 8 4 12
TOTALE 54 46 100
Un esempioLa distribuzione doppia di frequenze relative è la seguente:
X Y TOT.
M F
Analfabeta 0,01 0,04 0,05
Licenza elementare 0,05 0,05 0,10
Licenza media 0,22 0,16 0,38
Licenza media superiore 0,18 0,17 0,35
Laurea 0,08 0,04 0,12
TOTALE 0,54 0,46 1,00
Un esempio
Da questa distribuzione doppia possono essere ricavate:
2 distribuzioni marginali di frequenze relative (a, b);
2 distribuzioni condizionate (parziali) di frequenze relative
di X dato yj (c, d);
5 distribuzioni condizionate (parziali) di frequenze relative
di Y dato xi (e, f, g, h, i)
Un esempioa) Distribuzione marginale di X
X=grado di istruzione fi
Analfabeta 0,05
Licenza elementare 0,10
Licenza media 0,38
Licenza media superiore 0,35
Laurea 0,12
TOTALE 1,00
Un esempio
Y=sesso fi
M 0,54
F 0,46
TOTALE 1,00
b) Distribuzione marginale di Y
c) Distribuzione condizionata (X|Y=F)
X Y=F
Analfabeta 0,09
Licenza elementare 0,11
Licenza media 0,35
Licenza media superiore 0,36
Laurea 0,09
TOTALE 1,00
Un esempio
X Y=M
Analfabeta 0,02
Licenza elementare 0,09
Licenza media 0,41
Licenza media superiore 0,33
Laurea 0,15
TOTALE 1,00
d) Distribuzione condizionata (X|Y=M)
Y X=analfabeta
M 0,20
F 0,80
TOT. 1,00
e) Distribuzione condizionata (Y|X=Analfabeta)
Un esempio
Y X=lic.elementare
M 0,50
F 0,50
TOT. 1,00
f) Distribuzione condizionata (Y|X=Licenza Elem.)
g) Distribuzione condizionata (Y|X=Licenza Media)
Y X=lic. Media
M 0,58
F 0,42
TOT. 1,00
Un esempio
Y X=lic. media superiore
M 0,51
F 0,49
TOT. 1,00
h) Distribuzione condizionata (Y|X=Licenza media sup.)
i) Distribuzione condizionata (Y|X=Laurea)
Y X=laurea
M 0,67
F 0,33
TOT. 1,00
Indici per una sola variabileSe il carattere è quantitativo è possibile calcolare dei valori di sintesi per ciascuno dei caratteri X e Y.
In questo caso, la media aritmetica e la varianza di X sono le seguenti:
01
20
1
2
10
10
1)(
1
i
k
ixii
k
ixi
k
iii
k
iiix
fxnxN
XVar
fxnxN
Le distribuzioni doppie
dove:
y1 … yj … yh
x1 n11 n1j n1h n10
… … … … …
xi ni1 … nij … nih ni0
… … … … …
xk nk1 … nkj … nkh nk0
n01 ... n0j ... n0h N
h
jiji nn
10
k
iijj nn
10
k
i
h
jijnN
1 1
Indici per una sola variabile
La media aritmetica e la varianza di Y, invece, sono:
j
h
jyjj
h
jyj
h
jjj
h
jjjy
fynyN
YVar
fynyN
01
20
1
2
10
10
1)(
1
Un esempioConsideriamo la seguente distribuzione di 100 studenti secondo il voto riportato in Statistica (X) e Ragioneria (Y).
X Y
18 19 20 21 22 23 24 25 26 27 28 29 30
18 4 4 8
19 5 2 3 10
20 7 7
21 9 4 13
22 9 2 11
23 0
24 0
25 3 9 6 18
26 2 2
27 0
28 6 6 12
29 1 6 4 11
30 2 4 2 8
5 24 8 9 6 0 11 10 6 6 3 4 8 100
Un esempioOra calcoliamo i valori di sintesi per X:
X ni0 xini0 (xi-μ)2 (xi- μ)2ni0
18 8 144 34,34 274,72
19 10 190 23,62 236,20
20 7 140 14,90 104,30
21 13 273 8,18 106,34
22 11 242 3,46 38,06
23 0 0 0,74 0,00
24 0 0 0,02 0,00
25 18 450 1,30 23,40
26 2 52 4,58 9,16
27 0 0 9,86 0,00
28 12 336 17,14 205,68
29 11 319 26,42 290,62
30 8 240 37,70 301,60
100 2386 1590,08
Un esempio
86,23100/23861
10
k
iiix nx
N
90,15100/08,15901
)( 01
2
i
k
ixi nx
NXVar
Per il carattere Y i calcoli vengono eseguiti nello stesso modo.
La dipendenzaAnalizziamo ora alcune caratteristiche di una distribuzione doppia che non sono estensioni delle caratteristiche delle distribuzioni semplici.
DEFINIZIONE:
In matematica si dice che una variabile y, funzione di un’altra variabile x, è indipendente rispetto a x se, al variare di x, il valore di y resta costante.
La dipendenza
x
y
y
Nel caso di una tabella a doppia entrata bisogna confrontare le distribuzioni condizionate (parziali).
La dipendenza
Due distribuzioni semplici possono essere confrontate nei seguenti modi:
•Confrontando alcuni indici sintetici delle distribuzioni, per esempio due distribuzioni si dicono uguali rispetto alla media aritmetica se hanno la stessa media aritmetica;
•Confrontando direttamente tra loro le distribuzioni condizionate (parziali) di un carattere rispetto alle modalità dell’altro carattere.
La dipendenza
Si possono presentare due situazioni limite:
•Caso di connessione nulla o indipendenza;
•Caso di perfetta dipendenza.
Indici di connessioneNelle situazioni intermedie tra il caso di dipendenza perfetta e il caso di indipendenza sorge il problema della misura del grado di connessione tra i due caratteri.
Le misure del legame sono:
•Misure di dipendenza assoluta basate sul confronto fra le frequenze relative e le frequenze teoriche nel caso di indipendenza assoluta;
•Misure di dipendenza in media basate sul confronto delle medie delle distribuzioni condizionate (parziali).
Connessione nulla o indipendenzaConsideriamo la seguente distribuzione doppia di frequenze:
y1 … yj … yh
x1 n11 n1j n1h n10
… … … … …
xi ni1 … nij … nih ni0
… … … … …
xk nk1 … nkj … nkh nk0
n01 ... n0j ... n0h N
Connessione nulla o indipendenzaDEFINIZIONE:
Data una distribuzione doppia, il carattere Y è indipendente o non connesso con il carattere X, se le distribuzioni parziali secondo il carattere Y corrispondenti alle modalità di X sono tutte simili fra loro, cioè se, per j=1,2,…,h si ha:
(1) ...... 0
0020
2
10
1
N
n
n
n
n
n
n
n
n
n j
k
kj
i
ijjj
Infatti due distribuzioni secondo uno stesso carattere sono simili se sono uguali le frequenze relative di ciascuna modalità nelle due distribuzioni.
Connessione nulla o indipendenzaConsideriamo ora il termine generale della (1):
,...,2,1 ,...,2,1 ,0
0
hjkiN
n
n
n j
i
ij
Quindi nel caso di indipendenza assoluta si ha:
,...,2,1 ,...,2,1 ,ˆ 00 hjkiN
nnn jiij
Connessione nulla o indipendenzaIn termini di frequenze relative la relazione precedente può essere scritta:
,...,2,1 ,...,2,1 ,ˆ00 hjkifff jiij
Quindi, le frequenze assolute di una tabella a doppia entrata nella quale X e Y sono indipendenti sono indicate con:
,...,2,1 ,...,2,1 ,ˆ 00 hjkiN
nnn jiij
Connessione nulla o indipendenza
k
i
h
jijn
1 1
ˆ)1
k
i
h
j
ji
N
nn
1 1
00
Per tali frequenze valgono le seguenti proprietà:
NNNN
1
k
i
h
jji nn
N 1 100
1
Connessione nulla o indipendenza2) L’indipendenza o connessione nulla è bilaterale, in altre parole se Y è indipendente da X anche X lo è da Y.
Infatti se Y è indipendente da X si ha:
N
n
n
n j
i
ij 0
0
invertendo i medi si ha che:
N
n
n
ni
j
ij 0
0
cioè X è indipendente da Y.
Connessione nulla o indipendenza
0 ˆ- ijijij nnc
3) Le differenze tra sono definite contingenze cioè:
ˆ e ijij nn
Le contingenze esprimono la diversità tra le frequenze assolute osservate e le frequenze assolute nel caso di variabili indipendenti.
ˆ- ijijij nnc
0 ˆ- ijijij nnc vi è attrazione tra le modalità xi ed yj
vi è repulsione tra le modalità xi ed yj
Connessione nulla o indipendenza
k
i
h
jij
1 1
c
)ˆ(1 1
ijij
k
i
h
j
nn
4) Per le contingenze si ha:
0 NN
k
i
h
jij
k
i
h
jij nn
1 11 1
ˆ
Perfetta dipendenzaDEFINIZIONE:
Il carattere Y dipende perfettamente da X se ad ogni modalità xi di X è associata una sola modalità yj di Y, in tal senso è possibile affermare che Y è completamente determinata dalle modalità di X.
ESEMPIO :
Consideriamo un carattere X che si presenta in quattro modalità ed un carattere Y che si presenta in tre modalità, se la distribuzione doppia è la seguente:
Perfetta dipendenza
allora è possibile affermare che il carattere Y dipende perfettamente da X, in quanto ad ogni modalità xi di X è associata una sola modalità yj di Y e quindi che Y è completamente determinata dalle modalità di X.
y1 y2 y3
x1 7 0 0 7
x2 0 9 0 9
x3 6 0 0 6
x4 0 0 8 8
13 9 8 30
Perfetta dipendenza
OSSERVAZIONE:
La relazione di perfetta dipendenza non è simmetrica. Infatti in questo caso, ad ogni modalità yj di Y non è associata una sola modalità xi di X (ad esempio, si veda la modalità y1). Pertanto, nell’esempio precedente X non dipende perfettamente da Y.
Perfetta dipendenzaDEFINIZIONE:
La relazione è simmetrica, cioè Y e X sono mutuamente in dipendenza perfetta se ad ogni modalità yj di Y è associata una sola modalità xi di X e viceversa.
Ciò si verifica se, nell’ipotesi che le frequenze marginali siano tutte diverse da 0, si ha che h = k, cioè se la tabella della distribuzione doppia è quadrata.
Perfetta dipendenzaESEMPIO :Consideriamo un carattere X che si presenta in tre modalità ed un carattere Y che si presenta in tre modalità, se la distribuzione doppia è la seguente:
y1 y2 y3
x1 4 0 0 4
x2 0 0 3 3
x3 0 5 0 5
4 5 3 12allora è possibile affermare che Y e X sono mutuamente in dipendenza perfetta cioè che ad ogni modalità yj di Y è associata una sola modalità xi di X e viceversa.
Indici di dipendenza assoluta
k
i
h
j ij
ijij
n
nn
1 1
22
ˆ
)ˆ(
Una importante misura di distanza fra distribuzioni di frequenza è la distanza del di K. Pearson introdotta nel 1900, la quale è data da:
k
i
h
j ji
jiij
ff
fffN
1 1 00
200
k
i
h
j ji
jiij
N
nnN
nnn
1 1 00
2
00
Indici di dipendenza assoluta
1) L’indice del
2) Il assume valore 0 nel caso di indipendenza assoluta e tende ad assumere valori sempre più grandi in situazioni dove X e Y sono lontani dall’ipotesi di indipendenza;
3) Il può essere utilizzato nell’analisi sia di caratteri quantitativi sia nell’analisi di caratteri qualitativi; in quanto il calcolo non dipende dalle modalità dei caratteri in esame, ma solo dalle distribuzioni delle frequenze.
Un esempioLa tabella seguente riporta la distribuzione delle 76 unità di un collettivo secondo le modalità congiunte di due caratteri qualitativi A e B:
Carattere ACarattere B
B1 B2 B3
A1 17 12 8 37
A2 22 10 7 39
39 22 15 76
Dopo aver verificato che non sussiste indipendenza assoluta tra i caratteri, determinare l’indice di connessione
Un esempio
Consideriamo, ad esempio,
Per avere indipendenza assoluta è necessario che:
,...,2,1 ,...,2,1 ,00 hjkiN
nnn jiij
Pertanto, è sufficiente che tale relazione non sia verificata per una sola frequenza assoluta della tabella a doppia entrata precedente per affermare che tra il carattere X e il carattere Y sussista un certo grado di dipendenza.
987,1876
(39)(37) 17 0110
11
N
nnn
quindi tra i due caratteri vi è un certo grado di dipendenza assoluta.
Un esempioOra calcoliamo l’indice:
k
i
h
j ji
jiij
N
nnN
nnn
1 1 00
2
00
2
La tabella delle frequenze teoriche N
nnn jiij
00ˆ
è la seguente:
Un esempioCarattere
A
Carattere B
B1 B2 B3
A1 18,99 10,71 7,30
A2 20,01 11,29 7,70
mentre la tabella dei valori
è la seguente:
Un esempio
Carattere ACarattere B
B1 B2 B3
A1 0,21 0,16 0,07 0,44
A2 0,20 0,15 0,06 0,41
0,85
Quindi l’indice 85,01 1 00
2
00
2
k
i
h
j ji
jiij
N
nnN
nnn
che mostra un basso grado di dipendenza tra i caratteri.
Altri indici di dipendenzaPer eliminare la dipendenza dell’indice da Nsi definisce la contingenza quadratica media come:
N
22
L’indice si annulla nel caso di indipendenza e soddisfa le seguenti disuguaglianze:
12 k 12 h
Altri indici di dipendenzaL’uguaglianza =k-1 si verifica quando vi è dipendenza perfetta di X da Y, mentre l’uguaglianza =h-1 si verifica quando vi è dipendenza perfetta di Y da X .
Quindi, possiamo definire il seguente indice medio di contingenza di H. Cramer come:
)1,1min(
22
hk
con 10 2
Un esempioLa tabella seguente riporta la distribuzione delle 20 regioni italiane per circoscrizione territoriale e per classe di produzione di frumento in milioni di quintali:
Circoscrizioni territoriali
Produzione di frumento
0-2,5 (bassa)
2,5-5,0 (media)
5,0-10,0 (alta)
Nord 4 2 2 8
Centro 0 2 2 4
Sud 5 1 2 8
9 5 6 20
Calcolare la contingenza quadratica media e l’indice medio di contingenza
Un esempioPer calcolare l’indice dobbiamo innanzitutto quantificare l’indice
k
i
h
j ji
jiij
N
nnN
nnn
1 1 00
2
00
2
La tabella delle frequenze teoriche N
nnn jiij
00ˆ
è la seguente:
Un esempio
Circoscrizioni territoriali
Produzione di frumento
0-2,5 (bassa)
2,5-5,0 (media)
5,0-10,0 (alta)
Nord 3,60 2,00 2,40
Centro 1,80 1,00 1,20
Sud 3,60 2,00 2,40
mentre la tabella dei valori
N
nnN
nnn
ji
jiij
00
2
00
è la seguente:
Un esempioCircoscrizioni
territoriali
Produzione di frumento
0-2,5 (bassa)
2,5-5,0 (media)
5,0-10,0 (alta)
Nord 0,04 0,00 0,07 0,11
Centro 1,80 1,00 0,53 3,33
Sud 0,54 0,50 0,07 1,11
4,55Pertanto gli indici ricercati sono:
55,41 1 00
2
00
2
k
i
h
j ji
jiij
N
nnN
nnn
228,020/55,4
22
N
114,02
228,0
)1,1min(
22
hk
La correlazioneKARL PEARSON (1857-1936)Pearson raccolse le altezze di 1078 padri e dei loro figli in età matura:
La correlazione
Quando esiste una forte associazione fra X e Y conoscere il valore di una esse aiuta a prevedere il corrispondente dell’altra. L’intensità del legame tra la variabile X e Y è misurata tramite il coefficiente di correlazione.
La correlazioneConsideriamo due caratteri quantitativi X e Y.
DEFINIZIONE:Dati due caratteri quantitativi X e Y, si ha concordanza tra di essi, se a valori più piccoli di X corrispondono valori più piccoli di Y e a valori più grandi di X corrispondono valori più grandi di Y.
DEFINIZIONE:Dati due caratteri quantitativi X e Y, si ha discordanza tra di essi, se a valori più piccoli di X corrispondono valori più grandi di Y e a valori più grandi di X corrispondono valori più piccoli di Y.
La covarianzaUna importante misura della concordanza tra due caratteri è la covarianza definita come:
))((),( yxxy YXMYXCov
La formula precedente nel caso di distribuzioni unitarie diventa:
N
iyixi yx
NYXCov
1
))((1
),(
La covarianza
ij
k
i
h
jyjxi nyx
NYXCov
1 1
))((1
),(
N
iyxii yxN
YMXMXYMYXCov
1
1
)()(),(
mentre nel caso di distribuzioni di frequenze assolute si ha:
Si può dimostrare che:
Infatti:
La covarianza
N
iyixi yx
NYXCov
1
))((1
),(
N
iyxixyiii yxyx
N 1
1
yx
N
iix
N
iiy
N
iii y
Nx
Nyx
N
111
111
N
iyxii yxN 1
1
La covarianzaNel caso di una distribuzione di frequenze si ha:
k
iyx
h
jijji nyx
NYXCov
1 1
1),(
OSSERVAZIONI:
•Se X e Y sono concordi, allora la covarianza assume segno positivo;
•Se X e Y sono discordi, allora la covarianza assume segno negativo;
•Se la covarianza è nulla, X e Y sono indifferenti (incorrelati).
Proprietà della covarianza
),(),( YXCovYXCov
)()(1
),(1
YMyXMxN
YXCov i
N
ii
Siano X e Y due variabili e e due costanti, allora risulta:
cioè la covarianza è invariante per cambiamenti di unità di misura di X e Y.
Dim.:
Infatti:
Proprietà della covarianza
)()(1
),(1
yi
N
ixi yx
NYXCov
xXMXM )()(
yYMYM )()(
Ma dato che:
N
iyixi yx
N 1
))((1
),( YXCov
Proprietà della covarianza
),(),( YXCovYXCov
)()()()(1
1
YMyXMxN i
N
ii
Siano X e Y due variabili e , due costanti, allora risulta:
cioè la covarianza è invariante per traslazioni di X e Y.
Dim.:Infatti:
),( YXCov
Proprietà della covarianza
),( YXCov
xXMXM )()(
yYMYM )()(
),(1
1
YXCovyxN yi
N
ixi
Ma dato che:
allora:
)()()()(1
1
yi
N
ixi yx
N
Proprietà della covarianzaCombinando le due relazioni precedenti si ha:
),(),( YXCovYXCov
Coefficiente di correlazione lineare
)()(
),(
YVarXVar
YXCov
yx
xy
11
Il coefficiente di correlazione lineare è definito come:
L’indice ρ misura il legame lineare fra X e Y e varia tra -1 e 1; cioè:
Coefficiente di correlazione lineareNel caso di distribuzioni unitarie ρ è definito come:
N
iyi
N
ixi
N
iyixi
yx
xy
yN
xN
yxN
1
2
1
2
1
11
))((1
Nel caso di distribuzioni di frequenza invece si ha:
h
jjyj
k
iixi
ij
k
i
h
jyjxi
yx
xy
nyN
nxN
nyxN
10
2
10
2
1 1
11
))((1
Coefficiente di correlazione lineareOSSERVAZIONI:
Se ρ>0, X e Y sono concordi tra loro;
Se ρ=1, X e Y sono legati da una perfetta dipendenza lineare diretta;
Se ρ<0, X e Y sono discordi tra loro;
Se ρ=-1, X e Y sono legati da una perfetta dipendenza lineare inversa;
Se ρ=0, X e Y sono indifferenti (incorrelati) tra loro.
Un esempioSia data la seguente distribuzione di 6 appezzamenti di terreno secondo la quantità di fertilizzante utilizzato ed il raccolto di grano:
X Fertilizzante (Kg)
Y Grano (qt)
12 7
10 6
8 4
9 4
5 3
2 2
Calcolare il coefficiente di correlazione lineare.
Un esempioCalcoliamo innanzitutto la Cov(X,Y) che nel caso di distribuzioni unitarie è pari a:
N
iyixi yx
NYXCov
1
))((1
),(
Per il calcolo dell’indice ci aiutiamo con la seguente tabella:
Un esempio
xix yiy yiy xix X
Fertilizzante (Kg)
Y Grano (qt)
12 4,33 7 2,67 11,56
10 2,33 6 1,67 3,89
8 0,33 4 -0,33 -0,11
9 1,33 4 -0,33 -0,44
5 -2,67 3 -1,33 3,55
2 -5,67 2 -2,33 13,21
46 26 31,67
Un esempio
N
iix x
N 1
67,76/461
N
iiy y
N 1
33,46/261
28,56/67,31))((1
),(1
N
iyixi yx
NYXCov
Quindi si ha:
Ora calcoliamo la Var(X) e la Var (Y):
Un esempio
4,33 18,75 2,67 7,13
2,33 5,43 1,67 2,79
0,33 0,11 -0,33 0,11
1,33 1,77 -0,33 0,11
-2,67 7,13 -1,33 1,77
-5,67 32,15 -2,33 5,43
65,34 17,34
)( xix 2xix 2)( yiy )( yiy
Un esempio
89,106/34,651
)(1
2
N
ixixN
XVar
89,26/34,17)(1
)(1
2
N
iyiyN
YVar
941,0)89,2()89,10(
28,5
)()(
),(
YVarXVar
YXCov
Quindi:
Pertanto il coefficiente di correlazione lineare è pari a:
che mostra una elevata correlazione lineare diretta tra i due caratteri.
Un esempioSia data la seguente distribuzione di 10 squadre di calcio durante il campionato di calcio 2000-2001 secondo i gol fatti (variabile X) e i gol subiti (variabile Y):
Squadre Gol Fatti X Gol Subiti Y
ROMA 68 33
JUVENTUS 60 27
LAZIO 65 36
PARMA 51 31
INTER 47 47
MILAN 56 46
ATALANTA 39 35
BRESCIA 44 42
FIORENTINA 53 52
BOLOGNA 49 53
Un esempioDeterminare il coefficiente di correlazione lineare.Calcoliamo innanzitutto la Cov(X,Y) :
xix yiy xix yiy X Y
68 14,8 33 -7,2 -106,56
60 6,8 27 -13,2 -89,76
65 11,8 36 -4,2 -49,56
51 -2,2 31 -9,2 20,24
47 -6,2 47 6,8 -42,16
56 2,8 46 5,8 16,24
39 -14,2 35 -5,2 73,84
44 -9,2 42 1,8 -16,56
53 -0,2 52 11,8 -2,36
49 -4,2 53 12,8 -53,76
532 402 -250,40
Un esempioQuindi si ha:
N
iix x
N 1
2,5310/5321
N
iiy y
N 1
2,4010/4021
04,2510/4,250
))((1
),(1
N
iyixi yx
NYXCov
Ora calcoliamo la Var(X) e la Var (Y):
Un esempio
14,8 219,04 -7,2 51,84
6,8 46,24 -13,2 174,24
11,8 139,24 -4,2 17,64
-2,2 4,84 -9,2 84,64
-6,2 38,44 6,8 46,24
2,8 7,84 5,8 33,64
-14,2 201,64 -5,2 27,04
-9,2 84,64 1,8 3,24
-0,2 0,04 11,8 139,24
-4,2 17,64 12,8 163,84
759,60 741,60
xix 2xix 2yiy yiy
Un esempioQuindi:
96,7510/6,7591
)(1
2
N
ixixN
XVar
16,7410/60,7411
)(1
2
N
iyiyN
YVar
Pertanto il coefficiente di correlazione lineare è pari a:
334,016,7496,75
04,25
)()(
),(
YVarXVar
YXCov
Un esempioSia data la seguente distribuzione di 20 famiglie secondo il numero di componenti (variabile X) e il numero di stanze dell’appartamento dove si vive (variabile Y):
XY
1 2 3
1 3 1 1 5
2 2 2 3 7
3 0 1 3 4
4 0 1 3 4
5 5 10 20
Calcolare il coefficiente di correlazione lineare.
Un esempioCalcoliamo innanzitutto la Cov(X,Y) che nel caso di distribuzioni di frequenza è pari a:
ij
k
i
h
jyjxi nyx
NYXCov
1 1
))((1
),(
La media aritmetica di X è pari a:
35,220
47
20
)44()43()72()51(1
10
k
iiix nx
N
Un esempio
25,220
45
20
)103()52()51(1
10
h
ijjy ny
N
La media aritmetica di Y è, invece, pari a:
Un esempio
)]25,23)(35,24)(3()25,22)(35,24)(1(
)25,21)(35,24)(0()25,23)(35,23)(3(
)25,22)(35,23)(1()25,21)(35,23)(0(
)25,23)(35,22)(3()25,22)(35,22)(2(
)25,21)(35,22)(2()25,23)(35,21)(1(
)25,22)(35,21)(1()25,21)(35,21)(3[(20
1
))((1
),(1 1
ij
k
i
h
jyjxi nyx
NYXCov
462,020/25,9
La covarianza è pari a:
Un esempio
X ni0 (xi-x) (xi-x)2 (xi-x)2 ni0
1 5 -1,35 1,82 9,11
2 7 -0,35 0,12 0,86
3 4 0,65 0,42 1,69
4 4 1,65 2,72 10,89
20 22,55
Y n0j (yj-y) (yj-y)2 (yj-y)2 n0j
1 5 -1,25 1,5625 7,81
2 5 -0,25 0,0625 0,31
3 10 0,75 0,5625 5,63
20 13,75
Per il calcolo delle varianze ci aiutiamo con le seguente tabelle:
Un esempio
13,120/55,221
)(1
02
k
iixi nx
NXVar
69,020/75,13)(1
)(1
02
h
ijyj ny
NYVar
Quindi:
Pertanto il coefficiente di correlazione lineare è pari a:
521,0)69,0()13,1(
46,0
)()(
),(
YVarXVar
YXCov
Alcune proprietàL’indipendenza assoluta tra X e Y implica una indifferenza tra i caratteri, cioè un ma una indifferenza tra i caratteri non implica una indipendenza assoluta, ma solamente una indipendenza di tipo lineare.
Infatti se vi è indipendenza assoluta tra X e Y si ha che le frequenze assolute sono pari a:
N
nncn jiijij
00
Pertanto si ha:
Alcune proprietà
h
jjyj
k
iixi
ij
k
i
h
jyjxi
nyN
nxN
nyxN
10
2
10
2
1 1
)(1
)(1
))((1
h
jjyj
k
iixi
ji
k
i
h
jyjxi
nyN
nxN
nnyxN
10
2
10
2
001 1
2
)(1
)(1
))((1
Alcune proprietà
0
)(1
)(1
)()(1
10
2
10
2
01 1
02
h
jjyj
k
iixi
j
k
i
h
jyjixi
nyN
nxN
nynxN
in quanto
0)( 0)( 01 1
0
j
k
i
h
jyjixi nynx
sono somma di scarti dalla media aritmetica; pertanto tra il carattere X e il carattere Y vi è indifferenza (=0).
Alcune proprietàL’indifferenza, invece, può presentarsi anche in caso di connessione non nulla; infatti la covarianza può annullarsi anche se fra le distribuzioni marginali c’è massima dipendenza, ossia nel caso che ad ogni valore di X corrisponda uno ed un solo valore di Y. Ciò accade ad esempio per la seguente distribuzione:
X 0 1 2 3 4 5 6 7 8
Y 16 9 4 1 0 1 4 9 16
1682 XXY
Per la quale i valori della variabile Y sono legati alla variabile X dalla seguente relazione:
In questo caso =0 ma vi è una dipendenza perfetta di Y da X.
Alcune proprietà
),( YX
)()(
),(
YVarXVar
YXCov
)()(
),(22 YVarXVar
YXCov
Siano X e Y due variabili e , , e delle costanti.
Allora si ha:
),())((),( YXsegnoYX
Dim.:
),())(( YXsegno
yx
YXCov
),(
Alcune proprietàρ è quindi invariante per trasformazioni lineari che conservano il segno, cioè che mantengono invariata la direzione della relazione tra X e Y.
Alcune proprietà1),( XX
1)(
)(
)()(
),(),(
XVar
XVar
XVarXVar
XXCovXX
Dim.:
Infatti:
Correlazione spuriaIl coefficiente di correlazione lineare sintetizza con un valore unico il grado del legame lineare tra le variabili X e Y.
Non sempre, però, ad un valore elevato di ρ corrisponde un effettivo legame tra i due caratteri considerati. Infatti, ad esempio, può esistere un legame tra X e Y solo perchè entrambe le variabili dipendono da una terza variabile Z.
Un esempioIl numero di bottiglie di birra bevute e il numero di condizionatori che vengono venduti in Italia presentano una alta correlazione lineare.
Ma tutte e due le variabili dipendono da una terza variabile: la temperatura.Infatti, più la temperatura è alta, più birre vengono bevute e più condizionatori vengono venduti.
Un esempio
0;1;1;3;3 rYXYX 4.0;1;1;3;3 rYXYX 9.0;1;1;3;3 rYXYX
6.0;1;1;3;3 rYXYX 8.0;1;1;3;3 rYXYX 95.0;1;1;3;3 rYXYX
Un esempio
3.0;1;1;3;3 rYXYX 5.0;1;1;3;3 rYXYX 95.0;1;1;3;3 rYXYX
7.0;1;1;3;3 rYXYX 9.0;1;1;3;3 rYXYX 99.0;1;1;3;3 rYXYX
La regressioneSIR FRANCIS GALTON (1822-1911)
“Teoria del sangue blù”Il talento ed il carattere sono ereditari
In questo contesto nasce l’analisi della regressione lineare
La statura dei figli può essere prevista sulla base di quella dei genitori?
Se è così, l’altezza è ereditaria…e lo è anche il talento e l’onesta!
Esiste il sangue blu!
La regressioneConsideriamo ancora due caratteri quantitativi X e Y, ma ora presupponiamo l’esistenza di una relazione di tipo funzionale tra essi, secondo cui è possibile stabilire quale sia la variabile indipendente e quale la dipendente.Ossia è possibile scrivere quanto segue:
dove X è la variabile indipendente e Y la variabile dipendente.
XfY
La regressioneTale funzione matematica f(.) può assumere qualunque forma (quadratica, esponenziale, ecc.); noi ci limiteremo a trattare il caso della relazione lineare del tipo:
XY 10
dove β0 rappresenta l’intercetta, mentre β1 è il coefficiente angolare, ossia ci dà la pendenza della retta.
La regressione
Un esempioDate le distribuzioni del prezzo del gas X e del suo consumo pro-capite Y di 20 famiglie:
Prezzo (X) 30 31 37 42 43 45 50 54 54 57 58 58 60 73 88 89 92 97 100 102
Consumo pro-capite (Y) 134 112 136 109 105 87 56 43 77 35 65 56 58 55 49 39 36 46 40 42
I due caratteri possono essere rappresentati in uno scatter, che evidenzia una relazione decrescente, ossia all’aumentare del prezzo il consumo diminuisce.
Un esempio
Prezzo vs Consumo pro-capite
0
20
40
60
80
100
120
140
160
20 30 40 50 60 70 80 90 100 110
Prezzo del gas
Co
ns
um
o p
ro-c
ap
ite d
el g
as
La relazione può essere interpretata con una funzione di tipo lineare, come la retta riportata nel grafico.
La retta di regressionePer identificare univocamente la relazione matematica che “spiega” il fenomeno, sarà necessario stimare, attraverso il metodo dei minimi quadrati, cioè rendendo minime le distanze, al quadrato, tra i valori osservati e quelli teorici, il valore dei due parametri incogniti β0 e β1
In pratica è minimizzata la seguente funzione quadratica (somma dei quadrati degli scarti ei):
10 ,1
210
1
210 min),(,
N
iii
N
ii yyeg
La retta di regressionedove
ii xy 1010 ),(
pertanto si ha:
10 ,
1
210
1
210 min,
N
iii
N
ii xyeg
La minimizzazione della funzione g(.) richiede il calcolo delle derivate parziali rispetto ad 0 e 1, per poi porle uguali a zero.
(1)
La retta di regressionePertanto si ha:
0
0
1
0
g
g
02
02
110
1
110
0N
iiii
N
iii
xxyg
xyg
La retta di regressione
N
iii
N
ii
N
ii
N
ii
N
ii
yxxx
yxN
11
21
10
1110
Equazioni normali
0 1
Risolvendo rispetto ad 0 e 1 si ottengono le stime:
che annullano le derivate parziali:
La retta di regressione
xy
x
N
ii
N
iyxii
x
xy
N
ixi
N
iyixi
Nx
Nyx
x
yx
10
2
1
2
12
1
2
11
ˆˆ
)(
))((ˆ
Una volta stimati i coefficienti e sostituiti alla (1) è immediato disegnare la retta di regressione che è individuata dalla seguente equazione:
XY 10ˆˆˆ
Il termine 1 prende il nome di coefficiente di regressione
Un esempioRiprendiamo i dati dell’esempio precedente e calcoliamo la retta di regressione:
)( xix 2)( xix )( yiy ))(( yixi yx Prezzo (X)
Consumo pro-capite
(Y)
30 134 -33 1089 65 -2145
31 112 -32 1024 43 -1376
37 136 -26 676 67 -1742
42 109 -21 441 40 -840
43 105 -20 400 36 -720
45 87 -18 324 18 -324
50 56 -13 169 -13 169
Un esempioPrezzo (X)
Consumo pro-capite (Y)
54 43 -9 81 -26 234
54 77 -9 81 8 -72
57 35 -6 36 -34 204
58 65 -5 25 -4 20
58 56 -5 25 -13 65
60 58 -3 9 -11 33
73 55 10 100 -14 -140
88 49 25 625 -20 -500
89 39 26 676 -30 -780
92 36 29 841 -33 -957
97 46 34 1156 -23 -782
100 40 37 1369 -29 -1073
102 42 39 1521 -27 -1053
10668 -11779
)( xix 2)( xix )( yiy ))(( yixi yx
Un esempio
N
iix x
N 1
6320/12601
N
iiy y
N 1
6920/13801
10,110668
11779
)(
))((ˆ
1
2
11
N
ixi
N
iyixi
x
yx
55,13863104,169ˆˆ10 xy
Pertanto la retta di regressione è:
XY 10,155,138ˆ
Un esempioNella seguente tabella vengono riportati il numero delle pagine ed i prezzi (in euro) di dieci volumi di una stessa collana editoriale:
n. pagine 120 137 145 250 375 222 308 345 698 572
prezzo 12 22 16 14 15 12 14 14 20 16
Utilizziamo la seguente tabella per svolgere i calcoli:
Un esempioi xi yi x2
i y2i xiyi
1 120 12 14400 144 1440
2 137 22 18769 484 3014
3 145 16 21025 256 2320
4 250 14 62500 196 3500
5 375 15 140625 225 5625
6 222 12 49284 144 2664
7 308 14 94864 196 4312
8 345 14 119025 196 4830
9 698 20 487204 400 13960
10 572 16 327184 256 9152
3172 155 1.334.880 50.817
Un esempio2,31710/3172 x 5,1510/155 y
005,0328721,6
1651
2,31710880.334.1
5,152,31710817.50ˆ2
2
1
2
11
x
N
ii
N
iyxii
Nx
Nyx
914,132,317005,05,15ˆˆ10 xy
Pertanto la stima del coefficiente di regressione:
mentre il valore dell’intercetta è pari a:
Un esempio
XY 005,0914,13
Pertanto la retta di regressione è:
Graficamente si ha:
05
1015
2025
0 200 400 600 800
n. pagine
prez
zo
Ancora sulla retta di regressioneFino ad ora e stata considerata la seguente retta di regressione:
XY 10ˆˆˆ
cioè la retta di Y su X, ma può essere considerata anche la retta:
YX 'ˆ'ˆ10
cioè la retta di X su Y dove:
Ancora sulla retta di regressione
yx
y
N
ii
N
iyxii
y
xy
N
iyi
N
iyixi
Ny
Nyx
y
yx
'ˆ'ˆ
)(
))(('ˆ
10
2
1
2
12
1
2
11
1 'ˆ1Il segno di è uguale a quello di
infatti il numeratore (covarianza) dei due coefficienti è identico e il denominatore sempre positivo.
Ancora sulla retta di regressioneLe due rette di regressione si incontrano nel punto:
),( yx
Se 0'ˆˆ11
le rette di regressione sono perpendicolari tra loro e parallele agli assi
Ancora sulla retta di regressione
'ˆˆ0X
0ˆ Y
X
Y
),( yx
Ancora sulla retta di regressione
'ˆˆ11
22y
xy
x
xy
2
yx
xy
Il coefficiente di correlazione ρ e i coefficienti di regressione sono legati dalla seguente relazione:
'ˆˆ11
Infatti:
yx
xy
Ancora sulla retta di regressioneIl coefficiente di correlazione ρ e i coefficienti di regressione sono legati anche dalla seguente relazione:
'ˆˆ11
x
y
y
x
Il coefficiente di regressione sono legati dalla seguente relazione:
'ˆˆ12
2
1
x
y
Ancora sulla retta di regressioneLe due rette di regressione coincidono soltanto quando vi è perfetta correlazione lineare cioè quando:
1
Il grado di accostamento
Non necessariamente però il modello stimato, quello lineare, è il migliore al fine di interpretare la relazione tra i due caratteri.
Per valutare la bontà di adattamento del modello ai dati osservati, facciamo ricorso all’indice di determinazione R2.
L’indice R2 si basa sulla scomposizione della devianza totale:
Il grado di accostamento
N
iyiyYDev
1
2)()(
N
iyiii yyy
1
2)ˆˆ(
N
iyiyYDev
1
2)(
N
iyiii
N
iyi
N
iii yyyyyy
11
2
1
2 )ˆ)(ˆ(2)ˆ()ˆ(
Il grado di accostamentoSi dimostra facilmente che:
0)ˆ)(ˆ(21
N
iyiii yyy
per la seconda delle equazioni normali.
Pertanto si ha:
)()()( RDevEDevYDev
N
iyi
N
iii yyyYDev
1
2
1
2 )ˆ()ˆ()(
Il grado di accostamentoL’accostamento sarà tanto migliore quanto minore sarà Dev(E).
Allora l’indice di determinazione R2 è pari a:
R2= Dev(R)/Dev(Y)=1-[Dev(E)/ Dev(Y)]
R2 indica quanta parte di Dev(Y) è spiegata dalla devianza di regressione.
Ovviamente 0 R21.
Il grado di accostamentoIn altre parole, R2 indica quanta parte della devianza presente nei dati (Dev(Y)) è stata colta dal modello di regressione (Dev(R)).
N
iyi
N
iii
N
iyi
N
iyi
y
yy
YDev
EDev
y
y
YDev
RDev
R
1
2
1
2
1
2
1
2
2
)(
)ˆ(1
)(
)(1
)(
)ˆ(
)(
)(
Il grado di accostamentoEsso varia tra 0 ed 1:
)()( quando 1
)()( quando 02
YDevRDev
YDevEDev
R
Il grado di accostamento
Un esempioTornando all’esempio precedente del gas e del consumo pro-capite, e calcoliamo il valore dell’indice R2. I calcoli sono riassunti nella seguente tabella:
2yiy iy ii yy ˆ 2ˆ ii yy Prezzo
(X)Consumo
pro-capite (Y)
30 134 4225 105,43 28,57 816,24
31 112 1849 104,33 7,67 58,83
37 136 4489 97,70 38,30 1466,89
42 109 1600 92,18 16,82 282,91
43 105 1296 91,08 13,92 193,77
45 87 324 88,87 -1,87 3,50
50 56 169 83,35 -27,35 748,02
Un esempio 2yiy
iy ii yy ˆ 2ˆ ii yy Prezzo (X)
Consumo pro-capite (Y)
54 43 676 78,93 -35,93 1290,96
54 77 64 78,93 -1,93 3,72
57 35 1156 75,62 -40,62 1649,98
58 65 16 74,52 -9,52 90,63
58 56 169 74,52 -18,52 342,99
60 58 121 72,31 -14,31 204,78
73 55 196 57,96 -2,96 8,76
88 49 400 41,40 7,60 57,76
89 39 900 40,29 -1,29 1,66
92 36 1089 36,98 -0,98 0,96
97 46 529 31,46 14,54 211,41
100 40 841 28,15 11,85 140,42
102 42 729 25,94 16,06 257,92
20838 7832,11
Un esempio
62,038,0120838
11,78321
)(
)(12
YDev
EDevR
Un esempioConsideriamo le seguenti variabili X e Y:
xi yi
1 5
2 7,5
3 12
4 15,5
6,3ˆ,1ˆ10
X,Y 631ˆ
Applicando i minimi quadrati si trova:
cioè:
Un esempioIl calcolo di R2 è il seguente:
iy yiy 2yiy ii yy ˆ 2ˆii yy xi yi
1 5 4,6 -5 25 0,4 0,16
2 7,5 8,2 -2,5 6,25 0,7 0,49
3 12 11,8 2 4 0,2 0,04
4 15,5 15,4 5,5 30,25 0,1 0,01
40 65,50 0,70
Un esempio
104/404
1 4
1
i
iy y
70,0ˆ)(
50,6510)(
4
1
2
4
1
24
1
2
iii
ii
iyi
yyEDev
yyYDev
989,050,65
70,01
)(
)(12
YDev
EDevR
Il grado di accostamento
OSSERVAZIONE IMPORTANTE
Si dimostra che R2=ρ2.