Le distribuzioni multiple Si definisce distribuzione statistica multipla la distribuzione ottenuta...

Preview:

Citation preview

Le distribuzioni multipleSi definisce distribuzione statistica multipla la

distribuzione ottenuta dalla rilevazione di più

caratteri su unità appartenenti ad una

determinata popolazione.

Se vengono rilevati due caratteri su ogni unità si

definisce una distribuzione doppia.

Se vengono rilevati tre caratteri su ogni unità si

definisce una distribuzione tripla.

Le distribuzioni multipleSe vengono rilevati m caratteri su ogni unità si

definisce una distribuzione m-pla e le singole

variabili vengono definite variabili componenti.

Si parla di mutabile multipla se tutti i caratteri

componenti sono di natura qualitativa;

Si parla di variabile multipla se tutti caratteri

componenti sono di natura quantitativa.

Le distribuzioni multiple

Se le N unità del collettivo non sono molto numerose, si

può rappresentare la distribuzione multipla indicando

per ciascuna unità le m modalità presenti in essa:

Unità X1 X2 … Xm

1 x11 x12 ... x1m

2 x21 x22 ... x2m

… ... ... ... ...

N xN1 xN2 ... xNmdove x11 indica la modalità del carattere X1 presente nella prima unità e così via.Questa è definita distribuzione doppia per unità - modalità.

Le distribuzioni multipleConsideriamo un collettivo di sei studenti sui quali sono

stati rilevati l’età e il voto all’esame di statistica, la

distribuzione unità - modalità è la seguente:

Unità 1 2 3 4 5 6

età 18 19 20 19 21 22

voto 20 21 23 25 26 23

Le distribuzioni doppieConsideriamo ora una popolazione sulla quale sono stati

rilevati due caratteri.

Quando le unità del collettivo sono numerose, è

preferibile rappresentare la distribuzione doppia tramite

una tabella a doppia entrata (distribuzione doppia di

frequenze) dove ad ogni modalità (xi,yj) di (X,Y)

corrisponde la frequenza assoluta nij, con i=1,2,…,k e

j=1,2,…,s.

In altre parole si registra quante volte una coppia di

modalità si presenta contemporaneamente per X e Y.

Le distribuzioni doppie

dove:

y1 … yj … yh

x1 n11 n1j n1h n10

… … … … …

xi ni1 … nij … nih ni0

… … … … …

xk nk1 … nkj … nkh nk0

n01 ... n0j ... n0h N

h

jiji nn

10

k

iijj nn

10

k

i

h

jijnN

1 1

Le distribuzioni doppieLe frequenze ni0, i=1,2,…,k sono definite frequenze

marginali assolute della variabile X, mentre le frequenze

n0j j=1,2,…,h sono definite frequenze marginali assolute

della variabile Y.

Consideriamo ora le frequenze fij, = nij/N con i=1,2,…,k e

j=1,2,…,s; in questo caso la tabella a doppia entrata può

essere scritta come:

Le distribuzioni doppiey1 … yj … yh

x1 f11 f1j f1h f10

… … … … …

xi fi1 … fij … fih fi0

… … … … …

xk fk1 … fkj … fkh fk0

f01 ... f0j ... f0k 1

dove:

h

jiji ff

10

k

iijj ff

10 1

1 1

k

i

h

jijf

Le distribuzioni doppieIn questo caso, le frequenze fi0, i=1,2,…,k sono le

frequenze marginali relative della variabile X mentre le

frequenze f0j, j=1,2,…,h sono le frequenze marginali

relative della variabile Y.

Le frequenze assolute marginali ni0 (le frequenze relative

marginali fi0) esprimono i soggetti (la porzione di soggetti)

che possiedono la modalità xi a prescindere da quello che

avviene per il carattere Y.

Le distribuzioni condizionateConsideriamo una distribuzione doppia (X,Y) e fissiamo il

valore xi per la variabile X, se studiamo la distribuzione di

Y per i soli soggetti che possiedono quel valore xi della

variabile X, si ottiene la distribuzione condizionata di Y

dato xi .

Tale distribuzione si indica con Y|(X=xi)

Valori di Y|(X=xi) y1 y2 … yh Tot.

Freq.assolute ni1 ni2 ... nih ni0

Freq.relative ni1/ni0 ni2/ni0 ... nih/ni0 1

Le distribuzioni condizionateSe fissiamo, invece, il valore yj per la variabile Y, se

studiamo la distribuzione di X per i soli soggetti che

possiedono quel valore yj della variabile Y, si ottiene la

distribuzione condizionata di X dato yj .

Tale distribuzione si indica con X|(Y=yj)

Valori di X|(Y=yj) x1 x2 … xk Tot.

Freq.assolute n1j n2j ... nkj n0j

Freq.relative n1j/n0j n2j/n0j ... nkj/n0j 1

Le distribuzioni condizionate

X x1 x2 … xk

Freq.assolute n10 n20 ... nk0

OSSERVAZIONE:

Data una distribuzione doppia (X,Y) si possono

definire 2+h+k distribuzioni semplici:

2 distribuzioni marginali:

Y y1 y2 … yh

Freq.assolute n01 n02 ... n0h

Le distribuzioni condizionateh distribuzioni condizionate di X dato yj la cui distribuzione generica è:

Valori di X|(Y=yj) x1 x2 … xk Tot

Freq.relative n1j/n0j n2j/n0j ... nkj/n0j 1

corrispondente alla modalità yj di Y con j=1,2,…,h.

k distribuzioni condizionate di Y dato xi la cui distribuzione generica è:

y1 y2 … yh Tot

Freq.relative ni1/ni0 ni2/ni0 ... nih/ni0 1

corrispondente alla modalità xi di X con i=1,2,…,k.

Un esempioConsideriamo la seguente distribuzione doppia che descrive una popolazione di 100 individui sui quali sono stati rilevati il carattere grado di istruzione (X) e il carattere sesso (Y):

X Y TOT. 

M F

Analfabeta 1 4 5

Licenza elementare 5 5 10

Licenza media 22 16 38

Licenza media superiore 18 17 35

Laurea 8 4 12

TOTALE 54 46 100

Un esempioLa distribuzione doppia di frequenze relative è la seguente:

X Y TOT.

M F

Analfabeta 0,01 0,04 0,05

Licenza elementare 0,05 0,05 0,10

Licenza media 0,22 0,16 0,38

Licenza media superiore 0,18 0,17 0,35

Laurea 0,08 0,04 0,12

TOTALE 0,54 0,46 1,00

Un esempio

Da questa distribuzione doppia possono essere ricavate:

2 distribuzioni marginali di frequenze relative (a, b);

2 distribuzioni condizionate (parziali) di frequenze relative

di X dato yj (c, d);

5 distribuzioni condizionate (parziali) di frequenze relative

di Y dato xi (e, f, g, h, i)

Un esempioa) Distribuzione marginale di X

X=grado di istruzione fi 

Analfabeta 0,05

Licenza elementare 0,10

Licenza media 0,38

Licenza media superiore 0,35

Laurea 0,12

TOTALE 1,00

Un esempio

Y=sesso  fi 

M 0,54

F 0,46

TOTALE 1,00

b) Distribuzione marginale di Y

c) Distribuzione condizionata (X|Y=F)

X Y=F

Analfabeta 0,09

Licenza elementare 0,11

Licenza media 0,35

Licenza media superiore 0,36

Laurea 0,09

TOTALE 1,00

Un esempio

X Y=M

Analfabeta 0,02

Licenza elementare 0,09

Licenza media 0,41

Licenza media superiore 0,33

Laurea 0,15

TOTALE 1,00

d) Distribuzione condizionata (X|Y=M)

Y X=analfabeta

M 0,20

F 0,80

TOT. 1,00

e) Distribuzione condizionata (Y|X=Analfabeta)

Un esempio

Y X=lic.elementare

M 0,50

F 0,50

TOT. 1,00

f) Distribuzione condizionata (Y|X=Licenza Elem.)

g) Distribuzione condizionata (Y|X=Licenza Media)

Y X=lic. Media

M 0,58

F 0,42

TOT. 1,00

Un esempio

Y X=lic. media superiore

M 0,51

F 0,49

TOT. 1,00

h) Distribuzione condizionata (Y|X=Licenza media sup.)

i) Distribuzione condizionata (Y|X=Laurea)

Y X=laurea

M 0,67

F 0,33

TOT. 1,00

Indici per una sola variabileSe il carattere è quantitativo è possibile calcolare dei valori di sintesi per ciascuno dei caratteri X e Y.

In questo caso, la media aritmetica e la varianza di X sono le seguenti:

01

20

1

2

10

10

1)(

1

i

k

ixii

k

ixi

k

iii

k

iiix

fxnxN

XVar

fxnxN

Le distribuzioni doppie

dove:

y1 … yj … yh

x1 n11 n1j n1h n10

… … … … …

xi ni1 … nij … nih ni0

… … … … …

xk nk1 … nkj … nkh nk0

n01 ... n0j ... n0h N

h

jiji nn

10

k

iijj nn

10

k

i

h

jijnN

1 1

Indici per una sola variabile

La media aritmetica e la varianza di Y, invece, sono:

j

h

jyjj

h

jyj

h

jjj

h

jjjy

fynyN

YVar

fynyN

01

20

1

2

10

10

1)(

1

Un esempioConsideriamo la seguente distribuzione di 100 studenti secondo il voto riportato in Statistica (X) e Ragioneria (Y).

X Y

  18 19 20 21 22 23 24 25 26 27 28 29 30  

18 4 4 8

19   5 2 3 10

20   7 7

21   9 4 13

22   9 2 11

23   0

24   0

25   3 9 6 18

26   2 2

27   0

28   6 6 12

29 1 6 4 11

30   2 4 2 8

  5 24 8 9 6 0 11 10 6 6 3 4 8 100

Un esempioOra calcoliamo i valori di sintesi per X:

X ni0 xini0 (xi-μ)2 (xi- μ)2ni0

18 8 144 34,34 274,72

19 10 190 23,62 236,20

20 7 140 14,90 104,30

21 13 273 8,18 106,34

22 11 242 3,46 38,06

23 0 0 0,74 0,00

24 0 0 0,02 0,00

25 18 450 1,30 23,40

26 2 52 4,58 9,16

27 0 0 9,86 0,00

28 12 336 17,14 205,68

29 11 319 26,42 290,62

30 8 240 37,70 301,60

  100 2386   1590,08

Un esempio

86,23100/23861

10

k

iiix nx

N

90,15100/08,15901

)( 01

2

i

k

ixi nx

NXVar

Per il carattere Y i calcoli vengono eseguiti nello stesso modo.

La dipendenzaAnalizziamo ora alcune caratteristiche di una distribuzione doppia che non sono estensioni delle caratteristiche delle distribuzioni semplici.

DEFINIZIONE:

In matematica si dice che una variabile y, funzione di un’altra variabile x, è indipendente rispetto a x se, al variare di x, il valore di y resta costante.

La dipendenza

x

y

y

Nel caso di una tabella a doppia entrata bisogna confrontare le distribuzioni condizionate (parziali).

La dipendenza

Due distribuzioni semplici possono essere confrontate nei seguenti modi:

•Confrontando alcuni indici sintetici delle distribuzioni, per esempio due distribuzioni si dicono uguali rispetto alla media aritmetica se hanno la stessa media aritmetica;

•Confrontando direttamente tra loro le distribuzioni condizionate (parziali) di un carattere rispetto alle modalità dell’altro carattere.

La dipendenza

Si possono presentare due situazioni limite:

•Caso di connessione nulla o indipendenza;

•Caso di perfetta dipendenza.

Indici di connessioneNelle situazioni intermedie tra il caso di dipendenza perfetta e il caso di indipendenza sorge il problema della misura del grado di connessione tra i due caratteri.

Le misure del legame sono:

•Misure di dipendenza assoluta basate sul confronto fra le frequenze relative e le frequenze teoriche nel caso di indipendenza assoluta;

•Misure di dipendenza in media basate sul confronto delle medie delle distribuzioni condizionate (parziali).

Connessione nulla o indipendenzaConsideriamo la seguente distribuzione doppia di frequenze:

y1 … yj … yh

x1 n11 n1j n1h n10

… … … … …

xi ni1 … nij … nih ni0

… … … … …

xk nk1 … nkj … nkh nk0

n01 ... n0j ... n0h N

Connessione nulla o indipendenzaDEFINIZIONE:

Data una distribuzione doppia, il carattere Y è indipendente o non connesso con il carattere X, se le distribuzioni parziali secondo il carattere Y corrispondenti alle modalità di X sono tutte simili fra loro, cioè se, per j=1,2,…,h si ha:

(1) ...... 0

0020

2

10

1

N

n

n

n

n

n

n

n

n

n j

k

kj

i

ijjj

Infatti due distribuzioni secondo uno stesso carattere sono simili se sono uguali le frequenze relative di ciascuna modalità nelle due distribuzioni.

Connessione nulla o indipendenzaConsideriamo ora il termine generale della (1):

,...,2,1 ,...,2,1 ,0

0

hjkiN

n

n

n j

i

ij

Quindi nel caso di indipendenza assoluta si ha:

,...,2,1 ,...,2,1 ,ˆ 00 hjkiN

nnn jiij

Connessione nulla o indipendenzaIn termini di frequenze relative la relazione precedente può essere scritta:

,...,2,1 ,...,2,1 ,ˆ00 hjkifff jiij

Quindi, le frequenze assolute di una tabella a doppia entrata nella quale X e Y sono indipendenti sono indicate con:

,...,2,1 ,...,2,1 ,ˆ 00 hjkiN

nnn jiij

Connessione nulla o indipendenza

k

i

h

jijn

1 1

ˆ)1

k

i

h

j

ji

N

nn

1 1

00

Per tali frequenze valgono le seguenti proprietà:

NNNN

1

k

i

h

jji nn

N 1 100

1

Connessione nulla o indipendenza2) L’indipendenza o connessione nulla è bilaterale, in altre parole se Y è indipendente da X anche X lo è da Y.

Infatti se Y è indipendente da X si ha:

N

n

n

n j

i

ij 0

0

invertendo i medi si ha che:

N

n

n

ni

j

ij 0

0

cioè X è indipendente da Y.

Connessione nulla o indipendenza

0 ˆ- ijijij nnc

3) Le differenze tra sono definite contingenze cioè:

ˆ e ijij nn

Le contingenze esprimono la diversità tra le frequenze assolute osservate e le frequenze assolute nel caso di variabili indipendenti.

ˆ- ijijij nnc

0 ˆ- ijijij nnc vi è attrazione tra le modalità xi ed yj

vi è repulsione tra le modalità xi ed yj

Connessione nulla o indipendenza

k

i

h

jij

1 1

c

)ˆ(1 1

ijij

k

i

h

j

nn

4) Per le contingenze si ha:

0 NN

k

i

h

jij

k

i

h

jij nn

1 11 1

ˆ

Perfetta dipendenzaDEFINIZIONE:

Il carattere Y dipende perfettamente da X se ad ogni modalità xi di X è associata una sola modalità yj di Y, in tal senso è possibile affermare che Y è completamente determinata dalle modalità di X.

ESEMPIO :

Consideriamo un carattere X che si presenta in quattro modalità ed un carattere Y che si presenta in tre modalità, se la distribuzione doppia è la seguente:

Perfetta dipendenza

allora è possibile affermare che il carattere Y dipende perfettamente da X, in quanto ad ogni modalità xi di X è associata una sola modalità yj di Y e quindi che Y è completamente determinata dalle modalità di X.

y1 y2 y3

x1 7 0 0 7

x2 0 9 0 9

x3 6 0 0 6

x4 0 0 8 8

13 9 8 30

Perfetta dipendenza

OSSERVAZIONE:

La relazione di perfetta dipendenza non è simmetrica. Infatti in questo caso, ad ogni modalità yj di Y non è associata una sola modalità xi di X (ad esempio, si veda la modalità y1). Pertanto, nell’esempio precedente X non dipende perfettamente da Y.

Perfetta dipendenzaDEFINIZIONE:

La relazione è simmetrica, cioè Y e X sono mutuamente in dipendenza perfetta se ad ogni modalità yj di Y è associata una sola modalità xi di X e viceversa.

Ciò si verifica se, nell’ipotesi che le frequenze marginali siano tutte diverse da 0, si ha che h = k, cioè se la tabella della distribuzione doppia è quadrata.

Perfetta dipendenzaESEMPIO :Consideriamo un carattere X che si presenta in tre modalità ed un carattere Y che si presenta in tre modalità, se la distribuzione doppia è la seguente:

y1 y2 y3

x1 4 0 0 4

x2 0 0 3 3

x3 0 5 0 5

4 5 3 12allora è possibile affermare che Y e X sono mutuamente in dipendenza perfetta cioè che ad ogni modalità yj di Y è associata una sola modalità xi di X e viceversa.

Indici di dipendenza assoluta

k

i

h

j ij

ijij

n

nn

1 1

22

ˆ

)ˆ(

Una importante misura di distanza fra distribuzioni di frequenza è la distanza del di K. Pearson introdotta nel 1900, la quale è data da:

k

i

h

j ji

jiij

ff

fffN

1 1 00

200

k

i

h

j ji

jiij

N

nnN

nnn

1 1 00

2

00

Indici di dipendenza assoluta

1) L’indice del

2) Il assume valore 0 nel caso di indipendenza assoluta e tende ad assumere valori sempre più grandi in situazioni dove X e Y sono lontani dall’ipotesi di indipendenza;

3) Il può essere utilizzato nell’analisi sia di caratteri quantitativi sia nell’analisi di caratteri qualitativi; in quanto il calcolo non dipende dalle modalità dei caratteri in esame, ma solo dalle distribuzioni delle frequenze.

Un esempioLa tabella seguente riporta la distribuzione delle 76 unità di un collettivo secondo le modalità congiunte di due caratteri qualitativi A e B:

Carattere ACarattere B

B1 B2 B3  

A1 17 12 8 37

A2 22 10 7 39

  39 22 15 76

Dopo aver verificato che non sussiste indipendenza assoluta tra i caratteri, determinare l’indice di connessione

Un esempio

Consideriamo, ad esempio,

Per avere indipendenza assoluta è necessario che:

,...,2,1 ,...,2,1 ,00 hjkiN

nnn jiij

Pertanto, è sufficiente che tale relazione non sia verificata per una sola frequenza assoluta della tabella a doppia entrata precedente per affermare che tra il carattere X e il carattere Y sussista un certo grado di dipendenza.

987,1876

(39)(37) 17 0110

11

N

nnn

quindi tra i due caratteri vi è un certo grado di dipendenza assoluta.

Un esempioOra calcoliamo l’indice:

k

i

h

j ji

jiij

N

nnN

nnn

1 1 00

2

00

2

La tabella delle frequenze teoriche N

nnn jiij

00ˆ

è la seguente:

Un esempioCarattere

A

Carattere B

B1 B2 B3

A1 18,99 10,71 7,30

A2 20,01 11,29 7,70

 

mentre la tabella dei valori

è la seguente:

Un esempio

Carattere ACarattere B

B1 B2 B3  

A1 0,21 0,16 0,07 0,44

A2 0,20 0,15 0,06 0,41

0,85

Quindi l’indice 85,01 1 00

2

00

2

k

i

h

j ji

jiij

N

nnN

nnn

che mostra un basso grado di dipendenza tra i caratteri.

Altri indici di dipendenzaPer eliminare la dipendenza dell’indice da Nsi definisce la contingenza quadratica media come:

N

22

L’indice si annulla nel caso di indipendenza e soddisfa le seguenti disuguaglianze:

12 k 12 h

Altri indici di dipendenzaL’uguaglianza =k-1 si verifica quando vi è dipendenza perfetta di X da Y, mentre l’uguaglianza =h-1 si verifica quando vi è dipendenza perfetta di Y da X .

Quindi, possiamo definire il seguente indice medio di contingenza di H. Cramer come:

)1,1min(

22

hk

con 10 2

Un esempioLa tabella seguente riporta la distribuzione delle 20 regioni italiane per circoscrizione territoriale e per classe di produzione di frumento in milioni di quintali:

Circoscrizioni territoriali

Produzione di frumento

0-2,5 (bassa)

2,5-5,0 (media)

5,0-10,0 (alta)  

Nord 4 2 2 8

Centro 0 2 2 4

Sud 5 1 2 8

  9 5 6 20

Calcolare la contingenza quadratica media e l’indice medio di contingenza

Un esempioPer calcolare l’indice dobbiamo innanzitutto quantificare l’indice

k

i

h

j ji

jiij

N

nnN

nnn

1 1 00

2

00

2

La tabella delle frequenze teoriche N

nnn jiij

00ˆ

è la seguente:

Un esempio

Circoscrizioni territoriali

Produzione di frumento

0-2,5 (bassa)

2,5-5,0 (media)

5,0-10,0 (alta)

Nord 3,60 2,00 2,40

Centro 1,80 1,00 1,20

Sud 3,60 2,00 2,40

mentre la tabella dei valori

N

nnN

nnn

ji

jiij

00

2

00

è la seguente:

Un esempioCircoscrizioni

territoriali

Produzione di frumento

0-2,5 (bassa)

2,5-5,0 (media)

5,0-10,0 (alta)  

Nord 0,04 0,00 0,07 0,11

Centro 1,80 1,00 0,53 3,33

Sud 0,54 0,50 0,07 1,11

        4,55Pertanto gli indici ricercati sono:

55,41 1 00

2

00

2

k

i

h

j ji

jiij

N

nnN

nnn

228,020/55,4

22

N

114,02

228,0

)1,1min(

22

hk

La correlazioneKARL PEARSON (1857-1936)Pearson raccolse le altezze di 1078 padri e dei loro figli in età matura:

La correlazione

Quando esiste una forte associazione fra X e Y conoscere il valore di una esse aiuta a prevedere il corrispondente dell’altra. L’intensità del legame tra la variabile X e Y è misurata tramite il coefficiente di correlazione.

La correlazioneConsideriamo due caratteri quantitativi X e Y.

DEFINIZIONE:Dati due caratteri quantitativi X e Y, si ha concordanza tra di essi, se a valori più piccoli di X corrispondono valori più piccoli di Y e a valori più grandi di X corrispondono valori più grandi di Y.

DEFINIZIONE:Dati due caratteri quantitativi X e Y, si ha discordanza tra di essi, se a valori più piccoli di X corrispondono valori più grandi di Y e a valori più grandi di X corrispondono valori più piccoli di Y.

La covarianzaUna importante misura della concordanza tra due caratteri è la covarianza definita come:

))((),( yxxy YXMYXCov

La formula precedente nel caso di distribuzioni unitarie diventa:

N

iyixi yx

NYXCov

1

))((1

),(

La covarianza

ij

k

i

h

jyjxi nyx

NYXCov

1 1

))((1

),(

N

iyxii yxN

YMXMXYMYXCov

1

1

)()(),(

mentre nel caso di distribuzioni di frequenze assolute si ha:

Si può dimostrare che:

Infatti:

La covarianza

N

iyixi yx

NYXCov

1

))((1

),(

N

iyxixyiii yxyx

N 1

1

yx

N

iix

N

iiy

N

iii y

Nx

Nyx

N

111

111

N

iyxii yxN 1

1

La covarianzaNel caso di una distribuzione di frequenze si ha:

k

iyx

h

jijji nyx

NYXCov

1 1

1),(

OSSERVAZIONI:

•Se X e Y sono concordi, allora la covarianza assume segno positivo;

•Se X e Y sono discordi, allora la covarianza assume segno negativo;

•Se la covarianza è nulla, X e Y sono indifferenti (incorrelati).

Proprietà della covarianza

),(),( YXCovYXCov

)()(1

),(1

YMyXMxN

YXCov i

N

ii

Siano X e Y due variabili e e due costanti, allora risulta:

cioè la covarianza è invariante per cambiamenti di unità di misura di X e Y.

Dim.:

Infatti:

Proprietà della covarianza

)()(1

),(1

yi

N

ixi yx

NYXCov

xXMXM )()(

yYMYM )()(

Ma dato che:

N

iyixi yx

N 1

))((1

),( YXCov

Proprietà della covarianza

),(),( YXCovYXCov

)()()()(1

1

YMyXMxN i

N

ii

Siano X e Y due variabili e , due costanti, allora risulta:

cioè la covarianza è invariante per traslazioni di X e Y.

Dim.:Infatti:

),( YXCov

Proprietà della covarianza

),( YXCov

xXMXM )()(

yYMYM )()(

),(1

1

YXCovyxN yi

N

ixi

Ma dato che:

allora:

)()()()(1

1

yi

N

ixi yx

N

Proprietà della covarianzaCombinando le due relazioni precedenti si ha:

),(),( YXCovYXCov

Coefficiente di correlazione lineare

)()(

),(

YVarXVar

YXCov

yx

xy

11

Il coefficiente di correlazione lineare è definito come:

L’indice ρ misura il legame lineare fra X e Y e varia tra -1 e 1; cioè:

Coefficiente di correlazione lineareNel caso di distribuzioni unitarie ρ è definito come:

N

iyi

N

ixi

N

iyixi

yx

xy

yN

xN

yxN

1

2

1

2

1

11

))((1

Nel caso di distribuzioni di frequenza invece si ha:

h

jjyj

k

iixi

ij

k

i

h

jyjxi

yx

xy

nyN

nxN

nyxN

10

2

10

2

1 1

11

))((1

Coefficiente di correlazione lineareOSSERVAZIONI:

Se ρ>0, X e Y sono concordi tra loro;

Se ρ=1, X e Y sono legati da una perfetta dipendenza lineare diretta;

Se ρ<0, X e Y sono discordi tra loro;

Se ρ=-1, X e Y sono legati da una perfetta dipendenza lineare inversa;

Se ρ=0, X e Y sono indifferenti (incorrelati) tra loro.

Un esempioSia data la seguente distribuzione di 6 appezzamenti di terreno secondo la quantità di fertilizzante utilizzato ed il raccolto di grano:

X Fertilizzante (Kg)

Y Grano (qt)

12 7

10 6

8 4

9 4

5 3

2 2

Calcolare il coefficiente di correlazione lineare.

Un esempioCalcoliamo innanzitutto la Cov(X,Y) che nel caso di distribuzioni unitarie è pari a:

N

iyixi yx

NYXCov

1

))((1

),(

Per il calcolo dell’indice ci aiutiamo con la seguente tabella:

Un esempio

xix yiy yiy xix X

Fertilizzante (Kg)

Y Grano (qt)

12 4,33 7 2,67 11,56

10 2,33 6 1,67 3,89

8 0,33 4 -0,33 -0,11

9 1,33 4 -0,33 -0,44

5 -2,67 3 -1,33 3,55

2 -5,67 2 -2,33 13,21

46 26 31,67

Un esempio

N

iix x

N 1

67,76/461

N

iiy y

N 1

33,46/261

28,56/67,31))((1

),(1

N

iyixi yx

NYXCov

Quindi si ha:

Ora calcoliamo la Var(X) e la Var (Y):

Un esempio

4,33 18,75 2,67 7,13

2,33 5,43 1,67 2,79

0,33 0,11 -0,33 0,11

1,33 1,77 -0,33 0,11

-2,67 7,13 -1,33 1,77

-5,67 32,15 -2,33 5,43

65,34 17,34

)( xix 2xix 2)( yiy )( yiy

Un esempio

89,106/34,651

)(1

2

N

ixixN

XVar

89,26/34,17)(1

)(1

2

N

iyiyN

YVar

941,0)89,2()89,10(

28,5

)()(

),(

YVarXVar

YXCov

Quindi:

Pertanto il coefficiente di correlazione lineare è pari a:

che mostra una elevata correlazione lineare diretta tra i due caratteri.

Un esempioSia data la seguente distribuzione di 10 squadre di calcio durante il campionato di calcio 2000-2001 secondo i gol fatti (variabile X) e i gol subiti (variabile Y):

Squadre Gol Fatti X Gol Subiti Y

ROMA 68 33

JUVENTUS 60 27

LAZIO 65 36

PARMA 51 31

INTER 47 47

MILAN 56 46

ATALANTA 39 35

BRESCIA 44 42

FIORENTINA 53 52

BOLOGNA 49 53

Un esempioDeterminare il coefficiente di correlazione lineare.Calcoliamo innanzitutto la Cov(X,Y) :

xix yiy xix yiy X Y

68 14,8 33 -7,2 -106,56

60 6,8 27 -13,2 -89,76

65 11,8 36 -4,2 -49,56

51 -2,2 31 -9,2 20,24

47 -6,2 47 6,8 -42,16

56 2,8 46 5,8 16,24

39 -14,2 35 -5,2 73,84

44 -9,2 42 1,8 -16,56

53 -0,2 52 11,8 -2,36

49 -4,2 53 12,8 -53,76

532 402 -250,40

Un esempioQuindi si ha:

N

iix x

N 1

2,5310/5321

N

iiy y

N 1

2,4010/4021

04,2510/4,250

))((1

),(1

N

iyixi yx

NYXCov

Ora calcoliamo la Var(X) e la Var (Y):

Un esempio

14,8 219,04 -7,2 51,84

6,8 46,24 -13,2 174,24

11,8 139,24 -4,2 17,64

-2,2 4,84 -9,2 84,64

-6,2 38,44 6,8 46,24

2,8 7,84 5,8 33,64

-14,2 201,64 -5,2 27,04

-9,2 84,64 1,8 3,24

-0,2 0,04 11,8 139,24

-4,2 17,64 12,8 163,84

759,60 741,60

xix 2xix 2yiy yiy

Un esempioQuindi:

96,7510/6,7591

)(1

2

N

ixixN

XVar

16,7410/60,7411

)(1

2

N

iyiyN

YVar

Pertanto il coefficiente di correlazione lineare è pari a:

334,016,7496,75

04,25

)()(

),(

YVarXVar

YXCov

Un esempioSia data la seguente distribuzione di 20 famiglie secondo il numero di componenti (variabile X) e il numero di stanze dell’appartamento dove si vive (variabile Y):

XY

1 2 3  

1 3 1 1 5

2 2 2 3 7

3 0 1 3 4

4 0 1 3 4

  5 5 10 20

Calcolare il coefficiente di correlazione lineare.

Un esempioCalcoliamo innanzitutto la Cov(X,Y) che nel caso di distribuzioni di frequenza è pari a:

ij

k

i

h

jyjxi nyx

NYXCov

1 1

))((1

),(

La media aritmetica di X è pari a:

35,220

47

20

)44()43()72()51(1

10

k

iiix nx

N

Un esempio

25,220

45

20

)103()52()51(1

10

h

ijjy ny

N

La media aritmetica di Y è, invece, pari a:

Un esempio

)]25,23)(35,24)(3()25,22)(35,24)(1(

)25,21)(35,24)(0()25,23)(35,23)(3(

)25,22)(35,23)(1()25,21)(35,23)(0(

)25,23)(35,22)(3()25,22)(35,22)(2(

)25,21)(35,22)(2()25,23)(35,21)(1(

)25,22)(35,21)(1()25,21)(35,21)(3[(20

1

))((1

),(1 1

ij

k

i

h

jyjxi nyx

NYXCov

462,020/25,9

La covarianza è pari a:

Un esempio

X  ni0 (xi-x)  (xi-x)2   (xi-x)2 ni0

1 5 -1,35 1,82 9,11

2 7 -0,35 0,12 0,86

3 4 0,65 0,42 1,69

4 4 1,65 2,72 10,89

  20     22,55

Y  n0j (yj-y)  (yj-y)2   (yj-y)2 n0j

1 5 -1,25 1,5625 7,81

2 5 -0,25 0,0625 0,31

3 10 0,75 0,5625 5,63

  20     13,75

Per il calcolo delle varianze ci aiutiamo con le seguente tabelle:

Un esempio

13,120/55,221

)(1

02

k

iixi nx

NXVar

69,020/75,13)(1

)(1

02

h

ijyj ny

NYVar

Quindi:

Pertanto il coefficiente di correlazione lineare è pari a:

521,0)69,0()13,1(

46,0

)()(

),(

YVarXVar

YXCov

Alcune proprietàL’indipendenza assoluta tra X e Y implica una indifferenza tra i caratteri, cioè un ma una indifferenza tra i caratteri non implica una indipendenza assoluta, ma solamente una indipendenza di tipo lineare.

Infatti se vi è indipendenza assoluta tra X e Y si ha che le frequenze assolute sono pari a:

N

nncn jiijij

00

Pertanto si ha:

Alcune proprietà

h

jjyj

k

iixi

ij

k

i

h

jyjxi

nyN

nxN

nyxN

10

2

10

2

1 1

)(1

)(1

))((1

h

jjyj

k

iixi

ji

k

i

h

jyjxi

nyN

nxN

nnyxN

10

2

10

2

001 1

2

)(1

)(1

))((1

Alcune proprietà

0

)(1

)(1

)()(1

10

2

10

2

01 1

02

h

jjyj

k

iixi

j

k

i

h

jyjixi

nyN

nxN

nynxN

in quanto

0)( 0)( 01 1

0

j

k

i

h

jyjixi nynx

sono somma di scarti dalla media aritmetica; pertanto tra il carattere X e il carattere Y vi è indifferenza (=0).

Alcune proprietàL’indifferenza, invece, può presentarsi anche in caso di connessione non nulla; infatti la covarianza può annullarsi anche se fra le distribuzioni marginali c’è massima dipendenza, ossia nel caso che ad ogni valore di X corrisponda uno ed un solo valore di Y. Ciò accade ad esempio per la seguente distribuzione:

X 0 1 2 3 4 5 6 7 8

Y 16 9 4 1 0 1 4 9 16

1682 XXY

Per la quale i valori della variabile Y sono legati alla variabile X dalla seguente relazione:

In questo caso =0 ma vi è una dipendenza perfetta di Y da X.

Alcune proprietà

),( YX

)()(

),(

YVarXVar

YXCov

)()(

),(22 YVarXVar

YXCov

Siano X e Y due variabili e , , e delle costanti.

Allora si ha:

),())((),( YXsegnoYX

Dim.:

),())(( YXsegno

yx

YXCov

),(

Alcune proprietàρ è quindi invariante per trasformazioni lineari che conservano il segno, cioè che mantengono invariata la direzione della relazione tra X e Y.

Alcune proprietà1),( XX

1)(

)(

)()(

),(),(

XVar

XVar

XVarXVar

XXCovXX

Dim.:

Infatti:

Correlazione spuriaIl coefficiente di correlazione lineare sintetizza con un valore unico il grado del legame lineare tra le variabili X e Y.

Non sempre, però, ad un valore elevato di ρ corrisponde un effettivo legame tra i due caratteri considerati. Infatti, ad esempio, può esistere un legame tra X e Y solo perchè entrambe le variabili dipendono da una terza variabile Z.

Un esempioIl numero di bottiglie di birra bevute e il numero di condizionatori che vengono venduti in Italia presentano una alta correlazione lineare.

Ma tutte e due le variabili dipendono da una terza variabile: la temperatura.Infatti, più la temperatura è alta, più birre vengono bevute e più condizionatori vengono venduti.

Un esempio

0;1;1;3;3 rYXYX 4.0;1;1;3;3 rYXYX 9.0;1;1;3;3 rYXYX

6.0;1;1;3;3 rYXYX 8.0;1;1;3;3 rYXYX 95.0;1;1;3;3 rYXYX

Un esempio

3.0;1;1;3;3 rYXYX 5.0;1;1;3;3 rYXYX 95.0;1;1;3;3 rYXYX

7.0;1;1;3;3 rYXYX 9.0;1;1;3;3 rYXYX 99.0;1;1;3;3 rYXYX

La regressioneSIR FRANCIS GALTON (1822-1911)

“Teoria del sangue blù”Il talento ed il carattere sono ereditari

In questo contesto nasce l’analisi della regressione lineare

La statura dei figli può essere prevista sulla base di quella dei genitori?

Se è così, l’altezza è ereditaria…e lo è anche il talento e l’onesta!

Esiste il sangue blu!

La regressioneConsideriamo ancora due caratteri quantitativi X e Y, ma ora presupponiamo l’esistenza di una relazione di tipo funzionale tra essi, secondo cui è possibile stabilire quale sia la variabile indipendente e quale la dipendente.Ossia è possibile scrivere quanto segue:

dove X è la variabile indipendente e Y la variabile dipendente.

XfY

La regressioneTale funzione matematica f(.) può assumere qualunque forma (quadratica, esponenziale, ecc.); noi ci limiteremo a trattare il caso della relazione lineare del tipo:

XY 10

dove β0 rappresenta l’intercetta, mentre β1 è il coefficiente angolare, ossia ci dà la pendenza della retta.

La regressione

Un esempioDate le distribuzioni del prezzo del gas X e del suo consumo pro-capite Y di 20 famiglie:

Prezzo (X) 30 31 37 42 43 45 50 54 54 57 58 58 60 73 88 89 92 97 100 102

Consumo pro-capite (Y) 134 112 136 109 105 87 56 43 77 35 65 56 58 55 49 39 36 46 40 42

I due caratteri possono essere rappresentati in uno scatter, che evidenzia una relazione decrescente, ossia all’aumentare del prezzo il consumo diminuisce.

Un esempio

Prezzo vs Consumo pro-capite

0

20

40

60

80

100

120

140

160

20 30 40 50 60 70 80 90 100 110

Prezzo del gas

Co

ns

um

o p

ro-c

ap

ite d

el g

as

La relazione può essere interpretata con una funzione di tipo lineare, come la retta riportata nel grafico.

La retta di regressionePer identificare univocamente la relazione matematica che “spiega” il fenomeno, sarà necessario stimare, attraverso il metodo dei minimi quadrati, cioè rendendo minime le distanze, al quadrato, tra i valori osservati e quelli teorici, il valore dei due parametri incogniti β0 e β1

In pratica è minimizzata la seguente funzione quadratica (somma dei quadrati degli scarti ei):

10 ,1

210

1

210 min),(,

N

iii

N

ii yyeg

La retta di regressionedove

ii xy 1010 ),(

pertanto si ha:

10 ,

1

210

1

210 min,

N

iii

N

ii xyeg

La minimizzazione della funzione g(.) richiede il calcolo delle derivate parziali rispetto ad 0 e 1, per poi porle uguali a zero.

(1)

La retta di regressionePertanto si ha:

0

0

1

0

g

g

02

02

110

1

110

0N

iiii

N

iii

xxyg

xyg

La retta di regressione

N

iii

N

ii

N

ii

N

ii

N

ii

yxxx

yxN

11

21

10

1110

Equazioni normali

0 1

Risolvendo rispetto ad 0 e 1 si ottengono le stime:

che annullano le derivate parziali:

La retta di regressione

xy

x

N

ii

N

iyxii

x

xy

N

ixi

N

iyixi

Nx

Nyx

x

yx

10

2

1

2

12

1

2

11

ˆˆ

)(

))((ˆ

Una volta stimati i coefficienti e sostituiti alla (1) è immediato disegnare la retta di regressione che è individuata dalla seguente equazione:

XY 10ˆˆˆ

Il termine 1 prende il nome di coefficiente di regressione

Un esempioRiprendiamo i dati dell’esempio precedente e calcoliamo la retta di regressione:

)( xix 2)( xix )( yiy ))(( yixi yx Prezzo (X)

Consumo pro-capite

(Y)

30 134 -33 1089 65 -2145

31 112 -32 1024 43 -1376

37 136 -26 676 67 -1742

42 109 -21 441 40 -840

43 105 -20 400 36 -720

45 87 -18 324 18 -324

50 56 -13 169 -13 169

Un esempioPrezzo (X)

Consumo pro-capite (Y)

54 43 -9 81 -26 234

54 77 -9 81 8 -72

57 35 -6 36 -34 204

58 65 -5 25 -4 20

58 56 -5 25 -13 65

60 58 -3 9 -11 33

73 55 10 100 -14 -140

88 49 25 625 -20 -500

89 39 26 676 -30 -780

92 36 29 841 -33 -957

97 46 34 1156 -23 -782

100 40 37 1369 -29 -1073

102 42 39 1521 -27 -1053

10668 -11779

)( xix 2)( xix )( yiy ))(( yixi yx

Un esempio

N

iix x

N 1

6320/12601

N

iiy y

N 1

6920/13801

10,110668

11779

)(

))((ˆ

1

2

11

N

ixi

N

iyixi

x

yx

55,13863104,169ˆˆ10 xy

Pertanto la retta di regressione è:

XY 10,155,138ˆ

Un esempioNella seguente tabella vengono riportati il numero delle pagine ed i prezzi (in euro) di dieci volumi di una stessa collana editoriale:

n. pagine 120 137 145 250 375 222 308 345 698 572

prezzo 12 22 16 14 15 12 14 14 20 16

Utilizziamo la seguente tabella per svolgere i calcoli:

Un esempioi xi yi x2

i y2i xiyi

1 120 12 14400 144 1440

2 137 22 18769 484 3014

3 145 16 21025 256 2320

4 250 14 62500 196 3500

5 375 15 140625 225 5625

6 222 12 49284 144 2664

7 308 14 94864 196 4312

8 345 14 119025 196 4830

9 698 20 487204 400 13960

10 572 16 327184 256 9152

3172 155 1.334.880 50.817

Un esempio2,31710/3172 x 5,1510/155 y

005,0328721,6

1651

2,31710880.334.1

5,152,31710817.50ˆ2

2

1

2

11

x

N

ii

N

iyxii

Nx

Nyx

914,132,317005,05,15ˆˆ10 xy

Pertanto la stima del coefficiente di regressione:

mentre il valore dell’intercetta è pari a:

Un esempio

XY 005,0914,13

Pertanto la retta di regressione è:

Graficamente si ha:

05

1015

2025

0 200 400 600 800

n. pagine

prez

zo

Ancora sulla retta di regressioneFino ad ora e stata considerata la seguente retta di regressione:

XY 10ˆˆˆ

cioè la retta di Y su X, ma può essere considerata anche la retta:

YX 'ˆ'ˆ10

cioè la retta di X su Y dove:

Ancora sulla retta di regressione

yx

y

N

ii

N

iyxii

y

xy

N

iyi

N

iyixi

Ny

Nyx

y

yx

'ˆ'ˆ

)(

))(('ˆ

10

2

1

2

12

1

2

11

1 'ˆ1Il segno di è uguale a quello di

infatti il numeratore (covarianza) dei due coefficienti è identico e il denominatore sempre positivo.

Ancora sulla retta di regressioneLe due rette di regressione si incontrano nel punto:

),( yx

Se 0'ˆˆ11

le rette di regressione sono perpendicolari tra loro e parallele agli assi

Ancora sulla retta di regressione

'ˆˆ0X

0ˆ Y

X

Y

),( yx

Ancora sulla retta di regressione

'ˆˆ11

22y

xy

x

xy

2

yx

xy

Il coefficiente di correlazione ρ e i coefficienti di regressione sono legati dalla seguente relazione:

'ˆˆ11

Infatti:

yx

xy

Ancora sulla retta di regressioneIl coefficiente di correlazione ρ e i coefficienti di regressione sono legati anche dalla seguente relazione:

'ˆˆ11

x

y

y

x

Il coefficiente di regressione sono legati dalla seguente relazione:

'ˆˆ12

2

1

x

y

Ancora sulla retta di regressioneLe due rette di regressione coincidono soltanto quando vi è perfetta correlazione lineare cioè quando:

1

Il grado di accostamento

Non necessariamente però il modello stimato, quello lineare, è il migliore al fine di interpretare la relazione tra i due caratteri.

Per valutare la bontà di adattamento del modello ai dati osservati, facciamo ricorso all’indice di determinazione R2.

L’indice R2 si basa sulla scomposizione della devianza totale:

Il grado di accostamento

N

iyiyYDev

1

2)()(

N

iyiii yyy

1

2)ˆˆ(

N

iyiyYDev

1

2)(

N

iyiii

N

iyi

N

iii yyyyyy

11

2

1

2 )ˆ)(ˆ(2)ˆ()ˆ(

Il grado di accostamentoSi dimostra facilmente che:

0)ˆ)(ˆ(21

N

iyiii yyy

per la seconda delle equazioni normali.

Pertanto si ha:

)()()( RDevEDevYDev

N

iyi

N

iii yyyYDev

1

2

1

2 )ˆ()ˆ()(

Il grado di accostamentoL’accostamento sarà tanto migliore quanto minore sarà Dev(E).

Allora l’indice di determinazione R2 è pari a:

R2= Dev(R)/Dev(Y)=1-[Dev(E)/ Dev(Y)]

R2 indica quanta parte di Dev(Y) è spiegata dalla devianza di regressione.

Ovviamente 0 R21.

Il grado di accostamentoIn altre parole, R2 indica quanta parte della devianza presente nei dati (Dev(Y)) è stata colta dal modello di regressione (Dev(R)).

N

iyi

N

iii

N

iyi

N

iyi

y

yy

YDev

EDev

y

y

YDev

RDev

R

1

2

1

2

1

2

1

2

2

)(

)ˆ(1

)(

)(1

)(

)ˆ(

)(

)(

Il grado di accostamentoEsso varia tra 0 ed 1:

)()( quando 1

)()( quando 02

YDevRDev

YDevEDev

R

Il grado di accostamento

Un esempioTornando all’esempio precedente del gas e del consumo pro-capite, e calcoliamo il valore dell’indice R2. I calcoli sono riassunti nella seguente tabella:

2yiy iy ii yy ˆ 2ˆ ii yy Prezzo

(X)Consumo

pro-capite (Y)

30 134 4225 105,43 28,57 816,24

31 112 1849 104,33 7,67 58,83

37 136 4489 97,70 38,30 1466,89

42 109 1600 92,18 16,82 282,91

43 105 1296 91,08 13,92 193,77

45 87 324 88,87 -1,87 3,50

50 56 169 83,35 -27,35 748,02

Un esempio 2yiy

iy ii yy ˆ 2ˆ ii yy Prezzo (X)

Consumo pro-capite (Y)

54 43 676 78,93 -35,93 1290,96

54 77 64 78,93 -1,93 3,72

57 35 1156 75,62 -40,62 1649,98

58 65 16 74,52 -9,52 90,63

58 56 169 74,52 -18,52 342,99

60 58 121 72,31 -14,31 204,78

73 55 196 57,96 -2,96 8,76

88 49 400 41,40 7,60 57,76

89 39 900 40,29 -1,29 1,66

92 36 1089 36,98 -0,98 0,96

97 46 529 31,46 14,54 211,41

100 40 841 28,15 11,85 140,42

102 42 729 25,94 16,06 257,92

20838 7832,11

Un esempio

62,038,0120838

11,78321

)(

)(12

YDev

EDevR

Un esempioConsideriamo le seguenti variabili X e Y:

xi yi

1 5

2 7,5

3 12

4 15,5

6,3ˆ,1ˆ10

X,Y 631ˆ

Applicando i minimi quadrati si trova:

cioè:

Un esempioIl calcolo di R2 è il seguente:

iy yiy 2yiy ii yy ˆ 2ˆii yy xi yi

1 5 4,6 -5 25 0,4 0,16

2 7,5 8,2 -2,5 6,25 0,7 0,49

3 12 11,8 2 4 0,2 0,04

4 15,5 15,4 5,5 30,25 0,1 0,01

40 65,50 0,70

Un esempio

104/404

1 4

1

i

iy y

70,0ˆ)(

50,6510)(

4

1

2

4

1

24

1

2

iii

ii

iyi

yyEDev

yyYDev

989,050,65

70,01

)(

)(12

YDev

EDevR

Il grado di accostamento

OSSERVAZIONE IMPORTANTE

Si dimostra che R2=ρ2.

Recommended