ASSOCIAZIONE E CORRELAZIONE Quando osservo le distribuzioni di due variabili quantitative [x] ed [y] e la distribuzione congiunta, affermo che le due variabili

ASSOCIAZIONE E CORRELAZIONE

Quando osservo le distribuzioni di due variabili quantitative [x] ed [y] e la distribuzione congiunta, affermo che le due variabili sono associate se esiste un legame funzionale tra le variabili: mi attendo che i valori medi delle variabili, espresse in un medesimo soggetto, varino in modo concorde.

studio la relazione tra indice di affollamento delle città e la mortalità infantile.

Studio la relazione peso e altezza di individui di una popolazione;

Studio le variabili di un censimento di una popolazione.

per esempio …

Il tasso di mortalità infantile (morti nel primo anno di vita) su 10.000 nati vivi «decresce quando il numero di abitanti/stanza (indice di affollamento) decresce» In altri termini «la mortalità infantile cresce con l'indice di affollamento».Come concludo ? Esiste …

a) relazione di causa effetto.b) associazione (generica).c) correlazione (mutua influenza).

Variabile descrizione State State medage Median ageRegion Census region

[Ne Nc South West]

death Number of deaths

Pop Population marriage Number of marriages

Poplt5 Pop, < 5 year divorce Number of divorcespop5_17 Pop, 5 to 17

yearspcturban % urban population

Pop18p Pop, 18 and older drate Death RatePop65p Pop, 65 and older medages

qMedian age squared

popurban Urban population

1980 Census data by state

Esempio: uno studio di popolazione

. regress l_death l_divorce Source | SS df MS Number of obs = 50-------------+----------------------------- F(1,48)= 276.77 Model | 9.53072756 1 9.53072756 Prob > F = 0.0000 Residual | 1.65291656 48 .034435762 R-squared = 0.8522-------------+------------------------ Adj R-squared=0.8491 Total | 11.1836441 49 .228237635 Root MSE = .18557

----------------------------------------------------------------- l_death | Coef. Std.Err. t P>|t| [95% Conf. Interval]---------+-------------------------------------------------------l_divorce| 1.019959 .06131 16.64 0.000 .8966892 1.143229 _cons | .1082678 .25746 0.42 0.676 -.4093902 .6259257-------------------------------------------------------------------------

Regressione di log10(death) su log10(divorce)

Log(death)= 0.25 + 1.02*log(divorce)

Regressione di log10(death) su log10(divorce)l_death= 0.25 + 1.02 l_divorce

l_divorce3 3.5 4 4.5 5 5.5

3

3.5

4

4.5

5

5.5

LOG10(divorzi)

LOG

10(d

ece

ssi)

relazione causa-effetto | associazione

Tra due o più variabili quantitative rolevate nel medesimo soggetto possono esistere tre tipi di relazione:

1. relazione tra causa ed effetto (criteri di Bradford Hill).2. associazione statistica (generica)3. correlazione (mutua influenza).

(due variabili vengono dette associate quando la distribuzione dell'una influenza la distribuzione dell'altra).

I cinque criteri di causalità che derivano dalla proposta dello statistico inglese Sir Austin Bradford Hill (1965) ed elaborati in un ampio studio riguardante l'effetto del fumo nell'uomo

nota bene: l'associazione statistica non implica l'esistenza di una relazione di causa effetto.

È stato osservata una forte associazione tra il numero di

divorzi e la quantità di tabacco importata in Inghilterra

negli anni 50'.

Da questa osservazione si potrebbe indurre

che: “il tabacco è causa di discordia familiare” ovvero

che “coloro che divorziano di consolano fumando”.

Più semplicemente si deve concludere che

tra tabacco e numero di divorzi esiste una relazione in

quanto entrambe dipendono dallo sviluppo economico.

terminologia della regressione lineare

Data una coppia di variabili casuali quantitative {x} e {y}.

Siano noti.

il diagramma di dispersione {x,y}.

La media, la deviazione standard di {x} ed {y} e la covarianza.

Siano di interesse.

La previsione del valore di {y} , noto il valore di {x}.

La previsione del valore di {x} , noto il valore di {y}.

L’errore di previsione del valore di {y}, noto il valore di {x}.

L'errore di previsione del valore di {x}, noto il valore di {y}.

l'attesa condizionale

t

ylr yl

-3 -2 -1 0 .5 1 1.5 2 2.5 3

0

.2

.4

.6

.8

1

I punti sperimentali che suggeriscono le due relazioni

I punti osservati [coppie (xi,yi) per i=1,n] in esperimento di verifica della relazione teorica non giacciono usualmente sulla curva, ed oscillano in modo diverso per ogni fissato valore di xi.

t

tr t

-3 -2 -1 0 1 2 3

-3

-2

-1

0

1

2

3

4

relazione linearerelazione non lineare

a) uguale variabilità dei valori yi nei disti valori di xi, omoscedasticità

b) variabilità non uniforme dei valori yi nei distinti valori di xi , eteroscedasticità

Modello di regressione ad effetti fissi

Il primo contesto (gli effetti fissi) ipotizza che la variabile indipendente {x} sia osservata senza errore: ad esempio, il numero di ore lavorate, il tempo passato a studiare, i mesi trascorsi dopo una operazione.

In questo caso si può affermare che {y|x} sia distribuita nello stesso modo di {y} e che il valore atteso di E{y|x} sia funzione di parametri da determinare con i metodi qui descritti.

2 2

{y | x} x 23,1- 0,51 x

{y | x} x x 23,1- 0,51 x 0, 014 x

{y | x} a exp(- x )

Esempi:

Per semplicità scegliamo una relazione lineare

La scelta di una relazione lineare semplifica enormemente i calcoli è molto rilevante scientificamente presuppone una relazione presuppone una varianza costante (omoscedaticità)

Il modello matematico lineare vale molte volte come prima approssimazione di fenomeni con andamento "curvilineo"

Abbreviazioni usate nella lezione

Σxi Somma dei valori di {x} ΣxΣyi Somma dei valori di {y} ΣyΣxi

2 Somma dei quadrati dei valori di x ΣxxΣyi

2 Somma dei quadrati dei valori di y ΣyyΣxiyi Somma dei prodotti dei valori di x ed yΣxy[x,x] devianza della variabile {x}. Σxx- (Σx)(Σx)/n[y,y] devianza della variabile {y}. Σyy- (Σy)(Σy)/n[x,y] codevianza delle variabili {x} ed {y}. Σxy- (Σx)(Σy)/n

[,] devianza residua intorno alla regressione.

[y,y] – b·[x,x]

modello ad effetti fissi Un campione estratto da una popolazione di coppie {y,x}

di valori si può immaginare come un esperimento in cui si sono realizzate n coppie di osservazioni.

{y1 ,x1 } { y2 ,x2 } {yN ,xN }.

dove {x1,x2,xN} sono valori prefissati e quindi rilevati senza errore casuale e {y1,y2,. . .,yN} sono valori costituiti da una parte deterministica e da una parte casuale.

yi = α + β xi + εi.

Varianza intorno alla regressione

Il modello ad effetti fissi richiede la stima della sola distribuzione di {y|x} e la stima del valore dei parametri di regressione {α,β}. Questa si ottiene dal metodo dei minimi quadrati

2 2i

2i i

var ianza di ... ~ N (0, )

y ~ N ([ + x ], )

La parte casuale sia distribuita in modo gaussiano N(0,σ2) indipenden-temente dalla variabile {x}, campionata senza errore.

Allora possiamo affermare che {yi} = [yi|xi] è distribuita identicamente con la stessa

metodo dei minimi

quadrati

Soluzione: traccia la retta per la quale la somma delle distanze dei punti osservati dalla retta è minima.

2N

i i1(y - ) y

2N

i i1(y -[ x ]) =f( , )

Tale luogo è il minimo della funzione f(a, b) si ottiene cercando i valori più opportuni di a e di b. Calcoli semplici mostreranno che α e β possono essere stimati da

ˆa = y - b x

N

i i1N

i i1

[(y - y) (x - x)] CODEVIANZAˆ b DEVIANZA [(x - x) (x - x)]

drate=-.008097+.00056medage

Median age25.00 30.00 35.00

0

.005

.01

.015

Un problema classico della matematica propone di tracciare la retta interpolante i punti che sembrano allinearsi intorno ad una retta?

Codevianza e covarianza

In analogia con quanto visto per la varianza cam-pionaria, si definisce un indice detto covarianza dato dal rapporto tra codevianza e numerosità (n) del campione diminuita di un'unità

Tale somma è positiva se le coppie di scarti concordi

(+,+ o -,-) prevalgono su quelle di scarti discordi, negativa in caso contrario, e nulla se coppie concordi e discordi si

equivalgono.

( )( )XY i iC x x y y i i

XY i i

x yC x y

n

( )( )

( 1)i i

XY

x x y ys

n

( 1)XY

XY

Cs

n

La somma dei prodotti degli scarti prende il nome di codevianza

=[x,y]

indici di covariazione:

Il rapporto tra la covarianza e il prodotto delle deviazioni standard (sx e sy) delle variabili x e y è detto coefficiente di correlazione lineare:

Il coefficiente di correlazione lineare può assumere valori compresi tra -1 e +1.

xyxy x y

x y

C [x,y]r s s s

D D [x,x] [y,y]

metodo dei minimi quadratiLEMMA: La media aritmetica è il valore che rende minimo la somma degli scarti quadratici di un insieme di punti da un singolo punto.

2N

i1(y - )z yz

2 2N N

i i1 1(y - ) (y - y) z

2N

i1(y -y y- )z

2N

i1[(y -y) (y- )]z

N 2 2i i1

[(y -y) 2(y -y)(y- ) (y- ) ]z z N 2 2

i i1 i=1 1(y -y) 2 (y -y)(y- ) (y- )

N N

iz z

N N N2 2i i1 i=1 i=1

2

[(y -y) + 2(y- z) (y -y)+ (y- z)

devianza nullo termine 0

n×(y- z)

yz

è minima per

La somma

Per assurdo ipotizzo che esista uno z per cui

cvd

Dimostrazione:

metodo dei minimi quadrati2 2N N

i i i i1 1(y - ) (y -[ x ]) =f( , ) y

pensando si conoscere β ottengo che f(a, β) è minima riordinando i termini: N 2

i i1( [y - x ] - ) =f( , )

i

N N N

i i i ii=1 i=1 i=1

1 1 1a= [y -βx ] = y - βx = y - β x

N N N

ovvero a è la media della variabile

i iy - x

i iy=y- (x x) è forma alternativa della retta di regressione che mette in evidenza come la retta di regressione passi per il baricentro della nuvola di punti

(y,x)

i i(y ,x )

La relazione

trovata la stima di , occorre stimare , sfruttando il risultato precedente, la somma delle distanze quadratiche tra retta e punti

= minima>zero

2N N2

i i i i1 1

(y - ) (y - y - b[x - x]) f(a,b) yN

2 2 2i i i i

1

{(y -y) -2b(y -y)(x - x) b (x - x) } 2= [yy]- 2b [x,y] + b [xx]

2 22[x,y] [x,y]

[y,y] 2b[x,y] b [x,x][x,x] [x,x]

2 2[x,y] [x,y][y,y] [x,x] b-

[x,x] [x,x]

N

i i12N

i1

(y - y) (x - x)[x,y]ˆ b [x,x] (x - x)

da cui

sommo e sottraggo la stessa quantità

simboli abbreviatiΣxi Somma dei valori di {x} ΣxΣyi Somma dei valori di {y} ΣyΣxi

2 Somma dei quadrati dei valori di x ΣxxΣyi

2 Somma dei quadrati dei valori di y ΣyyΣxiyi Somma dei prodotti dei valori di x ed yΣxy[x,x] devianza della variabile {x}. Σxx- (Σx)(Σx)/n[y,y] devianza della variabile {y}. Σyy- (Σy)(Σy)/n[x,y] codevianza delle variabili {x} ed {y}. Σxy- (Σx)(Σy)/n

[, ] devianza residua intorno alla regressione.

[y,y] – b·[x,x]

[ , ] [y,y] 2 [x,y][x,x] { b- }

[x,x]

2[x,y][x,x]= + -

residua totale

nulla spiegata

errore campionario di regressione

N

i i1(y -y) (x -x)ˆvar(b) var( )

[xx]

i i i i i(y - y)(x - x) y (x - x) - y (x - x)

i i y (x -x)ˆvar(b) var( )[xx]

N2

i i21

1 (x -x) var(y )

[xx]

N2 2

i RES21

1 (x - x)

[xx]

2RESˆvar(b)

dev(x)

Sia σ2RES è la varianza

residua

osservo che

quando parlo di effetti fissi, {xi} non hanno varianza.

Dato che le yi sono omoscedastiche var(yi) = σ2

RES

e semplificando

2RESˆs.e(b)

dev(x)

da cui

calcolo

2RES

Devianza residuaN-2

N

i i1(x -x) y

var( )[x,x]

varianza campionaria di una regressione

la varianza di a si calcola tramite la sua stima

ˆ ˆˆvar(a)=var(y-bx)=var(y)+var(bx)

2 2 22 2RES RES

RES

1 xx

n dev(x) n dev(x)

2 ˆ=var(y)+x var(b)

ERRORE CAMPIONARIO DI UNA REGRESSIONE

sostituisco a σ2 la sua stima 2

2RESdevianza

sn

2 2res res

2i

ˆe.s.(b) = =dev(x)(x -x)

2 2 2 2res res

res2 2i i

x 1 xe.s.(a) = + = +

n n(x -x) (x -x)

con n-2 g.d.l.

il test t-student per b sarà

il test t-student pera sarà

n 2,1 / 2

b 0t

e.s.(b)

n 2,1 / 2

a 0t

e.s.(a)

Esempiol_death= 0.25 + 1.02 l_divorce

l_divorce3 3.5 4 4.5 5 5.5

3

3.5

4

4.5

5

5.5

LOG10(divorzi)

LOG

10(d

ece

ssi)

LIMITI DI CONFIDENZA DELLA RETTA

0 0 0E[y(x )] a b x y b (x - x )

dato un valore x0 , la stima migliore del valore medio di y0 dato x sarà:

0ˆvarianza di (y) = var (y) + (x - x) var(b)2

20(x -x)1={ + }

n [x,x]

220

res(x - x )1

{ + }sn [x,x]

La cui stima

20

0 (1- /2),n-2 res(x -x)1

y t s + n [xx]

che generano due iperboli intorno alla retta con un punto di massimo avvicinamento alla retta in corrispondenza del baricentro della nuvola di punti originari.

i limiti di confidenza a livello (1-α) sono

predizione di un valore singolo [xi ,yi]

Dato yi = a + b xi , alle oscillazioni casuali della retta si

deve aggiungere l'errore individuale i iˆˆ ˆy = y + e

i

22i

ˆˆvar(y )=var(y)+var(e)

(x -x)1={ + +1}σ

n [ , ]x x

alle iperboli di confidenza si aggiunge una quantità in più ed in meno, in modo tale da amplificare la regione di incertezza.

Esempio

peso alla nascita ed aumento di peso (% del peso iniziale) di 32 neonati nei primi 70 giorni di vita.

item

peso (oz)

aumentoitem

peso (oz)

aumentoitem

peso (oz)

aumento

1 72 68 12 118 42 23 142 532 112 63 13 128 48 24 132 503 111 66 14 128 50 25 87 1114 107 72 15 123 69 26 123 595 119 52 16 116 59 27 133 766 92 75 17 125 27 28 106 727 126 76 18 126 60 29 103 908 80 118 19 122 71 30 118 689 81 120 20 126 88 31 114 93

10 84 114 21 127 63 32 94 9111 115 29 22 86 88

n = 32 Sxx= 409880Sx =3676 Syy= 179761Sy =2281 Sxy= 264032[x,x]=409880 - (3676)2 / 32 =10.262,00[y,y]= 179761 - (2281) 2 / 32 = 17 168,47[y,y]=264032 - (3676) (2 281) / 32= -8 869,75

1 oncia= 28.349 grammi

Regressione di y su x

by|x = (-8 869,75) / (10 262,00) = -0,8643

y = 71,28 - 0,8643 ( x - 111,75) retta

[d,d] = (17 168,47)- [(-8 869,75) 2]/(10262,00)= 9502,08 dev.res.

s2RES = (9502,08)/(32-2) = 316,74

var.res.

var(by|x) = (316,74) / (10 262,00) = 0,030865

es (by|x)= sqrt(0,030865)=0,1757

ty|x = (0,8643)/(0,1757) = -4,92 con 30 gdl (p<0,001)

Regressione di y su x

bx|y = -8 869,75/17 168,47 = -0,5166

x = 111,75 - 0,5166 ( y - 71,28) retta di regressione r =( -0,8643 )( -0,5166 ) = 0,668 intervallo di confidenza nel punto x=90

21 (90 - 71,28)var( y[90] ) = 316,74 { + } = 25,08

32 10.262

y(90) = 71,28 - 0,8643 (90 - 111,75) = 90,08

t(0,975;30) = 2.042

C.I.[y(90)] = [90,08+(2,042)(5,016); 90,08+(2,042)(5,016)] =

[79,84;100,32 ]

gain_100= 167.87-.86433b_weight

_R

esi

d

weight at birth in oz60 80 100 120 140

-40

-20

0

20

40

gain_100= 167.87-.86433b_weight

weight at birth in oz60 80 100 120 140

0

50

100

150

regress gain_100 b_weight Source | SS df MS Number of obs = 32---------+------------------------------ F( 1, 30) = 24.20 Model | 7666.38716 1 7666.38716 Prob > F = 0.0000Residual | 9502.08159 30 316.736053 R-squared = 0.4465---------+------------------------------ Adj R-squared = 0.4281 Total | 17168.4688 31 553.821573 Root MSE = 17.797----------------------------------------------------------------------gain_100 | Coef. Std. Err. t P>|t| [95% Conf.Interval]---------+-----------------------------------------------------------b_weight | -.8643296 .1756842 -4.920 0.000 -1.223125 -.5055345 _cons | 167.8701 19.88319 8.443 0.000 127.2632 208.477----------------------------------------------------------------------

la correlazionequando esiste una associazione tra due variabili {x} ed {y} continue ed entrambe casuali , si suole definire un indice che misura il grado di interdipendenza : coefficiente di correlazione

r = oscilla in { -1 e +1}r = +1 correlazione massima concorder= 0 correlazione assente r = -1 correlazione massima discorder > 0 correlazione presente : al crescere di x cresce yr < 0 correlazione presente : al crescere di x decresce y

nota bene : quando {y} è costante => r = indefinito

quando {x} è costante => r = indefinito

[x,y]

[x,x] [y,y]r

[y|x] [x|y]

[x,y][x,y] r = b *b =

[x,x] [y,y]

COME APPARE LA CORRELAZIONE: gli esempi qui riportati si riferiscono alla correlazione tra i valori di uricemia rilevati, in differenti condizioni, con due metodi di misura (X e Y) su un campione di 100 soggetti anziani.

0

2

4

6

8

10

12

14

0 2 4 6 8 10 12 14

Metodo X (mg/dl)

Me

tod

o Y

(m

g/d

l) r = 0.861

0

2

4

6

8

10

12

14

0 2 4 6 8 10 12 14

Metodo X (mg/dl)

M

eto

do

Y (

mg

/dl) r = 0.0695

0

2

4

6

8

10

12

14

0 2 4 6 8 10 12 14

Metodo X (mg/dl)

Me

tod

o Y

(m

g/d

l) r = 0.661

0

2

4

6

8

10

12

14

0 2 4 6 8 10 12 14

Metodo X (mg/dl)

M

eto

do

Y (

mg

/dl) r = 0.290

var1= 6.02381+.246535var2

var20 5 10 15

0

5

10

15

var2= 5.148+.342253var1

var15 10 15

0

5

10

15

.2465352

.3422529

0

2

4

6

8

10

12

14

0 2 4 6 8 10 12 14

Metodo X (mg/dl)

M

eto

do

Y (

mg

/dl) r = 0.0695

regressione inversa in molti problemi, quando entrambe le variabili {x} ed {y} sono dotate di errore, si può prevedere sia y dalla conoscenza di x , sia x dalla conoscenza di y e le variabili {x} ed {y} sono correlate.

E{y|x} = α + β x = μy + bx (x - μx) E[x|y] = α' + β' x = μ x + by' (y - μy)

stimate da :E{y|x} = a + b x = ymedio + b (x - xmedio) E[x|y] = a’+ b’y = xmedio + b' (y - ymedio)

• b(x|y) è il coefficiente di regressione di x su y• b(y|x) è il coefficiente di regressione di y su x generalmente b(y|x) b(y|x)

La FORZA e il TIPO dell'ASSOCIAZIONE Il coefficiente di correlazione è positivo se la retta giace nei quadranti I e III, negativo in caso contrario. Se i punti si allineano perfettamente su una retta parallela ad uno dei due assi, il coefficiente di correlazione è indeterminato.

Variabile X

Var

iab

ile

Y

r = 0.99

X

Y

III

III IV

Variabile X

Va

ria

bil

e Y

r = 0.99

X

Y

Variabile X

Va

ria

bil

e Y

r = 0.99

X

Y

Variabile X

Va

ria

bil

e Y

r = -0.99

X

Y

La FORZA e il TIPO dell'ASSOCIAZIONE Il coefficiente di correlazione lineare è indice di quanto i punti si allineano su di una retta: vi possono essere associazioni anche forti, ma di tipo non lineare per le quali il coefficiente di correlazione è prossimo a 0.

Variabile X

Va

ria

bil

e Y

r = -0.194

X

Y

Variabile X

Va

ria

bil

e Y

r = -0.084

X

Y

Variabile X

Va

ria

bil

e Y

r = -0.158

Variabile X

Var

iab

ile

Y

r = -

X

Y

var2= .000192-.040941var1

var1-4 -2 0 2

-2

0

2

4

var1=-.000192-.040974var2

var2-2 0 2 4

-4

-2

0

2

osservazioni ricordando che la devianza spiegata dalla regressione e:

2 2 22[x,y] [x,y] [y,y] [x,y]

[y,y]=[y,y] r[x,x] [x,x] [y,y] [x,x] [y,y]

la devianza residua della regressione è : 2[x,y]

[d,d]=[y,y]- =[y,y] (1-r)[x,x]

il coefficiente di regressione b(y|x) = [x,y]/

[x,x]

definito s(x) = sqrt{ [x,x]/( n-1) }

s(y) = sqrt{ [y,y] /(n-1) }

si ha b(y|x) = r [ s(y) / s(x) ]

Analogamente b(x|y) = r s(x)/s( y)

Documents

ASSOCIAZIONE E CORRELAZIONE Quando osservo le distribuzioni di due variabili quantitative [x] ed [y] e la distribuzione congiunta, affermo che le due variabili