Upload
romana-pesce
View
215
Download
0
Embed Size (px)
Citation preview
ASSOCIAZIONE E CORRELAZIONE
Quando osservo le distribuzioni di due variabili quantitative [x] ed [y] e la distribuzione congiunta, affermo che le due variabili sono associate se esiste un legame funzionale tra le variabili: mi attendo che i valori medi delle variabili, espresse in un medesimo soggetto, varino in modo concorde.
studio la relazione tra indice di affollamento delle città e la mortalità infantile.
Studio la relazione peso e altezza di individui di una popolazione;
Studio le variabili di un censimento di una popolazione.
per esempio …
Il tasso di mortalità infantile (morti nel primo anno di vita) su 10.000 nati vivi «decresce quando il numero di abitanti/stanza (indice di affollamento) decresce» In altri termini «la mortalità infantile cresce con l'indice di affollamento».Come concludo ? Esiste …
a) relazione di causa effetto.b) associazione (generica).c) correlazione (mutua influenza).
Variabile descrizione State State medage Median ageRegion Census region
[Ne Nc South West]
death Number of deaths
Pop Population marriage Number of marriages
Poplt5 Pop, < 5 year divorce Number of divorcespop5_17 Pop, 5 to 17
yearspcturban % urban population
Pop18p Pop, 18 and older drate Death RatePop65p Pop, 65 and older medages
qMedian age squared
popurban Urban population
1980 Census data by state
Esempio: uno studio di popolazione
. regress l_death l_divorce Source | SS df MS Number of obs = 50-------------+----------------------------- F(1,48)= 276.77 Model | 9.53072756 1 9.53072756 Prob > F = 0.0000 Residual | 1.65291656 48 .034435762 R-squared = 0.8522-------------+------------------------ Adj R-squared=0.8491 Total | 11.1836441 49 .228237635 Root MSE = .18557
----------------------------------------------------------------- l_death | Coef. Std.Err. t P>|t| [95% Conf. Interval]---------+-------------------------------------------------------l_divorce| 1.019959 .06131 16.64 0.000 .8966892 1.143229 _cons | .1082678 .25746 0.42 0.676 -.4093902 .6259257-------------------------------------------------------------------------
Regressione di log10(death) su log10(divorce)
Log(death)= 0.25 + 1.02*log(divorce)
Regressione di log10(death) su log10(divorce)l_death= 0.25 + 1.02 l_divorce
l_divorce3 3.5 4 4.5 5 5.5
3
3.5
4
4.5
5
5.5
LOG10(divorzi)
LOG
10(d
ece
ssi)
relazione causa-effetto | associazione
Tra due o più variabili quantitative rolevate nel medesimo soggetto possono esistere tre tipi di relazione:
1. relazione tra causa ed effetto (criteri di Bradford Hill).2. associazione statistica (generica)3. correlazione (mutua influenza).
(due variabili vengono dette associate quando la distribuzione dell'una influenza la distribuzione dell'altra).
I cinque criteri di causalità che derivano dalla proposta dello statistico inglese Sir Austin Bradford Hill (1965) ed elaborati in un ampio studio riguardante l'effetto del fumo nell'uomo
nota bene: l'associazione statistica non implica l'esistenza di una relazione di causa effetto.
È stato osservata una forte associazione tra il numero di
divorzi e la quantità di tabacco importata in Inghilterra
negli anni 50'.
Da questa osservazione si potrebbe indurre
che: “il tabacco è causa di discordia familiare” ovvero
che “coloro che divorziano di consolano fumando”.
Più semplicemente si deve concludere che
tra tabacco e numero di divorzi esiste una relazione in
quanto entrambe dipendono dallo sviluppo economico.
terminologia della regressione lineare
Data una coppia di variabili casuali quantitative {x} e {y}.
Siano noti.
il diagramma di dispersione {x,y}.
La media, la deviazione standard di {x} ed {y} e la covarianza.
Siano di interesse.
La previsione del valore di {y} , noto il valore di {x}.
La previsione del valore di {x} , noto il valore di {y}.
L’errore di previsione del valore di {y}, noto il valore di {x}.
L'errore di previsione del valore di {x}, noto il valore di {y}.
l'attesa condizionale
t
ylr yl
-3 -2 -1 0 .5 1 1.5 2 2.5 3
0
.2
.4
.6
.8
1
I punti sperimentali che suggeriscono le due relazioni
I punti osservati [coppie (xi,yi) per i=1,n] in esperimento di verifica della relazione teorica non giacciono usualmente sulla curva, ed oscillano in modo diverso per ogni fissato valore di xi.
t
tr t
-3 -2 -1 0 1 2 3
-3
-2
-1
0
1
2
3
4
relazione linearerelazione non lineare
a) uguale variabilità dei valori yi nei disti valori di xi, omoscedasticità
b) variabilità non uniforme dei valori yi nei distinti valori di xi , eteroscedasticità
Modello di regressione ad effetti fissi
Il primo contesto (gli effetti fissi) ipotizza che la variabile indipendente {x} sia osservata senza errore: ad esempio, il numero di ore lavorate, il tempo passato a studiare, i mesi trascorsi dopo una operazione.
In questo caso si può affermare che {y|x} sia distribuita nello stesso modo di {y} e che il valore atteso di E{y|x} sia funzione di parametri da determinare con i metodi qui descritti.
2 2
{y | x} x 23,1- 0,51 x
{y | x} x x 23,1- 0,51 x 0, 014 x
{y | x} a exp(- x )
Esempi:
Per semplicità scegliamo una relazione lineare
La scelta di una relazione lineare semplifica enormemente i calcoli è molto rilevante scientificamente presuppone una relazione presuppone una varianza costante (omoscedaticità)
Il modello matematico lineare vale molte volte come prima approssimazione di fenomeni con andamento "curvilineo"
Abbreviazioni usate nella lezione
Σxi Somma dei valori di {x} ΣxΣyi Somma dei valori di {y} ΣyΣxi
2 Somma dei quadrati dei valori di x ΣxxΣyi
2 Somma dei quadrati dei valori di y ΣyyΣxiyi Somma dei prodotti dei valori di x ed yΣxy[x,x] devianza della variabile {x}. Σxx- (Σx)(Σx)/n[y,y] devianza della variabile {y}. Σyy- (Σy)(Σy)/n[x,y] codevianza delle variabili {x} ed {y}. Σxy- (Σx)(Σy)/n
[,] devianza residua intorno alla regressione.
[y,y] – b·[x,x]
modello ad effetti fissi Un campione estratto da una popolazione di coppie {y,x}
di valori si può immaginare come un esperimento in cui si sono realizzate n coppie di osservazioni.
{y1 ,x1 } { y2 ,x2 } {yN ,xN }.
dove {x1,x2,xN} sono valori prefissati e quindi rilevati senza errore casuale e {y1,y2,. . .,yN} sono valori costituiti da una parte deterministica e da una parte casuale.
yi = α + β xi + εi.
Varianza intorno alla regressione
Il modello ad effetti fissi richiede la stima della sola distribuzione di {y|x} e la stima del valore dei parametri di regressione {α,β}. Questa si ottiene dal metodo dei minimi quadrati
2 2i
2i i
var ianza di ... ~ N (0, )
y ~ N ([ + x ], )
La parte casuale sia distribuita in modo gaussiano N(0,σ2) indipenden-temente dalla variabile {x}, campionata senza errore.
Allora possiamo affermare che {yi} = [yi|xi] è distribuita identicamente con la stessa
metodo dei minimi
quadrati
Soluzione: traccia la retta per la quale la somma delle distanze dei punti osservati dalla retta è minima.
2N
i i1(y - ) y
2N
i i1(y -[ x ]) =f( , )
Tale luogo è il minimo della funzione f(a, b) si ottiene cercando i valori più opportuni di a e di b. Calcoli semplici mostreranno che α e β possono essere stimati da
ˆa = y - b x
N
i i1N
i i1
[(y - y) (x - x)] CODEVIANZAˆ b DEVIANZA [(x - x) (x - x)]
drate=-.008097+.00056medage
Median age25.00 30.00 35.00
0
.005
.01
.015
Un problema classico della matematica propone di tracciare la retta interpolante i punti che sembrano allinearsi intorno ad una retta?
Codevianza e covarianza
In analogia con quanto visto per la varianza cam-pionaria, si definisce un indice detto covarianza dato dal rapporto tra codevianza e numerosità (n) del campione diminuita di un'unità
Tale somma è positiva se le coppie di scarti concordi
(+,+ o -,-) prevalgono su quelle di scarti discordi, negativa in caso contrario, e nulla se coppie concordi e discordi si
equivalgono.
( )( )XY i iC x x y y i i
XY i i
x yC x y
n
( )( )
( 1)i i
XY
x x y ys
n
( 1)XY
XY
Cs
n
La somma dei prodotti degli scarti prende il nome di codevianza
=[x,y]
indici di covariazione:
Il rapporto tra la covarianza e il prodotto delle deviazioni standard (sx e sy) delle variabili x e y è detto coefficiente di correlazione lineare:
Il coefficiente di correlazione lineare può assumere valori compresi tra -1 e +1.
xyxy x y
x y
C [x,y]r s s s
D D [x,x] [y,y]
metodo dei minimi quadratiLEMMA: La media aritmetica è il valore che rende minimo la somma degli scarti quadratici di un insieme di punti da un singolo punto.
2N
i1(y - )z yz
2 2N N
i i1 1(y - ) (y - y) z
2N
i1(y -y y- )z
2N
i1[(y -y) (y- )]z
N 2 2i i1
[(y -y) 2(y -y)(y- ) (y- ) ]z z N 2 2
i i1 i=1 1(y -y) 2 (y -y)(y- ) (y- )
N N
iz z
N N N2 2i i1 i=1 i=1
2
[(y -y) + 2(y- z) (y -y)+ (y- z)
devianza nullo termine 0
n×(y- z)
yz
è minima per
La somma
Per assurdo ipotizzo che esista uno z per cui
cvd
Dimostrazione:
metodo dei minimi quadrati2 2N N
i i i i1 1(y - ) (y -[ x ]) =f( , ) y
pensando si conoscere β ottengo che f(a, β) è minima riordinando i termini: N 2
i i1( [y - x ] - ) =f( , )
i
N N N
i i i ii=1 i=1 i=1
1 1 1a= [y -βx ] = y - βx = y - β x
N N N
ovvero a è la media della variabile
i iy - x
i iy=y- (x x) è forma alternativa della retta di regressione che mette in evidenza come la retta di regressione passi per il baricentro della nuvola di punti
(y,x)
i i(y ,x )
La relazione
trovata la stima di , occorre stimare , sfruttando il risultato precedente, la somma delle distanze quadratiche tra retta e punti
= minima>zero
2N N2
i i i i1 1
(y - ) (y - y - b[x - x]) f(a,b) yN
2 2 2i i i i
1
{(y -y) -2b(y -y)(x - x) b (x - x) } 2= [yy]- 2b [x,y] + b [xx]
2 22[x,y] [x,y]
[y,y] 2b[x,y] b [x,x][x,x] [x,x]
2 2[x,y] [x,y][y,y] [x,x] b-
[x,x] [x,x]
N
i i12N
i1
(y - y) (x - x)[x,y]ˆ b [x,x] (x - x)
da cui
sommo e sottraggo la stessa quantità
simboli abbreviatiΣxi Somma dei valori di {x} ΣxΣyi Somma dei valori di {y} ΣyΣxi
2 Somma dei quadrati dei valori di x ΣxxΣyi
2 Somma dei quadrati dei valori di y ΣyyΣxiyi Somma dei prodotti dei valori di x ed yΣxy[x,x] devianza della variabile {x}. Σxx- (Σx)(Σx)/n[y,y] devianza della variabile {y}. Σyy- (Σy)(Σy)/n[x,y] codevianza delle variabili {x} ed {y}. Σxy- (Σx)(Σy)/n
[, ] devianza residua intorno alla regressione.
[y,y] – b·[x,x]
[ , ] [y,y] 2 [x,y][x,x] { b- }
[x,x]
2[x,y][x,x]= + -
residua totale
nulla spiegata
errore campionario di regressione
N
i i1(y -y) (x -x)ˆvar(b) var( )
[xx]
i i i i i(y - y)(x - x) y (x - x) - y (x - x)
i i y (x -x)ˆvar(b) var( )[xx]
N2
i i21
1 (x -x) var(y )
[xx]
N2 2
i RES21
1 (x - x)
[xx]
2RESˆvar(b)
dev(x)
Sia σ2RES è la varianza
residua
osservo che
quando parlo di effetti fissi, {xi} non hanno varianza.
Dato che le yi sono omoscedastiche var(yi) = σ2
RES
e semplificando
2RESˆs.e(b)
dev(x)
da cui
calcolo
2RES
Devianza residuaN-2
N
i i1(x -x) y
var( )[x,x]
varianza campionaria di una regressione
la varianza di a si calcola tramite la sua stima
ˆ ˆˆvar(a)=var(y-bx)=var(y)+var(bx)
2 2 22 2RES RES
RES
1 xx
n dev(x) n dev(x)
2 ˆ=var(y)+x var(b)
ERRORE CAMPIONARIO DI UNA REGRESSIONE
sostituisco a σ2 la sua stima 2
2RESdevianza
sn
2 2res res
2i
ˆe.s.(b) = =dev(x)(x -x)
2 2 2 2res res
res2 2i i
x 1 xe.s.(a) = + = +
n n(x -x) (x -x)
con n-2 g.d.l.
il test t-student per b sarà
il test t-student pera sarà
n 2,1 / 2
b 0t
e.s.(b)
n 2,1 / 2
a 0t
e.s.(a)
Esempiol_death= 0.25 + 1.02 l_divorce
l_divorce3 3.5 4 4.5 5 5.5
3
3.5
4
4.5
5
5.5
LOG10(divorzi)
LOG
10(d
ece
ssi)
LIMITI DI CONFIDENZA DELLA RETTA
0 0 0E[y(x )] a b x y b (x - x )
dato un valore x0 , la stima migliore del valore medio di y0 dato x sarà:
0ˆvarianza di (y) = var (y) + (x - x) var(b)2
20(x -x)1={ + }
n [x,x]
220
res(x - x )1
{ + }sn [x,x]
La cui stima
20
0 (1- /2),n-2 res(x -x)1
y t s + n [xx]
che generano due iperboli intorno alla retta con un punto di massimo avvicinamento alla retta in corrispondenza del baricentro della nuvola di punti originari.
i limiti di confidenza a livello (1-α) sono
predizione di un valore singolo [xi ,yi]
Dato yi = a + b xi , alle oscillazioni casuali della retta si
deve aggiungere l'errore individuale i iˆˆ ˆy = y + e
i
22i
ˆˆvar(y )=var(y)+var(e)
(x -x)1={ + +1}σ
n [ , ]x x
alle iperboli di confidenza si aggiunge una quantità in più ed in meno, in modo tale da amplificare la regione di incertezza.
Esempio
peso alla nascita ed aumento di peso (% del peso iniziale) di 32 neonati nei primi 70 giorni di vita.
item
peso (oz)
aumentoitem
peso (oz)
aumentoitem
peso (oz)
aumento
1 72 68 12 118 42 23 142 532 112 63 13 128 48 24 132 503 111 66 14 128 50 25 87 1114 107 72 15 123 69 26 123 595 119 52 16 116 59 27 133 766 92 75 17 125 27 28 106 727 126 76 18 126 60 29 103 908 80 118 19 122 71 30 118 689 81 120 20 126 88 31 114 93
10 84 114 21 127 63 32 94 9111 115 29 22 86 88
n = 32 Sxx= 409880Sx =3676 Syy= 179761Sy =2281 Sxy= 264032[x,x]=409880 - (3676)2 / 32 =10.262,00[y,y]= 179761 - (2281) 2 / 32 = 17 168,47[y,y]=264032 - (3676) (2 281) / 32= -8 869,75
1 oncia= 28.349 grammi
Regressione di y su x
by|x = (-8 869,75) / (10 262,00) = -0,8643
y = 71,28 - 0,8643 ( x - 111,75) retta
[d,d] = (17 168,47)- [(-8 869,75) 2]/(10262,00)= 9502,08 dev.res.
s2RES = (9502,08)/(32-2) = 316,74
var.res.
var(by|x) = (316,74) / (10 262,00) = 0,030865
es (by|x)= sqrt(0,030865)=0,1757
ty|x = (0,8643)/(0,1757) = -4,92 con 30 gdl (p<0,001)
Regressione di y su x
bx|y = -8 869,75/17 168,47 = -0,5166
x = 111,75 - 0,5166 ( y - 71,28) retta di regressione r =( -0,8643 )( -0,5166 ) = 0,668 intervallo di confidenza nel punto x=90
21 (90 - 71,28)var( y[90] ) = 316,74 { + } = 25,08
32 10.262
y(90) = 71,28 - 0,8643 (90 - 111,75) = 90,08
t(0,975;30) = 2.042
C.I.[y(90)] = [90,08+(2,042)(5,016); 90,08+(2,042)(5,016)] =
[79,84;100,32 ]
gain_100= 167.87-.86433b_weight
_R
esi
d
weight at birth in oz60 80 100 120 140
-40
-20
0
20
40
gain_100= 167.87-.86433b_weight
weight at birth in oz60 80 100 120 140
0
50
100
150
regress gain_100 b_weight Source | SS df MS Number of obs = 32---------+------------------------------ F( 1, 30) = 24.20 Model | 7666.38716 1 7666.38716 Prob > F = 0.0000Residual | 9502.08159 30 316.736053 R-squared = 0.4465---------+------------------------------ Adj R-squared = 0.4281 Total | 17168.4688 31 553.821573 Root MSE = 17.797----------------------------------------------------------------------gain_100 | Coef. Std. Err. t P>|t| [95% Conf.Interval]---------+-----------------------------------------------------------b_weight | -.8643296 .1756842 -4.920 0.000 -1.223125 -.5055345 _cons | 167.8701 19.88319 8.443 0.000 127.2632 208.477----------------------------------------------------------------------
la correlazionequando esiste una associazione tra due variabili {x} ed {y} continue ed entrambe casuali , si suole definire un indice che misura il grado di interdipendenza : coefficiente di correlazione
r = oscilla in { -1 e +1}r = +1 correlazione massima concorder= 0 correlazione assente r = -1 correlazione massima discorder > 0 correlazione presente : al crescere di x cresce yr < 0 correlazione presente : al crescere di x decresce y
nota bene : quando {y} è costante => r = indefinito
quando {x} è costante => r = indefinito
[x,y]
[x,x] [y,y]r
[y|x] [x|y]
[x,y][x,y] r = b *b =
[x,x] [y,y]
COME APPARE LA CORRELAZIONE: gli esempi qui riportati si riferiscono alla correlazione tra i valori di uricemia rilevati, in differenti condizioni, con due metodi di misura (X e Y) su un campione di 100 soggetti anziani.
0
2
4
6
8
10
12
14
0 2 4 6 8 10 12 14
Metodo X (mg/dl)
Me
tod
o Y
(m
g/d
l) r = 0.861
0
2
4
6
8
10
12
14
0 2 4 6 8 10 12 14
Metodo X (mg/dl)
M
eto
do
Y (
mg
/dl) r = 0.0695
0
2
4
6
8
10
12
14
0 2 4 6 8 10 12 14
Metodo X (mg/dl)
Me
tod
o Y
(m
g/d
l) r = 0.661
0
2
4
6
8
10
12
14
0 2 4 6 8 10 12 14
Metodo X (mg/dl)
M
eto
do
Y (
mg
/dl) r = 0.290
var1= 6.02381+.246535var2
var20 5 10 15
0
5
10
15
var2= 5.148+.342253var1
var15 10 15
0
5
10
15
.2465352
.3422529
0
2
4
6
8
10
12
14
0 2 4 6 8 10 12 14
Metodo X (mg/dl)
M
eto
do
Y (
mg
/dl) r = 0.0695
regressione inversa in molti problemi, quando entrambe le variabili {x} ed {y} sono dotate di errore, si può prevedere sia y dalla conoscenza di x , sia x dalla conoscenza di y e le variabili {x} ed {y} sono correlate.
E{y|x} = α + β x = μy + bx (x - μx) E[x|y] = α' + β' x = μ x + by' (y - μy)
stimate da :E{y|x} = a + b x = ymedio + b (x - xmedio) E[x|y] = a’+ b’y = xmedio + b' (y - ymedio)
• b(x|y) è il coefficiente di regressione di x su y• b(y|x) è il coefficiente di regressione di y su x generalmente b(y|x) b(y|x)
La FORZA e il TIPO dell'ASSOCIAZIONE Il coefficiente di correlazione è positivo se la retta giace nei quadranti I e III, negativo in caso contrario. Se i punti si allineano perfettamente su una retta parallela ad uno dei due assi, il coefficiente di correlazione è indeterminato.
Variabile X
Var
iab
ile
Y
r = 0.99
X
Y
III
III IV
Variabile X
Va
ria
bil
e Y
r = 0.99
X
Y
Variabile X
Va
ria
bil
e Y
r = 0.99
X
Y
Variabile X
Va
ria
bil
e Y
r = -0.99
X
Y
La FORZA e il TIPO dell'ASSOCIAZIONE Il coefficiente di correlazione lineare è indice di quanto i punti si allineano su di una retta: vi possono essere associazioni anche forti, ma di tipo non lineare per le quali il coefficiente di correlazione è prossimo a 0.
Variabile X
Va
ria
bil
e Y
r = -0.194
X
Y
Variabile X
Va
ria
bil
e Y
r = -0.084
X
Y
Variabile X
Va
ria
bil
e Y
r = -0.158
Variabile X
Var
iab
ile
Y
r = -
X
Y
var2= .000192-.040941var1
var1-4 -2 0 2
-2
0
2
4
var1=-.000192-.040974var2
var2-2 0 2 4
-4
-2
0
2
osservazioni ricordando che la devianza spiegata dalla regressione e:
2 2 22[x,y] [x,y] [y,y] [x,y]
[y,y]=[y,y] r[x,x] [x,x] [y,y] [x,x] [y,y]
la devianza residua della regressione è : 2[x,y]
[d,d]=[y,y]- =[y,y] (1-r)[x,x]
il coefficiente di regressione b(y|x) = [x,y]/
[x,x]
definito s(x) = sqrt{ [x,x]/( n-1) }
s(y) = sqrt{ [y,y] /(n-1) }
si ha b(y|x) = r [ s(y) / s(x) ]
Analogamente b(x|y) = r s(x)/s( y)