Upload
duongnhu
View
223
Download
0
Embed Size (px)
Citation preview
1 – Associazione tra variabili quantitative
ASSOCIAZIONE FRA CARATTERI QUANTITATIVIASSOCIAZIONE FRA CARATTERI QUANTITATIVI:
COVARIANZA E CORRELAZIONE
2 – Associazione tra variabili quantitative
Prezzo medio per Nr.
Un esempio
Albergo per
cliente (Euro)Nr.
clientiA 70 171B 100 110 C 60 192
Scatterplot dei dati (diagramma di dispersione)
C 60 192D 80 135 V 75 165F 65 225 210
230
( g p )
H 100 134 S 85 178 T 90 145AS 80 171
170
190
N. c
lient
iAS 80 171CC 110 102 FF 75 131
110
130
150N
2
9040 60 80 100 120
Prezzo
3 – Associazione tra variabili quantitative
• Si vede che i punti del diagramma si dispongono secondo una ‘nuvola allungata’ tanto da permettere di affermare che all’aumentare di una variabile (es. prezzo) l’altra variabile tende a diminuire
• ma se non si conosce a fondo il fenomeno questi dati non ci dicono se• ma se non si conosce a fondo il fenomeno, questi dati non ci dicono se c’è una relazione causa-effetto fra le due variabili. I casi potrebbero essere 2:
d d d1. i clienti tendono ad essere meno numerosi quando il prezzo è più alto e viceversa (relazione: prezzo nr. clienti);
2. quando ci sono gite di gruppi di turisti (e quindi i clienti sono più . q d c s g d g pp d s ( q d c s pnumerosi), l’albergo è disposto a fissare prezzi più bassi (relazione: nr. clienti prezzo)
4 – Associazione tra variabili quantitative
Lo scatterplot ci fa capire se esiste una associazione statisticafra due caratteri quantitativi.
Chiedersi se esiste un’associazione fra due variabili quantitative equivale achiedersi: al variare di una, anche l’altra tende a variare? (es. se una aumenta, l’altraha la tendenza ad aumentare? a diminuire?)
Quando all’aumentare di una variabile l’altra tende a diminuire si parlaQuando all aumentare di una variabile, l altra tende a diminuire si parladi associazione discordante
Q d ll’ di i bil l’ l d d iQuando all’aumentare di una variabile, l’altra tende ad aumentare siparla di associazione concordante
Quando al variare di una l’altra tende a non variare si parla di assenza diassociazione
5 – Associazione tra variabili quantitative
Quale dei due scatterplot mostra una associazione più stretta? Perché?
5
5
(b)(a)
6 – Associazione tra variabili quantitative
Risposta int iti a l’ i zi n è m i r n l r fi (b) p r héRisposta intuitiva: l’associazione è maggiore nel grafico (b) perché la nuvola è più stretta.
6(a) (b)
7 – Associazione tra variabili quantitative
di d i fi i i ? Q l i i iùE cosa dire dei grafici seguenti ? Quale mostra una associazione più stretta fra le due variabili ?
7(b)(a)
8 – Associazione tra variabili quantitative
Esiste un indice statistico che esprime il grado di associazione fra due variabili ?
SI.
P i li i di l d fi i i di i iPer capire meglio, riprendiamo la definizione di associazione:
al variare di una variabile anche l’altra tende a variare,
Ci vuole una misura di variabilità congiunta delle variabili
9 – La covarianza
Vi ricordate quale era un indice di variabilità per un variabile quantitativa ? SI’, la varianza
)xx()xx(1)xx(1)xvar(NN
2 −−=−= ∑∑ )xx()xx(N
)xx(N
)xvar( i1i
i1i
i == ∑∑==
Per misurare l’associazione fra la variabile x e la variabile y si usa la covarianza
)yy()xx(N1)x,ycov()y,xcov( i
N
i −−== ∑
9
N 1i=
10 – La covarianza
Segno della covarianza
)yy()xx()yxcov(N
= ∑1 )yy()xx(N
)y,xcov( ii
i −−= ∑=1
Se “prevalgono” gli addendi positivi il segno sarà positivo,
altrimenti negativo
10
Quadrante SW<0
)yy)(xx( ii −−<0 <0
NW NEvariabile y
yyi −
y
yyi
SW SE
x11
xxi − variabile x
NW NE
SW SEDISCORDANZA
0)yy)(xx( ii >−−NW NE0)yy)(xx( ii <−−
0)yy)(xx( ii <−−SE SW 0)yy)(xx( ii >−−
I punti si trovano in maggioranza nei quadranti NW e SE
covarianza NEGATIVA (associazione discordante )12
NW NE
SW SE CONCORDANZA
0)yy)(xx( ii <−− 0)yy)(xx( ii >−−NW NE
0)yy)(xx( ii >−−0)yy)(xx( ii <−−SE SW
I punti si trovano in maggioranza nei quadranti NE e SW
13
covarianza POSITIVA (associazione concordante)
14 – La covarianza
LA COVARIANZA
1. Assume valore 0 quando al variare di una variabile l’altra rimane costantecostante
2. Assume il massimo in valore assoluto positivo quando i punti sono2. Assume il massimo in valore assoluto positivo quando i punti sono tutti allineati su una retta crescente e negativo quando i punti sono tutti allineati su una retta decrescente
15 – La covarianza
y y
x x
x costante al y costante al
1 La covarianza assume valore 0 quando al variare di una variabile
variare di y variare di x
15
1. La covarianza assume valore 0 quando al variare di una variabile l’altra rimane costante
16 – La covarianza
2. Assume il massimo in valore assoluto positivo quando i punti sono tutti allineati su una retta crescente e negativo quando i punti sono
i lli i dtutti allineati su una retta decrescente
17 – La covarianza
Valore della covarianza quando c’è perfetta relazione lineare crescente
)y(sqm)x(sqm)yxcov( = )y(sqm)x(sqm)y,xcov( =
TUTTI i i lli iTUTTI i punti allineati su una retta crescente
17(sqm: scarto quadratico medio)
18 – La covarianza
)y(sqm)x(sqm)yxcov( =
Valore della covarianza quando c’è perfetta relazione lineare decrescente
)y(sqm)x(sqm)y,xcov( −=
TUTTI i i lli i dTUTTI i punti allineati su una retta decrescente
(sqm: scarto quadratico medio)
19 – La covarianza
L i f d i bili ò di i il l è héLa covarianza fra due variabili non può dirci se il legame è stretto o no perché il valore della covarianza dipende dall’ordine di grandezza delle variabili (e anche dalla loro unità di misura).
STATURA (in STATURA (in PESO m) cm) (Kg.)
1.60 160 601.65 165 561.70 170 721.85 185 761 78 178 681.78 178 68
Covarianza (statura in m, peso)=0,5456 metri x Kg( , p ) , g
Covarianza (statura in cm, peso)=54,56 cm x Kg
20 – Il coefficiente di correlazione
Coefficiente di correlazione: e’ dato dalla covarianza diviso il suo valore massimo
)y,xcov(dimassimovalore)y,xcov(rxy = )y,xcov(dimassimovalore
In particolare:
)y,xcov(rxy =
In particolare:
)y(sqm)x(sqmxy
variabilità congiunta di x e y
variabilità di xindipendentemente da y
variabilità di y indipendentemente da x
21 – Il coefficiente di correlazione
1r1 xy ≤≤−
22 – Il coefficiente di correlazione
•Si ricava dalla covarianza dividendola per il suo valore massimo. •E’ quindi un numero puro che varia da -1 a +1.•Ci indica la strettezza del legame lineare fra le due variabili (cioè quanto sia plausibile approssimare la nuvola dei punti con una retta)
1. Assume valore 0 quando al variare di una variabile, l’altra rimane costante2. Assume valore prossimo a 0 quando la nuvola di punti non ha una forma approssimabile da una retta (non orizzontale né verticale)3 Assume valore 1 quando i punti sono tutti allineati su una retta crescente3. Assume valore 1 quando i punti sono tutti allineati su una retta crescentee valore -1 quando i punti sono tutti allineati su una retta decrescente
4 r = r4. rxy = ryx
23 – Il coefficiente di correlazione
1. Esso assume valore 0 quando al variare di una variabile l’altra rimane costante
y y
x xx costante al variare di y y costante al variare di x
24 – Il coefficiente di correlazione
2. Esso assume valore prossimo a 0 quando la nuvola di punti non hauna forma approssimabile da una retta ----- c’è incorrelazione (assenza didipendenza lineare) che non vuol dire indipendenza. Infatti nel grafico ap ) p gdestra si evidenzia un legame quadratico tra i dati
25 – Il coefficiente di correlazione
3 E l 1 d i i i lli i3. Esso assume valore 1 quando i punti sono tutti allineati su una rettacrescente e valore -1 quando i punti sono tutti allineati su una rettadecrescente
25Coeff. Correlazione =1 Coeff. Correlazione= -1
26 – Il coefficiente di correlazione
4. rxy = ryx
y x
x yrxy = ryx = -0.6
27 – Correlazione
correlazione sul web
28 – Associazione tra variabili quantitative
2 domande:
• Quali valori del coefficiente di correlazione fanno ritenere che si sia associazione ?
• A che cosa serve sapere che è presente un’associazione fra due variabili?
29 –Associazione tra variabili quantitative
Quali valori del coefficiente di correlazione fanno ritenere che ci sia associazione ?
Ai nostri scopi :Ai nostri scopi :
1 0 7 +0 7 1-1 -0.7 +0.7 1
A i i i A i i itiAssociazione negativa (discordante)
Associazione positiva (concordante)
30 – Associazione tra variabili quantitative
A che cosa serve sapere che è presente una associazione fra due variabili ?ssoc o e due b ?
Se due variabili sono associate, conoscendo il valore di una si possono fare delle congetture abbastanza
precise sul comportamento dell’altraprecise sul comportamento dell altra
31 – Associazione tra variabili quantitative
La y tende ad yassumere valori in questoquesto
intervallo
S l l i iSe la x assume valori in questo intervallo
32 – Associazione tra variabili quantitative
Correlazione e Regressioneg
• L’obiettivo è l’analisi della dipendenza tra 2 variabili quantitative: y (variabile risposta) x (variabile esplicativa)
• Analizziamo come i valori di y tendano a variare in funzione dei diversi valori di x
• Una formula matematica può sintetizzare (in modo adeguato e non) il legame che esiste tra x e y per scopi di previsione e controllo
• La più semplice funzione è la retta che descrive una relazione lineare tra x e y:
bxay +=Esempio: Su un gruppo di pazienti viene rilevato il numero di visite per disagi mentali (crisi
d’ansia, depressione, attacchi di panico) e il numero degli eventi di particolare rilevanza (gravi
bxay +
, p , p ) g p z (ge/o felici) che hanno segnato la loro vita. Si vuole indagare se esiste un legame lineare tra disagi (risposta) ed eventi (esplicativa).
33 – Associazione tra variabili quantitative
• Si dispone dell’elenco dei dati: n coppie di modalità relative ai caratteri quantitativi X=#eventi e Y=#disagi
( ) ( ) ( ) ( )
Graficamente:
1 1 2 2( , ), ( , ), ..., ( , ), ..., ( , )i i n nx y x y x y x y
La nuvola dei punti La nuvola dei punti appare caratterizzata da appare caratterizzata da un trend lineareun trend lineareun trend lineareun trend lineare
34 – Retta di regressione
Sembra plausibile l’idea di descrivere il trend della nuvola dei punti con una retta, e approssimare la realtà con un modello matematico, ma quale retta scegliere?
35 – Retta di regressione
L d i i i i d i
La retta ai mini quadrati è
La retta dei minimi quadrati
quella che rende minima la somma dei residui al quadrato{ iy q
valori teorici
∑ ∑ −= 2)ˆ(2 yye
iyiii yye −= { iy
ˆv o eo c
parametri
)(
iyixbaiy ˆˆˆ +=
( , )ˆ ˆˆ, ( ) ( )( )
Cov X Yb a M Y bM XVar X
= = − xbyax
yxb
ˆˆ)var(),cov(ˆ
−=
=
( )
36 – Retta di regressione
Bontà di adattamento
22 )ˆvar( ryR
• il coefficiente di determinazione R2 è il quadrato del coefficiente di
)var()( r
yyR ==
correlazione
• è il raporto tra varianza spiegata e varianza totale, pertanto indica quantad ll i bili à l è i d l d llparte della variabilità totale è spiegata dal modello
• varia tra 0 (non adattamento) e 1 (perfetto adattamento della retta ai dati)
• indica se il legame lineare ipotizzato per descrivere la relazione tra X e Y èplausibile
37 – Retta di regressione
Alcuni risultatiAlcuni risultati• Nell’esempio, l’equazione della retta è
ˆ 42719422 +
• Significato di b: il numero di visite aumenta di 1.427per ogni evento importantei iù ll it d l i t Si ifi t di h 0 ti i li il
x..y 42719422 +=
in più nella vita del paziente; Significato di a: anche con 0 eventi eccezionali ilmodello suggerisce 3 sedute!!!• Previsione: qual è il numero di disagi che il modello stimato suggerisce per un
paziente che dichiara una vita segnata da 5 eventi?
• C t ll ti ti à bit d il d ll ti t i t10542719422 =+= *..y
• Controllo: quanti eventi avrà subito, secondo il modello stimato, un paziente che dichiara di aver avuto 9 disagi? 244427194229 4271
94229 .xx*.. .).( ==+= −
• L’indice R2=0.705 indica un buon adattamento della retta ai dati
38 – Retta di regressione
E i 1Esempio 1
Ad alcuni laureati è stato somministrato un questionario per verificare se coloro che hannocompletato gli studi con maggior successo hanno realmente più facilità ad inserirsi nel mondocompletato gli studi con maggior successo hanno realmente più facilità ad inserirsi nel mondodel lavoro. Dai questionari ricaviamo le informazioni riguardanti il tempo X (in mesi) trascorsodalla laurea fino alla stipula del primo contratto di lavoro ed il voto conseguito alla laurea Y.Tali dati sono riportati di seguito:Tali dati sono riportati di seguito:
Y X 66 --| 75 75 --| 90 90 --| 100 100 --| 111
0 --| 5 0 10 35 55
5 --| 15 2 15 21 40
15 --| 24 42 23 5 0
1. Determinare il grado di dipendenza lineare;2. Calcolare i coefficienti della retta di regressione, scegliendo opportunamente lag , g pp
variabile dipendente, e commentarne il significato;3. Valutare la bontà di adattamento del modello ai dati.
39 – Retta di regressione
( ) ( ) ( ) 055.65256.92657.9248
2048201,3
1
4
1
−=⋅−=⋅−⋅= ∑∑= =i j
ijji YMXMnyxN
YXCov1.
( ) ( )( ) ( )
717.0441.171038.48
055.65,, −=⋅
−=
⋅=
YVarXVarYXCovYXr
( )( ) 379.0
441.171055.65,
−=−
==YVar
YXCovb2.
( ) ( ) 665.44256.92379.0657.9 =⋅+=⋅−= YMbXMa
X=44.665-0.379Y
( )[ ] 514.0, 22 == YXrR3.
Interpretare, commentare, disegnare i dati e la retta!
40 – Retta di regressione
Esempio 2Si pensa che esista una relazione lineare tra la cifra spesa per S.Valentino ed il numero di anni di durata della relazione nella coppia. I dati seguenti sono riferiti a 9 coppie di innamorati
Esempio 2
innamorati
Durata rapporto4 15 8 6 5 2 1 14 22
Durata rapporto (anni)
4 15 8 6 5 2 1 14 22
Cifra spesa per S. Valentino
(i i li i di )0.23 0.03 0.08 0.15 0.12 1.2 1.5 0.028 0.85
1 Utili i di t f h i t di d t i d tt i
(in migliaia di euro)
1. Utilizzare un indice opportuno per confermare che esiste discordanza tra i due caratteri;2. Determinare i parametri della retta di regressione assumendo come variabile dipendente la
cifra spesa;3 Secondo il modello del punto 1 a quanto ammonterà la spesa di una coppia nel critico3. Secondo il modello del punto 1, a quanto ammonterà la spesa di una coppia nel critico
settimo anno di relazione? 4. Valutare la bontà di adattamento della retta ai dati.
41 – Retta di regressione
U ’ di l li
TotX 4 15 8 6 5 2 1 14 2 57
Un po’ di calcoli
X 4 15 8 6 5 2 1 14 2 57Y 0.23 0.03 0.08 0.15 0.12 1.2 1.5 0.028 0.85 4.188
X·Y 0.92 0.45 0.64 0.9 0.6 2.4 1.5 0.392 1.7 9.502X2 16 225 64 36 25 4 1 196 4 571Y2 0.0529 0.0009 0.0064 0.0225 0.0144 1.44 2.25 0.00078 0.7225 4.51
( ) 33.6571 9=== ∑ ixXM ( ) 465.0188.41 9
=== ∑ iyYM ( ) ( ) 33.2333.65711 29
22 =−=−= ∑ i XMxXVar1 ( )99 1
∑=i
i ( )99 1
∑=i
iy ( ) ( )99 1
∑=i
i
( ) ( ) 284.0465.09510.4
91 2
9
1
22 =−=−= ∑=i
i YMyYVar ( ) ( ) ( ) 89.1465.033.69502.9
91,
9
1−=⋅−=⋅−⋅= ∑
=YMXMyxYXCov
iii
1.
( )( ) 081.0
33.2389.1,
−=−
==XVar
YXCovb ( ) ( ) 979.033.6081.0465.0 =⋅+=−= XbMYMa Y=0.979-0.081X
412.07081.0979.0 =⋅−=y
2.
3.
( ) ( )( ) ( )
734.0284.033.23
89.1., −=⋅
−=
⋅=
YVarXVarYXCovYXr ( )[ ] 539.0, 22 == YXrR4.