RELAZIONI TRA 2 FENOMENI QUANTITATIVI STATISTICA A – K (60 ore) Marco Riani mriani@unipr.it

Preview:

Citation preview

RELAZIONI TRA 2 RELAZIONI TRA 2 FENOMENI QUANTITATIVIFENOMENI QUANTITATIVI

STATISTICA A – K (60 ore) STATISTICA A – K (60 ore)

Marco RianiMarco Riani

mriani@unipr.it

http://www.riani.it

RELAZIONI TRA 2 FENOMENI RELAZIONI TRA 2 FENOMENI QUANTITATIVIQUANTITATIVI

• Vi è una relazione tra le variabili oggetto di studio?

• Di quanto variano i valori d’una variabile quando cambiano i valori dell’altra?

• CORRELAZIONE

• REGRESSIONE

X = NUMERO DI DIPENDENTIX = NUMERO DI DIPENDENTIY = FATTURATO (in milioni di euro)Y = FATTURATO (in milioni di euro)

Supermercato xi yi

A 10 1,9

B 18 3,1

C 20 3,2

D 8 1,5

E 30 6,2

F 12 2,8

G 14 2,3

Tot. 112 21,0

M(X) = 16M(Y) = 3,0

DIAGRAMMA DI DISPERSIONE (SCATTER)DIAGRAMMA DI DISPERSIONE (SCATTER)

0

1

2

3

4

5

6

7

0 5 10 15 20 25 30 35

numero di dipendenti

fatt

ura

to

III

IIIIV

M(X) = 16

M(Y) = 3,0

G (14 2,3)

E (30 6,2)

DIAGRAMMA DI DISPERSIONE (SCATTER)DIAGRAMMA DI DISPERSIONE (SCATTER)

0

1

2

3

4

5

6

7

0 5 10 15 20 25 30 35

numero di dipendenti

fatt

ura

to

III

IIIIV

• Punti in I e III relazione diretta

• Punti in II e IV relazione inversa

• Punti si distribuiscono casualmente in tutti i quadranti all’incirca nella stessa proporzione nessuna relazione lineare tra le due variabili

• I quadranti in cui compare la maggioranza dei punti indicano il tipo di relazione

• L’osservazione della “nuvola” di punti nel diagramma di dispersione fornisce una prima idea sulla relazione eventualmente esistente tra i due fenomeni.

X = NUMERO DI DIPENDENTIX = NUMERO DI DIPENDENTIY = FATTURATO (in milioni di euro)Y = FATTURATO (in milioni di euro)

Supermercato xi yi (xi – Mx) (yi – My)

A 10 1,9 - 6 - 1,1

B 18 3,1 + 2 + 0,1

C 20 3,2 + 4 + 0,2

D 8 1,5 - 8 - 1,5

E 30 6,2 + 14 + 3,2

F 12 2,8 - 4 - 0,2

G 14 2,3 - 2 - 0,7

Tot. 112 21,0 0 0

M(X) = 16M(Y) = 3,0

COVARIANZACOVARIANZA

• = MEDIA ARITMETICA DEI PRODOTTI DEGLI SCOSTAMENTI

• COV(X,Y) >0 RELAZIONE DIRETTA• COV(X,Y) <0 RELAZIONE INVERSA• COV(X,Y) =0 X, Y INCORRELATE

n

iyixi MyMx

nYXCOV

1))((

1),(

X = NUMERO DI DIPENDENTIX = NUMERO DI DIPENDENTIY = FATTURATO (in milioni di euro)Y = FATTURATO (in milioni di euro)

Supermercato xi yi (xi – Mx) (yi – My) (xi-Mx)(yi-My)

A 10 1,9 - 6 - 1,1 6,6

B 18 3,1 + 2 + 0,1 0,2

C 20 3,2 + 4 + 0,2 0,8

D 8 1,5 - 8 - 1,5 12

E 30 6,2 + 14 + 3,2 44,8

F 12 2,8 - 4 - 0,2 0,8

G 14 2,3 - 2 - 0,7 1,4

Tot. 112 21,0 0 0 66,6

M(X) = 16M(Y) = 3,0

COV(X,Y)=66,6/7=9,514

n

iyixi MyMx

nYXCOV

1))((

1),(

Osservazione: per ottenere la covarianza è sufficiente Osservazione: per ottenere la covarianza è sufficiente calcolare solo gli scostamenti di una variabile, calcolare solo gli scostamenti di una variabile,

moltiplicandoli per i valori dell'altra variabile (p. 153)moltiplicandoli per i valori dell'altra variabile (p. 153)

X = NUMERO DI DIPENDENTIX = NUMERO DI DIPENDENTIY = FATTURATO (in milioni di euro)Y = FATTURATO (in milioni di euro)

Supermercato

xi yi (xi – Mx) (yi – My) (xi-Mx)

(yi-My)

(xi-Mx) yi (yi – My) xi

A 10 1,9 - 6 - 1,1 6,6 -11,4 -11B 18 3,1 + 2 + 0,1 0,2 6,2 1,8C 20 3,2 + 4 + 0,2 0,8 12,8 4D 8 1,5 - 8 - 1,5 12 -12 -12E 30 6,2 + 14 + 3,2 44,8 86,8 96F 12 2,8 - 4 - 0,2 0,8 -11,2 -2,4G 14 2,3 - 2 - 0,7 1,4 -4,6 -9,8

Tot. 112 21 0 0 66,6 66,6 66,6M(X) = 16M(Y) = 3,0

COV(X,Y)=66,6/7=9,514

Osservazione: può essere ottenuta anche in funzione Osservazione: può essere ottenuta anche in funzione dei dati originari (p.154)dei dati originari (p.154)

Supermercato

xi yi xiyi

A 10 1,9 19B 18 3,1 55,8C 20 3,2 64D 8 1,5 12E 30 6,2 186F 12 2,8 33,6G 14 2,3 32,2

Tot. 112 21 402,6

COV(X,Y) = 402,6/7-16*3=9,514

M(X) = 16M(Y) = 3,0

Proprietà della covarianzaProprietà della covarianza

• E’ ESPRESSA NEL PRODOTTO DELLE UNITA’ DI MISURA DI X E DI Y

• COV(X,X)=VAR(X)

• E’ scale equivariant

Proprietà della covarianzaProprietà della covarianza

Proprietà della covarianzaProprietà della covarianza

• max | COV (X, Y) | =

= [VAR(X) VAR(Y)]1/2=

= σ(X) σ(Y)

DimostrazioneDimostrazione

• var(tX-Y)>0• t2 var(X) -2t cov(X,Y) + var(Y) >0• h(t) è una funzione quadratica in t. Se

h(t)>0 le radici non sono reali• Δ<0 implica che• 4 [cov(X,Y)]2 -4 var(X) var(Y) <0• [cov(X,Y)]2 < var(X) var(Y) • |cov(X,Y)| < σ(X) σ(Y)

Come ovviare ai difetti della COV?Come ovviare ai difetti della COV?

• La covarianza ha il difetto di risentire dell'unità di misura e dell'ordine di grandezza dei due fenomeni originari essendo espressa in termini del prodotto delle unità di misura di X e Y

• I valori che essa può assumere non sono compresi in un intervallo di interpretazione immediata,

RICHIAMO SCOSTAMENTI RICHIAMO SCOSTAMENTI STANDARDIZZATISTANDARDIZZATI

(p. 125)(p. 125)

• Proprietà:• Mz = 0z = 1• puri numeri confronto tra fenomeni

diversi

Mx

z ii

COEFFICIENTE DI COEFFICIENTE DI CORRELAZIONE CORRELAZIONE rrxyxy

• (media dei prodotti degli scostamenti standardizzati è un numero puro)

n

i y

yi

x

xixy

MyMx

nr

1

)()(1

SCOSTAMENTI STANDARDIZZATISCOSTAMENTI STANDARDIZZATI

Supermercato

xi yi (xi – Mx)/σx (yi – My)/σy (xi – Mx) (yi –

My)/(σx σy)

A 10 1,9 -0,87 -0,77 0,67B 18 3,1 0,29 0,07 0,02C 20 3,2 0,58 0,14 0,08D 8 1,5 -1,15 -1,05 1,21E 30 6,2 2,02 2,24 4,53F 12 2,8 -0,58 -0,14 0,08G 14 2,3 -0,29 -0,49 0,14

Tot. 112 21,0 0 0 6,73

• rxy=6,73/7=0,961

n

i y

yi

x

xixy

MyMx

nr

1

)()(1

Supermercato

xi yi (xi – Mx) (yi –

My)/σx σy

A 10 1,9 0,67B 18 3,1 0,02C 20 3,2 0,08D 8 1,5 1,21E 30 6,2 4,53F 12 2,8 0,08G 14 2,3 0,14

Tot. 112 21,0 6,73

Formule di calcolo alternative (p. 157)Formule di calcolo alternative (p. 157)

)()(

),(

YX

YXCOVrxy

n

i y

yi

x

xixy

MyMx

nr

1

)()(1

)()(

),(

YVARXVAR

YXCOVrxy

Formule di calcolo alternative:Formule di calcolo alternative:

2/1

1 1

22

1

)()(1

))((1

)()(

),(

n

i

n

iyixi

n

iyixi

xy

MyMxn

MyMxn

YVARXVAR

YXCOVr

Interpretazione di rInterpretazione di r

• rxy = -1 perfetta relazione lineare inversa tra X ed Y (cioè quando yi = a + bxi, con b < 0 e a numero qualsiasi)

• rxy = 0 X ed Y sono incorrelate(non vi è tra loro un legame lineare; non si

esclude però l’eventuale esistenza d’una relazione non lineare, ad esempio parabolica o sinusoidale)

rxy = +1 perfetta relazione lineare diretta tra X ed Y (cioè quando yi = a + bxi, con b > 0 e a numero qualsiasi)

Punti in situazioni estreme e Punti in situazioni estreme e rrxyxy

Esemplificazione di dati con diverso valore Esemplificazione di dati con diverso valore del coefficiente di correlazione lineare del coefficiente di correlazione lineare

|r|rxyxy |= 1 se e solo c’è |= 1 se e solo c’è perfetta perfetta

relazione lineare relazione lineare tra tra X X ed ed YY• Se Y = a+|b| X

)()(

),(

YX

YXCOVrxy

)||()(

)||,(, XbaX

XbaXCOVr bxax

)()(||

),(||, XXb

XXCOVbr bxax

1)(||

)(||, XVARb

XVARbr bxax

EsempioEsempio:: 7 supermercati 7 supermercatiSuper-mercat

o

(xi – Mx) (yi – My) (xi-Mx)*

(yi-My)

(xi-Mx)2 (yi-My)

2

A - 6 - 1,1 6,6 36 1,21

B + 2 + 0,1 0,2 4 0,01

C + 4 + 0,2 0,8 16 0,04

D - 8 - 1,5 12 64 2,25

E + 14 + 3,2 44,8 196 10,24

F - 4 - 0,2 0,8 16 0,04

G - 2 - 0,7 1,4 4 0,49

Tot. 0 0 66,6 336 14,28

COV(X,Y) = 66,6/7=9,514

VAR(X) = 336/7 = 48 VAR(Y) = 14,28/7=2,04

895,9040,248 Y)COV(X,max

961,0895,9

514,9

)var()var(

),cov(

YX

YXrxy

EsempioEsempio:: 7 supermercati (continua) 7 supermercati (continua)Super-

mercato(xi-Mx)(yi-My) (xi-Mx)

2 (yi-My)2

A 6,6 36 1,21

B 0,2 4 0,01

C 0,8 16 0,04

D 12 64 2,25

E 44,8 196 10,24

F 0,8 16 0,04

G 1,4 4 0,49

Tot. 66,6 336 14,28

COV(X,Y) = 66,6/7=9,514

VAR(X) = 336/7 = 48 VAR(Y) = 14,28/7=2,04

895,9040,248 Y)COV(X,max

961,0895,9

514,9

28,14336

6,66

xyr

Caratteristiche di rCaratteristiche di r

• Dato che rxy = ryx, il coefficiente di correlazione è una misura simmetrica in X ed Y interdipendenza tra le due variabili.

• In esso non si assume una variabile come antecedente e l’altra come conseguente, ma si valuta semplicemente il legame vicendevole tra X ed Y.

Proprietà di Proprietà di rrxy xy (p. 160)(p. 160)

• è invariante in senso forte (cioè presenta lo stesso valore numerico) per trasformazioni lineari crescenti di una o di entrambe le variabili

Proprietà di Proprietà di rrxyxy

• Proprietà di invarianza per trasformazioni lineari: il coefficiente di correlazione lineare rimane invariato effettuando una trasformazione lineare crescente di una o di entrambe le variabili.

se si cambia l’origine del sistema di misurazione e/o l’unità di misura in cui sono espresse le variabili, il valore del coefficiente di correlazione non varia.

Applicazione della precedente proprietàApplicazione della precedente proprietà

• Si ottiene il medesimo valore di rxy anche effettuando il calcolo sui n.i. a base fissa

Esemplificazione di dati con diverso valore del Esemplificazione di dati con diverso valore del coefficiente di correlazione lineare, in presenza di coefficiente di correlazione lineare, in presenza di dati contaminati indicati con il simbolo * (p. 162)dati contaminati indicati con il simbolo * (p. 162)

Es: 6 famiglie, ammontare della spesa annua (in Es: 6 famiglie, ammontare della spesa annua (in euro) per l’acquisto di due generi di largo euro) per l’acquisto di due generi di largo

consumo: latte fresco e biscotti.consumo: latte fresco e biscotti.

• (i) rxy? (ii) commento (iii) diagramma di dispersione (iv) concordanza tra rxy e diagramma di dispersione (v) Perché rxy invece della retta di regressione?

Famiglia

Spesa annua per l’acquisto di latte fresco (€)

Spesa annua per l’acquisto di biscotti (€)

A 105 65

B 190 130

C 80 160

D 120 90

E 240 220

F 60 50

M(x)= 132.5

M(y)=119.2

CORRELAZIONE FRA DUE S.S.CORRELAZIONE FRA DUE S.S.

• Esempio: X = numero di extracomunitari iscritti al collocamento, Y = numero di discount

• Calcolare e commentare rXY tra le variabili originarie, i NI a base fissa, le variazioni percentuali a base fissa, i NI a base mobile, le variazioni percentuali a base mobile

Anni X Y

1993 72.644 600

1994 85.993 1.300

1995 96.287 1.930

1996 136.942 2.328

1997 140.100 2.523