Author
lynhu
View
219
Download
0
Embed Size (px)
72
5. DISTRIBUZIONI BIVARIATE
5.1 Introduzione
Nei capitoli precedenti sono stati esaminati alcuni dei più comuni metodi statistici utilizzati per descrivere
l’assetto distributivo di una variabile per evidenziarne le caratteristiche principali. Scopo delle prossime
pagine sarà quello di estendere l'analisi a quei casi in cui su ogni unità statistica sono rilevate più variabili
contemporaneamente.
In questa situazione si possono studiare le caratteristiche delle singole variabili, ma l’interesse principale
consiste nell’analizzare le eventuali relazioni esistenti fra le variabili stesse e nel misurarne l’intensità.
Per semplicità sarà preso in considerazione solo il caso di due variabili e lo studio sarà quindi limitato alle
cosiddette distribuzioni bivariate.
Le due variabili statistiche oggetto dell'indagine saranno indicate genericamente con le lettere maiuscole X
e Y e si parlerà o di due variabili X e Y o di una variabile (X, Y) a due dimensioni. Le due variabili
considerate possono essere sia qualitative (sconnesse o ordinabili) sia quantitative (discrete o continue) e
possono essere dello stesso tipo, oppure di tipo diverso.
Su n individui può essere rilevato, per esempio, il titolo di studio e la posizione nella professione e in questo
caso le due variabili sono entrambe di qualitative sconnesse. Su n imprese si può rilevare il ramo di attività
economica (commercio, trasporti, credito, …) e il numero di addetti, per cui si tratta di una variabile
qualitativa e di una variabile quantitativa discreta. Su n famiglie si può rilevare il reddito medio annuo e il
consumo medio annuo, e in questo caso le due variabili prese in considerazione sono entrambe di tipo
quantitativo e possono essere considerate di tipo continuo.
L'osservazione delle due variabili su ognuna delle n unità considerate fornisce una sequenza di n coppie di
modalità o di valori di X e Y, in cui ogni coppia si riferisce a una stessa unità. Le determinazioni rilevate
su queste n coppie, indicate genericamente nel modo seguente
(x1, y
1), (x
2, y
2), ..., (x
i, y
i), ..., (x
n, y
n),
possono essere elencate in un prospetto analogo a quello della tabella 5.1.1, in cui con xi e y
i vengono
indicate le determinazioni delle variabili X e Y rilevate sull'i-esima unità (i = 1, 2, …, n) ordinate in base
all’ordine di rilevazione.
73
Tabella 5.1.1
Esempio di sequenza di coppie relative a n osservazioni
X x1 x
2 ... x
i ... x
n
Y y1 y
2 ... y
i ... y
n
Si supponga, per esempio, che su 20 clienti di un’azienda che vende fondi di investimento si sia rilevato se
il cliente è un pensionato o meno e la tipologia di investimento scelto. Indicata con X la variabile che
assume valore 1 se il cliente è pensionato e valore 0 in caso contrario, e con Y la variabile che assume le
seguenti modalità A= “azioni”, V= “polizza vita”, F= “fondi” il prospetto seguente riporta la sequenza delle
coppie di determinazioni rilevate su 20 clienti.
Tabella 5.1.2
Sequenza delle coppie di determinazioni assunte da due variabili su 20 unità
(elencate secondo l’ordine di rilevazione)
X 0 0 1 1 1 0 0 0 0 0 0 1 0 1 0 0 0 1 0 0
Y A F V A A F V V V A F V V V A V A V A V
Dai dati della tabella 5.1.2 risulta, per esempio, che il quarto cliente rilevato è un pensionato che
ha acquistato azioni, mentre il nono cliente non è un pensionato e ha acquistato una polizza vita.
Se le variabili sono qualitative ordinate o quantitative, le coppie possono essere anche elencate sulla base
della sequenza ordinata delle determinazioni assunte da una o dall'altra variabile, così come si è già visto
nel caso univariato, dato che l’eventuale ordinamento non altera in alcun modo le informazioni raccolte.
74
5.2 Distribuzioni bivariate
Come già descritto per il caso univariato, anche i risultati della rilevazione di una coppia di variabili
qualitative o quantitative discrete sono presentati di solito sotto forma di distribuzioni di frequenza mediante
dei prospetti, detti tabelle a doppia entrata o distribuzioni bivariate, che hanno una struttura analoga a
quella della tabella successiva.
Tabella 5.2.1
Esempio di distribuzione bivariata – frequenze assolute
X\Y d1 d
2 ... d
l ... d
h
c1 n
11 n
12 ... n
1l ... n
1h n
1.
c2 n
21 n
22 ... n
2l ... n
2h n
2.
. . . . . . . .
cj n
j1 n
j2 ... n
jl ... n
jh n
j.
. . . . . . . .
ck n
k1 n
k2 ... n
kl .... n
kh n
k.
n.1 n
.2 ... n
.l ... n
.h n
I simboli cj (j = 1, 2, ..., k) che compaiono sulla prima colonna rappresentano le k determinazioni diverse
che la variabile X assume sulle n unità statistiche esaminate, mentre i simboli dl (l = 1, 2, ..., h) riportati
sulla prima riga rappresentano le h determinazioni diverse che la Y assume sullo stesse unità.
Se le variabili sono qualitative ordinabili o quantitative discrete, le determinazioni sono riportate secondo
il loro ordine naturale.
Il simbolo njl, che si legge all'incrocio fra la riga c
j e la colonna d
l, indica il numero di unità sui quali sono
state rilevate contemporaneamente le determinazioni cj e d
l delle variabili X e Y.
I simboli n.1, n
.1, ..., n
.h riportati nell'ultima riga della tabella 5.2.1 indicano i totali delle diverse colonne e,
quindi, il numero di unità sulle quali sono state rilevate le determinazioni d1, d
2, ..., d
h della variabile Y,
senza tener conto delle determinazioni assunte dalla X.
Risulta perciò
k
jj. nn
111 , ...,
k
jlj.l nn
1
, ...,
k
jhj.h nn
1
.
75
Un significato analogo hanno i simboli nj. che, corrispondendo ai totali delle diverse righe, indicano il
numero di unità sulle quali sono state rilevate le determinazioni c1, c
2, ..., c
k della X, senza tener conto delle
determinazioni assunte dalla Y.
Risulta ovviamente
h
ll. nn
111 , ...,
h
ljlj. nn
1
, ...,
h
lklk. nn
1
.
Nel quadratino in basso a destra della tabella 5.2.1 la lettera n indica il numero totale delle unità statistiche
esaminate, per cui risulta
.nnnnk
j
h
ljl
h
l.l
k
jij.
1 111
Un esempio di distribuzione bivariata riferita a una variabile qualitativa sconnessa e a una qualitativa
ordinabile è riportato nella tabella successiva.
Tabella 5.2.2
Arrivi negli esercizi ricettivi in Italia per residenza dei clienti e mese – Anno 2007
Fonte ISTAT- Movimento dei clienti negli esercizi ricettivi
Mese\Residenza Italiani Stranieri
Gennaio 2863439 1509739 4373178
Febbraio 2898551 1951340 4849891
Marzo 3518301 2660268 6178569
Aprile 4782364 3662612 8444976
Maggio 4091207 4677447 8768654
Giugno 6212762 4992022 11204784
Luglio 6566385 5963598 12529983
Agosto 7818714 5232409 13051123
Settembre 4647082 5246572 9893654
Ottobre 3318629 3718105 7036734
Novembre 2924948 1768584 4693532
Dicembre 3398903 1446432 4845335
53041285 42829128 95870413
In questo caso, per esempio, la frequenza 1951340 posta all'incrocio fra “Febbraio” e “Stranieri”
corrisponde al numero di stranieri arrivati negli esercizi ricettivi italiani durante il mese di febbraio del
2007.
76
Le coppie costituite dagli elementi della prima e dell'ultima riga della tabella costituiscono invece la
distribuzione degli arrivi negli esercizi ricettivi italiani durante l’anno 2007 per residenza dei clienti, senza
tener conto del mese. Così, per esempio, sono circa 53 milioni gli italiani arrivati in un esercizio ricettivo
durante il 2007.
In maniera analoga si possono commentare i valori indicati sull’ultima colonna, per cui 4373178 è il numero
di arrivi negli esercizi ricettivi in Italia nel gennaio 2007, senza tenere conto della residenza dei clienti.
Se le variabili rilevate sono qualitative o quantitative discrete, la distribuzione congiunta delle due variabili
contiene le stesse informazioni della sequenza originaria.
Se almeno una delle due variabili è quantitativa continua, le informazioni raccolte saranno sintetizzate
utilizzando delle classi di valori, per le quali valgono tutte le considerazioni fatte a proposito delle
distribuzioni univariate. Evidentemente questa operazione comporta necessariamente una perdita di
informazione, ma evidenzia l’assetto distributivo della variabile oggetto di indagine, cosi come accadeva
nel caso univariato.
In questo caso sulla prima riga della tabella, sulla prima colonna, o su entrambe, sono indicate non le singole
determinazioni cj e d
l ma degli opportuni intervalli di valori (che saranno considerati sempre aperti a sinistra
e chiusi a destra, se non sarà diversamente specificato).
Se, per esempio, si utilizzano classi di valori sia per la X sia per la Y, all'incrocio fra la riga indicata con
l'intervallo cj-1c
j e la colonna indicata con l'intervallo d
l-1d
l il simbolo n
jl rappresenta il numero di unità
su cui sono stati rilevati contemporaneamente valori della X compresi nell’intervallo (cj-1
, cj] e valori della
Y compresi nell’intervallo (dl-1
, dl].
Esempio 5.2.1
Date le due seguenti sequenze di dati che si riferiscono ai livelli di colesterolo, misurati in mg per 100 ml, di due
diversi gruppi di unità
Gruppo 1
233, 291, 312, 250, 246, 197, 268, 224, 239, 239,
254, 276, 234, 181, 248, 252, 202, 218, 212, 325
Gruppo 2
344, 185, 263, 246, 224, 212, 188, 250, 148, 169,
226, 175, 242, 252, 153, 183, 137, 202, 194, 213
si organizzino i dati in una tabella a doppia entrata in cui la variabile X, che identifica il gruppo, assume valore 1 per
il primo gruppo e valore 2 per il secondo, mentre la variabile Y, che indica i livelli di colesterolo, è raggruppata nelle
classi 130-180, 180-220, 220-250, 250-350.
77
La distribuzione bivariata di X e Y assume la forma indicata nella tabella successiva.
Distribuzione di 40 unità per gruppo di appartenenza e livelli di colesterolo
X\Y 130 - 180 180 - 220 220 - 250 250 - 350
1 0 5 8 7 20
2 5 7 5 3 20
5 12 13 10 40
Nelle successive tabelle 5.2.3 e 5.2.4 sono riportati alcuni esempi di distribuzioni bivariate con variabili di
diverso tipo. Nel primo caso entrambe le variabili sono qualitative sconnesse, mentre nel secondo caso una
è qualitativa sconnessa e l’altra quantitativa discreta ma, a causa dell’elevato numero dei suoi diversi valori,
si è utilizzato un raggruppamento in classi.
Tabella 5.2.3
Produzione di vino per regione e marchio di qualità - Anno 2007 (Fonte ISTAT)
Marchio\Regione D.O.C. e D.O.C.G. I.G.T. Da tavola
Piemonte 2276353 0 447593 2723946
Valle d'Aosta 11500 0 6000 17500
Lombardia 670701 181578 246785 1099064
Trentino-Alto Adige 1019845 179730 21820 1221395
Veneto 2329132 4541373 808550 7679055
Friuli-Venezia Giulia 669450 203881 156159 1029490
Liguria 45078 7957 36019 89054
Emilia-Romagna 1480163 2300051 1976967 5757181
Toscana 1749601 711084 357891 2818576
Umbria 307090 399637 291683 998410
Marche 272580 362615 121470 756665
Lazio 888984 323870 605219 1818073
Abruzzo 769150 130330 1246985 2146465
Molise 187595 0 131665 319260
Campania 235045 256206 1161104 1652355
Puglia 827925 1058798 3499152 5385875
Basilicata 29359 24007 167874 221240
Calabria 84454 28292 293361 406107
Sicilia 153015 1147173 2641120 3941308
Sardegna 239947 177775 444514 862236
14246967 12034357 14661931 40943255
78
Tabella 5.2.4
Fallimenti dichiarati dalle società per classe di ampiezza demografica dei comuni
e forma giuridica (Anno 2006) - Fonte ISTAT
forma\ampiezza 50.000 [50001, 100000] [100001, 500000] > 500000
Società di fatto 17 2 5 11 35
In nome collettivo 472 88 102 95 757
A resp. limitata 3152 818 1006 1843 6819
Per azioni 80 21 24 40 165
In acc. semplice 691 196 125 280 1292
In acc. per azioni 20 0 2 5 27
Cooperative 119 40 32 46 237
4551 1165 1296 2320 9332
Nella tabella 5.2.5 è invece riportata la sequenza originaria di coppie dei valori del reddito e del consumo
annui di 25 famiglie e nella 5.2.6 una delle possibili distribuzioni di frequenza corrispondente, espressa
mediante intervalli di valori.
Tabella 5.2.5
Reddito e consumo annui di 25 famiglie (dati in migliaia di euro)
Reddito 22.2 22.6 23.2 23.4 23.8 24.2 24.6 25.0 25.2 25.6
Consumo 18.4 19.0 19.8 19.4 20.2 20.6 22.2 22.2 20.0 21.4
Reddito 25.8 26.2 26.8 27.2 27.6 28.0 28.4 28.6 29.0 29.4
Consumo 21.0 21.6 22.2 21.8 22.0 23.0 24.0 23.6 24.2 22.0
Reddito 30.2 30.6 31.2 32.0 34.2
Consumo 23.4 24.2 23.6 24.4 25.8
Tabella 5.2.6
Distribuzione sintetica ottenuta dalla tabella 5.2.5
reddito\consumo 18 - 20 20 - 22 22 – 24 24 - 26
22 – 25 4 2 2 0 8
25 – 27 1 3 1 0 5
27 – 29 0 2 3 1 6
29 – 35 0 1 2 3 6
5 8 8 4 25
79
Esempio 5.2.2
Considerate le coppie di osservazioni della tabella 5.1.2 si costruisca la distribuzione doppia corrispondente
In questo caso le 3 determinazioni della variabile Y possono essere riportate secondo un ordine qualsiasi.
Distribuzione bivariata ottenuta dalla sequenza di coppie considerate nella tabella 5.1.2
X\Y A F V
0 5 3 6 14
1 2 0 4 6
7 3 10 20
80
5.3 Frequenze relative
Analogamente a quanto visto per le distribuzioni univariate, anche la distribuzione congiunta delle due
variabili X e Y può essere descritta mediante le frequenze relative, anziché mediante le frequenze assolute.
Queste frequenze si calcolano dividendo le frequenze assolute per il numero totale di osservazioni
n
nf
jljl ,
e indicano la frazione di unità che presentano una stessa coppia di determinazioni delle due variabili.
Tabella 5.3.1
Esempio di distribuzione bivariata – frequenze relative
X\Y d1 d
2 ... d
l ... d
h
c1 f
11 f
12 ... f
1l ... f
1h f
1.
c2 f
21 f
22 ... f
2l ... f
2h f
2.
. . . . . . . .
cj f
j1 f
j2 ... f
jl ... f
jh f
j.
. . . . . . . .
ck f
k1 f
k2 ... f
kl .... f
kh f
k.
f.1 f
.2 ... f
.l ... f
.h 1.0
Si ha evidentemente
,fk
j
h
ljl 1
1 1
5.3.1
mentre le frequenze relative riportate nell’ultima riga e nell’ultima colonna della tabella a doppia entrata
corrispondono rispettivamente a
.l
k
jjl ff
1
l = 1, 2, …, h 5.3.2
.j
h
ljl ff
1
j = 1, 2, …, k 5.3.3
con
81
.ffh
ll.
k
j.j 1
11
5.3.4
Nella tabella 5.3.2 è riportata, a titolo d’esempio, la stessa distribuzione della tabella 5.2.6 dove le frequenze
assolute sono state sostituite con quelle relative.
Tabella 5.3.2
Distribuzione espressa mediante frequenze relative ottenuta dalla tabella 5.2.6
reddito\consumo 18 - 20 20 - 22 22 – 24 24 – 26
22 – 25 0.16 0.08 0.08 0.00 0.32
25 – 27 0.04 0.12 0.04 0.00 0.20
27 – 29 0.00 0.08 0.12 0.04 0.24
29 – 35 0.00 0.04 0.08 0.12 0.24
0.20 0.32 0.32 0.16 1.00
Come nel caso univariato, anche in quello bivariato gli indici statistici possono essere calcolati
indifferentemente utilizzando uno qualunque dei diversi tipi di frequenza.
Esempio 5.3.1
Data la distribuzione bivariata costruita nell’esempio 5.2.1, si sostituiscano le frequenze assolute con le corrispondenti
frequenze relative.
Distribuzione di 40 unità per gruppo di appartenenza e livelli di colesterolo
(frequenze relative)
X\Y 130 - 180 180 - 220 220 - 250 250 - 350
1 0.000 0.125 0.200 0.175 0.500
2 0.125 0.175 0.125 0.075 0.500
0.125 0.300 0.325 0.250 1.000
82
5.4 Distribuzioni marginali e condizionate
Le informazioni contenute in una tabella a doppia entrata sono costituite dalle 2 distribuzioni di una
variabile senza tener conto delle determinazioni assunte dall’altra e dalla distribuzione congiunta delle due
variabili, riportata nel riquadro centrale della tabella.
L’insieme delle coppie (cj, f
j..) o delle coppie (c
j, n
j..) per j = 1, 2, ..., k, che costituisce la distribuzione di
frequenza della variabile X senza considerare la Y, viene chiamata distribuzione marginale della X.
Allo stesso modo l’insieme delle coppie (dl, f
.l) o (d
l, n
.l) per l = 1, 2, ..., h, costituisce la distribuzione
marginale della Y.
Tali distribuzioni sono utilizzate per calcolare tutti gli indici esaminati nei capitoli precedenti per quanto
riguarda le due variabili singolarmente considerate.
Le informazioni più rilevanti di una tabella a doppia entrata sono però contenute nel suo riquadro interno,
in quanto la distribuzione congiunta delle due variabili X e Y evidenzia le eventuali relazioni esistenti fra
esse e serve per misurare l’entità di tali relazioni.
Per ottenere questo tipo di informazione dai dati occorre analizzare e confrontare fra loro gli assetti
distributivi di una variabile rilevata all’interno dei diversi gruppi omogenei nell’altra, ossia per gruppi
“omogenei” di unità che presentano tutte una stessa determinazione (o una stessa classe di valori) dell’altra
variabile.
Le k righe del riquadro interno di ogni tabella a doppia entrata, in associazione con la prima riga,
rappresentano altrettante distribuzioni univariate della variabile Y all’interno dei diversi gruppi omogenei
in X. I valori fj1, f
j2, ..., f
jh della j-esima riga indicano infatti la distribuzione della variabile Y limitatamente
al gruppo di unità che presentano tutti la stessa determinazione cj di X oppure un’intensità compresa nella
j-esima classe (cj-1
, cj] di questa variabile (con j = 1, 2, …, k).
Ogni riga interna della tabella rappresenta la distribuzione della Y per un gruppo di unità omogenee rispetto
alla variabile X. Tali distribuzioni, note come distribuzioni condizionate della Y alle diverse
determinazioni (o classi di valori) della X, vengono indicate mediante la notazione Y|x.
La prima riga del riquadro interno della tabella 5.3.1, per esempio, rappresenta la distribuzione del consumo
delle sole famiglie con un reddito compreso fra 22 e 25 mila euro annui, mentre la seconda riga fornisce
informazioni sulla distribuzione del consumo per le famiglie con un reddito fra 25 e 27 mila euro annui.
83
Uno degli scopi dell’analisi di questa tabella può consistere nel confronto delle distribuzioni del consumo
fra gruppi di famiglie omogenee rispetto al reddito, per valutare se questi consumi variano a seconda del
livello di reddito.
In genere si presenta la difficoltà di confrontare distribuzioni relative a gruppi di numerosità diversa, per
cui conviene dividere le frequenze che compaiono su ciascuna riga per il totale di riga corrispondente,
ottenendo le frequenze relative di riga, che consentono di effettuare questi confronti quale che sia la
numerosità di ciascun gruppo.
Nel caso dei dati riportati nelle tabelle 5.2.6 o 5.3.1, per esempio, le frequenze relative di riga assumono i
valori riportati nella tabella successiva.
Tabella 5.4.1
Frequenze relative di riga ottenute dalla tabella 5.2.7 o 5.3.1
reddito\consumo 18 – 20 20 - 22 22 - 24 24 – 26
22 – 25 0.50 0.25 0.25 0.00 1.00
25 – 27 0.20 0.60 0.20 0.00 1.00
27 – 29 0.00 0.17 0.50 0.03 1.00
29 – 35 0.00 0.03 60,1 0.50 1.00
Le distribuzioni di frequenza della Y per i diversi gruppi omogenei in X quando è posta uguale ad 1 la
frazione complessiva di unità di ciascun gruppo, sono chiamate distribuzioni relative condizionate della
Y alle diverse determinazioni (o classi di valori) della X.
Nella successiva tabella 5.3.3 è riportato un altro esempio di distribuzioni condizionate. In questo caso si
tratta delle distribuzioni del tipo di visita medica a cui si sono sottoposte pazienti di sesso femminile,
condizionate alle classi di età delle pazienti.
84
Tabella 5.3.3
Distribuzione delle visite mediche specialistiche per tipo specializzazione del medico ed età del paziente1
- Femmine - Frequenze relative di riga
età\tipo A B C D E F
14 0.062 0.019 0.158 0.442 0.146 0.173 1.000
14-19 0.060 0.090 0.129 0.527 0.050 0.144 1.000
20-29 0.064 0.615 0.073 0.164 0.048 0.036 1.000
30-39 0.072 0.549 0.054 0.201 0.044 0.080 1.000
40-49 0.160 0.363 0.069 0.224 0.059 0.125 1.000
50-59 0.208 0.226 0.066 0.203 0.091 0.206 1.000
60-64 0.388 0.048 0.214 0.126 0.044 0.180 1.000
65 e + 0.371 0.075 0.157 0.177 0.049 0.171 1.000
A = cardiologiche, B = ginecologiche ed ostetriche, C = oculistiche, D = odontoiatriche, E = otorinolaringoiatriche,
F = ortopediche
Dai dati contenuti nella tabella risulta, per esempio, che per le pazienti con un'età inferiore a 20 anni le
visite sono soprattutto di tipo odontoiatrico (44% del totale in quella classe di età), per quelle con un'età
compresa fra 20 e 40 anni sono ostetriche e ginecologiche (oltre il 60%) ed infine, per quelle con un'età
superiore a 60, sono cardiologiche. Per quest’ultimo tipo di visita si nota un incremento dell'incidenza al
crescere dell'età delle pazienti, mentre per quelle oculistiche la maggiore incidenza si ha per le pazienti con
un'età inferiore a 20 anni e superiore a 60.
Quando ci si vuole riferire alla distribuzione della variabile Y condizionata ad una generica determinazione
cj (o alla j-esima classe) della X si utilizza la notazione
Y|cj, j = 1, 2, ..., k,
mentre le frequenze relative condizionate corrispondenti si ottengono dai rapporti
j.
jl
j.
jl
f
f
n
n , 5.4.1
dove
1Fonte: ISTAT (1986) Indagine statistica sulle condizioni di salute della popolazione e sul ricorso ai servizi sanitari. Note e relazioni n.1
85
111
h
l j.
jlh
l j.
jl
f
f
n
n j = 1, 2, ..., k. 5.4.2
Se si vuole scambiare il ruolo delle due variabili, analizzando la distribuzione condizionata della variabile
X condizionata ad una generica determinazione yl (o alla l-esima classe) della Y, si utilizza ovviamente la
notazione
X|dl, l = 1, 2, ..., h.
mentre le frequenze relative condizionate corrispondenti sono date dal rapporto
l.
jl
l.
jl
f
f
n
n , 5.4.3
dove
111
k
j .l
jlk
j .l
jl
f
f
n
n l = 1, 2, ..., h.
In una tabella a doppia entrata relativa a una variabile X che assume k determinazioni (o classi di valori)
diverse e a una variabile Y che assume h determinazioni (o classi di valori) diverse restano quindi
determinate:
- la distribuzione di frequenza congiunta delle due variabili;
- le due distribuzioni marginali da X e della Y;
- le k distribuzioni condizionate della Y|cj (con j = 1, 2, …, k);
- le h distribuzioni condizionate della X|dl (con l = 1, 2, …, h).
86
Esempio 5.4.1
Data la seguente distribuzione bivariata relativa ai residenti di un comune italiano classificati per classe di età (X) e
nazionalità (Y)
Distribuzione dei residenti per classe di età e nazionalità
X\Y Italiani Stranieri
14 10053 1245 11298
15 – 39 30247 4105 34352
40 – 64 41556 3470 45026
≥ 65 32144 2180 34324
114000 11000 125000
si determinino le distribuzioni relative condizionate della X dalla Y.
Le distribuzioni relative delle classi di età a seconda della nazionalità dei residenti risultano
Distribuzioni relative delle classi di età dei residenti condizionate alla nazionalità
X\Y Italiani Stranieri
14 0.09 0.11
15 – 39 0.27 0.37
40 – 64 0.36 0.32
≥ 65 0.28 0.20
1.00 1.00
Esempio 5.4.2
In un’indagine su 100 studenti universitari iscritti a un certo corso di laurea nel 2015, si è rilevato il voto di diploma
conseguito e se erano ancora iscritti al corso o se lo avevano abbandonato. Sulla base della distribuzione riportata nella
tabella successiva,
Distribuzione di un gruppo di studenti universitari per stato e voto di diploma
Condizione (X)\Voto (Y) 80 8190 >90
Abbandono 12 6 2 20
Iscritto 18 40 22 80
30 46 24 100
si calcolino le distribuzioni relative condizionate del voto di diploma (Y) a seconda della condizione dello studente
(X).
Distribuzioni relative del voto di diploma condizionate allo stato degli studenti
X\Y 80 8190 >90
Abbandono 0.600 0.300 0.100 1.000
Iscritto 0.225 0.500 0.275 1.000
87
5.5 Valori caratteristici
Le distribuzioni marginali delle variabili X e Y sono utilizzate per calcolare gli indici esaminati per le
distribuzioni univariate.
Se entrambe le variabili sono quantitative, il generico momento dall’origine di ordine r per X e Y è dato
rispettivamente da
l.
h
j
rll.
h
l
rlry
.j
k
j
rj.j
k
j
rjrx
fdndn
m
fcncn
m
11
11
1
1
r = 0, 1, 2, ...
nel caso in cui le variabili siano discrete, mentre la loro formula approssimata è
l.
h
j
rll.
h
l
rlry
.j
k
j
rj.j
k
j
rjrx
fdndn
m
fcncn
m
11
11
1
1
r = 0, 1, 2, ...
per variabili in classi di valore.
Allo stesso modo, il generico momento centrale di ordine r di X e Y corrisponde a
l.
h
j
rll.
h
l
rlry
.j
k
j
rj.j
k
j
rjrx
fydnydn
m
fxcnxcn
m
11
11
1
1
r = 0, 1, 2, ...
se la tabella riporta i valori delle variabili, mentre se la distribuzione è in classi, si utilizzano le medesime
espressioni in cui compaiono però i valori centrali delle singole classi
l
h
j
rll
h
l
rlry
j
k
j
rjj
k
j
rjrx
fydnydn
m
fxcnxcn
m
.1
.1
.1
.1
1
1
r = 0, 1, 2, ...
88
Esempio 5.5.1
Considerata la seguente distribuzione bivariata
X\Y 0 1 2
-1.5 -0.5 40 0 0 40
-0.5 0.5 0 40 40 80
0.5 1.5 0 20 60 80
40 60 100 200
si calcoli la media e la varianza delle variabili X e Y.
Risulta
20200
801800401.x
60
200
8014012 .m x
5602060 22 ...sx
31200
1002601400.y
32
200
10046012 .m x
6103132 22 ...sy
I diversi momenti possono essere calcolati anche sulle diverse distribuzioni condizionate.
Più in particolare, il momento di ordine r delle k distribuzioni della variabile quantitativa Y condizionata
alla variabile X (che può essere invece di qualsiasi tipo) corrisponde a
jl
h
j
rl
jjl
h
l
rl
jcry
jl
h
j
rl
jjl
h
l
rl
jcry
fdf
ndn
m
fdf
ndn
m
j
j
1.1.|
1.1.|
11
11
r = 0, 1, 2, ... 5.5.1
a seconda che nella tabella compaiano i singoli valori o le classi, mentre le corrispondenti formule per il
momento centrale r-esimo corrispondono a
jl
h
j
rxl
jjl
h
l
rxl
jcry
jl
h
j
rxl
jjl
h
l
rxl
jcry
fydf
nydn
m
fydf
nydn
m
jjj
jjj
1.1.|
1.1.|
11
11
r = 0, 1, 2, ... 5.5.2
Considerata la distribuzione doppia ottenuta nell’esempio 5.2.1, le distribuzioni relative condizionate di
1|Y x e di 2|Y x sono riportate nella tabella successiva
89
Tabella 5.5.1
Distribuzioni condizionate della Y in base alla distribuzione congiunta dell’esempio 5.2.1
X\Y 130 - 180 180 - 220 220 - 250 250 – 350
1 0.00 0.25 0.40 0.35 1.00
2 0.25 0.35 0.25 0.15 1.00
da cui, applicando la 5.5.1, si ottengono le medie
11 ymy| 2000.252350.43000.35 = 249.00,
22 ymy| 1550.252000.352350.253000.15 = 212.50,
e i momenti del secondo ordine
12y|m 20020.2523520.430020.35 = 63590,
22y|m 15520.2520020.3523520.2530020.15= 47312.5.
Le varianze delle due distribuzioni condizionate sono quindi rispettivamente pari a
21|ys = 63590 2492 = 1589.00,
2|2ys = 47312.5 212,52 = 2156,25.
Esempio 5.5.2
Considerata la distribuzione bivariata dell’esempio 5.5.1 si calcoli la media delle tre distribuzioni condizionate della
Y dalla X.
Risulta
040
02014005.0,5.1
y 5.1
80
4024015.0,5.0
y 75.1
80
6022015.1,5.0
y
Allo stesso modo, i momenti di ordine r delle h distribuzioni della variabile X|dl quando X è discreta
(qualitativa o quantitativa) risultano
90
jl
k
j
rj
ljl
k
j
rj
ldrx fc
fnc
nm
l
1.1.
|11
r = 0, 1, 2, ...
mentre nel caso di una distribuzione in classi occorre utilizzare i valori centrali degli intervalli.
Analogamente, per il momento centrale r-esimo della X|dl risulta
jl
k
j
ryj
ljl
k
j
ryj
ldrx fxc
fnxc
nm
lll
1.1.
|11
r = 0, 1, 2, ...
dove cj va sostituito con il valore centrale del j-esimo intervallo se la distribuzione è in classi.
Esempio 5.5.3
Considerata la distribuzione bivariata dell’esempio 5.5.1 si calcoli la media e la varianza delle tre distribuzioni
condizionate X|y.
Per quanto riguarda le medie risulta
140
01004010
x
3
2
60
201400011
x 6.0
100
601400012
x
I momenti di ordine 2 sono invece pari a
1
40
0100401 222
0|2
xm 3
2
60
2012
1|2
xm 6.0100
6012
2|2
xm
per cui le varianze sono
01120| xs
9
2
9
46
9
4
3
221|
xs 24.06.06.0 22
2| xs
91
5.6 Momenti misti e covarianza
Per analizzare e misurare le eventuali relazioni esistenti fra le variabili X e Y è necessario utilizzare degli
indici, diversi dai precedenti, che si basano sulla distribuzione congiunta delle due variabili.
Analogamente a quanto visto per una distribuzione univariata, per due variabili quantitative X e Y rilevate
contemporaneamente su n unità statistiche sono definiti i cosiddetti momenti misti dall'origine o momenti
misti ordinari, di ordine r,s (con r,s = 0, 1, ...), la cui espressione generale assume la forma
si
n
i
rir,s yx
nm
1
1 . 5.6.1
se si dispone della sequenza delle coppie di valori.
Se invece i dati rilevati sono organizzati in una distribuzione di frequenza, il momento misto di ordine r,s
assume la forma seguente
jlsl
k
j
h
l
rjjl
sl
k
j
h
l
rjr,s fdcndc
nm
1 11 1
1
se entrambe le variabili sono discrete. Se una o entrambe le variabili sono continue, il risultato approssimato
del generico momento misto di ordine r,s si calcola utilizzando i valori centrali delle classi.
Il momento più comunemente usato è quello che si ottiene ponendo r = s = 1 e che quindi, a seconda del
tipo di dati, assume le forme seguenti
i
n
ii, yx
nm
1
111
5.6.2
jll
k
j
h
ljjll
k
j
h
lj fdcndc
nm
1 11 1
1,11
5.6.3
jll
k
j
h
ljjll
k
j
h
lj fdcndc
nm
1 11 1
1,11
. 5.6.4
Considerata una distribuzione relativa a due variabili quantitative X e Y, il momento misto di ordine 1,1
corrisponde alla media aritmetica del prodotto fra le due variabili.
92
Esempio 5.6.1
Il momento misto dall’origine di ordine 1,1 sulla seguente sequenza di voti in matematica e in statistica ottenuti da 8
studenti universitari
Matematica 24 26 27 28 18 30 20 23
Statistica 24 28 23 26 20 24 24 27
risulta
25.604272324202430201826282327282624248
111 ,m
Esempio 5.6.2
Considerata la distribuzione riportata nell’esempio 5.5.1 se ne calcoli il momento misto di ordine 1,1
X\Y 0 1 2
-1.5 -0.5 40 0 0 40
-0.5 0.5 0 40 40 80
0.5 1.5 0 20 60 80
40 60 100 200
Considerando i soli prodotti che risultano diversi da zero si ottiene
7.0200
602120111,1
m
Oltre ai momenti misti ordinari, restano definiti anche i momenti misti centrali, usualmente indicati con
il simbolo r,sm , la cui espressione generica assume le seguenti forme, a seconda del tipo di dati ottenuti
nella rilevazione,
si
n
i
rir,s yyxx
nm
1
1 .
jl
k
j
h
l
sl
rjjl
sl
k
j
h
l
rjsr fydxcnydxc
nm
1 11 1
,1
jl
k
j
h
l
sl
rjjl
sl
k
j
h
l
rjsr fydxcnydxc
nm
1 11 1
,1
Anche in questo caso il momento più usato, detto covarianza ed indicato comunemente con sxy, è il
momento misto centrale di ordine 1,1. Le sue espressioni, a seconda del tipo di dati, si ottiene dalle
espressioni precedenti ponendo r = s = 1
93
yyxxn
ms i
n
ii,xy
111
1 . 5.6.5
jl
k
j
h
lljjll
k
j
h
ljxy fydxcnydxc
nms
1 11 1
1,11
5.6.6
jl
k
j
h
lljjll
k
j
h
ljxy fydxcnydxc
nms
1 11 1
1,11
5.6.7
Considerate due variabili quantitative X e Y rilevate contemporaneamente su n unità statistiche, la
covarianza sxy corrisponde alla media aritmetica del prodotto degli scarti dalla media delle due variabili.
Sviluppando la 5.6.5 si ottiene una formula di calcolo semplificata
yxyxn
yxyxyxyxn
yxn
xn
yyn
xyxn
yxyxyxyxn
s
n
iii
n
iii
n
i
n
ii
n
ii
n
iii
n
iiiiixy
11
1111
1
11
1111
1
5.6.8
da cui risulta che la covarianza corrisponde al momento centrale ordinario di ordine 1,1 meno il prodotto
delle medie delle due variabili.
La covarianza fra due variabili quantitative X e Y rilevate contemporaneamente su n unità statistiche,
corrisponde alla media di XY meno il prodotto delle medie �̅��̅�.
Nel caso della distribuzione riportata nell’esempio 5.5.1 per la quale sono stati ottenuti in precedenza i
risultati
2.0x , 3.1y , 7.01,1 m
la covarianza fra X e Y risulta
94
sxy
= 0.7 0.2×1.3 = 0.44.
Per la tabella 5.2.6 le medie delle due variabili risultano pari a 1227.x e a 8821.y mentre il momento
misto di ordine 1,1 è m1,1
= 597.44. In questo caso la covarianza fra le due variabili risulta
sxy
= 597.44 27.1221.88 = 4.0544.
La covarianza può assumere valori positivi o negativi, a seconda del tipo di relazione fra le variabili
considerate.
Se la relazione è di tipo diretto, ossia se al crescere dei valori assunti da una variabile anche l’altra tende a
crescere, gli scarti delle due variabili dalla propria media avranno tendenzialmente segno concorde: a scarti
negativi/positivi della X tenderanno a essere associati scarti negativi/positivi della Y. I prodotti degli scarti
delle due variabili risulteranno quindi positivi nella maggior parte dei casi e anche la covarianza, che
corrisponde alla media dei prodotti di tali scarti, avrà segno positivo.
Se invece la relazione fra X e Y è di tipo inverso, al crescere dei valori assunti da una variabile l’altra tende
a diminuire, per cui gli scarti delle due variabili dalla propria media avranno tendenzialmente segno
discorde: a scarti negativi/positivi della X tenderanno a essere associati scarti positivi/negativi della Y. I
prodotti degli scarti delle due variabili avranno segno discorde e risulteranno quindi tendenzialmente
negativi: di conseguenza la covarianza sarà minore di zero.
Esempio 5.6.3
Data la seguente tabella a doppia entrata
X\Y 1 2 3
1 0 10 20 30
2 5 10 5 20
5 20 25 50
calcolare la covarianza fra X e Y.
Si ottiene
4.150
202301
x ,
4.250
25320251
y ,
95
2.350
5321022512203110210111,1
m
da cui risulta
sxy
= 3.21.4×2.4 = 0.16.
Esempio 5.6.4
Dati i seguenti valori delle variabili X “contenuto di umidità” e Y “solidità” rilevate su n=10 assi di legno riportati
nella tabella seguente
X Y
11.1 11.14
8.9 12.74
8.8 13.13
8.9 11.51
8.8 12.38
9.9 12.60
10.7 11.13
10.5 11.70
10.5 11.02
10.7 11.41
In questo caso le medie delle due variabili risultano pari a 88009.x e a 876011.y mentre il momento misto di
ordine 1,1 è m1,1
= 116.8445.
Pertanto la covarianza fra le due variabili risulta pari a
sxy
= 116.8445 9.8811.876 = 0.49038.
Proprietà
La covarianza è invariante rispetto a eventuali traslazioni, ma non lo è rispetto a cambiamenti di scala.
Dimostrazione
Data la sequenza delle n osservazioni relative a due variabili quantitative X e Y con covarianza sxy
si
considerino le due nuove variabili trasformate
XW ba
.Y''Z ba
Se nella formula della covarianza fra W e Z
n
iiiwz zzww
ns
1
1
96
si sostituiscono alle due variabili W e Z e alle loro medie le rispettive espressioni in funzione delle variabili
originali X e Y si ottiene
xy
n
iii
n
iii
n
iiiwz
bb'syyxxbb'n
yb'a'yb'a'xbabxan
zzwwn
s
1
11
1
11
5.6.9
da cui risulta che la covarianza non è invariante rispetto a cambiamenti di scala, ma solo rispetto a eventuali
traslazioni.
Esempio 5.5.6
Date due variabili X e Y con covarianza sxy
= 1.5 si calcoli la covarianza delle variabili trasformate
X3
2
2
1W
.Y4
33Z
Si ottiene
75.05.14
3
3
2
wzs .
97
5.7 Coefficiente di correlazione lineare
Date due variabili quantitative X e Y con media rispettivamente pari a x e y e con deviazione standard sx
e sy si considerino le corrispondenti variabili standardizzate
xs
x
XU
ys
y
YV
Sulla base della proprietà della covarianza descritta alla fine del paragrafo precedente, la loro covarianza
risulta
yx
xyn
iii
yx
n
iii
yxuv
ss
syyxx
nssvu
nsss
11
1111
Questo indice, che verrà ripreso nelle pagine successive, è chiamato coefficiente di correlazione lineare
fra X e Y ed è usualmente indicato mediante la notazione
.yx
xyxy
ss
sr
5.7.1
Dalla formula precedente risulta che si tratta di un indice adimensionale (o numero puro) mentre la
dimostrazione che il suo campo di variazione è compreso nell’intervallo [-1, +1] si ottiene sulla base della
seguente disuguaglianza
n
ii
n
ii
n
iii zvzv
1
2
1
2
2
1
,
dovuta a Cauchy-Swartz.
Utilizzando la formula 5.6.5 ed applicando la disuguaglianza precedente, si ottiene il seguente risultato
98
22
1
2
1
2
2
1
2 111yx
n
ii
n
ii
n
iiixy ssyy
nxx
nyyxx
ns
in base al quale il quadrato della covarianza risulta sempre minore, o tutt’al più uguale, al prodotto delle
varianze delle due variabili.
Calcolando la radice quadrata dei due termini della disuguaglianza precedente si ottiene il campo di
variazione della covarianza, che risulta
yxxyyx sssss
I suoi due estremi, che differiscono solo per il segno, corrispondono quindi al prodotto delle deviazioni
standard delle due variabili, così che il coefficiente di correlazione 5.7.1 risulta essere un indice
adimensionale, svincolato dalle unità di misura utilizzate nella rilevazione delle variabili X e Y, che
assume valori nell’intervallo
11 xyr 5.7.2
Considerate due variabili quantitative X e Y, il loro coefficiente di correlazione lineare rxy
è un indice
adimensionale che assume valori compresi fra 1 e +1
Il segno di tale coefficiente dipende ovviamente dalla covarianza e indica se l’eventuale relazione fra X e
Y è diretta oppure inversa.
Esempio 5.7.1
Considerati i seguenti valori assunti dalla variabile età (X) e pressione sistolica (Y) rilevati su 8 individui, si determini
il coefficiente di correlazione lineare fra le due variabili
X 21 27 34 46 50 55 66 80
Y 130 113 120 135 129 144 175 206
Si ottiene
x 47.375 m2x
= 2590.375 9843753452 .sx
y 144.00 m2y
= 21291.5 58552 .s y
m1,1
= 7308.875 875486.sxy
Il coefficiente di correlazione lineare assume quindi il valore
99
894905855989375345
875486.
..
.rxy
Esempio 5.7.2
Data la seguente distribuzione bivariata, calcolare il coefficiente di correlazione lineare fra le due variabili
X\Y 0 1 2
-1.5 0.5 40 0 0 40
-0.5 0.5 0 40 40 80
0.5 1.5 0 20 60 80
40 60 100 200
Considerate le due distribuzioni marginali si ottengono le medie delle due variabili
20200
801800401.x
31
200
1002601400.y
e le varianze
560
200
802018020040201 2222 .
...sx
610
200
1003126031140310 2222 .
...sy
Il momento misto di ordine 1,1 è pari a
70
200
6021201111 .m ,
per cui la covarianza risulta
440312070 ....sxy
Il coefficiente di correlazione lineare risulta quindi pari a
75280610560
440.
..
.rxy
Proprietà
Il coefficiente di correlazione lineare è invariante rispetto a trasformazioni lineari delle due variabili, a parte
il segno
Dimostrazione
Questa proprietà deriva direttamente dalla proprietà della covarianza e dalla proprietà della
deviazione standard di trasformazioni lineari di variabili. Tenute presenti le formule 4.4.4 e 5.6.9,
risulta infatti che, date due variabili X e Y il cui coefficiente di correlazione lineare è rxy, il
coefficiente di correlazione lineare delle variabili trasformate
100
XW ba
Y''Z ba
corrisponde a
xy
yx
xy
yx
xy
zw
wzwz r
b'b
bb'
ssb'b
sbb'
sb'sb
sbb'
ss
sr
Seconda proprietà
Se fra due variabili quantitative X e Y esiste una relazione lineare diretta o inversa, il loro coefficiente di
correlazione lineare risulta necessariamente 1xyr .
Dimostrazione
Considerata una variabile X e la sua trasformazione lineare
Y = a + bX
la media, la varianza e la deviazione standard di Y sono rispettivamente uguali a
xbay 222xy sbs xy sbs
La covarianza fra X e Y è invece pari a
2
1
2
11
111x
n
ii
n
iii
n
iiixy sbxxb
nxbabxaxx
nyyxx
ns
per cui il coefficiente di correlazione lineare fra X e Y risulta
0per1
0per12
b
b
b
b
sbs
bs
ss
sr
xx
x
yx
xyxy