26
LEZIONE A.9 La standardizzazione TQuArs – a.a. 2010/11 Tecniche quantitative per l’analisi nella ricerca sociale Giuseppe A. Micheli

LEZIONE A.9 La standardizzazione

Embed Size (px)

DESCRIPTION

TQuArs – a.a. 2010/11 Tecniche quantitative per l’analisi nella ricerca sociale Giuseppe A. Micheli. LEZIONE A.9 La standardizzazione. In questa lezione. - PowerPoint PPT Presentation

Citation preview

Page 1: LEZIONE A.9 La standardizzazione

LEZIONE A.9

La standardizzazione

TQuArs – a.a. 2010/11Tecniche quantitative per l’analisi nella ricerca sociale

Giuseppe A. Micheli

Page 2: LEZIONE A.9 La standardizzazione

In questa lezione..

In questa lezione vedremo alcuni problemi legati a trasformazioni lineari di una variabile statistica, e in particolare vedremo una trasformazione molto utile – che chiameremo standardizzata - per comparare v.s. con medie e varianze differenti.

In sequenza vedremo:

Cosa succede alla media e alla varianza di una v.s. trasformata

Come si può ‘normalizzare’ un indicatore

Come si può ‘normalizzare’ una varianza

Cos’è un carattere ‘trasferibile’

Come si può ‘standardizzare’ una variabile

Che limite si può dare alla frequenza di casi lontani dalla media

Page 3: LEZIONE A.9 La standardizzazione

Trasformare una variabile: stirare una molla

Supponete di avere in mano un nastro a molla come questo.

Spostate il nastro verso de-stra. La collocazione sul piano di ogni punto del nastro si sposta sul piano in ugual misura: così pure il baricentro. Ma la lunghez-za del nastro non cambia. Anche la distanza di ogni punto dal cen-la distanza di ogni punto dal cen-tro è insensibile alla traslazionetro è insensibile alla traslazione.

Provate ora a stirare la molla. La collocazione del ‘centro’ del nastro si sposterà in proporzione. Anche la distanza di ogni punto la distanza di ogni punto dal centro cresceràdal centro crescerà: ma in che misura?

Page 4: LEZIONE A.9 La standardizzazione

Media e varianza di una v.s. spostata o ‘stirata’

xi ni

0 4 mX= 4

4 2 VX= 12,8

8 4 X= 3,58

10

vi ni

5 4 mV= 9

9 2 VV= 12,8

13 4 V= 3,58

10

wi ni

0 4 mW= 8

8 2 VW= 51,2

16 4 W= 7,16

10

0

2

4

6

0

0

2

4

6

0

0

2

4

6

0

La v.s. W ha identica distribuzione di frequenza di X, ma è una trasfor-mazione lineare di X, in cui è tra-sformata l'unità di misura: W=2X. Si vede che:

M(w)=2M(x); V(w)=4V(x); w=2XAnche la v.s. V ha identica distribu-

zione di frequenza di X, ma è una trasformazione lineare di X, in cui è effettuata una traslazione dell’ori-gine: V=5+X. Si vede che:

M(v)=5+M(x); V(v)=V(x); V=X

Possiamo trarre una regola generale?

Page 5: LEZIONE A.9 La standardizzazione

Media aritmetica ‘operatore lineare’

Per M(x) valgono queste proprietà:

Se Y = a + X M(y)=a+M(x)

[traslazione dell'origine]

Se Y = b X M(y) = b M(x)

[cambiamento di unità di misura]

Se Y=a+bX M(y)=a+bM(x)

[trasformazione lineare completa]

Una trasformazione lineare di u-na variabile è perfettamente ri-flessa nella media aritmetica della trasformata.

Si dice che la media aritmetica è un operatore lineare.

)()(1

)(

11

11

11

xMbaxMba

fxbfa

fxbfa

fxbafyyM

p

iii

p

ii

p

iii

p

ii

p

iii

p

iii

Dimostrazione:

«M(y) = a + b M(x)»

 Sia Y = a + b X allora:

Page 6: LEZIONE A.9 La standardizzazione

Varianza insensibile alla traslazione ma..

Anche la varianza è un operatore lineare, ma con qualche differenza di comportamento:

Se Y = a + X V(y) = V(x)

[traslazione dell'origine]

Se Y = b X V(y) = b² V(x)

[cambiamento di unità di misura]

Se Y=a+bX V(y) = b² V(x)

[trasformazione lineare completa]

La varianza di una (qualunque) trasformata lineare è insensibile alla traslazione dell'origine e ri-sente in misura quadratica di un cambiamento di unità di misura.

)()(

)(

)(

)(

)(

)()(

2

1

22

1

22

1

2

1

2

1

2

1

2

xVbfxMxb

fxMxb

fxMxb

fxMbxb

fxMbaxba

fyMyyV

k

iii

k

iii

k

iii

k

iii

k

iii

k

iii

«V(y) = b² V(x) »

Sia Y = a + b X allora

Page 7: LEZIONE A.9 La standardizzazione

Normalizzare un indicatore

La normalizzazione (o standardizzazione) di una misura è una procedura con due significati diversi tra loro connessi.

Nel primo significato, un indicatore è normalizzato se è "ricondotto a norma", sterilizzando l'effetto di alcuni fattori di disturbo.

Per esempio, abbiamo visto come la varianza è una misura di variabilità influenzata dall'ordine di grandezza del fenomeno osservato.

Un primo, grezzo modo per ‘normalizzare’ la varianza consiste quindi nello sterilizzare l'unità di misura del fenomeno, definendo una quantità adimensionale (o numero puro) detta coefficiente di variazione:

 cv = / mTra poco vedremo una procedura più drastica di riconduzione a norma, applicata all'intera variabile statistica.

Page 8: LEZIONE A.9 La standardizzazione

Coefficiente di variazione: un esempio

Dalla Survey Lombarda stimiamo che la deviazione standard dei redditi familiari a Milano è X

MIL=1,85. Nei piccoli comuni la stessa misura è XPIC

=1,28, assai minore.

Possiamo davvero dedurne che c’è meno dispersione di redditi in provincia che non nella grande città?

Non posso dirlo con certezza, perché la deviazione standard sale con l’ordine di grandezza del carattere studiato. Sappiamo infatti che:

Se Y=a+bX V(y)=b²V(x) e quindi Y= (b²V(x))=b. X

E il reddito medio è più alto a Milano (mxMI=3,3438) che fuori

(mxPIC=2,8025).

Posso allora confrontare le deviazioni standard se le depuro dell’effetto dell’ordine di grandezza. Trovo così che:

CVxMI = 1,85/3,3438 = 0,553 > CVx

PIC = 1,28/2,8025 = 0,457

E’ quindi confermata la maggiore dispersione dei redditi a Milano.

Page 9: LEZIONE A.9 La standardizzazione

Coefficiente di variazione: due altri esempi

Un esempio micro. Gli stipendi di tre anziani amici erano di 1000, 1500 e 2000 lire nel 1950, e le loro pensioni nel 2000 erano di 2,0 2,5 e 3,0 milioni di lire. La variabilità tra i loro redditi era aumentata o diminuita?

Al 1950 le misure erano: mx1950=1500 x

1950=408,25 CVx1950=0,272

Al 2000 le misure erano: mx2000=2500000, x

2000=408250, CVx2000=0,163

Morale: gli stipendi sono incredibilmente cresciuti, ma alla fine le distanze tra le pensioni sono dimezzate!

Un esempio macro. Tra USA e Italia il reddito medio (non ponderato con le rispettive popolazioni) è 22135 $, la deviazione standard è 1185. Tra Egitto e Etiopia il reddito medio è 370 $, la deviazione standard è 250. La misura di dispersione tra i due paesi occidentali è quasi 5 volte superiore: possiamo dire che tra di loro la variabilità dei redditi nazionali è nettamente superiore a quella riscontrata tra i PVS?

In realtà è vero proprio il contrario! Infatti CVxPSA=1185/22135=0,053 che è

addirittura 13 volte inferiore a CVxPVS=250/370=0,676.

Page 10: LEZIONE A.9 La standardizzazione

Normalizzare un indicatore tra zero e uno

C’è un secondo modo per intendere il concetto di normalizzazione.

Un indice è normalizzato se è compreso tra un minimo e un massimo convenzionale, di facile percezione. Per esempio

0 I 1Questo rende possibili i confronti.

Se per un indice I si individuano un minimo e un massimo (IminIImax), l’indice è sempre trasformabile nel suo equivalente normalizzato

I*= I-Imin/Imax-Imin 0 I* 1

Esempio: Pippo si è diplomato al Liceo nel ‘94 con I1=40/60, suo fratello Pippetto pochi anni dopo con I2=65/100. Come confrontare i due risultati?

I*1=I1-Imin/Imax-Imin=40-36/60-36=0,167; I*2=65-60/100-60=0,125

Han fatto schifo tutti e due, ma Pippetto (anche se 65>40) ha fatto peggio!

Page 11: LEZIONE A.9 La standardizzazione

Normalizzare la varianzaÈ normalizzabile la varianza?

Mica tanto. Infatti è vero che cresce con l’ordine di grandezza (quindi in funzione di M(x), ma non è possibile definirne un massimo, salvo che si faccia una ipotesi (talora realistica, talora no) sul fenomeno studiato e si adotti un criterio particolare. Il criterio è:

“Confrontare una v.s. osservata esclusivamente con quelle altre

v.s. che abbiano la stessa intensità totale T=xi ni”.

x1 x2 .. xi .. xk

X =

n1 n2 .. ni .. nk

T=xi ni e m=T/N

La distribuzione comparabile Xmax a massima varianza è quella in cui (N-1) osservazioni hanno valore x=0, l’ultima ha valore xN=T

0 T=xi ni

X =

N-1 1

T=xi ni e m=T/N

Page 12: LEZIONE A.9 La standardizzazione

Distribuzione massimante

Esempio: un distretto industriale è composto di tre soli paesi, uno di 10 (mila) abitanti, uno di 20 (mila), uno di 60 (mila). La popolazione media è m=30, la varianza è 2=466,7, lo sd è =21,6. Come normalizzare 2 e ?

Calcoliamo m e per alcune varianti di X con popolazione totale costante.

X = {15, 15, 60} T=90 m=30 2=450 =21,21

X = {5, 5, 80} T=90 m=30 2=1250 =35,35

Xmax = {0, 0, 90} T=90 m=30 2=1800 =42,43

Nessuna distribuzione – a parità di T – ha varianza maggiore di Xmax. Chiamiamo Xmax “distribuzione massimante”.

Il rapporto tra la varianza della v.s. osservata e quella della cor-rispondente distribuzione massimante è una misura di Varianza normalizzata:

0 V* = V/Vmax 1 e 0 * = / max 1

Nell’esempio V* = 466,7/1800=0,259 e * = 21,6/42,43=0,509 = V*.

Page 13: LEZIONE A.9 La standardizzazione

Varianza della distribuzione massimante

Nell’esempio svolto c’è un parti-colare curioso. La varianza della distribuzione massimante è 2=1800 = 2 x 900 = (N-1) x m2.

E’ un caso? No, è un risultato generale che possiamo anche dimostrare:

0 T=xi ni

Xmax Distribuzione massimante

N-1 1

m= [0x(N-1)]+[Tx1]/N=T/N

m2=[02x(N-1)]+[T2x1]/N=T2/N2 max = (N-1) x m2

max = (N-1) x m

Ora possiamo normalizzare :

2 = /max = /((N-1)xm)=

= (/m)/(N-1)=CV/(N-1)

Ma allora il CV non era poi così male..

1

11

*)(*)(*)(

2*

2

2*

2

2

2

2

2222

212

Nm

N

NmN

N

NT

N

TTN

N

T

N

T

xmxmXV

x

x

Page 14: LEZIONE A.9 La standardizzazione

Quando la distribuzione massimante ha senso

Ricapitoliamo. Il massimo della varianza per caratteri trasferibili è quello che si ottiene simulando la distribuzione di massima variabilità o massimante: quella in cui (N–1) unità hanno intensità 0 del carattere e solo l'ultima unità (N–esima) concentra su di sé l'intensità totale T.

Per distribuzioni a pari Intensità totale T si trova che: 0x(N–1)mx

E si può quindi calcolare la deviazione standard normalizzata:

111

*0max

N

cv

Nmx

Naturalmente la normalizzazione della varianza ha senso quando ha senso ancorarsi alla Intensità totale T come ‘funzione obiettivo’, e immaginare di ‘trasferire’ parti dell’intensità totale T da una unità di osservazione all’altra. Ha senso, insomma, per caratteri trasferibili.

Trasferibile è ogni carattere quantitativo non negativo per cui abbia senso variare la distribuzione di frequenza osservata con-servando comunque immutata T.

Page 15: LEZIONE A.9 La standardizzazione

Quali caratteri sono trasferibili

Quali caratteri sono trasferibili? Per quali caratteri l’intensità totale ha un senso? Per esempio:

Redditi pro capite (PIL)

Popolazione per province (Popo-lazione di una regione/nazione)

Tempo a disposizione per Banca del tempo (‘capitale’ della Banca)

Ore di lezione per docente (monte ore di didattica)

Metri cubi di acqua erogata a ogni abitante (totale acqua erogata)..

Quali caratteri non sono trasferibili? Per quali caratteri l’intensità totale non ha senso? Per esempio:

Stature dei coscritti alla visita di leva

Q.I. di una classe

Numero di denti cariati rilevati ad un ambulatorio

Struttura per età di una popolazione di immigrati

Distribuzione dei voti a un test di ammissione..

Ma attenzione: anche se normalizzare la varianza vale in senso stretto solo per caratteri trasferibili, la si usa più in generale (almeno per caratteri non negativi). E’ infatti troppo comoda per comparare!

Page 16: LEZIONE A.9 La standardizzazione

Distribuzione massimante vincolata

Certo che la distribuzione massimante – ipotizzando che N-1 unità siano ridotte a zero e l’ultima ‘arraffi tutto il piatto’ – non è molto realistica! Noi ce la teniamo stretta perché la sua varianza è davvero semplice.

N

nLnlm Llx

"

Ma potremmo cercare una più realistica distribuzione massimante ‘vincolata’, in cui cioè le modalità si polarizzano tra le due modalità minima (l) e massima (L) effettivamente osservate: l xi L.

lLl nNnn

LlX "

In questo caso, per mantenere il vincolo della costanza di T,

si ricavano le frequenze della distribuzione massimante e Var(X”) diviene

2

""""""" 10)"(xxxxxxx mNmmmNmmmNXVar

Var(X") = (L – mx") x (mx" – l) Se poi l = 0 e L = N m = T si ritorna a:

Page 17: LEZIONE A.9 La standardizzazione

‘Ricondurre a norma’ una variabile

Fin qui abbiamo imparato a ‘normalizzare’ un singolo indicatore di sintesi di una v.s., come la varianza. Ma possiamo ora radicalizzare l’operazione.

Una v.s. è "standardizzata" se è stata "ricondotta a norma", steri-lizzando l'influenza di due fattori di disturbo: l'ordine di gran-dezza e l'unità di misura/dispersione. Per esempio, due distribuzioni di frequenza f(x) e f(y), apparentemente diverse, possono rivelarsi simili una volta che si prescinda dall'ordine di grandezza e dall'unità di misura.

La standardizzazione è dunque un'operazione che consente la com-parazione della forma di diverse distribuzioni di frequenza, prescindendo da ordine di grandezza e dispersione. Sappiamo che la media misura l’ordine di grandezza di una v.s. quantitativa, e che la deviazione stan-dard X misura l’unità standard di dispersione intorno alla media.

Chiamiamo standardizzazione di una v.s. X l'affiancamento alla sua legge di distribuzione di una trasformata Z:

i

x

xii

i

i

n

mxz

Zn

xX

Page 18: LEZIONE A.9 La standardizzazione

Una trasformata molto dotata

«mz=0». Sia allora: x

xii

mxz

01

1

1

)(

11

1

11

xxx

q

iix

q

iii

x

q

iixi

x

q

ii

x

xiq

iiiz

mm

fmfx

fmx

fmx

fzZEm

«Varz=1». Sia allora:x

xii

mxz

]1[ 1

1

z2

2

1

2

2

1

2

1

2

1

2

x

x

q

iixi

x

q

ii

x

xi

q

iii

q

iiziz

fmx

fmx

fzfmzV

Si dimostra che, qualunque sia la v.s. X, la sua standardizzata Z = (X – mx) / x ha sempre media nulla e varianza unitaria.

Page 19: LEZIONE A.9 La standardizzazione

Come standardizzare una variabile

xi fi xi fi

x1 f1 x1 f1

x2 f2 x2 f2

x3 f3 x3 f3

x4 f4 x4 f4

x5 f5 x5 f5

1 mX

xi2 fi

x12 f1

x22 f2

x32 f3

x42 f4

x52 f5

m2X

zi =(xi–mx)/X

z1=(x1–mx)/X

z2=(x2–mx)/X

z =(x3–mx)/X

z4=(x4–mx)/X

z5=(x5–mx)/X

fi zi fi

f1 z1 f1

f2 z2 f2

f3 z3 f3

f4 z4 f4

f5 z5 f5

1 0!!

zi2 fi

z12 f1

z22 f2

z32 f3

z42 f4

z52 f5

1!!Standardizzare una variabile è operazione sem-plice. Basta sostituire alle modalità xi le corri-spondenti modalità trasformate zi =(xi–mx)/X. Ad esse si affiancano le stesse numerosità (e frequenze) che non vengono toccate.

Potete verificare che m(x) è nulla, e che V(X), calcolata come (zi

2-0)fi=zi2fi, è proprio 1.

Attenti! Se la v.s. è per classi

le frequenze non cambiano, ma le

densità di frequenza sì.

Perché?

Page 20: LEZIONE A.9 La standardizzazione

Una verificaxi ni

0 4 mX= 4

4 2 VX= 12,8

8 4 X= 3,58

10

vi ni

5 4 mV= 9

9 2 VV= 12,8

13 4 V= 3,58

10

wi ni

0 4 mW= 8

8 2 VW= 51,2

16 4 W= 7,16

10

0

2

4

6

0

0

2

4

6

0

0

2

4

6

0

La nuova v.s. ‘standardizzata’ Z è ora ‘centrata’ sul baricentro Z=0, e ha media nulla e varianza (e sd) unitaria: M(z)=0; V(z)=Z=1

xi ni zi=(xi - mX )/ X zi.fi zi2 .fi

0 4 (0-4)/3,58=-1,1173 -0,447 0,5

4 2 (4-4)/3,58=0 0 0

8 4 (8-4)/3,58=+1,1173 0,447 0,5

0!! 1!!

0

2

4

6

-1,1173 0 1,1173

Page 21: LEZIONE A.9 La standardizzazione

Normalizzare , standardizzare X

Normalizzare un indicatore sintetico di una v.s. (per es. calcolando E* o CV) permette di confrontare tra loro popolazioni eterogenee nel complesso.

Standardizzare una v.s. invece consente di confrontare la posizione di distinte unità all’interno di due o più variabili (caratteri) distinti. Consente di rispondere a esigenze di confronto e a esigenze di associazione:

Confronto: Tizio ha avuto 50/60 al test intermedio, 52/60 al test finale. Quando è andato meglio, tenuto conto dell’esito di tutti gli esaminati nel complesso?

Associazione: alcuni hanno performances basse ai test. Avrà qualcosa a che fare con il loro basso tasso di tiroidina nel sangue?

Nel primo caso l’obiettivo è micro: il bersaglio da valutare è la singola unità di analisi.

Nel secondo caso invece lo scopo è, sì, spiegare la defaillance di Caio (obiettivo micro), ma così facendo si punta ad associare due variabili tra loro: performance e capacità fisica di concentrazione (obiettivo macro).

Page 22: LEZIONE A.9 La standardizzazione

Un esempio

età xi ni xi ni xi2 xi

2 ni

0-6 3 322 966 9 Comple tate voi i cal coli di que sta co lon na

6-14 10 507 5070 100

14-21 17,5 477 8347 306

21-25 23 218 5014 529

25-45 35 1282 44870 1225

45-65 55 1087 59785 3025

>65 75 703 52725 5625

4596 176777

Popolazione (x000) per età–Piemonte,1979

età xi ni xi ni xi2 xi

2 ni

0-6 3 603 1809 9 Comple tate voi i cal coli di que sta co lon na

6-14 10 827 8270 100

14-21 17,5 808 14140 306

21-25 23 351 8073 529

25-45 35 1366 47810 1225

45-65 55 1038 57090 3025

>65 75 531 39825 5625

5524 177017

Popolazione (x000) per età - Campania

DOMANDA: In Piemonte l’età media è mP=38,5 e P=22,5. In Campania mP=32 e P=22. E‘ più giovane un 25enne piemontese o un 20enne campano?

Se xP=25 zP=(25-38,5)/22,5=-0,60

Se xC=20 zC=(20-32)/22= -0,55

Il 25enne P ha età ‘relativamente’ minore

Page 23: LEZIONE A.9 La standardizzazione

Un secondo esempioni

MI

4

1

7

10

9

23

11

15

8

6

3

3

3

8

3

114

xi

0,4

1,0

1,4

1,8

2,2

2,6

3,0

3,4

3,8

4,2

4,6

5,0

5,6

7,0

10,0

ziMI

-1,591

-1,267

-1,051

-0,834

-0,618

-0,402

-0,186

0,030

0,246

0,463

0,679

0,895

1,220

1,976

3,598

niPIC

7

9

55

103

88

123

68

50

30

41

15

11

12

13

3

628

xi

0,4

1,0

1,4

1,8

2,2

2,6

3,0

3,4

3,8

4,2

4,6

5,0

5,6

7,0

10,0

ziPIC

-1,877

-1,408

-1,096

-0,783

-0,471

-0,158

0,154

0,467

0,779

1,092

1,404

1,717

2,185

3,279

5,623

mxMI=3,3438

xMI=1,85

mxPIC=2,8025

xPIC=1,28

Esempio: Mario Rossi, abitante a Milano, ha 12(mila) euro di entrate mensili, Paolo Verdi, di Misinto, ha solo 9(mila) euro. Chi è più ricco, nel proprio contesto?Se xi

MI=12 ziMI=(12-3,344)/1,85=4,68

Se xiPI

=9 ziPI=(9-2,802)/1,28=4,84

Dunque, benché Mario Rossi abbia entrate del 33% superiori a quelle di Paolo Verdi, quest’ultimo possiede un reddito ‘standardizzato’ maggio-re, se depurato dell’ordine di gran-dezza e della dispersione del proprio sottogruppo.

Page 24: LEZIONE A.9 La standardizzazione

Quanto possono pesare le code di una v.s.?

0

5

10

15

20

25

30

35

40

45

50

55

0 1 2 3 4 5 6 7 8 9 10 11 12 13 14

0

0 140

Torniamo alla distribuzione dei redditi dei piccoli comuni della provincia di Milano (cap. 3). Solo il 4,4% delle famiglie in-tervistate (28 su 628) oltre-passa una soglia di ricchezza che possiamo situare a m+2 [2,8+(2x1,28)=5,36].

Ma potremmo pensare a una distribuzione con un peso molto maggiore sulle code, cioè oltre le colonne d’Ercole di m+2 o m+3 ?

Supponiamo di omaggiare 50 delle 123 famiglie con reddito 2,4-2,8, dando loro 7,4(mila) euro in più. Ora esse entrano nell’ultima classe. Sopra i 5,36 euro troviamo ora 28+50=78 famiglie, cioè il 12,4%. Ma…

In realtà lo spostamento sulle code è solo apparente: infatti la nuova distri-buzione (potete calcolarla) ha media m=3,4 (più alta) e =2,33 (quasi il doppio), così che ora le colonne d’Er-cole si spostano a 8,06. Infatti:

m+2=3,4+(2x2,33)=8,06

Blu = Prima

Rosso=Dopo

Ora sopra la soglia stanno so-lo in 53, l’8,4%!

m+2 prima m+2 dopo

Page 25: LEZIONE A.9 La standardizzazione

(m±k) come ‘colonne d’Ercole’

Al crescere della dispersione intorno alla media, cresce anche la varianza: più di tanto quindi non aumenta il peso delle osservazioni che si situano al di fuori di una sorta di ‘colonne d’Ercole’ che delimitano la regione compresa tra (m-2) e (m+2), oppure tra (m-3) e (m+3) o anche più.

Ma quanto possono pesare (come frequenza) le osservazioni che cadono al di fuori delle colonne? E’ una domanda importante, perché fuori di queste colonne sta la regione dei casi anomali (chiamiamola regione di rifiuto), e perché – se dobbiamo fare una indagine su una popolazione e consideriamo un range definito mediante m e – abbiamo comunque interesse a inglobare una % la più consistente possibile..

m-k m m+k

Sarebbe bello avere la certezza che al di fuori di una certa soglia la frequenza dei casi osser-vati non superi un tetto, ovvero, se ci suona meglio, che entro una regione data intorno a m(x) stia almeno una certa % minima di casi…

Page 26: LEZIONE A.9 La standardizzazione

Il teorema di Cebicev

0

0,1

0,2

0,3

0,4

0,5

0,6

0,7

0,8

0,9

1

0 0,5 1 1,5 2 2,5 3 3,5 4 4,5 5

Se di una v.s. conosciamo solo m e e non l’intera distribuzione non possia-mo certo definire la frequenza di casi osservati in un certo intervallo centra-to sulla media, Freq(m-k<X<m+k):

Freq (|X-m|<k)= ?

Né posso sapere qual è la frequenza di osservare casi al di fuori dello stesso intervallo, Freq (|X-m|>k). Ma una informazione minimale ci viene dal teorema di Cebicevteorema di Cebicev:

Data una v.s. X di cui conosciamo m e Data una v.s. X di cui conosciamo m e , qualunque sia la forma , qualunque sia la forma della distribuzione, la frequenza di osservare unità comprese in un della distribuzione, la frequenza di osservare unità comprese in un intorno della media di ampiezza pari a 2kintorno della media di ampiezza pari a 2k non può essere non può essere inferiore a 1-(1/kinferiore a 1-(1/k22))

2

11k

kmXf Per es. entro ±2 sta almeno il 75% dei casi (fuori delle colonne non più del 25%).

Entro ±4,5 sta almeno il 95% dei casi (e fuori non più del 5% dei casi). Eccetera…

k

Freq (|X-m|<k)= 1–(1/k2)