39
Università degli Studi La Sapienza di Roma Facoltà di Ingegneria Corso di Laurea in Ingegneria Elettronica Programma didattico del corso di “Calcolo delle Probabilità” (5CFU-MAT/06) (Docente: Antonelli Angela – [email protected] ) - Valutazioni di probabilità in casi particolari - Probabilità non valutabili con i criteri usuali - Incertezza. Eventi. Operazioni sugli eventi - La probabilità come “grado di fiducia” - Additività della probabilità - Distribuzioni di probabilità - La valutazione combinatoria - I numeri aleatori semplici - La previsione (o valor medio) come generalizzazione della probabilità. La varianza - Covarianza e coefficiente di correlazione - La valutazione frequentista - Eventi condizionati e probabilità condizionata - Indipendenza stocastica - Distribuzioni binomiale e ipergeometrica - Numeri aleatori discreti - Distribuzione di Poisson - Distribuzione geometrica - Il teorema di Bayes e i test di ipotesi - Numeri aleatori continui - Distribuzione uniforme - Distribuzione esponenziale - Distribuzione beta - Distribuzione normale - Il teorema centrale - Funzione di ripartizione - Teoria dell'affidabilità - Vettori aleatori e distribuzioni marginali - Funzioni di vettore aleatorio - Rette di regressione - Indipendenza di numeri aleatori - Funzione caratteristica di una distribuzione. Convoluzione - Il problema dell'inferenza statistica - Campionamento. Stima di parametri e intervalli di confidenza Testo di riferimento: R.SCOZZAFAVA - Incertezza e Probabilita', Ed. Zanichelli, 2008 (esclusi i paragrafi contrassegnati con asterisco e il Capitolo 4)

Calcolo delle Probabilità - Varie (Antonelli)

Embed Size (px)

Citation preview

Page 1: Calcolo delle Probabilità - Varie (Antonelli)

Università degli Studi La Sapienza di Roma Facoltà di Ingegneria

Corso di Laurea in Ingegneria Elettronica

Programma didattico del corso di “Calcolo delle Probabilità” (5CFU-MAT/06)

(Docente: Antonelli Angela – [email protected])

- Valutazioni di probabilità in casi particolari - Probabilità non valutabili con i criteri usuali - Incertezza. Eventi. Operazioni sugli eventi - La probabilità come “grado di fiducia” - Additività della probabilità - Distribuzioni di probabilità - La valutazione combinatoria - I numeri aleatori semplici - La previsione (o valor medio) come generalizzazione della probabilità. La varianza - Covarianza e coefficiente di correlazione - La valutazione frequentista - Eventi condizionati e probabilità condizionata - Indipendenza stocastica - Distribuzioni binomiale e ipergeometrica - Numeri aleatori discreti - Distribuzione di Poisson - Distribuzione geometrica - Il teorema di Bayes e i test di ipotesi - Numeri aleatori continui - Distribuzione uniforme - Distribuzione esponenziale - Distribuzione beta - Distribuzione normale - Il teorema centrale - Funzione di ripartizione - Teoria dell'affidabilità - Vettori aleatori e distribuzioni marginali - Funzioni di vettore aleatorio - Rette di regressione - Indipendenza di numeri aleatori - Funzione caratteristica di una distribuzione. Convoluzione - Il problema dell'inferenza statistica - Campionamento. Stima di parametri e intervalli di confidenza Testo di riferimento: R.SCOZZAFAVA - Incertezza e Probabilita', Ed. Zanichelli, 2008 (esclusi i paragrafi contrassegnati con asterisco e il Capitolo 4)

Page 2: Calcolo delle Probabilità - Varie (Antonelli)

Università degli Studi La Sapienza di Roma Facoltà di Ingegneria A. A. 2009 - 2010

Corso di Laurea in Ingegneria Elettronica

Programma didattico del corso di “Calcolo delle Probabilità” (6CFU-MAT/06)

(Docente: Antonelli Angela – [email protected])

- Valutazioni di probabilità in casi particolari - Probabilità non valutabili con i criteri usuali - Incertezza. Eventi. Operazioni sugli eventi - La probabilità come “grado di fiducia” - Additività della probabilità - Distribuzioni di probabilità - La valutazione combinatoria - I numeri aleatori semplici - La previsione (o valor medio) come generalizzazione della probabilità. La varianza - Covarianza e coefficiente di correlazione - La valutazione frequentista - Eventi condizionati e probabilità condizionata - Indipendenza stocastica - Distribuzioni binomiale e ipergeometrica - Numeri aleatori discreti - Distribuzione di Poisson - Distribuzione geometrica - Il teorema di Bayes e i test di ipotesi - Numeri aleatori continui - Distribuzione uniforme - Distribuzione esponenziale - Distribuzione beta - Distribuzione normale - Il teorema centrale - Funzione di ripartizione - Teoria dell'affidabilità - Vettori aleatori e distribuzioni marginali - Funzioni di vettore aleatorio - Rette di regressione - Indipendenza di numeri aleatori - Funzione caratteristica di una distribuzione. Convoluzione - Il problema dell'inferenza statistica - Campionamento. Stima di parametri e intervalli di confidenza - Cenni di statistica descrittiva Testo di riferimento: R.SCOZZAFAVA - Incertezza e Probabilita', Ed. Zanichelli, 2008 (esclusi i paragrafi contrassegnati con asterisco e il Capitolo 4)

Page 3: Calcolo delle Probabilità - Varie (Antonelli)

31

Distribuzione di un carattere

Dopo le fasi di acquisizione e di registrazione dei dati, si passa al

loro controllo e quindi alle loro elaborazione.

Si definisce distribuzione unitaria semplice di un carattere

l’elencazione delle modalità osservate, unità per unità, nel

collettivo preso in esame.

Si definisce frequenza assoluta di una modalità di un carattere il

numero di volte che questa viene osservata sul collettivo.

Quando il collettivo in esame è numeroso una maggiore sintesi si

ottiene considerando la distribuzione di frequenza semplice

che associa alle modalità che può assumere un carattere X le

corrispondenti frequenze assolute.

Distribuzione di frequenza del carattere “scuola di provenienza”

Dato che le frequenze assolute dipendono dalla numerosità del

collettivo, quando si vogliono confrontare due o più collettivi

rispetto ad un carattere diventa significativo considerare le

frequenze relative.

Date N unità statistiche di cui nj presentano la j-esima modalità,

si definisce frequenza relativa j-esima il rapporto n

nf j

j = e

frequenza percentuale 100⋅= jj fp .

La somma di tutte le frequenze relative è uguale a 1, mentre la

somma delle frequenze percentuali è uguale a 100.

scuola di provenienza frequenza assoluta liceo scientifico 88liceo classico 23istituto tecnico 50istituto professionale 3Altre 18TOT 182

Page 4: Calcolo delle Probabilità - Varie (Antonelli)

32

quale tipo di prodotto pubblicizzato ti viene in mente per primo

categorie frequenza assoluta

Frequenza relativa frequenza %

auto 12 0,066 7%abbigliamento 11 0,060 6%prodotti alimentari 55 0,302 30%telefonia-teconologia informatica 35 0,192 19%detersivi 10 0,054 5%prodotto per l'igiene e cosmetici 17 0,093 9%elettrodomestici 2 0,010 1%altro 8 0,043 4%non hanno risposto 32 0,176 18%TOT 182 1 100%

Nel caso in cui il carattere in esame è qualitativo ordinato o

quantitativo, può essere interessante considerare la frequenza con

cui si presentano modalità di ordine inferiore o uguale ad una

certa modalità.

Dato un carattere X con Kmodalità ordinate in senso crescente, si

indica con jj nnnN +++= .....21 la frequenza assoluta

cumulata, con jj fffF +++= .....21 la frequenza relativa

cumulata e con jj pppP +++= .....21 la frequenza

percentuale cumulata.

Quando si misura un fenomeno nel tempo, registrandolo in

determinati istanti si ottiene una rappresentazione tabellare che

prende il nome di serie storica.

Page 5: Calcolo delle Probabilità - Varie (Antonelli)

33

Nel caso di un carattere geografico, le cui modalità

rappresentano nazioni, regioni, ripartizioni geografiche, città,.. la

distribuzione viene detta serie territoriale.

Rappresentazione grafica

I dati raccolti in tabelle possono risultare poco chiari e di difficile

interpretazione se le tabelle sono di grandi dimensioni e se i

caratteri considerati hanno un numero molto alto di modalità. Per

avere un’idea immediata e sintetica, anche se approssimata,

dell’andamento del carattere del fenomeno in esame risultano

indispensabili le rappresentazioni grafiche che può essere

effettuata utilizzando i grafici a nastri e a barre, istogrammi,

grafici a torta , grafici a radar , diagrammi cartesiani,

pictogrammi, cartogrammi.

Grafico a nastri

In questi grafici ogni frequenza viene rappresentata da un nastro

così da ottenere una successione di rettangoli aventi la stessa

altezza e le basi proporzionali alle frequenze. Questo tipo di

grafico è in genere utilizzato per rappresentare la distribuzione di

frequenza dei caratteri qualitativi sconnessi o ordinali.

acquisto di prodotti su suggerimentodi un messaggio pubblicitario

0% 10% 20% 30% 40% 50%

no

si, mess. Tv-radio

si, mess.giornali

si, mess internet

frequenze %

Page 6: Calcolo delle Probabilità - Varie (Antonelli)

34

Grafico a barre

In questi grafici ogni frequenza viene rappresentata da un nastro

così da ottenere una successione di rettangoli aventi la stessa

base e le altezze proporzionali alle frequenze. I grafici a barre

sono particolarmente adatti a rappresentare caratteri qualitativi

ordinati e quantitativi discreti in quanto le barre poste sull’asse

orizzontale consentono di cogliere meglio l’ordinamento delle

modalità.

grafico della distribuzione di frequenza del caratt ere "scuola di provenienza"

48%

13%

4%

27%

1%

5%

0% 10% 20% 30% 40% 50% 60%

liceo scientif ico

liceo classico

altro liceo

istituto tecnico

istituto professionale

altre

scuo

la d

i pr

oven

ienz

a

frequenza %

Titolo di studio più elevato tra i genitori

1%

14%

53%

32%

0%

10%

20%

30%

40%

50%

60%

nessun titolo oelementare

licenza media diploma scuolasuperiore

laurea

titoli di s tudio

freq

uenz

a %

Page 7: Calcolo delle Probabilità - Varie (Antonelli)

35

Se per uno stesso carattere si possono osservare due o più

distribuzioni semplici, allora è preferibile utilizzare i grafici a

barre multipli che permettono di rappresentare

contemporaneamente più distribuzioni semplici mettendo a

confronto per ciascuna modalità le diverse frequenze.

Grafico a torta

I grafici a torta sono particolarmente utili quando si vuole

1%

14%

53%

32%

0%

10%

20%

30%

40%

50%

60%

frequenza %

nessun t itolo oelementare

licenza media diploma scuolasuperiore

laurea

titolo di studio

titolo di studio più elevato tra i genitori

0%

10%

20%

30%

40%

50%

60%

70%

frequenza %

TV radio giornali internet

ambiti valutati

valutazione dell'affollamento pubblicitario

1 basso

2

3

4

5

6 alto

Page 8: Calcolo delle Probabilità - Varie (Antonelli)

36

rappresentare la distribuzione di frequenza di un carattere

qualitativo con poche modalità. La generica fetta è

completamente definita dall’angolo al centro corrispondente

dalla seguente proporzione: 360100

jj gp= con jp la percentuale

relativa alla j-esima modalità e jg i gradi dell’angolo

corrispondente.

In alcuni grafici si possono aggiungere la tridimensionalità e la

prospettiva. I grafici relativi a distribuzioni di frequenza

semplici tuttavia rimangono sostanzialmente bidimensionali,

giacchè la terza dimensione non aggiunge alcuna informazione al

grafico ma è solo un elemento estetico.

dove ascoltano la radio

in auto

46%

in casa

48%altro

6%

dove ascoltano la radio

in auto

46%

in casa

48%altro

6%

presenza in casa di un PC

si93%

no7%

Page 9: Calcolo delle Probabilità - Varie (Antonelli)

37

Istogrammi Se la distribuzione di frequenza riguarda un carattere

quantitativo specialmente se suddiviso in classi si può ottenere

una efficace rappresentazione mediante gli istogrammi.

L’istogramma è un grafico costituito da barre non distanziate

dove ogni barra possiede un’area proporzionale alla

corrispondente frequenza.

grafico della distribuzione di frequenza relativa

0%

10%

20%

30%

40%

50%

60%

70%

1971 1973 1975 1977 1979 1981 1983 1985Anno

freq

uenz

a re

lativ

a

Page 10: Calcolo delle Probabilità - Varie (Antonelli)

38

Grafico radar

I grafici radar sono molto utili quando il carattere è ciclico (mesi

dell’anno, giorni della settimana,..). Caratteri come vendite di un

prodotto per mese possono trovare un’adeguata rappresentazione

attraverso tali grafici.

ore in cui in media si utilizza Internet

0%

10%

20%

30%

40%

50%

60%

70%

meno di 1 ora da 1 a 2 ore più di 2 oreore

frequ

enza

%

pezzi venduti nell'anno 2004

0

20

40

60gennaio

febbraio

marzo

aprile

maggio

giugno

luglio

agosto

settembre

ottobre

novembre

dicembre

Page 11: Calcolo delle Probabilità - Varie (Antonelli)

39

Diagrammi cartesiani

I diagrammi cartesiani sono in genere utilizzati per le serie

temporali cioè per fenomeni che variano con continuità in

funzione del tempo.

Il grafico è costituito da una successione di punti, uniti da una

spezzata, individuati su un piano cartesiano.

libri venduti nella settimana

0

10

20

30

40

50lunedi

martedì

mercoledì

giovedìvenerdì

sabato

domenica

0

1

2

3

4

5

6

7

8

1994 1995 1996 1997 1998 1999 2000 2001 2002 2003 2004

anno

tass

i di i

nter

esse

Page 12: Calcolo delle Probabilità - Varie (Antonelli)

40

Pictogrammi

I pictogrammi sono grafici il cui scopo è di tipo essenzialmente

divulgativo. In essi si utilizzano figure, simboli, disegni, attinenti

al carattere considerato di dimensione o numero proporzionale

alle frequenze della distribuzione. Questi grafici, in genere, non

permettono una precisa valutazione del fenomeno ma si limitano

a rendere evidente qualche sua caratteristica.

Come appare dal grafico la dimensione delle bollicine ci da una

immediata ma non troppo chiara visione delle bottiglie di vino

più vendute in un certo anno. Dal grafico si capisce che sono

state più vendute bottiglie di chianti e nero d’Avola ma non si

possono trarre ulteriormente informazioni.

Analisi della distribuzione di un carattere

Come si è visto in precedenza, per descrivere l’andamento di un

carattere su un collettivo possiamo analizzare la distribuzione di

vini più venduti

barbera

nero d'avola

lambrusco

chianti

Page 13: Calcolo delle Probabilità - Varie (Antonelli)

41

frequenza o una sua opportuna rappresentazione grafica; in

alcuni casi, tuttavia, può essere sintetizzata da alcuni indici che

ne evidenziano le caratteristiche essenziali. Gli indici per la

descrizione sintetica di una distribuzione statistica rispondono a

diversi scopi e si usano per fornire informazioni approssimative

su “intorno a dove” si addensi la distribuzione, “in quale misura”

questo accada e se siano presenti asimmetrie.

Di seguito si prenderanno in esame le medie analitiche e le

medie di posizione che sintetizzano con un solo valore o una

sola modalità la distribuzione.

Medie analitiche

Nel caso in cui il carattere sia quantitativo, le medie più

frequentemente utilizzate sono la media aritmetica e la media

geometrica.

La media aritmetica di un insieme di n valori nxxxx ,........,,, 321

di un carattere X è pari alla somma dei valori divisi per il loro

numero.

∑=

=+++=n

iina x

nxxx

nM

121

1).......(

1

Se il carattere X è quantitativo discreto e conosciamo la sua

distribuzione di frequenza allora possiamo calcolare più

velocemente la media aritmetica come segue:

∑=

=k

jjja xfM

1

L'idea di base della media aritmetica è quella di equiripartire fra

le unità statistiche l'ammontare totale del carattere. Per questo ha

senso calcolare una media aritmetica se il carattere e' additivo.

Page 14: Calcolo delle Probabilità - Varie (Antonelli)

42

In alcuni casi, nel calcolo della media aritmetica si vuole dare

diversa importanza alle modalità del carattere attribuendo a

ognuna di esse uno specifico peso, cioè un valore che ne esalti o

ne diminuisca l’importanza.

La media aritmetica ponderata di un carattere quantitativi X

con K modalità x1, x2, x3, ……. xk, alle quali sono stati attribuiti i

pesi p1, p2, p3, ……., pk è data da:

=

==++++++

=k

ij

k

ijj

k

kna

p

px

ppp

pxpxpxM

1

1

21

2211

........

......

Esempio: calcolare la media di 1; 2; 3; 4; 5; 6; 7.

47

7654321 =++++++=aM

Esempio: Calcolare la media della distribuzione del numero di

auto possedute per famiglia.

N. auto 1 2 3 4 5 6 TOT

Frequenza assoluta 29 52 8 2 1 2 94

Il numero di auto complessivo e':

1 x 29 + 2 x 52 + 3 x 8 + 4 x 2+ 5 x 1 + 6 x 2 = 182

che ripartito fra i 94 nuclei famigliari dà Ma = 182/94 = 1,93

auto per famiglia

Esempio: Un collettivo di famiglie e' classificato secondo il

numero di figli. Trovare la media aritmetica della distribuzione

N. figli N. famiglie Frequenza relativa

0 10 0,125

1 40 0,500

2 30 0,375

Page 15: Calcolo delle Probabilità - Varie (Antonelli)

43

25,1375,025,01125,0080

302

80

21

80

100

80

302401100

=⋅+⋅+⋅=

=⋅+⋅+⋅=⋅+⋅+⋅=aM

proprietà :

1) la somma dei valori nxxxx ,........,,, 321 assunti da un insieme

di n unità statistiche è uguale al valor medio moltiplicato per il

numero di unità: ∑=

=n

iai nMx

1

2) la somma delle differenze tra i valori delle xi e la loro media

aritmetica è uguale a zero: ∑=

=−n

iai Mx

1

0)(

3) la somma degli scarti al quadrato dei valori xi da una costante

c è minima quando c è uguale alla media aritmetica. ∑=

−n

ii cx

1

2)(

è minimo per aMc =

4) se un collettivo di n unità statistiche viene suddiviso in L

sottoinsiemi di numerosità n1, n2, n3, ……. nL, tali che la loro

somma sia n, allora la media aritmetica generale è una media

ponderata delle medie dei sottoinsiemi con pesi uguali alla loro

numerosità.

5) Indicate con xm, e con xM, rispettivamente la più piccola e la

più grande modalità della distribuzione, allora: Mam xMx ≤≤

6) data la distribuzione di un carattere X con media aM se

moltiplichiamo ogni modalità per una costante a e aggiungiamo

una costante b, la media della distribuzione diventerà: baMa +

Un altro tipo di media analitica è la media geometrica,

utilizzabile nel caso in cui l’insieme delle modalità è costituito

da rapporti.

Page 16: Calcolo delle Probabilità - Varie (Antonelli)

44

La media geometrica di un insieme di n valori

nxxxx ,........,,, 321 di un carattere X è pari alla radice n-esima del

prodotto dei singoli valori: ng xxxM 321 ⋅⋅⋅⋅⋅⋅=

Se si dispone della distribuzione di frequenza del carattere X,

allora possiamo calcolare più velocemente la media geometrica

come segue: kfk

ffg xxxM ⋅⋅⋅⋅⋅⋅= 21

21

Proprietà:

1) [ ]ngn Mxxx =⋅⋅⋅⋅⋅ 21

2) ∑=

=n

iig x

nM

1

log1

log

3) se si trasformano i valori della X attraverso l’espressione

baXY = con a>0 allora bgg XMaYM ))(()( =

4) La media geometrica dei reciproci è uguale al reciproco della

media geometrica:

)(

1111111

212121 xMxxxxxxxxxxM

gn

n

n

n

n

ng =

⋅⋅⋅⋅⋅=

⋅⋅⋅⋅⋅=

⋅⋅⋅⋅⋅=

5) Dati due insiemi di misure: nxxxx ,........,,, 321 e

nyyyy ,........,,, 321 la media geometrica dei rapporti

n

n

y

x

y

x

y

x...,.........,

2

2

1

1 è uguale al rapporto fra le medie geometriche

delle misure:

nng xxxM ⋅⋅⋅⋅⋅⋅= 21 , n

ng yyyM ⋅⋅⋅⋅⋅⋅= 21

)(

)()(

21

21

2

2

1

1

yM

xM

yyy

xxx

y

x

y

x

y

x

y

xM

g

g

nn

nn

n

n

ng =

⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅

=⋅⋅⋅⋅⋅⋅=

Analoga proprietà vale, ovviamente, per il prodotto.

Page 17: Calcolo delle Probabilità - Varie (Antonelli)

45

OSS. La media aritmetica e la media geometrica sono indici

troppo sensibili ai valori estremi, un modo per diminuire l’effetto

di questi valori estremi è quello di effettuare il calcolo della

media solo sui valori centrali. La media così ottenuta viene detta

trimmed mean.

Ad esempio la trimmed mean al 50% di un carattere quantitativo

è la media aritmetica del 50% dei valori più centrali di un

insieme di modalità. Cioè nel calcolo della media aritmetica non

vengono considerati il 25% dei valori più piccoli e il 25% dei

valori più grandi.

Medie di posizione

Le medie analitiche si possono calcolare solo su carattere

quantitativi e sono sensibili ai valori estremi, una media più

“robusta” che può essere calcolata anche sui caratteri qualitativi

ordinabili è la mediana.

La mediana eM di un insieme di valori ordinate è la modalità

presentata dall’unità centrale, dove per unità centrale si intende

quell’unità che divide il collettivo in due parti di uguale

numerosità: una parte formata dalle unità che presentano una

modalità precedente o uguale a quella dell’unità centrale e una

parte formata dalle unità che presentano una modalità successiva

o uguale a quella dell’unità centrale.

Per calcolare la mediana è necessario procedere nel seguente

modo:

si ordinano gli n valori in senso crescente,

se n è dispari la mediana è: 2

1+= ne xM ;

Page 18: Calcolo delle Probabilità - Varie (Antonelli)

46

se n è pari la mediana è:

+=

+1222

1nne xxM .

Proprietà:

1) ∑=

−n

ii cx

1

2è minima per eMc =

La mediana è quel valore che divide in due parti uguali l’insieme

dei valori ordinate per grandezza, se invece dividiamo la

distribuzione in cento parti, ognuna delle quali contiene lo stesso

numero di valori, chiamiamo i valori di suddivisione percentili.

Pertanto possiamo definire la mediana come il 50-esimo

percentile detto secondo quartine,; i percentili di uso più comune

sono il 25-esimo e il 75-esimo percentile detti primo (Q1) e

terzo quartine (Q3) che insieme alla mediana dividono la

distribuzione in quattro parti uguali

)(2

11

44

1+

+= nn xxQ e )(2

11

4

3

4

33+

+= nn xxQ

Un’altra media di posizione è la moda che può essere calcolata

per qualsiasi tipo di carattere quantitativi e qualitativi.

La moda è la modalità della distribuzione che si presenta con la

massima frequenza.

Page 19: Calcolo delle Probabilità - Varie (Antonelli)

47

Variabilità

La statistica si occupa di analizzare quei fenomeni che tendono a

presentare diverse modalità, pertanto si pone il problema di

misurare la variabilità di un fenomeno in corrispondenza di un

determinato collettivo osservato. La variabilità di una

distribuzione esprime la tendenza delle unità di un collettivo ad

assumere diverse modalità del carattere.

Un indice di variabilità deve soddisfare almeno due requisiti:

deve assumere il suo valore minimo se e solo se tutte le unità

della distribuzione presentano uguale modalità del carattere;

deve incrementare il suo valore all’aumentare della dispersione

di una modalità attorno a un valore caratteristico della

distribuzione. Tra gli indici di variabilità per caratteri quantitativi

che mettano a confronto le modalità con un valore caratteristico

della distribuzione, molto usati sono quelli che considerano le

diversità dalla media aritmetica.

La varianza di un insieme di valori nxxxx ,........,,, 321 di una

variabile X con media Ma è un indice usato per misurare la

dispersione, cioè l’addensamento maggiore (poca dispersione) o

minore (molta dispersione), dei valori attorno alla media

aritmetica ed è definito come segue:

( )∑=

−=n

iai Mx

n 1

22 1σ

se è nota la distribuzione di frequenza di una variabile X con k

modalità, la varianza si calcola come segue:

( ) ∑∑==

−=−=k

jjaj

k

jjai fMxnMx

n 1

2

1

22 )(1σ

OSS. Nella varianza la differenza (xi - Ma) tra una modalità e la

media aritmetica viene elevata al quadrato perché così tutte le

Page 20: Calcolo delle Probabilità - Varie (Antonelli)

48

differenze diventano positive e inoltre le differenze più grandi

sono messe in maggior risalto.

Proprietà 1) la varianza è nulla solo quando tutte le differenze (xi - Ma)

sono nulle e quindi quando tutte le modalità sono uguali al

valore medio

2) una formula equivalente per calcolare la varianza è:

∑=

−=n

iai Mx

n 1

222 1σ

2) la varianza di un carattere Y ottenuto attraverso la

trasformazione βα += XY di un carattere X di media Ma e

varianza σ2 è: 22)( σα=YVar

Osserviamo che un cambiamento della scala delle misure che

trasforma xj in kxj trasforma σ2 in k 2σ2; pertanto la varianza non è

un indice omogeneo. Data l’opportunità di utilizzare indici di

dispersione omogenei si fa quindi uso della radice quadrata della

varianza, detto deviazione standard o scarto quadratico

media: 2σσ =

Utilizzando lo scarto standard ci si riconduce ad un indice di

variabilità espresso nella stessa unità di misura della variabile

considerata. Come per la varianza, maggiore è la variabilità dei

valori di un insieme di dati e maggiore è la deviazione standard,

la quale assume valore nullo solo nel caso in cui tutti i valori

siano uguali.

La deviazione standard risente oltre che dell’unità di misura

anche dell’ordine di grandezza dei dati, pertanto essa non

consente di eseguire confronti tra la variabilità di fenomeni che

presentano unità di misura diverse e che possiedono valori medi

molto diversi come la distribuzione del peso di un collettivo di

bambini con quella di un collettivo di adulti. Questi

Page 21: Calcolo delle Probabilità - Varie (Antonelli)

49

inconvenienti vengono superati se si utilizza il coefficiente di

varianza:

100aM

CVσ=

Altre misure di variabilità sono gli scarti semplici medi che si

ottengono come media aritmetica delle differenze, in valore

assoluto, tra i valori osservati nxxxx ,........,,, 321 di una variabile

X e una media. A seconda della media scelta si può ottenere uno

specifico scarto semplice medio. Per esempio, se come media

scegliamo la media aritmetica Ma, si ha lo scarto semplice

medio dalla media aritmetica:

∑=

−=n

iaiM Mx

nS

a1

1

Come la deviazione standard, anche questo indice di dispersione

è omogeneo e si annulla solo quando tutte le unità presentano la

stessa modalità.

Se consideriamo le differenze dalla mediana Me otteniamo lo

scarto semplice medio dalla mediana:

∑=

−=n

ieiM Mx

nS

e1

1

Risulta che scarto semplice medio dalla media aritmetica è

sempre minore o uguale allo scarto semplice medio dalla

mediana; inoltre scarto semplice medio dalla media aritmetica è

minore o uguale dalla deviazione standard.

A volte si applica una trasformazione lineare ai dati originari

nxxxx ,........,,, 321 , detta standardizzazione che produce nuovi

dati nyyyy ,........,,, 321 con σ

aii

Mxy

−= che hanno valore

medio nullo e varianza unitaria.

Page 22: Calcolo delle Probabilità - Varie (Antonelli)

50

Fino a questo punto ci siamo occupati di distribuzioni di

frequenza noti e si sono cercati gli indici che sintetizzassero tale

distribuzioni, ma potrebbe accadere che non si conosca la

distribuzione di frequenza e invece siano noti la media e la

deviazione standard di tale distribuzione, allora ci si chiede quali

informazioni forniscono congiuntamente tali indici. A questo

scopo ci viene in soccorso il teorema di Chebyshev.

Data una distribuzione di valori nxxxx ,........,,, 321 dei quali si

conoscono la media Ma e la deviazione standard σσσσ e dato un

valore reale positivo k, risulta: ( )2

1

kkxxf i ≤≥− σ

Questo teorema afferma che, dato un carattere di cui si

conoscono solamente la media aritmetica e la deviazione

standard, la frequenza relativa delle unità che presentano valori

esterni a un intervallo simmetrico rispetto alla media non può

essere superiori a una certa quantità

Altri indici di variabilità sono indici che si basano sul confronto

di due valori caratteristici della distribuzione come il campo di

variazione e la differenza interquartile.

Dato un insieme di n valori nxxxx ,........,,, 321 ordinati in senso

crescente, si definisce campo di variazione la differenza tra il

più grande e il più piccolo di tali valori: 1xxR n −=

Può accadere che i valori estremi siano dei valori anomali

ottenendo una variabilità poco attendibile.

Si definisce differenza interquartile la differenza tra il terzo e il

primo quartine: 13 QQW −=

Di seguito riporto le tabelle della distribuzione di frequenze e

delle medie e degli indici di variabilità relative alle variabili

Page 23: Calcolo delle Probabilità - Varie (Antonelli)

51

quantitativa discrete “ numero di TV presenti in casa” e “ore di

lavoro a settimana”

N. di TV presenti in casa

14 6,4 7,9 7,9

41 18,8 23,0 30,9

54 24,8 30,3 61,2

53 24,3 29,8 91,0

11 5,0 6,2 97,2

5 2,3 2,8 100,0

178 81,7 100,0

2 ,9

38 17,4

40 18,3

218 100,0

1

2

3

4

5

6

Totale

Validi

0

Mancante di sistema

Totale

Mancanti

Totale

Frequenza PercentualePercentuale

validaPercentuale

cumulata

tabella della distribuzione di frequenze del carattere “ numero di TV

presenti in casa”

Statistiche

N. di TV presenti in casa178

40

3,12

3,00

3

1,156

1,336

5

1

6

2,00

3,00

4,00

Validi

Mancanti

N

Media

Mediana

Moda

Deviazione std.

Varianza

Intervallo

Minimo

Massimo

25

50

75

Percentili

tabella degli indici relativi alla variabile quantitativa discreta “ numero di

TV presenti in casa”

Page 24: Calcolo delle Probabilità - Varie (Antonelli)

52

ore di lavoro a settimana

3 1,4 7,0 7,0

1 ,5 2,3 9,3

2 ,9 4,7 14,0

7 3,2 16,3 30,2

2 ,9 4,7 34,9

4 1,8 9,3 44,2

5 2,3 11,6 55,8

3 1,4 7,0 62,8

1 ,5 2,3 65,1

1 ,5 2,3 67,4

1 ,5 2,3 69,8

2 ,9 4,7 74,4

2 ,9 4,7 79,1

1 ,5 2,3 81,4

2 ,9 4,7 86,0

2 ,9 4,7 90,7

2 ,9 4,7 95,3

1 ,5 2,3 97,7

1 ,5 2,3 100,0

43 19,7 100,0

49 22,5

126 57,8

175 80,3

218 100,0

1

2

3

4

5

6

8

10

12

14

17

20

24

25

30

37

40

42

45

Totale

Validi

0

Mancante di sistema

Totale

Mancanti

Totale

Frequenza PercentualePercentuale

validaPercentuale

cumulata

tabella della distribuzione di frequenza del carattere “ ore di lavoro a

settimana”

Statistiche

ore di lavoro a settimana43

175

13,95

8,00

4

13,194

174,093

44

1

45

4,00

8,00

24,00

Validi

Mancanti

N

Media

Mediana

Moda

Deviazione std.

Varianza

Intervallo

Minimo

Massimo

25

50

75

Percentili

tabella degli indici relativi alla variabile quantitativa discreta “ ore di lavoro

a settimana”

Page 25: Calcolo delle Probabilità - Varie (Antonelli)

53

Ottenute le medie e gli indici di variabilità, esiste un grafico

detto box plot che rappresenta la distribuzione avvalendosi di tali

misure.

Il box plot di una distribuzione è un grafico caratterizzato da tre

elementi principali:

a) una linea che indica la posizione della media della

distribuzione;

b) un rettangolo la cui altezza indica la variabilità dei valori

prossimi alla media

c) due segmenti che partono dai lati maggiori del rettangolo

e i cui estremi sono determinati in base ai valori estremi

della distribuzione.

Un box plot molto utilizzato è quello che ha come media la

mediana, come altezza del rettangolo la distanza interquartile e

come estremi dei sementi il valore minimo e massimo della

distribuzione.

Max=6, Min=1, Q1=2, Q3=4, Mediana=3

Page 26: Calcolo delle Probabilità - Varie (Antonelli)

54

Box plot relativa alla distribuzione di frequenza del carattere

quantitativo discreto “ numero di TV presenti in casa”

0

10

20

30

40

ore

di l

avo

ro a

set

tim

ana

Max=45, min=1, Q1=4, Q3=24, Mediana=8

Box plot relativa alla distribuzione di frequenza del carattere quantitativo discreto “ ore di lavoro a settimana”

Page 27: Calcolo delle Probabilità - Varie (Antonelli)

Statistica descrittiva

1. Da un collettivo di 20 individui si è rilevata la seguente distribuzione relativa ai caratteri “età”, “sesso”, “numero di automibili possedute”:

unità 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20

Età 35 37 59 54 44 38 62 71 56 60 33 46 41 53 38 55 50 63 35 51

Sesso M M F M F M F F M M M F F M F M M M F M

N. auto

1 2 1 0 2 1 1 0 3 2 2 4 3 1 1 2 3 0 1 2

- si costruiscano le distribuzioni di frequenza semplici per i caratteri “sesso”e “N. auto” - si consideri il carattere “età” suddiviso nelle seguenti classi: [30, 39]; [40, 49]; [50, 59];

[60+] , e si costruiscano le corrispondenti distribuzioni di frequenza assolute, relative e percentuali.

- Rappresentare mediante i grafici ritenuti più idonei le distribuzioni di frequenze del sesso, del numero di automobili e dell’età suddivisa in classi.

Soluzione Sesso Freq. assoluta freq. relativa Freq.percentualeM 12 0,6 60%F 8 0,4 40%tot 20 1 100% N.auto Freq. assoluta freq. Relativa Freq.percentuale

0 3 0,15 15%1 7 0,35 35%2 6 0,3 30%3 3 0,15 15%4 1 0,05 5%

tot 20 1 100% età Freq. assoluta freq. Relativa Freq.percentuale30-39 6 0,3 30%40-49 3 0,15 15%50-59 7 0,35 35%60+ 4 0,2 20%tot 20 1 100%

Page 28: Calcolo delle Probabilità - Varie (Antonelli)

Sesso

M60%

F40%

N.auto

15%

35%

30%

15%

5%0%5%

10%15%20%25%30%35%

0

1

23

4

Età

30%

15%

35%

20%

0%

5%

10%

15%

20%

25%

30%

35%

40%

30-39 40-49 50-59 60+

Page 29: Calcolo delle Probabilità - Varie (Antonelli)

2. La seguente tabella riporta le votazioni ottenute da una classe alla fine di un corso universitario

Voto 18 19 20 21 22 23 24 25 26 27 28 29 30 totale N. studenti 7 2 5 1 3 2 12 1 8 4 6 1 5 57

- Calcolare la distribuzione delle frequenze cumulate relative del “voto”. - Calcolare la distribuzione delle frequenze cumulate relative avendo suddiviso il

carattere nelle seguenti classi: 18-22, 23-24, 25-26, 27-28, 29-30. - Disegnare i grafici della distribuzione di frequenza percentuale. - Quanti sono gli studenti che hanno ottenuto un voto inferiore o uguale a 26? - Quanti sono gli studenti che hanno ottenuto un voto non superiore a 24?

Voto freq.assoluta freq.relativafreq.percentualefreq. cumulata

18 7 0,12 12% 719 2 0,04 4% 920 5 0,09 9% 1421 1 0,02 2% 1522 3 0,05 5% 1823 2 0,04 4% 2024 12 0,21 21% 3225 1 0,02 2% 3326 8 0,14 14% 4127 4 0,07 7% 4528 6 0,11 11% 5129 1 0,02 2% 5230 5 0,09 9% 57

57 1 100% voto freq.assoluta freq.cumulata18-22 18 1823-24 14 3225-26 9 4127-28 10 5129-30 6 57tot 57 Gli studenti che hanno ottenuto un voto inferiore o uguale a 26 sono 41. Gli studenti che hanno ottenuto un voto non superiore a 24 sono 32.

Page 30: Calcolo delle Probabilità - Varie (Antonelli)

Voto

0% 5% 10% 15% 20% 25%

18192021222324252627282930

3. Per i primi 15 giorni di un mese viene rilevato il ritardo (espresso in minuti) accumulato da un determinato treno rispetto all’orario previsto di arrivo. Di seguito sono riportati i dati rilevati, che presentano segno negativo nel caso di anticipo sull’orario di arrivo:

giorno 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 ritardo 10 15 -2 0 50 20 0 9 -5 8 10 20 6 10 -10

- Calcolare la moda, la mediana, la media aritmetica, la varianza e lo scarto quadratico medio della distribuzione.

- Dopo aver raggruppato le osservazioni relative ai primi 15 giorni del mese nelle classi: [-10, 0]; ]0, 10]; ]10, 60] calcolare media e varianza in questa nuova situazione.

Soluzione media 9,4mediana 9moda 10varianza 187,3 scarto quadratico medio 13,7 La media risente dei valori estremi, nel nostro caso è condizionata dal valore 50.

ritardo media mediana varianza

scarto quadratico medio

[-10, 0] -3,4 -2 14,2 3,8]0, 10] 8,8 9,5 2,1 1,5]10, 60] 26,3 20 192,2 13,9

Page 31: Calcolo delle Probabilità - Varie (Antonelli)

4. Per otto famiglie viene rilevato il risparmio medio annuo (espresso in migliaia di euro) come segue:

Famiglia A B C D E F G H risparmio 0.5 5 2.6 0 9.2 3 5.4 6.3

- Determinare la media, la varianza, e la mediana. - Supponendo che la variabile “risparmio” assuma valori nell’intervallo [0, 10];

sintetizzare la serie osservata in una distribuzione con quattro classi di frequenza, tutte della stessa ampiezza e con estremo superiore incluso, e determinare i valori assunti in questo caso dalla media e dalla varianza delle otto osservazioni.

- Supponendo che si rendano disponibili le informazioni per altre due famiglie, rispetto alle quali il carattere considerato presenta media pari a 5 e devianza pari a 2, determinare la media e devianza del carattere per il complesso delle 8+2=10 famiglie. (Si definisce

devianza il numero ∑=

−n

ii xx

1

2)( )

5. La distribuzione di 40 individui secondo il numero di battiti cardiaci al minuto (variabile X)

è la seguente intrvalli 44-54 54-58 58-62 62-66 totale Frequenza assoluta ni 8 10 14 8 40

- Determinare media aritmetica e varianza della distribuzione. - Sapendo che tra i 40 individui vi sono 10 sportivi e che per questi si registrano mediamente 51 battiti al minuto, con varianza pari a 16.1, determinare media e varianza del carattere X per i rimanenti 30 individui.

6. Consideriamo le “Importazioni” e le “Esportazioni” (in migliaia di milioni di dollari) dei paesi partecipanti all’Organizzazione per la Cooperazione e lo Sviluppo Economico (OCSE) avvenute nel 1986:

Paese Importazioni EsportazioniDanimarca 22,8 21,2 Irlanda 11,6 12,6 Inghilterra 126,2 107 Olanda 75,4 80,6 Belgio 68,5 68,6 Germania 189,7 242,4 Francia 128,8 119,3 Italia 100 97,5 Spagna 34,9 27,1 Portogallo 9.4 7,2 Grecia 11,3 5,6 Islanda 1,1 1,1 Norvegia 20,3 18,2 Svezia 32,5 37,2 Finlandia 15,3 16,3 Svizzera 40,9 37,3

Page 32: Calcolo delle Probabilità - Varie (Antonelli)

Austria 26,7 22,4 Turchia 11,1 7,4 USA 370 217,3 Canada 81,3 86,7 Giappone 127,7 210,8

- Calcolare il baricentro - Costruire il grafico di dispersione delle variabili “Importazioni” rispetto “Esportazioni” - Costruire la retta di regressione delle “Importazioni” rispetto alle “Esportazioni”

Importazioni

050

100150200250300350400

Danim

arca

Irland

a

Inghil

terra

OlandaBelg

io

German

ia

FranciaIta

lia

Spagn

a

Portog

allo

Grecia

Islan

da

Norveg

ia

Svezia

Finlan

dia

Svizze

ra

Austria

TurchiaUSA

Canad

a

Giappo

ne

Esportazioni

0

50

100

150

200

250

300

Danim

arca

Irland

a

Inghil

terra

OlandaBelg

io

German

ia

FranciaIta

lia

Spagn

a

Portog

allo

Grecia

Islan

da

Norveg

ia

Svezia

Finlan

dia

Svizze

ra

Austria

TurchiaUSA

Canad

a

Giappo

ne

Page 33: Calcolo delle Probabilità - Varie (Antonelli)

Importazione-Esportazione

y = 0,759x + 14,665R2 = 0,7736

050

100150200250300350

0 100 200 300 400

importazioni

espo

rtaz

ioni

7. Consideriamo il “peso” (in kg) e l “altezza” (in cm) di 10 individui riportati nella seguente tabella

Peso 56 66 84 61 73 90 70 61 75 82 altezza 161 165 186 162 172 191 181 164 179 184

- Costruire il grafico di dispersione per i due caratteri. - Determinare la retta di regressione che pone l’”altezza” in funzione del “peso”.

8. In un’indagine statistica è stato chiesto a 29 madri, occupate come libere professioniste, di indicare il “N. di figli” e il “N. di ore di lavoro casalingo” svolto giornalmente:

Madre N. figli N. ore di lavoro

casalingo 1 1 1 2 1 2 3 1 3 4 1 5 5 2 3 6 2 1 7 3 5 8 3 1 9 4 6 10 4 3 11 5 7 12 5 4 13 1 4 14 1 2 15 1 1 16 2 4 17 2 5 18 3 5 19 3 4 20 3 4

Page 34: Calcolo delle Probabilità - Varie (Antonelli)

21 4 5 22 5 5 23 5 5 24 4 2 25 4 2 26 2 4 27 1 5 28 2 1 29 3 2

- Costruire il grafico di dispersione per i due caratteri. - Stimare la retta di regressione che considera il “N. di ore di lavoro casalingo”in funzione

del “N. di figli”. - riportare la retta di regressione sul grafico. - commentare la relazione tra i due caratteri in base ai risultati precedenti.

Page 35: Calcolo delle Probabilità - Varie (Antonelli)

Distribuzione Binomiale

Page 36: Calcolo delle Probabilità - Varie (Antonelli)

Distribuzione Esponenziale

Page 37: Calcolo delle Probabilità - Varie (Antonelli)

Distribuzione Normale Standard

Page 38: Calcolo delle Probabilità - Varie (Antonelli)

Distribuzione Normale

Page 39: Calcolo delle Probabilità - Varie (Antonelli)

Distribuzione Beta