View
518
Download
0
Category
Preview:
Citation preview
Università degli Studi La Sapienza di Roma Facoltà di Ingegneria
Corso di Laurea in Ingegneria Elettronica
Programma didattico del corso di “Calcolo delle Probabilità” (5CFU-MAT/06)
(Docente: Antonelli Angela – antonelli@dmmm.uniroma1.it)
- Valutazioni di probabilità in casi particolari - Probabilità non valutabili con i criteri usuali - Incertezza. Eventi. Operazioni sugli eventi - La probabilità come “grado di fiducia” - Additività della probabilità - Distribuzioni di probabilità - La valutazione combinatoria - I numeri aleatori semplici - La previsione (o valor medio) come generalizzazione della probabilità. La varianza - Covarianza e coefficiente di correlazione - La valutazione frequentista - Eventi condizionati e probabilità condizionata - Indipendenza stocastica - Distribuzioni binomiale e ipergeometrica - Numeri aleatori discreti - Distribuzione di Poisson - Distribuzione geometrica - Il teorema di Bayes e i test di ipotesi - Numeri aleatori continui - Distribuzione uniforme - Distribuzione esponenziale - Distribuzione beta - Distribuzione normale - Il teorema centrale - Funzione di ripartizione - Teoria dell'affidabilità - Vettori aleatori e distribuzioni marginali - Funzioni di vettore aleatorio - Rette di regressione - Indipendenza di numeri aleatori - Funzione caratteristica di una distribuzione. Convoluzione - Il problema dell'inferenza statistica - Campionamento. Stima di parametri e intervalli di confidenza Testo di riferimento: R.SCOZZAFAVA - Incertezza e Probabilita', Ed. Zanichelli, 2008 (esclusi i paragrafi contrassegnati con asterisco e il Capitolo 4)
Università degli Studi La Sapienza di Roma Facoltà di Ingegneria A. A. 2009 - 2010
Corso di Laurea in Ingegneria Elettronica
Programma didattico del corso di “Calcolo delle Probabilità” (6CFU-MAT/06)
(Docente: Antonelli Angela – antonelli@dmmm.uniroma1.it)
- Valutazioni di probabilità in casi particolari - Probabilità non valutabili con i criteri usuali - Incertezza. Eventi. Operazioni sugli eventi - La probabilità come “grado di fiducia” - Additività della probabilità - Distribuzioni di probabilità - La valutazione combinatoria - I numeri aleatori semplici - La previsione (o valor medio) come generalizzazione della probabilità. La varianza - Covarianza e coefficiente di correlazione - La valutazione frequentista - Eventi condizionati e probabilità condizionata - Indipendenza stocastica - Distribuzioni binomiale e ipergeometrica - Numeri aleatori discreti - Distribuzione di Poisson - Distribuzione geometrica - Il teorema di Bayes e i test di ipotesi - Numeri aleatori continui - Distribuzione uniforme - Distribuzione esponenziale - Distribuzione beta - Distribuzione normale - Il teorema centrale - Funzione di ripartizione - Teoria dell'affidabilità - Vettori aleatori e distribuzioni marginali - Funzioni di vettore aleatorio - Rette di regressione - Indipendenza di numeri aleatori - Funzione caratteristica di una distribuzione. Convoluzione - Il problema dell'inferenza statistica - Campionamento. Stima di parametri e intervalli di confidenza - Cenni di statistica descrittiva Testo di riferimento: R.SCOZZAFAVA - Incertezza e Probabilita', Ed. Zanichelli, 2008 (esclusi i paragrafi contrassegnati con asterisco e il Capitolo 4)
31
Distribuzione di un carattere
Dopo le fasi di acquisizione e di registrazione dei dati, si passa al
loro controllo e quindi alle loro elaborazione.
Si definisce distribuzione unitaria semplice di un carattere
l’elencazione delle modalità osservate, unità per unità, nel
collettivo preso in esame.
Si definisce frequenza assoluta di una modalità di un carattere il
numero di volte che questa viene osservata sul collettivo.
Quando il collettivo in esame è numeroso una maggiore sintesi si
ottiene considerando la distribuzione di frequenza semplice
che associa alle modalità che può assumere un carattere X le
corrispondenti frequenze assolute.
Distribuzione di frequenza del carattere “scuola di provenienza”
Dato che le frequenze assolute dipendono dalla numerosità del
collettivo, quando si vogliono confrontare due o più collettivi
rispetto ad un carattere diventa significativo considerare le
frequenze relative.
Date N unità statistiche di cui nj presentano la j-esima modalità,
si definisce frequenza relativa j-esima il rapporto n
nf j
j = e
frequenza percentuale 100⋅= jj fp .
La somma di tutte le frequenze relative è uguale a 1, mentre la
somma delle frequenze percentuali è uguale a 100.
scuola di provenienza frequenza assoluta liceo scientifico 88liceo classico 23istituto tecnico 50istituto professionale 3Altre 18TOT 182
32
quale tipo di prodotto pubblicizzato ti viene in mente per primo
categorie frequenza assoluta
Frequenza relativa frequenza %
auto 12 0,066 7%abbigliamento 11 0,060 6%prodotti alimentari 55 0,302 30%telefonia-teconologia informatica 35 0,192 19%detersivi 10 0,054 5%prodotto per l'igiene e cosmetici 17 0,093 9%elettrodomestici 2 0,010 1%altro 8 0,043 4%non hanno risposto 32 0,176 18%TOT 182 1 100%
Nel caso in cui il carattere in esame è qualitativo ordinato o
quantitativo, può essere interessante considerare la frequenza con
cui si presentano modalità di ordine inferiore o uguale ad una
certa modalità.
Dato un carattere X con Kmodalità ordinate in senso crescente, si
indica con jj nnnN +++= .....21 la frequenza assoluta
cumulata, con jj fffF +++= .....21 la frequenza relativa
cumulata e con jj pppP +++= .....21 la frequenza
percentuale cumulata.
Quando si misura un fenomeno nel tempo, registrandolo in
determinati istanti si ottiene una rappresentazione tabellare che
prende il nome di serie storica.
33
Nel caso di un carattere geografico, le cui modalità
rappresentano nazioni, regioni, ripartizioni geografiche, città,.. la
distribuzione viene detta serie territoriale.
Rappresentazione grafica
I dati raccolti in tabelle possono risultare poco chiari e di difficile
interpretazione se le tabelle sono di grandi dimensioni e se i
caratteri considerati hanno un numero molto alto di modalità. Per
avere un’idea immediata e sintetica, anche se approssimata,
dell’andamento del carattere del fenomeno in esame risultano
indispensabili le rappresentazioni grafiche che può essere
effettuata utilizzando i grafici a nastri e a barre, istogrammi,
grafici a torta , grafici a radar , diagrammi cartesiani,
pictogrammi, cartogrammi.
Grafico a nastri
In questi grafici ogni frequenza viene rappresentata da un nastro
così da ottenere una successione di rettangoli aventi la stessa
altezza e le basi proporzionali alle frequenze. Questo tipo di
grafico è in genere utilizzato per rappresentare la distribuzione di
frequenza dei caratteri qualitativi sconnessi o ordinali.
acquisto di prodotti su suggerimentodi un messaggio pubblicitario
0% 10% 20% 30% 40% 50%
no
si, mess. Tv-radio
si, mess.giornali
si, mess internet
frequenze %
34
Grafico a barre
In questi grafici ogni frequenza viene rappresentata da un nastro
così da ottenere una successione di rettangoli aventi la stessa
base e le altezze proporzionali alle frequenze. I grafici a barre
sono particolarmente adatti a rappresentare caratteri qualitativi
ordinati e quantitativi discreti in quanto le barre poste sull’asse
orizzontale consentono di cogliere meglio l’ordinamento delle
modalità.
grafico della distribuzione di frequenza del caratt ere "scuola di provenienza"
48%
13%
4%
27%
1%
5%
0% 10% 20% 30% 40% 50% 60%
liceo scientif ico
liceo classico
altro liceo
istituto tecnico
istituto professionale
altre
scuo
la d
i pr
oven
ienz
a
frequenza %
Titolo di studio più elevato tra i genitori
1%
14%
53%
32%
0%
10%
20%
30%
40%
50%
60%
nessun titolo oelementare
licenza media diploma scuolasuperiore
laurea
titoli di s tudio
freq
uenz
a %
35
Se per uno stesso carattere si possono osservare due o più
distribuzioni semplici, allora è preferibile utilizzare i grafici a
barre multipli che permettono di rappresentare
contemporaneamente più distribuzioni semplici mettendo a
confronto per ciascuna modalità le diverse frequenze.
Grafico a torta
I grafici a torta sono particolarmente utili quando si vuole
1%
14%
53%
32%
0%
10%
20%
30%
40%
50%
60%
frequenza %
nessun t itolo oelementare
licenza media diploma scuolasuperiore
laurea
titolo di studio
titolo di studio più elevato tra i genitori
0%
10%
20%
30%
40%
50%
60%
70%
frequenza %
TV radio giornali internet
ambiti valutati
valutazione dell'affollamento pubblicitario
1 basso
2
3
4
5
6 alto
36
rappresentare la distribuzione di frequenza di un carattere
qualitativo con poche modalità. La generica fetta è
completamente definita dall’angolo al centro corrispondente
dalla seguente proporzione: 360100
jj gp= con jp la percentuale
relativa alla j-esima modalità e jg i gradi dell’angolo
corrispondente.
In alcuni grafici si possono aggiungere la tridimensionalità e la
prospettiva. I grafici relativi a distribuzioni di frequenza
semplici tuttavia rimangono sostanzialmente bidimensionali,
giacchè la terza dimensione non aggiunge alcuna informazione al
grafico ma è solo un elemento estetico.
dove ascoltano la radio
in auto
46%
in casa
48%altro
6%
dove ascoltano la radio
in auto
46%
in casa
48%altro
6%
presenza in casa di un PC
si93%
no7%
37
Istogrammi Se la distribuzione di frequenza riguarda un carattere
quantitativo specialmente se suddiviso in classi si può ottenere
una efficace rappresentazione mediante gli istogrammi.
L’istogramma è un grafico costituito da barre non distanziate
dove ogni barra possiede un’area proporzionale alla
corrispondente frequenza.
grafico della distribuzione di frequenza relativa
0%
10%
20%
30%
40%
50%
60%
70%
1971 1973 1975 1977 1979 1981 1983 1985Anno
freq
uenz
a re
lativ
a
38
Grafico radar
I grafici radar sono molto utili quando il carattere è ciclico (mesi
dell’anno, giorni della settimana,..). Caratteri come vendite di un
prodotto per mese possono trovare un’adeguata rappresentazione
attraverso tali grafici.
ore in cui in media si utilizza Internet
0%
10%
20%
30%
40%
50%
60%
70%
meno di 1 ora da 1 a 2 ore più di 2 oreore
frequ
enza
%
pezzi venduti nell'anno 2004
0
20
40
60gennaio
febbraio
marzo
aprile
maggio
giugno
luglio
agosto
settembre
ottobre
novembre
dicembre
39
Diagrammi cartesiani
I diagrammi cartesiani sono in genere utilizzati per le serie
temporali cioè per fenomeni che variano con continuità in
funzione del tempo.
Il grafico è costituito da una successione di punti, uniti da una
spezzata, individuati su un piano cartesiano.
libri venduti nella settimana
0
10
20
30
40
50lunedi
martedì
mercoledì
giovedìvenerdì
sabato
domenica
0
1
2
3
4
5
6
7
8
1994 1995 1996 1997 1998 1999 2000 2001 2002 2003 2004
anno
tass
i di i
nter
esse
40
Pictogrammi
I pictogrammi sono grafici il cui scopo è di tipo essenzialmente
divulgativo. In essi si utilizzano figure, simboli, disegni, attinenti
al carattere considerato di dimensione o numero proporzionale
alle frequenze della distribuzione. Questi grafici, in genere, non
permettono una precisa valutazione del fenomeno ma si limitano
a rendere evidente qualche sua caratteristica.
Come appare dal grafico la dimensione delle bollicine ci da una
immediata ma non troppo chiara visione delle bottiglie di vino
più vendute in un certo anno. Dal grafico si capisce che sono
state più vendute bottiglie di chianti e nero d’Avola ma non si
possono trarre ulteriormente informazioni.
Analisi della distribuzione di un carattere
Come si è visto in precedenza, per descrivere l’andamento di un
carattere su un collettivo possiamo analizzare la distribuzione di
vini più venduti
barbera
nero d'avola
lambrusco
chianti
41
frequenza o una sua opportuna rappresentazione grafica; in
alcuni casi, tuttavia, può essere sintetizzata da alcuni indici che
ne evidenziano le caratteristiche essenziali. Gli indici per la
descrizione sintetica di una distribuzione statistica rispondono a
diversi scopi e si usano per fornire informazioni approssimative
su “intorno a dove” si addensi la distribuzione, “in quale misura”
questo accada e se siano presenti asimmetrie.
Di seguito si prenderanno in esame le medie analitiche e le
medie di posizione che sintetizzano con un solo valore o una
sola modalità la distribuzione.
Medie analitiche
Nel caso in cui il carattere sia quantitativo, le medie più
frequentemente utilizzate sono la media aritmetica e la media
geometrica.
La media aritmetica di un insieme di n valori nxxxx ,........,,, 321
di un carattere X è pari alla somma dei valori divisi per il loro
numero.
∑=
=+++=n
iina x
nxxx
nM
121
1).......(
1
Se il carattere X è quantitativo discreto e conosciamo la sua
distribuzione di frequenza allora possiamo calcolare più
velocemente la media aritmetica come segue:
∑=
=k
jjja xfM
1
L'idea di base della media aritmetica è quella di equiripartire fra
le unità statistiche l'ammontare totale del carattere. Per questo ha
senso calcolare una media aritmetica se il carattere e' additivo.
42
In alcuni casi, nel calcolo della media aritmetica si vuole dare
diversa importanza alle modalità del carattere attribuendo a
ognuna di esse uno specifico peso, cioè un valore che ne esalti o
ne diminuisca l’importanza.
La media aritmetica ponderata di un carattere quantitativi X
con K modalità x1, x2, x3, ……. xk, alle quali sono stati attribuiti i
pesi p1, p2, p3, ……., pk è data da:
∑
∑
=
==++++++
=k
ij
k
ijj
k
kna
p
px
ppp
pxpxpxM
1
1
21
2211
........
......
Esempio: calcolare la media di 1; 2; 3; 4; 5; 6; 7.
47
7654321 =++++++=aM
Esempio: Calcolare la media della distribuzione del numero di
auto possedute per famiglia.
N. auto 1 2 3 4 5 6 TOT
Frequenza assoluta 29 52 8 2 1 2 94
Il numero di auto complessivo e':
1 x 29 + 2 x 52 + 3 x 8 + 4 x 2+ 5 x 1 + 6 x 2 = 182
che ripartito fra i 94 nuclei famigliari dà Ma = 182/94 = 1,93
auto per famiglia
Esempio: Un collettivo di famiglie e' classificato secondo il
numero di figli. Trovare la media aritmetica della distribuzione
N. figli N. famiglie Frequenza relativa
0 10 0,125
1 40 0,500
2 30 0,375
43
25,1375,025,01125,0080
302
80
21
80
100
80
302401100
=⋅+⋅+⋅=
=⋅+⋅+⋅=⋅+⋅+⋅=aM
proprietà :
1) la somma dei valori nxxxx ,........,,, 321 assunti da un insieme
di n unità statistiche è uguale al valor medio moltiplicato per il
numero di unità: ∑=
=n
iai nMx
1
2) la somma delle differenze tra i valori delle xi e la loro media
aritmetica è uguale a zero: ∑=
=−n
iai Mx
1
0)(
3) la somma degli scarti al quadrato dei valori xi da una costante
c è minima quando c è uguale alla media aritmetica. ∑=
−n
ii cx
1
2)(
è minimo per aMc =
4) se un collettivo di n unità statistiche viene suddiviso in L
sottoinsiemi di numerosità n1, n2, n3, ……. nL, tali che la loro
somma sia n, allora la media aritmetica generale è una media
ponderata delle medie dei sottoinsiemi con pesi uguali alla loro
numerosità.
5) Indicate con xm, e con xM, rispettivamente la più piccola e la
più grande modalità della distribuzione, allora: Mam xMx ≤≤
6) data la distribuzione di un carattere X con media aM se
moltiplichiamo ogni modalità per una costante a e aggiungiamo
una costante b, la media della distribuzione diventerà: baMa +
Un altro tipo di media analitica è la media geometrica,
utilizzabile nel caso in cui l’insieme delle modalità è costituito
da rapporti.
44
La media geometrica di un insieme di n valori
nxxxx ,........,,, 321 di un carattere X è pari alla radice n-esima del
prodotto dei singoli valori: ng xxxM 321 ⋅⋅⋅⋅⋅⋅=
Se si dispone della distribuzione di frequenza del carattere X,
allora possiamo calcolare più velocemente la media geometrica
come segue: kfk
ffg xxxM ⋅⋅⋅⋅⋅⋅= 21
21
Proprietà:
1) [ ]ngn Mxxx =⋅⋅⋅⋅⋅ 21
2) ∑=
=n
iig x
nM
1
log1
log
3) se si trasformano i valori della X attraverso l’espressione
baXY = con a>0 allora bgg XMaYM ))(()( =
4) La media geometrica dei reciproci è uguale al reciproco della
media geometrica:
)(
1111111
212121 xMxxxxxxxxxxM
gn
n
n
n
n
ng =
⋅⋅⋅⋅⋅=
⋅⋅⋅⋅⋅=
⋅⋅⋅⋅⋅=
5) Dati due insiemi di misure: nxxxx ,........,,, 321 e
nyyyy ,........,,, 321 la media geometrica dei rapporti
n
n
y
x
y
x
y
x...,.........,
2
2
1
1 è uguale al rapporto fra le medie geometriche
delle misure:
nng xxxM ⋅⋅⋅⋅⋅⋅= 21 , n
ng yyyM ⋅⋅⋅⋅⋅⋅= 21
)(
)()(
21
21
2
2
1
1
yM
xM
yyy
xxx
y
x
y
x
y
x
y
xM
g
g
nn
nn
n
n
ng =
⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅
=⋅⋅⋅⋅⋅⋅=
Analoga proprietà vale, ovviamente, per il prodotto.
45
OSS. La media aritmetica e la media geometrica sono indici
troppo sensibili ai valori estremi, un modo per diminuire l’effetto
di questi valori estremi è quello di effettuare il calcolo della
media solo sui valori centrali. La media così ottenuta viene detta
trimmed mean.
Ad esempio la trimmed mean al 50% di un carattere quantitativo
è la media aritmetica del 50% dei valori più centrali di un
insieme di modalità. Cioè nel calcolo della media aritmetica non
vengono considerati il 25% dei valori più piccoli e il 25% dei
valori più grandi.
Medie di posizione
Le medie analitiche si possono calcolare solo su carattere
quantitativi e sono sensibili ai valori estremi, una media più
“robusta” che può essere calcolata anche sui caratteri qualitativi
ordinabili è la mediana.
La mediana eM di un insieme di valori ordinate è la modalità
presentata dall’unità centrale, dove per unità centrale si intende
quell’unità che divide il collettivo in due parti di uguale
numerosità: una parte formata dalle unità che presentano una
modalità precedente o uguale a quella dell’unità centrale e una
parte formata dalle unità che presentano una modalità successiva
o uguale a quella dell’unità centrale.
Per calcolare la mediana è necessario procedere nel seguente
modo:
si ordinano gli n valori in senso crescente,
se n è dispari la mediana è: 2
1+= ne xM ;
46
se n è pari la mediana è:
+=
+1222
1nne xxM .
Proprietà:
1) ∑=
−n
ii cx
1
2è minima per eMc =
La mediana è quel valore che divide in due parti uguali l’insieme
dei valori ordinate per grandezza, se invece dividiamo la
distribuzione in cento parti, ognuna delle quali contiene lo stesso
numero di valori, chiamiamo i valori di suddivisione percentili.
Pertanto possiamo definire la mediana come il 50-esimo
percentile detto secondo quartine,; i percentili di uso più comune
sono il 25-esimo e il 75-esimo percentile detti primo (Q1) e
terzo quartine (Q3) che insieme alla mediana dividono la
distribuzione in quattro parti uguali
)(2
11
44
1+
+= nn xxQ e )(2
11
4
3
4
33+
+= nn xxQ
Un’altra media di posizione è la moda che può essere calcolata
per qualsiasi tipo di carattere quantitativi e qualitativi.
La moda è la modalità della distribuzione che si presenta con la
massima frequenza.
47
Variabilità
La statistica si occupa di analizzare quei fenomeni che tendono a
presentare diverse modalità, pertanto si pone il problema di
misurare la variabilità di un fenomeno in corrispondenza di un
determinato collettivo osservato. La variabilità di una
distribuzione esprime la tendenza delle unità di un collettivo ad
assumere diverse modalità del carattere.
Un indice di variabilità deve soddisfare almeno due requisiti:
deve assumere il suo valore minimo se e solo se tutte le unità
della distribuzione presentano uguale modalità del carattere;
deve incrementare il suo valore all’aumentare della dispersione
di una modalità attorno a un valore caratteristico della
distribuzione. Tra gli indici di variabilità per caratteri quantitativi
che mettano a confronto le modalità con un valore caratteristico
della distribuzione, molto usati sono quelli che considerano le
diversità dalla media aritmetica.
La varianza di un insieme di valori nxxxx ,........,,, 321 di una
variabile X con media Ma è un indice usato per misurare la
dispersione, cioè l’addensamento maggiore (poca dispersione) o
minore (molta dispersione), dei valori attorno alla media
aritmetica ed è definito come segue:
( )∑=
−=n
iai Mx
n 1
22 1σ
se è nota la distribuzione di frequenza di una variabile X con k
modalità, la varianza si calcola come segue:
( ) ∑∑==
−=−=k
jjaj
k
jjai fMxnMx
n 1
2
1
22 )(1σ
OSS. Nella varianza la differenza (xi - Ma) tra una modalità e la
media aritmetica viene elevata al quadrato perché così tutte le
48
differenze diventano positive e inoltre le differenze più grandi
sono messe in maggior risalto.
Proprietà 1) la varianza è nulla solo quando tutte le differenze (xi - Ma)
sono nulle e quindi quando tutte le modalità sono uguali al
valore medio
2) una formula equivalente per calcolare la varianza è:
∑=
−=n
iai Mx
n 1
222 1σ
2) la varianza di un carattere Y ottenuto attraverso la
trasformazione βα += XY di un carattere X di media Ma e
varianza σ2 è: 22)( σα=YVar
Osserviamo che un cambiamento della scala delle misure che
trasforma xj in kxj trasforma σ2 in k 2σ2; pertanto la varianza non è
un indice omogeneo. Data l’opportunità di utilizzare indici di
dispersione omogenei si fa quindi uso della radice quadrata della
varianza, detto deviazione standard o scarto quadratico
media: 2σσ =
Utilizzando lo scarto standard ci si riconduce ad un indice di
variabilità espresso nella stessa unità di misura della variabile
considerata. Come per la varianza, maggiore è la variabilità dei
valori di un insieme di dati e maggiore è la deviazione standard,
la quale assume valore nullo solo nel caso in cui tutti i valori
siano uguali.
La deviazione standard risente oltre che dell’unità di misura
anche dell’ordine di grandezza dei dati, pertanto essa non
consente di eseguire confronti tra la variabilità di fenomeni che
presentano unità di misura diverse e che possiedono valori medi
molto diversi come la distribuzione del peso di un collettivo di
bambini con quella di un collettivo di adulti. Questi
49
inconvenienti vengono superati se si utilizza il coefficiente di
varianza:
100aM
CVσ=
Altre misure di variabilità sono gli scarti semplici medi che si
ottengono come media aritmetica delle differenze, in valore
assoluto, tra i valori osservati nxxxx ,........,,, 321 di una variabile
X e una media. A seconda della media scelta si può ottenere uno
specifico scarto semplice medio. Per esempio, se come media
scegliamo la media aritmetica Ma, si ha lo scarto semplice
medio dalla media aritmetica:
∑=
−=n
iaiM Mx
nS
a1
1
Come la deviazione standard, anche questo indice di dispersione
è omogeneo e si annulla solo quando tutte le unità presentano la
stessa modalità.
Se consideriamo le differenze dalla mediana Me otteniamo lo
scarto semplice medio dalla mediana:
∑=
−=n
ieiM Mx
nS
e1
1
Risulta che scarto semplice medio dalla media aritmetica è
sempre minore o uguale allo scarto semplice medio dalla
mediana; inoltre scarto semplice medio dalla media aritmetica è
minore o uguale dalla deviazione standard.
A volte si applica una trasformazione lineare ai dati originari
nxxxx ,........,,, 321 , detta standardizzazione che produce nuovi
dati nyyyy ,........,,, 321 con σ
aii
Mxy
−= che hanno valore
medio nullo e varianza unitaria.
50
Fino a questo punto ci siamo occupati di distribuzioni di
frequenza noti e si sono cercati gli indici che sintetizzassero tale
distribuzioni, ma potrebbe accadere che non si conosca la
distribuzione di frequenza e invece siano noti la media e la
deviazione standard di tale distribuzione, allora ci si chiede quali
informazioni forniscono congiuntamente tali indici. A questo
scopo ci viene in soccorso il teorema di Chebyshev.
Data una distribuzione di valori nxxxx ,........,,, 321 dei quali si
conoscono la media Ma e la deviazione standard σσσσ e dato un
valore reale positivo k, risulta: ( )2
1
kkxxf i ≤≥− σ
Questo teorema afferma che, dato un carattere di cui si
conoscono solamente la media aritmetica e la deviazione
standard, la frequenza relativa delle unità che presentano valori
esterni a un intervallo simmetrico rispetto alla media non può
essere superiori a una certa quantità
Altri indici di variabilità sono indici che si basano sul confronto
di due valori caratteristici della distribuzione come il campo di
variazione e la differenza interquartile.
Dato un insieme di n valori nxxxx ,........,,, 321 ordinati in senso
crescente, si definisce campo di variazione la differenza tra il
più grande e il più piccolo di tali valori: 1xxR n −=
Può accadere che i valori estremi siano dei valori anomali
ottenendo una variabilità poco attendibile.
Si definisce differenza interquartile la differenza tra il terzo e il
primo quartine: 13 QQW −=
Di seguito riporto le tabelle della distribuzione di frequenze e
delle medie e degli indici di variabilità relative alle variabili
51
quantitativa discrete “ numero di TV presenti in casa” e “ore di
lavoro a settimana”
N. di TV presenti in casa
14 6,4 7,9 7,9
41 18,8 23,0 30,9
54 24,8 30,3 61,2
53 24,3 29,8 91,0
11 5,0 6,2 97,2
5 2,3 2,8 100,0
178 81,7 100,0
2 ,9
38 17,4
40 18,3
218 100,0
1
2
3
4
5
6
Totale
Validi
0
Mancante di sistema
Totale
Mancanti
Totale
Frequenza PercentualePercentuale
validaPercentuale
cumulata
tabella della distribuzione di frequenze del carattere “ numero di TV
presenti in casa”
Statistiche
N. di TV presenti in casa178
40
3,12
3,00
3
1,156
1,336
5
1
6
2,00
3,00
4,00
Validi
Mancanti
N
Media
Mediana
Moda
Deviazione std.
Varianza
Intervallo
Minimo
Massimo
25
50
75
Percentili
tabella degli indici relativi alla variabile quantitativa discreta “ numero di
TV presenti in casa”
52
ore di lavoro a settimana
3 1,4 7,0 7,0
1 ,5 2,3 9,3
2 ,9 4,7 14,0
7 3,2 16,3 30,2
2 ,9 4,7 34,9
4 1,8 9,3 44,2
5 2,3 11,6 55,8
3 1,4 7,0 62,8
1 ,5 2,3 65,1
1 ,5 2,3 67,4
1 ,5 2,3 69,8
2 ,9 4,7 74,4
2 ,9 4,7 79,1
1 ,5 2,3 81,4
2 ,9 4,7 86,0
2 ,9 4,7 90,7
2 ,9 4,7 95,3
1 ,5 2,3 97,7
1 ,5 2,3 100,0
43 19,7 100,0
49 22,5
126 57,8
175 80,3
218 100,0
1
2
3
4
5
6
8
10
12
14
17
20
24
25
30
37
40
42
45
Totale
Validi
0
Mancante di sistema
Totale
Mancanti
Totale
Frequenza PercentualePercentuale
validaPercentuale
cumulata
tabella della distribuzione di frequenza del carattere “ ore di lavoro a
settimana”
Statistiche
ore di lavoro a settimana43
175
13,95
8,00
4
13,194
174,093
44
1
45
4,00
8,00
24,00
Validi
Mancanti
N
Media
Mediana
Moda
Deviazione std.
Varianza
Intervallo
Minimo
Massimo
25
50
75
Percentili
tabella degli indici relativi alla variabile quantitativa discreta “ ore di lavoro
a settimana”
53
Ottenute le medie e gli indici di variabilità, esiste un grafico
detto box plot che rappresenta la distribuzione avvalendosi di tali
misure.
Il box plot di una distribuzione è un grafico caratterizzato da tre
elementi principali:
a) una linea che indica la posizione della media della
distribuzione;
b) un rettangolo la cui altezza indica la variabilità dei valori
prossimi alla media
c) due segmenti che partono dai lati maggiori del rettangolo
e i cui estremi sono determinati in base ai valori estremi
della distribuzione.
Un box plot molto utilizzato è quello che ha come media la
mediana, come altezza del rettangolo la distanza interquartile e
come estremi dei sementi il valore minimo e massimo della
distribuzione.
Max=6, Min=1, Q1=2, Q3=4, Mediana=3
54
Box plot relativa alla distribuzione di frequenza del carattere
quantitativo discreto “ numero di TV presenti in casa”
0
10
20
30
40
ore
di l
avo
ro a
set
tim
ana
Max=45, min=1, Q1=4, Q3=24, Mediana=8
Box plot relativa alla distribuzione di frequenza del carattere quantitativo discreto “ ore di lavoro a settimana”
Statistica descrittiva
1. Da un collettivo di 20 individui si è rilevata la seguente distribuzione relativa ai caratteri “età”, “sesso”, “numero di automibili possedute”:
unità 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
Età 35 37 59 54 44 38 62 71 56 60 33 46 41 53 38 55 50 63 35 51
Sesso M M F M F M F F M M M F F M F M M M F M
N. auto
1 2 1 0 2 1 1 0 3 2 2 4 3 1 1 2 3 0 1 2
- si costruiscano le distribuzioni di frequenza semplici per i caratteri “sesso”e “N. auto” - si consideri il carattere “età” suddiviso nelle seguenti classi: [30, 39]; [40, 49]; [50, 59];
[60+] , e si costruiscano le corrispondenti distribuzioni di frequenza assolute, relative e percentuali.
- Rappresentare mediante i grafici ritenuti più idonei le distribuzioni di frequenze del sesso, del numero di automobili e dell’età suddivisa in classi.
Soluzione Sesso Freq. assoluta freq. relativa Freq.percentualeM 12 0,6 60%F 8 0,4 40%tot 20 1 100% N.auto Freq. assoluta freq. Relativa Freq.percentuale
0 3 0,15 15%1 7 0,35 35%2 6 0,3 30%3 3 0,15 15%4 1 0,05 5%
tot 20 1 100% età Freq. assoluta freq. Relativa Freq.percentuale30-39 6 0,3 30%40-49 3 0,15 15%50-59 7 0,35 35%60+ 4 0,2 20%tot 20 1 100%
Sesso
M60%
F40%
N.auto
15%
35%
30%
15%
5%0%5%
10%15%20%25%30%35%
0
1
23
4
Età
30%
15%
35%
20%
0%
5%
10%
15%
20%
25%
30%
35%
40%
30-39 40-49 50-59 60+
2. La seguente tabella riporta le votazioni ottenute da una classe alla fine di un corso universitario
Voto 18 19 20 21 22 23 24 25 26 27 28 29 30 totale N. studenti 7 2 5 1 3 2 12 1 8 4 6 1 5 57
- Calcolare la distribuzione delle frequenze cumulate relative del “voto”. - Calcolare la distribuzione delle frequenze cumulate relative avendo suddiviso il
carattere nelle seguenti classi: 18-22, 23-24, 25-26, 27-28, 29-30. - Disegnare i grafici della distribuzione di frequenza percentuale. - Quanti sono gli studenti che hanno ottenuto un voto inferiore o uguale a 26? - Quanti sono gli studenti che hanno ottenuto un voto non superiore a 24?
Voto freq.assoluta freq.relativafreq.percentualefreq. cumulata
18 7 0,12 12% 719 2 0,04 4% 920 5 0,09 9% 1421 1 0,02 2% 1522 3 0,05 5% 1823 2 0,04 4% 2024 12 0,21 21% 3225 1 0,02 2% 3326 8 0,14 14% 4127 4 0,07 7% 4528 6 0,11 11% 5129 1 0,02 2% 5230 5 0,09 9% 57
57 1 100% voto freq.assoluta freq.cumulata18-22 18 1823-24 14 3225-26 9 4127-28 10 5129-30 6 57tot 57 Gli studenti che hanno ottenuto un voto inferiore o uguale a 26 sono 41. Gli studenti che hanno ottenuto un voto non superiore a 24 sono 32.
Voto
0% 5% 10% 15% 20% 25%
18192021222324252627282930
3. Per i primi 15 giorni di un mese viene rilevato il ritardo (espresso in minuti) accumulato da un determinato treno rispetto all’orario previsto di arrivo. Di seguito sono riportati i dati rilevati, che presentano segno negativo nel caso di anticipo sull’orario di arrivo:
giorno 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 ritardo 10 15 -2 0 50 20 0 9 -5 8 10 20 6 10 -10
- Calcolare la moda, la mediana, la media aritmetica, la varianza e lo scarto quadratico medio della distribuzione.
- Dopo aver raggruppato le osservazioni relative ai primi 15 giorni del mese nelle classi: [-10, 0]; ]0, 10]; ]10, 60] calcolare media e varianza in questa nuova situazione.
Soluzione media 9,4mediana 9moda 10varianza 187,3 scarto quadratico medio 13,7 La media risente dei valori estremi, nel nostro caso è condizionata dal valore 50.
ritardo media mediana varianza
scarto quadratico medio
[-10, 0] -3,4 -2 14,2 3,8]0, 10] 8,8 9,5 2,1 1,5]10, 60] 26,3 20 192,2 13,9
4. Per otto famiglie viene rilevato il risparmio medio annuo (espresso in migliaia di euro) come segue:
Famiglia A B C D E F G H risparmio 0.5 5 2.6 0 9.2 3 5.4 6.3
- Determinare la media, la varianza, e la mediana. - Supponendo che la variabile “risparmio” assuma valori nell’intervallo [0, 10];
sintetizzare la serie osservata in una distribuzione con quattro classi di frequenza, tutte della stessa ampiezza e con estremo superiore incluso, e determinare i valori assunti in questo caso dalla media e dalla varianza delle otto osservazioni.
- Supponendo che si rendano disponibili le informazioni per altre due famiglie, rispetto alle quali il carattere considerato presenta media pari a 5 e devianza pari a 2, determinare la media e devianza del carattere per il complesso delle 8+2=10 famiglie. (Si definisce
devianza il numero ∑=
−n
ii xx
1
2)( )
5. La distribuzione di 40 individui secondo il numero di battiti cardiaci al minuto (variabile X)
è la seguente intrvalli 44-54 54-58 58-62 62-66 totale Frequenza assoluta ni 8 10 14 8 40
- Determinare media aritmetica e varianza della distribuzione. - Sapendo che tra i 40 individui vi sono 10 sportivi e che per questi si registrano mediamente 51 battiti al minuto, con varianza pari a 16.1, determinare media e varianza del carattere X per i rimanenti 30 individui.
6. Consideriamo le “Importazioni” e le “Esportazioni” (in migliaia di milioni di dollari) dei paesi partecipanti all’Organizzazione per la Cooperazione e lo Sviluppo Economico (OCSE) avvenute nel 1986:
Paese Importazioni EsportazioniDanimarca 22,8 21,2 Irlanda 11,6 12,6 Inghilterra 126,2 107 Olanda 75,4 80,6 Belgio 68,5 68,6 Germania 189,7 242,4 Francia 128,8 119,3 Italia 100 97,5 Spagna 34,9 27,1 Portogallo 9.4 7,2 Grecia 11,3 5,6 Islanda 1,1 1,1 Norvegia 20,3 18,2 Svezia 32,5 37,2 Finlandia 15,3 16,3 Svizzera 40,9 37,3
Austria 26,7 22,4 Turchia 11,1 7,4 USA 370 217,3 Canada 81,3 86,7 Giappone 127,7 210,8
- Calcolare il baricentro - Costruire il grafico di dispersione delle variabili “Importazioni” rispetto “Esportazioni” - Costruire la retta di regressione delle “Importazioni” rispetto alle “Esportazioni”
Importazioni
050
100150200250300350400
Danim
arca
Irland
a
Inghil
terra
OlandaBelg
io
German
ia
FranciaIta
lia
Spagn
a
Portog
allo
Grecia
Islan
da
Norveg
ia
Svezia
Finlan
dia
Svizze
ra
Austria
TurchiaUSA
Canad
a
Giappo
ne
Esportazioni
0
50
100
150
200
250
300
Danim
arca
Irland
a
Inghil
terra
OlandaBelg
io
German
ia
FranciaIta
lia
Spagn
a
Portog
allo
Grecia
Islan
da
Norveg
ia
Svezia
Finlan
dia
Svizze
ra
Austria
TurchiaUSA
Canad
a
Giappo
ne
Importazione-Esportazione
y = 0,759x + 14,665R2 = 0,7736
050
100150200250300350
0 100 200 300 400
importazioni
espo
rtaz
ioni
7. Consideriamo il “peso” (in kg) e l “altezza” (in cm) di 10 individui riportati nella seguente tabella
Peso 56 66 84 61 73 90 70 61 75 82 altezza 161 165 186 162 172 191 181 164 179 184
- Costruire il grafico di dispersione per i due caratteri. - Determinare la retta di regressione che pone l’”altezza” in funzione del “peso”.
8. In un’indagine statistica è stato chiesto a 29 madri, occupate come libere professioniste, di indicare il “N. di figli” e il “N. di ore di lavoro casalingo” svolto giornalmente:
Madre N. figli N. ore di lavoro
casalingo 1 1 1 2 1 2 3 1 3 4 1 5 5 2 3 6 2 1 7 3 5 8 3 1 9 4 6 10 4 3 11 5 7 12 5 4 13 1 4 14 1 2 15 1 1 16 2 4 17 2 5 18 3 5 19 3 4 20 3 4
21 4 5 22 5 5 23 5 5 24 4 2 25 4 2 26 2 4 27 1 5 28 2 1 29 3 2
- Costruire il grafico di dispersione per i due caratteri. - Stimare la retta di regressione che considera il “N. di ore di lavoro casalingo”in funzione
del “N. di figli”. - riportare la retta di regressione sul grafico. - commentare la relazione tra i due caratteri in base ai risultati precedenti.
Distribuzione Binomiale
Distribuzione Esponenziale
Distribuzione Normale Standard
Distribuzione Normale
Distribuzione Beta
Recommended