Author
others
View
1
Download
0
Embed Size (px)
06/05/2015
1
Distribuzioni campionarie
Campioni casuali
Perché è necessario effettuare un campionamento?
� Difficoltà nel raccogliere tutte le informazioni di una popolazione.
� Informazioni non replicabili.
� Costi legati alla raccolta delle informazioni.
� Tempo necessario alla raccolta delle informazioni.
� Adeguatezza delle tecniche statistiche nell’inferenza.
Prima fase: definire la popolazione, ossia, l’insieme di tutte le osservazioni possibili, relativamente ad una data variabile o ad un dato fenomeno
Esempio: Variabile: altezza degli studenti che frequentano l’Università in Italia
Popolazione target: la popolazione oggetto di studio (ossia gli studenti
che frequentano l’università in Italia)
Popolazione accessibile: la popolazione dalla quale si estrae il campione
casuale (non è detto siano accessibili le altezze di tutti gli studenti che
frequentano l’università in Italia)
06/05/2015
2
Tecniche di campionamento
Non probabilistico
� Di convenienza- i primi 25 pazienti con una certa diagnosi al reparto di…
- le prime 100 persone che rispondono al telefono
� A scelta ragionata- (studi clinici: arruolamento)
- si utilizza quando l’ampiezza del campione è limitata
� Per quote- per gruppi (dati censuari o altre fonti) in base a determinate
caratteristiche (all’interno di ogni gruppo, a scelta ragionata)
� A valanga- soggetti che tendono ad occultare la loro identità
(contattato uno vengono contattati gli altri)
I risultati valgono solo per il campione.
Seguono l’orientamento dello sperimentatore.
Errori di rilevazione
Esempio: Vogliamo effettuare indagini sulle persone con alimentazione vegana.
Non potendo esaminare tutti gli individui della città in esame, decidiamo di esa-
minare un campione di persone. Per comodità, lo sperimentatore sceglie di svol-
gere l’intervista presso punti vendita che vendono anche alimenti macrobiotici.
I risultati dell’indagine hanno una validità limitata, poiché danno preferenza a
coloro che usano cibi macrobiotici.
Esempio: Il rapporto tra massa corporea e pressione arteriosa è influenzato dall’
età. Se gli intervistati hanno un’età media inferiore a quella nazionale, le conclu-
sioni tratte non possono essere applicate alla comunità nazionale.
Bias o distorsione nella selezione
Quando la scelta degli individui che compongono il campione è dettata dal caso, è possibile
prevedere e calcolare la differenza tra campione e popolazione.
Altri errori: nella definizione della popolazione, nello strumento di rilevazione, nelle mancate
risposte, nella codifica o elaborazione dei dati…
06/05/2015
3
Tecniche di campionamento
Non probabilisticoProbabilistico
� Si attribuisce ad ogni unità della popolazione una determinata probabilità positiva di essere
selezionata.
� Si utilizzano tecniche per la selezione casuale del campione.
Sistematico
Partendo dal numero 2
si seleziona l’unità con
passo 3.
Casuale semplice
Ogni elemento della popolazione è etichettato da un
numero.
Si estraggono 5 numeri a caso da 1 a 16, ad esempio 11,
5, 16, 3, 13.
11
5 16
313
Con reimmissione
Ogni elemento ha la stessa probabilità di
occorrenza di essere estratto
Senza reimmissione
Gli elementi estratti sono tutti diversi.
� Popolazione infinita
� Fattore di correzione: ������ ~ 1
Ogni elemento ha probabilità
di estrazione pari a � �⁄ .
Ad ogni estrazione la probabilità
di estrazione viene decrementa di
una unità al denominatore.
06/05/2015
4
Stratificato La popolazione viene suddivisa in strati.
Da ogni strato viene prelevato un numero k di elementi con un campionamento casuale
semplice.
11
3
4
1310
Per cilindrata
A grappolo
A B
CD
Si estraggono a caso dei sottogruppi.
Ad esempio B e C.
BC
Da ogni sottogruppo si estrae
un campionamento semplice
Distribuzione della media campionaria
E’ la distribuzione di probabilità associata alle medie campionarie calcolate su campioni casuali.
Esempio: Uno studio di associati ha 5 partners. A fine settimana ognuno di loro comunica il
numero di ore che sono state fatturate.
Partner Ore
Rossi 22
Bianchi 26
Neri 30
Esposito 26
Bruno 22
Si seleziona un campione casuale di
taglia 2. Determinare la distribuzione di
probabilità del numero di ore lavorate in
media per settimana.
Labels
1
2
3
4
5
Ad esempio, se sono selezionati Rossi ed Esposito:
22 + 26 = 48 La media è 24
06/05/2015
5
Partners Totale Media
1,2 48 24
1,3 52 26
1,4 48 24
1,5 44 22
2,3 56 28
2,4 52 26
2,5 48 24
3,4 56 28
3,5 52 26
4,5 48 24
Valori Freq.ass. Freq.rel.
22 1 0,1
24 4 0,4
26 3 0,3
28 2 0,2
Totale 10 1
Raggruppiamo le
medie così ottenute
in tabella
Distribuzione della media campionaria
Partners Ore
Rossi 22
Bianchi 26
Neri 30
Esposito 26
Bruno 22
Popolazione
La media della popolazione è:
� = 22 + 26 + 30 + 26 + 225
= 25,2
�[��] = 22 × 0,1 + 24 × 0,4 + 26 × 0,3 + 28 × 0,2= 25,2
��
La media della
popolazione coincide
con la media della
media campionaria.
Un po’ di terminologia…
Campione casuale semplice:
Rossi Esposito
�22,26)
Stima puntuale: il valore 22 + 26
2 = 24 rappresenta una stima (=approssimazione)
puntuale (=numerica) della media della popolazione, che è in genere incognita.
Il valore 24 appartiene al range di �� = 22,24,26,28Cambiando campione casuale, il valore della stima puntuale della media della popolazione
cambia.
Neri Esposito
�30,26)30 + 26
2 = 28
Quanto è variabile
questa stima puntuale?
06/05/2015
6
Partners Ore
Rossi 22
Bianchi 26
Neri 30
Esposito 26
Bruno 22
Popolazione
La varianza della popolazione è:
�� = �� 2 × �22 − 25,2)�+2 × �26 − 25,2)�+�30 − 25,2)� = 8,96
Valori Freq.ass. Freq.rel.
22 1 0,1
24 4 0,4
26 3 0,3
28 2 0,2
Totale 10 1
Distribuzione media campionaria
�����)= 22 − 25,2 � × 0,1 + 24 − 25,2 � × 0,4 + 26 − 25,2 � × 0,3 +26 − 25,2 � × 0,2 = 3,36Osserviamo che !
� ������ = �����)
Quando " → ∞ la quantità " − %" − 1 → 1 Si ha
!� =����)
Quando " → ∞, si effettua un campionamento da una popolazione infinita che equivale
ad una estrazione con reimmissione.
= &,'(� ×
������
Distribuzione della media campionaria
Si assuma di effettuare un campionamento di 2 unità statistiche da una popolazione di cardina-
lità 1000. L’esperimento consiste nel chiedere alla persona selezionata il numero di mesi trascorsi
prima di trovare un acquirente per il proprio garage. Si assuma che il numero di mesi varia da 1
a 4 e che abbiano la stessa percentuale di occorrenza nella popolazione.
Determinare la distribuzione della media campionaria.
X 1 2 3 4
Prob. 0,25 0,25 0,25 0,25
Sia X il numero di mesi necessari.
La distribuzione risulta
I possibili campioni (con ordinamento) sono:
�� � = 0,25 × [�1 − 2,5)�+�2 − 2,5)�+�3 − 2,5)�+�4 − 2,5)�]=1,25
� � = 0,25 × 1 + 2 + 3 + 4 = 2,5
Per ogni coppia, valutiamo
le frequenze assolute
06/05/2015
7
La distribuzione di probabilità della media campionaria risulta essere:
Per una estrazione senza reimmissione si ha
� �� = 2,5)�� �� = 0,625 = 1,252
Per questa seconda tabella la distribuzione di probabilità della media campionaria risulta essere:
� �� = 2,5)�� �� = 0,41 = 1,252 ×23
!� =����)
La deviazione standard della media campionaria si dice anche precisione della media campionaria.
� Popolazione infinita
� Estrazione con reimmissione
!� ×
������ =����)
� Popolazione finita
� Estrazione senza reimmissione
Al crescere di n, la deviazione standard
della media campionaria diminuisce.
Popolazione gaussiana standard
06/05/2015
8
Con quale distribuzione di probabilità?
X 1 2 3
Prob. 1/3 1/3 1/3
Si consideri la somma di due copie indipendenti di X:
X_1+X_2 2 3 4 5 6
Prob. 1/9 2/9 3/9 2/9 1/9
Esempio: Si consideri la seguente v.a. uniforme discreta sui valori 1,2,3
Distribuzione di probabilità
Distribuzione di probabilità
(X_1+X_2)/2 1 1,5 2 2,5 3
Prob. 1/9 2/9 3/9 2/9 1/9
La forma del grafico non
cambia se si considera la
media campionaria
Somma dei Punteggi
Media campionaria
Si consideri la somma di tre copie indipendenti di X:
X_1+X_2+X_3 3 4 5 6 7 8 9
Prob. 1/27 3/27 6/27 7/27 6/27 3/27 1/27
Il profilo comincia a
diventare gaussiano.
Distribuzione di probabilità
Somma di 1000
copie di X
La forma del grafico non
cambia se si considera la
media campionaria
06/05/2015
9
Questo è quello che accade lanciando più di un dado:
�~)+,-./0%1,.
�� + ��
�� + �� + �2
�� + �� + �2 + �3
�� + �� + �2 + �3 + ��
�� + �� + … + �(
Teorema del limite centrale: Se si considerano n copie indipendenti di una v.a. �, ossia
���, ��,…,��), la loro somma��+ ��+ … +�� al crescere di n si distribuisce secondo
una legge gaussiana.
Con quale media? � ��+ ��+ … + �� = � �� + � �� +⋯+ � ��Con quale varianza?
= %�506 ��+ ��+ … + �� = 506 �� + 506 �� +⋯+ 506 ��= %��
Se si considerano le medie (ossia le somme vengono divise per le taglie) il profilo della
distribuzione di frequenza ottenuta non cambia così come la media:
Cambia invece la varianza, che
si riduce essendo normalizzata
alla taglia.
06/05/2015
10
Come nel caso della somma di v.a., qualsiasi sia la distribuzione della popolazione, quando si
costruisce la distribuzione della media campionaria, al crescere della taglia, si ottiene una
distribuzione gaussiana
Teorema del limite centrale
Con quale media?� �� =�
Con quale varianza?
Se la popolazione ha media µ allora la media campionaria �� ha la stessa
media:
Se la popolazione ha deviazione standard σ allora la deviazione della me-
dia campionaria �� è pari alla deviazione σ diviso la radice quadrata della
taglia % : D �� = �8http://vis.supstat.com/2013/04/central-limit-theorem/
Regola empirica: Si assume valida
la approssimazione per n> 30
Distribuzione uniforme Distribuzione triangolare
Distribuzione a parabolaDistribuzione inversa di una gaussiana
(dal sito web: Charles Annis, P.E.)
Esempi
06/05/2015
11
Esempio: Il tempo di attesa ad uno sportello presso un ufficio postale può
essere rappresentato da una variabile aleatoria con media 176 sec e va-
rianza 256 sec^2. Qual è la probabilità che la media campionaria calcolata
su un campione casuale di 100 clienti sia compresa tra 175 sec e 178 sec?
� Essendo la taglia superiore a 30, per il teorema del limite centrale ��~" 176, ��(�:: .
; 175 < �� < 178 mediante standardizzazione:
= = �� − 176256/100 ?� =
175 − 176256/100 = −0,063 ?� =
178 − 176256/100 = 1,25
ossia bisogna calcolare ; −0,06 < = < 1,25
; −0,06 < = < 0,13 = 0,8944-0,4761
� In tal caso non si conosce la distribuzione della popolazione.
Esempio: Il contenuto di Coca-Cola in una singola bottiglia può subire piccole variazioni. I dati
indicano che il contenuto delle bottiglie segue una legge gaussiana con media 33cc e deviazio-
ne standard 1,5cc. Oggi, alle 8am, il responsabile del controllo di qualità ha selezionato 16 bot-
tiglie, trovando una media campionaria di 32,87cc.
i) Quanto vale la precisione della media campionaria?
ii) Selezionando un nuovo campione di 30 bottiglie, quale risulta essere la probabilità che la
media campionaria differisca da quella vera meno di 0,1?
i) La precisione della media campionaria è �,��(
ii) Si tratta di calcolare ; �� − � < 0,1 .
; �� − � < 0,1 = ; −0,1 < �� − � < 0,1
= ; − 0,11,5/ 30 <
�� − �1,5/ 30 <
0,11,5/ 30
= ; −0,37 < = < 0,37 = 0,6443 − 0,3557
Ricordando che −A < A < A si ha
= ; − 0,11,5/ 30 < = < 0,1
1,5/ 30
06/05/2015
12
iii) Se si richiede che la media campionaria differisca da quella vera per meno di 0,1 con
probabilità 95%, quante bottiglie bisogna selezionare?
Si tratta di determinare il valore di n tale che ; �� − � < 0,1 = 0,95.
; �� − � < 0,1 = ; −0,1 < �� − � < 0,1 = 0,95Come nel caso precedente
Quando si passa alla standardizzazione, si ha ; − 0,11,5/ % <
�� − �1,5/ % <
0,11,5/ % = 0,95
e quindi bisogna determinare i quantili della gaussiana standard tali che
0,95
B = 0,05
?:,:�� = −1,96 ?:,'C� = 1,96
; = D ?:,:�� = 0,025 e ; = D ?:,'C� = 0,975
Per determinare la taglia è necessario calcolare
0,11,5/ % = 1,96 0,1
1,96 =1,5%
1,960,1 = %
1,5% = 29,4
% = 865
Variabile aleatoria binomiale
Una distribuzione binomiale può essere
approssimata da una distribuzione gaus-
siana.
Diretta conseguenza del teorema del limite centrale.
0 1
Distribuzione di frequenza (assoluta) del numero
di volte in cui si è verificata Testa (0 o 1) nel
lancio (simulato) di una moneta, N=10.000 volte
�~E�1; 0,5)
Una v.a. binomiale di parametro 1 viene anche detta variabile aleatoria di Bernoulli:
X 0 1
P(X=x) q p
G = 0,5
06/05/2015
13
0 1 2
Distribuzione di frequenza (assoluta) del nume-
ro di volte in cui si è verificata Testa lanciando
N=10.000 volte 2 monete:
� 0 volte (per due Croci);
� 1 volta (una Testa e una Croce);
� 2 volte (due Teste)
Distribuzione di frequenza (assoluta) del nume-
ro di volte in cui si è verificata Testa lanciando
N=10.000 volte 3 monete:
� 0 volte (per tre Croci);
� 1 volta (una Testa e due Croci);
� 2 volte (due Teste e una Croce);
� 3 volte (tre Teste)
0 1 2 3
H~E�2; 0,5) H~E�3; 0,5)= �� + ����, ��~E�1; 0,5) ��, ��, �2~E�1; 0,5)
= �� + �� + �2
Distribuzione di frequenza (assoluta) del nume-
ro di volte in cui si verifica Testa lanciando
N=10.000 volte 5 monete:
5 Croci (somma 0); 4 Croci e 1 Testa (somma 1);
3 Croci e 2 Teste (somma 2); 2 Croci e 3 Teste
(somma 3); 1 Croci e 4 Teste (somma 4);
5 Teste (somma 5)
�� + �� + �2 +�3 +��
0 1 2 3 4 5 0 1 2 3 4 5 6 7 8 9 10
Distribuzione di frequenza (assoluta) del nume-
ro di volte in cui si verifica Testa lanciando
N=10.000 volte 10 monete:
10 Croci (somma 0); 9 Croci e 1 Testa (somma 1);
8 Croci e 2 Teste (somma 2); …; 1 Croce e 9 Teste
(somma 9); 0 Croci e 10 Teste (somma 10)
H~E�10; 0,5) = �� + �� +⋯+ ��:H~E�5; 0,5) =
��, ��, �2, �3 , ��~E�1; 0,5) ��, ��, �2, �3 , … , ��: ~E�1; 0,5)
06/05/2015
14
0 50
Distribuzione di frequenza
(assoluta) del numero di volte in
cui, lanciando N=10.000 volte 100
monete, si ottengono 0 Teste, 1
Testa, …, 50 Teste.
H~E�100; 0,5) = �� + �� +⋯+ ��::
Quando una v.a. binomiale è
normalizzata al numero dei lanci si
ottiene una media campionaria
%JK. L,-)+-)%JK. L,/0%1, = G6.M. -)+-0H
100~�� +⋯+ ��::
100
��, ��, �2, �3 , … , ��:: ~E�1; 0,5)
Al crescere
di n la varianza
diminuisce
La distribuzione
si concentra
attorno al
valore medio
NOP⋯PNQ� → G
06/05/2015
15
Questo risultato è noto come
legge dei grandi numeri
Al crescere del numero delle prove
la frequenza relativa converge alla
probabilità di occorrenza dell’evento
Nel lancio simulato di una moneta al computer
Esempio: Alle ultime elezioni politiche, in un certo seggio hanno votato 1000 persone.
Si sa che nelle precedenti elezioni, il partito A aveva ricevuto il 51% delle preferenze.
Basandosi sul dato precedente, calcolare la probabilità che alle ultime elezioni il partito abbia
avuto una percentuale di preferenze tra il 48% e il 53%.
Il numero di voti ricevuti dal partito A è una v.a. binomiale E�1000; 0,51)Il numero di voti ricevuti dal partito A normalizzato a 1000
rappresenta la media campionaria di un campione casuale
estratto da una popolazione bernoulliana. Quale?
X 0 1
P(X=x) 0,49 0,51
E�1000; 0,51) 1000
R��:::;:,��) �::: ~" 0,51;:,��×:,3'�:::
Per calcolare è necessario standardizzare, ossia
=-1,90
=1,27
= 0,8980 – 0,0287 = 86%
Proporzioni/Frequenze relative
06/05/2015
16
Il problema inverso
Esempio: Alle ultime elezioni politiche, in un certo seggio hanno votato 1000 persone. Si sa che
nelle precedenti elezioni, il partito A aveva ricevuto il 51% delle preferenze. Qual è l’intervallo
in cui la percentuale di preferenze attuali ricadrà presumibilmente con una confidenza del
95%.
0.40 0.45 0.50 0.55 0.60
0.0
00
0.0
05
0.0
10
0.0
15
0.0
20
0.0
25
x/1000
y
95%
1 − B = 0,951 − B 28 = 0,975; = D ?:,:�� = 0,025; = D ?:,'C� = 0,975
B 28 = 0,025
?:,:�� = −1,96?:,'C� = 1,96
Per determinare tale intervallo è necessario
trasformare Z nella v.a. E�1000; 0,51)
1000e fare la stessa operazione per i quantili
La risposta al quesito si ottiene trasformando i quantili della v.a. gaussiana standard
negli estremi G�, G� tali che ; G� < R��:::;:,��) �::: < G� = 0,95.
Il problema inverso
Esempio: Alle ultime elezioni politiche, in un certo seggio hanno votato 1000 persone. Si sa che
nelle precedenti elezioni, il partito A aveva ricevuto il 51% delle preferenze. Qual è l’intervallo
in cui la percentuale di preferenze attuali ricadrà presumibilmente con una confidenza del
95%.
G� − 0,510,51 × 0,49
1000
Con una probabilità del 95%, alle nuove elezioni, il partito A riceverà una percentuale di prefe-
renze tra il 48% e il 54%.
G� − 0,510,51 × 0,49
1000
=0,48=-1,96
=1,96 =0,54
06/05/2015
17
Esempio: Nell’esempio esaminato, si conosce la percentuale di preferenze alle precedenti
elezioni. Cosa accade se tale percentuale non è nota? E’ possibile determinare l’intervallo in cui
la percentuale di preferenze attuali ricadrà presumibilmente con una confidenza del 95%?
Exit Pool: A 100 cittadini all’uscita dal seggio elettorale viene chiesto per
quale partito hanno votato.
Ad esempio, il partito A ha ricevuto il 52,3% delle preferenze.
e può essere usato come valore «storico» per il calcolo dell’intervallo,
ossia negli estremi calcolati nell’esercizio precedente si sostituisce a 0,51 il valore 0,523
52,3% rappresenta una stima puntuale del valore p (la percentuale di preferenze effettiva)
0,523 Al posto di 0,49 si inserisce 1-0,523=0,477
=0,425
=0,621
[42,5%; 62,1%]
Intervalli di confidenza per proporzioni
L’intervallo G�; G� con
si dice intervallo di confidenza al 95% per la percentuale p dell’evento etichetta-bile come successo.
Cambiando campione casuale, cambia tale intervallo. Ad esempio per il 51%, l’intervallo
è [41,2%;60,8%]; per il 52,3% l’intervallo risulta [42,5%;61,2%] (n=100).
06/05/2015
18
Al crescere del livello di confidenza
l’intervallo si allarga
Quale valore viene modificato al crescere del livello di confidenza?
G� = G + ?:,:�� ×G × �1 − G)
% G� = G + ?:,'C� ×G × �1 − G)
%
G� = G − ?:,'C� ×G × �1 − G)
% G� = G + ?:,'C� ×G × �1 − G)
%
G� = G − 1,96 × G × �1 − G)%
G� = G + 1,96 × G × �1 − G)%
Notazioni:
Esempio: Qual è l’intervallo in cui la percentuale di preferenze attuali ricadrà presumibilmente
con una confidenza del 90%?
1 − B = 0,90 1 − B 28 = 0,95B 28 = 0,05?:,'� = 1,64; = D ?:,'� = 0,95
=48,4% =53,6%
Esempio: Qual è l’intervallo in cui la percentuale di preferenze attuali ricadrà presumibilmente
con una confidenza del 99%?
1 − B = 0,99 1 − B 28 = 0,995; = D ?:,''� = 0,995
B 28 = 0,005?:,''� = 2,57
G� = 0,51 − ?:,'� ×0,51 × 0,49
1000 G� = 0,51 + ?:,'� ×0,51 × 0,49
1000
=46,9%G� = 0,51 − ?:,''� ×0,51 × 0,49
1000 =55,1%G� = 0,51 + ?:,''� ×0,51 × 0,49
1000
1,64 1,64
2,57 2,57
06/05/2015
19
L'episodio pilota è un singolo episodio di una serie o di un serial
televisivo trasmesso prima del primo episodio regolare.
Di solito viene prodotto, e trasmesso, per valutare il primo responso
del pubblico e per vendere il programma ad una rete televisiva.
Spesso viene effettuata una proiezione in anteprima dell'episodio pilota a un pubblico
selezionato per analizzarne preventivamente le reazioni e valutare il target commerciale.
Quante persone selezionare?
Determinare il valore di n tale che la percentuale di gradimento G stimata differisca da quella
vera G per meno di, ad esempio 0,01, con probabilità 95%.
G → R��,U)� (frequenza relativa = media
campionaria popolazione di Bernoulli)
G (percentuale di gradimento vera)
; G − G < 0,01 = 0,95
; E�%, G)% − G < 0,01 = 0,95
;E�%, G)% − G
G × �1 − G)%
< 0,01G × �1 − G)
%= 0,95 0,01
G × �1 − G)%
= ?:,'C� Per quale valore
di p?
Sample size: i telefilm Pilota
506 E) G = G�1 − G)
0,25Assegnata una v.a. di Bernoulli, si ha
La funzione assume il suo valore massimo 0,25
in corrispondenza di p=0,5.
0,01G × �1 − G)
%= ?:,'C�
0,010,5 × �1 − 0,5)
%= ?:,'C�
Il valore risultante è 9604.
E’ necessario decrementare 9604 secondo un fattore di proporzionalità
che tenga conto della popolazione finita.
Determinare il valore di % tale che dove " è la taglia della popolazione (2000)
e %: è il valore determinato con l’ausilio dell’intervallo di confidenza (9604)
Nel caso esaminato,
n=1655,3 ossia 1656.
Supponiamo che il database dal quale possano essere
estratti i nominativi delle persone disponibili alla visio-
ne del telefilm pilota sia costituito da 2000 unità.
06/05/2015
20
Esempio: Un paesino conta 250 famiglie. Sono state campionate 40 famiglie, e di queste 15
leggono con assiduità il giornale locale . Determinare un intervallo di confidenza al 95%
per la percentuale di famiglie che legge il giornale locale.
G± ?��V/� UW×���UW)� × ���
���
varianza della popolazione di Bernoulli.
La popolazione da cui viene estratto il campione casuale ha nume-
rosità limitata. Il fattore di correzione viene usato per aggiornare la
G = 1540 = 0,375
?:,'C� = 1,96
G × �1 − G)% = 0,076
������ = 0,91
G� = 23,72%G� = 51,27%
Se non fosse stato usato il
fattore di correzione di con-
tinuità, allora
G� = 22,49%G� = 52,50%
Popolazione finita
Intervalli di confidenza per la media
��
Popolazione Non Gaussiana
Approssimazione gaussiana
se n > 30 (TCL)
Approssimazione gaussiana se
popolazione di Bernoulli
Popolazione Gaussiana
Distribuzione gaussiana
L’intervallo di confidenza è un intervallo di valori plausibili che accompagna la stima puntuale
di un parametro.
E’ possibile costruire intervalli di confidenza per la media della popolazione.
Come?
06/05/2015
21
Esempio: Il contenuto di Coca-Cola in una singola bottiglia può subire piccole variazioni. I dati
indicano che il contenuto delle bottiglie segue una legge gaussiana con media 33cc e deviazio-
ne standard 1,5cc. Oggi, alle 8am, il responsabile del controllo di qualità ha selezionato 16 bot-
tiglie, trovando una media campionaria di 32,87cc.
Costruire un intervallo di confidenza al livello del 95% per il contenuto medio delle bottiglie.
32,87cc rappresenta una stima puntuale del contenuto medio delle bottiglie.
E’ possibile determinare un intervallo, tale che il valore del contenuto medio
delle bottiglie (teorico) appartiene a tale intervallo con probabilità 95%?
0,95
?:,:�� = −?:,'C� = −1,96 ?:,'C� = 1,96
; −?:,'C�< = D ?:,'C� = 0,95
; −?:,'C�<�� − �� %8 D ?:,'C� = 0,95
; −?:,'C��% < �� − � D ?:,'C�
�% = 0,95
; �� − ?:,'C��% < � D �� +?:,'C�
�% = 0,95 32,87 − 0,735; 32,87 + 0,735
32,87 1,5
16
La v.a. E�%; G)% = 1
% �� + �� +⋯+ �� con ��, ��, … , �� v.a. indipendenti ed identica-
mente distribuite, con legge di probabilità è un esempio di statistica.
��, ��, … , ��Il vettore è un esempio di campione casuale
�: preferenza per il partito A o B
Y�: Andrea ��Y�) = preferenza partito di Andrea
La v.a.�� è tale che �� Y� = ��Y�): prima unità statistica
Y�: Giuseppe ��Y�) = preferenza partito di Giuseppe
La v.a.�� è tale che �� Y� = ��Y�): seconda unità statistica
� La v.a. �� è una copia della v.a. ��.
� La v.a. �� è indipendente dalla v.a. �� poiché la prima si riferisce ad un primo campionamento
casuale e la seconda si riferisce ad un secondo campionamento casuale.
Lo stimatore si dice corretto perché � R��;U)� = G. E�%; G)
% = 1% �� + �� +⋯+ ��
Statistiche corrette
Z:[\[\]^_`\abcbabd^ed`fb
E) G ,
06/05/2015
22
La v.a. �� = 1% �� + �� +⋯+ �� con
��, ��, … , ��Il vettore è un esempio di campione casuale
�: altezza studente UNIBAS
Y�: Andrea ��Y�) = altezza di Andrea
La v.a.�� è tale che �� Y� = ��Y�): prima unità statistica
Y�: Giuseppe ��Y�) = altezza di Giuseppe
La v.a.�� è tale che �� Y� = ��Y�): seconda unità statistica
� La v.a. �� è una copia della v.a. ��.
� La v.a. �� è indipendente dalla v.a. �� poiché la prima si riferisce ad un primo campionamento
casuale e la seconda si riferisce ad un secondo campionamento casuale.
La stimatore si dice corretto perché � �� = μ. �� = 1% �� + �� +⋯+ ��
Z:[\[\]^_`\abcbabd^ed`fb
��, ��, … , �� v.a. indipendenti ed identicamente
distribuite, con legge di probabilità hN è un esempio di statistica.
Parliamone davanti ad un bicchiere di birra…
In compagnia di
William S. Gosset (1876-1937)
A Student of Statistics
Quando non si conosce la varianza della popolazione
al suo posto si può usare la varianza campionaria.
Ai percentili della v.a. gaussiana vanno sostituiti
quelli della variabile aleatoria T-Student → -0i./)
In tal caso la distribuzione di �� è descritta dalla variabile
aleatoria T-Student.
Gradi di libertà
Varianza non nota
06/05/2015
23
Esempio: Il contenuto di Coca-Cola in una singola bottiglia può subire piccole variazioni. I dati
indicano che il contenuto delle bottiglie segue una legge gaussiana con media 33cc. Oggi, alle
8am, il responsabile del controllo di qualità ha selezionato 16 bottiglie, trovando una media
campionaria di 32,87cc e una deviazione standard campionaria di 1,5 cc .
Costruire un intervallo di confidenza al livello del 95% per il contenuto medio delle bottiglie.
32,87cc rappresenta una stima puntuale del contenuto medio delle bottiglie.
1,5cc rappresenta una stima puntuale della deviazione standard campionaria
delle bottiglie.
�� − �� %8 = =~"�0,1)
�� − �j %8
= k���
Al posto di si usa
gradi lib=16-1
; −?:,'C�< = D ?:,'C� = 0,95 ; −-:,'C�;�� < k D -:,'C�;�� = 0,95; −2,1314 < k D 2,1314 = 0,95
�� − �j %8 ; −2,1314 < �� − �
j %8 D 2,1314 = 0,95
; −2,1314 j% < �� − � D 2,1314 j
% = 0,95
; �� − 2,1314 j% < � D �� + 2,1314 j
% = 0,95
06/05/2015
24
; �� − 2,1314 j% < � D �� + 2,1314 j
% = 0,95
Viene sostituito con la media campionaria 32,87cc
; 32,87 − 2,1314 j% < � D 32,87 + 2,1314 j
% = 0,95
Viene sostituito con la deviazione campionaria 1,5cc
; 32,87 − 2,13141,5% < � D 32,87 + 2,13141,5% = 0,95
Viene sostituito con la taglia 16
; 32,87 − 2,1314 1,516 < � D 32,87 + 2,1314 1,516 = 0,95
[32,07; 33,06]Con probabilità pari al 95%, il contenuto medio delle bottiglie di coca cola assume un valore
compreso tra 32,07cc e 33,06cc. Cambiando campione casuale, l’intervallo cambia.
Esempio: Il contenuto di Coca-Cola in una singola bottiglia può subire piccole variazioni. I dati
indicano che il contenuto delle bottiglie segue una legge gaussiana con media 33cc. Oggi, alle
9am, il responsabile del controllo di qualità ha selezionato 16 bottiglie, trovando una media
campionaria di 32,97cc e una deviazione standard campionaria di 1,8 cc .
Costruire un intervallo di confidenza al livello del 95% per il contenuto medio delle bottiglie.
; �� − 2,1314 j% < � D �� + 2,1314 j
% = 0,95
Viene sostituito con la media campionaria 32,97cc
; 32,97 − 2,1314 j% < � D 32,97 + 2,1314 j
% = 0,95
Viene sostituito con la deviazione campionaria 1,8cc
; 32,97 − 2,13141,8% < � D 32,97 + 2,13141,8% = 0,95
Viene sostituito con la taglia 16
; 32,97 − 2,1314 1,816 < � D 32,97 + 2,1314 1,816 = 0,95
[32,01; 33,92] [32,07; 33,06]L’intervallo precedente è
06/05/2015
25
Osservazione: La v.a. T-Student è il rapporto tra due v.a.:
�� − �j %8
=�� − �
%lj =
�� − �� %8j �8
=
�� − �� %8j�
% − 1% − 1
= =m� % − 18
Rapporto tra variabili aleatorie
dove si è posto m�=����) ! j�
La v.a. S nella definizione della T-Student è la varianza campionaria, definita come:
j� = 1% − 1 �� − �� � + �� − �� � +⋯+ �� − �� �
� E’ un esempio di statistica.
Se la popolazione è gaussiana, è possibile caratterizzare la legge di probabilità di j�?
La statistica j� è uno stimatore corretto?
Di quale parametro?
Qual è la legge di probabilità di ?m�
Distribuzione campionaria della varianza
Si consideri la v.a. X con distribuzione di probabilità:
X 1 2 3 4
f(x) 0,2 0,1 0,3 0,4
Si elenchino i possibili campioni di dimensione 2 e si ricavi
la distribuzione di probabilità della varianza campionaria.
Coppie
(1,1)
(1,2)
(1,3)
(1,4)
(2,1)
(2,2)
(2,3)
(2,4)
Ad esempio, il valore di +o=0,5 corrispondente a (1,2) si ottiene calcolando [�1 − 1,5)�+
�2 − 1,5)�]/�2 − 1) = 0,5.
p�Zq = r; Zo = s)0,2×0,2=0,04
0,2×0,1=0,02
0,2×0,3=0,06
0,2×0,4=0,08
0,1×0,2=0,02
0,1×0,1=0,01
0,1×0,3=0,03
0,1×0,4=0,04
Coppie
(3,1)
(3,2)
(3,3)
(3,4)
(4,1)
(4,2)
(4,3)
(4,4)
rt uo1,0 0
1,5 0,5
2,0 2,0
2,5 4,5
1,5 0,5
2,0 0
2,5 0,5
3,0 2,0
rt uo2,0 2,0
2,5 0,5
3,0 0,0
3,5 0,5
2,5 4,5
3,0 2,0
3,5 0,5
4,0 0,0
p�Zq = r; Zo = s)0,3×0,2=0,06
0,3×0,1=0,03
0,3×0,3=0,09
0,3×0,4=0,12
0,4×0,2=0,08
0,4×0,1=0,04
0,4×0,3=0,12
0,4×0,4=0,16
06/05/2015
26
X 1 2 3 4
f(x) 0,2 0,1 0,3 0,4
vo 0,0 0,5 2,0 4,5
f(x) 0,30 0,34 0,20 0,16
� � = 1 × 0,2 + 2 × 0,1 + 3 × 0,3 + 4 × 0,4 = 2,9
506 � = �1 − 2,9)�× 0,2 + �2 − 2,9)�× 0,1 + �3 − 2,9)�× 0,3 + �4 − 2,9)�× 0,4 = 1,29
� jo = 0 × 0,3 + 0,5 × 0,34 + 2 × 0,2 + 4,5 × 0,16 = 1,29
� jo = 506 �
Media della popolazione
Varianza della popolazione
=�
La v.a. chi-quadrato è somma di quadrati di v.a. gaussiane standard.
w = 1 w = 2
w = 3w = 5
06/05/2015
27
La variabile aleatoria ��� ! j� dove j� = �
��� �� − �� � + �� − �� � +⋯+ �� − �� �
ha distribuzione chi-quadrato con gradi di libertà % − 1.
�% − 1)�� j� = �� − �� �
�� + �� − �� �
�� +⋯+ �� − �� �
��
Infatti
Lo stimatore è corretto perché � j� = �� j�
Esempio: L’osservazione della durata (in ore) della batteria per cellulare di una data marca
in 24 esemplari di prodotto ha dato luogo ai seguenti risultati:
58,7 64,9 76,9 67,8 41,7 56,7 64,5 69,7 82,1 82,5 40,8 74,9
71,5 75,4 67,3 73,0 70,4 104 82,3 90,4 86,8 72,8 71,8 54,5
La media campionaria risulta 70,9. La varianza campionaria risulta 203,45.
E’ possibile determinare un intervallo di confidenza al 95% per la varianza della
popolazione?
E’ possibile usare una v.a. chi-quadrato con gradi di libertà 23.
1 −B 1 − B = 0,951 − B 28 = 0,975B 28 = 0,025
B/2B/2
=11,68
=38,07
; 11,68 < % − 1�� j� D 38,07 = 0,95 ; �% − 1)j�
38,07 < �� D �% − 1)j�11,68 = 0,95
; 23 × 203,4538,07 < �� D 23 × 203,45
11,68 = 0,95% ← 24, j� ← 203,45