Author
booksreader1
View
24
Download
2
Embed Size (px)
DESCRIPTION
Statistics
1
STATISTICHE CAMPIONARIE E LORO DISTRIBUZIONE
Indichiamo una statistica campionaria come una funzione
g(X1, …., Xn) oppure t(X1, …., Xn)
dei risultati di un’estrazione di un campione di n unità, che può essere considerato una
determinazione di una v.c. n-pla con componenti (X1, …., Xn)
MEDIA CAMPIONARIA ( X )
Caso A
n-pla estratta in modo bernoulliano da popolazione di forma ignota con media µ e varianza σ2.
(X1, …., Xn sono n v.c. IID)
La statistica n
X
X
n
i
i∑== 1 è detta media campionaria.
Di tale statistica conosciamo che:
( ) µ=XE ( X è uno stimatore di µ non distorto)
( )n
XVar2σ
= ( X è uno stimatore di µ consistente-coerente)
Caso B
n-pla estratta in modo bernoulliano da popolazione normale (µ, σ2)
(X1, …., Xn sono n v.c. NIID)
Della media campionaria sappiamo, dal teorema circa la combinazione lineare di variabili NIID,
che:
nN
2
,~Xσ
µ (è uno stimatore di µ non distorto e consistente-coerente)
2
Ma qual è la distribuzione di X quando non siamo nel caso di normalità (quando siamo nel Caso
A)?
Dobbiamo distinguere due casi.
Caso A1
La distribuzione di ogni Xi è nota, ma non normale
A partire dalla distribuzione di X possiamo costruire quella di X . Nel caso di campione
bernoulliano la distribuzione potrà essere definita dalla produttoria della funzione di densità
corrispondenti alle singole estrazioni).
Tuttavia per il teorema del limite centrale sappiamo che:
dzez
n
Xp
zz
n
2
2
2
1lim
−
∞−∞→ ∫=
≤−
πσµ
ovvero che:
asintoticamente
nN
2
,~Xσ
µ e che ( )0,1N~
n
X
σµ−
Inoltre se X è dicotomo, con frequenze relative p e q, tale popolazione è bernoulliana, con
distribuzione ( ) xnxqpxp −= e
:
asintoticamente
n
pqpN ,~R n e ( )0,1N~
n
pq
pRn −
Caso A2
La forma della distribuzione di Xi non è nota.
Possiamo considerare solo le proprietà asintotiche di X (utilizzando il teorema del limite
centrale o di Laplace, o a seconda che tali v.c. siano, rispettivamente, IID o solo indipendenti)
VARIANZA CAMPIONARIA (S2)
Caso A
n v.c. IID (campione bernoulliano da una popolazione di forma ignota)
Definiamo la statistica ( )
n
XxS
i
2
2 ∑ −= varianza campionaria, e il suo numeratore devianza
campionaria. Si può osservare che:
( )
( ) ( )
−−
−−
=
−=
4
43
2
2
2222
1
31
)(1
σµ
σσ
n
n
n
nSVar
didistortostimatoreèSn
nSE
3
( )n
XxS
i
2
2 ∑ −= è la varianza campionaria distorta
( )1
2
12
−
−= ∑
n
XxS è la varianza campionaria non distorta (corretta)
( ) ( ) 2222
22
1
11
1
σσ =−
−=
−=
−=
n
n
n
nSE
n
nSE
n
nSS
Per dimostrare che ( ) 22 σ=SE possiamo esprimere 2S in un diverso modo:
( ) ( )=
−
+−−=
−
−= ∑∑
11
22
2
n
Xx
n
XxS
ii µµ
( ) ( )[ ]=
−
−−−= ∑
1
2
n
Xxi µµ
( ) ( ) ( )( )
( ) ( ) ( )( )
( ) ( ) ( )
( ) ( )2
2
222
22
22
11
1
2
11
1
2
11
1
2
11
µµ
µµµ
µµµµ
µµµµ
−−
−−
−=
=−
−−
−
−+
−
−=
=−
−−−
−−
+−
−=
=−
−−−
−−
+−
−=
∑
∑
∑
∑∑
Xn
n
n
x
n
Xn
n
Xn
n
x
n
nXnX
n
Xn
n
x
n
Xx
n
Xn
n
x
i
i
i
ii
( ) ( ) ( ) =
−−
−
−
−= ∑ 2
2
2
11µ
µX
n
nE
n
xESE
i
( ) ( )
22
2
22
22
22
1
1
11
1
11
1
11
1
11
1
σσ
σ
σσ
σσ
µµ
=
−−
=
=
−−
=
=−
−−
=
=−
−−
=
=−−
−−−
=
∑
∑
n
n
n
n
nn
n
nn
nn
n
n
n
n
XEn
nxE
n
xi
i
4
Caso B
n v.c. NIID (campione bernoulliano da una popolazione X normale)
TEOREMA: 2
1-n2
2
~ χσnS
e cioè la Devianza campionaria2
1
2~ −nχσ
Dimostrazione
( ) ( ) ( )[ ]∑ ∑ =−−−=−=i i
ii XXXXnS222 µµ
( ) ( ) ( ) ( )
( ) ( ) ( )
( ) ( )∑
∑
∑ ∑
−−−=
=−−−+−=
=−−−−+−=
−
22
222
22
2
2
µµ
µµµ
µµµµ
µ
XnX
XnXnX
XXXnX
i
i
i
i
nXn
i
ii
43421
∑
−−
−=
2
2
2
2
n
XXnS i
σµ
σµ
σ
2
nχ 2
1χ
Poiché 2SeX sono indipendenti
anche
2
2
2
−
n
Xe
nS
σµ
σsono indipendenti e quindi
( )( )
( ) ( )
( )( )
( )( )
2
1-n2
2
2
1
2
1
2
2
1
2
~
:
21
21
21
2121
2
2
2
2
2
2
2
2
2
2
χσ
σ
σ
σ
µ
σσ
µ
nS
quindie
it
it
iteE
iteEit
eEeEeE
nn
nSit
nSitn
n
Xit
nSit
Xit
i
−−
−
−
−−
−−
−=−
−=
−
=−
=
∑
c.v.d.
5
Ancora su Media Campionaria
Caso B1
n-pla estratta in modo bernoulloniano da popolazione normale con varianza incognita
Mentre se conosco σ2
nN
2
,~Xσ
µ
se ci basiamoS2, possiamo considerare che:
( )1-n
2
12
2t~
1
1,0
)1(
−←
←
=
−
−
−
n
N
n
nS
n
X
nχσ
σµ
=
−
−=
−
−=
1
1
n
S
X
Sn
n
n
X µσσ
µ
1-nt~
n
S
X µ−= (v.c media campionaria studentizzata)
Pertanto mentre se conosco la varianza considero la v.c. media campionaria standardizzata, se
non conosco la varianza utilizzo la v.c. media campionaria studentizzata.
Altri casi
n-pla estratta in modo bernoulloniano da popolazione di forma ignota con varianza incognita
Poichè per ( )1,0Ntn →∞→
per grandi campioni si può assumere la distribuzione normale.
DIFFERENZA TRA MEDIE
Siano X1 e X2 due v.c. normali indipendenti
( )2
111 ,~X σµN
( )2
222 ,~X σµN
Avendo estratto due campioni bernoulliani, rispettivamente di numerosità n1 e n2
qual è la distribuzione di 21 XX − ?
Caso A: σ12 e σ2
2 note
Poiché 21 XX − è una C.L., la distribuzione è ancora normale
+−
2
2
2
1
2
12121 ,~X-X
nnN
σσµµ
e quindi:
6
( ) ( ) ( )0,1N~
2
2
2
1
2
1
2121
nn
XX
σσ
µµ
+
−−−
Caso B: varianze ignote ma uguali σ12 = σ2
2 = σ2
( ) ( )
( )2
21
2
2
21
2
2
22
2
11
2
2
1
2
2121
21
21
2
1,0
)2(
−+
−+
−+←
←
=
−+
+
+
−−−
nn
nn
t
nn
N
nn
SnSn
nn
XX
χσ
σσ
µµ
( ) ( )
+
−++
−−−=
2121
2
22
2
11
2121
11
2 nnnn
SnSn
XX µµ~ 221 −+nnt
se n1 e n2 e ∞→ è N(0, 1)
Siano X1 e X2 due v.c. Bernoulliane indipendenti ( con parametri p1 e p2).
Si estraggano due campioni di n1 e n2 unità.
Cosa può dirsi sulla distribuzione di Rn1 – R n2?
Per il teorema di De Moivre, per n1 e n2 e ∞→ :
−+
−−
2
22
1
1121nn
)1()1(,~R-R
21 n
pp
n
ppppN
RAPPORTO TRA VARIANZE
Date due v.c. normali indipendenti
( )2
111 ,~X σµN
( )2
222 ,~X σµN
Essendo:
n1 e n2 la numerosità dei due campioni;
S12 e S 2
2 le due varianze campionarie.
Allora:
7
( )1;1n
2
2
1
1
2
1
2
2
2
2
2
1
2
1
2
22
2
22
2
11
2
11
21
2
1
F~
1
1
)1(
)1(−−
−
−
−←
−←
=
−
−n
n
n
n
n
S
S
n
Sn
n
Sn
χ
χ
σ
σ
σ
σ
Caso particolare: se σ12 = σ2
2 = σ2
la F diviene:
( )1,12
2
2
1
2
2
22
1
2
11
21~
1
1−−=
−
−nnF
S
S
n
Sn
n
Sn
8
FUNZIONE DI VEROSIMIGLIANZA ( )θ|XL E’ la densità congiunta di (X1, ….., Xn) nel punto (x1, ….., xn), considerata come funzione
del parametro θ.
Si indica con L((X1, ….., Xn θ) la probabilità di estrarre una certa n-pla campionaria.
Se le n v.c. (X1, ….., Xn) sono IID:
( ) ( ) ( ) ( )θθθθ |........||| 21 nXpXpXpXL ⋅= (nel casi di v.c. discrete)
( ) ( ) ( ) ( )θθθθ |........||| 21 nXfXfXFXL ⋅= (nel di v.c. continue)
Due esempi:
• n v.c. N(µ, σ2) indipendenti
( ) ( )( )
2
2
2-
222
1 e2,| σ
µ
πσσµ ⋅
∑ −−
=iXn
XL
• n v.c. di Bernoulli indipendenti
( ) ∑∑=− ii XnX
qppXL |
9
STIMA PARAMETRICA PUNTUALE
I metodi che saranno presentati risultano i seguenti
• Metodo dei minimi quadrati (Metodo LSE, K. F. Gauss)
• Metodo dei momenti (K. Pearson)
• Metodo BLUE (Best Linear Unbiased Estimators, Stime lineari non distorte con varianza minima)
• Metodo della massima verosimiglianza (R.A.Fisher)
• Metodo χχχχ2 o χχχχ2
modificato
• Metodi bayesiani
Una classificazione dei metodi può essere fatta secondo:
• il diverso grado di informazioni richieste;
• le caratteristiche stime.
Livello di informazioni richieste dai metodi di stima
I. Il metodo dei minimi quadrati e gli stimatori BLU presuppongono solo
la conoscenza del campione
II. Il metodo dei momenti, le stime di massima verosimiglianza e i metodi
del χ2 presuppongono la conoscenza oltre che del campione anche della
forma della funzione di densità descritta dalle v.c. X1, X2, ….., Xn
III. I metodi di stima bayesiani. presuppongono anche la conoscenza a
priori di una sorta di funzione di densità dei parametri da stimare. Tali
metodi si fondano dunque sui dati campionari e sull’assunzione di
ipotesi sulla forma delle v.c. X e dei parametri da stimare.
Caratteristiche delle stime
I metodi saranno presentati sottolineando le loro caratteristiche in termini di:
• Non distorsione (Correttezza)
• Coerenza (Consistenza)
• Efficienza (relativa e assoluta)
• Sufficienza
• Completezza
• Invarianza
Prima di presentare i metodi verranno definite tali caratteristiche (le più
importanti).
La problematica della stima
Dalla ricerca della tecnica di campionamento più opportuna o “migliore”, alla
ricerca di una “buona” stima o della “migliore” stima
Quali sono i criteri cui deve soddisfare una stima perché sia considerata una
“buona” o la “migliore” stima di un parametro?
Abbiamo già visto che nel caso di universo finito e di grandi campioni
possiamo basarci su alcuni importanti fondamenti teorici: al crescere di n e
10
sotto determinate condizioni X tende in probabilità a µ e si distribuisce come
una v..c. ),(2
nN
σµ , Rn tende in probabilità a p e si distribuisce come una v.c.
))1(
,(n
pppN
−, che, che S
2 tende a distribuirsi come una v.c. χ2
.
Tuttavia, nel caso di universo infinito o di piccoli campioni con n prefissato,
devo studiare la v. c. descritta dalla stima sull’universo dei campioni e studiare
le caratteristiche di tale v. c.
L’obiettivo è proprio quello di individuare il modo migliore di effettuare la
stima, ovvero il migliore stimatore.
Allo scopo di stimare un parametro θ della popolazione si seleziona in modo
bernoulliano un campione di n unità.
Si definisce funzione di verosimiglianza L(X|θ) la funzione di densità della
v.c. multipla X1, X2, … , Xt descritta dal campione:
L(X|θ) = f(X1, X2, … , Xn|θ) = ∏=
)n
i 1
i |f(X θ (per l’indipendenza delle
v.c.estrazione)
(L sta per Likelihood, verosimiglianza). La funzione dipende dal parametro (o
dai parametri) θ.
Ad ogni campione x1, x2, … , xn corrisponde una certa probabilità di essere
estratto, che si indica come verosimiglianza del campione, e che dipende dal
parametro θ :
L(x1, x2, … , xn |θ) = f(x1, x2, … , xn|θ) = ∏=
)n
i 1
i |f(x θ
Per stimare θ utilizziamo uno stimatore T (estimator), definito come una
determinata funzione delle v.c. elementari estrazione X1, X2, … , Xn:
T = g(X1, X2,
… , Xn)
Il valore t assunto da T in corrispondenza di un determinato campione x1, x2, …
, xn è detta stima:
t = g(x1, x2, …
, xn)
La funzione di densità della v.c.stimatore dipende, tramite il campione, dal
parametro θ:
f(T|θ)
11
Essendo T una funzione del campione, tale che per ogni campione corrisponde
un unico valore di t, la densità di probabilità dello stimatore corrisponde alla
densità del campione dunque alla verosimiglianza:
f(T|θ) = L(X|θ)
Ogni metodi di stima può essere quindi presentato come un certo stimatore che
presenta determinate caratteristiche,ad esempio in termini di valore atteso,
varianza, tipo di distribuzione,ecc.
12
CARATTERISTICHE DEGLI STIMATORI
NON DISTORSIONE
Uno stimatore di un parametro si dice non distorto quando il valore atteeso dei
possibili valori che la v.c. stimatore può assumere al variare del campione,
coincide con il parametro della popolazione
( ) θθ == ∫+∞
∞−dttftTE |)(
Pertanto la stima T di θ si dice non distorta (o corretta) se il valore atteso
dello stimatore coincide con θ .
θ=)(TE
Come già visto p e X sono stime non distorte (essendo p =Rn)
Tale caratteristica delle stime garantisce che la funzione T, prescelta come
metodo di stima, non introduca alcun elemento sistematico di errore.
ovvero:
in media il metodo adottato non comporta né una sovra-stima, né una sotto-
stima del parametro θ .
Se invece ( ) )(B θθ +=TE la stima è distorta (B: Bias del parametro)
e il valore ( ) θθ −= TE(B è detta “distorsione della stima”
Se ⇒> 0)(B θ la v.c. T sottostima θ
Se ⇒< 0)(B θ la v.c. T sovrastima θ
Se la stima è distorta, la variabilità della stima deve essere misurata non con
la varianza, ma con l’errore quadratico medio (MSE):
( ) ( ) ( )[ ] =−+−=−= 22)( θθ TETETETETMSE
[ ] [ ]
22
0
22
)(B
)()(B2)(B)(
θσ
θθ
+=
=−++−=
T
TETETETE43421
A volte è possibile correggere una stima distorta, in modo da eliminarne la
distorsione
Esempio:
Sia ( ) baTE += θ
ponendo a
bTT
−=1
13
si ha ( ) ( )θ
θ=
−+=
−=
a
bba
a
bTETE
1 e quindi la stima 1T risulterà non
distorta.
14
CONSISTENZA
Uno stimatore T si dice consistente (in realtà consistency significa coerente),
se al tendere di n all’infinito, converge in probabilità al parametro da stimare:
[ ] 1||lim =<−∞→
εθTpn
con ε
piccolo a piacere
Come già visto, il teorema di Bernoulli e la legge dei grandi numeri
stabiliscono che la “proporzione campionaria” p e la “media campionaria” X
sono stime consistenti.
Condizione affinché uno stimatore sia consistente
Se la stima è non distorta la consistenza è garantita dalla condizione:
0lim 2 =⋅∞→ T
nσ
Dalla disuguaglianza di Tchebicheff sappiamo che:
[ ] ( )[ ]2
2
1|ε
θεθ
−−≥<−
TETp
Quindi affinché [ ] 1||lim =<−∞→
εθTpn
deve essere ( )[ ] 0lim2 =−⋅
∞→θTE
n
(consistenza in media quadratica).
Se la stima è distorta, ossia ( ) θ≠TE , affinché lo stimatore T sia consistente si
deve verificare contemporaneamente:
0lim 2 =⋅∞→ T
nσ e 0)(Blim =⋅
∞→θ
n
Se la stima è non distorta ossia ( ) θ=TE , affinché lo stimatore T sia
consistente si deve verificare soltanto che:
0lim 2 =⋅∞→ T
nσ
EFFICIENZA
Efficienza relativa
Si basa sul confronto tra la variabilità di diverse stime.
Siano T1 e T2 due stimatori. Lo stimatore T1 si dice più efficiente dello
stimatore T2 se presenta minore variabilità e quindi se MSE(T1)<MSE(T2). Il
confronto si può effettuare sulla base del rapporto, in cui convenzionalmente si
mette al numeratore lo stimatore più efficiente.
( ) ( )( )2
121 /
TMSE
TMSETTe =
15
con ( ) ( )2
2
2
1 θθ −≤− TETE
( ) ( )[ ]( )[ ]
⇒=
⇒<
+
+=
−
−=
efficienzastessalahannostimatorigli
TdiefficientepiùstimatoreèT
d
d
TE
TETTe
TT
TT
1
1
/
21
22
22
2
2
2
121
22
11
σ
σ
θ
θ
Se ( ) ( ) θ== 21 TETE sono entrambe stime non distorte, allora
( )2
2
21
2
2/T
TTTe
σ
σ=
Efficienza assoluta (Best estimator)
Presuppone un confronto tra la variabilità di una stima e la variabilità minima
che una stima può assumere, se esiste.
Teorema di Fréchet-Rao-Cramer (FRC): stabilisce un limite minimo alla
varianza di una stima. Pertanto se esiste una stima T, tale che =2
Tσ limite
stabilito dal FRC, allora T è stima efficiente in assoluto (stimatore pienamente
efficiente).
DISUGUAGLIANZA DI FRECHET-RAO-CRAMER (o disuguaglianza di
FRC)
Si consideri la v.c. n-pla nXXX ,,, 21 L descritta da una campione di n unità.
Sia ( )θ|,,, 21 nXXXL L la sua funzione di verosimiglianza,
supponendo che ( )θ|XL sia derivabile almeno due volte, la disuguaglianza di
FRC è la seguente::
( )[ ]( )
∂∂
+≥
2
2
2
|log
'1
θθ
θσ
XLE
dT
dove ( )θ'd è la derivata prima della distorsione d rispetto a θ
Se ( ) θ=TE , il numeratore è 1 e l’estremo inferiore di la disuguaglianza
diventa:
( )
∂∂
≥2
2
|log
1
θθ
σXL
E
T
16
Dimostrazione
( )
( ) ( )
( )θ
θθθ
funa
generale
inèd
ocampionarispazio
R
dxdXLTTEn ↑
+== ∫ ~|
deriviamo rispetto a θ
( ) ( ) ( )( )
( ) )('1||
|'|'
~
)(
~θθ
θθ
θθ
θ
dxdXLXL
XLTxdXLT
TE
XperLdividiamoeiamomoltiplich
RR nn
+===∂
∂∫∫
444 844 76
( ) ( ) ( ) )('1||log
~θθ
θθ
θdxdXL
XLT
TE
nR
+=∂
∂=
∂∂
∫
( )( )
( )
⋅=
∂∂
θθθ
θ|'
|
1|loginfatti XL
XL
XL
( ) ( ))('1
|logθ
θθ
θd
XLTE
TE+=
∂∂
=∂
∂
[è il valore atteso del prodotto tra le due v.c. T e
( )θ
θ∂
∂ |log XL ]
Il valore atteso della seconda v.c.( )
0|log
=
∂∂
θθXL
E [vedi (*)] e quindi il
valore atteso del prodotto delle due v.c.
( ) ( )[ ] ( )
∂
∂−=
∂
∂
θθ
θθ |log|log XL
TETEXL
TE
Infatti
( )[ ] ( ) ( ) ( )
( )
( )
∂∂
=
∂∂
−
∂∂
=
∂∂
−
∂
∂
θθ
θθ
θθ
θθ
θθ
|log|log)(
|log|log
0
|log)(
XLTE
XLTEE
XLTE
XLTETE
XLETE
4444 34444 21
444 3444 21
(*) Dimostrazione che ( )
0|log
=
∂∂
θθXL
E .
17
Poiché ( ) 1|~
=∫ xdXLn
R
θ (probabilità spazio di tutti i campioni), derivando
rispetto a θ
( )
( )( )
( ) 0||
|'
0|'
log
=
=
∫
∫
∂
∂
dxXLXL
XL
dxXL
n
n
R
L
R
θθθ
θ
θ
43421
( )0
|log=
∂∂
θθXL
E c.v.d.
Pertanto
( ) ( )[ ] ( ))('1
|logθ
θθ
θd
XLTETE
TE+=
∂∂
−=∂
∂
Per la disuguaglianza di Cauchy-
Schwarz ii
i
i
i
i
i
ii baseugualebaba ∝≤
∑∑∑ ,22
2
( )[ ] ( ) [ ] ( )
∂∂
−≤
∂∂
−2
2
2
|log)(
|log
2θ
θθ
θ
σ
XLETETE
XLTETE
T
4434421
e quindi
[ ] ( )
∂∂
≤+2
22 |log)('1
θθ
σθXL
Ed T
Da cui
( )[ ]( )
( )[ ]( )θ
θ
θθ
θσ
I
d
XLE
dT
2
2
2
2 '1
|log
'1 +=
∂
∂
+≥
c.v.d.
dove ( )θI è detto “quantità d’informazione” fornita dal campione sul
parametro θ .
Se la stima è non distorta
18
( ) )(
1
|log
12
2
θ
θθ
σIXL
E
T =
∂∂
≥
Quali sono le condizioni che realizzano una stima pienamente efficiente?
La disuguaglianza di Cauchy-Schwarz è una uguaglianza se ai e bi sono
proporzionali e quindi se sono proporzionali le due v.c.
( )
−
∂∂
)(|log
TETeXL
θθ
:
Si tratta quindi di stabilire che tipo di funzione di densità deve avere la vc.
X affinché sia
( )
−=
∂∂
)(|log
TETKXL
θθ
(*)
e dunque ammetta una stima efficiente.
Integriamo i membri della (*)
( ) ( )
( ) cfTfXL
K
++= θθθ 21|log
( ) ( ) ( ) ( )n
fTfXXueXL ,...,| 1
21 θθθ += ( )←←
Inoltre se:
( )∑=
=n
i
iXaT1
ovvero funzione di ciascuna variabile Xi
e se ( ) ( )i
n
i
n XbXXu ∏=
=1
1,..., allora
( ) ( ) ( ) ( ) ( )θθθ 21
1
|fXaf
i
n
i
ieXbXL+
=∏=
Ovvero:X deve appartenere alla famiglia delle funzioni di densità
esponenziali, che ammettono tutte una stima efficiente
( ) ( ) ( ) ( ) ( )θθθ 21| fXafeXbXf
+=
Appartengono a tale famiglia:
la v.c. Normale
( )2
2
2
1
22
1 σ
µ
πσ
−− x
e
la v.c. Gamma ( )
xv exv
−−
Γ11
la v.c. Poisson !x
exλλ−
la v.c. Bernoulli xnxn
qpx−
19
Ad esempio per la v.c. Normale:
( )( ) ( )
∏=
−−−
−− ∑
=
=
n
i
xnx ii
eeXL1
2
1
222
1
2
22
2
)2(1
| σ
µ
σ
µ
πσπσ
θ
( ) ( )=
−−−= ∑
2
2
2
2
1)2log(
2|log
σ
µπσθ ixn
XL
SUFFICIENZA DI UNA STATISTICA
Sia T una statistica campionaria, risultato di una funzione t sulla n-pla
campionaria ( )nXXtT ,...,1= .
In tale sintesi è auspicabile che non si perdano informazioni su θ .
T è detta statistica sufficiente se equivale al campione in termini di
contenuto informativo su θ.
Definizione:
Sia ( )nXX ,...,1 un campione estratto da una popolazione con funzione di
densità ( )θ|Xf .
Allora ( )nXXtT ,...,1= è detta statistica sufficiente per θ se e solo se la
funzione di densità condizionata di nXX ,...,1 dato da T non dipende da θ,
per ogni Tt ∈ .
T è una statistica sufficiente per θ se ( )TXf |' non dipende da θ Tt ∈∀
Ad esempio, data una v.c. ( )2,~X θµN si può dimostrare che ( )2,SX sono
statistiche sufficienti per ( )2,σµ .
IL TEOREMA DI FATTORIZZAZIONE: (Neyman-Fisher)
Fornisce un criterio per poter definire come sufficiente una statistica.
Sia ( )nXX ,...,1 un campione estratto da popolazione distribuita secondo la
funzione di densità ( )θ|Xf .
( )nXXtT ,...,1= è sufficiente per θ, se e solo se possiamo esprimere
( ) ( )[ ]( )
( )↓↓
⋅=
↓ θθ
θ
θθ
dadipende
noncheFunzione
campioneiltramite
dadipende
XhXtgXf
Tg
43421|
||
20
Esempi:
Bernoulli
( ) ( ) ( ) 1|| 1 ⋅∑∑==∑∑=→−−
∑XnX
i
XnXqpXhpXgqppXf iii
ovvero n
X∑è una statistica sufficiente per p
Normale
( )( )
2
2
2
2
2
2
1,| σ
µ
πσσµ
−Σ−
=
ixn
eXf (supponendo noto 2σ )
( )( )
( )
( )
43421444 3444 21 campionedaledadipende
Xn
da
dipendenon
Xh
XXn
eeXf
i
µ
σ
µ
µ
σ
πσσµ 2
2
2
2
22
2
2
2
1,|
−−
−−∑
=
Una statistica ( )nXXtT ,...,1
* = si dice sufficiente minimale per θ se è
funzione di ogni altra statistica sufficiente per θ, ossia se:
( )[ ]nXXtfT ,...,1
* =
1T è stimatore sufficiente per θ se per ogni possibile n-pla di stime si ha
che:
f(T1,T2,….Tn) = g(T1|θ ) h(T2,T3,….Tn|T1)
GRAFICAMENTE
Sia nXX ,...,1 un campione e ∑=
==++n
i
in TXXX1
1 L una statistica
campionaria.
Ad ogni valore T corrisponde un piano, ovvero una partizione di S
Se T è sufficiente, i campioni nXX ,...,1 appartenenti alla singola “curva”
hanno funzione di densità ( )TXf |' che non dipende da θ. Non è rilevante
ai fini della conoscenza su θ, la posizione dello specifico campione sulla
“curva”.
21
METODI STIMA PUNTUALE
IL METODO DEI MINIMI QUADRATI (K.F. Gauss)
LSE: Least Square Estimator
Tipicamente associato al modello di regressione
εββ ++= XY 10 componente modello + componente erratica
XY 10ˆ ββ +=
YY ˆ−=ε
Y: variabile dipendente (o di interesse); X variabile indipendente (o
esplicativa, o ausiliaria)
Modello deterministico: Y è v.c. mentre X assume valori predeterminati;
per ogni Xi si estrae un campione di una o più unita di Y;
Modello stocastico: Y e X sono entrambe v.c.; si estraggono coppie di
valori Xi, Yi.;
Il metodo LSE nasce come soluzione del problema dell’interpolazione
lineare.
A) Stima dei parametri della relazione lineare intercorrente tra due variabili
X e Y, sulla base di n coppie di informazioni
εββ ++= XY 10
Dove e la variabile che rappresenta l’effetto degli errori di osservazione
sulla variabile Y.
( )∑ ∑= =
==−−n
i
n
i
ii GXY1 1
22
10, 10
min εββββ
equazioni
normali
( )
( )
=−−−=∂∂
∑=−−−=
∂∂
∑
∑
=
=
=−−→
=→=
n
i
iii
n
i
XY
ii
XXYG
XYG
x
n
i
i
1
10
1
1
0
010
0
02
02 10
1
βββ
βββ
ββ
ε
(passa per il
baricentro YX , )
deistime
parametri
−
( )( )
−=
==−
−−=
∑
∑
10
2
,
21
ˆˆ
,
)(
))((ˆ
ββ
σ
σβ
XY
XVar
YXCov
XX
YYXX
X
YX
i
i
i
ii
ii XY 10ˆˆˆ ββ += ←valori Y interpolati
iiiii XYYY 10ˆˆˆˆ ββε −−=−= rappresenta la stima degli effetti degli errori
(detti residui)
22
=Σ 2ˆiε minimo
Un esempio di stima LSE: la stima di µ
Dato un campione di n unità ( )ni XXX ,...,,..1
Si considera iiX εµ += si vuole stimare il parametro µ
( ) GXn
i
i µµµ minmin
1
2 =
−∑
=
( )∑ =−−=∂∂
i
iXG
02 µµ
è minimo perché derivata seconda è positiva
∑=i
iXn
X1
B) Stima dei parametri della funzione di regressione di una v.c. doppia,
attraverso un campione
di n unità
( ) XXYE 10| ββ +=
( )XYEY |−=ε
v.c. 2n-pla ( ) ( ) ( ),,,,,,, 2211 nn YXYXYX L per ciascuna delle estrazioni
iii XY εββ ++= 10
Scomposizione della devianza campionaria di Y
( ) ( ) ( )∑ ∑= =
=−+−=−=n
i
n
i
iiii YYYYYYYDev1 1
22 ˆˆ
( ) ( ) ( )( )∑ ∑ ∑= = =
=−−+−+−=n
i
n
i
n
i
iiiiii YYYYYYYY1 1
0
1
22ˆˆ2ˆˆ
444 3444 21
( )∑ ∑= =
=−+=n
i
n
i
ii YY1 1
22 ˆε
( ) ( )=+= YDevRDev ˆ Devianza residua + Devianza spiegata
Pertanto, poiché la funzione di regressione gode, rispetto a qualsiasi altra
funzione di X, della proprietà di rendere minima la varianza residua nella
popolazione, ha senso scegliere come metodo di stima dei suoi parametri quello
che si basa proprio sulla minimizzazione, nel campione, della quantità ad essa
corrispondente
Caratteristiche delle stime dei minimi quadrati: il teorema di Gauss-
Markov..
iii XY εββ ++= 10 ( )ni ,...,1=
23
Se le v.c. iε soddisfano le seguenti condizioni:
1) ( ) 0=iE ε i∀ (stessa media nulla)
2) ( ) 2σε =iVar i∀ (stessa varianza finita)
3) ( ) 0, =jiCov εε ji ≠∀ (incorrelate tra loro)
4) ( ) 0, =iiXCov ε i∀ (incorrelate con la iX )
allora le stime dei minimi quadrati sono stime non distorte e hanno varianza
minima, tra le stime lineari.
24
STIME BLU (Best Liner Unbiased Estimator)
Si basano sulle conoscenze del campione (soltanto) (come LSE).
Sono stime lineari, non distorte, con varianza minima.
Quindi ( ) θ=TE e min2 =Tσ
La stima T di θ si ottiene come opportuna combinazione lineare di opportune
funzioni sulla n-pla campionaria
∑=
=n
i
ii XgT1
)(λ
Dove gi(X) è un’opportuna funzione che viene definita a seconda dell’oggetto
della stima
e λi sono i parametri della combinazione lineare che garantiscono la non
distorsione e la piena efficienza delle stima0
La scelta delle funzioni ( )~Xgi dipende dall’oggetto della stima, come vedremo:
se ∑=⇒==i
iiii XTXXgallora λµθ )(
se ( ) ( )∑ −=⇒−==i
iiii XXTXXXgallora222 )( λσθ
se ;;, 120 Yji === θβθβθ iii XY εββ ++= 10
I coefficienti iλ devono essere determinati in modo che la stima T sia non
distorta e abbia varianza minima.
Affinché T sia non distorta si dovrà porre l’uguaglianza:
( ) [ ]∑=
==n
i
ii XgETE1
)( θλ
Da tale uguaglianza si ricava il vincolo V cui dovranno sottostare i coefficienti
iλ affinché T sia non distorta.
Per garantire la piena efficienza di T si procede a minimizzare la sua varianza
sotto il vincolo della non distorsione.
La varianza dello stimatore è:
∑ ∑∑=
+=n
i i j
ijjiiiT
1
222 σλλσλσ con ji ≠
Pertanto, la funzione da minimizzare sotto il vincolo V della non distorsione è:
VG T ασ += 2
dove V è il vincolo (posto in forma di espressione pari a zero) e α è il
moltiplicatore di Lagrange
I coefficienti iλ si ottengono risolvendo il sistema di equazioni:
25
+
=∂∂
=∂∂
equazionin
G
G
i
1
0
0
α
λ
M
Dopo aver controllato le condizioni del secondo ordine (minimo e non
massimo)
Una volta determinati i coefficienti λ si ricava l’espressione dello stimatore e
della sua varianza.
∑=
=n
i
ii XgT1
)(λ
∑ ∑∑=
+=n
i i j
ijjiiiT
1
222 σλλσλσ con ji ≠
STIMA BLU DELLA MEDIA
Parametro da stimare: µθ =
Si pone: iii XXg ∀=)(
Caso A: Si assumono n v.c. IID con;
( ) jiijiiiXE ≠∀==∀= 022 σσσµ
Pertanto:
∑=i
ii XT λ
( ) ( )∑ ∑ ===i i
iii XETE µλµλ
Il vincolo è: 1=∑i
iλ , ovvero V può essere scritto come 01 =−∑i
iλ
∑=i
iT
222 λσσ
La funzione da minimizzare sotto vincolo è:
−+= ∑∑ 122
i
i
i
iG λαλσ
=−=∂∂
=+=∂∂
∑ 01
02 2
i
i
ii
G
G
λα
αλσλ
M
=
−=
∑ 1
2 2
i
i
λ
σα
λ
−==−
=+=
n
n
nni
2
2
2
2
21
2
1
2
12
σα
σα
σσ
λ
E quindi
XXn
Ti
i == ∑1
26
nnn
ni
T
2
2
2
2
22 11 σσσσ === ∑
Caso B: n. v.c. con stessa media, diversa varianza, indipendenti
( ) jiijiiXE ≠∀=∀= 0σµ
Pertanto:
∑=i
ii XT λ
( ) ( ) µλµλ === ∑∑i
ii
i
i XETE (come caso A)
Vincolo V: 011 =−⇒= ∑∑i
i
i
i λλ (come caso A)
222
i
i
iT σλσ ∑=
La funzione da minimizzare sotto vincolo è:
∑ ∑
−+=
i i
iiiG 122 λασλ
=−=−
=−=
=−=∂∂
=+=∂∂
∑∑
∑
∑i
i
i
w
i
i
i
i
i
i
i
i
ii
i
w
w
w
G
G
i
1
21
1
2
2
01
02
2
2
2
ασ
α
λσα
λ
λα
αλσλ
M
w
i i
ii
i
i
i
ii
X
X
w
wX
T ===
∑
∑
∑
∑
2
2
1
1
σ
σ
Lo stimatore è la media campionaria ponderata con pesi 2
1
iσ.
Si dà più importanza a valori campionari provenienti da v.c. con varianza più
piccola.
La varianza dello stimatore risulta quindi:
( )2
22
2
∑
∑=
i
i
i
i
T
w
wσσ
STIMA BLU DELLA VARIANZA
Parametro da stimare 2σθ = Caso di n v.c. IID
Si pone ( ) 22)( iii SXXXg =−=
( ) 22
iii
i
i SXXT ∑∑ =−= λλ
27
( ) ( ) ( ) 2
1
22
2
σλλ
σ
==−=−
∑∑ 321
n
n
iiii SEXXETE
∑ =− 22 1
σσλn
ni
Il vincolo è quindi: 1−
=∑n
niλ e dunque
01
=−
−=∑n
nV iλ
44 344 21321 2
2 ),( 2222
K
jiji
ji
i jK
SiT SSCov
i
i
λλσλσ
≠
∑∑∑ +=
−−++= ∑∑∑∑
≠
12
2
1n
nKKG iji
ji
i j
i λαλλλ321
−=
=−
−=∂∂
=++=∂∂
∑
∑1
1
01
022 21
n
n
nG
KKG
i
i
i
iii
λ
λα
αλλλ
M
( )1
2
−
−= ∑
n
XXT
i
IL METODO DEI MOMENTI Il metodo dei momenti, consente la stima di parametri di una famiglia di v.c. (il
c.d. sistema di curve di Pearson), che comprende come casi particolari, ad
esempio, la normale, la Beta, la Gamma, la t di student.
Tali v.c. hanno funzione di densità generata dalla soluzione dell’equazione
differenziale:
( )2
210
log
XCXCC
Xa
dx
Xfd
++
+= (4 parametri)
che deve soddisfare le due condizioni ( )4434421
43421
II
I
dxXfXf 1)(0 =≥ ∫+∞
∞−
La forma di f(X) dipende dalle condizioni imposte sui parametri che compaiono
al denominatore, ovvero dalle soluzioni dell’equazione 02
210 =++ XCXCC
[ ]*
Da tale equazione Pearson fece derivare sette diversi tipi di curve.
TIPO I
Se la [ ]* ammette due soluzioni reali di segno opposto 1α e 2α , allora:
28
( )( )( ) ( )
−
++
−
+
−=
−−
+=
∂
∂
X
a
X
a
CXXC
aX
x
Xf
2
2
1
1
122212
1log
αα
αα
αααα e quindi
( ) ( ) ( ) 21
21
bbXXKXf −−= αα che è una forma generalizzata della v.c.β(p,q)
TIPO II
Come Tipo I ma con 21 bb = e distribuzione simmetrica (altra v.c. Beta)
TIPO III
Nella [ ]* si pone 02 =C , 01 ≠C
( )XCC
C
Ca
CXCC
aX
dx
Xfd
10
1
0
110
1log
+
−
−−=+
+−=
( ) ( ) 1
10
C
X
beXCCKXf
−
+= , con 1
1
0
C
aC
C
b
−=
E’ una generalizzazione della v.c.Gamma a tre parametri
TIPO IV-V-VI
Nessuna delle v.c. di nostro interesse appartiene a questi tipi.
TIPO VII
Ponendo nella [ ]* 01 == aC e 00 20 >> CC
( )2
20
log
XCC
X
dx
Xfd
+=
( ) ( ) 22
12
20CXCCKXf
−+=
Appartiene a tale tipo la v.c. t di student
Pearson introdusse il metodo per valutare l’adattamento della distruzione
campionaria alle curve definite ( )VIII ÷ . Il criterio era costituito dall’analisi
dei valori di:
• 2
31 µβ = (quadrato dell’indice di asimmetria)
• 42 µβ = (indice di curtosi)
29
Per ciascuno dei sette tipi di curve del sistema di Pearson, i momenti sono
funzione dei quattro parametri 10 ,, CCa e 2C
Il metodo dei momenti consiste nell’uguagliare le espressioni dei quattro
momenti campionari ( 4321 ,,, mmmm ) ai corrispondenti quattro momenti
incogniti della popolazione ( )4321 ,,, µµµµ , ricavando quindi una stima dei
quattro parametri incogniti .,,, 210 CCCa
In particolare:
( )( )( )( ) 42104
32103
22102
12101
,,,
,,,
,,,
,,,
mCCCa
mCCCa
mCCCa
mCCCa
=
=
=
=
µ
µ
µ
µ
Naturalmente, se la curva dipende da soli due parametri avrò un sistema di sole
due equazioni.
In questa impostazione, il metodo dei momenti, ha bisogno di altre
informazioni oltre a quelle campionarie: devo cioè ipotizzare che X su Ω si
distribuisca come un determinato tipo di curva.
E’ dimostrato che possiamo utilizzare il metodo dei momenti anche soltanto
conoscendo la f(X) su Ω (anche se non appartenente a uno dei sette tipi)
Il metodo di stima dei momenti presenta le seguenti caratteristiche
• Consistente (Glivenko Cantelli rr mn =∞→→ µ )
• Poco efficiente
30
Anche stime parametriche con tale metodo sono poco soddisfacenti (solo
consistenti).
Esempi di utilizzo del metodo dei momenti in corrispondenza di diverse ipotesi
di distribuzione della v.c. X su Ω
v.c. Pascal (Binomiale negativa) (k,p)
xkqp
X
kXXp
−+=
1)(
( ) ( )
( ) ( )
−=
=
=−
=
=−
=
12
2
1
2
1
222
11
ˆ
ˆ
1,
1,
mm
mk
m
mp
mp
pkpk
mp
pkpk
µ
µ
v.c. Beta
( ) ( )( )
( ) 11 1,
1,
−− −= qp XXqp
XFqpβ
β
( )
( )( ) ( )
( )
( ) ( )
−
−
−=
−
−=
=+++
=
=+
=
1
2
11
2
111
222
11
111
ˆ
11
ˆ
1,
,
mm
mmq
m
mmmp
mqpqp
pqqp
mqp
pqp
µ
µ
v.c. Normale
( )( )
0
2
2
1
02
1 C
aX
eC
Xf
+−
=π
( )( )
=
=−
=−
=−
20
1
202
101ˆ
,
,
mC
ma
mCa
mCa
µ
µ
v.c. Gamma generalizzata
( )( )( ) ( )
−+=
−=
=
=+==
=+−==
=+−==
2
1120
1
2
2
2
21
3
2
11013103
2
2
1102102
1110
ˆˆˆ
2ˆ
2ˆ
2,,
,,
,,
ccamc
mm
ma
m
mc
mcaccccca
mcacccca
mcacca ii
µµ
µµ
µµ
STIME DI VEROSIMIGLIANZA (MLE) (R.A. Fisher)
Coe nel metodo deoi momenti anche in questo caso, oltre al campione, è
necessario conoscere la distribuzione della v.c. X su Ω
Sia definita sulla popolazione una v.c. casuale X con densità f(X)
31
( )θ|X~: fXΩ
E sia ( )∏=
=n
i
iXfXL1
|)|( θθ la corrispondente funzione di verosimiglianza di
tale v.c.
La stima MLE di θ è quell’espressione di T che massimizza la funzione di
verosimiglianza )|( θXL rispetto a θ.
Pertanto si sceglie come valore più verosimile da attribuire a θ, quel valore cui
è associata la massima probabilità di presentarsi nel campione estratto.
Lo stimatore si ottiene massimizzando rispetto a θ la funzione di
verosimiglianza e quindi attraverso la derivata prime seconda della funzione di
verosimiglianza stessa
)|(max θθ
XL
0)|(
=∂
∂θ
θXL e 0
)|(2
2
<∂
∂
θθXL
Quindi affinché si possa utilizzare il metodo, si deve poter derivare rispetto a
)|( θXL
Poiché 0)|( >θXL , possiamo cercare il massimo di )|(log θXL .
Ciò rende la ricerca di T più agevole.
Verosimiglianza L(X / teta)
0
0,01
0,02
0,03
0,04
0,05
0,06
0,07
1 3 5 7 9 11 13 15 17 19 21 23 25 27
teta
L(X
/te
ta)
32
Log-verosimiglianza log L(X / teta)
-3
-2,5
-2
-1,5
-1
-0,5
0
1 3 5 7 9 11 13 15 17 19 21 23 25 27
teta
log
L(X
/te
ta))
Inoltre, poiché
)|(
)|(')|(log
θθ
θθ
XL
XLXL=
∂∂
La derivata prima di )|(log θXL si annulla per gli stessi valori di θ per i quali
si annulla la derivata prima di )|( θXL .
Quindi il metodo consiste nel trovare il valore T per il quale:
0)|(log
=∂
∂θ
θXL
e 0)|(log
2
2
<∂
∂
θθXL
ovviamente se ( )kXL θθ ,...,| 1~
le stime kTTT ,...,, 21 si ottengono come soluzione
del sistema di K equazioni in K incognite:
0)|(log
0)|(log
1
=∂
∂
=∂
∂
k
XLL
XLL
θθ
θθ
Controllando che siano negative le derivate seconde.
Esempi di utilizzo del metodo della massima verosimiglianza in corrispondenza
di diverse ipotesi di distribuzione della v.c. X su Ω
[ ]1
nXX ,...,1 popolazione Bernoulliana
( ) ∑−∑= − ii XnXpppXL 1)|(
( ) ( )∑ ∑ −−+= pXnpXpXL ii 1loglog)|(log
( ) 01
11)|(log=−
−−=
∂∂
∑∑ ii Xnp
Xpp
pXL
=( ) ( )
( )0
1
1=
−
−−− ∑ ∑pp
XnpXp ii
∑ ∑ ∑ =+−− 0iii XpnpXpX
33
∑ =− 0npX i
n
iR
n
Xp == ∑ˆ , rappresenta la stima MLE della proporzione p
Infatti 0)|(log2
<∂
∂p
pXL
[ ]2
nXX ,...,1 popolazione normale con 2σ nota
( ) ( )( )
2
2
2222| σ
µ
πσµ∑
=−
−−iX
n
eXL
( ) ( ) ( )2
2
2
22log
2|log
σ
µπσµ ∑ −
−−= iXnXL
( ) ( )
02
2|log2
=−
=∂
∂ ∑σ
µ
µµ iXXL
( )∑ =− 0µiX
∑ = µnX i
Xn
X i == ∑µ) , rappresenta la stima MLE di µ
Infatti ( )
0|log
<∂
∂µ
µXL
[ ]3
nXX ,...,1 popolazione normale con µ nota
( ) ( )( )
2
2
2222 2| σ
µ
πσσ∑
=−
−−iX
n
eXL
( ) ( )2
2
22
2log
22log
2|log
σ
µσπσ ∑ −
−−−= iXnnXL
( ) ( )0
2
1
2
|log4
2
22
2
=−
+−=∂
∂ ∑σ
µ
σσσ iXnXL
( )0
22 4
2
4
2
=−
+−= ∑σ
µ
σσ iXn
( )∑ −= 22 µσ iXn
( )2
2
2ˆ Sn
X i =−
= ∑µ
σ rappresenta la stima MLE di σ
Infatti ( )
0|log
2
2
<∂
∂
σσXL
Proprietà degli stimatori MLE
I) Se esiste uno stimatore sufficiente per θ ,lo stimatore MLE ne è funzione.
Dimostrazione
1T è sufficiente se
34
( ) ( ) )(|| 1
2 XhTgXL ⋅= θσ
Quindi:
( ) ( )43421
0
1
2 )(log|log|log
=
+= XhTgXL θσ (=0 derivando rispetto a θ)
( )2|logmax σXL si ha in corrispondenza di uno stimatore 2T che rende
( )θ|max 1Tg e quindi 2T è funzione dello stimatore sufficiente 1T .
II) Se esiste uno stimatore corretto e pienamente efficiente, questo si ottiene
come MLE
Dimostrazione
Si consideri uno stimatore ( )nXXtT ,...,11 = , pienamente efficiente in quanto:
( ) ( )θθ
θ−=
∂∂
1
|logTK
XL
Si consideri uno stimatore ( )MLET2 ottenuto ponendo:
0)|(log
=∂
∂θ
θXL
Quindi se esiste uno stimatore pienamente efficiente si può scrivere
0)|(log
=∂
∂θ
θXL come
( ) ( )θθ
θ−=
∂∂
1
|logTK
XL=0 e quindi T1 = T2
Quindi lo stimatore T2 MLE coincide con quello pienamente efficiente T1, se
esiste .
III) Sotto alcune condizioni generali, al divergere di n, lo stimatore MLE si
distribuisce normalmente
( )[ ]( )1,N~ˆ −θθθ I ,
Lo stimatore MLE risulta quindi asintoticamente corretto e pienamente
efficiente
METODO DI STIMA DEL MINIMO CHI QUADRATO Sia X una v.c. discreta che assume le modalità Xu, con u=1,…, k con
probabilità ( )θ|uXp
Anche questo metodo di stima si fonda sulla conoscenza della distribuzione di
probabilità di X su Ω.
In un campione di n unità uX si presenta con frequenza nu .
Si definisce n
nf u
u = la frequenza relativa con cui osserviamo la modalità Xu
nel campione (Σfu=1).
Metodo del minimo χ2
35
La stima di θ si fonda sulla minimizzazione, rispetto al parametro θ, della
funzione :
( )[ ]( )∑
−
u n
nu
Xp
Xpf
θθ
θ |
|min
2
La funzione (χ2) è una somma di rapporti in cui al numeratore compaiono le
contingenze (differenze tra frequenze relative osservate e teoriche) e al
denominatore ci sono le frequenze relative teoriche (teoriche in quanto sono
quelle attese corrispondenti alla v.c casuale considerata).
Poiché cerco il minimo, debbo annullare la derivata prima, rispetto a θ; il fatto
che θ compare anche al denominatore può dare luogo a difficoltà. Per tale
motivo si può utilizzare il metodo del minimo χ2 modificato.
Metodo del minimo χ2 modificato
( )[ ]∑
−
n u
nu
f
Xpf2
|min
θθ
Entrambi i metodi godono delle proprietà asintotiche degli stimatori MLE e
pertanto, al divergere di n, lo stimatore del minimo χ2, nelle due versioni, si
distribuisce normalmente
( )[ ]( )1
1 ,N~ˆ −θθθ I ,
Tali stimatori risultano quindi asintoticamente corretti e pienamente efficienti
Esempi:
Stima di p in caso di v.c. Bernoulli con il metodo del minimo χ2
=−
+−−
+
−=
p
pn
Xn
p
pn
X
1
1
22
2χ
=−
+−−+
−=
p
pn
X
p
pn
X
1
11
22
( )
( )=
−
−+−
−=
pp
ppn
Xpp
n
X
1
1
22
( )pp
pn
X
−
−=
1
2
E quindi l’espressione che rende minimo il χ2 (nullo il numeratore) è
36
nRn
Xp ==ˆ , che rappresenta la stima di p on il metodo del minimo chi
quadrato
Stima di p in caso di v.c. Bernoulli con il metodo del minimo χ2 modificato
=−
+−−
+
−=
n
Xn
pn
Xn
n
X
pn
X22
2
1
modχ
=−
+−−+
−=
n
Xn
pn
X
n
X
pn
X22
11
=−
−+
−=
n
Xn
pn
X
n
X
pn
X22
−
−=
n
Xn
n
X
pn
X2
E quindi il χ2 modificato è minimo per
nRn
Xp ==ˆ , che rappresenta la stima di p on il metodo del minimo chi
quadrato.
STIME BAYESIANE
• Assumono nota a priori una distribuzione del parametro θ da stimare,
che denota le informazioni che si hanno a priori sul parametro da
stimare;
• Assumono nota anche la forma della f(x) nellapopolazione.
Stima di θ a priori
Se conosciamo che ( )θθ g~ , potremmo stimare a priori il parametro θθ
attraverso il valore medio della g(θ):
( ) ( )pdgE θθθθθ ˆ== ∫
+∞
∞−
In questo modo per stimare θ θutilizziamo soltanto le informazioni a priori e
non utilizziamo informazioni campionarie.
37
Invece, quello che vogliamo fare è di utilizzare le informazioni a priori
unitamente alle informazioni campionarie.
Per ottenere una stima di θ θallora consideriamo il valore medio della
distribuzione a posteriori del parametro, cioè della v.c. θ θcondizionata
θall’essersi presentato il campione.
Distribuzione a posteriori di θ
Si tratta dunque di determinare la funzione di densità a posteriori del parametro,
ovvero una volta estratto il campione:
La distribuzione del parametro a posteriori può essere scritta come:
)(
),()(
Xf
XhXf
θθ = (1)
Poiché la funzione di densità delle v.c. descritte dalle n estrazioni è L(X|θ), la
funzione di densità congiunta del campione e del parametro (numeratore della
(1)) è:
( ) ( )θθθ |),( XLgXh =
Da questa possiamo ottenere la distribuzione marginale del campione f(X) (il
denominatore della (1)):
( ) ( ) ( ) θθθθθ dXLgdXhXf |,)( ∫∫+∞
∞−
+∞
∞−==
e possiamo così riscrivere la (1),ossia la distribuzione a posteriori di θ posto il
campione come:
( ) ( )( ) ( ) θθθ
θθθθ
dXLg
XLg
Xf
XhXf
|
|
)(
),()(
∫∞+
∞−
==
La stima bayesiana di θ θsarà quindi il valorE medio della distribuzione a
posteriori, cioè il valor medio di θ θcondizionato nell'essersi presentato il
campione estratto:
Stima di θ a posteriori (stima Bayesiana di θ)
( ) ( ) ( )( ) ( )
θθθ
θθθθθ d
Lg
XLgXEB
|
||ˆ
∫∫ ∞+
∞−
∞+
∞−==
Tali stime sono generalmente distorte ma efficienti.
La distorsione è funzione della “qualità” dell’informazione a priori.
STIMA BAYESIANE DI p
Sia g(p) l’informazione a priori su p
38
Nel caso di assenza di informazioni a priori possiamo considerare come g(p) la
v.c. uniforme (ipotesi di Laplace), ritenendo così equiprobabili tutti i valori di
p.
( )
≤≤
= altrove
ppg 0
101
( ) ( )∫ ===1
0 2
1ˆ dpppgpEpp
Si estragga un campione bernoulliano di n elementi.
Essendo la funzione verosimiglianza
( ) ( ) XnX pppXL−−= 1|
la funzione di densità congiunta è:
( ) ( ) ( ) ( ) XnX pppgpXLpXh−−== 1|,
la funzione di densità marginale del campione à:
( ) ( ) ( ) =−== −+∞
∞−
+∞
∞− ∫∫ dppppgpXLXfXnX 1|)(
( )1;1 +−+= XnXB ossia è la funzione Beta con 1+= Xp e 1+−= Xnq .
La funzione di densità del parametro a posteriori è quindi:
( ) ( ) ( )( ) ( ) ( )
( ) XnXpp
XnXBdppgpXL
pgpXLXpf
−
∞+
∞−
−+−+
==
∫1
1;1
1
|
||
che è una v.c. Beta con 1+= Xp e 1+−= Xnq .
Poiché 1µ della v.c. Beta è qp
p
+ allora la stima bayesiana di p risulta:
2
1
11
1)/(ˆ
++
=+−++
+==
n
X
XnX
XXpEpB
La stima Bayesiana di p può essere espressa come combinazione lineare delle
due stime:
2
1ˆ =pp (stima a priori)
n
Xp =ˆ (stima classica MLE)
Infatti:
=+
++
=++
=2
1
22
1ˆ
nn
X
n
XpB
2
2
2
1
2 +
+
+⋅
=
nn
n
n
X
39
La stima bayesiana è dunque una combinazione lineare delle due stime p
(basata sul campione) e pp (basate solo sulle informazioni a priori).
Per quanto riguarda i pesi delle due stime, si noti che:
• al crescere di n il peso di pp diminuisce e per n molto grande pB → p. (al
crescere di n si dà meno importanza alle informazioni a priori);
• nonostante l’assenza di informazioni a priori (equiprobabilità di p) la
stima bayesiana è diversa da quella usuale.
Si ipotizzi a questo punto di estrarre, nelle stesse condizioni precedenti, un
secondo campione di n' unità ed ottenere X' successi.
Si voglia stimare p assumendo come distribuzione a priori di p la distribuzione
a posteriori ottenuta dal primo campione:
In questo caso si porrà:
( )( )
( ) XnX ppXnXB
pg−−
+−+= 1
1;1
1
e quindi la stima a priori, sarà considerata pari alla stima a posteriori, ottenuta
con il primo campione Bernoulliano di n dati
( )2
1ˆ
++
==n
XpEpp
Poiché:
( ) ( ) ''' 1|'XnX pppXL
−−=
( ) ( ) ( ) == pXLpgpXh |','
( )( ) ( ) =−−
+−+= −− ''' 11
1;1
1 XnXXnXpppp
XnXB
( )( ) ''' 1
1;1
1 XXnnXXpp
XnXB
−−++ −+−+
=
( ) ( )( )
( )( )
44444 344444 211'';1'
''1
11;1
1,''
+−−+++
−−++∞+
∞−
∞+
∞−−
+−+== ∫∫
XXnnXXB
XXnnXX dpppXnXB
dppXnXf
La distribuzione del paramero a posteriori è quindi
( ) ( )( ) ( )
( ) ''' 11''1'
1
'
,''|
XXnnXX ppXXnnXXBXf
pXhXpf
−−++ −+−−+⋅++
==
che è v.c. Beta con 1'++= XXp e 1'' +−−+= XXnnq
( )2
1'|ˆ
1
1
++
++==
nn
XXXpEpB (cumulazione dell’esperienza)
Si noti che coincide con la stima che si otterrebbe ipotizzando a priori
l’equiprobabilità di p ed estraendo un campione di n+n' unità ottenendo X +
X' successi.
Si noti che se si ignorasse il primo campione la stima MLE di p’ sarebbe
'
''
n
Xp =)
40
Per tale motivo si dice che le stime bayesiane permettono l’accumulo
dell’esperienza: ogni nuova stima del parametro, tiene conto dell’informazione
a priori della distribuzione a posteriori relativa alla prova precedente.
Al crescere del numero di unità del campione prevale l'importanza accordata
alle informazioni campionarie rispetto a quelle conosciute a priori.
Ciò è valido soltanto se la composizione dell’urna (la popolazione) rimane
immutata.
STIMA BAYESIANA DI µ
Sia ( )2
1N~ σµX
Informazione a priori su µ:
←
2
0 ,N~ αµµ 2α è precisione /fiducia nell’informazione a priori
pµµ ˆ0 = stima a priori
Poiché:
( ) ( )( )
2
2
2222| σ
µ
πσµ∑
=−
−−iX
n
eXL
( ) ( ) ( ) ( )( )
( )( )
2
2
2
20
22222
12 22|, σ
µ
σ
µµ
πσπαµµµ∑
==−
−−−
−−iX
n
eeXLgXh
( ) ...................=Xf ………
( ) .......................| =Xf µ ……
Si ottiene che:
22
2
0
2
ˆασαµσ
µn
XnB +
+=
Ponendo 2
2
ασ
δn
= si può scrivere la stima bayesiana
XB δµ
δδ
µ+
++
=1
1
1ˆ
0 come combinazione lineare di 0µ e X , essendo X
una stima MLE di µ.
Ancora, quindi, la stima bayesiana può essere considerata come una
combinazione lineare della stima a priori e di quella campionaria.
Si noti che
Per
=+
=+∞→
11
1
01
δ
δδ
n per cui XB →µ
Inoltre, il parametro α rappresenta una misura dell’imprecisione
dell’informazione a priori e quindi:
per α → 0
pB µµ ˆˆ →
41
viceversa
per
=+
=+∞→
11
1
01
δ
δδ
α per cui XB →µ
42
STIMA PARAMETRICA INTERVALLARE
Abbiamo visto che la stima puntuale di un parametro θ consiste nell’assumere
il risultato T di una opportuna funzione dei dati campioni X1, ……,Xn come
indicativo del valore del parametro.
La stima intervallare consiste invece nel definire mediante altre opportune
funzioni dei dati campionari gli estremi di uno o più intervalli entro i quali si
afferma che sia compreso l’effettivo valore θ del parametro. L’affermazione
può essere vera o falsa ed è possibile, usando i metodi che studieremo, limitare
la probabilità che l’affermazione sia errata.
Sia T una stima del parametro θ e sia t è la determinazione di una v.c. T che
dipende da ( )θ|Xf
Scelto un valore α, tale che 0<α<1, possibile definire in funzione di θ, gli
estremi di un intervallo I1(θ) , I2(θ) tale che:
( ) ( ) αθθ −=<< 121 ITIp (1)
Ovvero che sia 1-α la probabilità che il valore assunto dalla stima di θ sia
compreso nell’intervallo I1(θ) , I2(θ).
Si supponga che sia possibile invertire le due disuguaglianze
T > I1(θ) e T < I2(θ), ricavando:
h1(T)> θ e h2(T) < θ
Scelto un valore α sarà quindi possibile ottenere gli estremi di un intervallo che
sono funzione di T:
( ) ( ) αθ −=<< 112 ThThp (2)
Dato α, è pari a 1-α la probabilità che questo intervallo comprenda θ .
Attenzione: non è possibile leggere la (2) come:
è 1-α la probabilità che θ assuma valori compresi tra h1(T) e h2(T).
Infatti θ è una costante (ignota). Pertanto, mentre nella (1) gli estremi I1(θ) e
I2(θ) non variano al variare del campione e varia invece T; nella (2), invece,
non varia θ ma variano gli estremi h1(T) e h2(T).
Quindi l’evento aleatorio nella (2) è l’intervallo h1(T) e h2(T) comprendente θ.
L’intervallo (o l’insieme di intervalli) è detto intervallo di confidenza e 1-α è
detto livello di confidenza dell’affermazione esposta.
Chiariamo l’inversione analitica della disuguaglianza attraverso una
rappresentazione grafica
43
Se il parametro θ può assumere valori compresi in un certo intervallo, al variare
di θ in tale intervallo i punti di coordinate θ, I1(θ) e θ, I2(θ) descrivono le due
curve indicate nel grafico.
Per un dato valore θ0 di θ, la retta θ=θ0 interseca le curve I1(θ) e I2(θ) nei punti
I1(θ0) e I2(θ0): vale la (1), ovvero, se 0θθ = è α−1 la probabilità che
( ) ( )0201 θθ ITI << .
L’inversione analitica si risolve graficamente nel considerare la retta T=t0 e
quindi i punti di intersezione h2(t) e h1(t).
Intervallo di confidenza della media
Date n v.c. normali IID (campione bernoulliano) sappiamo che:
( )1,0~ N
n
X
σµ−
e quindi
ασ
µσ
αα −=
+≤≤− 12/2/n
zXn
zXp
Se non conosciamo σ sappiamo che:
( )1~ −
−nt
n
S
X µ e quindi:
T
θ
t
θ0
I1(θ0)
I1(θ)
I2(θ0)
h2(t) h1(t)
I2(θ)
44
( ) ( ) αµ αα −=
+≤≤− −− 12/;12/;1n
StX
n
StXp nn
Intervallo di confidenza della varianza
Date n v.c. normali IID (campione bernoulliano) sappiamo che:
( )2
2
2
~ n
iXχ
σ
µ∑ − e quindi:
( )( )
( )( )
αχ
µσ
χ
µ
αα
−=
−
≤≤−
−
∑∑1
2
2/1;
2
2
2
2/;
2
n
i
n
i XXp
Se non conosciamo µ sappiamo che:
( )2
12
2
~ −∑ −
n
i XXχ
σ e quindi:
( )( )
( )( )
αχ
σχ αα
−=
−
≤≤−
−−−
∑∑1
2
2/1;1
2
2
2
2/;1
2
n
i
n
i XXXXp
45
Intervallo di confidenza della differenza tra due medie
Si estragga da ciascuna di due popolazioni normali un campione bernoulliano
rispettivamente di n1 e n2 unità.
( )( ) tiindipenden
NX
NX
2
222
2
111
,~
,~
σµ
σµ
Sappiamo che
+−−
2
2
2
1
2
1
2121 ,~nn
NXXσσ
µµ e quindi:
( ) ( ) ασσ
µµσσ
αα −=
++−<−<+−− 12
2
2
1
2
1
2/2121
2
2
2
1
2
1
2/21nn
zXXnn
zXXp
Se σ12 e σ2
2 sono ignote ma uguali
+=+−−
21
2
2
2
1
2
2121
11,~
nnnnN σ
σσµµµµ
La stima di σ2 è:
( ) ( ) ( ) ( )2
)(
2
)()(
22
1
21
2
1
21
21
21
1
2
221
1
2
11
21
2
212
2
11
21
−+=
−+
+=
−+
−+−=
−+
+− ∑∑∑===−
nn
XDev
nn
XDevXDev
nn
XXXX
nn
SnSn u
u
n
i
i
n
i
i
Poiché 2
~1
~21
2
222
122 21
−+⇒
−−+−
nnnS
nnnχ
σχ
σ
Essendo 1~ −
−nt
n
S
X µ allora
( ) ( )( ) ( )
2
2121
2
22
2
11
2121
21~
11
2
11−+
+
−+
−+−
−−−nnt
nnnn
SnSn
XX µµ
( ) ( ) ( )
( ) ( ) ( )
+
−+−+−
⋅+−<
<−<
+
−+
−+−⋅+−
−+
−+
2121
2
22
2
112/;221
21
2121
2
22
2
112/;221
11
2
11
11
2
11
1
1
nnnn
SnSntXX
nnnn
SnSntXX
nn
nn
α
α µµ
O in modo più compatto:
46
( )
( )
+
−+⋅+−<
−<
+
−+⋅+−
∑
∑
=−+
=−+
2121
2
1
2/;221
21
2121
2
1
2/;221
11
2
)(
11
2
)(
1
1
nnnn
XDev
tXX
nnnn
XDev
tXX
u
u
nn
u
u
nn
α
α µµ
47
Intervallo di confidenza per la probabilità del successo p (frequenza
relativa)
Dovendo stimare la probabilità di successo p di una popolazione con
distribuzione di tipo bernoulliano, e’ intuitivo ricorrere alla frequenza relativa
dei successi che si hanno nel campione:
n
X
p
n
i
i∑== 1ˆ
E’ possibile dimostrare (grazie al teorema del limite centrale) che, per campioni
abbastanza grandi:
( )1;0~ˆ
;~ˆ N
n
pq
pp
n
pqpNp
−⇒
L’intervallo di confidenza al livello (1-α) e’:
−+
−−
n
ppzp
n
ppzp
)ˆ1(ˆˆ;
)ˆ1(ˆˆ
22αα
Si noti che e’ indispensabile, affinché la formula sia valida, che si abbia un
campione ampio.
48
Qualche esempio
Esempio 1 Campione di n=10 unità estratto in modo bernoulliano da popolazione normale
4.41 4.38 4.6 4.29 4.34 4.5 4.52 4.39 4.51 4.44
Si ha motivo di credere che 08,0=σ .
Determinare l’intervallo di confidenza della media con 05,0=α
∑=
=⇒=⇒=10
1
2/ 96,105,0438,4:38,44i
i zXX αα
95,048758,438842,4Pr
95,004958,0438,404958,0438,4Pr
95,010
08,096,1438,4
10
08,096,1438,4Pr
≥≤≤
≥+≤≤−
≥
+≤≤−
µ
µ
µ
Esempio 2
Come precedente senza conoscere σ2
( )( ) 262,205,009402,000884,0
9
438,4438,4 025,0;9
2
=⇒===−
== ∑t
XSX
i α
95,050525,437075,4Pr
95,006725,0438,406725,0438,4Pr
95,010
09402,0262,2438,4
10
09402,0262,2438,4Pr
≥≤≤
=≥+≤≤−
≥
+≤≤−
µµ
µ
Si noti che l’ampiezza dell’intervallo è maggiore se non conosco la varianza.
Esempio 3 Campione di n=11 unità estratto in modo bernoulliano da popolazione normale
2 5 4 1 2 3 1 4 2 1 6
Si ha motivo di credere che 6,2=µ .
Determinare l’intervallo di confidenza della varianza con 05,0=α
( ) ( )
( ) 82,3
9,21056,016,306,2
2
975,0;11
2
025,0;1111
1
2
=⇒
=⇒==−∑
= χ
χα
i
iX
95,08953,73772,1Pr
95,082,3
16,30
9,21
16,30Pr
2
2
≥≤≤
≥
≤≤
σ
σ
Esempio 4
Come precedente senza conoscere µ
( ) ( )
( ) 25,3
5,2005,064,29818,2818,2
112
975,0;10
2
025,0;1011
1
2
11
1
=⇒
=⇒==−== ∑
∑
=
=
χ
χα
i
i
i
i
X
X
X
49
95,012,94459,1Pr
95,025,3
64,29
5,20
64,29Pr
2
2
≥≤≤
≥
≤≤
σ
σ
Esempio 5 Si abbiano due campioni estratti da due normali in modo bernoulliano di n1=18
e n2=20 unità, con 3,31 =X e 1,42 =X
Si stimi la differenza tra 1µ e 2µ sapendo che 5,22
1 =σ e 62
2 =σ con
05,0=α
( ) ( ) 95,020
6
18
5,296,11,43,3
20
6
18
5,296,11,43,3Pr
96,1
21
2/
>
++−<−<+−−
=
µµ
αz
Ovvero
531,00651,2 21 <−<− µµ
Esempio 6 Verificare come si modifica l’intervallo non conoscendo le varianze ma
supponendo che siano uguali.
( ) ( )
( ) ( ) 719,0029,21,43,3719,0029,21,43,3
719,020
1
18
1
22018
59,61203118
59,63029,2
21
2
2
2
1025,0;36
⋅−−<−<⋅−−
=
+−+−+−
===
µµ
SSt
Ovvero
692,0225,2 21 <−<− µµ (l’intervallo presenta un’ampiezza maggiore)
ERROR: undefined
OFFENDING COMMAND:
STACK: