25
Curso Inferencia Estad´ ıstica Miguel ´ Angel Chong R. [email protected] 12 de noviembre del 2012 Miguel Chong Inferencia

Estad´ıstica Miguel Angel Chong R.´ [email protected] ... · Hipotesis compuestas Una hipotesis es compuesta cuando el subconjunto del espacio param´etrico⇥ 0 o⇥ 1 tiene

  • Upload
    others

  • View
    9

  • Download
    0

Embed Size (px)

Citation preview

Curso Inferencia

EstadısticaMiguel Angel Chong R.

[email protected]

12 de noviembre del 2012

Miguel Chong Inferencia

Lema de Neyman Pearson

Supongamos que X = (X1

,X2

, . . . ,Xn) es una muesta aleatoria deuna funcion f (x ; ✓). Sea L(X ; ✓) la funcion de verosimilitud de lamuestra aleatoria de tamano n.

Y queremos contrastar la siguiente prueba de hipotesis simplescontra simple: H

0

: ✓ = ✓0

vs H1

: ✓ = ✓1

.

Supongamos que K es un real positivo fijo y C es un subconjuntodel espacio muestral X tal que

1

L(x ;✓0

)

L(x ;✓1

)

K , si solo si x = (x1

, x2

, . . . , xn) 2 C ,

2

L(x ;✓0

)

L(x ;✓1

)

> K , si solo si x = (x1

, x2

, . . . , xn) 2 C ? = C c(el

complemento de C )

3 P (X 2 C |✓ = ✓0

) = ↵.

Entonces afirmamos que C es la mejor region crıtica al nivel designificancia ↵ para la prueba de hipotesis simple contra simpleplanteada.

Miguel Chong Inferencia

El lema de Neyrnan-Pearson no solo dice que cuando la muestra X pertenece a

la region crıtica C , sino que da un estadıstico, que nos puede hacer prescindir de

checar la necesidad de X 2 C , si lo vemos en terminos de eventos tenemos que

{X 2 C} ,⇢L(X ; ✓

0

)

L(X ; ✓1

)

K

, {T (X ; ✓0

, ✓1

) K1} .

por lo que X 2 C , es equivalemte a que el valor del estadıstico T (X ; ✓0

, ✓1

) sea

menor que una constante K1

, que habra que determinar en cada caso. Como

los eventos son equivalentes, entonces sus probabilidades son iguales

P (X 2 C) = P✓L(X ; ✓

0

)

L(X ; ✓1

)

K

= P (T (X ; ✓0

, ✓1

) K1) .

Miguel Chong Inferencia

En otras palabras conocemos la distribucion del estadıstico T (X ; ✓0

, ✓1

) ,

podemos determinar el valor de K1

, determinando previamente ya sea el nivel

de significancia ↵ o la potencia del contraste 1� �. Es decir podemos obtener

la mejor region crıtica vıa

↵ = P (X 2 C |H0

) = P✓L(X ; ✓

0

)

L(X ; ✓1

)

K |H0

◆= P (T (X ; ✓

0

, ✓1

) K1

|H0

) ,

1� � = P (X 2 C |H1

) = P✓L(X ; ✓

0

)

L(X ; ✓1

)

K |H1

◆= P (T (X ; ✓

0

, ✓1

) K1

|H1

) .

En general, la distribucion de T (X ; ✓0

, ✓1

) puede ser complicada, lo

recomendable es ir simplificando hasta llegar a un estadıstico T (X ; ✓0

, ✓1

) con

distribucion conocida.

Miguel Chong Inferencia

Hipotesis compuestas

Una hipotesis es compuesta cuando el subconjunto del espacioparametrico ⇥

0

o ⇥1

tiene mas de un elemento.

Puede pasar que la hipotesis compuesta sea la hipotesis nula, laalternativa o ambas.

Primero estudiaremos el caso en el que la hipotesis nula es simple yla alternativa compuesta.

De las posibles hipotesis alternativas compuestas son

H1

: ✓ = ✓0

vs H1

: ✓ > ✓0

unilateral

H1

: ✓ = ✓0

vs H1

: ✓ < ✓0

unilateral

H1

: ✓ = ✓0

vs H1

: ✓ 6= ✓0

bilateral

Esta diferencia de hipotesis compuestas conduce a contrastesunilaterales y bilaterales.

Miguel Chong Inferencia

En general, para los contrastes unilaterales la region crıtica C secompone de un solo intervalo, de la forma T (X ) � K oT (X ) K . Ojo, no necesaria coincide el sentido de la desigualdadde la hipotesis con el de la region crıtica.

Mientras que para los contrastes bilaterales la region crıtica se verade la siguiente forma |T (X )| � K , es decir,

{[T (X ) �K ] [ [T (X ) � K ]} .

Miguel Chong Inferencia

Funcion Potencia

Sea un contraste simple contra compuesto, H0

: ✓ = ✓0

vsH1

: ✓ 2 ⇥1

.

La funcion de potencia se define como

Pot(✓) = P(rechazar la hipotesis nula H0

) = P(X 2 C ).

Notemos que en este caso Pot(✓) es funcion del parametro con✓ 2 ⇥

1

Observaciones

La potencia que tendrıa la prueba de hipotesis H0

: ✓ = ✓0

vsH1

: ✓ = ✓1

la obtendrıamos evaluando Pot(·) en ✓1

.

Si la hipotesis nula es simple, ✓ = ✓0

, la funcion de potenciaevaluada en ✓

0

es igual al nivel de significancia, puesto que

Pot(✓0

) = P(X 2 C |H0

)

= P(X 2 C |✓ = ✓0

) = ↵.

Miguel Chong Inferencia

Para puebas de hipotesis de la forma:

H1

: ✓ = ✓0

vs H1

: ✓ > ✓0

unilateral

H1

: ✓ = ✓0

vs H1

: ✓ < ✓0

unilateral

Podemos seguir usando el lema de Neyman Pearson, como lopodemos ver en el siguiente ejemplo.

Miguel Chong Inferencia

Ejemplo

Dada una funcion de densidad exponencial con parametro ✓ > 0

f (x) =

(✓e�✓x si x � 0

0 si x < 0

se desea contrastar la hipotesis H0

: ✓ = 2 vs H1

: ✓ > 2 con unnivel de significancia del 7% mediante una muestra de tamano uno.

La mejor region crıtica segun el lema de Neyman-Pearson esx1

K y

0.07 = P (aceptar H1

| es cierta H0

)

= P (x1

K |� = 2)

=

Z K

0

2e�2x1dx

1

= 1� e�2K .

entonces K = 0.036 Miguel Chong Inferencia

Continuacion del ejemplo

Por lo tanto la funcion potencia del contraste es

Pot(✓) = P(X 2 C |H1

)

= P(x1

0.036|H1

)

=

Z0.036

0

✓e�✓x1dx

1

= 1� e�0.036✓.

Miguel Chong Inferencia

Por ultimo veamos algunos ejemplos en los que lema deNeyman-Pearson empieza a tener ploblemas cuando quemosplantearnos un contraste bilateral

H1

: ✓ = ✓0

vs H1

: ✓ 6= ✓0

.

Miguel Chong Inferencia

Ejemplo 1

Para la funcion de densidad

f (x ; ✓) =

8><

>:

✓e�✓x 0 x 1

0 en otro caso

, con ✓ > 0.

si deseamos contrastar la hipotesis nula H0

: ✓ = ✓0

vsH

1

: ✓ 6= ✓0

= {✓ > ✓0

} [ {✓ < ✓0

}, hallamos la mejor region crıticamediante el lema de Neyman-Pearson.

El cociente de funciones de verosimilitud es

L(X ; ✓0

)

L(X ; ✓) K

Qni=1

✓0

e�✓0

xi

Qni=1

✓e�✓xi=

✓✓0

◆n exp��✓

0

Pni=1

xi

exp��✓

Pni=1

xi

=

✓✓0

◆n

exp

((✓ � ✓

0

)nX

i=1

xi

) K

Miguel Chong Inferencia

continuacion ejemplo 1

o equivalentemente

(✓ � ✓0

)nX

i=1

xi ln

✓✓✓

✓0

◆n

K

◆= K

1

Ahora si {✓ > ✓0

} entoncesPn

i=1

xi K1

(✓�✓0

)

= K2

, por otro lado

si {✓ < ✓0

} entoncesPn

i=1

xi � K1

(✓�✓0

)

= K2

.

Pero nosotros no sabemos si {✓ > ✓0

} o {✓ < ✓0

} no se puedeobtener la mejor region crıtica vıa el lema de Neyman-Pearson.

Miguel Chong Inferencia

Ejemplo 2

En una distribucion N(µ,�2) con varianza conocida, queremos encontrarla mejor region crıtica para el contraste H

0

: µ = µ0

vsH

1

: µ 6= µ0

= {µ > µ0

} [ {µ < µ0

} usando el lema de Neyrnan-Pearson.

Entoces el cociente de verosimilitudes

L(X ;µ0

)

L(X ;µ) K

Qni=1

1p2⇡�

e�(

xi�µ0

)

2

2�2

Qni=1

1p2⇡�

e�(

xi�µ)

2

2�2

=e�

Pni=1

(

xi�µ0

)

2

2�2

e�Pn

i=1

(

xi�µ)

2

2�2

= e

Pni=1

(

xi�µ)

2

2�2

�Pn

i=1

(

xi�µ0

)

2

2�2 K

Miguel Chong Inferencia

cont. ejemplo 2

o equivalentemente

nX

i=1

(xi � µ)2 �nX

i=1

(xi � µ0

)2 2�2 ln (K )

2 (µ0

� µ)nX

i=1

xi + n�µ2 � µ2

0

� 2�2 ln (K )

(µ0

� µ)nX

i=1

xi 2�2 ln (K )� n

�µ2 � µ2

0

2= K

1

Entonces si µ0

� µ > 0 entoncesPn

i=1

xi K1

µ0

�µ = K2

, mientras que si

µ0

� µ < 0 entoncesPn

i=1

xi � K1

µ0

�µ = K2

. Pero como no sabemos si

µ0

� µ > 0 o µ0

� µ < 0 no podemos obtener la mejor region crıticaaplicando el lema de Neyman Pearson.

Miguel Chong Inferencia

Una forma de solucionar esto es hacer lo siguiente:

Supongamos que ✓ es el parametro desconocido de la distribucion de

probabilidad de la poblacion f (x ; ✓) .

Y queremos hacer la prueba de hipotesis H0

: ✓ = ✓0

vs . H1

: ✓ 6= ✓0

.

Si X = (x1

, . . . , x1

) es una muestra aleatoria de tamano n, de la poblacion.

Se propone una medida de discrepancia (un estadıstico) que mida la

discrepancia entre el valor del parametro bajo la hipotesis nula, ✓0

, y valor de la

estimacion del parametro ✓?(X ) usando la evidancia de la muestra.

Denotaremos a esta medida de discrepancia por D = D(✓0

, ✓?).

Sera necesario que la distribucion de probabilidad de D bajo el supuesto que H0

sea cierta sea conocida.

Algunos ejemplos de la funciones de discrepancia son: D(✓0

, ✓?) = ✓0

� ✓?,

D(✓0

, ✓?) = |✓0

� ✓?|, D(✓0

, ✓?) = (✓0

� ✓?)2 o D(✓0

, ✓?) = ✓0

�✓?pVar(✓?)

. Si la

estimacion que se usa es el EMV ✓? =

ˆ✓ y el tamano de la muestra n ! 1,

tenemos que

D(✓0

, ˆ✓) =

⇣ˆ✓ � ✓

0

⌘2

Var(ˆ✓)

d! �2

1

.

puesto que

ˆ✓d! N(✓,Var(ˆ✓)) .

Miguel Chong Inferencia

La forma de determinar la region crıtica sera como sigue: Dado un nivel de

significacia ↵ fijo, la region crıtica que se utiliza sera D � d↵, donde d↵ es valorcrıtico suponiendo H

0

: ✓ = ✓0

verdadero, es decir

P (D � d↵|✓ = ✓0

) = ↵.

Entonces se rechaza la hipotesis nula H0

cuando la probabilidad de que se

presente una discrepancia mayor o igual que D sea menor que el nivel de

significancia ↵ fijado previamente, a esto se le conoce como el p-valor.

Miguel Chong Inferencia

Contraste usando la razon de verosimilitudes

Una clase de contrastes de significacion es el contrastes de la razonde veromilitudes, donde la medida de la discrepancia D no esta enterminos de diferencias entre el valor de hipotesis nula H

0

y elestimador evaluado en la muestra, sino que tal discrepancia semide como cociente de verosimilitudes, uno termino evaluado en lahipotesis nula H

0

: ✓ = ✓0

y el otro en el un punto maximo de laverosimilitud. Nuestro estadıstico del contraste sera

�(X ) =L(X , ✓

0

)

arg max⇥

L(X , ✓)

donde arg max⇥

L(X , ✓) quiere decir el valor de ✓ 2 ⇥ que maximiza

L(X , ✓). Siempre que la hipotesis nula sea simple, es decir,H0

: ✓ = ✓0

, y la hipotesis alternativa sea compuesta. Tal que⇥ = {✓

0

} [⇥1

.

Miguel Chong Inferencia

Observaciones

Es facil comprobar que este estadıstico �(X ) = L(X ,✓0

)

arg max

L(X ,✓) cumple las

siguientes propiedades:

0 �(X ) 1, puesto que

0 L(X , ✓0

), y 0 arg max⇥

L(X , ✓)

y L(X , ✓0

) arg max⇥

L(X , ✓).

Si ✓ es el estimador maximo verosimil (EMV) del parametro ✓,entonces

arg max⇥

L(X , ✓) = L(X , ✓).

Como �(X ) mide la discrepancia relativa entre L(X , ✓0

) y L(X , ✓) ,siendo ↵ el nivel de significancia, tomaremos como region crıtica lospuntos muestrales X 2 X que cumplan con �(X ) K tal que

P (�(X ) K |H0

) = ↵.

Miguel Chong Inferencia

La justificacion intuitiva de lo anterior es la siguiente:

Si H0

es cierta entonces L(X , ✓0

) ⇡ L(X , ✓) entonces el cociente�(X ) ⇡ 1.

Mientras que si el valores de �(X ) ⇡ 0 entonces la hipotesis nula esfalsa, puesto que L(X , ✓

0

) no se parece mucho al valor mas verosımilL(X , ✓), es decir, la discrepancia es grande con respecto a L(X , ✓).

Miguel Chong Inferencia

Observacion

Si para un contraste de hipotesis simple contra simple el contrastede razon de verosimilitud, es equivalente al lema de NeymanPearson.

�(X ) =L(X , ✓

0

)

arg max⇥

L(X , ✓)=

(1 si ✓ = ✓

0

L(X ,✓0

)

L(X ,✓1

)

si ✓ = ✓1

Miguel Chong Inferencia

Observacion

Si existe un estadıstico suficiente para el parametro ✓, el contrasterazon de verosimilitud es funcion del estadıstico suficiente. Enefecto, por el teorema de factorizacion para estadısticos suficientes,si T (X ) es suficiente para ✓ entonces

�(X ) =L(X , ✓

0

)

L(X , ✓)

=h(X )g(T (X ), ✓

0

)

h(X )g(T (X ), ✓)=

g(T (X ), ✓0

)

g(T (X ), ✓)= �(T (X )).

Miguel Chong Inferencia

Observacion

Si el contraste de hipotesis se refiere a un solo parametro ✓, bajocondiciones de regularidad, tenemos la propiedad asintotica de lasiguiente transformacion

�2ln�(X )d! �2

1

.

Miguel Chong Inferencia

Ejemplo

En una poblacion N(µ,�2) con �2 conocida se desea contrastar lahipotesis H

0

: µ = µ0

frente a la alternativa H1

: µ 6= µ0

, a partirde la evidencia empırica que proporciona una muestra aleatoriasimple de tamano n. Construyase el test razon de verosimilitud.

�(X ) =L(X , µ

0

)

maxR

L(X , µ)=

L(X , µ0

)

L(X , x)

= e�n

2�2

(x�µ0

)

2

Como �(X ) K entonces

|x � µ0

| � K1

y como x � µ0

|H0

⇠ N⇣0, �

2

n

⌘entonces encontrar el valor K

1

es

sencillo una vez dado el nivel de significancia ↵.Miguel Chong Inferencia

Caso mas general

Por otro lado si la hipotesis nula tambien es compuesta,H0

: ✓ 2 ⇥0

, la razon de verosimilitud debe definirse como

�(X ) =

arg max⇥

0

L(X , ✓)

arg max⇥

L(X , ✓).

Miguel Chong Inferencia