Author
doanque
View
256
Download
2
Embed Size (px)
MLG Ana M. Bianco FCEyN 2008 44
Propiedades de los Estimadores de Maxima Verosimilitud
Recordemos que si la variable aleatoria Y tiene funcion de densidad (f.d.)oprobabilidad puntual (f.p.p.)f(y, ), la verosimiltud L(, y) es simplementef(y, ) mirada como funcion de con y fijo.
La funcion de probabilidad puntual o densidad es definida sobre el soportey Y , mientras que la verosimilitud es definida sobre un espacio parametrico.
En muchos casos trabajamos con el logaritmo de la verosimilitud (log-likelihood)
l(, y) = log L(, y)
que esta definido salvo una cosntante aditiva.
En general, tendremos una muestra aleatoria Y1, . . . , Yn con f.d. o f.p.p.f(y, ), de manera que la verosimilitud sera:
L() =n
i=1f(yi, )
y la log-versosimilitud
MLG Ana M. Bianco FCEyN 2008 45
l() = log L() =n
i=1log f(yi, )
Una propiedad util de los EMV es la de invariancia que dice que si g esuna funcion con inversa g1, de manera que = g() implica que = g1(),entonces el EMV de , , se calcula como
= g() ,
siendo el EMV de .
Como ya sabemos, podemos maximizar L() o bien maximizar l(). En pro-blemas regulares, el EMV puede hallarse igualando a 0 las derivadas pimerasde l() respecto de .
La derivada primera de l() respecto de se llama score. En el caso univariadotenemos:
l() =n
i=1ui()
donde
MLG Ana M. Bianco FCEyN 2008 46
ui() =
log f(yi, )
Si tenemos q parametros, = (1, . . . , q), el vector de scores es
l() =
l1l2..lq
=
ni=1
1
logf(yi, )n
i=1
2logf(yi, )
.
.n
i=1
qlogf(yi, )
Una propiedad bien conocida del score es que su esperanza es nula:
E(l())|=0 =l((0))f(y, 0)dy =
f (y, 0)
f(y,0)f(y, 0)dy = 0
La varianza de los score es conocida como la informacion de Fisher. Enel caso univariado, la informacion de Fisher es:
MLG Ana M. Bianco FCEyN 2008 47
i() = V (u()) = V (l()) = E[(l())2
]
Recordemos que
i() = E(l()) = E( 2
2logf(y, ))
En el caso multivariado, tendremos I() es una matriz de q q tal que:
{I()}ij = E(2
ijlogf(y, ))
En Estadstica se probo que, bajo condiciones de regularidad, los EMV sonasintoticamente normales, de manera que
n( ) D N(0, I1())
MLG Ana M. Bianco FCEyN 2008 48
Estimacion y Tests de Bondad de Ajuste
Supongamos que tenemos un muestreo multinomial y obtenemos la tabla(X, Y ) en n individuos.
Y = 1 Y = 2 Y = J
X = 1 n11 n12 n1JX = 2 n21 n22 n2J
X = I nI1 nI2 nIJ
Cuadro 9: Tabla de I J
Sea nij el numero de individuos que tienen P (X = i, Y = j), de manera quen = Ii=1
Jj=1 nij.
Por lo que ya vimos los estimadores de maxima verosimilitud de ij son
MLG Ana M. Bianco FCEyN 2008 49
ij =nijn
i, j .
Si las dos variables categoricas fueran independientes, tendramos
ij = ij i, j ,
luego como veremos por invariancia, el estimador de maxima verosimilitudde ij sera bajo independencia:
ij = i++j =ni+n+j
n2i, j .
Dado que nij Bi(n, ij),
mij = E(nij) = nij .
Bajo el supuesto de independencia, el EMV es
mij = nij =ni+n+j
n
MLG Ana M. Bianco FCEyN 2008 50
Estos estimadores tienen la propiedad de tener las mismas marginales que latabla:
mi+ =J
j=1
ni+n+jn
= ni+
m+j =I
i=1
ni+n+jn
= n+j
Test de Bondad de Ajuste
Veremos un test presentado por Pearson (1900) que sirve para evaluar si unadistribucion multinomial tiene ciertas probabilidades ij propuestas.
Para simplificar la notacion, como antes, indicaremos {n1, . . . , nN} las obser-vaciones de cada casilla, con n =
N
i=1ni y siendo {1, . . . , N} las probabilidades
de cada celda.
MLG Ana M. Bianco FCEyN 2008 51
Supongamos que las hipotesis a testear son
H0 : i = i0,N
j=1i0 =
N
j=1i = 1 H1 : i : i 6= i0
Pearson propuso el siguiente estadstico:
2 =N
j=1
(ni mi0)2
mi0donde mi0 = ni0
La idea intuitiva es que comparamos el valor observado (ni) con el valoresperado (mi0) bajo H0, suele decirse :
(observado esperado)2
esperado.
Intuitivamente rechazaremos H0 cuando esto sea muy grande. Cuan grande?
El argumento heurstico que dio Pearson es el siguiente: si n1, . . . , nN fueranv.a. independientes tales que ni P(mi), bajo ciertas condiciones
ni mimi
a N(0, 1)
MLG Ana M. Bianco FCEyN 2008 52
entonces
N
i=1
ni mi
mi
2a 2N
Si ademas agregamos la restriccion Ni=1 ni = n, es natural que perdamosun grado de libertad y que la distribucion asintotica del estadstico resulte2N1.Por todo esto, la regla de decision sera
Rechazamos H0 si 2 > 2N1,
En el caso en que N = 2, el estadstico queda
n(p 0)2
0+ n
(p 0)2
1 0= n
(p 0)2
0(1 0)=
p 00(1 0)/n
2
que es el cuadrado del test habitual para testear
H0 : = 0 H1 : 6= 0
MLG Ana M. Bianco FCEyN 2008 53
que tiene distribucion asintotica normal y en consecuencia, su cuadrado locompararamos con una 21.
Veamos la justificacion teorica de este test. Comenzaremos por presentarel Teorema Central del Lmite Multivariado, que resulta del caso univariadoaplicando la siguiente
MLG Ana M. Bianco FCEyN 2008 54
Proposicion: Sean Xn = (X1n, . . . , Xkn) una sucesion de vectores aleato-
rios y = (1, . . . , k)
MLG Ana M. Bianco FCEyN 2008 55
Segun la proposicion anterior debemos estudiar la distribucion de Un.
Un = 1U1n + . . . + kUkn
= 1
nj=1 U1j
n+ . . . + k
nj=1 Ukj
n
=1
n
n
j=1Uj
=1
n
n
j=1Wj
= W
donde E(Wi) = , V ar(Wi) =
.
Por el TCL univariado, tenemos que
n(Wn ) D Nk(0, ) ,
es decir,
n(Un ) D Nk(0, ) ,
MLG Ana M. Bianco FCEyN 2008 56
que corresponde a la distribucion de U, con U Nk(0, )por lo que
n(Un ) D Nk(0, ) .
Proposicion: Si ZnD Z y g es una funcion continua, entonces
g(Zn)D g(Z) .
Ahora estudiaremos la distribucion asintotica de (X1, . . . ,XN1) cuando
(X1, . . . ,XN) M(n, 1, . . . , N),
N
i=1i. Llamemos p = (p1, . . . , pN)
, pi =nin
.
Consideremos el vector Yi M(1, 1, . . . , N) que ya definimos con todassus componentes iguales a 0 y un unico 1 en la coordenada j-esima si en lai-esima observacion ocurrio la categora j:
Yi = (0, . . . , 1 , . . . , 0)
j
MLG Ana M. Bianco FCEyN 2008 57
Recordemos que si Yi M(1, 1, . . . , N)
E(Yi) =
Yi = ()
Podemos escribir al vector p en terminos de los Yi:
p =n
i=1
Yin
= (Y1, . . . , YN)
entonces por el T.C.L multivariado sabemos que
n(p ) D NN(0, () ) .
Ya hemos visto que como los is estan relacionados, = () no esinvertible.
Definamos p = (p1, . . . , pN1) y = (1, . . . , N1)
.
Notemos que p = Tp, siendo T es una transformacion lineal adecuada, luegoaplicando el T.C.L. multivariado a Tp
MLG Ana M. Bianco FCEyN 2008 58
n(p ) D NN1(0, () ) .
Ahora, () ) s es invertibleEsto quiere decir que bajo H0
n(p 0) D NN1(0, 0) .
donde 0 = (0) 00. Por lo tanto, como g(xD1x) es una funcioncontinua de x por la segunda proposicion tenemos que
n(p 0) 10 (p 0)D 2N1
Calculando efectivamente la forma cuadratica que estamos considerando, ver-emos que
n(p 0) 10 (p 0) = nN
j=1
(pi i0)2
i0
MLG Ana M. Bianco FCEyN 2008 59
Ejemplo: Leyes de Mendel
El test de Pearson fue usado para testear las leyes de herencia de la teora deMendel. Mendel cruzo arvejas de cepa amarilla con arvejas de cepa verde purasy predijo que la segunda generacion de hbridos seran un 75 % amarillas y un25 % verdes, siendo las amarillas las de caracter dominante.
En un experimento de n = 8023 semillas, resultaron n1 = 6022 amarillasy n2 = 2001 verdes. Las frecuencias relativas esperadas eran 1 = 0,75 y2 = 0,25, por lo tanto m1 = 6017,25 y m2 = 20005,75.
Luego, si queremos testear la hipotesis nula
H0 : 1 = 0.75, 2 = 0.25
el estadstico 2 es:
2 =(n1 6017.25)2
6017.25+
(n2 2005.75)2
2005.75= 0.015
con un p-valor=0.88, lo que no contradice la teora de .
MLG Ana M. Bianco FCEyN 2008 60
Cuando puede yacer en cualquier lugar de S decimos que el modelo essaturado. Este modelo tiene N 1 parametros. Sin embargo, con frecuen-cia supondremos que yace en un subconjunto de menor dimension de S .Supondremos que los elementos de estan determinados por q parametrosdesconocidos = (1, . . . , q)
, como muestran los siguientes ejemplos.
Test de Independencia
Independencia en una tabla de 2 2
Supongamos que X = (X11, X12,X21, X22) es el vector de frecuencias de una
tabla de 2 2:B = 1 B = 2
A = 1 X11 X12A = 2 X21 X22
Cuadro 10:
MLG Ana M. Bianco FCEyN 2008 61
De manera que Xij es el numero de individuos para los cuales (A = i, B = j).Si A y B no estan relacionados, entonces en todas las casillas valdra:
ij = P (A = i, B = j) = P (A = i)P (B = j)
Llamemos = P (A = i) y = P (B = j), luego
=
11122122
=
(1 )(1 )
(1 )(1 )
Este es un modelo restringido que depende del parametro
= (, ) ,
donde 0 1, 0 1.Para hallar los estimadores de maxima verosimilitud de y tenemos que
maximizar:
MLG Ana M. Bianco FCEyN 2008 62
L = L(X11, X12, X21, X22, , ) =
=n!
X11!X12!X21!X22!()X11((1 ))X12((1 ))X21((1 )(1 ))X22
Despues de tomar logaritmo, obtenemos:
l = ln(L) = cte + X11 ln() + X12 ln((1 ))+ X21 ln((1 )) + X22 ln((1 )(1 ))
Despues de derivar e igualar a 0, queda:
(1) :l
=
X11 + X12
X21 + X221
= 0
(2) :l
=
X11 + X21
X12 + X221
= 0
De (1) resulta:
(1 )(X11 + X12) (X21 + X22) = 0 ,
MLG Ana M. Bianco FCEyN 2008 63
por lo tanto
=X11 + X12
n.
De (2) resulta:
(1 )(X11 + X21) (X12 + X22) = 0 ,
por lo tanto
=X11 + X21
n.
En el caso general de una tabla de I J , el modelo sera ij = i++j.
Test de Independencia
Vimos que en las tablas de contingencia con muestreo multinomial puede serde interes testear la hipotesis de independencia, es decir:
MLG Ana M. Bianco FCEyN 2008 64
H0 : ij = i++j i, j
La hipotesis nula depende de ciertos parametros.
Por esto si bien para testear esta hipotesis usaremos un test de tipo Pearson,antes sera necesario probar algunos resultados.
Otro ejemplo es el de las tablas simetricas.
Ejemplo: Tabla de 2 2 con simetra
Consideremos X = (X11,X12, X21, X22) como en el ejemplo anterior, pero
supongamos) que ahora A y B representan dos caractersticas medidas en dosoportunidades distintas. Por ejemplo, A podra ser la respuesta a
A : Apoya usted la gestion de gobierno?
medida en el mes de enero (1=Si, 0=No) y B la misma pregunta hecha tresmeses despues.
En este tipo de esquema el interes del investigador es detectar un cambio en
MLG Ana M. Bianco FCEyN 2008 65
FebreroEnero 1 0
1 11 120 21 22
Cuadro 11:
el tiempo. Si no hubiera ningun cambio, la probabilidad de Sien enero
P (A = 1) = 11 + 12
sera igual a la probabilidad de Sitres meses despues
P (B = 1) = 11 + 21 .
Observemos P (A = 1) = P (B = 1) si y solo si 12 = 21, que se conocecomo la condicion de simetra. Bajo simetra, = () podra expresarsecomo:
=
11122122
=
1 2
,
MLG Ana M. Bianco FCEyN 2008 66
con = (, ).
Sera un ejercicio de la practica probar que los EMV bajo este modelo son:
=X11n
.
=X12 + X21
2n.
MLG Ana M. Bianco FCEyN 2008 67
Caso Parametrico General (Rao, Captulo 5)
Aun cuando en los dos ejemplos anteriores los EMV tienen una forma cerrada,en otros modelos mas complicados, los EMV deben ser computados en formaiterativa.
En general, es solucion de las ecuaciones de score:
jl((), X) = 0 , j = 1, . . . , q . (4)
Bajo condiciones de regularidad del EMV que precisaremos, demostraremosque
n( 0) D Nq(0, (AA)1)
donde
A = (0)1/2
=0
.
MLG Ana M. Bianco FCEyN 2008 68
Este resultado lo deduciremos expresando a en terminos de p y luegoaplicando el metodo .
Esto nos permitira derivar la distribucion del estadstico 2 en casos bastantegenerales.
Para que el EMV de exista, es necesaria una condicion de identifica-bilidad fuerte:
Dado > 0 , existe > 0 tal que
inf0>
N
i=1i(0) log
i(0)
i()
Esta condicion implica que fuera de la bola 0 no hay ningunasucesion de puntos r tal que (r) (0) a medida que r , es decir queno hay valores lejanos a 0 que den practicamente las mismas probabilidadesque (0).
Es decir:
MLG Ana M. Bianco FCEyN 2008 69
> 0, exite > 0 tal que si 0 > entonces () (0) > .
Esta condicion implica una mas debil:
() 6= () si 6= .
Bajo la condicion fuerte de identificabilidad y continuidad de las funcionesi(), se puede demostrar que el EMV de existe y que converge a 0 conprobabilidad 1.
Mas aun, si las funciones i() tienen derivadas parciales de primer orden, sepuede demostrar que el EMV es solucion de
l
j= 0 , j = 1, . . . , q . (5)
Por ultimo, si () 6= () si 6= , las funciones i() tienen derivadasparciales de primer orden continuas en 0 y si la matriz de informacion I
MLG Ana M. Bianco FCEyN 2008 70
Irs =N
i=1
1
i
ir
i
s
evaluada en 0 no es singular, entonces existe una raz consistente de (5) quepuede no ser un EMV, pero que es eficiente en el sentido que definiremos y quetiene distribucion asintotica normal
En este contexto hablaremos de eficiencia asintotica en el siguiente sentido.
MLG Ana M. Bianco FCEyN 2008 71
Definicion: Sea P (x1, . . . , xn, ) es una funcion de probabilidad de las vari-ables aleatorias X1, . . . , Xn. Sea Zn = (z
1n, . . . , z
qn)
el vector de derivadas
zin =1
n
ln P
i=
1
n
l
ii = 1, . . . , q
y sea Tn = (T1n , . . . , T
qn)
es un estimador consistente de = (1, . . . , q).
Diremos que Tn es un estimador eficiente si
n(T 1n 1, . . . , T qn q) DZn
p 0 (6)
o a.s., donde D es una matriz constante que puede depender de .
MLG Ana M. Bianco FCEyN 2008 72
Que dira esta definicion en el caso univariado?
Supongamos que p(x1, . . . , xn, ) es la densidad conjunta de las variablesaleatorias X1, . . . , Xn y llamemos
Zn =1
n
log p(x1, . . . , xn, )
Tn, estimador consistente de , sera eficiente si
n(Tn ()Zn)
p 0 (7)
en probabilidad o con probabilidad 1, donde () no involucra a las obser-vaciones.
Que interes tiene esta definicion?
Tenemos, por ejemplo, el siguiente resultado a partir de esta definicion.
Sean X1, . . . ,Xn una sucesion de v. a. i.i.d. con densidad p(x, ), siendo
MLG Ana M. Bianco FCEyN 2008 73
p(x, )dx = 0
p2
pdx = i() > 0
Entonces, la condicion (7) implica que la distribucion asintotica de
n(Tn) es normal:
De hecho, por el T.C.L. la distribucion asintotica de
nzn =
1n
p(X1, )
p(X1, )+ . . . +
p(Xn, )
p(Xn, )
p N(0, i1())
Por (7),
n(Tn ) tiene la misma distribucion que
n()Zn, de dondededucimos la normalidad asintotica de
n(Tn ).
Caso Multivariado Bajo condiciones similares a las enunciadas en el temanterior, la distribucion asintotica de
nZn es normal q-variada con media
0 y matriz de covarianza I = {irs}, matriz de informacion.Luego, si D 6= 0, la condicion (6) implica que
n(Tn ) es tambien
normal con distribucion normal qvariada y con matriz de covarianza DID.
MLG Ana M. Bianco FCEyN 2008 74
Supondremos que las casillas tienen distribucion multinomial con probabil-idad = (1, . . . , N)
, donde = () = (1, . . . , q). Deduciremos un
resultado analogo al que ya vimos para el caso no parametrico cuando = ()y calcularemos grados de libertad de la 2 correspondiente.
El resultado que probaremos es el siguiente:
Teorema: Supongamos que las probabilidades de las casillas son 1(), . . . , N()que involucran a q parametros = (1, . . . , q)
. Ademas, supongamos que:
a) es un estimador eficiente de en el sentido de (6)
b) Cada i() admite derivadas parciales continuas de 1er orden respecto
de j, j = 1, . . . , q, i = 1, . . . , N .
c) La matriz M = {r()s
} de N q calculada en el verdadero tienerango q.
Luego, tenemos que
2 =N
i=1
(ni mi)2
mi=
N
i=1
(ni ni)2
ni
D 2N1q