of 29 /29
M. Mendes de Oliveira Excerto das notas pessoais sobre: TEORIA DA ESTIMAÇÃO E ESTIMADORES DE MÁXIMA VEROSIMILHANÇA Introdução Definição 1 (Estimador; estimativa) Seja Y = [Y 1 Y 2 … Y n ]' uma amostra aleatória de n realizações de uma variável aleatória Y com função de densidade de probabilidade (f.d.p.) f(Y; θ ) caracterizada pelo vector (q×1) de parâmetros θ . Chama-se estimador (pontual) de θ a qualquer função θ (Y) que faça uso da informação contida numa amostra da população f(Y; θ ) para obter um conjunto de números que se possa considerar representarem aproximadamente o valor desconhecido dos parâmetros em θ . Chama-se estimativa à concretização da função θ (Y) para uma dada amostra. Não acarreta nenhuma modificação substancial da Definição 1 a extensão ao caso em que Y é um vector p-dimensional de variáveis aleatórias. Nesse caso, a cada amostra corresponderá uma matriz (n×p), em vez de um vector (n×1). Definição 2 (Espaço da amostra e espaço dos parâmetros) Chama-se espaço da amostra ao conjunto de todas as matrizes Y possíveis (de dimensão (n×1) no caso univariado ou de dimensão (n×p) no caso multivariado). Por sua vez, designa-se por espaço dos parâmetros o conjunto de todos os vectores θ que satisfazem as restrições do modelo. Se Y é uma variável aleatória unidimensional, o espaço da amostra é, geralmente, n ou um subconjunto de n . Se Y é uma variável aleatória p- dimensional, o espaço da amostra é np ou um seu subconjunto.O espaço dos parâmetros é q , se as restrições sobre θ se limitarem à dimensão, q. Designando por A o espaço da amostra e por B o espaço dos parâmetros, um estimador é uma aplicação de A em B. Definição 3 (Identificabilidade e estimabilidade) Diz-se que um vector θ de parâmetros é identificável se θ (1) θ (2) implica f(Y; θ (1) ) f(Y; θ (2) ) para algum Y, em que θ (1) e θ (2) designam dois elementos de B. Diz-se que um vector θ de parâmetros é estimável se θ (1) θ (2) implica L(Y; θ (1) ) L(Y; θ (2) ) para quase todo o YA , em que se designou por L(Y; θ ) a família de funções de densidade de probabilidade definida sobre A × B. Exemplo 1

TEORIA DA ESTIMAÇÃO E ESTIMADORES DE … · casos de estimadores cêntricos que não são consistentes e de estimadores consistentes que não são cêntricos. Nem sequer é verdade

  • Author
    buiphuc

  • View
    223

  • Download
    3

Embed Size (px)

Text of TEORIA DA ESTIMAÇÃO E ESTIMADORES DE … · casos de estimadores cêntricos que não são...

  • M. Mendes de Oliveira Excerto das notas pessoais sobre:

    TEORIA DA ESTIMAO E ESTIMADORES DE MXIMA VEROSIMILHANA

    Introduo Definio 1 (Estimador; estimativa) Seja Y = [Y1 Y2 Yn]' uma amostra aleatria de n realizaes de uma varivel aleatria Y com funo de densidade de probabilidade (f.d.p.) f(Y; ) caracterizada pelo vector (q1) de parmetros . Chama-se estimador (pontual) de a qualquer funo (Y) que faa uso da informao contida numa amostra da populao f(Y; ) para obter um conjunto de nmeros que se possa considerar representarem aproximadamente o valor desconhecido dos parmetros em . Chama-se estimativa concretizao da funo (Y) para uma dada amostra. No acarreta nenhuma modificao substancial da Definio 1 a extenso ao caso em que Y um vector p-dimensional de variveis aleatrias. Nesse caso, a cada amostra corresponder uma matriz (np), em vez de um vector (n1). Definio 2 (Espao da amostra e espao dos parmetros) Chama-se espao da amostra ao conjunto de todas as matrizes Y possveis (de dimenso (n1) no caso univariado ou de dimenso (np) no caso multivariado). Por sua vez, designa-se por espao dos parmetros o conjunto de todos os vectores que satisfazem as restries do modelo. Se Y uma varivel aleatria unidimensional, o espao da amostra , geralmente, n ou um subconjunto de n. Se Y uma varivel aleatria p-dimensional, o espao da amostra np ou um seu subconjunto.O espao dos parmetros q, se as restries sobre se limitarem dimenso, q. Designando por A o espao da amostra e por B o espao dos parmetros, um estimador uma aplicao de A em B. Definio 3 (Identificabilidade e estimabilidade) Diz-se que um vector de parmetros identificvel se (1) (2) implica f(Y; (1)) f(Y; (2)) para algum Y, em que (1) e (2) designam dois elementos de B. Diz-se que um vector de parmetros estimvel se (1) (2) implica L(Y; (1)) L(Y; (2)) para quase todo o YA , em que se designou por L(Y; ) a famlia de funes de densidade de probabilidade definida sobre A B. Exemplo 1

  • 2

    _____________________________________________________________________________________________________ Teoria da Estimao e Estimadores de Mxima Verosimilhana M. Mendes de Oliveira, 18.Ago.2000

    Considere-se o modelo

    Y = 1

    0

    ,

    ,

    se Y ,

    se Y

    *

    *

    >

    em que Y* = + u e u ~ N(0, 2). Tem-se, ento,

    P(Y = 1) = P(Y* > ) = P( + u > ) = P(u

    >

    ) = 1 (

    ),

    em que (x) designa a funo de distribuio normal reduzida,

    (x) = 12

    2

    2

    e

    tx

    dt ,

    e, para P(Y = 0),

    P(Y = 0) = (

    ).

    Ento, para a funo de probabilidade f(Y;,,), tem-se

    f(Y;,,) = [1 (

    )]Y [(

    )](1Y).

    Sejam (1) e (2), respectivamente, os vectores de componentes , , e 2, 2, 2, com > 0. Apesar de ser (1) (2), f(Y; (1)) = f(Y; (2)) e os parmetros , e

    no so identificveis. Contudo, identificvel o parmetro =

    , j que, a (1) e

    (2) diferentes, correspondero, geralmente, f(Y;(1)) e f(Y;(2)) diferentes. Exemplo 2 Considere-se, agora, o modelo Y = + u, com u ~ N(0, 2). Vem

    f(Y;,) = 12

    2 2

    e

    -(Y- )2

    e, para amostras aleatrias de Y de dimenso n,

    L(Y;,) = (22)n/2 exp[ 1

    2 2(Y - i)'(Y - i)],

    em que Y o vector de componentes Y1, Y2, , Yn e i o vector (n1) de componentes todas iguais a 1. Os parmetros e so identificveis e podem, geralmente, ser

  • 3

    _____________________________________________________________________________________________________ Teoria da Estimao e Estimadores de Mxima Verosimilhana M. Mendes de Oliveira, 18.Ago.2000

    estimados. Contudo, h matrizes Y com as quais no possvel estimar : por exemplo, todas as matrizes com uma nica componente (n = 1) ou as de frmula geral Y = ci, em que c designa uma constante qualquer. Propriedades dos estimadores Um estimador no seno uma frmula ou uma "receita" (Kennedy (1998), p. 4) para transformar dados em estimativas. Havendo uma infinidade de estimadores possveis em cada situao, a escolha entre eles ter de fazer-se segundo algum critrio. Um primeiro, e muitas vezes esquecido, critrio o da exequibilidade: um estimador ter de ser definido em funo, apenas, de grandezas observveis. Custo de clculo outro factor a ter em conta. Critrios mais exigentes a que se recorre usualmente na comparao entre estimadores so passados em revista na sequncia. Definio 4 (Estimador cntrico) Diz-se que (Y) um estimador cntrico do vector de parmetros se for E( ) = . Um estimador cntrico de pode no existir, ou pode suceder que no exista o valor esperado de um "bom" estimador de . Por outro lado, interessam-nos, geralmente, estimadores cuja distribuio de probabilidade esteja "concentrada" em torno do verdadeiro valor do parmetro. O grau de disperso pode ser aferido pelo erro quadrtico mdio, E( )2 para um estimador escalar, ou E[( )'( )] para um vector de estimadores. Mas no h estimadores que minimizem o erro quadrtico mdio para qualquer B: o estimador (Y) tem erro quadrtico mdio nulo se for = , enquanto o estimador ~ (Y) tem erro quadrtico mdio nulo se for = ~ . Por outro lado, o critrio de minimizao do erro quadrtico mdio conduz frequentemente a estimadores que dependem de grandezas desconhecidas. usual, por isso, restringir-se a seleco de estimadores com erro quadrtico mdio mnimo ao conjunto dos estimadores cntricos, o que conduz busca de estimadores cntricos com varincia mnima. Definio 5 (Estimador cntrico de varincia mnima) Diz-se que (Y) o estimador cntrico de varincia mnima de (ou estimador MVU, do ingls minimum variance unbiased) se for semi-definida positiva a matriz [Var( ~ ) Var( )], qualquer que seja o estimador ~ tal que E( ~ ) = . H uma forma equivalente de expressar a condio referida na definio anterior que , muitas vezes, de emprego mais prtico. Considere-se uma qualquer combinao linear dos estimadores em , seja c , em que c um vector (1q) de constantes. Tem-se

    Var(c ) = c Var( ) c' e, para um estimador alternativo, ~ ,

  • 4

    _____________________________________________________________________________________________________ Teoria da Estimao e Estimadores de Mxima Verosimilhana M. Mendes de Oliveira, 18.Ago.2000

    Var(c ~ ) = c Var( ~ ) c'.

    Ento, a condio "[Var( ~ ) Var( )] semi-definida positiva" equivalente condio "Var(c ~ ) Var(c ) para todo o c", permitindo substituir uma comparao entre matrizes por uma comparao entre escalares. Faz-se uso dessa equivalncia na demonstrao da proposio seguinte. Proposio 1 (Teorema da unicidade do estimador MVU) Se existir um estimador MVU, nico. Demonstrao: Sejam (1) e (2) dois estimadores MVU de , com matrizes de varincias e covarincias A = Var( (1)) e B = Var( (2)), respectivamente. Comece-se por estabelecer que ter de ser A = B, porquanto, sendo (1) MVU, ter, por definio, de ser semi-definida positiva a matriz (B A) e, sendo (2) MVU, ter, tambm, de ser semi-definida positiva a matriz (A B). As duas condies s so compatveis se for A = B. Considere-se, agora, para qualquer c, o escalar Var(c (1) c (2)) que, sendo uma varincia, ter de ser necessariamente no negativo. Mas Var(c (1) c (2)) 0 cAc' + cBc' 2 Cov(c (1), c (2)) 0 2 cAc' 2 Cov(c (1), c (2)) 0 cAc' Cov(c (1), c (2)) para qualquer c. Seja, por ltimo, um terceiro estimador de , dado por

    (3) = 12

    ( (1) + (2)).

    fcil verificar que se trata de um estimador cntrico e tem matriz de varincias e covarincias

    Var( (3)) = 14

    Var( (1)) + 14

    Var( (2)) + 12

    Cov( (1), (2)).

    Para qualquer c, ter-se-

    Var(c (3)) = 14

    Var(c (1)) + 14

    Var(c (2)) + 12

    Cov(c (1), c (2))

    = 12

    cAc' + 12

    Cov(c (1), c (2))

  • 5

    _____________________________________________________________________________________________________ Teoria da Estimao e Estimadores de Mxima Verosimilhana M. Mendes de Oliveira, 18.Ago.2000

    e, tendo em ateno a relao de ordem entre os escalares cAc' e Cov(c (1), c (2)) que se mostrou acima,

    Var(c (3)) cAc' = Var(c (1)) = Var(c (2)). O resultado anterior s no ser contraditrio com a hiptese de serem (1) e (2) estimadores MVU se for

    Var(c (3)) = cAc'. Mas, nesse caso, ter de ser cAc' = Cov(c (1), c (2)) e, por conseguinte, Var(c (1) - c (2)) = 0. Ento, se a varincia nula, (c (1) c (2)) uma constante, para todo o c possvel, e os estimadores (1) e (2) apenas podero diferir por uma constante. Como tm ambos, por hiptese, o mesmo valor mdio, essa constante igual a 0. Ento, ter de ser (1) (2). Quando existem estimadores cntricos de um parmetro, frequente ser possvel encontrar o estimador MVU. Contudo, h casos em que no se dispe de estimadores cntricos, ou podem no ser definidos os momentos de 1 e 2 ordem da distribuio de um estimador. Uma alternativa poder ser a pesquisa de estimadores consistentes. Definio 6 (Estimador consistente) Diz-se que (Y) um estimador consistente de se, e s se, for plim( ) = . A definio apresentada corresponde ao caso de consistncia fraca (quando a convergncia apenas se d em probabilidade), que alguns autores distinguem da consistncia forte (quando h convergncia quase certa) (v.g., Davidson e MacKinnon (1993), p. 119). H estimadores que so cntricos e consistentes, mas conhecem-se tambm casos de estimadores cntricos que no so consistentes e de estimadores consistentes que no so cntricos. Nem sequer verdade que um estimador consistente haja de ser, pelo menos, assimptoticamente cntrico, expresso cujo significado, de resto, no claro. Vejam-se as discusses em Davidson e MacKinnon (1993), p. 124, e Greene (2000), p. 121. Um estimador consistente no nico e, encontrado um estimador consistente, frequentemente possvel derivar dele uma infinidade de estimadores consistentes; so-no, por exemplo, todos os que lhe sejam proporcionais por um factor do tipo (n - a)/(n - b), com a e b constantes. Por isso, h interesse em restringir a escolha a estimadores que, de algum modo, exibam uma propriedade comparvel da varincia mnima requerida dos estimadores MVU. frequente que tal exija a considerao da distribuio-limite do estimador e, por fora do teorema do limite central, os estimadores com distribuio assimpttica normal so candidatos naturais a esse papel.

  • 6

    _____________________________________________________________________________________________________ Teoria da Estimao e Estimadores de Mxima Verosimilhana M. Mendes de Oliveira, 18.Ago.2000

    Definio 7 (Estimador assimptoticamente normal eficiente) Seja (Y) um estimador consistente de tal que

    n ( ) d

    N(0, ). Diz-se que (Y) um estimador assimptoticamente normal eficiente de , se for semi-definida positiva a matriz ( ) para qualquer outro estimador ~ que seja

    consistente e possua distribuio-limite normal tal que n ( ~ ) d

    N(0, ). O teorema seguinte tem um papel fundamental na pesquisa de estimadores que satisfaam o requisito de eficincia assimpttica. Teorema de Cramr-Rao O teorema de Cramr-Rao considera uma amostra aleatria {Y1, Y2, ..., Yn} de uma populao caracterizada pela funo de densidade f(Yi; ) e a funo de densidade conjunta

    L(Y; ) = fi

    n

    ( ; )Yi =

    1,

    em que Yi designa a i observao de um vector p-dimensional de variveis aleatrias. O teorema pressupe, relativamente s funes L(Y; ) e ln L(Y; ), condies habitualmente condensadas na expresso "as funes L(Y; ) e ln L(Y; ) so regulares". Essas condies de regularidade so complexas e, na avaliao da generalidade dos autores, raramente violadas nas aplicaes de Econometria. Para uma discusso dessas condies, veja-se, por exemplo, Gouriroux e Monfort (1995), pp. 131-132, Greene (2000), p. 127, ou Theil (1971), pp.??-??. Entre as condies de regularidade, incluem-se a de existncia de derivadas parciais finitas de L(Y; ) e de ln L(Y; ) at 3 ordem e a de no dependncia do espao da amostra (o conjunto de todas as matrizes Y para as quais L(Y; ) > 0) relativamente aos parmetros em . Esta ltima condio violada, por exemplo, em amostragens de uma populao com distribuio uniforme no intervalo [0; ], porquanto o espao da amostra o conjunto dos vectores Y de componentes Y1, Y2, , Yn tais que 0 Yi , i = 1, 2, , n. Proposio 2 (Teorema de Cramr-Rao) Sob determinadas condies de regularidade, a matriz de varincias e covarincias de um estimador cntrico (Y), seja Var( ), tal que excede a matriz

    EY '

    1

    lnL( ; )

  • 7

    _____________________________________________________________________________________________________ Teoria da Estimao e Estimadores de Mxima Verosimilhana M. Mendes de Oliveira, 18.Ago.2000

    por uma matriz semi-definida positiva. Demonstrao: 1. Por definio de funo de densidade de probabilidade, o integral de L(Y; ) sobre todo o espao da amostra, A, igual a 1:

    L( ; ) dY YA = 1, onde a notao empregue deve ser entendida como uma abreviatura do integral mltiplo

    ... L( , ,..., ; ) d d ... dY Y Y Y Y Y1 2 n 1 2 n . Diferenciando ambos os membros em ordem a , vem

    L( ; )

    d

    Y

    YA = 0;

    notando que

    L( ; ) Y

    =

    L( ; )

    lnL( ; ) lnL( ; )

    Y

    YY

    = L(Y; )

    lnL( ; )

    Y

    ,

    o resultado anterior pode apresentar-se na forma

    L( ; ) lnL( ; )

    dY

    YY

    A

    = 0.

    Recordando que, se X uma varivel aleatria com funo de densidade de

    probabilidade f(x) e g(X) uma funo de X tal que exista o integral g x( ) f(x) dx

    ,

    ento, E[g(x)] = g x( ) f(x) dx

    , obtem-se uma primeira concluso importante,

    E[

    lnL( ; )

    Y

    ] = 0,

    isto , o vector de derivadas parciais, em ordem a , da funo ln L(Y; ) tem valor esperado igual a um vector nulo. Diferenciando novamente em ordem a , vem

    lnL( ; )

    L( ; ) + lnL( ; )

    L( ; )

    d

    YY

    Y YY

    ' '

    A = 0

  • 8

    _____________________________________________________________________________________________________ Teoria da Estimao e Estimadores de Mxima Verosimilhana M. Mendes de Oliveira, 18.Ago.2000

    ou, pondo L(Y; ) em evidncia e usando equivalncia justificada acima,

    lnL( ; )

    + lnL( ; )

    lnL( ; )

    L( ; ) d

    Y Y YY Y

    ' '

    A = 0.

    Passando a valores esperados, tem-se

    EY

    EY Y' '

    lnL( ; )

    +

    lnL( ; )

    lnL( ; )

    = 0.

    Na segunda esperana matemtica deve reconhecer-se a matriz de varincias e

    covarincias Var[

    lnL( ; )

    Y

    ], uma vez que j se mostrou ser E[

    lnL( ; )

    Y

    ] = 0.

    Infere-se, ento, da ltima equao que

    Var[

    lnL( ; )

    Y

    ] = EY '

    lnL( ; )

    .

    2. Considere-se, agora, um estimador (Y). Se o seu valor esperado existir, ter-se-

    E( ) = L( ; ) dY YA e, diferenciando ambos os membros em ordem a ,

    [ ]

    ( )

    E'

    = L( ; )

    d

    YY

    '

    A =

    lnL( ; )

    L( ; ) d

    YY Y

    '

    A .

    Se o estimador for cntrico e, portanto, E( ) = , o primeiro membro desta equao uma matriz identidade de ordem q, supondo ser essa a dimenso de . Por sua vez,

    o integral que figura no segundo membro da equao a matriz EY '

    lnL( ; )

    ,

    que a matriz de covarincias entre o estimador considerado e o vector de derivadas parciais de ln L(Y; ). De facto, essa matriz de covarincias seria, por definio,

    Cov( ,

    lnL( ; )

    Y

    ) = [ ]E E Y E Y'

    ( )

    ( )

    lnL( ; )

    lnL( ; )

    e no caso vertente, em que E( ) = e E[

    lnL( ; )

    Y

    ] = 0, fcil verificar que

  • 9

    _____________________________________________________________________________________________________ Teoria da Estimao e Estimadores de Mxima Verosimilhana M. Mendes de Oliveira, 18.Ago.2000

    Cov( ,

    lnL( ; )

    Y

    ) = EY '

    lnL( ; )

    .

    Ento, concluiu-se que

    Cov( ,

    lnL( ; )

    Y

    ) = Iq.

    3. Considere-se, por ltimo, a matriz

    Var

    lnL( ; ) Y

    ,

    que, por simplificao da notao, se designar doravante pelo smbolo . Coligindo resultados alcanados em passos anteriores, vem

    = Var I

    I Q

    q

    q1

    ( )

    ,

    em que se fez uso de outra conveno para simplificao notacional e se designou por

    Q-1 a matriz EY '

    lnL( ; )

    , j que (ver passo 1.)

    Var[

    lnL( ; )

    Y

    ] = EY '

    lnL( ; )

    .

    Como matriz de varincias e covarincias, dever ser semi-definida positiva e o escalar cc' ter de ser no-negativo, qualquer que seja o vector c de dimenso (12q). Seja c o vector

    c = [ ]a - aQ em que a, por sua vez, um qualquer vector (1q). Tem-se cc' = a Var( ) a' a Q Iq a' a Iq Q' a' + a Q Q-1 Q' a' = a Var( ) a' a Q a', por serem simtricos os dois ltimos termos. Tendo estabelecido que

  • 10

    _____________________________________________________________________________________________________ Teoria da Estimao e Estimadores de Mxima Verosimilhana M. Mendes de Oliveira, 18.Ago.2000

    a Var( ) a' a Q a' 0,

    qualquer que seja a, fica provado que [Var( ) Q]]]] semi-definida positiva, com

    Q = EY '

    1

    lnL( ; )

    .

    Na forma como acima se enunciou e demonstrou, o teorema de Cramr-Rao teria interesse apenas para estabelecer um limite inferior varincia de qualquer estimador cntrico. Se, relativamente a um estimador cntrico, fosse possvel verificar que era Q a sua matriz de varincias e covarincias, ficaria provado que esse era o (nico) estimador MVU. Na verdade, o resultado de Cramr-Rao tem um alcance mais amplo. possvel mostrar que a matriz Q ainda a "menor" varincia susceptvel de ser atingida pela generalidade dos estimadores consistentes com que se lida em Econometria (Davidson e MacKinnon (1993), p. 270). A essa luz, o teorema constitui um instrumento poderoso para a seleco, de entre o universo dos estimadores consistentes, daqueles que apresentem melhor comportamento quanto a eficincia. No entanto, e ao contrrio do que se passa com amostras finitas e com o estimador MVU, no necessariamente nico o.estimador consistente e assimptoticamente eficiente (no sentido de ter matriz de varincias e covarincias dada por Q). De facto, no raro que estimadores com comportamentos diferentes em amostras finitas tenham a mesma distribuio-limite e, sendo a eficincia assimpttica uma propriedade da distribuio-limite, se revelem todos como assimptoticamente eficientes. Estimadores de mxima verosimilhana Revistas as principais propriedades dos estimadores, passa-se agora ao estudo de mtodos de estimao. Um dos mtodos de aplicao mais geral e que conduz a estimadores com algumas propriedades desejveis o mtodo da mxima verosimilhana. O mtodo tem por base essencial a chamada funo de verosimilhana, L(Y; ). Antes de apresentar a definio, algumas consideraes sobre a funo L(Y; ) podem ser teis. Para a discusso seguinte, suponha-se uma varivel aleatria discreta, Y, com distribuio de Bernoulli tal que P(Y = 1) = p e P(Y = 0) = q, (q = 1 - p), isto , com funo de probabilidade

    f(Y;p) = pY Y q , se Y = 0 ou Y = 1,

    0 , se Y 0 e Y 1.

    1

    Para uma amostra aleatria de dimenso n, Y = [Y1 Y2 Yn]', seja

  • 11

    _____________________________________________________________________________________________________ Teoria da Estimao e Estimadores de Mxima Verosimilhana M. Mendes de Oliveira, 18.Ago.2000

    L(Y;p) = f Y pii

    n

    ( ; )=

    1= p Y Yi i q n- .

    A funo L(Y;p) pode ser "lida" de vrias maneiras. Para um dado p, a funo reparte a probabilidade de obteno de Y entre todas as amostras possveis de dimenso n. Por exemplo, para p = 0,3 e n = 2, a amostra (Y1 = 1, Y2 = 1) ocorrer com probabilidade 0,32 (9%), o par (0, 0) com probabilidade 0,72 (49%) e cada um dos pares (1, 0) e (0, 1) com probabilidade 0,30,7 (21%). Nessa acepo, L(Y;p) , para cada p, a funo de probabilidade conjunta de (Y1, Y2), definida no espao da amostra A = {(Y1, Y2): Y1 = 0 Y1 = 1, Y2 = 0 Y2 = 1}. Uma segunda perspectiva corresponde ao caso em que, para um certo Y, se v L(Y;p) como funo de p; para enfatizar esse ponto, escreve-se, por vezes, L(p|Y) ou, simplesmente, L(p). Ento, L(p|Y) indica, para cada valor possvel de p, a probabilidade de obteno da particular amostra Y. Por exemplo, a amostra (Y1 = 1, Y2 = 0) ocorrer com probabilidade 0,21 se p = 0,3, com probabilidade 0,25 se p = 0,5, com probabilidade 0,09 se p = 0,1, e assim sucessivamente. Concretizado Y, a funo definida no espao dos parmetros B = {p: 0 p 1} e no uma funo de probabilidade. Uma terceira acepo possvel de L(Y;p) aquela que se empregou em referncias anteriores, com a funo definida sobre A B. L(Y;p) tambm no , nesse caso, uma funo de probabilidade, mas corresponde a uma famlia de funes de probabilidade, indexada pelo parmetro p. Se, em vez de discreta, Y for uma varivel aleatria contnua, necessrio adaptar alguns dos aspectos evocados na ilustrao que se discutiu. Assim, L(Y; ) no mede, para dado, a probabilidade de ocorrncia de cada amostra Y de dimenso n (em rigor, essa probabilidade nula), mas ainda uma funo de densidade de probabilidade definida sobre A. Para cada Y, por sua vez, L(Y; ) no mede uma probabilidade, nem uma f.d.p.. Como se precisa na definio seguinte, no contexto da estimao por mxima verosimilhana esta ltima a perspectiva a que se atribui maior realce. Frise-se, no entanto, que, apesar do nfase colocado em , a funo de verosimilhana depende tambm do vector (ou matriz) Y, que tem natureza aleatria. Trata-se de procurar, no espao dos parmetros, B, a funo (Y) para a qual L(Y; ) mxima. Definio 8 (Estimador de mxima verosimilhana) Seja a funo de verosimilhana L(Y; ). Se existir uma funo (Y) tal que

    L(Y; ) L(Y; ), B, (Y) chamado o estimador de mxima verosimilhana (ML) de . Notem-se os aspectos seguintes: i) O estimador ML pode no existir.

  • 12

    _____________________________________________________________________________________________________ Teoria da Estimao e Estimadores de Mxima Verosimilhana M. Mendes de Oliveira, 18.Ago.2000

    ii) O estimador ML pode no ser nico. S-lo- se for estrita a desigualdade acima, isto , se for L(Y; ) > L(Y; ), B, . iii) O estimador ML pode no ser definido para algum Y. iv) Se L(Y; ) tem um mximo para = , a funo logartimica de verosimilhana, lnL(Y; ), ter tambm um mximo para = . , frequentemente, mais fcil identificar o mximo de lnL(Y; ) do que o da funo de verosimilhana propriamente dita. Por outro lado, a definio apresentada no , por vezes, a mais adequada para identificao concreta do estimador. Se a funo de verosimilhana verificar certas condies de regularidade e o mximo ocorrer num ponto interior do espao dos parmetros, o sistema das chamadas equaes de verosimilhana,

    lnL( ; ) Y

    = 0,

    fornece um indicador mais operacional para identificao do estimador ML. Alguns autores (v.g., Davidson e MacKinnon (1993)) distinguem o estimador ML conforme a definio acima, que designam por estimador de tipo 1, do estimador de tipo 2. Este seria definido como a soluo das equaes de verosimilhana que satisfizer, cumulativamente, duas outras condies: obedecer s condies de 2 ordem para um

    mximo e ser tal que a sucesso {1n

    lnL( ;Y)} tenha, para essa soluo , limite em

    probabilidade no inferior ao limite em probabilidade de {1n

    lnL( ~ ;Y)}, para

    qualquer outra soluo das equaes de verosimilhana, ~ , que corresponda tambm a um mximo. A primeira destas duas condies tem o alcance bvio de excluir da anlise as solues do sistema

    lnL( ; ) Y

    = 0

    que correspondam a mnimos ou a pontos de inflexo, enquanto a segunda visa garantir que, entre mltiplas solues encontradas para uma amostra, seja seleccionada aquela que, na generalidade das amostras, conduz a valores mais elevados da funo de verosimilhana. Embora as duas definies conduzam, muitas vezes, ao mesmo estimador, na literatura conhecem-se casos em que um estimador de tipo 2 existe, mas no o de tipo 1, ou em que existe este e no existe o primeiro (Davidson e MacKinnon (1993), pp. 249-250). Apresenta-se, a seguir, um exemplo clssico desta ltima situao. Exemplo 3 Seja Y uma varivel aleatria com distribuio uniforme no intervalo [0, ], isto , com f.d.p.

  • 13

    _____________________________________________________________________________________________________ Teoria da Estimao e Estimadores de Mxima Verosimilhana M. Mendes de Oliveira, 18.Ago.2000

    f(Y;) = 1

    0

    0

    , se Y ,

    0 , se Y ou Y .

    < >

    o parmetro a estimar; o espao dos parmetros o conjunto dos nmeros reais positivos. Considere-se uma amostra de dimenso n, Y = [Y1 Y2 Yn]', e admita-se, sem perda de generalidade, ser Yn o maior dos valores amostrais de Y. Como se depreende da definio da f.d.p., ter de ser Yn . Ento, a funo de verosimilhana

    L(Y;) = 1

    n n

    n

    , se Y ,

    0 , se Y ,