of 185/185
“An´ alisis de Decisi´on, Inferencia y Predicci´onEstad´ ıstica Bayesiana” Por Luis Ra´ ul Pericchi Guerra Complementos: Ana Judith Mata

Teoria de Decision e Inferencia Bayesiana

  • View
    45

  • Download
    5

Embed Size (px)

Text of Teoria de Decision e Inferencia Bayesiana

  • Analisis de Decision, Inferencia yPrediccion Estadstica Bayesiana

    Por

    Luis Raul Pericchi Guerra

    Complementos:

    Ana Judith Mata

  • 2Analisis de Decision, Inferencia yy Prediccion Estadstica Bayesiana

    Luis Raul Pericchi Guerra

    Centro de Estadstica y Software Matematico (CESMa)y Dpto. de Computo Cientfico y Estadstica

    Universidad Simon BolvarCaracas, Venezuela

    Complementos:

    Ana Judith MataUniversidad Simon Bolvar

  • AGRADECIMIENTOS

    Este libro tiene como antecedente sucesivas monografas, las cualesfueron textos de cursos que dicte en los siguientes eventos cientficos:

    II Escuela Venezolana de Matematicas, en la Universidad de LosAndes, Merida, Septiembre 1989.

    IV Congreso Latinoamericano de Probabilidad y Estadstica Ma-tematica, CLAPEM, en Ciudad de Mexico, Mexico, Septiembre1990.

    Curso-Seminario de las Americas en Estadstica Bayesiana y E-conometra, en la Universidad Simon Bolvar, Caracas, Venezuela,Diciembre 1992.

    Agradezco a los respectivos Comites organizadores de dichos congre-sos sus invitaciones. Mencion especial merece Francisco Aranda-Ordaz,miembro fundamental del Comite organizador del IV CLAPEM, conquien compart trabajo y juerga. Francisco murio, demasiado prontoy por error, tragica y absurdamente, pero en medio de su familia ysu pas, pocos meses depues de finalizar el IV CLAPEM en Ciudadde Mexico. Ello ha sido una perdida irreparable para el avance de laCiencia y la practica de la Estadstica en Latinoamerica, y para susamigos.

    La presente version es una drastica revision de las monografas an-teriores. Le debo al Profesor Victor Perez-Abreu, Presidente de laSociedad Bernoulli Latinoamericana, y al Profesor Victor Yohai, Pres-idente del Comite de Publicaciones de dicha Sociedad, el estmulo pararealizar esta revision.

    Durante los anos en los que este proyecto en los que este proyecto seha ido realizado mi grupo de trabajo, en la Universidad Simon Bolvar,ha crecido y se ha desarrollado. Comenzo por el Taller de Estadstica,TAE como grupo de trabajo dentro del Departamento de MatematicasPuras y Aplicadas. Se ha convertido en el Centro de Estadstica y

  • 4Software Matematico, CESMa, con miembros de tres departamentosde la USB, principalmente del Departamento de Computo Cientfico yEstadstica, creado en 1996. A mis companeros del CESMa les debosu paciencia, apoyo y cordialidad. Especialmente deseo mencionar alos profesores: Marialena Lentini, Isabel Llatas, Bruno Sanso, MaraEglee Perez, Lelys Bravo, Jose Miguel Perez, Raquel Prado, Jose LuisPalacios y Raul Jimenez.

    No puedo dejar de mencionar varios cienctficos de categora in-ternacional como Ignacio Rodriguez-Iturbe, Anthony Atkinson, Car-los Alberto de Braganza Pereira, Adrian Smith, Phil Browm, WilliamNazaret, Peter Walley, Elas Moreno y Jim Berger, que a lo largo deestos anos me han ofrecido su colaboracion, sabidura y amistad.

    Finalmente, le hago un reconocimiento muy especial a la LicenciadaAna Judith Mata. Mas que una ayudante ha sido una colaboradora yeste libro le debe mucho de lo bueno que pueda tener (el resto es obrama). Si no hubiera sido por su incansable insistencia y persecucion,ademas de sus destrezas estadsticas y computacionales, este libro nohabra sido terminado.

  • PREFACIO

    Este libro presenta las ideas basicas y algunos desarrollos recientesde la Teora y Analisis de Decision y de la Inferencia Bayesiana. Ambasteoras estan profundamente relacionadas, como se vera a lo largo deldesarrollo.

    El libro comienza presentando el enfoque clasico a la Teora de De-cision, de inspiracion frecuentista, basada en la funcion de riesgo mues-tral. La funcion de riesgo por s sola no es capaz de seleccionar ladecision optima aunque s de desechar una buena parte de ellas, lasdecisiones llamadas inadmisibles.

    Se presentan tres enfoques alternativos para ser acoplados a lafuncion de riesgo y de esta manera encontrar un curso de accion. Estosenfoques son: i)La restriccion del espacio de decisiones, ii)Minimax yiii)Bayes. Le damos mas enfasis a los ultimos, los llamados criteriosglobales. Se concluye luego de compararlos, que es el enfoque Bayesianoel mas satisfactorio y racional, aun cuando requiere de una buena dosisde actitud crtica y de analisis de sensitividad respecto a los supuestos.

    En el curso de la presentacion, se presenta tambien un argumentoBayesiano mas directo: el enfoque condicional al dato observado basadoen la minimizacion de la perdida posterior esperada. Este enfoque noutiliza la funcion de riesgo frecuentista. Al final las decisiones optimasBayesianas van a ser las mismas sin importar que va se siga, pero estaultima resulta en una simplificacion substancial.

    La discusion general se lleva los dos primeros captulos, siendo elsegundo el mas complejo matematicamente. El resto del libro se dedicaenteramente al enfoque Bayesiano. En el captulo 3 se presenta otramanera de llegar al principio Bayesiano: La Teora de la Utilidad, que esuna axiomatizacion de la decision estadstica. Tambien en este captulose muestra que Bayes obedece a los principios basicos: Principio de laverosimilitud y el de la precision final.

    Los problemas de inferencia estadstica pueden ser presentados comoproblemas de decision. Esto se hace en los ultimos captulos, donde

  • 6se intenta una introduccion a la inferencia Bayesiana actual, tratandotemas como: modelos jerarquicos, modelos lineales dinamicos, metodosde simulacion para el caculo de densidades posteriores y aproxima-ciones, metodos Bayesianos robustos y metodos no subjetivos para laseleccion de modelos y test de hipotesis.

    Este libro puede ser util a diferentes niveles, tanto como un cursoavanzado de pregrado como de postgrado. La formacion requerida esla de caculo basico e intermedio, as como al menos un curso basicode probabilidades y estadstica. Por ello puede ser presentado a es-tudiantes de matematicas, estadstica, ciencias actuariales, ingeniera,economa y areas afines. Tambien puede ser estudiado con diferentesenfasis. Un curso mas centrado en la Teora de la Decision se concen-trara en el captulo 2. Mientras un curso interesado en la inferenciaBayesiana, enfatizara los ultimos captulos.

    Espero que esta presentacion de la Teora de Decision y en particu-lar de la inferencia Bayesiana, que es, desde mi punto de vista, uno delos enfoques de desarrollos tanto teoricos como aplicados, mas espec-taculares en tiempos recientes, sea de utilidad para las Ediciones de laSociedad Bernoulli Latioamericana.

    Luis Raul Pericchi GuerraCentro de Estadstica y Software Matematico (CESMa)Universidad Simon BolvarCaracas, Enero 1998.

  • Contenido

    1 Elementos del Problema de Decision Estadstica 91.1 Elementos de un Problema de decision Estadstica . . . . 91.2 El Problema de Decision como un Juego entre el TD y

    la Naturaleza . . . . . . . . . . . . . . . . . . . . . . . . 12

    2 Teora Clasica de Decision 172.1 Introduccion. . . . . . . . . . . . . . . . . . . . . . . . . 182.2 Conceptos Basicos de la Teora de Decision Clasica . . . 182.3 Decisiones Optimas . . . . . . . . . . . . . . . . . . . . . 272.4 Representacion Geometrica de las Reglas de Bayes y

    Minimax para finito. . . . . . . . . . . . . . . . . . . . 462.5 Admisibilidad y Reglas de Bayes . . . . . . . . . . . . . . 512.6 Admisibilidad y Reglas Minimax . . . . . . . . . . . . . 582.7 Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . 66

    3 Fundamentos de la Teora Bayesiana de Decision 713.1 Breve introduccion a la Teora de Utilidad . . . . . . . . 72

    3.1.1 Metodos de construccion de la funcion de utilidadU . . . . . . . . . . . . . . . . . . . . . . . . . . . 74

    3.2 El Principio de la Verosimilitud . . . . . . . . . . . . . . 823.3 Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . 86

    4 Analisis Bayesiano 894.1 Test de Hipotesis . . . . . . . . . . . . . . . . . . . . . . 894.2 Operaciones con la Distribucion a Posteriori y sus propiedades 98

    4.2.1 Intervalos de Credibilidad (Probabilidad) . . . . . 984.2.2 Densidades Marginales y Parametros de Molestia 99

    7

  • 8 CONTENIDO

    4.2.3 Inferencia Predictiva . . . . . . . . . . . . . . . . 1014.2.4 Normalidad Asintotica de la Densidad Posterior . 104

    4.3 Aplicaciones al Diseno Experimental y al Analisis Se-cuencial . . . . . . . . . . . . . . . . . . . . . . . . . . . 1064.3.1 Tamano de la Muestra Optimo . . . . . . . . . . 1064.3.2 Analisis Secuencial . . . . . . . . . . . . . . . . . 108

    4.4 La Familia Exponencial. Extension del Principio Bayesiano1094.4.1 Densidad a priori No-Conjugada. Influencia aco-

    tada y no acotada . . . . . . . . . . . . . . . . . . 1154.5 Calculos y Aproximaciones Bayesianas . . . . . . . . . . 115

    4.5.1 Aproximaciones de Laplace . . . . . . . . . . . . 1164.5.2 Integracion de Monte Carlo . . . . . . . . . . . . 1174.5.3 Simulacion de la densidad posterior . . . . . . . . 1184.5.4 Metodos Monte Carlo de Cadenas de Markov (MCMC)118

    4.6 Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . 120

    5 Analisis Bayesiano del Modelo Lineal 1235.1 Previas No-Informativas . . . . . . . . . . . . . . . . . 1245.2 Analisis No-Informativo del Modelo Lineal . . . . . . . 1265.3 Modelo Lineal Jerarquico . . . . . . . . . . . . . . . . . . 128

    5.3.1 Modelo Lineal Normal Jerarquico (MLNJ) . . . . 1305.4 El Modelo Lineal Dinamico . . . . . . . . . . . . . . . . 138

    5.4.1 El Modelo constante . . . . . . . . . . . . . . . . 1405.4.2 Caso Varianza desconocida . . . . . . . . . . . . . 144

    5.5 Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . 145

    6 Seleccion de Modelos y Test de Hipotesis Bayesianos 1476.1 Introduccion . . . . . . . . . . . . . . . . . . . . . . . . . 1476.2 El Factor de Bayes Intrnseco . . . . . . . . . . . . . . . 1526.3 El IBF Esperado . . . . . . . . . . . . . . . . . . . . . . 1576.4 Previas Intrnsecas . . . . . . . . . . . . . . . . . . . . . 1596.5 El IBF para el Modelo Lineal Normal . . . . . . . . . . 163

    A Distribuciones de probabilidades 169

  • Captulo 1

    Elementos del Problema deDecision Estadstica

    Enfrentaremos el siguiente problema : suponemos que un Tomador dedecisiones (TD) se propone tomar una decision racional bajo condi-ciones de incertidumbre estadstica. Es decir, el estado de la natu-raleza no le es conocido exactamente, pero puede adquirir informacionsobre el a partir de un experimento. Ademas, el TD tiene valores, o seasi supiera la condicion exacta de la naturaleza sera capaz de ordenarsus posibles decisiones en terminos de sus preferencias.

    1.1 Elementos de un Problema de decision

    Estadstica

    Los elementos de un problema de Decision Estadstica a ser especifica-dos por el TD para cada problema son los siguientes :

    1. Espacio de posibles acciones : A = {a}

    2. Espacio de estados posibles de la naturaleza o espacio deparametros: = {}.

    3. Familia de experimentos para adquirir informacion ex-perimental (o muestral) sobre : E = {e}.

    9

  • 10 CAPTULO 1. ELEMENTOS DEL PROBLEMA DE DECISION ESTADSTICA

    4. Espacio muestral, o sea, el espacio de posibles observacionesexperimentales : X = {x}.

    Ejemplo 1.1 (Control de Calidad). Le envan del exterior a unacompana un lote de 10000 transistores. La compana designa a unTD el cual tiene el espacio de acciones : A = {a1, a2}, donde a1es aceptarlo y pagar el precio fijado, y a2 rechazarlo y pagar el fletede vuelta, = {0, 1, . . . , 10000} donde el estado de la naturalezaj = {j transistores defectuosos}. El TD puede inspeccionar un numeron a su antojo de transistores, y al hacerlo el proceso de inspeccion losdestruye. Entonces el espacio de experimentos es : E = {e0, . . . , e10000}donde en = {n transistores son inspeccionados}. El espacio muestralpara el experimento en viene dado por : X = {(j, n) : 0 j n 10000}, donde (j, n) es la observacion: j transistores de los n inspec-cionados son defectuosos.3

    5. Funcion de utilidad (perdida) : El TD escoge una funcion :

    u(e, x, a, ) : E X A R.

    El TD le asigna una utilidad u(e, x, a, ) a realizar el experi-mento e , observar el resultado x, tomar la accion a y final-mente encontrar el valor . Esta avaluacion u, toma en cuentael costo de experimentacion as como las consecuencias de laaccion a para cada estado de la naturaleza . Equivalentemente,el TD puede evaluar sus perdidas en la forma de una funcion:L(e, x, a, ) = u(e, x, a, ). El TD es racional si procura lamaxima utilidad o equivalentemente la menor perdida.

    6. Asignacion de probabilidades: Antes de observar el resultadodel experimento X = x, tanto X como son variables aleatorias(v.a) ( que es inobservable hasta el final del problema de decision,continuara siendo v.a). Una vez decidido el experimento e, lasv.as X y estan gobernadas por la densidad de probabilidadconjunta:

  • 1.1. ELEMENTOS DE UN PROBLEMA DE DECISION ESTADSTICA 11

    p,X(,x | e) : X R+.

    Antes de discutir maneras alternativas de evaluar la densidad con-junta, recordemos el Teorema de Bayes. Supongamos : Rd unconjuto de Borel, es una medida de probabilidad (llamada a priorio previa) en Rd, con () = 1, el vector de observaciones x Rn tieneuna densidad pX|(x | ) con respecto a una medida -finita la cualno depende de , PX| es conjuntamente medible en (X, ). Entoncespara cada conjunto B, -medible, la siguiente formula (de Bayes) de-fine una medida regular de probabilidad condicional para dado X, ypuede justificarse bajo condiciones bastante generales (ver por ejemploWalley 1989) :

    P (B | x) =B p(x | )d() p(x | )d()

    =

    B p(x | )d()

    m(x), (1.1)

    donde hemos omitido por conveninecia la mencion al experimento e.

    Si B = , entonces en terminos de la densidad tenemos :

    p|X( | x) = pX|(x | )()m(x)

    . (1.2)

    Las densidades de probabilidad que aparecen en (1.2) tienen unaimportancia capital en Estadstica y Teora de Decision:

    pX| : es la verosimilitud de la observacion condicionada alparametro.

    () : es la densidad a priori que nos da la plausibilidad de cadavalor del vector de parametros antes de observar el experimento.Se interpreta a () como el conocimiento que tiene el TD sobre antes de la observacion.

    m(x) es la densidad predictiva de las observaciones, provenientede promediar la verosimilitud a traves de la medida a priori.

  • 12 CAPTULO 1. ELEMENTOS DEL PROBLEMA DE DECISION ESTADSTICA

    p|X( | x) es la densidad a posteriori o posterior , que nosindica el aprendizaje que se ha obtenido a partir de los datos X,pasando de un conocimiento a priori a uno a posteriori. Dela simetra entre X y podemos entonces escribir: (omitiendo lossubndices):

    p(x, ) = p( | x)m(x) = p(x | )(). (1.3)

    Entonces tenemos tres estrategias para asignar la densidad conjunta:

    1. Directamente,

    2. p( | x)m(x),3. p(x | )(), siendo esta ultima la mas usual.

    1.2 El Problema de Decision como un Juego

    entre el TD y la Naturaleza

    El juego se realiza en cuatro pasos : TD escoge e, N escoge x, TDescoge a, N escoge , y finalmente TD recibe u(e, x, a, ).

    El juego sigue el siguiente diagrama donde los nodos cuadrados sonde decision (TD) y los nodos circulares (N) son aleatorios.

    3

    -

    s

    3

    -

    R

    7

    *

    -

    R

    -

    R

    e1

    e2e3

    e E

    x1

    x2x3x4

    x X

    a1 a2a3a4

    a5

    a A

    1

    2

    3 u(e2, x3, a4, 2)

    Figura 1.1. Arbol de Decision

    Ejemplo 1.2. Una operadora de Petroleos de Venezuela debe tomaruna decision con respecto a un area donde aun no se ha perforado pero

  • 1.2. EL PROBLEMADEDECISION COMOUN JUEGO ENTRE EL TD Y LA NATURALEZA13

    que tiene una alta probabilidad de tener petroleo. Los estados de lanaturaleza son (simplificadamente):

    =

    {1: Hay petroleo.2: No hay petroleo

    Las acciones posibles de la operadora son:

    A ={a1: Perforara2: Vender el campo a otra operadora

    La operadora tiene la posibilidad de realizar una medicion geologicapara verificar si cierta formacion geologica esta presente o ausente. Elcosto de la medicion es C (en miles de $). El espacio muestral constade dos puntos:

    X =

    {0 formacion geologica ausente1 formacion geologica presente

    La presencia o ausencia de petroleo afecta la probabilidad de la pres-encia o ausencia de la formacion geologica de acuerdo con la siguientefuncion de verosimilitud:

    p(x | i):\x 0 11 0.2 0.82 0.7 0.3

    Note que necesariamente p(x = 0 | i) + p(x = 1 | i) = 1, i = 1, 2.El experimento da informacion acerca de a traves de la verosimilitud(y del teorema de Bayes). Por ejemplo p(x = 1 | 1) > p(x = 0 | 1),pero se obtiene lo contrario para 2. Supongamos que el TD esta dis-puesto a afirmar antes de observar a x que, en base a su conocimientotecnico , en areas de similares caractersticas a la presente, la probabil-idad a priori de la presencia de petroleo es:

    (i): ()1 0.62 0.4

    Finalmente el TD evalua su utilidad (o perdida) monetaria o no, delas diferentes acciones frente a los posibles estados de la naturaleza. Sino se realiza el experimento geologico, la perdida (en miles de $) viene

  • 14 CAPTULO 1. ELEMENTOS DEL PROBLEMA DE DECISION ESTADSTICA

    dada por la siguiente tabla:

    L(a, ):\a a1 a21 -5000 02 2000 -500

    Si se realiza el experimento a la funcion de perdida anterior se lesuma C, por ejemplo L(a1, 1) = 5000 + C, etc.

    El TD tiene al principio tres posibles decisiones: perforar, vender orealizar el experimento, y debe decidir la que reporte menor perdida. Sise realiza el experimento, las probabilidades de cambian, por lo quese deben calcular las probabilidades a posteriori, lo que se hara en elsiguiente captulo. El arbol de decision esta representado en la figura1.2.3

    Experimento

    a1

    a2

    x = 1

    x = 0

    a1

    a2

    1

    2

    a1

    1

    2

    a2

    1

    2

    2

    1

    1

    1

    2

    2

    -5000+C

    2000+C

    C

    -500+C-5000+C

    2000+C

    C

    -500+C

    -5000

    2000

    0

    -500

    Figura 1.2. Arbol de decision Ejemplo 1.2

  • 1.2. EL PROBLEMADEDECISION COMOUN JUEGO ENTRE EL TD Y LA NATURALEZA15

    El problema de decision esta ahora completamente especificado y elTD, si quiere conservar su puesto, debe tomar una decision que hagasu perdida mnima (o su utilidad maxima). Sin embargo, su perdidadepende crucialmente del estado de la naturaleza , el cual no puedeobservar antes de tomar su decision!. Precisamente, para romper estecrculo necesitaremos de una teora de decisiones bajo incertidumbreque desarrollaremos en los proximos captulos. Por ultimo, hacemosnotar que aun cuando es desconocido hay informacion substancialsobre ella, sobre todo cuando observemos el valor de X.

  • 16 CAPTULO 1. ELEMENTOS DEL PROBLEMA DE DECISION ESTADSTICA

  • Captulo 2

    Teora Clasica de Decision

    La teora de decisiones bajo incertidumbre tiene su desarrollo origi-nal durante la II Guerra Mundial. El texto clasico donde se exponepartiendo de un punto de vista frecuentista (es decir basado en lafrecuencia relativa de las observaciones X de experimentos similarescondicionados en ) es Wald (1950). A partir de all ha tenido un vig-oroso desarrollo que iremos mencionando. En este captulo nos basare-mos primordialmente en Ferguson(1967) as como en Lehmann(1983),Berger(1985), Brown(1984), Pericchi(1986) y Walley(1987).

    Un punto de vista alternativo al frecuentista, pero con muchos pun-tos de contacto con el, es el Bayesiano o subjetivo, expuesto enSavage(1954), DeGroot(1970), Lindley(1971) y Berger(1985), donde elconocimiento a priori del experimento juega un papel mas prominente.Le dedicaremos al enfoque subjetivo los captulos finales de este libroaun cuando conceptos subjetivos apareceran en forma natural a todolo largo del mismo.

    Supondremos todo el tiempo que el TD es un individuo, o un grupoque actua como individuo. Esto no necesariamente es as en la practica.Un area apasionante de investigacion es Teora de Decision de Gruposque no tocaremos aqu.

    17

  • 18 CAPTULO 2. TEORA CLASICA DE DECISION

    2.1 Introduccion.

    En este captulo se introducen muchas ideas que son fundamentales enTeora de Decision, y ademas se comparan los puntos de vista frecuen-tista y Bayesiano, as como las ventajas y desventajas de cada uno.En la seccion 2.1 se definen conceptos basicos de la Teora Clasica deDecision basada en el concepto frecuentista de la funcion de riesgo. Sinembargo, no existe una unica solucion admisible de acuerdo al riesgo.En la seccion 2.2 se introducen tres criterios de ordenamiento de lasdecisiones: 1)Restriccion del conjunto de decisiones, 2)OrdenamientoBayesiano y 3)Ordenamiento Minimax. Se desecha el ordenamientodel criterio 1 porque tpicamente excluye buenas decisiones y porquepara un conjunto amplsimo de problemas, selecciona como optimas adecisiones inadmisibles.

    Seguidamente se estudian las propiedades de las reglas de Bayes yMinimax. Respecto a esta ultima, que es fundamental en Teora de Jue-gos, se concluye que para la Teora de Decision no es adecuada, por supesimismo y porque tpicamente selecciona como optimas decisiones nodeterminadas, es decir aleatorias. Por ultimo exponemos ventajas delenfoque Bayesiano que lo hacen la alternativa mas atractiva a la Teorade Decision, aun cuando es conveniente hacer analisis de sensibilidadcon respecto a la distribucion a priori. Pero, incluso desde el punto devista frecuentista, el enfoque Bayesiano presenta ventajas fundamen-tales, como el hecho de que toda decision admisible es una decisionBayesiana, o lmite de Bayesiana. Ademas implica una simplificacionradical del analisis racional de decisiones.

    2.2 Conceptos Basicos de la Teora de De-

    cision Clasica

    Notacion: Denotaremos a la Esperanza Matematica de la funcion g(y, ),donde y es la variable de integracion, por :

    EY | [(g(y, )] =

    { yY g(y, )p(y | ) si y es una v.a discreta

    Y g(y, )p(y | )dy si y es una v.a continua

  • 2.2. CONCEPTOS BASICOS DE LA TEORA DE DECISION CLASICA 19

    donde Y son los valores posibles de y, y p(y | ) es la densidad deprobabilidades de y condicionada al valor del parametro .

    Generalizaremos la nocion de esperanza dada arriba por la expresionmas suscinta :

    EY | [(g(y, )] =Yg(y, )dP (y | ) = E [g(y, ) | ] (2.1)

    Se puede interpretar a (2.1) como la integral de Lebesgue, suponiendoque para cada , g(y, ) es integrable Lebesgue. Tambien puede inter-pretarse la ecuacion (2.1) como la integral de Riemann-Stieltjes, dondeP (y | ) es la distribucion acumulada de y condicionada a y g(y, )es continua en un conjunto de probabilidad uno bajo P (y | ) paracada . Las propiedades de (2.1) que van a ser mas utilizadas son:

    1. E(ax+ y) = aE(x) + E(y)

    2. Si x > 0 E(x) > 0.Las propiedades 1 y 2 son validas bajo ambas interpretaciones. Ilus-

    traciones de la notacion expuesta son por ejemplo:

    1. E|X [u(e, x, a, )] = u(e, x, a, )dP ( | x)

    2. P|X(A) =A dP ( | x)

    3. PX|(B) =B dP (x | ), y si esta bien definida la densidad p(x |

    ), entonces PX|(B) =B p(x | )dx.

    El lector debe percatarse de que P|X y PX| son dos entidades com-pletamente distintas y no debe confundirse por el hecho de que en ambasse utilice la mayuscula P . Note que por ejemplo P|X(A) = E|X [1A()],donde

    1A() =

    {1 si A0 si 6 A

    Definicion 2.1 Cualquier funcion d(x) : X A es llamada una reglade decision no aleatoria o determinada.

  • 20 CAPTULO 2. TEORA CLASICA DE DECISION

    Supongamos que el TD especifica una funcion de perdida L, oequivalentemente una funcion de utilidad u(e, x, d(x), ), en la quesupondremos (por simplicidad de notacion) que tanto el efecto del ex-perimento, como de x estan considerados dentro de la regla de de-cision d(x). O sea, tenemos que: L(e, x, d(x), ) = u(e, x, d(x), )=L(d(x), ) = u(d(x), ). Podemos en general representar el problemade decision estadstica por : (,A,L), acoplado a un experimento eque envuelva a la v.a X cuya distribucion depende exclusivamente de : PX|. El concepto pivote sobre el que se fundamenta la teora clasica(frecuentista) de decision, es el concepto de Riesgo Frecuentista.

    Definicion 2.2 El valor esperado respecto deX de la funcion de perdidapara la regla de decision d(x) se llama el riesgo frecuentista. O sea

    R(, d) = EX| [L(d(x), )] =XL(d(x), )dP (x | ) (2.2)

    Comentarios

    1. Usualmente nos restringimos a aquellas reglas de decision paralas cuales R(, d) existe y es finito . Denotamos a estaclase de decisiones no aleatorias de riesgo finito por D.

    2. R(, d) representa la perdida promedio (en X) del TD cuandoemplea la regla de decision d(x) y el estado de la naturaleza es .El TD quisiera encontrar un d0 tal que el riesgo fuese mnimo.

    3. El average o promedio (2.2) se toma con respecto a la frecuen-cia de los posibles valores de X. Por consiguiente R(, d) no esfuncion de X pero s de , la cual no es observable antes de la de-cision. (Paradojicamente, a pesar de que X es observable se tomael promedio en esta variable). Por esta razon R(, d) aislada-mente no sirve para ordenar completamente las reglas de decisionde mejor a peor, aunque servira para excluir decisiones absurdasque llamaremos inadmisibles. Para ordenar racionalmente las de-cisiones optimas necesitaremos un extra-principio que nos digacomo ordenar completamente R(, d), ya que es desconocido.

  • 2.2. CONCEPTOS BASICOS DE LA TEORA DE DECISION CLASICA 21

    Ejemplo 2.1 (cont. Ejemplo 1.2). Podemos listar las posiblesreglas de decision que han sido precedidas de la decision de realizar elexperimento e1 de la siguiente manera:

    x\d d1 d2 d3 d40 a1 a1 a2 a21 a1 a2 a1 a2

    Ademas las reglas en las cuales se ha decidido no realizar el experi-mento e0:

    d5 = a1 y d6 = a2

    -1000-2000-3000-4000-5000 1000

    1000

    2000

    -1000

    R(1, d)

    R(2, d)

    d1

    d2

    d3

    d4

    d5

    d6

    Figura 2.1. Region D de decisiones determinadas (Ejemplo 2.1)

    Por ejemplo, la regla de decision d2 significa: decidir hacer el exper-imento , y si obtenemos x = 0 tomamos la accion a1, pero si obtenemos

  • 22 CAPTULO 2. TEORA CLASICA DE DECISION

    x = 1 tomamos la accion a2. Por otro lado, la regla de decision d5significa decidir no realizar el experimento y tomar la accion a1.

    Entonces : R(, d) = EX| [L(d(x), ] =2

    j=1L(aj , )PX|(d(x) =aj). Por ejemplo, usando la funcion de perdida y verosimilitud dadasen el enunciado del ejemplo 1.2 en el Captulo 1, tenemos:

    R(2, d2) = L(a1, 2)PX|(d2(x) = a1) + L(a2, 2)PX|(d2(x) = a2)

    R(2, d2) = 2000P (x = 0 | 2) + (500)P (x = 1 | 2) + C =2000(0.7) + (500)(0.3) + C = 1250 + C

    Para d5 y d6, R(, dj) = L(, dj). Entonces el riesgo R(, d) vienedado por la siguiente tabla (se deja como ejercicio verificarla):

    R\d d1 d2 d3 d4 d5 d6R(1, d) -5000+C -1000+C -4000+C C -5000 0R(2, d) 2000+C 1250+C 250+C -500+C 2000 -500

    Supongamos que C = 90. Entonces los riesgos se dan en la siguientetabla:

    R\d d1 d2 d3 d4 d5 d6R(1, d) -4910 -910 -3910 90 -5000 0R(2, d) 2090 1340 340 -410 2000 -500

    En la figura 2.1 se grafican d1 a d6, donde los ejes son R(1, d) yR(2, d).3

    Es de hacer notar que en el ejemplo 2.1 hay decisiones que jamastomaramos racionalmente: por ejemplo d1 es peor que d5 tanto para1 como para 2. Decimos que d1 esta dominada por d5, y que d1es inadmisible. El lector puede comprobar que todas las reglas dedecision que estan por encima de la frontera inferior del grafico (2.1)son inadmisibles, es decir d1 y d4 son inadmisibles. Por otra partelas decisiones que forman la frontera inferior, es decir d3, d6 y d5 noestan dominadas por ninguna otra decision determinada y por tantoson admisibles. Veremos en este captulo que esto no es casual.

  • 2.2. CONCEPTOS BASICOS DE LA TEORA DE DECISION CLASICA 23

    Ejemplo 2.2 (Test de hipotesis). Aqu el problema es decidir si pertenece a un subconjunto del espacio de parametros 0 , que esla hipotesis nula, o a su complemento:

    H0 : 0 vs H1 : c0La funcion de verosimilitud es pX| el espacio de acciones esA = {a0, a1}donde a0 es aceptar H0 y a1 rechazar H0 (o sea aceptar H1). La funcionde perdida viene dada por:

    L(, ai) :ai\ c0 0a0 L0 0a1 0 L1

    donde Li > 0, para i = 0, 1. Entonces L0 es la perdida por la falsaaceptacion de H0 y L1 la perdida por falso rechazo de H0. Se suponeque la perdida incurrida por una decision correcta es cero. Por lo tantola funcion de riesgo es:

    R(, d) =

    {L0P (d(x) = a0 | ) si c0 (Error de falsa aceptacion de H0)L1P (d(x) = a1 | ) si 0 (Error de falso rechazo de H0),

    (2.3)

    (usualmente se llama al error de falsa de aceptacion Error de tipo II, yal de falso rechazo Error de tipo I), o sea el riesgo es la perdida incur-rida por una decision incorrecta multiplicada por la probabilidad de unadecision erronea. Notar que esta probabilidad es calculada condicional-mente para cada , cuando H1 o H0 son correctas respectivamente. Losvalores de L0 y L1 son asignados por el TD.3

    Ejemplo 2.3 (Estimacion puntual). Sea = R, y se desea esti-mar o aproximar a por una funcion d : X R. Entonces A = R, yse dice que el espacio de parametros y decisiones coincide. Supongamosque el TD asigna una perdida cuadratica: L(, d(x)) = c(d(x))2 conc > 0. Esta funcion de perdida, que fue originalmente usada por Gauss,es la mas frecuentemente empleada en problemas de estimacion. Es con-vexa y simetrica penalizando igualmente la sub o la sobre-estimacion.

  • 24 CAPTULO 2. TEORA CLASICA DE DECISION

    Es ademas muy tratable matematicamente. Es sin embargo algo arbi-traria, (por que no | d(x) |?), no acotada y crece quizas demasiadorapido cuando d(x) se aleja de . El riesgo en este caso se denominaerror cuadratico medio y puede escribirse como:

    R(, d) = EX|[c( d(x))2

    ]=

    cEX|[((

    EX|(d(x)))(d(x)EX|(d(x))

    ))2]=

    c( EX|(d(x))

    )2+ cEX|

    [(d(x)EX|(d(x))

    )2]2c

    ( EX|(d(x))

    )EX|

    [d(x)EX|(d(x))

    ]y como

    EX|[d(x) EX|(d(x))

    ]= EX|[d(x)]EX|[d(x)] = 0,

    ya que EX|[d(x)] no depende de X, entonces si definimos

    EX|(d(x)) = sesgo(d(x), )tenemos:

    R(, d) = c{sesgo2(d(x), ) + V arX|(d(x))

    }.3 (2.4)

    Por lo tanto si se emplea perdida cuadratica un buen estimadord(x) sera aquel cuya suma de sesgo al cuadrado mas su varianza seapequena. El test de hipotesis y la estimacion puntual (y de intervalosque veremos posteriormente) son los problemas mas importantes dela inferencia estadstica , y hemos visto en los ejemplos 2.2 y 2.3 quepueden frasearse como problemas particulares de la teora de decisionestadstica.

  • 2.2. CONCEPTOS BASICOS DE LA TEORA DE DECISION CLASICA 25

    Para proseguir, conviene (matematicamente) extender el espacio dedecisiones determinadas D, por su casco convexo que llamaremos D.Los elementos de D, (x); seran llamados reglas de decision aleatoriasy pueden ser pensados como una distribucion de probabilidades en D.

    Definicion 2.3 Una regla de decision aleatoria , es una distribucionen el conjunto D de las reglas de decision determinadas. Su funcionde riesgo se define como : R(, ) = EZ [R(, z)], donde Z es una v.aque toma sus valores en D y cuya distribucion viene dada por . Elespacio D esta compuesto por las reglas de decision aleatoria tal queR(, ) exite y es finita .

    Una ventaja matematica de considerarD es que linealiza aD. Porejemplo si 1 y 2 D, y 0 1, definimos = 1+ (1)2,o sea es 1 con probabilidad y 2 con probabilidad 1 , es decir,una mezcla de 1 y 2, entonces: R(, ) = R(, 1) + (1 )R(, 2)y D, y por lo tanto D es convexo. Esta claro ademas que D D,ya que d D, corresponde a la regla aleatoria (degenerada) que asignaprobabilidad uno al punto d. Tambien es claro que R(, ) esta en elsegmento de la recta que une a 1 con 2.

    Continuacion Ejemplo 2.1. Una posible regla aleatoria es:

    (e, x) =

    {d3 con probabilidad 1/2d6 con probabilidad 1/2.

    Entonces (e, x) puede obtenerse como: con probabilidad 12, no

    hacer el experimento y tomar la accion a2, como especifica d6. Conprobabilidad 1

    2, hacer el experimento; si x=0, tomar la accion a2 y si

    x=1 tomar la accion a1.O sea, el TD lanza una moneda balanceada. Si sale cara, aconseja

    no realizar el experimento y tomar la accion a2. Si sale sello, acon-seja realizar el experimento, si sale x=0 aconseja la accion a2 y si salex=1 aconseja la accion a1. Las decisiones aleatorias son claramenteinsensatas en el contexto de teora de decision y posiblemente el TDperdera su puesto si decide (e, x). (El estadstico esta para reducir laincertidumbre, no para aumentarla, R.A.Fisher).

  • 26 CAPTULO 2. TEORA CLASICA DE DECISION

    La funcion de riesgo de sera:

    R(, ) =1

    2R(, d3) +

    1

    2R(, d6).

    O sea, R(, ) esta en la recta que une a d3 con d6 en la figura 2.1.De hecho:

    R(1, ) =1

    2(3910) + 1

    2(0) = 1955

    R(2, ) =1

    2(340) +

    1

    2(500) = 80. 3

    Definicion 2.4 El conjunto de riesgo S es el conjunto de puntos enRk cuyas coordenadas son (R(1, ), . . . , R(k, )) para toda D.Por la linealidad del riesgo, S es un conjunto convexo, o sea si

    x S,y S, 0 1, entonces: x + (1 )y S. Esto sedemostrara en la seccion 2.3.

    Continuacion Ejemplo 2.1. En la figura 2.1, S sera el conjunto con-vexo que tiene a las decisiones determinadas d1, . . . , d6 como vertices.3

    Entonces los vertices de S corresponden a decisiones determinadas.(Pero es posible que una decision determinada caiga en el interior deS). Procedemos ahora a ordenar parcialmente las decisiones D deacuerdo al riesgo frecuentista.

    Definicion 2.5 Sean 1 y 2 D. Diremos que 1 es R-mejor que 2si:

    1. R(, 1) R(, 2), .2. R(0, 1) < R(0, 2), para algun 0 .1 D es admisible si no existe D que sea R-mejor que 1.

    Decimos que 1 D es inadmisible si no es admisible, es decir, si existe D que sea R-mejor que 1. Si , A y X son finitos como en elejemplo 2.1, entonces D es finito y S es un poliedro, que es el cascoconvexo de un numero finito de puntos en D, cuyos vertices son reglasde decision determinadas. Entonces, S es convexo, cerrado y acotado.

  • 2.3. DECISIONES OPTIMAS 27

    Definicion 2.6 Para x S, Qx ={y Rk : yj xj , 1 j k,y 6= x

    }es el conjunto de puntos de riesgo que son mejores que x. La fronterainferior de S, (S) , es el conjunto de los x S tal que Qx S = .Continuacion Ejemplo 2.1. (S) esta compuesto por los segmentosde recta que unen a d5 con d3 y d3 con d6, o sea las D que sonmezclas de d5 y d3 y d3 y d6. Estas mezclas son precisamente el conjuntode decisiones admisibles en D.3

    Teorema 2.1 Supongamos que (S) S y existe M tal que si(y1, . . . , yk) S yj > M ; j = 1, . . . , k. Una regla de decision Des admisible si y solo si su punto de riesgo esta en (S).

    Prueba: (Ejercicio)

    Sugerencia: es admisible si y solo si no existe un punto de riesgomejor en S, si y solo si Qx S = .2

    Admisibilidad es solo una condicion necesaria mas no suficiente paraque una regla de decision sea razonable. Mas aun, establece solamenteun orden parcial entre las decisiones que no nos permite encontrar laregla optima, si esta existe. Como escoger entre la infinidad de reglasadmisibles en el ejemplo 2.1?. Precisamos de un metodo que nos proveade un orden total de las decisiones y nos permita encontrar una reglaoptima. Expondremos seguidamente tres metodos alternativos.

    2.3 Decisiones Optimas

    METODO 1: Restriccion del conjunto de decisiones

    Este punto de vista sostiene que hay tpicamente demasiadas deci-siones y que para ordenarlas primero se precisa restringirlas, dejandofuera decisiones tontas. Un ejemplo motivara este punto de vista.

    Continuacion Ejemplo 2.3. El siguiente estimador tonto de esadmisible: d(x) = a, x X. Es decir no importa cual sea la evidenciadada por el experimento, aproximamos a por el valor a. El problema

  • 28 CAPTULO 2. TEORA CLASICA DE DECISION

    es que para = a : R(a, d) = c{sesgo2(d(x), a) + V arX|a(d(x))} = 0,ya que la varianza de d(x) es 0 por ser una constante y sus sesgo esnulo para = a. Entonces un estimador optimo tendra que mejorar atodos los estimadores (x) = a, variando a en R y debera tener riesgonulo para todo ; lo cual es imposible. Se busca entonces restringir aD de tal manera que d(x) = a quede fuera.3

    Sigamos con problemas de estimacion puntual y veamos dos posiblesestrategias.

    1. Procedimientos Insesgados: Consideremos solo aquellos esti-madores que sean insesgados, o sea

    {d(x) : EX| [d(x)] = ,

    },

    y as el estimador tonto anterior queda fuera. Si la perdida escuadratica entonces el problema se reduce a encontrar un esti-mador de varianza mnima, el cual en muchos casos existe.

    2. Procedimientos Invariantes: Se plantea que la estructura delestimador optimo no debe depender del origen o escala de medidasde X o de otros factores arbitrarios.

    Para fijar ideas supongamos que es un parametro de localizaciones decir:

    PX|(x | ) = PX|(x ) y L(, a) = L( a).En este caso los estimadores invariantes por cambios en el origende los datos X son:

    {d(x) : d(x+ b) = d(x) + b}.

    Aun cuando las estrategias del metodo 1 han sido en el pasadomuy usadas, lo son cada vez menos. Las razones principales sonlas siguientes:

    (a) Si bien dejan fuera a estimadores tontos, tambien excluyena buenos estimadores. (Veremos ejemplos a lo largo de estelibro).

  • 2.3. DECISIONES OPTIMAS 29

    (b) Los estimadores optimos de (1) o (2) pueden ser inadmisi-bles.

    Ejemplo 2.4. Supongamos que PX|(x | ) = PX|(x) = Cauchy(, 1) =1

    [1+(x)2] . Para esta densidad no existe la Esperanza de X y por lotanto ningun otro momento. Supongamos que la funcion de perdidaes cuadratica L(, d(x)) = L( d(x)) = c( d(x))2. Siendo esteun problema invariante por cambios de localizacion, los estimadoresinvariantes son de la forma: db(x) = x + b, (los cuales no pueden serinsesgados ya que no existe EX|(x)). Ahora bien:

    R(, db) = EX|[c( (x+ b))2

    ]=,

    para todo y todo b. Sin embargo el estimador tonto y no-invarianted(x) = 0 tiene riesgo R(, 0) = 2 < R(, db), y por lo tanto todos losestimadores invariantes son inadmisibles.3

    Ejemplo 2.5. Este es el ejemplo mas famoso de inadmisibilidad (Jamesy Stein, 1960). Sean X1, . . . , Xn independientes, Xj N(j , 1), yse quiere estimar = (1, . . . , n) con perdida cuadratica: L(, a) =n

    j=1(j aj)2. El estimador 0(x) = x, o sea estimar cada j porXj, es el estimador invariante optimo y es el estimador insesgado devarianza mnima. (Tambien es el estimador de maxima verosimilitudy de mnimos cuadrados, metodos populares de obtener estimadores).El estimador 0(x) es admisible para n=1 o n=2, pero es inadmisiblepara n 3. Este resultado, que conmovio a la inferencia estadstica, fueobtenido originalmente por Stein (1955).

    El estimador sesgado 1(x) =(

    n2nj=1

    x2j

    )x, para n 3, propuesto

    por James-Stein, domina a 0(x) para todo .3Por estas razones desechamos el metodo 1 de restriccion de reglas de

    decision y procedemos a exponer y estudiar los proximos dos metodosque proveen un ordenamiento global de las reglas de decision.

  • 30 CAPTULO 2. TEORA CLASICA DE DECISION

    METODO 2: Ordenamiento Bayesiano.

    El ordenamiento parcial de las decisiones provienen del hecho de queR(, ) depende de , ademas de . Podemos ordenar las decisiones sitomamos el valor esperado de R(, ) con respecto a la medida de prob-abilidad d() = ()d, donde () es la distribucion a priori de y () su densidad. La interpretacion de () es subjetiva: es elestado de conocimiento que el TD tiene acerca del estado de la natu-raleza. Se supone aqu que el TD tiene informacion suficiente acercade como para representarla por una unica distribucion (), es decirpara representarla de una manera precisa. Llamaremos a este supuesto,la hipotesis de la precision. Si esta hipotesis es aceptada, entonces esrazonable ponderar R(, d) por (): Si (x) es una decision que lohace muy bien (R(, ) pequeno) en una region 0 de alta probabili-dad a priori, y no tan bien en c0 que tiene poca probabilidad a priori,entonces (x) seguira siendo bastante buena.

    Definicion 2.7 El riesgo Bayesiano de la regla de decision D parala distribucion a priori () se define como:

    r(, ) = E [R(, )] = E{EX|[L((x), )]

    },

    el cual se supone que existe y es finito.

    Definicion 2.8 La regla de decision 0 sera la regla de decision optimaBayes- promedio con respecto a la distribucion a priori si y solosi:

    r(, 0) = infD

    r(, ).

    Es de hacer notar que la anterior definicion esta basada en un prome-dio en X (condicional en ), y por tanto sobre un concepto frecuentista.Esto es innecesario ya que el valor de X = x sera conocido luego deobtener el resultado del experimento. Por tanto tenemos una formaalternativa de definir un procedimiento optimo-Bayes.

    Definicion 2.9 La perdida Bayesiana esperada condicional en X de laaccion (x) para la distribucion a priori () se define como:

  • 2.3. DECISIONES OPTIMAS 31

    (, (x)) = E|X [L(, (x))] =L(, (x))d( | x).

    Definicion 2.10 La accion (x) sera la accion optima Bayes, condi-cional en X, para la distribucion a posteriori ( | x) si y solo si:

    (, (x)) = infD

    (, (x)).

    A la definicion 2.10 se le conoce como el principio de la maxi-mizacion (minimizacion) de la utilidad (perdida) esperada. Para cadax X, escogemos aquella accion (x) que hace mnimo lo que esper-amos perder. Surge la pregunta, Puede la regla de decision optimaBayes promedio 0 obtenerse como

    (x) para cada x X?. Afortu-nadamente la respuesta es s, bajo condiciones bastante generales.

    Teorema 2.2 Supongamos que L(, d) es no negativa y que:

    1. Existe un estimador con riesgo finito.

    2. Para casi todo x, existe un numero (x) que minimiza a (, (x)).

    Entonces (x) es optimo Bayes promedio.

    Prueba. Sea cualquier estimador con riesgo finito. Entonces,(, (x)) es finito c.s, ya que L es no negativa. Por lo tanto

    E [L(, (x)) | x] E [(L(, (x)) | x] c.s.,y el resultado se obtiene tomando esperanzas (enX) a ambos miembros.2

    Notamos que si L(, d) = M +L(, ), con M finito y L(, d) nonegativa el teorema 2.2 sigue siendo valido.

    Continuacion Ejemplo 2.1. A partir de la tabla de riesgos, de(1) = 0.6 y (2) = 0.4, y recordando que hemos supuesto C = 90,podemos calcular los riesgos Bayesiano promedio usando la definicion2.7 como sigue:

    r(, d) =2i=1

    R(i, d)(i).

  • 32 CAPTULO 2. TEORA CLASICA DE DECISION

    Se deja al lector verificar la siguiente tabla:

    r\d d1 d2 d3 d4 d5 d6r(, d) -2110 -10 -2210 -110 -2200 -200

    Por lo tanto la mejor decision determinada sera d3, o sea, realizarel experimento y tomar la accion a2 si x = 0 y a1 si x = 1. Alterna-tivamente, para obtener la mejor accion Bayes-condicional calculemosprimero las probabilidades a posteriori segun la regla de Bayes:

    P (1 | x = 0) P (x = 0 | 1)(1) = 0.2 0.6 = 0.12P (2 | x = 0) P (x = 0 | 2)(2) = 0.7 0.4 = 0.28De lo anterior se tiene que P (x = 0) = P (x = 0 | 1)(1) + P (x =

    0 | 2)(2) = 0.40. Normalizando, es decir dividiendo por P (x = 0),se obtiene:

    P (1 | x = 0) = 0.120.4 = 0.3P (2 | x = 0) = 0.280.4 = 0.7Procediendo de manera similar para x = 1 se tiene P (x = 1) = 0.6,

    y entonces

    P (1 | x = 1) = 0.8P (2 | x = 1) = 0.2.Si observamos x = 0, la perdida esperada a posteriori para a1 y a2

    sera:

    (, a1) = (4910)(0.3) + (2090)(0.7) = 10(, a2) = (90)(0.3) + (410)(0.7) = 260

    de donde se deduce que la mejor decision Bayes condicional en x = 0sera a2. Por otra parte si x = 1,

    (, a1) = 2510(, a2) = 10

    y la mejor decision sera a1. Por otro lado si no se realiza el experimento:

  • 2.3. DECISIONES OPTIMAS 33

    (, a5) = L(a1, 1)0.6 + L(a1, 2)0.4 = 2200(, a6) = L(a2, 1)0.6 + L(a2, 2)0.4 = 200,

    y estas perdidas condicionales esperadas son mayores que las de realizarel experimento, y si x = 0 tomar la accion a2 y si x = 1, la acciona1. Notese que si juntamos las acciones optimas condicionales parax = 0 y x = 1 obtenemos d3, que es la mejor decision Bayes promediodeterminada.

    Supongamos ahora que C es desconocido, cuanto estaramos dis-puestos a pagar por hacer el experimento?. Utilizamos aqu el principiode la minimizacion de la perdida esperada. Usando las mismas prob-abilidades a priori y a posteriori se obtiene el arbol de decision de lafigura 2.2, en el que debajo de los nodos aleatorios se coloca la perdidaesperada y debajo de los nodos de decision el resultado de la mini-mizacion.

    En el arbol el smbolo // indica que la decision es absurda, por ejem-plo a2 no la tomaremos ya que la perdida esperada es -200 comparadacon -2200 en a1. Ahora debemos comparar las perdidas esperadas dela accion a1 con la de hacer el experimento, las cuales tienen perdidasesperadas de -2200 y -2300+C respectivamente. El arbol de decisionindica que lo maximo que se deberia pagar por hacer el experimento esC = 100, es decir si C 100 se decide hacer el experimento y se decidea1 si x = 1 y a2 si x = 0. Esto coincide con la decision Bayes condicionalen el desarrollo anterior, pues en aquel caso tenamos C = 90 < 100.Por otro lado si C > 100, entonces la decision optima sera d5.3

    En el ejemplo anterior, con C = 90 hemos concluido que d3 es laregla de decision optima dentro de las reglas determinadas, es decir, d3es optima es D. Surge la pregunta es d3 optima en D, es decir en elconjunto de todas las reglas de decision aleatorias?.

    Teorema 2.3 Supongamos que existe una regla optima Bayes prome-dio D, y que se cumplen las condiciones para intercambiar el ordende integracion. Entonces existe una regla determinada d D, optima.

    Prueba. Sea 0 optima respecto de . Sea z la variable aleatoriacon valores en D cuya distribucion esta dada por 0. Entonces,

  • 34 CAPTULO 2. TEORA CLASICA DE DECISION

    Experimento

    a1

    a2

    x = 1

    x = 0

    a1

    a2

    1

    2

    a1

    1

    2

    a2

    1

    2

    2

    1

    1

    1

    2

    2

    -5000+C

    2000+C

    C

    -500+C-5000+C

    2000+C

    C

    -500+C

    -5000

    2000

    0

    -500

    0.8

    0.2

    0.8

    0.2

    0.3

    0.7

    0.3

    0.7

    0.6

    0.4

    0.6

    0.4

    -200

    -2200

    -350+C

    -100+C

    -100+C

    -3600+C

    -2300+C

    0.6

    0.4

    -3600+C

    -350+C

    Figura 2.2. Arbol de decision Ejemplo 2.1

    r(, 0) = E [R(, )] = E [EZ [R(, z)]] ,

    cambiando el orden de integracion tenemos:

    EZ [E [R(, z)]] = EZ [r(, z)] .

    Pero como 0 es optima para , se cumple que

    r(, 0) r(, d) d D.

    Por lo tanto r(, 0) = r(, z) con probabilidad uno y entoncescada d D que z escoge con dicha probabilidad cumplira con r(, d) =r(, 0), y por lo tanto d sera optima con respecto de . 2

  • 2.3. DECISIONES OPTIMAS 35

    Este resultado nos dice, en condiciones bastante generales, que bajoel ordenamiento Bayesiano, la busqueda de decisiones optimas puederestringirse a reglas determinadas (no aleatorias). Ello establece unaventaja computacional, ademas de una ventaja intuitiva: cuando exis-tan reglas optimas de Bayes, al menos una de ellas sera determinada.En problemas de Decision, uno debe escoger decisiones determinadas,nunca aleatorias.

    Antes de pasar al proximo criterio de ordenamiento (Minimax) yde estudiar en forma mas exhaustiva las reglas de Bayes, sera con-veniente dar algunos ejemplos y procedimientos de calculo de reglasBayes-optimas, debido a sus ventajas computacionales.

    Comenzamos por hacer notar que el concepto frecuentista de es-tadstica suficiente juega tambien un papel crucial en el campo Bayesiano,en cuanto a reducir la dimensionalidad del vector de datos. Supong-amos que la familia de distribuciones deX esta indexada por el parametro: {p(x | ), }. Decimos que la funcion de los datos: T = T (x),usualmente llamada estadstica de X es suficiente (para los datos) si ladistribucion condicional de X dado T = t es independiente de , t.Tenemos la siguiente definicion alternativa, el Criterio de Factorizacionde Neyman.

    Teorema 2.4 Una condicion necesaria y suficiente para que la es-tadstica T sea suficiente para la familia {P (x | ), } de dis-tribuciones de X dominada por la medida -finita , es que existanfunciones no negativas g y h tal que la densidad (verosimilitud) p(x | )de P (x | ) satisfaga:

    p(x | ) = g(T (x) | )h(x) (c.s.). (2.5)

    Prueba. La prueba aparece por ejemplo en Lehmann(1959), Teo-rema 2.8 y Corolario 2.1 y se deja como lectura opcional.2

    Lema 2.1 Supongamos que p(t) (la densidad marginal de t) es mayorque cero, y que se cumple (2.5). Entonces si T (x) = t, densidad aposteriori de cumple con:

    ( | x) = ( | t) = g(t | )()p(t)

    . (2.6)

  • 36 CAPTULO 2. TEORA CLASICA DE DECISION

    Prueba. Ejercicio. 2

    El Lema 2.1 simplifica usualmente las calculos y provee una maneraBayesiana de entender la suficiencia: T (x) es suficiente si para todadensidad a priori tal que la densidad a posteriori exista, esta dependade los datos solo a traves de T .

    Ejemplo 2.6 (Normal-Normal). Supongamos que X es Normal,X N(, 2) donde la media es desconocida pero la varianza 2 esconocida. Si tenemos una muestra X1, . . . , Xn, entonces la densidad de

    X = 1n

    ni=1

    Xi es N(,

    2

    n

    )y X es suficiente. Supongamos que () es

    N (, 2) con y 2 conocidas. Entonces la densidad conjunta de X y es:

    p(x, ) = ()p(x | ) =(2

    n

    )1exp

    {12

    [( )2

    2+n(x )2

    2

    ]}

    Definamos: = 12+ n

    2, completando cuadrados en el argumento

    de la exponencial obtenemos:

    p(x, ) =

    (2

    n

    )1exp

    12[ 1

    (

    2+nx

    2

    )]2 exp{ (x )

    2

    2(2 + 2

    n)

    },

    (2.7)y por tanto la densidad marginal (o predictiva) de X sera,

    p(x) =

    p(x, )d =

    [(2)(2 +

    2

    n)

    ] 12

    exp

    { (x )

    2

    2(2 + 2

    n)

    }, (2.8)

    o sea, p(x) = N(, 2 +

    2

    n

    ). Finalmente la densidad posteriori de

    es:

    ( | x) = p(x, )p(x)

    =()p(x | )

    p(x)=(

    2

    ) 12

    exp{12[ (x)]2

    },

    (2.9)

  • 2.3. DECISIONES OPTIMAS 37

    donde

    (x) =1

    (

    2+nx

    2

    )=

    2

    n

    2 + 2

    n

    +2

    2 + 2

    n

    x (2.10)

    y por lo tanto( | x) = N

    ((x), 1

    ). (2.11)

    Es de hacer notar que la esperanza a posteriori de , E( | X),es igual a (x), o sea un promedio ponderado entre y X, dado por(2.10).3

    Ejemplo 2.7 (Beta-Binomial). Consideremos un experimento Bernoullicon n intentos y sea la probabilidad de exito. Entonces cada una delas observaciones seran:

    Xi =

    {1 con probabilidad 0 con probabilidad (1-).

    Sea X+ =n

    i=1Xi el numero de exitos en n intentos. Su verosimil-itud es:

    p(x+ | ) x+(1 )nx+ 0 1; X+ = 0, 1, . . . , n. (2.12)Supongamos que la densidad a priori es unaBeta(n0x0, n0(1x0)),

    o sea la densidad a priori es:

    () =(n0)

    (n0x0)(n0(1 x0))n0x01(1)n0(1x0)1; n0 > 0, 0 < x0 < 1.

    (2.13)Entonces, llamando a X = 1

    nX+, usando la regla de Bayes obten-

    emos:

    ( | x+) = ()p(x+ | )p(x+)

    ()p(x+ | ) = n(x)1(1 )n(1(x))1

    (2.14)donde n = n0 + n y

    (x) =n0nx0 +

    n

    nx. (2.15)

  • 38 CAPTULO 2. TEORA CLASICA DE DECISION

    Es inmediato ver que (2.14) y (2.13) tienen la misma forma y portanto luego de normalizar para que

    10 ( | x)d = 1 se tiene que:

    ( | x+) = Beta (n(x), n(1 (x))) .3 (2.16)

    El lector se habra percatado que el metodo para obtener la densi-dad posteriori en este ejemplo, es decir conservar solo los terminos quedependen de , el Kernel de ( | x), y al final normalizar para queintegre uno al reconocer la forma funcional del Kernel de a posteriori,es mas expedito que el metodo del ejemplo 2.6.

    Se puede ver (se deja al lector como ejercicio) que la esperanza dela densidad (2.13) es x0, y por tanto la esperanza de(2.16) es (x)en (2.15), la cual tiene la misma estructura de (2.10) del ejemplo 2.6.Es decir la esperanza a posteriori es un promedio ponderado entre lamedia a priori y X, la media muestral. Como n = n0+ n, entonces n0puede ser pensado como el tamano de muestra a priori equivalenteal tamano muestral. La influencia de la informacion a priori en ladensidad a posteriori es directamente proporcional a n0. En el ejemplo2.6 lo mismo se puede decir de 2, el inverso de la varianza, el cualjuega el mismo papel que n0 del ejemplo 2.7. (En algunos textos sedenomina a 2 la precision).

    En el punto de vista Bayesiano, toda la informacion (subjetiva oexperimental) esta resumida en la distribucion a posteriori. El siguienteteorema nos indicara como vincular esta informacion con importantesfunciones de perdida para problemas de estimacion puntual.

    Teorema 2.5 Se quiere estimar una funcion g() y la funcion de perdidaL(, d) es no-negativa. Supongamos que las hipotesis del teorema 2.2estan satisfechas. Denotemos por (x) el estimador optimo Bayescondicional para la distribucion a priori .

    1. Si L(, d) = c(dg())2, entonces (x) = E [g() | x] = g()d( |

    x), o sea el estimador optimo es la esperanza a posteriori de g().

    2. Si L(, d) = w()(d g())2, entonces:

    (x) =E [w()g() | x]E [w() | x] .

  • 2.3. DECISIONES OPTIMAS 39

    3. Si L(, d) = c | d g() |, entonces (x) es cualquier medianade la distribucion a posteriori (g() | x).

    Prueba.

    1. (x) se obtiene minimizando en (x) a:

    E[((x) g())2 | x

    ], (2.17)

    por hipotesis, existe 0 para el que esta esperanza posteriori esfinita c.s en x, y por tanto lo sera para .

    Como la perdida cuadratica es estrictamente convexa, tendra ununico valor mnimo. Si sumamos y restamos E [g() | x], que porhipotesis es finito, obtenemos como en el ejemplo 2.3 que (2.17)puede escribirse como:

    E[(g() E(g() | x))2 | x

    ]+ (E [g() | x] (x))2 . (2.18)

    El primer termino de (2.18) no depende de (x), y el segundo esno negativo, por lo que (2.17) se minimiza haciendo el segundotermino de (2.18) nulo, o sea (x) = E [g() | x].

    2. Ejercicio.

    3. Ejercicio.2

    Volviendo a los ejemplos 2.6 y 2.7, si la perdida es cuadratica y sedesea estimar a , o sea g() = , entonces (x) = E( | x) = (x).Es decir el estimador optimo Bayes de sera su media a posteriori. Lamedida de exactitud o dispersion de este estimador optimo vienedada por su riesgo condicional en X, o sea su riesgo posterior, queviene dado por el primer termino de (2.18). Para perdida cuadratica yg() = , la medida de dispersion de (x) es la varianza a posterioride . En el ejemplo 2.6 esta es 1 y en el ejemplo 2.7 es:

    (x) [1 (x)]n + 1

  • 40 CAPTULO 2. TEORA CLASICA DE DECISION

    (Se deja al lector como ejercicio verificar la ecuacion anterior).La estimacion insesgada ya ha sido criticada. Veamos que tpicamente

    un estimador insesgado no es optimo Bayes.

    Teorema 2.6 Se quiere estimar g() con perdida cuadratica. Entoncesningun estimador insesgado (x) puede ser optimo Bayes a menos que

    EX,[((x) g())2

    ]= 0.

    Prueba. Supongamos que (x) es optimo Bayes para alguna dis-tribucion y ademas es insesgado para estimar g(). Entonces, E[(x) |] = g(), para todo . Ademas, condicionando en X,

    EX, [g()(x)] = EX|E [g()(x) | x] = EX| [(x)E[g() | x]] = EX|[2(x)

    ];

    ahora condicionando en ,

    EX, [g()(x)] = E|XEX [g()(x) | ] = E|X [g()EX [(x) | ]] = E|X[g2()

    ].

    Finalmente,

    EX,[((x) g())2

    ]= EX|

    [2(x)

    ]+E|X

    [g2()

    ]2EX,[g()(x)] = 0.2

    Apliquemos el teorema anterior a los casos de verosimilitud normaly binomial:

    1. Normal: (x) = x es insesgado y EX| [X ]2 = 2n . Pero paracualquier (), E

    [2

    n

    ]=

    2

    n6= 0, por lo tanto X no es Bayes. El

    estimador indmisible del ejemplo 2.4, no es de Bayes.

    2. Binomial: (x) = x es insesgado y EX|[X

    ]2= (1)

    n.

    Ahora bien, 1n

    10 (1 )d() = 0, si y solo si () es la dis-

    tribucion trivial que asigna uno al conjunto {0,1}. (La monedatiene 2 caras o 2 sellos, y x solo puede ser 0 o 1)

    Seguidamente describimos un metodo de ordenamiento de decisiones,alternativo al Bayesiano, que intenta desembarazarse de la asignacionde distribuciones a priori.

  • 2.3. DECISIONES OPTIMAS 41

    METODO 3: Ordenamiento Minimax

    En este metodo en lugar de minimizar el riesgo promedio se min-imiza el sup R(, ), o sea, se toma la decision que lo haga mejor,suponiendo que la naturaleza decide lo peor para nosotros, para cada. La figura 2.3 exhibe el pesimismo de este punto de vista.

    .......................

    .......................

    .......................

    1

    2

    R(, )

    Figura 2.3.

    El ordenamiento minimax prefiere 1 a 2, ya que 2 tiene un riesgomaximo mayor que 1. En Teora de Juegos, donde es escogida por unenemigo inteligente es recomendable prevenir que este nos va a hacer lavida tan difcil como le sea posible y en el caso de la figura 2.3 escogeraa en la pequena region en donde 1 es mejor que 2. Por fortuna lanaturaleza no es usualmente tan malevola!.

    Definicion 2.11 La regla de decision es minimax si

    sup

    R(, ) = infD

    sup

    R(, ), (2.19)

    y al valor de la parte derecha de (2.19) se le llama el valor minimax.

    De la definicion anterior se deduce (y se deja al lector como ejercicio)que es minimax si y solo si

    R(, ) sup

    R(, ) y D. (2.20)

  • 42 CAPTULO 2. TEORA CLASICA DE DECISION

    La regla minimax es mas difcil de obtener, en general, que en losmetodos 1 y 2. De hecho el metodo Bayesiano nos va a ayudar a calcularla regla minimax. Esto no es sorprendente ya que podemos esperar quela regla minimax sea de Bayes para la peor distribucion a priori quellamaremos menos favorable o de Murphy.

    Definicion 2.12 La distribucion a priori 0 es menos favorable o deMurphy si

    r(0, 0) r(, )

    para todas las distribuciones a priori , donde es optima Bayes para y r es el riesgo Bayesiano promedio definido en 2.7.

    Puede pensarse la distribucion de Murphy como la que nos causala maxima perdida esperada imposible de evitar. Seguidamente se dauna condicion para que un estimador de Bayes sea minimax.

    Teorema 2.7 Supongamos que es una distribucion a priori tal que:

    r(, ) =R(, )d() = sup

    R(, ). (2.21)

    Entonces:

    1. es minimax.

    2. Si es la unica optimo Bayes respecto de entonces es la unicaminimax.

    3. es de Murphy.

    Prueba.

    1. Sea cualquier otra regla de decision. Entonces:

    supR(, ) r(, ) r(, ) = sup

    R(, ).

    2. Reemplazando en la prueba de (1) el segundo por >.

  • 2.3. DECISIONES OPTIMAS 43

    3. Sea alguna otra distribucion a priori. Sigue que:

    r(, ) r(, ) sup

    R(, ) = r(,

    ).2

    La condicion (2.21) establece que el promedio de R(, ) es igual asu maximo, o sea que asigna probabilidad uno al conjunto donde elriesgo toma constantemente su valor maximo. Una regla de este tipose llama igualadora. Las reglas igualadoras son minimax.

    Corolario 2.1 Si la regla optima-Bayes tiene riesgo constante, osea R(, ) = a, con a constante, entonces es minimax.

    Prueba: Si tiene riesgo constante, se cumple (2.21).2

    Corolario 2.2 Una condicion suficiente para que sea minimax esque exista un conjunto 0 , tal que (0) = 1 y R(, ) toma sumaximo valor en todo punto de 0.

    Prueba. La condicion (2.21) tambien se cumple en este caso.2

    Ejemplo 2.8 (Lehmann(1983) y Walley(1987)). Sea la verosimil-itud binomial,P (x+ | ) = Bin(n, ) y se quiere estimar como en el ejemplo 2.7.Supongamos que la perdida es cuadratica: L(, d) = ( d)2. Quere-mos encontrar un estimador minimax de . Intentemos conseguir unaregla igualadora suponiendo que pertenece a la familia Beta de dis-tribuciones, () = Beta(, ) con > 0 y > 0. De la parte (1)del Teorema 2.5 sabemos que el estimador optimo Bayes es la mediaposterior (x). Por otra parte del ejemplo 2.7, la relacion (2.15), y den0x0 = , n0(1 x0) = o sea x0 = + , n0 = + tenemos:

    E( | x) = (x) = + x++ + n

    = . (2.22)

    Sabemos que en el caso Binomial E(X+ | ) = n y V ar(X+ | ) =n(1 ). Entonces,

    R(, ) = E

    ( +X++ + n

    )2| = n(1 ) + [ (+ )]2

    (+ + n)2.

    (2.23)

  • 44 CAPTULO 2. TEORA CLASICA DE DECISION

    Para que R(, ) = constante (variando ), los coeficientes de 2 y

    deben ser cero, o sea:

    1. n+ (+ )2 = 02. n 2( ) = 0

    y por lo tanto = =n2. Obtenemos entonces:

    (x+) =

    n2+ x+

    n+n

    (2.24)

    que es la regla de Bayes para la densidad a priori Beta(

    n2,n2

    )y es

    una regla igualadora con:

    R(, (x+)) =1

    4(n+ 1)2

    , [0, 1] (2.25)

    y por el Corolario 2.1, (x+) es minimax y la densidad Beta(

    n2,n2

    )es de Murphy.3

    Surge la pregunta es (x+) razonable?. Notemos que el metodominimax provee un metodo para escoger la o las densidades a priorique sean de Murphy. La densidad de Murphy obtenida es 0() =

    Beta(

    n2,n2

    ). Por que el conocimiento que se tiene sobre debe

    estar influenciado por el tamano del experimento n?. Por que solo porn y no por otra informacion?.

    La media de 0 es12y su varianza es 1

    4(n+1)

    0, cuando n,y por lo tanto estara cada vez mas concentrada alrededor de 1

    2a medida

    que n crece. Pensemos en dos situaciones: (1) es la probabilidad deque una moneda al ser lanzada caiga cara. (2) es la probabilidad deque una tachuela al ser lanzada caiga de lado. Ciertamente 0 no esrazonable en la situacion (2), y por otro lado es extrano que estemosmuy seguros a priori de que la moneda sea balanceada en la situacion(1), si sabemos que va ser lanzada digamos 109 veces. Otra manera dever si (x+) es razonable es ver su funcion de riesgo R(, ) (2.25).Comparemosla con el riesgo del estimador insesgado

    0(x+) =x+n

    : R(, 0) = EX

    [(x+n

    )2| ]=V ar(X+ | )

    n2=(1 )

    n.

  • 2.3. DECISIONES OPTIMAS 45

    Graficamos en la figura 2.4, nR(, ) y nR(, 0) para varios valoresde n.

    0 .5 1

    (n)

    (n = 100)

    (n = 16)

    (n = 4)

    (n = 1)

    nR(, )

    .05

    .1

    .15

    .2

    .25

    I

    0 0

    Figura 2.4.

    Para la situacion (1), luce razonable a menos que n sea grande.En la situacion (2) 0 luce mejor desde un n pequeno. En ningunasituacion es razonable para n grande. Esto es consecuencia de quela previa que produce a es, a medida que n crece, cada vez menosrazonable. En cualquier caso la regla de Bayes obtenida a partir deuna densidad a priori razonable, tpicamente sera mejor que y 0.Notemos que en este ejemplo es la unica regla minimax ya que elestimador de Bayes (Teorema 2.5) es unico. Pero 0() no es la unicade Murphy. La regla de Bayes para cualquier sera:

    E( | x) = (x+) = 10

    1+x+(1 )nx+d() 10

    x+(1 )nx+d()Si expandemos (1 )nx+, obtenemos que (x+) depende de

    solo a traves de sus n + 1 momentos, por lo que la distribucion deMurphy no es unica.

    En el ejemplo 2.8 el estimador minimax resulto ser una regladeterminada no aleatoria. Como veremos mas adelante esto no es asen general, y fue consecuencia de que la perdida cuadratica es con-vexa en d. Generalmente puede restringirse la atencion a reglas de-terminadas cuando la perdida es convexa, ya que dada cualquier regla

  • 46 CAPTULO 2. TEORA CLASICA DE DECISION

    aleatoria puede conseguirse otra no aleatoria que es por lo menos tanbuena como esta. (Ver Lehmann (1983), Corolario 1.6.2). Este hechoes consecuencia de la desigualdad de Jensen. Bajo el ordenamientoBayesiano generalmente podemos restringirnos a reglas no aleatorias,sea la funcion de perdida convexa o no (Teorema 2.3).

    2.4 Representacion Geometrica de las Re-

    glas de Bayes y Minimax para finito.

    El primer paso para visualizar el problema de decision para finitoes notar que el conjunto de riesgo S es convexo. Consideremos ={1, 2, . . . , k} y

    S ={y Rk : para D, yj = R(j , ), j = 1, . . . , k

    }.

    Teorema 2.8 El conjunto de riesgo S es un conjunto convexo de Rk.

    Prueba. Sean y y y puntos arbitrarios de S, correspondientes a y respectivamente. Sea tal que 0 < < 1 y consideremosla regla que escoge a con probabilidad y

    con probabilidad(1 ). Entonces D y R(j , ) = R(j, ) + (1 )R(j , ), j = 1, . . . , k. Sea ahora z = (R(1, ), . . . , R(k, )) y se sigue que:

    z = y + (1 )y S. 2

    REGLAS DE BAYES: Para finito, cualquier distribucion a priories un conjunto de k numeros no negativos (j) = j , j = 1, . . . , k,cuya suma es 1. De acuerdo al ordenamiento Bayesiano todos los puntosy = (y1, . . . , yj) que tengan el mismo riesgo esperado

    jR(j , ) =

    jyj

    son equivalentes, bajo la distribucion . Entonces todos los puntos enel plano:

    jyj = b,

  • 2.4. REPRESENTACION GEOMETRICADE LAS REGLAS DEBAYES YMINIMAXPARA FINITO.47

    para cualquier b real, son equivalentes.Variando b, cada uno de estos planos es perpendicular al vector del

    origen al punto (1, . . . ,k), y como cada i es no negativa, la pen-diente de la lnea de interseccion de cada plano con los ejes no puedeser positiva. La interseccion del plano

    iyi = b con la diagonal

    y1 = . . . = yk debe ocurrir en el punto (b, b, b, . . . , b). Para encon-trar la regla de Bayes minimizamos el riesgo esperado consiguiendo elnfimo de los diferentes valores de b, lo llamamos b, para el cual el planoiyi = b intersecta a S. Si S no contiene sus puntos de frontera, en-

    tonces no existiran reglas de Bayes. Cuando S es un poliedro, cuyosvertices corresponden a decisiones no aleatorias, entonces el plano in-tersectara el poliedro al menos en uno de sus vertices. Si lo intersectaen solo uno de los vertices la regla de Bayes sera unica y no aleatoria.Si la interseccion contiene a mas de un vertice habra una infinidad dereglas de Bayes, muchas de las cuales corresponderan a reglas aleatoriaspero siempre habra al menos una regla de Bayes que correspondera auna regla no aleatoria, es decir, un vertice. Si i > 0, i = 1, . . . , k, lainterseccion ocurrira en la frontera inferior y por tanto la o las reglas deBayes, de existir, seran admisibles. Por otra parte, es razonable antic-ipar que podemos obtener todas las decisiones admisibles como reglasde Bayes para alguna distribucion a priori = (1, . . . ,k), ya quealternando los valores de j cambiaremos el angulo de interseccion delplano

    iyi = b con los ejes coordenados. De esta manera, al obtener

    las reglas de Bayes para todas las posibles, intersectaremos con todoslos puntos de la frontera inferior de S. Haremos esta afirmacion masprecisa en la proxima seccion.

    REGLAS MINIMAX: El riesgo maximo para una regla de decisionfija es supj R(j , ) = max yj Todos los puntos y S que produzcanel mismo valor de max yj , seran equivalentes minimax. Entonces todoslos puntos y en la frontera del conjunto:

    Qc = {y = (y1, . . . , yk) : yj c, j = 1, . . . , k},

    para cualquier numero real c, son minimax equivalentes. Para encon-trar reglas minimax encontramos el nfimo de los c. Lo denotamos c,llamado riesgo minimax, para el que Qc intersecta a S. Cualquier ,

  • 48 CAPTULO 2. TEORA CLASICA DE DECISION

    cuyo punto de riesgo este asociado a un elemento de Qc S, es mini-max. Es de prever entonces que incluso cuando reglas minimax existen,no necesariamente va a existir una minimax que sea no aleatoria, yaque Qc S no va a contener necesariamente uno de los vertices. Denuevo, no existiran reglas minimax cuando S no contiene sus puntos defrontera. Notamos que pueden haber muchas reglas minimax, y que lospuntos minimax no necesariamente caeran en la diagonal y1 = . . . = yk.(Se sugiere al lector hacer varios dibujos, en particular donde S sea unrectangulo o que S caiga enteramente por debajo de la diagonal). ElTeorema 2.7 tambien puede ser visualizado geometricamente. Veamosuna estrategia de la naturaleza como a la distribucion a priori , la cualrepresenta a la familia de planos perpendiculares a = (1, . . . ,k).Para encontrar reglas de Bayes el TD encuentra el plano de esta familiaque es tangente por debajo a S. El riesgo de Bayes mnimo es b donde(b, . . . , b) es la interseccion de la recta y1 = . . . = yk con el plano tan-gente por debajo de S y perpendicular a (1, . . . ,k). Entonces unadistribucion de Murphy sera la seleccion de valores j , j = 1, . . . , k,que haga esta interseccion tan lejos en la recta como sea posible. Comosiempre sucede que b c, si encontramos una 0 para la que b = centonces 0 debe ser de Murphy.

    Continuacion Ejemplo 2.1. En este ejemplo tenemos 1 = 0.6 y2 = 1 1 = 0.4. Los procedimientos Bayes equivalentes cumplencon:

    1y1 + (11)y2 = b donde b vara en R.O equivalentemente,

    y2 =b

    1 1 1

    11 y1. (2.26)

    Como habamos anticipado el coeficiente de y1 es negativo, y la rectaque pase por el origen y por (1, 11) = (0.6, 0.4) sera y2 = 111 y1 yse cumple que su pendiente multiplicada por la pendiente de (2.26) es(111

    ) ( 1

    11)= 1, por lo que estas rectas son perpendiculares. La

    recta interseccion de la diagonal con (2.26) debe ocurrir en (b, b, . . . , b).Si procedemos a disminuir b, movemos la recta (2.26) en forma paralela

  • 2.4. REPRESENTACION GEOMETRICADE LAS REGLAS DEBAYES YMINIMAXPARA FINITO.49

    hasta intersectar a S en d3, donde si hacemos b mas pequeno la inter-seccion de (2.26) con S se hace vaca. Para d3, R(1, d3) = 3910 yR(2, d3) = 340 por lo que:

    b = (0.6)(3910) + (0.4)(340) = 2210.La interpretacion geometrica del ordenamiento Bayesiano para 1 =0.6 se muestra en la figura 2.5, y en la figura 2.6 se muestra el orde-namiento minimax.

    Vemos all que la diagonal corta en un solo punto la frontera inferiorde S en la recta que une a d3 y d6, y en consecuencia la regla minimaxsera unica y aleatoria. Para hallarla buscamos una regla aleatorizadaque escoja a d3 con probabilidad y d6 con probabilidad (1 ).

    Denotemos a esta regla . Su punto asociado de riesgo estara enla diagonal y1 = y2 y por tanto R(,

    ) = R(2,

    ). Por ello es tal

    que:

    R(1, d3) + (1 )R(1, d6) = R(2, d3) + (1 )R(2, d6)Sustituyendo los valores de los riesgos encontramos que: = 500

    4750=

    0.105 y (1 ) = 0.895. Esto significa que para tomar una decisionel TD debe extraer un numero uniformemente distribuido en [0,1]. Siese numero es menor o igual a 0.105, entonces el TD decide hacer elexperimento, y si x = 0 tomo la accion a2 y si x = 1 tomo la accion a1.Pero, si el numero extrado es mayor a 0.105 entonces decido no hacerel experimento y tomar la accion a2, es decir vender el campo.

    El riesgo de esta decision minimax sera:

    (0.105)(3910)+(0.895)(0) = (0.105)(340)+(0.895)(500) = 411.8 = c.Como se haba anticipado c es mayor o igual al riesgo esperado de

    Bayes b para 1 = 0.6.Es una regla de Bayes para alguna

    ?. Geometricamente seve que la respuesta es afirmativa. Basta hallar aquella para la cualla recta de puntos Bayes equivalentes sea paralela a la recta que unea d3 y d6. Para

    , todos los puntos de riesgo que unen a los quecorresponden a d3 y d6, ellos incluidos, corresponden a decisiones queson de Bayes. Encontremos de tal manera que b = c, o sea que

    sera de Murphy.

  • 50 CAPTULO 2. TEORA CLASICA DE DECISION

    -1000-2000-3000-4000-5000 1000

    1000

    2000

    -1000

    R(1, d)

    R(2, d)

    d1

    d2

    d3

    d4

    d5

    d6

    ..

    y1 = y2

    (1, 11)

    Puntosequivalentes

    b

    b

    b

    b

    .......................

    .................

    .............

    ..................

    Figura 2.5. Interpretacion geometrica de Bayes

    1R(1, d3)+(11)R(2, d3) = 1R(1, d6)+(11)R(2, d6) = b = c

    Sustituyendo los valores de R(i, d) y c, obtenemos la distribucionde Murphy 1 = 0.1768 y

    2 = 11 = 0.8232. Si el TD hubiese adop-

    tado un punto de vista Bayesiano, y por casualidad hubiese evaluadoa priori que la probabilidad de que hubiese petroleo era de 0.1768, surecomendacion final hubiese sido simplemente escoger entre d3 y d6 esequivalente con la informacion disponible y la utilidad asignada. Peroclaramente la decision minimax en este ejemplo no es razonable.

  • 2.5. ADMISIBILIDAD Y REGLAS DE BAYES 51

    -1000-2000-3000-4000-5000 1000

    1000

    2000

    -1000

    R(1, d)

    R(2, d)

    d1

    d2

    d3

    d4

    d5

    d6

    ................

    ......

    Murphy

    cc

    -2000

    y1 = y2

    Figura 2.6. Representacion geometrica de Minimax3

    2.5 Admisibilidad y Reglas de Bayes

    La conclusion general que vamos a obtener en esta seccion es doble: Poruna parte las reglas de Bayes son admisibles bajo condiciones bastantegenerales, por la otra, las reglas admisibles seran de Bayes para algunadistribucion a priori o seran lmites de reglas de Bayes.

    Teorema 2.9 Si para la distribucion a priori la regla de Bayespromedio es unica, o si existe mas de una, y todas ellas tienen lamisma funcion de riesgo R(, ), entonces es admisible.

    Prueba. Supongamos que existe otra tal que R(, ) R(, ), . Entonces tomando valores esperados respecto de :

    r(, ) = E [R(, )] E [R(, )] = r(, ).

  • 52 CAPTULO 2. TEORA CLASICA DE DECISION

    Ahora como es Bayes promedio, tambien debe serlo y para que

    esto no contradiga las hipotesis debe cumplirse que R(, ) = R(, ), , en cuyo caso ambas y son admisibles.2

    Del Teorema 2.3 sabemos que podemos restringirnos a las reglas noaleatorias. Por tanto el Teorema 2.9 se aplica esencialmente a reglasno aleatorias. Entonces si para la regla de Bayes no aleatoria d esunica, o todas las reglas de Bayes no aleatorias tienen la misma funcionde riesgo, d es admisible.

    Seguidamente se dan condiciones para que la regla de Bayes seaunica en problemas de estimacion puntual.

    Teorema 2.10 Si la funcion de perdida L(, d) es cuadratica, o masgeneralmente, es estrictamente convexa en d, la regla de Bayes esunica, excepto en conjuntos N tal que PX|(N) = 0, , siempreque:

    1. r(, )

  • 2.5. ADMISIBILIDAD Y REGLAS DE BAYES 53

    REGLA DE CROMWELL: Al asignar una densidad a priori sobre, es conveniente que () > 0, . Una tal densidad a priori sela denomina de Cromwell.

    Si (0) = 0, entonces por el Teorema de Bayes (1.2), (0 | x) = 0,incluso si la verosimilitud p(x | 0) es muy grande. Es muy peligroso ydogmatico asignar previas que no sean de Cromwell, ya que no importacuan informativo sea el experimento, nunca podra alertar sobre nues-tra posible informacion erronea a priori. Un enunciado menos estrictode las reglas de Cronwell establecera que si es el espacio donde semueven los parametros, el soporte de la distribucion a priori debeser igual a .

    La condicion (2) del Teorema 2.10 se satisface cuando el espacio deparametros es un conjunto abierto, que es el soporte de (Cromwell),y si la probabilidad PX|(A) es continua en para todo A. En efecto,PX(N) = 0 implica que PX|(N) = 0 c.s.. Ahora si existe 0 talque PX|0(N) > 0 entonces existe una vecindad V de 0 en la cualsi V, PX|(N) > 0. Como es de Cromwell, P(V ) > 0 lo quecontradice la suposicion de que PX|(N) = 0 c.s.. Otra consecuenciaagradable de previas de Cromwell es el siguiente Teorema.

    Teorema 2.11 Supongamos que el espacio de parametros es discreto, = {1, 2, . . .} y que existe una regla de Bayes para = {1,2, . . .},tal que r(, ) sea finito. Si es de Cromwell, o sea j > 0, j =1, 2, . . . , entonces es admisible.

    Prueba. Si no es admisible entonces existe tal que

    R(j , ) R(j , ) j ,

    y existe algun i tal queR(i,

    ) < R(i, ).

    Como j > 0 jr(, ) =

    j

    jR(j , ) 0.Como R(, ) es continua en , D, tambien lo sera f(). Para

    2,

    existe > 0 tal que si | 0 |< , | f() f(0) |< 2 y entoncesf() > f(0) 2 = 2 .

    Sea I = (0 , 0 + ). Tomando valor esperado en , sigue que:

    r(, ) r(, ) = E [R(, )R(, )] > 2P(I),

    pero como 0 esta en el soporte de (Cromwell) se tiene que P(I) > 0,lo que contradice el hecho de que es de Bayes.2

    Cuando R(, ) sera continua?. Si L(, a) es acotada, entoncessupa | L(, a) L(0, a) | 0 cuando 0 para cada 0 ,y si p(x | ) es suficientemente regular, entonces R(, ) es continua(Ferguson, 1967, Teorema 3.7.1). Una familia amplia de verosimili-tudes, para las que R(, ) es continua, incluso si L(, a) no es acotada(como en error cuadratico), es la Familia Exponencial de verosimili-tudes (Ferguson, 1967, Teorema 3.7.2). Ejemplos de verosimilitudesque pertenecen a esta familia son: Binomial, Multinomial, Poisson,Beta, Normal, Gamma y otras. Por su importancia se estudiara estafamilia con mas detalle en los proximos captulos.

    El proximo problema que enfocaremos es la existencia de reglas deBayes para un problema de decision. Comenzaremos por suponer queel conjunto de riesgo satisface las condiciones del Teorema 2.1. O sea:

  • 2.5. ADMISIBILIDAD Y REGLAS DE BAYES 55

    1. (S) S, esto dice que S es cerrado por debajo.

    2. Existe M tal que si (y1, . . . , yk) S entonces yj > M, j =1, . . . , k, es decir S es acotado por debajo.

    Teorema 2.13 Supongamos que = {1, . . . , k} y que el conjuntode riesgo S es cerrado y acotado por debajo. Si es de Cromwell,j > 0, j = 1, . . . , k, entonces existe una regla de Bayes respecto de.

    Prueba. Sea B ={b : b =

    kj=1jyj para algun y S

    }. El con-

    junto B es acotado ya que S lo es. Sea b0 = inf B. Para cualquiersucesion y(n) S tal que jy(n)j converja a b0, el hecho de que sea de Cromwell implica que cada sucesion y(n) esta acotada por ar-riba. Entonces existe un lmite finito y0 de la sucesion y(n) y ademasjy

    0j = b0. Veamos que y

    0 (S).Denotemos por cl(S) a la clausura de S y

    Qy ={x Rk : xj yj, j

    },

    o sea el conjunto de puntos que son al menos tan buenos como y. Comoy0 es un lmite de puntos en S,y0 cl(S) y {y0} cl(S) Qy0 . Masaun Qy0 cl(S) {y0}. En efecto, sea y Qy0 {y0} = Qy0(Definicion 2.6) entonces:

    jy

    j < b0 y si y

    j cl(S) existiran puntos

    y S tal que jyj < b0 lo que contradice el hecho que b0 sea unacota inferior de B. Entonces Qy0 cl(S) = {y0}, lo que implica quey0 (S).

    Ahora bien, como S es cerrado por debajo, y0 S, lo que implicaque el mnimo valor de r(, ) =

    jR(j , ) se obtiene en un punto de

    S. Finalmente cualquier D, para la que R(j , ) = y0j , j = 1, . . . , k,es una regla de Bayes para . 2

    En el resto de esta seccion el Teorema del Hiperplano Separante,que es equivalente al Teorema de Hahn-Banach para espacios linealesbastante generales, es crucial. Este Teorema establece que cualquierpar de conjuntos convexos pueden ser separados por un plano.

  • 56 CAPTULO 2. TEORA CLASICA DE DECISION

    Teorema 2.14 (Hiperplano Separante.) Sean S1 y S2 conjuntosconvexos y disjuntos de Rk. Entonces existe un vector p 6= 0 tal que:

    pty ptx x S1, y S2.Prueba. Ver Ferguson 1967, p.70-74. 2

    Sz

    Qz

    Hiperplano{w : tw = c}

    Figura 2.7. Hiperplano separante

    Teorema 2.15 (Desigualdad de Jensen.) Sea f una funcion con-vexa en R definida en un conjunto convexo no vaco S de Rk. Sea Xunvector aleatorio k dimensional con esperanza E[X] finita para el queP (X S) = 1. Entonces E(X) S y f (E[X]) E[f(x)].Prueba. Ver Ferguson 1967, p.76-77. 2

    Ya se haba anticipado, como una consecuencia de la desigualdadde Jensen, que para una funcion de perdida convexa tal que toda de-cision aleatorizada tiene perdida esperada finita podemos restringirnosa decisiones no aleatorias. La idea basica es la siguiente. Si X es unav.a que toma valores en el conjunto de acciones posibles A de acuerdoa la distribucion P , entonces:

    L(, P ) = E[L(,x)] L(, E[X]) y E[X] A.

  • 2.5. ADMISIBILIDAD Y REGLAS DE BAYES 57

    La pregunta que nos interesa ahora es si toda regla admisible es deBayes para alguna . La respuesta es afirmativa para finito.

    Teorema 2.16 Supongamos que es finito. Si la regla D esadmisible, entonces es una regla de Bayes para alguna distribucion.

    Prueba. Sea admisible cuyo punto de riesgo asociado es z. En-tonces QzS = , o sea no hay puntos mejores a z. Tenemos por tantodos conjuntos convexos y disjuntos, Qz y S. La situacion se describeen la figura 2.7.

    Por el teorema del hiperplano separante, existe un vector 6= 0tal que ty tx, y Qz y x S. Sea c = tz. Entonces elhiperplano {w : tw = c} separa a Qz de S. Esto es porque si x Sy y Qz , tenemos ty c = tz ya que z S.

    Ademas, tx sup{ty : y Qz} = tz. Entonces

    ty c = tz tx y Qz y x S,

    y decimos que el hiperplano es tangente a S, en el punto z. Veamosque j 0 para cada j. Consideremos cualquier y con yj < zj , j.Como y Qz entonces ty tz, por lo tanto j(zj yj) 0,o sea j 0. Como 6= 0 y cada una de sus componentes es nonegativa,

    j > 0. Podemos entonces normalizar a para hacerla

    una distribucion haciendo j =jj. (Notar que todas las propiedades

    de descritas arriba son heredadas por ).Luego (j) =

    j define una distribucion de probabilidad para la

    cual el punto x tiene riesgo Bayesiano ()tx. Pero, ()tz ()txpara todo x S, o sea z es un punto en S con riesgo de Bayes mnimo.Como z es el punto de riesgo de , esta regla es de Bayes para ladistribucion . 2

    Corolario 2.3 En las condiciones del Teorema 2.16, todas las reglasde decision cuyos puntos de riesgo estan en (S) son reglas de Bayes.

    Sera cierto que en general toda regla admisible es de Bayes?. Lamala noticia es que no es cierto, la buena es que es casi cierto.

  • 58 CAPTULO 2. TEORA CLASICA DE DECISION

    Ejemplo 2.9. Supongamos que la variable aleatoria X N(, 1),o sea = R. Se desea estimar con error cuadratico. Entoncesel estimador (x) =

    xin

    = x, para una muestra de tamano n, esadmisible (Lehmann 1983, p. 265-267, Berger 1985, p. 545-548). Perox no es de Bayes, como vimos en la aplicacion (1) del Teorema 2.6.Esta es la razon por la cual probar admisibilidad de x no es facil. Sinembargo vimos en el ejemplo 2.6, (2.10), que el estimador de Bayespara una densidad previa normal puede escribirse como:

    n(x | 2, ) =1n

    2 + 1n

    +2

    2 + 1n

    x.

    Entonces x puede aproximarse por n(x | 2, ) de dos maneras:1. Si n , n(x | 2, ) x. Decimos que x es lmite de

    Bayes.

    2. Si 2 para cualquier n fijo, n(x | 2, ) x. Decimosque x es la esperanza a posteriori, partiendo de una densidad apriori impropia () = 1,

    ()d = , y por tanto no es

    propiamente de Bayes.3

    Es cierto, con gran generalidad, que toda decision admisible es deBayes o lmite de Bayes (en varios sentidos), Wald(1950), Brown(1986)p. 254-268. Es en cierta manera paradojico (y afortunado) que aundesde el punto de vista clasico-frecuentista que propone la admisibilidadcomo desideratum, concluyamos que se debe actuar como Bayesiano(o lmite de Bayesiano).

    2.6 Admisibilidad y Reglas Minimax

    Comenzamos por presentar una ilustracion de Teora de Juegos dondeel criterio minimax tiene su ambito natural.

    Ejemplo 2.10 (Pares o Nones, Ferguson 1967). Dos jugadoresmuestran 1 o 2 dedos simultaneamente. El jugador 1 (Naturaleza)recibe en $, del jugador 2, el numero de dedos sobre la mesa, siempreque el total de dedos mostrado sea impar. El jugador 2 (TD) recibe,

  • 2.6. ADMISIBILIDAD Y REGLAS MINIMAX 59

    del jugador 1, en $, el numero de dedos sobre la mesa siempre que eltotal sea par. Si la perdida es monetaria, para el Jugador 2, esta vienedada por:

    L(, a) :\A 1 21 -2 32 3 -4

    Este es un juego de suma cero ya que lo que recibe un jugador lopierde el otro. Cual de los dos jugadores ud. preferira ser?.

    Llamemos p a una estrategia aleatoria seguida por el jugador 2(una decision determinada sera tonta en este contexto) que escoge 1con probabilidad p y 2 con probabilidad (1-p). El conjunto de riesgode p viene dado por:

    S = {(L(1, p), L(2, p)) : 0 p 1} ,entonces

    S = {(2p+ 3(1 p), 3p 4(1 p)) : 0 p 1}= {(3 5p,4 + 7p) : 0 p 1}.

    El conjunto de riesgo S es una recta que une (3,-4) con (-2,3), yse muestra en la figura 2.8. La estrategia minimax vendra dada por lainterseccion de S con la diagonal y1 = y2 : 3 5p = 4 + 7p, o seap = 7

    12el cual corresponde a un riesgo minimax: 3 5 7

    12= 1

    12. En este

    ejemplo la regla minimax es tambien de Bayes respecto a la distribucion(1, 1 1) que es perpendicular a S, (seccion 2.3). La pendiente dela recta que pasa por el origen y (1, 11) es 111 , que multiplicadapor la pendiente de S debe ser igual a -1, de donde 1 =

    712.

    De hecho cualquier p (y no solo p) es de Bayes respecto de . Esto

    es consecuencia de que S es una recta, que queda completamente inter-sectada por la recta que definen los procedimientos Bayes-equivalentesal tocar la frontera inferior de S. El riesgo Bayesiano de 1 paracualquier p es: 1(3 5p) + (1 1)(4 + 7p) = 112 , entonces 1es de Murphy, por ser igual al riesgo minimax. El jugador 1 (siendo in-teligente) escoge 1 con probabilidad

    712. Esta regla mantiene la perdida

  • 60 CAPTULO 2. TEORA CLASICA DE DECISION

    esperada de en al menos 112. Llamaremos a este valor, el valor inferior

    del juego V .

    y1 = y2

    1

    2

    S

    )

    (1/12, 1/12)

    Figura 2.8 Juego de pares o nones

    Por su parte el jugador 2 (siendo inteligente y estoico) tiene unaestrategia p con p =

    712, que restringe su perdida esperada en a lo

    sumo 112. Llamaremos a este valor, el valor superior del juego V . En

    este ejemplo, V = V = V , llegando as a un punto de equilibrio y sedice que el juego tiene un valor V . Un arbitro imparcial dictaminaracomo justo que 2 le pagase a 1, 1

    12. Ud. escogera ser el jugador 1?3

    A continuacion se introduciran formalmente algunas definiciones an-ticipadas en el ejemplo 2.9.

    Definicion 2.13 Denotemos por al conjunto de todas las distribu-ciones de probabilidad sobre .

    Usando el ejercicio 2.14, podemos refrasear la definicion de una reglaminimax S como

    infD

    sup

    r(, ) = sup

    r(, ).

  • 2.6. ADMISIBILIDAD Y REGLAS MINIMAX 61

    Definicion 2.14 El riesgo o valor minimax o valor superior del juegoV se define por:

    V = infD

    sup

    R(, ) = infD

    sup

    r(, ).

    El valor V es obtenido por una regla minimax.

    Definicion 2.15 El riesgo o valor maximin o valor inferior de juegoV se define por:

    V = sup

    infD

    r(, ).

    Note que si es de Bayes respecto de entonces:

    V = sup

    r(, ),

    y concluimos que V es obtenido por una distribucion de Murphy (Definicion2.12).

    Teorema 2.17 V V .

    Prueba. Para cualquier y D se cumple quer(, ) sup

    r(, ),

    y esto implica

    infD

    r(, ) infD

    sup

    r(, ) = V ,

    y como esto se cumple para cualquier , tambien tomando elsupremo en en la parte izquierda, y por tanto: V V .2

    En Teora de Juegos es fundamental saber cuando V = V = V , osea cuando V V , ya que en ese caso un punto de equilibrio en eljuego existe. En Teora de Decision sin embargo, como la naturalezano esta conspirando continuamente en arruinarnos, no es tan crucial.Sin embargo es util saber cuando las reglas minimax son tambien deBayes.

  • 62 CAPTULO 2. TEORA CLASICA DE DECISION

    Teorema 2.18 (Teorema Minimax). Suponemos que es finito, = {1, . . . , k}, y que S es acotado por debajo. Entonces V = V = Vy existe una distribucion de Murphy 0. Mas aun, si S es cerrado pordebajo, entonces existe una regla minimax admisible la cual es deBayes respecto de 0.

    Prueba. Queremos verificar que V V . Denotemos por 1 alvector (, . . . , )t. Sea V = sup{ : Q1 S = }. La situacion essimilar a la figura 2.8, donde 1 = z. Veamos que V V . Se cumpleque para cada n, existe una regla n tal que:

    R(i, n) V + 1n

    i = 1, . . . , k. (2.27)

    Por lo tan