Teoria de Decision e Inferencia Bayesiana

“Analisis de Decision, Inferencia yPrediccion Estadıstica Bayesiana”

Por

Luis Raul Pericchi Guerra

Complementos:

Ana Judith Mata

2

Analisis de Decision, Inferencia yy Prediccion Estadıstica Bayesiana

Luis Raul Pericchi Guerra

Centro de Estadıstica y Software Matematico (CESMa)y Dpto. de Computo Cientıfico y Estadıstica

Universidad Simon BolıvarCaracas, Venezuela

Complementos:

Ana Judith MataUniversidad Simon Bolıvar

AGRADECIMIENTOS

Este libro tiene como antecedente sucesivas monografıas, las cualesfueron textos de cursos que dicte en los siguientes eventos cientıficos:

• II Escuela Venezolana de Matematicas, en la Universidad de LosAndes, Merida, Septiembre 1989.

• IV Congreso Latinoamericano de Probabilidad y Estadıstica Ma-tematica, CLAPEM, en Ciudad de Mexico, Mexico, Septiembre1990.

• Curso-Seminario de las Americas en Estadıstica Bayesiana y E-conometrıa, en la Universidad Simon Bolıvar, Caracas, Venezuela,Diciembre 1992.

Agradezco a los respectivos Comites organizadores de dichos congre-sos sus invitaciones. Mencion especial merece Francisco Aranda-Ordaz,miembro fundamental del Comite organizador del IV CLAPEM, conquien compartı trabajo y juerga. Francisco murio, demasiado prontoy por error, tragica y absurdamente, pero en medio de su familia ysu paıs, pocos meses depues de finalizar el IV CLAPEM en Ciudadde Mexico. Ello ha sido una perdida irreparable para el avance de laCiencia y la practica de la Estadıstica en Latinoamerica, y para susamigos.

La presente version es una drastica revision de las monografıas an-teriores. Le debo al Profesor Victor Perez-Abreu, Presidente de laSociedad Bernoulli Latinoamericana, y al Profesor Victor Yohai, Pres-idente del Comite de Publicaciones de dicha Sociedad, el estımulo pararealizar esta revision.

Durante los anos en los que este proyecto en los que este proyecto seha ido realizado mi grupo de trabajo, en la Universidad Simon Bolıvar,ha crecido y se ha desarrollado. Comenzo por el Taller de Estadıstica,TAE como grupo de trabajo dentro del Departamento de MatematicasPuras y Aplicadas. Se ha convertido en el Centro de Estadıstica y

4

Software Matematico, CESMa, con miembros de tres departamentosde la USB, principalmente del Departamento de Computo Cientıfico yEstadıstica, creado en 1996. A mis companeros del CESMa les debosu paciencia, apoyo y cordialidad. Especialmente deseo mencionar alos profesores: Marialena Lentini, Isabel Llatas, Bruno Sanso, MarıaEglee Perez, Lelys Bravo, Jose Miguel Perez, Raquel Prado, Jose LuisPalacios y Raul Jimenez.

No puedo dejar de mencionar varios cienctıficos de categorıa in-ternacional como Ignacio Rodriguez-Iturbe, Anthony Atkinson, Car-los Alberto de Braganza Pereira, Adrian Smith, Phil Browm, WilliamNazaret, Peter Walley, Elıas Moreno y Jim Berger, que a lo largo deestos anos me han ofrecido su colaboracion, sabidurıa y amistad.

Finalmente, le hago un reconocimiento muy especial a la LicenciadaAna Judith Mata. Mas que una ayudante ha sido una colaboradora yeste libro le debe mucho de lo bueno que pueda tener (el resto es obramıa). Si no hubiera sido por su incansable insistencia y persecucion,ademas de sus destrezas estadısticas y computacionales, este libro nohabrıa sido terminado.

PREFACIO

Este libro presenta las ideas basicas y algunos desarrollos recientesde la Teorıa y Analisis de Decision y de la Inferencia Bayesiana. Ambasteorıas estan profundamente relacionadas, como se vera a lo largo deldesarrollo.

El libro comienza presentando el enfoque clasico a la Teorıa de De-cision, de inspiracion frecuentista, basada en la funcion de riesgo mues-tral. La funcion de riesgo por sı sola no es capaz de seleccionar ladecision optima aunque sı de desechar una buena parte de ellas, lasdecisiones llamadas ”inadmisibles”.

Se presentan tres enfoques alternativos para ser acoplados a lafuncion de riesgo y de esta manera encontrar un curso de accion. Estosenfoques son: i)La restriccion del espacio de decisiones, ii)Minimax yiii)Bayes. Le damos mas enfasis a los ultimos, los llamados criteriosglobales. Se concluye luego de compararlos, que es el enfoque Bayesianoel mas satisfactorio y racional, aun cuando requiere de una buena dosisde actitud crıtica y de analisis de sensitividad respecto a los supuestos.

En el curso de la presentacion, se presenta tambien un argumentoBayesiano mas directo: el enfoque condicional al dato observado basadoen la minimizacion de la perdida posterior esperada. Este enfoque noutiliza la funcion de riesgo frecuentista. Al final las decisiones optimasBayesianas van a ser las mismas sin importar que vıa se siga, pero estaultima resulta en una simplificacion substancial.

La discusion general se lleva los dos primeros capıtulos, siendo elsegundo el mas complejo matematicamente. El resto del libro se dedicaenteramente al enfoque Bayesiano. En el capıtulo 3 se presenta otramanera de llegar al principio Bayesiano: La Teorıa de la Utilidad, que esuna axiomatizacion de la decision estadıstica. Tambien en este capıtulose muestra que Bayes obedece a los principios basicos: Principio de laverosimilitud y el de la precision final.

Los problemas de inferencia estadıstica pueden ser presentados comoproblemas de decision. Esto se hace en los ultimos capıtulos, donde

6

se intenta una introduccion a la inferencia Bayesiana actual, tratandotemas como: modelos jerarquicos, modelos lineales dinamicos, metodosde simulacion para el caculo de densidades posteriores y aproxima-ciones, metodos Bayesianos robustos y metodos no subjetivos para laseleccion de modelos y test de hipotesis.

Este libro puede ser util a diferentes niveles, tanto como un cursoavanzado de pregrado como de postgrado. La formacion requerida esla de caculo basico e intermedio, ası como al menos un curso basicode probabilidades y estadıstica. Por ello puede ser presentado a es-tudiantes de matematicas, estadıstica, ciencias actuariales, ingenierıa,economıa y areas afines. Tambien puede ser estudiado con diferentesenfasis. Un curso mas centrado en la Teorıa de la Decision se concen-trara en el capıtulo 2. Mientras un curso interesado en la inferenciaBayesiana, enfatizara los ultimos capıtulos.

Espero que esta presentacion de la Teorıa de Decision y en particu-lar de la inferencia Bayesiana, que es, desde mi punto de vista, uno delos enfoques de desarrollos tanto teoricos como aplicados, mas espec-taculares en tiempos recientes, sea de utilidad para las Ediciones de laSociedad Bernoulli Latioamericana.

Luis Raul Pericchi GuerraCentro de Estadıstica y Software Matematico (CESMa)Universidad Simon BolıvarCaracas, Enero 1998.

Contenido

1 Elementos del Problema de Decision Estadıstica 91.1 Elementos de un Problema de decision Estadıstica . . . . 91.2 El Problema de Decision como un Juego entre el TD y

la Naturaleza . . . . . . . . . . . . . . . . . . . . . . . . 12

2 Teorıa Clasica de Decision 172.1 Introduccion. . . . . . . . . . . . . . . . . . . . . . . . . 182.2 Conceptos Basicos de la Teorıa de Decision Clasica . . . 182.3 Decisiones Optimas . . . . . . . . . . . . . . . . . . . . . 272.4 Representacion Geometrica de las Reglas de Bayes y

Minimax para Θ finito. . . . . . . . . . . . . . . . . . . . 462.5 Admisibilidad y Reglas de Bayes . . . . . . . . . . . . . . 512.6 Admisibilidad y Reglas Minimax∗ . . . . . . . . . . . . . 582.7 Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . 66

3 Fundamentos de la Teorıa Bayesiana de Decision 713.1 Breve introduccion a la Teorıa de Utilidad . . . . . . . . 72

3.1.1 Metodos de construccion de la funcion de utilidadU . . . . . . . . . . . . . . . . . . . . . . . . . . . 74

3.2 El Principio de la Verosimilitud . . . . . . . . . . . . . . 823.3 Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . 86

4 Analisis Bayesiano 894.1 Test de Hipotesis . . . . . . . . . . . . . . . . . . . . . . 894.2 Operaciones con la Distribucion a Posteriori y sus propiedades 98

4.2.1 Intervalos de Credibilidad (Probabilidad) . . . . . 984.2.2 Densidades Marginales y Parametros de Molestia 99

7

8 CONTENIDO

4.2.3 Inferencia Predictiva . . . . . . . . . . . . . . . . 1014.2.4 Normalidad Asintotica de la Densidad Posterior . 104

4.3 Aplicaciones al Diseno Experimental y al Analisis Se-cuencial . . . . . . . . . . . . . . . . . . . . . . . . . . . 1064.3.1 Tamano de la Muestra Optimo . . . . . . . . . . 1064.3.2 Analisis Secuencial . . . . . . . . . . . . . . . . . 108

4.4 La Familia Exponencial. Extension del Principio Bayesiano1094.4.1 Densidad a priori No-Conjugada. Influencia aco-

tada y no acotada . . . . . . . . . . . . . . . . . . 1154.5 Calculos y Aproximaciones Bayesianas . . . . . . . . . . 115

4.5.1 Aproximaciones de Laplace . . . . . . . . . . . . 1164.5.2 Integracion de Monte Carlo . . . . . . . . . . . . 1174.5.3 Simulacion de la densidad posterior . . . . . . . . 1184.5.4 Metodos Monte Carlo de Cadenas de Markov (MCMC)118

4.6 Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . 120

5 Analisis Bayesiano del Modelo Lineal 1235.1 Previas “No-Informativas” . . . . . . . . . . . . . . . . . 1245.2 Analisis “No-Informativo” del Modelo Lineal . . . . . . . 1265.3 Modelo Lineal Jerarquico . . . . . . . . . . . . . . . . . . 128

5.3.1 Modelo Lineal Normal Jerarquico (MLNJ) . . . . 1305.4 El Modelo Lineal Dinamico . . . . . . . . . . . . . . . . 138

5.4.1 El Modelo constante . . . . . . . . . . . . . . . . 1405.4.2 Caso Varianza desconocida . . . . . . . . . . . . . 144

5.5 Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . 145

6 Seleccion de Modelos y Test de Hipotesis Bayesianos 1476.1 Introduccion . . . . . . . . . . . . . . . . . . . . . . . . . 1476.2 El Factor de Bayes Intrınseco . . . . . . . . . . . . . . . 1526.3 El IBF Esperado . . . . . . . . . . . . . . . . . . . . . . 1576.4 Previas Intrınsecas . . . . . . . . . . . . . . . . . . . . . 1596.5 El IBF para el Modelo Lineal Normal . . . . . . . . . . 163

A Distribuciones de probabilidades 169

Capıtulo 1

Elementos del Problema deDecision Estadıstica

Enfrentaremos el siguiente problema : suponemos que un “Tomador dedecisiones” (TD) se propone tomar una decision racional bajo condi-ciones de incertidumbre estadıstica. Es decir, el “estado de la natu-raleza” no le es conocido exactamente, pero puede adquirir informacionsobre el a partir de un experimento. Ademas, el TD tiene valores, o seasi supiera la condicion exacta de la naturaleza serıa capaz de ordenarsus posibles decisiones en terminos de sus preferencias.

1.1 Elementos de un Problema de decision

Estadıstica

Los elementos de un problema de Decision Estadıstica a ser especifica-dos por el TD para cada problema son los siguientes :

1. Espacio de posibles acciones : A = {a}

2. Espacio de estados posibles de la naturaleza o espacio deparametros: Θ = {θ}.

3. Familia de experimentos para adquirir informacion ex-perimental (o muestral) sobre Θ : E = {e}.

9

10 CAP´ıTULO 1. ELEMENTOS DEL PROBLEMA DE DECISION ESTAD´ıSTICA

4. Espacio muestral, o sea, el espacio de posibles observacionesexperimentales : X = {x}.

Ejemplo 1.1 (Control de Calidad). Le envıan del exterior a unacompanıa un lote de 10000 transistores. La companıa designa a unTD el cual tiene el espacio de acciones : A = {a1, a2}, donde a1

es aceptarlo y pagar el precio fijado, y a2 rechazarlo y pagar el fletede vuelta, Θ = {θ0, θ1, . . . , θ10000} donde el estado de la naturalezaθj = {j transistores defectuosos}. El TD puede inspeccionar un numeron a su antojo de transistores, y al hacerlo el proceso de inspeccion losdestruye. Entonces el espacio de experimentos es : E = {e0, . . . , e10000}donde en = {n transistores son inspeccionados}. El espacio muestralpara el experimento en viene dado por : X = {(j, n) : 0 ≤ j ≤ n ≤10000}, donde (j, n) es la observacion: j transistores de los n inspec-cionados son defectuosos.3

5. Funcion de utilidad (perdida) : El TD escoge una funcion :

u(e, x, a, θ) : E × X ×A× Θ → R.

El TD le asigna una utilidad u(e, x, a, θ) a realizar el experi-mento e , observar el resultado x, tomar la accion a y final-mente encontrar el valor θ. Esta avaluacion u, toma en cuentael costo de experimentacion ası como las consecuencias de laaccion a para cada estado de la naturaleza θ. Equivalentemente,el TD puede evaluar sus perdidas en la forma de una funcion:L(e, x, a, θ) = −u(e, x, a, θ). El TD es racional si procura lamaxima utilidad o equivalentemente la menor perdida.

6. Asignacion de probabilidades: Antes de observar el resultadodel experimento X = x, tanto X como θ son variables aleatorias(v.a) (θ que es inobservable hasta el final del problema de decision,continuara siendo v.a). Una vez decidido el experimento e, lasv.a’s X y θ estan gobernadas por la densidad de probabilidadconjunta:

1.1. ELEMENTOS DE UN PROBLEMA DE DECISION ESTAD´ıSTICA 11

pθ,X(θ, x | e) : Θ × X → R+.

Antes de discutir maneras alternativas de evaluar la densidad con-junta, recordemos el Teorema de Bayes. Supongamos : Θ ⊆ R

d unconjuto de Borel, Π es una medida de probabilidad (llamada “a priori”o previa) en R

d, con Π(Θ) = 1, el vector de observaciones x ∈ Rn tiene

una densidad pX|θ(x | θ) con respecto a una medida µ σ-finita la cualno depende de θ, PX|θ es conjuntamente medible en (X, θ). Entoncespara cada conjunto B, θ-medible, la siguiente formula (de Bayes) de-fine una medida regular de probabilidad condicional para θ dado X, ypuede justificarse bajo condiciones bastante generales (ver por ejemploWalley 1989) :

P (B | x) =

∫B p(x | θ)dΠ(θ)∫Θ p(x | θ)dΠ(θ)

=

∫B p(x | θ)dΠ(θ)

m(x), (1.1)

donde hemos omitido por conveninecia la mencion al experimento e.

Si B = θ, entonces en terminos de la densidad tenemos :

pθ|X(θ | x) =pX|θ(x | θ)π(θ)

m(x). (1.2)

Las densidades de probabilidad que aparecen en (1.2) tienen unaimportancia capital en Estadıstica y Teorıa de Decision:

• pX|θ : es la “verosimilitud” de la observacion condicionada alparametro.

• π(θ) : es la densidad “a priori” que nos da la plausibilidad de cadavalor del vector de parametros θ antes de observar el experimento.Se interpreta a π(θ) como el conocimiento que tiene el TD sobreθ antes de la observacion.

• m(x) es la densidad “predictiva” de las observaciones, provenientede promediar la verosimilitud a traves de la medida a priori.


• pθ|X(θ | x) es la densidad “a posteriori” o “posterior” , que nosindica el aprendizaje que se ha obtenido a partir de los datos X,pasando de un conocimiento “a priori” a uno “a posteriori”. Dela simetrıa entre X y θ podemos entonces escribir: (omitiendo lossubındices):

p(x, θ) = p(θ | x)m(x) = p(x | θ)π(θ). (1.3)

Entonces tenemos tres estrategias para asignar la densidad conjunta:

1. Directamente,

2. p(θ | x)m(x),

3. p(x | θ)π(θ), siendo esta ultima la mas usual.

1.2 El Problema de Decision como un Juego

entre el TD y la Naturaleza

El juego se realiza en cuatro pasos : TD escoge e, N escoge x, TDescoge a, N escoge θ, y finalmente TD recibe u(e, x, a, θ).

El juego sigue el siguiente diagrama donde los nodos cuadrados sonde decision (TD) y los nodos circulares (N) son aleatorios.

3-s 3� -R 7*� -R �-Re1

e2

e3

e ∈ E

x1

x2

x3

x4

x ∈ X

a1 a2

a3

a4

a5

a ∈ A

θ1

θ2

θ3θ ∈ Θ

u(e2, x3, a4, θ2)

Figura 1.1. Arbol de Decision

Ejemplo 1.2. Una operadora de Petroleos de Venezuela debe tomaruna decision con respecto a un area donde aun no se ha perforado pero

1.2. EL PROBLEMA DE DECISION COMO UN JUEGO ENTRE EL TD Y LA NATURALEZA13

que tiene una alta probabilidad de tener petroleo. Los estados de lanaturaleza son (simplificadamente):

Θ =

{θ1: Hay petroleo.θ2: No hay petroleo

Las acciones posibles de la operadora son:

A =

{a1: Perforara2: Vender el campo a otra operadora

La operadora tiene la posibilidad de realizar una medicion geologicapara verificar si cierta formacion geologica esta presente o ausente. Elcosto de la medicion es C (en miles de $). El espacio muestral constade dos puntos:

X =

{0 formacion geologica ausente1 formacion geologica presente

La presencia o ausencia de petroleo afecta la probabilidad de la pres-encia o ausencia de la formacion geologica de acuerdo con la siguientefuncion de verosimilitud:

p(x | θi):θ\x 0 1θ1 0.2 0.8θ2 0.7 0.3

Note que necesariamente p(x = 0 | θi) + p(x = 1 | θi) = 1, i = 1, 2.El experimento da informacion acerca de θ a traves de la verosimilitud(y del teorema de Bayes). Por ejemplo p(x = 1 | θ1) > p(x = 0 | θ1),pero se obtiene lo contrario para θ2. Supongamos que el TD esta dis-puesto a afirmar antes de observar a x que, en base a su conocimientotecnico , en areas de similares caracterısticas a la presente, la probabil-idad “a priori” de la presencia de petroleo es:

π(θi):θ π(θ)θ1 0.6θ2 0.4

Finalmente el TD evalua su utilidad (o perdida) monetaria o no, delas diferentes acciones frente a los posibles estados de la naturaleza. Sino se realiza el experimento geologico, la perdida (en miles de $) viene


dada por la siguiente tabla:

L(a, θ):θ\a a1 a2

θ1 -5000 0θ2 2000 -500

Si se realiza el experimento a la funcion de perdida anterior se lesuma C, por ejemplo L(a1, θ1) = −5000 + C, etc.

El TD tiene al principio tres posibles decisiones: perforar, vender orealizar el experimento, y debe decidir la que reporte menor perdida. Sise realiza el experimento, las probabilidades de θ cambian, por lo quese deben calcular las probabilidades a posteriori, lo que se hara en elsiguiente capıtulo. El arbol de decision esta representado en la figura1.2.3

Experimento

a1

a2

x = 1

x = 0

a1

a2

θ1

θ2

a1

θ1

θ2

a2

θ1

θ2

θ2

θ1

θ1

θ1

θ2

θ2

-5000+C

2000+C

C

-500+C-5000+C

2000+C

C

-500+C

-5000

2000

0

-500

Figura 1.2. Arbol de decision Ejemplo 1.2

1.2. EL PROBLEMA DE DECISION COMO UN JUEGO ENTRE EL TD Y LA NATURALEZA15

El problema de decision esta ahora completamente especificado y elTD, si quiere conservar su puesto, debe tomar una decision que hagasu perdida mınima (o su utilidad maxima). Sin embargo, su perdidadepende crucialmente del estado de la naturaleza θ, ¡el cual no puedeobservar antes de tomar su decision!. Precisamente, para romper estecırculo necesitaremos de una teorıa de decisiones bajo incertidumbreque desarrollaremos en los proximos capıtulos. Por ultimo, hacemosnotar que aun cuando θ es desconocido hay informacion substancialsobre ella, sobre todo cuando observemos el valor de X.


Capıtulo 2

Teorıa Clasica de Decision

La teorıa de decisiones bajo incertidumbre tiene su desarrollo origi-nal durante la II Guerra Mundial. El texto clasico donde se exponepartiendo de un punto de vista “frecuentista” (es decir basado en lafrecuencia relativa de las observaciones X de experimentos similarescondicionados en θ) es Wald (1950). A partir de allı ha tenido un vig-oroso desarrollo que iremos mencionando. En este capıtulo nos basare-mos primordialmente en Ferguson(1967) ası como en Lehmann(1983),Berger(1985), Brown(1984), Pericchi(1986) y Walley(1987).

Un punto de vista alternativo al frecuentista, pero con muchos pun-tos de contacto con el, es el Bayesiano o “subjetivo”, expuesto enSavage(1954), DeGroot(1970), Lindley(1971) y Berger(1985), donde elconocimiento a priori del experimento juega un papel mas prominente.Le dedicaremos al enfoque subjetivo los capıtulos finales de este libroaun cuando conceptos subjetivos apareceran en forma natural a todolo largo del mismo.

Supondremos todo el tiempo que el TD es un individuo, o un grupoque actua como individuo. Esto no necesariamente es ası en la practica.Un area apasionante de investigacion es “Teorıa de Decision de Grupos”que no tocaremos aquı.

17

18 CAP´ıTULO 2. TEOR´ıA CLASICA DE DECISION

2.1 Introduccion.

En este capıtulo se introducen muchas ideas que son fundamentales enTeorıa de Decision, y ademas se comparan los puntos de vista frecuen-tista y Bayesiano, ası como las ventajas y desventajas de cada uno.En la seccion 2.1 se definen conceptos basicos de la Teorıa Clasica deDecision basada en el concepto frecuentista de la funcion de riesgo. Sinembargo, no existe una unica solucion admisible de acuerdo al riesgo.En la seccion 2.2 se introducen tres criterios de ordenamiento de lasdecisiones: 1)Restriccion del conjunto de decisiones, 2)OrdenamientoBayesiano y 3)Ordenamiento Minimax. Se desecha el ordenamientodel criterio 1 porque tıpicamente excluye buenas decisiones y porquepara un conjunto amplısimo de problemas, selecciona como optimas adecisiones inadmisibles.

Seguidamente se estudian las propiedades de las reglas de Bayes yMinimax. Respecto a esta ultima, que es fundamental en Teorıa de Jue-gos, se concluye que para la Teorıa de Decision no es adecuada, por supesimismo y porque tıpicamente selecciona como optimas decisiones nodeterminadas, es decir aleatorias. Por ultimo exponemos ventajas delenfoque Bayesiano que lo hacen la alternativa mas atractiva a la Teorıade Decision, aun cuando es conveniente hacer analisis de sensibilidadcon respecto a la distribucion a priori. Pero, incluso desde el punto devista frecuentista, el enfoque Bayesiano presenta ventajas fundamen-tales, como el hecho de que toda decision admisible es una decisionBayesiana, o lımite de Bayesiana. Ademas implica una simplificacionradical del analisis racional de decisiones.

2.2 Conceptos Basicos de la Teorıa de De-

cision Clasica

Notacion: Denotaremos a la Esperanza Matematica de la funcion g(y, α),donde y es la variable de integracion, por :

EY |α [(g(y, α)] =

{ ∑y∈Y g(y, α)p(y | α) si y es una v.a discreta∫

Y g(y, α)p(y | α)dy si y es una v.a continua

2.2. CONCEPTOS BASICOS DE LA TEOR´ıA DE DECISION CLASICA 19

donde Y son los valores posibles de y, y p(y | α) es la densidad deprobabilidades de y condicionada al valor del parametro α.

Generalizaremos la nocion de esperanza dada arriba por la expresionmas suscinta :

EY |α [(g(y, α)] =∫

Yg(y, α)dP (y | α) = E [g(y, α) | α] (2.1)

Se puede interpretar a (2.1) como la integral de Lebesgue, suponiendoque para cada α, g(y, α) es integrable Lebesgue. Tambien puede inter-pretarse la ecuacion (2.1) como la integral de Riemann-Stieltjes, dondeP (y | α) es la distribucion acumulada de y condicionada a α y g(y, α)es continua en un conjunto de probabilidad uno bajo P (y | α) paracada α. Las propiedades de (2.1) que van a ser mas utilizadas son:

1. E(ax + y) = aE(x) + E(y)

2. Si x > 0 ⇒ E(x) > 0.

Las propiedades 1 y 2 son validas bajo ambas interpretaciones. Ilus-traciones de la notacion expuesta son por ejemplo:

1. Eθ|X [u(e, x, a, θ)] =∫Θ u(e, x, a, θ)dP (θ | x)

2. Pθ|X(A) =∫A dP (θ | x)

3. PX|θ(B) =∫B dP (x | θ), y si esta bien definida la densidad p(x |

θ), entonces PX|θ(B) =∫B p(x | θ)dx.

El lector debe percatarse de que Pθ|X y PX|θ son dos entidades com-pletamente distintas y no debe confundirse por el hecho de que en ambasse utilice la mayuscula P . Note que por ejemplo Pθ|X(A) = Eθ|X [1A(θ)],donde

1A(θ) =

{1 si θ ∈ A0 si θ 6∈ A

Definicion 2.1 Cualquier funcion d(x) : X → A es llamada una reglade decision “no aleatoria” o “determinada”.


Supongamos que el TD especifica una funcion de perdida L, oequivalentemente una funcion de utilidad u(e, x, d(x), θ), en la quesupondremos (por simplicidad de notacion) que tanto el efecto del ex-perimento, como de x estan considerados dentro de la regla de de-cision d(x). O sea, tenemos que: L(e, x, d(x), θ) = −u(e, x, d(x), θ)=L(d(x), θ) = −u(d(x), θ). Podemos en general representar el problemade decision estadıstica por : (Θ,A,L), acoplado a un experimento eque envuelva a la v.a X cuya distribucion depende exclusivamente de θ: PX|θ. El concepto pivote sobre el que se fundamenta la teorıa clasica(frecuentista) de decision, es el concepto de Riesgo Frecuentista.

Definicion 2.2 El valor esperado respecto de X de la funcion de perdidapara la regla de decision d(x) se llama el riesgo frecuentista. O sea

R(θ, d) = EX|θ [L(d(x), θ)] =∫

XL(d(x), θ)dP (x | θ) (2.2)

Comentarios

1. Usualmente nos restringimos a aquellas reglas de decision paralas cuales R(θ, d) existe y es finito ∀ θ ∈ Θ. Denotamos a estaclase de decisiones no aleatorias de riesgo finito por D.

2. R(θ, d) representa la perdida promedio (en X) del TD cuandoemplea la regla de decision d(x) y el estado de la naturaleza es θ.El TD quisiera encontrar un d0 tal que el riesgo fuese mınimo.

3. El average o promedio (2.2) se toma con respecto a la frecuen-cia de los posibles valores de X. Por consiguiente R(θ, d) no esfuncion de X pero sı de θ, la cual no es observable antes de la de-cision. (Paradojicamente, a pesar de que X es observable se tomael promedio en esta variable). Por esta razon R(θ, d) aislada-mente no sirve para ordenar completamente las reglas de decisionde mejor a peor, aunque servira para excluir decisiones absurdasque llamaremos inadmisibles. Para ordenar racionalmente las de-cisiones optimas necesitaremos un extra-principio que nos digacomo ordenar completamente R(θ, d), ya que θ es desconocido.


Ejemplo 2.1 (cont. Ejemplo 1.2). Podemos listar las posiblesreglas de decision que han sido precedidas de la decision de realizar elexperimento e1 de la siguiente manera:

x\d d1 d2 d3 d4

0 a1 a1 a2 a2

1 a1 a2 a1 a2

Ademas las reglas en las cuales se ha decidido no realizar el experi-mento e0:

d5 = a1 y d6 = a2

-1000-2000-3000-4000-5000 1000

1000

2000

-1000

R(θ1, d)

R(θ2, d)

d1

d2

d3

d4

d5

d6

Figura 2.1. Region D de decisiones determinadas (Ejemplo 2.1)

Por ejemplo, la regla de decision d2 significa: decidir hacer el exper-imento , y si obtenemos x = 0 tomamos la accion a1, pero si obtenemos


x = 1 tomamos la accion a2. Por otro lado, la regla de decision d5

significa decidir no realizar el experimento y tomar la accion a1.

Entonces : R(θ, d) = EX|θ [L(d(x), θ] =∑2

j=1 L(aj , θ)PX|θ(d(x) =aj). Por ejemplo, usando la funcion de perdida y verosimilitud dadasen el enunciado del ejemplo 1.2 en el Capıtulo 1, tenemos:

R(θ2, d2) = L(a1, θ2)PX|θ(d2(x) = a1) + L(a2, θ2)PX|θ(d2(x) = a2)

R(θ2, d2) = 2000P (x = 0 | θ2) + (−500)P (x = 1 | θ2) + C =2000(0.7) + (−500)(0.3) + C = 1250 + C

Para d5 y d6, R(θ, dj) = L(θ, dj). Entonces el riesgo R(θ, d) vienedado por la siguiente tabla (se deja como ejercicio verificarla):

R\d d1 d2 d3 d4 d5 d6

R(θ1, d) -5000+C -1000+C -4000+C C -5000 0R(θ2, d) 2000+C 1250+C 250+C -500+C 2000 -500

Supongamos que C = 90. Entonces los riesgos se dan en la siguientetabla:

R\d d1 d2 d3 d4 d5 d6

R(θ1, d) -4910 -910 -3910 90 -5000 0R(θ2, d) 2090 1340 340 -410 2000 -500

En la figura 2.1 se grafican d1 a d6, donde los ejes son R(θ1, d) yR(θ2, d).3

Es de hacer notar que en el ejemplo 2.1 hay decisiones que jamastomarıamos racionalmente: por ejemplo d1 es peor que d5 tanto paraθ1 como para θ2. Decimos que d1 esta “dominada” por d5, y que d1

es “inadmisible”. El lector puede comprobar que todas las reglas dedecision que estan por encima de la frontera inferior del grafico (2.1)son inadmisibles, es decir d1 y d4 son inadmisibles. Por otra partelas decisiones que forman la frontera inferior, es decir d3, d6 y d5 noestan dominadas por ninguna otra decision determinada y por tantoson “admisibles”. Veremos en este capıtulo que esto no es casual.


Ejemplo 2.2 (Test de hipotesis). Aquı el problema es decidir si θpertenece a un subconjunto del espacio de parametros Θ0 ⊂ Θ, que esla hipotesis “nula”, o a su complemento:

H0 : θ ∈ Θ0 vs H1 : θ ∈ Θc0

La funcion de verosimilitud es pX|θ el espacio de acciones es A = {a0, a1}donde a0 es aceptar H0 y a1 rechazar H0 (o sea aceptar H1). La funcionde perdida viene dada por:

L(θ, ai) :ai\θ θ ∈ Θc

0 θ ∈ Θ0

a0 L0 0a1 0 L1

donde Li > 0, para i = 0, 1. Entonces L0 es la perdida por la falsaaceptacion de H0 y L1 la perdida por falso rechazo de H0. Se suponeque la perdida incurrida por una decision correcta es cero. Por lo tantola funcion de riesgo es:

R(θ, d) =

{L0P (d(x) = a0 | θ) si θ ∈ Θc

0 (Error de falsa aceptacion de H0)L1P (d(x) = a1 | θ) si θ ∈ Θ0 (Error de falso rechazo de H0),

(2.3)

(usualmente se llama al error de falsa de aceptacion Error de tipo II, yal de falso rechazo Error de tipo I), o sea el riesgo es la perdida incur-rida por una decision incorrecta multiplicada por la probabilidad de unadecision erronea. Notar que esta probabilidad es calculada condicional-mente para cada θ, cuando H1 o H0 son correctas respectivamente. Losvalores de L0 y L1 son asignados por el TD.3Ejemplo 2.3 (Estimacion puntual). Sea Θ = R, y se desea “esti-mar” o aproximar a θ por una funcion d : X → R. Entonces A = R, yse dice que el espacio de parametros y decisiones coincide. Supongamosque el TD asigna una perdida cuadratica: L(θ, d(x)) = c(θ−d(x))2 conc > 0. Esta funcion de perdida, que fue originalmente usada por Gauss,es la mas frecuentemente empleada en problemas de estimacion. Es con-vexa y simetrica penalizando igualmente la sub o la sobre-estimacion.


Es ademas muy tratable matematicamente. Es sin embargo algo arbi-traria, (¿por que no | θ−d(x) |?), no acotada y crece quizas demasiadorapido cuando d(x) se aleja de θ. El riesgo en este caso se denominaerror cuadratico medio y puede escribirse como:

R(θ, d) = EX|θ[c(θ − d(x))2

]=

cEX|θ

[((θ − EX|θ(d(x))

)−(d(x) − EX|θ(d(x))

))2]

=

c(θ − EX|θ(d(x))

)2+ cEX|θ

[(d(x) − EX|θ(d(x))

)2]

−2c(θ − EX|θ(d(x))

)EX|θ

[d(x) − EX|θ(d(x))

]

y como

EX|θ[d(x) − EX|θ(d(x))

]= EX|θ[d(x)] − EX|θ[d(x)] = 0,

ya que EX|θ[d(x)] no depende de X, entonces si definimos

∣∣∣θ − EX|θ(d(x))∣∣∣ = sesgo(d(x), θ)

tenemos:

R(θ, d) = c{sesgo2(d(x), θ) + V arX|θ(d(x))

}.3 (2.4)

Por lo tanto si se emplea perdida cuadratica un buen estimadord(x) sera aquel cuya suma de sesgo al cuadrado mas su varianza seapequena. El test de hipotesis y la estimacion puntual (y de intervalosque veremos posteriormente) son los problemas mas importantes dela inferencia estadıstica , y hemos visto en los ejemplos 2.2 y 2.3 quepueden frasearse como problemas particulares de la teorıa de decisionestadıstica.


Para proseguir, conviene (matematicamente) extender el espacio dedecisiones determinadas D, por su casco convexo que llamaremos D.Los elementos de D, δ(x); seran llamados reglas de decision aleatoriasy pueden ser pensados como una distribucion de probabilidades en D.

Definicion 2.3 Una regla de decision aleatoria δ, es una distribucionen el conjunto D de las reglas de decision determinadas. Su funcionde riesgo se define como : R(θ, δ) = EZ [R(θ, z)], donde Z es una v.aque toma sus valores en D y cuya distribucion viene dada por δ. Elespacio D esta compuesto por las reglas de decision aleatoria tal queR(θ, δ) exite y es finita ∀ θ ∈ Θ.

Una ventaja matematica de considerar D es que “linealiza” a D. Porejemplo si δ1 y δ2 ∈ D, y 0 ≤ α ≤ 1, definimos δ = α〈δ1〉+ (1−α)〈δ2〉,o sea δ es δ1 con probabilidad α y δ2 con probabilidad 1 − α, es decir,una mezcla de δ1 y δ2, entonces: R(θ, δ) = αR(θ, δ1) + (1 − α)R(θ, δ2)y δ ∈ D, y por lo tanto D es convexo. Esta claro ademas que D ⊂ D,ya que d ∈ D, corresponde a la regla aleatoria (degenerada) que asignaprobabilidad uno al punto d. Tambien es claro que R(θ, δ) esta en elsegmento de la recta que une a δ1 con δ2.

Continuacion Ejemplo 2.1. Una posible regla aleatoria es:

δ(e, x) =

{d3 con probabilidad 1/2d6 con probabilidad 1/2.

Entonces δ(e, x) puede obtenerse como: con probabilidad 12, no

hacer el experimento y tomar la accion a2, como especifica d6. Conprobabilidad 1

2, hacer el experimento; si x=0, tomar la accion a2 y si

x=1 tomar la accion a1.O sea, el TD lanza una moneda balanceada. Si sale cara, aconseja

no realizar el experimento y tomar la accion a2. Si sale sello, acon-seja realizar el experimento, si sale x=0 aconseja la accion a2 y si salex=1 aconseja la accion a1. Las decisiones aleatorias son claramenteinsensatas en el contexto de teorıa de decision y posiblemente el TDperdera su puesto si decide δ(e, x). (“El estadıstico esta para reducir laincertidumbre, no para aumentarla”, R.A.Fisher).


La funcion de riesgo de δ sera:

R(θ, δ) =1

2R(θ, d3) +

1

2R(θ, d6).

O sea, R(θ, δ) esta en la recta que une a d3 con d6 en la figura 2.1.De hecho:

R(θ1, δ) =1

2(−3910) +

1

2(0) = −1955

R(θ2, δ) =1

2(340) +

1

2(−500) = −80. 3

Definicion 2.4 El conjunto de riesgo S es el conjunto de puntos enR

k cuyas coordenadas son (R(θ1, δ), . . . , R(θk, δ)) para toda δ ∈ D.

Por la linealidad del riesgo, S es un conjunto convexo, o sea six ∈ S, y ∈ S, 0 ≤ α ≤ 1, entonces: αx + (1 − α)y ∈ S. Esto sedemostrara en la seccion 2.3.

Continuacion Ejemplo 2.1. En la figura 2.1, S sera el conjunto con-vexo que tiene a las decisiones determinadas d1, . . . , d6 como vertices.3

Entonces los vertices de S corresponden a decisiones determinadas.(Pero es posible que una decision determinada caiga en el interior deS). Procedemos ahora a ordenar parcialmente las decisiones δ ∈ D deacuerdo al riesgo frecuentista.

Definicion 2.5 Sean δ1 y δ2 ∈ D. Diremos que δ1 es R-mejor que δ2

si:

1. R(θ, δ1) ≤ R(θ, δ2), ∀ θ ∈ Θ.

2. R(θ0, δ1) < R(θ0, δ2), para algun θ0 ∈ Θ.

δ1 ∈ D es admisible si no existe δ ∈ D que sea R-mejor que δ1.Decimos que δ1 ∈ D es inadmisible si no es admisible, es decir, si existeδ ∈ D que sea R-mejor que δ1. Si Θ, A y X son finitos como en elejemplo 2.1, entonces D es finito y S es un poliedro, que es el cascoconvexo de un numero finito de puntos en D, cuyos vertices son reglasde decision determinadas. Entonces, S es convexo, cerrado y acotado.

2.3. DECISIONES OPTIMAS 27

Definicion 2.6 Para x ∈ S, Qx ={y ∈ R

k : yj ≤ xj , 1 ≤ j ≤ k, y 6= x}

es el conjunto de puntos de riesgo que son mejores que x. La fronterainferior de S, λ(S) , es el conjunto de los x ∈ S tal que Qx ∩ S = ∅.

Continuacion Ejemplo 2.1. λ(S) esta compuesto por los segmentosde recta que unen a d5 con d3 y d3 con d6, o sea las δ ∈ D que sonmezclas de d5 y d3 y d3 y d6. Estas mezclas son precisamente el conjuntode decisiones admisibles en D.3Teorema 2.1 Supongamos que λ(S) ⊂ S y existe M tal que si(y1, . . . , yk) ∈ S ⇒ yj > −M ; j = 1, . . . , k. Una regla de decision δ ∈ Des admisible si y solo si su punto de riesgo esta en λ(S).

Prueba: (Ejercicio)

Sugerencia: δ es admisible si y solo si no existe un punto de riesgomejor en S, si y solo si Qxδ

∩ S = ∅.2Admisibilidad es solo una condicion necesaria mas no suficiente para

que una regla de decision sea razonable. Mas aun, establece solamenteun orden parcial entre las decisiones que no nos permite encontrar laregla optima, si esta existe. ¿Como escoger entre la infinidad de reglasadmisibles en el ejemplo 2.1?. Precisamos de un metodo que nos proveade un orden total de las decisiones y nos permita encontrar una reglaoptima. Expondremos seguidamente tres metodos alternativos.

2.3 Decisiones Optimas

METODO 1: Restriccion del conjunto de decisiones

Este punto de vista sostiene que hay tıpicamente demasiadas deci-siones y que para ordenarlas primero se precisa restringirlas, dejandofuera decisiones “tontas”. Un ejemplo motivara este punto de vista.

Continuacion Ejemplo 2.3. El siguiente estimador “tonto” de θ esadmisible: d(x) = a, ∀x ∈ X. Es decir no importa cual sea la evidenciadada por el experimento, aproximamos a θ por el valor a. El problema


es que para θ = a : R(a, d) = c{sesgo2(d(x), a) + V arX|a(d(x))} = 0,ya que la varianza de d(x) es 0 por ser una constante y sus sesgo esnulo para θ = a. Entonces un estimador optimo tendrıa que mejorar atodos los estimadores δ(x) = a, variando a en R y deberıa tener riesgonulo para todo θ; lo cual es imposible. Se busca entonces restringir aD de tal manera que d(x) = a quede fuera.3

Sigamos con problemas de estimacion puntual y veamos dos posiblesestrategias.

1. Procedimientos Insesgados: Consideremos solo aquellos esti-madores que sean insesgados, o sea

{d(x) : EX|θ [d(x)] = θ, ∀θ ∈ Θ

},

y ası el estimador “tonto” anterior queda fuera. Si la perdida escuadratica entonces el problema se reduce a encontrar un esti-mador de varianza mınima, el cual en muchos casos existe.

2. Procedimientos Invariantes: Se plantea que la estructura delestimador optimo no debe depender del origen o escala de medidasde X o de otros factores arbitrarios.

Para fijar ideas supongamos que θ es un parametro de localizaciones decir:

PX|θ(x | θ) = PX|θ(x − θ) y L(θ, a) = L(θ − a).

En este caso los estimadores invariantes por cambios en el origende los datos X son:

{d(x) : d(x + b) = d(x) + b}.

Aun cuando las estrategias del metodo 1 han sido en el pasadomuy usadas, lo son cada vez menos. Las razones principales sonlas siguientes:

(a) Si bien dejan fuera a estimadores “tontos”, tambien excluyena buenos estimadores. (Veremos ejemplos a lo largo de estelibro).


(b) Los estimadores optimos de (1) o (2) pueden ser inadmisi-bles.

Ejemplo 2.4. Supongamos que PX|θ(x | θ) = PX|θ(x−θ) = Cauchy(θ, 1) =1

π[1+(x−θ)2]. Para esta densidad no existe la Esperanza de X y por lo

tanto ningun otro momento. Supongamos que la funcion de perdidaes cuadratica L(θ, d(x)) = L(θ − d(x)) = c(θ − d(x))2. Siendo esteun problema invariante por cambios de localizacion, los estimadoresinvariantes son de la forma: db(x) = x + b, (los cuales no pueden serinsesgados ya que no existe EX|θ(x)). Ahora bien:

R(θ, db) = EX|θ[c(θ − (x + b))2

]= ∞,

para todo θ y todo b. Sin embargo el estimador “tonto” y no-invarianted(x) = 0 tiene riesgo R(θ, 0) = θ2 < R(θ, db), y por lo tanto todos losestimadores invariantes son inadmisibles.3Ejemplo 2.5. Este es el ejemplo mas famoso de inadmisibilidad (Jamesy Stein, 1960). Sean X1, . . . , Xn independientes, Xj ∼ N(θj , 1), yse quiere estimar θ = (θ1, . . . , θn) con perdida cuadratica: L(θ, a) =∑n

j=1(θj − aj)2. El estimador δ0(x) = x, o sea estimar cada θj por

Xj, es el estimador invariante optimo y es el estimador insesgado devarianza mınima. (Tambien es el estimador de maxima verosimilitudy de mınimos cuadrados, metodos populares de obtener estimadores).El estimador δ0(x) es admisible para n=1 o n=2, pero es inadmisiblepara n≥ 3. Este resultado, que conmovio a la inferencia estadıstica, fueobtenido originalmente por Stein (1955).

El estimador sesgado δ1(x) =(

n−2∑n

j=1x2

j

)x, para n ≥ 3, propuesto

por James-Stein, domina a δ0(x) para todo θ.3Por estas razones desechamos el metodo 1 de restriccion de reglas de

decision y procedemos a exponer y estudiar los proximos dos metodosque proveen un ordenamiento global de las reglas de decision.


METODO 2: Ordenamiento Bayesiano.

El ordenamiento parcial de las decisiones provienen del hecho de queR(θ, δ) depende de θ, ademas de δ. Podemos ordenar las decisiones sitomamos el valor esperado de R(θ, δ) con respecto a la medida de prob-abilidad dΠ(θ) = π(θ)dθ, donde Π(θ) es la distribucion “a priori” deθ y π(θ) su densidad. La interpretacion de Π(θ) es subjetiva: es elestado de conocimiento que el TD tiene acerca del estado de la natu-raleza. Se supone aquı que el TD tiene informacion suficiente acercade θ como para representarla por una unica distribucion Π(θ), es decirpara representarla de una manera precisa. Llamaremos a este supuesto,la hipotesis de la precision. Si esta hipotesis es aceptada, entonces esrazonable ponderar R(θ, d) por π(θ): Si δ(x) es una decision que lohace muy bien (R(θ, δ) pequeno) en una region Θ0 de alta probabili-dad a priori, y no tan bien en Θc

0 que tiene poca probabilidad a priori,entonces δ(x) seguira siendo bastante buena.

Definicion 2.7 El riesgo Bayesiano de la regla de decision δ ∈ D parala distribucion a priori Π(θ) se define como:

r(Π, δ) = Eθ [R(θ, δ)] = Eθ

{EX|θ[L(δ(x), θ)]

},

el cual se supone que existe y es finito.

Definicion 2.8 La regla de decision δ0 sera la regla de decision optima“Bayes- promedio” con respecto a la distribucion a priori Π si y solosi:

r(Π, δ0) = infδ∈D

r(Π, δ).

Es de hacer notar que la anterior definicion esta basada en un prome-dio en X (condicional en θ), y por tanto sobre un concepto frecuentista.Esto es innecesario ya que el valor de X = x sera conocido luego deobtener el resultado del experimento. Por tanto tenemos una formaalternativa de definir un procedimiento optimo-Bayes.

Definicion 2.9 La perdida Bayesiana esperada condicional en X de laaccion δ(x) para la distribucion a priori Π(θ) se define como:


ρ(Π, δ(x)) = Eθ|X [L(θ, δ(x))] =∫

ΘL(θ, δ(x))dΠ(θ | x).

Definicion 2.10 La accion δ∗(x) sera la accion optima Bayes, condi-cional en X, para la distribucion a posteriori Π(θ | x) si y solo si:

ρ(π, δ∗(x)) = infδ∈D

ρ(π, δ(x)).

A la definicion 2.10 se le conoce como el principio de la maxi-mizacion (minimizacion) de la utilidad (perdida) esperada. Para cadax ∈ X, escogemos aquella accion δ∗(x) que hace mınimo lo que esper-amos perder. Surge la pregunta, ¿Puede la regla de decision optima“Bayes promedio” δ0 obtenerse como δ∗(x) para cada x ∈ X?. Afortu-nadamente la respuesta es sı, bajo condiciones bastante generales.

Teorema 2.2 Supongamos que L(θ, d) es no negativa y que:

1. Existe un estimador δ con riesgo finito.

2. Para casi todo x, existe un numero δ∗π(x) que minimiza a ρ(Π, δ(x)).

Entonces δ∗π(x) es optimo Bayes promedio.

Prueba. Sea δ cualquier estimador con riesgo finito. Entonces,ρ(Π, δ(x)) es finito c.s, ya que L es no negativa. Por lo tanto

Eθ [L(θ, δ(x)) | x] ≥ Eθ [(L(θ, δ∗π(x)) | x] c.s.,

y el resultado se obtiene tomando esperanzas (en X) a ambos miembros.2Notamos que si L(θ, d) = −M +L∗(θ, δ), con M finito y L∗(θ, d) no

negativa el teorema 2.2 sigue siendo valido.

Continuacion Ejemplo 2.1. A partir de la tabla de riesgos, deΠ(θ1) = 0.6 y Π(θ2) = 0.4, y recordando que hemos supuesto C = 90,podemos calcular los riesgos Bayesiano promedio usando la definicion2.7 como sigue:

r(Π, d) =2∑

i=1

R(θi, d)Π(θi).


Se deja al lector verificar la siguiente tabla:

r\d d1 d2 d3 d4 d5 d6

r(Π, d) -2110 -10 -2210 -110 -2200 -200

Por lo tanto la mejor decision determinada sera d3, o sea, realizarel experimento y tomar la accion a2 si x = 0 y a1 si x = 1. Alterna-tivamente, para obtener la mejor accion Bayes-condicional calculemosprimero las probabilidades a posteriori segun la regla de Bayes:

P (θ1 | x = 0) ∝ P (x = 0 | θ1)Π(θ1) = 0.2 × 0.6 = 0.12

P (θ2 | x = 0) ∝ P (x = 0 | θ2)Π(θ2) = 0.7 × 0.4 = 0.28

De lo anterior se tiene que P (x = 0) = P (x = 0 | θ1)Π(θ1) + P (x =0 | θ2)Π(θ2) = 0.40. Normalizando, es decir dividiendo por P (x = 0),se obtiene:

P (θ1 | x = 0) = 0.120.4

= 0.3

P (θ2 | x = 0) = 0.280.4

= 0.7

Procediendo de manera similar para x = 1 se tiene P (x = 1) = 0.6,y entonces

P (θ1 | x = 1) = 0.8

P (θ2 | x = 1) = 0.2.

Si observamos x = 0, la perdida esperada a posteriori para a1 y a2

sera:

ρ(Π, a1) = (−4910)(0.3) + (2090)(0.7) = −10

ρ(Π, a2) = (90)(0.3) + (−410)(0.7) = −260

de donde se deduce que la mejor decision Bayes condicional en x = 0sera a2. Por otra parte si x = 1,

ρ(Π, a1) = −2510

ρ(Π, a2) = −10

y la mejor decision sera a1. Por otro lado si no se realiza el experimento:


ρ(π, a5) = L(a1, θ1)0.6 + L(a1, θ2)0.4 = −2200

ρ(π, a6) = L(a2, θ1)0.6 + L(a2, θ2)0.4 = −200,

y estas perdidas condicionales esperadas son mayores que las de realizarel experimento, y si x = 0 tomar la accion a2 y si x = 1, la acciona1. Notese que si juntamos las acciones optimas condicionales parax = 0 y x = 1 obtenemos d3, que es la mejor decision Bayes promediodeterminada.

Supongamos ahora que C es desconocido, ¿cuanto estarıamos dis-puestos a pagar por hacer el experimento?. Utilizamos aquı el principiode la minimizacion de la perdida esperada. Usando las mismas prob-abilidades a priori y a posteriori se obtiene el arbol de decision de lafigura 2.2, en el que debajo de los nodos aleatorios se coloca la perdidaesperada y debajo de los nodos de decision el resultado de la mini-mizacion.

En el arbol el sımbolo // indica que la decision es absurda, por ejem-plo a2 no la tomaremos ya que la perdida esperada es -200 comparadacon -2200 en a1. Ahora debemos comparar las perdidas esperadas dela accion a1 con la de hacer el experimento, las cuales tienen perdidasesperadas de -2200 y -2300+C respectivamente. El arbol de decisionindica que lo maximo que se deberia pagar por hacer el experimento esC = 100, es decir si C ≤ 100 se decide hacer el experimento y se decidea1 si x = 1 y a2 si x = 0. Esto coincide con la decision Bayes condicionalen el desarrollo anterior, pues en aquel caso tenıamos C = 90 < 100.Por otro lado si C > 100, entonces la decision optima serıa d5.3

En el ejemplo anterior, con C = 90 hemos concluido que d3 es laregla de decision optima dentro de las reglas determinadas, es decir, d3

es optima es D. Surge la pregunta ¿es d3 optima en D, es decir en elconjunto de todas las reglas de decision aleatorias?.

Teorema 2.3 Supongamos que existe una regla optima Bayes prome-dio δ ∈ D, y que se cumplen las condiciones para intercambiar el ordende integracion. Entonces existe una regla determinada d ∈ D, optima.

Prueba. Sea δ0 optima respecto de π. Sea z la variable aleatoriacon valores en D cuya distribucion esta dada por δ0. Entonces,


Experimento

a1

a2

x = 1

x = 0

a1

a2

θ1

θ2

a1

θ1

θ2

a2

θ1

θ2

θ2

θ1

θ1

θ1

θ2

θ2

-5000+C

2000+C

C

-500+C-5000+C

2000+C

C

-500+C

-5000

2000

0

-500

0.8

0.2

0.8

0.2

0.3

0.7

0.3

0.7

0.6

0.4

0.6

0.4

-200

-2200

-350+C

-100+C

-100+C

-3600+C

-2300+C

0.6

0.4

-3600+C

-350+C

Figura 2.2. Arbol de decision Ejemplo 2.1

r(π, δ0) = Eπ [R(θ, δ)] = Eπ [EZ [R(θ, z)]] ,

cambiando el orden de integracion tenemos:

EZ [Eπ [R(θ, z)]] = EZ [r(π, z)] .

Pero como δ0 es optima para π, se cumple que

r(π, δ0) ≤ r(π, d) ∀d ∈ D.

Por lo tanto r(π, δ0) = r(π, z) con probabilidad uno y entoncescada d ∈ D que z escoge con dicha probabilidad cumplira con r(π, d) =r(π, δ0), y por lo tanto d sera optima con respecto de π. 2


Este resultado nos dice, en condiciones bastante generales, que bajoel ordenamiento Bayesiano, la busqueda de decisiones optimas puederestringirse a reglas determinadas (no aleatorias). Ello establece unaventaja computacional, ademas de una ventaja intuitiva: cuando exis-tan reglas optimas de Bayes, al menos una de ellas sera determinada.En problemas de Decision, uno debe escoger decisiones determinadas,nunca aleatorias.

Antes de pasar al proximo criterio de ordenamiento (Minimax) yde estudiar en forma mas exhaustiva las reglas de Bayes, sera con-veniente dar algunos ejemplos y procedimientos de calculo de reglasBayes-optimas, debido a sus ventajas computacionales.

Comenzamos por hacer notar que el concepto frecuentista de es-tadıstica suficiente juega tambien un papel crucial en el campo Bayesiano,en cuanto a reducir la dimensionalidad del vector de datos. Supong-amos que la familia de distribuciones de X esta indexada por el parametroθ: {p(x | θ), θ ∈ Θ}. Decimos que la funcion de los datos: T = T (x),usualmente llamada estadıstica de X es suficiente (para los datos) si ladistribucion condicional de X dado T = t es independiente de θ, ∀t.Tenemos la siguiente definicion alternativa, el Criterio de Factorizacionde Neyman.

Teorema 2.4 Una condicion necesaria y suficiente para que la es-tadıstica T sea suficiente para la familia {P (x | θ), θ ∈ Θ} de dis-tribuciones de X dominada por la medida σ-finita µ, es que existanfunciones no negativas g y h tal que la densidad (verosimilitud) p(x | θ)de P (x | θ) satisfaga:

p(x | θ) = g(T (x) | θ)h(x) (c.s.µ). (2.5)

Prueba. La prueba aparece por ejemplo en Lehmann(1959), Teo-rema 2.8 y Corolario 2.1 y se deja como lectura opcional.2Lema 2.1 Supongamos que p(t) (la densidad marginal de t) es mayorque cero, y que se cumple (2.5). Entonces si T (x) = t, densidad aposteriori de θ cumple con:

π(θ | x) = π(θ | t) =g(t | θ)π(θ)

p(t). (2.6)


Prueba. Ejercicio. 2El Lema 2.1 simplifica usualmente las calculos y provee una manera

Bayesiana de entender la suficiencia: T (x) es suficiente si para todadensidad a priori tal que la densidad a posteriori exista, esta dependade los datos solo a traves de T .

Ejemplo 2.6 (Normal-Normal). Supongamos que X es Normal,X ∼ N(θ, σ2) donde la media θ es desconocida pero la varianza σ2 esconocida. Si tenemos una muestra X1, . . . , Xn, entonces la densidad de

X = 1n

n∑

i=1

Xi es N(θ, σ2

n

)y X es suficiente. Supongamos que π(θ) es

N (µ, τ2) con µ y τ2 conocidas. Entonces la densidad conjunta de X yθ es:

p(x, θ) = π(θ)p(x | θ) =

(2π

σ√n

τ

)−1

exp

{−1

2

[(θ − µ)2

τ2+

n(x − θ)2

σ2

]}

Definamos: ρ = 1τ2 + n

σ2 , completando cuadrados en el argumentode la exponencial obtenemos:

p(x, θ) =

(2π

σ√n

τ

)−1

exp

−

1

2ρ

[θ − 1

ρ

(µ

τ2+

nx

σ2

)]2 exp

{− (x − µ)2

2(τ2 + σ2

n)

},

(2.7)y por tanto la densidad “marginal” (o “predictiva”) de X sera,

p(x) =∫ ∞

−∞p(x, θ)dθ =

[(2π)(τ2 +

σ2

n)

]− 1

2

exp

{− (x − µ)2

2(τ2 + σ2

n)

}, (2.8)

o sea, p(x) = N(µ, τ2 + σ2

n

). Finalmente la densidad posteriori de θ

es:

π(θ | x) =p(x, θ)

p(x)=

π(θ)p(x | θ)

p(x)=(

ρ

2π

) 1

2

exp{−1

2ρ[θ − µ(x)]2

},

(2.9)


donde

µ(x) =1

ρ

(µ

τ2+

nx

σ2

)=

σ2

n

τ2 + σ2

n

µ +τ2

τ2 + σ2

n

x (2.10)

y por lo tantoπ(θ | x) = N

(µ(x), ρ−1

). (2.11)

Es de hacer notar que la esperanza a posteriori de θ, E(θ | X),es igual a µ(x), o sea un promedio ponderado entre µ y X, dado por(2.10).3Ejemplo 2.7 (Beta-Binomial). Consideremos un experimento Bernoullicon n intentos y sea θ la probabilidad de exito. Entonces cada una delas observaciones seran:

Xi =

{1 con probabilidad θ0 con probabilidad (1-θ).

Sea X+ =∑n

i=1 Xi el numero de exitos en n intentos. Su verosimil-itud es:

p(x+ | θ) ∝ θx+(1 − θ)n−x+ 0 ≤ θ ≤ 1; X+ = 0, 1, . . . , n. (2.12)

Supongamos que la densidad a priori π es una Beta(n0x0, n0(1−x0)),o sea la densidad a priori es:

π(θ) =Γ(n0)

Γ(n0x0)Γ(n0(1 − x0))θn0x0−1(1−θ)n0(1−x0)−1; n0 > 0, 0 < x0 < 1.

(2.13)Entonces, llamando a X = 1

nX+, usando la regla de Bayes obten-

emos:

π(θ | x+) =π(θ)p(x+ | θ)

p(x+)∝ π(θ)p(x+ | θ) = θnµ(x)−1(1 − θ)n(1−µ(x))−1

(2.14)donde n′ = n0 + n y

µ(x) =n0

nx0 +

n

n′x. (2.15)


Es inmediato ver que (2.14) y (2.13) tienen la misma forma y portanto luego de normalizar para que

∫ 10 π(θ | x)dθ = 1 se tiene que:

π(θ | x+) = Beta (n′µ(x), n′(1 − µ(x))) .3 (2.16)

El lector se habra percatado que el metodo para obtener la densi-dad posteriori en este ejemplo, es decir conservar solo los terminos quedependen de θ, el Kernel de π(θ | x), y al final normalizar para queintegre uno al reconocer la forma funcional del Kernel de θ a posteriori,es mas expedito que el metodo del ejemplo 2.6.

Se puede ver (se deja al lector como ejercicio) que la esperanza dela densidad (2.13) es x0, y por tanto la esperanza de(2.16) es µ(x)en (2.15), la cual tiene la misma estructura de (2.10) del ejemplo 2.6.Es decir la esperanza a posteriori es un promedio ponderado entre lamedia a priori y X, la media muestral. Como n′ = n0 + n, entonces n0

puede ser pensado como “el tamano de muestra a priori” equivalenteal tamano muestral. La influencia de la informacion a priori en ladensidad a posteriori es directamente proporcional a n0. En el ejemplo2.6 lo mismo se puede decir de τ−2, el inverso de la varianza, el cualjuega el mismo papel que n0 del ejemplo 2.7. (En algunos textos sedenomina a τ−2 la “precision”).

En el punto de vista Bayesiano, toda la informacion (subjetiva oexperimental) esta resumida en la distribucion a posteriori. El siguienteteorema nos indicara como vincular esta informacion con importantesfunciones de perdida para problemas de estimacion puntual.

Teorema 2.5 Se quiere estimar una funcion g(θ) y la funcion de perdidaL(θ, d) es no-negativa. Supongamos que las hipotesis del teorema 2.2estan satisfechas. Denotemos por δ∗Π(x) el estimador optimo Bayescondicional para la distribucion a priori Π.

1. Si L(θ, d) = c(d−g(θ))2, entonces δ∗Π(x) = E [g(θ) | x] =∫Θ g(θ)dΠ(θ |

x), o sea el estimador optimo es la esperanza a posteriori de g(θ).

2. Si L(θ, d) = w(θ)(d − g(θ))2, entonces:

δ∗Π(x) =E [w(θ)g(θ) | x]

E [w(θ) | x].


3. Si L(θ, d) = c | d − g(θ) |, entonces δ∗Π(x) es cualquier medianade la distribucion a posteriori Π (g(θ) | x).

Prueba.

1. δ∗Π(x) se obtiene minimizando en δ(x) a:

E[(δ(x) − g(θ))2 | x

], (2.17)

por hipotesis, existe δ0 para el que esta esperanza posteriori esfinita c.s en x, y por tanto lo sera para δ∗Π.

Como la perdida cuadratica es estrictamente convexa, tendra ununico valor mınimo. Si sumamos y restamos E [g(θ) | x], que porhipotesis es finito, obtenemos como en el ejemplo 2.3 que (2.17)puede escribirse como:

E[(g(θ) − E(g(θ) | x))2 | x

]+ (E [g(θ) | x] − δ(x))2 . (2.18)

El primer termino de (2.18) no depende de δ(x), y el segundo esno negativo, por lo que (2.17) se minimiza haciendo el segundotermino de (2.18) nulo, o sea δ∗Π(x) = E [g(θ) | x].

2. Ejercicio.

3. Ejercicio.2Volviendo a los ejemplos 2.6 y 2.7, si la perdida es cuadratica y se

desea estimar a θ, o sea g(θ) = θ, entonces δ∗Π(x) = E(θ | x) = µ(x).Es decir el estimador optimo Bayes de θ sera su media a posteriori. Lamedida de “exactitud” o “dispersion” de este estimador optimo vienedada por su riesgo condicional en X, o sea su riesgo posterior, queviene dado por el primer termino de (2.18). Para perdida cuadratica yg(θ) = θ, la medida de dispersion de δ∗Π(x) es la varianza a posterioride θ. En el ejemplo 2.6 esta es ρ−1 y en el ejemplo 2.7 es:

µ(x) [1 − µ(x)]

n′ + 1


(Se deja al lector como ejercicio verificar la ecuacion anterior).La estimacion insesgada ya ha sido criticada. Veamos que tıpicamente

un estimador insesgado no es optimo Bayes.

Teorema 2.6 Se quiere estimar g(θ) con perdida cuadratica. Entoncesningun estimador insesgado δ(x) puede ser optimo Bayes a menos que

EX,θ

[(δ(x) − g(θ))2

]= 0.

Prueba. Supongamos que δ(x) es optimo Bayes para alguna dis-tribucion Π y ademas es insesgado para estimar g(θ). Entonces, Eθ[δ(x) |θ] = g(θ), para todo θ. Ademas, condicionando en X,

EX,θ [g(θ)δ(x)] = EX|θEθ [g(θ)δ(x) | x] = EX|θ [δ(x)Eθ[g(θ) | x]] = EX|θ[δ2(x)

];

ahora condicionando en θ,

EX,θ [g(θ)δ(x)] = Eθ|XEX [g(θ)δ(x) | θ] = Eθ|X [g(θ)EX [δ(x) | θ]] = Eθ|X[g2(θ)

].

Finalmente,

EX,θ

[(δ(x) − g(θ))2

]= EX|θ

[δ2(x)

]+Eθ|X

[g2(θ)

]−2EX,θ[g(θ)δ(x)] = 0.2

Apliquemos el teorema anterior a los casos de verosimilitud normaly binomial:

1. Normal: δ(x) = x es insesgado y EX|θ [X − θ]2

= σ2

n. Pero para

cualquier Π(θ), Eθ

[σ2

n

]= σ2

n6= 0, por lo tanto X no es Bayes. El

estimador indmisible del ejemplo 2.4, no es de Bayes.

2. Binomial: δ(x) = x es insesgado y EX|θ[X − θ

]2= θ(1−θ)

n.

Ahora bien, 1n

∫ 10 θ(1 − θ)dΠ(θ) = 0, si y solo si Π(θ) es la dis-

tribucion trivial que asigna uno al conjunto {0,1}. (La monedatiene 2 caras o 2 sellos, y x solo puede ser 0 o 1)

Seguidamente describimos un metodo de ordenamiento de decisiones,alternativo al Bayesiano, que intenta desembarazarse de la asignacionde distribuciones a priori.


METODO 3: Ordenamiento Minimax

En este metodo en lugar de minimizar el riesgo promedio se min-imiza el supθ R(θ, δ), o sea, se toma la decision que lo haga mejor,suponiendo que la naturaleza decide lo peor para nosotros, para cadaδ. La figura 2.3 exhibe el pesimismo de este punto de vista.

.......................

.......................

.......................

δ1

δ2

θ

R(θ, δ)

Figura 2.3.

El ordenamiento minimax prefiere δ1 a δ2, ya que δ2 tiene un riesgomaximo mayor que δ1. En Teorıa de Juegos, donde θ es escogida por unenemigo inteligente es recomendable prevenir que este nos va a hacer lavida tan difıcil como le sea posible y en el caso de la figura 2.3 escogerıaa θ en la pequena region en donde δ1 es mejor que δ2. ¡Por fortuna lanaturaleza no es usualmente tan malevola!.

Definicion 2.11 La regla de decision δ− es minimax si

supθ∈Θ

R(θ, δ−) = infδ∈D

supθ∈Θ

R(θ, δ), (2.19)

y al valor de la parte derecha de (2.19) se le llama el valor minimax.

De la definicion anterior se deduce (y se deja al lector como ejercicio)que δ− es minimax si y solo si

R(θ′, δ−) ≤ supθ∈Θ

R(θ, δ) ∀θ′ ∈ Θ y ∀δ ∈ D. (2.20)


La regla minimax es mas difıcil de obtener, en general, que en losmetodos 1 y 2. De hecho el metodo Bayesiano nos va a ayudar a calcularla regla minimax. Esto no es sorprendente ya que podemos esperar quela regla minimax sea de Bayes para la peor distribucion a priori quellamaremos “menos favorable” o de “Murphy”.

Definicion 2.12 La distribucion a priori Π0 es menos favorable o deMurphy si

r(Π0, δ∗Π0

) ≥ r(Π, δ∗Π)

para todas las distribuciones a priori Π, donde δ∗Π es optima Bayes paraΠ y r es el riesgo Bayesiano promedio definido en 2.7.

Puede pensarse la distribucion de Murphy como la que nos causala maxima perdida esperada imposible de evitar. Seguidamente se dauna condicion para que un estimador de Bayes δ∗Π sea minimax.

Teorema 2.7 Supongamos que Π es una distribucion a priori tal que:

r(Π, δ∗Π) =∫

θR(θ, δ∗Π)dΠ(θ) = sup

θ∈ΘR(θ, δ∗Π). (2.21)

Entonces:

1. δ∗Π es minimax.

2. Si δ∗Π es la unica optimo Bayes respecto de Π entonces es la unicaminimax.

3. Π es de Murphy.

Prueba.

1. Sea δ cualquier otra regla de decision. Entonces:

supθ

R(θ, δ) ≥ r(Π, δ) ≥ r(Π, δ∗Π) = supθ

R(θ, δ∗Π).

2. Reemplazando en la prueba de (1) el segundo ≥ por >.


3. Sea Π alguna otra distribucion a priori. Sigue que:

r(Π, δ∗Π) ≤ r(Π, δ∗Π) ≤ sup

θR(θ, δ∗Π) = r(Π, δ∗Π).2

La condicion (2.21) establece que el promedio de R(θ, δ∗Π) es igual asu maximo, o sea que Π asigna probabilidad uno al conjunto donde elriesgo toma constantemente su valor maximo. Una regla de este tipose llama “igualadora”. Las reglas igualadoras son minimax.

Corolario 2.1 Si la regla optima-Bayes δ∗Π tiene riesgo constante, osea R(θ, δ∗Π) = a, con a constante, entonces es minimax.

Prueba: Si δ∗Π tiene riesgo constante, se cumple (2.21).2Corolario 2.2 Una condicion suficiente para que δ∗Π sea minimax esque exista un conjunto Θ0 ⊂ Θ, tal que Π(Θ0) = 1 y R(θ, δΠ) toma sumaximo valor en todo punto de Θ0.

Prueba. La condicion (2.21) tambien se cumple en este caso.2Ejemplo 2.8 (Lehmann(1983) y Walley(1987)). Sea la verosimil-itud binomial,P (x+ | θ) = Bin(n, θ) y se quiere estimar θ como en el ejemplo 2.7.Supongamos que la perdida es cuadratica: L(θ, d) = (θ − d)2. Quere-mos encontrar un estimador minimax de θ. Intentemos conseguir unaregla igualadora suponiendo que Π pertenece a la familia Beta de dis-tribuciones, Π(θ) = Beta(α, β) con α > 0 y β > 0. De la parte (1)del Teorema 2.5 sabemos que el estimador optimo Bayes es la mediaposterior µ(x). Por otra parte del ejemplo 2.7, la relacion (2.15), y den0x0 = α, n0(1 − x0) = β o sea x0 = α

α+β, n0 = α + β tenemos:

E(θ | x) = µ(x) =α + x+

α + β + n= δ∗Π. (2.22)

Sabemos que en el caso Binomial E(X+ | θ) = nθ y V ar(X+ | θ) =nθ(1 − θ). Entonces,

R(θ, δ∗Π) = E

(

α + X+

α + β + n− θ

)2

| θ

=

nθ(1 − θ) + [α − (α + β)θ]2

(α + β + n)2.

(2.23)


Para que R(θ, δ∗Π) = constante (variando θ), los coeficientes de θ2 yθ deben ser cero, o sea:

1. −n + (α + β)2 = 0

2. n − 2α(α − β) = 0

y por lo tanto α = β =√

n2

. Obtenemos entonces:

δ−(x+) =

√n

2+ x+

n +√

n(2.24)

que es la regla de Bayes para la densidad a priori Beta(√

n2

,√

n2

)y es

una regla igualadora con:

R(θ, δ−(x+)) =1

4(√

n + 1)2, ∀θ ∈ [0, 1] (2.25)

y por el Corolario 2.1, δ−(x+) es minimax y la densidad Beta(√

n2

,√

n2

)

es de Murphy.3Surge la pregunta ¿es δ−(x+) razonable?. Notemos que el metodo

minimax provee un metodo para escoger la o las densidades a priorique sean de Murphy. La densidad de Murphy obtenida es Π0(θ) =

Beta(√

n2

,√

n2

). ¿Por que el conocimiento que se tiene sobre θ debe

estar influenciado por el tamano del experimento n?. ¿Por que solo porn y no por otra informacion?.

La media de Π0 es 12

y su varianza es 14(√

n+1)→ 0, cuando n → ∞,

y por lo tanto estara cada vez mas concentrada alrededor de 12

a medidaque n crece. Pensemos en dos situaciones: (1) θ es la probabilidad deque una moneda al ser lanzada caiga cara. (2) θ es la probabilidad deque una tachuela al ser lanzada caiga de lado. Ciertamente Π0 no esrazonable en la situacion (2), y por otro lado es extrano que estemosmuy seguros a priori de que la moneda sea balanceada en la situacion(1), si sabemos que va ser lanzada digamos 109 veces. Otra manera dever si δ−(x+) es razonable es ver su funcion de riesgo R(θ, δ−) (2.25).Comparemosla con el riesgo del estimador insesgado

δ0(x+) =x+

n: R(θ, δ0) = EX

[(x+

n− θ

)2

| θ]

=V ar(X+ | θ)

n2=

θ(1 − θ)

n.


Graficamos en la figura 2.4, nR(θ, δ−) y nR(θ, δ0) para varios valoresde n.

0 .5 1

δ−δ−δ−δ−δ− (n → ∞)

(n = 100)

(n = 16)

(n = 4)

(n = 1)

nR(θ, δ)

.05

.1

.15

.2

.25

θI �δ0 δ0

Figura 2.4.

Para la situacion (1), δ− luce razonable a menos que n sea grande.En la situacion (2) δ0 luce mejor desde un n pequeno. En ningunasituacion δ− es razonable para n grande. Esto es consecuencia de quela previa que produce a δ− es, a medida que n crece, cada vez menosrazonable. En cualquier caso la regla de Bayes obtenida a partir deuna densidad a priori razonable, tıpicamente sera mejor que δ− y δ0.Notemos que en este ejemplo δ− es la unica regla minimax ya que elestimador de Bayes (Teorema 2.5) es unico. Pero Π0(θ) no es la unicade Murphy. La regla de Bayes para cualquier Π sera:

E(θ | x) = δ∗Π(x+) =

∫ 10 θ1+x+(1 − θ)n−x+dΠ(θ)∫ 10 θx+(1 − θ)n−x+dΠ(θ)

Si expandemos (1 − θ)n−x+, obtenemos que δ∗Π(x+) depende de Πsolo a traves de sus n + 1 momentos, por lo que la distribucion deMurphy no es unica.

En el ejemplo 2.8 el estimador minimax δ− resulto ser una regladeterminada no aleatoria. Como veremos mas adelante esto no es asıen general, y fue consecuencia de que la perdida cuadratica es con-vexa en d. Generalmente puede restringirse la atencion a reglas de-terminadas cuando la perdida es convexa, ya que dada cualquier regla


aleatoria puede conseguirse otra no aleatoria que es por lo menos tanbuena como esta. (Ver Lehmann (1983), Corolario 1.6.2). Este hechoes consecuencia de la desigualdad de Jensen. Bajo el ordenamientoBayesiano generalmente podemos restringirnos a reglas no aleatorias,sea la funcion de perdida convexa o no (Teorema 2.3).

2.4 Representacion Geometrica de las Re-

glas de Bayes y Minimax para Θ finito.

El primer paso para visualizar el problema de decision para Θ finitoes notar que el conjunto de riesgo S es convexo. Consideremos Θ ={θ1, θ2, . . . , θk} y

S ={y ∈ R

k : para δ ∈ D, yj = R(θj , δ), j = 1, . . . , k}

.

Teorema 2.8 El conjunto de riesgo S es un conjunto convexo de Rk.

Prueba. Sean y y y′ puntos arbitrarios de S, correspondientes aδ y δ′ respectivamente. Sea α tal que 0 < α < 1 y consideremosla regla δα que escoge a δ con probabilidad α y δ′ con probabilidad(1 − α). Entonces δα ∈ D y R(θj , δα) = αR(θj, δ) + (1 − α)R(θj , δ

′),∀ j = 1, . . . , k. Sea ahora z = (R(θ1, δα), . . . , R(θk, δα)) y se sigue que:

z = αy + (1 − α)y ∈ S. 2REGLAS DE BAYES: Para Θ finito, cualquier distribucion a priories un conjunto de k numeros no negativos Π(θj) = Πj , j = 1, . . . , k,cuya suma es 1. De acuerdo al ordenamiento Bayesiano todos los puntosy = (y1, . . . , yj) que tengan el mismo riesgo esperado

∑ΠjR(θj , δ) =

∑Πjyj

son equivalentes, bajo la distribucion Π. Entonces todos los puntos enel plano: ∑

Πjyj = b,

2.4. REPRESENTACION GEOMETRICA DE LAS REGLAS DE BAYES Y MINIMAX PARA Θ FINITO.47

para cualquier b real, son equivalentes.Variando b, cada uno de estos planos es perpendicular al vector del

origen al punto (Π1, . . . , Πk), y como cada Πi es no negativa, la pen-diente de la lınea de interseccion de cada plano con los ejes no puedeser positiva. La interseccion del plano

∑Πiyi = b con la diagonal

y1 = . . . = yk debe ocurrir en el punto (b, b, b, . . . , b). Para encon-trar la regla de Bayes minimizamos el riesgo esperado consiguiendo elınfimo de los diferentes valores de b, lo llamamos b, para el cual el plano∑

Πiyi = b intersecta a S. Si S no contiene sus puntos de frontera, en-tonces no existiran reglas de Bayes. Cuando S es un poliedro, cuyosvertices corresponden a decisiones no aleatorias, entonces el plano in-tersectara el poliedro al menos en uno de sus vertices. Si lo intersectaen solo uno de los vertices la regla de Bayes sera unica y no aleatoria.Si la interseccion contiene a mas de un vertice habra una infinidad dereglas de Bayes, muchas de las cuales corresponderan a reglas aleatoriaspero siempre habra al menos una regla de Bayes que correspondera auna regla no aleatoria, es decir, un vertice. Si Πi > 0, ∀i = 1, . . . , k, lainterseccion ocurrira en la frontera inferior y por tanto la o las reglas deBayes, de existir, seran admisibles. Por otra parte, es razonable antic-ipar que podemos obtener todas las decisiones admisibles como reglasde Bayes para alguna distribucion a priori Π = (Π1, . . . , Πk), ya quealternando los valores de Πj cambiaremos el angulo de interseccion delplano

∑Πiyi = b con los ejes coordenados. De esta manera, al obtener

las reglas de Bayes para todas las Π posibles, intersectaremos con todoslos puntos de la frontera inferior de S. Haremos esta afirmacion masprecisa en la proxima seccion.

REGLAS MINIMAX: El riesgo maximo para una regla de decisionfija δ es supj R(θj , δ) = max yj Todos los puntos y ∈ S que produzcanel mismo valor de max yj , seran equivalentes minimax. Entonces todoslos puntos y en la frontera del conjunto:

Q∗c = {y = (y1, . . . , yk) : yj ≤ c, j = 1, . . . , k},

para cualquier numero real c, son minimax equivalentes. Para encon-trar reglas minimax encontramos el ınfimo de los c. Lo denotamos c,llamado riesgo minimax, para el que Q∗

c intersecta a S. Cualquier δ,


cuyo punto de riesgo este asociado a un elemento de Q∗c ∩ S, es mini-

max. Es de prever entonces que incluso cuando reglas minimax existen,no necesariamente va a existir una minimax que sea no aleatoria, yaque Q∗

c ∩ S no va a contener necesariamente uno de los vertices. De

nuevo, no existiran reglas minimax cuando S no contiene sus puntos defrontera. Notamos que pueden haber muchas reglas minimax, y que lospuntos minimax no necesariamente caeran en la diagonal y1 = . . . = yk.(Se sugiere al lector hacer varios dibujos, en particular donde S sea unrectangulo o que S caiga enteramente por debajo de la diagonal). ElTeorema 2.7 tambien puede ser visualizado geometricamente. Veamosuna estrategia de la naturaleza como a la distribucion a priori Π, la cualrepresenta a la familia de planos perpendiculares a Π = (Π1, . . . , Πk).Para encontrar reglas de Bayes el TD encuentra el plano de esta familiaque es tangente por debajo a S. El riesgo de Bayes mınimo es b donde(b, . . . , b) es la interseccion de la recta y1 = . . . = yk con el plano tan-gente por debajo de S y perpendicular a (Π1, . . . , Πk). Entonces unadistribucion de Murphy sera la seleccion de valores Πj , j = 1, . . . , k,que haga esta interseccion tan lejos en la recta como sea posible. Comosiempre sucede que b ≤ c, si encontramos una Π0 para la que b = centonces Π0 debe ser de Murphy.

Continuacion Ejemplo 2.1. En este ejemplo tenemos Π1 = 0.6 yΠ2 = 1 − Π1 = 0.4. Los procedimientos Bayes equivalentes cumplencon:

Π1y1 + (1 − Π1)y2 = b donde b varıa en R.

O equivalentemente,

y2 =b

1 − Π1− Π1

1 − Π1y1. (2.26)

Como habıamos anticipado el coeficiente de y1 es negativo, y la rectaque pase por el origen y por (Π1, 1−Π1) = (0.6, 0.4) sera y2 = 1−Π1

Π1y1 y

se cumple que su pendiente multiplicada por la pendiente de (2.26) es(1−Π1

Π1

) (− Π1

1−Π1

)= −1, por lo que estas rectas son perpendiculares. La

recta interseccion de la diagonal con (2.26) debe ocurrir en (b, b, . . . , b).Si procedemos a disminuir b, movemos la recta (2.26) en forma paralela

2.4. REPRESENTACION GEOMETRICA DE LAS REGLAS DE BAYES Y MINIMAX PARA Θ FINITO.49

hasta intersectar a S en d3, donde si hacemos b mas pequeno la inter-seccion de (2.26) con S se hace vacıa. Para d3, R(θ1, d3) = −3910 yR(θ2, d3) = 340 por lo que:

b = (0.6)(−3910) + (0.4)(340) = −2210.

La interpretacion geometrica del ordenamiento Bayesiano para Π1 =0.6 se muestra en la figura 2.5, y en la figura 2.6 se muestra el orde-namiento minimax.

Vemos allı que la diagonal corta en un solo punto la frontera inferiorde S en la recta que une a d3 y d6, y en consecuencia la regla minimaxsera unica y aleatoria. Para hallarla buscamos una regla aleatorizadaque escoja a d3 con probabilidad α y d6 con probabilidad (1 − α).

Denotemos a esta regla δ−α . Su punto asociado de riesgo estara enla diagonal y1 = y2 y por tanto R(θ, δ−α ) = R(θ2, δ

−α ). Por ello es tal

que:

αR(θ1, d3) + (1 − α)R(θ1, d6) = αR(θ2, d3) + (1 − α)R(θ2, d6)

Sustituyendo los valores de los riesgos encontramos que: α = 5004750

=0.105 y (1 − α) = 0.895. Esto significa que para tomar una decisionel TD debe extraer un numero uniformemente distribuido en [0,1]. Siese numero es menor o igual a 0.105, entonces el TD decide hacer elexperimento, y si x = 0 tomo la accion a2 y si x = 1 tomo la accion a1.Pero, si el numero extraıdo es mayor a 0.105 entonces decido no hacerel experimento y tomar la accion a2, es decir vender el campo.

El riesgo de esta decision minimax sera:

(0.105)(−3910)+(0.895)(0) = (0.105)(340)+(0.895)(−500) = −411.8 = c.

Como se habıa anticipado c es mayor o igual al riesgo esperado deBayes b para Π1 = 0.6.

¿Es δ−α una regla de Bayes para alguna Π∗?. Geometricamente seve que la respuesta es afirmativa. Basta hallar aquella Π∗ para la cualla recta de puntos Bayes equivalentes sea paralela a la recta que unea d3 y d6. Para Π∗, todos los puntos de riesgo que unen a los quecorresponden a d3 y d6, ellos incluidos, corresponden a decisiones queson de Bayes. Encontremos Π∗ de tal manera que b∗ = c, o sea que Π∗

sera de Murphy.


-1000-2000-3000-4000-5000 1000

1000

2000

-1000

R(θ1, d)

R(θ2, d)

d1

d2

d3

d4

d5

d6

..

y1 = y2

(Π1, 1 − Π1)

Puntosequivalentes�

b

b

b

b

.......................

.................

.............

..................

Figura 2.5. Interpretacion geometrica de Bayes

Π∗1R(θ1, d3)+(1−Π∗

1)R(θ2, d3) = Π∗1R(θ1, d6)+(1−Π∗

1)R(θ2, d6) = b∗ = c

Sustituyendo los valores de R(θi, d) y c, obtenemos la distribucionde Murphy Π∗

1 = 0.1768 y Π∗2 = 1−Π∗

1 = 0.8232. Si el TD hubiese adop-tado un punto de vista Bayesiano, y por casualidad hubiese evaluadoa priori que la probabilidad de que hubiese petroleo era de 0.1768, surecomendacion final hubiese sido simplemente escoger entre d3 y d6 esequivalente con la informacion disponible y la utilidad asignada. Peroclaramente la decision minimax en este ejemplo no es razonable.

2.5. ADMISIBILIDAD Y REGLAS DE BAYES 51

-1000-2000-3000-4000-5000 1000

1000

2000

-1000

R(θ1, d)

R(θ2, d)

d1

d2

d3

d4

d5

d6

................

......

Murphy

cc

-2000

y1 = y2

Figura 2.6. Representacion geometrica de Minimax32.5 Admisibilidad y Reglas de Bayes

La conclusion general que vamos a obtener en esta seccion es doble: Poruna parte las reglas de Bayes son admisibles bajo condiciones bastantegenerales, por la otra, las reglas admisibles seran de Bayes para algunadistribucion a priori o seran lımites de reglas de Bayes.

Teorema 2.9 Si para la distribucion a priori Π la regla de Bayespromedio δΠ es unica, o si existe mas de una, y todas ellas tienen lamisma funcion de riesgo R(θ, δΠ), entonces δΠ es admisible.

Prueba. Supongamos que existe otra δ′ tal que R(θ, δ′) ≤ R(θ, δΠ),∀θ ∈ Θ. Entonces tomando valores esperados respecto de Π:

r(Π, δ′) = Eθ [R(θ, δ′)] ≤ Eθ [R(θ, δΠ)] = r(Π, δΠ).


Ahora como δΠ es Bayes promedio, δ′ tambien debe serlo y para queesto no contradiga las hipotesis debe cumplirse que R(θ, δ′) = R(θ, δΠ),∀θ ∈ Θ, en cuyo caso ambas δ′ y δΠ son admisibles.2

Del Teorema 2.3 sabemos que podemos restringirnos a las reglas noaleatorias. Por tanto el Teorema 2.9 se aplica esencialmente a reglasno aleatorias. Entonces si para Π la regla de Bayes no aleatoria dΠ esunica, o todas las reglas de Bayes no aleatorias tienen la misma funcionde riesgo, dΠ es admisible.

Seguidamente se dan condiciones para que la regla de Bayes seaunica en problemas de estimacion puntual.

Teorema 2.10 Si la funcion de perdida L(θ, d) es cuadratica, o masgeneralmente, es estrictamente convexa en d, la regla de Bayes δΠ esunica, excepto en conjuntos N tal que PX|θ(N) = 0, ∀θ ∈ Θ, siempreque:

1. r(Π, δΠ) < ∞

2. Conjuntos de medida cero de acuerdo a la distribucion predictiva,es decir, que si

PX(N) =∫

ΘPX|θ(N)dΠ(θ) = 0,

cumplan con PX|θ(N) = 0, ∀θ ∈ Θ

Prueba. Para error cuadratico medio, se sigue de la parte 1 delTeorema 2.5 que cualquier estimador de Bayes δΠ de g(θ) debe serigual a E[g(θ) | x] excepto en un conjunto N con PX(N) = 0. Paraperdidas estrictamente convexas la demostracion es consecuencia de quesi existe un valor que minimiza a una funcion estrictamente convexa,este es unico, y lo que sigue se deja como ejercicio. 2

La siguiente regla fue originalmente enunciada por D. Lindley, y esun precepto muy conveniente al momento de asignar distribuciones apriori.


REGLA DE CROMWELL: Al asignar una densidad a priori sobreΘ, es conveniente que Π(θ) > 0, ∀θ ∈ Θ. Una tal densidad a priori sela denomina de Cromwell.

Si π(θ0) = 0, entonces por el Teorema de Bayes (1.2), π(θ0 | x) = 0,incluso si la verosimilitud p(x | θ0) es muy grande. Es muy peligroso ydogmatico asignar previas que no sean de Cromwell, ya que no importacuan informativo sea el experimento, nunca podra alertar sobre nues-tra posible informacion erronea a priori. Un enunciado menos estrictode las reglas de Cronwell establecerıa que si Θ es el espacio donde semueven los parametros, el soporte de la distribucion a priori Π debeser igual a Θ.

La condicion (2) del Teorema 2.10 se satisface cuando el espacio deparametros Θ es un conjunto abierto, que es el soporte de Π (Cromwell),y si la probabilidad PX|θ(A) es continua en θ para todo A. En efecto,PX(N) = 0 implica que PX|θ(N) = 0 c.s.Π. Ahora si existe θ0 talque PX|θ0

(N) > 0 entonces existe una vecindad V de θ0 en la cualsi θ ∈ V, PX|θ(N) > 0. Como Π es de Cromwell, Pθ(V ) > 0 lo quecontradice la suposicion de que PX|θ(N) = 0 c.s.Π. Otra consecuenciaagradable de previas de Cromwell es el siguiente Teorema.

Teorema 2.11 Supongamos que el espacio de parametros es discreto,Θ = {θ1, θ2, . . .} y que existe una regla de Bayes δΠ para Π = {Π1, Π2, . . .},tal que r(Π, δΠ) sea finito. Si Π es de Cromwell, o sea Πj > 0, ∀j =1, 2, . . . , entonces δΠ es admisible.

Prueba. Si δΠ no es admisible entonces existe δ′ tal que

R(θj , δ′) ≤ R(θj , δΠ) ∀θj ∈ Θ,

y existe algun θi ∈ Θ tal que

R(θi, δ′) < R(θi, δΠ).

Como Πj > 0 ∀j

r(Π, δ′) =∑

j

ΠjR(θj , δ′) <

∑

j

ΠjR(θj , δΠ) = r(Π, δΠ),

lo que contradice que δΠ sea de Bayes. 2Veamos ahora el caso en que Θ no sea discreto.


Teorema 2.12 Supongamos que Θ = R y que R(θ, δ) es una funcioncontinua de θ, ∀δ ∈ D. Si existe una regla de Bayes δΠ para la cualr(Π, δΠ) es finito, y si el soporte de Π es R(Cromwell) entonces δΠ esadmisible.

Prueba. Si δΠ no es admisible, existe δ′ ∈ D tal que

R(θ, δ′) ≤ R(θ, δΠ) ∀θ ∈ R,

entonces

R(θ0, δ′) < R(θ0, δΠ) para algun θj ∈ Θ.

Sea f(θ) = R(θ, δΠ)−R(θ, δ′) y ǫ = f(θ0) = R(θ0, δΠ)−R(θ0, δ′) > 0.

Como R(θ, δ) es continua en θ, ∀δ ∈ D, tambien lo sera f(θ). Para ǫ2,

existe η > 0 tal que si | θ − θ0 |< η, | f(θ) − f(θ0) |< ǫ2

y entoncesf(θ) > f(θ0) − ǫ

2= ǫ

2.

Sea I = (θ0 − η, θ0 + η). Tomando valor esperado en Π, sigue que:

r(Π, δΠ) − r(Π, δ′) = Eθ [R(θ, δΠ) − R(θ, δ′)] >ǫ

2Pθ(I),

pero como θ0 esta en el soporte de Π (Cromwell) se tiene que Pθ(I) > 0,lo que contradice el hecho de que δπ es de Bayes.2

¿Cuando R(θ, δ) sera continua?. Si L(θ, a) es acotada, entoncessupa | L(θ, a) − L(θ0, a) |→ 0 cuando θ → θ0 para cada θ0 ∈ Θ,y si p(x | θ) es suficientemente regular, entonces R(θ, δ) es continua(Ferguson, 1967, Teorema 3.7.1). Una familia amplia de verosimili-tudes, para las que R(θ, δ) es continua, incluso si L(θ, a) no es acotada(como en error cuadratico), es la Familia Exponencial de verosimili-tudes (Ferguson, 1967, Teorema 3.7.2). Ejemplos de verosimilitudesque pertenecen a esta familia son: Binomial, Multinomial, Poisson,Beta, Normal, Gamma y otras. Por su importancia se estudiara estafamilia con mas detalle en los proximos capıtulos.

El proximo problema que enfocaremos es la existencia de reglas deBayes para un problema de decision. Comenzaremos por suponer queel conjunto de riesgo satisface las condiciones del Teorema 2.1. O sea:


1. λ(S) ⊂ S, esto dice que S es cerrado por debajo.

2. Existe M tal que si (y1, . . . , yk) ∈ S entonces yj > −M, ∀j =1, . . . , k, es decir S es acotado por debajo.

Teorema 2.13 Supongamos que Θ = {θ1, . . . , θk} y que el conjuntode riesgo S es cerrado y acotado por debajo. Si Π es de Cromwell,Πj > 0, ∀j = 1, . . . , k, entonces existe una regla de Bayes respecto deΠ.

Prueba. Sea B ={b : b =

∑kj=1 Πjyj para algun y ∈ S

}. El con-

junto B es acotado ya que S lo es. Sea b0 = inf B. Para cualquiersucesion y(n) ∈ S tal que

∑Πjy

(n)j converja a b0, el hecho de que Π

sea de Cromwell implica que cada sucesion y(n) esta acotada por ar-riba. Entonces existe un lımite finito y0 de la sucesion y(n) y ademas∑

Πjy0j = b0. Veamos que y0 ∈ λ(S).

Denotemos por cl(S) a la clausura de S y

Q∗y =

{x ∈ R

k : xj ≤ yj, ∀j}

,

o sea el conjunto de puntos que son al menos tan buenos como y. Comoy0 es un lımite de puntos en S, y0 ∈ cl(S) y {y0} ⊂ cl(S) ∩ Q∗

y0 . Mas

aun Qy0 ∩ cl(S) ⊂ {y0}. En efecto, sea y′ ∈ Q∗y0 − {y0} = Qy0

(Definicion 2.6) entonces:∑

Πjy′j < b0 y si y′

j ∈ cl(S) existiran puntos

y ∈ S tal que∑

Πjyj < b0 lo que contradice el hecho que b0 sea unacota inferior de B. Entonces Q∗

y0 ∩ cl(S) = {y0}, lo que implica que

y0 ∈ λ(S).Ahora bien, como S es cerrado por debajo, y0 ∈ S, lo que implica

que el mınimo valor de r(Π, δ) =∑

ΠjR(θj , δ) se obtiene en un punto deS. Finalmente cualquier δ ∈ D, para la que R(θj , δ) = y0

j , j = 1, . . . , k,es una regla de Bayes para Π. 2

En el resto de esta seccion el Teorema del Hiperplano Separante,que es equivalente al Teorema de Hahn-Banach para espacios linealesbastante generales, es crucial. Este Teorema establece que cualquierpar de conjuntos convexos pueden ser separados por un plano.


Teorema 2.14 (Hiperplano Separante.) Sean S1 y S2 conjuntosconvexos y disjuntos de R

k. Entonces existe un vector p 6= 0 tal que:

pty ≤ ptx ∀x ∈ S1, ∀y ∈ S2.

Prueba. Ver Ferguson 1967, p.70-74. 2S

z

Qz

Hiperplano{w : Πtw = c}

Figura 2.7. Hiperplano separante

Teorema 2.15 (Desigualdad de Jensen.) Sea f una funcion con-vexa en R definida en un conjunto convexo no vacıo S de R

k. Sea Xunvector aleatorio k dimensional con esperanza E[X] finita para el queP (X ∈ S) = 1. Entonces E(X) ∈ S y f (E[X]) ≤ E[f(x)].

Prueba. Ver Ferguson 1967, p.76-77. 2Ya se habıa anticipado, como una consecuencia de la desigualdad

de Jensen, que para una funcion de perdida convexa tal que toda de-cision aleatorizada tiene perdida esperada finita podemos restringirnosa decisiones no aleatorias. La idea basica es la siguiente. Si X es unav.a que toma valores en el conjunto de acciones posibles A de acuerdoa la distribucion P , entonces:

L(θ, P ) = E[L(θ, x)] ≥ L(θ, E[X]) y E[X] ∈ A.


La pregunta que nos interesa ahora es si toda regla admisible es deBayes para alguna Π. La respuesta es afirmativa para Θ finito.

Teorema 2.16 Supongamos que Θ es finito. Si la regla δ ∈ D esadmisible, entonces δ es una regla de Bayes para alguna distribucionΠ.

Prueba. Sea δ admisible cuyo punto de riesgo asociado es z. En-tonces Qz∩S = ∅, o sea no hay puntos mejores a z. Tenemos por tantodos conjuntos convexos y disjuntos, Qz y S. La situacion se describeen la figura 2.7.

Por el teorema del hiperplano separante, existe un vector Π 6= 0tal que Πty ≤ Πtx, ∀y ∈ Qz y ∀x ∈ S. Sea c = Πtz. Entonces elhiperplano {w : Πtw = c} separa a Qz de S. Esto es porque si x ∈ Sy y ∈ Qz , tenemos Πty ≤ c = Πtz ya que z ∈ S.

Ademas, Πtx ≥ sup{Πty : y ∈ Qz} = Πtz. Entonces

Πty ≤ c = Πtz ≤ Πtx ∀y ∈ Qz y ∀x ∈ S,

y decimos que el hiperplano es tangente a S, en el punto z. Veamosque Πj ≥ 0 para cada j. Consideremos cualquier y con yj < zj , ∀j.Como y ∈ Qz entonces Πty ≤ Πtz, por lo tanto Πj(zj − yj) ≥ 0,o sea Πj ≥ 0. Como Π 6= 0 y cada una de sus componentes es nonegativa,

∑Πj > 0. Podemos entonces normalizar a Π para hacerla

una distribucion haciendo Π∗j = Πj∑

Πj. (Notar que todas las propiedades

de Π descritas arriba son heredadas por Π∗).Luego Π(θj) = Π∗

j define una distribucion de probabilidad para lacual el punto x tiene riesgo Bayesiano (Π∗)tx. Pero, (Π∗)tz ≤ (Π∗)tx

para todo x ∈ S, o sea z es un punto en S con riesgo de Bayes mınimo.Como z es el punto de riesgo de δ, esta regla es de Bayes para ladistribucion Π∗. 2Corolario 2.3 En las condiciones del Teorema 2.16, todas las reglasde decision cuyos puntos de riesgo estan en λ(S) son reglas de Bayes.

¿Sera cierto que en general toda regla admisible es de Bayes?. Lamala noticia es que no es cierto, la buena es que es “casi” cierto.


Ejemplo 2.9. Supongamos que la variable aleatoria X ∼ N(θ, 1),o sea Θ = R. Se desea estimar θ con error cuadratico. Entoncesel estimador δ(x) =

∑xi

n= x, para una muestra de tamano n, es

admisible (Lehmann 1983, p. 265-267, Berger 1985, p. 545-548). Perox no es de Bayes, como vimos en la aplicacion (1) del Teorema 2.6.Esta es la razon por la cual probar admisibilidad de x no es facil. Sinembargo vimos en el ejemplo 2.6, (2.10), que el estimador de Bayespara una densidad previa normal puede escribirse como:

µn(x | τ2, µ) =1n

τ2 + 1n

µ +τ2

τ2 + 1n

x.

Entonces x puede aproximarse por µn(x | τ2, µ) de dos maneras:

1. Si n → ∞, µn(x | τ2, µ) → x. Decimos que x es “lımite deBayes”.

2. Si τ2 → ∞ para cualquier n fijo, µn(x | τ2, µ) → x. Decimosque x es la esperanza a posteriori, partiendo de una densidad apriori impropia π(θ) = 1,

∫∞−∞ π(θ)dθ = ∞, y por tanto no es

“propiamente” de Bayes.3Es cierto, con gran generalidad, que toda decision admisible es de

Bayes o lımite de Bayes (en varios sentidos), Wald(1950), Brown(1986)p. 254-268. Es en cierta manera paradojico (y afortunado) que aundesde el punto de vista clasico-frecuentista que propone la admisibilidadcomo desideratum, concluyamos que se debe actuar “como Bayesiano”(o lımite de Bayesiano).

2.6 Admisibilidad y Reglas Minimax∗

Comenzamos por presentar una ilustracion de Teorıa de Juegos dondeel criterio minimax tiene su ambito natural.

Ejemplo 2.10 (Pares o Nones, Ferguson 1967). Dos jugadoresmuestran 1 o 2 dedos simultaneamente. El jugador 1 (Naturaleza)recibe en $, del jugador 2, el numero de dedos sobre la mesa, siempreque el total de dedos mostrado sea impar. El jugador 2 (TD) recibe,

2.6. ADMISIBILIDAD Y REGLAS MINIMAX∗ 59

del jugador 1, en $, el numero de dedos sobre la mesa siempre que eltotal sea par. Si la perdida es monetaria, para el Jugador 2, esta vienedada por:

L(θ, a) :Θ\A 1 2

1 -2 32 3 -4

Este es un juego de “suma cero” ya que lo que recibe un jugador lopierde el otro. ¿Cual de los dos jugadores ud. preferirıa ser?.

Llamemos δp a una estrategia aleatoria seguida por el jugador 2(una decision determinada serıa tonta en este contexto) que escoge 1con probabilidad p y 2 con probabilidad (1-p). El conjunto de riesgode δp viene dado por:

S = {(L(θ1, δp), L(θ2, δp)) : 0 ≤ p ≤ 1} ,

entonces

S = {(−2p + 3(1 − p), 3p − 4(1 − p)) : 0 ≤ p ≤ 1}

= {(3 − 5p,−4 + 7p) : 0 ≤ p ≤ 1}.El conjunto de riesgo S es una recta que une (3,-4) con (-2,3), y

se muestra en la figura 2.8. La estrategia minimax vendra dada por lainterseccion de S con la diagonal y1 = y2 : 3 − 5p = −4 + 7p, o seap = 7

12el cual corresponde a un riesgo minimax: 3 − 5 7

12= 1

12. En este

ejemplo la regla minimax es tambien de Bayes respecto a la distribucion(Π1, 1 − Π1) que es perpendicular a S, (seccion 2.3). La pendiente dela recta que pasa por el origen y (Π1, 1−Π1) es 1−Π1

Π1, que multiplicada

por la pendiente de S debe ser igual a -1, de donde Π1 = 712

.

De hecho cualquier δp (y no solo δp) es de Bayes respecto de Π. Esto

es consecuencia de que S es una recta, que queda completamente inter-sectada por la recta que definen los procedimientos Bayes-equivalentesal tocar la frontera inferior de S. El riesgo Bayesiano de Π1 paracualquier δp es: Π1(3 − 5p) + (1 − Π1)(−4 + 7p) = 1

12, entonces Π1

es de Murphy, por ser igual al riesgo minimax. El jugador 1 (siendo in-teligente) escoge θ1 con probabilidad 7

12. Esta regla mantiene la perdida


esperada de Π en al menos 112

. Llamaremos a este valor, el valor inferiordel juego V .

y1 = y2

θ1

θ2

S

) (1/12, 1/12)

Figura 2.8 Juego de pares o nones

Por su parte el jugador 2 (siendo inteligente y estoico) tiene unaestrategia δp con p = 7

12, que restringe su perdida esperada en a lo

sumo 112

. Llamaremos a este valor, el valor superior del juego V . Eneste ejemplo, V = V = V , llegando ası a un punto de equilibrio y sedice que el juego tiene un valor V . Un arbitro imparcial dictaminarıacomo “justo” que 2 le pagase a 1, 1

12. ¿Ud. escogerıa ser el jugador 1?3

A continuacion se introduciran formalmente algunas definiciones an-ticipadas en el ejemplo 2.9.

Definicion 2.13 Denotemos por Θ∗ al conjunto de todas las distribu-ciones de probabilidad sobre Θ.

Usando el ejercicio 2.14, podemos refrasear la definicion de una reglaminimax δ− ∈ S como

infδ∈D

supΠ∈Θ∗

r(Π, δ) = supΠ∈Θ∗

r(Π, δ−).


Definicion 2.14 El riesgo o valor minimax o valor superior del juegoV se define por:

V = infδ∈D

supΠ∈Θ

R(Π, δ) = infδ∈D

supΠ∈Θ∗

r(Π, δ).

El valor V es obtenido por una regla minimax.

Definicion 2.15 El riesgo o valor maximin o valor inferior de juegoV se define por:

V = supΠ∈Θ∗

infδ∈D

r(Π, δ).

Note que si δΠ es de Bayes respecto de Π entonces:

V = supΠ∈Θ∗

r(Π, δΠ),

y concluimos que V es obtenido por una distribucion de Murphy (Definicion2.12).

Teorema 2.17 V ≤ V .

Prueba. Para cualquier Π′ ∈ Θ∗ y δ ∈ D se cumple que

r(Π′, δ) ≤ supΠ∈Θ∗

r(Π, δ),

y esto implica

infδ∈D

r(Π′, δ) ≤ infδ∈D

supΠ∈Θ∗

r(Π, δ) = V ,

y como esto se cumple para cualquier Π′ ∈ Θ∗, tambien tomando elsupremo en Θ∗ en la parte izquierda, y por tanto: V ≤ V .2

En Teorıa de Juegos es fundamental saber cuando V = V = V , osea cuando V ≥ V , ya que en ese caso un punto de equilibrio en eljuego existe. En Teorıa de Decision sin embargo, como la naturalezano esta conspirando continuamente en arruinarnos, no es tan crucial.Sin embargo es util saber cuando las reglas minimax son tambien deBayes.


Teorema 2.18 (Teorema Minimax). Suponemos que Θ es finito,Θ = {θ1, . . . , θk}, y que S es acotado por debajo. Entonces V = V = Vy existe una distribucion de Murphy Π0. Mas aun, si S es cerrado pordebajo, entonces existe una regla minimax admisible δ− la cual es deBayes respecto de Π0.

Prueba. Queremos verificar que V ≤ V . Denotemos por α1 alvector (α, . . . , α)t. Sea V = sup{α : Q∗

α1∩ S = ∅}. La situacion es

similar a la figura 2.8, donde α1 = z. Veamos que V ≤ V . Se cumpleque para cada n, existe una regla δn tal que:

R(θi, δn) ≤ V +1

n∀i = 1, . . . , k. (2.27)

Por lo tanto, para todo Π ∈ Θ∗,

r(Π, δn) ≤ V +1

ny sup

Π∈Θ∗

r(Π, δn) ≤ V +1

n,

para todo n. Esto implica que V ≤ V .Veamos ahora que V ≤ V . Denotemos al interior de Q∗

α1por Qo

α1.

Notemos que Qoα1

y S son conjuntos convexos y disjuntos. Por el Teo-rema 2.13, existe un hiperplano Πtx = c que separa a Qo

α1y S, Πtx ≥ c

si x ∈ S y Πtx ≤ c si x ∈ Qoα1

. Todas las coordenadas de Π deben serno negativas. En efecto, supongamos que Πi < 0. Hagamos xi → −∞,manteniendo las otras coordenadas fijas. Pero x ∈ Qo

α1y Πtx → ∞

lo cual contradice que para x ∈ Qoα1

, Πtx ≤ c. Entonces∑

Πi > 0 yprocediendo analogamente al Teorema 2.15, renormalizamos a Π de talmanera que

∑Πi = 1. Llamemos a esa distribucion Π0, que puede ser

tomada como distribucion a priori. Como para x ∈ Qoα1

, Πt0x ≤ c, si

hacemos x tender a α1 vemos que V ≤ c. Entonces para todo δ,

r(Π0, δ) =∑

ΠiR(θi, δ ≥ c ≥ V. (2.28)

Por lo tanto Π0 es de Murphy y:

V = supΠ∈Θ∗

infδ∈D

r(Π, δ) ≥ infδ∈D

r(Π0, δ) ≥ V,

y finalmente:


V = V = V.

Ahora sea S cerrado por debajo. Tomemos la δn de (2.27) denotando

yn = (R(θ1, δn), . . . , R(θk, δn)).

Como la sucesion yn es acotada, tienen un punto lımite y, queademas pertenece a cl(S). Entonces Q∗

y∩cl(S) 6= ∅ y λ(Q∗y∩S) 6= ∅, ya

que de la demostracion del Teorema 2.12 concluimos que si un conjuntoconvexo no vacıo B es acotado por debajo, entonces λ(B) 6= ∅. Seaz ∈ λ(Q∗

y ∩ cl(S)), y como Q∗y ∩ cl(S) ∩ Q∗

z = {z}, tenemos que

z ∈ Q∗y y Q∗

z ∩ cl(S) = {z} y por tanto z ∈ λ(S). Como S es

cerrado por debajo, z ∈ S y cualquier δ0 cuyo punto de riesgo sea z

es admisible (Teorema 2.1). Ademas δ0 satisface: r(π, δ0) ≤ V ya queR(θi, δ0) ≤ V, ∀i = 1, . . . .k. Finalmente, de (2.28), r(Π0, δ0) = V , o seaque δ0 es de Bayes para Π0.2

Una version mas general aparece por ejemplo en Blackwell y Gir-shick (1954), donde se requiere que el espacio de acciones A sea unsubconjunto cerrado, acotado y convexo de R

n y L(θ, a) sea, para cadaθ, una funcion continua en a y convexa. En general no siempre ocurreque estrategias minimax o maximin existen.

Para espacios de acciones no acotados, el siguiente ejemplo ilustraque el juego no tiene ni siquiera un valor.

Ejemplo 2.11. Consideremos el juego donde cada jugador escoge unnumero positivo. El jugador que escoja el numero mayor gana $1 delotro. Aquı, Θ = A = (1, 2, . . .) con:

L(θ, a) =

1 si θ > a0 si θ = a

−1 si θ < a

Una estrategia aleatoria para el jugador 1 es un vector Π = (Π1, Π2, . . .),donde Πi es la probabilidad de seleccionar el numero i. Se sigue que:L(Π, a) =

∑i>a Πi −

∑i<a Πi. Para cualquier Π fija sucede que:

infa

L(Π, a) = infa→∞L(Π, a) = 1,


y entoncesV = sup

Πinfa

L(Π.a) = −1.

Se deja como ejercicio verificar que V = 1. Como V 6= V el juegono tiene un valor. No existen estrategias optimas en este juego.3

Ya vimos (Teorema 2.7 y corolarios siguientes) la importancia dereglas igualadoras, es decir δ0 ∈ D es igualadora si R(θ, δ0) = c, paratodo θ ∈ Θ. Veamos otro resultado para reglas igualadoras.

Teorema 2.19 Si δ0 ∈ D es una regla igualadora y admisible entonceses minimax.

Prueba. R(θ, δ0) = c, ∀θ ∈ Θ. Como δ0 es admisible, cualquierotra δ ∈ D debe cumplir con R(θ, δ) ≥ c para algun θ0 ∈ Θ. De otramanera δ dominarıa a δ0, contradiciendo su admisibilidad. Entonces,

supθ∈Θ

R(θ, δ) ≥ c = supθ∈Θ

R(θ, δ0), ∀δ ∈ D,

por lo que δ0 es minimax.2Las reglas minimax, de existir, no son necesariamente unicas ni

admisibles. Pero si son unicas, son admisibles.

Teorema 2.20 Si δ0 es la unica regla minimax, entonces es admisible.

Prueba. Si δ0 no es admisible, existe alguna δ1 ∈ D que es mejorque δ0 y por tanto: R(θ, δ1) ≤ R(θ, δ0), ∀θ ∈ Θ. Entonces,

supθ

R(θ, δ1) ≤ supθ

R(θ, δ0)

y δ1 tambien debe ser minimax, lo que contradice la unicidad de δ0.2Continuacion Ejemplo 2.5. El estimador δ0(x) = x es minimax y esuna regla igualadora para cualquier dimension n (Ver Teorema 2.6 (1)).Para n = 1 o n = 2, δ0 es admisible y es el unico estimador minimax.(Esto ultimo es consecuencia de que L(θ, a) = (θ−a)2 es estrictamenteconvexa en a). Si n ≥ 3, δ0 es inadmisible, por lo que otros estimadores


minimax existen, de acuerdo al Teorema 2.20. De hecho para esteproblema existe una clase grande de estimadores minimax (Berger 1985,p. 363-364) y aparece el problema de como decidir cual usar. Nohay solucion satisfactoria a este problema a menos que se enfoque,parcialmente, desde el punto de vista Bayesiano (Berger y Berliner,1984).3

Otro problema del punto de vista minimax es su fuerte dependenciade la funcion de perdida utilizada.

Continuacion Ejemplo 2.8 (Lehmann, 1983). El error cuadraticopuede ser no apropiado ya que errores de estimacion de tamano fijoparecen ser mas serios cuando θ esta cerca de 0 o 1, que cuando esta

cerca de 12. Tomemos la funcion de perdida: L1(θ, d) = (θ−d)2

θ(1−θ).

Bajo L1 el estimador insesgado δ0(x+) = x, es una regla igualadora,la cual es Bayes respecto de la distribucion uniforme en (0,1) y por lotanto es minimax respecto de L1. Una indicacion de cuan fuertementela regla minimax depende de la funcion de perdida utilizada, es el hechode que el estimador minimax para L cuadratica, δ−(x+) (2.24), tienefuncion de riesgo no acotada bajo L1. Las afirmaciones hechas en esteejemplo se dejan como ejercicio.3

Incluso en problemas de inferencia estadıstica, donde la funcion deperdida es acotada, y existe una unica regla minimax, esta bien puedeser “tonta” como se muestra en el siguiente ejemplo.

Continuacion Ejemplo 2.8 (Berger,1985). Supongamos ahora laperdida:

L2(θ, d) = min

{2, (1 − d

θ)2

},

para Θ = (0, 1], A=[0,1]. Resulta ser (Berger 1985, p. 374) que elunico estimador minimax δ2(x) respecto de L2 es: δ2(x) = 0, ¡sin im-portar cual es el resultado del experimento!. L2 es razonable, (erroresde estimacion cerca de θ = 0 son mas serios, permaneciendo la perdidaacotada) y sin embargo el estimador minimax resuelve ignorar los datosy estimar θ como 0. El estimador δ2 solo tendrıa sentido si tuviesemos


una creencia a priori enorme de que θ es cero. (“No me confundas conlos hechos”). En este caso el estimador minimax no es particularmente“objetivo”.3

En conclusion, el criterio minimax no parece atractivo como enfoquegeneral a la Teorıa de Decision. Afortunadamente el enfoque Bayesianoes adecuado para decidir racionalmente, tanto desde el punto de vistacondicional (a los datos), como desde el punto de vista frecuentista. Elunico punto debil de Bayes es el de su dependencia de la distribuciona priori. Sin embargo, esto puede ser subsanado realizando analisis desensibilidad con respecto a la distribucion a priori, verificando cuandola decision optima de Bayes es o no robusta respecto a la distribuciona priori.

2.7 Ejercicios

2.1 Verificar la tabla de riesgos R(θi, d) del ejemplo 2.1.

2.2 Demostrar el Lema 2.1.

2.3 Verificar que la Esperanza de la densidad (2.13) es x0 y la Esper-anza de (2.16) es µ(x).

2.4 Demostrar 2 y 3 del Teorema 2.5.

2.5 Verificar que la varianza a posteriori del ejemplo 2.7 es µ(x)[1−µ(x)]n′+1

.

2.6 Demostrar que para el ejemplo 2.6 δ(x) = x es insesgado y queEX|θ[X − θ]2 = σ2

n.

2.7 Demostrar que para el ejemplo 2.7 δ(x) = x es insesgado y que

EX|θ[X − θ]2 = θ(1−θ)n

.

2.8 Demostrar que la regla de decision δ− es minimax si y solo siR(θ′, δ−) ≤ supθ∈Θ R(θ, δ) para toda θ′ ∈ Θ y para toda δ ∈ D.

2.9 Demostrar que Π0 es de Murphy si y solo si r(Π0, δ′) ≥ infδ r(Π, δ)

para toda δ′ ∈ D y para toda distribucion Π.

2.7. EJERCICIOS 67

2.10 Verificar la ecuacion (2.23).

2.11 Completar la demostracion del Teorema 2.9.

2.12 Verificar que el supuesto de que Π sea de Cromwell es necesarioen el Teorema 2.12, considerando el siguiente conjunto de riesgoconvexo, cerrado por debajo y acotado por debajo:

S = {(y1, y2) : y1y2 ≥ 1, y1 > 0}

Sugerencia: tome Π1 = 1. (Ver Ferguson 1967).

2.13 Obtener X como regla de Bayes generalizada en la situacion delejemplo 2.9, para la densidad a priori impropia π(θ) = 1 (Uni-forme en toda la recta).

2.14 Demostrar que supΠ∈Θ∗ r(Π, δ) = supθ∈Θ R(θ, δ).

2.15 Verificar que en la situacion del ejemplo 2.11, V =1.

2.16 Verificar que el estimador δ(x) = x del ejemplo 2.5 es minimax yes una regla igualadora para cualquier dimension n.

2.17 Verificar las afirmaciones del ejemplo 2.8.

2.18 Un inversionista puede invertir $5000 en el banco o en acciones.Las acciones pueden subir θ1 o bajar θ2 de modo que la infor-macion disponible esta contenida en siguiente tabla:

U(θ, a) θ1 θ2

invertir 5100 4900banco 5000 5000prob. 0.6 0.4

Una posibilidad es que el inversionista decida pagar f dolares paraque un experto lo asesore. Se sabe que la opinion del experto, X1

invertir, X2 no invertir, tiene una confiabilidad que se expresa en:

p(x1 | θ1) = 0.8 p(x2 | θ2) = 0.7.


Hacer un arbol de decision y decidir la accion que produzca unamayor utilidad esperada.

2.19 Un comprador exige una garantıa de un ano sobre un ciertoequipo. El proveedor tiene la opcion de revisar el equipo a1 ono, a2. La utilidad de estas acciones es:

U(θ, a) a1 a2

Defectuoso 700 0No defectuoso 800 1000

Para detectar posibles fallas en el equipo el proveedor puede usarun aparato de chequeo que consta de dos sensores. Los sensoresactivan una senal auditiva con probabilidad 0.9, si el aparato esdefectuoso y con probabilidad 0.4 si no lo es. El costo del aparatoes de 100 y se toma la decision de revisar el equipo si por lomenos uno de los dos sensores se activa. El proveedor sabe porexperiencia que el 20% de los equipos es defectuoso. Dibuje unarbol de decisioon que permita obtener la decision optima parael proveedor.

2.20 Un paciente de emergencia puede tener dos tipos de enfermedad:Tipo I con probabilidad 0.4 y Tipo II con probabilidad 0.6. Deno recibir el tratamiento adecuado podra morir con probabilidad0.8. El medico puede tomar tres acciones:

1. no tratar al paciente

2. darle una droga al paciente

3. operar al paciente

pero estas tres acciones son excluyentes.

Tanto una operacion como la droga le pueden producir la muerteal paciente, la primera con probabilidad 0.5 y la segunda conprobabilidad 0.2.

Si el paciente sobrevive a la droga, esta no hara efecto con prob-abilidad 0.5 si tiene la enfermedad Tipo I, mientras que la proba-bilidad sera 1 si tiene la enfermedad Tipo II. Para el caso de que

2.7. EJERCICIOS 69

sobreviva a la operacion, esta sera beneficiosa con probabilidad0.8 si tiene la enfermadad Tipo I y con probabilidad 0.4 si tienela Tipo II.

Grafique un arbol de decision que permita seguir la estrategiaoptima. ¿Que debe hacer el medico?.

2.21 Considere una muestra X1, . . . , Xn ∼ N(θ, σ2) donde σ2 es cono-cida y suponga π(θ) = N(µ, τ2). Calcule δ∗π para estimar θ.

2.22 Considere un experimento binomial X ∼ Bin(n, θ), n fijo, ysuponga queπ(θ) = Beta(n0x0, n0(1 − x0)). Calcule δ∗π para estimar θ.

2.23 A una pieza de un motor de avion se le puede hacer una pruebaantes de su instalacion. Esa prueba tiene una chance de 75% derevelar que la pieza es defectuosa, y el mismo chance de aprobaruna pieza buena. Tanto si se ha hecho la prueba o no, se puede aun alto costo rehacer la pieza pero ası estaremos seguros de quela pieza esta libre de defectos. Si se instala una pieza defectuosase pierde L. Rehacer la pieza tiene un costo de L/5, y sabemosque a priori una de cada ocho piezas es defectuosa. Calcule hastacuanto se puede pagar por hacer la prueba, determinar el arbolde decision y las decisiones optimas.


Capıtulo 3

Fundamentos de la TeorıaBayesiana de Decision

En este capıtulo haremos una revision rapida de los fundamentos de laTeorıa Subjetiva Bayesiana, diferentes de los fundamentos estudiadosen el Capıtulo 2, el cual esta basado en el concepto frecuentista deriesgo R(θ, d) y admisibilidad. En la primera seccion introducimos laTeorıa de Utilidad que ilustra que la Teorıa Estadıstica de Decision, aligual que el resto de las teorıas matematicas, puede ser axiomatizada(los axiomas de racionalidad) obteniendose, como consecuencia logica,el metodo Bayesiano de minimizar la perdida esperada. Ningun otroenfoque ha podido ser axiomatizado, pero existen conjuntos de axiomasmenos restrictivos que generalizan el enfoque Bayesiano “estricto” (esdecir el que incluye la hipotesis de la precision). Una tal generalizacionse debe a Walley(1991), quien demuestra que la coherencia del enfoqueBayesiano estricto se preserva bajo condiciones mas realistas. En laultima seccion de este capıtulo expondremos otros principios generalesfundamentales, el de la verosimilitud y el del riesgo posterior, que nosindican que la estadıstica frecuentista (o incondicional) tiene problemasbasicos y que solo un metodo condicional a los datos obtenidos X, puedeser correcto.

71

72 CAP´ıTULO 3. FUNDAMENTOS DE LA TEOR´ıA BAYESIANA DE DECISION

3.1 Breve introduccion a la Teorıa de Uti-

lidad

El objetivo de la Teorıa de Utilidad es el de construir la funcion de util-idad (o perdida) y el de justificar el principio Bayesiano de maximizar(minimizar) la utilidad (perdida) esperada. La Teorıa de la Utilidadtiene sus origenes en Ramsey(1926) y De Finetti(1937). Aquı hare-mos una breve introduccion. Tratamientos mas completos aparecen enDeGroot(1970), Ferguson(1967) y Berger(1985).

Al momento de evaluar las consecuencias de las posibles acciones nosencontramos al menos con dos dificultades. La primera es que debemoscomparar los valores de entidades muy disımiles para las cuales no existeuna obvia escala de medida. Considere por ejemplo la posibilidad deasistir a un curso de Teorıa de Decision que durara un par de semanas.Alternativamente podrıa tomar vacaciones o aceptar un trabajo duranteese perıodo. Todo el tiempo tenemos que tomar decisiones de este tipo,pero no esta nada claro que exista una escala precisa en la cual podamoscomparar las consecuencias, que van a ser no determinısticas, de las tresposibles acciones descritas.

El segundo problema es que incluso cuando existe una escala, porejemplo monetaria, esta no necesariamente refleja los verdaderos valoresdel TD. Supongamos que su Departamento de Matematicas le ofrece $500 por dictar un curso en el perıodo vacacional. Si usted tuviese enel banco a su disposicion $ 5000, valorarıa mucho menos el salario quele ofrecen a costa de arruinar sus vacaciones, que si no tuviese reservaalguna. En otras palabras el valor que usted le asigna a $ 5500 no esel mismo que usted le asigna al valor de $ 5000 mas el valor de $ 500.O sea, su escala de valores no es lineal, pero la escala monetaria sı.

Otro ejemplo es el siguiente: Suponga que usted ha sido el ganadorde una competencia y se le ofrece una de dos opciones: un regalo de$ 100 o lanzar una moneda balanceada y si esta cae cara usted recibe$ 300, y si cae sello usted no recibe nada. Probablemente usted sequedarıa con los $ 100 seguros, o sea que su valor esperado de la se-gunda opcion es menor que $ 100. Pero si su escala de valores fuesemonetaria, usted esperarıa recibir $ 150 y deberıa (siendo racional)aceptar la segunda opcion. Si acepta la primera opcion significa que

3.1. BREVE INTRODUCCION A LA TEOR´ıA DE UTILIDAD 73

usted valora $ 300 en mucho menos de tres veces lo que usted valora $100, o usted esta siendo irracional.

Ejemplo 3.1 (La Paradoja de San Petersburgo). Usted debepagar $ c para entrar en el siguiente juego de apuestas. Se lanza unamoneda balanceada (probabilidad de caer cara igual 1/2) hasta que laprimera cara aparezca. Si esto toma n lanzamientos a usted se le paga $2n. ¿Cuanto esta usted dispuesto a pagar para entrar en esta apuesta?.Supongamos que su escala de valores es monetaria, entonces su utilidadesperada es:

( ∞∑

n=1

2nP (n)

)− c =

( ∞∑

n=1

2n2−n

)− c = ∞.

Por lo tanto usted deberıa estar dispuesto a pagar $ c arbitraria-mente grande para entrar en la apuesta ya que la utilidad esperadasera positiva, a pesar de que la probabilidad de ganar $ 16 o mas es deapenas 1

8. Lo irracional de este hecho nos indica que nuestra escala de

valores respecto al dinero no debe ser lineal, sino concava para magni-tudes grandes, y posiblemente acotada. ¿A quien le importa $ 1 cuandoya tiene $ 10100?.3

Las consecuencias de nuestros actos seran llamadas “recompensas” ry su espacio es ℜ. A menudo hay incertidumbre sobre las consecuenciasque realmente van a ocurrir. Ası los resultados de las acciones son dis-tribuciones de probabilidad P en ℜ, llamadas apuestas. Denotaremospor P al conjunto de esas probabilidades. Para trabajar con valoresy preferencias en P, supongamos por el momento la existencia de unafuncion U(r) con valores en los reales , tal que el valor de la distribucionP ∈ P viene dado por el valor esperado de U bajo P . Denotamos aeste valor esperado por: EP [U(r)] o simplemente por U(P ). Si estafuncion U existe, la llamamos la funcion de utilidad. Supongamos queel TD puede avaluar sus preferencias entre las apuestas. Esto es paraP1 y P2 en P puede juzgar si:

1. P1 6 P2 (prefiere P2 a P1) o

2. P2 6 P1 (prefiere P1 a P2) o


3. P1 ≈ P2 (P1 y P2 son equivalentes).

Esta avaluacion puede ser muy difıcil en la practica, y puede diferirentre individuos. Escribimos P1 6 P2 para decir que P1 no se pre-fiere a P2, o sea P1 6 P2 o P1 ≈ P2. Una recompensa r ∈ ℜ laidentificaremos con la distribucion en P, denotada por 〈r〉, que leasigna probabilidad uno al punto r. El objetivo es buscar una funcionU que represente a traves de su valor esperado, el patron de pref-erencias del TD en P. Esto es, procurarnos una funcion U tal queP1 6 P2 si y solo si U(P1) ≤ U(P2), que sera la funcion de utilidad.Su existencia no esta nada clara y sera consecuencia de los axiomasde racionalidad que postularemos luego. Presentamos seguidamentedos metodos utiles para la construccion de U (supuesta su existencia).En estos metodos nos concerniran mezclas de apuestas de la formaP = αP1 + (1 − α)P2, donde 0 < α < 1. Esta P es la distribucion enP tal que para A ⊂ ℜ, P (A) = αP1(A) + (1− α)P2(A). En particular,P = α〈r1〉 + (1 − α)〈r2〉 es la distribucion que asigna probabilidad α ala recompensa r1 y (1 − α) a la recompensa r2. Note que por ejemplo:U(P ) = αU(〈r1〉)+ (1−α)U(〈r2〉) = αU(r1)+ (1−α)U(r2), es el valoresperado de la recompensa para la apuesta P .

3.1.1 Metodos de construccion de la funcion deutilidad U

METODO 1: En este metodo, α es un numero tal que 0 < α < 1.Los pasos a seguir son:

1. Se escogen dos recompensas r1 y r2 tal que: r1 6 r2. Si existen unarecompensa mejor y una peor asıgnelos a r1 y r2 respectivamente.Haga U(r1) = 0 y U(r2) = 1.

2. Para una recompesa r3, tal que r1 6 r3 6 r2 encuentre α tal que:

r3 ≈ P = α〈r1〉 + (1 − α)〈r2〉.

O sea, r3 es equivalente a la apuesta que nos da r1 con proba-bilidad α y r2 con probabilidad (1 − α). (Encontrar α puede serdifıcil). Defina,

U(r3) = U(P ) = αU(r1) + (1 − α)U(r2) = 1 − α.


3. Para r4 tal que r3 6 r4 6 r2 encuentre α∗ tal que:

r4 ≈ P ∗ = α∗〈r3〉 + (1 − α∗)〈r2〉.

Defina,

U(r4) = U(P ∗) = α∗U(r3)+(1−α∗)U(r2) = α∗(1−α)+(1−α∗) = 1−αα∗,

y continue ası sucesivamente para todas las recompensas (si ℜ esfinito) o hasta obtener una curva suficientemente suave de U (siℜ no es finito).

4. Haga verificaciones periodicas de consistencia. Por ejemplo, comor1 6 r3 6 r4 entonces encuentre en α′ tal que:

r3 ≈ P ′ = α′〈r1〉 + (1 − α′)〈r4〉.

Note que α′ debe cumplir, al menos aproximadamente con:

U(r3) = 1 − α = α′U(r1) + (1 − α′)U(r4) = (1 − α′)(1 − αα∗)

Si esto no es ası, es necesario volver atras y reconsiderar las asig-naciones hasta hacerlas consistentes.

METODO 2:

1. Como en el Metodo 1.

2. Encuentre r3 tal que:

r3 ≈ P =1

2〈r1〉 +

1

2〈r2〉,

o sea, obtener r3 con seguridad es equivalente a la apuesta quenos ofrece con probabilidad 1

2tanto a r1 como a r2. Entonces,

U(r3) = U(P ) =1

2U(r1) +

1

2U(r2) =

1

2.


3. Encuentre r4 tal que:

r4 ≈1

2〈r1〉 +

1

2〈r3〉 y U(r4) =

1

2U(r1) +

1

2U(r3) =

1

4.

Encuentre r5 tal que:

r5 ≈1

2〈r3〉 +

1

2〈r2〉, y U(r5) =

1

2U(r3) +

1

2U(r2) =

3

4,

y ası sucesivamente.

4. Verifique periodicamente su consistencia. Por ejemplo, encuentrer6 tal que:

r6 ≈1

2〈r4〉 +

1

2〈r5〉, y U(r6) =

1

2U(r4) +

1

2U(r5) =

1

2,

y por consiguiente r6 debe ser igual a r3. Si esto no es ni aproxi-madamente cierto, hay que volver atras hasta obtener consisten-cia.

Ejemplo 3.2 (Utilidad del dinero). Usaremos aquı el Metodo 2.Considero, r1=$ 0, r2=$ 5000 con U(r1) = 0 y U(r2) = 1. Me pregunto(seriamente) para cual r3 se cumple, r3 ≈ 1

2〈$0〉 + 1

2〈$5000〉. Si r3=$

2500 preferirıa $ 2500 seguros, pero si r3=$ 1000 preferirıa la apuesta.Decido tentativa y aproximadamente que r3=$ 1500 con U(r3) = 1

2.

(Note que esto depende de mi “fortuna” actual. Si dispusiese de unajugosa cuenta de banco bien pudiera haber asignado r3=$ 2450). Buscoahora r4, tal que:

r4 ≈1

2〈$0〉 +

1

2〈$1500〉.

Asigno r4=$ 700 de donde U($700) = 14. Procuro r5 con r5 ≈

12〈$1500〉 + 1

2〈$5000〉. Asigno, r5=$ 3000 y entonces U($3000) = 3

4.


Antes de continuar me hago una pregunta redundante para verificar miconsistencia. Busco un r6 con,

r6 ≈1

2〈$700〉+

1

2〈$3000〉.

Decido que r6=$ 1700, pero como U(r6) = 12

= U(r3), con r3=$1500, encontre una inconsistencia. Vuelvo atras, pero sigo satisfechocon r3 y r4. Reviso sin embargo r5 y me pregunto para que valor de r5

harıa r6=$ 1500 y hago r5=$ 2500. Los valores asignados se graficanen la Figura 3.1. De hecho graficar ayuda en la asignacion aproximadade los r’s.

1000 2000 3000 4000 5000 $

1/4

1/2

3/4

1

U(r)

0

Figura 3.1. Utilidad personal del dinero.3Algunas caracterısticas de la utilidad del dinero son las siguientes:

1. U(r) es aproximadamente lineal para r pequeno, (estamos dis-puestos a aceptar apuestas “1 vs. 1” si r es pequeno).

2. U(r) es usualmente concava, al menos para r > 0, (adversa alriesgo).

3. U(r) es tıpicamente muy distinta para r ≥ 0 que para r < 0, porlo que es recomendable construir U(r) por separado en amboscasos.


4. U(r) es tıpicamente acotada.

Continuacion Ejemplo 3.1. La Teorıa de Utilidad resuelve la paradoja,mostrando que la utilidad de aceptar la apuesta es:

∞∑

n=1

U(2n − c)2−n,

la que para funciones tıpicas de utilidad del dinero es negativa para csuficientemente grande. D. Bernoulli sugirio U(r) = log(r + c) para re-solver la paradoja. Sin embargo para recompensas de $ 22n

la paradojasubsiste para el logaritmo. Esta paradoja se resuelve cuando U es aco-tada. 3

Los axiomas que garantizan la existencia de la funcion de utilidady su unicidad, salvo por transformacion lineal, son:

1. Si P y Q ∈ P entonces exactamente una de las relaciones: P 6 Qo Q 6 P o P ≈ Q es verdadera.

2. Si P 6 Q y Q 6 R entonces P 6 R.

3. Sean P, Q y R ∈ P, 0 < α < 1. Entonces P 6 Q si y solo si:

αP + (1 − α)R 6 αQ + (1 − α)R.

4. Si P 6 Q6 R entonces existen numeros 0 < β < α < 1 tales que:

αP + (1 − α)R 6 Q 6 βP + (1 − β)R.

Si ademas se satisface el siguiente axioma, entonces U es acotada.

5. Si Pi 6 Q para i = 1, 2, . . . , αi ≥ 0 y∞∑

i=1

αi = 1, entonces

∞∑

i=1

αiPi 6 Q.


Es tambien posible definir la probabilidad subjetiva de cualquierevento E, a partir de las utilidades que las recompensas asociadas aE y Ec implican. Una ilustracion sencilla mostrara el procedimiento.Supongamos que si E ocurre obtenemos la recompensa r1, y si Ec ocurreobtenemos la recompensa r2, las cuales no son equivalentes. Asignamosuna recompensa r3 tal que:

r3 ≈ P = P (E)〈r1〉 + P (Ec)〈r2〉.Entonces,

U(r3) = P (E)U(r1) + (1 − P (E))U(r2),

y finalmente:

P (E) =U(r3) − U(r2)

U(r1) − U(r2).

Demostraciones de lo afirmado anteriormente, aparecen en Fergu-son(1967) o DeGroot(1970), donde se hacen algunos supuestos tecnicosadicionales. Ver tambien Fishburn(1981) donde aparece una revisionde los diferentes conjuntos de axiomas que han sido propuestos.

Los axiomas de racionalidad, a excepcion del 1, son razonablementerealistas y aparecen como aceptables. Vimos en el ejemplo 2.11 unasituacion donde el principio minimax viola el axioma 3 y la consecuenciafue irracional. El axioma 4 puede interpretarse como que no existenrecompensas infinitamente buenas o malas (no existe ni el cielo ni elinfierno). Si P fuese infinitamente mala no existirıa β, 0 < β < 1,tal que Q 6 βP + (1 − β)R. Puede argumentarse que la muerte esinfinitamente mala, pero entonces no aceptarıamos el extra-chance demorir al cruzar la calle. El axioma 1 sin embargo no es realista enmuchas situaciones.

Los defensores del axioma 1 aducen que la vida nos fuerza a escogerentre opciones alternativas extremadamente difıciles de comparar. Peroesto no necesariamente nos dice que existe una escala precisa U , queactua linealmente sobre las apuestas compuestas, que mide con pre-cision todas nuestras preferencias entre todas las posibles apuestas. Elcaso de la utilidad del dinero es mas sencillo ya que estamos compara-ndo cantidades de $. Pero incluso en este caso, si retornamos al ejemplo


3.2, para mı asignar a r3 cualquier cantidad entre $ 1400 y $ 1600, serıaperfectamente aceptable como cantidad segura equivalente a la apuestaque con 50-50 de chance me da $ 0 o $ 5000. En otras palabras, existeuna imprecision inevitable al momento de transferir mis preferencias auna escala.

Para otras comparaciones mas complejas este comentario aplica auncon mas fuerza. Sucede, sin embargo, que a menudo podemos decidirracionalmente entre opciones alternativas aun cuando la escala de me-didas sea imprecisa. Como ejemplo, considere la probabilidad que ud.asigna al evento E de que Italia gane el proximo mundial de futbol.Si luego de un exhaustivo analisis ud. concluye que su probabilidadde que E ocurra es de 0.785467414..., esta afirmacion solo puede serconsiderada como un chiste. Una manera operacional sumamente utilde calcular probabilidades subjetivas (De Finetti 1974, Vo. 1) es la demedir sus dispocisiones a apostar respecto de eventos. Tomemos denuevo el caso del mundial de futbol. Si un TD esta dispuesto a apostara favor de Italia 0.6 vs. 0.4, decimos que su probabilidad de que Italiagane el mundial es de por lo menos 0.6. Note sin embargo que no nece-sariamente el mismo TD esta dispuesto a apostar en contra de Italia 0.4vs. 0.6. (Esto no tiene que ver con favoritismos personales sino con suevaluacion de riesgo). Bien puede afirmar, dada la alta incertidumbrede tal evento, que en contra de Italia apostarıa 0.2 vs. 0.8. En estecaso tendremos 0.6 ≤ P (E) ≤ 0.8, o sea su probabilidad es imprecisa.El fenomeno anterior lo encontramos todo el tiempo en la vida real.Por ejemplo, la diferencia entre el precio de venta y el precio de compraque las casas de cambio le asignan a una moneda, digamos la lira o lalibra esterlina, es directamente proporcional a la variabilidad que estemostrando dicha moneda.

Conjuntos de axiomas mas generales (y mas realistas) que los enun-ciados anteriormente aparecen, por ejemplo, en Smith(1961), Good(1962)y Walley(1991). Un resultado central de dichas teorıas de la impre-cision, es que para ser racional se debe actualizar cada una de lasdistribuciones a priori Π ∈ Γ, de acuerdo a la regla de Bayes, obte-niendo ası, luego de observar el dato X, una clase actualizada de dis-tribuciones a posteriori Γ(x). Esta generalizacion sigue obedeciendoprincipios basicos de racionalidad y puede ser axiomatizada. Desarrol-lar esta Teorıa de la Imprecision (Bayesiana) y llevarla algun dıa a un


nivel comparable de la madurez al que tiene la Inferencia y Teorıa dela Decision (bajo la hipotesis de la precision) es un area apasionante deinvestigacion actual (ver Berger(1984), Pericchi y Walley(1989a, 1989b,1991)). La crıtica frecuentemente hecha de que es difıcil o imposibleevaluar las creencias a priori con precision, en lugar de dirigirnos alenfoque frecuentista debe, en nuestra opinion, motivarnos a generalizarel enfoque Bayesiano, preservando su solidez. Alternativamente, se hadesarrollado un enfoque de “previas de referencia, automaticas o no-informativas” que posibilitan un enfoque condicional a los datos, pero“objetivo, de referencia o automatico”, que no requiere evaluar la in-formacion sobre θ en forma subjetiva-personal. En capıtulos siguientes,expondremos este enfoque automatico Bayesiano, que preservando al-gunas (no todas) ventajas del enfoque Bayesiano propio, presenta unamayor simplicidad.

Seguidamente conectamos la Teorıa de Utilidad con las funciones deperdida y el principio Bayesiano de minimizacion de la perdida esper-ada, vistos en el capıtulo anterior. Por simplicidad hacemos la discusionpara Θ y ℜ discretos. Definamos la funcion c(θ, a)(r) como la proba-bilidad de que el TD reciba la recompensa r ∈ ℜ si toma la accion a ∈A, y θ ∈ Θ es el estado de la naturaleza. Supongamos que la funcionde utilidad U existe. Definimos la funcion de perdida

L : Θ ×A → R

por:

L(θ, a) = −U(c(θ, a)) = −∑

r∈ℜc(θ, a)(r)U(r).

Luego de observar el resultado del experimento X, la densidad deprobabilidades del TD sobre θ es π(θ | x). Si el TD toma la accion a,la probabilidad de que obtenga la recompensa r es:

Pa(r) =∑

θ∈Θ

π(θ | x)c(θ, a)(r).

Entonces la accion a es equivalente a la apuesta Pa. Por tantopueden compararse las diferentes acciones comparando la utilidades delas apuestas Pa, para a fijo,


U(Pa) =∑

r

Pa(r)U(r) =∑

r

∑

θ

π(θ | x)c(θ, a)(r)U(r)

=∑

θ

π(θ | x)∑

r

c(θ, a)(r)U(r) = −∑

θ

π(θ | x)L(θ, a),

siempre que pueda intercambiarse el orden de las sumatorias. Entonces:a2 se prefiere a a1 si y solo si Pa1

6 Pa2si y solo si U(Pa1

) < U(Pa1) si

y solo si

∑

θ

π(θ | x)L(θ, a1) >∑

θ

π(θ | x)L(θ, a2)

si y solo si a2 tiene perdida esperada a posteriori menor que a1, y lamejor accion sera aquella que minimice la perdida esperada a poste-riori. En conclusion, los axiomas 1 a 5 nos conducen ab fortiori a laminimizacion de la perdida esperada.

3.2 El Principio de la Verosimilitud

Un principio fundacional mas sencillo que la Teorıa de Utilidad es elPrincipio de la Verosimilitud, el cual tiene consecuencias de largo al-cance respecto a cual enfoque escoger como paradigma en la Teorıa deDecision e Inferencia Estadıstica. Para el dato observado, X, de unexperimento, hemos llamado a p(x | θ), considerada como funcion deθ, la funcion de verosimilitud indexVerosimilitud!funcion de. La razonde darle este nombre es que si para θ0 y θ1 ∈ Θ, p(x | θ0) > p(x | θ1),entonces es mas verosimil (o plausible) que θ0 sea el “verdadero” θ queha generado al dato X (observado y fijo) que θ1.

PRINCIPIO DE LA VEROSIMILITUD: “Al tomar decisionessobre θ, despues que X ha sido observado, toda la informacion experi-mental esta contenida en p(x | θ). Mas aun, dos funciones de verosimil-itud, que como funciones de θ, sean proporcionales, contienen la mismainformacion sobre θ.”

Una discusion exhaustiva en defensa de este principio aparece enBerger y Wolpert(1984). El siguiente ejemplo famoso ilustrara la racional-idad de este principio.

3.2. EL PRINCIPIO DE LA VEROSIMILITUD 83

Ejemplo 3.3 (Lindley y Phillips, 1976). Estamos interesados en laprobabilidad θ de que una moneda al ser lanzada caiga cara. Se deseaconducir el test de hipotesis:

H0 : θ =1

2vs. H1 : θ >

1

2.

Se realiza un experimento lanzando la moneda en una serie deensayos independientes, obteniendose 9 caras y 3 sellos. Es decir,x+ = 9, n = 12. No nos dicen, sin embargo, como el experimentadordecidio detener el experimento en n = 12, es decir no nos especificanel espacio muestral X. Una posibilidad es que el experimentador habıadecidido de antemano efectuar 12 ensayos, en cuyo caso tenemos ladistribucion binomial,

p1(x+ | θ) =

(nx+

)θx+(1 − θ)n−x+ = 220 θ9(1 − θ)3,

donde x+ es el numero de caras.Otra posibilidad es que el experimentador habıa decidido detener

el experimento al observar m = 3 sellos, en cuyo caso tenemos la dis-tribucion binomial negativa,

p2(x+ | θ) =

(m + x+ − 1

x+

)θx+(1 − θ)m = 55θ9(1 − θ)3.

El principio de la verosimilitud nos prescribe que en cualquier casotodo lo que necesitamos saber sobre el experimento es pi(x+ | θ), ycomo ellas son proporcionales deben contener la misma informacionacerca de θ. Por otra parte los analisis frecuentistas (“Clasicos”) violaneste principio. Por ejemplo, si se realiza un test de Neyman-Pearsonpara este problema, obtenemos como nivel observado de significacionen cada posibilidad descrita anteriormente:

α1 = P (x+ ≥ 9 | θ =1

2) =

12∑

i=9

p1(x+ = i | θ =1

2) = 0.075

α2 = P (x+ ≥ 9 | θ =1

2) =

∞∑

i=9

p2(x+ = i | θ =1

2) = 0.0325


Si el nivel de significancia del test fue escogido como α = 0.05,se rechazarıa H0 en el segundo caso pero no en el primero. Esto esclaramente sospechoso. ¿Que tiene que ver el plan que diseno el exper-imentador con la probabilidad de una moneda de caer cara?.3

El ejemplo anterior nos ilustra que un mismo resultado, x+=9,puede ser insertado en dos espacios muestrales, X1 y X2, pero unavez obtenido el dato, el hecho de que x+ provenga de X1 o de X2 sehace irrelevante al momento de decidir acerca de θ. En otras palabras,se deben tomar decisiones condicionales en el X observado y son irrel-evantes otras observaciones que hubiesen podido ocurrir pero que no lohicieron. Para el punto de vista frecuentista el espacio muestral siguesiendo relevante luego de observar el dato, y por tanto viola el Principiode la Verosimilitud.

Considere por ejemplo el riesgo cuadratico de un estimador T (x):

R(θ, T (x)) =∫

X(θ − T (x))2dP (x | θ).

R(θ, T (x)) es una medida de la dispersion inicial de T (x), pero nopuede ser considerada como una medida de la dispersion final, ya queX es observado y esta fijo. Un ejemplo nos ilustrara dramaticamente elpeligro de interpretar un riesgo inicial (frecuentista) como riesgo pos-terior o final, que es el que realmente interesa.

Ejemplo 3.4 (Berger 1985). Sean X1 y X2 independientes condi-cionalmente en θ con identica distribucion dada por:

P (xi = θ − 1 | θ) = P (xi = θ + 1 | θ) =1

2,

donde −∞ < θ < ∞ es desconocido. El estimador de θ, T (x) lodefinimos como:

T (x) =

{12(x1 + x2) si x1 6= x2

x1 + 1 si x1 = x2.

Se puede verificar que P (T (x) = θ | θ) = 0.75 para todo θ, porlo que frecuentistamente resulta que T (x) es un intervalo de 75% deconfianza de θ, que es una medida de riesgo inicial. Supongamos que

3.2. EL PRINCIPIO DE LA VEROSIMILITUD 85

observamos x1 6= x2, T (x) = 12(x1 + x2). Condicionalmente en x1 6=

x2, podemos asegurar que θ ≡ 12(x1 + x2), y la medida de 75% de

confianza ya no es relevante. Similarmente, si x1 = x2 entonces habrauna probabilidad de 0.5 de que T (x) = θ. En ambos casos , reportar75% de confianza es enganoso.

El principio del riesgo posterior nos indica que el desempeno de unaregla de decision δ(x) debe juzgarse condicionalmente en X, en lugarde para todas las posibles observaciones X. Es decir, luego de obtenerel dato, es el riesgo posterior y no el inicial lo relevante para juzgar aδ(x).3Ejemplo 3.5. Suponga que ud. va al medico quien va a hacerle untest clınico para intentar descubrir si ud. tiene un tumor, en cuyocaso deberıa ser intervenido quirurgicamente de emergencia. El medicole informa que el test clınico tiene una probabilidad de 95% de decidircorrectamente si ud. tiene el tumor o no. En base a esa informacion ud.acepta dejarse hacer el test, el cual resulto negativo. Pero ahora ud. contodo derecho le exigirıa al medico que le dijera cual es la probabilidadde que ud. tenga el tumor o no, dado que el test resulto negativo. Esposible que dicho test sea muy poderoso en detectar su verdadero estadopara resultados positivos pero no para resultados negativos. El 95%que el medico menciono previamente ya no es relevente para ud. ¡Losmedicos deberıan aprender el Teorema de Bayes!. Ahora lo relevante es:La probabilidad de tener el tumor condicionado a un resultado negativodel test.3

El principio Bayesiano (y extensiones de el para clases de densidadesa priori) cumple naturalmente con los dos principios expuestos en estaseccion. En efecto, el desempeno de una regla de decision se juzga enbase a la perdida Bayesiana esperada condicional en X, o sea el riesgoBayesiano posterior (Definicion 2.9):

ρ(Π, δ(x)) =∫

ΘL(θ, δ(x))dΠ(θ | x),

donde el valor esperado es tomado sobre Θ y no sobre X. General-izando esta nocion, si solo se sabe que Π ∈ Γ, donde Γ es una clase dedistribuciones a priori, entonces concluimos que el desempeno de δ(x)


es mejor o igual a:

supΠ∈Γ

ρ(Π, δ(x)). (3.1)

Por otra parte el enfoque Bayesiano obedece al principio de verosimil-itud. En efecto el Teorema de Bayes (1.2) establece que:

π(θ | x) =p(x | θ)π(θ)

∫Θ p(x | θ)π(θ)dθ

, (3.2)

donde π(θ | x) denota la densidad a posteriori, y hemos supuesto porsimplicidad que la distribucion a priori posee una densidad π(θ). En elenfoque Bayesiano toda la informacion, experimental y subjetiva, estaresumida en π(θ | x). Ahora (3.2) nos indica que:

1. Toda la informacion experimental entra en π(θ | x) solo a travesde la verosimilitud p(x | θ).

2. Si dos verosimilitudes son proporcionales (como funciones de θ),ambas generaran la misma π(θ | x), ya que la constante sale dela integral (no depende de θ) y se cancela con la del numerador.

Resumen: lo concluido en esta seccion (y en la anterior), es quedesde varios puntos de vista, el enfoque Bayesiano (o extensiones delmismo) es el enfoque coherente de la Teorıa de Decision Estadıstica ypor ello nos ocuparemos exclusivamete de el en los proximos capıtulos.

3.3 Ejercicios

3.1 Verificar que para la construccion de U en el Metodo 1 es posibleasignar U(r) para r 6 r1 o r2 6 r.

3.2 Construya para el ejemplo 3.2 una funcion de utilidad del dinero(en $) en el rango (-10000,10000)

3.3 Demostrar que la paradoja descrita en el ejemplo 3.1 se resuelvecuando U es acotada.

3.3. EJERCICIOS 87

3.4 Verificar que en el Ejemplo 3.4 P (T (x) = θ | θ) = 0.75 para todoθ, y que

P (T (x) = θ | θ, x1 6= x2) = 1 y , P (T (x) = θ | θ x1 = x2) = 0.5, ∀θ.


Capıtulo 4

Analisis Bayesiano

Comenzaremos en este capıtulo analizando el test de Hipotesis desde elpunto de vista Bayesiano.

4.1 Test de Hipotesis

Este problema ya lo planteamos en el ejemplo 2.2, cuya notacion seguire-mos. El caso mas sencillo es el test de hipotesis simple vs. simple, osea:

H0 : θ = θ0 vs. H1 : θ = θ1,

donde el espacio de parametros es Θ = {θ0, θ1}. En la terminologıafrecuentista de Neyman-Pearson para cada decision d ∈ D se denomina:

P (d(x) = a1 | θ0) = α(d) error de tipo I (falso rechazo)P (d(x) = a0 | θ1) = β(d) error de tipo II (falso no-rechazo).

La funcion de riesgo R(θ, d) es entonces:

R(θ, d) =

{L1 α(d) si θ = θ0

L0 β(d) si θ = θ1.

Supongamos que la distribucion a priori es: P (H0) = π0, P (H1) =π1 = 1 − π0. Entonces el riesgo promedio es:

89

90 CAP´ıTULO 4. ANALISIS BAYESIANO

r(π, d) = π0L1α(d) + (1 − π0)L0β(d) = aα(d) + bβ(d). (4.1)

Encontrar a d∗ que sea Bayes-promedio optima es equivalente alfamoso Lema de Neyman-Pearson.

Teorema 4.1 (Lema de Neyman-Pearson). Sea d∗ ∈ D tal que:

d∗(x) = a0 si a p(x | θ0) > b p(x | θ1)d∗(x) = a1 si a p(x | θ0) < b p(x | θ1)

y cualquier decision en caso de igualdad. Entonces d∗ es optima Bayes.

Prueba. Sea d ∈ D cualquier otra decision con:

A = {x : d(x) = a0} y B = {x : d(x) = a1}.

Como Bc = A, sigue que:

r(π, d) = a∫

Bp(x | θ0)dx + b

∫

Ap(x | θ1)dx

= a +∫

A[bp(x | θ1) − ap(x | θ0)]dx

≥ a +∫

A∗

[bp(x | θ1) − ap(x | θ0)]dx = r(π, d∗),

donde

A∗ = {x : d∗(x) = a0} = {x : b p(x | θ0) − a p(x | θ0) < 0}.

Por lo tanto d∗(x) minimiza el riesgo Bayesiano promedio, y se obtieneel resultado.2

La region de rechazo de H0 de d∗ sera, salvo un conjunto de medidacero,

B∗ =

{x :

p(x | θ0)

p(x | θ1)<

b

a= k

}.

4.1. TEST DE HIPOTESIS 91

En el enfoque de Neyman-Pearson se escoge k tal que: P (B∗ |θ0) = α, o sea que el error tipo I sea α; no se da guia racional decomo escoger α, siendo dictadas por la convencion α = 0.1; 0.05 o 0.01,que es una practica subjetiva inconveniente. En contraste, el enfoqueBayesiano no fuerza la escogencia de α, sino que define a k = (1−π0)L0

π0L1,

una combinacion de creencias a priori sobre las hipotesis y las perdidasenvueltas. En la version de Fisher de Test de significancia, se define elvalor observado del test, αp, como:

P

(p(x | θ0)

p(x | θ1)≤ p | θ0

)= αp,

donde p = p(x|θ0)p(x|θ1)

, el valor observado del cociente de verosimilitudes.

Note que la definicion de αp viola el principio de verosimilitud (verejemplo 3.3). Se interpreta clasicamente que αp es el mınimo valorde α para el cual se habrıa rechazado H0. Es generalmente aceptadoque en la practica se interprete a αp como la probabilidad de que H0

sea correcta. Esta interpretacion es filosoficamente incorrecta desdeel punto de vista frecuentista, ya que no tiene sentido considerar laprobabilidad de que una hipotesis sea correcta. Una hipotesis es unaafirmacion sobre θ, y θ no es una variable aleatoria desde el puntode vista frecuentista. Sin embargo esta interpretacion del que usa eltest de hipotesis frecuentista es tan natural, que decadas de ensenazade la teorıa de Neyman-Pearson no han podido erradicarla. Aceptanesta teorıa porque la interpretan desde un punto de vista Bayesianoque les es racional; y ademas les produce numeros, y decisiones enforma mecanica. El enfoque Bayesiano provee de la interpreptacionadecuada, pero tambien requiere del usuario el insumo necesario: cualesson las perdidas de una decision incorrecta y que se conoce a priori sobreH0. Esta es una diferencia radical entre ambos enfoques: el Bayesianorequiere exponer claramente las evaluaciones subjetivas. El frecuentistaesconde el subjetivismo (inevitable) en el manto de la costumbre.

Si es cierto que el procedimiento del Teorema 4.1 tiene interpreta-ciones en terminos de las probabilidades de las hipotesis, el Teorema deBayes nos indica que:

p(Hi | x) =p(x | Hi)πi∑1

k=0 p(x | Hk)πk

=p(x | Hi)πi

p(x), i = 0, 1. (4.2)


de donde:

p(H0 | x)

p(H1 | x)=

p(x | θ0)π0

p(x | θ1)(1 − π0),

y entonces la decision optima-Bayes rechaza H0 si:

p(H0 | x)

p(H1 | x)<

L0

L1

. (4.3)

Si por ejemplo L0 = L1, entonces se rechaza a H0, cuando su prob-abilidad a posteriori es menor que la de H1. Si la consecuencia de unrechazo de H0 incorrecto es mas grave, o sea L1 > L0, solo se rechazaraH0 cuando tenga una probabilidad a posteriori menor que la de H1, deacuerdo a (4.3).

Por supuesto que no es necesario obtener la decision optima-Bayes,como se hizo en el Teorema 4.1 (que sin embargo fue util para compararcon conceptos frecuentistas). Podemos, en lugar de minimizar r(Π, d),minimizar la perdida a posteriori esperada, ρ(Π, d). En el caso simplevs. simple, usando (4.2) obtenemos:

ρ(Π, a0) = Eθ|X [L(θ, a0)] = p(H1 | x)L0,

ρ(Π, a1) = Eθ|X [L(θ, a1)] = p(H0 | x)L1.

Entonces para minimizar ρ, debemos rechazar H0 (o sea, d(x) = a1)si:

p(H0 | x)L1 < p(H1 | x)L0,

o sea (4.3). En resumen, una decision optimo Bayes d∗(x) debe cumplircon:

d∗(x) = a1, si la desigualdad (4.3) ocurre,d∗(x) = a0, si la desigualdad en sentido contrario a (4.3) ocurre.

La “ventaja” (“odds”) posterior, O01(x), de H0 vs. H1 se definecomo la parte izquierda de (4.3) o sea:

O01(x) =p(H0 | x)

p(H1 | x)=

p(H0 | x)

1 − p(H0 | x), (4.4)

que es la cantidad basica para aceptar o rechazar H0, o sea para tomarla decision.


Por ejemplo, la decision optima es aceptar H0 si la ventaja posteriorde H0 sobre H1 es mayor que L0

L1. Denotamos por O01 la ventaja a priori

de H0 vs. H1, o sea

O01 =p(H0)

p(H1)=

π0

π1. (4.5)

Definimos al “factor de Bayes”, B01(x), de H0 vs. H1 por:

B01(x) =p(x | H0)

p(x | H1), (4.6)

que en el caso de simple vs. simple, no depende de la informacion apriori y es igual al cociente de verosimilitudes p(x|θ0)

p(x|θ1). De (4.2) y las

definiciones anteriores obtenemos:

O01(x) = O01B01(x), (4.7)

o sea, que B01 es el factor que multiplicado por la ventaja a priori da laventaja posterior. La relacion (4.7) es multiplicativa pero podemos hac-erla aditiva tomando logaritmo (que suponemos natural), obteniendoen notacion obvia:

LO01(x) = LO01 + W01(x). (4.8)

El logaritmo del factor de Bayes, W01(x), se conoce como el “pesode la evidencia” provista por el experimento en favor de H0 y en contrade H1, Good(1950,1968). El peso de la evidencia tiene importanciacrucial en areas diversas como diagnostico medico, ciencia forense ocripto-analisis. Una aplicacion espectacular en esta ultima area deluso de W01(x) fue el desciframiento del codigo aleman, conducido porTuring y Good, durante la II Guerra Mundial. Aplicaciones del peso dela evidencia a problemas de diagnostico medico aparecen por ejemploen Good y Card (1971) y Pereira y Pericchi (1989). Para el caso generalde test de hipotesis:

H0 : θ ∈ Θ0 vs. H1 : θ ∈ Θc0 = Θ1,

escribimos la distribucion a priori como:

π(θ) =

{π0 g0(θ) si θ ∈ Θ0

π1 g1(θ) si θ ∈ Θ1,(4.9)


donde G0 y G1 son distribuciones (sobre Θ0 y Θ1), que indican comose reparte la probabilidad entre los θ′s de cada hipotesis. Entonces lasverosimilitudes (ponderadas) bajo H0 y H1 se escriben como:

p(x | Hi) =∫

Θi

p(x | θ)gi(θ) i = 0, 1. (4.10)

Con la adaptacion dada por (4.9) y (4.10) las definiciones dadas porel caso anterior son validas para el caso general. Note la sencillez con-ceptual de la aproximacion Bayesiana al Test de Hipotesis: compararlas probabilidades a posteriori de H0 vs. H1. En contraste con la Teorıade Neyman-Pearson donde test uniformemente mas poderosos existensolo en situaciones particulares.

Ejemplo 4.1 (Hipotesis nula puntual). Suponemos que X ∼N(θ, σ2/n) como en el ejemplo 2.6. Se desea hacer el test

H0 : θ = θ0 vs. H1 : θ 6= θ0.

Se asigna la siguiente densidad a priori

π(θ) =

{π0 si θ = θ0

π1N(µ, τ2) si θ 6= θ0(4.11)

Note que:

p(x | H0) = p(x | θ0) = N

(θ0,

σ2

n

), (4.12)

p(x | H1) =∫

(θ 6=θ0)p(x | θ)N(µ, τ2)dθ. (4.13)

Como p(x | θ) = N(θ, σ2

n) y el extraer θ0 no altera la integral, la

expresion (2.8) es igual a (4.13) por lo que:

p(x | H1) = N

(µ, τ2 +

σ2

n

). (4.14)

Entonces de (4.6),(4.7), (4.12) y (4.14) se tiene que:

O01(x) =π0

1 − π0

N(θ0,

σ2

n

)

N(µ, τ2 + σ2

n

) . (4.15)


Varias conclusiones interesantes pueden extraerse de (4.15). Parasimplificar los calculos hagamos la suposicion natural, µ = θ0. De (4.15)obtenemos,

O01(x) =π0

1 − π0

√nλ + 1 exp

{−z2

2

nλ

nλ + 1

}, (4.16)

donde λ = τ2

σ2 y z =√

nσ

| x − θ0 |, que es la estadıstica en la queesta basada el test de hipotesis “Clasico”. En ese enfoque se rechazaH0 cuando | z |≥ zα, donde Φ(zα) = 1 − α

2y Φ es la distribucion

Normal. Por ejemplo si α = 0.05, entonces zα = 1.96. Supongamos queobservamos una sucesion zn, tal que zn = zα, o sea que rechazamos H0

para cada n segun la teorıa clasica. Observemos sin embargo que paratodo π0 fijo, 0 < π0 < 1, resulta que:

O01(zn)n→∞−→ ∞,

y como se cumple en general que:

p(H0 | x) =

[1 +

1

O01(x)

]−1

, (4.17)

entonces:p(H0 | zn)

n→∞−→ 1.3En resumen, en el ejemplo 4.1 encontramos una sucesion zn, para

la que clasicamente se rechaza H0 para cada n, pero para la que laprobabilidad a posteriori de H0 tiende a 1. Esta discrepancia se conocecomo la Paradoja de Lindley, Lindley(1957). Por ejemplo, si π0 = 1

2,

µ = θ0, λ = 1 y observamos z = 1.96 (o sea, se rechaza H0 para un testclasico con α = 0.05), resulta que p(H0 | z = 1.96) es igual a 0.35 paran = 1; 0.6 para n = 100 y 0.8 para n = 1000. Si se aceptan entonces lasespecificaciones a priori, no es solo filosoficamente erroneo interpretarel α observado como la probabilidad de que H0 sea cierta, sino quenumericamente acontece lo contrario para n grande. Sin embargo esnecesaria una nota de cautela. Contrariamente a lo que sucede enproblemas de estimacion, en test de hipotesis, particularmente cuandoH0 es un punto (de medida cero) y H1 no, la influencia de la asignacion a


priori no desaparece a medida que n crece. Note ademas que no se puedehacer crecer la varianza a priori τ2, a voluntad. En efecto si τ2 → ∞,o sea si λ → ∞ para n y el resto de las asignaciones fijos, entoncesde (4.16) obtenemos que O01(x) → ∞, o sea se deduce de (4.17) queP (H0 | x) → 1, para cualquier x. Otros analisis de este problemaaparecen por ejemplo en: Bernardo(1980), Smith y Spiegelhalter(1980),Pericchi(1984) y Berger y Pericchi (1996). El desarrollo de metodologıasBayesianas de “referencia o sistematicas” a la clase de problemas de testde hipotesis y seleccion de modelos, es en sı misma de tal importanciay actualidad que le dedicaremos el Capıtulo 6 de este libro. Estasmetodologıas nos proveen de maneras de asignar distribuciones a priori.

En el ejemplo 4.1 advertimos sobre la influencia demasiado grandeque puede tener una asignacion precisa a priori. La siguiente proposicionpermite relajar al menos parte de esta asignacion.

Proposicion 4.1 Se desea hacer el test

H0 : θ = θ0 vs. H1 : θ 6= θ0

y los datos X son una muestra generada por la verosimilitud p(x | θ).La densidad a priori es:

π(θ) =

{π0 si θ = θ0

π1g1(θ) si θ 6= θ0,(4.18)

donde g1 es cualquier densidad. Entonces,

p(H0 | x) ≥[1 +

1 − π0

π0

h(x)

p(x | θ0)

]−1

, (4.19)

donde h(x) = supθ 6=θ0p(x | θ).

Prueba. Ejercicio.2Continuacion Ejemplo 4.1. Para este ejemplo, usando (4.19), puedeverificarse que si en lugar de la asignacion (4.11) hacemos la asignacionmucho mas imprecisa (4.18), obtenemos que:

p(H0 | x) ≥[1 +

1 − π0

π0exp

{z2

2

}]−1

. (4.20)


Para z = 1.96 (o sea, α = 0.05) y π0 = 12

resulta de (4.20) que:

p(H0 | x) ≥ 0.128. (4.21)

La cota inferior (4.21) es casi tres veces 0.05, y esto vale paracualquier n.3

Otros resultados del tipo de (4.19) donde g1 en (4.18) se restringea la clase de densidades simetricas alrededor de θ0 y no crecientes en| θ − θ0 | aparecen en Berger y Sellke(1984). Por supuesto que en estecaso la cota es mayor o igual a la obtenida en (4.21). De hecho es iguala 0.29.

Ante cotas como la dada en (4.21) los frecuentistas aducen, no sincierta razon, que el analisis que conduce a (4.21) supone una probabil-idad π0 a priori fija, y precisa que H0 sea cierta. Note sin embargo,que el factor de Bayes no depende de Π0, aunque depende de Π(θ). Unfrecuentista puede con todo derecho negarse a suponer tal probabili-dad. De hecho Good clasifica a los Bayesianos en una gran cantidadde categorıas (algunas de ellas posiblemente vacıas) pero favorecerıacomo definicion de Bayesiano: “Aquel que esta dispuesto a asignar unaprobabilidad a una hipotesis”. La respuesta Bayesiana “robusta” (nodogmatica) debe ser considerar clases de distribuciones a priori en lascuales π0 varıe en un amplio rango. Pericchi y Walley(1989a), para lasituacion del Ejercicio 4.3, definen una clase en la cual 0 ≤ π0 ≤ 1,que llaman “clase casi ignorante”. Para esta clase uno no asume unaposicion de “ignorancia” a priori respecto de H0. Las probabilidades aposteriori para esta clase se comportan muy razonablemente, y el valorobservado del test αp, se encuentra estrictamente entre el supremo yel ınfimo de las probabilidades a posteriori de H0 bajo esta clase. Elproblema de obtener, en algun sentido, clases “casi ignorantes” parahipotesis H0 puntuales, o mas generalmente cuando H0 es compacto,permanece abierto.


4.2 Operaciones con la Distribucion a Pos-

teriori y sus propiedades

Una vez obtenido los datos X, toda la informacion disponible estacontenida en Π(θ | x).

4.2.1 Intervalos de Credibilidad (Probabilidad)

A menudo se resume lo que se conoce sobre el parametro θ, por unconjunto C(x) ⊂ Θ, en el que es altamente plausible que se encuentreel verdadero θ0. Consideremos la funcion de perdida:

L (θ, C(x)) =

{0 si θ ∈ C(x)1 si θ 6∈ C(x)

La perdida esperada a posteriori es:

ρ (Π, C(x)) = Eθ|X[1 − 1C(x)(θ)

]= 1 −

∫

C(x)dΠ(θ | x)

= 1 − Pθ|X[θ ∈ C(x)].

Es decir, ρ (Π, C(x)) es la probabilidad a posteriori de que θ noeste en C(x). Llamemos Cα(x) los conjuntos de Θ para los cualesesta probabilidad es α. Tıpicamente habra muchos de estos conjuntos.Usualmente se escoge aquel Cα(x) con volumen a posteriori mınimo,denotado por HPDα(x), que cumple con la siguiente propiedad:

∀ θ ∈ HPDα(x) y ∀ θ 6∈ HPDα(x) =⇒ π(θ | x) ≥ π(θ | x).

O sea, es el conjunto de parametros con mas alta densidad posterior,que ademas tiene probabilidad posterior 1−α de contener al verdaderoθ0.

Los intervalos de credibilidad Cα(x), ası llamados porque dependende las creencias a priori, son intervalos de probabilidad (condicional enX) sobre θ. Los intervalos Clasicos de confianza no admiten esta inter-pretacion, y por ello es tan difıcil explicarlos en un curso de estadısticabasica. La interpretacion que naturalmente viene a la mente (educadao no tanto) es la de intervalos de probabilidad. En el ejercicio 4.4 semuestra un ejemplo de un intervalo de HDP .

4.2. OPERACIONES CON LA DISTRIBUCION A POSTERIORI Y SUS PROPIEDADES 99

4.2.2 Densidades Marginales y Parametros de Mo-lestia

Supongamos que el vector de parametros θ esta compuesto de dos sub-vectores componentes, θ = (θ1, θ2)

t, y nuestro interes es tomar deci-siones sobre θ1, el vector de parametros de interes. Denominamos a θ2

el vector de parametros de “molestia” (nuissance). Supongamos quehemos obtenido la densidad conjunta a posteriori de θ : π(θ | x) =π [(θ1, θ2) | x]. De nuevo la inferencia sobre θ1 se resuelve de maneranatural y coherente: marginalizando, es decir, integrando respecto delos parametros de molestia en la densidad conjunta.

La densidad marginal de θ1 se define como:

π(θ1 | x) =∫

π [(θ1, θ2) | x] dθ2 =∫

π(θ1 | θ2, x)π(θ2 | x)dθ2.

(4.22)

De la expresion a la derecha en (4.22) se observa que la densidadmarginal de θ1, es el promedio de la densidad de θ1, condicional en θ2,ponderada por la marginal de θ2.

Ejemplo 4.2 (Verosimilitud Normal con varianza desconocida).La verosimilitud es: p(x | θ, h) = N(θ, h−1). De acuerdo a la notacionanterior, θ1 = θ, θ2 = h = σ−2 > 0. Nuestro interes en este ejemploes hacer inferencia sobre la media θ. Ahora una estadıstica suficientesera: (n,

∑xi,∑

x2i ). Algebraicamente es conveniente suponer que la

densidad a priori es la llamada “Normal-Gamma”, definida por:

NG(θ, h | µ, ξ, α, β) = π(θ | h)π(h) = N(θ | µ, (ξh)−1)Ga(h | α, β),(4.23)

donde los hiperparametros a ser asignados por el TD son: µ, ξ, α, β,siendo los tres ultimos positivos y µ real. O sea, a priori, la densidadcondicional en h es normal, y la densidad marginal de h es Gamma.

Se verifica que luego de observar una muestra de tamano n la den-sidad conjunta a posteriori de θ y h sigue siendo Normal-Gamma:

π(θ, h | x) = NG(θ, h | µ′, ξ′, α′, β′), (4.24)


donde:

µ′ =ξµ + nx

ξ + n, ξ′ = ξ + n, α′ = α +

n

2, y

β′ = β +1

2

n∑

i=1

(xi − x)2 +ξn(x − µ)2

2(ξ + n).

Note que de acuerdo a (4.24),

π(θ, h | x) ∝[h1/2 exp

{−ξ′h

2(θ − µ′)2

}][hα′−1 exp {−β′h}]. (4.25)

Si hacemos uso de la siguiente identidad:

∫ ∞

0yp−1 exp {−ay}dy =

Γ(p)

ap, (4.26)

obtenemos que:

π(θ | x) =∫ ∞

0π(θ, h | x)dh ∝

[β′ +

ξ′

2(θ − µ′)2

]−α′−1/2

,

o equivalentemente:

π(θ | x) ∝[1 +

1

2α′α′ξ′(θ − µ′)2

β′

]−(2α′+1)/2

, (4.27)

o sea, la densidad marginal a posteriori de θ es una t − Student, con2α′ grados de libertad, parametro de localizacion µ′ y parametro deescala β′

α′ξ′. Si 2α′ > 1 (que es cierto si tenemos una observacion), la

media de esta densidad es µ′, que es un promedio ponderado entre µy x. Note que se obtiene el mismo resultado que en (2.10), donde lavarianza era conocida. El efecto de tener varianza desconocida es el dereemplazar una Normal por una t-Student de colas mas gruesas, y porlo tanto el intervalo HDP de credibilidad de θ va a ser mas ancho. Porsupuesto, los intervalos de credibilidad de θ se obtienen de su densidadmarginal.3

4.2. OPERACIONES CON LA DISTRIBUCION A POSTERIORI Y SUS PROPIEDADES101

Desembarazarse de parametros de molestia en el enfoque Bayesiano,es conceptualmente directo. Incluso, si en el ejemplo anterior no sehubiese supuesto una densidad a priori “tratable”, como la Normal-Gamma, obtener la marginal a posteriori se reduce a una integracionnumerica. Claro esta que en problemas mas complejos el numero deparametros de molestia es mucho mayor, y por consiguiente mayor serala dimension de la integral numerica a calcular. Existen disponibles al-gunos algoritmos computacionales como Bayes 4, Naylor y Smith(1982),que usando cuadratura Gaussiana “adaptada” a densidades a posteri-ori, integra rutinariamente unas pocas dimensiones. Alternativamenteexisten aproximaciones analıticas a la marginal, muy exactas, basadasen aproximaciones de Laplace, como en Tierney y Kadane (1986), yrecientemente por metodos de simulacion se han integrado problemasde mayores dimensiones (ver seccion 4.2.5).

Desde el punto de vista frecuentista desembarazarse de parametrosmolestos , conceptualmente, no es nada simple ya que no se puede in-tegrar. Se requiere de una estadıstica cuya distribucion no sea afectadapor el valor de los parametros molestos, por ejemplo como descubrioGosset para la t-Student. En problemas complejos se debe recurrira metodos aproximados y asintoticos. Aun ası el tema sigue siendoenormemente complicado. Ver por ejemplo Cox y Reid(1987). Sin em-bargo, para problemas de alta dimension es aun mas difıcil especificaruna distribucion a priori. Aquı, metodos imprecisos de analisis conclases de distribuciones a priori, y multiples analisis de sensitividadrespecto de las asignaciones a priori son aun mas relevantes. Variosmetodos que ayudan en la determinacion de las distribuciones a priori,son expuestos por ejemplo en Berger(1985, cap. 3) y en el Capıtulo 5.

4.2.3 Inferencia Predictiva

A menudo el objetivo no es tomar decisiones sobre parametros (tı pi-camente no-observables), sino sobre observaciones futuras (observables“manana”). Decimos entonces que se requiere “predecir” a partir dela informacion disponible hoy. Las observaciones futuras dependen delparametro θ, que es y sera desconocido. Denotemos al vector de ob-servaciones futuras por Xf . Luego de observado el experimento hastahoy, tenemos a X fijo. Las variables aleatorias son θ y Xf . Para pre-


decir, todo el vector de parametros θ es de molestia. Basamos nuestraprediccion en la densidad marginal posterior de Xf , o sea, la “densidadpredictiva” definida por:

π(xf | x) =∫

π(xf , θ | x)dθ =∫

p(xf | θ, x)π(θ | x)dθ, (4.28)

donde p(xf | θ, x) es la verosimilitud (suponiendo que es una densidad)de Xf . En el caso que Xf sea condicionalmente (en θ) independientede X, lo que sucede si por ejemplo las observaciones futuras y pasadasson una muestra aleatoria, entonces (4.28) se simplifica:

π(xf | x) =∫

p(xf | θ)π(θ | x)dθ. (4.29)

Ejemplo 4.3 (Continuacion Ejemplo 2.7). Supongamos que hemosobservado n ensayos Bernoulli, obteniendo X+. Queremos obtener laprobabilidad predictiva del evento A: exito en el proximo intento. Estoes equivalente a obtener la distribucion de Xf ya que por definicionXf = 1 si y solo si A ocurre y Xf = 0 si y solo si A no ocurre. Noteque Xf no es independiente de X (ya que X da informacion sobre θ),pero es cierto que Xf es independiente de X, condicionalmente en θ.Por consiguiente: p(Xf | θ, x) = p(xf | θ) y la simplificacion (4.29) esvalida. Ademas p(xf = 1 | θ) = θ, de donde:

p(A | x) = p(xf = 1 | x) =∫ 1

0θπ(θ | x)dθ = Eθ|X(θ), (4.30)

o sea, que en el caso Binomial la probabilidad predictiva de exito enel proximo ensayo es igual a la esperanza posterior de θ. Supongamosahora que la densidad a priori es Beta, π(θ) = Beta(α, β), con α, β > 0.De (4.31) y (2.22) resulta que:

p(xf = 1 | x) =α + x+

α + β + n. (4.31)

Si se asigna α = β = 1, la densidad Beta se convierte en la uniformeU(0, 1) y (4.31) se convierte en:


p(xf = 1 | x) =1 + x+

2 + n. (4.32)

La expresion (4.32) es la famosa Ley de Sucesion de Laplace, quienfue uno de los primeros Bayesianos. De hecho hay quien ha afirmadoque la estadıstica “Bayesiana” deberıa llamarse “Laplaciana”. Si se hanobservado n exitos en n ensayos, (4.32) indica que la probabilidad de unnuevo exito es 1+n

2+ny si no se ha observado ningun exito, la probabilidad

de observarlo en el proximo ensayo es 12+n

.3Ejemplo 4.4 (Continuacion Ejemplo 2.6). Aquı la verosimilitudes Normal con varianza conocida σ2 y la densidad a priori tambien esNormal con media µ y varianza τ2. Supongamos que esperamos mnuevas observaciones, y que se quiere obtener la densidad predictiva de

su media muestral Xf = 1m

m∑

i=1

Xif . De nuevo en este ejemplo Xf es

(condicionalmente en θ) independiente de X y por ello la simplificacion(4.29) es valida:

p(xf | θ, x) = p(xf | θ) = N

(Xf | θ,

σ2

m

).

Por otro lado, de (2.11) sabemos que: π(θ | x) = N(θ | µ(x), ρ−1).Resulta entonces,

π(xf | x) =∫ ∞

−∞N

(xf | θ,

σ2

m

)N(θ | µ(x), ρ−1)dθ, (4.33)

entonces por un procedimiento analogo al que condujo a (2.8) resulta,

π(xf | x) = N

(xf | µ(x),

σ2

m+ ρ−1

).

Note que:

E[Xf | x] = E[θ | x],

pero V ar(Xf | x) = V ar(θ | x) + σ2

m. Esto ultimo nos dice que a

la varianza de θ hay que sumarle la varianza de Xf alrededor de θ.


Como consecuencia tenemos que el HDPα para Xf en lugar de θ, se

obtiene de (4.22) sustituyendo θ por Xf y ρ−1 por(

σ2

m+ ρ−1

)1/2, y por

consiguiente el HDPα de Xf esta centrado en el mismo punto que elHDPα de θ, pero tiene una mayor longitud.3

Hemos visto que la inferencia predictiva tiene su expresion natu-ral y coherente en la estadıstica Bayesiana. Sin embargo ella lleva unconjunto de interrogantes fundamentales para el punto de vista frecuen-tista, Hinkley(1979).

La insercion de la toma de decisiones sobre observaciones futuras enel marco que hemos expuesto anteriormente sobre toma de decisionespara θ, es conceptualmente directo. Denotemos la perdida de estimarXf por d como L∗(xf , d). Supongamos por simplicidad que estamos enla situacion que conduce a (4.29). Definamos:

L(θ, d) = EXf[L∗(xf , d) | θ] =

∫L ∗ (xf , d)p(xf | θ)dxf ,

y esto reduce el problema de decision predictiva al problema standardque envuelve a θ desconocido, y a los datos obtenidos X.

Ejemplo 4.5. Supongamos que Xf ∼ N(θ, σ2), y se desea estimar Xf

bajo perdida cuadratica: L∗(xf , d) = (xf − d)2. Entonces,

L(θ, a) = EXf[(Xf − d)2 | θ] = EXf

[(Xf − θ + θ − d)2 | θ

]=

EXf

[(Xf − θ)2 | θ

]+ EXf

[(θ − d)2 | θ

]= σ2 + (θ − d)2.

Por lo tanto, para escoger una decision optima solo necesitamosconsiderar el problema de estimar a θ bajo perdida cuadratica, condi-cionalmente en las observaciones X obtenidas. Estimarıamos entocesa Xf por µ(x) en (2.10).34.2.4 Normalidad Asintotica de la Densidad Pos-

terior

Este es un importante resultado que es esencialmente una version Ba-yesiana del Teorema del Lımite Central. La normalidad asintotica de


la densidad posterior fue probada originalmente por Laplace(1812), ysegun Berger, esta es la primera version del Teorema del Lımite Central.En la motivacion heurıstica que presentaremos de este resultado no in-cluiremos las condiciones de regularidad requeridas con detalle. Variosconjuntos de supuestos de regularidad han aparecido en la literaturay referimos al lector a: Le Cam(1956), Jeffreys(1961), Walker(1969) yparticularmente a Heyde y Johnstone(1979). Comencemos por recordarque el estimador de maxima verosimilitud θ de θ se define como:

supθ∈Θ

p(x | θ) = p(x | θ

).

Supongamos que X1, . . . , Xn es una muestra aleatoria (i.i.d) de ladensidad p(xi | θ), θ = (θ1, . . . , θk). Supongamos que π(θ) es unadensidad a priori y que π(θ) y p(x | θ) son positivas y dos veces difer-enciables en un entorno del estimador de maxima verosimilitud θ de θ,el cual se supone que existe. Entonces para n grande, bajo condicionesde regularidad (casi siempre satisfechas), la densidad posterior:

π(θ | x) =p(x | θ)π(θ)

p(x),

es aproximadamente:

Nk

(θ | θ, [I(x)−1]

), (4.34)

donde I(x) es la matriz de informacion de Fisher observada, cuyo ele-mento i, j es:

Iij(x) = −[

∂2

∂θi∂θjlog p(x | θ)

]

θ=θ= −

n∑

t=1

[∂2

∂θi∂θjlog p(xt | θ)

]

θ=θ.

La motivacion heurıstica para k = 1 del resultado es la siguiente:Expandimos por la formula de Taylor log p(x | θ) alrededor de θ, yentonces la primera derivada evaluada en θ se anula. Para θ cerca deθ (de tal manera que π(θ) sea aproximadamente constante) tenemos:

π(θ | x) =exp {log p(x | θ)}π(θ)∫exp {log p(x | θ)}π(θ)dθ


≃exp

{log p(x | θ) − 1

2(θ − θ)2I(x)

}π(θ)

∫exp

{log p(x | θ) − 1

2(θ − θ)2I(x)

}π(θ)dθ

=exp

{−1

2(θ − θ)2I(x)

}

[2π(I(x))−1]1/2= N

(θ | θ, [I(x)]−1

),

y puede demostrarse que para n “suficientemente” grande, solo los θ’scerca de θ dan una contribucion significativa a la densidad posterior.Esto se debe a que la verosimilitud se concentrara cada vez mas alrede-dor de θ, pero π(θ) no depende de n y puede considerarse como aprox-imadamente constante en una vecindad de θ. La aproximacion (4.34)no envuelve a la densidad a priori utilizada. Puede afirmarse entoncesque bajo condiciones de regularidad bastante generales, para n suficien-temente grande, π(θ | x) es aproximadamente insensible a la densidada priori particular empleada. (Note que si π(θ) es de Cromwell, au-tomaticamente satisface que es positiva cerca de θ). Sin embargo sise dispone del vector de medias y la matriz de varianza-covarianza aposteriori exactas, y se sustituyen en (4.34) en lugar de θ e I(x) respec-tivamente, la aproximacion a la densidad posterior mejora. Aproxima-ciones mas generales, basadas en aproximaciones de Laplace aparecenen la proxima seccion.

4.3 Aplicaciones al Diseno Experimental

y al Analisis Secuencial

4.3.1 Tamano de la Muestra Optimo

La situacion mas secilla del diseno de un experimento estadıstico , esdecidir el tamano optimo de la muestra. El enfoque Bayesiano es elmas razonable, ya que al balancear la perdida debida a la decisiony el costo de muestrear, la medida razonable pre-experimental de laperdida esperada es el riesgo Bayesiano. Denotemos por L(θ, d, n) lafuncion de perdida, de observar Xn = (X1, . . . , Xn) y tomar la acciond. Supongamos que θ tiene la densidad a priori π(θ) y que para cadan existe una decision optima-Bayes δ∗n. Denotamos al riesgo Bayesianopara este problema por:

4.3. APLICACIONES AL DISENO EXPERIMENTAL Y AL ANALISIS SECUENCIAL 107

r(π, n) = EθEXn [L(θ, δ∗n(xn), n) | θ] .

El tamano de muestra optimo n∗, es aquel que minimiza r(π, n).Supongamos que:

L(θ, d, n) = L(θ, d) + C(n), (4.35)

o sea, la funcion de perdida se descompone en la perdida por estimar θpor d, mas el costo de tomar una muestra de tamano n. Para funcionesde perdida que obedezcan (4.35), es claro que para cada n fijo, δ∗nsera la decision de Bayes usual para la perdida L(θ, d) basada en nobservaciones, o sea aquella decision que minimiza r(π, δ), definicion2.7. Entonces, el procedimiento para calcular el n∗ optimo es:

1. Para un n fijo cualquiera obtener la decision optimo-Bayes δ∗n ycalcular r(π, δ∗n). Luego calcular r(π, n): r(π, n) = r(π, δ∗n) +C(n).

2. Encontrar n∗ tal que: minn r(π, n) = r(π, n∗) donde n se mueveen los enteros no negativos.

Ejemplo 4.6. En la situacion del ejemplo 2.6 (Normal-Normal), supong-amos que

L(θ, d, n) = (θ − d)2 + C(n). (4.36)

Para un n fijo, sabemos que la decision optima-Bayes para perdidacuadratica es δ∗n(x) = µ(x), la esperanza posterior dada por (2.10).Para δ∗n = E(θ | x) y perdida cuadratica, r(π, δ∗n) es igual a la varianzaa posteriori ρ−1

n , de donde

r(π, δ∗n) = ρ−1n =

(1

τ2+

n

σ2

)−1

=τ2σ2

σ2 + nτ2.

Supongamos ahora que C(n) = nc, o sea que cada observacion tieneun costo c > 0. Entonces,

r(π, n) =τ2σ2

σ2 + nτ2+ nc.


Pretendamos ahora que n es un numero natural. Diferenciandorespecto a n obtenemos:

d

dnr(π, n) = − τ4σ2

(σ2 + nτ2)2+ c,

e igualando a cero conseguimos

n∗ =σ√c− σ2

τ2,

que es el valor aproximado del tamano optimo.Como la derivada segunda de r(π, n) es positiva, es una funcion

estrictamente convexa en n, y por tanto el tamano optimo se obtendraen uno de los enteros proximos a n∗, a menos que n∗ sea negativo, encuyo caso el tamano optimo sera cero, y se debe tomar una decisionsin muestrear. Note que si el costo de cada observacion es grande,n∗ sera mas pequeno. Tambien si la varianza a priori es grande (altaincertidumbre inicial) n∗ sera mayor. El riesgo Bayesiano alcanzable esentonces aproximadamente:

r(π, n∗) = 2σ√

c − cσ2

τ2.3

4.3.2 Analisis Secuencial

Este es un tema de gran importancia practica y teorica, con matematicainteresante, que por sı mismo ameritarıa un curso. Vamos a limitarnosaquı a presentar una ilustracion sencilla que servira para motivar eltema y aplicar el principio de la minimizacion de la perdida esperada aposteriori. Nos concierne la situacion en la que el TD puede tomar susobservaciones X1, X2, . . . una por una. En el paso n, puede juzgar la in-formacion que ha acumulado de las n observaciones Xn = (X1, . . . , Xn)y decidir si terminar el muestreo y tomar una decision sobre θ o de-cidir tomar una nueva observacion Xn+1. Una muestra obtenida de estemodo se llama muestra secuencial. La ventaja practica de un proced-imiento secuencial sobre uno no secuencial, como en el caso de decisiondel tamano optimo de la muestra sin obtener ningun dato, es clara.Si por ejemplo el costo por observacion es fijo, en un procedimiento

4.4. LA FAMILIA EXPONENCIAL. EXTENSION DEL PRINCIPIO BAYESIANO 109

secuencial el TD podra, con ventaja, terminar el experimento antes dellegar a n∗, ahorrandose el costo extra del muestreo.

Un desarrollo completo del analisis secuencial aparece en Berger(1985).

4.4 La Familia Exponencial. Extension

del Principio Bayesiano

La familia natural de verosimilitudes en donde generalizar las opera-ciones Bayesianas, es la Familia Exponencial. Esta familia posee unarica estructura matematica estudiada exhaustivamente por Brown(1986).Aspectos particulares de esta familia han sido explorados por ejemploen Lehmann(1959 y 1983), Diaconis y Ylvisaker(1979), Pericchi(1989),Pericchi y Smith(1991) y Pericchi, Sanso y Smith(1993).

La familia exponencial de medidas de probabilidad se define como:

p(x | λ) = dP (x | λ) = exp {x.λ − M(λ)}dµ(λ), λ ∈ Λ, (4.37)

donde µ es una medida σ-finita en los conjuntos de Borel en Rk. El

vector de parametros λ ∈ Rk, se denomina el vector canonico, y Λ es

el espacio de los parametros canonicos,

Λ = {λ tales que : M(λ) < ∞} . (4.38)

En general, λ correspondera a una transformacion del parametrousual de interes. Por ejemplo en el caso Binomial, λ = log θ

1−θ. El vector

de parametros de interes es E(x | λ), el cual se obtiene diferenciandola identidad:

∫

XdP (x | λ) = 1

respecto de λ en (4.37), y haciendo cambios permisibles de integraciony diferenciacion obtenemos:

E(x | λ) = ∆M(λ) =

(∂M

∂λ1(λ), . . . ,

∂M

∂λk(λ)

). (4.39)


Denotemos por dλ la medida de Lebesgue en los conjuntos de Borelde Λ. Definimos la familia de medidas a priori por:

π(λ | n0, x0) = dΠ(λ | n0, x0) = exp {n0x0.λ − n0M(λ)}dM(λ),(4.40)

con n0 > 0, x0 ∈ Rk.

Llamamos al par (p(x | λ), π(λ | n0, x0)) la “Familia ExponencialConjugada”, que es la que posee mas facil manejo analıtica y alge-braicamente para las operaciones Bayesianas.

Teorema 4.2 Supongamos que Λ es un abierto en Rk. Si λ tiene la

medida a priori (4.40), con n0 > 0 y x0 ∈ X, entonces la esperanza apriori es:

Eλ [∆M(λ)] = Eλ [E(x | λ)] = x0. (4.41)

Prueba. Diaconis y Ylvisaker(1979). 2Note que si observamos una muestra X1, . . . , Xn de P (x | λ), en-

tonces la medida a posteriori de λ, es de la forma (4.40), con hiper-parametros actualizados:

n′ = n0 + n y x′ =n0x0 + nx

n0 + n, (4.42)

o sea,

π(λ | x) = dΠ(λ | n′, x′). (4.43)

Corolario 4.1 La media a posteriori del vector de parametros de in-teres es:

Eλ|X [∆M(λ)] = Eλ|X [E(x | λ)] = x′. (4.44)

Las ecuaciones (4.42 a 4.44) generalizan los resultados obtenidos enel ejemplo 2.6 (Normal-Normal) y ejemplo 2.7 (Beta-Binomial), dondea x′ se le llamo µ(x), ecuaciones (2.10) y (2.15). La interpretacion es:n0 es el “tamano muestral” a priori, x0 el vector de medias a priori, x′

el vector de medias actualizadas o a posteriori y n′ el tamano “global”.Esquematicamente tenemos:


Π(λ | n0, x0)Bayes−→ Π(λ | n′, x′). (4.45)

Ejemplo 4.8. Consideremos nuevamente el ejemplo 1.1, donde ten-emos un numero grande N de transistores. La decision d1 es aceptar ellote de transistores y d2 rechazarlo por no cumplir las normas de cali-dad. Supongamos que previamente se ha decidido tomar una muestrade tamano n: X0, . . . , Xn, donde Xi es el tiempo de vida util del tran-sistor i. Una verosimilitud ampliamente usada para modelar tiemposde vida de componentes electronicos es la Exponencial:

p(xi | θ) = θ exp {−θ xi}, xi ≥ 0, θ > 0, (4.46)

la cual suponemos que ha generado los datos de la muestra tomada. Lamedia y la varianza de una variable X bajo la verosimilitud Exponencialson: 1

θy 1

θ2 respectivamente. El parametro de interes, generalmente, es1θ, la media del tiempo de vida de los componentes. Escribamos (4.46)

en el formato de la familia exponencial (4.37): Denotamos por λ = −θ,el parametro canonico. Entonces:

p(xi | λ) = exp {λxi + log(−λ)}, λ < 0 (4.47)

o sea,

M(λ) = − log(−λ) ydM

dλ(λ) = −1

λ=

1

θ= E(Xi | λ).

La forma de la medida a priori es segun (4.40)

π(λ | n0, X0) = exp {n0x0λ + n0 log(−λ)}dM(λ),

transformando en sentido inverso y notando que | dλ |=| −dθ |,

π(θ | n0, x0) = θn0 exp {−n0x0θ}dM(θ), θ > 0. (4.48)

La densidad Gamma tiene la forma:

Ga(θ | α, β) =βα

Γ(α)θα−1 exp {−βθ}dθ, θ > 0, (4.49)


y entonces (4.48) es el kernel de una Gamma con hiperparametros n0 =α − 1 y β = n0x0. Entonces sigue que la densidad conjugada es:

π(θ | n0, x0) =(n0x0)

n0+1

Γ(n0 + 1)θn0 exp {−n0x0θ}dθ, θ > 0. (4.50)

Segun el Teorema 4.2, la esperanza a priori de 1θ

es, Eθ [E(X | θ)] =

Eθ

[1θ

]= x0, lo que puede verificarse directamente. Si observamos una

muestra de tamano n de tiempos de vida util obtenemos de (4.46):

p(x | θ) = θn exp {−nxθ}, (4.51)

que multiplicado por (4.50) da la densidad a posteriori:

π(θ | x) ∝ θn0+n exp {−(n0x0 + nx)θ}.3 (4.52)

Comparando con (4.50) concluimos que si la densidad a priori esGamma, entonces la densidad a posteriori tambien es Gamma, conhiperparametros actualizados:

n0 + n = α − 1 y n0x0 + nx = β.

Para el ejemplo de aceptar o rechazar el lote de transistores, Wal-ley(1987) propone la siguiente funcion de perdida:

L(θ, d1) = n(x0 −

1

θ

)y L(θ, d2) = c > 0,

donde, la constante c es el costo de incoveniencia al tener que reem-plazar el lote, n es el numero de transistores del lote y x0 − 1

θes la

diferencia entre la media a priori del tiempo de vida (X0) bajo todoslos lotes en circunstancias similares, y el tiempo de vida medio para ellote en cuestion,

(1θ

). Sigue del Corolario 4.1 que:

Eθ|X [L(θ, d2)] = c > 0, y Eθ|X [L(θ, d1)] = N(x0 −

n0x0 + nx

n0 + n

).

Entonces, aceptamos el lote si:


Nn

n0 + n(x0 − x) < c,

o sea, aceptamos si:

x > x0 −c

Nn(n0 + n)3.

Para la familia exponencial conjugada es bastante sencillo trabajarcon clases de densidades conjugadas en lugar de una densidad conju-gada unica y precisa, (Pericchi, 1989).

Como ilustracion, si consideramos la clase de densidades conjugadascon hiperparametros en el siguiente conjunto:

Γ = {π(λ | n0, x0) : 0 < n0 < n0, x0 fijo} , (4.53)

podemos calcular los extremos (en n) de la media a posteriori de λ.Usando (4.42) resulta que:

supπ∈Γ

x′ − infπ∈Γ

x′ =n0

n0 + n| x0 − x | . (4.54)

La expresion (4.54) es una medida muy razonable de la imprecisiona posteriori respecto de la media. Es inversamente proporcional altamano muestral n, pero directamente proporcional al conflicto entre lamedia a priori x0 y la media muestral x. Esta es una generalizacion utildel enfoque Bayesiano: la imprecision a posteriori nos indica el tamanode la evidencia sobre la que esta basada la decision (n) y nos alertasobre posibles conflictos entre la asignacion a priori y el resultado mues-tral. Este doble efecto no puede ser percibido en forma directa cuandobasamos nuestra decision en una unica medida a priori, minimizandola perdida posterior. Esta generalizacion del metodo Bayesiano puederesultar en ausencia de una decision racional cuando no hay suficienteinformacion muestral y a priori. Si por ejemplo la decision Bayesiana esd1 cuando X ′ > T y d2 cuando X ′ < T , entonces al considerar una clasede densidades es razonable modificar esta regla por d1 si infπ∈Γ X ′ > Ty d2 si supπ∈Γ X ′ < T . Si en ninguna de estas condiciones se obtiene queel proceso de decision falla, una decision racional no puede ser tomada.De hecho se ha observado en la implementacion practica del analisis de


decision Bayesiano que, generalmente, el TD no basa su decision exclu-sivamente en valores esperados, sino que incorpora de alguna manerala varianza posterior, en un intento ad hoc que confunde incertidumbrecon imprecision, Brown(1984).

Finalmente, consideremos un ejemplo que ilustra como podemosreplantear el problema de la “ignorancia” a priori, considerando unaclase apropiada de medidas.

Ejemplo 4.9. Una clase “casi ignorante” para el caso Binomial, Wal-ley(1987). Consideramos el caso Beta-Binomial del ejemplo 2.7. Elinteres recae sobre el evento A: Exito en el proximo intento. Ser ig-norante sobre este evento nos obliga a especificar una clase en donde,a priori, 0 ≤ P (A) ≤ 1. Esto quiere decir que a priori no estamosdispuestos a apostar en favor o en contra de A. Esto es equivalente,dentro de la familia conjugada, a 0 ≤ x0 ≤ 1. Consideremos entoncesla clase “casi ignorante”:

Γ {π(θ | n0, x0) : 0 ≤ x0 ≤ 1, n0 fijo} .

Resulta entonces que:

supπ∈Γ

P (A | x) =n0 + x+

n0 + ny inf

π∈ΓP (A | x) =

x+

n0 + n,

de donde se obtiene que la imprecision a posteriori respecto de A es:(1 + n

n0

)−1. Note que no hay conflicto entre media muestral y media

a priori, ya que x0 puede variar arbitrariamente entre 0 y 1. A fin decomparar con la “Ley de Sucesion de Laplace” (4.32), asignemos paran0 el valor de 2, ya que la densidad uniforme corresponde a x0 = 1

2,

n0 = 2. Comparemos el comportamiento de Laplace con el sup e inf deP (A | x) bajo la clase Γ “casi ignorante”, suponiendo que obtenemosmuestra para n variables, con x = 1

2fijo.

n 0 2 20 100 1000Laplace P (A | x) 0.5 0.5 0.5 0.5 0.5sup P (A | x) 1 0.75 0.55 0.51 0.501inf P (A | x) 0 0.25 0.45 0.49 0.499

4.5. CALCULOS Y APROXIMACIONES BAYESIANAS 115

La “Ley de Sucesion de Laplace”, basada en la densidad Uniformees constantemente igual a 0.5 sin reflejar la cantidad de informacionsobre la cual se basa. Por el contrario, las probabilidades superiores einferiores basadas en Γ, aun convergiendo a 0.5, reflejan en su diferenciala cantidad de informacion en la que estan basadas. La clase ignoranterepresenta, mas satisfactoriamente que la densidad Uniforme, la faltade conocimiento a priori.

4.4.1 Densidad a priori No-Conjugada. Influenciaacotada y no acotada

En esta seccion enunciaremos un resultado basico sobre la influenciaacotada y no acotada de la densidad a priori no conjugada, la de-mostracion y otros resultados pueden verse en Pericchi y Smith (1992).

Sea X1, . . . , Xn una muestra iid, con Xi ∼ N(θ, σ2), donde σ2 esconocida y θ la media, desconocida. Sea Y = X, sabemos que Y ∼N(θ, σ2/n), y denotamos su densidad por p(y − θ), y la previa para θes π(θ).

Teorema 4.3 Si definimos

m(y) =∫

p(y − θ)π(θ)dθ,

para cualquier π(θ) ≥ 0, acotada para θ ∈ R, y ademas definimos:

s(y) = −∂{log m(y)}∂y

y S(y) =∂s(y)

∂y.

Entonces,

1. E(θ | y) = y − σ2

ns(y),

2. V ar(θ | y) = σ2

n− σ4

n2S(y).

4.5 Calculos y Aproximaciones Bayesianas

El paradigma Bayesiano es conceptualmente claro. Para compararmodelos, eliminar parametros de molestia, predecir, etc., hay que cal-cular integrales de la forma:


m(x) =∫

Θf(x | θ)π(θ)dθ y E[g(θ) | x] =

∫Θ g(θ)f(x | θ)π(θ)dθ∫Θ f(x | θ)π(θ)dθ

.

Sin embargo, con frecuencia estas integrales no pueden ser resueltasen forma cerrada, y la dificultad numerica envuelta puede ser impor-tante, particularmente cuando la dimension de Θ es grande. Pero estadificultad es mucho menor hoy en dıa gracias a la disponibilidad, rela-tivamente barata, de computadoras de gran poder de calculo.

En lo que sigue introduciremos algunas estrategias para calcular oaproximar estas integrales.

4.5.1 Aproximaciones de Laplace

Sea h(θ) = log[f(x | θ)π(θ)], k = dim (θ) y θ su maximo. Entonces,si Ih(x) es la matriz cuyo elemento ij es:

Ihij(x) = −

[∂2

∂θi∂θj

h(θ)

]

θ=˜θ

,

entonces, bajo condiciones de regularidad, expandiendo alrededor de θ,y usando la integral de la distribucion Normal multivariada,

m(x) =

∫

Θexp{h(θ)}dθ ≈

∫

Θexp

{(h(θ)} − 1

2(θ − θ)tIh(x)(θ − θ)

}dθ =

exp{h(θ)}(2π)k/2

[det (Ih(x))]1/2=

(2π)k/2f(x | θ)π(θ)

[det (Ih(x))]1/2.

Esta aproximacion es extremadamente util y potente. Si ahora lla-mamosh∗(θ) = log [g(θ)f(x | θ)π(θ)], y θ

∗su maximo, siguiendo el mismo

camino anterior obtenemos:

E[g(θ) | x] =

∫exp{h∗(θ)}dθ∫exp{h(θ)}dθ

≈[

det(Ih(x))

det(Ih∗(x))

]1/2g(θ

∗)f(x | θ

∗)π(θ

∗)

f(x | θ)π(θ).


La exactitud de esta aproximacion es sorprendente, para mayor re-ferencia ver Tierney y Kadane (1984).

Una estrategia numerica directa son las cuadraturas de Gauss y deGauss-Hermite, que han sido implementadas en el paquete Bayes 4. Sinembargo son apropiadas para un numero reducido de dimensiones. VerNaylor y Smith (1982).

4.5.2 Integracion de Monte Carlo

Supongamos que podemos generar una sucesion i.i.d de variables aleato-rias (θ1, θ2, . . . , ) de una densidad k(θ) > 0 en Θ. Note que,

Ek

[g(θ)f(x | θ)π(θ)

k(θ)

]=∫

Θg(θ)f(x | θ)π(θ)dθ.

De la Ley Fuerte de Grandes Numeros sigue que:

limm→∞

1

m

m∑

i=1

[g(θi)f(x | θi)π(θi)

k(θi)

]=∫

Θg(θ)f(x | θ)π(θ)dθ.

Si llamamos

w(θi) =f(x | θi)π(θi)

k(θi),entonces tenemos la aproximacion:

E[g(θ) | x] ≈∑m

i=1 g(θi)w(θi)∑mi=1 w(θi)

.

La funcion k(θ) es llamada la funcion de importancia. Para que laaproximacion sea eficiente, esta funcion debe cumplir con las siguientespropiedades:

1. Debe ser facil simular variables aleatorias de ella,

2. k(θ) debe ser cercana a π(θ | x), y

3. las colas de k(θ) no deben ser mas finas que las de f(x | θ)π(θ).Ver Berger (1985).


4.5.3 Simulacion de la densidad posterior

A partir de Gelfand y Smith (1990), se comenzo a generar una ver-dadera explosion de tecnicas de integracion bajo el nombre generico demetodos de: Cadenas de Markov Montecarlo, ver Gilks, Richardson ySpiegelhalter (1996). Estas tecnicas aproximan la densidad posterior apartir de muestras generadas de esta densidad.

Supongamos que y es el vector de parametros de interes, cuya den-sidad posterior es p(y). (Formalmente serıa p(y | D), donde D son losdatos, pero la omitimos por simplicidad de notacion). Sea y1, y2, . . . ,una muestra con densidad p(y). Entonces usando la ley de grandesnumeros, bajo condiciones bastante generales, resulta que:

1

m

m∑

i=1

h(yi)m→∞−→

∫h(y)p(y)dy = E[h(y)],

en probabilidad.Una aproximacion a la densidad marginal del escalar y1, donde

y = (y1, y2) puede obtenerse de la siguiente manera (Gelfand y Smith(1990)): supongamos que p(y1 | y2) es conocida. Si la muestra esyi = (y1i, y2i) para i = 1, . . . , m, entonces

p(y1) ≈1

m

m∑

i=1

p(y1 | y2i).

Tambien es util que,

E[h(y1)] ≈1

m

m∑

i=1

E[h(y1) | y2i],

cuando la esperanza condicional E[h(y1) | y2] se conozca analıticamente.

4.5.4 Metodos Monte Carlo de Cadenas de Markov(MCMC)

Simular variables aleatorias directamente de p(y) es frecuentementeimposible. Los metodos MCMC tienen la estrategia de simular suce-siones que eventualmente tendran la distribucion p(y). El algoritmo esel siguiente:


1. Especificar el valor inicial y0.

2. Muestrear valores sucesivos de una distribucion de transicion condensidad f(yi | yi−1), para i = 1, 2, . . . ,; donde yi es generadocondicionalmente independiente de yi−2, yi−3, . . . ,.

Se han propuesto multiples maneras de implementar este algoritmo,una de las cuales es el muestreador de Gibbs.

MUESTREADOR DE GIBBS

Si y = (y1, . . . , yk), denotaremos por y(−i) = (y1, . . . , yi−1, yi+1, . . . , yk).La densidad posterior, bajo condiciones de regularidad, esta car-

acterizada por las p-densidades condicionales: p(yi | y(−i)), para i =1, . . . , k. El muestreador de Gibbs esta basado en sucesiones de sim-ulaciones de estas condicionales, y el uso de la caracterizacion de laconjunta por el conjunto completo de las condicionales p(yi | y−i).Simular muestras directamente de p(y) es usualmente difıcil, pero fre-cuentemente sencillo generarlas de p(yi | y(−i)).

El muestreador opera ası: supongamos que hemos obtenido la mues-tra ym−1, esta es reformada actualizando las entradas del vector, unopor uno, para i = 1, . . . , k, un nuevo valor yi es simulado de la condi-cional p(yi | y(−i)), donde los k − 1 elementos de y(−i) son los valoresmas recientemente obtenidos. De esta manera, el vector k-dimensionales actualizado, entrada por entrada, y para m suficientemente grande,el valor obtenido de y tiene la densidad p(y).

Ejemplo 4.10. (Casella, G. y George, L.I (1992)). Sean y1 y y2 talesque la densidad conjunta es:

p(y1, y2) ∝(

ny1

)yy1+α−1

2 (1−y2)n−y1+β−1, y1 = 0, . . . , 0 ≤ y2 ≤ 1.

Estamos interesados en conocer las caracterısticas de la marginalp(y1). Puede verificarse que las condicionales son:

p(y1 | y2) ∼ Binomial(n, y2) y p(y2 | y1) ∼ Beta(y1 +α, n−y1+β).


El muestreador de Gibbs opera, generando variables aleatorias deestas condicionales a partir de los valores iniciales y0

1, y02:

yi+11 ∼ p(y1 | yi

2) y yi+12 ∼ p(y2 | yi+1

1 ),

para i = 1, . . . , k − 1. Para k suficientemente grande yk1 tendra apro-

ximadamente la densidad p(y1). Repitiendo m veces este algoritmo seobtendra una muestra de la densidad p(y1). Note que es muy sencillogenerar muestras de tanto de la Binomial como de una Beta, las cualescorresponden a las condicionales. Sin embargo no es obvio como generarmuestras de la marginal p(y1). En este caso particular puede probarseque:

p(y1) =

(ny1

)Γ(α + β)

Γ(α)Γ(β)

Γ(y1 + α)Γ(n − y1 + β)

Γ(α + β + n).3

4.6 Ejercicios

4.1 Verificar la ecuacion 4.17.

4.2 Demostrar la proposicion 4.1.

4.3 Considere el test de hipotesis “unilateral”:

H0 : θ ≤ θ0 vs. H1 : θ > θ0,

donde X es muestra con entradas iid con distribucion Normal conmedia θ y varianza σ2 conocida. Suponga que la distribucion apriori de θ viene dada como en el ejemplo 2.6, por una distribucionNormal con media µ y varianza τ2, ambas conocidas. Hallarp(H0 | x).

4.4 En la situacion del ejemplo 2.6 (Normal-Normal), verificar que elHDPα(x) para la media θ es:

HDPα(x) ={θ : µ(x) − zαρ−1/2 < θ < µ(x) + zαρ−1/2

},

donde Φ(zα) = 1 − α2.

4.6. EJERCICIOS 121

4.5 Demostrar que luego de observar una muestra de tamano n (ejem-plo 4.2), la densidad a posteriori conjunta de θ y h sigue siendoNormal-Gamma:

π(θ, h | x) = NG(θ, h | µ′, ξ′, α′, β′),

donde:

µ′ =ξµ + nx

ξ + n, ξ′ = ξ + n, α′ = α +

n

2, y

β′ = β +1

2

n∑

i=1

(xi − x)2 +ξn(x − µ)2

2(ξ + n).

4.6 Hallar el intervalo HDP a posteriori de una credibilidad de 95%para el ejemplo 4.2.

4.7 Hallar la densidad predictiva de una futura observacion Xf en lasituacion del ejemplo 4.2, es decir, la verosimilitud es Normal convarianza desconocida y la densidad a priori es Normal-Gamma.

4.8 Considere la situacion Beta-Binomial del ejemplo 2.7. Obtener laaproximacion 4.34 para la densidad posterior Beta (2.14). Obtenertambien la aproximacion que en (4.34) inserta la esperanza y var-ianza a posteriori exactas.

4.9 En la situacion del ejemplo 4.5, con C(n) = log(1 + n), o sea, esmas costoso por observacion el tomar muestras grandes, encuentreel tamano optimo de muestra aproximado (n∗).

4.10 Demostrar que cada una de las siguientes familias de verosimili-tudes pertenecen a la familia exponencial, encuentre sus parame-tros canonicos y su distribucion a priori conjugada:

(a) Binomial.

(b) Poisson.

(c) Multinomial.

(d) Exponencial.


(e) Normal Univariada con varianza conocida.

(f) Normal k-variada con matriz de varianza-covarianza cono-cida.

4.11 Verificar que la esperanza a priori de 1θ

en el ejemplo 4.8 es x0.

4.12 Hallar el estimador de Bayes para θ en el ejemplo 4.8 si la perdidaes:

(a) L(θ, d) = (θ − d)2.

(b) L(θ, d) =(1 − d

θ

)2.

4.13 Verificar la ecuacion (4.54).

4.14 Verificar que para el ejemplo 4.9 se tiene:

supπ∈Γ

P (A | x) =n0 + x+

n0 + ny inf

π∈ΓP (A | x) =

x+

n0 + n.

4.15 Utilizar la aproximacion de Laplace para obtener la aproximacionde Stirling del factorial:

n! = Γ(n + 1) =∫ ∞

0tn e−tdt.

4.16 Basados en la densidad conjunta del ejemplo 4.10, para n = 20,α = 2 y β = 3, generar m = 100 variables aleatorias de p(y1)por el muestreador de Gibbs, para k = 150, partiendo de y0

1 =10, y0

2 = 0.5.

(a) Hacer un histograma y comparar con la densidad exactadada en el ejemplo.

(b) Estimar alternativamente la densidad marginal usando

P (Y1 = y1) =1

m

m∑

i=1

P (Y1 = y1 | Y2i = y2i).

Capıtulo 5

Analisis Bayesiano delModelo Lineal

En este capıtulo haremos una introduccion sobre varios analisis Baye-sianos del modelo de mayor uso en estadıstica, el Modelo Lineal Normal.

Supongamos que el vector y (n×1) de n observaciones se distribuyesegun una distribucion Normal n-variada con media A1θ1, y matriz devarianza-covarianza C1. Esto es:

(y | θ1)d∼ Nn (A1θ1, C1) , (5.1)

donde A1 (n × k) es la matriz de diseno, θ1 (k × 1) es el vector deparametros y C1 (n×n) la matriz de varianza-covarianza muestral. Estambien usual escribir (5.1) como:

y = A1θ1 + ǫ, (5.2)

donde ǫ (n×1) es el vector de errores aleatorios con media cero y matrizde covarianza C1:

ǫd∼ Nn(0, C1). (5.3)

Entonces el valor esperado del vector de observaciones es:

E[y] = A1θ1. (5.4)

123

124 CAP´ıTULO 5. ANALISIS BAYESIANO DEL MODELO LINEAL

Ejemplos del modelo (5.1) son entre otros: Modelos de regresionsimple o multiple, donde las columnas de A1 son los vectores de “re-gresores” o variables independientes; Modelos de clasificacion de una omas vıas, donde las columnas de A1 son ceros o unos de acuerdo a laclasificacion; y otros.

Comenzaremos por dar la version “Bayes generalizada” del analisisfrecuentista del modelo lineal, y para ello introduciremos las medidasa priori “no-informativas”.

5.1 Previas “No-Informativas”

Siendo el analisis condicional en los datos tan claramente obligatorio yla maquinaria Bayesiana la manera coherente de realizarlo, se han hechoesfuerzos importantes para hacer analisis Bayesianos “automaticos”. Esdecir, que no requieran informacion del TD sobre los parametros. Sesupone que no existe informacion a priori, o que de existir no se deseausar. Se necesita entonces una medida a priori “no-informativa”, o seaque no contenga informacion sobre los parametros.

En que sentido esta medida es “no-informativa” esta muy lejos deser claro, pero originalmente se postulo como aquella medida que fueseimparcial sobre los valores de los parametros. El postulado original deBayes y Laplace fue tomar como medida a priori “no-informativa” launiforme, π(θ) = 1.

Sin embargo este postulado tiene (entre otros) dos incovenientes:

1. Un TD supone que π(θ) = 1 y otro TD parametriza su problemaen terminos del parametro η = exp [θ] y supone que π∗(η) = 1.Los resultados a que llegan ambos TD con los mismos datos yverosimilitud son inconsistentes a pesar de que la transformaciones uno-uno. La razon es que por la formula del cambio de varia-bles, si π(θ) = 1,

π∗(η) = π(log η)/η = 1/η.

Entonces segun el postulado de Bayes-Laplace el primer TD esno-informativo respecto de θ pero no de η = exp [θ].

5.1. PREVIAS “NO-INFORMATIVAS” 125

2. Si el espacio de parametros es no acotado, por ejemplo R, entoncesπ(θ) = 1 no integra uno, es decir es impropia.

Para resolver el primer incoveniente, formulado por Fisher, comenzoJeffreys(1961) una lınea de trabajo para obtener medidas “invariantes”.

Ejemplo 5.1. Supongamos que θ es un vector de parametros de lo-calizacion e y el vector de observaciones, pertenecientes ambos a R

p.f(y | θ) = f(y − θ). Sean z = y + c, c constante, y η = θ + c. Losproblemas en (y, θ) o en (z, η) son identicos en su estructura, y seanπ y π∗ sus correspondientes medidas “no-informativas”. Entonces debeocurrir que para cualquier conjunto A de R

p se tiene:

PΠ(θ ∈ A) = PΠ∗(η ∈ A) = PΠ(θ + c ∈ A) = PΠ(θ ∈ A − c), (5.5)

donde A − c = {w − c, w ∈ A}. Esto es Π debe ser invariante porcambios de localizacion, π(θ) = π(θ−c). Haciendo c = θ, π(c) = π(0),lo que debe ocurrir para toda c ∈ R

p. En conclusion π(θ) = constante,convenientemente π(θ) = 1.3

Notar que tanto π(θ) = 1 como la previa del ejercicio 5.1, π(σ) = 1σ,

son impropias. Mas generalmente, para cualquier vector de parametrosθ, Jeffreys sugirio su famosa regla:

Π(θ) = [det I(θ)]1/2 (5.6)

donde I(θ) es la matriz de informacion de Fisher cuyo elemento i, j es:

Iij = −EY |θ

[∂2

∂θi∂θjlog f(y | θ)

]. (5.7)

La regla de Jeffreys cumple con la siguiente propiedad de invarian-cia: Supongamos que η = g(θ) es cualquier transformacion uno-unodiferenciable. Entonces:

[det I(θ)]1/2 dθ = [det I(η)]1/2 dη. (5.8)

La implicacion de (5.8) es que si un TD usa la regla de Jeffreys enθ y otro TD usa la regla de Jeffreys en η y analizan al mismo conjunto


de datos con el mismo modelo, obtendran los mismos resultados a pos-teriori. Note que la previa de Jeffreys depende del modelo utilizado ypuede violar el Principio de la Verosimilitud , ya que la esperanza (5.7)se toma sobre el espacio muestral.

5.2 Analisis “No-Informativo” del Mode-

lo Lineal

Supongamos por simplicidad que en (5.1) C1 = σ2I (errores no correla-cionados) y que el rango de A1 es k (rango maximo).

El uso de las previas a) o c) del ejercicio 5.5 “reproducen” los resul-tados frecuentistas, en el sentido de que los intervalos de credibilidad(probabilidad) Bayes-generalizados coinciden con los intervalos de con-fianza frecuentistas. Para verlo, note que la verosimilitud del ModeloLineal puede ser escrita como,

p(y | θ, σ2) =

(1√2πσ

)n

exp{− 1

2σ2(y − A1θ1)

t (y − A1θ1)}

=

(1√2πσ

)n

exp{− 1

2σ2

[S2 + Q(θ1)

]},

y en la situacion c) se tiene π(θ1, σ) ∝ 1/σ, integrando respecto de σse obtiene la marginal de θ1:

π(θ1 | y) ∝[1 +

Q(θ1)

S2

]−(v+k)/2

, (5.9)

donde:Q(θ1) = (θ1 − θ1)

tAt1A1(θ1 − θ1), (5.10)

con θ1 el estimador de Maxima Verosimilitud y Mınimos Cuadrados:θ1 = (At

1A1)−1At

1y, v = n−k y S2 es la suma de cuadrados residuales:

S2 = minθ1

(y − A1θ1)t(y − A1θ1) = (y − A1θ1)

t(y − A1θ1). (5.11)

5.2. ANALISIS “NO-INFORMATIVO” DEL MODELO LINEAL 127

De (5.9) sigue que a posteriori θ1 se distribuye segun una t−Student

k-variada con v grados de libertad, localizacion θ1 y matriz de escala(At

1A1)−1S2/v, esto es:

π(θ1 | y) = Tk

(v, θ1, (At

1A1)−1 S2

v

). (5.12)

De las propiedades de la t − Student multivariada se obtiene que:

Q(θ1)/k

S2/v∼ Fk,v, (5.13)

o sea, el cociente de la izquierda de (5.13) se distribuye segun unadistribucion F con k y v grados de libertad. Aquı θ1 es la variablealeatoria (v.a) pero sigue siendo cierta si θ1 fuese la v.a., de allı lacorrespondencia entre intervalos de confianza y de credibilidad cuandose emplea como previa c) del ejercicio 5.4. Un analisis exhaustivo delModelo Lineal bajo independencia aparece en Box y Tiao(1973).

Ejemplo 5.2 (Transformacion de Datos a Normalidad). Unageneralizacion considerable del Modelo Lineal (5.1) debida a Box yCox(1964) es:

y(λ) ∼ Nn(A1θ1, C1), (5.14)

donde −∞ < λ < ∞ es el parametro de la transformacion y y(λ) es elvector de componentes y

(λ)i donde

y(λ)i =

{yλ

i−1

λsi λ 6= 0

log yi si λ = 0.(5.15)

La transformacion (5.15), que tiene sentido si yi > 0, ∀i = 1, . . . , n,y A1 tiene la primera columna de 1’s para que un parametro comun esteincluido en el modelo, engloba las transformaciones usuales: recıproco,raız cuadrada, logaritmo, etc., siendo continua en λ = 0. Suponemos apriori que:

π(θ1, σ, λ) = π(λ)/σk+1. (5.16)


Aquı no puede suponerse que θ1 y σ son independientes para todoλ como antes, ya que la densidad a posteriori de λ dependerıa de laescala de medicion de los datos, Pericchi(1981). Definiendo la variable

z(λ) = y(λ)/

(n∏

i=1

yi

)1/n

, e integrando respecto a σ y θ1 se obtiene la

marginal a posteriori de λ, (Pericchi,1981):

π(λ | z) = (S(λ, z))−n/2π(λ), (5.17)

donde S(λ, z) es la suma residual de cuadrados asociada a λ y z. De(5.17) pueden obtenerse intervalos aproximados de credibilidad de λ.3

La ventaja del enfoque Bayes generalizado del Modelo Lineal es quees automatico, es decir, no requiere de una asignacion cuidadosa deuna medida a priori. Sin embargo tiene desventajas (compartidas porlos enfoques frecuentistas) y entonces solo puede ser considerado comouna aproximacion. Hay una extensa literatura sobre las paradojas quegenera, por ejemplo Stone(1971).

Adicionalmente, si k > 2, θ1 la media a posteriori en (5.12) esinadmisible, Stein(1956). En vista de todo ello exploraremos enfoquespropios de Bayes para el Modelo Lineal.

5.3 Modelo Lineal Jerarquico

En esta seccion seguiremos principalmente el elegante desarrollo deLindley y Smith(1972) y Lindley(1983).

Volvamos al modelo (5.1): dado θ1 (k1 × 1)

(y | θ1)d∼ Nn(A1θ1, C1),

con A1 y C1 conocidas, y C1 positiva definida.

Supongamos que dado θ2 (k2 × 1),

(θ1 | θ2)d∼ Nk1

(A2θ2, C2), (5.18)

con A2 y C2 conocidas, y C2 positiva definida.

5.3. MODELO LINEAL JERARQUICO 129

Lema 5.1 Sea µ = A2θ2. Bajo (5.1) y (5.18) tenemos:

π(y) = Nn

(A1µ, C1 + A1C2A

t1

), y (5.19)

π(θ1 | y) = Nk1(Bb, B), (5.20)

donde, B−1 = At1C

−11 A1 + C−1

2 , b = At1C

−11 y + C−1

2 µ.

Prueba. (5.19) se deduce de escribir:

y = A1µ + A1v + u,

donde, ud∼ N(0, C1) y v

d∼ N(0, C2) con u y v independientes.Multiplicando la verosimilitud (5.1) por la previa (5.18) se obtiene:

π(θ1 | y) ∝ exp{−1

2D(θ1)

},

donde

D(θ1) = (y − A1θ1)tC−1

1 (y − A1θ1) + (θ1 − µ)tC−12 (θ1 − µ) (5.21)

= (θ1 − Bb)tB−1(θ1 − Bb) + G,

donde G = ytC−11 y + µtC−1

2 µ, no envuelve a θ1.2Note que E[θ1 | y] = Bb es un promedio ponderado de la media a

priori µ y el estimador de mınimos cuadrados:

θ1 = (At1C

−11 A1)

−1At1C

−11 y,

con ponderaciones iguales a C−12 y At

1C−11 A1.

E[θ1 | y] puede ser escrita como:

B{At

1C−11 (y − A1µ) + (At

1C−11 A1 + C−1

2 )µ}

= µ+BAt1C

−11 (y−A1µ).

(5.22)


Entonces E[θ1 | y] es µ (su media a priori) mas una correccion quees la desviacion de y cerca de su valor esperado A1µ, pre-multiplicadapor el “filtro” BAt

1C−11 .

Lema 5.2{C1 + A1C2A

t1

}−1= C−1

1 −C−11 A1

[At

1C−11 A1 + C−1

2

]−1At

1C−11 . (5.23)

Prueba. La demostracion de este hecho algebraico puede hacersedirectamente o probabilısticamente igualando los terminos cuadraticosde y en (5.19) y en

Π(y) ∝∫

exp{−1

2D(θ1)

}dθ1.2

Corolario 5.1 Puede pensarse una previa “no informativa” como ellımite cuando C−1

2 → 0. Del lema 5.2 se obtiene:

limC−1

2→0

{C1 + A1C2A

t1

}−1= C−1

1 − C−11 A1

[At

1C−11 A1

]−1At

1C−11 . (5.24)

Note que tambien del lema 5.2 se obtiene:

B =[C−1

2 + At1C

−11 A1

]−1= C2−C2A

t1

[A1C2A

t1 + C1

]−1A1C2, (5.25)

lo que permite ver la dispersion posterior como la dispersion a prioriC2, menos la reduccion debida al experimento.

5.3.1 Modelo Lineal Normal Jerarquico (MLNJ)

Un momento crucial del desarrollo del metodo Bayesiano fue el re-conocimiento de que el conocimiento a priori puede ser modelado enniveles que forman una jerarquıa.

Agregamos a (5.1) y (5.18) la siguiente especificacion, dado θ3 (k3×1),

(θ2 | θ3)d∼ Nk2

(A3θ3, C3), (5.26)


donde A3 y C3 son conocidas y C3 es positiva definida.

El segundo nivel (5.18) es usado para introducir alguna estructuraen el vector de parametros θ1, a traves de los hiperparametro θ2. Porejemplo, allı se especifica cuales componentes del vector de parametrosestan “cerca” o son “similares” de acuerdo a nuestro conocimiento apriori. El tercer nivel (5.26) especifica el centro y la dispersion deesta similaridad. El conocimiento expresado en el segundo nivel hasido llamado “conocimiento estructural”, y el del tercero “conocimientoparametrico”, siendo este ultimo mas controversial, Pericchi y Naza-ret (1988). El conocimiento estructural es fundamental, y estableceque bajo el Modelo Lineal se modelan efectos similares, por ejemploproduccion de diferentes tipos de semillas de la misma planta, y jamasefectos completamente disımiles. Note que los dos ultimos niveles, dehecho, especifican una previa. “Colapsando” (5.18) y (5.26), y usando(5.19), obtenemos:

θ1d∼ Nk1

(A2A3θ3, C2 + A2C3At2). (5.27)

Si colapsamos los primeros dos niveles obtenemos,

yd∼ Nn(A1A2θ2, C1 + A1C2A

t1),

o sea, (5.19).

La previa (5.26) pudo haber sido especificada directamente, peroesto es mas difıcil que especificarla en niveles, es decir modelarla. Porotra parte, generalmente:

dim(θ1) ≫ dim(θ2) ≥ dim(θ3), (5.28)

y por ello el conocimiento estructural confina la asignacion basadaen el conocimiento parametrico a una dimension usualmente muchomenor, lo que es una gran ventaja. El resultado basico para el modelojerarquico de tres niveles es el siguiente teorema.

Teorema 5.1 Supongamos el Modelo Lineal Normal Jerarquico de tresniveles (MNLJ3). Denotemos el vector de medias de θ2 por ξ = A3θ3.Entonces dado θ3 para C1, C2 y C3 conocidas:


π(y) = Nn

(A1A2ξ, C1 + A1(C2 + A2C3A

t2)A

t1

), y (5.29)

π(θ1 | y) = Nk1(Dd, D), (5.30)

donde:

D−1 = At1C

−11 A1 +

[C2 + A2C3A

t2

]−1, y (5.31)

d = At1C

−11 y +

{C2 + A2C3A

t2

}−1A2ξ. (5.32)

Prueba. La demostracion sigue directamente de (5.27) y del lema5.1.2.

Teorema 5.2 Cuando C−13 → 0,

π(θ1 | y) = Nk1(D0d0, D0), (5.33)

donde,

D−10 = At

1C−11 A1 + C−1

2 − C−12 A2(A

t2C

−12 A2)

−1At2C

−12 , y (5.34)

d0 = At1C

−11 y. (5.35)

Prueba. Por el lema 5.2,

D−1 = At1C

−11 A1 +C−1

2 −C−12 A2(A

t2C

−12 A2 +C−1

3 )−1 + At2C

−12 , (5.36)

d = At1C

−11 y +

[C−1

2 − C−12 A2(A

t2C

−12 A2 + C−1

3 )−1At2C

−12

]A2ξ. (5.37)

Sustituyendo C−13 = 0 en (5.36) y (5.37), se obtienen los resultados

requeridos. 2.


Haciendo C−12 → 0 en (5.23) se obtiene E(θ1 | y) = θ1, el esti-

mador de mınimos cuadrados. Sin embargo cuando C−13 → 0, E(θ1 |

y) = D0d0, o sea, el conocimiento estructural permanece, aun cuandoel conocimiento parametrico se haga “no-informativo”. La ventaja esque comunmente se usa una previa “no-informativa” en un espacio dedimension menor que k1. Pericchi y Nazaret(1988) discuten las venta-jas y desventajas de E(θ1 | y) = D0d0, y muestran tests de diagnosticosobre si C−1

3 = 0 resulta una buena aproximacion o no.En el MLNJ para el trabajo numerico, se puede usar la identidad

entre medias y modas para la distribucion Normal. Si la media a pos-teriori se denota por θ∗

1, diferenciando por ejemplo (5.21) con respectoa θ1, se obtiene:

−At1C

−11 (y − A1θ

∗1) + C−1

2 (θ∗1 − µ) = 0, (5.38)

y la segunda derivada evaluada en la moda resulta el inverso de lamatriz de covarianza.

Ejemplo 5.3 (Modelo de Clasificacion de una vıa, ANOVA1).Supongamos que Yij representa para una misma planta la produccionde la variedad de semilla i, i = 1, . . . , k, j = 1, . . . , ni. Aquı θ1i es la

produccion media de la variedad i. Supongamos que Yijd∼ N(θ1i, σ

2i ).

Por simplicidad supongamos ni = n,σ2

i

n= σ2

w, i = 1, . . . , k1. Usamosla convencion del subındice punto para denotar el promedio aritmetico

respecto del subındice. Entonces: Yi.d∼ N(θ1i, σ

2w). Respecto del se-

gundo nivel el conocimiento estructural mas sencillo es que todas lasθ1i’s provengan de la misma poblacion Normal, es decir:

θ1id∼ N(µ, σ2

B). (5.39)

Interesantes posibilidades se abren en situaciones mas complejas.Si supieramos que un subconjunto de las k1 variedades de semillasprovienen de Australia y el resto de Mexico, especificarıamos dos me-dias diferentes en (5.39) y quizas dos varianzas diferentes.

Proseguimos al tercer nivel suponiendo:

µd∼ N(ξ, τ2). (5.40)


El termino cuadratico, analogo a (5.21) en este ejemplo es:

∑i(yi − θ1i)

2

σ2w

+

∑i(θ1i − µ)2

σ2B

+(µ − ξ)2

τ2. (5.41)

Diferenciando (5.41) respecto de la media θ1m y µ, obtenemos:

−(ym − θ∗1m)

σ2w

+(θ∗1i − µ∗)

σ∗B

= 0 y−∑i(θ

∗1i − µ∗)

σ2B

+(µ∗ − ξ)

τ2= 0.

(5.42)Resolviendo (5.42) se obtiene E(θ1m | y). Note que si τ2 → ∞, y

µ∗ = θ∗1 = y.., entonces sustituyendo en (5.42),

E(θ1i | y) = θ∗1m =

ym.

σ2w

+ y..

σ2B

1σ2

w+ 1

σ2B

. (5.43)

Recordemos que el estimador de mınimos cuadrados es θ1m = ym.;es por ello que θ∗1m es un ejemplo de lo que se llama “estimadoresde encogimiento” ya que encogen a θ1m hacia la media general y..; aeste tipo de estimadores tambien se les llama de Stein, originalmentepropuestos para “dominar” a θ1m, cuando k1 > 2.

Para obtener varianzas y covarianzas usamos θ∗1 = D0d0; notemos

que el termino que no depende de las modas en (5.42) es −ym./σ2w;

pasando estos terminos a la derecha obtenemos d0, ver (5.35). Portanto multiplicando la m-esima fila de D0 por d0 obtenemos θ∗1m. Lavarianza estara en la diagonal, las covarianzas fuera de ella. Puedeverificarse que este procedimiento da:

V ar(θ1m | y) =

(1 +

σ2w

k1σ2B

)/

(1

σ2w

+1

σ2B

)= Ψ2, (5.44)

Cov(θ1m, θ1l | y) =

(σ2

w

k1σ2B

)/

(1

σ2w

+1

σ2B

).3 (5.45)

Note que las esperanzas a posteriori dependen de la tasa σw/σB, yno de cada una por separado. Finalmente, concluimos que el uso de la


informacion estructural (5.39) produce estimadores mas satisfactoriosque los estimadores de mınimos cuadrados.

Observacion 1. Para el ejemplo anterior E(θ1m−θ1l | y) = ρ(ym.−yl.)con ρ = σ2

B/(σ2w + σ2

B) < 1. Ademas V ar(θ1m − θ1l | y) = 2ρσ2w < 2σ2

w,siendo este ultimo el valor obtenido por mınimos cuadrados. Para hacercomparaciones multiples, θ1m vs. θ1l tomamos la media de su diferen-cia sobre su desviacion estandard obteniendo ρ1/2(ym. − yl.)/

√2σw, o

sea ρ1/2 por el valor frecuentista. El efecto de hacer comparacionesmultiples es automaticamente tomado en cuenta. Esto contrasta conlos metodos fracuentistas, que deben hacer correcciones ad-hoc. Re-specto a la prediccion, si z es una observacion del grupo m,

π(z | y) =∫

π(z | θ1m)π(θ1m | y)dθ1m.

Pero z = θ1m + ǫ, donde ǫd∼ N(0, σ2

w) y θ1m = θ∗1m + δ con

δd∼ N(0, Ψ2) con Ψ2 definido como en (5.44). Entonces π(z | y) =

N(θ∗1m, σ2w + Ψ2).

Ejemplo 5.4 (Regresion Multiple). Sea β (k × 1) el vector deregresores y X la matriz de variables independientes. E(y) = Xβ conC1 = σ2 I. Se suman constantes a los regresores para que tengan un

origen comun µ. Mas aun supongamos que βjd∼ N(µ, τ2), j = 1, . . . , k,

e independientes entre sı. En el tercer nivel se supone una previa “no-informativa”. Entonces:

D−10 = X tXσ−2 + (Ik − k−1Jk)τ

2, (5.46)

donde Ik y Jk (ambas k×k) son la matriz identidad y la matriz de unosen todas las entradas, respectivamente, d0 = σ−2X ty. Si λ = σ2/τ2,entonces E(β | y) = β∗ satisface:

{X tX + λ(Ik − k−1Jk)

}β∗ = X ty. (5.47)

Estimadores de este tipo han sido obtenidos bajo el nombre de“ridge regression”, que solo seran razonables si los supuestos que loproducen lo son. Se puede escribir (5.47) como:


{X tX + λIk

}β∗ = X tXβ + λβ∗

. 1k,

(donde 1k es un vector k × 1 de unos), o sea, como una combinacionconvexa de β y la media aritmetica de los β∗

j ’s. De nuevo tenemosencogimiento hacia la media general el cual es de especial importanciacuando X tX esta mal condicionada.3

La teorıa descrita en este capıtulo puede ser usada para analizarSeries Cronologicas de una forma estructurada, como veremos en laseccion 5.4.

Cuando las varianzas (tıpicamente parametros de molestia, aunqueno siempre) son desconocidas, aparecen dos problemas. El primero esla necesidad de asignar distribuciones a priori a estos parametros. Elsegundo, una vez asignadas las distribuciones, hay que integrar sobrelos parametros de molestia para obtener la marginal a posteriori de losparametros de interes, que ya no sera Normal.

Sea Φ el vector de parametros de molestia y θ1 el vector de parame-tros de interes. Para muestras grandes se ha sugerido (Lindley y Smith,1972) el uso de “estimadores modales” como una aproximacion a lasmedias, mucho mas sencillas de obtener. El argumento es el siguiente:los valores modales satisfacen;

(1) ∂π

∂θ1

(θ∗1,Φ

∗ | y) = 0,

(2) ∂π

∂Φ (θ∗1,Φ

∗ | y) = 0.

De (1) sigue que si Π(Φ∗ | y) 6= 0 entonces,

∂

∂θ1(π(θ∗

1 | Φ∗, y)) π(Φ∗ | y) = 0,

o sea,

∂π

∂θ1

(θ∗1 | Φ∗, y) = 0.

Por lo tanto pueden usarse los estimadores modales θ∗1 (obtenidos

en la discusion previa), sustituyendo los parametros de molestia Φ porsus estimadores modales.


Continuacion Ejemplo 5.3. Ahora en el ANOVA1, σ2w y σ2

B son de-sconocidos y deben ser sustituidos por sus estimadores modales. Dis-tribuciones convenientes (que no son conjugadas) son las “chi-cuadradoinversas” es decir:

vwλw

σ2w

∝ χ2(vw), yvBλB

σ2B

∝ χ2(vB).

Los hiperparametros v y λ describen las medias y varianzas. Ha-ciendo π(µ) = 1 e integrando con respecto a µ en π(θ1, σ

2w, σ2

B, µ, y) seobtienen los estimadores modales de θ1, σ2

w y σ2B:

θ∗1i =(

yi.

σ2∗w

+ y..

σ2∗B

)/(

1σ2∗

w+ 1

σ2∗B

),

σ2∗B = {∑i(θ

∗1i − θ∗1)

2 + vBλB} /(k1 + vB + 1),nσ2∗

w = {S2 + n∑

i(yi. − θ∗1i)2 + vwλw} /(nk1 + vw + 2),

(5.48)

donde S2 =∑

i

∑j(yij − yi.)

2.En la practica se usa un procedimiento iterativo. Se comienza con

Φ0, se calcula θ11 con el cual se calcula Φ1, y ası sucesivamente hasta

converger, lo que generalmente sucede.3La estimacion modal adolece de varios inconvenientes entre los cuales

citamos que solo son buenas aproximaciones para muestras grandes yno proveen informacion sobre el error de los estimadores y otras carac-terısticas de las marginales. El procedimiento correcto para obtener lamariginal es integrando los parametros de molestia,

π(θ1i | y) =∫

π(θ1i | Φ, y)π(Φ | y)dΦ. (5.49)

Ya hemos mencionado la aproximacion de Laplace y los metodos decuadratura de Naylor y Smith(1982) para integrales. En la actualidadhay una gran produccion en investigacion para el calculo de marginalesy momentos a posteriori por metodos iterativos de Montecarlo, que usanintensivamente el computador, permitiendo la integracion en muchasdimensiones por usuarios no expertos en metodos numericos.


Tambien un analisis cuidadoso de la parametrizacion del problemapermite, en ocasiones, disminuir la dimension de integracion ganandocomprension en el problema.

Continuacion Ejemplo 5.3. Para el ANOVA1 con las distribucionesa priori especificadas se puede demostrar que integrando respecto aµ, σ2

B y σ2w, θ1 tiene una marginal a posteriori que es el producto de

dos t − Student multivariadas. Esta distribucion es difıcil de manejar.Perez y Pericchi(1987) reparametrizan el ANOVA1,

(θ1, µ, σ2B, σ2

w) → (θ1, µ, σ2B, ρ),

con ρ = σ2B/σ2

w. Obtienen que π(θ1 | ρ, y) es una t-Student multi-variada (facilmente manejable) y consiguen la forma de π(ρ | y). Estopermite reducir la integracion a una dimension.35.4 El Modelo Lineal Dinamico

Un caso particular de los modelos lineales que aparecen frecuentementeen la practica es el Modelo Lineal Dinamico (MLD). Este modelo esutilizado para analizar datos que evolucionan con el tiempo y dependenel, por ejemplo, la tasa de cambio de una moneda con respecto a otra,el precio de acciones que se cotizan en la bolsa, las exportaciones eimportaciones de un paıs, etc.

En esta seccion estudiaremos de manera muy general el MLD poli-nomial de primer orden, sin embargo, para un analisis mas exhaustivoel lector puede referirse a West y Harrison (1989), que sera ha tomadocomo referencia principal de nuestro desarrollo.

Definicion 5.1 Para cada instante de tiempo t = 1, 2, . . . considere-mos las siguientes ecuaciones:

Ec. de observaciones: Yt = µt + νt, νt ∼ N(0, Vt),Ec. del sistema: µt = µt−1 + ωt ωt ∼ N(0, Wt),Informacion Incial: (µ0 | D0) ∼ N(m0, C0), m0, C0 conocidos.

En la definicion anterior los terminos de las sucesiones {νt} y {ωt}son independientes, mutuamente independientes e independientes de

5.4. EL MODELO LINEAL DINAMICO 139

(µ0 | D0). D0 es la informacion inicial, m0 es un estimado para el nivelde la serie y C0 es la incertidumbre sobre la media m0. Para cada tsupondremos que Dt−1 recoge toda la informacion sobre D0, Vt, Wt, Y1,. . . , Yt−1, entonces la unica informacion nueva para cada t sera Dt ={Yt, Dt−1}.

Teorema 5.3 Para cada t tenemos las siguientes distribuciones:

a) Posteriori para µt−1: (µt−1 | Dt−1) ∼ N(mt−1, Ct−1).

b) Previa para µt: (µt | Dt−1) ∼ N(mt−1, Rt), con Rt = Ct−1 + Wt.

c) Prediccion para la siguiente observacion: (Yt | Dt−1) ∼ N(ft, Qt),donde ft = mt−1 y Qt = Rt + Vt.

d) Posteriori para µt: (µt | Dt) ∼ N(mt, Ct), donde mt = mt−1 +Atet, Ct = AtVt, At = Rt/Qt y et = Yt − ft.

Prueba. Haremos la prueba por induccion en t. Supongamoscierto a), entonces µt es la suma de dos Normales independientes y portanto es una Normal, con media mt−1 + 0 y varianza Rt = Ct−1 + Wt,es decir,

(µt | Dt−1) ∼ N(mt−1, Rt),

que es el resultado en b). Analogamente el procedimiento para probarc). La prueba de d) se puede realizar de dos maneras diferentes, usandoel Teorema de Bayes (ver West y Harrison (1989)) o basados en la teorıade variables aleatorias Normales. De b) y c) sabemos:

(Yt | Dt−1) ∼ N(ft, Qt) y (µt | Dt−1) ∼ N(mt−1 | Rt),

con estas distribuciones podemos calcular la distribucion conjunta(Yt, µt | Dt−1). Caculemos la covarianza entre Yt y µt.

Cov(Yt, µt | Dt−1) = E [(Yt − ft)(µt − mt−1)] = Rt,

donde la ultima igualdad se obtiene usando independencia y las pro-piedades de la esperanza. Entonces la distribucion conjunta es:

(Yt, µt | Dt−1) ∼ N

[(mt−1

mt−1

),

(Qt Rt

Rt Rt

)].


La correlacion entre Yt y µt es ρt = Rt/(RtQt)1/2, entonces ρ2

t =Rt/Qt = At. Usando estos resultados se obtiene que

(µt | Yt, Dt−1) ∼ N(mt, Ct),

donde mt = mt−1 + ρ2t (Yt − mt−1), Ct = (1 − ρ2

t )Rt = RtVt/Qt = AtVt,que es el resultado buscado en d). Para finalizar la prueba basta probara), pero esto es cierto para t=1 por la definicion del modelo. 25.4.1 El Modelo constante

El conjunto de observaciones para cada t es Dt = {Yt, Dt−1} y este nocontiene informacion externa a la serie, por lo que se le suele llamarcerrado. Un caso especial de MDL de primer orden es el modelo con-stante, en este modelo se considera que la varianza observacional (Vt) yde evolucion (Wt) son constantes en el tiempo. Es decir, un MDL con-stante tiene V y W ambas positivas, finitas y constantes. Una medidade interes es r = W/V , que suele llamarse senal de ruido.

Ejemplo 5.4 (Tomado de West y Harrison (1989)). Una compa-nıa farmaceutica produce una droga llamada KURIT que actualmentevende un promedio de 100 unidades por mes. Por consejo medico lacompanıa produjo un cambio en su formulacion que se espera incre-mentara la demanda a partir de Enero (t=1), sin embargo el precio yel nombre permaneceran igual. Se requiere predecir la produccion y elabastecimiento de acuerdo a la nueva demanda.

Los pacientes que consumen esta droga lo hacen regularmente, porlo que se piensa que la demanda en el tiempo es localmente constante.Entonces un MDL de primer orden constante parece ser una buenaopcion para predecir la demanda. Con la informacion disponible hastael momento con la vieja formula se sabe que V =100 y W=5. Un estudiode mercado en t=0 mostro que el nuevo producto aumentara sus ventasen un 30%, es decir, 130 unidades por mes, pero con una incertidumbreC0 = 400. Entonces las ecuaciones del modelo son:

Yt = µt + νt, νt ∼ N(0, 100)µt = µt−1 + ωt, νt ∼ N(0, 5),


con informacion inicial (µ0 | D0) ∼ N(130, 400) y r = 0, 05. Usando lasecuaciones de recurrencia dadas en el Teorema 5.3 se pueden calcularlas predicciones de la siguiente manera, sabemos m0 = 130, C0 =400, V = 100, W = 5, ademas la observacion Y1 = 150, ası que:

R1 = C0 + W = 405, f1 = m0 = 130, Q1 = R1 + V = 505, y

A1 = R1/Q1 = 0.8,

ademas m1 = m0 + A1(Y1 − f1) = 130 + 0.8(150 − 130) = 146 yC1 = A1V = 80. Los resultados aparecen resumidos en la siguientetabla hasta t = 9.

t Qt ft At Yt et mt Ct

1 505 130.0 0.8 150 20.0 146.0 802 185 146.0 0.46 136 -10.0 141.4 463 151 141.4 0.34 143 1.6 141.9 344 139 141.9 0.28 154 12.1 145.3 285 133 145.3 0.25 135 -10.3 142.6 256 130 142.6 0.23 148 5.3 143.9 237 128 143.9 0.22 128 -15.9 140.4 228 127 140.4 0.21 149 8.6 142.2 219 126 142.2 0.21 146 3.8 143.0 203

En la tabla se observa que a medida que t aumenta At decrece.Ademas el coeficiente de m0 en el caculo de mt es (1−At) . . . (1−A1),ası que por ejemplo para el calculo de m10 la contribucion del valor dem0 es poco significativa.

Hasta ahora hemos asumido que los modelos son cerrados, es de-cir, no toman en cuenta informacion externa en la prediccion. El en-foque Bayesiano, por ser subjetivo, facilitara la incorporacion de in-formacion externa cuando se disponga de ella, para cada t resumire-mos esta informacion en St y se uniran con la informacion del modeloDt = {Yt, Dt−1, St−1}.

Continuacion Ejemplo 5.4. Consideremos nuevamente la situacionde la companıa farmaceutica. Supongamos que para t = 9 se recibe la


informacion de que la droga equivalente de la competencia, BURNIT,sera sacada del mercado por descubrirse que produce efectos secundar-ios. Ası para t = 10 los pacientes que consumen BURNIT se cambiaranpara otra droga equivalente. Se sabe que esta medicina cuenta actual-mente con el 50% del mercado, lo que hace suponer que se duplicaranlas ventas de KURIT, es decir, E[µ10 | D9, S9] = 286. Despues derealizar un estudio del mercado se llega a las siguientes conclusiones:

(ω10 | D9, S9) ∼ N(143, 400)(µ10 | D9, S9) ∼ N(286, 920)(Y10 | D9, S9) ∼ N(286, 1020)

En la siguiente tabla se muestran los resultados hasta t = 15 despuesde incorporar la informacion externa.

t Qt ft At Yt et mt Ct

10 1020.00 286.00 0.90 326 40.00 322.07 90.1911 195.11 322.07 0.48 350 27.93 355.47 48.0012 153.00 355.47 0.34 320 -35.47 343.41 34.0013 139.00 343.41 0.28 328 -15.41 339.09 28.0014 133.00 339.09 0.24 318 -21.09 334.02 24.0015 129.00 334.02 0.22 348 13.98 337.09 22.003

En conclusion, cuando la informacion externa sea relevante parala prediccion que se desea realizar, y dispongamos de ella, es de vitalimportancia a la hora de tomar decisiones incorporarla a la informacionsuministrada por el modelo.

A continuacion probaremos un teorema que nos permitira conocerel comportamiento del coeficiente de adaptacion cuando t → ∞.

Teorema 5.4 En el MDL de primer orden constante, cuando t → ∞,At → A y Ct → C = AV , donde

A =r(√

1 + 4/r − 1)

2.


Prueba. Ct = AtV , con 0 < At < 1, entonces 0 < Ct < V, ∀t.Usando las ecuaciones de recurrencia del Teorema 5.3 se tiene:

C−1t − C−1

t−1 = R−1t − R−1

t−1 = Kt(C−1t−1 − C1

t−2),

donde Kt = Ct−1Ct−2/(RtRt−1) > 0, entonces Ct es una sucesionmonotona y acotada, por lo que existe el lımite C. Como Rt = Ct−1 +W , entonces Rt → R = C + W . Ademas, Ct = RtV/(Rt + V ), por loque C satisface la siguiente ecuacion cuadratica C2 +CW −V W . Estaecuacion tiene una solucion positiva dada por:

C =−W +

√W 2 + 4(V W )

2=

V r(−1 +

√1 + 4/r

)

2,

ası que At → A = C/V , que es lo que se querıa probar. Despejando sellega a la relacion r = A2/(1 − A).2

La siguiente tabla muestra algunos resultados numericos de la rela-cion que existe entre r y A.

1/r 9900 380 90 20 6 0,75 0,01A 0.01 0.05 0.10 0.20 0.33 0.67 0.99

Resumiendo, para el modelo constante, cuando t → ∞ se tienen lossiguientes resultados lımites:

1. At → A =r√

1+4/r

2, r = A2/(1 − A),

2. Ct → C = AV ,

3. Rt → R = C/(1 − A) = AV/(1 − A),

4. Qt = Q = V/(1 − A),

5. W = A2Q.


5.4.2 Caso Varianza desconocida

En cualquier problema practico que requiera el ajuste de Modelos Di-namicos el principal inconveniente es la asignacion de las varianzas Vt

y Wt.Consideremos el modelo constante, Rt = Ct−1+W y en el lımite R =

C + W = C1−A

, entonces W = AC1−A

, como A es constante, observamosque la varianza W es una proporcion de C. Pareciera logico pensarque la seleccion de W depende de la incertidumbre inicial C, y esteporcentaje sera A

1−A100%. Como δ = 1 − A, entonces R = C/δ, ası

la seleccion de δ dependera del coeficiente de adaptacion del modeloa los datos, y esto nos conducira a la seleccion de W . Por ejemplo siA=0.1, entonces δ = 0.9 y la varianza W = 0.11 C, pero si disminuimosδ = 0.8, la varianza aumentara a W = 0.25 C.

En cualquier caso, siempre sera conveniente elegir una tasa de adap-tacion constante para cada t. Llamaremos a δ el factor de descuentopara cualquier MLD. Para una factor de descuento δ fijo tenemos,

Wt = Ct−1

(1 − δ

δ

)y Rt =

Ct−1

δ,

para cada t.Hemos considerado aquı modelos constantes y no constantes, pero

en general cualquier MLD de primer orden converge rapidamente a unmodelo constante del tipo {1, 1, V, rV }, donde r = (1− δ)2/δ, esta tasar se deduce de los casos lımites considerados anteriormente.

Una discusion mas general sobre factores de descuentos aparece enWest y Harrison (1989), sin embargo la idea introducida en esta secciones que los factores de descuento son una herramienta para la eleccionde la varianza. Ademas en el caso de modelos no constantes esto nospermite actualizar la varianza Wt para cada t, y en caso de tener queincorporar informacion externa al problema los factores de descuentojugaran un papel muy importante a la hora de ajustar la varianza paracambiar el nivel de la serie.

Existe en la actualidad toda una industria de investigacion de apli-caciones y generalizaciones del Modelo Lineal Jerarquico Dinamico yFiltros de Kalman, bajo el nombre de modelaje Bayesiano dinamico.Referencias recientes los libros de West y Harrison (1989) sobre mod-

5.5. EJERCICIOS 145

elaje Bayesiano dinamico, y Pole, West and Harrison (1994) sobre elpaquete estadıstico “BATS”: Bayesian Analysis of Time Series.

5.5 Ejercicios

5.1 Para parametros de escala, f(y | σ) = 1σf(

yσ

), σ > 0, el prob-

lema debe ser invariante para cambios de escala z = c y, c > 0.Muestre que entonces la medida invariante debe cumplir:

π(σ) =1

σo π(log σ) = 1.

5.2 Mostrar que Iij(θ) en (5.7) tambien puede ser escrita como:

Iij(θ) = −Ey|θ

[∂

∂θilog f(y | θ)

∂

∂θjlog f(y | θ)

].

5.3 Demostrar la Invarianza de la regla de Jeffreys, ecuacion (5.8).

5.4 Verificar que para regla de Jeffreys, si la verosimilitud es Normalcon media θ y desviacion tıpica σ, resulta:

(a) Para varianza conocida π(θ) = 1.

(b) Para media conocida π(σ) = 1σ.

(c) Ambas desconocidas π(θ, σ) = 1σ2 .

(d) Si ambos son independientes pero desconocidos π(θ, σ) =π(θ)π(σ) = 1

σ.

5.5 Verificar que para el Modelo Lineal (5.1) bajo los supuestos he-chos, la previa de Jeffreys es:

(a) π(θ1) = 1, si σ2 es conocida.

(b) π(θ, σ) = 1σk+1 , si σ es desconocida.

(c) Finalmente si θ1 y σ son a priori independientes, π(θ1, σ) =π(θ1)π(σ) = 1

σ.


5.6 Expresar E(θ1 | y) = Dd en el Teorema 5.1 como combinacion

convexa de θ1 = (At1C

−11 A1)

−1A1C−11 y y la media a priori A2ξ.

Tambien mostrar que:

E(θ1 | y) = A2ξ + DAt1C

−11 (y − A1A1ξ),

o sea que el filtro es igual a DAt1C

−11 .

5.7 Verificar las ecuaciones de la Observacion 1.

5.8 Demostrar la ecuacion (5.46).

Capıtulo 6

Seleccion de Modelos y Testde Hipotesis Bayesianos

En este capıtulo (basado en Berger y Pericchi(1996) y Pericchi, Fiteniy Presa(1996)) trataremos de manera especıfica la clase de problemasen la que el enfoque frecuentista y Bayesiano difieren drasticamente,sobre todo cuando hay gran cantidad de datos. Es ademas una clase deproblemas de enorme importancia practica y de investigacion basica.Esta clase de problemas engloba tanto a la seleccion de modelos comoal test de hipotesis.

6.1 Introduccion

Comencemos con dos ejemplos que ilustran la utilidad los tipos de pro-blemas en los que se hace necesario disponer de criterios de seleccionde modelos y test de hipotesis.

Ejemplo 6.1 (Seleccion de Modelos). Proschan (1962) considerodatos de los tiempos de falla del sistema de aire acondicionado de unaeroplano. Se obtuvieron los siguientes 30 tiempos de falla (supuestosi.i.d):

147

148 CAP´ıTULO 6. SELECCION DE MODELOS Y TEST DE HIPOTESIS BAYESIANOS

23 261 87 7 120 14 62 47 225 71246 21 42 20 5 12 120 11 3 1471 11 14 11 16 90 1 16 52 95

Se plantean los siguientes modelos separados para modelizar losdatos:

M1 : Modelo Exponencial:

f1(xi | θ) =1

θexp {−xi/θ}, xi > 0, θ > 0,

o equivalentemente, haciendo β = 1θ,

f1(xi | β) = β exp {−βxi}, xi > 0, β > 0.

M2 : Modelo Lognormal:

f2(xi | µ, σ) =exp {−(log xi − µ)2/2σ2}√

2πσ, xi > 0, σ > 0, −∞ < µ < ∞.

Este ejemplo pertenece a lo que llamamos Seleccion de Modelos, yaque M1 no es un caso particular de M2.3Ejemplo 6.2 (Test de Hipotesis). Supongamos que aceptamos queciertos datos provienen de la distribucion Exponencial. Una teorıa es-tablece que: M1 : β = β0, mientras que el modelo alternativo estableceque la teorıa no es correcta, es decir, M2 : β 6= β0. Este es un proble-ma de Test de Hipotesis ya que M1 puede ser aproximado tanto comose quiera por M2, y de hecho puede considerarse a M1 como un casoparticular de M2.3

Analicemos la diferencia fundamental que existe entre los problemasde estimacion y los de Test de Hipotesis o Seleccion de Modelos.

Continuacion Ejemplo 6.2. Supongamos que se quiere estimar elparametro β de la distribucion Exponencial cuando no existe (o no sequiere utilizar) informacion a priori. Como en el Capıtulo 5 asignamosla previa “no-informativa” dada por la Regla de Jeffreys:

6.1. INTRODUCCION 149

πN(β) ∝ (det I(β))1/2 =1

β,

o equivalentemente,

πN(β) =c

β,

donde c es una constante positiva no especificada. Notar que πN (β)es impropia, ya que integra infinito en 0 < β < ∞. Sin embargo estoultimo no nos impide calcular π(β | x), la cual es una densidad propiapara n ≥ 1. En efecto,

π(β | x) =f(x | β)πN(β)

∫f(x | β)πN(β)dβ

=f(x | β) c

β∫f(x | β) c

β

=βn−1 exp {−β

∑xi}

Γ(n)/(∑

xi)n.

(6.1)Entonces π(β | x) es una distribucion Gamma, con parametros n

y∑n

i=1 xi, la cual es propia y no envuelve a la constante arbitraria c,pues se ha cancelado por aparecer tanto en el numerador como en eldenominador de (6.1). Para muestras moderadas o grandes, en vistade la Normalidad asintotica de la densidad posterior (4.35),

β ∼ N(β, I−1(x)) = N(

1

x,

1

nx2

). (6.2)

Por otra parte, para estimadores de Maxima Verosimilitud se cumpleasintoticamente que:

β ∼ N(β, I−1(x)). (6.3)

Notar la estrecha relacion que existe entre (6.2) y (6.3). La inter-pretacion de (6.2) es mas satisfactoria (porque β siempre sera descono-cido), pero aun ası la estimacion e intervalos obtenidos de (6.1) y (6.3)seran muy cercanos.3

La cercanıa numerica encontrada en el ejemplo anterior, entre es-timaciones usando Maxima Verosimilitud y Bayes con previas “no-informativas”, es tıpica en problemas de una dimension, que tengan


verosimilitudes “regulares” (esto es verosimilitudes cuyo soporte no de-penda del valor del parametro, como en el ejemplo 3.2).

Podrıa argumentarse, entonces, que en problemas de estimacion, ladiferencia entre los enfoques basados en la verosimilitud o en Bayes, esmas academica que practica. (Esto no es ası, sin embargo para prob-lemas de muchos parametros incluso para el Modelo Lineal Jerarquicocomo se vio en el Capıtulo 5, ni para Verosimilitudes irregulares, Atkin-son, Pericchi y Smith (1991), Pericchi y Nadal (1996).)

Pero, incluso para verosimilitudes regulares de una dimension, el en-foque frecuentista y Bayesiano difieren drasticamente, y en forma cre-ciente con el tamano muestral n, para problemas de Test de Hipotesis,como se vio en el Ejemplo 4.1, o mas generalmente para Seleccion deModelos.

Resulta paradojico constatar que al presente momento el enfoqueBayesiano para estimacion este mucho mas desarrollado que para Testde Hipotesis y Seleccion de Modelos. Precisamente para esta ultimaclase de problemas es para los que metodos Bayesianos son mas necesarios.

La razon de la paradoja es: tıpicamente no pueden calcularse Proba-bilidades de Modelos, ni Factores de Bayes con previas “no-informativas”.

Continuacion Ejemplo 6.2. Para una previa π(β) bajo M2, el factorde Bayes es:

Bπ21 =

∫f(x | β)π(β)dβ

f(x | β0)=

mπ2

f(x | β0). (6.4)

Si ahora asignamos como probabilidades a priori de los modelos:p1 = P (M1) y p2 = P (M2), p1 + p2 = 1, (por ejemplo p1 = p2 = 1/2para un analisis de referencia) entonces (ver Capıtulo 4),

P (M1 | x) =1(

1 + p2

p1Bπ

21

) . (6.5)

La relacion (6.5) parece resolver el problema del Test de Hipotesisde la manera mas satisfactoria; provee la probabilidad posterior de losmodelos alternativos, basadas en lo adecuado en que cada mo/-de/-lo predice los datos obtenidos, esto es basado en el factor de Bayes

6.1. INTRODUCCION 151

(6.4). Sin embargo, supongamos que se quiere realizar un analisis “au-tomatico”, de “referencia” o “no-subjetivo”. Si, como en estimacion,suponemos: πN(β) = c/β, entonces,

BπN

21 = c

∫f(x | β) 1

βdβ

f(x | β0). (6.6)

Ahora, la constante arbitraria c no se cancela y entonces el Factorde Bayes (6.6) queda indeterminado.3

Entonces, necesariamente hay que asignar previas propias para cal-cular el Factor de Bayes. Sin embargo, en Test de Hipotesis y, peoraun, en Seleccion de Modelos la asignacion cuidadosa de previas infor-mativas subjetivas es tıpicamente infactible. Ademas, la sensibilidaddel Factor de Bayes va a ser grande respecto de estas previas. Unaposible solucion es la de considerar clases de densidades a priori, comoen los Capıtulos 4 y 5. Siendo este un programa de accion atractivo,tiene al menos dos inconvenientes. El primero es como asignar clases dedensidades a priori que, como en el ejemplo 6.1, vivan en espacios muydiferentes. El segundo, es que para problemas de Test de Hipotesis,el enfoque Bayes robusto, da desigualdades en una sola direccion, verla expresion (4.19). Parece entonces conveniente enfocar el problemadesde otra optica. ¿Es acaso la situacion de informacion (o falta deella) igual para un problema de estimacion que para otro de Test deHipotesis o Seleccion de Modelos?. Veamos el ejemplo 6.2. El hechode que se este seriamente considerando la hipotesis β = β0 da unapieza de informacion fundamental que no esta siendo considerada enla previa impropia πN(β) = c/β. Esto es, β0 es un punto distinguidoque estamos seriamente considerando como verdadero parametro. Si nofuese ası, ¿para que hacer el test de hipotesis?. La previa π(β) deberıaconsiderar que H0 : β = β0 ha sido sugerido.

Resumiendo: Lo que se requiere para implementar el enfoque Ba-yesiano para Test de Hipotesis, es de un metodo “automatico” o de“referencia” para asignar una previa propia π(θ), que tome en cuentaque el modelo “nulo” β = β0, ha sido definitivamente sugerido. Dichode una manera menos ambiciosa, el objetivo es procurar metodos queden respuestas iguales o cercanas a procedimientos Bayesianos. En


Berger y Pericchi(1996) se enuncia el siguiente principio que va a serseguido en este Capıtulo.

PRINCIPIO: Metodos para Seleccion de Modelos y Test de Hipotesisque sean similares o iguales al uso de previas razonables, son preferiblesa metodos que no corresponden a ningun analisis Bayesiano.

A lo largo de este libro hemos expuesto ventajas del enfoque Ba-yesiano. Es importante recalcar que para esta clase de problemas, elenfoque Bayesiano le hace un servicio a la ciencia en general, en el sigu-iente sentido. Un principio cientıfico aceptado es el de la Parsimonia.Esto es, que si dos modelos alternativos se ajustan bien a los datosy aproximadamente de la misma manera, el modelo mas simple debeser aceptado. Esto lo cumple el enfoque Bayesiano mas no el frecuen-tista, Jeffreys y Berger (1992). Por otro lado, es necesario desarrollarmetodos “automaticos” (es decir que no requieren de la asignacion di-recta de previas informativas para todos los parametros en cada mod-elo) ya que los procedimientos automaticos dominaran en la practicaen la mayorıa de los campos. Entonces nuestro objetivo es desarrollarmetodos automaticos, que sean consistentes con el Principio enunciado.

6.2 El Factor de Bayes Intrınseco

Comenzamos haciendo uso de una estrategia para cancelar la constantearbitraria c. Utilicemos parte de la muestra, que llamaremos “muestrade entrenamiento”, para convertir las previas impropias en propias,Lemper(1971). Emplearemos el resto de los datos para comparar losmodelos.

Supongamos que estamos comparando los modelos: M1, M2, . . . , MJ .Denotamos por X(l) la muestra de entrenamiento y X(−l) el restode los datos. Entonces, la previa bajo el modelo Mj , que denotamosπN

j (θj) se convierte en

πj(θj | x(l)) =fj(x(l) | θj)π

N(θj)

mNj (x(l))

, (6.7)

la cual es propia si:

6.2. EL FACTOR DE BAYES INTR´ıNSECO 153

0 < mj(x(l)) =∫

fj(x(l) | θj)πN(θj)dθ < ∞. (6.8)

La condicion (6.8) debe cumplirse simultaneamente para todos losmodelos M1, M2, . . . , MJ , para que estos se puedan comparar. Pero porotra parte es conveniente que el tamano de la muestra de entrenamientosea mınima para reservar la mayor parte de la informacion para lacomparacion de modelos. De allı la siguiente definicion.

Definicion 6.1 Una muestra de entrenamiento X(l) se llama “propia”si 0 < mN

j (x(l)) < ∞ para todo Mj, y “minimal” si es propia y ningunsubconjunto de X(l) es propio. Las muestras propias y minimales lasllamamos MEM.

Para muestras de entrenamiento propias (minimales o no), pode-mos entonces calcular los Factores de Bayes, que ahora estaran biencalculados. Para X(l) el Factor de Bayes de Mj sobre Mi es,

Bji(l) =

∫fj(x(−l) | θj , x(l))πN

j (θj | x(l))dθj∫fi(x(−l) | θi, x(l))πN

i (θi | x(l))dθi. (6.9)

Lema 6.1Bji((l)) = BN

ji × BNij (x(l)), (6.10)

donde

BNji =

∫fj(x | θj)π

N(θj)dθj∫fi(x | θi)πN(θi)dθi

=mN

j (x)

mNi (x)

, y BNij (x(l)) =

mNi (x(l))

mNj (x(l))

.

Prueba. Se deja al lector como ejercicio.2Continuacion Ejemplo 6.2. En este caso la muestra de entrenamientomınima sera X(l) = Xl > 0, es decir un dato, ya que M1 no tieneparametros ajustables (Hipotesis simple) y para M2 (usando (6.7)):

π(β | xl) =βe−βxl c

β∫∞0 βe−βxl c

βdβ

= xle−βxl, (6.11)


o sea, π(β | xl) es Exponencial con parametro xl > 0, y por tanto espropia.

Si ahora usamos (6.11) y (6.9),

B21(l) =

∫∞0 f(x(−l) | β)π(β | xl)dβ

f(x(−l) | β0)=

mN2 (x)

f(x | β0)× f(xl | β0)

mN2 (xl)

= BN21 × BN

12(xl).3Note que hemos puesto al Modelo mas complejo en el numerador,

mas adelante explicaremos la razon.Si bien Bij esta bien escalado (no depende de constantes arbitrarias),

depende de la seleccion arbitraria de la MEM X(l). Para eliminar estadependencia y para incrementar la estabilidad de los Factores de Bayes,se consideran las siguientes simetrizaciones a las que denominamos Fac-tores de Bayes Intrınsecos (IBF).

1. IBF Aritmetico, que es la media aritmetica,

BAIji =

1

L

L∑

l=1

Bji(l) = BNji

1

L

L∑

l=1

BNij (x(l)), (6.12)

donde L es el numero total de MEM que sean propias.

2. IBF Geometrico, la media geometrica,

BGIji =

(L∏

l=1

Bji(l)

)1/n

= BNji exp

{1

L

L∑

l=1

log(BN

ij (x(l)))}

.

(6.13)

3. IBF Mediano, la mediana,

BMIji = Medl (Bji(l)) = BN

ji × Medl

(BN

ij (x(l)))

. (6.14)

Cada uno de estos tres IBF’s tiene su justificacion, Berger y Pericchi(1996). Desde el punto de vista computacional, L no tiene por que serla totalidad de las MEM. Varshavsky (1995) ha encontrado que unsubconjunto asombrosamente pequeno del conjunto de todas las MEM

6.2. EL FACTOR DE BAYES INTR´ıNSECO 155

da resultados muy cercanos al IBF. Del orden de m n, MEM daranresultados muy cercanos al IBF, donde n es el tamano muestral y m elde las MEM.

Continuacion Ejemplo 6.2. Aplicando las definiciones encontramosque, como L = n,

BAI21 = BN

21

[β0

n

n∑

l=1

xle−β0xl

], (6.15)

BGI21 = BN

21

[β0

n(W − β0T )

], donde W =

n∑

l=1

log xl, (6.16)

y finalmente,BMI

21 = BN21 Medl

[β0xle

−β0xl

].3 (6.17)

Continuacion Ejemplo 6.1. En este ejemplo M1: Exponencial vs.M2: Lognormal, las previas “no-informativas” utilizadas son:

πN1 (θ) ∝ 1

θy πN

2 (µ, σ) ∝ 1

σ.

Se verifica que las MEM son de la forma X(l) = (Xi, Xj), Xi 6= Xj .Resulta que,

mN1 (x) =

Γ(n)

T ny mN

2 (x) =Γ[(n − 1)/2]

(∏n

i=1 xi) π(n−1)/2 2√

n S(n−1)y

,

donde T =∑n

i=1 xi , S2y =

∑ni=1(yi − y)2, yi = log xi.

Para las MEM,

mN1 (x(l)) =

1

(xi + xj)2y mN

2 (x(l)) =1

2xixj| log(xi/xj)|.

Para los datos de este ejemplo hay 435 pares de observaciones pero9 de ellos tienen Xi = Xj. Por ello estos 9 pares no son MEM y portanto fueron ignorados. Los resultados numericos fueron,


BAI21 BGI

21 BMI21

0.37 0.33 0.42

Como se ve los resultados son bastante cercanos, y apuntan a queel modelo Exponencial es alrededor de 3 a 1 mas probable que el Log-normal, si suponemos que p1 = p2 = 1/2. De hecho si utilizamos (6.5)para el IBF aritmetico obtenemos P (M1 | x) = 0.73.3

Veamos ahora otro ejemplo de Seleccion de Modelos, el cual es fun-damental para la estadıstica “Robusta”.

Ejemplo 6.3 (Robustificacion del Modelo Normal). Supongamosque el modelo base para unos datos es el modelo Normal con media yvarianza desconocida. Sin embargo, existe la posibilidad de que losdatos muestren colas mas pesadas como en el modelo t-Student porejemplo, o colas mas finas como en la Uniforme de 2 parametros, o quelos datos tengan cierta asimetrıa, como en el Modelo Gumbel (Modelode valores extremos). Todos estos modelos pertenecen a la familia de

localizacion-escala y pueden escribirse como: 1σj

fj

(x−µj

σj

).

Para esta clase de modelos, el IBF tiene una simplificacion sor-prendente. Tenemos j modelos, donde todos son de localizacion-escala.Como en (5.7) puede verificarse que la media “no-informativa” invari-ante es πj(µ, σ) ∝ 1/σ. Puede verificarse ademas que las MEM son dela forma X(l) = (Xi, Xk), Xi 6= Xk.3Lema 6.2 Si X1 y X2 son observaciones independientes de la densidadde localizacion-escala, σ−1f((xi − µ)/σ) y πN (µ, σ) = 1/σ, entoncespara X1 6= X2,

mN(x1, x2) =∫ ∞

0

∫ ∞

−∞

1

σ3f(

x1 − µ

σ

)f(

x2 − µ

σ

)dµdσ =

1

2 | x1 − x2 |.

(6.18)

Prueba. Sin perdida de generalidad supongamos que X2 > X1 yhagamos el cambio de variables (µ, σ) → (v, w) =

[x1−µ

σ, x2−µ

σ

]. En-

tonces, aplicando el Teorema del Cambio de Variable, se tiene:

6.3. EL IBF ESPERADO 157

mN (x1, x2) =1

|x1 − x2|∫ ∞

−∞

∫ ∞

vf(v)f(w)dwdv =

1

|x1 − x2|P (v < w),

donde v y w son independientes con densidad f . ClaramenteP (v < w) = P (w < v) = 1/2 lo que completa la prueba.2

La identidad (6.18) es sorprendente, porque el resultado no dependede la verosimilitud f . Ademas esta identidad simplifica la comparacionde modelos. En efecto, el IBF puede escribirse como:

BIfg = BN

fg(x).Ave{BNgf (x(l))},

donde (Ave) representa un average aritmetico, geometrico o la mediana.Ahora bien, si f y g son de localizacion-escala y π(θ, σ) ∝ 1/σ, entoncespara las MEM, (X1(l), X2(l)), con X1(l) 6= X2(l), resulta que:

Ave{BNgf(x(l))} = 1, (6.19)

y por lo tanto,BI

fg = BNfg. (6.20)

Por otra parte, la identidad (6.18) provee una justificacion de mues-tras de entrenamiento de tamano mınimo. Si muestras de entrenamientomas largas, X(l), son empleadas, ya no se cumplira que BN

gf(x(l)) esindependiente de g y f . Muestras de entrenamiento mas largas pro-ducen una perdida innecesaria de informacion sobre la discriminacionde modelos, y perdida innecesaria de simplicidad.

Generalizaciones de (6.18) para modelos mas complejos, como porejemplo para la robustificacion de los modelos ANOVA, se muestran enBerger, Pericchi y Varshavsky(1996).

6.3 El IBF Esperado

El IBF tiene en una variedad de casos gran simplicidad analıtica. Sinembargo, para muestras pequenas el IBF puede tener una variabili-dad grande y por otra parte, para muestras muy grandes puede sercostoso computacionalmente. Una alternativa atractiva es sustituir el


(Ave), average de las correcciones, por su esperanza bajo el modelo mascomplejo, cuando es claro cual es el mas complejo como en el Test deHipotesis.

El IBF esperado Aritmetico y Geometrico son respectivamente,

BEAI21 = BN

21EM2[BN

12(x(l)) | θ], y (6.21)

BEGI21 = B21 exp

{EM2

[log BN12(x(l)) | θ]

}. (6.22)

Notese que el IBF esperado es el valor lımite del IBF, ya que por laLey de Grandes Numeros,

1

L

L∑

l=1

BN12(x(l))

L→∞−→ EM2[BN

12(x(l) | θ] y (6.23)

1

L

N∑

l=1

log BN12(x(l))

L→∞−→ EM2[log BN

12(x(l)) | θ]. (6.24)

Continuacion Ejemplo 6.2. Usando las definiciones y (6.15) y (6.16)obtenemos:

EM2[BN

12(xl) | β] =∫ ∞

0[β0xle

−β0xl]f(xl | β)dxl =ββ0

(β + β0)2, y

(6.25)

exp{EM2

[log BN12(xl) | β

}=

β0

βexp

{Ψ(1) − β0

β

}, (6.26)

donde Ψ(.) es la funcion digamma (ver apendice).3Como el valor del vector de parametros θ es desconocido, entonces

BE depende de θ. Una manera natural de aproximar el IBF esperado essustituir a θ por su estimador de maxima verosimilitud. Formalmente,para el IBF aritmetico y geometrico respectivamente, se tiene:

BEAI21 = BN

21EM2[BN

12(X(l)) | θ], y (6.27)

6.4. PREVIAS INTR´ıNSECAS 159

BEGI21 = BN

21 exp{EM2

[log BN12(X(l)) | θ]

}. (6.28)

Continuacion Ejemplo 6.2. El estimador β de maxima verosimilitudde β es β = 1/x. Sustituyendo en las formulas anteriores obtenemos,

BEAI21 =

Γ(n)

nnxn−1

β0eβ0nx

(xβ0 + 1)2, y (6.29)

BEGI21 =

Γ(n)

e−β0

∑n

i=1xi(∑n

i=1 xi)nβ0x exp {Ψ(1) − β0x} .3 (6.30)

Las correspondientes formulas para el ejemplo 6.1, considerandoal modelo Lognormal mas complejo que el modelo Exponencial, sonfactibles de hacer, pero mas complicadas, ver Berger y Pericchi (1.996).

6.4 Previas Intrınsecas

Todavıa no hemos respondido la pregunta fundamental: ¿El IBF obe-dece al Principio enunciado en la seccion 6.1?. Es decir, ¿existe y puedecalcularse una distribucion a priori (propia) que de resultados cercanosy asintoticamente equivalentes al IBF?. Afortunadamente la respuestaes afirmativa para condiciones bastantes generales, y mas aun puedeconstruirse una tal distribucion, que llamaremos “Previa Intrınseca”.

Por simplicidad supongamos la situacion del ejemplo 6.2, en el quetenemos una hipotesis nula simple, H0 : θ = θ0. Supongamos asımismo una π(θ), bajo H2 : θ 6= θ0, desconocida. Sea πN(θ) la previaimpropia y automatica bajo H1. En lo que sigue obtendremos aquellaπ(θ) que es equivalente asintoticamente al IBF. Hagamos la siguienteexpansion asintotica:

BN21 =

∫f(x | θ)π(θ)dθ

f(x | θ)=

∫f(x | θ) π(θ)

πN (θ)πN(θ)dθ

f(x | θ)≈ BN

21

f(x | θ0)

π(θ)

πN(θ),

(6.31)


donde θ es el estimador de maxima verosimilitud, que se supone queexiste y es unico.

Entonces para que π(θ) produzca valores similares al IBF, se tienede (6.12) y (6.13) respectivamente para el IBF aritmetico y geometrico,

π(θ)

πN(θ)≈ 1

L

L∑

l=1

BN12(x(l))

L→∞−→ EM2[BN

12(x(l) | θ] y (6.32)

π(θ)

πN(θ)≈ 1

L

N∑

l=1

log BN12(x(l))

L→∞−→ EM2[log BN

12(x(l)) | θ]. (6.33)

Por otra parte como suponemos que θ → θ, de (6.32) y (6.33) setienen las siguientes ecuaciones que deben obedecer las previas intrınsecasaritmetica y geometrica respectivamente:

πAI(θ) = πN(θ)EM2[B12(x(l)) | θ], y (6.34)

πGI(θ) = πN (θ) exp {EM2[log B12(x(l)) | θ]} . (6.35)

Continuacion Ejemplo 6.2. De la ecuacion (6.34) obtenemos,

πAI(β) =β0

(β0 + β)2. (6.36)

La previa intrınseca Aritmetica es atractiva en varios sentidos. Pri-mero, es propia pues integra 1. En segundo lugar, su mediana es β0,el punto distinguido por la hipotesis nula. Por ultimo es una medidabastante plana, y con una cola pesada. En la Figura 6.1 se muestra estaprevia para β0 = 5. Allı se ve diferente de la medida original πN(β) =1/β. De hecho, puede argumentarse que (6.36) es la previa apropiada,dada la informacion de que la hipotesis nula H0 : β = β0 esta siendoseriamente considerada. Una vez obtenida la previa intrınseca puedeser usada como previa propia y obtener (analıtica o numericamente) elIBF “propio”. Alternativamente, se pueden realizar aproximaciones ,que para este ejemplo resultan,

6.4. PREVIAS INTR´ıNSECAS 161

BAI21 =

∫f(x | β)πAI(β)dβ

f(x | β0

≈ BN21

β0

(β0 + β)2.

El camino anterior puede seguirse para obtener la previa intrınsecageometrica, que resulta ser:

πGI(β) =β0

β2exp

{Ψ(1) − β0

β

}. (6.37)

Integrando (6.37), resulta exp{Ψ(1)} = 0.561, o sea que es in-tegrable pero no propia y por ello el IBF geometrico debe ser re-normalizado dividiendo por exp{Ψ(1)} para ser consistente con el prin-cipio. En la Figura 6.1, tambien se muestra (6.37) luego de ser nor-malizada al dividirse por 0.561. Excepto en la vecindad de β = 0, lasprevias intrınsecas artimetica y geometrica son muy parecidas.3

0

0.2

0.4

0.6

0.8

1

1 2 3 4 5 6 7 8 9 10θ

π(θ)

� Noinformativa

c = 1 >previa intrınsecageom. IBF�previa

intrınsecaarit. IBF

Figura 6.1. Previas no informativa, Intrınseca

geometrica y aritmetica (Ejemplo 6.2).


En el ejemplo anterior encontramos que πN(β) era una previa propia.El siguiente teorema muestra que esto no es casual.

Teorema 6.1 Sea H1 : θ = θ0 vs. H2 : θ 6= θ0, y supongamos queestan dadas las condiciones del Teorema de Fubini. Entonces, πAI(θ)es propia.

Prueba. Integrando πAI(θ) obtenemos:

∫πAI(θ)dθ =

∫πN(θ)

∫ f(x(l) | θ0)

mN2 (x(l))

f(x(l) | θ)dx(l)dθ =

∫ f(x(l) | θ0)

mN2 (x(l))

[∫πN(θ)f(x(l) | θ)dθ

]dx(l) =

∫f(x(l) | θ0)dx(l) = 1.2

El Teorema 6.1 establece que el IBF aritmetico es un metodo queaun siendo “automatico”, es inmediatamente consistente con el Prin-cipio Bayesiano al comparar una hipotesis Nula simple con su comple-mento. De esta manera se resuelve satisfactoriamente el problema paratest de hipotesis simple planteado en este capıtulo.

Cuando la hipotesis nula es compuesta, la situacion es algo mascomplicada, pero el resultado es esencialmente el mismo.

Sea θ2 = (θ1, η) y hacemos el test de hipotesis

M1 : η = η0 vs M2 : η 6= η0,

es decir la hipotesis nula M1 es compuesta ya que H0 deja a θ1 libre.Hacemos los siguientes supuestos, que se cumplen con gran generalidad.Por simplicidad supongamos datos intercambiables y ademas:

1. θ2M1=⇒ θ∗2 = (θ1, η0).

2. Existe, B∗2(θ2) = EM2

θ2

[BN

12(x(l))]

= limI→∞1I

∑Ik=1 BN

12(x(k)).

6.5. EL IBF PARA EL MODELO LINEAL NORMAL 163

Bajo estos supuestos se obtiene que una previa intrınseca es (verBerger y Pericchi (1.996)),

πI(θ1) = πN1 (θ1) y πI

2(θ2) = πI2(θ2)B

∗2(θ2). (6.38)

Teorema 6.2 Supongamos, en (6.38), que πN1 (θ1) es propia. Entonces

πI2(θ2) tambien es propia.

Prueba. De (6.38) se obtiene:

∫πI

2(θ2)dθ2 =∫

πN2 (θ2)

{∫ mN1 (x(l))

mN2 (x(l))

f(x(l) | θ2)dx(l)

}dθ2,

aplicando Fubini en la ultima integral resulta,

∫mN

2 (x(l))mN

1 (x(l))

mN2 (x(l))

dx(l) =∫

mN1 (x(l))dx(l) = 1,

ya que si πN1 es propia tambien lo es mN

1 .26.5 El IBF para el Modelo Lineal Normal

En esta seccion trataremos de manera muy suscinta el IBF para el Mod-elo Lineal Normal. Un tratamiento mas completo aparece en Berger yPericchi (1.996,a,b).

Suponga que el modelo Mj , para j = 1, . . . , q, para los datos Y

(n × 1), es el Modelo Lineal,

Mj : Y = Xjβj + ǫj, ǫj ∼ Nn(0, σ2j In), (6.39)

donde σ2j y βj = (βj1, . . . , βjkj

)t son desconocidos, y Xj es una matriz

de diseno n × kj dada de rango kj < n.Las previas usuales no subjetivas son:

πNj (βj, σj) ∝

1

σj.


Es facil probar que una muestra de entrenamiento minimal X(l),con matriz de diseno correspondiente Xj(l) (bajo Mj), es una muestra

de tamano m = max{kj}+ 1, tal que(X t

j(l)Xj(l))

es no singular paratodo j.

Una definicion general del IBF para comparar los modelos Mj vsMi es:

BIji = BN

ji Ave[BNij (x(l))] =

mNj (x)

mN2 (x)

Ave

[mN

i (x(l))

mNj (x(l))

], (6.40)

donde Ave denota los averages artimetico y geometrico correspondi-entes al IBF aritmetico y geometrico. (El IBF mediano es tambieninteresante debido a su robustes.)

Para el Modelo Lineal (6.39), el IBF es relativamente sencillo. Analıticamente se obtiene el siguiente resultado:

BNji = π(kj−ki)/2

Γ((n − kj)/2)

Γ((n − ki)/2)

|xti xi|1/2

|xtj xj|1/2

R(n−ki)/2i

R(n−kj)/2j

(6.41)

y BNij (x(l)) esta dado por el inverso de la expresion (6.41), reemplazando

n, Xi, Xj, Ri y Rj por m, Xi(l), Xj(l), Ri(l) y Rj(l) respectivamente.En (6.41) Rj y Rj(l) son la suma de cuadrados residuales bajo Mj ,

para la muestra completa y la muestra de entrenamiento respectiva-mente. Para calcular el IBF, se sustituye la ecuacion (6.41) en (6.40),que automaticamente clasifica los modelos tomando en cuenta la bon-dad de ajuste de cada modelo y envuelve una penalizacion en contradel modelo con mayor numero de parametros. Por ejemplo, el AIBFes:

BAIji =

|xtixi|1/2

|xtjxj|1/2

.R

(n−ki)/2i

R(n−kj)/2j

.C

L

L∑

l=1

|xtj(l)xj(l)|1/2

|xti(l)xi(l)|1/2

.(Rj(l))

1/2

(Ri(l)(p+1)/2, (6.42)

donde p = kj − ki y C =Γ

(n−kj

2

)Γ( p+1

2 )

Γ

(n−ki

2

)Γ( 1

2).

El procedimiento propuesto es elegir Mj como el modelo con mayornumero de parametros (el modelo “abarcante”) y calcular su IBF en


contra de los otros modelos. Para mas detalle ver Berger y Pericchi(1.996,a,b,c). En estos trabajos se obtienen las previas intrınsecas y sedemuestra que los correspondientes al AIBF son previas propias razon-ables.

Ejemplo 6.4. (Comparacion de Modelos de Regresion) Datostomados de Hald’s, p.82. Se desea estudiar el calor desprendido por uncierto tipo de cemento al endurecerse, en funcion de su composicion.Las variables de interes en el estudio son:

Y : Calor desprendido (cal/gr).X1: Porcentaje de aluminio de calcio (3CaO.Al2O3).X2: Porcentaje de silicato tetracalcico (3CaO.SiO2).X3: Porcentaje de ferrita alumınica tetracalcica (4CaO.Al2O3.F e2O3).X4: porcentaje de silicato dicalcico (2CaO.SiO2).Al realizar un experimento se obtienen los siguientes datos:

X1 X2 X3 X4 Y7 26 6 60 781 29 15 52 74

11 56 8 20 10411 31 8 47 877 52 6 33 95

11 55 9 22 1093 71 17 6 1021 31 22 44 72

21 47 4 26 1152 54 18 22 931 40 23 34 83

11 66 9 12 11310 68 8 12 109

Denotamos a los cuatro potenciales regresores por 1,2,3,4, y eltermino constante (incluido en todos los modelos) por c. Este con-junto de datos es muy difıcil de analizar debido al reducido numero dedatos (n=13) y a que la matriz de diseno es casi singular. El modeloabarcante es el definido por 1,2,3,4,c, y comparemos por medio delAIBF, a los submodelos con el abarcante, colocando a este ultimo en el


numerador del AIBF. Los resultados se muestran en la siguiente tabla:

Modelo AIBF p-valor1,2,3,c 0.29 0.84001,2,4,c 0.26 0.89601,3,4,c 0.31 0.50102,3,4,c 1.20 0.0710

1,2,c 0.18 0.47001,3,c 8242.30 0.00001,4,c 0.46 0.16802,3,c 216.40 0.00022,4,c 2774.40 0.00003,4,c 13.10 0.0055

1,c 4158.80 0.00002,c 1909.80 0.00003,c 22842.10 0.00004,c 851.30 0.0000

c 19721.50 0.0000

Basados en el AIBF, el mejor modelo es el {1,2c}, seguido por el{1,2,4, c}; {1,2,3, c}{1,3,4, c} y {1,4, c}. Note que el ordenamiento dado por el p-valor noes el mismo. De acuerdo al p-valor el mejor modelo es el {1,2,4, c}, elcual no es parsimonico, respecto del {1,2c}. Es interesante notar queel metodo de “inclusion progresiva” de regresores, tambien seleccionaal {1,2, c} como el mejor modelo.3

En el ejemplo anterior se ilustran las enormes ventajas del enfoqueBayesiano para la comparacion de modelos y la prediccion:

1. Es un enfoque parsimonico, que penaliza a los modelos con mu-chos parametros.

2. Es un enfoque que permite calcular las probabilidades a posterioride los modelos, aplicando la ecuacion (6.5), la cual puede sergeneralizada para considerar mas de dos modelos.

3. El planteamiento frecuentista de test de hipotesis obliga a selec-cionar un modelo de entre todos los sub-modelos. Sin embargo,


en este ejemplo, si bien el modelo {1,2, c} es el mejor, hay otros4 modelos que tienen un Factor de Bayes no despreciable. Elenfoque Bayesiano permite mantener a varios modelos como ra-zonables. Por ejemplo, al predecir una futura observacion Yf ,tenemos:

E(Yf | y) =J∑

j=1

E(Yf | y, Mj)p(Mj | y), (6.43)

donde J en este ejemplo deberıa ser por lo menos 5.


Apendice A

Distribuciones deprobabilidades

En este apendice se presentan algunas de las densidades de probabilidadmas comunes en estadıstica que son usadas en los ejemplos y ejerciciosde este libro. Aquı se daran unicamente el nombre de la densidad, lanotacion usada, el espacio muestral X, el rango de los parametros dela densidad y algunas propiedades utiles de la misma.

Antes que nada, la notacion utilizada sera:

• det(B) = determinante de la matriz B.

• Γ(a) = funcion Gamma usual definida por Γ(a) =∫ ∞

0xa−1e−xdx.

Note que Γ(x+1) = xΓ(x), en el caso de nmeros naturales Γ(n) =n!

• 1A(x) = funcion indicatriz del conjunto A, definida como

1A(x) =

{1 si x ∈ A0 si x 6∈ A

DISTRIBUCIONES CONTINUAS.

1. Normal univariada (N(µ, σ2)): X = R, −∞ < µ < ∞, σ2 > 0con:

f(x | µ, σ2) =1√2πσ

exp

{−1

2

(x − µ)

σ2

},

169

170 APENDICE A. DISTRIBUCIONES DE PROBABILIDADES

donde µ es la media y σ2 es la varianza.

2. Normal p-variada (Np(µ, S)): X = Rp, µ = (µ1, . . . , µp)

t ∈ Rp,

siendo S una matriz (p × p) positiva definida y con:

f(x | µ, S) =1

(2π)p/2(det(S))1/2exp

{−1

2(x − µ)tS−1(x − µ)

},

donde µ es el vector de medias y S es la matriz de varianza-covarianzas.

3. Uniforme (U(a, b): X = (a, b), −∞ < a < ∞, a < b < ∞, con:

f(x | a, b) =1

b − a1(a,b)(x),

la media es 12(a + b) y varianza 1

12(b − a)2.

4. Gamma (G(a, b)): X = (0,∞), a > 0, b > 0 y

f(x | a, b) =1

Γ(a) baxa−1e−x/b1(0,∞)(x)

la media es ab y la varianza ab2.

Casos especiales:

(a) Exponencial (Exp(b)): corresponde a la densidad G(1, b).

(b) Chi-cuadrado con n grados de libertad (χ2(n)): corre-sponde a la densidad G(n/2, 2).

5. Beta (Beta(a, b)): X = [0, 1], a > 0, b > 0 con:

f(x | a, b) =Γ(a + b)

Γ(a)Γ(b)xa−1(1 − x)b−11[0,1](x),

la media aa+b

, la varianza ab(a+b)2(a+b+1)

.

171

6. Cauchy (Cauchy(a, b)): X = R, −∞ < a < ∞, b > 0, con:

f(x | a, b) =b

π[b2 + (x − a)2],

Esta distribucion no tiene ni media ni varianza finita, mas aunno tiene ningun momento finito.

7. Distribucion F con a y b grados de libertad (Fa,b): X = (0,∞),a > 0, b > 0 y

f(x | a, b) =Γ[(a + b)/2]aabb

Γ(a/2)Γ(b/2)

x(a−2)/2

(b + ax)(a+b)/21(0,∞)(x),

la media bb−2

si b > 2, la varianza 2b2(a+b−2)a(b−4)(b−2)2

si b > 4.

8. Distribucion t con a grados de libertad, parametro de local-izacion µ y parametro de escala σ2, (T (a, µ, σ2)): X = R, a >0, −∞ < µ < ∞, σ2 > 0, con:

f(x | a, µ, σ2) =Γ[(a + b)/2]

σ√

aπΓ(a/2)

[1 +

(x − µ)2

aσ2

]− 1

2(a+1)

,

la media es µ, si a > 0, la varianza es aσ2

(a−2)si a > 2.

Nota : (X−µ)2

σ2 ∼ F (1, a).

Caso especial:

(a) Cauchy(µ, σ2) = t(1, µ, σ2).

9. Distribucion t p-variada con a grados de libertad, con vectorde localizacion µ y matriz de escala S (T (a, µ, S)): X = R

p,a > 0, µ ∈ R

p, S es una matriz (p × p) positiva definida y

f(x | a, µ, S2) =Γ[(a + p)/2]

(det(S))1/2(aπ)p/2Γ(a/2)

[1 +

1

a(x − µ)tS−1(x − µ)

]− 1

2(a+p)

,

la media µ y la varianza aSa−2

, si a > 2.


10. Gamma Inversa (IG(a, b)): X = (0,∞), a > 0, b > 0, con

f(x | a, b) =1

Γ(a)baxa+1e−1/xb1(0,∞)(x),

la media 1b(a−1)

si a > 1, la varianza 1b2(a−1)2(a−2)

si a > 2.

DISTRIBUCIONES DISCRETAS.

11. Binomial (B(n, p)): X = {0, 1, 2, . . . , n}, 0 ≤ p ≤ 1, n =1, 2, . . ., y

f(x | n, p) =

(nx

)px(1 − p)n−x,

la media np y la varianza np(1 − p).

12. Poisson (P (λ)): X = {0, 1, 2, . . . , }, λ > 0,

f(x | λ) = e−λλx

x!,

media=varianza=λ.

13. Binomial Negativa (BN(a, p)): X = {0, 1, 2, . . . , }; 0 < p ≤ 1,a > 0 y

f(x | a, p) =Γ(a + x)

Γ(x + 1)Γ(a)pa(1 − p)x,

la media a(1−p)p

y la varianza a(1−p)p2 .

Caso especial:

(a) Geometrica (Ge(p)) que corresponde a la BN(1, p).

14. Multinomial (M(n, p)): x = (x1, . . . , xk)t, donde

k∑

i=1

xi = n, y

cada xi es un entero entre 0 y n, y el vector p = (p1, . . . , pk)t es

tal quek∑

i=1

pi = 1, con 0 ≤ pi ≤ 1, para todo i, con:

f(x | p) =n!

∏ni=1 xi!

n∏

i=1

pxi

i

173

la media de Xi es npi, la varianza de Xi es npi(1−pi) y Cov(Xi, Xj) =−npipj.


Bibliografıa

[1] Berger, J.(1984) The robust Bayesian viewpoint (with discussion).Robustness in Bayesian Analysis, J. Kadane (ed.). North-Holland,Amsterdam.

[2] Berger, J.(1985) Statistical Theory and Bayesian Analysis. (2da.Ed.) Springer Series in Statistics. Springer-Verlag.

[3] Berger, J. y Berliner, L.M. (1984) Bayesian input in Stein esima-tion and a mew minimax empirical Bayes estimator. J. Economet-rics 25, p.87-108.

[4] Berger, J. y Wolpert, R. (1984) The likelihood Principle. Instituteof Mathematical Statistics, Monograph Series, Hayward, Califor-nia.

[5] Berger, J. y Sellke, T. (1987) Testing a point null hypothesis: Theirreconcilbility of P-values and evidence. J. American StatisticalAssociation, 82, p.112-122.

[6] Bernardo, J.M. (1980) A Bayesian Analysis of classical hypothesistesting. Proc. First Int. Meeting Bayesian Statist., J.M. Bernardo,M.H. DeGroot, D.V. Lindley y A.F.M. Smith (eds) 605-618, Uni-veristy Press, Valencia, Espana.

[7] Blackwell, D. y Girshick, M.A. (1954) Theory of Games and Sta-tistical Decisons. Wiley, New York.

[8] Box, G.E.P. y Cox, D.R. (1964) An analysis of Transformations(with discussion). J. Royal Statistical Society, Series B 26, p.211-252.

175

176 BIBLIOGRAF´ıA

[9] Box, G.E.P. y Tiao, G.C. (1973) Bayesian Inference in StatisticalAnalysis. Addison-Wesley, Reading, Massachusetts.

[10] Brown, P. (1984) Notes in Decision Theory. Manuscrito d cursoen el Imperial College, London.

[11] Bronw, P. (1984) Fundamentals of Statistical Exponential Fami-lies, with Applications in Statistical Decision Theory. Institute ofMathematical Statistics. Lectures Notes-Monograph Series.

[12] Cox, D.R. y Reid, N. (1987) Parameter orthogonaity and approxi-mate conditional inference (with discussion). J.R. Statist. Soc. B.49, p.1-49.

[13] De Finetti, B. (1937). Foresight: Its logical laws, its subjetivesources. Traducido y reimpreso en Studies in Subjective Proba-bilities, H.E. Kyburg y H.E. Smokler (eds.). Wiley, New York,1964.

[14] De Finetti, B. (1961) The Bayesian Approach to the Rejection ofOutliers. Proc. 4th Berkley Symp. of Math. Stat. and Prob. 1, p.199-210.

[15] De Finetti, B. (1974) Theory of Probability. Wiley, New York.

[16] De Groot, M.H. (1970) Optimal Statistical Decisions. Mc Graw-Hill, New York.

[17] De Robertis, L. y Hartigan, J.A. (1981) Bayesian Inference usingIntervals of Measures. Ann. Statist. 9, p.235-244.

[18] Diaconis, P. y Ylvisaker, D. (1979) Conjugate priors for Exponen-tial Families. Annals of Statistics 7, p.269-281.

[19] Ferguson, T.S. (1967) Mathematical Statistics: A Decision Theo-retic Approach. Academic Press, New York.

[20] Good, I.J. (1950) Probability and the Weighting of Evidence.Charles Griffin, london.

BIBLIOGRAF´ıA 177

[21] Good, I.J. (1962) Subjective probability as the measure of a nonmeasurable set. Logic, Methodology and Philosophy of Science:Proc. of the 1960’s International Congress, Stanford UniveristyPress.

[22] Good, I.J. (1968) Corroboration, explanation, evolving probability,simplicity and sharpened razor. BJPS, 19, p.123-143.

[23] Good, I.J. y Card, W.I. (1971) The diagnostic process with specialreference to errors. Meth. Inf. Med., 10, p.176-188.

[24] Harrison, P.J. y Stevens, C.F. (1976) Bayesian Forecasting (withdiscussion). J.R.Stat.Soc. B, p.205-245.

[25] Heyde, C.C. y Johnstone, I.M. (1979) On asymptotic posteriornormality for stochastic processes. J.R. Sta. Soc. B,41, p. 184-189.

[26] Hinkley, D.V. (1979) Predictive likelihood. Ann. Statist., 7,p.718-728.

[27] Huber, P.J. (1973) The use of Choquet Caacities in Statistics. Bull.Internat. Stat. Inst. 45, Book 4, p. 181-188.

[28] James, W. y Stein, C. (1961) Estimation with quadratic loss. Proc.Fourth Berkley Symp. Math. Statist. Prob. 1, p.311-319.

[29] Jeffreys, H. (1961) Theory of Probability, (3rd. ed) Oxford Univer-sity Press, London.

[30] Laplace, P.S. (1812) Theory Analytique des Probabilities. Courcier,Parıs.

[31] Lauritzen, S.L. y Spiegelhalter, D.J. (1988) Local computationswith probabilities on graphical structures and their applications toexpert systems (with discussion). J.R.Stat. Soc. B.

[32] LeCam, L. (1956) On the asymptotic theory of estimation and test-ing hypotheses. Proc. Third Berkley Symp. Math. Stat. Prob. 1,University of California Press, Berkley.

178 BIBLIOGRAF´ıA

[33] Lehmann, E.L. (1959) Testing Statistical Hypotheses. Wiley, NewYork.

[34] Lehmann, E.L. (1983) Theory of Point Estimation. Wiley, NewYork.

[35] Lindley, D.V. y Phillips, L.D. (1976) Inference for a Bernoulliprocess (a Bayesian view). Amer. Statist.,30,p. 112-129.

[36] Lindley, D.V. (1957) A statistical paradox. Boimetrika, 44,p. 187-192.

[37] Lindley, D.V. (1971) Making Decisions. Wiley-Interscience.

[38] Lindley, D.V. y Smith A.F.M. (1972) Bayes Estimates for the Lin-ear Model (with discussion). J.Royal Stat. Society. Series B, 34, p.1-41.

[39] Lindley, D.V. (1983) Lectures on Bayesian Statistics. Pub. IME,Universidade de Sao Paulo, Brasil.

[40] Moreno, E. y Cano, J.A. (1991) Robust Bayesian Analysis with ǫ-contaminations partially known. J.Royal. Stat. Soc., Series B, 53,1,p. 143-145.

[41] Moreno, E. y Pericchi, L.R. (1990) Robust Bayesian Analysisfor ǫ-contaminations with Shape and Quantile Constraints. Ac-tas III Congreso Latinoamericano en Probabilidades y EstadısticaMatematica, p. 143-158.

[42] Moreno, E. y Pericchi, L.R. (1992) A Hierarchical ǫ-contaminationModel. J. Stat. Planning and Inference. (En prensa)

[43] Naylor, J.C. y Smith, A.F.M. (1982) Applications of a method forthe efficient computation of posterior distributions. Appl. Stat.,31,p. 214-225.

[44] Pearl, J. (1988) Probabilistic Reasoning in Intelligent System: Net-works of Plausible Inference. Morgan Kaufmann Publishers.

BIBLIOGRAF´ıA 179

[45] Pereira, C.A.B. y Pericchi, L.R. (1990) Analysis of Diagnosability.Applied Stat., 39(2),p. 189-204.

[46] Perez, M.E. y Pericchi, L.R. (1987) Analisis de Muestreo en dosetapas como un Modelo Bayesiano Jerarquico. Rep. Tecnico, Uni-versidad Simon Bolıvar, Caracas.

[47] Pericchi, L.R. (1981) A Bayesian Approah to Transformations toNormality. Biometrika, 68,1,p. 35-43.

[48] Pericchi, L.R. (1984) An alternative to the standard Bayesianprocedure for discrimination between Normal Lineal Models.Biometrika,71,p. 575-586.

[49] Pericchi, L.R. (1986) Notes in Decision Theory. Manuscrito decurso en el Imperial College, London.

[50] Pericchi, L.R. (1989) Sobre la inferencia y teorıa de decisionsubjetivista-Bayesiana bajo probabilidades a priori imprecisas.Acta Cientıfica Venezolana, 40,p. 5-18.

[51] Pericchi, L.R. y Nazareth, W.A. (1988) On being imprecise atthe higher levels of a Hierarchical Linear Model (with discussion).Bayesian Statistics 3,p. 361-375. Bernardo, J.M, DeGroot M.,Lindley, D. y Smith A.F.M., editores. Oxford University Press.

[52] Pericchi, L.R. y Smith, A.F.M. (1990) Exact and Approximate pos-terior moments for a Normal Location Likelihood. J. Royal Stat.Soc. B,54(3),p. 793-804.

[53] Pericchi, L.R. y Walley, P. (1990) One-sided hypotheses testingwith near ignorance priors. Rev. Brasileira de Prob. e Estadıstica,REBRAPE, 4,p. 69-82.

[54] Pericchi, L.R. y Walley, P. (1991) Robust Bayesian credible inter-vals and prior ignorance. I.S. Review, 59(1),p. 1-23.

[55] Pericchi, L.R. y Smith, A.F.M. (1989) Posterior Moments andcumulant relationships in the Exponential Family. Tech. Report,University of Nottingham, England.

180 BIBLIOGRAF´ıA

[56] Ramsey, F.P. (1926) Truth and Probability. Reimpreso en Stud-ies in Subjective Probability, H.E. Kyburg y H.E. Smokler (eds.).Wiley, New York, 1964.

[57] Rubin, D.B. (1976) Inference and missing data. Biometrika, 63,p.581-592.

[58] Savage, L.J. (1954) The foundations of Statistics. Wiley, New York.

[59] Sivaganesan, S. y Berger, J.O. (1989) Ranges of posterior Measuresfor priors with unimodal contaminations. Ann. Stat., 17,2,p. 868-889.

[60] Smith, A.F.M. y Spiegelhalter, D.J. (1980) Bayes factors andchoice criteria for Linear Models. J.R. Stat. Soc. B,44,p. 213-220.

[61] Stein, C. (1956) Inadmissibility of the usual estimator for the meanof a multivariate distributuion. Proc. Third Berkley Symp. Math.Stat. Prob., University of California Press, 1,p. 197-206.

[62] Stone, M. (1971) Strong Inconsistency from Uniform Priors (withcomments). J.Amer.Stat.Assoc. 71,p. 114-125.

[63] Tierney, L. y Kadane, J.B. (1986) Accurate approximations for pos-terior moments and marginal densities. J.Amer.Stat.Assoc., 81,p.82-86.

[64] Wald, A. (1950) Statistical Decision Functions. Wiley, New York.

[65] Walker, A.M. (1969) On the asymptotic behavior of posterior dis-tributions. J.R.Stat.Soc. B,31,p. 80-88.

[66] Walley, P. (1987) Notes in Decision Theory. Manuscrito de cursoen la Universidad de Cornell, U.S.A.

[67] Walley, P. (1991) Statistical reasoning with imprecise probabilities.Chapman and Hall.

[68] West, M. y Harrison, J. (1989) Bayesian Forecasting and dynamicmodels. Springer Series in Statistics. Springer-Verlag.

Indice

Admisibilidad, 45Algoritmos computacionales, 95Analisis

automaticos, 118Bayesiano, 83no informativo del modelo lin-

eal, 120secuencial, 100, 102

Anova, 118, 127Aproximacion Bayesiana, 88Apuestas, 67, 75

compuestas, 73Arbol de decision, 6, 8, 28Axiomas de racionalidad, 68, 72,

73

Bayesestimador de, 46factor de, 87lımite de, 52regla de, 39Teorema de, 5teorema de, 80, 85

Bayes-Laplacepostulado de, 118

Borel, conjunto de, 5Borel,conjunto de, 103

Cambios de localizacion, 119Conocimiento

estructural, 125, 127, 129parametrico, 125, 127

Cromwell,regla de, 47Cuadratura Gaussiana, 95

Decisinno-aleatorias, 14

Decisionoptima, 87, 98optima Bayes, 86optimas, 21optimo Bayes, 101Bayes condicional, 26condicional, 78inadmisible, 14Minimax, 43predictiva, 98

Densidada posteriori, 6a priori, 5

clase casi ignorante de, 108condicional, 93conjugada, 106

clases de, 107conjunta, 30marginal, 93

posterior, 122posterior, 98, 99predictiva, 5, 96

Dispersion, 33

181

182 INDICE

a priori, 124inicial, 78posterior, 124

Distribuciona priori, 87

clases de, 91acumulada, 13Beta, 31, 96Binomial, 31, 96de Cauchy, 23de Murphy, 36, 42F de Fisher, 121Gamma, 105Normal, 30, 89, 117, 127t-student, 94, 121Uniforme, 108

Elementos de un problema de de-cision, 3

Errorcuadratico medio, 18de tipo I, 83, 85de tipo II, 83

Erroresno correlacionados, 120

Espaciode acciones, 3de estados, 3de parametros, 83

no acotado, 119de parametros canonicos, 103muestral, 4

Esperanzaa posteriori, 31, 104, 122a priori, 104, 106matematica, 12posterior, 101

Estadıstico suficiente, 29, 93Estimacion puntual, 17Estimador

Bayes condicional, 32de Bayes, 46de encogimiento, 128de mınimos cuadrados, 23,

120, 123, 127, 128de maxima verosimilitud, 23,

99, 120insesgado, 23tonto, 21

Estimadoresridge regression, 129

Formula de cambio de variable,118

Factorde Bayes, 87, 91

Familiaconjugada, 108de experimentos, 3de medidas a priori, 104Exponencial, 48exponencial, 103exponencial conjugada, 107

Filtro, 124Funcion

de perdida, 4de perdida, 66, 75de riesgo, 83de utilidad, 4, 66, 72de verosimilitud, 17, 76utilidad

metodos de construccion de,68

Hiperparametros, 93, 106, 125

INDICE 183

Inferencia predictiva, 95Informacion muestral a priori, 107Intervalo

de confianza, 120, 121de credibilidad, 120, 121

Intervalosde confianza, 78, 92de credibilidad, 92, 94de probabilidad, 92

Invarianzapropiedad de, 119

Jeffreysprevias de, 120regla de, 119, 120

Jensen, desigualdad de, 50

Laplaceaproximacion de, 95, 100ley de sucesion, 108ley de sucesion, 97

Metodos aproximados, 95Matriz

de diseno, 117de Fisher, 119de informacion de fisher, 99de varianza-covarianza, 100,

117, 127Maximin, valor, 55Mediana, 33Medida

a priori, 105, 122de Lebesgue, 104invariante, 119

Medidasde probabilidad, 103no informativas, 118

Minimaxdecision, 43estrategia, 53regla, 35, 41teorema, 56valor, 35, 55

Modas, 127Modelo

de clasificacion, 127de regresion multiple, 129lineal, 117, 121, 122

analisis no informativo, 120jerarquico, 122, 125Normal, 117Normal jerarquico, 124, 125verosimilitud, 120

Muestrasecuencial, 102tamano optimo, 100, 102

Neyman, criterio de factorizacionde, 29

Neyman-Pearsonlema de, 83, 84teorıa de, 88

Normalidad asintotica, 98

OrdenamientoBayesiano, 24Minimax, 35

Perdidacuadratica, 17, 98, 101esperada, 76esperada a posteriori, 92esperada posterior, 79posterior, 107posterior esperada, 86

184 INDICE

Parametrocanonico, 105de localizacion, 119

Parametros, 95de localizacion, 22de molestia, 93, 95vector de, 96

Paradojade Lindley, 89de San Petersburgo, 67

Peso de la evidencia, 87Precision, 32Previa, 5

de Jeffreys, 120de referencia, 75no informativa, 124, 127, 129Normal-Gamma, 93

Previasno informativas, 118

uniforme, 118Principio

Bayesiano, 66, 75, 79de la maximizacion de la util-

idad, 25de la verosimilitud, 76, 77,

120de minimizacion de la perdida

esperada, 102del riesgo posterior, 79

Probabilidada posteriori, 88asignacion de, 4condicional, 5predictiva, 96subjetiva, 73

Procedimientosoptimo-Bayes, 24

insesgados, 22invariantes, 22

Promedio poderado, 123Promedio ponderado, 94

Recompensas, 67, 68, 73, 75Regla

optima, 21optima Bayes promedio, 27optima Bayes-promedio, 24admisible, 20aleatoria

degenerada, 19aleatorias, 19aleatorizada, 43Bayes promedio, 45Bayes promedio optima, 84de Bayes, 39, 40de Cromwell, 47, 100de decision determinada, 13,

19de Jeffreys, 119, 120determinada, 27igualadora, 37inadmisible, 20Minimax, 35, 41

regresion simple, 118Restriccion del conjunto de de-

ciones, 21Riesgo

Bayesiano, 24, 53, 100, 102Bayesiano promedio, 84conjunto de, 20, 40cuadratico, 78frecuentista, 14inicial, 78posterior, 79

INDICE 185

promedio, 83

Sesgo, 18

Taylorformula de, 99

Teorıade imprecision, 74de Juegos, 35, 52de utilidad, 65, 72, 75subjetiva, 65

Teoremade Bayes, 5, 80, 85del hiperplano separante, 50del lımite Central, 98Minimax, 56

Testde diagnostico, 127de hipotesis, 17, 83, 87, 88

clasico, 89puntual, 88, 91

de significancia de Fisher, 85Transformacion

a normalidad, 121de Box y Cox, 121

Utilidaddel dinero, 70, 71funcion de, 4, 72

Varianzaa priori, 90

Vectorcanonico, 103de errores, 117de medias, 125de observaciones, 119de parametros, 93, 117

de pararametros, 103de regresores, 118, 129

Ventajaa priori, 87a priori y post, 87posterior, 86, 87

Verosimilitud, 5, 80, 88, 96, 123cociente de, 85, 87estimador de maxima, 23exponencial, 105funcion de, 17Normal, 93, 97principio de la, 76, 120

Documents

Teoria de Decision e Inferencia Bayesiana