19
José Miguel Bernardo Rev.R.Acad.Cienc.Exact.Fis.Nat. (Esp), 2002; 95 81 Rev.R.Acad.Cienc.Exact.Fis.Nat. (Esp), Vol. 95, N. os 1–2, pp 81–99, 2002 Monográfico: Tricentenario de Thomas Bayes UN PROGRAMA DE S ´ INTESIS PARA LA ENSE ˜ NANZA UNIVERSITARIA DE LA ESTAD ´ ISTICA MATEM ´ ATICA CONTEMPOR ´ ANEA (Concepto de probabilidad/Contraste de hipótesis/Distribuciones de referencia/Distribuciones en el muestreo/Estimación/Función de pérdida/Función de verosimilitud/Intercambiabilidad/Métodos Bayesianos objetivos/Modelos probabilísticos/Simulación/Teoría de la de- cisión) JOS ´ E MIGUEL BERNARDO HERR ´ ANZ * * Departament d’Estadística i I. O., Universitat de Val` encia. Facultat de Matemàtiques, 46100–Burjassot. España ABSTRACT In this paper it is argued that the current conventio- nal approach to the education in theoretical statistics of university students requires a radical reformulation. A possible alternative syllabus is presented which could be used with students that, with an appropriate mathe- matical basis (basic calculus and probability theory) are subject to a primer in mathematical statistics. More spe- cifically, the proposed syllabus contains an elementary introduction to decision theory, a description of proba- bility models based on the concept of exchangeability and the study of the likelihood function, an introduction to objective Bayesian methods and an analysis of the be- haviour under repeated sampling of statistical methods which includes, and reformulates, the more relevant con- cepts of frequentist statistics. RESUMEN En este trabajo se defiende la necesidad de una pro- funda reconversión en la enseñanza universitaria de la estadística matemática y se apunta el contenido de un programa que podría resultar apropiado para los alum- nos que, con una base matemática apropiada (fundamen- tos de cálculo y elementos de teoría de la probabilidad), se enfrenten por primera vez a los conceptos básicos de esta disciplina. En particular, el programa propuesto incluye una introducción elemental a la teoría de la de- cisión, una descripción de los modelos probabilísticos basada en el concepto de intercambiabilidad y en el es- tudio de la función de verosimilitud, una introducción a los métodos bayesianos objetivos, y un análisis del comportamiento bajo muestreo repetido de los métodos estadísticos, que recoge y reinterpreta los conceptos más relevantes de los métodos frecuentistas. 1 INTRODUCCI ´ ON Un análisis comparado de los programas en los que se basa la enseñanza universitaria de la estadística ma- temática en los primeros ciclos de la enseñanza univer- sitaria de casi todo el mundo pone de manifiesto un no- table desfase entre lo que se enseña como ‘teoría esta- blecida’ y lo que se investiga y (sobre todo) se aplica en el mundo real. En efecto, los programas en vigor son una réplica (casi sin modificaciones) de los programas que, basados en un paradigma frecuentista, se enseñaban ya a mediados del siglo pasado. Lamentablemente, ta- les programas (i) frecuentemente ignoran los numerosos problemas, contraejemplos y limitaciones asociados al uso exclusivo de ese paradigma, y (ii) típicamente elu- den cualquier comentario sobre el paradigma bayesiano. Se sabe, sin embargo, que un importante porcentaje de la investigación publicada en las revistas profesionales de primera línea se sitúa dentro del paradigma bayesiano, y es ya de dominio público que las aplicaciones más es- pectaculares de la estadística matemática en los últimos años (desde la bioinformática a la teledetección, desde la traducción automática al diagnóstico médico auto- matizado, desde la gestión de una cartera de valores al análisis de datos en la arqueología moderna) se realizan preferentemente desde un paradigma bayesiano (y fre- cuentemente no es posible hacerlo de otra manera). El aprendizaje de los métodos estadísticos más modernos queda así relegado a asignaturas optativas en el segundo o en el tercer ciclo de algunos estudios, con lo que la inmensa mayoría de los estudiantes universitarios (que

UN PROGRAMA DE SINTESIS PARA LA ENSE´ NANZA …bernardo/ProgSintesis.pdf · Vol. 95, N.os 1–2, pp 81–99, 2002 ... UN PROGRAMA DE SINTESIS PARA LA ENSE´ NANZA UNIVERSITARIA DE

  • Upload
    others

  • View
    6

  • Download
    0

Embed Size (px)

Citation preview

Page 1: UN PROGRAMA DE SINTESIS PARA LA ENSE´ NANZA …bernardo/ProgSintesis.pdf · Vol. 95, N.os 1–2, pp 81–99, 2002 ... UN PROGRAMA DE SINTESIS PARA LA ENSE´ NANZA UNIVERSITARIA DE

José Miguel Bernardo Rev.R.Acad.Cienc.Exact.Fis.Nat. (Esp), 2002; 95 81

Rev.R.Acad.Cienc.Exact.Fis.Nat. (Esp),Vol. 95, N.os 1–2, pp 81–99, 2002Monográfico: Tricentenario de Thomas Bayes

UN PROGRAMA DE SINTESIS PARA LA ENSENANZA UNIVERSITARIA DE LA

ESTADISTICA MATEMATICA CONTEMPORANEA

(Concepto de probabilidad/Contraste de hipótesis/Distribuciones de referencia/Distribuciones en el muestreo/Estimación/Función depérdida/Función de verosimilitud/Intercambiabilidad/Métodos Bayesianos objetivos/Modelos probabilísticos/Simulación/Teoría de la de-cisión)

JOSE MIGUEL BERNARDO HERRANZ *

* Departament d’Estadística i I. O., Universitat de Valencia. Facultat de Matemàtiques, 46100–Burjassot. España

ABSTRACT

In this paper it is argued that the current conventio-nal approach to the education in theoretical statistics ofuniversity students requires a radical reformulation. Apossible alternative syllabus is presented which couldbe used with students that, with an appropriate mathe-matical basis (basic calculus and probability theory) aresubject to a primer in mathematical statistics. More spe-cifically, the proposed syllabus contains an elementaryintroduction to decision theory, a description of proba-bility models based on the concept of exchangeabilityand the study of the likelihood function, an introductionto objective Bayesian methods and an analysis of the be-haviour under repeated sampling of statistical methodswhich includes, and reformulates, the more relevant con-cepts of frequentist statistics.

RESUMEN

En este trabajo se defiende la necesidad de una pro-funda reconversión en la enseñanza universitaria de laestadística matemática y se apunta el contenido de unprograma que podría resultar apropiado para los alum-nos que, con una base matemática apropiada (fundamen-tos de cálculo y elementos de teoría de la probabilidad),se enfrenten por primera vez a los conceptos básicos deesta disciplina. En particular, el programa propuestoincluye una introducción elemental a la teoría de la de-cisión, una descripción de los modelos probabilísticosbasada en el concepto de intercambiabilidad y en el es-tudio de la función de verosimilitud, una introduccióna los métodos bayesianos objetivos, y un análisis delcomportamiento bajo muestreo repetido de los métodos

estadísticos, que recoge y reinterpreta los conceptos másrelevantes de los métodos frecuentistas.

1 INTRODUCCION

Un análisis comparado de los programas en los quese basa la enseñanza universitaria de la estadística ma-temática en los primeros ciclos de la enseñanza univer-sitaria de casi todo el mundo pone de manifiesto un no-table desfase entre lo que se enseña como ‘teoría esta-blecida’ y lo que se investiga y (sobre todo) se aplica enel mundo real. En efecto, los programas en vigor sonuna réplica (casi sin modificaciones) de los programasque, basados en un paradigma frecuentista, se enseñabanya a mediados del siglo pasado. Lamentablemente, ta-les programas (i) frecuentemente ignoran los numerososproblemas, contraejemplos y limitaciones asociados aluso exclusivo de ese paradigma, y (ii) típicamente elu-den cualquier comentario sobre el paradigma bayesiano.Se sabe, sin embargo, que un importante porcentaje de lainvestigación publicada en las revistas profesionales deprimera línea se sitúa dentro del paradigma bayesiano,y es ya de dominio público que las aplicaciones más es-pectaculares de la estadística matemática en los últimosaños (desde la bioinformática a la teledetección, desdela traducción automática al diagnóstico médico auto-matizado, desde la gestión de una cartera de valores alanálisis de datos en la arqueología moderna) se realizanpreferentemente desde un paradigma bayesiano (y fre-cuentemente no es posible hacerlo de otra manera). Elaprendizaje de los métodos estadísticos más modernosqueda así relegado a asignaturas optativas en el segundoo en el tercer ciclo de algunos estudios, con lo que lainmensa mayoría de los estudiantes universitarios (que

Page 2: UN PROGRAMA DE SINTESIS PARA LA ENSE´ NANZA …bernardo/ProgSintesis.pdf · Vol. 95, N.os 1–2, pp 81–99, 2002 ... UN PROGRAMA DE SINTESIS PARA LA ENSE´ NANZA UNIVERSITARIA DE

82 José Miguel Bernardo Rev.R.Acad.Cienc.Exact.Fis.Nat. (Esp), 2002; 95

únicamente tienen una asignatura de estadística en elprimer ciclo) reciben una formación en estadística ma-temática definitivamente incompleta, resultando asi pri-vados de conocimientos muy relevantes para su prácticaprofesional.

Históricamente, siempre ha existido un cierto retrasoen la incorporación a la enseñanza universitaria de losnuevos paradigmas científicos (el caso de la física re-lativista es un ejemplo no muy lejano); sin embargo,este factor de inercia no es por si mismo suficiente paraexplicar el retraso observable en la incorporación delparadigma bayesiano a la enseñanza universitaria de laestadística matemática. En las numerosas ocasiones enlas que este debate se ha planteado en distintos forossuelen escucharse dos tipos de argumentos por parte dequienes prefieren mantener la situación actual: (i) losmétodos bayesianos son necesariamente subjetivos, yresultan por lo tanto inadecuados en el análisis de lainvestigación científica, y (ii) los alumnos tienen queconocer los métodos frecuentistas, por que van a nece-sitarlos en su vida profesional, y no es posible integrarambos paradigmas de forma comprensible en una únicaasignatura.

El primer argumento sólo pone de manifiesto la faltade información de quienes lo sostienen. Las solucionesbayesianas objetivas a los problemas estadísticos quepueden abordarse en un primer curso de estadística ma-temática (objetivas en el sentido de que, como las solu-ciones frecuentistas, sólo dependen del modelo asumidoy de los datos observados) se conocen desde finales delos años 60 (Lindley, 1965; Zellner, 1971; Press, 1972;Box & Tiao, 1973). Además, el análisis de referencia,desarrollado en los 80’s y los 90’s (Bernardo, 1979; Ber-ger & Bernardo, 1992; Bernardo & Smith, 1994) hacetiempo que ha proporcionado una solución general queincluye, sistematiza y generaliza, tales soluciones.

El segundo argumento tiene mucho mayor calado. Esinnegable que cualquier profesional que utilice métodosestadísticos debería conocer los métodos frecuentistas,no sólo porque su uso es todavía dominante, sino tambiénporque pueden proporcionar valiosa información sobreel comportamiento que puede esperarse de cualquiermetodología. Por otra parte, son asimismo innegableslas dificultades inherentes al intentar describir dentro deuna misma asignatura dos paradigmas que suelen serpresentados como incompatibles. El objeto de este tra-bajo es proponer un programa de síntesis en el que losmétodos frecuentistas, cuya raison d’être es el análisisdel comportamiento esperado bajo muestreo repetido decualquier procedimiento estadístico, son precisamenteutilizados para analizar el comportamiento esperadobajo muestreo repetido de los métodos bayesianos obje-tivos, demostrando que gozan de propiedades frecuen-tistas especialmente atractivas, que permiten darles unainterpretación dual. Para citar el ejemplo más conocido,dada una muestra normal de tamaño n, con media x y

desviación típica s, el intervalo x ± tα/2 s/√n− 1 se

obtiene desde la perspectiva bayesiana objetiva comouna región de confianza a la que el verdadero valor dela media µ de una población normal pertenece con unacredibilidad racional 1 − α (en una escala [0, 1]), quees precisamente el tipo de resultado (condicional a losdatos realmente observados) que obviamente interesa encualquier aplicación concreta. Por otra parte, el análisisdel comportamiento en el muestreo de esa región de-muestra que, bajo uso repetido, tal intervalo contendríaal verdadero valor de µ en el 100(1−α)% de los casos,proporcionando así una valiosa calibración del resultadobayesiano. La correspondencia entre los conceptos deregión de confianza creíble y de región de confianza fre-cuentista (exacta en este ejemplo), resulta ser casi siem-pre una aproximación válida para muestras suficiente-mente grandes.

El programa que proponemos tiene cinco partes:Fundamentos, Modelos Probabilísticos, Inferencia, Ca-libración y Aplicaciones, cuyo contenido es descrito enlas próximas secciones. Para mantener este trabajo den-tro de unas dimensiones razonables, tan sólo analiza-remos con algún detalle los elementos menos frecuen-tes en una presentación frecuentista de los métodos es-tadísticos, evitando en lo posible el enunciado de defi-niciones o resultados típicamente incluidos en un librode texto convencional. La sección final contiene unadescripción abreviada de la propuesta presentada, arti-culada en un posible programa para una asignatura deEstadística Matemática que se integre en un primer ciclouniversitario, y en el que se consideran tanto los aspec-tos teóricos como su implementación práctica con unsoftware adecuado.

El desarrollo de un programa de síntesis como el pro-puesto plantea importantes problemas de notación; seha optado por una notación en la que se prima la senci-llez. En particular, se asume que todas las distribucionesde probabilidad pueden ser descritas mediante sus fun-ciones de probabilidad o de densidad de probabilidad y,generalmente, se utiliza la misma notación para una va-riable aleatoria y para los valores que puede adoptar. Seutiliza el alfabeto latino para variables aleatorias obser-vables (típicamente datos) y para constantes conocidas,y el alfabeto griego para variables aleatorias inobser-vables (típicamente parámetros), utilizándose negritascuando se trata de vectores. Se utilizan letras minúsculaspara las variables y mayúsculas para sus dominios. Sehace uso de la convención matemática que permite re-ferirse a las funciones f y g de x ∈ X mediante f (x) yg(x) respectivamente. En particular, p(x |C), p(y |C),generalmente representan densidades de probabilidad delos vectores observables x e y en condiciones C, sinque esto sugiera que x e y tienen la misma distribución;análogamente, π(θ |D) y π(ω |D) generalmente repre-sentan densidades de probabilidad de los vectores in-observables θ y ω, dada la información proporcionadapor D. Si alguno de estos vectores aleatorios es dis-

Page 3: UN PROGRAMA DE SINTESIS PARA LA ENSE´ NANZA …bernardo/ProgSintesis.pdf · Vol. 95, N.os 1–2, pp 81–99, 2002 ... UN PROGRAMA DE SINTESIS PARA LA ENSE´ NANZA UNIVERSITARIA DE

José Miguel Bernardo Rev.R.Acad.Cienc.Exact.Fis.Nat. (Esp), 2002; 95 83

creto, se utiliza la misma notación para representar sucorrespondiente función de probabilidad. En aquellasocasiones en las que resulte conveniente distinguir entrela función de densidad y su valor en un punto, utilizare-mos respectivamente notaciones del tipo px(.) y px(x)o πθ(.) y πθ(θ). De forma general, representaremosmediante z ∈ Z al conjunto de todos los datos dispo-nibles, cualquiera que sea su estructura; por ejemplo,Pr(θ ∈ A |z, C) =

∫Aπ(θ |z, C) dθ representa la pro-

babilidad de que θ pertenezca a la regiónA ⊂ Θ, dadoslos datos z y las condiciones C. Finalmente, funcionesespecíficas de probabilidad o de densidad de probabi-lidad son representadas con nombres apropiados. Porejemplo, si x es normal con media µ y varianza σ2, sudensidad de probabilidad se escribe N(x | µ, σ2); si θtiene una distribución Beta con parámetros α y β, sudensidad de probabilidad se escribe Be(θ |α, β).

2 FUNDAMENTOS

En la primera parte del programa propuesto se des-arrollan, a nivel muy elemental, los fundamentos sobrelos que descansa la estadística matemática moderna. Enparticular, (i) se revisa el concepto de probabilidad, in-sistiendo en su doble interpretación (como medida ra-cional del grado de creencia en la ocurrencia de un su-ceso incierto condicionada a la información disponible,y como límite de frecuencias relativas), y se repasan losconceptos básicos de la teoría de la probabilidad; (ii)se introducen nociones elementales de la teoría de ladecisión, lo que proporciona una estructura teórica quepermite ordenar y sistematizar muchos de los concep-tos posteriores; finalmente, (iii) se introducen funcionesde pérdida especialmente útiles para la formulación delos problemas básicos de la estadística matemática, conespecial énfasis en las medidas de discrepancia entredistribuciones basadas en la teoría matemática de la in-formación.

2.1 Medida de Probabilidad

En este primer tema se pone de manifiesto que la in-terpretación del concepto de probabilidad que va a uti-lizarse responde exactamente al uso epistemológico delconcepto de probabilidad en el lenguaje cotidiano. Seinsiste en el hecho de que tal interpretación resulta ne-cesaria para poder abordar las numerosas aplicacionesreales en las que no existen ‘repeticiones bajo condi-ciones idénticas’ (predicciones electorales, diagnósticomédico automatizado, marketing, . . . ).

Se describe, sin demostraciones, como una formu-lación precisa de las propiedades exigibles a una medidaracional de la credibilidad de los sucesos inciertos per-mite demostrar que tal medida debe tener precisamentela estructura matemática de una medida de probabilidad.

Texto de la Pregunta

p1 R1=Respuesta 1p2 R2=Respuesta 2

. . . . . .pk Rk=Respuesta k

Figura 1. Estructura de una pregunta con un conjunto de k res-puestas posibles, mutuamente excluyentes, una de las cuales es co-rrecta. La contestación del alumno debe ser una distribución de pro-babilidad (grado racional de creencia) p1, . . . , pk sobre el conjuntoR1, . . . , Rk de las respuestas propuestas..

Se utilizan los cuestionarios de respuesta múltiplepara ilustrar (en un entorno bien conocido por los alum-nos) este concepto de probabilidad, destacándose que laúnica respuesta razonable a una pregunta con k respues-tas posibles mutuamente excluyentes (con una estructuracomo la de la Figura 1) es una distribución de probabi-lidad (que puede ser degenerada) p = p1, . . . , pk quedescriba el grado de creencia del alumno en cada unade las respuestas. Por ejemplo, un alumno que dude en-tre las dos primeras respuestas, pero que descarte todaslas demás, podría contestar especificando la distribuciónp = 0.5, 0.5, 0, . . . , 0.

Para motivar el concepto de la utilidad asociada a unapredicción probabilística p (que se discute en el temasiguiente), se plantea el problema de la calificaciónU (p, Rt) que debe merecer una respuesta probabilística

p = p1, p2, . . . , pk, pi ≥ 0,∑k

j=1pj = 1,

en función del resultado correcto, Rt.

Proporcionando ejemplos relevantes, se demuestraque la interpretación de la probabilidad como grado decreencia racional incluye, como casos particulares, lainterpretación clásica, basada en simetrías postuladas,y la interpretación frecuentista, basada en el límite defrecuencias relativas de sucesos que (supuestamente) tie-nen lugar en condiciones idénticas.

Se repasan (y se ilustran con ejemplos) los conceptosbásicos de teoría de probabilidad que van a resultar nece-sarios en la asignatura: cantidades y vectores aleatorios,funciones de distribución, funciones de probabilidad yde densidad de probabilidad, distribuciones marginales ycondicionales, esperanza matemática, momentos, cuan-tiles, y teoremas de cambio de variable.

Presentándolo como una aplicación de los teore-mas de cambio de variable, el tema concluye con ladescripción del algoritmo básico de simulación de ob-servaciones procedentes de una distribución conocidapor transformación (mediante la función inversa de sufunción de distribución) de observaciones uniformes enel intervalo unidad.

Page 4: UN PROGRAMA DE SINTESIS PARA LA ENSE´ NANZA …bernardo/ProgSintesis.pdf · Vol. 95, N.os 1–2, pp 81–99, 2002 ... UN PROGRAMA DE SINTESIS PARA LA ENSE´ NANZA UNIVERSITARIA DE

84 José Miguel Bernardo Rev.R.Acad.Cienc.Exact.Fis.Nat. (Esp), 2002; 95

2.2 Introducción a la Teoría de Decisión

La teoría de la decisión proporciona la estructura ade-cuada para comparar entre si distintos procedimientosestadísticos.

En este tema se describe la estructura básica de unproblema de decisión en ambiente de incertidumbre: elespacio de acciones alternativas A = ai, i ∈ I, losconjuntos de sucesos inciertos relevantes Θi, i ∈ I,con Θi = θij , j ∈ Ji, y el conjunto de consecuenciasposibles C = cij = (ai, θij), i ∈ I, j ∈ Ji.

Se establece una analogía con la geometría euclídeapara establecer un conjunto de postulados que definanel concepto de decisión racional, y se argumentan lasventajas de disponer de un sistema axiomático que, comoen la geometría euclídea, permita la deducción coherentede resultados.

Se describe, sin intentarse una definición formal, elcontenido intuitivo de los axiomas básicos de comporta-miento coherente (comparabilidad, transitividad, consis-tencia y existencia de sucesos estándard) y se enunciansus consecuencias fundamentales: para tomar decisio-nes de forma coherente, es necesario:

(i) Establecer medidas de crediblidad para los dis-tintos sucesos inciertos relevantes, que deben te-ner la estructura matemática de distribuciones deprobabilidad condicionales a los datos disponi-bles z, de forma que, ∀i ∈ I ,

∃ Pr(θij | ai,z) ≥ 0;∑

j∈JiPr(θij | ai,z) = 1.

(ii) Establecer una función de utilidadU (ai, θij) ∈ ,de forma que U (ai, θij) que describa, en unida-des apropiadas, la deseabilidad de la consecuenciacij = (ai, θij) a la que conduciría la alternativa aisi tuviese lugar el suceso θij .

(iii) Medir el valor esperado de una alternativa aimediante su utilidad esperada U (ai |z), definidacomo la media de las utilidades U (ai, θij) a quepodría dar lugar, ponderada por sus respectivasprobabilidades Pr(θij | ai,z), de forma que

U (ai |z) =∑

j∈JiU (ai, θij) Pr(θij | ai,z).

Finalmente, se introduce el concepto de función depérdida L(ai, θij), definida como la pérdida de utilidadque se sufriría eligiendo ai si sucediese θij , en lugar de laacción a∗j = supk∈IU (ak, θij) que hubiera resultadoóptima en ese caso, es decir

L(ai, θij) = U (a∗j , θij)− U (ai, θij).

Se demuestra, que con esta definición, la acción que ma-ximiza la utilidad esperada es necesariamente la mismaacción que minimiza la pérdida esperada.

El tema concluye reformulando los resultados ante-riores para el caso en el que los sucesos inciertos rele-vantes son vectores aleatorios continuos de forma que,por ejemplo, la acción óptima a∗(z) viene dada por

a∗(z) = arg maxai∈A

∫Θ

U (ai,θ)π(θ |z) dθ

= arg minai∈A

∫Θ

L(ai,θ)π(θ |z) dθ.

2.3 Medidas de Información y de Discrepancia

Se retoma el ejemplo proporcionado por los cuestio-narios de respuesta múltiple para introducir el conceptode la utilidad U (px(.), x) de la predicción probabilísticaproporcionada por una función de probabilidad px(.) so-bre los posibles valores de una cantidad aleatoria obser-vable en función del valor x finalmente observado. Sedemuestra que, bajo hipótesis razonables, una soluciónapropiada resulta ser de la forma

U (px(.), xi) = A log px(xi) +B, A > 0.

En particular, se describe el comportamiento de lafunción

U (p1, . . . , pk, Rt) = 1− log(pt)log(1/k)

, pi = Pr(Ri),

para especificar la calificación merecida por una res-puesta p1, . . . , pk en función del resultado correctoRt. Se comprueba que esta función asocia el valor uni-dad a una respuesta perfecta (pt = 1, pj = 0,∀j = t)y el valor cero a la falta total de información, con-vencionalmente descrita por una distribución uniformep = 1/k, . . . , 1/k, con lo que (necesariamente) aso-cia valores negativos a los disparates (las respuestas queasignan probabilidades altas a respuestas incorrectas).

Formalmente, el incremento de utilidad que puedeesperarse de una predicción p1, . . . , pk, sobre el va-lor de una variable aleatoria x con un número finitox1, . . . , xk de valores posibles, pi = Pr(x = xi), defi-nido como el incremento de utilidad que puede esperarsede una predicción p1, . . . , pk por encima de una pre-dicción trivial 1/k, . . . , 1/k, resulta ser:

k∑i=1

[U (p1, . . . , pk, xi)− U (1/k, . . . , 1/k, xi)] pi

= Ak∑i=1

pi logpi

1/k, A > 0,

Page 5: UN PROGRAMA DE SINTESIS PARA LA ENSE´ NANZA …bernardo/ProgSintesis.pdf · Vol. 95, N.os 1–2, pp 81–99, 2002 ... UN PROGRAMA DE SINTESIS PARA LA ENSE´ NANZA UNIVERSITARIA DE

José Miguel Bernardo Rev.R.Acad.Cienc.Exact.Fis.Nat. (Esp), 2002; 95 85

lo que constituye una medida de la cantidad de infor-mación sobre el valor de la variable aleatoria discreta xque contiene la predicción p1, . . . , pk, tomando comoorigen la distribución uniforme 1/k, . . . , 1/k.

En general, dado un vector aleatorio x ∈ X , la canti-dad de información sobre x contenida en una densidadde probabilidad px(·), tomando como origen otra densi-dad qx(·), se define como

Kqx(.) | px(.) =∫Xpx(x) log

px(x)qx(x)

dx,

una cantidad no-negativa e invariante ante transforma-ciones biyectivas de x, conocida como la divergencialogarítmica de qx(·) a px(·). Se describe cómo la teoríamatemática de la información proporciona una interpre-tación operativa de la divergencia logarítmica introdu-cida en términos de las unidades de información (bits sise utilizan logaritmos de base 2) necesarias para ob-tener px(·) a partir de qx(·). Se subraya que no setrata de una función simétrica de forma que, en gene-ral,Kq | p = Kp | q.

0.05 0.1 0.15 0.2

0.005

0.01

0.015

0.02 δn, θ = δBi(x |n, θ), Pn(x |nθ) n = 1

n = 2

n = 5

n = 1000

θ

Figura 2. Discrepancia intrínseca δ(n, θ) entre una distribuciónBinomial Bi(x |n, θ) y una Poisson Pn(x |nθ) como función de θ,para n = 1, 2, 5 y 1000.

La divergencia logarítmica permite definir una me-dida general de discrepancia (simétrica) entre dos dis-tribuciones de probabilidad, la discrepancia intrínseca,definida por

δpx(.), qx(.)

= min

[Kpx(.) | qx(.), Kqx(.) | px(.)

].

Por ejemplo, la Figura 2 representa la discrepanciaintrínseca entre una distribución binomial Bi(x | θ, n) yuna Poisson Pn(x |nθ), poniéndose de manifiesto quela condición realmente importante para que la aproxi-mación funcione bien es que θ sea pequeño.

Si x ∈ X es un vector aleatorio de cuya funciónde densidad de probabilidad se sabe que es p1(x) op2(x), entonces la discrepancia intrínseca δp1, p2 esel mínimo valor esperado del logaritmo del cociente dedensidades

log

[pi(x)pj(x)

]en favor de la densidad verdadera. En particular, si p1(z)y p2(z) son modelos alternativos para un conjunto de da-tos z ∈ Z y se supone que uno de ellos es cierto, enton-ces δp1, p2 es el mínimo valor esperado del logaritmodel cociente de verosimilitudes en favor del modelo ver-dadero; este resultado es importante en el contexto delproblema de contraste de hipótesis (Sección 4.4).

La discrepancia intrínseca permite definir un tipo deconvergencia entre distribuciones de probabilidad espe-cialmente útil en estadística matemática, la convergen-cia intrínseca. Se dice que una sucesión de densida-des de probabilidad (funciones de probabilidad) pi∞i=1converge intrínsecamente a una densidad (función deprobabilidad) p cuando la sucesión (de números realespositivos) δpi, p∞i=1 converge a cero:

δ lim pi = p ⇐⇒ limi→∞

δpi, p = 0.

La dependencia intrínsecaD(pxy) entre dos vectoresaleatorios, x ∈ X , y ∈ Y con densidad de probabili-dad conjunta pxy(·, ·) se define como la discrepanciaintrínseca entre su distribución conjunta y el productopx(·) py(·) de sus distribuciones marginales, esto es

D(pxy) = δpxy, pxpy= minKpxpy | pxy,Kpxy | pxpy= Kpxpy | pxy

=∫XYpxy(x,y) log

pxy(x,y)px(x)py(y)

dxdy,

(con sumas en lugar de integrales en el caso discreto),y proporciona una medida general (no-negativa e in-variante frente a biyecciones) de la dependencia entredos vectores aleatorios que se anula si, y sólamente si,los vectores son independientes. Cuando la distribuciónconjunta es normal bivariante se obtiene una sencillafunción del coeficiente de correlación lineal:

D

N2

(xy

) ∣∣∣∣ (µ1µ2

),

(σ2

1 ρσ1σ2

ρσ1σ2 σ22

)

= log

[1√

1− ρ2

].

Finalmente, la discrepancia entre dos conjuntos dedistribuciones de probabilidad se define como la dis-crepancia intrínseca mínima entre elementos de am-bos conjuntos. En particular, la discrepancia intrínseca

Page 6: UN PROGRAMA DE SINTESIS PARA LA ENSE´ NANZA …bernardo/ProgSintesis.pdf · Vol. 95, N.os 1–2, pp 81–99, 2002 ... UN PROGRAMA DE SINTESIS PARA LA ENSE´ NANZA UNIVERSITARIA DE

86 José Miguel Bernardo Rev.R.Acad.Cienc.Exact.Fis.Nat. (Esp), 2002; 95

δ(M1,M2) entre dos familias de modelos probabilísticosparamétricos definidos para x ∈ X ,

M1 = p(x |θ),θ ∈ Θ, M2 = q(x |φ),φ ∈ Φ,

viene dada por

δM1,M2 = infθ∈Θ,φ∈Φ

δpx(. |θ), qx(. |φ),

lo que, como se verá mas adelante, encuentra aplica-ciones inmediatas en la formalización de los problemasconvencionales de estimación puntual y de contraste dehipótesis.

3 MODELOS PROBABILISTICOS

En la segunda parte del programa propuesto se intro-duce el concepto básico de intercambiabilidad, lo quepermite una definición formal de modelo probabilístico yuna definición operativa de sus parámetros. Se introduceel concepto de muestra aleatoria, se utiliza el procedi-miento de simulación descrito en la primera parte parasimular muestras aleatorias de un modelo probabilísticode parámetros conocidos, y se introduce el concepto dedistribución en el muestreo. Se define y se estudia condetalle la función de verosimilitud. Finalmente, se de-fine el concepto de suficiencia, y se introduce la familiaexponencial de distribuciones.

3.1 Intercambiabilidad e IndependenciaCondicional

En este tema se formaliza la idea intuitiva de obser-vaciones ‘homogéneas’ que resulta central a cualquierintento de razonamiento inferencial: un conjunto devectores aleatorios x1, . . . ,xn es intercambiable sisu distribución conjunta es invariante ante permutacio-nes, de forma que el orden en el que son observadoslos vectores no proporciona información alguna sobresu comportamiento. Una sucesión de vectores aleato-rios es intercambiable si cualquiera de sus subconjuntosfinitos es intercambiable.

Se insiste en que los resultados experimentales suelenestar constituidos por grupos de observaciones intercam-biables, pero muy rara vez independientes. En efecto,frecuentemente p(x1,x2) = p(x2,x1) (i.e. x1 y x2 sonintercambiables), pero x1 típicamente proporciona in-formación sobre x2, de forma que p(x2 |x1) = p(x2),con lo que x1 y x2 no son independientes.

Se enuncia (sin demostración) el teorema general derepresentación (que, lamentablemente, no suele ser in-cluido en los programas de teoría de probabilidad):

Si xj∞j=1 es una sucesión intercambiable de vectoresaleatorios, xj ∈ X , entonces

(i) ∃ gn(·); θ = limn→∞ gn(x1,x2, . . . ,xn),θ ∈ Θ, (parámetro)

(ii) ∃ p(x |θ) > 0,∫X p(x |θ) dx = 1,

(modelo probabilístico)

(iii) ∃ π(θ) > 0,∫Θπ(θ) dθ = 1,

(distribución inicial)

y la distribución conjunta p(x1, . . . ,xn) de cualquiersubconjunto finito x1, . . . ,xn de la sucesión tiene unarepresentación integral de la forma

p(x1, . . . ,xn) =∫

Θ

n∏i=1

p(xi |θ)π(θ) dθ.

Consecuentemente, si los datos son intercambiables, en-tonces son condicionalmente independientes, de formaque

p(x1, . . . ,xn |θ) =∏n

i=1p(xi |θ).

Más precisamente, si x1, . . . ,xn son observacionesintercambiables, entonces constituyen una muestra alea-toria de algún modelo probabilístico p(x |θ),θ ∈ Θ,cuyo parámetro θ es el límite (cuando n → ∞) dealguna función gn(x1, . . . ,xn) de las observaciones.Por ejemplo, en el caso de observaciones Bernoulli, elparámetro θ se define como el límite de la frecuenciarelativa de éxitos. De forma análoga, en el caso normalel parámetro de localización µ se define como el límitede la media aritmética de las observaciones.

Además, la información de que se dispone sobre elvalor del parámetroθ debe ser descrita mediante una me-dida de probabilidad π(θ), la distribución inicial, cuyaexistencia garantiza el teorema. Consecuentemente,siempre que se trabaje con observaciones intercambia-bles (y cualquier muestra aleatoria es necesariamenteintercambiable), la frase (desgraciadamente demasiadofrecuente) ‘no existe una distribución inicial sobre losparámetros’ es sencillamente incompatible con la teoríamatemática de la probabilidad.

Se subraya que el teorema de representación esbásicamente un teorema de existencia: demuestra laexistencia de p(x |θ) y de π(θ), pero tanto el modeloprobabilístico p(x |θ) como la distribución inicial π(θ)deben ser explícitamente determinados.

Se menciona la posibilidad de caracterizar el mo-delo probabilístico a partir de la intercambiabilidad y decondiciones adicionales; en particular, se cita que (su-poniendo que los xi son intercambiables):

Page 7: UN PROGRAMA DE SINTESIS PARA LA ENSE´ NANZA …bernardo/ProgSintesis.pdf · Vol. 95, N.os 1–2, pp 81–99, 2002 ... UN PROGRAMA DE SINTESIS PARA LA ENSE´ NANZA UNIVERSITARIA DE

José Miguel Bernardo Rev.R.Acad.Cienc.Exact.Fis.Nat. (Esp), 2002; 95 87

(i) si xi ∈ 0, 1k, entonces el modelo es multino-mial (binomial para k = 1), y que

(ii) si x ∈ k y existe simetría esférica centrada, en-tonces el modelo es normal k-variante.

Se adelanta que la especificación de una distribucióninicial que no introduzca información adicional es po-sible a partir a la teoría matemática de la información,mediante un algoritmo que será descrito más adelante.

Para los detalles técnicos relativos a este tema elalumno es referido tanto a las fuentes originales (de Fi-netti, 1937; Hewitt & Savage, 1955) como a descripcio-nes más recientes (Lindley & Phillips, 1976; Bernardo& Smith, 1994, Cap. 4).

3.2 Función de Verosimilitud

De forma general, se define la función de verosi-militud l(θ |z) correspondiente a un conjunto de datosz ∈ Z cuya distribución conjunta depende de θ, comola densidad de probabilidad (función de probabilidadcon datos discretos) l(θ |z) = p(z |θ) asociada a losdatos observados z como función del valor (descono-cido) del vector paramétrico θ. En particular, para datosintercambiables z = x1, . . . ,xn, Z = Xn, resultal(θ |z) =

∏i p(xi |θ).

Se introduce de forma intuitiva el concepto de es-timador puntual como el de una función de los datosθe = θe(z) que presumiblemente aproxima el verda-dero (y desconocido) valor del parámetro (la definiciónformal de estimador se presenta en la tercera parte delprograma). Se define un estimador máximo-verosímil,

θ = θ(z) = arg maxθ∈Θ

l(θ |z),

y se analizan, con ejemplos, las condiciones de su exis-tencia y unicidad. Se destaca que se trata de un conceptoinvariante: el estimador máximo-verosímil φ de cual-quier transformación biyectiva del parámetroφ = φ(θ),es simplemente φ(θ).

La evidente variabilidad del estimador θ(z) en fun-ción de los datos observados z ∈ Z se utiliza para mo-tivar y definir la distribución en el muestreo p(t |θ) deuna función de los datos t = t(z) como la distribuciónde t (condicional a θ) que resulta inducida por p(z |θ).

Particularizando al caso univariante, se introduce lafunción de soporte (‘score’), como la derivada del lo-garitmo de la función de verosimilitud con respecto alparámetro, considerada como función de los datos,

sθ(z) =∂

∂θlog p(z | θ), z ∈ Z,

y se demuestra que su distribución en el muestreo tienemedia cero y que, bajo condiciones de regularidad, suvarianza es∫

Zp(z | θ)

[∂

∂θlog p(z | θ)

]2

dz

= −∫Zp(z | θ) ∂

2

∂θ2log p(z | θ) dz = h(θ),

donde h(θ) es la función de información de Fisher co-rrespondiente a p(z | θ). Consecuentemente, la funciónde soporte normalizada, sθ(z)/

√h(θ), tiene una distri-

bución en el muestreo de media cero y varianza unidadlo que, como se verá más adelante, resulta especialmenteútil para obtener resultados inferenciales aproximados.

El concepto de distribución bajo muestreo repetidoes ilustrado con ejemplos construidos con datos simula-dos, analizándose las distribuciones en el muestreo delestimador máximo-verosímil y de la función de soportenormalizada y las distribuciones en el muestreo de losextremos (máximo y mínimo). Se estudia asimismo lavariabilidad en el muestreo de la propia función de ve-rosimilitud.

El tema concluye justificando la observación empíri-ca (por simulación) del frecuente comportamiento apro-ximadamente normal de la distribución en el muestreodel estimador máximo-verosímil.

Utilizando el desarrollo en serie de Taylor de lafunción de verosimilitud, l(θ | z), θ ∈ Θ ⊂ , alrededorde θ(z), se pone de manifiesto que, en el caso de unamuestra aleatoria z = x1, . . . ,xn y bajo condicionesde regularidad apropiadas,

(i) La distribución en el muestreo de θ, el estima-dor máximo verosímil, converge asintóticamentea una distribución normal con media θ y precisiónn i(θ), donde i(θ) es la función de información deFisher correspondiente a p(x | θ).

(ii) La distribución en el muestreo de sθ(z)/√n i(θ),

la función de soporte normalizada, converge asin-tóticamente a una distribución normal estándar.

Finalmente se menciona (sin demostración) la formamultivariante del comportamiento asintótico de la dis-tribución en el muestreo de θ(z),

p(θ |θ) ≈ Nkθ |θ, [nI(θ)]−1,donde I(θ) es la matriz de información de Fisher corres-pondiente a p(x |θ), con elemento general

Iij(θ) = −∫Xp(x |θ)

∂2

∂θi∂θjlog p(x |θ) dx.

Page 8: UN PROGRAMA DE SINTESIS PARA LA ENSE´ NANZA …bernardo/ProgSintesis.pdf · Vol. 95, N.os 1–2, pp 81–99, 2002 ... UN PROGRAMA DE SINTESIS PARA LA ENSE´ NANZA UNIVERSITARIA DE

88 José Miguel Bernardo Rev.R.Acad.Cienc.Exact.Fis.Nat. (Esp), 2002; 95

3.3 Suficiencia y Familia Exponencial

Argumentando una deseable reducción en la dimen-sionalidad de los datos, en este tema se introduce elconcepto de estadístico suficiente, definiéndolo directa-mente como una función de los datos t = t(z) tal que lafunción de verosimilitud admite una factorización de laforma

l(θ |z) = f (t,θ) g(z).

Se introduce el concepto de estadístico minimal sufi-ciente, se introduce el estadístico de orden, y se ana-lizan ejemplos escogidos para estudiar las condicionesde existencia y unicidad de un estadístico minimal sufi-ciente.

Se introduce la familia exponencial regular de distri-buciones y se comprueba que contiene a la mayor partede los modelos probabilísticos más comunes. Se de-muestra que cualquier elemento de esa familia tiene unestadístico suficiente de dimensión finita e independientedel tamaño muestral y se menciona (sin demostración),que el recíproco también es cierto: las únicas distri-buciones con estadístico suficiente de dimensión finitaindependiente del tamaño muestral son las de la familiaexponencial.

Finalmente, se mencionan las extensiones a familiasexponenciales no regulares. Para los detalles técnicos,el alumno es referido a la monografía de Huzurbazar(1976).

4 INFERENCIA: METODOS BAYESIANOSOBJETIVOS

La tercera parte del programa describe el procesode aprendizaje sobre los verdaderos valores de losparámetros, y su uso para predecir el comportamientode nuevas observaciones, en términos del paradigma ba-yesiano. Con objeto de obtener resultados directamenteutilizables en el contexto de la investigación científicase utilizan exclusivamente distribuciones iniciales ob-jetivas, definidas a partir del modelo probabilístico su-puesto mediante el uso de la teoría matemática de lainformación. En particular, se proporcionan solucionesbayesianas objetivas para los problemas convencionalesde estimación puntual, de estimación por intervalos yde contraste de hipótesis, cuyo comportamiento en elmuestreo será analizado en la cuarta parte del programa.

4.1 El Paradigma Bayesiano

Formalmente, los métodos bayesianos de inferenciaestadística son simplemente una aplicación de la teoríade la probabilidad; resulta asi apropiado que muchosde los textos clásicos de inferencia bayesiana, como los

de Laplace (1812), Jeffreys (1939) o de Finetti (1970),lleven como título ‘Teoría de la Probabilidad’.

Dado un conjunto de datos z ∈ Z cuyo comporta-miento probabilístico se asume descrito por un modelop(z |θ),θ ∈ Θ, y determinada una distribución ini-cial para el parámetro π(θ), el teorema de Bayes (dedonde el paradigma toma su nombre) especifica que todala información disponible sobre el valor de θ está con-tenida en su distribución final,

π(θ |z) =p(z |θ)π(θ)∫

Θp(z |θ)π(θ) dθ

.

Los problemas residen en:

(i) la elección de un modelo probabilístico adecuadop(z |θ),θ ∈ Θ, y

(ii) la especificación de la distribución inicial π(θ).

La elección del modelo probabilístico es un problemacomplejo, cualquiera que sea la postura adoptada anteel problema de inferencia. La elección del modelotípicamente depende tanto de un análisis descriptivo delos datos disponibles como de una interpretación con-textual de su comportamiento, y su construcción no serátratada en este programa.

Naturalmente, cualquier resultado inferencial es con-dicional al modelo supuesto. Se menciona, sin embargo,que el análisis crítico de un modelo específico es posi-ble en el contexto del problema de contraste de hipótesis,descrito en la Sección 4.4. Finalmente se adelanta que,en los métodos bayesianos objetivos, la distribución ini-cial es una función del modelo probabilístico supuesto,llamada la distribución inicial de referencia, y descritaen el tema siguiente.

En el resto de este tema se describe el mecanismodel proceso de aprendizaje bayesiano, dados un modelop(z |θ) y a una distribución inicial π(θ). En particular,

(i) se describe el uso de la forma proporcional delteorema de Bayes

π(θ |z) ∝ p(z |θ) π(θ), θ ∈ Θ;

(ii) se considera el caso en el que el contexto del pro-blema permite restringir los valores posibles delparámetro a un subconjunto Θ0 ⊂ Θ del espaciooriginal justificándose que

π(θ | z, θ ∈ Θ0) =

π(θ |z)∫Θ0

π(θ |z) dθ, si θ ∈ Θ0

0, si θ /∈ Θ0;

Page 9: UN PROGRAMA DE SINTESIS PARA LA ENSE´ NANZA …bernardo/ProgSintesis.pdf · Vol. 95, N.os 1–2, pp 81–99, 2002 ... UN PROGRAMA DE SINTESIS PARA LA ENSE´ NANZA UNIVERSITARIA DE

José Miguel Bernardo Rev.R.Acad.Cienc.Exact.Fis.Nat. (Esp), 2002; 95 89

(iii) se considera el caso en el que el vector θ se des-compone en la forma θ = (φ,ω), donde φ es elparámetro de interés y ω un parámetro marginal,y se define la distribución final del parámetro deinterés,

π(φ |z) =∫

Ω

π(φ,ω |z) dω

∝ π(φ)∫

Ω

p(z |φ,ω)π(ω |φ) dω.

Se considera además el caso particular en que losdatos z constituyen una muestra aleatoria

z = x1, . . . ,xnde una distribución p(x |θ), de forma que

p(z |θ) =∏i

p(xi |θ),

y se describe la distribución predictiva p(x |x1, . . . ,xn)de una observación futura, dada por

p(x |x1, . . . ,xn) =∫

Θ

p(x |θ)π(θ |x1, . . . ,xn) dθ.

Los conceptos descritos son ilustrados con distintosejemplos elementales, insistiéndose en el contenido in-tuitivo de las representaciones gráficas correspondien-tes. La Figura 3, por ejemplo, describe la distribuciónfinal y la distribución predictiva correspondientes a unamuestra de 25 observaciones simuladas a partir de unadistribución exponencial de parámetro θ = 0.5.

En todos los casos se utilizan como distribucionesiniciales las correspondientes funciones de referencia(por ejemplo π∗(θ) = θ−1 en el caso exponencial), quese justifican en el tema siguiente.

El tema concluye con una descripción del compor-tamiento asintótico de la distribución final cuando losdatos constituyen una muestra aleatoria de gran tamaño.En particular, se esquematiza la demostración de los dosresultados más importantes:

(i) Parámetro discreto θ, con espacio paramétrico nu-merable, Θ = θ1,θ2, . . ., que incluye al verda-dero valor θt. En este caso,

limn→∞

Pr[θ = θt |x1, . . . ,xn] = 1,

limn→∞

Pr[θ = θj |x1, . . . ,xn] = 0, ∀θj = θt.

(ii) Parámetro continuo, θ ∈ Θ ⊂ k. En este caso,para n grande y p(x |θ) suficientemente regular,

π(θ |x1, . . . ,xn) ≈ Nk(θ | θ, [nI(θ)]−1),donde I(θ) es la matriz de Fisher correspondientea p(x |θ).

0.2 0.4 0.6 0.8 1 1.2 1.4

0.5

1

1.5

2

2.5

3

3.5

π(θ |z)

θ

2 4 6 8 10 12

0.1

0.2

0.3

0.4

0.5

0.6

π(x |z)

x

Figura 3. A partir de una muestra aleatoria z = x1, . . . , xn de 25observaciones cuya suma es

∑ixi = 41.57, simuladas de una distri-

bución exponencial con θ = 0.5, se representa (i) la distribución finalde θ, con indicación del estimador intrínseco, θ∗ = 0.59, y de la regiónintrínseca 0.95-creíble, [0.40, 0.88], y (ii) la distribución predictiva deuna observación futura x, sobreimpuesta a un histograma de los datosy al modelo correcto, una densidad exponencial con parámetro θ = 0.5(representada con una línea discontinua).

4.2 Distribuciones de Referencia

En este tema se motiva la necesidad de disponer de un‘origen’ para el conjunto de distribuciones iniciales, deuna función que formalmente actúe como distribucióninicial, y que proporcione un contenido matemático pre-ciso a la idea de que no se dispone de información inicialalguna sobre el parámetro de interés.

Se considera en primer lugar el caso univariante, deforma que θ ∈ Θ ⊂ . Se describe como la teoríamatemática de la información (Shannon, 1948) define lacantidad de información

IθZ, πθ(.) =∫Zp(z)

∫Θ

π(θ | z) logπ(θ |z)π(θ)

dθdz,

que puede esperarse de un conjunto de datos z ∈ Z so-bre el valor de un parámetro θ. Se trata de una medida

Page 10: UN PROGRAMA DE SINTESIS PARA LA ENSE´ NANZA …bernardo/ProgSintesis.pdf · Vol. 95, N.os 1–2, pp 81–99, 2002 ... UN PROGRAMA DE SINTESIS PARA LA ENSE´ NANZA UNIVERSITARIA DE

90 José Miguel Bernardo Rev.R.Acad.Cienc.Exact.Fis.Nat. (Esp), 2002; 95

de la información que pueden proporcionar los datos,que depende de la información inicial de que se dis-ponga sobre el valor de θ, descrita por su distribucióninicial πθ(.).

Se pone de manifiesto que tal medida no es más que ladiscrepancia intrínseca entre la distribución conjunta dez y de θ y el producto de sus distribuciones marginales,es decir su dependencia intrínseca

IθZ, πθ(.) = δpzθ, pzπθ = D(pzθ).

Se indica que, si se replicase indefinidamente el ex-perimento original (que consiste en observar z ∈ Z),se terminaría conociendo el verdadero valor del pará-metro θ; consecuentemente, la información proporcio-nada pork réplicas condicionalmente independientes delmismo experimento, esto es, IθZk, πθ(.) convergerá,cuando k →∞, a la cantidad de información descono-cida sobre θ cuando la distribución inicial es π(θ).

La distribución inicial de referencia π∗(θ) es aquéllaque maximiza la cantidad de información desconocida,y la distribución final de referencia π∗(θ |z) es la queresulta de aplicar el teorema de Bayes.

Formalmente, siP es el conjunto de las distribucionesiniciales de θ compatibles con el problema de inferenciaplanteado,

π∗(θ |z) ∝ p(z | θ)π∗(θ),π∗(θ |z) = δ limπ(k)(θ |z),

π(k)(θ |z) ∝ p(z | θ)π(k)(θ),

π(k)θ (·) = arg sup

πθ(·)∈PIθZk, πθ(·).

Se enuncian, sin demostración, los dos resultados másimportantes del análisis de referencia:

(i) Caso discreto finito. Si Θ = θ1, . . . , θm,

limk→∞

IθZk, πθ(·) = −∑m

j=1πθ(θj) logπθ(θj);

consecuentemente, la distribución de referencia

π∗(θ) = arg supπθ(.)∈P

−∑m

j=1πθ(θj) logπθ(θj),

es la distribución de máxima entropía (uniformesi no existen restricciones adicionales).

(ii) Caso continuo. Si Θ ⊂ , existe un estimadorθ consistente, asintóticamente suficiente y no hayrestricciones adicionales,

π∗(θ) ∝ π(θ | θ)|θ=θ,

donde π(θ | θ) es una aproximación asintóticacualquiera a la distribución final. En particular,si π(θ | θ) es normal, entonces la distribución ini-cial de referencia es

π∗(θ) ∝ i(θ)1/2

donde i(θ) es la función de información de Fisher.Consecuentemente, la distribución de referenciaconincide en este caso con distribución inicial deJeffreys.

El tema concluye describiendo el algoritmo que per-mite obtener distribuciones de referencia en problemasmultivariantes.

En primer lugar, se detalla la forma en la que el pro-blema bivariante, p(z |φ, ω) puede reducirse a la apli-cación sucesiva, en dos etapas, del algoritmo univa-riante:

(i) condicionando a φ (con lo que se trabaja con unúnico parámetro ω) se determina directamente ladistribución de referencia π∗(ω |φ) del parámetromarginal condicionado al parámetro de interés;

(ii) obteniendo el modelo integrado

p(z |φ) =∫

Ω

p(z |φ, ω)π∗(ω |φ) dω,

(que ya no depende de ω) se determina la distri-bución marginal de referenciaπ∗(φ) del parámetrode interés,

(iii) finalmente, la distribución conjunta de referenciacuandoφ es el parámetro de interés se define comoπ∗φ(φ, ω) = π∗(ω |φ)π∗(φ).

El procedimiento se generaliza inmediatamente alcaso multivariante, con vector paramétrico

θ = θ1, . . . , θk ∈ Θ ⊂ k,

mediante un algoritmo secuencial que permite obtener

π∗(θk | θ1, . . . , θk−1)× · · · × π∗(θ2 | θ1)π∗(θ1)

como la distribución inicial de referencia para la para-metrización ordenada θ1, . . . , θk.

La teoría general se ilustra con el ejemplo para-digmático proporcionado por las distribuciones de re-ferencia correspondientes al caso de una distribuciónnormal con ambos parámetros desconocidos. Para unaintroducción sencilla al análisis bayesiano de referencia,el alumno es referido a Bernardo & Ramón (1998).

Page 11: UN PROGRAMA DE SINTESIS PARA LA ENSE´ NANZA …bernardo/ProgSintesis.pdf · Vol. 95, N.os 1–2, pp 81–99, 2002 ... UN PROGRAMA DE SINTESIS PARA LA ENSE´ NANZA UNIVERSITARIA DE

José Miguel Bernardo Rev.R.Acad.Cienc.Exact.Fis.Nat. (Esp), 2002; 95 91

4.3 Estimación

El ‘estimador’ bayesiano de θ es su distribución fi-nal πθ(· |z). Sin embargo, con objeto de facilitar lacomprensión del contenido inferencial de πθ(. |z), esconveniente determinar medidas de localización de θ(estimación puntual) y regiones del espacio paramétricoa las que θ probablemente pertenece (estimación porintervalos).

Entre las numerosas medidas de localización posi-bles, se destacan, por su facilidad de cálculo y de inter-pretación, la media y la moda de la distribución final;se discuten sus condiciones de existencia y unicidad,y se analiza su robustez frente a pequeñas variacionesen los datos. Se pone de manifiesto sin embargo quetales procedimientos de estimación no son invariantes:ni la media ni la moda de una transformación biyec-tiva del parámetro φ = φ(θ) coinciden, en general, conlos valores transformados de la media y la moda de θ.Se destaca que, en problemas univariantes, la medianade la distribución final resulta preferible (es invariantey es más robusta frente a pequeñas variaciones en losdatos), pero no resulta fácilmente generalizable a pro-blemas multivariantes.

Con respecto a la estimación por intervalos se de-fine una región de confianza p-creíble Cθp (z) como unsubconjunto cualquiera del espacio paramétrico con pro-babilidad final p, de forma que

Cθp (z) ⊂ Θ,∫Cθp (z)

π(θ |z) dθ = p.

Se destaca que se trata de un concepto invariante: paracualquier transformación biyectiva del parámetro φ =φ(θ), Cφp = φ(Cθp ) es una región de confianza p-creíblepara φ.

Se pone de manifiesto que, en general, existen infini-tas regiones p-creíbles y se mencionan, por su facilidadde interpretación, las regiones de máxima densidad finalde probabilidad, comentándose que son frecuentementeúnicas para una determinada parametrización, pero quela propiedad de máxima densidad de probabilidad fi-nal no es invariante ante transformaciones biyectivas delparámetro.

El tema concluye con una descripción del problemade estimación en términos de la teoría de la decisión, loque permite definir la solución óptima correspondientea un sistema de preferencias determinado.

Formalmente, un problema de estimación puntual,es un problema de decisión en el que el conjunto dealternativas coincide con el espacio paramétrico. Parauna función de pérdida L(θe,θ) que describe las conse-cuencias de utilizar un estimadorθe cuando el verdadero

valor del parámetro es θ, el estimador Bayes θb(z) esaquél que minimiza la pérdida esperada; formalmente,

θb(z) = arg minθe∈Θ

∫Θ

L(θe,θ)π(θ | z) dθ.

Se demuestra que la media y la moda finales sonlas soluciones que respectivamente corresponden a lasfunciones de pérdida cuadrática y dicotómica límite yque, en el caso univariante, la mediana corresponde auna función lineal a trozos y simétrica.

Se pone de manifiesto que el uso de funciones depérdida invariantes garantiza la obtención de estimado-res invariantes. En particular, se define el estimadorintrínseco θ∗(z) como el estimador Bayes correspon-diente a la función de pérdida intrínseca (cf. Sección 2.3),esto es el que minimiza la pérdida intrínseca esperadacon respecto a la distribución de referencia,

d(θe |z) =∫

Θ

δθe,θπ∗(θ |z) dθ,

dondeδθe,θ = δpz(. |θe), pz(. |θ)

denota la discrepancia intrínseca entre los dos modelosp(z |θe) y p(z |θ), respectivamente identificados por θe

y por θ.

El tema concluye describiendo la construcción de re-giones creíbles invariantes (generalmente únicas) a partirde la pérdida intrínseca esperada. En efecto, para cual-quier conjunto de datos z ∈ Z , el conjunto Cd(z) ⊂ Θde valores de θe para los que la pérdida intrínseca es-perada es menor que una determinada constante d, estoes,

Cd(z) = θe ∈ Θ; d(θe |z) ≤ dconstituye una región invariante ante transformacionesbiyectivas de θ y, bajo condiciones muy generales, laconstante d puede ser elegida con la condición de que laprobabilidad final de que θ pertenezca a Cd(z) sea unvalor cualquiera p ∈ (0, 1).

Formalmente, una región intrínseca p-creíble es unsubconjuntoC∗p (z) ⊂ Θ del espacio paramétrico tal que∫

C∗p (z)π(θ |z) dθ = p,

y para todo θi /∈ C∗p (z) existe un θj ∈ C∗p (z) tal que

d(θj | z) < d(θi | z).

En la Figura 4 se representa la función de pérdidaintrínseca esperada d(θe |z) correspondiente a unamuestra aleatoria de 25 observaciones exponenciales, yse indican tanto el estimador intrínseco como la regiónintrínseca 0.95-creíble. Para los detalles técnicos refe-rentes a la estimación intrínseca, el alumno es referidoa Bernardo & Juárez (2003).

Page 12: UN PROGRAMA DE SINTESIS PARA LA ENSE´ NANZA …bernardo/ProgSintesis.pdf · Vol. 95, N.os 1–2, pp 81–99, 2002 ... UN PROGRAMA DE SINTESIS PARA LA ENSE´ NANZA UNIVERSITARIA DE

92 José Miguel Bernardo Rev.R.Acad.Cienc.Exact.Fis.Nat. (Esp), 2002; 95

0.2 0.4 0.6 0.8 1 1.2 1.4

1

3

5

d(θe | z)

θe

R1 Cθp R2

Figura 4. Función de pérdida esperada intrínseca correspon-diente a los datos exponenciales analizados en la Figura 3. Se indi-can el mínimo (correspondiente al estimador intrínseco), el intervalointrínseco 0.95-creíble Cθp (correspondiente a d(θe | z) ≤ 2.07) y lasregiones de rechazo R1 y R2 correspondientes al contraste definidopor d(θe | z) > 5.

4.4 Contraste de Hipótesis

Dado un modelo probabilístico p(z |θ), θ ∈ Θ,que hipotéticamente describe el comportamiento delvector observable z ∈ Z en función de un vector pa-ramétrico desconocido θ ∈ Θ, se trata de decidir silos datos observados z son o no son compatibles con lahipótesisH0 ≡ θ ∈ Θ0 de que θ pertenece a un deter-minado subconjunto Θ0 ⊂ Θ del espacio paramétrico.

Formalmente, se trata de un problema de decisióncon sólo dos alternativas, aceptar (a0) o rechazar (a1) lahipótesis de trabajo o hipótesis nula H0, cuya soluciónnormativa tan sólo depende de la pérdida diferencial

∆L(θ,Θ0) = L(a0,θ)− L(a1,θ)

que mide (en función de θ) el incremento de pérdida quepodría originar la aceptación de la hipótesis nula. Se ob-serva que a0 constituye una simplificación del modeloy que, consecuentemente, debe existir alguna ventaja enaceptar H0 cuando es cierta, de forma que, necesaria-mente,

∆L(θ,Θ0) < 0, ∀θ ∈ Θ0;

si H0 es cierta, la pérdida diferencial por aceptarla esnegativa.

Se pone de manifiesto que una función de pérdida di-cotómica, del tipo ∆L(θ,Θ0) = ±1 según θ pertenezcao no a Θ0, da lugar a un criterio probabilístico:

Rechazar H0 ⇐⇒ Pr(θ ∈ Θ0 |z) < Pr(θ /∈ Θ0 |z).

En el caso particular en el que la probabilidad inicial deH0 sea 1/2, el criterio se reduce a determinar el factor

de Bayes,

B01(z) =

∫Θ0p(z |θ)π(θ |H0) dθ∫

Θ1p(z |θ)π(θ |H1) dθ

donde Θ1 = Θ − Θ0, y donde π(θ |H0) y π(θ |H1)son respectivamente las distribuciones iniciales bajo lahipótesis nula y bajo la hipótoesis alternativa, que noson necesariamente especificadas como restricciones deuna distribución común π(θ). En estas condiciones,se rechaza la hipótesis de trabajo si (y sólamente si)B01(z) < 1. Cuando sólo existen dos valores posiblesde θ (hipótesis simples), de forma que Θ = θ0,θ1, elfactor de Bayes se reduce al cociente de verosimilitudes.

Se observa que en el caso de hipótesis precisas,cuando Θ0 es un conjunto de medida nula (por ejemplo,cuando θ es un parámetro continuo y Θ0 contiene unúnico valor θ0) esta formulación exige una distribucióninicial mixta, que asigne una masa de probabilidad a unpunto. Tal planteamiento responde por lo tanto a situa-ciones caracterizadas por importante información previa(probabilidad inicial muy concentrada alrededor de θ0),y permite valorar hasta que punto tal información ini-cial es modificada por los datos. Se trata pues de unproblema muy distinto al problema planteado, que es elde determinar la compatibilidad de los datos observadoscon el valor θ0 en ausencia de información inicial sobreel verdadero valor de θ.

Para obtener una solución general al problema dedecidir si los datos son o no son compatibles con unahipótesis de la forma θ ∈ Θ0, donde θ es un parámetrocontinuo, es necesario utilizar una función diferencial depérdida ∆L(θ,Θ0) que sea continua en θ. La soluciónnormativa es entonces simplemente

Rechazar H0 ⇐⇒∫

Θ

∆L(θ,Θ0)π(θ |z) dθ > 0,

que únicamente requiere la determinación de la distri-bución final π(θ |z) (generalmente construida a partirde la distribución de referencia π∗(θ), sin informacióninicial sobre el valor de θ).

Se pone de manifiesto que la discrepancia intrínsecaproporciona una solución natural al problema de espe-cificar la función de pérdida diferencial, solución queresulta además invariante frente a transformaciones bi-yectivas del parámetro. Formalmente, se propone el usode la función de pérdida diferencial

∆L(θ,Θ0) = infθ0∈Θ0

δ(θ0,θ)− δ∗, δ∗ > 0,

donde δ∗ representa la utilidad esperada de aceptar lahipóteis nula cuando es cierta, y donde

δθ0,θ = δpz(. |θ0), pz(. |θ)

Page 13: UN PROGRAMA DE SINTESIS PARA LA ENSE´ NANZA …bernardo/ProgSintesis.pdf · Vol. 95, N.os 1–2, pp 81–99, 2002 ... UN PROGRAMA DE SINTESIS PARA LA ENSE´ NANZA UNIVERSITARIA DE

José Miguel Bernardo Rev.R.Acad.Cienc.Exact.Fis.Nat. (Esp), 2002; 95 93

denota la discrepancia intrínseca entre los dos modelosp(z |θ0) y p(z |θ).

La correspondiente solución normativa, (el criteriobayesiano de referencia o BRC, Bernardo, 1999; Ber-nardo & Rueda, 2002), resulta ser

Rechazar H0 ⇐⇒ d(Θ0 |z) > δ∗,

d(Θ0 |z) =∫

Θ

infθ0∈Θ0

δ(θ0,θ)

π∗(θ |z) dθ > 0,

dondeπ∗(θ |z) ∝ p(z |θ)π∗(θ)

es la distribución final de referencia.

Se observa que, como función de z ∈ Z , el proce-dimiento produce de forma automática una función decontraste (positiva e invariante), el estadístico bayesianode referencia,

b0(z) = d(Θ0 |z), z ∈ Z,

y que el criterio consiste en rechazar la hipótesis de tra-bajo si, y sólamente si, el valor de b0(z) es suficiente-mente alto.

Se demuestra que el valor esperado de b0(z) bajo lahipótesis nula converge a la unidad para muestras gran-des (y en muchos casos es exactamente igual a uno paracualquier tamaño muestral).

Además, puesto que la discrepancia intrínseca entredos modelos probabilísticos es el mínimo valor espe-rado del logaritmo del cociente de verosimilitudes enfavor del modelo verdadero (cf. Sección 2.3), valores deb0(z) superiores a 2.5 suponen cocientes de verosimili-tudes esperados del orden de e2.5 ≈ 12, mientras quevalores de b0(z) superiores a 5.0 suponen cocientes deverosimilitudes esperados del orden de e5.0 ≈ 150.

Consecuentemente, para cualquier tamaño muestraly para cualquier dimensionalidad del problema, el crite-rio bayesiano de referencia sugiere aceptar hipótesis condiscrepancias intrínsecas esperadas cercanas a la unidad,buscar más información con valores situados alrededorde 2.5, y rechazar hipótesis con discrepancias intrínsecasesperadas mayores que 5.

En la Figura 4 se representan las regiones de rechazocorrespondientes a b0(z) > 5 relativas a los datos expo-nenciales descritos y analizados en la Figura 3.

En el problema paradigmático del contraste de hipó-tesis sobre una media normal, con H0 ≡ µ = µ0, losvalores 2.5 y 5.0 corresponden al caso en el que µ0 sesitúa, respectivamente, a 2 y 3 desviaciones típicas de x.

5 CALIBRACION: METODOSFRECUENTISTAS

En la tercera parte del programa se han descrito unconjunto de procedimientos inferenciales, construidosdesde una perspectiva bayesiana a partir de distribucio-nes iniciales objetivas. En la cuarta parte del programase analiza el comportamiento en el muestreo de tales pro-cedimientos y se compara el resultado con el comporta-miento de otros procedimientos descritos en la literatura.En particular, se hace uso de los métodos frecuentistaspara calibrar los métodos bayesianos objetivos, estu-diando su comportamiento bajo muestreo repetido.

El contenido de esta cuarta parte está estructurado encuatro temas. En el primero de ellos se analizan las apor-taciones que pueden esperarse del estudio del comporta-miento en el muestreo de un procedimiento estadístico,se mencionan algunas de sus limitaciones, y se ilustrala variabilidad en el muestreo de la propia distribuciónfinal. Los otros tres temas están respectivamente dedica-dos a estudiar el comportamiento bajo muestreo repetidode estimadores puntuales, regiones de confianza y pro-cedimientos de contraste de hipótesis.

5.1 Comportamiento Medio de un ProcedimientoEstadístico

Para datos z ∈ Z , cuyo comportamiento proba-bilístico se asume descrito por p(z |θ),θ ∈ Θ, seconsidera un procedimiento estadístico definido por unatransformación de los datos t(z).

Ejemplos específicos incluyen un estimador puntual,una región de confianza, un estadístico de contraste, y lapropia distribución final π(θ |z).

1 2 3 4 5 6

0.2

0.4

0.6

0.8

1 π∗(λ | z)

λ

Figura 5. Distribuciones finales de referencia para el parámetro λ deuna distribución de Poisson correspondientes a 10 muestras aleatoriasde tamaño n = 20 simuladas a partir de una distribución de Poissoncon parámetro λ = 3.

Page 14: UN PROGRAMA DE SINTESIS PARA LA ENSE´ NANZA …bernardo/ProgSintesis.pdf · Vol. 95, N.os 1–2, pp 81–99, 2002 ... UN PROGRAMA DE SINTESIS PARA LA ENSE´ NANZA UNIVERSITARIA DE

94 José Miguel Bernardo Rev.R.Acad.Cienc.Exact.Fis.Nat. (Esp), 2002; 95

En la Figura 5 se representan las distribuciones finalesde referencia correspondientes a 10 muestras aleatoriasde tamaño 20 simuladas a partir de una distribución dePoisson de parámetroλ = 3, lo que ilustra la variabilidadde las conclusiones inferenciales en función de los datosobservados.

Para un procedimiento concreto t(z) es posible de-finir una función de pérdida Lt(z),θ que, de algunaforma, debe medir el ‘error’ cometido por el procedi-miento en función del verdadero valor del vector pa-ramétrico θ.

Considerada como función de z (condicional a θ),Lt(z),θ es una variable aleatoria cuya distribuciónen el muestreo puede ser determinada, en principio, apartir de la distribución condicional de z, p(z |θ). Con-secuentemente, su valor esperado,

rt(θ |L) = Ez | θ[Lt(z),θ]

=∫ZLt(z),θ p(z |θ) dz,

puede ser interpretado como el riesgo medio (en mues-treo repetido) que se corre utilizando ese procedimiento.

Como ejemplos de funciones de pérdida habituales semencionan la pérdida cuadrática asociada a un estimadorpuntual θ,

Lθ,θ = (θ − θ)′(θ − θ)

y la pérdida logarítmica (la función de evaluacióncambiada de signo), asociada a una distribución finalπθ(· |z),

Lπθ(. |z),θ = − log[πθ(θ |z)].

Para que un procedimiento estadístico resulte acepta-ble es naturalmente necesario que tenga un riesgo mediopequeño frente a funciones de pérdida razonables. Esobvio, sin embargo, que ésta no es una condición su-ficiente: un buen comportamiento medio no garantizaun buen comportamiento en cada caso concreto. Comose demuestra con ejemplos, un procedimiento puede te-ner un comportamiento claramente inaceptable en casosconcretos, pero presentar un buen comportamiento me-dio debido a que tales casos no son muy frecuentes; esposible incluso encontrar procedimientos que tienen unmal comportamiento en todos los casos pero que pre-sentan un buen comportamiento medio, debido a unacompensación de los errores.

En general el riesgo medio de utilizar un procedi-miento t, depende del verdadero valor del parámetro θ.Es sin embargo posible que (con respecto a una función

de pérdida L), un procedimiento t1 sea uniformementemejor que otro procedimiento t2 en el sentido de que,

∀θ ∈ Θ, rt1 (θ |L) < rt2 (θ |L);

en este caso se dice que t2 está dominado por t1.

Un procedimiento es declarado inadmisible (con res-pecto a una función de pérdida) si es posible encontrarotro procedimiento que lo domina. Con estos elementosse enuncia (sin demostración) un resultado importante(Savage, 1954): bajo condiciones muy generales, paraque un procedimiento sea admisible es necesario y su-ficiente que sea un procedimiento Bayes, esto es quepueda ser obtenido minimizando alguna pérdida espe-rada. Finalmente se subraya el hecho de que cualquierresultado de admisibilidad es condicional a la funciónde pérdida elegida: un procedimiento inadmisible bajouna función de pérdida determinada puede resultar ad-misible bajo una función de pérdida diferente.

5.2 Error Medio de los Estimadores Puntuales

El tema empieza introduciendo algunos de los mé-todos de estimación no bayesiana propuestos en la li-teratura: se recuerda la estimación máximo verosímil,y se describen los métodos de estimación por momen-tos, por mínimos cuadrados y mediante estadísticos deorden. Se determinan los estimadores correspondien-tes para un conjunto de ejemplos representativos, com-parándolos con los estimadores Bayes descritos en laSección 3.3. Se recuerda el concepto de estadístico sufi-ciente y se pone de manifiesto que, frecuentemente, losestimadores puntuales son estadísticos suficientes.

Se argumenta la importancia de un comportamientolímite adecuado. Se introduce el concepto de consisten-cia, y se demuestra que todo estimador Bayes es con-sistente. Se recuerda el comportamiento asintótico dela distribución en el muestreo del estimador máximoverosímil, subrayándose que, bajo condiciones de regu-laridad, permite obtener una buena aproximación, paramuestras grandes, a la distribución en el muestreo delestimador bayesiano intrínseco.

Se describe la función de pérdida cuadrática como cri-terio de evaluación del comportamiento de un estimador,se menciona la descomposición del riesgo cuadráticomedio en varianza más sesgo al cuadrado y, en estecontexto, se introduce el concepto de eficiencia. Semenciona el concepto de estimador insesgado y se ilus-tran, mediante ejemplos, las graves consecuencias a lasque puede llevar la insistencia en el uso de estimado-res insesgados. Mediante datos simulados se hace unanálisis comparativo del comportamiento en el muestreode los estimadores considerados con respecto al riesgocuadrático medio.

Page 15: UN PROGRAMA DE SINTESIS PARA LA ENSE´ NANZA …bernardo/ProgSintesis.pdf · Vol. 95, N.os 1–2, pp 81–99, 2002 ... UN PROGRAMA DE SINTESIS PARA LA ENSE´ NANZA UNIVERSITARIA DE

José Miguel Bernardo Rev.R.Acad.Cienc.Exact.Fis.Nat. (Esp), 2002; 95 95

El tema concluye argumentando las ventajas de lafunción de pérdida intrínseca como criterio de eva-luación frente a la convencional pérdida cuadrática. Sedetermina una aproximación asintótica para el riesgointrínseco medio, y se retoman los ejemplos anteriorespara proporcionar un análisis comparativo del compor-tamiento en el muestreo de los distintos estimadores conrespecto al riesgo intrínseco medio.

5.3 Recubrimiento Esperado de las Regiones deConfianza

El tema comienza con la descripción del método con-vencional de construcción de regiones frecuencialistasde confianza a partir de pivotes (funciones de los datos ydel parámetro de interés cuya distribución en el muestreoes totalmente conocida), destacando la utilidad, en estecontexto, de la función de soporte normalizada. Se ponede manifiesto que, mientras que las regiones de con-fianza p-creíbles (descritas en la Sección 4.3) puedenser construidas para cualquier problema, los métodosfrecuentistas no siempre resultan aplicables.

Se propone la calibración de regiones de confianzap-creíbles en términos de la proporción de muestrasp(θ) para las que la correspondiente región p-creíblecubrirá (en muestreo repetido) el verdadero valor delparámetro θ.

Centrándose en el caso de modelos de parámetro uni-dimensional continuo, se define un intervalo p-creíbleunilateral ] −∞, θp(z)] mediante el cuantil correspon-diente θp(z) de la distribución final

Pr[θ ≤ θp(z) |z] =∫θ≤θp(z)

π(θ |z) dθ = p.

Se define el nivel de recubrimiento correspondiente,

Pr[θp(z) ≥ θ | θ] =∫θp(z)≥θ

p(z | θ) dz = p(θ),

donde p(z | θ) es el modelo probabilístico supuesto. Sepone de manifiesto que, para la distribución final de re-ferencia,

p(θ) = p +O(n−1)

de forma que, bajo condiciones de regularidad, unaregión de confianza p-creíble es siempre, para mues-tras suficientemente grandes, una región frecuentista deconfianza aproximada, y que esta aproximación mejoracuando se utilizan distribuciones iniciales de referencia.

Se indica que cuando existe un pivote, (como en loscasos de datos normales o de datos exponenciales) seobtiene una doble interpretación exacta de las regionesde confianza p-creíbles como regiones frecuentistas con

probabilidad de recubrimiento p, pero se subraya que,en general, se trata sólo de una aproximación asintótica,con problemas en el caso de muestras extremas (lo quese ilustra con datos binomiales).

Mediante el uso de ejemplos apropiados se pone demanifiesto que, en general, no es deseable una coinci-dencia exacta entre p y p(θ). En efecto, los intervalosde confianza frecuentistas, que por construcción garan-tizan un recubrimiento predeterminado p, pueden darlugar a resultados indeseables: se trata de otro ejemplode un valor medio correcto basado en la compensaciónde errores individuales.

5.4 Probabilidades de Error en los Contrastes deHipótesis

Se describe el concepto convencional de contraste designificación (‘significance test’) en el que, sin plantearalternativas, se trata de contrastar una hipótesis puntualH0 ≡ θ = θ0 proponiendo un estadístico de con-traste t(z) ∈ T y una región crítica R ⊂ T , de formaque la probabilidad de rechazar la hipótesis de trabajo (ohipótesis nula) cuando es cierta, esto es Pr(t ∈ R |H0) oerror de tipo I, sea una constanteα, llamada nivel de sig-nificación. Se pone de manifiesto que el procedimientono incluye la forma de elegir α, y que el uso sistemáticode valores convencionales para el nivel de significación(como el ubicuo α = 0.05) para cualquier tamaño mues-tral o dimensionalidad da lugar a contradicciones.

Se subraya que para poder elegir de forma razonableentre los infinitos contrastes con el mismo nivel de signi-ficación es necesario considerar además la probabilidadde aceptar una hipótesis falsa, β(θ) = Pr(t /∈ R |θ) oerror de tipo II, que depende del verdadero (y descono-cido) valor del parámetro θ, y se pone de manifiesto quesu cálculo requiere especificar una alternativa H1 a lahipótesis nula.

En este contexto, se pone de manifiesto que el pro-cedimiento convencionalmente sugerido y (lamentable-mente) utilizado con mucha frecuencia consiste en uti-lizar aquel contraste que, para una probabilidad α deerror de tipo I predeterminada, minimice la probabili-dad β(θ) de error de tipo II (si fuese posible, para todovalor de θ). Se demuestra, sin embargo, que este crite-rio es incompatible con los axiomas de comportamientocoherente que dictan (como la intuición sugiere) que loque se debe minimizar es una combinación lineal de losdos tipos de error,

L(R,θ, γ) = γ Pr(t ∈ R |θ0) + (1− γ)Pr(t /∈ R |θ),

donde los pesos relativos, γ, (1− γ), con 0 < γ < 1,miden las pérdidas relativas correspondientes a cada tipode error, y dependen del contexto del problema.

Page 16: UN PROGRAMA DE SINTESIS PARA LA ENSE´ NANZA …bernardo/ProgSintesis.pdf · Vol. 95, N.os 1–2, pp 81–99, 2002 ... UN PROGRAMA DE SINTESIS PARA LA ENSE´ NANZA UNIVERSITARIA DE

96 José Miguel Bernardo Rev.R.Acad.Cienc.Exact.Fis.Nat. (Esp), 2002; 95

Se define la potencia del contraste como la probabi-lidad de rechazar la hipótesis nula en función del verda-dero valor del parámetro,

pot(θ) = Pr(t ∈ R |θ), θ ∈ Θ,

y se menciona su utilidad para comparar entre sílas características operativas de contrastes alternativos.Cuando la hipótesis nula es una hipótesis simple H0 ≡θ = θ0, de forma que Θ0 es un conjunto de medidanula, pot(θ) = 1−β(θ) es esencialmente la probabilidadde rechazar una hipótesis falsa. Se describe el cocientede verosimilitudes como una forma intuitiva de cons-truir un estadístico de contraste y se enuncia el lema deNeyman-Pearson que garantiza, en el caso de hipótesissimples, la obtención de un contraste de máxima poten-cia entre los que tienen un nivel de significación dado.

El planteamiento frecuentista de contraste de hipóte-sis se compara con el planteamiento bayesiano descritoen la Sección 4.4. Se señala que en ambos casos se tratade construir un estadístico de contraste y de rechazarla hipótesis de trabajo cuando el valor numérico de talestadístico es suficientemente alto. Se hace observar, sinembargo, una diferencia radical: en el caso bayesianoel punto de corte forma parte de la función de pérdiday describe, en unidades de información, la discrepanciaque se está dispuesto a tolerar entre el modelo verdaderoy el modelo especificado por la hipótesis nula; en el casofrecuentista el punto de corte viene definido en términosde la distribución en el muestreo bajo la hipótesis nuladel estadístico de contraste que se escoja lo que, comose ha mencionado, puede dar lugar a contradicciones.

El tema concluye estudiando el comportamiento bajomuestreo repetido de distintos estadísticos de contraste,con especial énfasis en los que definen el cociente de ve-rosimilitudes y la discrepancia intrínseca esperada. Enparticular, se estudian las probabilidades de error (enmuestreo repetido) que corresponden a tales criteriosen algunos ejemplos representativos, y se determinan ycomparan las funciones de potencia correspondientes.

6 APLICACIONES

A lo largo del programa se habrán estudiado, en formade ejemplos y de problemas resueltos, muchos proble-mas de inferencia planteados en modelos sencillos uni-variantes: inferencia y predicción con datos discretos(Binomiales y Poisson), e inferencia y predicción con da-tos continuos dependientes de un solo parámetro, tantoen casos regulares (datos exponenciales) como no regu-lares (datos uniformes). Se habrán estudiado asimismoalgunos problemas sencillos de inferencia y prediccióncon datos continuos dependientes de varios parámetros(datos normales y datos uniformes con ambos extremosdesconocidos). En esta última parte del programa se

utilizan los conocimientos adquiridos para estudiar pro-blemas algo más complejos.

6.1 Comparación de Proporciones

Se parte de muestras aleatoriasx, y de observacionesBernoulli procedentes de poblaciones distintas, con es-tadísticos suficientes (r1, n1) y (r2, n2) y con parámetrosθ1 y θ2, y se supone que interesa comparar los valoresde θ1 y θ2, proporcionando al alumno ejemplos realesen diferentes contextos (elecciones, marketing, biotec-nología, . . . ).

Se determinan las distribuciones finales de referen-cia π∗(φi |x,y), para dos posibles funciones de interés,φ1 = θ1−θ2 y φ2 = θ1/θ2, se obtienen estimadores pun-tuales y regiones de confianza para ambas funciones, yse formulan y analizan distintos problemas de contrastede hipótesis. Los resultados teóricos obtenidos son eva-luados por simulación y posteriormente aplicados a unejemplo con datos reales.

6.2 Inferencia con Medias Normales

Se parte de muestras aleatorias x = x1, . . . , xn,y = y1, . . . , ym de observaciones procedentes de dospoblaciones normales, N(x |µ1, σ

21), N(y |µ2, σ

22), con

estadísticos suficientes (n, x, s2x) y (m, y, s2

y), y se su-pone que interesa comparar los valores de µ1 y µ2,proporcionando al alumno ejemplos reales en diferen-tes contextos (producción industrial, consumo, . . . ).

Se determinan las distribuciones finales de referenciaπ∗(φi |x,y) de dos posibles funciones de interés, φ1 =µ1 − µ2 (problema de Behrens-Fisher) y φ2 = µ1/µ2,(problema de Fieller-Creasy), se obtienen estimadorespuntuales y regiones de confianza para ambas funcio-nes, y se formulan y resuelven distintos problemas decontraste de hipótesis. De nuevo, los resultados obte-nidos son evaluados por simulación y aplicados a unejemplo con datos reales.

Partiendo de los mismos datos x = x1, . . . , xn,e y = y1, . . . , ym se plantea el problema de hacerinferencia sobre el producto de las medias θ = µ1 µ2,motivándolo con ejemplos reales (cálculo de superficies,teoría de errores en física o ingeniería, . . . ).

Se determina la correspondiente distribución final dereferencia π∗(θ |x,y), se obtienen estimadores puntua-les y regiones de confianza para θ, y se formulan distintoscontrastes de hipótesis. Una vez más, los resultados sonevaluados por simulación y aplicados a un ejemplo condatos reales. Finalmente, se describe (sin demostración)la solución al problema general de hacer inferencia sobreel producto θ =

∏ki=1 µi de k medias normales.

Page 17: UN PROGRAMA DE SINTESIS PARA LA ENSE´ NANZA …bernardo/ProgSintesis.pdf · Vol. 95, N.os 1–2, pp 81–99, 2002 ... UN PROGRAMA DE SINTESIS PARA LA ENSE´ NANZA UNIVERSITARIA DE

José Miguel Bernardo Rev.R.Acad.Cienc.Exact.Fis.Nat. (Esp), 2002; 95 97

6.3 Regresión

Se parte de un conjunto de datos aparareados z =(y1,x1) . . . , (yn,xn), donde yj ∈ es la respuestaobservada en condiciones xj ∈ k, y se supone queexiste una relación funcional aproximada entre yj y xj ,de forma que yj = f (xj |θ)+εj , con E[ε] = 0, y Var[ε] =σ2. Se analiza la representación cartesiana de este tipode datos en el caso k = 1, motivando el problema condistintos conjuntos de datos reales.

Especificado un modelo π(ε |σ) que describa el com-portamiento probabilístico de los errores, se formula elproblema general de predicción asociado a esta estruc-tura de datos, que requiere el cálculo de la distribuciónpredictiva condicional

p(y |x,z) =∫

Θ

∫ ∞0p(y |x,θ, σ)π∗(θ, σ |z) dθdσ.

Bajo normalidad homocedástica,N (ε | 0, σ2), se detallala solución analítica para el caso lineal univariante

f (x | θ0, θ1) = θ0 + θ1 x,

determinándose las distribuciones finales (marginales)de θ0 y θ1, la distribución final de σ y la distribución pre-dictiva p(y |x,z). Se obtienen estimadores puntuales yregiones creíbles para y dadox, y se formulan problemasde contraste para los valores de las θi. Los resultadosobtenidos son evaluados por simulación y aplicados aun ejemplo con datos reales.

Se enuncia (sin demostración) la generalización dealgunos de los resultados anteriores al caso lineal mul-tivariante

f (x |θ) = θ0 +k∑i=1

θi xi,

y se muestra la aplicación de este resultado a proble-mas univariantes no lineales en los que la función deregresión acepta una aproximación lineal de la formaf (x |θ) ≈ θ0 +

∑ki=1 θi gi(x).

Se concluye el programa describiendo, sin detallarlos cálculos, el resultado final de un análisis de regresióncomplejo con datos reales (predicciones ‘on line’ en unanoche electoral), en el que se han utilizado los métodosbayesianos objetivos estudiados en la asignatura.

7 DISCUSION: UN PROGRAMA POSIBLE

Este trabajo concluye presentando un posible pro-grama para el desarrollo de la asignatura de EstadísticaMatemática en la línea descrita, seguido de algunos co-mentarios sobre la forma en que podrían organizarse lasclases prácticas, y de algunas recomendaciones sobreposibles textos de apoyo.

7.1 Programa Propuesto

El temario que se propone está orientado a una asig-natura de Estadística Matemática situada en un primerciclo universitario, y supone conocimientos elementalesde análisis y de teoría de la probabilidad. En el caso enel que los alumnos no hayan cursado una asignatura deteoría de la probabilidad, será necesario ampliar la pri-mera parte del programa para introducir los conceptosnecesarios.

El nivel al que pueda desarrollase el temario pro-puesto dependerá obviamente del alumnado, resultandopresumiblemente más sencillo dotar al curso de un nivelelevado en el caso de contar con alumnos de Matemáticaso de Ciencias Estadísticas.

El programa que sugerimos se estructura en 18 temas,lo que en una asignatura anual con 6 créditos teóricos,como la prevista en varios de los planes de estudio vi-gentes, permite dedicar algo más de 3 horas lectivas acada tema.

1. Fundamentos

1. Introducción a Estadística Matemática

2. Medida de Probabilidad

3. Introducción a la Teoría de Decisión

4. Medidas de Información y de Discrepancia

2. Modelos Probabilísticos

5. Intercambiabilidad e Independencia Condicional

6. Función de Verosimilitud

7. Suficiencia y Familia Exponencial

3. Inferencia: Métodos Bayesianos Objetivos

8. El Paradigma Bayesiano

9. Distribuciones de Referencia

10. Estimación

11. Contraste de Hipótesis

4. Calibración: Métodos Frecuentistas

12. Comportamiento Medio de un Procedimiento Es-tadístico

13. Error Medio de los Estimadores Puntuales

14. Recubrimiento Esperado de las Regiones de Con-fianza

15. Probabilidades de Error en los Contrastes deHipótesis

5. Aplicaciones

16. Comparación de Proporciones

17. Inferencia con Medias Normales

18. Regresión

Page 18: UN PROGRAMA DE SINTESIS PARA LA ENSE´ NANZA …bernardo/ProgSintesis.pdf · Vol. 95, N.os 1–2, pp 81–99, 2002 ... UN PROGRAMA DE SINTESIS PARA LA ENSE´ NANZA UNIVERSITARIA DE

98 José Miguel Bernardo Rev.R.Acad.Cienc.Exact.Fis.Nat. (Esp), 2002; 95

7.2 Prácticas

La posibilidad actual, presente en casi todas las uni-versidades, de dar las clases prácticas en aulas de in-formática dotadas de ordenadores razonablemente po-tentes, permite orientar las clases prácticas a la verifi-cación experimental, por simulación, de los conceptos yresultados desarrollados en el curso.

Son muchos los lenguajes de programación que pue-den ser utilizados con este propósito, pero nuestra prefe-rencia se sitúa en el uso de Mathematica. La experienciaacumulada sugiere que el alumno es capaz en unas pocashoras de manejar el programa con relativa soltura, y quepronto lo utilizará sistemáticamente para otras asignatu-ras.

Los 3 créditos de prácticas generalmente asociados ala asignatura de Estadística Matemática permiten montar10 prácticas de 3 horas cada una, suficientes para experi-mentar con todos los conceptos desarrollados, especial-mente si materiales adecuados (preparados ex-profeso)son directamente accesibles a los alumnos mediante unared local.

7.3 Bibliografía Básica

Dado el carácter poco convencional del programapropuesto, no es fácil encontrar textos que se adap-ten bien a su contenido; sin embargo, la mayor partede los conceptos expuestos están muy bien descritosen DeGroot & Schervish (2002), la tercera edición deun texto excelente, de cuya primera edición existe unaversión en castellano.

El libro de Barnett (1999), una buena introducciónal análisis comparativo de las distintas escuelas de in-ferencia, puede ser un interesante complemento. Elartículo sobre inferencia bayesiana de la enciclopediade la UNESCO (Bernardo, 2002), proporciona una in-troducción elemental a los métodos bayesianos objetivospoco frecuente en los libros de texto. Schervish (1995),un excelente tratado de estadística teórica con un fuertecontenido matemático, puede resultar muy útil como li-bro de consulta.

Los conceptos básicos de la teoría de la decisión pue-den ser estudiados en la extraordinaria introducción deLindley (1985), de cuya primera edición también existeuna versión en castellano. Los libros de DeGroot (1970)y de Bernardo & Smith (1994) contienen versiones for-males de los fundamentos de la estadística matemática,que pueden servir de complemento.

Una buena introducción a los métodos bayesianosobjetivos es la contenida en Box & Tiao (1973), un textoclásico que sigue vigente. Berger (1985) y Bernardo &Smith (1994) proporcionan contenidos más modernos.

Los conceptos más convencionales de la estadísticamatemática pueden estudiarse en los numerosos textospublicados con una orientación básicamente frecuen-tista. Entre los escritos en castellano, destacamos losde Cao et al. (2001), Peña (1999) y Vélez-Ibarrola &García-Pérez (1997). Los textos de Berry & Lindgren(1996), Casella & Berger (2002) y Shao (1999) consti-tuyen interesantes alternativas.

AGRADECIMIENTOS

Investigación financiada con los Proyectos GV01-7de la Generalitat Valenciana y BNF2001-2889 de laDGICYT, Madrid.

BIBLIOGRAFIA

1. Barnett. V. (1999). Comparative Statistical Inference(Tercera edición). Chichester: Wiley.

2. Berger, J. O. (1985). Statistical Decision Theory andBayesian Analysis. Berlin: Springer.

3. Berry D. A. & Lindgren, B. W. (1996). Statistics:Theory and Methods. Duxbury.

4. Berger, J. O. & Bernardo, J. M. (1992). On thedevelopment of reference priors. Bayesian Statis-tics 4 (J. M. Bernardo, J. O. Berger, A. P. Dawid andA. F. M. Smith, eds.). Oxford: University Press, 35–60(con discusión).

5. Bernardo, J. M. (1979). Reference posterior distribu-tions for Bayesian inference. J. Roy. Statist. Soc. B 41,113–147 (con discusión). Reeditado en Bayesian In-ference (N. G. Polson & G. C. Tiao, eds.), Brookfield,VT: Edward Elgar, (1995), 229–263.

6. Bernardo, J. M. (2002). Bayesian Statistics. Encyclo-pedia of Life Support Systems (EOLSS). Paris: UNES-CO (en prensa). Accesible on line:http://www.uv.es/~bernardo/.

7. Bernardo, J. M. (1999). Nested hypothesis testing:The Bayesian reference criterion. Bayesian Statis-tics 6 (J. M. Bernardo, J. O. Berger, A. P. Dawid andA. F. M. Smith, eds.). Oxford: University Press, 101–130 (con discusión).

8. Bernardo, J. M. & Juárez, M. (2003). Intrinsic Estima-tion. Bayesian Statistics 7 (J. M. Bernardo, M. J. Ba-yarri, J. O. Berger, A. P. Dawid, D. Heckerman,A. F. M. Smith and M. West, eds.). Oxford: UniversityPress, (en prensa).

9. Bernardo, J. M. & Ramón, J. M. (1998). An introduc-tion to Bayesian reference analysis: Inference on theratio of multinomial parameters. The Statistician 47,1–35.

10. Bernardo, J. M. & Rueda, R. (2002). Bayesian hypo-thesis testing: A reference approach. J. Statist. Plan-ning and Inference 70 (en prensa).

Page 19: UN PROGRAMA DE SINTESIS PARA LA ENSE´ NANZA …bernardo/ProgSintesis.pdf · Vol. 95, N.os 1–2, pp 81–99, 2002 ... UN PROGRAMA DE SINTESIS PARA LA ENSE´ NANZA UNIVERSITARIA DE

José Miguel Bernardo Rev.R.Acad.Cienc.Exact.Fis.Nat. (Esp), 2002; 95 99

11. Bernardo, J. M. & Smith, A. F. M. (1994). BayesianTheory. Chichester: Wiley.

12. Box, G. E. P. & Tiao, G. C. (1973). Bayesian Inferencein Statistical Analysis. Reading, MA: Addison-Wesley.Reeditado en 1992, New York: Wiley.

13. Cao, R, Francisco, M., Naya, S. Presedo, M. A.,Vázquez M., Vilar, J. A. & Vilar, J. M. (2001). In-troducción a la Estadística y sus Aplicaciones. Madrid:Pirámide.

14. Casella, G. & Berger, R. L. (2002). Statistical Inference(Segunda edición). New York: Duxbury.

15. DeGroot, M. H. (1970). Optimal Statistical Decisions.New York: McGraw-Hill.

16. DeGroot, M. H. & Schervish, M. J. (2002). Probabi-lity and Statistics (Tercera edición). Addison-Wesley.Versión española de la primera edición: DeGroot, M. H.(1988). Probabilidad y Estadística. Mexico: Addison-Wesley Iberoamericana.

17. de Finetti, B. (1937). La prévision: ses lois logiques,ses sources subjectives. Ann. Inst. H. Poincaré 7, 1–68.Reimpreso en 1980 como ‘Foresight; its logical laws, itssubjective sources’ en Studies in Subjective Probability(H. E. Kyburg and H. E Smokler, eds.). New York:Dover, 93–158.

18. de Finetti, B. (1970). Teoria delle Probabilità. Turin:Einaudi. Traducido al inglés como Theory of Probabi-lity (1975), Chichester: Wiley.

19. Hewitt, E. & Savage, L. J. (1955). Symmetric measureson Cartesian products. Trans. Amer. Math. Soc. 80,470–501.

20. Huzurbazar, V. S. (1976). Sufficient Statistics. NewYork: Marcel Dekker.

21. Jeffreys, H. (1939). Theory of Probability. Oxford:University Press. Tercera edición (1961) reimpresa en1998, Oxford: University Press.

22. Laplace, P. S. (1812). Théorie Analytique des Pro-babilités. Paris: Courcier. Reimpreso como OeuvresComplètes de Laplace 7, 1878–1912. Paris: Gauthier-Villars.

23. Lindley, D. V. (1965). Introduction to Probability andStatistics from a Bayesian Viewpoint. Cambridge: Uni-versity Press.

24. Lindley, D. V. (1985). Making Decisions. (Segundaedición) Chichester: Wiley. Versión española de la pri-mera edición: Lindley, D. V. (1977) Introducción a laTeoría de la Decisión. Barcelona, Vicens-Vives.

25. Lindley, D. V. & Phillips, L. D. (1976). Inference for aBernoulli process (a Bayesian view). Amer. Statist. 30,112–119.

26. Peña, D. (1999). Estadística: Modelos y Métodos(Décima edición). Madrid: Alianza Universidad.

27. Press, S. J. (1972). Applied Multivariate Analysis:Using Bayesian and Frequentist Methods of Inference.Segunda edición en 1982, Melbourne, FL: Krieger.

28. Savage, L. J. (1954). The Foundations of Statistics.New York: Wiley. Segunda edición en 1972, New York:Dover.

29. Shannon, C. E. (1948). A mathematical theory of com-munication. Bell System Tech. J. 27 379–423 y 623–656. Reimpreso en The Mathematical Theory of Com-munication (Shannon, C. E. & Weaver, W., 1949). Ur-bana, IL.: Univ. Illinois Press.

30. Schervish, M. J. (1995). Theory of Statistics. NewYork: Springer

31. Shao, J. (1999). Mathematical Statistics. New York:Springer

32. Vélez-Ibarrola, R. & García-Pérez, A. (1997). Princi-pios de Inferencia Estadística. Madrid: UNED

33. Zellner, A. (1971). An Introduction to Bayesian Infe-rence in Econometrics. New York: Wiley. Reimpresoen 1987, Melbourne, FL: Krieger.