75
13. MUESTREO Y ESTIMACIÓN MUESTREO Muestra Aleatoria de tamaño n es una colección de n variables aleatorias, todas con la misma distribución y todas independientes. La colección de donde extraemos la muestra aleatoria, se denomina Población. Nuestra intención al tomar una muestra, es la de hacer Inferencia. Este término lo usamos en estadística para denotar al procedimiento con el que hacemos afirmaciones acerca de valores generales de la población mediante los números que observamos en la muestra. A un valor calculado con los datos de una muestra es el Estadístico. Al valor del parámetro en la población es el Estimador. Y es Estimador Puntual cuando se estima el parámetro poblacional a partir de un valor único). Características probabilísticas de un estimador. Cuando se tiene una fórmula para estimar y se aplica a una muestra aleatoria, el resultado es aleatorio, es decir los estimadores son variables aleatorias. Por ejemplo si se recibe un embarque de objetos que pueden estar listos para usarse ó defectuosos. Podemos seleccionar, al azar, algunos de ellos para darnos una idea de la proporción de defectuosos en el embarque. El parámetro de interés es la proporción de defectuosos en toda la población, pero lo que observamos es la proporción de defectuosos en la muestra. Valor esperado de un estimador y sesgo. El valor esperado de un estimador nos da un valor alrededor del cual es muy probable que se encuentre el valor del estimador. Para poner un ejemplo, si supiéramos que el valor esperado de 1

3. MUESTREO Y ESTIMACIÓN

Embed Size (px)

Citation preview

13. MUESTREO Y ESTIMACIÓN

MUESTREO

Muestra Aleatoria de tamaño n es una colección de nvariables aleatorias, todas con la misma distribución ytodas independientes. La colección de donde extraemos lamuestra aleatoria, se denomina Población. Nuestraintención al tomar una muestra, es la de hacerInferencia. Este término lo usamos en estadística paradenotar al procedimiento con el que hacemos afirmacionesacerca de valores generales de la población mediante losnúmeros que observamos en la muestra.

A un valor calculado con los datos de una muestra es elEstadístico. Al valor del parámetro en la población es elEstimador. Y es Estimador Puntual cuando se estima elparámetro poblacional a partir de un valor único).

Características probabilísticas de un estimador. Cuandose tiene una fórmula para estimar y se aplica a unamuestra aleatoria, el resultado es aleatorio, es decirlos estimadores son variables aleatorias. Por ejemplo sise recibe un embarque de objetos que pueden estar listospara usarse ó defectuosos. Podemos seleccionar, al azar,algunos de ellos para darnos una idea de la proporción dedefectuosos en el embarque. El parámetro de interés es laproporción de defectuosos en toda la población, pero loque observamos es la proporción de defectuosos en lamuestra.

Valor esperado de un estimador y sesgo. El valor esperadode un estimador nos da un valor alrededor del cual es muyprobable que se encuentre el valor del estimador. Paraponer un ejemplo, si supiéramos que el valor esperado de

1

un estadístico es 4, esto significaría que al tomar unamuestra: No creemos que el valor de la estadística vaya aser 4, pero tampoco creemos que el valor de laestadística vaya a estar lejos de 4.

Ya que es muy probable que el valor del estimador estécerca de su valor esperado, una propiedad muy deseable esque ese valor esperado del estimador coincida con el delparámetro que se pretende estimar. Al menos, quisiéramosque el valor esperado no difiera mucho del parámetroestimado. Por esa razón es importante la cantidad que,técnicamente llamamos sesgo.

Convención, para efectos del estudio de ahora en adelantese presentan la siguiente convención, representan,el parámetro que estamos midiendo y el valor obtenido enla medida o muestreado, respectivamente

El sesgo es la diferencia entre el valor esperado delestimador y el parámetro que estima. ,

Si el sesgo 0, se dice que el estimador es insesgado yésta es una característica buena para un estimador. Unestimador que es insesgado tiene una alta probabilidad detomar un valor cercano al valor del parámetro.

Varianza de un estimador. Otra propiedad importante de unestimador es su varianza. La importancia de la desviaciónestándar es que nos permite darle un sentido numérico ala cercanía del valor del estimador a su valor esperado.Entre menor sea la desviación estándar de un estimador,será más probable que su valor en una muestra específicase encuentre mas cerca del valor esperado.

2

Para aclarar esto, considere dos estimadores T1 y T2,suponga que ambos son insesgados y suponga que lavarianza de T1 es menor que la de T2, lo cual quiere decirque los valores de T1 son más probables que los de T2. Osea que vamos a encontrar a T1 más cerca del valor delparámetro que a T2. Esto hace que nuestras preferenciasestén con T1.

Cuando un estimador tiene una varianza menor que otrodecimos que el estimador es más eficiente.

La distribución de probabilidad de un estadístico. Quizáel resultado más importante para la estadística es elTeorema del Límite Central. Este resultado nos indicaque, para el estadístico promedio de la muestra

- el valor esperado es la media de la población. - la varianza es igual a la de la población dividida por

el número de elementos de la muestra. - la distribución de probabilidad es la normal.

Este teorema es muy importante porque permite calcularprobabilidades acerca de dónde se encuentra el valorpromedio muestra. Es sólo cuestión de usar la tablanormal teniendo cuidado al estandarizar de usar ladesviación estándar adecuada que es la de la poblacióndividida por la raíz cuadrada del número de elementos dela muestra.

Estimación del error de una medida directa. La estimacióndel error de una medida tiene siempre una componentesubjetiva. En efecto, nadie mejor que un observadorexperimentado para saber con buena aproximación cuál esel grado de confianza que le merece la medida que acabade tomar. No existe un conjunto de reglas bien fundadas e

3

inalterables que permitan determinar el error de unamedida en todos los casos imaginables.

Muchas veces es tan importante consignar cómo se haobtenido un error como su propio valor. Sin embargo, laaplicación de algunos métodos estadísticos permiteobjetivar en gran medida la estimación de erroresaleatorios. La estadística permite obtener los parámetrosde una población (en este caso el conjunto de todas lasmedidas que es posible tomar de una magnitud), a partirde una muestra (el número limitado de medidas que podemostomar).

Mejor valor de un conjunto de medidas. Supongamos quemedimos una magnitud un número n de veces. Debido a laexistencia de errores aleatorios, las n medidas

serán en general diferentes. El método másrazonable para determinar el mejor valor de estas medidases tomar el valor medio. En efecto, si los errores sondebidos al azar, tan probable es que ocurran por defectocomo por exceso, y al hacer la media se compensarán, porlo menos parcialmente, y este es el valor que deberádarse como resultado de las medidas.

Tipos de estimación estadística. Un problema importantede la inferencia estadística es la estimación deparámetros de la población, brevemente parámetros (talescomo la media y la variación de la población), de loscorrespondientes estadísticos muéstrales, o simplementeestadísticos (tales como la media y la variación de lamuestra).

4

Estimaciones sin sesgo. Si la media de las dispersionesde muestreo con un estadístico es igual que la delcorrespondiente parámetro de la población, el estadísticose llamara estimador sin sesgo o insesgado del parámetro;si no, si no se llama estimador sesgado. Loscorrespondientes valores de tal estadístico se llamanestimación sin sesgo, y estimación con sesgorespectivamente.

Ejemplo, la media de las distribuciones de muestreo demedias o , media de la población. Por lo tanto, lamedia muestral es una estimación sin sesgo de la media dela población.

Ejemplo, las medias de las distribuciones de muestreo delas variables son

En donde, sea una estimación sin sesgo, sin embargo,s es una estimación sesgada, pues, en términos del valoresperado es insesgado

Estimación Eficiente. Si las distribuciones de muestreode dos estadísticos tienen la misma media (o esperanza),el de menor varianza se llama un estimador eficiente dela media, mientras que el otro se llama un estimadorineficiente, respectivamente. Si consideramos todos losposibles estadísticos cuyas distribuciones de muestreotiene la misma media, aquel de varianza mínima se llama aveces, el estimador de máxima eficiencia, ósea el mejorestimador.

Ejemplo, Las distribuciones de muestreo de media ymediana tienen ambas la misma media, a saber, la media de

5

la población. Sin embargo, la varianza de la distribuciónde muestreo de medias es menor que la varianza de ladistribución de muestreo de medianas. Por tanto, la mediamuestral da una estimación eficiente de la media de lapoblación, mientras la mediana de la muestra da unaestimación ineficiente de ella.

De todos los estadísticos que estiman la media de lapoblación, la media muestral proporciona la mejor (la máseficiente) estimación. En la práctica, estimacionesineficientes se usan con frecuencia a causa de larelativa sencillez con que se obtienen algunas de ellas.Estimaciones de punto y estimaciones de intervalo, sufiabilidad, una estimación de un parámetro de lapoblación dada por un solo número se llama una estimaciónde punto del parámetro. Una estimación de un parámetro dela población dada por dos puntos, entre los cuales sepueden considerar encajado al parámetro, se llama unaestimación del intervalo del parámetro. Las estimacionesde intervalo que indican la precisión de una estimación yson por tanto preferibles a las estimaciones de punto

La Inferencia Estadística comprende los métodos que sonusados para sacar conclusiones de la población en base auna muestra tomada de ella. Incluye los métodos deestimación de parámetros y las pruebas de hipótesis.

La Estimación de parámetros comprende a su vez laEstimación Puntual, en donde se estudian los diversosmétodos de encontrar estimadores y las propiedadesóptimas que deben tener éstos, y la Estimación porIntervalos de Confianza, en donde se estima un parámetrousando un intervalo centrado en un estimado delparámetro y de longitud igual a dos veces el error deestimación. El Error de estimación depende del nivel deconfianza deseado, usualmente, 90, 95 ó 99 por ciento.

6

En este texto solamente se tratará el cálculo deintervalos de confianza. Los diversos métodos deencontrar estimadores y, las propiedades de estimadoresóptimos son discutidos en un curso de EstadísticaMatemática.

Una Hipótesis Estadística es una afirmación que se haceacerca de un parámetro poblacional. La afirmación queestá establecida y que se espera sea rechazada después deaplicar una prueba estadística es llamada la hipótesisnula y se representa por Ho. La afirmación que se esperasea aceptada después de aplicar una prueba estadística esllamada la hipótesis alterna y se representa por Ha.

Una prueba estadística es una fórmula, basada en ladistribución del estimador del parámetro que aparece enla hipótesis y que va a permitir tomar una decisiónacerca de aceptar o rechazar una hipótesis nula.

Al igual que una prueba de laboratorio para detectarcierta enfermedad, una prueba estadística no es cientopor ciento segura y puede llevar a una conclusiónerrónea. Hay dos tipos de errores que pueden ocurrir. Elerror tipo I, que se comete cuando se rechaza unahipótesis nula que realmente es cierta y el error tipo IIque se comete cuando se acepta una hipótesis nula querealmente es falsa.

El nivel de significación, representada por , es laprobabilidad de cometer error tipo I, y por lo general seasume que tiene un valor de 0.05 ó 0.01.También puede serinterpretado como el área de la región que contiene todoslos valores posibles donde la hipótesis nula esrechazada.

7

La probabilidad de cometer error tipo II, se representapor y al valor 1- se le llama la potencia de laprueba. Una buena prueba estadística es aquella que tieneuna potencia alta. En este capítulo, primero se discutiráel cálculo de intervalos de confianza y pruebas dehipótesis para la media poblacional, para una proporcióny finalmente para la varianza de una población. Luego setratará los intervalos de confianza y prueba dehipótesis para la razón de dos varianzas poblacionales,para la diferencia de dos medias poblacionales y porúltimo para la diferencia de dos proporciones.

Estimaciones de Intervalos de Confianza para parámetrosde población. Sean la media y la desviacióntípica (error típico) de la distribución de muestreo deun estadístico S. Entonces, si la distribución demuestreo de s es aproximadamente normal (que como hemosvisto es cierto para muchos estadísticos si el tamaño dela muestra es N , entonces, podemos esperar hallarun estadístico muestral real S que esté en el intervalo

, , en un 68.27%, 95.45% y 99.70 %, respectivamente.

En la tabla siguiente, se muestran los niveles deconfianza usados en la práctica. Para niveles deconfianza que no aparecen en la tabla, los valores Zc sepueden encontrar gracias a las tablas de áreas bajo lacurva Normal.

Nivelde

confianza %

99.70 99.00 98.00 96.00 95.4595.00 90.00 80.00 68.27 50.00

Zc 3.00 2.58 2.33 2.052.00 1.96 1.645 1.28 1.00

8

0.6745

Intervalos de confianza para la media. Si el estadísticoes de la media de X de la muestra, entonces los limitesde confianza , respectivamente. Si elmuestreo de la población es infinita por lo tanto vienedado por

Ejemplo. Halar los límites de confianza de 98% y 90%. Loanterior tiene la solución, sea Z =Z tal que, al áreabajo la curva Normal a la derecha sea 1%, entonces, porsimetría el área del lado izquierdo de Z=-Z. como elárea total bajo la curva es 1, Z=0.49 por tanto, Z=2.33,

luego el limite de confianza para el 98% es,

Generalmente, la desviación típica de la población no esconocida. Así pues, para obtener los limites usamos laestimación s o S es satisfactorio si N 30, si aaproximación es pobre y debe de empleare la teoría depequeñas muestras.

Cálculo del tamaño de la muestra. A la hora de determinarel tamaño que debe alcanzar una muestra hay que tomar encuenta varios factores, el tipo de muestreo, el parámetroa estimar, el error muestral admisible, la varianzapoblacional y el nivel de confianza. Por ello antes depresentar algunos casos sencillos de cálculo del tamañomuestral delimitemos estos factores.

Parámetro. Son las medidas o datos que se obtienen sobrela población.

9

Estadístico. Los datos o medidas que se obtienen sobreuna muestra y por lo tanto una estimación de losparámetros.

Error Muestral. Es la diferencia entre un estadístico ysu parámetro correspondiente. Es una medida de lavariabilidad de las estimaciones de muestras repetidas entorno al valor de la población, nos da una noción clarade hasta dónde y con qué probabilidad una estimaciónbasada en una muestra se aleja del valor que se hubieraobtenido por medio de un censo completo. Siempre secomete un error, pero la naturaleza de la investigaciónnos indicará hasta qué medida podemos cometerlo (losresultados se someten a error muestral e intervalos deconfianza que varían muestra a muestra). Varía según secalcule al principio o al final. Un estadístico será máspreciso en cuanto y tanto su error es más pequeño.Podríamos decir que es la desviación de la distribuciónmuestral de un estadístico y su fiabilidad.

Nivel de Confianza. Probabilidad de que la estimaciónefectuada se ajuste a la realidad. Cualquier informaciónque queremos recoger está distribuida según una ley deprobabilidad, así llamamos nivel de confianza a laprobabilidad de que el intervalo construido en torno a unestadístico capte el verdadero valor del parámetro.

Varianza Poblacional. Cuando una población es máshomogénea la varianza es menor y el número de entrevistasnecesarias para construir un modelo reducido deluniverso, o de la población, será más pequeño.Generalmente es un valor desconocido y hay que estimarloa partir de datos de estudios previos.

Tamaño de muestra para estimar la media de la población.Veamos los pasos necesarios para determinar el tamaño de

10

una muestra empleando el muestreo aleatorio simple. Paraello es necesario partir de dos supuestos: en primerlugar el nivel de confianza al que queremos trabajar; ensegundo lugar, cual es el error máximo que estamosdispuestos a admitir en nuestra estimación. Así pues lospasos a seguir son:

Obtener el tamaño muestral imaginando que , siendo el Z con el valor del nivel de confianza elegido,

varianza poblacional y e el error máximo

o aplicar

Para obtener el tamaño de la muestra si hay grandesdiferencias en el tamaño muestral o hay escasez deinformación

Ejemplo, Una población a encuestar tiene 10000 personas yuna varianza de 9.648. Trabajando con un nivel deconfianza de 0.95 y estando dispuestos a admitir un errormáximo del 10%, ¿cuál debe ser el tamaño muestral paratrabajar?En las tablas de la curva Normal el valor de quecorresponde con el nivel de confianza elegido,

Comprobamos que no se cumple, pues en este caso 10.000 <3.706 (3.706 - 1); 10.000 < 13.730.730, por tanto, usamos

Tamaño de muestra para estimar la proporción de lapoblación. Para calcular el tamaño de muestra para la

11

estimación de proporciones poblaciones hemos de tener encuenta los mismos factores que en el caso de la media. Lafórmula que nos permitirá determinar el tamaño muestrales la siguiente,

Donde, correspondiente al Z con el nivel deconfianza elegido, P es la proporción de una categoría dela variable, e es el error máximo, y N es el tamaño de lapoblación.

Una parte fundamental para realizar un estudioestadístico de cualquier tipo es obtener unos resultadosconfiables y que puedan ser aplicables. Como ya secomentó anteriormente, resulta casi imposible oimpráctico llevar a cabo algunos estudios sobre toda unapoblación, por lo que la solución es llevar a cabo elestudio basándose en un subconjunto de ésta denominadamuestra. Sin embargo, para que los estudios tengan lavalidez y confiabilidad buscada es necesario que talsubconjunto de datos, o muestra, posea algunascaracterísticas específicas que permitan, al final,generalizar los resultados hacia la población en total.

Esas características tienen que ver principalmente con eltamaño de la muestra y con la manera de obtenerla. Elmuestro, implica algo de incertidumbre que debe seraceptada para poder realizar el trabajo, pues aparte deque estudiar una población resulta ser un trabajo enocasiones demasiado grande, por tanto, se ofrecen lassiguientes razones extras:

- Recursos limitados. Es decir, no existen los recursoshumanos, materiales o económicos para realizar el

12

estudio sobre el total de la población. Es como cuandose compra un aparato, un automóvil usado (por ejemplo),que se prueba unos minutos (el encendido, unacarrerita, etc.) para ver si funciona correctamente yluego se adquiere, pero no se espera a probarlo toda lavida (encendiéndolo y apagándolo o, simplemente,dejándolo encendida) antes de realizar la adquisición.

- Escasez. Es el caso en que se dispone de una solamuestra. Por ejemplo, para el estudio paleontológico delos dinosaurios sería muy bueno contar con, al menos,muchos restos fósiles y así realizar talesinvestigaciones; sin embargo, se cuenta sólo con unadocena de esqueletos fosilizados (casi todosincompletos) de esas criaturas en todo el mundo.

- Pruebas destructivas. Es el caso en el que realizar elestudio sobre toda la población llevaría a ladestrucción misma de la población.

- El muestreo puede ser más exacto. Esto es en el caso enel que el estudio sobre la población total puede causarerrores por su tamaño o, en el caso de los censos, quesea necesario utilizar personal no lo suficientementecapacitado; mientras que, por otro lado, el estudiosobre una muestra podría ser realizada con menospersonal pero más capacitado.

Para calcular el tamaño de una muestra hay que tomar encuenta tres factores:- El porcentaje de confianza con el cual se quiere

generalizar los datos desde la muestra hacia lapoblación total.

- El porcentaje de error que se pretende aceptar almomento de hacer la generalización.

13

- El nivel de variabilidad que se calcula para comprobarla hipótesis.

La confianza o el porcentaje de confianza es elporcentaje de seguridad que existe para generalizar losresultados obtenidos. Esto quiere decir que un porcentajedel 100% equivale a decir que no existe ninguna duda parageneralizar tales resultados, pero también implicaestudiar a la totalidad de los casos de la población.Para evitar un costo muy alto para el estudio o debido aque en ocasiones llega a ser prácticamente imposible elestudio de todos los casos, entonces se busca unporcentaje de confianza menor. Comúnmente en lasinvestigaciones sociales se busca un 95%.

El error o porcentaje de error equivale a elegir unaprobabilidad de aceptar una hipótesis que sea falsa comosi fuera verdadera, o la inversa: rechazar a hipótesisverdadera por considerarla falsa. Al igual que en el casode la confianza, si se quiere eliminar el riesgo delerror y considerarlo como 0%, entonces la muestra es delmismo tamaño que la población, por lo que conviene correrun cierto riesgo de equivocarse. Comúnmente se aceptanentre el 4% y el 6% como error, tomando en cuenta de queno son complementarios la confianza y el error.

La variabilidad es la probabilidad (o porcentaje) con elque se aceptó y se rechazó la hipótesis que se quiereinvestigar en alguna investigación anterior o en unensayo previo a la investigación actual. El porcentajecon que se aceptó tal hipótesis se denomina variabilidadpositiva y se denota por p, y el porcentaje con el que serechazó se la hipótesis es la variabilidad negativa,denotada por q. Hay que considerar que p y q soncomplementarios, es decir, que su suma es igual a launidad: p+q=1. Además, cuando se habla de la máxima

14

variabilidad, en el caso de no existir antecedentes sobrela investigación (no hay otras o no se pudo aplicar unaprueba previa), entonces los valores de variabilidad esp=q=0.5.

Una vez que se han determinado estos tres factores,entonces se puede calcular el tamaño de la muestra como acontinuación se expone. Hablando de una población dealrededor de 10,000 casos, o mínimamente esa cantidad,podemos pensar en la manera de calcular el tamaño de lamuestra a través de las siguientes fórmulas. Hay quemencionar que estas fórmulas se pueden aplicar de maneraaceptable pensando en instrumentos que no incluyanpreguntas abiertas y que sean un total de alrededor de30.

Vamos a presentar dos fórmulas, siendo la primera la quese aplica en el caso de que no se conozca con precisiónel tamaño de la población, y es:

Donde, n es el tamaño de la muestra; z es el nivel deconfianza; p es la variabilidad positiva; q es lavariabilidad negativa; y e es la precisión o error.

Ejemplo: Si se quiere un porcentaje de confianza del 95%,entonces hay que considerar la proporcióncorrespondiente, que es 0.95. Lo que se buscaría enseguida es el valor z para la variable aleatoria z talque el área simétrica bajo la curva normal desde -z hasta zsea igual a 0.95, es decir, P(-z<Z<z)=0.95.

Utilizando las tablas de la función de distribuciónNormal se puede calcular el valor de z, que sería 1.96

15

(con una aproximación a dos decimales). Esto quiere decirque P(-1.96<Z<1.96)=0.95.

En el caso de que sí se conozca el tamaño de la poblaciónentonces se aplica

Donde, n es el tamaño de la muestra; z es el nivel deconfianza; p es la variabilidad positiva; q es lavariabilidad negativa; y e es la precisión o error.

Ejemplo: Un Colegio desea realizar una investigaciónsobre los alumnos inscritos en primer y segundo años,para lo cual se aplicará un cuestionario de maneraaleatoria a una muestra, pues los recursos económicos yel tiempo para procesar la información resultaríainsuficiente en el caso de aplicársele a la poblaciónestudiantil completa. En primera instancia, suponiendoque no se conoce el tamaño exacto de la población, perocon la seguridad de que ésta se encuentra cerca a losdiez millares, se aplicará la primera fórmula.

Se considerará una confianza del 95%, un porcentaje deerror del 5% y la máxima variabilidad por no existirantecedentes en la institución sobre la investigación yporque no se puede aplicar una prueba previa. Primerohabrá que obtener el valor de Z de tal forma que laconfianza sea del 95%, es decir, buscar un valor de Z talque P(-z<Z<z)=0.95. Entonces, z=1.96. Resultando,n=384.16

Las técnicas de muestreo probabilística son aquellas enlas que se determina al azar los individuos queconstituirán la muestra. Estas técnicas nos sirven cuando

16

se desean generalizar los resultados que se obtienen apartir de la muestra hacia toda la población. Lo anteriorse dice dado que se supone que el proceso aleatoriopermitirá la obtención de una muestra representativa dela población.

Los muestreos probabilísticas pueden ser con o sinreemplazo. Los muestreos con reemplazo son aquellos enlos que una vez que ha sido seleccionado un individuo (yestudiado) se le toma en cuenta nuevamente al elegir elsiguiente individuo a ser estudiado. En este caso cadauna de las observaciones permanece independiente de lasdemás, pero con poblaciones pequeñas tal procedimientodebe ser considerado ante la posibilidad de repetirobservaciones. En el caso de poblaciones grandes noimporta tal proceder, pues no afecta sustancialmente unarepetición a las frecuencias relativas.

Los muestreos sin reemplazo son los que una vez que se hatomado en cuenta un individuo para formar parte de lamuestra, no se le vuelve a tomar en cuenta nuevamente. Eneste caso, y hablando específicamente para el caso depoblaciones pequeñas, las observaciones son dependientesentre sí, pues al no tomar en cuenta nuevamente elindividuo se altera la probabilidad para la selección deotro individuo de la población. Para el caso de laspoblaciones grandes (por ejemplo la población de un país)dicha probabilidad para la selección de un individuo semantiene prácticamente igual, por lo que se puede decirque existe independencia en las observaciones.

Las técnicas de muestreo probabilística que mencionaremosserán básicamente tres: el aleatorio simple, el aleatorioestratificado y el sistemático.

17

- Muestreo aleatorio simple. Podemos aquí mencionar quepara el caso de que se estuviese estudiando unpropoción dentro de la población (una elección decandidato, la aceptación o rechazo de una propuesta enuna comunidad, la presencia o ausencia de unacaracterística hereditaria), y el en caso de unmuestreo aleatorio simple, la estimación que se puedehacer de la proporción buscada a partir de laproporción hallada en la muestra se obtiene mediante laconstrucción de un intervalo de confianza: = P ± tolerancia de la muestra

Donde es la proporción buscada en la población y P esla proporción presente en la muestra. Por otro lado, latolerancia de la muestra está relacionada directamentecon el nivel de confianza y se obtiene a partir de ladistribución normal al igual que como se obtuvo para elcálculo del tamaño de las muestras. La representaremoscon z para obtener,

- Muestras aleatorias. Para que las conclusiones de lateoría del muestreo y de la inferencia estadística seanvalidas, las muestras deben escogerse representativasde la población. El análisis de los métodos de muestreoy problemas relacionados se llaman el diseño delexperimento.

- Muestras no aleatorias. Cuando el método de extracciónde las muestras no asegure a cada individuo de lapoblación o del estrato, igual probabilidad de serelegido, entonces la muestra obtenida no es aleatoria.A veces, esto se hace por razones de practicidad en elsentido del costo o del tiempo. Si se desea tomar una

18

muestra probabilística de la población argentina noparece razonable usar a cada individuo como unidad demuestreo. Lo mismo cuando se desea hacer un muestreo alos escolares de una provincia, es muy difícilempadronar a todos primero para luego sortear, y setardaría demasiado para ubicarlos uno por uno hastaterminar el trabajo.

- En el muestreo de etapas múltiples se utiliza para elcaso de grandes poblaciones humanas. Acá, la unidad demuestreo en la primera etapa son los departamentos decada provincia. Se los lista y se hace un primer sorteopara la selección. En una segunda etapa se distingue lapoblación rural de la urbana, subdividiendo enfracciones (diferentes superficies con densidad depoblación semejante). Otra vez se sortea para elegir, yse continúa con otra división en radios dentro de lasfracciones, segmentos dentro de radios, y asísucesivamente. La razón es repartir equitativamente eltrabajo del encuestador.

- En el muestreo por conglomerados se eligen conjuntosdonde naturalmente se agrupan los individuos. Es, porejemplo, el caso de las escuelas para hacer un muestreoalumnos en el sistema educativo, o las facultades paralos universitarios. Si se trata de estudiar lascondiciones laborales de los empleados de comercio quetrabajan en supermercados, primero se empadronan a loslugares naturales de trabajo (supermercados), y luegose sortea entre estos conglomerados para elegir a uno.Luego se entrevista a todos los empleados delsupermercado elegido, y se acepta esto como una muestrarepresentativa del sector.

- El muestreo sistemático se usa para el caso desucesiones de elementos. Por ejemplo, el caso de las

19

historias clínicas de pacientes, certificados denacimiento, tarjetas de catálogo en una biblioteca,etc. Son los casos donde la información está enarchivos y hay que trabajar con estos para obtenerlas.Se elige una cifra entera, razonable, tomando en cuentael tamaño de la muestra y el de la población. Porejemplo, hay que tomar una muestra de tamaño 25 de unarchivo que contiene 488 fichas; luego, el cocienteentre población y muestra es 488 /25, aproximadamente19. Notar que si se elige 20 el tamaño muestral nollega a 25. Entonces, se cuentan las fichas y a llegara la décimo novena se la extrae, se sigue hasta lanúmero 38 que será la segunda escogida, y asísucesivamente hasta tener las 25 fichas necesarias. Estambién el caso de los soldados que se numeran de 1 enadelante y cada 5 (u otro número cualquiera) dan unpaso al frente. Es un método sencillo y rápido deselección.

a.Números Aleatorios. Una forma para obtener una muestrarepresentativa es mediante el muestreo aleatorio, deacuerdo con el cual, cada miembro de la población tienela misma probabilidad de ser incluido en la muestra. Unmétodo para lograrlo es asignarle a cada uno un número,escribir cada número en una papeleta, y realizar en unaurna un soporte justo en ella. Un método alternativoconsiste en recurrir una tabla de números aleatorios.

b. Sistemático. Es análogo al anterior, aunque resultamás cómoda la elección de los elementos. Si hemos deelegir 40 elementos de un grupo de 600, se comienza porcalcular el cociente 600/40 que nos dice que existen 40grupos de 15 elementos entre los 600. Se elige unelemento de salida entre los 15 primeros, y suponiendoque sea el k-ésimo, el resto de los elementos serán losk-ésimos de cada grupo. En concreto, si el elemento de

20

partida es el número 6, los restantes serán los quetengan los números: 15+6 ,2x15+6,......,39x15+6

Este procedimiento simplifica enormemente la elecciónde elementos, pero puede dar al traste con larepresentatividad de la muestra, cuando los elementosse hayan numerados por algún criterio concreto, y losk-ésimos tienen todos una determinada característica,que haga conformarse una muestra no representativa.

c. Estratificado. A veces nos interesa, cuando laspoblaciones son muy grandes, dividir éstas en sub-poblaciones o estratos, sin elementos comunes, y quecubran toda la población. Una vez hecho esto podemoselegir, por muestreo aleatorio simple, de cada estrato,un número de elementos igual o proporcional al tamañodel estrato. Este procedimiento tiene la gran ventajade que se puede obtener una mayor precisión enpoblaciones no homogéneas (aunque en este curso noestudiaremos los métodos necesarios) Si decidiéramoshacer una encuesta sobre la incidencia del tabaco ennuestro centro, podríamos razonar de la siguienteforma:

MUESTRA CON Y SIN REPOSICION

Si sacamos el número de una urna, podemos volverlos enella o no, antes de la siguiente extracción. En el primercaso, ese número puede salir de nuevo más veces, mientrasque en el segundo pueda salir cada número una vez. Estosdos tipos de muestras se llaman, respectivamente,Muestras con reposición y muestra sin reposición. Laspoblaciones son finitas o infinitas. Si por ejemplo,sacamos 10 bolas sucesivamente, sin reposición, de unaurna que contiene 100 bolas, estamos tomando muestra depoblación finita; mientras que si lanzamos 50 veces una

21

moneda contamos el número de caras, estamos ante unamuestra población infinita. Una población finita en laque se efectúa muestra con reposición, puede considerarseinfinita teóricamente, ya que puede tomar cualquiernúmero de muestras sin agotarla. Para muchos efectosprácticos, una población muy grande se puede considerarcomo si fuera infinita.

PEQUEÑAS MUESTRAS

En este capítulo se presentan tres nuevos modelosestadísticos: el llamado t-Student, el modelo de la Chi-cuadrado χ2 y el modelo F-Fisher. Los tres no requierenya más del supuesto de un tamaño muestral grande. Ahoracon dos o más mediciones se puede trabajar; por eso seusa la expresión Teoría de pequeñas muestras para estetema. El empleo de cualquiera de ellos es enteramentesimilar al visto en el capítulo anterior. Cambia lamanera de calcular el estadígrafo de comparación y surespectiva tabla de valores críticos de la distribuciónmuestral.

Mientras que el modelo de la t se aplica a medias yproporciones, los dos últimos se usan para el estudio delas desviaciones o dispersiones. También se la llamaTeoría Exacta del Muestreo, pues ahora no hay queefectuar la aproximación σ² ya que el valor muestralviene en la fórmula de cálculo del estadígrafo decomparación, en lugar del poblacional. Eso hace que nosea necesario efectuar una estimación y se tiene unamayor exactitud que con la gaussiana. Es importantedestacar que los tres modelos son válidos tanto parapequeñas como para grandes muestras. Esto amplía el campode aplicación del modelo de Gauss. Además, al no tenerque hacer tantas pruebas disminuye el costo y se gana entiempo. Todas estas ventajas tienen una contrapartida: se

22

pierde un poco de precisión pues, como se verá, elintervalo de confianza se hace más grande para un mismocaso.

El propósito de un estudio estadístico suele ser, comohemos venido citando, extraer conclusiones acerca de lanaturaleza de una población. Al ser la población grande yno poder ser estudiada en su integridad en la mayoría delos casos, las conclusiones obtenidas deben basarse en elexamen de solamente una parte de ésta, lo que nos lleva,en primer lugar a la justificación, necesidad ydefinición de las diferentes técnicas de muestreo. Los primeros términos obligados a los que debemos hacerreferencia, definidos en el primer capítulo, serán los deestadístico y estimador.

Dentro de este contexto, será necesario asumir unestadístico o estimador como una variable aleatoria conuna determinada distribución, y que será la pieza claveen las dos amplias categorías de la inferenciaestadística: la estimación y el contraste de hipótesis. El concepto de estimador, como herramienta fundamental,lo caracterizamos mediante una serie de propiedades quenos servirán para elegir el ``mejor" para un determinadoparámetro de una población, así como algunos métodos parala obtención de ellos, tanto en la estimación puntualcomo por intervalos. ¿Cómo deducir la ley de probabilidad sobre determinadocarácter de una población cuando sólo conocemos unamuestra?

Este es un problema al que nos enfrentamos cuando porejemplo tratamos de estudiar la relación entre el fumar yel cáncer de pulmón e intentamos extender las conclusionesobtenidas sobre una muestra al resto de individuos de lapoblación. La tarea fundamental de la estadística

23

inferencial, es hacer inferencias acerca de la poblacióna partir de una muestra extraída de la misma.

TÉCNICAS DE MUESTREO SOBRE UNA POBLACIÓN

La teoría del muestreo tiene por objetivo, el estudio delas relaciones existentes entre la distribución de uncarácter en dicha población y las distribuciones de dichocarácter en todas sus muestras. Las ventajas de estudiaruna población a partir de sus muestras sonprincipalmente:

Coste reducido: Si los datos que buscamos los podemosobtener a partir de una pequeña parte del total de lapoblación, los gastos de recogida y tratamiento de losdatos serán menores. Por ejemplo, cuando se realizanencuestas previas a un referéndum, es más baratopreguntar a 4.000 personas su intención de voto, que a30.000.000;

Mayor rapidez: Estamos acostumbrados a ver cómo con losresultados del escrutinio de las primeras mesaselectorales, se obtiene una aproximación bastante buenadel resultado final de unas elecciones, muchas horasantes de que el recuento final de votos haya finalizado;

Más posibilidades: Para hacer cierto tipo de estudios,por ejemplo el de duración de cierto tipo de bombillas,no es posible en la práctica destruirlas todas paraconocer su vida media, ya que no quedaría nada quevender. Es mejor destruir sólo una pequeña parte de ellasy sacar conclusiones sobre las demás. De este modo se veque al hacer estadística inferencial debemos enfrentarnoscon dos problemas: - Elección de la muestra (muestreo), que es a lo que nos

dedicaremos en este capítulo.

24

- Extrapolación de las conclusiones obtenidas sobre lamuestra, al resto de la población (inferencia).

El tipo de muestreo más importante es el muestreoaleatorio, en el que todos los elementos de la poblacióntienen la misma probabilidad de ser extraídos; Aunquedependiendo del problema y con el objetivo de reducir loscostes o aumentar la precisión, otros tipos de muestreopueden ser considerados como veremos más adelante:muestreo sistemático, estratificado y por conglomerados.

Muestreo aleatorio. Consideremos una población finita, dela que deseamos extraer una muestra. Cuando el proceso deextracción es tal que garantiza a cada uno de loselementos de la población la misma oportunidad de serincluidos en dicha muestra, denominamos al proceso deselección muestreo aleatorio. El muestreo aleatorio se puede plantear bajo dos puntosde vista: - Sin reposición de los elementos; - Con reposición.

Muestreo aleatorio sin reposición. Consideremos unapoblación E formada por N elementos. Si observamos unelemento particular, e pertenece a E, en un muestreoaleatorio sin reposición se da la siguientecircunstancia: - La probabilidad de que e sea elegido en primer lugar es

1/N; - Si no ha sido elegido en primer lugar (lo que ocurre

con una probabilidad de (N-1)/N, la probabilidad de quesea elegido en el segundo intento es de 1/(N-1).

- en el (i+1)-ésimo intento, la población consta de N-ielementos, con lo cual si e no ha sido seleccionadopreviamente, la probabilidad de que lo sea en estemomento es de 1/(N-i).

25

Si consideramos una muestra de n≤N elementos, donde elorden en la elección de los mismos tiene importancia, laprobabilidad de elección de una muestra M=(e1,…,en)cualquiera es P(M)=P(e1,…,en)=P(e1)*P(e2/e1)*…P(en/e1,...,en-1)

lo que corresponde en el sentido de la definición deprobabilidad de Laplace a un caso posible entre las VN,n

posibles n-uplas de N elementos de la población. Si elorden no interviene, la probabilidad de que una muestraM=(e1,…,en) sea elegida es la suma de las probabilidadesde elegir una cualquiera de sus n-uplas, tantas vecescomo permutaciones en el orden de sus elementos seaposible, es decir P(M)=P(e1,…,en)=n!*P(e1,...,en)

Muestreo aleatorio con reposición. Sobre una población Ede tamaño N podemos realizar extracciones de n elementos,pero de modo que cada vez el elemento extraído esrepuesto al total de la población. De esta forma unelemento puede ser extraído varias veces. Si el orden enla extracción de la muestra interviene, la probabilidadde una cualquiera de ellas, formada por n elementos es:

Si el orden no interviene, la probabilidad de una muestracualquiera, será la suma de la anterior, repitiéndolatantas veces como manera de combinar sus elementos seaposible. Es decir,

26

- sea n1 el número de veces que se repite cierto elementoe1 en la muestra;

- sea n2 el número de veces que se repite cierto elementoe2;

- sea nk el número de veces que se repite cierto elementoek,

de modo que n=n1+...+nk. Entonces la probabilidad deobtener la muestra n1 veces e1, n2 veces e2, y asísucesivamente hasta tener nk veces ek, es

El muestreo aleatorio con reposición es tambiéndenominado muestreo aleatorio simple, que como hemosmencionado se caracteriza por que - cada elemento de la población tiene la misma

probabilidad de ser elegido, y - las observaciones se realizan con reemplazo. De este

modo, cada observación es realizada sobre la mismapoblación (no disminuye con las extraccionessucesivas).

Sea X una variable aleatoria definida sobre la poblaciónE, y f(x) su ley de probabilidad.

En una muestra aleatoria simple, cada observación tienela distribución de probabilidad de la población:f(x1)=f(x2)=…f(xn)=f. Además todos las observaciones de lavariable aleatoria son independientes, es decir, f=f(x1,…xn)=f(x1)*…f(xn)

Tablas de números aleatorios. Un ejemplo de una tabla denúmeros aleatorios consiste en la lista de los números deLotería Nacional premiados a lo largo de su historia,

27

pues se caracterizan por que cada dígito tiene la mismaprobabilidad de ser elegido, y su elección esindependiente de las demás extracciones. Un modo dehacerlo es el siguiente. Supongamos que tenemos una listade números aleatorios de k=5 cifras (00000-99.999), unapoblación de N=600individuos, y deseamos extraer unamuestra de n=6 de ellos. En este caso ordenamos a toda lapoblación (usando cualquier criterio) de modo que a cadauno de sus elementos le corresponda un número del 1 al600. En segundo lugar nos dirigimos a la tabla de númerosaleatorios, y comenzando en cualquier punto extraemos unnúmero t, y tomamos como primer elemento de la muestra alelemento de la población:

El proceso se repite tomando los siguientes números de latabla de números aleatorios, hasta obtener la muestra de10 individuos. Las cantidades u=t/(10k) pueden serconsideradas como observaciones de una variable aleatoriaU, que sigue una distribución uniforme en el intervalo[0,1]

Método de Montecarlo. El método de Montecarlo es unatécnica para obtener muestras aleatorias simples de unavariable aleatoria X, de la que conocemos su ley deprobabilidad (a partir de su función de distribución F).Con este método, el modo de elegir aleatoriamente unvalor de X siguiendo usando su ley de probabilidad es: 1. Usando una tabla de números aleatorios se toma unvalor u de una variable aleatoria. 2. Si X es continua tomar como observación de X, lacantidad x=F-1(u). En el caso en que X sea discreta setoma x como el percentil 100-u de X, es decir el valormás pequeño que verifica que F(x)≥u

28

Este proceso se debe repetir n veces para obtener unamuestra de tamaño n.

Ejemplo, Si queremos extraer n=10 muestras de unadistribución N(0,1) podemos recurrir a una tabla denúmeros aleatorios de k=5cifras, en las que observamoslas cantidades, por ejemplo, 76.293, 31.776, 50.803,71.153, 20.271, 33.717, 17.979, 52.125, 41.330, 95.141A partir de ellas podemos obtener una muestra de X~N(0,1)usando una tabla de la distribución normal:

Númerosaleatorios

MuestraU(0,1)

MuestraN(0,1)

ti ui=ti/105 xi = F-1(ui)76.293 0.76 0.7131.776 0.32 (=1-0'68) -0.4750.803 0.51 0.0371.153 0.71 0.5520.271 0.20(=1-0'80) -0.8433.717 0.34(=1-0'66) -0.4117.979 0.18(=1-0'82) -0.9252.125 0.52 0.0541.330 0.41(=1-0'59) -0.2395.141 0.95 1.65

Obsérvese que como era de esperar, las observaciones xi

tienden a agruparse alrededor de la esperanza matemáticade Xi~N(0,1). Por otra parte, esto no implica que elvalor medio de la muestra sea necesariamente cero. Sinembargo como sabemos por el teorema de Fisher que

29

su dispersión con respecto al valor central es pequeña,lo que implica que probablemente el valor medio estarámuy próximo a 0, cuyo valor es 0.012

Obsérvese que si el problema fuese el inverso, dondeúnicamente conociésemos las observaciones xi y que elmecanismo que generó esos datos hubiese sido unadistribución normal de parámetros desconocidos, con lamedia obtenida hubiésemos tenido una buena aproximacióndel parámetro m desconocido. Muestreo aleatorio estratificado. Un muestreo aleatorioestratificado es aquel en el que se divide la poblaciónde N individuos, en k subpoblaciones o estratos,atendiendo a criterios que puedan ser importantes en elestudio, de tamaños respectivos N1, ..., Nk, tal que N=N1+ ...+Nk

y realizando en cada una de estas subpoblacionesmuestreos aleatorios simples de tamaño ni , de donde i=1,…,k.

Ejemplo, Supongamos que realizamos un estudio sobre lapoblación de estudiantes de una Universidad, en el que através de una muestra de 10 de ellos queremos obtenerinformación sobre el uso de barras de labios. En primeraaproximación lo que procede es hacer un muestreoaleatorio simple, pero en su lugar podemos reflexionarsobre el hecho de que el comportamiento de la poblacióncon respecto a este carácter no es homogéneo, yatendiendo a él, podemos dividir a la población en dosestratos: - Estudiantes masculinos (60% del total); - Estudiantes femeninos (40% restante). de modo que se repartan proporcionalmente ambos grupos el

número total de muestras, en función de sus respectivos

30

tamaños (6 varones y 4 mujeres). Esto es lo que sedenomina asignación proporcional.

Si observamos con más atención, nos encontramos (salvosorpresas de probabilidad reducida) que el comportamientode los varones con respecto al carácter que se estudia esmuy homogéneo y diferenciado del grupo de las mujeres.Por otra parte, con toda seguridad la precisión sobre elcarácter que estudiamos, será muy alta en el grupo de losvarones aunque en la muestra haya muy pocos (pequeñavarianza), mientras que en el grupo de las mujeres habrámayor dispersión. Cuando las varianzas poblacionales sonpequeñas, con pocos elementos de una muestra se obtieneuna información más precisa del total de la población quecuando la varianza es grande. Por tanto, si nuestrosmedios sólo nos permiten tomar una muestra de 10 alumnos,será más conveniente dividir la muestra en dos estratos,y tomar mediante muestreo aleatorio simple cierto númerode individuos de cada estrato, de modo que se elegiránmás individuos en los grupos de mayor variabilidad. Asíprobablemente obtendríamos mejores resultados estudiandouna muestra de 1 varón y 9 hembras. Esto es lo que sedenomina asignación óptima.

Asignación proporcional. Sea n el número de individuos dela población total que forman parte de alguna muestra:n=n1+…+nk. Cuando la asignación es proporcional el tamañode la muestra de cada estrato es proporcional al tamañodel estrato correspondiente con respecto a la poblacióntotal: ni=n*Ni/N

Asignación óptima. Cuando se realiza un muestreoestratificado, los tamaños muestrales en cada uno de losestratos, ni, los elige quien hace el muestreo, y paraello puede basarse en alguno de los siguientes criterios:

31

- Elegir los ni de tal modo que se minimice la varianzadel estimador, para un coste especificado, o bien,

- habiendo fijado la varianza que podemos admitir para elestimador, minimizar el coste en la obtención de lasmuestras.

Así en un estrato dado, se tiende a tomar una muestra másgrande cuando: - El estrato es más grande; - El estrato posee mayor variabilidad interna (varianza);- El muestreo es más barato en ese estrato. Para ajustar el tamaño de los estratos cuando conocemosla dispersión interna de cada uno de los mismos, tenemosel siguiente resultado:

Teorema de Neyman. Sea E una población con N elementos,dividida en k estratos, con Ni elementos cada uno deellos, i=1,…,k

Sea n el número total de elementos al realizar elmuestreo, y que se dividen en cada estrato como n=n1+…+nk

Sea X la variable aleatoria que representa el carácterque intentamos estudiar. Sobre cada estrato puededefinirse entonces la variable aleatoria como elvalor medio de X obtenida en una muestra de tamaño ni enel estrato Ei. Sea la varianza de dicha variablealeatoria; Entonces

se minimiza cuando

donde

32

es la cuasi-varianza del estrato Ei.

Muestreo sistemático. Cuando los elementos de lapoblación están ordenados en fichas o en una lista, unamanera de muestrear consiste en,- Sea k=N/n; - Elegir aleatoriamente un número m, entre 1 y k; - Tomar como muestra los elementos de la lista:(em,em+k,em+2k,…,em+(n-1)k)

Esto es lo que se denomina muestreo sistemático. Cuandoel criterio de ordenación de los elementos en la lista estal que los elementos más parecidos tienden a estar máscercanos, el muestreo sistemático suele ser más precisoque el aleatorio simple, ya que recorre la población deun modo más uniforme. Por otro lado, es a menudo másfácil no cometer errores con un muestreo sistemático quecon este último.

El método tal como se ha definido anteriormente essesgado si N/n no es entero, ya que los últimos elementosde la lista nunca pueden ser escogidos. Un modo de evitareste problema consiste en considerar la lista como sifuese circular (el elemento N+1 coincide con el primero)y: - Sea k el entero más cercano a N/n; - Se selecciona un número al azar m, entre 1 y N; - Se toma como muestra los elementos de la lista queconsisten en ir saltando de k elementos en k, a partir dem, teniendo en cuenta que la lista es circular. Se puede comprobar que con este método todos loselementos de la lista tienen la misma probabilidad deselección.

Muestreo por conglomerados. Si intentamos hacer unestudio sobre los habitantes de una ciudad, el muestreo

33

aleatorio simple puede resultar muy costoso, ya queestudiar una muestra de tamaño n implica enviar a losencuestadores a n puntos distintos de la misma, de modoque en cada uno de ellos sólo se realiza una entrevista.En esta situación es más económico realizar el denominadomuestreo por conglomerados, que consiste en elegiraleatoriamente ciertos barrios dentro de la ciudad, paradespués elegir calles y edificios. Una vez elegido eledificio, se entrevista a todos los vecinos.

Propiedades deseables de un estimador. Sea X una variablealeatoria cuya función de probabilidad (o densidad deprobabilidad si es continua) depende de unos parámetros

desconocidos. . Representamosmediante X1,…,Xn una muestra aleatoria simple de lavariable. Denotamos mediante fc a la función de densidadconjunta de la muestra, que por estar formada porobservaciones independientes, puede factorizarse delsiguiente modo:

Se denomina estimador de un parámetro i, a cualquiervariable aleatoria que se exprese en función de lamuestra aleatoria y que tenga por objetivo aproximar elvalor de qi,

Obsérvese que el estimador no es un valor concreto sinouna variable aleatoria, ya que aunque dependeunívocamente de los valores de la muestra observados(Xi=xi), la elección de la muestra es un procesoaleatorio. Una vez que la muestra ha sido elegida, sedenomina estimación el valor numérico que toma elestimador sobre esa muestra.

34

Intuitivamente, las características que serían deseablespara esta nueva variable aleatoria (que usaremos paraestimar el parámetro desconocido) deben ser:

- Consistencia. Cuando el tamaño de la muestra crecearbitrariamente, el valor estimado se aproxima alparámetro desconocido.

- Carencia de sesgo. El valor medio que se obtiene de laestimación para diferentes muestras debe ser el valordel parámetro.

- Eficiencia. Al estimador, al ser variable aleatoria, nopuede exigírsele que para una muestra cualquiera seobtenga como estimación el valor exacto del parámetro.Sin embargo podemos pedirle que su dispersión conrespecto al valor central (varianza) sea tan pequeñacomo sea posible.

- Suficiencia. El estimador debería aprovechar toda lainformación existente en la muestra.

Ejemplo, Consideremos una variable aleatoria de la quesólo conocemos que su ley de distribución es gaussiana,X~N(), con 1= y 2=2 desconocidos

Para muestras aleatorias de tamaño n=3, X1,X2,X3~N() unposible estimador del parámetro es

Carencia de sesgo. Se dice que un estimador de unparámetro es insesgado si . La carencia desesgo puede interpretarse del siguiente modo: Supongamosque se tiene un número indefinido de muestras de una

35

población, todas ellas del mismo tamaño n. Sobre cadamuestra el estimador nos ofrece una estimación concretadel parámetro que buscamos. Pues bien, el estimador esinsesgado, si sobre dicha cantidad indefinida deestimaciones, el valor medio obtenido en las estimacioneses (el valor que se desea conocer).

Consistencia. Decimos que es un estimador consistentecon el parámetro si

Teorema. Como consecuencia de de la desigualdad deChebyshev se puede demostrar el siguiente resultado ycondiciones, entonces esconsistente.

Eficiencia. Dados dos estimadores de un mismoparámetro , diremos que es más eficiente que si

Suficiencia. Diremos que es un estimadorsuficiente del parámetro si nodependa de para todo posible valor de .

Teorema de Fisher-Neyman. Sea ladistribución conjunta para las muestras de tamaño n, X1,…,Xn. Entonces es un estimador suficientesi y solo si se cumple,

, siendo huna función no negativa que no depende de y r unafunción que sólo depende del parámetro y de la muestra através del estimador.

36

CURVA CARACTERÍSTICA Y FUNCIÓN DE POTENCIA

Para calcular el error tipo II o se debe especificar lahipótesis alternativa como una hipótesis simple. Sinembargo, en la mayoría de los casos, esta hipótesis seplantea como compuesta. Al plantearse la hipótesisalternativa como compuesta, no se puede calcular el errortipo II asociado con la prueba. Sin embargo, para obviaresta dificultad lo que se hace es asignarle variosvalores a la hipótesis alternativa, calcular el errortipo II y realizar una curva con estos valores. Estacurva recibe el nombre de "Curva Característica Operativao Curva OC", y es muy empleada principalmente en estudiosde control de calidad.

Considérese la hipótesis alternativa de la siguientemanera:Ho: = 0 = 10 H1: > 0 n = 9, = 0.05

La región crítica de esta prueba está en c = 10.548, esdecir, se rechaza H0 = 10 si la media de la muestra esmayor de 10.548. Para construir la curva OC se presentanen la tabla siguiente diferentes valores de la hipótesisalternativa con sus respectivas probabilidades deaceptación. 9.6 9.8 10.

010.2

10.4

10.6

10.8

11.0

11.2

11.4

11.6

0.998

0.988

0.950

0.852

0.672

0.438

0.225

0.088

0.025

0.005

0.001

La siguiente es la Curva Característica Operativa ( vs) de la prueba de hipótesis planteada.

Si se tiene la hipótesis nula Ho: = 0 contra lahipótesis alternativa H1: = 1 el valor del error tipo II

37

se obtiene como una función de los valores alternativosde bajo H1, es decir, para cada valor de 1 se calcula , valor que a veces denotamos por (). La gráfica vs() recibe, como ya se dijo, el nombre de CurvaCaracterística Operativa, Curva OC, o curva CO.

Recordemos que ( es la probabilidad de aceptar lahipótesis nula H0 cuando la verdadera es la hipótesisalternativa H1. Por lo tanto, 1-() representa laprobabilidad de rechazar la hipótesis nula cuando laverdadera es la hipótesis alternativa, es decir,representa la probabilidad de rechazar hipótesis falsas.Sin embargo, en la mayoría de estudios diferentes a losde control de calidad, en vez de la curva característicaoperativa se emplea la gráfica denominada "Función dePotencia", donde se grafica vs 1-( ).

Función de Potencia de una prueba. La función P() = 1-() recibe el nombre de función de potencia, yrepresenta la probabilidad de rechazar la hipótesis nulacuando ésta es falsa, es decir, mide la probabilidad derechazar hipótesis falsas.

El valor de la potencia es 1- y puede interpretarse comola probabilidad de rechazar de manera correcta unahipótesis falsa. La potencia es una medida muy

38

descriptiva y concisa de la sensibilidad de una pruebaestadística, donde por sensibilidad se entiende lacapacidad de una prueba para detectar diferencia.Considere la siguiente prueba de hipótesis:Ho: = 0 = 10 H1: > 0 n = 9, = 0.05, ² =1.

Considere también las siguientes regiones críticas:A: Rechazar Ho si > 10.65 B: Rechazar Ho si >10.45

Para calcular () es necesario darle valores a , y deahí calcular la potencia 1-().P() = P( >c/ = 1) = 1-()Las tablas siguientes presentan los valores de loserrores tipo II y de la potencia para las pruebasplanteadas.

Potencia de la prueba P() 10.

010.2

10.4

10.6

10.8

11.0

11.2

11.4

11.6

11.8

PruebaA

0.026

0.089

0.227

0.440

0.674

0.853

0.951

0.988

0.998

1.000

PruebaB

0.089

0.227

0.440

0.674

0.853

0.951

0.988

0.998

1.000

1.000

Error tipo II () 10.

010.2

10.4

10.6

10.8

11.0

11.2

11.4

11.6

11.8

PruebaA

0.974

0.911

0.773

0.560

0.326

0.147

0.049

0.012

0.002

0.000

PruebaB

0.911

0.773

0.560

0.326

0.147

0.049

0.012

0.002

0.000

0.000

ESTIMACIÓN CONFIDENCIAL

39

La estimación confidencial consiste en determinar unposible rango de valores o intervalo, en los que puedaprecisarse --con una determinada probabilidad-- que elvalor de un parámetro se encuentra dentro de esoslímites. Este parámetro será habitualmente una proporciónen el caso de variables dicotómicas, y la media o lavarianza para distribuciones gaussianas.

La técnica de la estimación confidencial consiste enasociar a cada muestra un intervalo que se sospecha quedebe contener al parámetro. A éste se le denominaintervalo de confianza. Evidentemente esta técnica notiene porqué dar siempre un resultado correcto. A laprobabilidad de que hayamos acertado al decir que elparámetro estaba contenido en dicho intervalo se ladenomina nivel de confianza. También se denomina nivel designificación a la probabilidad de equivocarnos.

Estimación Puntual. La inferencia estadística estárelacionada con los métodos para obtener conclusiones ogeneralizaciones acerca de una población. Estasconclusiones sobre la población pueden estar relacionadas

40

ó con la forma de la distribución de una variablealeatoria, ó con los valores de uno o varios parámetrosde la misma.

El campo de la inferencia estadística se divide en dos:Por un lado tenemos el problema de la estimación de losparámetros de una distribución, y por el otro, laspruebas de hipótesis. En el problema de estimación setrata de elegir el valor de un parámetro de la población,mientras que en las pruebas de hipótesis se trata dedecidir entre aceptar o rechazar un valor especificado(por ejemplo, si la marca A es superior a la marca B).

A su vez el problema de la estimación se puede dividir endos áreas: La estimación puntual, y la estimación porintervalos de confianza. En forma similar, en el campo delas pruebas de hipótesis se pueden considerar dos áreas:Pruebas de hipótesis sobre parámetros, para determinar siun parámetro de una distribución toma o no un determinadovalor, y Pruebas de Bondad de Ajuste, para definir si unconjunto de datos se puede modelar mediante unadeterminada distribución.Inferencia Estadística Estimación Puntual

Intervalos de ConfianzaPruebas de Hipótesis Sobre Parámetros

Sobre Distribuciones

En este capítulo trataremos el problema de la estimación(mediante un solo valor) de los parámetros de unadistribución, y en el capítulo siguiente la estimación deparámetros mediante un intervalo, denominado intervalo deconfianza.

Estimación. En el problema de estimación se trata deelegir el valor de un parámetro de la población, segúnuna estrategia de la naturaleza.

41

Estimación puntual. La estimación puntual consiste enutilizar el valor de una estadística o un valorestadístico para calcular el parámetro de una población.Por ejemplo, cuando usamos la media muestral paraestimar la media de una población (), o la proporción deuna muestra P para estimar el parámetro de unadistribución binomial .Una estimación puntual de algún parámetro de unapoblación es un solo valor obtenido a partir de unestadístico.

Estimador. Se denomina estimador de un parámetro a unestadístico T = t(X1,X2,..., Xn) que es usado para estimarel valor del parámetro de una población. Al valorobservado del estadístico t = t(x1,x2,...,xn) se ledenomina estimativo de . Cuando hablamos del parámetro nos podemos estar refiriendo a un solo parámetro, o a unconjunto de parámetros desconocidos. Si el parámetro esestimado, lo representamos como . Es decir, = T =t(X1,X2,...,Xn)

Los estimadores son variables aleatorias, y por lo tantotienen una función de densidad, correspondiente a lasdistribuciones muéstrales. Por lo tanto, no hay ningúnestimador perfecto, ya que siempre habrá algún error enel proceso de estimación. Según lo anterior, debenestudiarse distintas propiedades estadísticas de losestimadores para decidir cual es el más apropiado.Algunas de las propiedades a estudiar corresponden alsesgo, mínima varianza, consistencia, eficiencia relativay suficiencia.

Para tratar de responder intuitivamente qué es un buenestimador, considere tres productos A, B y C para loscuales se hacen proyecciones de demanda. Suponga que al

42

analizar la información histórica de cada producto, secalcula la diferencia entre el pronóstico y el valor realpara cada producto, y sus distribuciones resultantes sonlas siguientes:

A: El método usado para pronosticar la demanda de A esel que mejor hace su trabajo, ya que queda más cercadel valor real y tiene una menor varianza.

B: Su pronóstico es aproximadamente igual al valorreal, pero tiene una mayor varianza.

C: Peor proyección ya que sobrestima la demanda.

En conclusión, si se desea estimar una parámetro ,entonces el estimador debe estar distribuido alrededor de, y tener mínima varianza. Sea X1,X2,...,Xn una muestraaleatoria proveniente de una población cuya función dedensidad es f(x, ). Sea T = t(X1,X2,...,Xn) unestadístico usado para estimar el parámetro . Nuestroproblema consiste en encontrar la "función t" queproporcione la mejor estimación del parámetro .

PROPIEDADES DE LOS ESTIMADORES

43

Estimadores insesgados. Como no hay ningún estimadorperfecto que de siempre la respuesta correcta, deberíahacerlo por lo menos en promedio. El valor esperado delestimador debería ser igual al parámetro que trata deestimar. En caso de que lo sea, se dice que el estimadores insesgado, en caso contrario se diría que es sesgado.

Definición. Un estadístico T es un estimador insesgadodel parámetro si y solo si E(T)= para todo . Encaso contrario decimos que es un estimador sesgado.

Sesgo. Si T es un estimador sesgado, la diferencia E(T) - recibe el nombre de sesgo.

Ejemplo. La media muestral es un estimador insesgado dela media poblacional ya que E( )=.

Ejemplo. T=X1 es un estimador insesgado de ya queE(X1)=

Ejemplo. Si X es Binomial (n,), demostrar que X/n es unestimador insesgado del parámetro .

Solución. Sea por lo tanto

es insesgado

Ejemplo. Sea X1, X2,..., Xn una muestra aleatoria conE(Xi)=. Demostrar que si entonces T = a1X1 +a2X2 +...+anXn es un estimador insesgado de .

Ejemplo: Si S² es la varianza de una muestra tomada alazar de una población infinita, entonces S² es unestimador insesgado de ². Previamente habíamosdemostrado que E(S²) = ².

44

Ejemplo. Si , será un estimador insesgado

de ²?. Se puede demostrar que

Ejemplo. Sea , será un estimador

insesgado de ² si es un parámetro conocido?.

Ejemplo. Será , un estimador insesgado

de la varianza ² de una población finita?. No, si lapoblación es finita de tamaño N, se puede demostrar queel estimador insesgado de ² Aunque S² es un estimadorinsesgado de la varianza de una población infinita, no esun estimador insesgado de la varianza de una poblaciónfinita. En ningún caso S es un estimador insesgado de

Ejemplo. Suponga que X, el tiempo de reacción a ciertoestímulo, tiene una distribución uniforme en el intervalode 0 a un límite superior (desconocido). Es decir,

Se desea estimar el parámetro con base en una muestraaleatoria X1, X2, ..., Xn de tiempos de reacción. Como es el tiempo máximo de reacción, para toda la población,se cumple que (X1, X2, ..., Xn), por lo cual podemosconsiderar como un primer estimador el siguienteestadístico:T1 = Máximo(X1, X2, ..., Xn).

Por ejemplo, si n = 5, y X = (12.4, 13.2, 15,7, 6.4,10.7) = X3 = 15.7.Es T1 un estimador insesgado de ?. S puede demostrar que

45

El sesgo b está dado por . Considere

. Es T2 un estimador insesgado de?

Si se tienen varios estimadores insesgados de unparámetro por lo general se escoge el que tenga la menorvarianza.

Estadísticos de orden. Sea X1, X2, ..., Xn una muestraaleatoria de tamaño n. Los valores se presentan deacuerdo al orden en que son tomados. Suponga que lamuestra se ordena de menor a mayor. Sea X(1) el menorvalor de la muestra, sea X(2) es segundo valor, X(i) elvalor que ocupa el puesto i al ordenar la muestra demenor a mayor, y finalmente sea X(n) el mayor valor de lamuestra. Esta muestra ordenada, X(1), X(2),..., X(i),...,X(n) recibe el nombre de "estadísticos de orden". Deacuerdo con lo anterior, los estadísticos T1 y T2

formulados en el párrafo anterior se pueden reformularcomo:

T1 = X(n)

Los estadísticos de orden son variables aleatorias, ycomo tales tienen una función de densidad, y se puedenusar para estimar los parámetros de las distribuciones.

Estimadores con mínima varianza. Si T1 y T2 son dosestimadores insesgados con varianzas V(T1)y V(T2),respectivamente, y V(T1) < V(T2), se dice que T1 es máseficiente que T2.Sea X1, X2, ..., Xn una muestra aleatoria de tamaño n.Sabemos que tanto como X1 son estimadores insesgados de. Sin embargo es más eficiente que X1 para estimar yaque V( ) = ²/n < V(X1) = ².

46

Eficiencia Relativa. Los estimadores insesgados suelencompararse en términos de sus respectivas varianzas. SiT1 y T2 son dos estimadores insesgados de un parámetro yla varianza de T1 es menor que la varianza de T2, se diceque T1 es más eficiente que T2. También se puede usar lasiguiente relación V(T1)/V(T2) para medir la eficienciarelativa de T2 con respecto a T1.

Ejemplo. Al calcular la media de una población normalsobre la base de una muestra de tamaño 2n+1, ¿cuál es laeficiencia de la mediana con relación a la media?Se sabe que la varianza de la media está dada por²/(2n+1). Para una muestra aleatoria de tamaño 2n+1 deuna población normal se sabe que el valor esperado y lavarianza de la mediana están dados por:

La eficiencia relativa está dada por:

La eficiencia asintótica de la mediana con respecto a lamedia está dada por:

la media muestral es un estimador más eficiente de lamedia poblacional que la mediana muestral.

La media requiere sólo el 64% de las observaciones querequiere la mediana para estimar la media poblacional con la misma confiabilidad. Estimador insesgado de mínimavarianza. Para saber si un estimador insesgado es de

47

mínima varianza o con sesgo mínimo, se usa la desigualdadde Crámer-Rao, dada en el siguiente teorema.

Teorema. Si T es un estimador insesgado de y

entonces, T es el estimador insesgado de mínima varianzade . La cantidad en el denominador se denomina la"información" que da la muestra acerca del parámetro .

Ejemplo. Demuestre que es el estimador insesgado demínima varianza de la media de una población normal.

Por lo tanto se tiene que

Como sabemos que es un estimador insesgado y suvarianza es igual ²/n entonces es el estimadorinsesgado de mínima varianza de .

Teorema. Sea X1, X2, ..., Xn una muestra aleatoria detamaño n de una población normal con media y varianza². Entonces el estimador es el "estimador

48

insesgado de mínima varianza" de , también denominadoMinimum Variance Unbiased Estimator.

Error cuadrático medio. Si T es un estimador sesgado deun parámetro es preferible juzgar sus méritos yrealizar las comparaciones de eficiencia sobre la basedel "error cuadrático medio".

Definición. Sea T cualquier estimador de un parámetro .Se define el error cuadrático medio como el valoresperado del cuadrado de la diferencia entre el estimadorT y el parámetro que trata de estimar. ECM(T) = E{(T -)2}

Para saber por qué es tan importante el error cuadráticomedio ECM, veamos cómo se puede expresar: ECM(T) = E{(T -)²} = E(T² - 2T + ²) = E(T²) - 2E(T) +²Sumando y restando [E(T)]² a ambos lados de la ecuaciónse tiene que:ECM(T) = {E(T²) - [E(T)]²}+ {[E(T)]² - 2E(T) + ²}ECM(T) = V(T) + [ - E(T)]²

De lo anterior se concluye que el ECM está compuesto pordos cantidades no negativas, que son:- La varianza del estimador T.- El cuadrado del sesgo del estimador.

Es decir, el ECM involucra las dos propiedades másimportantes de un estimador la varianza del estimadordebe ser lo más pequeña posible, y la distribución demuestreo del estimador debe concentrarse alrededor delparámetro.

Error estándar. Es un indicador de la precisión de unestimador (reporte de una estimación puntual).

49

Definición. El error estándar de un estimador T es sudesviación estándar . Para la media el errorestándar sería .

Aunque en el cálculo del error estándar intervienenparámetros desconocidos cuyos valores se pueden estimar,la sustitución de estas estimaciones en el cálculo produce el "error estándar estimado" del estimador. Elerror estándar estimado se puede denotar por .

Ejemplo. Si la duración de un servicio se distribuyenormalmente, entonces . Si = 2.5 minutos, y seusan muestras de tamaño 16, entonces T= 2.5/4 = 0.625minutos. Si es desconocido y usamos como estimador unadesviación estándar muestral de 2.8, entonces el errorestándar estimado estará dado por 2.8/4 = 0.70 minutos.

Si estamos estimando una proporción , entonces su mejorestimativo será la proporción muestral, es decir yel error estándar será

El error máximo ocurre cuando = 0.5, y será

.

Si n = 50 el error máximo será

Estimadores consistentes. Es razonable esperar que unestimador mejore a medida que se aumenta el tamaño de lamuestra. Cuando el tamaño de la muestra es muy grande losestimadores tomarán, por lo general, valores muy próximosa los parámetros respectivos. Este concepto de proximidad

50

se generalizará mediante la siguiente definición deconsistencia.

Definición. El estadístico T es un "estimadorconsistente" del parámetro si y solo si para cualquierconstante positiva c se cumple que

ó en forma equivalente

Ejemplo. La media muestral es un estimador consistentede , y la proporción muestral P = X/n es a su vez unestimador consistente de la proporción poblacional .(Ver Ley de los grandes números).La consistencia es una propiedad asintótica (propiedadlímite).

Teorema. El estadístico T es un "estimador consistente"del parámetro si 1) T es un estimador insesgado.2) V(T) 0 cuando n.

Las dos condiciones anteriores son suficientes, pero noson necesarias. Es decir, si un estimador cumple las doscondiciones, entonces ese estimador es consistente, peroel hecho de no cumplirlas, no quiere decir que no lo sea.Un estimador sesgado puede ser consistente solo si esasintóticamente insesgado, es decir, que se vuelveinsesgado cuando n .

Ejemplo. Es T = X1 un estimador consistente de la mediapoblacional ?Solución. Tenemos que E(T) =E( X1) = , es decir esinsesgado, y V(T) = V(X1) = 2. Como la varianza delestimador no tiende a cero, entonces no es consistente,lo cual se puede verificar al aplicar la desigualdad deChebyshev, que expresa lo siguiente:

51

la cual no tiende a cero cuando n , es decir, que X1 notiende a cuando n es grande.Problema. Demostrar que la proporción muestral P = X/n esun estimador consistente de la proporción poblacional .

Ejemplo. Demostrar que S² es un estimador consistente de² cuando se toman muestras de una población normal.Solución: Sabemos que:

E(S²) = ²Se observa que V(S²) 0 cuando n .

Ejemplo. Demuestre que es un estimadorconsistente de ².

Estimadores suficientes. Se dice que un estimador T essuficiente si utiliza toda la información relevante de lamuestra para estimar el parámetro de la población. Esdecir, un estimador T es suficiente si todo elconocimiento que se obtiene acerca del parámetro esmediante la especificación real de todos los valores dela muestra.

Ejemplo. Se tiene una muestra aleatoria (X1, X2, ..., Xn)de tamaño 30 tomada de una población exponencial f(x, ),donde es un parámetro desconocido. Considere las dosestadísticos siguientes:

El estadístico T1 no es un estimador suficiente delparámetro mientras que T2 sí lo es.

52

Definición. Se dice que un estadístico T = t(X1, X2, ...,Xn) es suficiente para un parámetro si la distribuciónconjunta de X1, X2, ..., Xn dado T se encuentra libre de, es decir, si se afirma T, entonces X1, X2, ..., Xn notienen nada más que decir acerca de .

Formalmente esto puede expresarse en términos de ladistribución condicional de los valores de la muestra,dado que = T. Esta cantidad está dada por,

donde la expresión final del numerador se sigue de lacondición de suficiencia.

Utilidad. Si un estimador insesgado T de un parámetro es una función de un estadístico suficiente, entoncestendrá la varianza más pequeña entre todos losestimadores insesgados de . Además, si existe elestimador más eficiente de , éste será un estadísticosuficiente.

Teorema de factorización de Neyman. Sea X1, X2, ..., Xn

una muestra aleatoria de una distribución con función dedensidad f(x,). Se dice que el estadístico T = t(X1,X2, ..., Xn) es un estadístico suficiente para si y solosi la función de verosimilitud se puede factorizar de lasiguiente manera:L(X,) = h(t, ) g(x1, x2, ..., xn) para cualquier valor t(x1, x2, ..., xn) de T y donde g(x1,x2, ..., xn) no contiene el parámetro .

Ejemplo. Sea X1, X2, ..., Xn una muestra aleatoria detamaño n de una distribución gama, cuya función dedensidad está dada por,

53

, t≥0

La función de verosimilitud está dada por:

Ejemplo. Sea X1, X2, ..., Xn una muestra aleatoria detamaño n de una distribución de Poisson con parámetro cuya función de densidad está dada por,

Demostrar que el estimador eficiente para es a su vezun estimador suficiente. La función de verosimilitud estádada por:

, donde

ESTIMADORES DE MÁXIMA VEROSIMILITUD

Sea X una variable aleatoria con función de probabilidadf(x,). Las muestras aleatorias simples de tamaño n,X1,..,Xn tienen por distribución de probabilidad conjunta

Esta función que depende de n+1 cantidades podemosconsiderarla de dos maneras: - Fijando es una función de las n cantidades xi. Esto

es la función de probabilidad o densidad.

54

- Fijados los xi como consecuencia de los resultados deelegir una muestra mediante un experimento aleatorio,es únicamente función de . A esta función de ladenominamos Función de Verosimilitud.

En este punto podemos plantearnos el que dado una muestrasobre la que se ha observado los valores xi, una posibleestimación del parámetro es aquella que maximiza lafunción de verosimilitud (cuidado no confundir V() conla varianza. En algunos textos aparece la función deverosimilitud como L())x1,…,xn fijados →Verosimilitud: V()=f(x1,..,xn;)

La función de verosimilitud se obtiene a partir de lafunción de densidad, intercambiando los papeles entreparámetro y estimador. En una función de verosimilitudconsideramos que las observaciones x1, ..., xn, estánfijadas, y se representa la gráfica con el valor de losvalores que tomaría la función de densidad para todos losposibles valores del parámetro . El estimador máximoverosímil del parámetro buscado, es aquel quemaximiza su función de verosimilitud, V().

Como es lo mismo maximizar una función que su logaritmo(al ser este una función estrictamente creciente), estemáximo puede calcularse derivando con respecto a lafunción de verosimilitud (bien su logaritmo) y tomandocomo estimador máximo verosímil al que haga la derivadanula:

55

De modo más preciso, se define el estimador máximoverosímil como la variable aleatoria

. Los estimadores de máximaverosimilitud tienen ciertas propiedades en general que acontinuación enunciamos:

1. Son consistentes; 2. Son invariantes frente a transformaciones

biunívocas, es decir, si es el estimador máximoverosímil de y es una función biunívoca de ,entonces es el estimador máximo verosímil deg().

3. Si es un estimador suficiente de , su estimadormáximo verosímil, es función de la muestra a travésde ;

4. Son asintóticamente normales; 5. Son asintóticamente eficientes, es decir, entre

todos los estimadores consistentes de un parámetro ,los de máxima verosimilitud son los de varianza mínima.

6. No siempre son insesgados.

Algunos estimadores fundamentales. Vamos a estudiar laspropiedades de ciertos estimadores que por su importanciaen las aplicaciones resultan fundamentales: estimadoresde la esperanza matemática y varianza de una distribuciónde probabilidad.

Estimador de la esperanza matemática. Consideremos lasmuestras de tamaño n, X1,…,Xn, de un carácter sobre unapoblación que viene expresado a través de una variable

56

aleatoria X que posee momentos de primer y segundo orden,es decir, existen E(X) y V(X): E(Xi)= V(Xi)=2

El estimador media muestral que denotaremos normalmente

como (en lugar de es verifica:

Por tanto es un estimador insesgado. Si además sabemosque X se distribuye según una ley gaussiana, es sencillocomprobar que coincide con el estimador de máximaverosimilitud,

Proposición.

La demostración es, La función de densidad de unaobservación cualquiera de la muestra es: Xi~N() paratodo x que pertenezca al conjunto de los reales. Portanto la distribución conjunta de la muestra es

Para unos valores x1,…,xn fijados, la función deverosimilitud es

(en principio escribimos también el otro parámetrodesconocido, 2, aunque no nos interesamos en suestimación por el momento). La expresión de la función de

57

verosimilitud es algo engorrosa. Por ello es preferibletrabajar con su logaritmo:

El máximo de la función de verosimilitud se alcanza dondelo hace su logaritmo (monotonía), por tanto derivando conrespecto a e igualando a cero se llega a:

Es decir, el estimador máximo verosímil de la mediapoblacional, , coincide con la media muestral

como queríamos demostrar

El estimador de máxima verosimilitud de para unavariable gaussiana es la media muestral.

La distribución del estimador muestral delparámetro poblacional , tiene por valor esperado almismo (insesgado), y su dispersión disminuye amedida que aumenta el número de observaciones

58

Estimador de la varianza. A la hora de elegir unestimador de 2=V(X), podemos comenzar con el estimadormás natural:

Podemos comprobar que cuando el carácter que se estudiasobre la población es gaussiano, en realidad este es elestimador máximo verosímil para la varianza. Sin embargose comprueba también su falta de sesgo, lo que hace masadecuado que se utilice como estimador de la varianza alsiguiente concepto: cuasivarianza muestral

Proposición. Xi~N(), entonces,

Demostración: Recuperamos el logaritmo de la función deverosimilitud, donde en esta ocasión el primer parámetroya fue obtenido por el método de máxima verosimilitud (yvimos que era la media muestral) y tratamos demaximizarla con respecto al segundo parámetro:

59

Derivando con respecto a e igualando a cero seobtiene el estimador máximo verosímil:

Despejando de esta ecuación se obtiene que el estimadormáximo verosímil coincida con la varianza muestral,

Proposición. El valor esperado del estimador

no es 2, y por tanto el estimador máximo verosímil parala varianza no es insesgado. Más aún, E(2)=(n-1)2/n

Demostración. Comenzamos escribiendo los valoresesperados

Luego

Cuasivarianza muestral. Para tener un estimador insesgadode la varianza introducimos la cuasivarianza muestral que se define como

60

Es inmediato comprobar que realmente este estimador esinsesgado

Esa esperanza puede ser calculada de un modo más directo,ya que la distribución del estimador 2 es conocidausando el teorema de Cochran:

luego

La distribución de la cuasivarianza muestral es tal que

Función de densidad del estadístico que relaciona , 2

y los grados de libertad de la muestra (n-1). La falta desimetría del mismo hace que su valor esperado (n-1) sedesplace a la derecha de la moda (asimetría positiva).

61

Teorema: Sean X1, X2 y X3 variables aleatorias que tienenuna distribución conjunta absolutamente continua, tambiénla tiene un pare de ellas X1,X3 y una función de densidadde conjunta para estas dos puede escribirse,

Teorema: Sean X1,...,X3 variables aleatorias que tienenuna distribución conjunta absolutamente continua, lacondición suficiente y necesaria qpara que seanindependientes es que la densidad conjunta de ellas sea,

La función de distribución condicional de un variablealeatoria X, con la condición de que otra variablealeatoria Y tome el valor de y, Y=y, es

siempre y cuando estelímite exista. Además se debe cumplir que,

Teorema: Si X y Y son variables aleatorias que tiene unadistribución conjunta absolutamente continua, entonces,en todo punto (x,y) en el que fX,Y(x,y) sea continua y,

62

además, sea fY(y)>0 continua, existe una densidadcondicionada de X dada Y,

Densidades de funciones de variables aleatorias. Sean lasvariables aleatorias X1,...Xn que tienen distribuciónconjunta absolutamente continua, y es necesario calcularla densidad de una variable aleatoria Y que es función deX1,...,Xn, siendo ella suma de éstas. Sea unconjunto incluido en el espacio Euclideo E de dimensiónn, el cual se define como

con ai constantes. Las probabilidades

Y sea que el determinante del Jacobiano no sea nulo para, siendo

El cual se transforma mediante el cambio de variables enlas integrales múltiples para la caso particular decoordenadas polares,

=r,

63

para n=2, u1=r, u2= , x1=X=rcos , x2=y=rsen , y porconsiguiente,

y por tanto se tendrá

de donde

Teorema: Sean X1,...,Xn variables aleatorias que tienenuna distribución conjunta absolutamente continua, y seanu1(x1,...,xn),...,un(x1,...,xn) una aplicación en elespacio E(n) en sí mismo que satisface a las condicionesexigidas en el teorema anterior con cambio de variablesen las integrales múltiples. Sea Ui=ui(X1,..,Xn), Entonces,U1,...,Un tiene distribución conjunta absolutamentecontinua y densidad,

Teorema: Sean X1,...,Xn variables aleatoriasindependientes, cada una de ellas con una distribuciónabsolutamente continua, y sean r1,...,rk, k enterospositivos, tales que, r1+...+rk=n. Entonces, la kvariables aleatorias

son independientes.

ESTIMACIÓN PUNTUAL

Sea un conjunto fundamental de probabilidades asociadocon una sigma - algebra de sucesos w y probabilidad P, yse tendrá en X una variable aleatoria definida sobre .

64

está constituido por todos los posibles (w1,...,wn)para todas las elecciones posibles w1,...,w2 en . Setrabajará con w(n) al elemento de

El sigma - anillo de sucesos compuestos por lossucesos elementales de este conjunto fundamental deprobabilidad , entonces para toda , sedefine,

Este suceso es el suceso compuesto que sigue: A1 ocurreen la primera prueba, A2 en la segunda, y asísucesivamente. A un suceso compuesto así, es lo llamadosuceso rectangular, y es necesario que la sigma – algebracontenga todos estos sucesos.

Sea el conjunto de todos los sucesos rectangulares ysea el mínimo sigma – anillo de subconjuntos de que contienen a , esto significa que son laintersección de todos los sigma anillos de subconjuntosde que contienen a . Por lo anterior solo hay quedemostrar, - La intersección de cualquier sigma – anillo de esun sigma - anillo- El conjunto de sigma – anillos que contienen a noes vacío

Lema: Sea { , } el conjunto no vacío de sigma –anillos de subconjuntos de , entonces, es un sigma – anillo.

Otro problema importante, es definir la probabilidad P(n)

sobre , y para cada suceso rectangular en , lo que se define como

65

Al tomar una muestra con restitución, permite manejarelementos independientes, entonces, . Esto

es,

Teorema: Las funciones X1,..,Xn definidas sobre comose ha explicado anteriormente, son variables aleatoriasindependientes entre sí y cada una con la misma funciónque X

Las variables aleatorias X1,..,Xn independientes eidénticamente distribuidas, indica que en n observacionesde la variable X no guardan relación entre sí.

Si tomamos la muestra sin restitución de elementos de ,cada n-upla w(n) vendría constituida por n elementosprocedentes de la población , entonces sería elconjunto de estas n-uplas.

Sea la sucesión infinita X1,..,Xn de variables aleatorias,como observaciones independientes,

y se define para todo n positivo y entero.

Estimaciones Imparciales y Consistentes. Sea unapoblación con una variable aleatoria X definida sobreella, y sea una constante asociada a ella, que sepretende valorar. Sea la extensión de la muestra n, yconsiderando la variable aleatoria U definida sobre .

66

Una variable aleatoria U es una estimación Imparcial de, sui la esperanza de U existe y es E[U]= ,

cualquiera sea el valor de este parámetro: E[U/ ]=

Una sucesión {Un} es Consistente de estimaciones de laconstante , si , cualquiera sea . En otraspalabras, , con

Teorema: Sea una población y X una variable aleatoriaobservada definida sobre la misma población, la cualtiene distribución discreta o absolutamente continua ydonde existe el segundo momento de orden finito. SiX1,..,Xn son n observaciones independientes de X y síX=(X1+...+Xn)/n, entonces, Xn es una estimación imparcialy consistente de E[X]

Teorema: Tanto como son estimaciones consistentesde Var[X]. Demostrar que es una estimación imparcialde Var[X], pero no , siendo Var[X[ una estimaciónimparcial.

Teorema: Sea Un una variable aleatoria definida sobre , y supongamos que ella es una estimación imparcial de y además que . Si V1,V2,... es una sucesión deobservaciones independientes de Un, y sea Zn=(V1+...Vn)/npara todo n, entonces la sucesión {Zn} es una sucesiónconsistente de

Sea una población y sean ligadas a ella una serie deconstantes que están por conocerse, y no sepueden medir directamente, entonces, sea X una variablealeatoria definida sobre la población de tamaño n, y {Xn}es una sucesión de observaciones independientes de X, y

67

sobre la cual conocemos la distribución . Elproblema consiste en hallar las estimaciones.

El gran problema reside, y para ello trabajemos con dosvariables desconocidas , en que se debe suponer que

y que se conocen los dos primeros momentos m1 ym2 y que son funciones de . Además hay que suponerque

y por último, que las funciones son tales que ,

con lo cual finalmente se demuestra que, sonsucesiones consistentes de estimaciones de ,respectivamente.

Teorema: Sea f(x,y) una función y sean {Xn} y {Yn} unassucesiones de las variables aleatorias tales que

, siendo a y b constantes, entonces, f escontinua en (a,b) y si f(Xn,Yn) es variable aleatoria paracualquier n, entonces,

Estimación de Varianza Mínima. Trabajando con ladistribución de Poisson como ejemplo. Sea X una variablealeatoria definida sobre una población , condistribución de Poisson ,

siendo la constante desconocida, entonces alrealizar n pruebas independientes de X, sean X1,...,Xn y apartir de ellas hacer la estimación de esta variable.

Se calcula E[X] y E[X2] y se tienen unos valores de y2+ , de donde la varianza resulta ser , y por tanto,

68

como son estimadores consistentes e imparciales de

Sea X una variable aleatoria definida sobre la población y sean X1,...,Xn sus n observaciones independientes, y

supongamos que la función de distribución de X esabsolutamente continua (lo cual es válido para el casodiscreto), entonces la función fX(x) es la densidad de Xque es de una variable desconocida , f(x/ ).

Para trabajar con un ejemplo, sea , entonces lafunción de densidad puede ser,

Sea = (X1,...,Xn) una estimación imparcial de . Yademás, para mínima varianza de lo anterior se debecumplir: El conjunto A de todos los valores posible de

mes un intervalo abierto, acotado o no; debe

existir para todo ; las expresiones

y

puedan derivarse bajo el signo integral con respecto a

; y finalmente, para todo

Teorema. (Desigualdad de Cramer – Rao): Con las hipótesismencionadas anteriormente, demostrar,

69

,

teniendo en cuanta que el signo igual solo es válidocuando exista una constante k, que depende de y n, talque la probabilidad

Principio de Máxima Probabilidad. Sea X una variablealeatoria definida sobre una población con unadistribución discreta o absolutamente continua. Sea f(x/) la densidad dependiente de x y de desconocido. El

problema es estimar . Sean X1,...,Xn observaciones de Xcon una densidad conjunta f(x1,...,xn/ )

Se debe procurar siempre encontrar una estimación (X1,...,Xn) de para la cual f(X1,...,Xn/ ) sea máximo.En la práctica es hallar como una función de x1,...,xn

para qua la función f(x1,...,xn/ ) resultemaximizada y entonces se sustituyen las observaciones.

Teorema: Supuestas las condiciones impuestas en alnumeral anterior, relativo ala estimación de la varianza,si es una estimación imparcial de convarianza mínima en el sentido dela desigualdad de Cramer– Rao, entonces, es una estimación de

con máxima probabilidad.

Sea X una variable aleatoria discreta o continua cuyafunción de probabilidad f(x) depende de un parámetro .Se efectúa n veces un experimento y se obtiene x1,...,xn

resultados independientes

70

La probabilidad de que la muestra conste de n elementoses y en el caso continuo de que la muestraconste de pequeños valores es

Sí están dados y son fijos los x1,x2,... entonces es unafunción de y es la función de verosimilitud

Se trata de escoger la aproximación para , para que sea tan pequeño como sea posible (el cual debe ser

derivable), para que exista el máximo, lo cual

conduce a la solución y es la estimación de máxima

verosimilitud para :

Intervalo de Confianza: Es la estimación por intervalosteniendo en cuenta el error máximo, intervalo en le cualestá el valor exacto. Se escoge una probabilidad cercana a 1 y se determinan dos cantidades , tal que,que la probabilidad de que incluyan el valor exactodesconocido del parámetro sea igual a

y este es el intervalo de confianza que sonlos limites de confianza

Ejemplo, para el valor medio de la distribución normalcon varianza conocida y un nivel de confianza del 95%,tenemos, y calculamos el valor medio de la muestra

x1,...,xn de tamaño n, y luego, , quedando el nivel

de confianza

71

Si es grande, una observación de X será útil parareducir la incertidumbre en la predicción de Y

La independencia indica que las variables no estánrelacionadas, y por tanto, el coeficiente de correlacióntiende a cero. Lo anterior es válido en este sentido,pero no existe el reciproco.

El coeficiente de correlación mide la dependencia linealentre dos variables aleatorias, y si y solo sí, existerelación funcional lineal entre las variables, de laforma Y=a+bX

Propiedades

Teorema: Si , entonces,

y

Teorema: Sea Z=aX+bY, entonces se cumple que,

Teorema: Si Z=XY, entonces, , y sí X y Y están correlacionadas, entonces,E[Z]=E[X]E[Y]. Y si X y Y son independientes, entonces,

72

La esperanza condicional es útil para la predicción. Lamedida es la predicción de Y que tiene un errorcuadrático esperado mínimo

Aproximaciones: Y=g(X) si esta relación se comporta bieny el coeficiente de variación de X no es muy grande,entonces son válidas las aproximaciones

lo cual se puede expresar en otras palabras como,

que es la derivada de g(x) con respecto a

x calculada en mx.

Si el coeficiente de variación es menos que el 10%, esclaro que el error de esta aproximación es menor que el1%. Si el valor de Vx es pequeño, X es probablemente muycercano a mx, entonces, es aplicable la serie de Taylor,

para encontrar la distribución aproximada de Y, al menosen la región media.

Desarrollando Taylor de Y=g(X) dejando los dos primerostérminos lineales de X:

que es de la forma Y=a+bX y sabiendo que

, tenemos entonces,

73

Un estimador de máxima verosimilitud de una muestraaleatoria X1,...,Xn es el valor de que maximiza aL(X1,...,Xn; ) con L(X1,...,Xn; )=f(X1; )f(X2; )...f(Xn;) siendo f(x; ) la función de distribución de

probabilidad de X calculada en x, como para P[X=x] si Xes discreta

Sea X1,..,Xn la muestra aleatoria de la variable aleatoriaX y x1,...,xn sus valores muéstrales, la función deprobabilidad L, L(X1,...,Xn; )=f(X1; )...f(Xn; )

Si X es discreta L(x1,...,xn; ) representaP[X1=x1,X2=x2,...,Xn=xn]Si X es continua L(x1,...,xn; ) representa la función dedistribución de probabilidad conjunta de (X1,X2,...,Xn)

Propiedades: El estimador puede ser sesgado, el cual sepuede evitar multiplicación por una constante apropiada.En condiciones generales son convergentes, esto es, si nes muy grande, el estimador tiende al valor delparámetro.

Si es un estimador para definido sobre la muestraaleatoria X1,...,Xn de una variable aleatoria X, entonces,para n grande, la variable aleatoria tieneaproximadamente una distribución siendo

,

74

f es la función de probabilidad puntual o función dedistribución de probabilidad de X dependiendo de sí X esdiscreta o continua y se supone que es un número real.

75