Presentación Distribuciones de Muestreo para Estimadores Lineales

Preview:

Citation preview

DISTRIBUCIONES DE MUESTREO PARA ESTIMADORES LINEALES

Curso de EstadísticaProfesor Balbino García Bernal

Wadi Adames Román

Confiabilidad del 95% y su relación a la familia t

Cada intervalo de confiabilidad que se construye es Acertado (un “Hit”) o Errado (“Miss”). Si se considera un modelo ideal de ANOVA como una especie de mecanismo de “chance” para crear conjuntos de datos, donde los posibles resultados sean Acertado o Errado, entonces para un intervalo propiamente construido, un 95% de confiablidad significa que hay un chance del 95% de que el resultado sea Acertado.

Recordemos que en la realidad esto significaque si utilizáramos el mismo modelo ysuposiciones para crear muchos conjuntos dedatos e intervalos, entonces “a largo plazo”,el 95% de los intervalos sería Acertado.

O sea

Mecanismo: Modelo ANOVA

Summary:

Acertado o Errado, para un intervalo con un 95% de confiabilidad

Distribución:

“Chance” de que sea Acertado = 95%;

“Chance” de que sea Errado = 5%

Todo esto se refiere en cierta medida a una proposición mucho más básica.

Mecanismo: Modelo ANOVA

Summary:

(Estimador Lineal – Verdadero Valor)/SE

Distribución: familia t

(Estimador Lineal se abreviará por Est)

Este Summary Outcome se parece al Estandarizado visto en la sección 3:

(Outcome – EV)/SD*

donde Verdadero Valor sería el EV y SE el SD*.

Hay diferencias pues el SD* es un verdadero

valor del modelo, mientras que el SE es un

estimado

SE = SD(SSWeights)1/2

donde

SD = (MSRes)1/2

(este último se calcula a partir de la data)

Nota:

Llamaremos Distancia Estándar Estimada a la

expresión

(Estimador Lineal – Verdadero Valor)/SE

Diremos por esto que el estimador lineal se ha

convertido a Unidades Estándares Estimadas.

O sea:

Las Unidades Estándares Estimadas indican la distancia del EV, medida en SE’s.

Distancia = Valor – EV

Distancia Estándar = Distancia/Verdadero SE*

Distancia Estándar Estimada = Distancia/SE Estimado

Si usamos este lenguaje entonces se puede decir que:

Para cualquier estimador lineal de un modelo ideal ANOVA, la Distancia Estándar Estimada tiene una distribución t.

Entonces, si observamos lo que significa “apuntarse” un “Hit” (acertar), se tiene que:

Para cualquier número positivo t:

El intervalo Est ± SE·t cubre el verdadero valor

si y solo si

|(Est –Verdadero Valor)/SE| < t

Esto quiere decir que el “chance acertar esigual al chance de que |(Est – VerdaderoValor)/SE| < t. Entonces, si (Est – VerdaderoValor)/SE tiene una distribución t, se puededeterminar el número t que hace que el“chance” de un “Hit” sea igual a 95%.

¿Cómo? Solo hay que tomar t igual alpercentil 97.5ésimo de la distribución t.

En resumen:

Si (Est – Verdadero Valor)/SE tiene una distribuciónt, entonces hay un chance del 95% de que unintervalo de la forma Est ± SE·(el percentil 97.5ésimo

de la distribución t) contenga el verdadero valor.

Distribuciones De Muestreo Aproximadas Para Razones-f

Siempre que comparamos una razón-F de“mean squares” con una tabla de valores paraasí examinar una hipótesis nula, se estáasumiendo que la razón de “mean squares”posee una distribución de muestreo quepertenece a la familia F.

¿Bajo qué condiciones es razonable asumiresto?

En breve se puede decir que:

Si un modelo es correcto de manera exacta (i.e., laestructura de factores y las suposiciones de Fisherdescriben el experimento exactamente) y lahipótesis nula es verdadera, entonces la razón-Ftiene una distribución F.

Sin embargo, para que esto ocurra hay dosrequisitos:

“Mean Squares” Esperados

El primer requisito es que las dos “mean squares” enla razón deben tener los mismos valores esperados.

El valor esperado de cualquier “mean square” sepuede escribir como una suma de partes, dondecada parte es un número que mide la variabilidadasociada con alguno de los factores en el diseño queha preparado el investigador. Si la razón de dos“mean squares” debe tener una distribución Fentonces ambos “mean squares” deben tenerexactamente las mismas partes en sus valoresesperados.

Si la hipótesis nula es falsa, los ValoresEsperados no serán iguales, y la razón de los“mean squares” no seguirá una distribución F.Luego, la prueba F se reduce a determinar siuna razón observada proviene o no de unadistribución F.

Si se entiende que no, se rechaza la hipótesisnula.

El rol del modelo

El segundo requisito se refiere al modelo ensí.

Las razones-F que se calculan para unaprueba ANOVA siempre son distintas, puesprovienen de la descomposición lineal, y node resultados independientes que sonestándares y normales.

Sin embargo, es posible demostrar que

Si el modelo es correcto de manera exacta (i.e., laestructura de factores y las suposiciones de Fisherestán de acuerdo con la data), si además se poseeel denominador MS correcto y si la hipótesis nulaes verdadera, entonces la razón-F tiene unadistribución F.

El problema es que no hay modelos que seanexactamente correctos.

Por tanto, para llegar de un experimento de lavida real a una distribución F, hay que superardos obstáculos, primero del experimento almodelo ideal ANOVA, y segundo del modeloANOVA a la distribución F. Nos ocuparemos delsegundo obstáculo, a modo de “sketch” de unademostración, pues lo concerniente al otro seexplicó ya con anterioridad.

El mecanismo ideal crea valores observadoscomo tiradas independientes de una “caja” deerror normal estándar. Hay 4 cosasimportantes para desarrollar esta prueba. Lamisma debe mostrar que los “mean squares”que se calculen en una ANOVA se comportancomo si se hubieran construidos a partir detérminos que posean esas 4 propiedades.

1. EV = 0

En un diseño balanceado, los efectosestimados para cada factor aparte de lamedia siempre suman a cero. Entonces, lamanera en que la descomposición lineal selleva a cabo hace que al cuadrar los números,estos se comporten como si EV = 0.

2. Dispersión: SD* = 1

En la práctica la SD* de un conjunto de datos esdesconocido y lo más seguro que no es 1. Ahora,si los errores debidos al chance se comportancomo si SD* fuera constante, entonces no hacefalta que esa constante sea 1. Esto se debe a quepodemos calcular una razón de “mean squares”para así conseguir la F-estadística (o estadístico-F). Ya que el verdadero SD* aparece tanto en elnumerador como el denominador y por tanto secancela, podemos prescindir de saber suverdadero valor.

3. Forma: La Normal

En la realidad la forma no es la normal, perose acerca lo suficiente. Inclusive si losresiduales individuales no se aproximan a unpatrón normal, mientras más observacionesse tengan, menos hace falta preocuparse porque los errores debidos al chance seannormales.

4. Relación: Independencia

Por definición, las “tiradas” deberían serindependientes. Sin embargo, en general losnúmeros de una descomposición que se cuadrany suman para conseguir una suma de cuadradossuelen no ser independientes, pero estáncorrelacionados. Esta correlación refleja unaespecie de superposición en la información queestá contenida de por sí en los números que secuadran y suman. Al dividir la suma decuadrados por los grados de libertad df, en vezde por la cantidad de números que se cuadran,permite hacer el ajuste necesario para lasuperposición.

Además, en la definición, debido a que las“tiradas” son independientes, así también losdos “mean squares”. Ahora, en la práctica, siel diseño es balanceado entonces los “meansquares” que se calculen seránindependientes el uno del otro, tal como serequiere.

Relación con las Suposiciones de Fisher:

Utilizaremos las 4 propiedades antesdescritas para establecer la relación entre lassuposiciones de Fisher y la forma de laprueba-F.

[Z]:

Si los errores debidos al chance no cumplenEV = 0, entonces los efectos estimados que seobtienen al descomponer la data estaránsesgados. Esto hará el correspondiente“mean square” mayor de lo que debería ser.De esta forma se corre el riesgo de concluircomo “real” un efecto que en realidad esparte del sesgo.

[S]:

Si los errores debidos al chance no poseen lamisma SD*, la cancelación de las SD*’s quese necesita al determinar la razón-F noocurrirá, y por consiguiente la razón no secomportará como si SD* = 1.

[I]:

Si los errores debidos al chance no sonindependientes, entonces los “mean squares”no alcanzarán los valores esperadoscorrectos. Inclusive, podría darse que elnumerador y denominador no seanindependientes, lo cual es requerido por ladefinición. Por tanto, los valores críticos deuna tabla F no serán los correctos para elconjunto de datos.

[N]:

Si los residuales no tienen una forma que seasemeje a la normal, los números quecuadremos para obtener las SS’s (sumas decuadrados) no tendrán la forma de la curvanormal. Además, si los por cientos de residualesgrandes son mayores que los provistos por laregla basada en la curva normal, los cuadradosde estos residuales tendrán un efecto grandísimoen el comportamiento de los “mean squares” yasí la distribución de la razón no será losuficientemente cercana a una distribución-Freal como para hacer confiables los valorescríticos.

[A & C]:

Si los efectos verdaderos no son constantes oaditivos, la descomposición que se lleve a cabopara determinar los “mean squares” no repartirálas observaciones en las partes correctas. Así, lastablas en la descomposición tendráncontribuciones de factores que no se suponecontribuyan. En particular, los residualesquedarán contaminados por dichos factores,proveyendo estimados pobres para los erroresque se deben al chance.

¿Por Qué (Y Cuándo) Son Razonables Los Modelos?

Ahora veremos algunos ejemplos de tres de

las justificaciones para los modelos de cajas y las

suposiciones de Fisher:

Muestreo de una población

Medidas de error

Aleatorización

Muestreo de una población (“Sampling from a population”)

Primero recordemos que:

Población es todo el grupo de individuos que sonde interés en el experimento.

Muestra es el grupo de individuos que sonobservados en realidad.

Para una muestra simple aleatoria, cada individuoen la población tiene el mismo chance de serseleccionado.

Todas las posibles muestras son igualmenteprobables.

El ejemplo más idóneo de un muestreo simplealeatorio es el modelo de cajas. La poblaciónes una caja de boletos enumerados. La muestraes el conjunto de tiradas (aquí nos referimos portiradas al proceso de sacar el boleto de la caja).Si se saca un boleto al azar, devolviéndolo denuevo a la caja luego de observar qué númerosalió (reemplazo), y mezclando (barajeando) losboletos antes de cada tirada, se obtiene unamuestra simple aleatoria.

Cuando un diseño exige que los individuossean seleccionados, entonces mientras másse pueda lograr que el proceso de selección secomporte como el proceso antes descrito,mejor concordarán el modelo estándar y lassuposiciones con la data obtenida.

Nota:

Supóngase que se desean seleccionar 100 estudiantesde esta universidad para que formen parte de unexperimento. Sería fácil buscar 100 estudiantes entrelos que uno conoce y los que amigos de estos.También podríamos publicar un anuncio invitando alexperimento y escoger los primeros 100 voluntarios,etc. Sin embargo, estos métodos de selección no soncomo el modelo de cajas, y no suponennecesariamente una buena selección.

En realidad haría falta (para que sea unamuestra simple aleatoria) tener la lista detodos los estudiantes de la universidad,enumerarlos, y entonces usar una tabla denúmeros aleatorios para escoger los 100estudiantes que participarán del estudio.

Este último ejemplo envolvía solo una población.

¿Cómo el muestreo simple aleatorio (al azar) conduce al modelo y a las suposiciones estándar?

Ejemplo:

Supongamos que se tienen dos poblaciones,cada una con 4 individuos. Asumamostambién que no hay aleatorización oambigüedad en el proceso de medición (parael modelo de muestreo ideal, todaaleatoriedad provine del proceso deseleccionar individuos de las poblaciones).

El factor de interés tiene dos niveles, A y B,correspondiendo a las dos poblaciones. Lapoblación A tiene 4 individuos cuyos valoresde respuesta son 3, 4, 4 y 5. La población Btiene 4 individuos también, con valores 5, 6, 6y 7.

En la figura se ve una ANOVA de una dirección(muestreo simple aleatorio de dos poblaciones).Si las observaciones se escogen (al azar y CONREEMPLAZO) de las poblaciones A y B,entonces la data concuerda con el modeloANOVA estándar que se ve a la derecha en lafigura, el cual satisface las suposiciones deEV = 0, de iguales SD*’s, independencia,aditividad y efectos que son constantes. Si ladistribución de valores de respuesta en cadapoblación es normal, entonces las seissuposiciones son satisfechas.

Observaciones importantes:

En la mayoría de las ocasiones no ocurreque las poblaciones tengan el mismotamaño. Sin embargo, en la mayoría de loscasos estas son muy grandes, lo que hace quesu tamaño real sea sin importancia en lo queconcierne al modelo estándar.

¿Por qué se insiste en el muestreo conreemplazo? ¿No se corre el riesgo deseleccionar más de una vez el mismoindividuo?

Si las poblaciones son bien grandes, como ocurreen la mayoría de los estudios, no hace grandiferencia si se realiza el muestreo con o sinreemplazo.

Claro, si se lleva a cabo el muestreo sinreemplazo, el chance de escoger el mismoindividuo más de una vez es cero. Sin embargo,cuando las poblaciones son grandes, el chancede seleccionar el mismo individuo más de unavez estará tan cerca de cero, que llevar a cabo elmuestreo con reemplazo hará poca diferencia.

¿Qué se gana entonces utilizando la técnicade reemplazo?

Permite hacer sencilla la teoría.

Ya que en la práctica no se pueden realizar lasmediciones a cada individuo en la población,no es posible conocer cómo estándistribuidos los valores de esta. Hay unproblema: una de las suposiciones de Fisheres precisamente que los errores debidos alchance deben seguir una distribuciónnormal. ¿Cómo resolvemos esto?

En primer lugar si se escoge la escala correctapara la respuesta, la distribución en la poblaciónserá aproximadamente la de la normal.

En segundo lugar, aún si la distribución no sigueuna curva normal, las suposiciones estándarllevan por lo general a aproximaciones de losvalores críticos que son razonables (paraconjuntos de datos no pequeños).

Es importante notar que en el ejemplo antesvisto, las desviaciones de la media soniguales. Por lo general esto no ocurre. Loimportantes es que las SD’s seanaproximadamente iguales.

Población y Marco Muestral

Ahora, cuando las poblaciones son tangrandes, ¿hace sentido realizar el muestreocon la población misma? El problema no essolo el tamaño de las poblaciones, sino que aveces estas son difíciles de determinar.

Por ejemplo, supongamos que se deseapreparar una prueba para seleccionardonantes de sangre y se quiere determinaraquellos que tengan hepatitis (y por tanto nopuedan donar sangre). Resulta que aquellosque padecen la enfermedad tienden a teneruna alta concentración de una enzima, laTransaminasa Sero Glutamínica Pirúvica(SGTP por sus siglas en inglés).

Si estamos en particular interesados enaquellas personas por encima de 18 años quesean portadores de la enfermedad en PuertoRico, ¿quién tiene la lista completa de estaspersonas? Si tal lista existiera, entonces noharía falta siquiera medir los niveles de SGPT.

Incluso si la lista existiera, y se decidiera pasarel trabajo de usar números aleatorios(“random numbers”) para seleccionarpersonas al azar, sería posible rastrear cadauno de ellos.

Ejemplos similares abundan: ¿quién tiene lalista de todos los usuarios de crack en Ponce,o la lista de todas los coquíes en SanSebastián, etc?

En resumen

veamos los problemas que conlleva el modelo idealde llevar a cabo un muestreo simple aleatoriopartiendo directamente de la población (estos estánmás allá de lo que es posible en la práctica).

El Marco no es igual a la Población (en términos representativos):

Aquí el problema son los posibles sesgos. Elgrupo de individuos que es más fácil de listary de dónde es más sencillo seleccionar puedeser atípico del grupo del que en realidad sequiere conocer.

Las Muestras no son aleatorias:

Por ejemplo, los estudios en Psicologíautilizan muchas veces voluntarios. Estudiosde laboratorios que envuelven animalesmuchas veces los toman de suplidoras deanimales y por lo tanto no se seleccionan alazar.

Los estudios de campo también presentanproblemas, pues dependen de aquellosanimales que está lo suficientementehambrientos o que han sido poco cuidadososy por eso han caído en la trampa, etc.

Problemas más técnicos:

SD’s no iguales y distribuciones no normales.

Aquí hay solución, pues en muchas ocasiones

es suficiente llevarlo todo a otra escala.

Poblaciones pequeñas:

Hemos enfatizado mucho sobre como laspoblaciones grandes nos permiten acercarnosal modelo ideal teórico. Ahora, cuando laspoblaciones son pequeñas, en realidad lo quetenemos es una ventaja (visto desde un ciertopunto de vista). La razón es que entoncespodemos llevar a cabo un muestreo que noenvuelva reemplazo y se pueden utilizarmuestras pequeñas.

Claro, habría que hacer ajustes a la teoría, loscuales no se discutirán, pero que cualquierlibro que trate de muestreo puede facilitar.

Estos problemas nos muestran la importanciade distinguir entre Población y MarcoMuestral.

Población: Grupo completo de individuossobre los que se desea conocer.

Marco Muestral: Lista de todos losindividuos de donde en realidad se harála selección.

En fin, si se usa un Marco Muestral parallevar a cabo un muestreo aleatorio, losmétodos de estadística formal proveen unabase lógica para hacer una generalizaciónde la muestra al marco muestral.

Ahora, no hay métodos formales para realizartal generalización del marco a la poblacióncomo tal. Para esto solo queda utilizar eljuicio personal del investigador acerca de quétan bien el marco representa a la población.

Medidas de Error y el Modelo basado en ellas

En la práctica son pocas las medidas que noconllevan cierta incertidumbre. En muchoscaso el proceso de llevar acabo medidas secomporta como el de realizar el muestreo conla población.

Para la versión pura del modelo basado enmedidas de error, pensaremos a los individuoscomo ya escogidos de antemano, y en esesentido son fijos.

La aleatoriedad proviene del proceso demedir y no de la selección de individuos.

O sea, visto de modo abstracto, los modelos

para el muestreo y el proceso de mediciones son

el mismo.

En ambos casos:

los objetos de interés son colecciones fijas denúmeros

el proceso de obtener la información tiene que vercon escoger al azar de esas colecciones

Para este modelo, que se basa en las medidasde error, la colección fija de números será elconjunto hipotético de todos los posiblesvalores para el proceso de medición.

Hay dos versiones extremas de este modelo

el conjunto de valores proviene de cambiosimpredecibles en el individuo

los valores provienen de cambios impredecibles enel proceso mismo de llevar a cabo las medidas

Ejemplos:

Si se está estudiando la presión sanguínea, loscambios en las medidas provienen delindividuo, pues la presión cambia todo eltiempo.

Si se consideran las Olimpiadas, los cambiosproceden de los instrumentos que llevan acabo las medidas, en este caso los jueces.

Aleatorización

Para la tercera justificación, la cual se basasolo en la aleatorización, consideraremoscomo dados (y por tanto fijos) tanto a losindividuos como a los errores de medida. Elchance provendrá del uso de un diseño omecanismo de chance para asignar losindividuos a los niveles del factor de interés.

Las suposiciones que aseguran estajustificación son distintas de las suposicionesusuales de Fisher. Aún así hay suficienteevidencia de que los valores críticos de unatabla F proveen por lo general buenasaproximaciones para los valores críticosbasados solo en la aleatorización.

Ejemplo:

Imaginemos un experimento donde lo quenos interesa son los niveles de bacterias en elpiso de una sala. Hay dos posibilidades, elpiso tiene alfombra o no tiene. Supongamosque se tiene 4 cuartos solamente y quemediante un mecanismo de chance seseleccionan dos cuartos a los que ponerlealfombra mientras que los otros se quedan sinella. Vamos a asumir que se miden los nivelesde bacteria y que obtenemos lo siguiente:

Con Alfombra Sin Alfombra

Nivel de

Bacterias

10 8 0 2

Cuarto # 201 204 202 203

Si se asume la estructura de factores usual yse descompone la data para luego calcular lasrazones F, se obtiene lo que sigue:

Nuestra hipótesis nula es que los verdaderosefectos para “Con Alfombra” y “Sin Alfombra”son ambos cero. Si esto es así, cada valorobservado iguala sigue la regla de Benchmark+ Error.

Además la cubierta del piso no afecta losvalores observados. Supongamos que seignora el proceso que crea los errores y quedebido a que las alfombras no tienen efectos,el Cuarto 201 produce un cero(independientemente de lo que se le haga alpiso. Similarmente el Cuarto 202 produce un0, el 203 un 2 y el 204 un 8.

Entonces, aún asumiendo que la hipótesisnula es verdadera, los valores que se obtienenpara las razones F estarán completamentedeterminados por el mecanismo de chanceque se use para signar los cuartos a los dosgrupos (con Alfombra, sin Alfombra).

De acuerdo a todo esto, el chance no provienede los errores mismos, sino del proceso dealeatorización.

Hay seis distintas maneras de sortear los 4cuartos mediante un mecanismo de chance.Recuerde que así cada una de las 6 esigualmente probable.

#1 #2 #3 #4 #5 #6

Con

Alfombra10 8 10 2 10 0 8 2 8 0 2 0

Sin

Alfombra0 2 0 8 2 8 0 10 2 10 8 10

SSCond 64 4 0 0 4 64

SSRes 4 64 68 68 64 4

Razón-F 32 0.125 0 0 0.125 32

Este simple ejemplo ilustra dos propiedadesmuy importantes acerca de este tipo demuestreo que se basa puramente en laaleatorización:

1) SSCond + SSRes es constante (en el ejemploambas sumas son iguales a 68)

2) EMSCond = EMSRes (en este ejemplo ambosson 22.67)

En fin tenemos una distribución de muestreopara la razón-F sin asumir nada acerca decómo los errores se producen. Solo utilizamosla hipótesis nula y el proceso de asignar loscuartos mediante el chance.

RESUMEN Hemos visto tres justificaciones para los modelosestándares de cajas. En la primera, laaleatorización se asume proviene del proceso deselección de individuos a ser medidos. En lasegunda, la aleatorización se debe del procesode medir los individuos (de las mediciones) sinimportar cómo se escogen estos. En la tercera laaleatorización nos llega del proceso de asignarindividuos a las condiciones (lo que vimos con lascuarto con alfombras o sin ellas) sinpreocuparnos de cómo los individuos fueroescogidos o como se realizaron las medidas.

Bibliografía:

George W. Cobb (1998)

Introduction to Design and Analysis ofExperiments; Secciones 15.4-15.6; Springer

Recommended