14
X CONGRESO LATINOAMERICANO DE SOCIEDADES DE ESTADÍSTICA CÓRDOBA, ARGENTINA. 16 A 19 DE OCTUBRE 2012 CONCEPTOS DE MUESTREO UTILIZANDO ESTIMADORES NO TRADICIONALES EN PLANES BÁSICOS DE MUESTREO Carlos Henríquez-Roldán 1 , Daniela Hellman 2 , Cristóbal Roco 3 1 Universidad de Valparaíso, Facultad de Ciencias, Departamento de Estadística, profesor, Centro de Estudios Estadísticos de la Universidad de Valparaíso, director [email protected] 2 Universidad de Valparaíso, Facultad de Ciencias, Departamento de Estadística, estudiante Ingeniería en Estadística [email protected] 3 Universidad de Valparaíso, Facultad de Ciencias, Departamento de Estadística, estudiante Ingeniería en Estadística [email protected] RESUMEN ¿De qué forma a través de simulaciones de Montecarlo se pueden comprender algunos conceptos del muestreo? Estimadores, varianza de los estimadores, distribuciones muestrales, el efecto del diseño (Deff), tamaños muestrales, errores de estimación y nivel de confianza son los temas a presentar para estimadores poco tradicionales que permiten estimar la media de una población finita. El usuario común no estadísticocree que la media muestral es el único estimador para la media poblacional. Se realizan simulaciones de poblaciones hipotéticas para comparar cómo se comportan ciertos estimadores de la media poblacional bajo tres planes de muestreo clásicos: mas (muestreo aleatorio simple), me (muestreo estratificado) y mc (muestreo por conglomerados). Los estimadores que utilizan son: la media, la mediana, (mediana + media)/2, (mínimo + máximo)/2 y (P 25 + P 75 )/2. La distribución muestral de estos estimadores para poblaciones infinitas no es trivial ya que involucran estadísticos de orden. Se generan datos desde dos distribuciones de probabilidad una tradicional y otra de colas pesadas con el propósito de mostrar que no siempre la media muestral es el estimador con menor varianza. Sin tener un curso de inferencia los usuarios podrán comprender varios conceptos asociados al muestreo, los que sirven para la formación de estadísticos y usuarios de la estadística. Para los planes de muestreo comunes: mas, me y mc se introducen conceptos que por lo general se omiten al impartir una asignatura de estadística para no estadísticos. Para comparar el plan de muestreo en relación al mas se calcula el Deff para los otros planes de muestreo propuestos (me y mc) para cada estimador.

CONCEPTOS DE MUESTREO UTILIZANDO ESTIMADORES NO

  • Upload
    others

  • View
    16

  • Download
    0

Embed Size (px)

Citation preview

Page 1: CONCEPTOS DE MUESTREO UTILIZANDO ESTIMADORES NO

X CONGRESO LATINOAMERICANO DE SOCIEDADES DE ESTADÍSTICA CÓRDOBA, ARGENTINA. 16 A 19 DE OCTUBRE 2012

CONCEPTOS DE MUESTREO UTILIZANDO ESTIMADORES NO

TRADICIONALES EN PLANES BÁSICOS DE MUESTREO

Carlos Henríquez-Roldán1, Daniela Hellman

2, Cristóbal Roco

3

1 Universidad de Valparaíso, Facultad de Ciencias, Departamento de Estadística, profesor, Centro de

Estudios Estadísticos de la Universidad de Valparaíso, director – [email protected]

2 Universidad de Valparaíso, Facultad de Ciencias, Departamento de Estadística, estudiante Ingeniería

en Estadística – [email protected]

3 Universidad de Valparaíso, Facultad de Ciencias, Departamento de Estadística, estudiante Ingeniería

en Estadística – [email protected]

RESUMEN

¿De qué forma a través de simulaciones de Montecarlo se pueden comprender algunos conceptos del

muestreo? Estimadores, varianza de los estimadores, distribuciones muestrales, el efecto del diseño (Deff),

tamaños muestrales, errores de estimación y nivel de confianza son los temas a presentar para estimadores

poco tradicionales que permiten estimar la media de una población finita. El usuario común –no estadístico–

cree que la media muestral es el único estimador para la media poblacional. Se realizan simulaciones de

poblaciones hipotéticas para comparar cómo se comportan ciertos estimadores de la media poblacional bajo

tres planes de muestreo clásicos: mas (muestreo aleatorio simple), me (muestreo estratificado) y mc (muestreo

por conglomerados). Los estimadores que utilizan son: la media, la mediana, (mediana + media)/2, (mínimo +

máximo)/2 y (P25 + P75)/2. La distribución muestral de estos estimadores para poblaciones infinitas no es trivial

ya que involucran estadísticos de orden. Se generan datos desde dos distribuciones de probabilidad –una

tradicional y otra de colas pesadas – con el propósito de mostrar que no siempre la media muestral es el

estimador con menor varianza.

Sin tener un curso de inferencia los usuarios podrán comprender varios conceptos asociados al muestreo, los

que sirven para la formación de estadísticos y usuarios de la estadística. Para los planes de muestreo comunes:

mas, me y mc se introducen conceptos que por lo general se omiten al impartir una asignatura de estadística

para no estadísticos.

Para comparar el plan de muestreo en relación al mas se calcula el Deff para los otros planes de muestreo

propuestos (me y mc) para cada estimador.

Page 2: CONCEPTOS DE MUESTREO UTILIZANDO ESTIMADORES NO

X CONGRESO LATINOAMERICANO DE SOCIEDADES DE ESTADÍSTICA CÓRDOBA, ARGENTINA. 16 A 19 DE OCTUBRE 2012

Desarrollo

¿De qué forma se pueden incorporar las Tecnologías de la Información y Comunicación (TIC) para enseñar

conceptos del muestreo? He aquí un ejemplo. Se utiliza el software Stata, para facilitar la interacción del usuario

de la estadística con algunos conceptos del muestreo que no son necesariamente sencillos de digerir y de

comprender. La mayoría de los usuarios no estadísticos en sus pocas asignaturas de estadística tienen, a lo más

una sesión incompleta de muestreo, y con mucha suerte dos. Sin embargo, por la pregunta que con mayor

frecuencia tienen que acudir a un estadístico es “¿cuál es el tamaño muestral más pequeño que debo

seleccionar para que mi investigación tenga sentido y mis pares le den credibilidad a lo que estoy haciendo?” Lo

primero, que se debe clarificar es el rol del azar. Todas esas muestras seleccionadas en lugares concurridos no

tienen validez desde el punto de vista inferencial, ya que esas muestras no son representativas a la población en

estudio. Las simulaciones se realizan bajo el método de Montecarlo, que permite resolver problemas

matemáticos mediante la simulación de variables aleatorias. Se mostrarán resultados que se comportan de

manera impredecible aún con muestras aleatorias, incluso con muestras pequeñas. Si su muestra no es aleatoria

vaya a otra congregación, ni con las mejores bendiciones podrá obtener algún resultado con tales datos.

Básicamente se generan dos poblaciones finitas pero lo suficientemente grandes de por ejemplo, 20.000

unidades. La tradicional gaussiana y la otra, también simétrica, pero de colas pesadas, una Laplace (también

conocida como la doble exponencial).

La distribución gaussiana, más conocida como la distribución normal, trabaja con variables continuas y es una de

las más utilizadas por los usuarios de la estadística, caso particular es para muestras (Grandes n -> infinito)

provenientes de cualquier distribución al estandarizar (Restar la media y dividir por la desviación estándar), se

llega a una normal con media 0 y varianza 1 (Teorema central del límite), en este caso se utilizará una

generación de números aleatorios (20.000) provenientes de una distribución normal estándar (N(0,1)), y se

desfasará en 200, al igual que la distribución laplaciana, para observar de mejor manera los resultados que se

obtienen.

Los parámetros de interés serán las medias poblacionales, μG y μL, la variable de la población gaussiana, XG y la

respectiva variable XL de la población laplaciana, respectivamente, ambas finitas. Si se trabaja con la gaussiana

estándar ambos promedios deben estar próximos a 0, en este caso se desfaso y se centró en 200 para hacer una

mejor interpretación. Se seleccionarán muestras aleatorias de diferentes tamaños y en cada muestra se

propondrán varios estimadores para la media: 𝜇 1 = m, la media (muestral); 𝜇 2 = md, la mediana; 𝜇 3 = m_md, el

promedio entre la media y mediana; 𝜇 4 = mm, el promedio entre el mínimo y máximo; 𝜇 5 = p25p75, el promedio

Page 3: CONCEPTOS DE MUESTREO UTILIZANDO ESTIMADORES NO

X CONGRESO LATINOAMERICANO DE SOCIEDADES DE ESTADÍSTICA CÓRDOBA, ARGENTINA. 16 A 19 DE OCTUBRE 2012

entre los percentiles 25 y 75. Es decir, se proponen cinco estimadores para cada una de las medias (μG y μL).

Cabe destacar que calcular analíticamente las propiedades de los estimadores a utilizar, es de gran complejidad,

por lo que no se abordará en el desarrollo de este trabajo.

Formalmente, se debieran incluir notaciones adicionales para: distinguir desde que población provienen las

muestras aleatorias (gaussiana finita o laplaciana finita) y distinguir el plan de muestreo que se esté utilizando.

Las variables XG y XL, tienen sus varianzas y desviaciones estándares. La población gaussiana finita tiene una

varianza y desviación estándar próxima a uno. La población laplaciana finita debiera tener una varianza en torno

al dos (se usa el procedimiento descrito en Evans, Hastings y Peacock, 1993, para generar una doble exponencial

o distribución de Laplace como el logaritmo natural del cociente de dos distribuciones uniformes).

En este trabajo se presentan algunas propiedades de los estimadores propuestos (insesgamiento, consistencia y

varianza mínima) bajo tres planes de muestreo (mas, me y mc; respectivamente). Lohr (1999), Heeringa, West y

Berglund (2010) describen estos planes de muestreo básicos e introducen los planes de muestreo complejos

donde se pueden proyectar los resultados que se obtienen en este trabajo.

Muestreo Aleatorio Simple (mas): Consiste en extraer la muestra de individuos al azar desde la población sin

considerar los grupos, donde todos los individuos tienen la misma probabilidad de ser elegidos en la muestra.

Muestreo Estratificado (me): Desde cada uno de los grupos (estratos) se selecciona aleatoriamente una muestra

aleatoria simple, estos grupos deben ser homogéneos dentro y heterogéneos entre ellos.

Muestreo por Conglomerado (mc): Se seleccionan grupos al azar (los conglomerados) y de éstos conglomerados

se seleccionan muestras aleatorias simples de unidades, en algunos casos toca seleccionar todas las unidades

del grupo.

En Chile se han realizado seminarios con expertos internacionales, con el fin de tomar conciencia para

incorporar los planes de muestreo en los análisis –principalmente los denominados complejos. Con fines

ilustrativos se muestra lo que ocurriría cuando se omite el plan de muestreo (me y mc, en este caso) al realizar

los análisis que por lo general se incluyen en los software “por defecto”; es decir, cuando se ha seleccionado la

muestra por medio de un mas.

Utilizando la ecuación

𝑃 𝜇 − 𝜇 𝑛 ≤ 𝑒𝑒 ≥ 1 − 𝛼

donde μ fue establecido al momento de simular las poblaciones, los ee fueron especificados después de

disponer los cinco estimadores en las muestras simuladas, los 𝜇 𝑛 tendrán sus desviaciones estándares

denominadas error estándar de estimación, para estimar n, se debe encontrar un "1 − 𝛼” empírico que sea

satisfecho a partir de las simulaciones. Se logró realizar simulaciones en el software Stata (StataCorp, 2011) que

Page 4: CONCEPTOS DE MUESTREO UTILIZANDO ESTIMADORES NO

X CONGRESO LATINOAMERICANO DE SOCIEDADES DE ESTADÍSTICA CÓRDOBA, ARGENTINA. 16 A 19 DE OCTUBRE 2012

permitieron determinar los tamaños muestrales en principio y luego ratificar propiedades y características de los

planes de muestreo que puede llegar a comprender un usuario de la estadística que no necesariamente haya

cursado una asignatura de inferencia estadística.

Para calcular la precisión del muestreo utilizado con respecto al muestreo aleatorio simple (mas), se utiliza el

Efecto de Diseño; en donde se considera el muestreo aleatorio simple como patrón por su equiprobabilidad de

elegir cualquier suceso es aquí donde el azar aparece por completo y trabaja libremente.

El efecto de diseño (deff ≡ desing efect) es el cociente de dos medidas de precisión de un mismo estimador: en

el numerador va la medida de precisión del estimador bajo el plan de muestreo de interés y en el denominador

la precisión del mismo estimador bajo el plan de muestreo usado como referencia (el mas). Ambas medidas de

precisión –varianzas–se calculan con el mismo tamaño muestral Lohr (1999), Heeringa, West y Berglund (2010).

𝑫𝒆𝒇𝒇𝒏 𝒆𝒔𝒕𝒊𝒎𝒂𝒅𝒐𝒓, 𝒑𝒍𝒂𝒏 𝒅𝒆 𝒎𝒖𝒆𝒔𝒕𝒓𝒆𝒐 = 𝑽𝒂𝒓𝒏(𝒆𝒔𝒕𝒊𝒎𝒂𝒅𝒐𝒓, 𝒑𝒍𝒂𝒏 𝒅𝒆 𝒎𝒖𝒆𝒔𝒕𝒓𝒐)

𝑽𝒂𝒓𝒏(𝒆𝒔𝒕𝒊𝒎𝒂𝒅𝒐𝒓, 𝒎𝒂𝒔)

Page 5: CONCEPTOS DE MUESTREO UTILIZANDO ESTIMADORES NO

X CONGRESO LATINOAMERICANO DE SOCIEDADES DE ESTADÍSTICA CÓRDOBA, ARGENTINA. 16 A 19 DE OCTUBRE 2012

RESULTADOS

Tabla 1: Desviaciones estándar de los estimadores señalados según el tamaño muestral (mas). --------------------------------------------------------------------------------------------------

---

| Desviación estándar desde un modelo de probabilidad:

| de Gauss | de Laplace

n | media mediana (1)+(2) min+max p25+p75 | media mediana (1)+(2) min+max p25+p75

| (1) (2) 2 2 2 | (1) (2) 2 2 2

--------+---------------------------------------------+---------------------------------------------

50 | 0.142 0.177 0.152 0.337 0.157 | 0.201 0.155 0.165 0.900 0.203

100 | 0.099 0.119 0.103 0.293 0.108 | 0.143 0.108 0.116 0.867 0.141

150 | 0.081 0.103 0.087 0.279 0.089 | 0.111 0.085 0.090 0.863 0.111

200 | 0.070 0.089 0.076 0.262 0.078 | 0.102 0.074 0.082 0.844 0.099

250 | 0.066 0.081 0.070 0.263 0.072 | 0.092 0.065 0.072 0.836 0.091

300 | 0.057 0.071 0.061 0.250 0.065 | 0.080 0.058 0.064 0.827 0.080

350 | 0.052 0.065 0.055 0.260 0.058 | 0.074 0.054 0.059 0.812 0.074

400 | 0.049 0.063 0.053 0.239 0.054 | 0.071 0.051 0.056 0.776 0.069

450 | 0.046 0.058 0.049 0.239 0.052 | 0.067 0.049 0.054 0.752 0.066

500 | 0.043 0.054 0.046 0.227 0.049 | 0.064 0.046 0.051 0.755 0.064

550 | 0.042 0.055 0.046 0.237 0.048 | 0.058 0.044 0.048 0.764 0.059

600 | 0.039 0.050 0.042 0.234 0.043 | 0.059 0.041 0.047 0.710 0.059

650 | 0.040 0.051 0.044 0.219 0.045 | 0.057 0.040 0.046 0.713 0.057

700 | 0.037 0.048 0.040 0.231 0.043 | 0.054 0.039 0.043 0.702 0.054

750 | 0.035 0.044 0.038 0.223 0.039 | 0.050 0.037 0.040 0.678 0.050

800 | 0.035 0.045 0.038 0.217 0.040 | 0.048 0.034 0.038 0.678 0.049

850 | 0.033 0.043 0.036 0.214 0.039 | 0.046 0.034 0.037 0.641 0.046

900 | 0.033 0.041 0.035 0.215 0.036 | 0.046 0.034 0.037 0.651 0.044

950 | 0.032 0.041 0.035 0.214 0.036 | 0.047 0.033 0.038 0.630 0.046

1000 | 0.030 0.039 0.033 0.221 0.034 | 0.045 0.034 0.037 0.636 0.045

----------------------------------------------------------------------------------------------------

Tabla 2: Desviaciones estándar de los estimadores señalados según el tamaño muestral (me). --------------------------------------------------------------------------------------------------

| Desviación estándar desde un modelo de probabilidad:

| de Gauss | de Laplace

n | media mediana (1)+(2) min+max p25+p75 | media mediana (1)+(2) min+max p25+p75

| (1) (2) 2 2 2 | (1) (2) 2 2 2

------+---------------------------------------------+---------------------------------------------

50 | 0.143 0.175 0.151 0.318 0.157 | 0.190 0.157 0.161 0.887 0.190

100 | 0.099 0.121 0.105 0.301 0.108 | 0.144 0.107 0.116 0.902 0.142

150 | 0.082 0.100 0.086 0.281 0.091 | 0.115 0.085 0.093 0.856 0.114

200 | 0.069 0.086 0.073 0.270 0.077 | 0.098 0.074 0.080 0.866 0.098

250 | 0.063 0.078 0.067 0.264 0.070 | 0.090 0.065 0.072 0.876 0.090

300 | 0.060 0.074 0.064 0.262 0.066 | 0.083 0.060 0.066 0.822 0.082

350 | 0.052 0.066 0.056 0.239 0.058 | 0.077 0.055 0.061 0.827 0.075

400 | 0.050 0.063 0.054 0.258 0.056 | 0.072 0.051 0.057 0.799 0.070

450 | 0.047 0.058 0.050 0.234 0.053 | 0.067 0.047 0.053 0.798 0.064

500 | 0.044 0.056 0.048 0.248 0.048 | 0.065 0.047 0.052 0.783 0.063

550 | 0.041 0.053 0.044 0.236 0.046 | 0.061 0.042 0.047 0.741 0.059

600 | 0.039 0.051 0.043 0.235 0.043 | 0.057 0.041 0.045 0.774 0.058

650 | 0.037 0.048 0.040 0.233 0.041 | 0.055 0.038 0.043 0.730 0.055

700 | 0.036 0.047 0.040 0.232 0.041 | 0.054 0.038 0.042 0.710 0.053

750 | 0.035 0.045 0.038 0.229 0.039 | 0.051 0.036 0.040 0.691 0.050

800 | 0.036 0.044 0.038 0.227 0.039 | 0.050 0.037 0.041 0.701 0.050

850 | 0.035 0.045 0.038 0.225 0.038 | 0.047 0.032 0.036 0.671 0.048

900 | 0.031 0.040 0.033 0.232 0.035 | 0.047 0.035 0.038 0.635 0.047

950 | 0.031 0.040 0.033 0.229 0.035 | 0.046 0.032 0.036 0.648 0.046

1000| 0.031 0.038 0.033 0.216 0.035 | 0.045 0.032 0.036 0.638 0.045

--------------------------------------------------------------------------------------------------

Page 6: CONCEPTOS DE MUESTREO UTILIZANDO ESTIMADORES NO

X CONGRESO LATINOAMERICANO DE SOCIEDADES DE ESTADÍSTICA CÓRDOBA, ARGENTINA. 16 A 19 DE OCTUBRE 2012

Tabla 3: Desviaciones estándar de los estimadores señalados según el tamaño muestral (mc).

--------------------------------------------------------------------------------------------------

| Desviación estándar desde un modelo de probabilidad:

| de Gauss | de Laplace

n | media mediana (1)+(2) min+max p25+p75 | media mediana (1)+(2) min+max p25+p75

| (1) (2) 2 2 2 | (1) (2) 2 2 2

------+---------------------------------------------+---------------------------------------------

50 | 0.141 0.171 0.148 0.337 0.155 | 0.202 0.159 0.168 0.909 0.204

100 | 0.103 0.133 0.113 0.299 0.114 | 0.142 0.107 0.116 0.895 0.143

150 | 0.077 0.098 0.083 0.268 0.086 | 0.118 0.087 0.096 0.900 0.117

200 | 0.069 0.089 0.075 0.270 0.076 | 0.096 0.072 0.078 0.848 0.097

250 | 0.061 0.077 0.065 0.267 0.068 | 0.091 0.063 0.072 0.830 0.089

300 | 0.056 0.071 0.060 0.265 0.061 | 0.080 0.059 0.065 0.845 0.077

350 | 0.053 0.066 0.057 0.249 0.060 | 0.077 0.054 0.060 0.784 0.075

400 | 0.049 0.062 0.053 0.243 0.054 | 0.068 0.049 0.053 0.791 0.069

450 | 0.046 0.057 0.049 0.239 0.050 | 0.066 0.048 0.053 0.758 0.066

500 | 0.044 0.056 0.047 0.243 0.049 | 0.062 0.044 0.049 0.741 0.064

550 | 0.043 0.055 0.046 0.233 0.049 | 0.059 0.042 0.047 0.725 0.057

600 | 0.042 0.052 0.045 0.233 0.046 | 0.057 0.040 0.045 0.760 0.056

650 | 0.039 0.049 0.042 0.226 0.044 | 0.053 0.039 0.042 0.749 0.054

700 | 0.037 0.047 0.040 0.228 0.042 | 0.051 0.037 0.041 0.705 0.052

750 | 0.035 0.044 0.037 0.231 0.040 | 0.050 0.036 0.040 0.684 0.050

800 | 0.035 0.044 0.037 0.223 0.038 | 0.046 0.034 0.037 0.696 0.049

850 | 0.035 0.043 0.037 0.231 0.039 | 0.045 0.032 0.036 0.658 0.047

900 | 0.032 0.041 0.034 0.214 0.036 | 0.045 0.031 0.035 0.675 0.044

950 | 0.030 0.041 0.034 0.228 0.034 | 0.042 0.030 0.033 0.638 0.043

1000| 0.030 0.039 0.032 0.230 0.035 | 0.042 0.031 0.033 0.637 0.041

--------------------------------------------------------------------------------------------------

De las tablas anteriores se pueden extraer algunas respuestas al problema planteado de cuál es el mejor

estimador. Se observan bajo los tres planes de muestreo utilizados (mas, me, mc), las desviaciones estándar

para cada uno de los cinco estimadores propuestos en el problema, y se observa como en sí son muy parecidos

entre ellos, el único que difiere y da a entender que es uno de los peores estimadores vistos es el promedio

entre mínimo y máximo, y el mejor se podrá determinar según la distribución bajo la cual se esté trabajando,

aunque las diferencias son mínimas si observamos el caso de la distribución Gaussiana se aprecia que el mejor

estimador es la media muestral por sobre los demás estimadores propuestos, como se señaló anteriormente, la

diferencia es mínima ya que difieren en el segundo decimal, en cambio para la distribución Laplaciana se tiene

que el mejor de los cinco estimadores, también con mínimas diferencias es la mediana. Todos los resultados

obtenidos se basaron en las simulaciones creadas en el software.

A continuación se presentan resultados a modo de gráficos, que nos pueden mostrar en parte lo que se está

buscando.

Page 7: CONCEPTOS DE MUESTREO UTILIZANDO ESTIMADORES NO

X CONGRESO LATINOAMERICANO DE SOCIEDADES DE ESTADÍSTICA CÓRDOBA, ARGENTINA. 16 A 19 DE OCTUBRE 2012

Plan de Muestreo Aleatorio simple

Gráfica 1: Dispersión media versus mediana para las dos distribuciones.

Gauss Laplace

Grafica 2: Distribución de frecuencia comparativa para los estimadores antes mencionados.

Gráfica 3: Dispersión media versus promedio entre mínimo y máximo.

Gauss Laplace

Gráfica 4: Distribución de frecuencia de los estimadores del gráfico 3.

199.8

200

200.2

199.8

200

200.2

199.65 199.8 200 200.2

199.65 199.8 200 200.2 199.65 199.8 200 200.2

200 400 600

800 1000Me

dia

MedianaGraphs by n

199

.82

00

200

.21

99

.82

00

200

.2

199.6199.7199.8 200 200.2

199.6199.7199.8 200 200.2 199.6199.7199.8 200 200.2

200 400 600

800 1000Me

dia

MedianaGraphs by n

199

.52

00

200

.5

Me

dia

, m

ue

str

eo

ale

ato

rio

sim

ple

200400

600800

1000

n

199

.52

00

200

.5

Me

dia

na

, m

ue

str

eo

ale

ato

rio

sim

ple

200400

600800

1000

n

Datos de distribución gaussiana

199

.52

00

200

.5

Me

dia

, m

ue

str

eo

ale

ato

rio

sim

ple

200400

600800

1000

n

199

.52

00

200

.5

Me

dia

na

, m

ue

str

eo

ale

ato

rio

sim

ple

200400

600800

1000

n

Datos de distribución de Laplace

19

9199

.52

00

200

.52

01

19

9199

.52

00

200

.52

01

199 199.5 200 200.5 201

199 199.5 200 200.5 201 199 199.5 200 200.5 201

200 400 600

800 1000Me

dia

Promedio Mínimo y MáximoGraphs by n

198.3

199.2

200

200.8

201.7

198.3

199.2

200

200.8

201.7

198 199 200 201 202

198 199 200 201 202 198 199 200 201 202

200 400 600

800 1000Me

dia

Promedio Mínimo y MáximoGraphs by n

199

.52

00

200

.5

Me

dia

, m

ue

str

eo

ale

ato

rio

sim

ple

200400

600800

1000

n

199

.52

00

200

.5

Pro

me

dio

Mín

imo

xim

o,

mu

estr

eo

ale

ato

rio

sim

ple

200400

600800

1000

n

Datos de distribución gaussiana

199

.52

00

200

.5

Me

dia

, m

ue

str

eo

ale

ato

rio

sim

ple

200400

600800

1000

n

199

.52

00

200

.5

Pro

me

dio

Mín

imo

xim

o,

mu

estr

eo

ale

ato

rio

sim

ple

200400

600800

1000

n

Datos de distribución de Laplace

Page 8: CONCEPTOS DE MUESTREO UTILIZANDO ESTIMADORES NO

X CONGRESO LATINOAMERICANO DE SOCIEDADES DE ESTADÍSTICA CÓRDOBA, ARGENTINA. 16 A 19 DE OCTUBRE 2012

Plan de Muestreo Estratificado.

Gráfica 5: Dispersión media versus mediana para las dos distribuciones.

Gauss Laplace

Gráfica 6: Distribución de frecuencia de los estimadores mencionados anteriormente.

Gráfica 7

Gráfica 7: Dispersión media versus promedio entre mínimo y máximo.

Gauss Laplace

Gráfica 8: Distribución de frecuencia de los estimadores mencionados anteriormente.

199.8

200

200.2

199.8

200

200.2

199.7199.8 200 200.2

199.7199.8 200 200.2 199.7199.8 200 200.2

200 400 600

800 1000Me

dia

MedianaGraphs by n

19

9.8

20

02

00

.21

99

.82

00

20

0.2

199.5199.6199.7199.8 200 200.2

199.5199.6199.7199.8 200 200.2 199.5199.6199.7199.8 200 200.2

200 400 600

800 1000Me

dia

MedianaGraphs by n

199

.52

00

200

.5

Me

dia

, m

ue

str

eo

estr

atifica

do

200400

600800

1000

n

199

.52

00

200

.5

Me

dia

na

, m

ue

str

eo

estr

atifica

do

200400

600800

1000

n

Datos de distribución gaussiana

199

.52

00

200

.5

Me

dia

, m

ue

str

eo

estr

atifica

do

200400

600800

1000

n

199

.52

00

200

.5

Me

dia

na

, m

ue

str

eo

estr

atifica

do

200400

600800

1000

n

Datos de distribución de Laplace

19

9199

.52

00

200

.52

01

19

9199

.52

00

200

.52

01

199 199.5 200 200.5 201

199 199.5 200 200.5 201 199 199.5 200 200.5 201

200 400 600

800 1000Me

dia

Promedio Mínimo y MáximoGraphs by n

198.3

199.2

200

200.8

201.7

198.3

199.2

200

200.8

201.7

198 200 202

198 200 202 198 200 202

200 400 600

800 1000Me

dia

Promedio Mínimo y MáximoGraphs by n

199

.52

00

200

.5

Me

dia

, m

ue

str

eo

estr

atifica

do

200400

600800

1000

n

199

.52

00

200

.5

Pro

me

dio

Mín

imo

xim

o,

mu

estr

eo

estr

atifica

do

200400

600800

1000

n

Datos de distribución gaussiana

199

.52

00

200

.5

Me

dia

, m

ue

str

eo

estr

atifica

do

200400

600800

1000

n

199

.52

00

200

.5

Pro

me

dio

Mín

imo

xim

o,

mu

estr

eo

estr

atifica

do

200400

600800

1000

n

Datos de distribución de Laplace

Page 9: CONCEPTOS DE MUESTREO UTILIZANDO ESTIMADORES NO

X CONGRESO LATINOAMERICANO DE SOCIEDADES DE ESTADÍSTICA CÓRDOBA, ARGENTINA. 16 A 19 DE OCTUBRE 2012

Plan de Muestreo por Conglomerado

Gráfica 9: Dispersión media versus mediana para las dos distribuciones.

Gauss Laplace

Gráfica 10: Distribución de frecuencia de los estimadores mencionados anteriormente.

Gráfica 11: Dispersión media versus promedio entre mínimo y máximo.

Gauss Laplace

Gráfica 12: Distribución de frecuencia de los estimadores mencionados anteriormente.

199.8

200

200.2

199.8

200

200.2

199.7 199.8 200 200.2

199.7 199.8 200 200.2 199.7 199.8 200 200.2

200 400 600

800 1000Me

dia

MedianaGraphs by n

19

9.8

20

02

00

.21

99

.82

00

20

0.2

199.5199.6199.7199.8 200 200.2

199.5199.6199.7199.8 200 200.2 199.5199.6199.7199.8 200 200.2

200 400 600

800 1000Me

dia

MedianaGraphs by n

199

.52

00

200

.5

Me

dia

, m

ue

str

eo

x c

on

glo

me

rad

o

200400

600800

1000

n

199

.52

00

200

.5

Me

dia

na

, m

ue

str

eo

x c

on

glo

me

rad

o

200400

600800

1000

n

Datos de distribución gaussiana

199

.52

00

200

.5

Me

dia

, m

ue

str

eo

x c

on

glo

me

rad

o

200400

600800

1000

n

199

.52

00

200

.5

Me

dia

na

, m

ue

str

eo

x c

on

glo

me

rad

o

200400

600800

1000

n

Datos de distribución de Laplace

19

9199

.52

00

200

.52

01

19

9199

.52

00

200

.52

01

199 199.5 200 200.5 201

199 199.5 200 200.5 201 199 199.5 200 200.5 201

200 400 600

800 1000Me

dia

Promedio Mínimo y MáximoGraphs by n

198.3

199.2

200

200.8

201.7

198.3

199.2

200

200.8

201.7

198 199 200 201 202

198 199 200 201 202 198 199 200 201 202

200 400 600

800 1000Me

dia

Promedio Mínimo y MáximoGraphs by n

199

.52

00

200

.5

Me

dia

, m

ue

str

eo

x c

on

glo

me

rad

o

200400

600800

1000

n

199

.52

00

200

.5

Pro

me

dio

Mín

imo

xim

o,

mu

estr

eo

x c

on

glo

me

rad

o

200400

600800

1000

n

Datos de distribución gaussiana

199

.52

00

200

.5

Me

dia

, m

ue

str

eo

x c

on

glo

me

rad

o

200400

600800

1000

n

199

.52

00

200

.5

Pro

me

dio

Mín

imo

xim

o,

mu

estr

eo

x c

on

glo

me

rad

o

200400

600800

1000

n

Datos de distribución de Laplace

Page 10: CONCEPTOS DE MUESTREO UTILIZANDO ESTIMADORES NO

X CONGRESO LATINOAMERICANO DE SOCIEDADES DE ESTADÍSTICA CÓRDOBA, ARGENTINA. 16 A 19 DE OCTUBRE 2012

En las gráficas anteriores se aprecia claramente que el promedio entre el mínimo y máximo es un estimador

poco apropiado de utilizar para temas de estimación de una población, ya que su varianza es muy elevada lo que

puede dar como resultado una estimación errónea. La diferencia que existe entre la media y mediana en las

distribuciones es mínima, como se vió anteriormente en las tablas la diferencia se presenta en el segundo

decimal en la mayoría de los casos, pero gracias a este decimal podemos decir que para la distribución

Gaussiana el mejor estimador para estimar la media poblacional es la media muestral, y en la distribución

Laplaciana el mejor estimador es la mediana, se observa que estos presentan la característica de ser insesgados.

Para el cálculo del efecto de diseño haremos el cociente antes mencionado, entregando de mejor manera unas

tablas te comparación para los muestreos.

Tabla 4: Deff. Para la media, comparativa para los muestreos y por distribución. ------------------------------------------------------------

Efecto de diseño para la media.

de Gauss | de Laplace

n deff_m_me deff_m_mc | deff_m_me deff_m_mc

------------------------------|-----------------------------

50 1 1 | .9025 1

100 1 1 | 1 1

150 1 1 | 1 1.190083

200 1 1 | 1 1

250 .7346938 .7346938 | 1 1

300 1 1 | 1 1

350 1 1 | 1.306122 1.306122

400 1 1 | 1 1

450 1 1 | 1 1

500 1 1 | 1 1

550 1 1 | 1 1

600 1 1 | 1 1

650 1 1 | 1 .6944445

700 1 1 | 1 1

750 1 1 | 1 1

800 1 .5625 | 1 1

850 1.777778 1 | 1 1

900 1 1 | 1 1

950 1 1 | 1 .6399999

1000 1 1 | 1.5625 1

------------------------------------------------------------

Page 11: CONCEPTOS DE MUESTREO UTILIZANDO ESTIMADORES NO

X CONGRESO LATINOAMERICANO DE SOCIEDADES DE ESTADÍSTICA CÓRDOBA, ARGENTINA. 16 A 19 DE OCTUBRE 2012

Tabla 5: Deff. Para la mediana, comparativa para los muestreos y por distribución. --------------------------------------------------------------

Efecto de diseño para la mediana.

de Gauss | de Laplace

n deff_md_me deff_md_mc | deff_md_me deff_md_mc

--------------------------------|-----------------------------

50 .8919753 .8919753 | 1.137778 1.137778

100 1 1.173611 | 1 1

150 1 1 | 1 1.265625

200 1 1 | 1 1

250 1 1 | 1 1

300 1 1 | 1 1

350 1.361111 1.361111 | 1.44 1

400 1 1 | 1 1

450 1 1 | 1 1

500 1.44 1.44 | 1 .6399999

550 1 1 | 1 1

600 1 1 | 1 1

650 1 1 | 1 1

700 1 1 | 1 1

750 1 1 | 1 1

800 .6399999 .6399999 | 1.777778 1

850 1 1 | 1 1

900 1 1 | 1 1

950 1 1 | 1 1

1000 1 1 | 1 1

--------------------------------------------------------------

Tabla 6: Deff. Para la el promedio entre media y mediana, comparativa para los muestreos y por distribución. ------------------------------------------------------------------------

Efecto de diseño para la (media+mediana)/2.

de Gauss | de Laplace

n deff_m_md_me deff_m_md_mc | deff_m_md_me deff_m_md_mc

------------------------------------|-----------------------------------

50 1 1 | .8858131 1

100 1 1.21 | 1 1

150 1 .7901233 | 1 1.234568

200 .7656251 .7656251 | 1 1

250 1 .7346938 | 1 1

300 1 1 | 1.361111 1

350 1 1 | 1 1

400 1 1 | 1 .6944445

450 1 1 | 1 1

500 1 1 | 1 1

550 .6399999 1 | 1 1

600 1 1 | 1 .6399999

650 1 1 | .6399999 .6399999

700 1 1 | 1 1

750 1 1 | 1 1

800 1 1 | 1 1

850 1 1 | 1 1

900 1 1 | 1 1

950 1 1 | 1 .5625

1000 1 1 | 1 .5625

------------------------------------------------------------------------

Page 12: CONCEPTOS DE MUESTREO UTILIZANDO ESTIMADORES NO

X CONGRESO LATINOAMERICANO DE SOCIEDADES DE ESTADÍSTICA CÓRDOBA, ARGENTINA. 16 A 19 DE OCTUBRE 2012

Tabla 7: Deff. Para la el promedio entre mínimo y máximo, comparativa para los muestreos y por distribución. ------------------------------------------------------------------------

Efecto de diseño para la (mínimo+máximo)/2.

de Gauss | de Laplace

n deff_mm_me deff_mm_mc | deff_mm_me deff_mm_mc

------------------------------------|-----------------------------------

50 .8858131 1 | .9779013 1.022346

100 1.070155 1.070155 | 1.070155 1.070155

150 1 .929847 | 1 1.095186

200 1.078403 1.078403 | 1.072704 1.023951

250 1 1.078403 | 1.097506 .9763322

300 1.0816 1.0816 | .9760488 1.048774

350 .852071 .9245563 | 1.049992 .9272976

400 1.173611 1 | 1.05194 1.025805

450 .9184029 1 | 1.137778 1.026844

500 1.181474 1.088847 | 1.0816 .9735112

550 1 .9184029 | .948061 .9226109

600 1 1 | 1.176156 1.145804

650 1.092975 1.092975 | 1.057132 1.11585

700 1 1 | 1.028775 1.028775

750 1.092975 1.092975 | 1.029628 1

800 1.092975 1 | 1.059689 1.059689

850 1.199547 1.199547 | 1.095947 1.063477

900 1.199547 1 | .9694675 1.094438

950 1.199547 1.199547 | 1.0645 1.031998

1000 1 1.092975 | 1 1

------------------------------------------------------------------------

Tabla 8: Deff. Para la el promedio entre percentil 25 y percentil 75, comparativa para los muestreos y por distribución. -----------------------------------------------------------------------------------------

Efecto de diseño para la (percentil 25+percentil 75)/2.

de Gauss | de Laplace

n deff_p25_p75_me deff_p25_p75_mc | deff_p25_p75_me deff_p25_p75_mc

----------------------------------------------|------------------------------------------

50 1 1 | .9025 1.022346

100 1 1.070155 | 1 1.070155

150 1 .929847 | 1 1.095186

200 1 1.078403 | 1 1.023951

250 1 1.078403 | 1 .9763322

300 1.361111 1.0816 | 1 1.048774

350 1 .9245563 | 1 .9272976

400 1.44 1 | 1 1.025805

450 1 1 | .7346938 1.026844

500 1 1.088847 | 1 .9735112

550 1 .9184029 | 1 .9226109

600 1 1 | 1 1.145804

650 .6399999 1.092975 | .6944445 1.11585

700 1 1 | 1 1.028775

750 1 1.092975 | 1 1

800 1 1 | 1 1.059689

850 1 1.199547 | 1 1.063477

900 1 1 | 1.5625 1.094438

950 1 1.199547 | 1 1.031998

1000 1 1.092975 | 1 1

-----------------------------------------------------------------------------------------

Para estimar los deff de mejor manera se puede observar que donde se presenta más variación es en el

promedio del mínimo y máximo, de esta forma se puede graficar para observarlo de mejor manera.

Page 13: CONCEPTOS DE MUESTREO UTILIZANDO ESTIMADORES NO

X CONGRESO LATINOAMERICANO DE SOCIEDADES DE ESTADÍSTICA CÓRDOBA, ARGENTINA. 16 A 19 DE OCTUBRE 2012

Grafica 13: Efecto del diseño para el estimador (mínimo+máximo)/2 para el plan de muestreo por conglomerados según el tamaño de la

muestra.

Grafica 14: Efecto del diseño para el estimador (mínimo+máximo)/2 para el plan de muestreo estratificado según el tamaño de la muestra.

Para la población simulada específicamente en el estimador que se forma con el promedio entre el mínimo y

máximo coincide con los resultados obtenidos en los datos de un problema real, donde los grupos (vistos como

estratos o conglomerados) no aportaron a disminuir la varianza de los estimadores obtenida en un mas.

Se observa que el cociente de los Deff de la distribución Laplaciana, para el estimador antes mencionado

presenta menor varianza con respecto a la distribución Gaussiana, incluso para los diversos tamaños de

muestra.

En el caso de los demás estimadores se observa en las tablas que las varianzas de los muestreos (mc, me), son

similares a los valores de la varianza de un mas, esto nos muestra que para cualquier tipo de muestreo visto en

este documento los estimadores no tradicionales ocupados se comportan de buena manera para poder obtener

los resultados de la población.

CONCLUSIONES

.91

1.1

1.2

De

ff(m

m;

mu

estr

eo

x c

on

glo

me

rad

os

0 200 400 600 800 1000n

Distribucion Gaussiana

.9.9

5

1

1.0

51

.11

.15

De

ff(m

m;

mu

estr

eo

x c

on

glo

me

rad

os

0 200 400 600 800 1000n

Distribucion Laplace

.8.9

11

.11

.2

De

ff(m

m;

mu

estr

eo

estr

atifica

do

0 200 400 600 800 1000n

Distribucion Gaussiana.9

5

1

1.0

51

.11

.15

1.2

De

ff(m

m;

mu

estr

eo

estr

atifica

do

0 200 400 600 800 1000n

Distribucion Laplace

Page 14: CONCEPTOS DE MUESTREO UTILIZANDO ESTIMADORES NO

X CONGRESO LATINOAMERICANO DE SOCIEDADES DE ESTADÍSTICA CÓRDOBA, ARGENTINA. 16 A 19 DE OCTUBRE 2012

Se observa que no siempre la media muestral es el mejor estimador para la media poblacional. Se observa

además que cuando los datos población finita se generan a partir de un modelo de probabilidad de Laplace la

mediana –como estimador de la media– presenta menor varianza en relación al promedio muestral. Esto quiere

decir que la mediana es insesgado y tiene menor varianza respecto a la media. Que en muestreos desde

poblaciones finitas no siempre se chequea el comportamiento de los datos; en este caso, se dispone de dos

poblaciones una proveniente del modelo gaussiano y la otra de Laplace. Los resultados son diferentes. Desde el

punto de vista pedagógico se debe promover el chequear la forma que tienen los datos.. Que la simulación de

Monte Carlo es una herramienta poderosa para mostrar conceptos del muestreo (básico, intermedio y

avanzado) tales como insesgamiento, estimadores de varianza mínima y consistencia de los estimadores. El Deff

es otro concepto que se puede explicar a través de las simulaciones.

A través de las poblaciones simuladas se pueden hacer observaciones sobre los comportamientos reales de

algunos datos, y así utilizar estimadores más potentes y con mejores características para estimar la media

poblacional, en este caso u otros parámetros en situaciones más generales que las aquí presentadas.

REFERENCIAS Evans, M., Hatings, N. and Peacock, B. (1993). Statistical Distributions. Second edition. NY, New York: John Wiley & Sons.

StataCorp (2011). Stata: Release 12. Statistical Software. TX, College Station: StataCorp LP

Heeringa, S. G., West, B. T. and Berglund, P. A. (2010). Applied Survey Data Analysis. FL, Boca de Raton: Chapman and Hall/CRC.

Lohr, S. L. (1999). Sampling: Design and Analysis. CA, Pacific Grove: Duxbury Press.