63
Verónica De Jesús Romo Enrique Gómez Bernal Claudia Irene Larracilla Camacho Martha Patricia Ordóñez Reyes Marcos Sebastián Pineda Espinosa Diciembre, 2004 IIMAS “Técnicas de Muestreo” M. Patricia Romero

Verónica De Jesús Romo Enrique Gómez Bernal Claudia Irene Larracilla Camacho Martha Patricia Ordóñez Reyes Marcos Sebastián Pineda Espinosa Diciembre,

Embed Size (px)

Citation preview

Page 1: Verónica De Jesús Romo Enrique Gómez Bernal Claudia Irene Larracilla Camacho Martha Patricia Ordóñez Reyes Marcos Sebastián Pineda Espinosa Diciembre,

Verónica De Jesús RomoEnrique Gómez BernalClaudia Irene Larracilla

CamachoMartha Patricia Ordóñez Reyes

Marcos Sebastián Pineda Espinosa

Diciembre, 2004

IIMAS“Técnicas de Muestreo”

M. Patricia Romero

Page 2: Verónica De Jesús Romo Enrique Gómez Bernal Claudia Irene Larracilla Camacho Martha Patricia Ordóñez Reyes Marcos Sebastián Pineda Espinosa Diciembre,

ÍNDICE

1. Origen de la No Respuesta

2. Métodos para tratarla: (en el Diseño, en el levantamiento y en el Procesamiento de la Información)

3. Implicaciones

4. Ejercicios

5. Bibliografía

Page 3: Verónica De Jesús Romo Enrique Gómez Bernal Claudia Irene Larracilla Camacho Martha Patricia Ordóñez Reyes Marcos Sebastián Pineda Espinosa Diciembre,

1. ORIGEN DE LA NO RESPUESTA

Page 4: Verónica De Jesús Romo Enrique Gómez Bernal Claudia Irene Larracilla Camacho Martha Patricia Ordóñez Reyes Marcos Sebastián Pineda Espinosa Diciembre,

• La No-respuesta o falta de respuesta se ubica dentro de los errores ajenos al muestreo.

• Este tipo de errores se pueden presentar tanto en las encuestas por muestreo como en los censos (considerados como encuestas exhaustivas).

• El problema consiste en la existencia de cuestionarios para los que no ha sido posible recoger la información por diversos motivos, distinguiéndose entre las negativas a responder y las ausencias del hogar.

Page 5: Verónica De Jesús Romo Enrique Gómez Bernal Claudia Irene Larracilla Camacho Martha Patricia Ordóñez Reyes Marcos Sebastián Pineda Espinosa Diciembre,

• La No-respuesta o falta de respuesta puede referirse a la totalidad de un cuestionario o a ciertas preguntas (en este caso se habla de respuesta parcial)

• Contrario a los errores de muestreo, en los errores ajenos al muestreo no decrecen al aumentar el tamaño de muestra, al contrario, en general crecen.

• La falta de respuesta total suele medirse por el porcentaje de unidades muestrales elegibles que no respondieron, respecto al número de unidades elegibles de la muestra.

Page 6: Verónica De Jesús Romo Enrique Gómez Bernal Claudia Irene Larracilla Camacho Martha Patricia Ordóñez Reyes Marcos Sebastián Pineda Espinosa Diciembre,

FACTORES QUE INFLUYEN EN LA FALTA DE RESPUESTA

(Ejemplos)

• Organismo patrocinador de la encuesta• Oportunidad de ejecución de la

encuesta• Índole de las preguntas• Adiestramiento de entrevistadores• Extensión del cuestionario (CARGA DE

RESPUESTA)• Interés de las preguntas

Page 7: Verónica De Jesús Romo Enrique Gómez Bernal Claudia Irene Larracilla Camacho Martha Patricia Ordóñez Reyes Marcos Sebastián Pineda Espinosa Diciembre,

•Falta de credibilidad en la promesa de confidencialidad•Recelo a establecer contacto con extraños•Falta de tiempo para cooperar•El miedo a aparecer en archivos electrónicos públicos

Page 8: Verónica De Jesús Romo Enrique Gómez Bernal Claudia Irene Larracilla Camacho Martha Patricia Ordóñez Reyes Marcos Sebastián Pineda Espinosa Diciembre,

¿POR QUÉ YO Y NO MI VECINO?

• En la Encuesta Nacional por Muestreo en la India, se utiliza el principio de “Propósitos Múltiples”: que consiste en la investigación simultánea de varios temas pero con diferentes muestras de hogares para distintos cuestionarios a fin de reducir la carga de respuesta.

• Las tasas de negativas suelen ser mucho menores en los países en vías de desarrollo que en los desarrollados.

Page 9: Verónica De Jesús Romo Enrique Gómez Bernal Claudia Irene Larracilla Camacho Martha Patricia Ordóñez Reyes Marcos Sebastián Pineda Espinosa Diciembre,

• La falta de respuesta introduce sesgos cuando las unidades no respondientes difieren sustancialmente de las respondientes, por lo que la utilización de sustitutos no necesariamente elimina el sesgo.

• Un indicador del sesgo puede obtenerse al comparar los valores de la(s) variable(s) de interés correspondientes a unidades que responden al primer intento contra los que contestaron después de varios intentos.

Page 10: Verónica De Jesús Romo Enrique Gómez Bernal Claudia Irene Larracilla Camacho Martha Patricia Ordóñez Reyes Marcos Sebastián Pineda Espinosa Diciembre,

• La falta de respuesta es considerada a veces como el ÍNDICE MÁS VISIBLE DE LA CALIDAD DE LA ENCUESTA, con respecto a su recibimiento en la población, su oportunidad, capacitación y control de los entrevistadores, carga de respuesta y en general al control del proceso operativo.

• La entrega de incentivos a los respondientes puede ser eficaz.

Page 11: Verónica De Jesús Romo Enrique Gómez Bernal Claudia Irene Larracilla Camacho Martha Patricia Ordóñez Reyes Marcos Sebastián Pineda Espinosa Diciembre,

•Aunque existen variaciones en la tasa de respuesta, con respecto a la técnica de entrevista (cara a cara, por teléfono, por correo, etc.) y el perfil de los entrevistados, el rango identificado varía de 46% a 76%, y los que más responden suelen tener mayor nivel socioeconómico.

Page 12: Verónica De Jesús Romo Enrique Gómez Bernal Claudia Irene Larracilla Camacho Martha Patricia Ordóñez Reyes Marcos Sebastián Pineda Espinosa Diciembre,

FLUJO DE DATOS DE UNA ENCUESTA

POBLACIÒN OBJETIVO

MARCO MUESTRAL

ERRORES DEINFORMACIÓN(OMISIONES,

DESIGNACIONES ERRONEAS)

SELECCIÓN MUESTRAL

RECOLECCIÓN DE DATOS

UNIDADNO EXISTENTE

ÓINCORRECTA

RESPUESTA DE LA

UNIDAD

NO RESPUESTA

DE UNA UNIDAD

DEPURACIÓN DE

CUESTIONARIO

FALTA ÓSOBRA DE

COBERTURA

CUESTIONARIO INSERVIBLE

ALGUNOS BLANCOS

Y/ODATOS

INCONSISTENTES

DATOSCOMPLETOS

Y CONSISTENTES

IMPUTACIÓNPOR

ERRORES DECOBERTURA

ESTIMACIÓN

IMPUTACIÓN POR NO

RESPUESTA

TABULACIÓN

POSIBLES ERRORES DEIMPUTACIÓN

POSIBLES ERRORES DERESPUESTA

(no detectables)

Page 13: Verónica De Jesús Romo Enrique Gómez Bernal Claudia Irene Larracilla Camacho Martha Patricia Ordóñez Reyes Marcos Sebastián Pineda Espinosa Diciembre,

Supongamos que las unidades de población (N) pueden ser dividas en dos estratos:

N1: Número de unidades que si responden

N2: Número de unidades que no responden

Entonces:

N = N1 + N2 y

W1=N1/N, W2=N2/N

siendo W2 la proporción de no-respuesta en la población.

EFECTOS DE LA NO-RESPUESTA

Page 14: Verónica De Jesús Romo Enrique Gómez Bernal Claudia Irene Larracilla Camacho Martha Patricia Ordóñez Reyes Marcos Sebastián Pineda Espinosa Diciembre,

Por lo que el sesgo que se obtiene al utilizar estimar a la media poblacional es: 1 22E y - Y =W Y - Y1

Al utilizar a de la población:

1 1 21 2E Y - Y=NWY - NY =- W Y

Finalmente, si se utiliza a proporción de la población:

1y

2 1 21E p - P=W P P

1Y

1p

Page 15: Verónica De Jesús Romo Enrique Gómez Bernal Claudia Irene Larracilla Camacho Martha Patricia Ordóñez Reyes Marcos Sebastián Pineda Espinosa Diciembre,

Como la muestra no provee información sobre el estrato de no respondientes, los tamaños de sesgos son desconocidos lo que dificulta el calcular intervalos de confianza para los estimadores de las características de interés. Sin embargo, para el caso de estimar proporciones el intervalo de confianza estará dado de la siguiente manera:

1 1 1 11 1 2 1 1 2

1 1

pq pqW p - 2 +W 0 ,W p +2 +W 1

n n

Además, Birnbaum y Sirken muestran que un valor de n que garantiza un error menor que es:

2

2 1

n - 14δ δ- W W

t

Page 16: Verónica De Jesús Romo Enrique Gómez Bernal Claudia Irene Larracilla Camacho Martha Patricia Ordóñez Reyes Marcos Sebastián Pineda Espinosa Diciembre,

2. TRATAMIENTOS EN EL DISEÑO

Page 17: Verónica De Jesús Romo Enrique Gómez Bernal Claudia Irene Larracilla Camacho Martha Patricia Ordóñez Reyes Marcos Sebastián Pineda Espinosa Diciembre,

Técnica de Hansen y Hurwitz

Esta técnica se utiliza principalmente para el diseño de encuestas por correo:

1. Se selecciona una muestra, a la cual se le envía el cuestionario

2. Se selecciona una “submuestra” de aquellas personas que no respondieron el cuestionario

3. A esta submuestra se aplicará el cuestionario de manera personal

4. Los datos obtenidos de las dos partes de la muestra son combinadas para obtener los estimadores de interés.

Page 18: Verónica De Jesús Romo Enrique Gómez Bernal Claudia Irene Larracilla Camacho Martha Patricia Ordóñez Reyes Marcos Sebastián Pineda Espinosa Diciembre,

Asimismo esta técnica propone un tamaño de muestra de acuerdo a los costos en que se incurrirían al llevar a cabo una encuesta de ese tipo:

2 22 2

20

S + N f - 1 S /Nn=

V +S /N

2 22 2 2

22 0 1 1

c S - N S /Nf =

S c + N c /N

donde:

c0: costo de incluir una unidad muestral en la primera etapa.

c1: costo de procesar la información obtenida

c2: costo de obtener y procesar la información del grupo de no-respuesta

Page 19: Verónica De Jesús Romo Enrique Gómez Bernal Claudia Irene Larracilla Camacho Martha Patricia Ordóñez Reyes Marcos Sebastián Pineda Espinosa Diciembre,

Modelo de Deming

Deming en 1953 propuso un modelo que muestra cómo las visitas adicionales ayudan a disminuir el sesgo y propuso un modelo para determinar el número óptimo de visitas adicionales para tener una precisión dada.

Suponga que la población puede ser divida en r grupos de acuerdo a la probabilidad de que la persona esté en casa.

Page 20: Verónica De Jesús Romo Enrique Gómez Bernal Claudia Irene Larracilla Camacho Martha Patricia Ordóñez Reyes Marcos Sebastián Pineda Espinosa Diciembre,

Ahora se toma una muestra sin reemplazo de tamaño n0. Después de i visitas, la muestra es dividida en (r+1) grupos. Sea nij el número de unidades en la muestra que corresponden al grupo j y responden en o antes de la i-ésima visita. Así, el grupo (r+1) contendrá a todas las unidades que aún no han sido entrevistadas.De esta forma se puede ver que E[ni] (número esperado de personas que han sido entrevistadas en el curso de i visitas) es:

r

0 ij jj

E =n wpin

Page 21: Verónica De Jesús Romo Enrique Gómez Bernal Claudia Irene Larracilla Camacho Martha Patricia Ordóñez Reyes Marcos Sebastián Pineda Espinosa Diciembre,

Técnica de Politz & Simmons

Con esta técnica se pretende evitar por completo las visitas adicionales mediante la recolección de las primeras visitas solamente, que a continuación se corrigen con información acerca de la probabilidad de encontrar al entrevistado. Se le pregunta en qué cantidad de k periodos similares habría estado disponible para entrevista; si la respuesta es r, se pondera la entrevista con (k+1)/(r+1). Por lo regular se utiliza k=5.

Page 22: Verónica De Jesús Romo Enrique Gómez Bernal Claudia Irene Larracilla Camacho Martha Patricia Ordóñez Reyes Marcos Sebastián Pineda Espinosa Diciembre,

Por ejemplo, si el entrevistado dice que ha estado disponible en r=1 periodos similares, obtiene la ponderación 6/2. Así, de 600 sujetos, cada uno de los cuales tiene la probabilidad 1/3 de ser encontrado en su casa, se encontrará a 200; al dar la respuesta r=1 y obtener la ponderación 6/2, toman el lugar de los 400 que se han encontrado en sus casas.

Page 23: Verónica De Jesús Romo Enrique Gómez Bernal Claudia Irene Larracilla Camacho Martha Patricia Ordóñez Reyes Marcos Sebastián Pineda Espinosa Diciembre,

EJERCICIO

Page 24: Verónica De Jesús Romo Enrique Gómez Bernal Claudia Irene Larracilla Camacho Martha Patricia Ordóñez Reyes Marcos Sebastián Pineda Espinosa Diciembre,

Efectos de las Revisitas. Aplicación

Se trabaja con una población dividida en tres clases (j). En la cual se encuesta a un adulto al azar.

Clase (j) 1 2 3pj 0.45 0.5 0.05

pj: proporción de la población que cae en la j-ésima clase

A su vez la población se encuentra dividida en dos grupos, cuyas mj se muestran a continuación.media

I 55 50 45

media II 60 50 40j: es la media de la característica de para la j-ésima clase

Page 25: Verónica De Jesús Romo Enrique Gómez Bernal Claudia Irene Larracilla Camacho Martha Patricia Ordóñez Reyes Marcos Sebastián Pineda Espinosa Diciembre,

NO VISITASwij

1 2 3

1 0.6 0.3 0.1

2 0.96 0.65 0.28

3 0.996 0.825 0.424

4 0.9996 0.9125 0.5392

5 0.99996 0.95625 0.63136

El número de entrevistas obtenidas en i-ésima visita se obtiene por medio de:

noSpjwij

Donde no es el tamaño inicial de la muestra.

• wij: es la probabilidad de que se encuentre un entrevistado de la j-ésima clase antes de k i-ésima visita. Es una probabilidad condicionada al del número de visitas

• =P(OE1a ò OE2a ó … óOEi-ésima)

Page 26: Verónica De Jesús Romo Enrique Gómez Bernal Claudia Irene Larracilla Camacho Martha Patricia Ordóñez Reyes Marcos Sebastián Pineda Espinosa Diciembre,

# Requerido de visitas

# Entrevistas obtenidas

Costo promedio por entrevista

1 0.43 no 100

2 0.77 no 105

3 0.88 no 108

4 0.93 no 110

5 0.96 no 114

Como se puede apreciar en la tabla, el número de entrevistas obtenidas aumenta conforme aumenta el número de revistas lo cual permite obtener mejores estimaciones de los parámetros poblacionales. Por otro lado el costo promedio de la entrevista y el tiempo de obtención de la información aumentan, lo cual significa una fuerte restricción.

Con el fin de observar los beneficios de las revisitas, se calculó el sesgo para la estimación de la y barra para las dos poblaciones. En ambos casos se aprecia un menor sesgo cuando aumentan las visitas a las unidades muestrales que no contestaron.

Page 27: Verónica De Jesús Romo Enrique Gómez Bernal Claudia Irene Larracilla Camacho Martha Patricia Ordóñez Reyes Marcos Sebastián Pineda Espinosa Diciembre,

Media Verdadera

Grupo 1 52

Grupo II 54

NO VISITASi

Grupo Ii

Grupo II

1 53.12 56.24

2 52.71 55.42

3 52.42 54.84

5 52.18 54.36

La media verdadera de la población para la característica esta dada por:

mbara =SpimjBajo el supuesto de las mj de los datos iniciales

La media de la muestra obtenida después de i visitas, es también una esperanza condicional de yi barra dado el numero de visitas.

E (y ibarra dado ni) = Swij pi mj / Swijpj = m ibarra

Page 28: Verónica De Jesús Romo Enrique Gómez Bernal Claudia Irene Larracilla Camacho Martha Patricia Ordóñez Reyes Marcos Sebastián Pineda Espinosa Diciembre,

# VISITAS sesgo I sesgo II

1 1.12 2.24

2 0.71 1.42

3 0.42 0.84

4 0.27 0.53

5 0.18 0.36

Los sesgos que se obtuvieron en ambos grupos son los siguientes.

Una política que requiere tres visitas, por ejemplo reduce el sesgo de manera considerable. Pero la restricción monetaria, por la cual no es posible hacer un número elevado de revisitas; por lo tanto se desea encontrar el estimador con menor ECM dado el número inicial de la muestra (no) que determino el presupuesto disponible.

Page 29: Verónica De Jesús Romo Enrique Gómez Bernal Claudia Irene Larracilla Camacho Martha Patricia Ordóñez Reyes Marcos Sebastián Pineda Espinosa Diciembre,

no=1000 no=2000

# VISIT

AS ECM I ECM II ECM I ECM II

1 7.1 10.9 4.2 8

2 6.7 8.3 3.6 5.2

3 6.5 7.1 3.4 3.9

4 6.6 6.9 3.3 3.6

5 6.8 6.9 3.4 3.5

En la siguiente tabla se muestran los ECMde los estimadores con diferentes tamaños de muestras iniciales para cada uno de los grupos. Con no=1000 se obtiene el mejor estimador con 3 visitas, en el grupo 2 esto pasa con 4 visitas, pues mayores resisitas resultan innecesarias e incluso perjudiciales ya que aumenta el ECM

Page 30: Verónica De Jesús Romo Enrique Gómez Bernal Claudia Irene Larracilla Camacho Martha Patricia Ordóñez Reyes Marcos Sebastián Pineda Espinosa Diciembre,

Con no=2000 el número de visitas que necesarias para obtener la información que proporcione los estimados de menor ECM es 4 visitas en el grupo I y cinco en el grupo II

La mayor virtud del modelo yace en su capacidad de establecer políticas económicas para buscar el número de revisitas para obtener información que proporciones los estimadores con mejor ECM para cualquier tipo de encuesta.

Page 31: Verónica De Jesús Romo Enrique Gómez Bernal Claudia Irene Larracilla Camacho Martha Patricia Ordóñez Reyes Marcos Sebastián Pineda Espinosa Diciembre,

3. MÉTODOS EN EL LEVANTAMIENTO

Page 32: Verónica De Jesús Romo Enrique Gómez Bernal Claudia Irene Larracilla Camacho Martha Patricia Ordóñez Reyes Marcos Sebastián Pineda Espinosa Diciembre,

Encuestas repetidas (callbacks)

La no-respuesta se puede reducir mediante esfuerzos persistentes de los entrevistadores y motivando a los que no responden.

Encuesta delegada (Proxy)

Una técnica importante es elegir datos de una unidad alternativa. Por ejemplo las instrucciones de la encuesta pueden indicar que se puede encuestar, en el caso de que no sea posible hacerlo a la persona indicada, a cualquier otro miembro de la familia que tenga más de 20 años.

Page 33: Verónica De Jesús Romo Enrique Gómez Bernal Claudia Irene Larracilla Camacho Martha Patricia Ordóñez Reyes Marcos Sebastián Pineda Espinosa Diciembre,

Rechazos-seguimiento

Siempre que sea posible debe hacerse un seguimiento de los hogares que rechazan la encuesta. En la mayoría de los casos esto significará que un entrevistador experimentado habrá de efectuar una visita personal.

Teléfono

1. Permite que se realice la entrevista en su momento sean cuales sean las condiciones climatológicas.

Page 34: Verónica De Jesús Romo Enrique Gómez Bernal Claudia Irene Larracilla Camacho Martha Patricia Ordóñez Reyes Marcos Sebastián Pineda Espinosa Diciembre,

2. Está especialmente indicada para personas solas, familias pequeñas e inquilinos de apartamentos a los que suele ser difícil de localizar en casa y a los que se suele encontrar por la noche.

3. Permite realizar la entrevista de la manera que más convenga al entrevistado.

4. Da más oportunidades y tiempo para la reiteración de la encuesta.

Page 35: Verónica De Jesús Romo Enrique Gómez Bernal Claudia Irene Larracilla Camacho Martha Patricia Ordóñez Reyes Marcos Sebastián Pineda Espinosa Diciembre,

Cuota

En el muestreo por cuotas, se estratifica la población según unas variables que se espere estén muy relacionadas con la respuesta.

Sustitución en el campo

Hay dos tipos básicos de sustituciones a usar:

a)Selección al azar

Se selecciona probabilísticamente unidades adicionales a partir de una población restringida o subgrupo, bajo el supuesto de que sus características serán muy parecidas a las de las unidades que no responden.

Page 36: Verónica De Jesús Romo Enrique Gómez Bernal Claudia Irene Larracilla Camacho Martha Patricia Ordóñez Reyes Marcos Sebastián Pineda Espinosa Diciembre,

Sin embargo, no elimina el sesgo debido a la no-respuesta inicial, sólo sustituye de manera insesgada una unidad por otra que falló en responder, pudiendo tener o no las mismas características.b)Selección de un sustituto específicamente designado.

Identifica a una o más unidades que se encuentren próximas a las unidades que no responden, esto es debido a la tendencia de las unidades vecinas a tener características similares en comparación con unidades seleccionadas al azar.

Page 37: Verónica De Jesús Romo Enrique Gómez Bernal Claudia Irene Larracilla Camacho Martha Patricia Ordóñez Reyes Marcos Sebastián Pineda Espinosa Diciembre,

• Uso de incentivos

Un incentivo puede ser menos costoso que una llamada adicional. La planificación de incentivo se basa en el coste de las llamadas o visitas adicionales que habrían de efectuarse en un esfuerzo por completar la entrevista.

Page 38: Verónica De Jesús Romo Enrique Gómez Bernal Claudia Irene Larracilla Camacho Martha Patricia Ordóñez Reyes Marcos Sebastián Pineda Espinosa Diciembre,

Respuesta aleatorizada

Este modelo debido a Warner permite eliminar o reducir los sesgos introducidos cuando en vez de negativas se obtienen contestaciones deliberadamente falsas. Se ha utilizado este método en encuestas con preguntas de carácter íntimo, por ejemplo: alcoholismo, drogadicción, aborto, conducta sexual, conductas de carácter delictivo, etc.

Suponga un grupo A el cual está formado por personas con una característica “inaceptable” y estamos interesados en calcular la proporción A de personas que pertenecen a ese grupo.

Page 39: Verónica De Jesús Romo Enrique Gómez Bernal Claudia Irene Larracilla Camacho Martha Patricia Ordóñez Reyes Marcos Sebastián Pineda Espinosa Diciembre,

El método de Warner indica que a cada persona entrevistada (de una m.a. de tamaño n seleccionada de la población), pro ejemplo, se le da una moneda marcada en un lado con A y el otro lado con B.

Donde los lados indican:

A: “Pertenezco al grupo A”

B: “No pertenezco al grupo A”

Además se sabe que:

P(A)=pw y P(B)=1-pw

Page 40: Verónica De Jesús Romo Enrique Gómez Bernal Claudia Irene Larracilla Camacho Martha Patricia Ordóñez Reyes Marcos Sebastián Pineda Espinosa Diciembre,

Al entrevistado se le pide que lance la moneda (el entrevistador no observa el resultado del lanzamiento) y que solamente diga “sí” o “no” pertenece al grupo que le indica la moneda (sin mencionar en qué lado cayó la moneda).

Se asume que la persona respondió sinceramente. Ahora suponga que n1 respondieron “sí”. Entonces un estimador insesgado de w, la probabilidad de una respuesta afirmativa está dada por:

w w A w A

A w w

θ =p π + 1- p 1- π

=π 2p - 1 + 1- p

Page 41: Verónica De Jesús Romo Enrique Gómez Bernal Claudia Irene Larracilla Camacho Martha Patricia Ordóñez Reyes Marcos Sebastián Pineda Espinosa Diciembre,

Como pw es conocida, un estimador insesgado de A es:

1w

A ww

n- 1- p 1nπ = , p2p - 1 2

y la varianza del estimador será:

w w

A 2

w

θ 1- θ1V π =

n2p - 1

Page 42: Verónica De Jesús Romo Enrique Gómez Bernal Claudia Irene Larracilla Camacho Martha Patricia Ordóñez Reyes Marcos Sebastián Pineda Espinosa Diciembre,

3. MÉTODOS PARA TRATARLA EN EL PROCESAMIENTODE LA INFORMACIÓN

Page 43: Verónica De Jesús Romo Enrique Gómez Bernal Claudia Irene Larracilla Camacho Martha Patricia Ordóñez Reyes Marcos Sebastián Pineda Espinosa Diciembre,

Levantamiento de Datos

Depuración Previa

Unidades queNO Responden

No válidosBlancos o Entradas

InconsistentesCompleto yConsistente

ImputaciónEstimación

Tabulación

Unidades queResponden

Page 44: Verónica De Jesús Romo Enrique Gómez Bernal Claudia Irene Larracilla Camacho Martha Patricia Ordóñez Reyes Marcos Sebastián Pineda Espinosa Diciembre,

MÉTODOS DE LLENADO (IMPUTACIÓN)

La imputación es el proceso de asignar valores a datos faltantes para producir un conjunto de datos completos, ésto con la finalidad de reducir el sesgo debido a la No Respuesta.

Existen diversos métodos y aquí se describen algunos:

1.Imputación Deductiva.Se usa cuando las respuestas que faltan se pueden deducir del resto de la información.

Page 45: Verónica De Jesús Romo Enrique Gómez Bernal Claudia Irene Larracilla Camacho Martha Patricia Ordóñez Reyes Marcos Sebastián Pineda Espinosa Diciembre,

2. Fichero Caliente (Hot Deck).Generalmente es un procedimiento de duplicación. Cuando falta un valor, se duplica un valor ya existente en la muestra para reemplazarlo.

3. Fichero Caliente Modificado.Su esencia es la clasificación y empate de donantes potenciales y receptores utilizando muchas variables. El empate se hace sobre bases jerárquicas donde el nivel más bajo es aquel en el que se encuentra un donante.

Page 46: Verónica De Jesús Romo Enrique Gómez Bernal Claudia Irene Larracilla Camacho Martha Patricia Ordóñez Reyes Marcos Sebastián Pineda Espinosa Diciembre,

4. Regresión.Se toman los datos en los que si hay respuesta. Esta Imputación, produce valores más cercanos al verdadero que otros métodos pero es costoso y lleva mucho tiempo realizarlo para todas las preguntas con datos faltantes.

5. Ponderación.Se inflan las ponderaciones mediante la inversa de la tasa de respuesta. En un área de balance b, una estimación del total de una característica viene dada por:

Page 47: Verónica De Jesús Romo Enrique Gómez Bernal Claudia Irene Larracilla Camacho Martha Patricia Ordóñez Reyes Marcos Sebastián Pineda Espinosa Diciembre,

Si solo responden mb unidades entonces, la ponderación Пi

-1 es inflada por la inversa de la tasa de respuesta mb/nb o sea, nb/mb.6. Duplicación.Duplica un número de unidades suficientes mb entre los que no responden y de esta forma alcanzar el nivel original de nb unidades.

∑ Xi/Пii=1

nb

Page 48: Verónica De Jesús Romo Enrique Gómez Bernal Claudia Irene Larracilla Camacho Martha Patricia Ordóñez Reyes Marcos Sebastián Pineda Espinosa Diciembre,

7. Sustitución.Se sustituye la no respuesta por datos históricos o por datos provenientes de una fuente externa.En lugar de áreas de balance, se usan clases de ponderación (características de las unidades últimas).

8. Tasa RAD (Ranking Ratio)Se usa como una forma de ajuste cuando las clases a ponderar se definen en términos de tablas de contingencia de ciertas características. Lo que se busca es hacer que las distribuciones marginales ponderadas se comporten igual en la población.

Page 49: Verónica De Jesús Romo Enrique Gómez Bernal Claudia Irene Larracilla Camacho Martha Patricia Ordóñez Reyes Marcos Sebastián Pineda Espinosa Diciembre,

Edad de la Población Edad de la muestra

1 2 … k Total 1 2 … k Total1 w11 w12…w1k w1. 1 q11 q12… q1k q1.2 w21 w22…w2k w2. 2 q21 q22… q2k q2. w.1 w.2… w.k 1 q.1 q.2… q.k 1

Las ponderaciones marginales de la muestra, se igualan a las de la población mediante un proceso iterativo. El sesgo en este método depende de la proximidad de las distribuciones de las células entre dos poblaciones y de la diferencia en las medias entre los que responden y no responden en una célula.

Page 50: Verónica De Jesús Romo Enrique Gómez Bernal Claudia Irene Larracilla Camacho Martha Patricia Ordóñez Reyes Marcos Sebastián Pineda Espinosa Diciembre,

IMPLICACIONES DE LA NO RESPUESTA

Page 51: Verónica De Jesús Romo Enrique Gómez Bernal Claudia Irene Larracilla Camacho Martha Patricia Ordóñez Reyes Marcos Sebastián Pineda Espinosa Diciembre,

ETAPAS DE LA ENCUESTA.

• PLANEACIÓN

• ENTRENAMIENTO DE LOS ENCUESTADORES

• RECOLECCIÓN DE LOS DATOS

• ETAPA DE PROCESAMIENTO Y ESTIMACIÓN

Page 52: Verónica De Jesús Romo Enrique Gómez Bernal Claudia Irene Larracilla Camacho Martha Patricia Ordóñez Reyes Marcos Sebastián Pineda Espinosa Diciembre,

PLANEACIÓN

TRATAMIENTO

1.Tasas de no respuesta prevista a partir de la experiencia obtenida en encuestas similares respecto al método de recogida de datos.

IMPLICACIONES

1. Se determinan diversas estrategias en la etapa de campo y procesamiento (encuestas repetidas, imputación, etc.).

Page 53: Verónica De Jesús Romo Enrique Gómez Bernal Claudia Irene Larracilla Camacho Martha Patricia Ordóñez Reyes Marcos Sebastián Pineda Espinosa Diciembre,

TRATAMIENTO

2. Se incrementa la muestra para permitir la no-respuesta (sobre muestreo).

3. Estudios piloto para contrastar el cuestionario y los trabajos de campo.

IMPLICACIONES

2. La varianza muestral se comportará como se esperaba; sin embargo sigue habiendo sesgo debido a la no-respuesta.

3. Se intenta reducir el error en las respuestas así como las no-respuestas a una pregunta.

Page 54: Verónica De Jesús Romo Enrique Gómez Bernal Claudia Irene Larracilla Camacho Martha Patricia Ordóñez Reyes Marcos Sebastián Pineda Espinosa Diciembre,

ENTRENAMIENTO DE LOS ENCUESTADORES

TRATAMIENTO1. Prueba de

aptitud, guión de la encuesta, asignación agrupada que les permite encuestas repetidas.

IMPLICACIONES1. Los entrevistadores

experimentados podrán minimizar la no-respuesta y por tanto el sesgo sobre todo encuestas continuas. En encuestas ad hoc poco puede uno hacer excepto visitas repetidas que aumentan los costos por unidad seleccionada.

Page 55: Verónica De Jesús Romo Enrique Gómez Bernal Claudia Irene Larracilla Camacho Martha Patricia Ordóñez Reyes Marcos Sebastián Pineda Espinosa Diciembre,

RECOLECCIÓN DE DATOS

TRATAMIENTO1. Intentos de

encuestas repetidas hasta que se obtienen las máximas respuestas posibles; intentos de evitar los rechazos por medio de diplomacia y medios de comunicación.

IMPLICACIONES 1. Más encuestas

repetidas incrementan el costo por unidad, especialmente si no se puede determinar el momento propicio a través de los vecinos; al reducir el nivel de no-respuesta se reduce la varianza muestral y el sesgo debido a la no-respuesta.

Page 56: Verónica De Jesús Romo Enrique Gómez Bernal Claudia Irene Larracilla Camacho Martha Patricia Ordóñez Reyes Marcos Sebastián Pineda Espinosa Diciembre,

TRATAMIENTO2. Sustitución por

otras unidades de campo no seleccionadas originalmente.

IMPLICACIONES 2. Reducen la

varianza muestral pero pueden existir sesgos muestrales y de no-respuesta.3. Sustitución por

otras unidades de un grupo de unidades reservadas (incremento de la muestra para compensar la no-respuesta).

3. Reduce la varianza muestral y el sesgo no muestral pero puede seguir habiendo sesgo debido a la no-respuesta.

Page 57: Verónica De Jesús Romo Enrique Gómez Bernal Claudia Irene Larracilla Camacho Martha Patricia Ordóñez Reyes Marcos Sebastián Pineda Espinosa Diciembre,

IMPLICACIONES4. Se incrementa el

costo debido al esfuerzo extra que se requiere y se reduce el sesgo de no-respuesta aunque no se elimina por completo.

5. Se reduce la varianza muestral, posibles subestimaciones de los totales a menos que se ajusten las ponderaciones en la fase de procesamiento.

TRATAMIENTO4. Submuestreo

entre los que no responden.

5. Se ignora la no-respuesta en el campo

Page 58: Verónica De Jesús Romo Enrique Gómez Bernal Claudia Irene Larracilla Camacho Martha Patricia Ordóñez Reyes Marcos Sebastián Pineda Espinosa Diciembre,

ETAPA DE PROCESAMIENTO Y ESTIMACIÓN

TRATAMIENTO1. Imputación de

la no-respuesta.2. Formación de

las células de ajuste.

IMPLICACIONES 1. Reducción del error

de no-respuesta, no su eliminación mediante un método apropiado de imputación.

2. Reducción en la varianza muestral a través de un estimador de la razón o usando fuentes de datos independientes para la imputación.

Page 59: Verónica De Jesús Romo Enrique Gómez Bernal Claudia Irene Larracilla Camacho Martha Patricia Ordóñez Reyes Marcos Sebastián Pineda Espinosa Diciembre,

TRATAMIENTO

3. Ajuste de ponderaciones o sustitución explicita de los datos que falten

IMPLICACIONES

3. Incremento ligero en el coste del proceso debido a un procesamiento posiblemente complejo para tratar los datos que faltan.

Page 60: Verónica De Jesús Romo Enrique Gómez Bernal Claudia Irene Larracilla Camacho Martha Patricia Ordóñez Reyes Marcos Sebastián Pineda Espinosa Diciembre,

TRATAMIENTO IMPLICACIONES 4. Dificultades en el

análisis de los datos de una encuesta compleja más allá de lo que proviene de la muestra SRS, debido a datos que faltan y a las imputaciones realizadas por ellos.

5. Dificultad de avisar a los usuarios si hay datos faltantes cuando éstos son analizados.

Page 61: Verónica De Jesús Romo Enrique Gómez Bernal Claudia Irene Larracilla Camacho Martha Patricia Ordóñez Reyes Marcos Sebastián Pineda Espinosa Diciembre,

BILIOGRAFÍA

Page 62: Verónica De Jesús Romo Enrique Gómez Bernal Claudia Irene Larracilla Camacho Martha Patricia Ordóñez Reyes Marcos Sebastián Pineda Espinosa Diciembre,

Libros

1. Cochran, W.G.(1979). “Sampling Techniques”. Third Edition. John Wiley & Sons, N.Y.

2. Sukhatme, P.V., Sukhatme, B.V. Asok,C.(1984). “Sampling Theory of surveys with applications”. Iowa State Univ. Press.

3. Leslie Kish. “Muestreo de Encuestas”. Edit. Trillas, 1975. 1ª reimpresión.

Page 63: Verónica De Jesús Romo Enrique Gómez Bernal Claudia Irene Larracilla Camacho Martha Patricia Ordóñez Reyes Marcos Sebastián Pineda Espinosa Diciembre,

Páginas Web

• www.eustat.es/prodserv/datos/vol0010.pdf. “Metodología y tratamiento de la No Respuesta”. Seminario Internacional de Estadística 1986. Euskadi, España.

• www.eustat.es/prodserv/seminario_c.html

“Curso básico intensivo de Muestreo”. José Luis Sánchez Crespo.(Universidad Autónoma de Madrid), 1985.