Resumen Introducción Hipótesis Poder
Resumen Introducción Hipótesis Poder
Clase 5 Muestreo y tamaño de muestra
Francisco Gallego
Profesor Asociado
Pontificia Universidad Católica de Chile
Resumen Introducción Hipótesis Poder
Horario
Resumen Introducción Hipótesis Poder
Objetivos
Después de esta sesión, los participantes serán capaces de:
Identificar los elementos que pueden afectar la precision y exactitud de los resultados de una evaluacion de impacto.
Entender lo que es un test de hipotesis y los errores tipo 1 y 2.
Diferenciar entre los conceptos de exactitud y precision.
Entender el concepto de poder estadistico y su importancia para una evaluacion de impacto.
Resumen Introducción Hipótesis Poder
1. Introducción y conceptos básicos
2. Hipótesis y tipos de errores
3. ¿Qué determina el poder?
4. Resumen
Esquema de la presentación
Resumen Introducción Hipótesis Poder
1. Introducción y conceptos básicos
Resumen Introducción Hipótesis Poder
Una evaluación de impacto tiene como objetivo determinar el tamaño del impacto para una población.
Casi siempre no se puede evaluar a toda la población. Es muy costoso.
No es factible.
Tomar una muestra y aproximar el impacto. Estimamos el impacto en la población a través de la
muestra.
Evaluación y muestreo
7
Resumen Introducción Hipótesis Poder
Recapitulando: Muestreo y validez
8
Población Relevante
Muestra
Representativa
Validez externa “Muestro aleatorio no es condición
necesaría ni suficiente.”
Resumen Introducción Hipótesis Poder
Muestreo aleatorio Validez externa
Asignación aleatoria (tratamiento & control)
Validez interna
Recapitulando: Muestreo y validez
9
Tratamiento
Control
Resumen Introducción Hipótesis Poder
La asignación aleatoria elimina el sesgo.
Genera grupos que tienen características iguales en
promedio, si la muestra es suficientemente grande.
• ¿Pero qué pasa si asigno sólo una persona a tratamiento y
sólo una a control?
Dichas características van a tender a ser iguales a
las características de la población, si la muestra es
(representativa y) suficientemente grande.
Evaluación y muestreo
10
Resumen Introducción Hipótesis Poder
Exactitud vs. Precisión
Verdad
Estimación
Pre
cis
ión
(Tam
año M
uestr
a)
Sesgo No Sesgo
Exactitud (Aleatorización)
11
Resumen Introducción Hipótesis Poder
Precisión y muestreo
Se compara los resultados de la muestra para grupo de tratamiento contra los resultados para grupo de control.
Como no se observa a toda la población, se estima el impacto para la población utilizando una muestra. No tenemos certeza sobre el impacto para la población total.
Si la muestra es pequeña, las estimaciones van a ser poco precisas.
Si no tenemos mucha confianza en las estimaciones, ¿cuál es el margen de error aceptable?
¿Cuánta confianza podemos tener en las estimaciones?
12
Resumen Introducción Hipótesis Poder
Supongamos que tomamos una muestra
representativa de la población uruguaya y la
asignamos aleatoriamente a tratamiento y
control. Los resultados son:
13
Tratamiento Control
60 50
Resumen Introducción Hipótesis Poder
¿De acuerdo al ejemplo anterior, qué podemos concluir? 1. El programa tuvo impacto
de 10 puntos.
2. La muestra es demasiada grande para detectar impacto.
3. La muestra es demasiada pequeña para detectar impacto.
4. El programa no tuvo impacto.
5. No tengo suficiente información para concluir sobre el impacto.
14
Resumen Introducción Hipótesis Poder
Precisión y distribuciones Ejemplo: Programa de Profesor Adicional
15
Imagínense un programa donde los alumnos de cuarto
grado de varios distritos de Uruguay reciben ayuda de
profesores adicionales. Queremos medir el impacto sobre
las notas de los alumnos .
Resumen Introducción Hipótesis Poder
Precisión alta: Diferencia en notas de alumnos con Tratamiento y Control
16
Resumen Introducción Hipótesis Poder
Precisión baja: Diferencia en notas de alumnos con Tratamiento y Control
17
Resumen Introducción Hipótesis Poder
De acuerdo a los dos gráficos anteriores, ¿qué podemos concluir? 1. La precisión es impactada
por la distribución de las notas.
2. La facilidad con la cual se puede detectar impacto depende de la distribución de las notas.
3. El promedio es información insuficiente para medir un impacto.
4. Todas las respuestas correctos.
5. Solamente 1 y 2 son correctos.
18
Resumen Introducción Hipótesis Poder
Precisión y confianza en la estimación
¿Cuánta confianza podemos tener en las
estimaciones?
La confianza en las estimaciones depende de:
Variabilidad de la muestra (desviación estándar).
Tamaño de la muestra.
Esto lo podemos resumir en el Error Estándar (SE).
Podemos construir un intervalo de confianza.
19
Resumen Introducción Hipótesis Poder
Intervalo de confianza
Recordemos que el efecto estimado depende de la muestra que se utiliza.
Si utilizamos distintas muestras para representar una misma población, la estimación del efecto puede ser distinta.
Un intervalo de confianza de 95% nos dice que si estimamos un impacto para 100 distintas muestras de la misma población de interés, en el 95% de los casos el impacto estimado para la muestra es el impacto real para toda la población.
Regla de dedo: El impacto promedio estimado más o menos 2 veces el Error Estándar (±2 SE) da un intervalo de confianza de 95% (aprox).
20
Resumen Introducción Hipótesis Poder
2. Hipótesis y tipos de errores
Resumen Introducción Hipótesis Poder
Pruebas de hipótesis
En derecho penal, la mayoría de las instituciones
siguen la regla: “inocente hasta que se pruebe lo
contrario”.
El juez comienza con la “hipótesis nula” que el
acusado es inocente.
La “hipótesis alterna” del juez es que el acusado es
culpable.
Bajo la presunción de inocencia, la carga de la prueba
que el acusado es culpable cae en el fiscal.
Tiene que proveer “suficiente evidencia” para rechazar la
hipótesis nula (inocente) en favor de la alterna (culpable).
22
Resumen Introducción Hipótesis Poder
En una evaluación de impacto: en lugar de
“presuncion de inocencia,” la regla es: “presuncion
de insignificancia”.
La “hipotesis nula” (H0) es que no hubo impacto del
programa (cero).
Es decir, no hay diferencia entre grupos de Tratamiento y
Control.
La carga de la prueba recae en el evaluador.
Debe demostrar un efecto significativo del programa.
Si la diferencia entre grupos de Tratamiento y Control es
“grande”, entonces rechazamos la hipótesis nula (el impacto
fue cero) en favor de la hipótesis alterna (hubo impacto).
Pruebas de hipótesis
23
Resumen Introducción Hipótesis Poder
Pruebas de hipótesis: Ejemplo de programa escolar Hipótesis Nula (H0) Hipótesis Alterna (Ha)
No hay impacto del programa
sobre las notas:
Impacto = 0
Impacto ≤0
Impacto ≥ 0
Impacto = Resultado Tratamiento – Resultado Control
En una prueba de hipótesis, el evaluador se pregunta: ¿Puedo rechazar H0 (en favor de Ha)?
¿Son los datos que recolectamos consistentes con H0 o no?
Sí hay impacto del programa
sobre las notas:
Impacto ≠ 0
Impacto positivo, Efecto > 0
Impacto negativo, Efecto < 0
24
Resumen Introducción Hipótesis Poder
Para poder afirmar que « El Programa de Profesor Adicional tuvo un impacto significativo sobre las notas de los niños », el evaluador:
1. Aceptó la hipótesis nula.
2. Rechazó la hipótesis nula.
3. Aceptó la hipótesis alterna.
4. Rechazó la hipotesis alterna.
5. Depende.
6. No sé.
25
Resumen Introducción Hipótesis Poder
Dos tipos de errores en pruebas de hipótesis
USTED CONCLUYE
Sí tuvo efecto
rechazo H0
No tuvo efecto
no rechazo H0 en favor de Ha
LA
VERDAD
Programa SI tuvo
efecto
Error tipo II
(bajo poder)
Creo que NO tuvo efecto cuando en
verdad SI (muestra muy chica para
detectar efectos?)
Programa NO
tuvo efecto
Error tipo I
Creo que SI hay efecto
cuando en verdad NO
26
Bajo poder Baja confianza
Resumen Introducción Hipótesis Poder
Confianza: Error tipo I
Error tipo I: rechazar la hipótesis nula, cuando
en realidad es verdadera.
Falso positivo.
Creer que si hay impacto cuando en realidad nolo hay.
Nivel de significancia (α): La probabilidad que
rechacemos la H0 cuando sea verdadera.
Investigador elige y maneja directamente α .
• Típicamente, niveles de α: 0.05, 0.01, 0.1.
Con un nivel de 5% de significancia (α=0.05), tengo
95% de confianza en la validez de mi conclusión.
27
Resumen Introducción Hipótesis Poder
Significancia: Probabilidad de determinar que sí hay efecto
0
0,05
0,1
0,15
0,2
0,25
0,3
0,35
0,4
0,45
0,5
-4 -3 -2 -1 0 1 2 3 4 5 6
control
treatment
significance
Región crítica: determinamos nivel de significancia α
t = valor critico
Verdad bajo Ho Verdad bajo H1
28
Resumen Introducción Hipótesis Poder
¿Qué es poder estadístico?
Error Tipo II: No rechazar la hipótesis nula,
cuando en realidad es falsa.
Concluir que no hay diferencia, cuando sí la hay.
Creer que NO hay impacto cuando en realidad SÍ
lo hay.
Poder: La probabilidad que rechacemos H0, si
H0 es falsa.
Probabilidad que detectemos un efecto cuando SÍ
existe un efecto medible de nuestra intervención.
• Si replico el mismo experimento 100 veces, ¿cuántas veces
voy a rechazar H0 a cierto nivel de significancia? 29
Resumen Introducción Hipótesis Poder
Poder: probabilidad de detectar el efecto cuando este existe
Sin programa
Con Programa
Poder: Probabilidad de detectar el efecto cuando SÍ es cierto
Verdad bajo Ho Verdad bajo H1
Error tipo 2
Resumen Introducción Hipótesis Poder
¿Importa el tamaño de la muestra? Muestras chicas presentan desventajas:
Podemos tener mala suerte y que la muestra no represente a la población.
Imprecisión: Mucho “ruido” o poca precisión, aunque no haya sesgo.
• Dificulta las pruebas de hipótesis: bajo poder.
La distribución de estimadores se pueden comportar de manera distinta con muestras chicas.
Muestras grandes son costosas. El desafío del evaluador es buscar el tamaño óptimo
(i.e. la muestra con mayor poder DADA una restricción presupuestaria).
31
Resumen Introducción Hipótesis Poder
Error tipo I vs Error tipo II
Con un nivel de significancia más alto, se
aumenta la probabilidad de error tipo I.
…pero aumenta el poder de la prueba (se
reduce la probabilidad de cometer error tipo II).
En general, existe un trade-off:
Si bajas el nivel de significancia, reduces la
probabilidad de tener un error tipo 1 pero
aumentas la probabilidad de error tipo 2 (i.e. bajas
poder).
32
Resumen Introducción Hipótesis Poder
Error tipo I vs Error tipo II
Una forma de reducir ambos tipos de errores es
haciendo las distribuciones “más delgadas”.
Esto se logra subiendo el tamaño de muestra.
La práctica común es:
Primero fijar un nivel de significancia (p. ej. α=0.05)
Y luego escoger el tamaño de muestra para aumentar
el poder. Típicamente 80% o 90% de poder es
aceptable en economía.
33
Resumen Introducción Hipótesis Poder
3. Poder
Resumen Introducción Hipótesis Poder
0
0,05
0,1
0,15
0,2
0,25
0,3
0,35
0,4
0,45
0,5
-4 -3 -2 -1 0 1 2 3 4 5 6
control
treatment
Antes del programa
H0 Hβ
Control
Tratamiento
Asuma que hay dos efectos: efecto nulo y efecto β
Resumen Introducción Hipótesis Poder
¿Qué afecta el poder?
¿Cuáles son los factores que cambian la
probabilidad de detectar el impacto cuando
este existe?
Comprender esto nos ayuda a diseñar
experimentos más potentes.
39
Resumen Introducción Hipótesis Poder
¿Qué afecta el poder?
1. Magnitud del efecto
2. Tamaño de la muestra
3. Varianza / Desviación Estándar
4. Proporción de la muestra en T vs. C
5. Grupos (clusters)
40
Resumen Introducción Hipótesis Poder
Magnitud del efecto: 1*Error Estándar (SE)
• Hypothesized effect size determines distance between means
0
0,05
0,1
0,15
0,2
0,25
0,3
0,35
0,4
0,45
0,5
-4 -3 -2 -1 0 1 2 3 4 5 6
control
treatment
1 Error
Estándar
Hβ H0
Control
Tratamiento
41
Resumen Introducción Hipótesis Poder
Poder: 26% Si el impacto verdadero fuese 1*Error Estándar
0
0,05
0,1
0,15
0,2
0,25
0,3
0,35
0,4
0,45
0,5
-4 -3 -2 -1 0 1 2 3 4 5 6
control
treatment
power
Hβ H0
La hipótesis nula sería rechazada el 26% de las veces.
Control
Tratamiento
Poder
Resumen Introducción Hipótesis Poder
0
0,05
0,1
0,15
0,2
0,25
0,3
0,35
0,4
0,45
0,5
-4 -3 -2 -1 0 1 2 3 4 5 6
control
treatment
Magnitud del efecto: 3*Error Estándar
3*SE
Mayor magnitud del efecto hipotetizado
las distribuciones se apartan.
Control
Tratamiento
Resumen Introducción Hipótesis Poder
0
0,05
0,1
0,15
0,2
0,25
0,3
0,35
0,4
0,45
0,5
-4 -3 -2 -1 0 1 2 3 4 5 6
control
treatment
power
Magnitud del efecto 3*Error Est: Poder= 91%
H0
Hβ
Control
Tratamiento
Poder
Efecto más grande Más poder.
Resumen Introducción Hipótesis Poder
Magnitud del efecto
La magnitud del efecto real esta fuera de nuestro
control.
Pero podemos elegir cual es el efecto mínimo
que queremos detectar (con cierta probabilidad).
Mientras más pequeño sea el efecto mínimo
que queremos detectar, más grande es la
muestra que necesitamos para alcanzar
cierto poder.
45
Resumen Introducción Hipótesis Poder
¿Cuales factores cree Ud. que deberíamos considerar cuando decidimos el efecto mínimo que queremos detectar?
1. Costo de oportunidad del programa.
2. Valor de los beneficios.
3. Representatividad de la muestra.
4. Todos.
5. Solamente 1 y 2.
46
Resumen Introducción Hipótesis Poder
Magnitud del efecto mínimo a detectar
¿Cual es el tamaño mínimo de efecto que justifica el programa que estoy evaluando? Costo del programa.
Valor de los beneficios.
Costo de oportunidad del programa.
El efecto típicamente se mide estandarizado. El efecto estandarizado es el tamaño del efecto
dividido por la desviación estándar del resultado. • d = tamaño del efecto / Desviación Estándar
• d =0.2 se considera tamaño pequeño, d=0.5 se considera grande.
47
Resumen Introducción Hipótesis Poder
¿Qué afecta el poder?
1. Magnitud del efecto
2. Tamaño de la muestra
3. Varianza / Desviación Estándar
4. Proporción de la muestra en T vs. C
5. Grupos (clusters)
48
Resumen Introducción Hipótesis Poder
Haciendo rodar 2 dados: Puntaje promedio de los dados y probabilidad
1 1,5 2 2,5 3 3,5 4 4,5 5 5,5 6
Frequency 1/36 1/18 1/12 1/9 5/36 1/6 5/36 1/9 1/12 1/18 1/36
0
0
1/6
1/4
Frecuencia
49
Resumen Introducción Hipótesis Poder
>99% de todas las veces darán un promedio entre 3 y 4
0,0%
0,5%
1,0%
1,5%
2,0%
2,5%
3,0%
3,5%
1 1,5 2 2,5 3 3,5 4 4,5 5 5,5
Haciendo rodar 30 dados: Se distribuye Normal, con media 3.5
Resumen Introducción Hipótesis Poder
Poder con magnitud del efecto = 1SD y Tamaño de la muestra = N
0
0,05
0,1
0,15
0,2
0,25
0,3
0,35
0,4
0,45
0,5
-4 -3 -2 -1 0 1 2 3 4 5 6
control
treatment
significance
Control
Tratamiento
Significancia
51
Resumen Introducción Hipótesis Poder
0
0,05
0,1
0,15
0,2
0,25
0,3
0,35
0,4
0,45
0,5
-4 -3 -2 -1 0 1 2 3 4 5 6
control
treatment
significance
¿Cuál es el Poder si el tamaño de la muestra = 4N?
Control
Tratamiento
Significancia
52
Resumen Introducción Hipótesis Poder
0
0,05
0,1
0,15
0,2
0,25
0,3
0,35
0,4
0,45
0,5
-4 -3 -2 -1 0 1 2 3 4 5 6
control
treatment
power
Poder: 64%
Control
Tratamiento
Poder
53
Resumen Introducción Hipótesis Poder
0
0,05
0,1
0,15
0,2
0,25
0,3
0,35
0,4
0,45
0,5
-4 -3 -2 -1 0 1 2 3 4 5 6
control
treatment
significance
Control
Tratamiento
Significancia
54
¿Cuál es el Poder si el tamaño de la muestra = 9N?
Resumen Introducción Hipótesis Poder
0
0,05
0,1
0,15
0,2
0,25
0,3
0,35
0,4
0,45
0,5
-4 -3 -2 -1 0 1 2 3 4 5 6
control
treatment
power
Poder: 91%
Control
Tratamiento
Poder
55
Resumen Introducción Hipótesis Poder
Tamaño de la muestra
Una de las variables sobre las que tenemos
mayor control.
Pero tiene limitaciones.
Calcular el poder consiste en buscar el tamaño
de la muestra mínima.
Para un nivel de significancia dado (ej. 0.05).
Para un tamaño de efecto específico.
Para alcanzar cierto nivel de poder (ej. 80%).
56
Resumen Introducción Hipótesis Poder
¿Qué afecta el poder?
1. Magnitud del efecto
2. Tamaño de la muestra
3. Varianza / Desviación Estándar
4. Proporción de la muestra en T vs. C
5. Grupos (clusters)
57
Resumen Introducción Hipótesis Poder
Varianza
No podemos hacer mucho para reducir la
varianza.
Podemos tratar de hacer mediciones más
precisas.
Podemos tratar de “absorber” la varianza, es
decir capturar la variación que se debe a otros
factores distintos a tratamiento:
Usando una línea base.
Controlando otras variables.
58
Resumen Introducción Hipótesis Poder
¿Qué afecta el poder?
1. Magnitud del efecto
2. Tamaño de la muestra
3. Varianza
4. Proporción de la muestra en T vs. C
5. Grupos (clusters)
59
Resumen Introducción Hipótesis Poder
División de la muestra: 50% C, 50% T
0
0,05
0,1
0,15
0,2
0,25
0,3
0,35
0,4
0,45
0,5
-4 -3 -2 -1 0 1 2 3 4 5 6
control
treatment
significance
H0 Hβ Control
Tratamiento
Significancia
60
Resumen Introducción Hipótesis Poder
0
0,05
0,1
0,15
0,2
0,25
0,3
0,35
0,4
0,45
0,5
-4 -3 -2 -1 0 1 2 3 4 5 6
control
treatment
power
Poder: 91%
Control
Tratamiento
Poder
61
Resumen Introducción Hipótesis Poder
¿Qué pasaría si la división no fuera 50-50 sino
25% en Control y 75% en Tratamiento?
1. Se disminuye el
poder.
2. Se disminuye el
error estandár.
3. Se aumenta el
poder.
4. La distribución ya
no es normal.
62
Resumen Introducción Hipótesis Poder
División de la muestra: 25% C, 75% T
0
0,05
0,1
0,15
0,2
0,25
0,3
0,35
0,4
0,45
0,5
-4 -3 -2 -1 0 1 2 3 4 5 6
control
treatment
significance
H0 Hβ Control
Tratamiento
Significancia
Resumen Introducción Hipótesis Poder
0
0,05
0,1
0,15
0,2
0,25
0,3
0,35
0,4
0,45
0,5
-4 -3 -2 -1 0 1 2 3 4 5 6
control
treatment
power
Poder: 83%
Control
Tratamiento
Poder
64
Resumen Introducción Hipótesis Poder
¿Qué afecta el poder?
1. Magnitud del efecto
2. Tamaño de la muestra
3. Varianza
4. Proporción de la muestra en T vs. C
5. Grupos (clústers)
65
Resumen Introducción Hipótesis Poder
Diseño agrupado (clústers)
Muchas veces, el diseño nos exige que la
unidad de aleatorización no sean los individuos,
sino grupos.
Debido a posibilidad de externalidades/contaminación,
viabilidad política, naturaleza de la intervención.
Ej: Progresa municipio
Profesor Adicional escuela
66
Resumen Introducción Hipótesis Poder
¿Cómo afecta un diseño agrupado el poder y el tamaño de la muestra que necesito?
1. Aumenta el poder y reduce el tamaño de la muestra.
2. Disminuye el poder y aumenta el tamaño de la muestra.
3. Aumenta el poder y aumenta el tamaño de la muestra.
4. Disminuye el poder y reduce el tamaño de la muestra.
67
Resumen Introducción Hipótesis Poder
Diseño agrupado: intuición
Usted desea saber cuál fue el impacto de dar
profesores adicionales a alumnos de cuarto grado.
Método 1: Seleccione aleatoriamente a 50
alumnos de cuarto grado de toda las escuelas
en México.
Método 2: Seleccione aleatoriamente a 5
escuelas, y pregúnteles la opinión a diez
alumnos de cuarto grado de la escuela.
68
Resumen Introducción Hipótesis Poder
Baja correlación intra-cluster (Rho)
69
Resumen Introducción Hipótesis Poder
Alta correlación intra-cluster (Rho)
70
Resumen Introducción Hipótesis Poder
Diseño agrupado (clusters)
Correlación en los resultados para los individuos
dentro de un grupo.
Todos los que viven en un municipio están sujetos al
mismo clima, mismas autoridades, interactúan entre si…
Todos los estudiantes de una escuela están sujetos al
mismo director, interactúan entre sí, comparten normas...
Cálculo de poder (y el tamaño de la muestra)
debe tomar en cuenta la correlación intra-grupal.
Entre mayor sea la correlación entre los miembros del
grupo, más deberemos ajustar los errores estándar.
71
Resumen Introducción Hipótesis Poder
4. Resumen
Resumen Introducción Hipótesis Poder
Muestreo y tamaño de muestra
No observamos directamente el impacto, lo
estimamos.
Nuestra estimacion de impacto es eso… una
estimación.
La confianza que tenemos en nuestras estimaciones
dependen:
del tamaño de la muestra y
de la varianza de los resultados.
Debemos tomar en cuenta estos factores, así
como los factores que afectan el poder en el
diseño de la evaluación experimental. 73
Resumen Introducción Hipótesis Poder
Muestreo y tamaño de muestra
El Poder (la probabilidad de detectar un efecto, cuando
este existe), depende de:
Magnitud del efecto;
Tamaño de la muestra;
Varianza;
Proporción de la muestra en T vs. C;
Grupos (clusters).
Cálculos de poder son inciertos e involucran
especulación, pero son importantes para racionalizar el
uso de los recursos.
Evitar despilfarrar dinero en evaluaciones en las que es
imposible detectar impacto.
74
Resumen Introducción Hipótesis Poder
Fórmula sencilla
MDE = Efecto Mínimo Detectable
k = Poder (error tipo 2); 𝛼 = nivel de significancia (error tipo 1).
P = Proporción de la muestra asignada a Tratamiento.
N = Tamaño muestral
𝜎2= Varianza
t(1-k) con 80% de poder es aproximadamente = 0.80.
tα con 5% de significancia es aproximadamente 1.96.
Hay varios programas en el internet que les calculan el tamaño
de muestra, por ej. “Optimal Design” o Stata (comando sampsi).
TAMAÑO DE MUESTRA
7.7284 t's al cuadrado
4 proporciones al cuadrado
40 varianza
N 1237 Efecto=1
309 Efecto=2
137 Efecto=3
75
Resumen Introducción Hipótesis Poder
Francisco Gallego
Profesor Asociado
Pontificia Universidad Católica de Chile