Download pdf - Introducción Hipótesis Poder Resumen. Tamaño... · hipótesis nula (inocente) en favor de la alterna ... Si la diferencia entre grupos de Tratamiento y Control es ... hipotesis

Resumen Introducción Hipótesis Poder


Clase 5 Muestreo y tamaño de muestra

Francisco Gallego

Profesor Asociado

Pontificia Universidad Católica de Chile

[email protected]

mailto:[email protected]


Horario


Objetivos

Después de esta sesión, los participantes serán capaces de:

Identificar los elementos que pueden afectar la precision y exactitud de los resultados de una evaluacion de impacto.

Entender lo que es un test de hipotesis y los errores tipo 1 y 2.

Diferenciar entre los conceptos de exactitud y precision.

Entender el concepto de poder estadistico y su importancia para una evaluacion de impacto.


1. Introducción y conceptos básicos

2. Hipótesis y tipos de errores

3. ¿Qué determina el poder?

4. Resumen

Esquema de la presentación


1. Introducción y conceptos básicos


Una evaluación de impacto tiene como objetivo determinar el tamaño del impacto para una población.

Casi siempre no se puede evaluar a toda la población. Es muy costoso.

No es factible.

Tomar una muestra y aproximar el impacto. Estimamos el impacto en la población a través de la

muestra.

Evaluación y muestreo

7


Recapitulando: Muestreo y validez

8

Población Relevante

Muestra

Representativa

Validez externa “Muestro aleatorio no es condición

necesaría ni suficiente.”


Muestreo aleatorio Validez externa

Asignación aleatoria (tratamiento & control)

Validez interna

Recapitulando: Muestreo y validez

9

Tratamiento

Control


La asignación aleatoria elimina el sesgo.

Genera grupos que tienen características iguales en

promedio, si la muestra es suficientemente grande.

• ¿Pero qué pasa si asigno sólo una persona a tratamiento y

sólo una a control?

Dichas características van a tender a ser iguales a

las características de la población, si la muestra es

(representativa y) suficientemente grande.

Evaluación y muestreo

10


Exactitud vs. Precisión

Verdad

Estimación

Pre

cis

ión

(Tam

año M

uestr

a)

Sesgo No Sesgo

Exactitud (Aleatorización)

11


Precisión y muestreo

Se compara los resultados de la muestra para grupo de tratamiento contra los resultados para grupo de control.

Como no se observa a toda la población, se estima el impacto para la población utilizando una muestra. No tenemos certeza sobre el impacto para la población total.

Si la muestra es pequeña, las estimaciones van a ser poco precisas.

Si no tenemos mucha confianza en las estimaciones, ¿cuál es el margen de error aceptable?

¿Cuánta confianza podemos tener en las estimaciones?

12


Supongamos que tomamos una muestra

representativa de la población uruguaya y la

asignamos aleatoriamente a tratamiento y

control. Los resultados son:

13

Tratamiento Control

60 50


¿De acuerdo al ejemplo anterior, qué podemos concluir? 1. El programa tuvo impacto

de 10 puntos.

2. La muestra es demasiada grande para detectar impacto.

3. La muestra es demasiada pequeña para detectar impacto.

4. El programa no tuvo impacto.

5. No tengo suficiente información para concluir sobre el impacto.

14


Precisión y distribuciones Ejemplo: Programa de Profesor Adicional

15

Imagínense un programa donde los alumnos de cuarto

grado de varios distritos de Uruguay reciben ayuda de

profesores adicionales. Queremos medir el impacto sobre

las notas de los alumnos .


Precisión alta: Diferencia en notas de alumnos con Tratamiento y Control

16


Precisión baja: Diferencia en notas de alumnos con Tratamiento y Control

17


De acuerdo a los dos gráficos anteriores, ¿qué podemos concluir? 1. La precisión es impactada

por la distribución de las notas.

2. La facilidad con la cual se puede detectar impacto depende de la distribución de las notas.

3. El promedio es información insuficiente para medir un impacto.

4. Todas las respuestas correctos.

5. Solamente 1 y 2 son correctos.

18


Precisión y confianza en la estimación

¿Cuánta confianza podemos tener en las

estimaciones?

La confianza en las estimaciones depende de:

Variabilidad de la muestra (desviación estándar).

Tamaño de la muestra.

Esto lo podemos resumir en el Error Estándar (SE).

Podemos construir un intervalo de confianza.

19


Intervalo de confianza

Recordemos que el efecto estimado depende de la muestra que se utiliza.

Si utilizamos distintas muestras para representar una misma población, la estimación del efecto puede ser distinta.

Un intervalo de confianza de 95% nos dice que si estimamos un impacto para 100 distintas muestras de la misma población de interés, en el 95% de los casos el impacto estimado para la muestra es el impacto real para toda la población.

Regla de dedo: El impacto promedio estimado más o menos 2 veces el Error Estándar (±2 SE) da un intervalo de confianza de 95% (aprox).

20


2. Hipótesis y tipos de errores


Pruebas de hipótesis

En derecho penal, la mayoría de las instituciones

siguen la regla: “inocente hasta que se pruebe lo

contrario”.

El juez comienza con la “hipótesis nula” que el

acusado es inocente.

La “hipótesis alterna” del juez es que el acusado es

culpable.

Bajo la presunción de inocencia, la carga de la prueba

que el acusado es culpable cae en el fiscal.

Tiene que proveer “suficiente evidencia” para rechazar la

hipótesis nula (inocente) en favor de la alterna (culpable).

22


En una evaluación de impacto: en lugar de

“presuncion de inocencia,” la regla es: “presuncion

de insignificancia”.

La “hipotesis nula” (H0) es que no hubo impacto del

programa (cero).

Es decir, no hay diferencia entre grupos de Tratamiento y

Control.

La carga de la prueba recae en el evaluador.

Debe demostrar un efecto significativo del programa.

Si la diferencia entre grupos de Tratamiento y Control es

“grande”, entonces rechazamos la hipótesis nula (el impacto

fue cero) en favor de la hipótesis alterna (hubo impacto).

Pruebas de hipótesis

23


Pruebas de hipótesis: Ejemplo de programa escolar Hipótesis Nula (H0) Hipótesis Alterna (Ha)

No hay impacto del programa

sobre las notas:

Impacto = 0

Impacto ≤0

Impacto ≥ 0

Impacto = Resultado Tratamiento – Resultado Control

En una prueba de hipótesis, el evaluador se pregunta: ¿Puedo rechazar H0 (en favor de Ha)?

¿Son los datos que recolectamos consistentes con H0 o no?

Sí hay impacto del programa

sobre las notas:

Impacto ≠ 0

Impacto positivo, Efecto > 0

Impacto negativo, Efecto < 0

24


Para poder afirmar que « El Programa de Profesor Adicional tuvo un impacto significativo sobre las notas de los niños », el evaluador:

1. Aceptó la hipótesis nula.

2. Rechazó la hipótesis nula.

3. Aceptó la hipótesis alterna.

4. Rechazó la hipotesis alterna.

5. Depende.

6. No sé.

25


Dos tipos de errores en pruebas de hipótesis

USTED CONCLUYE

Sí tuvo efecto

rechazo H0

No tuvo efecto

no rechazo H0 en favor de Ha

LA

VERDAD

Programa SI tuvo

efecto

Error tipo II

(bajo poder)

Creo que NO tuvo efecto cuando en

verdad SI (muestra muy chica para

detectar efectos?)

Programa NO

tuvo efecto

Error tipo I

Creo que SI hay efecto

cuando en verdad NO

26

Bajo poder Baja confianza


Confianza: Error tipo I

Error tipo I: rechazar la hipótesis nula, cuando

en realidad es verdadera.

Falso positivo.

Creer que si hay impacto cuando en realidad nolo hay.

Nivel de significancia (α): La probabilidad que

rechacemos la H0 cuando sea verdadera.

Investigador elige y maneja directamente α .

• Típicamente, niveles de α: 0.05, 0.01, 0.1.

Con un nivel de 5% de significancia (α=0.05), tengo

95% de confianza en la validez de mi conclusión.

27


Significancia: Probabilidad de determinar que sí hay efecto

0

0,05

0,1

0,15

0,2

0,25

0,3

0,35

0,4

0,45

0,5

-4 -3 -2 -1 0 1 2 3 4 5 6

control

treatment

significance

Región crítica: determinamos nivel de significancia α

t = valor critico

Verdad bajo Ho Verdad bajo H1

28


¿Qué es poder estadístico?

Error Tipo II: No rechazar la hipótesis nula,

cuando en realidad es falsa.

Concluir que no hay diferencia, cuando sí la hay.

Creer que NO hay impacto cuando en realidad SÍ

lo hay.

Poder: La probabilidad que rechacemos H0, si

H0 es falsa.

Probabilidad que detectemos un efecto cuando SÍ

existe un efecto medible de nuestra intervención.

• Si replico el mismo experimento 100 veces, ¿cuántas veces

voy a rechazar H0 a cierto nivel de significancia? 29


Poder: probabilidad de detectar el efecto cuando este existe

Sin programa

Con Programa

Poder: Probabilidad de detectar el efecto cuando SÍ es cierto

Verdad bajo Ho Verdad bajo H1

Error tipo 2


¿Importa el tamaño de la muestra? Muestras chicas presentan desventajas:

Podemos tener mala suerte y que la muestra no represente a la población.

Imprecisión: Mucho “ruido” o poca precisión, aunque no haya sesgo.

• Dificulta las pruebas de hipótesis: bajo poder.

La distribución de estimadores se pueden comportar de manera distinta con muestras chicas.

Muestras grandes son costosas. El desafío del evaluador es buscar el tamaño óptimo

(i.e. la muestra con mayor poder DADA una restricción presupuestaria).

31


Error tipo I vs Error tipo II

Con un nivel de significancia más alto, se

aumenta la probabilidad de error tipo I.

…pero aumenta el poder de la prueba (se

reduce la probabilidad de cometer error tipo II).

En general, existe un trade-off:

Si bajas el nivel de significancia, reduces la

probabilidad de tener un error tipo 1 pero

aumentas la probabilidad de error tipo 2 (i.e. bajas

poder).

32


Error tipo I vs Error tipo II

Una forma de reducir ambos tipos de errores es

haciendo las distribuciones “más delgadas”.

Esto se logra subiendo el tamaño de muestra.

La práctica común es:

Primero fijar un nivel de significancia (p. ej. α=0.05)

Y luego escoger el tamaño de muestra para aumentar

el poder. Típicamente 80% o 90% de poder es

aceptable en economía.

33


3. Poder


0

0,05

0,1

0,15

0,2

0,25

0,3

0,35

0,4

0,45

0,5

-4 -3 -2 -1 0 1 2 3 4 5 6

control

treatment

Antes del programa

H0 Hβ

Control

Tratamiento

Asuma que hay dos efectos: efecto nulo y efecto β


¿Qué afecta el poder?

¿Cuáles son los factores que cambian la

probabilidad de detectar el impacto cuando

este existe?

Comprender esto nos ayuda a diseñar

experimentos más potentes.

39



1. Magnitud del efecto

2. Tamaño de la muestra

3. Varianza / Desviación Estándar

4. Proporción de la muestra en T vs. C

5. Grupos (clusters)

40


Magnitud del efecto: 1*Error Estándar (SE)

• Hypothesized effect size determines distance between means

0

0,05

0,1

0,15

0,2

0,25

0,3

0,35

0,4

0,45

0,5

-4 -3 -2 -1 0 1 2 3 4 5 6

control

treatment

1 Error

Estándar

Hβ H0

Control

Tratamiento

41


Poder: 26% Si el impacto verdadero fuese 1*Error Estándar

0

0,05

0,1

0,15

0,2

0,25

0,3

0,35

0,4

0,45

0,5

-4 -3 -2 -1 0 1 2 3 4 5 6

control

treatment

power

Hβ H0

La hipótesis nula sería rechazada el 26% de las veces.

Control

Tratamiento

Poder


0

0,05

0,1

0,15

0,2

0,25

0,3

0,35

0,4

0,45

0,5

-4 -3 -2 -1 0 1 2 3 4 5 6

control

treatment

Magnitud del efecto: 3*Error Estándar

3*SE

Mayor magnitud del efecto hipotetizado

las distribuciones se apartan.

Control

Tratamiento


0

0,05

0,1

0,15

0,2

0,25

0,3

0,35

0,4

0,45

0,5

-4 -3 -2 -1 0 1 2 3 4 5 6

control

treatment

power

Magnitud del efecto 3*Error Est: Poder= 91%

H0

Hβ

Control

Tratamiento

Poder

Efecto más grande Más poder.


Magnitud del efecto

La magnitud del efecto real esta fuera de nuestro

control.

Pero podemos elegir cual es el efecto mínimo

que queremos detectar (con cierta probabilidad).

Mientras más pequeño sea el efecto mínimo

que queremos detectar, más grande es la

muestra que necesitamos para alcanzar

cierto poder.

45


¿Cuales factores cree Ud. que deberíamos considerar cuando decidimos el efecto mínimo que queremos detectar?

1. Costo de oportunidad del programa.

2. Valor de los beneficios.

3. Representatividad de la muestra.

4. Todos.

5. Solamente 1 y 2.

46


Magnitud del efecto mínimo a detectar

¿Cual es el tamaño mínimo de efecto que justifica el programa que estoy evaluando? Costo del programa.

Valor de los beneficios.

Costo de oportunidad del programa.

El efecto típicamente se mide estandarizado. El efecto estandarizado es el tamaño del efecto

dividido por la desviación estándar del resultado. • d = tamaño del efecto / Desviación Estándar

• d =0.2 se considera tamaño pequeño, d=0.5 se considera grande.

47








48


Haciendo rodar 2 dados: Puntaje promedio de los dados y probabilidad

1 1,5 2 2,5 3 3,5 4 4,5 5 5,5 6

Frequency 1/36 1/18 1/12 1/9 5/36 1/6 5/36 1/9 1/12 1/18 1/36

0

0

1/6

1/4

Frecuencia

49


>99% de todas las veces darán un promedio entre 3 y 4

0,0%

0,5%

1,0%

1,5%

2,0%

2,5%

3,0%

3,5%

1 1,5 2 2,5 3 3,5 4 4,5 5 5,5

Haciendo rodar 30 dados: Se distribuye Normal, con media 3.5


Poder con magnitud del efecto = 1SD y Tamaño de la muestra = N

0

0,05

0,1

0,15

0,2

0,25

0,3

0,35

0,4

0,45

0,5

-4 -3 -2 -1 0 1 2 3 4 5 6

control

treatment

significance

Control

Tratamiento

Significancia

51


0

0,05

0,1

0,15

0,2

0,25

0,3

0,35

0,4

0,45

0,5

-4 -3 -2 -1 0 1 2 3 4 5 6

control

treatment

significance

¿Cuál es el Poder si el tamaño de la muestra = 4N?

Control

Tratamiento

Significancia

52


0

0,05

0,1

0,15

0,2

0,25

0,3

0,35

0,4

0,45

0,5

-4 -3 -2 -1 0 1 2 3 4 5 6

control

treatment

power

Poder: 64%

Control

Tratamiento

Poder

53


0

0,05

0,1

0,15

0,2

0,25

0,3

0,35

0,4

0,45

0,5

-4 -3 -2 -1 0 1 2 3 4 5 6

control

treatment

significance

Control

Tratamiento

Significancia

54

¿Cuál es el Poder si el tamaño de la muestra = 9N?


0

0,05

0,1

0,15

0,2

0,25

0,3

0,35

0,4

0,45

0,5

-4 -3 -2 -1 0 1 2 3 4 5 6

control

treatment

power

Poder: 91%

Control

Tratamiento

Poder

55


Tamaño de la muestra

Una de las variables sobre las que tenemos

mayor control.

Pero tiene limitaciones.

Calcular el poder consiste en buscar el tamaño

de la muestra mínima.

Para un nivel de significancia dado (ej. 0.05).

Para un tamaño de efecto específico.

Para alcanzar cierto nivel de poder (ej. 80%).

56








57


Varianza

No podemos hacer mucho para reducir la

varianza.

Podemos tratar de hacer mediciones más

precisas.

Podemos tratar de “absorber” la varianza, es

decir capturar la variación que se debe a otros

factores distintos a tratamiento:

Usando una línea base.

Controlando otras variables.

58





3. Varianza



59


División de la muestra: 50% C, 50% T

0

0,05

0,1

0,15

0,2

0,25

0,3

0,35

0,4

0,45

0,5

-4 -3 -2 -1 0 1 2 3 4 5 6

control

treatment

significance

H0 Hβ Control

Tratamiento

Significancia

60


0

0,05

0,1

0,15

0,2

0,25

0,3

0,35

0,4

0,45

0,5

-4 -3 -2 -1 0 1 2 3 4 5 6

control

treatment

power

Poder: 91%

Control

Tratamiento

Poder

61


¿Qué pasaría si la división no fuera 50-50 sino

25% en Control y 75% en Tratamiento?

1. Se disminuye el

poder.

2. Se disminuye el

error estandár.

3. Se aumenta el

poder.

4. La distribución ya

no es normal.

62


División de la muestra: 25% C, 75% T

0

0,05

0,1

0,15

0,2

0,25

0,3

0,35

0,4

0,45

0,5

-4 -3 -2 -1 0 1 2 3 4 5 6

control

treatment

significance

H0 Hβ Control

Tratamiento

Significancia


0

0,05

0,1

0,15

0,2

0,25

0,3

0,35

0,4

0,45

0,5

-4 -3 -2 -1 0 1 2 3 4 5 6

control

treatment

power

Poder: 83%

Control

Tratamiento

Poder

64





3. Varianza


5. Grupos (clústers)

65


Diseño agrupado (clústers)

Muchas veces, el diseño nos exige que la

unidad de aleatorización no sean los individuos,

sino grupos.

Debido a posibilidad de externalidades/contaminación,

viabilidad política, naturaleza de la intervención.

Ej: Progresa municipio

Profesor Adicional escuela

66


¿Cómo afecta un diseño agrupado el poder y el tamaño de la muestra que necesito?

1. Aumenta el poder y reduce el tamaño de la muestra.

2. Disminuye el poder y aumenta el tamaño de la muestra.

3. Aumenta el poder y aumenta el tamaño de la muestra.

4. Disminuye el poder y reduce el tamaño de la muestra.

67


Diseño agrupado: intuición

Usted desea saber cuál fue el impacto de dar

profesores adicionales a alumnos de cuarto grado.

Método 1: Seleccione aleatoriamente a 50

alumnos de cuarto grado de toda las escuelas

en México.

Método 2: Seleccione aleatoriamente a 5

escuelas, y pregúnteles la opinión a diez

alumnos de cuarto grado de la escuela.

68


Baja correlación intra-cluster (Rho)

69


Alta correlación intra-cluster (Rho)

70


Diseño agrupado (clusters)

Correlación en los resultados para los individuos

dentro de un grupo.

Todos los que viven en un municipio están sujetos al

mismo clima, mismas autoridades, interactúan entre si…

Todos los estudiantes de una escuela están sujetos al

mismo director, interactúan entre sí, comparten normas...

Cálculo de poder (y el tamaño de la muestra)

debe tomar en cuenta la correlación intra-grupal.

Entre mayor sea la correlación entre los miembros del

grupo, más deberemos ajustar los errores estándar.

71


4. Resumen


Muestreo y tamaño de muestra

No observamos directamente el impacto, lo

estimamos.

Nuestra estimacion de impacto es eso… una

estimación.

La confianza que tenemos en nuestras estimaciones

dependen:

del tamaño de la muestra y

de la varianza de los resultados.

Debemos tomar en cuenta estos factores, así

como los factores que afectan el poder en el

diseño de la evaluación experimental. 73


Muestreo y tamaño de muestra

El Poder (la probabilidad de detectar un efecto, cuando

este existe), depende de:

Magnitud del efecto;

Tamaño de la muestra;

Varianza;

Proporción de la muestra en T vs. C;

Grupos (clusters).

Cálculos de poder son inciertos e involucran

especulación, pero son importantes para racionalizar el

uso de los recursos.

Evitar despilfarrar dinero en evaluaciones en las que es

imposible detectar impacto.

74


Fórmula sencilla

MDE = Efecto Mínimo Detectable

k = Poder (error tipo 2); 𝛼 = nivel de significancia (error tipo 1).

P = Proporción de la muestra asignada a Tratamiento.

N = Tamaño muestral

𝜎2= Varianza

t(1-k) con 80% de poder es aproximadamente = 0.80.

tα con 5% de significancia es aproximadamente 1.96.

Hay varios programas en el internet que les calculan el tamaño

de muestra, por ej. “Optimal Design” o Stata (comando sampsi).

TAMAÑO DE MUESTRA

7.7284 t's al cuadrado

4 proporciones al cuadrado

40 varianza

N 1237 Efecto=1

309 Efecto=2

137 Efecto=3

75


[email protected]

twitter

[email protected]

twitter

[email protected]

twitter

Francisco Gallego

Profesor Asociado

Pontificia Universidad Católica de Chile

[email protected]

mailto:[email protected]