29
Pruebas de Hipótesis

Pruebas de hipótesis

Embed Size (px)

Citation preview

Page 1: Pruebas de hipótesis

Pruebas de Hipótesis

Page 2: Pruebas de hipótesis

Introducción

UMSNH - FIE

La experiencia sobre el comportamiento de algún índice de un proceso, o la exigencia del cumplimiento de alguna norma nos lleva a realizar proposiciones sobre el valor de algún parámetro estadístico.

Estas proposiciones se deben contrastar con la realidad (mediante el muestreo de datos) para tomar una decisión entre aceptar o rechazar la proposición

Estas proposiciones se denominan Hipótesis y el procedimiento para decidir si se aceptan o se rechazan se denomina Prueba de Hipótesis

Una prueba de hipótesis es una herramienta de análisis de datos que puede en general formar parte de un experimento comparativo más completo

Page 3: Pruebas de hipótesis

UMSNH - FIE

Una hipótesis Estadística es un proposición sobre los parámetros de una población o sobre la distribución de probabilidad de una variable aleatoria

Ejemplo: Se tiene interés en la rapidez de combustión de un agente propulsor para los sistemas de salida de emergencia en aeronaves. (esta rapidez es una variable aleatoria con alguna distribución de probabilidad). Especialmente interesa la rapidez de combustión promedio (que es un parámetro (m) de dicha distribución). De manera más específica, interesa decidir si esta rapidez promedio es o no 50 cm/seg.

El planteamiento formal de la situación se realiza en términos de una Hipótesis Nula (que es la proposición que se quiere poner a prueba) y una Hipótesis Alternativa, la cual se aceptará si se rechaza la hipótesis nula:

Hipótesis Nula: H0: m = 50 cm/segHipótesis Alternativa: H1: m 50 cm/seg

• En el ejemplo se tiene una Hipótesis Alternativa Bilateral, ya que se verifica para valores de m a ambos lados de 50 cm/seg.

Page 4: Pruebas de hipótesis

• Procedimiento General para la prueba de una hipótesis

Procedimiento General para la prueba de una hipótesis

Procedimiento General para la prueba de una hipótesis

Procedimiento General para la prueba de una hipótesis

Page 5: Pruebas de hipótesis

• Errores Tipo I y Tipo II

El procedimiento anterior puede llevarnos a una de dos conclusiones erróneas:

Error Tipo I.- Se rechaza H0 cuando ésta es verdadera

Error Tipo II.- Se acepta H0 cuando ésta es falsa

En el ejemplo se cometerá un error de tipo I cuando m=50, pero x para la muestra considerada cae en la región críticaY se cometerá un error de tipo II cuando m 50 pero x para la muestra considerada cae en la región de aceptación

Condición realDecisión

H0 verdadera H0 falsa

Rechazar H0 Error Tipo I ok

Aceptar H0 ok Error Tipo II

Page 6: Pruebas de hipótesis

Pruebas de Hipótesis

Error Tipo I

UMSNH - FIE

A la probabilidad de cometer un error de Tipo I se denota por a, y se le llama el nivel o tamaño de significancia de la prueba es decir

a = P(error Tipo I)= P(rechazar H0 | H0 es verdadera)

Ejemplo: Calcular a para el ejemplo de la rapidez de combustión para una muestra de N=10 datos, suponiendo que la desviación estándar de la rapidez de combustión es s=2.5 cm/seg._

a = normcdf(48.5,50,0.79) + (1-normcdf(51.5,50,0.79)) = 0.288+ 0.288 = 0.0576

Esto significa que el 5.76% de las muestras de tamaño 10 conducirán al rechazo de la Hipótesis H0: m=50 cm/seg, cuando ésta es verdadera.

Solución: en este caso a = P( x caiga en la región crítica | m=50), es decir: a = P( x < 48.5) + P( x > 51.5)

Recordando que La distribución de x es Normal con media =50 m y desviación estándar s/N =0.79, por lo tanto, usando Matlab:

_ __

Page 7: Pruebas de hipótesis

Pruebas de Hipótesis

Error tipo II

UMSNH - FIE

Para evaluar un experimento de prueba de hipótesis también se requiere calcular la probabilidad del error de Tipo II, denotada por b, es decir

b = P(error Tipo II) = P(aceptar H0 | H0 es falsa)

Sin embargo, no es posible calcular b si no se tiene una hipótesis alternativa específica, es decir, un valor particular del parámetro bajo prueba en lugar de un rango de valores

Por ejemplo, supongamos que es importante rechazar H0 si la rapidez promedio de combustión m es mayor que 52 cm/seg o menor que 48 cm/seg. Dada la simetría sólo se requiere evaluar la probabilidad de aceptar H0: m=50 cuando el valor verdadero es m=52.

Page 8: Pruebas de hipótesis

Pruebas de Hipótesis

Hipótesis Unilaterales

UMSNH - FIE

H0: m=50 cm/segH1: m<50 cm/seg

En el ejemplo supongamos que si la rapidez media de combustión es menor que 50 cm/seg se desea demostrar esto con una conslusión fuerte. ¿cómo deben plantearse las hipótesis?

Nótese que aunque H0 está planteada como una igualdad, se sobre-entiende que incluye cualquier valor de m no especificado por H1, es decir, la incapacidad de rechazar H0 no significa que m=50, sino que no se tiene evidencia fuerte que apoye a H1, es decir, pudiera ser que m=50 o que m>50

Page 9: Pruebas de hipótesis

Pruebas de Hipótesis

Prueba de hipótesis sobre la media, varianza conocida

UMSNH - FIE

Si se desea probar la Hipótesis:H0: m = m0

H1: m m0

Se puede usar el estadístico de prueba Z siguiente

El cual tiene una distribución Normal con media cero y varianza 1 (si se cumplen las suposiciones del teorema del límite central)

Nσ/

μXZ 0

__

Page 10: Pruebas de hipótesis

Pruebas de Hipótesis

Prueba de hipótesis sobre la media, varianza conocida

UMSNH - FIE

Entonces, para una a dada podemos establecer las siguientes regiones de aceptación y crítica:

-za/2 za/2 Z

a/2 a/2

Región de aceptaciónregión crítica región crítica

Conclusiones:

Rechazar H0 si: z < -za/2 o z > za/2 No rechazar H0 si: - za/2 z za/2

Page 11: Pruebas de hipótesis

Pruebas de Hipótesis

Prueba de hipótesis sobre la media, varianza conocida

UMSNH - FIE

Ejemplo: Se ilustrarán los 8 pasos del procedimiento general para el ejemplo del combustible sólido para sistemas de escape de aeronaves. En este caso se conoce s=2 cm/seg, se desea probar si la media m es de 50 cm/seg. Se selecciona una muestra aleatoria de tamaño N=25, obteniendo x=51.3 cm/seg. Se especifica un nivel de sginificancia a=0.05 ¿A qué conclusiones se debe llegar?

1) El parámetro de interés es m (rapidez promedio de combustión)2) H0: m = 50 cm/seg3) H1: m 50 cm/seg4) a = 0.05

_

Page 12: Pruebas de hipótesis

Pruebas de Hipótesis

Valores P

UMSNH - FIE

Una manera de notificar los resultados de una prueba de hipótesis es establecer si la hipótesis nula fue o no rechazada con un nivel especificado a de significancia

Una alternativa es especificar el nivel de significancia a más pequeño que conduce al rechazo de la hipótesis nula. A este se le llama el Valor P

Este valor P sólo depende de la muestra tomada, es decir, para una muestra y un estadístico calculado se puede obtener su valor P y comparar con un a especificado. Entonces, si P<a, H0 se rechaza.

Page 13: Pruebas de hipótesis

Pruebas de Hipótesis

Error Tipo II y tamaño de la muestra

UMSNH - FIE

Consideremos la hipótesis bilateral H0:m=m0, H1:m m0.

Si H0 es falsa y la media verdadera es m = m0 + d (con d>0). El estadístico de prueba

se puede escribir como

Es decir, Si H1 es verdadera Z tiene distribución Normal con media y varianza 1.

Por lo tanto, el error Tipo 1 (b) se puede calcular como

Nσ/

μXZ 0

__

σNδ

Nσ/

δ)(μXZ 0

__

σNδ

σ

Nδzβ α/2Φ

Y si definimos b = F(-zb), obtenemosδ

)σz(zN βα/2

Page 14: Pruebas de hipótesis

Pruebas de HipótesisPrueba de hipótesis sobre la igualdad de dos medias

(varianzas conocidas)

UMSNH - FIE

Se tienen dos poblaciones de interés. La primera con media m1 y varianza s1

2 conocidas y la segunda con media m2 y varianza s22

conocidas. Interesa saber si las dos medias son iguales. Se plantean las hipótesis H0: m1 = m2

H1: m1 m2

Por lo tanto el siguiente estadístico de prueba

Es N(0,1) si H0 es verdadera.

Por lo tanto se rechazará H0 si z0>za/2 o z<z-a/2

Suposiciones: Las dos poblaciones son normales o se cumplen las condiciones del teorema del límite central. Entonces el estadístico X1-X2 es una variable Normal con media m1 - m2 y varianza s1

2 /N1+ s22//N2

_ _

2

22

1

21

2

___

1

___

XXZ

Page 15: Pruebas de hipótesis

Pruebas de Hipótesis

Valor P de una prueba t

UMSNH - FIE

El valor P es el más pequeño nivel de significancia para el que H0 debe rechazarse, esto es el área de la cola (de la curva de densidad de probabilidad) que está más allá del valor del estadístico (en este caso t). o el doble de esta área en pruebas bilaterales.

Selección del Tamaño de la Muestra

En todas las pruebas de hipótesis estadísticas se puede calcular el tamaño de la muestra (N) adecuada en función de la magnitud del error de tipo I que se permite. En cada tipo de prueba se encuentran fórmulas diferentes para N.

Page 16: Pruebas de hipótesis

Pruebas de Hipótesis

Otras pruebas de Hipótesis

UMSNH - FIE

En forma similar a como se describió el caso de la media y la diferencia de medias, se pueden realizar diferentes pruebas de hipótesis para estos mismos u otros parámetros, lo único que cambia en cada caso es:

- Las suposiciones sobre la distribución de la población- El estadístico elegido y por consiguiente- La distribución del estadístico.

En la siguiente tabla se resumen algunas de las pruebas de hipótesis más utilizadas

Page 17: Pruebas de hipótesis

Pruebas de Hipótesis

Pruebas de Hipótesis No Paramétricas

UMSNH - FIE

Las pruebas de hipótesis anteriores se llaman paramétricas porque suponen conocida la distribución de la población y la hipótesis es acerca de los parámetros de dicha distribución.

Otra clase de hipótesis es: No se sabe cual es la distribución de la población y se desea probar la hipótesis de que cierta distribución en particular será un modelo satisfactorio. Por ejemplo, tal vez se requiera probar si la distribución es Normal

Page 18: Pruebas de hipótesis

Pruebas de Hipótesis

Prueba Ji2 de la Bondad del Ajuste

UMSNH - FIE

Se parte de una muestra aleatoria de tamaño N, proveniente de una población cuya distribución de probabilidad es desconocida.

Las N observaciones se acomodan en un Histograma de frecuencia con k intervalos de clase. Sea Oi la i-ésima frecuencia de clase

De la distribución de probabilidad propuesta se calcula la frecuencia esperada Ei en el i-ésimo intervalo de clase

El estadístico de prueba es

El cual tiene una distribución Ji2 con k-p-1 grados de libertad si la población sigue la distribución propuesta. (donde p es el número de parámetros de la población)

k

1i i

2ii2

E)E(O

χ

Page 19: Pruebas de hipótesis
Page 20: Pruebas de hipótesis

INTERVALOS DE CONFIANZA

Page 21: Pruebas de hipótesis

Estimación puntual y por intervalo Las medias o desviaciones estándar calculadas de una muestra se denominan ESTADÍSTICOS, podrían ser consideradas como un punto estimado de la media y desviación estándar real de población o de los PARAMETROS. ¿Qué pasa si no deseamos una estimación puntual como media basada en una muestra, qué otra cosa podríamos obtener como margen, algún tipo de error?

“Un Intervalo de Confianza”

Page 22: Pruebas de hipótesis

ESTIMADOR PUNTUAL: Utiliza un número único o valor para localizar una estimación del parámetro. ESTIMADOR POR INTERVALO DE CONFIANZA: Denota un rango dentro del cual se puede encontrar el parámetro y el nivel de confianza que el intervalo contiene al parámetro.

LIMITES DE CONFIANZA: Son los límites del intervalo de confianza inferior (LIC) y superior (LSC), se determinan sumando y restando a la media de la muestra un cierto número Z (dependiendo del nivel o coeficiente de confianza) de errores estándar de la media .  

Page 23: Pruebas de hipótesis
Page 24: Pruebas de hipótesis

INTERPRETACIÓN DEL INTERVALO DE CONFIANZA: Tener un 95% de confianza en que la media poblacional real y desconocida se encuentraentre los valores LIC y LSC. NIVEL DE SIGNIFICANCIA = 1- INTERVALO DE CONFIANZA = ERROR TIPO 1 = ALFA ¿Cómo obtenemos un intervalo de confianza?

Estimación puntual + error de estimación

Page 25: Pruebas de hipótesis

¿De dónde viene el error de estimación?Desv. estándar X multiplicador de nivel de confianza deseado Z/2 Por Ejemplo: Si la media de la muestra es 100 y la desviación estándar es 10, el intervalo de confianza al 95% donde se encuentra la media para una distribución normal es:100 + (10) X 1.96 => (80.4, 119.6) 1.96 = Z0.025 El 95% de Nivel de Confianza significa que sólo tenemos un 5% de oportunidad de obtener un punto fuera de ese intervalo.

Page 26: Pruebas de hipótesis

Esto es el 5% total, o 2.5% mayor o menor. Si vamos a la tabla Z veremos que para un área de 0.025, corresponde a una Z de 1.960.

C. I. Multiplicador Z/2 99 2.57695 1.96090 1.64585 1.43980 1.282

 Para tamaños de muestra >30, o conocida usar la distribución Normal Para muestras de menor tamaño, o desconocida usar la distribución t

Page 27: Pruebas de hipótesis

El ancho del intervalo de confianza decrece con la raíz cuadrada del tamaño de la muestra. Ejemplo:Dadas las siguientes resistencias a la tensión: 28.7, 27.9, 29.2 y 26.5 psi Estimar la media puntualX media = 28.08 con S = 1.02 Estimar el intervalo de confianza para un nivel de confianza del 95% (t = 3.182 con n-1=3 grados de libertad)

Xmedia±3.182*S/√n = 28.08±3.182*1.02/2=(26.46, 29.70)

Page 28: Pruebas de hipótesis

Ejercicios con Z y t: 1. El peso promedio de una muestra de 50 bultos de productos Xmedia = 652.58 Kgs., con S = 217.43 Kgs. Determinar el intervalo de confianza al NC del 95% y al 99% donde se encuentra la media del proceso (poblacional). Alfa = 1 - NC 2. Un intervalo de confianza del 90% para estimar la ganancia promedio del peso de ratones de laboratorio oscila entre 0.93 y 1.73 onzas. ¿Cuál es el valor de Z?.

 3. 100 latas de 16 onzas de salsa de tomate tienen una media de Xmedia = 15.2 onzas con una S = 0.96 onzas.

¿A un nivel de confianza del 95%, las latas parecen estar llenas con 16 onzas?.

Page 29: Pruebas de hipótesis

4. Una muestra de 16 soluciones tienen un peso promedio de 16.6 onzas con S = 3.63. Se rechaza la solución si el peso promedio de todo el lote no excede las 18 onzas. ¿Cuál es la decisión a un 90% de nivel de confianza?.  5. Las 20 cajas de producto pesaron 102 grs. Con S = 8.5 grs. ¿Cuál es el intervalo donde se encuentra la media y varianza del lote para un 90% de nivel de confianza?. Grados libertad=20 -1 =19

6. Una muestra de 25 productos tienen un peso promedio de 23.87 grs. Con una S = 9.56. ¿Cuál es la estimación del intervalo de confianza para la media y varianza a un nivel de confianza del 95 y del 98% del peso de productos del lote completo?.