23
152 E.P. T C = ¯ X ¯ Y 0 S 2 1 10 + S 2 2 10 aprox t (v) , con v = 13.745 = 14 . R.Cr´ ıtica: {T C | T C >t α/2 (14)} = {T C ||T C | >t 0.025 (14) } = { T C ||T C | > 2.145 } T C = 421 426 4 10 + 4.2 2 10 = 3.3989 ≈−3.40 . Como |T C | =3.40 > 2.145, se rechaza H 0 : y se concluye que seg´ un la informaci´ on suministrada por ambas muestras, hay evidencia suficiente para afirmar que los puntos medios de fusi´ on son diferentes. Pruebas de hip´ otesis para proporciones Suponga que X es una v.a tal que X bin(n,p), con p desconocida. Sea p 0 un valor de inter´ es para p. Tres hip´ otesis pueden ser planteadas acerca de p. H 0 : p = p 0 vs H a : p<p 0 p>P 0 p = p 0 . Por el T.L.C. sabemos que si n es grande. ˆ p p p (1p) n aprox n(0, 1) . Si H 0 es cierta ˆ pp 0 p 0 (1p 0 ) n aprox n(0, 1) . As´ ı, el estad´ ıstico de prueba a ser usado es Z C = ˆ p p 0 p 0 (1p 0 ) n . Para α dado, la Regi´ on cr´ ıtica es de la forma: R.C. : Z C | Z C < z α Z C | Z C >z α Z C ||Z C | >z α/2 .

PH Proporciones y Bondad de Ajuste

Embed Size (px)

DESCRIPTION

PH Proporciones y Bondad de Ajuste

Citation preview

  • 152

    E.P. TC =X Y 0

    S 2110+

    S 2210

    aprox t (v) , con v = 13.745 = 14 .

    R.Crtica:

    {TC |TC > t/2(14)} = {TC | |TC | > t0.025(14) } = {TC | |TC | > 2.145 }

    TC =421 426

    410+ 4.2

    2

    10

    = 3.3989 3.40 .

    Como |TC | = 3.40 > 2.145, se rechaza H0: y se concluye que segun lainformacion suministrada por ambas muestras, hay evidencia suficientepara afirmar que los puntos medios de fusion son diferentes.

    Pruebas de hipotesis para proporciones

    Suponga que X es una v.a tal que X bin(n , p), con p desconocida.Sea p0 un valor de interes para p.Tres hipotesis pueden ser planteadas acerca de p.

    H0 : p = p0 vs H a :

    p < p0p > P0p = p0

    .

    Por el T.L.C. sabemos que si n es grande.

    p pp (1p)

    n

    aprox n(0, 1) .

    Si H0 es ciertapp0p0 (1p0)

    n

    aprox n(0, 1) . As, el estadstico de pruebaa ser usado es

    ZC =p p0p0 (1p0)

    n

    .

    Para dado, la Region crtica es de la forma:

    R.C. :

    ZC |ZC < zZC |ZC > z

    ZC | |ZC | > z/2.

  • 153

    EjemploEn cierta region, tres candidatos aspiran a cierto cargo publico. Paraelegir uno de los tres se realiza una votacion entre todas las personasmayores de edad. Para tener idea si existe preferencia por alguno delos tres, se realiza una encuesta a 1000 personas y se observo 365 a favorde A, 330 a favor de B y 305 a favor de C. Existe mayor preferenciapor el candidato A?

    SolucionX: # votantes en la encuesta a favor de A.

    Xi bin (1000, p). Se desea probar las hipotesis:

    H0 : p =1

    3vs H1 : p >

    1

    3.

    Estadstico de Prueba:

    ZC =p 1/3

    13( 23)

    1000

    aprox n(0, 1) .

    Si = 0.05 se tiene que Z0.05 = 1.645 y as, la region crtica es de laforma:

    R.C = {ZC |ZC > Z0.05} = {ZC |ZC > 1.645} .

    En este caso

    ZC =0.365 1/3

    13( 23)

    1000

    = 2.12 .

    Como ZC > 1.645 se rechaza H0 y se concluye que segun los datos ob-servados existe mayor preferencia por A.

    Si = 0.025 Z0.02 = 1.96 y ZC > 1.96. La conclusiones la misma.

  • 154

    Si = 0.01 Z0.01 = 2.33 y ZC < 2.33 , no se puede re-chazar H0.

    Esto indica que la conclusion vara dependiendo del valor de escogido.

    Fig. 27: Rechazo Prueba de Hipotesis

    El area sombreada es P (Z > 2.12) = 1 P (Z 2.12) = 0.017.

    Observe que si < 0.017 no se puede rechazar H0 pero si > 0.017,si se rechaza H0 .

    Que pasa si n es pequeno? La aproximacion normal ya no es adecua-da y es necesario entonces usar directamente la distribucion binomial.

    H0 : p = p0 vs Ha :

    p < p0p > p0p = p0

    .

    E.Prueba X bin (n, p) .

    R.C =

    X |X < kX |X > k

    X |X > k1 v X > k2

    .

    Para fijo es posible determinar los valores de k, k1 y k2

    Suponga que queremos probar H0 : p = p0 vs Ha : p > p0. E. Prue-ba: X . R.C. = {X |X > k} . Para fijo, es muy comun que no sea

  • 155

    posible encontrar un k tal que la probabilidad de Error Tipo I sea exac-tamente igual a .

    En este caso se halla el menor valor de k tal que

    P (Error T ipo I) P (X > k | p = p0) .

    EjemploUn tratamiento para dejar de fumar a mostrado ser efectivo en el 60% delos casos. Se propone un nuevo tratamiento que se cree mejorara dichoporcentaje. Para verificar esto se tiene una muestra de 20 voluntariosque se someten a este tratamiento y 17 de ellos deja de fumar. Es elnuevo tratamiento mejor?. Use = 0.05. Luego = 0.01. Cambiala conclusion?

    SolucionSea X: # de pacientes tratados que dejan de fumar.X bin (20, p). Las hipotesis a probar son:

    H0 : p = 0.6 vs Ha : p > 0.6 .

    E. Prueba X. Bajo H0 X bin (20, 0.6). R.C.: {X |X > k }.Si = 0.05, se trata de hallar el menor valor de k tal que: P (X >k | p = 0.6) 0.05. Ahora, se tiene que:

    Si k = 19 P (X > k|p = 0.6) = 3.6562 x 105

    Si k = 18 P (X > k|p = 0.6) = 5.2405 x 104

    Si k = 17 P (X > k|p = 0.6) = 0.003611

    Si k = 16 P (X > k|p = 0.6) = 0.01596

    Si k = 15 P (X > k|p = 0.6) = 0.05095

    El menor valor de k es 16. As R.C. = {X |X > 16} . Como x =17 se rechaza H0 y se concluye que el nuevo tratamiento es mejor.

  • 156

    Si = 0.01 se tiene que P (X > k | p = 0.6) 0.01 solo si k = 17 .No se puede rechazar H0 y concluiramos que la evidencia no es sufi-ciente para decir que el nuevo tratamiento es mejor .

    Finalmente se tiene que P (X > 17 | p = 0.6) = 0.03611 .

    Valor p de una Prueba de Hipotesis

    EjemploSe requiere que la tension a la ruptura de una hilo utilizado en tapi-cera sea de por lo menos 100psi para considerarse aceptable. Paraestablecer este requisisto, se toma una m.a. de 50 hilos y se miden sustensiones a la ruptura. Los resultados obtenidos fueron: x = 99 psi yS = 3.40 psi. Es este tipo de hilo aceptable?SolucionSea X 1, . . . , X 50 una m.a. que representa las tensiones a la ruptura deeste tipo de hilo. Suponga que E [Xi] = y V ar [Xi] =

    2 , i =1, 2, . . . 50. Tenemos que x = 99 psi y S = 3.4 psi. Las hipotesis aprobar son:

    H0 : 100 vs Ha : < 100 .E.P

    ZC =X 100

    S50

    N(0, 1) .

    Para dado la region crtica o de rechazo esta dad por:

    {ZC |ZC < Z } .Zc = 2.08Si = 0.05 Z = 1.645Si = 0.025 Z = 1.96Si = 0.02 Z = 2.05Si = 0.01 Z = 2.33Observe que para = 0.02 se rechaza H0, pero para = 0.01, No sepuede rechazar.

  • 157

    Fig. 28: Valor P

    P (Z < 2.08) = 0.0188.Observe que el area a izquierda de Z0.02 es mayor que 0.0188 y el areaa izquierda de Z0.01 es menor que 0.0188. Por esto en el primer caso serechaza H0 y en el segundo caso no se puede rechazar. El valor observa-do para ZC es menor que Z0.02 y mayor que Z0.01. As, para rechazarH0, debemos escoger un , tal que ZC < Z.

    El mnimo valor de es precisamente 0.0188, que esP (Z < ZC | = 100) = P (Z < 2.08) .

    Esta probabilidad se conoce como Valor P , usualmente denotado Vp.Esta probabilidad representa el mnimo nivel de significancia a partirdel cual los datos observados indican que se debe rechazar H0. Tambiense entiende como la Mnima probabilidad de equivocarse al rechazarH0. Otra interpretacion mas usual se refiere a que el Valor p es la pro-babilidad de equivocarse al rechazar H0 obtenida experimentalmente ocon base en la muestra.

    Un Valor p pequeno, permite rechazar H0 con seguridad. Un Valor pgrande, no aporta suficiente evidencia para rechazar H0.As, para el ejemplo anterior Vp = 0.0188.

  • 158

    Observe que: Si < Vp, no se puede rechazar H0. Si >> Vp, se recha-za H0 con seguridad. Como el valor elegido para puede indicar que serechace o acepte H0, la decision recae en el valor p.

    Ejemplo En los datos anteriores se sabe que las tensiones a la rup-tura se distribuyen normales n(, 2). De una muestra aleatoria de 20hilos se obtiene una tension a la ruptura promedio de 100.95 con unadesviacion estandar de 2.21psi. Se puede afirmar que la tension a laruptura es superior a 100psi?SolucionSea X1, , X20 una m.a. de una n(, 2) que representa las tensionesa la ruptura de los 20 hilos. De la muestra obtenemos x = 100.95 yS = 2.21. Las hipotesis a probar son:

    H0 : = 100 vs Ha : > 100 .

    El estadstico de prueba es:

    TC =100.95 100

    2.2120

    = 1.922 .

    Si = 0.05 t 0.05(19) = 1.729Si = 0.025 t 0.025(19) = 2.093En el primer caso rechazamos. En el segundo no podemos rechazar H0.Ahora

    Vp = P (t(19) > 1.922) = 0.034866 .

    Si se considera que 0.035 es un error pequeno, se puede rechazar H0 yconcluir que, segun los datos registrados, la tension de ruptura mediade este tipo de hilo es superior a 100psi.

  • 159

    Fig. 29: Valor P

    El calculo del Valor p esta ligado al tipo de hipotesis alterna. En elprimer ejemplo se calculo un area a izquierda (Ha : < 100). En elsegundo ejemplo un area a derecha (Ha : > 100).Para el caso de pruebas de hipotesis para la media de una poblacion, sepueden considerar dos casos para el calculo del Valor p, dependiendo dela distribucion de la muestra.

    Resumen:

    H0 : = 0 vs Ha :

    < 0 > 0 = 0

    Caso I: Muestras que provienen de poblaciones normales con varianza2 conocida.

    E.P ZC =X 0

    n

    , Vp :

    P (Z < ZC)P (Z > ZC)P (|Z| > |Zc|)

    .

    Caso II: Muestras que provienen de poblaciones normales con varianza2 desconocida.

    E.P TC =X 0

    n

    , Vp :

    P ( t(n 1) < TC)P ( t(n 1) > TC)

    P ( |t(n 1)| > |TC |).

  • 160

    Caso III: Muestras que provienen de poblaciones no-normales.

    E.P ZC =X 0

    Sn

    , Vp :

    P (Z < ZC)P (Z > ZC)P (|Z| > |Zc|)

    .

    Para una porporcion.

    H0 : p = p0 vs Ha :

    p < p0p > p0p = p0

    Caso IV: Tamano de muestra grande.

    E.P ZC =p p0p0 (1p0)

    n

    , Vp :

    P (Z < ZC)P (Z > ZC)P (|Z| > |Zc|)

    .

    Para el caso de diferencia de medias, se usan los casos I, II y III paraefectos del calculo de los valores p, teniendo especial cuidado en los su-puestos distribucionales y los grados de libertad (segun el caso).

    EjemploSe lleva a cabo un estudio para determinar la efectividad de una va-cuna contra la gripe. La empresa que produce la vacuna asegura queesta es no efectiva en menos del 0.8% de los casos en los que se aplica.Se administra la vacuna a una muestra aleatoria de 3000 sujetos y 13contraen gripe. Es cierta la afirmacion del fabricante? Use el Valor ppara concluir.SolucionSea X: Numero de vacunados que contraen gripe. Se sabe que X b(3000, p) , donde p es desconocido. La hipotesis del fabricante estableceque p < 0.008. Luego, las hipotesis a contrastar son:

    H0 : p = 0.008 vs Ha : p < 0.008 .

    Como n es grande, el estadstico de prueba es:

    ZC =p 0.0080.008 (10.008)

    3000

    .

  • 161

    Como p = 133000

    = 0.0043, se tiene que ZC = 2.25. Luego, el Valor p deesta prueba se obtiene como:

    Vp = P (Z < ZC) = P (Z < 2.25)

    Vp = P (Z > 2.25) = 1 P (Z < 2.25) = 0.01224 .Como este valor es pequeno, se puede rechazar H0 con seguridad y con-cluir que, segun la informacion suministrada, la proporcion de personasvacunadas que contraen gripe, es inferior al 0.8% .

  • 162

    Pruebas de Bondad de Ajuste

    Una prueba de Bondad de Ajuste es un procedimiento especial paradeterminar si un conjunto de datos proviene de cierta distribucion co-nocida.Cuando los datos son discretos, la prueba mas usada es la prueba Ji-Cuadrada, debido a que el estadstico de prueba usado es una nuevavariable aleatoria llamada 2. Otras pruebas usadas pero en datos con-tinuos son: Kolmogorov-Smirnov, Shapiro-Wilks, Cramer Von Mises,Anderson-Darling, entre otras.

    Definicion Una variable aleatoria X se dice que tiene una distribucion2 con grados de libertad, si su p.d.f. es de la forma:

    f(x) =1

    (2

    )2

    2

    x21 e

    x2 ; x > 0 , > 0 .

    Por notacion se escribe: X 2() . El parametro es conocido comogrados de libertad. Un nombre similar al usado en los parametros de ladistribucion f . Es facil mostrar que:

    E[X] = ; V ar[X] = 2 .

    Los cuantiles para esta distribucion se obtienen al resolver la ecuacion:

    P(X > 2()

    )= .

    Un grafico de dicha distribucion y el respectivo cuantil superior semuestra en la figura 30.

    Fig. 30: Distribucion 2()

  • 163

    Suponga que se tiene una experimento multinomial, es decir una seriede ensayos (n ensayos) identicos e independientes y k posibles categoraso clases. Sea p i la probabilidad de clasificar en la categora i y sea Ni elnumero de ensayos que caen en la categora i de los n ensayos. Se tieneque N1+ +Nk = n. Cada Ni sera una v.a. binomial con parametrosn y pi ; i = 1, 2 , k. El numero esperado de ensayos en la categorai es E [Ni] = n pi ; i = 1, 2 , k

    Se desea establecer si los datos observados provienen de cierta distri-bucion especial con c.d.f. F 0(x). Las hipotesis a probar son:

    H0 : F (x) = F0(x) vsHa : F0(x) no es la c.d.f. asociada a la muestra.Si F0 esta claramente especificada, es posible conocer valores particula-res para los pi ; i = 1, 2, . . . , k y asi obtener E [Ni]. En otro caso, los pideberan ser estimados y en vez de tener E [Ni], se estima con n pi.En resumen tenemos:

    clase 1 2 k totalFrec observada n1 n2 . . . nk nProbabilidad p1 p2 . . . pk 1Frec esperada n p1 n p2 n pk n

    Si n pi 5 ; i = 1, 2 . . . , k , la v.a.

    X =k

    i=1

    (Ni n pi) 2n pi

    2(k 1) .

    Observe que

    X =k

    i=1

    (Ni n pi) 2n pi

    =

    todas las celdas

    (f.obs f.esp) 2f.esp

    2(k 1) .

    Suponga que se desea establecer valores particulares para los p i, es decirqueremos probar:

    H0 : p i = pi 0 ; i = 1, 2 . . . , k vs Ha : j tal que pj = pj 0

  • 164

    E.P:

    XC =k

    i=1

    (ni n pi) 2n pi

    2(k 1) .

    R.C.:

    {XC |XC > 2(k 1) } ; para dado .Finalmente

    Vp = P(2(k 1) > XC

    ).

    El calculo con la tabla Chi-Cuadrado es similar al calculo con la tablat.

    TABLA PARA LA JI-CUADRADO. Areas a derecha

    v 0,1 0,06 0,05 0,025 0,02 0,01 0,005

    1 2,706 3,537 3,841 5,024 5,412 6,635 7,879

    2 4,605 5,627 5,991 7,378 7,824 9,210 10,597

    3 6,251 7,407 7,815 9,348 9,837 11,345 12,838

    4 7,779 9,044 9,488 11,143 11,668 13,277 14,860

    5 9,236 10,596 11,070 12,833 13,388 15,086 16,750

    6 10,645 12,090 12,592 14,449 15,033 16,812 18,548

    7 12,017 13,540 14,067 16,013 16,622 18,475 20,278

    8 13,362 14,956 15,507 17,535 18,168 20,090 21,955

    9 14,684 16,346 16,919 19,023 19,679 21,666 23,589

    10 15,987 17,713 18,307 20,483 21,161 23,209 25,188

    11 17,275 19,061 19,675 21,920 22,618 24,725 26,757

    12 18,549 20,393 21,026 23,337 24,054 26,217 28,300

    13 19,812 21,711 22,362 24,736 25,472 27,688 29,819

    14 21,064 23,017 23,685 26,119 26,873 29,141 31,319

    15 22,307 24,311 24,996 27,488 28,259 30,578 32,801

    EjemploPara determinar si un dado esta cargado o no, este es lanzado 600 vecesy se anota cuantas veces aparece cada cara. Los resultados observadosfueron:

  • 165

    Cara 1 2 3 4 5 6Fre.obs 85 94 108 112 98 103Frec.esp 100 100 100 100 100 100

    Las hipotesis a plantear son:

    H 0 : pi =1

    6, i = 1, 2, , 6 vs Ha : jtal que pj = 1

    6.

    En este caso la distribucion acumulada F 0(x), esta asociada a una dis-tribucion uniforme discreta.Estadstico de Prueba:

    XC =6

    i=1

    (n i 100) 2100

    2(5) .

    En este caso se tiene que Xc = 4.82. De esta manera se obtiene:

    Vp = P(2(5) > 4.82

    )> 0.1 .

    Usando R se tiene que el valor p es 1-pchisq(4.82,5) = 0.4382404 . Porlo tanto, no se puede rechazar H0; en otras palabras, no hay suficienteevidencia para afirmar que el dado esta cargado. Asumimos que no loesta.EjemploEl generador de numeros aleatorios de una calculadora arrojo 100 nume-ros aleatorios (dgitos). Los resultados obtenidos son:

    Dgito 0 1 2 3 4 5 6 7 8 9Frec 11 11 9 8 8 11 9 11 13 9F.espe. 10 10 10 10 10 10 10 10 10 10

    Las hipotesis a plantear son:

    H 0 : pi =1

    10, i = 1, 2, . . . , 10 vs Ha : j tal que pj = 1

    10.

    F.esperada = 100(

    110

    )= 10:

    E.Prueba:

    Xc =10i=0

    (n i 10) 210

    2(9) .

  • 166

    En este caso Xc = 2.4. As, el valor p de esta prueba es:V p = P (

    2(9) > 2.4) >> 0.1 .En R se usa el comando: 1-pchisq(2.4,9) = 0.983453 . Como no se pue-de rechazar H0, se asume que los numeros se generan aleatoriamente.

    El siguiente ejemplo muestra porque no es adecuado usar esta pruebapara datos continuos.

    EjemploUna prueba que consta de 100 preguntas es presentada por 50 estudian-tes. Se tiene la creencia de que el puntaje obtenido es una v.a. normal.Los resultados obtenidos son:

    30 40 42 52 55 60 60 62 64 65 66 66 67 67 68 68 6870 70 70 71 72 72 73 74 74 75 76 76 78 78 78 79 8080 82 83 84 84 85 86 88 90 90 92 93 93 94 95 97

    Para aplicar la prueba Chi-Cuadrado es necesario forzar un esquemamultinomial. Se construira una tabla de frecuencias.

    k 1 + 3.33 log(50) 7 min = 30 ,max = 97 ,

    N.rango = 70 , Amplitud =67

    7= 9.571 10 .

    Los intervalos resultantes son:

    ( , 40), [40 , 50) , [50 , 60) , [60 , 70) , [70 , 80) , [80 , 90) , [90 , ) .

    Fig. 31: Histograma para puntajes

  • 167

    Las hipotesis a probar son:

    H0: Los puntajes se distribuyen n (, 2).

    Ha: Los puntajes no se distribuyen n (, 2).

    Como y 2 son desconocidas, usamos estimadores puntuales para y 2; estos seran X y S2.

    Bajo H0 asuma que X: puntaje obtenido en la prueba, es una v.a ,donde X n (X, S2). x = 73.64, S = 14.257, n = 50. Para calcularlas probabilidades de clase, se procede as:

    p1 = P (X < 40|X n (73.64, 203.256))= P

    (Z 2.367

    )> 0.1 .

    En R se tiene: 1-pchisq(2.367,2) = 0.3062051. Por lo tanto no se puederechazar H0 y se asume que los puntajes se distribuyen normalmente.

    A pesar de que la prueba aparentemente indica normalidad en los datos,esta prueba no es concluyente, sobre todo cuando acepta H0.

    Este ejemplo es particularmente importante, porque uno de los supues-tos fuertes en la mayora de las aplicaciones estadsticas, es aquel dondese debe especificar si la muestra (o muestras) aleatoria proviene de unhadistribucion normal.

    Entre las propuestas metodologcas se encuentran reportadas en la li-teratura muchas mas pruebas sobre Normalidad. Algunas de las masconocidas son: Kolmogorov-Smirnov, Shapiro-Wilks, Cramer Von Mis-ses, Jarque Bera, de Asimetra y Kurtosis de Mardia, etc.

    Usando R, se puede aplicar la prueba de Shapiro-Wilk, para determinarsi estos puntajes se distribuyen de manera normal. En R comander semuestra el procedimiento en la figura 32

  • 169

    Fig. 32: Prueba Shapiro-Wilks

    Usando codigo en R:

    shapiro.test(puntajes)

    Shapiro-Wilk normality test

    data: puntajes

    W = 0.9521, p-value = 0.04163

    El valor p obtenido permite rechazar H0 y se concluye entonces que lospuntajes obtenidos NO se disstribuyen normalmente. En la figura 32se muestra la densidad ajustada a los puntajes. Observe que su formadista mucho de ser simetrica. El codigo en R:

    plot(density(puntajes), xlab=Puntaje, main=Densidad para Pun-tajes, ylab=).

  • 170

    Fig. 33: Densidad para puntajes

    EjemploDe la produccion diaria de una empresa se seleccionan de manera aleato-ria 4 artculos y se examinan uno a uno para verificar si son defectuososo no. A pesar de desconocer la proporcion diaria de defectuosos en laempresa, se tiene la idea de que el numero de artculos defectuosos de los4 seleccionados es Binomial. Para verificarlo, se repite este experimentodurante 100 das y cada vez se registra el numero de defectuosos entrelos 4 seleccionados. Los resultados se muestran en la siguiente tabla.

    No exitos 0 1 2 3 4Frec Obs 11 17 42 21 9

    Verifique si en efecto el numero de defectuosos tiene una distribucionBinomial, con n = 4.

    SolucionSea X1 , X2 , , X100 una muestra aleatoria que representa el numerode defectuosos para los 100 das observados. Segun el enunciado se deseaprobar las hipotesis:

    H0 : Xi b(4 , p) vs Ha : Xi no se distribuye b(4 , p) .

  • 171

    Como p es desconocido, bajo H0 cierta es posible estimar a p usando elmetodo de maxima verosimilitud.

    L(p) =100i=1

    (4

    Xi

    )pXi (1 p)4Xi =

    100i=1

    (4

    Xi

    )p

    100i=1

    Xi(1 p)

    100i=1

    4Xi.

    (p) = K +100i=1

    Xi ln(p) +

    (4 100

    100i=1

    Xi

    ).

    Al derivar esta ultima ecuacion e igualar a cero se obtiene que:

    p =1

    4 100100i=1

    Xi .

    Para los datos de la tabla anterior se tiene que

    p =

    100i=1

    Xi

    4 100 =12.

    La hipotesis nula se convierte en:

    H0 : Xi b(4 , 12) H0 : pi =

    (4

    i

    ) (1

    2

    )4, i = 0, 1, 2, 3, 4 .

    Bajo H0, las probabilidades pi son:

    p0 =1

    16, p1 = 4

    1

    16, p2 = 6

    1

    16, p3 = 4

    1

    16, p4 =

    1

    16.

    La tabla resumen con las respectivas frecuencias esperadas es:

    No exitos 0 1 2 3 4Frec Obs 11 17 42 21 9Frec Esp 6.25 25 37.5 25 6.25

    Estadstico de prueba. En este caso la estimacion del parametro p haceque se pierda un grado de libertad mas.

    XC =4

    i=0

    (Ni n pi)2n pi

    2(3) .

  • 172

    Para los datos observados se tiene que: XC = 8.567 . El valor p de laprueba se calcula como: V p = P (2(3) > 8.567) . Observando la tablapara la Ji-cuadrado, se tiene que0.025 < V p < 0.05 . Con esta informacion se rechaza H0 y se con-cluye que segun la informacion registrada, el numero de exitos NO sedistribuye Binomial con p = 1

    2.

    Estadstica de Kolmogorov - Smirnov

    Suponga que X1, . . . , Xn es una m.a. de una distribucion desconocidacon c.d.f. F (x) y que los datos se ordenan de menor a mayor. Considerelas hipotesis:

    H0 : F (x) = F0(x) vs H1 : F (x) = F0(x) .Para evaluar esta hipotesis, se recurre a la Distribucion emprica de lamuestra, la cual es usualmente denotada Sn(x) y se define como:

    Sn(x) =

    0 , x < x(1)kn

    , x(k) x < x(k+1)1 , x x(n)

    .

    Ya que bajo H0, F0(x) se encuentra completamente especificada, es po-sible evaluar F0(x) para cualquier otro valor de x y compararlo conSn(x). Si H0 es cierta, se espera que la diferencia entre Sn(x) y F0(x)sea pequena. La estadstica de Kolmogorov-Smirnov se define como:

    Dn = maxx|Sn(x) F0(x)| .

    La distribucion de Dn no depende de la distribucion especificada en H0y solo debe ser evaluada en funcion del tamano de la muestra.

    Para dado se rechaza H0 si Dn >cn. Esta prueba puede ser usada

    para verificar si un conjunto de datos (discretos o continuos) provienende una distribucion especfica.Los valores de c se encuentran tabulados y la respectiva tabla se muestraen la figura 30.

  • 173

    Fig. 34: Valores crticos para la prueba K-S

    EjemploA partir de una muestra de 215 estudiantes, se recopilo informacionacerca de 5 variables de interes: Estrato, Horas (dedicadas semanalmentea estudiar), Edad (en anos), Trab(Trabaja 1:Si; 2: No) y Prom (obtenidoen el semestre anterior). Se muestra una parte de los datos:

    > ind[1:10,]

    Estrato Horas edad trab prom

    1 1 28 20 1 3.8

    2 1 24 21 1 3.7

    3 1 18 19 1 3.9

    4 1 20 20 2 3.7

    5 1 23 25 2 3.7

    6 1 26 18 2 3.6

    7 2 12 35 1 3.0

    8 2 30 26 1 3.2

    9 2 4 32 1 2.9

    10 2 9 26 1 3.4

    Un histograma para la variable Prom se muestra en la figura 35.

  • 174

    Fig. 35: Histograma para Promedio

    Se quiere determinar si los promedios se comportan de manera Normal.Se plantean las siguientes hipotesis:

    H0 : Los promedios se distribuyen n (, 2)

    Ha : Los promedios no se distribuyen n (, 2)

    El estadstico de prueba es Dn. debido a que los parametros en el caso deuna Normal, deben ser estimados por maxima verosimilitud, Lillieforspropone una modificacion a el test K-S. El comando en R para realizaresta prueba es:

    > lillie.test(ind[,5])

    Lilliefors (Kolmogorov-Smirnov) normality test

    data: ind[, 5]

    D = 0.0892, p-value = 0.0002713

    Este valor P permite rechazar H0 y concluir que los promedios NO sedistribuyen normalmente.