Metodos No Parametricos

Embed Size (px)

DESCRIPTION

Estadistica Industrial ..... Estadistica No Parametrica .......Pruebas......................................................................................................

Citation preview

  • UNIVERSIDAD NACIONAL ABIERTA CENTRO LOCAL METROPOLITANO

    LICENCIATURA EN MATEMTICA MENCIN PROBABILIDAD Y ESTADSTICA

    U NA ESTUDIO DE MTODOS NO PARAMTRICOS

    Informe de pasantas presentado como requisito para optar al ttulo de

    Licenciado en Matemtica Mencin Probabilidad y Estadstica

    Autor: Frank Rodrguez Tutor: MSc. Amrica Vera

    Caracas, Marzo de 2008

  • LISTA DE ILUSTRACIONES

    GRFICOS Pag.

    Figura I.2.2.1. Distribucin con tres niveles de significancia distintos en

    donde se muestra la regin de aceptacin y rechazo 5

    Figura I.3.1. Curvas de funcin de potencia de una prueba de dos colas

    con nivel de significancia = 0.05 con diferentes tamaos de muestras 7 Figura I.5.1. El rea sombreada muestra la regin de rechazo de una prueba

    de dos colas 13

    Figura I.5.2. El rea sombreada muestra la regin de rechazo de una prueba

    de cola derecha o superior. 13

    Figura I.5.3. El rea sombreada muestra la regin de rechazo de una prueba

    de cola izquierda o inferior 13

    Figura II.6.1. Regin derechazo para la prueba de corridas (rachas) 34

    Figura II.6.2. Distribucin de n 1 elementos S en y 1 celdas 35

    Grfica III.7.1. Distribucin muestral de R 74

    Grfica III.7.2. Distribucin de probabilidad de R 74

    Grfica III.7.3. Muestra la brillantez en funcin del tiempo 77

    TABLAS

    Tabla I.1.1. Resumen de probabilidades segn el tipo de error 4

    Tabla I.4.4.1. Temperatura en centgrados y Fahrenheit 11

    Tabla I.4.5.1. Resumen de los cuatro niveles de representacin 12

    Tabla II.2.1. Hiptesis alternativa y regin de rechazo para la hiptesis

    nula 0 = 22

  • iii

    Tabla II.2.2.1. Hiptesis alternativa y regin de rechazo para la hiptesis

    nula X = Y 24 Tabla II.4.1. Hiptesis alternativa y regin de rechazo para la hiptesis

    nula BA = 29 Tabla III.1.1. Observaciones y diferencias de mediciones de la resistencia

    a la compresin de probetas preparadas para el ensayo 44

    Tabla III.1.2. Observaciones y diferencias de las cantidades de monxido

    de carbono (CO) emitidas contenidas en al aire 47

    Tabla III.1.3. Observaciones y diferencias de las calificaciones del examen

    con mediana 66 y 75 de los casos a) y b) respectivamente 49

    Tabla III.2.1. Nmero de rechazos ocurridos antes y despus de la aplicacin

    del nuevo saborizante en las compotas 51

    Tabla III.2.2. Nmero de rechazos ocurridos antes y despus de la aplicacin

    del saborizante indicando el signo de su diferencia 52

    Tabla III.2.3. Nmero de piezas defectuosas producidas por mquina 53

    Tabla III.2.4. Nmero de tuercas defectuosas por mquina y signo

    de la diferencia 54

    Tabla III.3.1. Medicin de resistencia 56

    Tabla III.4.1. Pesos en libras antes y despus de aplicar la dieta a 16

    personas 57

    Tabla III.4.2. Pesos en libras antes y despus de aplicarla dieta a 16

    personas con los rangos asignados 59

    Tabla III.4.3. Datos pareados y sus diferencias para el ejemplo III.4.2 61

    Tabla III.5.1. Resistencia de cable segn su aleacin 62

    Tabla III.5.2. Asignacin de rango a las resistencias 62

  • iv

    Tabla III.5.3. Rangos asociados de la tabla III.5.2 63

    Tabla III.5.4. Datos del papel tamao carta con sus rangos y sus sumas

    de rango 65

    Tabla III.5.5. Asignaciones de rangos a las calificaciones 66

    Tabla III.6.1. Calificaciones de examen final obtenida por tres grupos

    con tres mtodos distintos 67

    Tabla III.6.2. Nmero de unidades producidas por las mquinas A, B, C,

    D, E 68

    Tabla III.6.3. Asignacin de rango a los valores y su sumatoria 69

    Tabla III.6.4. Datos del ejemplo III.6.3 70

    Tabla III.7.1 Secuencia-corridas 73

    Tabla III.7.2. Tabla (R,f) consecuencia de la tabla III.7.1 74

    Tabla III.8.1. Estatura de 12 padres y sus hijos mayores 78

    Tabla III.8.2. Los valores de la tabla III.8.1 sustituidos por sus rangos 79

    Tabla III.8.3. Diferencia en rangos y su cuadrado 79

    Tabla III.8.4. Compara nivel acadmico con el nivel profesional 10 aos

    despus de graduados y la diferencia de rangos 80

    Tabla III.8.5. Compara nivel acadmico con el nivel profesional 10 aos

    despus de graduados y la diferencia de rangos 81

    Tabla III.8.6. Horas de estudios por estudiante y las calificaciones

    que obtuvieron en el examen de matemticas 82

    Tabla III.8.7. Indicacin de rangos por variables y sus diferencias 83

    Tabla III.9.1. Frecuencias acumulativas observadas y relativas 86

    Tabla III.9.2. Frecuencias acumulativas observadas relativas, frecuencias

    acumulativas relativas esperadas y desviaciones absolutas 87

  • v

    Tabla IV.1.Conversin de valores paramtricos a rangos no paramtricos 93

    Tabla # 1. Distribucin de Probabilidades Binomiales 98

    Tabla # 2. Distribucin normal estndar 103

    Tabla # 3. Prueba de rangos con signos de Wilcoxon. Valores crticos de T 104

    Tabla # 4. Prueba U de Mann-Whitney. Valores crticos de U 105

    Tabla # 5. Valores de 2, 107

    Tabla # 6. Rachas o corridas. Valores crticos de R 108

    Tabla # 7. Valores crticos del coeficiente de correlacin de rangos de Spearman110

    Tabla # 8. Valores crticos de D para la prueba de bondad de ajuste

    de Kolmogorov-Smirnov 111

  • vii

    NDICE

    Pg.

    Introduccin 1

    CAPTULO I 2

    Prueba estadstica y prueba de hiptesis 2

    I.1 Elementos de una prueba estadstica 2

    I.2 Nivel de significancia de una prueba 4

    I.2.1 Seleccin 4

    I.2.2 Interpretacin 4

    I.3 Funcin de potencia de una prueba de hiptesis 6

    I.4 Escalas de medicin 8

    I.4.1 Introduccin 8

    I.4.2 Escala nominal o clasificatoria 8

    I.4.3 Escala ordinal o de rango 9

    I.4.4 Escala de intervalo 10

    I.4.5 Escala de proporcin 11

    I.5 Teora de decisin 12

    CAPTULO II 14

    Las pruebas y su teora 14

    II.1 Prueba del signo. Breve historia 14

    II.1.1 Prueba del signo de una sola muestra 14

    II.1.2 Prueba del signo para muestras en pares. Experimentos de pares

    comparados 17

    II.1.2.1 Caso de dos muestras 17

    II.1.2.2 Modelo general de desplazamiento 18

  • viii

    II.1.2.3 Prueba de los signos para un experimento de pares comparados 18

    II.2 Prueba de Wilcoxon 20

    II.2.1 Prueba de rangos para una sola muestra. Intervalos con signos 20

    II.2.2 Prueba de rangos con signos de Wilcoxon para un experimento

    de pares comparados 23

    II.3 Prueba de suma de rangos de Wilcoxon. Muestras aleatorias independientes 26

    II.4 Prueba U de Mann-Whitney. Muestras aleatorias independientes 26

    II.5 Prueba H de Kruskal- Wallis 32

    II.6 Prueba de corridas (rachas) de una sola muestra 34

    II.7 Coeficiente de correlacin de rangos de Spearman 38

    II.8 Prueba de Kolmogorov-Smirnov 41

    CAPTULO III 43

    Las pruebas y sus aplicaciones 43

    III.1 Aplicaciones de la prueba del signo de una sola muestra 43

    III.2 Aplicaciones de la prueba del signo para muestras de pares comparados 50

    III.3 Aplicaciones para la prueba de rangos con signos de Wilcoxon para

    un experimento de una sola muestra 55

    III.4 Aplicaciones para la prueba de rangos con signos de Wilcoxon para

    un experimento de pares comparados 57

    III.5 Aplicaciones para la prueba U de Mann-Whitney 61

    III.6 Aplicaciones de la prueba H de Kruskal- Wallis 67

    III.7 Aplicaciones de la prueba de corridas (rachas) de una sola muestra 71

    III.8 Aplicaciones del coeficiente de correlacin de rangos de Spearman 78

    III.9 Aplicaciones de la prueba de Kolmogorov-Smirnov 84

    CAPTULO IV 89

  • ix

    Anlisis, conclusiones y recomendaciones 89

    IV.1 Pruebas estadsticas paramtricas y no paramtricas 89

    IV.2 Ventajas de los mtodos no paramtricos 92

    IV.3 Desventajas de los mtodos no paramtricos 93

    IV.4 Recomendaciones 94

    APNDICE A 95

    Teorema central del lmite 95

    APNDICE B 98

    Tabla # 1. Distribucin de probabilidades binomiales 98

    Tabla # 2. Distribucin normal estndar 103

    Tabla # 3 Valores crticos de T (Wilcoxon) 104

    Tabla # 4 Valores crticos de U (Mann-Whitney) 105

    Tabla # 5 Valores de 2, 107

    Tabla # 6. Valores crticos de R (rachas o corridas) 108

    Tabla # 7. Valores crticos del coeficiente de correlacin de

    rangos de Spearman 110

    Tabla # 8. Valores crticos de D (Kolmogorov-Smirnov) 111

    REFERENCIA BIBLIOGRFICA 112

  • 1

    INTRODUCCIN

    Cada vez es ms frecuente el uso de mtodos no paramtricos para el

    anlisis estadstico entre profesionales y estudiantes de diferentes reas del

    conocimiento, entre otras, las ciencias sociales, medicina, ingeniera y aquellas que

    estudian las preferencias del consumidor. Esto ha motivado la elaboracin del presente

    trabajo. Las pruebas estadsticas no paramtricas forman, hoy da, un conjunto amplio

    con muchos mtodos de inferencia disponible, y debido a su importancia y lo poco

    conocidas se presenta un estudio, introductorio, que describe los mtodos de Pruebas:

    de signo, Wilcoxon, U de Mann-Whitney, H de Kruskal-Wallis, de corridas, correlacin

    de rangos y de Kolmogorov-Smirnov mostrando, en forma clara, las aplicaciones en que

    son de utilidad estos mtodos.

    En ningn momento se pretende abordar el tema bajo estudio de manera

    exhaustiva, se hace una recopilacin bibliogrfica considerando el fundamento terico y

    aplicaciones de los mtodos mencionados arriba, y presentamos una comparacin con

    los mtodos clsicos, en donde es posible.

  • 2

    CAPTULO I

    PRUEBA ESTADSTICA Y PRUEBA DE HIPTESIS

    I.1 ELEMENTOS DE UNA PRUEBA ESTADSTICA

    En una prueba estadstica todo se inicia con una suposicin que hacemos de

    un valor hipottico de la poblacin, cosa que se puede determinar, por ejemplo, en

    forma intuitiva o producto de la experiencia que tenemos sobre un parmetro de algn

    evento, que en particular creemos que tiene una determinada poblacin.

    Uno de los objetivos de una prueba estadstica es el de probar una hiptesis

    relacionada con los valores de uno o ms parmetros poblacionales. Una vez planteado

    el problema, formulamos una hiptesis de investigacin respecto a los parmetros que

    queremos sustentar y despus de seleccionar la hiptesis, se recogen los datos empricos

    que dan informacin directa acerca de la aceptabilidad de sta, la cual es llamada

    hiptesis nula y se denota mediante H 0 . Este trmino, hiptesis nula, surgi de las

    primeras aplicaciones agrcolas y mdicas de la estadstica, teniendo como fin el probar

    la efectividad de un nuevo fertilizante o una nueva medicina, la hiptesis que se probaba

    era que no tuvo efecto, es decir, no hubo diferencia entre las muestras tratadas y no

    tratadas.

    Cuando nos referimos a un parmetro cualquiera de la poblacin, por

    ejemplo , el smbolo 0 se usar en los planteamientos de este tipo de problemas para representar el valor hipottico del parmetro poblacional que corresponde a la hiptesis

    nula.

    La decisin acerca del significado de los datos, una vez procesado, puede

    conducir a la confirmacin, revisin o rechazo de la hiptesis y, con ella, la teora que la

    origin.

    La hiptesis alternativa, que se denota por H 1 , es la hiptesis que se acepta

    si se rechaza H 0 y que queremos comprobar con base en la informacin de la muestra.

  • 3

    Por definicin una hiptesis estadstica es una afirmacin o conjetura de la

    distribucin de una o ms variables aleatorias. Y cuando especfica por completo la

    distribucin, recibe el nombre de hiptesis simple; si no, se conoce como hiptesis

    compuesta.

    Las partes esenciales de una prueba estadstica son el estadstico de prueba

    y una regin de rechazo asociada. El estadstico de prueba, como un estimador, es una

    funcin de las mediciones de la muestra que sirve de fundamento para las tomas de

    decisiones estadsticas. La regin de rechazo, denotada por RR, especifica los valores

    del estadstico de prueba para los que la hiptesis nula se rechaza a favor de la hiptesis

    alternativa. Si en una muestra el valor calculado del estadstico de prueba est en la

    regin RR, rechazamos la hiptesis nula H 0 y aceptamos la hiptesis alternativa H 1 . Si

    el valor del estadstico de prueba no cae en la regin de rechazo RR, aceptamos H 01.

    Un problema importante es encontrar una buena regin de rechazo para una

    prueba estadstica y en cualquier regin de rechazo fija se pueden cometer dos tipos de

    errores al tomar una decisin. Podemos decidirnos a favor de H 1 cuando H 0 es

    verdadera o lo que es lo mismo rechazar H 0 cuando es verdadera, este error se

    denomina del tipo I con probabilidad denominada nivel de significancia de la prueba, o podemos decidirnos a favor de H 0 cuando H 1 es verdadera lo que equivale a rechazar

    H 1 cuando es verdadera; este error se denomina del tipo II con probabilidad . As estas probabilidades proporcionan una manera prctica de medir la bondad de una

    prueba y podramos resumirlas de la siguiente manera segn se muestra en la

    tabla # I.1.1

    1 Aceptar es asegurar que la hiptesis Ho es verdadera 100% y esto no es as. En la mayora de los textos que tratan el tema se usa esta expresin como una abreviacin que no es ms que un abuso del lenguaje. Todos aclaran, y as tambin lo hacemos aqu, que lo que se quiere decir es que no se tiene suficientes elementos de juicio desde el punto de vista estadstico como para rechazarla; siendo sta la forma ms adecuada o completa. En esta monografa se hace tambin de las dos formas y es bueno que se tenga presente para no crear confusin.

  • 4

    Probabilidad de rechazar la hiptesis cuando es verdadera:P(RHCEV)1

    Tipo de error

    P(RH 0 CEV) = I

    P(RH 1 CEV) = II Tabla # I.1.1. Resumen de probabilidades segn el tipo de error.

    I.2 NIVEL DE SIGNIFICANCIA DE UNA PRUEBA

    I.2.1 SELECCIN

    El cuestionar o no el valor calculado del estadstico de una muestra no es el

    propsito de la prueba de hiptesis, sino hacer un juicio con respecto a la diferencia

    entre el valor de ese estadstico de muestra y un parmetro hipottico de la poblacin.

    Una vez establecida la hiptesis nula y la alternativa, entonces, todo consiste en decidir

    qu criterio utilizar para decidir si aceptar o rechazar la hiptesis nula.

    I.2.2 INTERPRETACIN

    No existe un nivel de significancia nico universal para probar hiptesis. En

    algunos casos, se utiliza un nivel de significancia de 5%. Algunos resultados de

    investigaciones publicados a menudo prueban hiptesis al nivel de significancia de 1%.

    Es posible probar una hiptesis a cualquier nivel de significancia. Pero es bueno

    recordar que la eleccin del estndar mnimo para una probabilidad aceptable, o el nivel

    de significancia, es tambin el riesgo que se asume al rechazar una hiptesis nula

    cuando es cierta. Mientras ms alto sea el nivel de significancia que se utilice para

    probar una hiptesis, mayor ser la probabilidad de rechazar una hiptesis nula cuando

    sea cierta.

    Al examinar este concepto, nos referimos a la figura # I.2.2.1 en la que se ha

    ilustrado una prueba de hiptesis con 00 : =H y 01 : H a tres niveles de 1 Probabilidad de Rechazar la Hiptesis Cuando Es Verdadera se abrevia como P(RHCEV). Obsrvese que las palabras que se inician con mayscula son las nicas que se incluyen en el parntesis.

  • 5

    significancia diferentes: 0.01, 0.1, y 0.50. En ella se puede observar la distribucin

    muestral, la regin de aceptacin de la hiptesis nula (en blanco) y su regin de rechazo

    (sombreada).

    Figura # I.2.2.1. Distribucin con tres niveles de significancia distintos en

    donde se muestra la regin de aceptacin y de rechazo.

    Tambin se ubica en ella la misma muestra x en cada una de las distribuciones en donde

    puede verse que tanto en a) como en b) aceptaramos la hiptesis nula de que la media

    de poblacin es igual al valor hipottico. Pero observe que en la parte c) de la misma

    figura, rechazaramos la misma hiptesis nula que con la condicin anterior se acept,

    pues nuestro nivel de significancia de 0.50 en esa parte es tan alto que raramente

    aceptaramos dicha hiptesis cuando no sea cierta, pero, al mismo tiempo la

    rechazaramos cuando es cierta.

  • 6

    Observemos que cuando ampliamos RR para obtener una nueva regin de

    rechazo RR*; es decir, RR RR*, la prueba con la regin de rechazo RR* nos llevar a rechazar H 0 con ms frecuencia. Si * y denotan las probabilidades de los errores tipo I (niveles de las pruebas) cuando utilizamos RR* y RR como regiones de rechazo,

    respectivamente, entonces, como RR RR*, * = P( el estadstico de la prueba est en RR* cuando H 0 es verdadera)

    P( el estadstico de la prueba est en RR cuando H 0 es verdadera) = .

    De la misma manera, si usamos la regin de rechazo ampliada RR*, el

    procedimiento de la prueba nos llevar a aceptar H 0 con menor frecuencia. Si * y denotan las probabilidades de los errores tipo II para las pruebas con regiones de

    rechazo RR* y RR, respectivamente, entonces

    * = P( el estadstico de la prueba no est en RR* cuando H 1 es verdadera) P( el estadstico de la prueba no est en RR cuando H 1 es verdadera) = . Estas relaciones permiten notar que si se modifica la regin de rechazo para

    incrementar , disminuye. De la misma manera, si el cambio en la regin de rechazo da como resultado que disminuya, se incrementa. Por lo tanto, y estn relacionados de manera inversa. Para poder reducir los valores de o debemos obtener ms informacin respecto a la verdadera naturaleza de la poblacin

    incrementando el tamao de la muestra. En casi todas las muestras estadisticas, si se mantiene fijo con un valor suficientemente menor, disminuye a medida que aumenta el tamao de la muestra.

    I.3 FUNCIN DE POTENCIA DE UNA PRUEBA DE HIPTESIS

    La bondad de una prueba de hiptesis se mide mediante las probabilidades

    de cometer errores de tipo I y II, stos estn identificados con y , respectivamente,

  • 7

    Figura # I.3.1. Curvas de funcin de potencia de una prueba de dos colas con nivel de significancia = 0.05 con diferentes tamaos de muestras.

    donde se elige con anterioridad, y determina la localizacin de la regin de rechazo. Un mtodo que presenta una mayor utilidad para evaluar el desempeo de una prueba

    recibe el nombre de funcin de potencia de una prueba de una hiptesis estadstica H 0

    contra una hiptesis alternativa H1 y est dada por

    con supuestos de valorespara )(1

    con supuestos de valorespara )()(

    1

    o

    = H

    Hfp

    La figura # I.3.1 muestra las curvas tpicas fp para la prueba de H 0 : 0 = (hiptesis simple) frente a la hiptesis alternativa H 1 : 0 (hiptesis compuesta) a medida que el tamao de la muestra (n) se incrementa, de modo que la funcin potencia aumenta al

    crecer el tamao de n. Esto en algunos casos de la prctica no siempre es posible pues

    el investigador puede estar estudiando un caso muy raro de enfermedad, por ejemplo, en

    la que n solo se dispondr en valores pequeos. En la figura se ilustra el incremento de

    la potencia de una prueba de dos colas de la media que se produce con muestras de

  • 8

    tamao cada vez mayor, siendo n sucesivamente igual a 4, 10, 20, 50 y 100. Estas

    muestras se tomaron de poblaciones normales con varianza 2 . Es importante tener en cuenta que cuando los supuestos que constituyen el

    modelo estadstico para una prueba no han sido en verdad satisfechos, o cuando la

    medida carece de la fuerza requerida, es difcil, si no imposible, medir la potencia de la

    prueba.

    I.4 ESCALAS DE MEDICIN

    I.4.1 INTRODUCCIN

    Los investigadores principiantes y an los ms experimentados que usan la

    estadstica como herramienta, encuentran dificultades en muchos casos, para decidir

    cual de las pruebas estadsticas es la ms adecuada para analizar un conjunto de datos.

    Las reas en las que se aplica la estadstica para el anlisis de datos son muy amplias y

    diversas, pues abarca desde las ciencias bsicas, pasando por las ciencias mdicas y las

    tecnolgicas, hasta llegar a las ciencias sociales y las que estudian las preferencias del

    consumidor. La seleccin de la prueba estadstica necesaria para el caso, depende de

    varios factores, y uno de ellos es la escala con la que se estn midiendo los datos que se

    analizarn, pues no es igual procesar una variable que identifica el peso de un artculo

    que la profesin del usuario de un producto. La medicin es el proceso de asignar

    nmeros a objetos u observaciones. En seguida describiremos los cuatro mtodos de

    medicin usados comnmente: nominal, ordinal, de intervalo y de proporcin.

    I.4.2 ESCALA NOMINAL O CLASIFICATORIA

    Es aquella escala en donde los nmeros o smbolos se usan con el fin de

    distinguir entre s los grupos a que pertenecen varios objetos, personas o caractersticas

    representando un nivel elemental de medicin pues simplemente los clasifica. Cada uno

    de estos grupos debe ser mutuamente excluyente y la nica relacin implicada es la de

  • 9

    equivalencia ( = ) la cual es reflexiva (x = x x), simtrica (x = y y = x x,y) y transitiva (si x = y e y = z x = z x,y,z) . Ejemplos. Cuando un mdico psiquitrico examina a sus pacientes y los agrupa por

    diagnstico como esquizofrnico, paranoico, manaco-depresivo o psiconeurtico se

    vale de un smbolo para representar la clase de personas a que pertenece ese individuo;

    por tanto se emplea la escala nominal.

    Los nmeros de los uniformes de los futbolistas y de los policas tambin

    ejemplifican el empleo de nmeros en escala nominal.

    Tambin la asignacin de placas automovilsticas conforma otro ejemplo de

    esta escala, pues en algunos pases los nmeros y letras de las placas indican el lugar

    donde reside cada propietario del automvil, y tenemos que cada subclase de la escala

    nominal consta de un grupo de entidades: todos los propietarios que residen en el

    mismo lugar. La asignacin de los nmeros debe ser tal que el mismo nmero (o letra)

    se d a todas las personas que residen en el mismo lugar y que diferentes nmeros (o

    letras) se den a personas que residen en lugares diferentes. Esto es, el nmero o la letra

    de la placa debe indicar claramente a qu conjunto de las subclases que se excluyen

    mutuamente pertenece el propietario. Observe que en ste ejemplo como en los

    anteriores, la diferencia entre dos valores cualesquiera de una escala para una prueba

    estadstica no paramtrica carece de sentido y la frecuencia es un ejemplo de estadstico

    utilizado en este tipo de escala.

    I.4.3 ESCALA ORDINAL O DE RANGO

    Se llama escala ordinal a toda escala nominal en la que se sostenga la

    relacin >, que significa mayor que, entre todos los pares de clases de modo que surja

    un rango ordenado completo. Este orden cumple con las relaciones de equivalencia ( = )

    y la de mayor que ( > ), es irreflexiva ( x, x no es > x), asimtrica ( x,y x > y y no es > x) y transitiva ( x,y,z x > y e y > z x > y).

  • 10

    Ejemplos. En el sistema educativo de un pas podra medirse el nivel de conocimientos,

    o grado de preparacin, alcanzado por los estudiantes en las diferentes materias segn

    las notas por ellos obtenidas. En la escala del 1 al 20 cada una de las notas representa

    una clase. La relacin de equivalencia (=) se mantiene entre los miembros de la misma

    clase y la relacin mayor que (>), entre cualquier pareja de clases.

    El sistema de grados en el ejrcito es tambin un ejemplo de una escala

    ordinal. El sargento > el cabo > el soldado raso cumple con la relacin mayor que, la

    misma es irreflexiva: es decir el cabo no es mayor que el cabo; y es asimtrica: el cabo

    es mayor que el soldado raso entonces el soldado raso no es mayor que el cabo y

    transitiva: como el sargento es mayor que el cabo y ste a su vez mayor que el soldado

    raso entonces el sargento es mayor que el soldado raso. Aqu tambin se mantiene la

    relacin de equivalencia (=) entre elementos de la misma clase, ya que es reflexiva,

    simtrica y transitiva.

    Como puede verse por medio de estos ejemplos la diferencia entre valores

    en esta escala no representa informacin con valor aunque s la posicin que las

    diferentes clases tienen en ella.

    Existen varios estadsticos que usan este tipo de escala para pruebas

    estadsticas no paramtricas, uno de ellos es el coeficiente de correlacin de Spearman

    que ser tratado ms adelante.

    I.4.4 ESCALA DE INTERVALO

    Se define as aquella escala en la que se especifica las relaciones de

    equivalencia y de mayor que, junto con la proporcin de dos intervalos cualesquiera. En

    esta escala el punto cero y la unidad de medida son arbitrarios.

    Ejemplo. Un ejemplo tpico de medicin de una variable en esta escala, es la

    temperatura cuando se mide en grados Fahrenheit o en grados centgrados, pues stas

    como es ya conocido, no son escalas absolutas, sino relativas. Sabemos que la

  • 11

    diferencia entre 30 C y 35 C es la misma que entre 45 C y 50 C y si se dice que un

    lquido se encuentra a 0 C, no significa que no tiene temperatura.

    En la tabla # I.4.4.1 que se muestra seguidamente se tabula la misma

    temperatura en ambas escalas

    Centgrados 0 10 30 100

    Fahrenheit 32 50 86 212

    Tabla # I.4.4.1. Temperatura en centgrados y Fahrenheit.

    Calculamos ahora la proporcin de la diferencia en cada escala: centgrados 2010

    1030 =

    y Fahrenheit 232505086 =

    . Las lecturas comparables en ambas escalas, como se ven

    producto del clculo, dan como resultado la misma proporcin: 2. Esta escala es de tipo

    cuantitativo y resulta apropiada para pruebas estadsticas paramtricas y no

    paramtricas.

    I.4.5 ESCALA DE PROPORCIN

    Se llaman as a las escalas que adems de tener todas las caractersticas de

    una escala de intervalo tienen un punto cero real en su origen. En ella, la proporcin de

    un punto a otro cualquiera de la escala es independiente de la unidad de medida. Los

    nmeros que se asocian con esta escala son nmeros con verdadero cero y cualquier

    prueba estadstica, ya sea paramtrica o no paramtrica, puede usarse.

    Ejemplo. Medimos la masa o el peso en una escala de proporcin. La escala en onzas y

    libras tiene un verdadero punto cero. Lo mismo sucede con las escalas en gramos,

    amperios y voltajes. La proporcin entre dos pesos cualesquiera es independiente de la

    unidad de medida. Por ejemplo, si determinamos los pesos de dos objetos diferentes no

  • 12

    slo en libras sino tambin en gramos, encontramos que la razn de los dos pesos en

    libras es idntica a la razn de los dos pesos en gramos.

    La tabla # I.4.5.1 contiene un resumen sobre los cuatro mtodos de

    medicin comentados anteriormente.

    Tabla # I.4.5.1. Resumen de los cuatro niveles de representacin.

    I.5 TEORIA DE DECISIN

    El razonamiento en que se apoya este proceso de decisin es muy simple. Se

    trata de establecer un criterio para decidir si aceptar o rechazar la hiptesis nula. Si es

    muy pequea la probabilidad asociada con la ocurrencia conforme a la hiptesis nula de

    un valor particular en la distribucin muestral, decimos que dicha hiptesis es falsa.

    Esto es, cuando la probabilidad asociada con un valor observado de una prueba

    estadstica es igual o menor que el valor previamente determinado de , concluimos que H 0 es falsa. El valor observado es llamado significativo. La hiptesis en prueba,

    H 0 , se rechaza siempre que ocurra un resultado significativo. Por tanto, se llama valor

    significativo a aquel cuya probabilidad asociada de ocurrencia de acuerdo con H 0 es

    Escala Relaciones definidas. Pruebas estadsticas apropiadas.

    Nominal 1- Equivalencia( = ) Pruebas estadsticas no paramtricas

    Ordinal o de rango 1- Equivalencia( = ) 2- Mayor que( > )

    Pruebas estadsticas no paramtricas

    Intervalo 1- Equivalencia( = ) 2- Mayor que ( > ) 3- Proporcin conocida de un intervalo a cualquier otro.

    Pruebas estadsticas paramtricas y no paramtricas

    Proporcin 1- Equivalencia( = ) 2- Mayor que( > ) 3- Proporcin conocida de un intervalo a cualquier otro. 4- Proporcin conocida de un valor de la escala a cualquier otro.

    Pruebas estadsticas paramtricas y no paramtricas

  • 13

    igual o menor que . Obsrvese que las figuras # I.5.1, # I.5.2., y # I.5.3 muestran las diferentes regiones de rechazo o aceptacin de la hiptesis nula de una prueba para el

    caso de dos y una cola, siendo esta ltima de cola derecha o de cola izquierda segn

    corresponda.

    Figura # I.5.1. El rea sombreada muestra la regin de rechazo de una prueba de dos colas.

    Figura # I.5.2. El rea sombreada muestra la regin de rechazo de una prueba de cola derecha o superior.

    Figura # I.5.3. El rea sombreada muestra la regin de rechazo de una prueba de cola izquierda o inferior

  • 14

    CAPTULO I LAS PRUEBAS Y SU TEORA

    II.1 PRUEBA DEL SIGNO. BREVE HISTORIA

    Es una de las pruebas no paramtricas ms simples y la ms antigua de

    todas, pues est reportada en la literatura desde 1710 por John Arbuthnott, quien hizo

    uso de este procedimiento, por primera vez, para demostrar que la proporcin de

    varones nacidos en Londres en un determinado perodo de tiempo era

    significativamente mayor que la proporcin de mujeres. Se basa en los signos que

    generan la diferencia de comparar los datos en una poblacin con respecto a su media,

    mediana o con respecto a otros datos tomados de la misma poblacin, presentndose as

    dos casos, el de una muestra sencilla (una sola muestra) y el de una muestra en pares.

    II.1.1 PRUEBA DEL SIGNO DE UNA SOLA MUESTRA

    Si cada vez que se vaya a realizar una experiencia aleatoria, fijamos nuestra

    atencin ante un suceso A, de probabilidad no nula P(A) = p, podemos definir

    trivialmente una variable aleatoria Y , dicotmica, tomando valores en { }1,0 , que recibe el nombre de variable de Bernoulli de parmetro p, B(p):

    Y = 1 si tiene lugar el evento A

    Y = 0 si no tiene lugar el evento A

    cuya funcin de densidad se puede expresar en la forma:

    ,)1()()( 1 yy ppyYPyf === y = 0,1 Si realizamos n ensayos o repeticiones independientes, es decir, en idnticas

    condiciones, y siempre centrados en el suceso A, la variable X que cuenta el nmero de

    veces que ha tenido lugar el suceso A define el modelo binomial B (x,n,p) que tiene por

    funciones de densidad y distribucin la siguiente estructura:

    )(xf = P (X= x ) = xnx ppxn

    )1( ; nx ,....,1,0=

  • 15

    )(tFX = Pknk

    t

    k

    t

    kpp

    kn

    kftX ==

    == )1()()(

    00

    Cuando muestreamos una poblacin simtrica continua en donde se hace

    insostenible la suposicin de que se muestrea una poblacin normal, se puede aplicar la

    prueba del signo de una sola muestra, en donde el suceso A aparece como resultado de

    la diferencia de cada uno de los datos con la media y la probabilidad de obtener un valor

    de la muestra que sea mayor que la media o que sea menor que la media son ambas .

    Y si no se puede suponer que la poblacin es simtrica, se usa la misma tcnica pero

    aplicada a la hiptesis nula 0~~ = , donde~ es la mediana de la poblacin. Para probar la hiptesis nula H 0 : 0 = contra una alternativa apropiada sobre la base de una muestra aleatoria de tamao n, se sustituye cada valor de la muestra

    que exceda a 0 por un signo ms y cada valor de la muestra menor que 0 con un signo menos, y despus se prueba la hiptesis nula de que el nmero de signos ms es el

    valor de una variable aleatoria que tiene una distribucin binomial con los parmetros

    n y p = 1/2. Por lo tanto, la alternativa bilateral H 1 : 0 se transforma en p 21 y las alternativas unilaterales < 0 y > 0 se convierte en p < 1/2 y p > 1/2 respectivamente. Si un valor de la muestra es igual a 0 , simplemente se desecha. Sea ( nXXX ,.....,, 21 ) n variables aleatorias reales contnuas e

    independientes y adems denotamos, para todo i = 1,2,,n; i = ( iX - 0 ) , con 0 conocido, donde ( ix ) = 1 si ix > 0 ( ix ) = 0 si ix < 0 Entonces sea T( 1 ,, n ) un estadstico basado sobre los i . Los estadsticos

    1 ,, n son independientes y siguen una distribucin de Bernoulli. En efecto como los iX son independientes, los i lo son tambin. En particular si

  • 16

    T( nXXX ,.....,, 21 ) = =

    n

    iiX

    1 y 0 es la mediana comn de los iX , se tiene el siguiente

    estadstico, denotado por S.

    S = T( 1 ,, n ) = =

    n

    ii

    1 =

    =

    n

    iiX

    1( - 0 ) = nmero de diferencias iX - 0

    estrictamente positivas

    El estadstico a calcular es:

    S = n de casos en los que iX - 0 > o ni ,.....,2,1= y tiene una distribucin binomial B (s,n,1/2), donde n es el nmero de diferencias

    iX - 0 no nulas ya que el estadstico obliga a la conversin de los valores a signos. Para ejecutar una prueba del signo de una sola muestra cuando la muestra es

    muy pequea, nos referimos directamente a la tabla # 1 de probabilidades binomiales

    del apndice B; cuando la muestra es grande ( 5>np y 5>nq ), podemos utilizar la distribucin normal representada en la tabla # 2 del mismo apndice como

    aproximacin a la distribucin binomial. Una demostracin general de este concepto

    puede verse en el apndice A.

    La prueba del signo de una sola muestra se resume de la siguiente manera:

    Sea p =

    Hiptesis nula -------------------------H 0 : 0 = Hiptesis alternativa----------------- 1H : 0 o ( 0 < o )0 > Estadstico de prueba ----------------S = n de casos en los que iX - 0 > o ni ,.....,1= Regin de rechazo--------------------si H 1 : 0 , se rechaza H 0 para los valores ms grandes y ms pequeos de S; si H1 : < 0 , se rechaza H 0 para los valores ms pequeos de S;

    si H 1 : > 0 , se rechaza H 0 para los valores ms grandes de S.

  • 17

    II.1.2 PRUEBA DEL SIGNO PARA MUESTRAS EN PARES. EXPERIMENTOS

    DE PARES COMPARADOS

    II.1.2.1 CASO DE DOS MUESTRAS

    Las pruebas estadsticas de dos muestras se usan cuando el investigador

    desea establecer la diferencia entre dos tratamientos o si un tratamiento es mejor que

    otro. El tratamiento puede ser cualquiera de una gran variedad de condiciones:

    inyeccin de una droga, adiestramiento, propaganda, separacin de la familia,

    modificacin quirrgica, cambio en las condiciones del alojamiento, integracin

    intergrupal, cambios del clima, introduccin de un nuevo elemento en la economa, etc.

    En cada caso, el grupo que ha sufrido el tratamiento es comparado con el que no lo ha

    experimentado o que ha sufrido un tratamiento diferente.

    En semejante comparaciones de dos grupos, algunas veces se observan

    diferencias significativas que no son resultado del tratamiento. Por ejemplo para

    comparar dos mtodos de enseanza, un investigador hace que un grupo de estudiantes

    aprenda con uno de los mtodos y un grupo diferente aprenda con el otro. Ahora bien, si

    uno de los grupos tiene estudiantes ms capaces o ms motivados, la ejecucin de los

    dos grupos puede no reflejar exactamente la relativa efectividad de los dos mtodos de

    enseanza, porque otras variables estn creando diferencias en la ejecucin.

    Una manera de vencer la dificultad impuesta por diferencias extraas entre

    los grupos es usar dos muestras relacionadas o comparables en la investigacin. Esto es,

    uno puede igualar, relacionar o hacer comparables de otra manera las dos muestras

    estudiadas, cosa que puede lograrse cuando cada sujeto es su propio control o con

    parejas de sujetos en las que se asignan los miembros de cada pareja a las dos

    condiciones. Cuando un sujeto sirve como su propio control est expuesto a ambos

    tratamientos en diferentes ocasiones. Cuando se usa el mtodo de pares, se trata de

    seleccionar, dentro de lo posible, en cada pareja de sujetos, aquellos que sean los ms

  • 18

    semejantes, con respecto a cualquier variable extraa que pudiera influir el resultado de

    la investigacin. En el ejemplo mencionado anteriormente, el mtodo de pares requera

    que fueran seleccionadas numerosas parejas de estudiantes, cada una compuesta por

    dos estudiantes de capacidad y motivacin fundamentalmente iguales. Un miembro de

    cada pareja, escogido al azar, sera asignado a uno de los mtodos de enseanza y su

    compaero al otro.

    II.1.2.2 MODELO GENERAL DE DESPLAZAMIENTO

    Un problema que comnmente se presenta a los experimentadores es el

    de obtener observaciones de dos poblaciones con el fin de probar si estas poseen la

    misma distribucin. Por ejemplo, si se toman muestras aleatorias independientes en

    donde 1

    ,...,, 21 nXXX y 2,...,, 21 nYYY tienen distribuciones F(x) y G(y) respectivamente y

    queremos probar si las dos poblaciones tienen la misma distribucin, es decir,

    H 0 : F(z) = G(z) frente a H 1 : F(z) G(z), para las que las formas de estas distribuciones

    no estn determinadas. Obsrvese que H 1 es una hiptesis muy amplia. Muchas veces el

    experimentador querr analizar la hiptesis alternativa ms especfica que indica que 1Y

    posee la misma distribucin que 1X , desplazada una cantidad indeterminada . As se

    tiene que G(y) = P( 1Y y) = P( 1X y ) = F(y - ) para algn valor desconocido ;

    es decir, las distribuciones tienen diferentes localizaciones.

    II.1.2.3 PRUEBA DE LOS SIGNOS PARA UN EXPERIMENTO DE PARES

    COMPARADOS

    Aqu contamos con una tabla formada de n pares de observaciones de la

    forma ( iX , iY ), y queremos probar la hiptesis que afirma que la distribucin de los

    valores de X es la misma que la distribucin de los valores de Y frente a la hiptesis

    alternativa que sostiene que la distribucin tiene diferente localizacin. Con base en la

  • 19

    hiptesis nula que indica que iX y iY provienen de las mismas distribuciones de

    probabilidad continua, la probabilidad de que iD = iX - iY sea positiva es igual a 1/2 (la

    misma probabilidad de que iD sea negativa). Sea S la cantidad total de diferencias

    positivas. De esta manera, si los valores de las variables iX y iY poseen la misma

    distribucin, S poseer una distribucin binomial con p = 1/2, y la regin de rechazo

    para una prueba basada en S podr obtenerse mediante la distribucin de probabilidad

    binomial. La prueba de los signos en este caso se resume de la siguiente manera.

    Prueba de los signos para un experimento de pares comparados

    Sea p = P(X >Y).

    Hiptesis nula.. H 0 : p =

    Hiptesis alternativa..H 1 : p > o (p < o p )

    Estadstico de prueba........... S = nmero de diferencias positivas, donde iD = iX - iY

    Regin de rechazo............ si H 1 : p > , se rechaza H 0 para los valores ms

    grandes de S; si H 1 : p < , se rechaza H 0 para los

    valores ms pequeos de S; si H 1 : p , se rechaza

    H 0 para valores muy grandes o muy pequeos de S.

    Supuestos los pares ( iX , iY ) se eligen de forma aleatoria e

    independiente.

    Prueba de los signos para experimentos de pares comparados con muestras

    grandes ( 5y 5 >> nqnp ).

    Hiptesis nula: H 0 : p = 0.5 (No hay preferencia por algn tratamiento).

    Hiptesis alternativa: H 1 : p 0.5 para una prueba de dos colas.

    Estadstico de prueba: Z = X =

    nnS)2/1(

    2/

  • 20

    Regin de rechazo: H 0 se rechaza si z z 2/ o si z - z 2/ , donde z 2/ se

    obtiene de la tabla # 2 del apndice B referente a la

    distribucin normal.

    II.2 PRUEBA DE WILCOXON

    II.2.1 PRUEBA DE RANGOS PARA UNA SOLA MUESTRA. INTERVALOS

    CON SIGNOS

    Como se vio en secciones anteriores, la prueba del signo en sus dos versiones

    es muy fcil de realizar, pues sin importar la distribucin que siguen las observaciones,

    slo utilizamos los signos de las diferencias entre stas y 0 o entre las parejas comparadas, siendo los signos + y las direcciones de las diferencias producto de las

    transformaciones realizadas, desperdicindose por tanto, toda la informacin contenida

    en la magnitud de estas diferencias. La prueba de Wilcoxon para intervalos con signo,

    hace un mejor aprovechamiento de la informacin contenida en las observaciones, ya

    que toma en cuenta, adems de los signos, las magnitudes de las diferencias por medio

    de los rangos a que son asignados.

    Sean ( 1Z ,, nZ ) una muestra aleatoria de la variable aleatoria continua Z y

    ( )1(Z ,, )(nZ ) la muestra ordenada asociada. Se llama rango iR de la variable aleatoria

    iZ al nmero de variables aleatorias iZ menores o iguales a iZ , 1 ni . Luego el

    rango se determinar mediante la frmula iR ))(1(1

    i

    n

    jj XX =

    = , donde es como

    se defini en la seccin II.1.1, tenindose en particular que )1(Z )()3()2( .... nZZZ

  • 21

    absoluto, el rango 2 a la segunda diferencia ms pequea en valor absoluto, y as

    sucesivamente. Cuando varias de las diferencias sean las mismas, si fuera el caso de las

    que corresponderan a 3, 4 y 5, cada una tomara como rango el valor promedio de las

    tres, en este caso, 4, seria el rango asignado a cada una de las diferencias iguales, y a la

    siguiente diferencia en valor absoluto ms grande se le asignara el rango 5.

    Calcularamos ahora la suma de los rangos para las diferencias negativas T y las

    sumas de los rangos para las diferencias positivas T + .En el caso de una prueba de dos

    colas utilizamos T, la ms pequea de estas dos cantidades, como estadstico de prueba

    para probar la hiptesis nula que afirma que las dos poblaciones son idnticas. Cuanto

    ms pequeo sea el valor de T, mayor el peso de la evidencia que favorece el rechazo de

    la hiptesis nula. Por consiguiente, rechazaremos la hiptesis nula si T es menor o igual

    a algn valor T .

    La hiptesis nula permite que para cada rango, las probabilidades de que se

    le asigne una diferencia positiva o una negativa son ambas . Podemos escribir el

    estadstico como

    T + = 1. 1X + 2. 2X + . . . . . . + nnX , donde 1X , 2X ,. . . .y nX son variables

    aleatorias independientes que tienen la distribucin de Bernoulli con p = . Como el

    valor esperado y varianza de las iX son E( iX ) = 0.1/2 +1.1/2 = 1/2 y

    Var( iX ) = 1/2 .(1 1/2 ) = 1/4 para i = 1, 2, 3, ,n , y tomando en cuenta las

    siguientes propiedades

    E ( nn XaXaXa +++ .......2211 ) = )( 11 XEa + . . . + )( nn XEa y

    Var( nn XaXaXa +++ .......2211 ) = +)( 121 XVara . . . + 2na Var )( nX ,

    se deduce que

    E (T + ) = 1.1/2 + 2.1/2 + . . . + n.1/2 = 2...21 n+++

    y aplicando el mtodo de induccin completa, se tiene que (E T + ) = 4

    )1( +nn ,

  • 22

    y que

    Var(T + ) = 1 2 .1/4 + 2 2 .1/4 +. . .+n 2 .1/4 = 4...21 n+++

    y aplicando de nuevo el mtodo anterior, se llega a que

    Var(T + ) = 24

    )12)(1( ++ nnn

    La probabilidad de que T sea menor o igual a algn valor T est calculado

    para una combinacin de tamaos muestrales y valores de T . Estas probabilidades, se

    pueden utilizar para determinar la regin de rechazo de la prueba que se basa en T.

    Cualquiera sea la hiptesis alternativa, podemos basar todas las pruebas de

    la hiptesis nula 0 = en la distribucin de T, debiendo slo tener cuidado de utilizar la estadstica correcta y el valor crtico correcto de T, como se muestra en la tabla II.2.1

    Hiptesis alternativa

    Rechace la hiptesisnula si:

    0 T T

    > 0 T T 2

    0 < T + T 2

    Tabla II.2.1. Hiptesis alternativa y regin de rechazo para la hiptesis nula 0 = .

    donde, como se indica, el nivel de significancia es en cada prueba. Los valores crticos de T, que son tales que T es el valor ms grande para el cual P(T T ) no es

    mayor que , se dan en la tabla 3 del apndice B. Obsrvese que los mismos valores crticos sirven para pruebas en diferentes niveles de significancia, dependiendo de que

    la hiptesis alternativa sea unilateral o bilateral.

  • 23

    II.2.2 PRUEBA DE RANGOS CON SIGNOS DE WILCOXON PARA UN

    EXPERIMENTO DE PARES COMPARADOS

    En este caso, al igual que la prueba del signo de pares comparados,

    contamos tambin con n observaciones pareadas ( iX , iY ) y iD = iX - iY . Nos interesa

    probar la hiptesis de que los valores de X e Y tienen la misma distribucin frente a la

    hiptesis alternativa que sostiene que la localizacin de las distribuciones es diferente.

    En la hiptesis nula no hay diferencia en las distribuciones de los valores de X eY ,

    esperaramos que la mitad de las diferencias de los pares fuera negativa y la otra mitad

    positiva, o sea, que el nmero esperado de las diferencias negativas fuera de valor n/2.

    Para realizar la prueba de Wilconxon calculamos las diferencias ( iD ) de

    cada uno de los n pares eliminando las diferencias nulas y se asignan los rangos como

    en la seccin anterior.

    Para detectar la hiptesis alternativa unilateral que afirma que la

    distribucin de los valores de X estn desplazados a la derecha de los valores de Y

    empleamos la suma de rangos T de las diferencias negativas, y rechazamos la hiptesis

    nula para los valores T T 2 . Si queremos detectar un desplazamiento de la

    distribucin de los valores de Y a la derecha de los valores de X , empleamos la suma

    de rangos T + de las diferencias positivas como estadstico de la prueba, y rechazamos

    los valores T + T 2 .

    El resumen de las hiptesis alternativas, para el caso de dos muestras,

    basada en la prueba de la hiptesis nula X = Y , es como se muestra en la tabla II 2.2.1 donde hay que tener presente los mismos detalles de la seccin anterior y manejar

    la tabla con los mismos criterios indicados all. A continuacin se resume la prueba que

    se basa en T, la cual se conoce como prueba de rangos con signo de Wilconxon.

  • 24

    Hiptesis alternativa

    Rechace la hiptesisnula si:

    YX T T

    X > Y T T 2

    YX < T + T 2

    Tabla II.2.2.1.Hiptesis alternativa y regin de rechazo para la hiptesis nula X = Y

    Prueba de rangos con signo de Wilcoxon para un experimento de pares

    comparados.

    Hiptesis nula H 0 : las distribuciones de poblacin para los valores de X e Y

    son idnticas.

    Hiptesis alternativa H 1 : las dos distribuciones de poblacin tienen diferentes

    localizaciones (dos colas); o la distribucin de poblacin

    para los valores de X (Y ) est desplazada a la derecha de

    la distribucin para los valores de Y ( X ) (una cola).

    Estadstico de la prueba:

    1. Para una prueba de dos colas utilice T = mn(T + , T ), donde T + es la suma de

    los rangos de las diferencias positivas y T es igual a la suma de los rangos de las

    diferencias negativas.

    2. En una prueba de una cola utilice la suma T (T + ) de los rangos de las

    diferencias negativas (positivas) cuando la distribucin de los valores de X (Y ) estn

    desplazados a la derecha de los valores de Y ( X ).

    Regin de rechazo:

    1. Para una prueba de dos colas rechace H 0 si T T donde T es el valor crtico

    para la prueba bilateral que se proporciona en la tabla 3 del apndice B.

    2. En una prueba de una cola rechace H 0 si T (T + ) T 2 donde T 2 es el valor

    crtico para la prueba unilateral.

  • 25

    Prueba de rangos con signos de Wilcoxon con muestra grandes para un

    experimento de pares comparados.

    Hiptesis nula H 0 : las distribuciones de poblacin para los valores de X e Y

    son idnticas.

    Hiptesis alternativa H 1 : las dos distribuciones de poblacin tienen diferente

    localizacin (prueba de dos colas); o la distribucin de

    poblacin para los valores de X est desplazada a la

    derecha (o izquierda) de la distribucin de los valores de

    Y (pruebas de una cola).

    Estadstico de prueba: Z = X = [ ]

    24/)12)(1(4/)1(

    ++++nnn

    nnT , T = T + ya que T +

    o T tendr aproximadamente una distribucin normal

    cuando la hiptesis nula sea verdadera y n sea grande.

    Regin de rechazo: rechace H 0 si z z 2/ o z - z 2/ , en una prueba de dos

    colas.

    Para detectar un desplazamiento en las distribuciones de

    valores de X a la derecha de los valores de Y, rechace H 0

    cuando z z . Y para detectar un desplazamiento en la

    direccin opuesta rechace H 0 si z - z .

  • 26

    II.3 PRUEBA DE SUMA DE RANGOS DE WILCOXON. MUESTRAS

    ALEATORIAS INDEPENDIENTES

    En el ao de 1945 Wilcoxon propuso una prueba estadstica para comparar

    dos poblaciones basadas en muestras aleatorias independientes. Suponga que elegimos

    muestras aleatorias independientes de n 1 y n 2 observaciones, cada una de ellas tomadas

    de dos poblaciones; representemos a las muestras con A y B. La idea de Wilcoxon fue

    combinar las n 1 + n 2 = n observaciones y ordenarlas por orden de magnitud, de la uno

    (la ms pequea) a la n (la ms grande). Los empates se manejan igual que como se

    indic antes. Si las observaciones se obtienen de poblaciones idnticas, las sumas de

    rangos para las muestra deberan ser ms o menos proporcionales a los tamaos de las

    muestras n 1 y n 2 . Por ejemplo, si n 1 y n 2 son iguales, esperamos que las sumas de los

    rangos sean aproximadamente iguales. Pero si las observaciones de la muestra A, por

    ejemplo, tienden a ser mayores que las observaciones de la muestra B, las observaciones

    de la muestra A tendern a recibir los rangos ms altos, y la suma de rangos que le

    pertenece ser mayor que la suma de rangos esperada. Por consiguiente, teniendo

    muestras de igual tamao, si una prueba de rangos es muy grande y, en consecuencia, la

    otra es muy pequea, esta podra indicar una diferencia importante entre las dos

    poblaciones desde el punto de vista estadstico.

    II.4 PRUEBA U DE MANN-WHITNEY. MUESTRAS ALEATORIAS

    INDEPENDIENTES

    Mann y Whitney propusieron en 1947 una prueba estadstica equivalente a

    la de Wilcoxon que tambin incluye las sumas de los rangos de dos muestras, la cual

    consiste en ordenar las (n 1 + n 2 ) observaciones de acuerdo con su magnitud y contar el

    nmero de observaciones de la muestra A, por ejemplo, que preceden a cada

    observacin de la B, as resulta el estadstico U que es la suma de estas enumeraciones.

  • 27

    Sean ( 1X ,,X m ) y (Y 1 ,,Y n ) dos muestras aleatorias A y B de las

    variables continuas X e Y. Se llama muestra combinada a la muestra de tamao

    N = n + m igual a (X 1 ,,X m , Y 1 ,,Y n ) = (Z 1 ,,Z m ,Z 1+m ,,Z N ). Entonces sea

    R = (R 1 ,,R m ,R 1+m ,,R N ) el vector de los rangos asociados a la muestra combinada,

    aqu Q = (R 1 ,,R m ) y S = (R 1+m ,,R N ) son los vectores de los rangos de los X y los Y

    en la muestra combinada y se tiene =

    m

    iiR

    1+

    +=

    N

    mjjR

    1 =

    =

    N

    kk

    1 =

    2)1( +NN .

    Consideremos los estadsticos T 1 , T 2 , T 3 y T 4 tales que T 1 (Z 1 ,,Z N ) = =

    m

    iiZ

    1

    T 2 ( Z 1 ,,Z N ) = +=

    N

    mjjZ

    1, T 3 ( Z 1 ,,Z N ) = )(

    1 1j

    m

    i

    n

    ji YX

    = =

    T 4 ( Z 1 ,,Z N ) = )(1 1

    i

    m

    i

    n

    jj XY

    = =

    Entonces los estadsticos W y W tales que W = T 1 (R 1 ,,R N ) = =

    m

    iiR

    1= suma de los

    rangos de las X i en la muestra combinada y W = T 2 (R 1 ,,R N ) = +=

    N

    mjjR

    1= suma de los

    rangos de las Y i en la muestra combinada, son no paramtricos llamados de Wilcoxon

    para dos muestra.

    Luego los estadsticos T 3 y T 4 son los de Mann-Whitney

    U = MW = T 3 (Z 1 ,,Z N ) = )(1 1

    j

    m

    i

    n

    ji YX

    = =

    U = MW = T 4 (Z 1 ,,Z N ) = )(1 1

    i

    m

    i

    n

    jj XY

    = = ,

    entonces

    =

    n

    jiX

    1( - jY ) = nmero de valores de j tal que jY < iX para un i, i = 1,,m, fijado

    Luego si m i = nmero de X menor o igual a iX se tiene:=

    n

    jiX

    1( - jX ) = R i - m i

  • 28

    Entonces U A = MW = =

    m

    iiR

    1

    ( - m i ) ==

    m

    iiR

    1 -

    =

    m

    iim

    1=

    =

    m

    iiR

    1-

    =

    m

    ii

    1 =

    =

    m

    iiR

    1-

    2)1( +mm

    Cambiando m por n se obtiene inmediatamente U B = MW = +=

    N

    mjjR

    1-

    2)1( +nn

    Haciendo n 1 = m y n 2 = n, las frmulas para el estadstico U quedaran as:

    MW = U A = R 1 - n 1 (n 1 +1)/2

    MW= U B = R 2 - n 2 (n 2 +1)/2

    donde

    n 1 = nmero de observaciones de la muestra A

    n 2 = nmero de observaciones de la muestra B

    U A + U B = n 1 n 2

    R 1 = suma de rangos para la muestra A

    R 2 = suma de rangos para la muestra B

    Como se puede ver en las frmulas de U A y U B , U A es pequeo cuando

    R 1 es grande, un caso que puede presentarse cuando la distribucin de poblacin de las

    mediciones de A se encuentra desplazada a la derecha de las mediciones de B. Por

    consiguiente, para efectuar una prueba de dos colas con el fin de detectar un

    desplazamiento en la distribucin de A a la derecha de la distribucin de B, es necesario

    rechazar la hiptesis nula que afirma que no hay diferencia en las distribuciones de

    poblacin si U A es menor que algn valor especfico U . Es decir, rechazamos H 0

    para valores pequeos de U A . De manera similar, para llevar a cabo una prueba de una

    cola con el fin de detectar un desplazamiento de la distribucin B a la derecha de la

    distribucin A, se rechazara H 0 si U B es menor que algn valor especfico U 2 .

    La tabla 4 del apndice B proporciona la probabilidad de que un valor

    observado de U sea menor que un valor especfico U . Para llevar a cabo una prueba

    de dos colas, es decir, para detectar un desplazamiento en las distribuciones

  • 29

    poblacionales para las mediciones A y B en cualquier direccin, convenimos en utilizar

    siempre U, el menor de U A o U B o sea U = mn(U A , U B ) como estadstico de prueba y

    rechazar H 0 para U < U . El valor de para la prueba de una cola es el doble del de una prueba de dos colas tal como se muestra en la siguiente tabla # II.4.1.

    Hiptesis alternativa

    Rechace la hiptesis nula si:

    BA UU

    A > B U B U 2

    BA < U A U 2

    Tabla # II.4.1.Hiptesis alternativa y regin de rechazo para la hiptesis nula BA =

    Una prueba para muestras grandes simplificada (n 1 > 8 y n 2 > 8) se puede

    obtener utilizando el estadstico Z de la distribucin normal. Si las distribuciones de

    poblacin son idnticas, el estadstico U posee los siguientes valores esperados y de

    varianza cuando U = U A (o U = U B ):

    E(U A ) = 221nn y Var(U A ) = 12

    )1( 2121 ++ nnnn

    La prueba U de Mann Whitney se resume de la siguiente forma

    Hiptesis nula: H 0 : Las distribuciones de frecuencias relativas de

    poblacin para A y B son idnticas.

    Hiptesis alternativa: H 1 : Las dos distribuciones de frecuencias relativas de

    poblacin estn desplazadas respecto a sus

    localizaciones relativas (prueba de dos colas); o

    H 1 : La distribucin de frecuencias relativas de

    poblacin para A est desplazada a la derecha de

  • 30

    la distribucin de frecuencias relativa para la

    poblacin B (prueba de una cola).

    Estadstico de prueba: Para una prueba de dos colas, utilice U, el ms

    pequeo de

    U A = R 1 - n 1 (n 1 +1)/2 y U B = R 2 - n 2 (n 2 +1)/2

    donde R 1 y R 2 constituyen las sumas de rangos

    para las muestras A y B, respectivamente. Para

    una prueba de una cola utilice U A o U B segn

    sea el caso. Tabla II.4.1.

    Regin de rechazo: 1. Para una prueba de dos colas y un valor dado de

    rechace H 0 si U U , donde

    P(U U ) = (Nota: observe que U es el

    valor por el que P(U U ) = ) 2. Para una prueba de una cola y un valor dado de

    , rechace H 0 si U A ( U B ) U 2 , donde

    P(U A ( U B ) U 2 ) = 2 .

    Supuestos: Las muestras se han seleccionado aleatoria e

    independientemente de sus respectivas

    poblaciones. Los empates en las observaciones

    se pueden manejar promediando los rangos que

    se hubieran asignado a las observaciones

    empatadas y asignando este promedio a cada

    observacin. Por consiguiente, si hay tres

    observaciones empatadas, debido a que se

    les asignaron los rangos 3, 4 y 5, les asignaremos

    el rango 4 a las tres.

  • 31

    En el caso de muestras grandes la prueba U se resume como sigue:

    Hiptesis nula: H0 : Las distribuciones de frecuencias relativas de

    poblacin para A y B son idnticas.

    Hiptesis alternativa H 1 : Las dos distribuciones de frecuencias relativas

    de poblacin no son idnticas (prueba de dos

    colas); o

    H 1 : La distribucin de frecuencias relativas de

    poblacin para A est desplazada a la derecha (o

    izquierda) de la distribucin de frecuencias

    relativa para la poblacin B

    U = U A (U B ) (prueba de una cola).

    Estadstico de prueba: Z =12/)1)((

    )2/(

    2121

    21

    ++

    nnnnnnU

    Regin de rechazo: Rechace H0 si z > z2

    o z < -z2

    en el caso de una

    prueba de dos colas. En una prueba de una cola

    coloque todos los valores de en una de las colas

    de la distribucin z. Para detectar un desplazamiento

    de la distribucin de las observaciones A a la

    derecha de distribucin de las observaciones B

    rechace H0 cuando z < - z . Para detectar un

    desplazamiento en la direccin contraria rechace H0

    cuando z > z . Los valores tabulados de z se

    encuentran en la tabla 2 del apndice B que es la

    distribucin normal.

  • 32

    II.5 PRUEBA H DE KRUSKAL-WALLIS

    La prueba de Kruskal-Wallis o prueba H es una generalizacin para k

    muestras de la prueba U. El procedimiento de Kruskal-Wallis no requiere supuestos

    respecto a la forma real de las distribuciones de probabilidad. Supondremos que las

    muestras aleatorias independientes se tomaron de k poblaciones que difieren slo en

    cuanto a su localizacin y no necesitamos suponer que estas poblaciones poseen

    distribuciones normales. Generalizamos, utilizando tamaos de muestras diferentes y

    representaremos con n i en el caso de i = 1,2,,k el tamao de la muestra tomada de la

    i-sima poblacin. Aqu tambin se combinan las n 1 + n 2 + + n k = n observaciones

    y se ordena de 1, la ms pequea, a n , la ms grande. Los empates se manejan igual que

    antes. Sea R i la suma de los rangos de las observaciones obtenidas de la poblacin i, y

    sea iR = R i /n i el promedio correspondiente de los rangos. Si R es igual al promedio

    total de los rangos, consideramos el equivalente para los rangos de la suma de los

    cuadrados para los tratamientos, que se calcula utilizando los rangos, en lugar de los

    valores reales de las mediciones: V = =

    k

    iin

    1( iR - R )

    2 .

    Si la hiptesis es verdadera y las poblaciones no difieren en cuanto a su localizacin,

    esperaramos que los valores de iR fueran aproximadamente iguales y que el valor que

    se obtiene de V fuera relativamente pequeo. Si la hiptesis alternativa es verdadera,

    espiraramos que este hecho se reflejara en las diferencias entre los valores de las iR , lo

    cual dara como resultado un valor grande para V. Como R = (suma de los primeros n

    enteros) / n = [ ] nnn /2/)1( + = 2

    1+n ; de esta manera, V = =

    k

    iin

    1( iR - 2

    1+n ) 2 .

    En lugar de concentrarse en V, Kruskal y Wallis consideraron el estadstico

    H = )1(

    12+nnV , que puede escribirse como H =

    )1(12+nn =

    k

    i i

    i

    nR

    1

    2

    -3(n+1).

  • 33

    La hiptesis nula afirma que la igualdad de las poblaciones se rechaza a favor de la

    hiptesis alternativa que plantea que las poblaciones difieren en cuanto a su localizacin

    si el valor de H es grande. En consecuencia, la prueba de nivel correspondiente exige el rechazo de la hiptesis nula en favor de la hiptesis alternativa si H > h( ), donde h( ) satisface la relacin. La prueba, adems de suponer que la variable en estudio tiene como base

    una distribucin continua, requiere, por lo menos, una medida ordinal de la variable.

    La distribucin de H para cualesquiera valores de k y n 1 , n 2 , , n k se

    puede determinar calculando el valor de H para cada una de las n! permutaciones, con la

    misma probabilidad, de los rangos de las n observaciones.

    Kruskal y Wallis demostraron que, si los n i valores son grandes, la

    distribucin nula de H se puede aproximar mediante una distribucin ji-cuadrada con

    k-1 grados de libertad. Esta aproximacin, por lo general, se considera adecuada si cada

    uno de los n i es mayor o igual a 5.

    Resumen de la prueba de Kruskal-Wallis basada en H para comparar k

    distribuciones de poblacin.

    Hiptesis nula H0: Las k distribuciones de poblacin son idnticas.

    Hiptesis alternativa..H 1 : Por lo menos dos de las distribuciones de poblacin

    difieren en cuanto a posicin.

    Estadstico de la prueba H = )1(

    12+nn =

    k

    i i

    i

    nR

    1

    2

    -3(n+1), donde

    n i = nmero de mediciones en la muestra tomada

    de la poblacin i

    R i = suma de los rangos para la muestra i, en la que

    el rango de cada medicin se calcula de acuerdo

    con su tamao relativo en el conjunto total de

  • 34

    n = n 1 + n 2 + + n k observaciones formadas

    combinando los datos de las k muestras.

    Regin de rechazo. Rechace H0 si H > 2 con k-1 grados de libertad.

    Supuestos Las k muestras se extraen de forma aleatoria e

    independiente.

    Hay cinco o ms mediciones en cada muestra.

    II.6 PRUEBA DE CORRIDAS ( RACHAS) DE UNA SOLA MUESTRA

    Esta prueba se aplica en el estudio de una serie de eventos en la que cada

    elemento de la serie puede dar origen a dos resultados, xito (S) o fracaso (F). Si

    consideramos un proceso de fabricacin en el que al hacer el control de calidad a cada

    artculo, se produce una serie, como por ejemplo, S S S S S F F S S S F F F S S S S S S

    S, en la que se ha hecho la observacin de 20 artculos consecutivos, donde (S) denota

    cuando el articulo es no defectuoso y (F) a los defectuoso y deseamos saber si este

    agrupamiento que se muestra en la serie implica que no hay aleatoriedad en el proceso,

    y por consiguiente, hay falta de control.

    Una cantidad muy pequea o muy grande de corridas (subsucesin mxima

    de elementos iguales) en una serie constituye una seal de no aleatoriedad. Llamamos R

    el nmero de corridas en una serie y es el estadstico de la prueba, y sea R k 1 y

    R k 2 la regin de rechazo.

    |------|------|------//-----|--------------------------------------------|------//------|------|------|-----|

    2 3 4 1k Nmero de rachas 2k m

    Regin de rechazo Regin de rechazo

    Fig.II.6.1.Regin de rechazo para la prueba de corridas (rachas).

  • 35

    Para determinar la distribucin de probabilidad de R, supongamos que la

    serie completa contiene n 1 elementos S y n 2 elementos F, lo cual da como resultado Y 1

    corridas de elementos S y Y 2 corridas de elementos F, donde Y 1 + Y 2 = R. Por

    consiguiente dado Y 1 , Y 2 es necesariamente igual a Y 1 , (Y 1 -1) o (Y 1 +1). Sea m el

    nmero mximo de posibles corridas. Observe que m = 2n 1 si n 1 = n 2 y que m = 2n 1 + 1

    si n 1 < n 2 . Supondremos que todo ordenamiento distinguible de los n 1 + n 2 elementos

    de la serie constituye un evento simple del experimento y que los puntos muestrales son

    equiprobables. As nos queda como siguiente paso, contar el nmero de puntos

    muestrales que implica R corridas.

    En la serie estn dados 1n elementos indistinguibles S y 2n elementos

    indistinguibles F, stos generan el nmero total de ordenamientos distinguibles dado

    por

    +

    1

    21

    nnn

    y, por consiguiente, la probabilidad por punto muestral es de

    +

    1

    21

    1

    nnn

    .

    |S|SSSS|SS|SS|SSS|S|

    Fig.II.6.2. Distribucin de n 1 elementos S en y 1 celdas.

    El nmero de formas para obtener y 1 corridas de elementos S es igual al nmero de

    ordenamientos distinguibles de n 1 elementos indistinguibles en y 1 celdas, ninguna de

    las cuales esta vaca, como se indica en la figura # II.6.2. Esta cantidad es igual al

    nmero de formas para distribuir las (y 1 -1) barras internas idnticas en los (n 1 -1)

    espacios entre los elementos S. En consecuencia, es igual al nmero de formas para

    seleccionar (y 1 -1) espacios para las barras afuera de los (n 1 -1) espacios disponibles; es

    decir

    11

    1

    1

    yn

  • 36

    El nmero de formas para observar y 1 corridas de elementos S y y 2 corridas

    de elementos F, se obtiene con el producto

    11

    1

    1

    yn

    11

    2

    2

    yn

    Esta expresin proporciona el nmero de puntos muestrales en el evento y 1 corridas de

    elementos S y y 2 corridas de elementos F. Si multiplicamos este nmero por la

    probabilidad de cada punto muestral, obtenemos la probabilidad de y 1 corridas de

    elementos S y y 2 corridas de elementos F, exactamente:

    p(y 1 , y 2 ) =

    +

    1

    21

    2

    2

    1

    1

    11

    11

    nnnyn

    yn

    Entonces, P(R = r) es igual a la suma de p(y 1 ,y 2 ) que recorre todos los

    valores de y 1 y y 2 , los cuales satisfacen la relacin (y 1 + y 2 ) = r.

    Para ilustrar la aplicacin de esta frmula, el evento R = 4 podra ocurrir

    cuando y 1 = 2 y y 2 = 2, ya sea que el elemento S o F inicie las sucesiones. Por lo tanto,

    P(R = 4) = 2P(Y 1 = 2, Y 2 = 2). Por otra parte, R = 5 podra ocurrir cuando y 1 = 2 y y 2 = 3,

    o cuando y 1 = 3 y y 2 = 2, y estas ocurrencias son mutuamente excluyentes. De manera

    que P(R = 5) = P(Y 1 = 3, Y 2 = 2) + P(Y 1 = 2, Y 2 = 3).

    EJEMPLO # II.6.1

    Suponga que una sucesin consta de n 1 = 5 elementos S y n 2 = 3

    elementos F. Calcule P(R 3).

    SOLUCIN

    Podran ocurrir tres corridas cuando y 1 = 2 y y 2 = 1, o cuando y 1 = 1 y

    y 2 = 2. Por consiguiente,

  • 37

    P(R = 3) = P(Y 1 = 2, Y 2 = 1) + P(Y 1 = 1, Y 2 = 2)

    = 107.0562

    564

    58

    12

    04

    58

    02

    14

    =+=

    +

    .

    En seguida, requerimos que P(R 3) = P(R = 2) + P(R = 3). En consecuencia,

    P(R = 2) = 2P(Y 1 = 1, Y 2 = 1) = 2

    58

    02

    04

    = 843 = 0.036.

    Por lo tanto, la probabilidad de tres o menos corridas es de 0.107 + 0.036 = 0.143

    Cuando n 1 y n 2 son pequeos, suelen realizarse pruebas de aleatoriedad con respecto a R

    mediante el uso de tablas especiales, como la tabla # 6 del apndice B. Rechazamos la

    hiptesis nula de aleatoriedad en el nivel de significancia si R r2 o bien

    R r2 donde r

    2 es el valor ms grande para el cual P( R r

    2 ) no es mayor que 2

    y r2 es el valor ms pequeo para el cual P( R r

    2 ) no es mayor que 2

    .

    El resumen de esta prueba es como se muestra:

    Hiptesis nula H0: Hay aleatoriedad en el proceso

    Hiptesis alternativa. H 1 : No hay aleatoriedad en el proceso

    Estadstico de la prueba.. R = nmero de corridas en una prueba

    Regin de rechazo... Se rechaza la hiptesis nula si R k 1 = r2 y

    R k 2 = r2

  • 38

    Como en el caso de otros estadsticos de prueba no paramtricos analizados

    anteriormente, la distribucin de probabilidad para R tiende a la normalidad conforme

    n 1 y n 2 crecen. La aproximacin es buena cuando n 1 y n 2 son mayores que 10. As que

    podemos utilizar el estadstico Z como estadstico de prueba para una muestra grande.

    En consecuencia,

    Z = R

    RR y 12

    21

    21 ++= nnnn

    R con )1()()2(2

    212

    21

    2121212

    ++=

    nnnnnnnnnn

    R

    representan el valor esperado y la varianza de R, respectivamente. La regin de rechazo

    para una prueba de dos colas con = 0.05 es 96.1z . Si es la probabilidad que se

    busca de cometer un error tipo I, en el caso de una prueba de cola superior, rechazamos

    la hiptesis nula si z > z (en el caso de una prueba de cola inferior rechazamos H 0

    si z < - z ).

    II.7 COEFICIENTE DE CORRELACIN DE RANGOS DE SPEARMAN

    Con frecuencia, en el anlisis de correlacin, la informacin no esta

    disponible en forma de valores numricos, pero si podemos asignar clasificaciones a los

    elementos de cada una de dos variables que estamos estudiando, entonces puede

    calcularse un coeficiente de correlacin de rango. Esta es una medida de la correlacin

    que existe entre los dos conjuntos de rangos, una medida del grado de asociacin entre

    las variables que no podramos calcular de otra manera. Tambin este mtodo simplifica

    el proceso de clculo a partir de un conjunto de datos muy grande para cada una de las

    dos variables, ya que calcula una medida de asociacin basada en los rangos de las

    observaciones y no en los valores numricos de los datos. Esta medicin se le conoce

    como el coeficiente de correlacin de rango de Spearman, en honor al estadstico que lo

    desarroll a principios del siglo pasado y fue la primera de todas las estadsticas basadas

    en rangos.

  • 39

    Para un conjunto dado de datos ordenados en parejas { }niyx ii ,...,2,1);,( = , este se obtiene ordenando por rango las x entre si mismas y tambin las y; cuando hay

    coincidencias de rango, se procede como se hizo en caso del estadstico de Mann-

    Whitney.

    Se parte de la frmula de Pearson

    r =

    = =

    =

    n

    i

    n

    iii

    n

    iii

    yyxx

    yyxx

    1 1

    22

    1

    )()(

    ))((=

    yyxx

    xy

    SSS

    ,

    y como las x y las y son rangos, entonces r = r s ; la suma de los n enteros 1, 2, . . ., n, es

    =

    n

    iix

    1=

    2)1( +nn , y la suma de sus cuadrados, 1 2 , 2 2 , . . . , n 2 es

    =

    n

    iix

    1

    2 = 6

    )12)(1( ++ nnn . Por consiguiente,

    S xx =2

    1)( xx

    n

    ii

    ==

    =

    n

    iix

    1

    2

    n

    xn

    ii

    = 12)(

    =6

    )12)(1( ++ nnn4

    )1( 2+ nn =12

    3 nn ,

    y similarmente

    S yy = 12

    3 nn .

    Ahora

    d = x y

    d 2 = ( x y) 2 = x 2 2 xy + y 2

    ====

    +=n

    iii

    n

    ii

    n

    ii

    n

    ii yxyxd

    11

    2

    1

    2

    1

    2 2

    ==

    n

    iid

    1

    2 S xx + S yy xyS2

    Pero la frmula establece que

    r = yyxx

    xy

    SS

    S= r s

  • 40

    cuando las observaciones estn en forma de rango. Por consiguiente,

    ==

    n

    iid

    1

    2 S xx + S yy -2 r s yyxx SS , y r s =yyxx

    n

    iiyyxx

    SS

    dSS

    21

    2=

    +,

    sustituyendo se tiene

    r s = )

    12)(

    12(2

    121233

    1

    233

    nnnn

    dnnnnn

    ii

    +

    = =

    12)(2

    12)(2

    31

    23

    nn

    dnnn

    ii

    = = 1

    6

    3

    2

    1

    2

    nn

    di

    i

    = = 1

    nn

    dn

    ii

    =3

    1

    26

    que se podr usar cuando no hay empates en x o y, o si el nmero de empates es

    pequeo en comparacin con el nmero de pares de datos. As el error cometido al

    emplear esta frmula ser pequeo.

    Cuando es el caso en que el nmero de empates es grande hay que usar el

    factor T = 12

    3 tt para ajustar la frmula. En este caso se tendr

    r s = yyxx

    n

    iiyyxx

    SS

    dSS

    21

    2=

    +, donde S xx = xTnn 12

    3

    y S yy = 12

    3 nn yT

    Resumen de la prueba de correlacin de rangos de Spearman

    Hiptesis nula: H 0 : No hay relacin entre los pares de rangos.

    Hiptesis alternativa: H 1 : Hay relacin entre los pares de rangos (prueba de dos

    colas) o,

    H 1 : La correlacin entre los pares de rangos es positiva

    (o negativa) (prueba de una cola).

    Estadstico de la prueba:

    r s =

    = ===

    = ==n

    i

    n

    iii

    n

    ii

    n

    ii

    n

    i

    n

    ii

    n

    iiii

    yynxxn

    yxyxn

    1

    2

    1

    22

    11

    2

    1 11 = 1nn

    dn

    ii

    =3

    1

    26

  • 41

    donde x i y y i representan los rangos del i-simo par de

    observaciones.

    Regin de rechazo: En una prueba de dos colas, rechace H 0 si r s 0r o

    r s 0r , donde 0r figura en la tabla # 7 del apndice B.

    Duplique la probabilidad tabulada para obtener el valor de para la prueba de dos colas. En una prueba de una cola,

    rechace H 0 si r s 0r (para una prueba de cola superior) o

    r s 0r (para una prueba de cola inferior). El valor de