29
STATGRAPHICS – Rev. 4/d/yyyy © 2006 por StatPoint, Inc. Comparación de Varias Muestras - 1 Comparación de Varias Muestras Resumen El procedimiento de Comparación de Varias Muestras está diseñado para comparar dos o más muestras independientes de datos variables. Se hacen pruebas para determinar si hay o no diferencias significativas entre las medias, varianzas y/o medianas de las poblaciones de las que se tomaron las muestras. Además, se pueden desplegar los datos gráficamente de varias maneras, incluyendo una gráfica de dispersión múltiple, una gráfica ANOM y una gráfica de medias. Los resultados de este procedimiento son idénticos al los del procedimiento ANOVA de una vía. StatFolio Muestra: multiple samples.sgp Datos de Muestra: El archivo pulse rates.sf6 contiene los resultados de un experimento reportado por Milliken y Johnson (1992) en el que 78 trabajadores fueron asignados en seis grupos al azar. A cada grupo se le dio una tarea a realizar y se midieron las tasas de pulsación luego de que cada individuo trabajó por una hora en su tarea asignada. Luego de que varios individuos abandonaron el estudio, los datos finales fueron: Task 1 (Tarea 1) Task 2 (Tarea 2) Task 3 (Tarea 3) Task 4 (Tarea 4) Task 5 (Tarea 5) Task 6 (Tarea 6) 27 29 34 34 28 28 31 28 36 34 28 26 26 37 34 43 26 29 32 24 41 44 35 25 39 35 30 40 31 35 37 40 44 47 30 34 38 40 44 34 34 37 39 31 32 31 34 28 30 30 32 45 26 21 28 25 31 28 20 28 27 29 41 26 27 25 21 34 Las n = 68 mediciones finales han sido arregladas en q = 6 columnas, una para cada grupo de sujetos. Alternativamente, los datos pudieron ser arreglados en una tabla con las tasas de pulsación en una sola columna junto con una columna identificando qué tarea se le dio al sujeto. Una porción de tal archivo se muestra abajo:

Comparación de Varias Muestras - STATGRAPHICS

  • Upload
    others

  • View
    6

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Comparación de Varias Muestras - STATGRAPHICS

STATGRAPHICS – Rev. 4/d/yyyy

© 2006 por StatPoint, Inc. Comparación de Varias Muestras - 1�

Comparación de Varias Muestras Resumen El procedimiento de Comparación de Varias Muestras está diseñado para comparar dos o más muestras independientes de datos variables. Se hacen pruebas para determinar si hay o no diferencias significativas entre las medias, varianzas y/o medianas de las poblaciones de las que se tomaron las muestras. Además, se pueden desplegar los datos gráficamente de varias maneras, incluyendo una gráfica de dispersión múltiple, una gráfica ANOM y una gráfica de medias. Los resultados de este procedimiento son idénticos al los del procedimiento ANOVA de una vía. StatFolio Muestra: multiple samples.sgp Datos de Muestra: El archivo pulse rates.sf6 contiene los resultados de un experimento reportado por Milliken y Johnson (1992) en el que 78 trabajadores fueron asignados en seis grupos al azar. A cada grupo se le dio una tarea a realizar y se midieron las tasas de pulsación luego de que cada individuo trabajó por una hora en su tarea asignada. Luego de que varios individuos abandonaron el estudio, los datos finales fueron:

Task 1 (Tarea 1)

Task 2 (Tarea 2)

Task 3 (Tarea 3)

Task 4 (Tarea 4)

Task 5 (Tarea 5)

Task 6 (Tarea 6)

27 29 34 34 28 28 31 28 36 34 28 26 26 37 34 43 26 29 32 24 41 44 35 25 39 35 30 40 31 35 37 40 44 47 30 34 38 40 44 34 34 37 39 31 32 31 34 28 30 30 32 45 26 21 28 25 31 28 20 28 27 29 41 26 27 25 21 34

Las n = 68 mediciones finales han sido arregladas en q = 6 columnas, una para cada grupo de sujetos. Alternativamente, los datos pudieron ser arreglados en una tabla con las tasas de pulsación en una sola columna junto con una columna identificando qué tarea se le dio al sujeto. Una porción de tal archivo se muestra abajo:

Page 2: Comparación de Varias Muestras - STATGRAPHICS

STATGRAPHICS – Rev. 4/d/yyyy

© 2006 por StatPoint, Inc. Comparación de Varias Muestras - 2�

Subject (Sujeto)

Pulse Rate (Tasa de Pulsación)

Task (Tarea)

1 27 1 2 31 1 3 26 1 4 32 1 5 39 1 6 37 1 7 38 1 8 39 1 9 30 1 10 28 1 11 27 1 12 27 1 13 34 1 14 29 2 15 28 2 16 37 2 17 24 2 18 35 2 19 40 2 20 40 2 21 31 2 22 30 2 23 25 2 24 29 2 25 25 2 26 34 3 … … …

Cualquier estructura de datos puede ser analizada por el procedimiento Análisis Multimuestral. Si los mismos datos se usarán en otros procedimientos tales como el procedimiento de Modelos Lineales Generales, estos deben ser estructurados de la segunda manera. Como parte de la opción Guardar Resultados en este procedimiento, puede tomar un conjunto de datos que esté estructurado en el formato de múltiples columnas y rearreglarlo como columnas de datos cifrados. Datos de Entrada Cuando el procedimiento Comparación de Datos Múltiples se selecciona en el menú principal, el primer cuadro de diálogo desplegado le pide especificar el formato en el que los datos serán ingresados:

Page 3: Comparación de Varias Muestras - STATGRAPHICS

STATGRAPHICS – Rev. 4/d/yyyy

© 2006 por StatPoint, Inc. Comparación de Varias Muestras - 3�

• Múltiples Columnas de Datos: indica que cada muestra se ha colocado en una columna

separada. • Columnas de Códigos y Datos: indica que todas las observaciones se han colocado en una

sola columna, con una segunda columna indicando a qué muestra pertenece cada observación.

• Estadísticos Muestrales: indica que las observaciones originales no están disponibles. Sin

embargo, los tamaños de muestra, las medias muestrales, y las desviaciones estándar muestrales se han colocado en 3 columnas de la hoja de datos. En este caso, algunas opciones no estarán disponibles.

Múltiples Columnas de Datos Si los datos se han colocado en columnas separadas para cada muestra, se deben ingresar los nombres de las columnas en el siguiente cuadro de diálogo.

• Muestras: dos o más columnas numéricas que contienen las observaciones, una columna

para cada muestra.

Page 4: Comparación de Varias Muestras - STATGRAPHICS

STATGRAPHICS – Rev. 4/d/yyyy

© 2006 por StatPoint, Inc. Comparación de Varias Muestras - 4�

• Seleccionar: subconjunto a seleccionar. Columnas Datos y Código Si los datos de todas las muestras se han colocado en una sola columna, entonces ingrese el nombre de esa columna y de la columna que contiene los identificadores de grupo.

• Datos: columna numérica que contiene observaciones de todas las muestras. • Códigos de Nivel: columnas numéricas o no numéricas que contienen un identificador para

la muestra correspondiente a cada dato. • Seleccionar: subconjunto a seleccionar. Estadísticos de Muestra Si las observaciones originales no están disponibles, pero se conocen la media y la desviación estándar de cada muestra, ingrese los estadísticos muestrales en la hoja de datos en columnas separadas.

Tarea Tamaño Media Desviación Estándar 1 13 31.9231 4.95751 2 12 31.0833 5.66422 3 10 35.8000 5.30827 4 10 38.0000 6.59966 5 12 29.5000 6.00757 6 11 28.8182 4.75012

Luego complete el segundo cuadro de diálogo como se muestra a continuación.

Page 5: Comparación de Varias Muestras - STATGRAPHICS

STATGRAPHICS – Rev. 4/d/yyyy

© 2006 por StatPoint, Inc. Comparación de Varias Muestras - 5�

• Medias muestrales: columna numérica que contiene las medias de cada muestra. • Desviaciones estándar muestrales: columna numérica que contiene las desviaciones

estándar de cada muestra. • Tamaños de muestra: columna numérica que contiene los tamaños de cada muestra. • Etiquetas de la muestra: columna opcional que contiene etiquetas para cada muestra. • Seleccionar: subconjunto a seleccionar.

Resumen del Análisis El Resumen del Análisis muestra el número de observaciones en cada muestra. Comparación de Varias Muestras Muestra 1: tarea 1 Muestra 2: tarea 2 Muestra 3: tarea 3 Muestra 4: tarea 4 Muestra 5: tarea 5 Muestra 6: tarea 6 Muestra 1: 13 valores en el rango de 26.0 a 39.0 Muestra 2: 12 valores en el rango de 24.0 a 40.0 Muestra 3: 10 valores en el rango de 30.0 a 44.0 Muestra 4: 10 valores en el rango de 28.0 a 47.0 Muestra 5: 12 valores en el rango de 20.0 a 41.0 Muestra 6: 11 valores en el rango de 21.0 a 37.0

También se despliegan los valores más alto y más bajo.

Page 6: Comparación de Varias Muestras - STATGRAPHICS

STATGRAPHICS – Rev. 4/d/yyyy

© 2006 por StatPoint, Inc. Comparación de Varias Muestras - 6�

Gráfico de Dispersión El panel Gráfico de Dispersión grafica datos de cada grupo.

Task 1 Task 2 Task 3 Task 4 Task 5 Task 6

Dispersión según Muestra

20

25

30

35

40

45

50re

spue

sta

Si hay muchos valores comunes, tal vez deseé añadir una pequeña cantidad despacio horizontal a la gráfica, presionando el botón Separar de la barra de herramientas de análisis.

Esto fija cada punto al azar en dirección horizontal de tal modo que valores idénticos no se encimen:

Page 7: Comparación de Varias Muestras - STATGRAPHICS

STATGRAPHICS – Rev. 4/d/yyyy

© 2006 por StatPoint, Inc. Comparación de Varias Muestras - 7�

Task 1 Task 2 Task 3 Task 4 Task 5 Task 6

Dispersión según Muestra

20

25

30

35

40

45

50

resp

uest

a

La gráfica de arriba parece sugerir que las tasas de pulsación son de alguna manera más altas en aquellos que realizaron las tareas 3 y 4. Nota: Agregar espacio a la gráfica de dispersión no tiene efecto en ningún cálculo.

Estadísticos de Resumen El panel Estadísticos de Resumen calcula diferentes estadísticos que son usados comúnmente para resumir una muestra de datos variables:

Resumen Estadístico

La mayoría de los estadísticos pertenecen a una de las siguientes categorías:

1. medidas de tendencia central – estadísticos que caracterizan el “centro” de los datos. 2. medidas de dispersión – estadísticos que miden la dispersión de los datos.

Recuento Promedio Desviación Estándar Coeficiente de Variación Mínimo Máximo Rango Tarea 1 13 31.9231 4.95751 15.5296% 26.0 39.0 13.0 Tarea 2 12 31.0833 5.66422 18.2227% 24.0 40.0 16.0 Tarea 3 10 35.8 5.30827 14.8276% 30.0 44.0 14.0 Tarea 4 10 38.0 6.59966 17.3675% 28.0 47.0 19.0 Tarea 5 12 29.5 6.00757 20.3646% 20.0 41.0 21.0 Tarea 6 11 28.8182 4.75012 16.4831% 21.0 37.0 16.0 Total 68 32.3088 6.24203 19.3199% 20.0 47.0 27.0

Page 8: Comparación de Varias Muestras - STATGRAPHICS

STATGRAPHICS – Rev. 4/d/yyyy

© 2006 por StatPoint, Inc. Comparación de Varias Muestras - 8�

3. medidas de forma – estadísticos que miden la forma de los datos con respecto a una distribución normal.

Los estadísticos incluidos por defecto en la tabla son controlados por las opciones del panel Estadísticos del cuadro de diálogo Preferencias. Con este procedimiento, la selección puede cambiarse usando el Panel de Opciones. Para una descripción detallada de cada estadístico, vea la documentación Análisis de una Variable. Son de interés particular:

1. Medias muestrales jY : la tasa de pulsación promedio de sujetos de cada una de las 6 tareas.

2. Desviaciones estándar muestrales js : las desviaciones estándar de cada grupo. 3. Simetrías y kurtosis estandarizadas: Estos estadísticos deben estar entre –2 y +2 si los

datos vienen de distribuciones normales. Para las tasas de pulsación, la tasa promedio fue más alta para el grupo 4, así como la desviación estándar. Todos los estadísticos de simetría y de kurtosis están en el rango esperado para datos que vienen de distribuciones normales. Panel de Opciones

Seleccione los estadísticos deseados.

Gráfico de Caja y Bigotes Este panel despliega una gráfica de caja y bigotes para cada muestra.

Page 9: Comparación de Varias Muestras - STATGRAPHICS

STATGRAPHICS – Rev. 4/d/yyyy

© 2006 por StatPoint, Inc. Comparación de Varias Muestras - 9�

Task 1

Task 2

Task 3

Task 4

Task 5

Task 6

Gráfico Caja y Bigotes

20 25 30 35 40 45 50respuesta

Las gráficas de caja y bigotes se construyen de la siguiente manera:

• Se dibuja una caja que va del cuartil inferior de la muestra hasta el cuartil superior. Este es el intervalo cubierto por 50% de los datos cuando se ordenan de menor a mayor.

• Se dibuja una línea vertical en la mediana (valor medio). • Si se requiere, se coloca un signo de más en el lugar de la media muestral.

• Se dibujan bigotes desde los bordes de la caja hasta los valores más pequeño y más

alto, a menos que haya valores inusualmente lejos de la caja (los que Tukey llama aberrantes). Los puntos exteriores, que son puntos abajo o arriba de la caja más de 1.5 veces el rango intercuartil, se indican con símbolos de punto. Cualquier punto que esté abajo o arriba de la caja más de tres veces el rango intercuartil se llama aberrante lejano, y se indican por símbolos de punto con signos de suma superimpuestos encima de ellos. Si hay puntos exteriores, los bigotes se dibujan hacia los valores más grande y más pequeño que no sean puntos exteriores.

En los datos muestrales, la variabilidad parece ser similar en cada muestra, aunque las locaciones muestran algunas diferencias. No hay puntos exteriores. Panel de Opciones

Page 10: Comparación de Varias Muestras - STATGRAPHICS

STATGRAPHICS – Rev. 4/d/yyyy

© 2006 por StatPoint, Inc. Comparación de Varias Muestras - 10�

• Dirección: la orientación de la gráfica, correspondiente a la dirección de los bigotes. • Muesca sobre la Mediana: Si se selecciona, se agrega un corte a la gráfica mostrando el

error de estimación asociado a cada mediana. Los cortes se escalan de tal forma que, para muestras de igual tamaño, si no se traslapan, las dos medianas son significativamente diferentes en el nivel de confianza por defecto del sistema (establecido en la pestaña General del cuadro de diálogo Preferencias en el menú Edición).

• Mostrar aberrantes: si se selecciona, indica la ubicación de los aberrantes. • Mostrar Media: si se selecciona, muestra la ubicación de la media muestral así como la

mediana. Ejemplo – Gráfica de caja y bigotes cortada. La siguiente gráfica agrega grietas de mediana a un nivel de confianza del 95%.

Task 1 Task 2 Task 3 Task 4 Task 5 Task 6

Gráfico Caja y Bigotes

20

25

30

35

40

45

50

resp

uest

a

Cada corte cubre el intervalo.

⎟⎠

⎞⎜⎝

⎛+±

211

35.1

)(25.12

~ 2/

j

jj n

IQRzx α

(1)

Page 11: Comparación de Varias Muestras - STATGRAPHICS

STATGRAPHICS – Rev. 4/d/yyyy

© 2006 por StatPoint, Inc. Comparación de Varias Muestras - 11�

donde jx~ es la mediana de la j-ésima muestra, IQRj es el rango intercuartil de muestra, nj es el tamaño de muestra, y zα/2 es el valor crítico superior (α/2)% de una distribución normal estándar. En aquellos casos en los que el tamaño de muestra es pequeño, el corte puede extenderse más allá de la caja, resultando una apariencia de doblado. Como las muestras varían en tamaño, la regla de traslape no funcionará a la perfección. Sin embargo, los cortes para las tareas 4 y 6 no se traslapan, lo que típicamente indicaría una diferencia significativa entre esas dos medianas a un nivel de significancia del 5%.

Page 12: Comparación de Varias Muestras - STATGRAPHICS

STATGRAPHICS – Rev. 4/d/yyyy

© 2006 por StatPoint, Inc. Comparación de Varias Muestras - 12�

Tabla ANOVA Para determinar si las medias de los q grupos son significativamente diferentes entre sí o no, puede realizarse un análisis de varianza de una vía. Los resultados se despliegan en la tabla ANOVA:

Tabla ANOVA Fuente Suma de Cuadrados Gl Cuadrado Medio Razón-F Valor-P Entre grupos 694.439 5 138.888 4.49 0.0015 Intra grupos 1916.08 62 30.9045 Total (Corr.) 2610.51 67

La tabla divide la variabilidad total de las n mediciones en dos componentes:

1. Un componente “intragrupal”, que mide la variabilidad entre tasas de pulsación de individuos a los que se les asignó la misma tarea.

2. Un componente “intergrupal”, que mide la variabilidad entre tasas de pulsación de

individuos con diferentes tareas. El F-radio es de particular importancia, el cual prueba la hipótesis de que la respuesta media para todas las muestras es la misma. Formalmente, prueba la hipótesis nula

H0: μ1 = μ2 = ... = μq contra la hipótesis alternativa

HA: no todos los μj iguales Si F es suficientemente grande, la hipótesis nula se rechaza La importancia estadística del F-radio se juzga más fácilmente por su P-valor. Si el P-valor es menor que 0.05, la hipótesis nula de medias iguales se rechaza a un nivel de significancia del 5%, como en este ejemplo. Esto no implica que cada media sea significativamente diferente que las otras. Simplemente implica que no todas las medias son la misma. Determinar cuáles medias son significativamente diferentes de cuáles otras requiere pruebas adicionales, como se discute abajo.

Page 13: Comparación de Varias Muestras - STATGRAPHICS

STATGRAPHICS – Rev. 4/d/yyyy

© 2006 por StatPoint, Inc. Comparación de Varias Muestras - 13�

ANOVA Gráfico El ANOVA Gráfico, desarrollado por Hunter (2005), es una técnica para desplegar gráficamente la importancia de las diferencias entre las muestras. Es una gráfica de los efectos escalados, donde el “efecto” es igual a la diferencia entre una media muestral y la gran media estimada. Cada efecto es multiplicado por un factor escalador.

nn

T

iR

νν

(2)

donde νR es los grados de libertad residuales, νT es los grados de libertad entre las diferencias grupales, ni es igual al número de observaciones en el i-ésimo nivel del grupo, y n es el número promedio de observaciones en todos los grupos. Esto escala los efectos de tal manera que la varianza natural de los puntos en el diagrama es comparable a la de los residuales, los cuales se despliegan en la parte baja de la gráfica. La gráfica para los datos de muestra se muestra abajo:

GruposTask 6 Task 2

Task 3 Task 4

ANOVA Gráfico para Task 1

-13 -3 7 17 27Residuos

P = 0.0015Task 5 Task 1

Al lado derecho del display está el P-valor para las diferencias dentro del grupo, tomado de la tabla ANOVA. Comparando la variabilidad entre los efectos en la gráfica de arriba con la de los residuales, es fácil ver que las diferencias son de una mayor magnitud que las que podrían explicarse solamente por el error experimental. Dependiendo de la localización relativa de los efectos, podría también ser posible en algunos casos identificar visualmente cuáles muestras son significativamente diferentes de cuáles otras, lo cual es hecho formalmente por las Pruebas de Rangos Múltiples descritas abajo.

Page 14: Comparación de Varias Muestras - STATGRAPHICS

STATGRAPHICS – Rev. 4/d/yyyy

© 2006 por StatPoint, Inc. Comparación de Varias Muestras - 14�

Pruebas de Rangos Múltiples Para determinar cuáles medias son significativamente diferentes de cuáles otras, pueden realizarse Pruebas de Rangos Múltiples:

Pruebas de Rangos Múltiples Método: 95.0 porcentaje LSD

* indica una diferencia significativa.

La mitad de arriba de la tabla muestra cada una de las medias muestrales estimadas en un orden de magnitud creciente. Muestra:

• Casos – el número de observaciones nj. • Media – la media muestral estimada Yj .

Casos Media Grupos Homogéneos Tarea 6 11 28.8182 X Tarea 5 12 29.5 X Tarea 2 12 31.0833 XX Tarea 1 13 31.9231 XX Tarea 3 10 35.8 XX Tarea 4 10 38.0 X

Contraste Sig. Diferencia +/- Límites Tarea 1 - Tarea 2 0.839744 4.44862 Tarea 1 - Tarea 3 -3.87692 4.67423 Tarea 1 - Tarea 4 * -6.07692 4.67423 Tarea 1 - Tarea 5 2.42308 4.44862 Tarea 1 - Tarea 6 3.1049 4.55256 Tarea 2 - Tarea 3 -4.71667 4.75816 Tarea 2 - Tarea 4 * -6.91667 4.75816 Tarea 2 - Tarea 5 1.58333 4.53672 Tarea 2 - Tarea 6 2.26515 4.63869 Tarea 3 - Tarea 4 -2.2 4.96973 Tarea 3 - Tarea 5 * 6.3 4.75816 Tarea 3 - Tarea 6 * 6.98182 4.85547 Tarea 4 - Tarea 5 * 8.5 4.75816 Tarea 4 - Tarea 6 * 9.18182 4.85547 Tarea 5 - Tarea 6 0.681818 4.63869

Page 15: Comparación de Varias Muestras - STATGRAPHICS

STATGRAPHICS – Rev. 4/d/yyyy

© 2006 por StatPoint, Inc. Comparación de Varias Muestras - 15�

• Grupos Homogéneos – una ilustración gráfica de cuáles medias son significativamente diferentes de cuáles otras, basada en los contrastes desplegados en la segunda mitad de la tabla. Cada columna de X’s indica un grupo de medias en las que no hay diferencias significativas estadísticamente. Por ejemplo, la primera columna de la tabla de arriba contiene X para las tareas 1, 2, 5, y 6, indicando que no hay diferencias significativas entre esas cuatro medias. Asimismo, las tareas 1, 2 y 3 no muestran diferencias significativas, como tampoco lo hacen las tareas 3 y 4. Cualesquiera dos tareas que no tengan una X en la misma columna son significativamente diferentes entre sí, tal como las tareas 4 y 6.

• Diferencia – la diferencia entre las dos medias muestrales.

$Δ j j j jY Y1 2 1 2

= − (3)

• Limites - un intervalo estimado de la diferencia, usando el procedimiento de comparaciones múltiples seleccionado recientemente.

$Δ j j withinj j

M MSn n1 2

1 2

1 1± +

⎝⎜⎜

⎠⎟⎟ (4)

donde M es una constante que depende del procedimiento seleccionado.

• Sig. – Se pone un asterisco junto a cualquier diferencia que sea estadísticamente

significativamente diferente de 0 al nivel de significancia seleccionado, i.e., cualquier intervalo que no contenga al 0.

Para los datos de tasa de pulsación, Tarea 4 tiene una tasa de pulsación media significativamente mayor que cualquier tarea excepto Tarea 3. Además, Tarea 3 es significativamente mayor que Tareas 5 y 6. Panel de Opciones

• Método: el método usado para hacer comparaciones múltiples.

Page 16: Comparación de Varias Muestras - STATGRAPHICS

STATGRAPHICS – Rev. 4/d/yyyy

© 2006 por StatPoint, Inc. Comparación de Varias Muestras - 16�

• Nivel de Confianza: el nivel de confianza usado para la comparación múltiple seleccionada. Los métodos disponibles son:

• LSD - forma un intervalo de confianza para cada par de medias al nivel de confianza seleccionado usando:

qntM −= ,2/α (5)

donde t representa el valor de la distribución t de Student con n - q grados de libertad dejando un área de α/2 en la cola superior de la curva. Este procedimiento se debe a Fisher y es llamado el procedimiento de la Diferencia Menos Significativa, ya que la magnitud de los límites indica la diferencia más pequeña entre cualesquiera dos medias que puedan ser declaradas para representar una diferencia estadísticamente significativa. Esto sólo debe usarse cuando la F-prueba en la tabla ANOVA indique diferencias significativas entre las medias muestrales. La probabilidad de hacer un error Tipo I α aplica a cada par de medias de manera separada. Si se hace más de una comparación, la probabilidad total de llamar al menos a un par de medias significativamente diferentes cuando no lo son puede ser considerablemente mayor que α.

• Tukey HSD – ensancha los intervalos para permitir comparaciones múltiples entre todos los pares de medias, usando

M = Tα/2,q,n-q (6)

que usa la t de Tukey en vez de la t de Student. La t de Tukey es igual a ( )1 2/ veces el rango de la distribución Studentizada, que es tabulada en algunos libros como en Neter et al. (1996). Tukey llamó a su procedimiento el de Diferencia Honestamente Significativa ya que controla la tasa de error experimental a α. Si todas las medias son iguales, la probabilidad de declarar a cualquiera de los pares como significativamente diferentes en todo el experimento es igual a α. El procedimiento de Tukey es más conservador que el procedimiento LSD de Fisher, pues hace más difícil declarar cualquier par particular de medias como significativamente diferentes.

• Scheffe – diseñado para permitir la estimación de todos los posibles contrastes entre las medias muestrales (no solo en comparaciones por pares). Usa una múltiple relacionada con la distribución F.

( ) qnqFqM −−−= ,1,1 α (7)

En esta instancia, es probable que el procedimiento sea muy conservador, pues sólo se están estimando pares.

• Bonferroni – diseñado para permitir la estimación de cualquier número preseleccionado

de contrastes. En este caso, usa una múltiple igual a

Page 17: Comparación de Varias Muestras - STATGRAPHICS

STATGRAPHICS – Rev. 4/d/yyyy

© 2006 por StatPoint, Inc. Comparación de Varias Muestras - 17�

qnqqtM −−= )),1(/(α (8)

pues q(q-1)/2 se están estimando diferencias por pares. Estos límites son usualmente más anchos que los de Tukey cuando se hacen todas las comparaciones por pares.

• Student-Newman-Keuls – A diferencia de los métodos previos, éste no crea intervalos

para las diferencias por pares. En vez de eso, ordena las medias en orden creciente y luego comienza a separarlas en grupos de acuerdo a valores del rango distribución Studentizada. Eventualmente, las medias se separan en grupos homogéneos en los que no hay diferencias significativas.

• Duncan –similar al procedimiento Student-Newman-Keuls, excepto que usa un valor

crítico distinto al rango de la distribución Studentizada al definir los grupos homogéneos. Una discusión detallada de los procedimientos de Duncan y de Student-Newman-Keuls la dan Milliken y Johnson (1992).

La elección entre un procedimiento LCD y uno de múltiples comparaciones como el HSD de Tukey debe depender del costo relativo de hacer un error Tipo I (llamar diferentes a un par de medias que realmente no lo son) contra el costo de hacer un error Tipo II (no llamar diferentes a un par de medias que sí lo sean). En las primeras etapas de una investigación, tal vez uno no quiera ser tan conservador como cuando ya se han hecho las verificaciones finales.

Tabla de Medias Esta tabla despliega cada media muestral junto a un intervalo de incertidumbre:

Tabla de Medias con intervalos de confianza del 95.0%

El tipo de intervalo desplegado depende del Panel de Opciones. Panel de Opciones

Error Est. Casos Media (s agrupada) Límite Inferior Límite Superior Tarea 1 13 31.9231 1.54184 29.7437 34.1024 Tarea 2 12 31.0833 1.6048 28.815 33.3517 Tarea 3 10 35.8 1.75797 33.3151 38.2849 Tarea 4 10 38.0 1.75797 35.5151 40.4849 Tarea 5 12 29.5 1.6048 27.2316 31.7684 Tarea 6 11 28.8182 1.67616 26.449 31.1874 Total 68 32.3088

Page 18: Comparación de Varias Muestras - STATGRAPHICS

STATGRAPHICS – Rev. 4/d/yyyy

© 2006 por StatPoint, Inc. Comparación de Varias Muestras - 18�

• Intervalos: el método usado para construir los intervalos. • Nivel de Confianza: el nivel de confianza asociado a cada intervalo. Los tipos de intervalos que pueden seleccionarse son:

• Ninguno – no se despliega ningún intervalo. • Errores Estándar (S agrupada) – despliega los errores estándar usando la desviación

estándar intramuestral acumulada:

j

withinj n

MSY ± (9)

• Errores Estándar (S individual) - despliega los errores estándar usando la desviación

estándar de cada muestra separadamente:

Ysnj

j

2

(10)

• Intervalos de Confianza (S agrupada) – despliega intervalos de confianza para el grupo

Medias usando la desviación estándar intramuestral acumulada:

j

withinqnj n

MStY −± ,2/α (11)

• Intervalos de Confianza (S individual) - despliega intervalos de confianza para el grupo Medias usando la desviación estándar de cada grupo separadamente:

Page 19: Comparación de Varias Muestras - STATGRAPHICS

STATGRAPHICS – Rev. 4/d/yyyy

© 2006 por StatPoint, Inc. Comparación de Varias Muestras - 19�

j

jnj n

stY

j

2

1,2/ −± α (12)

• Intervalos LSD - diseñados para comparar cualquier para de medias con el nivel de

confianza establecido. Los intervalos están dados por:

YM MS

njwithin

22 (13)

donde M se define como en las Pruebas de Rango Múltiple. Esta fórmula también aplica para las tres selecciones de abajo.

• Intervalos Tukey HSD - diseñados para comparar todos los pares de medias. El

intervalo de confianza establecido aplica para toda la familia de comparaciones por pares: • Intervalos Scheffe - diseñados para comparar todos los contrastes. No son muy

relevantes aquí.

• Intervalos Bonferroni - diseñados para comparar un número seleccionado de contrastes. Los intervalos de Tukey son usualmente más ajustados.

Gráfica de Medias Las medias muestrales pueden ser graficadas junto a los intervalos de incertidumbre:

Task 1 Task 2 Task 3 Task 4 Task 5 Task 6

Medias y 95.0% de Fisher LSD

26

29

32

35

38

41

Med

ia

Los tipos de intervalos que pueden usarse son los mismos que en la Tabla de Medias arriba. Si todos los tamaños de muestra son los mismos (o cercanos), el analista puede determinar cuáles medias son significativamente diferentes de cuáles otras usando los procedimientos LSD, Tukey, Scheffe o Bonferroni simplemente viendo si un par de intervalos se traslapan en dirección vertical o no. Un par de intervalos que no se traslapan indica una diferencia estadísticamente

Page 20: Comparación de Varias Muestras - STATGRAPHICS

STATGRAPHICS – Rev. 4/d/yyyy

© 2006 por StatPoint, Inc. Comparación de Varias Muestras - 20�

significativa entre las medias al nivel de confianza seleccionado. En este caso, note que el intervalo de la tarea 4 se traslapa solo con el de la tarea 3, indicando que es significativamente diferente de todas las demás tareas.

Verificación de Varianza. Una de las suposiciones que respaldan el análisis de varianza es que las varianzas de las poblaciones de donde se tomaron las muestras son las mismas. El panel Verificación de Varianza realiza alguna de varias pruebas para verificar esta suposición.

Verificación de Varianza

La hipótesis a probarse será: Hipótesis Nula: todas las σj son iguales Hipótesis Alt.: no todas las σj son iguales Las cuatro pruebas son:

1. Prueba de Cochran: compara la varianza máxima dentro de la muestra con la varianza muestra promedio. Un P-valor menor que 0.05 indica una diferencia significativa entre las desviaciones estándar dentro de la muestra a un nivel de significancia del 5%. La prueba es apropiada sólo si todos los grupos son del mismo tamaño.

2. Prueba de Bartlett: compara un promedio ponderado de las varianzas dentro de la

muestra con su media geométrica. Un P-valor menor que 0.05 indica una diferencia significativa entre las desviaciones estándar dentro de la muestra a un nivel de significancia del 5%. La prueba es apropiada tanto para grupos del mismo tamaño como para grupos de tamaño distinto.

3. Prueba de Hartley: calcula el cociente entre la varianza muestral más grande y la más

pequeña. Este estadístico debe compararse con una tabla de valores críticos, como la

Prueba Valor-P Levene's 0.641611 0.668799

Page 21: Comparación de Varias Muestras - STATGRAPHICS

STATGRAPHICS – Rev. 4/d/yyyy

© 2006 por StatPoint, Inc. Comparación de Varias Muestras - 21�

contenida en Neter et al. (1996). Para 6 muestras y 62 grados de libertad para error experimental, H se hubiera excedido aproximadamente 2.1 para ser estadísticamente significativo a un nivel de significancia del 5%. Nota: esta prueba sólo es apropiada si el número de observaciones entre cada nivel de tratamiento es el mismo.

4. Prueba de Levene: realiza un análisis de varianza de una vía en las variables.

jijij yyZ −= (14)

El estadístico tabulado es el F estadístico de la tabla ANOVA.

Para los datos de tasa de pulsación, no hay razón para rechazar la suposición de que las desviaciones estándar son las mismas para todos los grupos, ya que los P-valores son mayores que 0.05. Cualquier diferencia aparente entre las desviaciones estándar muestrales no es estadísticamente significativa a un nivel de significancia del 5%.

Gráficas de Residuales Como en todo modelo estadístico, es una buena costumbre examinar los residuales. En un análisis de varianza de una vía, los residuales se definen por: jijij yye −= (15) i.e., los residuales son las diferencias entre los valores de datos observados y sus respectivas medias grupales. El procedimiento Comparación de Muestras Múltiple crea 3 gráficas de residuales:

1. contra indicador muestral. 2. contra valor predicho. 3. contra número de observación.

Residuales contra Muestras Esta gráfica es de ayuda para visualizar cualquier diferencia en la variabilidad de las muestras.

Page 22: Comparación de Varias Muestras - STATGRAPHICS

STATGRAPHICS – Rev. 4/d/yyyy

© 2006 por StatPoint, Inc. Comparación de Varias Muestras - 22�

Task 1 Task 2 Task 3 Task 4 Task 5 Task 6

Gráfico de Residuos

-12

-8

-4

0

4

8

12

resi

duos

muestra

El residual promedio en cada grupo es igual a 0. Residuales contra Predicho Esta gráfica es de ayuda para detectar cualquier heteroescedasticidad en los datos.

Gráfico de Residuos

-12

-8

-4

0

4

8

12

resi

duos

28 30 32 34 36 38valor predicho

La heteroescedasticidad ocurre cuando la variabilidad de los datos cambia como lo hace la media, y puede necesitarse transformar los datos antes de realizar el ANOVA. Usualmente es evidenciado por un patrón de forma de embudo en la gráfica de residuales. Residuales contra Observación Esta gráfica muestra los residuales contra el número de fila en la hoja de datos:

Page 23: Comparación de Varias Muestras - STATGRAPHICS

STATGRAPHICS – Rev. 4/d/yyyy

© 2006 por StatPoint, Inc. Comparación de Varias Muestras - 23�

Gráfico de Residuos

-12

-8

-4

0

4

8

12

resi

duos

0 20 40 60 80observación

Si los datos se arreglan en orden cronológico, cualquier patrón de los datos puede indicar una influencia exterior. No es evidente ningún patrón así en la gráfica de arriba.

Gráfica de Análisis de Medias (ANOM) Si el número de muestras está entre 3 y 20, en la Gráfica de Análisis de Medias o Gráfica ANOM, se presenta una aproximación de alguna manera distinta a la comparación de medias:

Task 1 Task 2 Task 3 Task 4 Task 5 Task 6

Gráfico ANOMCon 95% Límites de Decisión

27

29

31

33

35

37

39

Med

ia

LDS=36.38

LC=32.31

LDI=28.24

Esta gráfica construye una tabla similar a un cuadro de control, donde cada media muestral se grafica junto a una línea central y los límites de decisión superiores e inferiores. La línea central se localiza en el promedio de todas las observaciones Y . Los límites de decisión se localizan en

⎟⎟⎠

⎞⎜⎜⎝

⎛ −± −− q

qn

MShY

j

withinqn

11, α (16)

Page 24: Comparación de Varias Muestras - STATGRAPHICS

STATGRAPHICS – Rev. 4/d/yyyy

© 2006 por StatPoint, Inc. Comparación de Varias Muestras - 24�

donde h es un valor crítico obtenido de una tabla de la distribución t multivariada. El cuadro prueba la hipótesis nula de que todas las medias muestrales son iguales que la media. Cualquier media que caiga fuera de los límites de decisión indica que la media correspondiente difiere significativamente de la media total. La ventaja de la gráfica ANOM es que muestra de un vistazo qué medias son significativamente diferentes que el promedio de todas las muestras. También lo hace usando un tipo de cuadro con el que muchos ingenieros y operadores están familiarizados. Es fácil ver a partir del cuadro de arriba que la tarea 4 tiene una tasa de pulsación significativamente mayor que el promedio, mientras que todas las demás medias caen dentro de los límites de decisión. El procedimiento es exacto si todos los tamaños de muestra son iguales y es aproximado si no difieren mucho. Panel de Opciones

• Nivel de Confianza: nivel usado para posicionar los límites de decisión. • Número de Decimales para Límites: número de decimales mostrados al desplegar los

límites de decisión.

Pruebas de Wruskal-Wallis y Friedman Una alternativa para el análisis estándar de varianzas que compara medianas de grupo en lugar de medias es la Prueba Kruskal-Wallis. Esta prueba es mucho menos sensible a la presencia de puntos lejanos que lo que es una ANOVA de una vía y debe usarse cada vez que la suposición de normalidad dentro de las muestras no sea razonable. Ésta prueba las hipótesis:

Hipótesis Nula: todas las medianas de grupo son iguales. Hipótesis Alt.: no todas las medianas de grupo son iguales.

La prueba es conducida por:

1. Ordenar todos los n valores del más pequeño al más grande y clasificarlos, asignando rango de 1 al más pequeño y de n al mayor. Si dos observaciones cualesquiera son exactamente iguales, a las observaciones empatadas se les da el mismo rango que al promedio de las posiciones a las que ocurre el empate.

Page 25: Comparación de Varias Muestras - STATGRAPHICS

STATGRAPHICS – Rev. 4/d/yyyy

© 2006 por StatPoint, Inc. Comparación de Varias Muestras - 25�

2. Calcular los rangos promedio de las observaciones dentro de cada grupo R j .

3. Calcular un estadístico de prueba para comparar las diferencias entre los rangos

promedio.

4. Calcular un P-valor para probar las hipótesis. El resultado se muestra abajo:

Prueba Kruskal-Wallis

Estadístico = 15.9995 P-Valor= 0.00684551 P-valores pequeños (menores que 0.05 si se opera a un nivel de significancia del 5%) indica que hay diferencias significativas entre las medianas de grupo, como en el ejemplo de arriba. Panel de Opciones

• Método: procedimiento a usar para comparar las medianas. Kruskal-Wallis es apropiado al

comparar q muestras independientes. Friedman es apropiado al analizar un experimento en bloques, i.e., cuando los datos de cada fila corresponden a la misma unidad o bloque experimental.

La prueba Friedman es apropiada para un diseño aleatorio de bloques, en el que cada fila de la hoja de datos representa una condición o bloque particular. En este ejemplo, esto aplicaría si los mismos 13 sujetos hubiesen realizado cada una de las 6 tareas, en lugar de diferentes sujetos para cada tarea. El resultado de la prueba Friedman es interpretada de la misma manera que el de la prueba Kruskal-Wallis.

Tamaño de Muestra Rango Promedio Tarea 1 13 33.3846 Tarea 2 12 30.5833 Tarea 3 10 46.4 Tarea 4 10 50.35 Tarea 5 12 26.7083 Tarea 6 11 23.3636

Page 26: Comparación de Varias Muestras - STATGRAPHICS

STATGRAPHICS – Rev. 4/d/yyyy

© 2006 por StatPoint, Inc. Comparación de Varias Muestras - 26�

Prueba de la Medianas de Mood La Prueba de la Mediana de Mood es otro método de determinar si las medianas de todos los q grupos son iguales o no. Es menos sensible a puntos lejanos que la de Kruskal-Wallace, pero también es menos poderosa cuando los datos vienen de distribuciones como la normal. El resultado se muestra abajo.

Prueba de la Mediana de Mood Total n = 68 Gran mediana = 31.0

Estadístico = 12.168 P-Valor= 0.0325567 Arriba de la tabla se despliega el número total de observaciones n y la mediana total. Para cada muestra la tabla muestra:

1. Tamaño de Muestra: El número de observaciones en la muestra nj. 2. n<=: de las observaciones en la muestra, cuántas son menores o iguales que la mediana

total. 3. n>: de las observaciones en la muestra, cuántas son mayores o iguales que la mediana

total. 4. Mediana: la mediana muestral. 5. CL: los límites de confianza superior e inferior para la mediana de la población de donde

vino la muestra. Abajo de la pantalla se muestra un estadístico de prueba y un P-Valor. Tratando los n<= y las n> columnas como columnas de una tabla de contingencia de dos vías, se calcula un estadístico de prueba ji-cuadrada. P-Valores pequeños (menores que 0.05 operando a un nivel de significancia del 5%) llevan a la conclusión de que no todas las medianas son iguales, como en este ejemplo. Panel de Opciones

• Nivel de Confianza: nivel usado para los límites de confianza.

Muestra Tamaño de Muestra n<= n> Mediana LC inferior 95.0% LC superior 95.0% Tarea 1 13 7 6 31.0 27.0 38.6056 Tarea 2 12 8 4 29.5 25.0 39.6809 Tarea 3 10 2 8 34.0 30.3244 44.0 Tarea 4 10 2 8 37.0 28.9733 46.3511 Tarea 5 12 8 4 29.0 21.5318 34.8936 Tarea 6 11 8 3 28.0 23.8509 35.5745

Page 27: Comparación de Varias Muestras - STATGRAPHICS

STATGRAPHICS – Rev. 4/d/yyyy

© 2006 por StatPoint, Inc. Comparación de Varias Muestras - 27�

Gráfico de Medianas El Gráfico de Medianas despliega los intervalos de confianza para las medianas desplegadas por el panel Prueba de la Mediana de Mood.

Task 1 Task 2 Task 3 Task 4 Task 5 Task 6

Gráfico de Medianas con Intervalos del 95.0% de Confianza

21

26

31

36

41

46

51

resp

uest

a

Panel de Opciones

• Nivel de Confianza: nivel usado para los límites de confianza.

Guardar Resultados Los siguientes resultados pueden guardarse en la hoja de datos:

1. Recuentos – los q tamaños de muestra nj. 2. Medias – las q medias muestrales. 3. Medianas – las q medianas muestrales. 4. Desviaciones Estándar – las q desviaciones estándar muestrales

5. Errores Estándar – los errores estándar de cada media muestral, jwithin nMS / . 6. Etiquetas – una etiqueta para cada muestra. 7. Residuales – los n residuales. 8. Rangos – los q rangos muestrales. 9. Columna de Datos – las n observaciones arregladas en una sola columna. 10. Columna Códigos – n códigos que identifican la muestra correspondiente a cada

observación en la Columna de Datos.

Page 28: Comparación de Varias Muestras - STATGRAPHICS

STATGRAPHICS – Rev. 4/d/yyyy

© 2006 por StatPoint, Inc. Comparación de Varias Muestras - 28�

Cálculos Análisis de Varianza

Fuente

Suma de Cuadrados D.F. Media cuadrática

F-Radio

Intergrupal ( )SS n Y Ybetween j j

j

q

= −=∑

1

2

df qbetween = −1

MSSSdfbetween

between

between=

FMSMS

between

within=

Intragrupal ( )SS Y Ywithin ij j

i

n

j

q j

= −==∑∑

11

2

( )df nwithin jj

q

= −=∑ 1

1

MS

SSdfwithin

within

within=

Total

( )SS Y Ytotal iji

n

j

q j

= −==∑∑

11

2

n-1

Prueba de Cochran El estadístico desplegado se calcula por

( )A

s

s

j

jj

q=

=∑

max 2

2

1

(17)

Para probar significancia estadística,

( )C qA

A= −

−⎛⎝⎜

⎞⎠⎟1

1 (18)

es comparada con una F distribución con (n/q - 1) y (n/q - 1)(q - 1) grados de libertad. Prueba de Bartlett El estadístico desplegado se calcula por

( ) ( ) ( )BC

dfe MSE n sjj

q

j= − −⎡

⎣⎢

⎦⎥

=∑1

11

2ln ( ) ln (19)

donde

Page 29: Comparación de Varias Muestras - STATGRAPHICS

STATGRAPHICS – Rev. 4/d/yyyy

© 2006 por StatPoint, Inc. Comparación de Varias Muestras - 29�

( ) ( )Cq

ndfej

j

q

= +−

−⎛

⎝⎜

⎠⎟ −

⎣⎢⎢

⎦⎥⎥

=∑1

13 1

111

1 (20)

( )MSEdfe

n sjj

q

j= −=∑1

11

2 (21)

( )dfe n jj

q

= −=∑ 1

1 (22)

B es comparada con una distribución ji-cuadrada con (q-1) grados de libertad. Prueba de Hartley

( )( )2

2

minmax

j

j

ss

H = (23)

Límites de Confianza de Medianas Los límites desplegados son una interpolación no lineal de intervalos de confianza a los niveles de confianza superior e inferior más cercanos que el nivel requiera. Luego de ordenar las observaciones, el intervalo que va de la d-ésima observación más pequeña en la muestra a la d-ésima observación más grande forma un intervalo de confianza para la mediana con un nivel de confianza 1 – 2 PB(d-1), donde PB representa la distribución binomial con p = 0.5 y n = nj.