41
STATGRAPHICS – Rev. 9/14/2006 © 2006 por StatPoint, Inc. Modelos Lineales Generalizados - 1 Modelos Lineales Generalizados Resumen El procedimiento Modelos Lineales Generalizados esta diseñado para construir un modelo estadístico que describa el impacto de uno o más factores X en una o más variables dependientes Y, los factores pueden ser: 1. Cuantitativos o categóricos 2. Cruzados o anidados 3. Fijos o aleatorios Los errores asumen que siguen una distribución normal. Pueden proporcionarse ponderaciones si se desea una solución por mínimos cuadrados ponderados. La salida incluye una gran variedad de tablas y gráficos, incluyendo gráficos de superficie de respuestas, gráficos de residuos, y MANOVA si más de una variable dependiente es introducida Muchos diferentes tipos de estudios experimentales pueden ser analizados utilizando este procedimiento. Esto incluye casos de modelos especiales como los que pueden ser estimados por Regresión Múltiple, ANOVA con un solo factor, ANOVA Multifactor, y procedimientos de Componentes de Varianza. Adicionalmente, este puede analizar modelos mixtos que no pueden ser manejados por cualquiera de los procedimientos anteriores Ejemplo StatFolio: glm.sgp Datos del Ejemplo: Los datos del ejemplo que serán analizados contienen mediciones repetidas y provienen de Milliken y Johnson (1996). En este estudio, 2 drogas experimentales y una de control fueron administradas a 8 sujetos cada una (para un total de 24 sujetos). Los latidos del corazón de los sujetos fueron medidos en 4 diferentes tiempos después administrar la droga. Los datos están contenidos en el archivo heartrate.sf3, una porción de estos se muestra abajo: Subject (Sujeto) Drug (Droga) Time (Tiempo) Herat Rate (Ritmo Cardiaco) 1 AX23 T1 72 1 AX23 T2 86 1 AX23 T3 81 1 AX23 T4 77 2 BWW9 T1 85 2 BWW9 T2 86 2 BWW9 T3 83 2 BWW9 T4 80 3 CONTROL T1 69 3 CONTROL T2 73 3 CONTROL T3 72 3 CONTROL T4 74

Modelos Lineales Generales - Statgraphics

  • Upload
    others

  • View
    21

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Modelos Lineales Generales - Statgraphics

STATGRAPHICS – Rev. 9/14/2006

© 2006 por StatPoint, Inc. Modelos Lineales Generalizados - 1

Modelos Lineales Generalizados Resumen El procedimiento Modelos Lineales Generalizados esta diseñado para construir un modelo estadístico que describa el impacto de uno o más factores X en una o más variables dependientes Y, los factores pueden ser:

1. Cuantitativos o categóricos 2. Cruzados o anidados 3. Fijos o aleatorios

Los errores asumen que siguen una distribución normal. Pueden proporcionarse ponderaciones si se desea una solución por mínimos cuadrados ponderados. La salida incluye una gran variedad de tablas y gráficos, incluyendo gráficos de superficie de respuestas, gráficos de residuos, y MANOVA si más de una variable dependiente es introducida Muchos diferentes tipos de estudios experimentales pueden ser analizados utilizando este procedimiento. Esto incluye casos de modelos especiales como los que pueden ser estimados por Regresión Múltiple, ANOVA con un solo factor, ANOVA Multifactor, y procedimientos de Componentes de Varianza. Adicionalmente, este puede analizar modelos mixtos que no pueden ser manejados por cualquiera de los procedimientos anteriores Ejemplo StatFolio: glm.sgp Datos del Ejemplo: Los datos del ejemplo que serán analizados contienen mediciones repetidas y provienen de Milliken y Johnson (1996). En este estudio, 2 drogas experimentales y una de control fueron administradas a 8 sujetos cada una (para un total de 24 sujetos). Los latidos del corazón de los sujetos fueron medidos en 4 diferentes tiempos después administrar la droga. Los datos están contenidos en el archivo heartrate.sf3, una porción de estos se muestra abajo:

Subject (Sujeto)

Drug (Droga)

Time (Tiempo)

Herat Rate (Ritmo Cardiaco)

1 AX23 T1 72 1 AX23 T2 86 1 AX23 T3 81 1 AX23 T4 77 2 BWW9 T1 85 2 BWW9 T2 86 2 BWW9 T3 83 2 BWW9 T4 80 3 CONTROL T1 69 3 CONTROL T2 73 3 CONTROL T3 72 3 CONTROL T4 74 … … … …

Page 2: Modelos Lineales Generales - Statgraphics

STATGRAPHICS – Rev. 9/14/2006

© 2006 por StatPoint, Inc. Modelos Lineales Generalizados - 2

Puesto que a cada uno de los sujetos se les dio una droga diferente, el Sujeto se dice que esta “mezclado” dentro de la Droga. Este es un experimento con “mediciones repetidas” puesto que las mediciones fueron tomadas para cada sujeto en tiempos múltiples. Entrada de Datos La primera de dos cajas de dialogo requieren los nombres de las columnas que contienen las variables dependientes Y y las variables independientes X:

• Y: Una o mas columnas numéricas que contienen las n observaciones para las variables

dependientes Y. Si más de una columna es introducida, modelos por separado serán ajustados para cada una. Adicionalmente, un MANOVA puede ser requerido.

• Factores Categóricos: Columnas numéricas o no numéricas que contienen n niveles de

cualquier factor no cuantitativo X. • Factores Cuantitativos: Columnas numéricas que contienen n valores de cualquier factor

cuantitativo X. • Ponderaciones: Columna numérica opcional que contiene las n ponderaciones wi que serán

aplicadas a los cuadrados de los residuos cuando se realiza un ajuste de mínimos cuadrados ponderados. En casos donde la varianza de Y se sabe que varia, las ponderaciones serán inversamente proporcional a estas varianzas. Si no se especifica nada en este campo, todos los wi = 1.

Page 3: Modelos Lineales Generales - Statgraphics

STATGRAPHICS – Rev. 9/14/2006

© 2006 por StatPoint, Inc. Modelos Lineales Generalizados - 3

• Selección: Selección de un subconjunto de los datos. En la muestra del estudio, hay una respuesta y tres factores categóricos. La segunda caja de dialogo es utilizada para especificar el modelo que será ajustado a los datos:

• Factores: A cada uno de los factores categóricos y cuantitativos se les asigna una letra entre

A y Z. • Efectos: Los efectos que serán incluidos en el modelo son especificados usando las letras

asignadas a los factores. Los efectos son introducidos como sigue:

1. Efectos Principales para Factores Cruzados – Introduzca una sola letra tal como A. 2. Interacciones entre Factores Cruzados – Introduzca un termino tal como A*C para

incluir la interacción entre los factores A y C o A*B*C para especificar una interacción de tres factores.

3. Efectos de Factores Anidados- Introduzca un termino tal como B(A) si el factor B esta

anidado dentro del factor A o C(B A) si el factor C esta anidado dentro de combinaciones de los factores A y B.

4. Efectos de Primer Orden de Factores Cuantitativos- Introduzca una sola letra tal como

A.

5. Efectos de Segundo Orden de Factores Cuantitativos- Introduzca un termino tal como A*A para los efectos cuadráticos de A o A*B para un producto cruzado.

• Factores Aleatorios: Los Factores Categóricos pueden ser Fijos o Aleatorios. Un factor es

aleatorio si sus niveles consisten de una muestra aleatoria de niveles. Un factor es fijo si sus

Page 4: Modelos Lineales Generales - Statgraphics

STATGRAPHICS – Rev. 9/14/2006

© 2006 por StatPoint, Inc. Modelos Lineales Generalizados - 4

niveles son seleccionados por un proceso no aleatorio o si sus niveles consisten de todos los posibles niveles para este factor.

Los efectos especificados en la caja de dialogo anterior son:

A: El efecto principal de Drug. Drug es un factor fijo, puesto que los efectos de las drogas especificadas y probadas deben ser estimados. B(A): Los efectos del Subject, esta anidados dentro de Drug. Subject esta anidado dentro de Drug, ya que a diferentes sujetos les fueron dadas cada droga. Subject es también un factor aleatorio, ya que los 24 sujetos seleccionados son una muestra aleatoria de la población de interés, la cual consiste de todos aquellos que pueden tomar estas drogas en el futuro. C: Los efectos principales de Time. Time es un factor fijo, ya que los efectos en tiempos especificados son estimados. A*C: Las interacciones entre Drug y Time. Este termino permitirá al efecto Time ser diferente para los 3 niveles de Drug.

Resumen del Análisis El Resumen del Análisis muestra información sobre el modelo ajustado. La sección superior de la salida se muestra a continuación: Modelos Lineales Generales Número de variables dependientes: 1 Número de factores categóricos: 3 A=Drug B=Subject C=Time Número de factores cuantitativos: 0 Análisis de Varianza para Heart Rate Fuente Suma de Cuadrados Gl Cuadrado Medio Razón-F Valor-P Modelo 4487.94 32 140.248 18.83 0.0000 Residuo 469.219 63 7.44792 Total (Corr.) 4957.16 95

Suma de Cuadrados Tipo III Fuente Suma de Cuadrados Gl Cuadrado Medio Razón-F Valor-P Drug 1333.0 2 666.5 5.99 0.0088 Subject(Drug) 2337.91 21 111.329 14.95 0.0000 Time 289.615 3 96.5382 12.96 0.0000 Drug*Time 527.417 6 87.9028 11.80 0.0000 Residuo 469.219 63 7.44792 Total (corregido) 4957.16 95

Incluida en la salida están: • Análisis de Varianza: Una descomposición de la suma de cuadrados para la variable

dependiente Y en suma de cuadrados del modelo y una suma de cuadrados del error o residuos. La prueba F prueba la significancia estadística del modelo ajustado. Los valores P pequeños (menores que 0.05 si opera a un nivel de confianza del 95%) indican que al menos

Page 5: Modelos Lineales Generales - Statgraphics

STATGRAPHICS – Rev. 9/14/2006

© 2006 por StatPoint, Inc. Modelos Lineales Generalizados - 5

un factor en el modelo esta significativamente relacionado con la variable dependiente. En el ejemplo actual, el modelo es altamente significativo.

• Sumas de Cuadrados Tipo III: Una descomposición de la suma de cuadrados del modelo

en componentes para cada factor. Basado en la configuración especificada en la caja de dialogo Opciones del Análisis, ambas sumas de cuadrados Tipo III o Tipo I son mostradas. Las sumas de cuadrados Tipo III prueban la significancia marginal de cada factor, asumiendo que esta fue la ultima en ser introducida al modelo. Las sumas de cuadrados de Tipo I prueban la significancia de los efectos en el orden que ellos fueron agregados al modelo. Los valores P pequeños indican efectos significativos. En este ejemplo, todos los 4 efectos son altamente significativos.

La segunda sección del análisis es importante si el experimento contiene algunos efectos aleatorios.

Cuadrados Medios Esperados (CME) Fuente CME Drug (5)+4.0(2)+Q1 Subject(Drug) (5)+4.0(2) Time (5)+Q2 Drug*Time (5)+Q3 Residuo (5)

Denominadores de Prueba-F Fuente Gl Cuadrado Medio Denominador Drug 21.00 111.329 (2) Subject(Drug) 63.00 7.44792 (5) Time 63.00 7.44792 (5) Drug*Time 63.00 7.44792 (5)

Componentes de Varianza Fuente Estimado Subject(Drug) 25.9702 Residuo 7.44792

Esto incluye: • Cuadrados Medios Esperados: El cuadrado medio esperado para cada factor es

determinado usando el método de síntesis de Hartley (1967). Los cuadrados medios en la tabla Sumas de Cuadrados son etiquetados de superior a inferior como (1) para Drug, (2) para Subject dentro de Drug, y así hasta (5) para los Residuos. Un término tal como Q1 indica una cantidad única para el factor en el cual aparece. Los cuadrados medios esperados son importante en la construcción de pruebas F para los modelos que contienen factores aleatorios.

• Denominadores Prueba F: El cuadrado medio usado como el denominador de la prueba F

para cada factor, junto con sus grados de libertad y como este fue determinado. Por ejemplo, la prueba F para Drug usa el cuadrado medio (2) en su denominador, el cual es igual a usar Subject (Drug) como el término del error.

• Componentes de Varianza: Para los modelos con factores aleatorios, estima el componente

de varianza σj de cada efecto aleatorio. Los componentes son derivados igualando los cuadrados medios con sus valores esperados, lo cual es conocido como el método de

Page 6: Modelos Lineales Generales - Statgraphics

STATGRAPHICS – Rev. 9/14/2006

© 2006 por StatPoint, Inc. Modelos Lineales Generalizados - 6

momentos. Los componentes de varianza miden la variabilidad en la respuesta inducida por la variación en los efectos aleatorios. Por ejemplo, la varianza de los latidos del corazón entre personas que se les da la misma droga en el mismo tiempo es estimada alrededor de 26.0.

La sección final de la tabla muestra estadísticas calculadas del modelo ajustado:

R-Cuadrada = 90.5345 porcentaje R-Cuadrada(ajustada por g.l.) = 85.7267 porcentaje Error Estándar del Est. = 2.72909 Error medio absoluto = 1.78841 Estadístico Durbin-Watson = 2.23373 (P=0.1049) Análisis de Residuos Estimación Validación n 96 MSE 7.44792 MAE 1.78841 MAPE 2.38762 ME 3.70074E-16 MPE -0.0906573

La salida despliega: • Estadísticas: Resumen de las estadísticas para el modelo ajustado, incluyendo:

R-cuadrada – La R-Cuadrada representa el porcentaje de la variabilidad en Y que es explicado por el modelo de regresión ajustado, el rango va de 0% a 100%. Es calculado por:

%11002⎟⎟⎠

⎞⎜⎜⎝

⎛−=

total

error

SSSS

R (1)

Para los datos del ejemplo, la regresión acumulo alrededor del 90.5% de la variabilidad en los latidos del corazón. El restante 9.5% es atribuido a las desviaciones del modelo, las cuales pueden ser debidas a otros factores, para medir el error, o para una falla del modelo actual para ajustar los datos adecuadamente.

R-Cuadrada Ajustada – El estadístico R cuadrado, es ajustado por el número de coeficientes en el modelo

%111002⎥⎦

⎤⎢⎣

⎡⎟⎟⎠

⎞⎜⎜⎝

⎛−−

−=total

erroradj SS

SSpn

nR (2)

donde p es el numero de coeficientes estimados del modelo. Este valor es frecuentemente usado para comparar modelos con diferente número de coeficientes. Error Estándar de Est. – La desviación estándar estimada de los residuos (la desviación estándar alrededor del modelo)

CME=σ (3)

Este valor es usado para crear límites de predicción para nuevas observaciones.

Page 7: Modelos Lineales Generales - Statgraphics

STATGRAPHICS – Rev. 9/14/2006

© 2006 por StatPoint, Inc. Modelos Lineales Generalizados - 7

Media del Error Absoluto – El valor absoluto promedio de los residuos.

MAEe

n

ii

n

= =∑ | |

1 (4)

Este valor indica el error en promedio en la predicción de la respuesta usando el modelo ajustado. Estadístico Durbin-Watson – Una medición de la correlación serial entre los residuos:

DWe e

e

i ii

n

ii

n=−+

=

=

( )11

12

2

1

(5) Si los residuos varían aleatoriamente, este valor debería ser cercano a 2. Un valor P pequeño indica que un patrón no aleatorio existe en los residuos. Para datos registrados en el tiempo, un valor P pequeño indicaría que alguna tendencia en el tiempo no ha sido tomada en cuenta. En el ejemplo actual, el valor P es más grande que 0.05, por lo cual no hay correlación significante a un nivel de confianza del 95%.

• Análisis de Residuos: Si un subconjunto de filas en la hoja de datos han sido excluidos del análisis usando el campo Selección en la caja de dialogo de entrada de datos, el modelo ajustado es utilizado para realizar predicciones de los valores Y para estas filas. Esta tabla muestra las estadísticas de los errores de predicción, definidas por

iii yye ˆ−= (6) Está incluido el cuadrado medio del error:

11

2

−=∑=

n

eCME

n

ii

(7)

la media del error absoluto:

n

eMAE

n

ii∑

== 1

(8) el porcentaje de la media del error absoluto:

Page 8: Modelos Lineales Generales - Statgraphics

STATGRAPHICS – Rev. 9/14/2006

© 2006 por StatPoint, Inc. Modelos Lineales Generalizados - 8

%/||100

1

n

yeMAPE

i

n

ii∑

== (9)

La media del error:

n

eME

n

ii∑

== 1 (10)

y el porcentaje de la media del error:

%/100

1

n

yeMPE

i

n

ii∑

== (11)

Estas estadísticas de validación pueden ser comparadas con las estadísticas del modelo ajustado para determinar que bueno es el modelo para predecir observaciones fuera de los datos utilizados para estimarlo.

Opciones del Análisis

Page 9: Modelos Lineales Generales - Statgraphics

STATGRAPHICS – Rev. 9/14/2006

© 2006 por StatPoint, Inc. Modelos Lineales Generalizados - 9

• Sumas de Cuadrados: Las sumas de cuadrados a desplegar. Sumas de cuadrados Tipo I miden la contribución de cada variable al modelo cuando se agregan en el orden indicado. Sumas de cuadrados Tipo III miden la contribución marginal de cada efecto, asumiendo que este fue agregado al final.

• Desplegar: Si más de una variable dependiente ha sido especificada, la variable a utilizar

cuando se crean gráficos y tablas que despliegan solo una variable. • Constante en el Modelo: Si esta opción no es desactivada, el termino constante β0 será

omitido del modelo. Lo cual permitirá que la regresión pase a través del origen . • Incluir MANOVA: Si más de una variable dependiente ha sido especificada, activar esta

caja causara un análisis de varianza multivariado incluyéndose en Resumen del Análisis. Para más información, ver el ejemplo después en este documento.

• Transformación Box-Cox: Si se selecciona, una transformación Box-Cox será aplicada a

las variable(s) dependientes. Las transformaciones Box-Cox son una forma de tratar con situaciones en las cuales las desviaciones del modelo de regresión no tienen una varianza constante. Puedes especificar los parámetros Box-Cox o pedir que el programa automáticamente encuentre el óptimo potencial. Para detalles, ver la documentación de Transformaciones Box-Cox.

• Términos Factor y Error: El denominador puede ser usado para cada factor cuando se crea

una prueba F. La opción Automático produce que el programa seleccione el denominador automáticamente. Puedes sustituir las selecciones del programa haciendo clic en un factor y haciendo posteriormente clic en el término del error deseado. Los términos de error actuales son desplegados en el campo Selecciones.

Coeficientes del Modelo El modelo lineal es de la forma

Y = β0 + β1X1 + β2X2 +… + βp-1Xp-1 + εi (12) donde Y es la variable dependiente, X’s tienen información acerca de cada uno de los efectos en el modelo, y los ε’s son asumidos independientes y normales con media 0. El panel Coeficientes del Modelo despliega los coeficientes estimados, sus errores estándar, limites de confianza inferior y superior, y la varianza de los factores:

Page 10: Modelos Lineales Generales - Statgraphics

STATGRAPHICS – Rev. 9/14/2006

© 2006 por StatPoint, Inc. Modelos Lineales Generalizados - 10

Límites de confianza del 95.0% para los coeficientes estimados (Heart Rate) Error Parámetro Estimado Estándar Límite Inferior Límite Superior V.I.F. CONSTANT 76.4063 0.278536 75.8496 76.9629 Drug -0.125 0.39391 -0.912167 0.662167 1.33333 Drug 4.625 0.39391 3.83783 5.41217 1.33333 Subject(Drug) 2.71875 1.27641 0.168036 5.26946 1.75 Subject(Drug) 2.46875 1.27641 -0.0819642 5.01946 1.75 Subject(Drug) 0.09375 1.27641 -2.45696 2.64446 1.75 Subject(Drug) 6.21875 1.27641 3.66804 8.76946 1.75 Subject(Drug) 1.96875 1.27641 -0.581964 4.51946 1.75 Subject(Drug) -4.90625 1.27641 -7.45696 -2.35554 1.75 Subject(Drug) 0.96875 1.27641 -1.58196 3.51946 1.75 Subject(Drug) -7.53125 1.27641 -10.082 -4.98054 1.75 Subject(Drug) 15.3438 1.27641 12.793 17.8945 1.75 Subject(Drug) 0.46875 1.27641 -2.08196 3.01946 1.75 Subject(Drug) 1.71875 1.27641 -0.831964 4.26946 1.75 Subject(Drug) 5.59375 1.27641 3.04304 8.14446 1.75 Subject(Drug) -4.28125 1.27641 -6.83196 -1.73054 1.75 Subject(Drug) -0.28125 1.27641 -2.83196 2.26946 1.75 Subject(Drug) -1.15625 1.27641 -3.70696 1.39446 1.75 Subject(Drug) 3.21875 1.27641 0.668036 5.76946 1.75 Subject(Drug) 1.46875 1.27641 -1.08196 4.01946 1.75 Subject(Drug) -8.65625 1.27641 -11.207 -6.10554 1.75 Subject(Drug) -5.53125 1.27641 -8.08196 -2.98054 1.75 Subject(Drug) -0.28125 1.27641 -2.83196 2.26946 1.75 Subject(Drug) -1.65625 1.27641 -4.20696 0.894464 1.75 Time -1.40625 0.482439 -2.37033 -0.442171 1.5 Time 2.55208 0.482439 1.588 3.51616 1.5 Time 0.635417 0.482439 -0.328663 1.5995 1.5 Drug*Time -4.375 0.682272 -5.73841 -3.01159 2.0 Drug*Time 1.66667 0.682272 0.303253 3.03008 2.0 Drug*Time 4.08333 0.682272 2.71992 5.44675 2.0 Drug*Time 2.125 0.682272 0.761586 3.48841 2.0 Drug*Time 0.416667 0.682272 -0.946747 1.78008 2.0 Drug*Time -3.04167 0.682272 -4.40508 -1.67825 2.0

El modelo puede ser un poco complicado particularmente cuando contiene factores categóricos. Este incluye un término para cada grado de libertad asociado con los efectos. Excepto para casos simples, no se espera que el usuario calcule los valores usando el modelo, ya que el panel Reportes construye predicciones para cualquier combinación de factores. • Parámetro: Los coeficientes estimados del modelo. Las columnas de X son definidas como

sigue:

1. Constante: X contiene una columna de 1’s. 2. Efecto principal de un factor cuantitativo: X contiene los valores de la variable

independiente.

3. Efecto principal de un factor categórico: Para un factor con k niveles, X contiene k-1 variables indicadoras. La primer variable es igual a 1 cuando el factor esta en su primer nivel, -1 cuando el factor esta en su ultimo nivel, y 0 en otro casos. La segunda variable es igual a 1 cuando el factor esta en su segundo nivel, -1 -1 cuando el factor esta en su ultimo nivel, y 0 en otros casos. Etc.

Page 11: Modelos Lineales Generales - Statgraphics

STATGRAPHICS – Rev. 9/14/2006

© 2006 por StatPoint, Inc. Modelos Lineales Generalizados - 11

4. Interacciones entre factores: X contiene el producto de las columnas creadas por estos factores.

Por ejemplo, la ecuación para el primer sujeto que le fue dado la primera droga en el primer tiempo en la tabla anterior es:

Time = 76.4063 – 0.125(1) + 2.71875(1) – 1.40625(1) - 4.375(1) = 73.2188

La ecuación para el primer sujeto que le fue dada la última droga en el primer tiempo en la tabla anterior es:

Time = 76.4063 – 0.125(-1) + 4.625(-1) + 0.09375(1) – 1.40625(1) - 4.375(-1)

+ 2.125(-1) = 72.8438

• Errores Estándar: Los errores estándar estimados para cada uno de los coeficientes del modelo.

• Limites de Confianza: Los limites de confianza de dos lados o un lado para los coeficientes

del modelo. • V.I.F.: Inflación de varianza de los factores. La inflación de varianza de los factores mide la

varianza de los coeficientes comparada con como seria si las variables independientes fueran no correlacionados. Los valores mas grandes que 10.0 usualmente indican multicolinealidad seria entre las variables predictoras, lo cual produce estimadores imprecisos de los coeficientes del modelo.

Opciones del Panel

• Tipo de Intervalo: Seleccione limites de confianza de dos lados o de un lado. • Nivel de de Confianza: Porcentaje usado para los límites de confianza. • Mostrar Correlaciones: Si se selecciona, una tabla de correlaciones estimadas entre los

coeficientes del modelo será desplegada. Esta tabla puede ser de ayuda en determinar que tan bien los efectos de diferentes variables independientes han sido separados entre ellos.

Page 12: Modelos Lineales Generales - Statgraphics

STATGRAPHICS – Rev. 9/14/2006

© 2006 por StatPoint, Inc. Modelos Lineales Generalizados - 12

Gráfico de Dispersión El Gráfico de Dispersión grafica las observaciones contra alguno de los factores seleccionado.

AX23 BWW9 CONTROLDrug

Diagrama de Dispersión para Heart Rate

61

66

71

76

81

86

91H

eart

Rat

e

Esto es frecuentemente de ayuda para ajustar los puntos en la dirección horizontal presionando el botón Ajustar en la barra de herramientas del análisis, como en la grafica anterior. Ajustar compensa cada punto una cantidad aleatoria para prevenir que los puntos caigan unos encima de otros. Opciones del Panel

• Graficar contra: El factor a graficar sobre el eje horizontal.

Page 13: Modelos Lineales Generales - Statgraphics

STATGRAPHICS – Rev. 9/14/2006

© 2006 por StatPoint, Inc. Modelos Lineales Generalizados - 13

Tabla de Medias La Tabla de Medias despliega las medias por mínimos cuadrados para cada nivel de los factores y para pares de niveles incluyendo cualquier interacción de dos factores. Las medias por mínimos cuadrados representan el valor medio predicho de Y en un nivel especificado del factor categórico X cuando todas las variables cuantitativas son fijas igual a sus medias observadas y todas las variables indicadoras para los factores categóricos son fijados iguales a 0. Cada media es mostrada junto con su estimación del error estándar y un intervalo de confianza:

Tabla de Medias de Mínimos Cuadrados para Heart Rate con intervalos de confianza del 95.0 % Error Límite Límite Nivel Conteo Media Estándar Inferior Superior GRAND MEAN 96 76.4063 0.278536 75.8496 76.9629 Drug AX23 32 76.2813 1.86522 72.4023 80.1602 BWW9 32 81.0313 1.86522 77.1523 84.9102 CONTROL 32 71.9063 1.86522 68.0273 75.7852 Subject dentro Drug 1 AX23 4 79.0 1.36454 76.2732 81.7268 2 BWW9 4 83.5 1.36454 80.7732 86.2268 3 CONTROL 4 72.0 1.36454 69.2732 74.7268 4 AX23 4 82.5 1.36454 79.7732 85.2268 5 BWW9 4 83.0 1.36454 80.2732 85.7268 6 CONTROL 4 67.0 1.36454 64.2732 69.7268 7 AX23 4 77.25 1.36454 74.5232 79.9768 8 BWW9 4 73.5 1.36454 70.7732 76.2268 9 CONTROL 4 87.25 1.36454 84.5232 89.9768 10 AX23 4 76.75 1.36454 74.0232 79.4768 11 BWW9 4 82.75 1.36454 80.0232 85.4768 12 CONTROL 4 77.5 1.36454 74.7732 80.2268 13 AX23 4 72.0 1.36454 69.2732 74.7268 14 BWW9 4 80.75 1.36454 78.0232 83.4768 15 CONTROL 4 70.75 1.36454 68.0232 73.4768 16 AX23 4 79.5 1.36454 76.7732 82.2268 17 BWW9 4 82.5 1.36454 79.7732 85.2268 18 CONTROL 4 63.25 1.36454 60.5232 65.9768 19 AX23 4 70.75 1.36454 68.0232 73.4768 20 BWW9 4 80.75 1.36454 78.0232 83.4768 21 CONTROL 4 70.25 1.36454 67.5232 72.9768 22 AX23 4 72.5 1.36454 69.7732 75.2268 23 BWW9 4 81.5 1.36454 78.7732 84.2268 24 CONTROL 4 67.25 1.36454 64.5232 69.9768 Time T1 24 75.0 0.557073 73.8868 76.1132 T2 24 78.9583 0.557073 77.8451 80.0716 T3 24 77.0417 0.557073 75.9284 78.1549 T4 24 74.625 0.557073 73.5118 75.7382 Drug por Time AX23 T1 8 70.5 0.964878 68.5718 72.4282 AX23 T2 8 80.5 0.964878 78.5718 82.4282 AX23 T3 8 81.0 0.964878 79.0718 82.9282 AX23 T4 8 73.125 0.964878 71.1968 75.0532 BWW9 T1 8 81.75 0.964878 79.8218 83.6782 BWW9 T2 8 84.0 0.964878 82.0718 85.9282 BWW9 T3 8 78.625 0.964878 76.6968 80.5532 BWW9 T4 8 79.75 0.964878 77.8218 81.6782 CONTROL T1 8 72.75 0.964878 70.8218 74.6782 CONTROL T2 8 72.375 0.964878 70.4468 74.3032 CONTROL T3 8 71.5 0.964878 69.5718 73.4282 CONTROL T4 8 71.0 0.964878 69.0718 72.9282

Page 14: Modelos Lineales Generales - Statgraphics

STATGRAPHICS – Rev. 9/14/2006

© 2006 por StatPoint, Inc. Modelos Lineales Generalizados - 14

Por ejemplo, la media de los latidos del corazón de los sujetos a los que se les dio la droga AX23 en el tiempo T1 es estimada entre 68.6 y 72.4, con una confianza del 95%. Opciones del Panel

• Nivel de Confianza: El nivel de confianza asociado con cada intervalo.

Gráfico de Medias Las medias por nivel para un factor seleccionado pueden ser graficadas usando el Gráfico de Medias.

AX23 BWW9 CONTROL

Medias y 95.0 Porciento Intervalos HSD de Tukey

Drug

68

71

74

77

80

83

86

Hea

rt R

ate

Si el factor graficado sobre el eje horizontal es categórico, entonces la grafica mostrara las medias por mínimos cuadrados con sus intervalos de incertidumbre. Los tipos de intervalos despegados dependen de la configuración en Opciones del Panel. Si el factor sobre el eje horizontal es cuantitativo, la gráfica mostrara el modelo ajustado con todos los otros factores cuantitativos fijados igual a sus medias observadas y todos los factores categóricos fijados igual a 0. Si todos los tamaños de muestras proporcionados son iguales (o parecidos), el analista puede determinar cuales medias por nivel de un factor categórico son significativamente diferentes usando procedimientos como LSD, Tukey, Scheffe, o Bonferroni simplemente viendo si un par de intervalos se traslapan en la dirección vertical o no. Un par de intervalos que no se traslapan indican una diferencia significativa entre las medias al nivel de confianza seleccionado. En este caso, note que el intervalo para la droga BWW9 no se traslapa con el intervalo de CONTROL, indicando una diferencia significativa entre las medias de esos dos niveles. El intervalo para

Page 15: Modelos Lineales Generales - Statgraphics

STATGRAPHICS – Rev. 9/14/2006

© 2006 por StatPoint, Inc. Modelos Lineales Generalizados - 15

AX23 y CONTROL se traslapan, sin embargo, no pueden ser declarados significativamente diferentes. Opciones del Panel

• Intervalos: El método usado para construir intervalos. • Factor: El factor que será graficado. • Nivel de Confianza: El nivel de confianza asociado con cada intervalo. Los tipoo de intervalos que pueden ser seleccionados son:

Intervalos de Confianza – Despliega intervalos de confianza para las medias por nivel usando las estimaciones del error estándar.

Intervalos LSD – Diseñado para comparar cualquier par de medias con el nivel de confianza establecido.

Intervalos de Tukey HSD - Diseñado para comparar todos los pares de medias. El nivel de confianza establecido aplica a la familia entera de comparación en pares.

Intervalos de Scheffe - Diseñado para comparar todos los contrastes. Generalmente no es relevante aquí. Intervalos de Bonferroni - Diseñado para comparar un número seleccionado de contrastes. Los intervalos de Tukey son generalmente más estrechos.

Cada uno de los intervalos es formado agregando un múltiplo del error estándar de la media por mínimos cuadrados a la media estimada. El múltiplo depende del método usado, como se

Page 16: Modelos Lineales Generales - Statgraphics

STATGRAPHICS – Rev. 9/14/2006

© 2006 por StatPoint, Inc. Modelos Lineales Generalizados - 16

describe en la documentación ANOVA de un factor. Los grados de libertad son aquellos asociados con el estimador del error estándar y dependen de la estructura del experimento.

Gráfico de Interacción Cuando una o mas interacciones significanttivas existen entre los factores categóricos, los factores involucrados deberán ser examinados juntos usando el Gráfico de Interacción.

Gráfica de Interacciones

Time

70

73

76

79

82

85

Hea

rt R

ate

T1 T2 T3 T4

DrugAX23BWW9CONTROL

El Gráfico de Interacción despliega las medias por mínimos cuadrados en todas las combinaciones de los dos factores. Si los factores no interactúan, las líneas en la gráfica deberían ser aproximadamente paralelas. Si ellas no lo son, entonces el efecto de un factor depende del nivel del otro, lo cual es la definición de interacción. Note que los latidos del corazón para el grupo CONTROL cambian muy poco en el tiempo, mientras que los otros muestran cambios significantes en ambas drogas. Adicionalmente, la droga BWW9 parece tener un efecto más rápido y prolongado que la droga AX23.

Page 17: Modelos Lineales Generales - Statgraphics

STATGRAPHICS – Rev. 9/14/2006

© 2006 por StatPoint, Inc. Modelos Lineales Generalizados - 17

Opciones del Panel

• Intervalo: El tipo de intervalo que será dibujado alrededor de cada media. La interacción es

tratada como un factor con número de niveles igual al número total de puntos graficados. • Interacción: Interacción a graficar. • Nivel de Confianza: El nivel de confianza asociado con cada intervalo. • Graficar sobre Ejes: El factor usado para definir los puntos a lo largo del eje horizontal. Las

líneas serán dibujadas en cada nivel del otro factor.

Pruebas de Rango Múltiples Para factores que muestran valores P significativos en la tabla del ANOVA y que no interactúan con otros factores, un análisis posterior puede ser realizado seleccionando las Pruebas de Rango Múltiples.

Comparaciones Múltiples para Heart Rate por Drug Método: 95.0 porciento LSD Drug Conteo Media MC Sigma MC Grupos Homogéneos CONTROL 32 71.9063 1.86522 X AX23 32 76.2813 1.86522 XX BWW9 32 81.0313 1.86522 X

Contraste Sig. Diferencia Límites +/- AX23 - BWW9 -4.75 5.48564 AX23 - CONTROL 4.375 5.48564 BWW9 - CONTROL * 9.125 5.48564

* denota una diferencia estadísticamente significativa.

Page 18: Modelos Lineales Generales - Statgraphics

STATGRAPHICS – Rev. 9/14/2006

© 2006 por StatPoint, Inc. Modelos Lineales Generalizados - 18

La tabla despliega cada una de las medias por mínimos cuadrados en orden creciente por su magnitud. Esta muestra:

• Conteo – El número de observaciones en el nivel especificado del factor. • Media LS – La media estimada por mínimos cuadrados. En el caso de diseños

balanceados, la media por mínimos cuadrados es equivalente al promedio de todas las observaciones en el nivel del factor indicado. En diseños desbalanceados, la media por mínimos cuadrados es el valor predicho de la variable dependiente cuando el factor especificado es fijado a un nivel particular mientras todos los otros son fijados igual a su media por nivel. Las medias por mínimos cuadrados se ajustan para cualquier desbalanceo en los datos haciendo predicciones en un nivel común de todos los factores.

• Sigma LS - El error estándar estimado de la media por mínimos cuadrados

• Grupos Homogéneos – Una ilustración grafica de cuales medias son significativamente

diferentes de otras, basada en los contrastes desplegados en la segunda mitad de la tabla. Cada columna X’s indica un grupo de medias dentro de las cuales no hay diferencia significativa. En el ejemplo, hay 2 columnas, cada una conteniendo un par de X’s. Esto indica que la droga AX23 no es significativamente diferente del CONTROL o de la droga BWW9. Aunque, ya que CONTROL y BWW9 no están dentro del mismo grupo, sus medias son significativamente diferentes.

La segunda mitad de la tabla despliega comparaciones de pares de medias por nivel.

• Diferencia – La diferencia entre las dos medias por mínimos cuadrados. • Limites – Un intervalo que estima la diferencia, usando el procedimiento de comparación

múltiple actualmente seleccionado. • Sig. – Un asterisco es colocado a cualquier diferencia que es significativamente diferente

de 0 en el nivel de significancia seleccionado actualmente, i.e., cualquier intervalo que no contiene al 0.

Opciones del Panel

Page 19: Modelos Lineales Generales - Statgraphics

STATGRAPHICS – Rev. 9/14/2006

© 2006 por StatPoint, Inc. Modelos Lineales Generalizados - 19

• Tipo: Tipo de contraste que será creado. • Factor: Factor que será analizado. • Método: Método usado para hacer comparaciones múltiples. • Nivel de Control: Si Tipo es fijado en Contra Control, el número de nivel contra todos los

otros niveles serán comparados. • Nivel de Confianza: El nivel de confianza usado por el procedimiento de comparación

múltiple. Los métodos disponibles son:

LSD – Forma un intervalo de confianza para cada par de medias en el nivel de confianza seleccionado usando una distribución t Student. Este procedimiento es debido a Fisher y es llamado el procedimiento (Mínima Diferencia Significativa- Least Significant Difference), ya que la magnitud de los limites indica la mas pequeña diferencia entre cualquier par de medias que pueden representar un diferencia significativa. Esta debería solamente se usa cuando la prueba F en la tabla ANOVA indica diferencias significativas entre las medias por nivel. La probabilidad de cometer un error de Tipo I α aplica a cada par de madias por separado. Si se hace más de una comparación, la probabilidad total de hallar al menos una par de medias significativamente diferentes cuando ellas no lo son puede considerarse más grande que α. Tukey HSD – Amplia los intervalos para permitir múltiples comparaciones entre todos los pares de medias usando una T de Tukey. Tukey llamo su procedimiento Diferencia Significativa Honesta (Honestly Significant Difference) ya que este controla la amplitud-experimental de la razón del error en α. Si todas las medias son iguales, la probabilidad de declarar que cualquiera de los pares es significativamente diferente en el experimento completo es igual a α. El procedimiento de Tukey es más conservador que el de LSD de Fisher, puesto que este hace más difícil declarar cualquier par de medias diferentes.

Scheffe – Diseñado para permitir la estimación de todos los posibles contrastes entre las medias muestrales (no solo la comparación de pares).

Bonferroni - Diseñado para permitir la estimación de cualquier número preseleccionado de contrastes. Esto limites son usualmente mas anchos que los limites de Tukey cuando todas las comparaciones a pares son realizadas. t Multivariada – Diseñado para conjuntos de combinaciones linealmente independientes de las medias.

Student-Newman-Keuls – A diferencia de los métodos previos, este método no crea intervalos para las diferencias de pares. En lugar de esto, ordena las medias en orden creciente y empieza a separarlas en grupos de acuerdo a los valores de la distribución de rango Estandarizado. Eventualmente, las medias son separadas en grupos homogéneos dentro de los cuales no hay diferencias significantes.

Page 20: Modelos Lineales Generales - Statgraphics

STATGRAPHICS – Rev. 9/14/2006

© 2006 por StatPoint, Inc. Modelos Lineales Generalizados - 20

Duncan - Similar al procedimiento Student-Newman-Keuls, excepto que este usa un valor critico diferente de la distribución de rango Estandarizado cuando se definen los grupos homogéneos. Una discusión detallada del procedimiento Duncan y Student-Newman-Keuls es dado por Milliken y Johnson (1992). Dunnett – Diseñado para comparaciones de pares cuando un nivel es un grupo control.

Ejemplo – Contrastes Especificados por el Usuario Los contrastes especificados por el usuario pueden ser probados fijando Tipo en Usuario-Especificado. Cuando OK es presionado, una hoja de datos pequeña será desplegada en la cual se definen los contrastes. Cada renglón de la hoja de datos especifica los coeficientes en el contraste

c1μ1 + c2μ2 +… + ckμk (13) donde los coeficientes cj deben sumar 1. Por ejemplo, la hoja de datos siguiente define un contraste de la forma

0.5μ1 + 0.5μ2 – μ3 (14) es el contraste de la respuesta promedio de las dos drogas experimentales con respecto a la de control.

La salida resultante despliega cada media por mínimos cuadrados y la estimación de un intervalo para los contrastes:

Page 21: Modelos Lineales Generales - Statgraphics

STATGRAPHICS – Rev. 9/14/2006

© 2006 por StatPoint, Inc. Modelos Lineales Generalizados - 21

Comparaciones Múltiples para Heart Rate por Drug Método: 95.0 porciento LSD Drug Conteo Media MC AX23 32 76.2813 BWW9 32 81.0313 CONTROL 32 71.9063

Contraste Sig. Estimado Límites +/- 0.5 0.5 -1.0 * 6.75 4.75071

* denota un estimado estadísticamente significativo. Si LSD es seleccionado, los limites +/- corresponden a intervalos de confianza al 95% para los contrastes deseados.

Gráficos de Superficie y Contornos Si el modelo implica al menos dos factores cuantitativos, un gráfico de superficie y contorno puede ser creado. Por ejemplo, usando el conjunto de datos 93cars.sf6, la siguiente grafica despliega un modelo para MPG Highway en función del Length y Width de los automóviles en este archivo.

Superficie de Respuesta Estimada

140 160 180 200 220Length

6063

6669

7275

78

Width14

24

34

44

54

MP

G H

ighw

ay

El modelo ajustado incluye los efectos principales de ambos factores junto con su interacción. Las líneas han sido trazadas en cada punto perpendicularmente al modelo estimado.

Page 22: Modelos Lineales Generales - Statgraphics

STATGRAPHICS – Rev. 9/14/2006

© 2006 por StatPoint, Inc. Modelos Lineales Generalizados - 22

Opciones del Panel

• Tipo: Tipo de grafico de respuesta a ser creado. El modelo ajustado puede ser graficado

como una Grafico de Superficie 3-D, un Grafico de Contorno 2-D, en cada esquina de un cuadrado, o en cada esquina de un cubo (teniendo al menos 3 factores cuantitativos).

• Contornos De, Hasta, y Por: Definen la región del contorno cuando se agregan contornos a

la grafica. Los contornos pueden ser dibujados como Líneas Sólidas, Regiones Pintadas de colores sólidos, usando un rango Continuo de colores, o usando Continuo como malla.

• Resolución: El número de localizaciones de X y Y entre las cuales la función es evaluada

cuando se construye el grafico. Una resolución más grande produce una suavizamiento del grafico. Puedes configurar los defectos de la resolución usando la selección Preferencias en el menú Edición.

• Divisiones Horizontales y Verticales de la Superficie: El numero de intervalos entre las

líneas de la malla a lo largo de los ejes X y Y. • Contorno Abajo: Dibuja un contorno en la base del cubo cuando se crea un gráfico de

superficie. • Mostrar Puntos: Grafica cada observación y agrega líneas verticales a la superficie. • Tipo: El tipo de superficie que será dibujada:

o Malla de Alambre: Una superficie definida solamente por líneas de malla.

Page 23: Modelos Lineales Generales - Statgraphics

STATGRAPHICS – Rev. 9/14/2006

© 2006 por StatPoint, Inc. Modelos Lineales Generalizados - 23

o Sólido: Una superficie definida por líneas de malla con un color sólido entre las líneas.

o Contorneado: Una superficie con regiones coloreadas mostrando el valor de la función.

• Factores: Presione este botón para determinar los limites de los factores sobre el grafico y

los valores se fijan otros factores. La siguiente caja de dialogo será desplegada:

• Bajo y Alto: Limites gráficos para los factores seleccionados.

• Mantener: Valores para fijar otros factores cuando se evalúa el modelo estimado.

Page 24: Modelos Lineales Generales - Statgraphics

STATGRAPHICS – Rev. 9/14/2006

© 2006 por StatPoint, Inc. Modelos Lineales Generalizados - 24

Ejemplo: Gráfico de Superficie con Contornos Abajo tipo Continuo

Superficie de Respuesta Estimada

140 160 180 200 220Length

6063

6669

7275

78

Width14

24

34

44

54

MP

G H

ighw

ayMPG Highway

15.020.025.030.035.040.045.0

Ejemplo: Gráfico Cuadrado

Gráfico Cuadrado para MPG Highway

Length

Wid

th

141.0 219.060.0

78.0

43.8968 30.57

25.604614.7226

Los valores desplegados en cada esquina del cuadrado son los valores predichos Y . ˆ

Reportes El panel Reportes despliega del modelo ajustado por mínimos cuadrados. Por defecto, la tabla incluye una línea para cada fila en la hoja de datos que tiene información completa de las variables X y valores perdidos para la variable Y. Esto permite agregar filas en la parte inferior de la hoja de datos correspondientes a niveles en los cuales se desea hacer predicciones sin afectar el modelo ajustado.

Page 25: Modelos Lineales Generales - Statgraphics

STATGRAPHICS – Rev. 9/14/2006

© 2006 por StatPoint, Inc. Modelos Lineales Generalizados - 25

Por ejemplo, suponga que se desea desplegar los valores estimados para cada una de las dos drogas experimentales en los 4 periodos de tiempo. Filas adicionales deberán agregarse en la parte inferior de la hoja de datos como sigue:

Row (Fila)

Subject (Sujeto)

Drug (Droga)

Time (Tiempo)

Heart Rate (Ritmo Cardiaco)

97 0 AX23 T1 98 0 AX23 T2 99 0 AX23 T3 100 0 AX23 T4 101 0 BWW9 T1 102 0 BWW9 T2 103 0 BWW9 T3 104 0 BWW9 T4

Subject es fijado en 0 para todas las variables indicadoras para ese factor serán fijadas en 0, efectivamente son promedios cruzados de todos los sujetos. La tabla resultante se muestra abajo:

Resultados de la Regresión para Heart Rate Ajustado Error Estnd. Inferior 95.0% NC Superior 95.0% NC Inferior 95.0% NC Superior 95.0% NC Fila Valor para Pronóstico para Pronóstico para Pronóstico para Media para Media 97 70.5 2.89463 64.7155 76.2845 68.5718 72.4282 98 80.5 2.89463 74.7155 86.2845 78.5718 82.4282 99 81.0 2.89463 75.2155 86.7845 79.0718 82.9282 100 73.125 2.89463 67.3405 78.9095 71.1968 75.0532 101 81.75 2.89463 75.9655 87.5345 79.8218 83.6782 102 84.0 2.89463 78.2155 89.7845 82.0718 85.9282 103 78.625 2.89463 72.8405 84.4095 76.6968 80.5532 104 79.75 2.89463 73.9655 85.5345 77.8218 81.6782

La tabla muestra:

• Fila – El número de fila en la hoja de datos.

• Valor Ajustado – El valor predicho de la variable dependiente Y usando el modelo ajustado.

ˆ

• Errores Estándar para Pronóstico – El error estándar estimado para predecir una nueva

observación.

• Limites de Confianza para Pronóstico – Límites de predicción para nuevas observaciones al nivel de confianza seleccionado.

• Limites de Confianza para Media - Límites de confianza para el valor medio de Y al

nivel de confianza seleccionado. Por ejemplo, un sujeto adicional a quien se le dio droga BWW9 parece tener un latido de corazón al tiempo T1 entre 76.0 y 87.5 (renglón #101). El intervalo de confianza del 95% para la media de los latidos del corazón de muchos sujetos con esta droga en este tiempo esta entre 79.8 y 83.7.

Page 26: Modelos Lineales Generales - Statgraphics

STATGRAPHICS – Rev. 9/14/2006

© 2006 por StatPoint, Inc. Modelos Lineales Generalizados - 26

Opciones del Panel

Se puede incluir: • Y Observada – Los valores observados de la variable dependiente. • Y Predicha – Los valores predichos del modelo ajustado. • Residuos – Los residuos ordinarios (observada menos predicha). • Residuos Estandarizados – Los residuos Estandarizados. • Errores Estándar para Pronósticos – Los errores estándar para nuevas observaciones en

valores de las variables independientes correspondientes a cada fila de la hoja de datos. • Limites de Confianza para Pronósticos Individuales – Intervalos de confianza para nuevas

observaciones. • Limites de Confianza para Pronósticos de Medias – Intervalos de confianza para el valor

medio de Y en valores de las variables independientes correspondientes a cada fila de la hoja de datos.

Observado contra Predicho El grafico Observado contra Predicho muestra los valores observados de Y en el eje vertical y los valores predichos de Y en el eje horizontal. ˆ

Gráfica de Heart Rate

61 66 71 76 81 86 91predicho

61

66

71

76

81

86

91

obse

rvad

o

Page 27: Modelos Lineales Generales - Statgraphics

STATGRAPHICS – Rev. 9/14/2006

© 2006 por StatPoint, Inc. Modelos Lineales Generalizados - 27

Si el modelo se ajusta bien, los puntos deberían estar aleatoriamente dispersos alrededor de la línea diagonal. Cualquier cambio de la variabilidad del valor bajo de Y al valor alto de Y podría indicar la necesidad de transformar la variable dependiente antes de estimar el modelo a los datos

Gráficos de Residuos Como con todos los modelos estadísticos, es una buena practica para examinar los residuos. En una regresión, los residuos son definidos por (15) iii yye ˆ−= Ej., los residuos son la diferencia entre los valores observados y el modelo estimado. El procedimiento Modelos Lineales Generales grafica varios tipos de gráficas de residuos, dependiendo de las Opciones del Panel. Dispersión contra Valores Predichos Esta grafica ayuda en la visualización de cualquier posible dependencia de las varianzas de residuos sobre la media, lo cual puede necesitar un ajuste de mínimos cuadrados ponderados

61 66 71 76 81 86 91predicho Heart Rate

Gráfica de Residuos

-3.4

-1.4

0.6

2.6

4.6

Res

iduo

Est

uden

tizad

o

La grafica anterior muestra una buena varianza constante, aunque un posible valor atípico es evidente. Grafico de Probabilidad Normal Este grafico se utiliza para determinar si las desviaciones alrededor de la línea siguen o no una distribución normal, esta asunción es usado para formar los intervalos de predicción.

Page 28: Modelos Lineales Generales - Statgraphics

STATGRAPHICS – Rev. 9/14/2006

© 2006 por StatPoint, Inc. Modelos Lineales Generalizados - 28

Gráfica de Probabilidad Normal para Heart Rate

-2.6 -1.6 -0.6 0.4 1.4 2.4 3.4Residuo Estudentizado

0.1

1

5

20

50

80

95

99

99.9

porc

enta

je

Si las desviaciones siguen una distribución normal, estas deberían caer alrededor de la línea recta. En el grafico anterior, los puntos caen muy bien alrededor de la línea. Auto-correlaciones de Residuos Esta gráfica calcula la auto-correlación entre los residuos como una función del número de filas entre ellos sobre la hoja de datos.

Autocorrelaciones Residuales para Heart Rate

0 2 4 6 8 10 12retraso

-1

-0.6

-0.2

0.2

0.6

1

auto

corr

elac

ión

Esto es solamente relevante si los datos fueron recolectados secuencialmente. Cualquier barra que se extienda más allá de los límites de probabilidad indica una dependencia significativa entre los residuos separados por un indicador de “retraso”, lo cual violaría el supuesto de independencia hecho cuando se ajusto el modelo de regresión.

Page 29: Modelos Lineales Generales - Statgraphics

STATGRAPHICS – Rev. 9/14/2006

© 2006 por StatPoint, Inc. Modelos Lineales Generalizados - 29

Opciones del Panel

• Graficar: El tipo de residuos a graficar:

1. Residuos – los residuos por estimación de mínimos cuadrados. 2. Residuos Estandarizados – La diferencia entre los valores observados yi y los valores

predichos cuando el modelo es ajustado usando todas las observaciones excepto la i-ésima, dividida por el error estándar de la estimación. Estos residuos algunas veces son llamados residuos eliminados externamente, puesto que ellos miden que tan lejos esta cada valor del modelo ajustado cuando el modelo es estimado usando todos los datos excepto el punto que es considerado. Esto es importante, ya que un valor atípico muy grande puede afectar el modelo tanto que no parecería estar inusualmente lejos de la línea.

iy

• Tipo: Tipo de graficas a ser creadas. Un Diagrama de Dispersión es utilizado para una

prueba de curvatura. Un Gráfico de Probabilidad Normal es usado para determinar si los residuos del modelo vienen de una distribución normal. Una Función de Auto-correlación es aplicada para probar la dependencia entre residuos consecutivos.

• Graficar Contra: Para un Diagrama de Dispersión, la variable a graficar en el eje

horizontal. • Numero de Retrasos: Para una Función de Auto-correlación, el máximo numero de retrasos.

Para conjuntos de datos pequeños, el número de retrasos graficados debe ser menor que este valor.

• Nivel de Confianza: Para una Función de Auto-correlación, el nivel usado para crear los

límites de probabilidad.

Page 30: Modelos Lineales Generales - Statgraphics

STATGRAPHICS – Rev. 9/14/2006

© 2006 por StatPoint, Inc. Modelos Lineales Generalizados - 30

Residuos Inusuales Una vez que el modelo ha sido ajustado, es usual estudiar los residuos para determinar si algún valor atípico existente debería ser removido de los datos. El panel Residuos Inusuales lista todas las observaciones que han sido residuos Estandarizados mayor o igual a 2.0 en valor absoluto.

Residuos Atípicos para Heart Rate Y Residuo Fila Y Predicha Estudentizado Residuo 22 62.0 67.4687 -5.46875 -2.58 24 73.0 66.0938 6.90625 3.37 40 69.0 73.5938 -4.59375 -2.14 48 72.0 76.5938 -4.59375 -2.14 53 86.0 81.4688 4.53125 2.10

Los residuos estandarizados más grandes que 3 en valor absoluto corresponden a puntos con más de 3 desviaciones estándar del modelo ajustado, lo cual es un evento extremadamente raro para una distribución normal. La fila #24 esta a mas de 3.3 desviaciones estándar del modelo ajustado, lo cual es un evento extremadamente raro para una distribución normal. Nota: Los puntos pueden ser removidos del ajuste mientras se examina el Gráfica de Dispersión haciendo clic en un punto y presionando el botón Excluir/Incluir en la barra de herramientas del análisis. Los puntos excluidos son marcados con una X. .

Page 31: Modelos Lineales Generales - Statgraphics

STATGRAPHICS – Rev. 9/14/2006

© 2006 por StatPoint, Inc. Modelos Lineales Generalizados - 31

Puntos Influyentes En el ajuste de un modelo de regresión, todas las observaciones no tienen una influencia igual en la estimación de los parámetros sobre el modelo estimado. Los puntos localizados en valores extremos de X tienen mayor influencia que aquellos localizados cerca del centro de la región experimental. El panel Puntos Influyentes muestra cualquier observación que tenga una influencia alta sobre el modelo estimado:

Puntos Influyentes para Heart Rate Distancia de Distancia Fila Leverage Mahalanobis DFITS de Cook 9 0.34375 48.2486 -1.27936 0.0479806 14 0.34375 48.2486 -1.23576 0.0449106 22 0.34375 48.2486 -1.86911 0.0971251 24 0.34375 48.2486 2.43976 0.154896 33 0.34375 48.2486 -1.3672 0.0544249 40 0.34375 48.2486 -1.54576 0.0685315 48 0.34375 48.2486 -1.54576 0.0685315 53 0.34375 48.2486 1.52322 0.0666794 81 0.34375 48.2486 1.30124 0.0495536

Leverage promedio de un solo punto = 0.34375 Los puntos son colocados sobre esta lista por alguna de las siguientes razones: • Ponderación– Mide que tan distante es una observación con respecto a la media de todas las

n observaciones en el espacio de las variables independientes. Cuanto más alto sea la ponderación, mas grande será el impacto de los puntos sobre los valores predichos Los puntos son colocados en la lista si su ponderación es mayor que 3 veces un punto promedio.

.y

• Distancia de Mahalanobis – Mide que la distancia de un punto al centro de la colección de

puntos en el espacio multivariado de las variables independientes. Puesto que esta distancia esta relacionada con la ponderación, este no es usado para seleccionar puntos para la tabla.

• DFITS – Mide la diferencia entre los valores predichos cuando el modelo es ajustado con

o sin el punto i-ésimo. Los puntos son colocados en la lista si el valor absoluto de DFITS excede de

iy

np /2 , donde p es el número de coeficientes sobre el modelo ajustado. • Distancia de Cook – Una medición total de la influencia sobre la i-ésima observación de los

coeficientes estimados. Los puntos son colocados en esta lista si su valor esta mas allá del percentil 50th de una distribución F con p y n – p grados de libertad.

Debido al perfecto balance en este diseño, todos los valores ponderados son iguales. Aunque, 9 puntos están en la lista debido al gran valor de DFITS, incluyendo todos los puntos previamente identificados como residuos grandes.

Page 32: Modelos Lineales Generales - Statgraphics

STATGRAPHICS – Rev. 9/14/2006

© 2006 por StatPoint, Inc. Modelos Lineales Generalizados - 32

MANOVA Cuando mas de una variable dependiente es especificada en la caja de dialogo de entrada de datos, un análisis de varianza multivariado puede ser incluido si se requiere, usando Opciones del Análisis. Por ejemplo, considere los datos de un experimento reportado por Johnson y Wichern (2002) realizado para determinar las condiciones optimas para una película plástica de extracción. Tres variables respuesta, Tear resistance, Gloss, y Opacity fueron medidas en diferentes niveles de dos factores, Rate of Extrusion y Amount of additive. Los datos están contenidos en el archivo film.sf6:

Rate of extrusion (Índice de Extrusión)

Amount of additive Cantidad de Aditivo

Tear resistance (Resistencia de rasguños)

Gloss (Lustre)

Opacity (Opacidad)

-10 1 6.5 9.5 4.4 -10 1 6.2 9.9 6.4 -10 1 5.8 9.6 3 -10 1 6.5 9.6 4.1 -10 1 6.5 9.2 0.8 -10 1.5 6.9 9.1 5.7 -10 1.5 7.2 10 2 -10 1.5 6.9 9.9 3.9 -10 1.5 6.1 9.5 1.9 -10 1.5 6.3 9.4 5.7 10 1 6.7 9.1 2.8 10 1 6.6 9.3 4.1 10 1 7.2 8.3 3.8 10 1 7.1 8.4 1.6 10 1 6.8 8.5 3.4 10 1.5 7.1 9.2 8.4 10 1.5 7.0 8.8 5.2 10 1.5 7.2 9.7 6.9 10 1.5 7.5 10.1 2.7 10 1.5 7.6 9.2 1.9

La caja de dialogo de entrada específica los nombres de las tres variables respuesta y dos factores:

Page 33: Modelos Lineales Generales - Statgraphics

STATGRAPHICS – Rev. 9/14/2006

© 2006 por StatPoint, Inc. Modelos Lineales Generalizados - 33

Puesto que los factores tienen solo 2 niveles, pueden ser introducidos como factores categóricos o cuantitativos. El modelo especificado incluye efectos principales y una interacción de 2 factores:

Para variables dependientes múltiples, el Resumen del Análisis incluye análisis separados para cada respuesta. Si se requiere en la caja de dialogo Opciones del Análisis, un MANOVA también puede desarrollarse. La salida adicional del análisis es mostrada abajo:

Page 34: Modelos Lineales Generales - Statgraphics

STATGRAPHICS – Rev. 9/14/2006

© 2006 por StatPoint, Inc. Modelos Lineales Generalizados - 34

MANOVA para A Lambda de Wilks = 0.381858 F = 7.55427 Valor-P = 0.00303404 Traza de Pillai = 0.618142 F = 7.55427 Valor-P = 0.00303404 Traza de Hotelling-Lawley = 1.61877 F = 7.55427 Valor-P = 0.00303404 Mayor raíz de Roy = 1.61877 s = 1 m = 0.5 n = 6.0 Matriz de Hipótesis H Tear resistance Gloss Opacity Tear resistance 1.7405 -1.5045 0.8555 Gloss -1.5045 1.3005 -0.7395 Opacity 0.8555 -0.7395 0.4205

Matriz de Error E Tear resistance Gloss Opacity Tear resistance 1.764 0.02 -3.07 Gloss 0.02 2.628 -0.552 Opacity -3.07 -0.552 64.924

MANOVA para B Lambda de Wilks = 0.523035 F = 4.25562 Valor-P = 0.0247453 Traza de Pillai = 0.476965 F = 4.25562 Valor-P = 0.0247453 Traza de Hotelling-Lawley = 0.911918 F = 4.25562 Valor-P = 0.0247453 Mayor raíz de Roy = 0.911918 s = 1 m = 0.5 n = 6.0 Matriz de Hipótesis H Tear resistance Gloss Opacity Tear resistance 0.7605 0.6825 1.9305 Gloss 0.6825 0.6125 1.7325 Opacity 1.9305 1.7325 4.9005

Matriz de Error E Tear resistance Gloss Opacity Tear resistance 1.764 0.02 -3.07 Gloss 0.02 2.628 -0.552 Opacity -3.07 -0.552 64.924

MANOVA para A*B Lambda de Wilks = 0.777106 F = 1.33852 Valor-P = 0.301782 Traza de Pillai = 0.222894 F = 1.33852 Valor-P = 0.301782 Traza de Hotelling-Lawley = 0.286826 F = 1.33852 Valor-P = 0.301782 Mayor raíz de Roy = 0.286826 s = 1 m = 0.5 n = 6.0 Matriz de Hipótesis H Tear resistance Gloss Opacity Tear resistance 0.0005 0.0165 0.0445 Gloss 0.0165 0.5445 1.4685 Opacity 0.0445 1.4685 3.9605

Matriz de Error E Tear resistance Gloss Opacity Tear resistance 1.764 0.02 -3.07 Gloss 0.02 2.628 -0.552 Opacity -3.07 -0.552 64.924

Para cada efecto, la tabla muestra cuatro estadísticas diseñadas para probar si hay o no efectos significativos importantes debidos a este factor. Las estadísticas están basadas en las matrices de sumas de cuadrados y productos cruzados atribuidas a los efectos hipotéticos (H) y a los residuos (E). Las estadísticas desplegadas son:

• Wilks’ lambda: Un estadístico basada en la razón de dos determinantes

Page 35: Modelos Lineales Generales - Statgraphics

STATGRAPHICS – Rev. 9/14/2006

© 2006 por StatPoint, Inc. Modelos Lineales Generalizados - 35

HEE+

=Λ* (16)

• Pillai Trace: Un estadístico calculada por

( )[ ]1−+ EHHtr (17)

• Hotelling-Lawley Trace: Un estadístico calculada por

[ ]1−HEtr (18)

• Roy’s Greatest Root: Un estadístico calculada por

1

1

1 ηη+

(19)

donde η1 es el eigenvalor mas grande de HE-1.

La línea de salida para el estadístico de Roy también muestra los valores de s, m, y n, tres valores usados para calcular la prueba F para los otros estadísticos. Es digno notar que las pruebas son exactas si s = 1 o 2 y aproximadas en otro caso. Los tres primeros estadísticos son mostradas junto con el resultado de la prueba F. Los valores P pequeños (menores que 0.05 si esta operando en un nivel del 95% de confianza) indican efectos significativos. En el ejemplo, los efectos principales de ambos factores son estadísticamente significativos al nivel del 95% de confianza, pero la interacción no lo es.

Page 36: Modelos Lineales Generales - Statgraphics

STATGRAPHICS – Rev. 9/14/2006

© 2006 por StatPoint, Inc. Modelos Lineales Generalizados - 36

Guardar Resultados Los siguientes resultados pueden ser guardados en una hoja de datos:

1. Valores Predichos – El valor predicho de Y correspondientes a los n valores de X. 2. Errores Estándar de las Predicciones – Los errores estándar correspondientes a los n

valores predichos. 3. Límites Inferiores de Predicciones – Los límites inferiores de predicción para cada valor

predicho. 4. Límites Superiores de Predicciones – Los límites superiores de predicción para cada

valor predicho. 5. Errores Estándar de Medias - Los errores estándar para el valor medio de Y en cada n

valores de X. 6. Límites Inferiores para las Medias Pronosticada – Los limites de confianza inferiores

para el valor medio de Y en cada n valores de X. 7. Límites Superiores para las Media Pronosticada – Los límites de confianza superiores

para el valor medio de Y en cada n valores de X. 8. Residuos – Los n residuos. 9. Residuos Estudentizados – Los n residuos Estandarizados. 10. Levearges – Los valores ponderados correspondientes a los n valores de X 11. Estadísticas DFITS – El valor del estadístico DFITS correspondientes con n valores de X. 12. Distancias de Mahalanobis – Las distancias de Mahalanobis correspondientes con n

valores de X. 13. Distancias de Cook – Distancia de Cook correspondiente con n valores de X. 14. Coeficientes – Los coeficientes estimados del modelo.

Page 37: Modelos Lineales Generales - Statgraphics

STATGRAPHICS – Rev. 9/14/2006

© 2006 por StatPoint, Inc. Modelos Lineales Generalizados - 37

Cálculos Modelo de Regresión

1122110 ... −−++++= pp XXXY ββββ (20) Suma de Cuadrados del Error

No ponderados: (21) ( )2

1112210

ˆ...ˆˆˆ∑=

−−−−−−−=n

ippii xxxySCE ββββ

Ponderados: (22) ( )2

1112210

ˆ...ˆˆˆ∑=

−−−−−−−=n

ippiii xxxywSCE ββββ

Estimadores de los Coeficientes

( ) ( WYXWXX ′′= −1β ) (23) { } ( 12 ˆ −′= WXXCMEs β ) (24)

pnSCECME−

= (25)

donde es un vector columna que contiene los coeficientes de regresión estimados, X es una matriz(n, p) que contiene unos (1) en la primera columna (si el modelo contiene un termino constante) y las configuraciones de las variables predictoras en las demás columnas, Y es un vector columna con los valores de la variable dependiente, y W es una matriz (n, n) diagonal que contiene las ponderaciones w

β

i en la diagonal para una regresión ponderada o 1’s en la diagonal si las ponderaciones no son especificadas. Un algoritmo sweep modificado es usado para resolver las ecuaciones después de centrar y reescalar las variables independientes.

Page 38: Modelos Lineales Generales - Statgraphics

STATGRAPHICS – Rev. 9/14/2006

© 2006 por StatPoint, Inc. Modelos Lineales Generalizados - 38

Análisis de Varianza Con término constante: Fuente Suma de Cuadrados GL Cuadrado medio Razón F Modelo

=

=

⎟⎠

⎞⎜⎝

−′′= n

ii

n

iii

w

ywWYXbSCR

1

2

1

p-1 1−

=pSCRCMR

CMECMRF =

Residual

WYXbWYYSCE ′′−′=

n-p pn

SCECME−

=

Total (corr.)

( )2

1∑=

−=n

iii yywSCTO

n-1

Sin término constante: Fuente

Suma de Cuadrados GL Cuadrado medio

Razón F

Modelo

WYXbSCR ′′=

p p

SCRCMR = CMECMRF =

Residual WYXbWYYSCE ′′−′=

n-p pn

SCECME−

=

Total (corr.)

WYYSCTO ′=

n

R-Cuadrada

%1002 ⎟⎠⎞

⎜⎝⎛

+=

SCESCRSCRR (26)

R-Cuadrada Ajustada

%111002⎥⎦

⎤⎢⎣

⎡+⎟⎟

⎞⎜⎜⎝

⎛−−

−=SCESCR

SCEpn

nRadj (27)

Page 39: Modelos Lineales Generales - Statgraphics

STATGRAPHICS – Rev. 9/14/2006

© 2006 por StatPoint, Inc. Modelos Lineales Generalizados - 39

Error Estándar de Est.

CME=σ (28) Residuos

1111ˆ...ˆˆ

−−−−−−= ppoii xxye βββ (29)

Media del Error Absoluto

=

== n

ii

n

iii

w

ewMAE

1

1 (30)

Estadístico Durbin-Watson

( )

=

=−−

= n

ii

n

iii

e

eeD

1

2

2

21

(31)

Si n > 500, entonces

nD

D/42* −

= (32)

es comparada contra una distribución normal estándar. Para 100 < n ≤ 500, D/4 es comparada con una distribución beta con parámetros

21−

==nβα (33)

Para tamaños de muestras más pequeños, D/4 es comparada a una distribución beta con parámetros los cuales se basan en la traza de ciertas matrices relacionadas con la matriz X, como se describe por Durbin y Watson (1951) en la sección 4 de su articulo clásico.

Page 40: Modelos Lineales Generales - Statgraphics

STATGRAPHICS – Rev. 9/14/2006

© 2006 por StatPoint, Inc. Modelos Lineales Generalizados - 40

Ponderación

( ){ } iiii wXWXXXdiagh 1−′′= (34)

nph = (35)

Residuos Estandarizados

( )ii

iii hCME

wed

−=

1 (36)

Distancia de Mahalanobis

1)2(

1

/1

−−

⎟⎟⎟⎟

⎜⎜⎜⎜

−=

∑=

nnn

h

wwhMD

i

n

iiii

i (37)

DFITS

⎟⎟⎠

⎞⎜⎜⎝

⎛−

=i

i

i

ii h

hw

dDFITS

1 (38)

Distancia de Cook’s

( ) ⎥⎥⎦

⎢⎢⎣

−= 2

2

1 i

iii h

hpCME

eCD (39)

Error Estándar para Pronóstico

{ } ( ) ⎟⎠⎞⎜

⎝⎛ ′′+= −

hhnewh XWXXXCMEYs 1)( 1 (40)

Limites de Confianza para Pronóstico

{ )(,2/ˆ

newhpnh YstY −± α } (41)

Page 41: Modelos Lineales Generales - Statgraphics

STATGRAPHICS – Rev. 9/14/2006

© 2006 por StatPoint, Inc. Modelos Lineales Generalizados - 41

)

Limites de Confianza para Media

( )( hhpnh XWXXXCMEtY 1,2/

ˆ −− ′′± α (42)