19
STATGRAPHICS – Rev. 4/25/2007 © 2006 by StatPoint, Inc. Regresión No Lineal - 1 Regresión No Lineal Resumen El procedimiento Regresión No Lineal ajusta una función especificada por el usuario relacionando una sola variable dependiente Y con una o más variables independientes X. El modelo se estima usando cuadrados mínimos no lineales. Se puede graficar el modelo ajustado, generar predicciones a partir del mismo e identificar residuos atípicos. StatFolio de ejemplo: nonlinear reg.sgp Datos de ejemplo: El archivo nonlin.sf3 contiene datos de la cantidad de cloro en muestras de un producto en función del número de semanas desde que se produjo. Los datos, de Draper y Smith (1998), consisten de n = 44 muestras, una parte de los cuales se muestran a continuación: Weeks (Semanas) Chlorine (Cloro) 8 0.49 8 0.49 10 0.48 10 0.47 10 0.48 10 0.47 12 0.46 12 0.46 12 0.45 12 0.43 14 0.45 14 0.43 14 0.43 Se desea ajustar el siguiente modelo a los datos: ( ) 8 ) 49 . 0 ( + = weeks b e a a chlorine (1) Este modelo, sugerido por un experto en el área, contiene dos incógnitas: a, el valor asintótico basal que se alcanza con valores grandes de weeks, y b, la tasa exponencial de decaimiento.

Regresión No Lineal - Statgraphics

  • Upload
    others

  • View
    19

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Regresión No Lineal - Statgraphics

STATGRAPHICS – Rev. 4/25/2007

© 2006 by StatPoint, Inc. Regresión No Lineal - 1

Regresión No Lineal Resumen El procedimiento Regresión No Lineal ajusta una función especificada por el usuario relacionando una sola variable dependiente Y con una o más variables independientes X. El modelo se estima usando cuadrados mínimos no lineales. Se puede graficar el modelo ajustado, generar predicciones a partir del mismo e identificar residuos atípicos. StatFolio de ejemplo: nonlinear reg.sgp Datos de ejemplo: El archivo nonlin.sf3 contiene datos de la cantidad de cloro en muestras de un producto en función del número de semanas desde que se produjo. Los datos, de Draper y Smith (1998), consisten de n = 44 muestras, una parte de los cuales se muestran a continuación:

Weeks (Semanas)

Chlorine (Cloro)

8 0.49 8 0.49 10 0.48 10 0.47 10 0.48 10 0.47 12 0.46 12 0.46 12 0.45 12 0.43 14 0.45 14 0.43 14 0.43 … …

Se desea ajustar el siguiente modelo a los datos: ( )8)49.0( −−−+= weeksbeaachlorine (1) Este modelo, sugerido por un experto en el área, contiene dos incógnitas: a, el valor asintótico basal que se alcanza con valores grandes de weeks, y b, la tasa exponencial de decaimiento.

Page 2: Regresión No Lineal - Statgraphics

STATGRAPHICS – Rev. 4/25/2007

© 2006 by StatPoint, Inc. Regresión No Lineal - 2

Ingreso de Datos La primera de dos cajas de diálogo pide el nombre de la variable dependiente y el modelo a ajustar:

• Variable Dependiente: columna numérica que contiene los n valores de Y. • Función: una expresión de STATGRAPHICS que representa la función a ajustar. Debe

incluir uno o más nombres de columnas numéricas, que representen a las variables independientes. También puede incluir funciones tales como RAIZ o EXP. Cualquier nombre desconocido se considera que representa parámetros del modelo que tienen que ser estimados.

• Peso: una columna numérica opcional que contiene los pesos o ponderadores que se

aplicarán al cuadrado de los residuos cuando se realice un ajuste por mínimos cuadrados ponderados.

• Selección: selección de un subgrupo de datos.

Page 3: Regresión No Lineal - Statgraphics

STATGRAPHICS – Rev. 4/25/2007

© 2006 by StatPoint, Inc. Regresión No Lineal - 3

La segunda caja de diálogo pide estimados iniciales para cada uno de los parámetros desconocidos del modelo:

Ingrese una estimación inicial para cada parámetro. El programa comenzará con los estimados iniciales y realizará una búsqueda numérica para encontrar estimaciones que minimicen la suma de cuadrados de los residuos. Dependiendo de la complejidad del modelo, estimaciones pobres podrán o no conducir a una solución óptima. En todos los casos, con excepción de los simples, la selección inteligente de las estimaciones iniciales puede aumentar mucho las probabilidades de obtener una buena solución. Típicamente, es importante dar al menos estimaciones con el signo correcto (positivo o negativo), ya que el procedimiento de búsqueda podría de otra forma dirigirse en la dirección contraria.

Page 4: Regresión No Lineal - Statgraphics

STATGRAPHICS – Rev. 4/25/2007

© 2006 by StatPoint, Inc. Regresión No Lineal - 4

Resumen del Análisis El Resumen del Análisis muestra los resultados del ajuste. Regresión No lineal - chlorine Variable dependiente: chlorine (percent available) Variables independientes: weeks (weeks since production) Función a estimar: a+(0.49-a)*exp(-b*(weeks-8)) Estimaciones iniciales de parámetros: a = 0.1 b = 0.1 Método de estimación: Marquardt La estimación se detuvo debido a la convergencia de la suma de cuadrados de residuos. Número de iteraciones: 4 Número de llamadas de la función: 14 Resultados de la Estimación Intervalo Confianza a 95.0% Error Estándar Asintótico Parámetro Estimado Asintótico Inferior Superior a 0.390144 0.00501534 0.380022 0.400265 b 0.101644 0.0133628 0.0746763 0.128611

Análisis de Varianza Fuente Suma de Cuadrados Gl Cuadrado Medio Modelo 7.982 2 3.991 Residuo 0.00500168 42 0.000119088 Total 7.987 44 Total (Corr.) 0.0395 43

R-Cuadrada = 87.3375 porciento R-Cuadrada (ajustada por g.l.) = 87.036 porciento Error estándar del est. = 0.0109127 Error medio absoluto = 0.00769665 Estadístico Durbin-Watson = 1.98378 Autocorrelación residual de retardo 1 = 0.00702451 Análisis de Residuos Estimación Validación n 44 CME 0.000119088 MAE 0.00769665 MAPE 1.82283 ME -0.000097621 MPE -0.0826224

En la salida se incluyen: • Resumen de los Datos: un resumen de los datos que fueron ingresados. • Función a Estimar: la función que se ha de estimar y las estimaciones iniciales de los

parámetros. • Estadísticas de la Estimación: el método empleado en la estimación así como el número de

iteraciones y llamadas de la función que se llevaron a cabo.

Page 5: Regresión No Lineal - Statgraphics

STATGRAPHICS – Rev. 4/25/2007

© 2006 by StatPoint, Inc. Regresión No Lineal - 5

• Estimaciones de los Parámetros: los parámetros estimados con intervalos de confianza aproximados. Intervalos que no contienen al 0 indican que el parámetro del modelo es estadísticamente significativo al nivel de confianza establecido.

• Análisis de Varianza: descomposición de la variabilidad de la variable dependiente Y en

una suma de cuadrados del modelo y una suma de cuadrados residual o del error. • Estadísticas: estadísticas de resumen para el modelo ajustado, incluyendo:

R-Cuadrada - representa el porcentaje de la variabilidad en Y que ha sido explicado por el modelo de regresión ajustado, que va de 0% a 100%. Para los datos del ejemplo, la regresión ha dado cuenta de alrededor del 87.3% de la variabilidad en las concentraciones observadas de chlorine (cloro).

R-Cuadrada Ajustada – el estadístico R-cuadrada, ajustado para el número de coeficientes en el modelo. Este valor se usa frecuentemente para comparar modelos con diferente número de coeficientes. Error Estándar de Est. – La desviación estándar estimada de los residuos (las desviaciones alrededor del modelo). Este valor se usa para crear límites de predicción para nuevas observaciones. Error Medio Absoluto – el valor absoluto promedio de los residuos. Estadístico Durbin-Watson – una medida de la correlación serial en los residuos. Si los residuos varían aleatoriamente, este valor debiera ser cercano a 2. Un valor-P pequeño indica un patrón no aleatorio en los residuos. Para datos registrados en el tiempo, un valor-P pequeño podría indicar que alguna tendencia en el tiempo no ha sido explicada. Autocorrelación Residual de Retardo 1 – la correlación estimada entre residuos consecutivos, en una escala de –1 a 1. Valores alejados del 0 indican que en el modelo queda estructura significativa sin explicar. Análisis de Residuos – si un subgrupo de filas en la hoja de datos ha sido excluido del análisis usando el campo Seleccionar en la caja de diálogo de ingreso de datos, el modelo ajustado se usa para hacer predicciones de los valores de Y para estas filas. Esta tabla muestra estadísticas sobre los errores de predicción, definidos por

iii yye ˆ−= (2) Se incluyen el cuadrado medio del error (CME), el error absoluto medio (MAE), el error porcentual absoluto medio (MAPE), el error medio (ME), y el error porcentual medio (MPE). Estas estadísticas de validación pueden ser comparadas con las estadísticas del modelo ajustado para determinar qué tan bien el modelo predice las observaciones fuera de los datos usados para ajustarlo.

Para los datos del ejemplo, el modelo ajustado es

chlorine = 0.390144 + (0.49-0.390144)exp(-0.101644(weeks-8)) (3)

Page 6: Regresión No Lineal - Statgraphics

STATGRAPHICS – Rev. 4/25/2007

© 2006 by StatPoint, Inc. Regresión No Lineal - 6

El modelo comienza con chlorine = 0.49 en weeks = 8 y cae exponencialmente a una línea base de aproximadamente 0.39 conforme weeks crece.

Gráfico del Modelo Ajustado La ventana Gráfico del Modelo Ajustado grafica el modelo ajustado versus cualquiera de las variables independientes, dándole a las otras variables los valores establecidos en la caja de diálogo de Opciones de Ventana.

Gráfica del Modelo Ajustado

0 10 20 30 40 50weeks

0.38

0.4

0.42

0.44

0.46

0.48

0.5

chlo

rine

Page 7: Regresión No Lineal - Statgraphics

STATGRAPHICS – Rev. 4/25/2007

© 2006 by StatPoint, Inc. Regresión No Lineal - 7

Opciones de Ventana

Seleccione cualquier variable, junto con su rango, para graficarla en el eje horizontal. Para las otras variables, escriba los valores con los que se sustituirán en el modelo ajustado.

Gráficos de Superficie de Respuesta Si se incluye más de una variable en el modelo, se pueden crear gráficos de superficie y de contorno. Por ejemplo, Draper y Smith (1998) reportan un experimento en el cual la fracción de material Y que queda después de una reacción química se describía con el modelo

⎪⎭

⎪⎬⎫

⎪⎩

⎪⎨⎧

⎥⎦

⎤⎢⎣

⎡⎟⎟⎠

⎞⎜⎜⎝

⎛−−−=

62011expexp

2211 X

XY θθ (4)

donde X1 era el tiempo de reacción en minutos y X2 era la temperatura de reacción en grados Kelvin. Los datos se encuentran en el archivo nlreact.sf6 y el análisis en nlreact.sgp. A continuación se muestra un gráfico de superficie del modelo ajustado:

Page 8: Regresión No Lineal - Statgraphics

STATGRAPHICS – Rev. 4/25/2007

© 2006 by StatPoint, Inc. Regresión No Lineal - 8

Superficie de Respuesta Estimada

0 30 60 90 120 150time

600610

620630

640

temperature

0

0.2

0.4

0.6

0.8

1m

ater

ial

En un gráfico de superficie la altura de la superficie representa el valor predicho de Y. En el menú Opciones de Gráfico la segunda opción etiquetada como Gráficos de Superficie de Respuesta crea un gráfico de contorno:

Contornos de la Superficie de Respuesta Estimada

0 30 60 90 120 150time

600

610

620

630

640

tem

pera

ture

material0.10.20.30.40.50.60.70.80.9

En un gráfico de contorno como el de arriba, cada línea representa combinaciones de X1 y X2 que dan el mismo valor predicho de Y. Están disponibles otros formatos usando Opciones de Ventana.

Page 9: Regresión No Lineal - Statgraphics

STATGRAPHICS – Rev. 4/25/2007

© 2006 by StatPoint, Inc. Regresión No Lineal - 9

Opciones de Ventana.

• Tipo: escoja entre un Gráfico de Superficie 3-D, donde la altura de la superficie representa el

valor de Y versus dos variables independientes cualesquiera; un Gráfico de Contorno 2-D, donde las líneas o regiones de color representan el valor de Y como una función de dos variables independientes cualesquiera; un Gráfico Cuadrado 2-D, donde el valor predicho de Y se muestra a diferentes combinaciones de 2 variables independientes; o un Gráfico Cúbico 3-D, en el cual el valor predicho de Y se muestra a diferentes combinaciones de 3 variables independientes.

• Contornos: los límites y espaciamiento de las líneas de contorno o regiones. Los contornos

puedes dibujarse como Líneas sólidas representando un solo valor de Y, Regiones Coloreadas representando intervalos, o usando un rango Continuo de colores.

• Resolución: el número de divisiones a lo largo de cada eje sobre los cuales se grafica el valor

de Y. Se puede mejorar la calidad del gráfico aumentando la resolución, pero también puede aumentar el tiempo requerido para dibujarlo.

• Superficie: para un gráfico de superficie, el número de divisiones a lo largo de cada eje entre

las líneas empleadas para dibujar la superficie. La superficie puede dibujarse como un Armazón de Alambre (malla transparente), como una superficie coloreada sólida, o de contorno (coloreada de acuerdo a los valores de Y). Contornos Debajo coloca un gráfico de contorno en la base del cubo. Mostrar Puntos grafica las observaciones con líneas dibujadas hacia la superficie.

Page 10: Regresión No Lineal - Statgraphics

STATGRAPHICS – Rev. 4/25/2007

© 2006 by StatPoint, Inc. Regresión No Lineal - 10

• Factores: presione este botón para seleccionar los factores a graficar. Aparecerá una caja de diálogo similar a la descrita parar el Gráfico del Modelo Ajustado.

Ejemplo – Gráfico de Contorno con Colores Continuos

Contornos de la Superficie de Respuesta Estimada

0 30 60 90 120 150time

600

610

620

630

640

tem

pera

ture

material0.00.10.20.30.40.50.60.70.80.91.0

Ejemplo – Gráfico de Superficie con Contorno Debajo y Seleccionando Mostrar Puntos

Superficie de Respuesta Estimada

0 30 60 90 120 150time

600610

620630

640

temperature0

0.2

0.4

0.6

0.8

1

mat

eria

l

material0.00.10.20.30.40.50.60.70.80.91.0

Page 11: Regresión No Lineal - Statgraphics

STATGRAPHICS – Rev. 4/25/2007

© 2006 by StatPoint, Inc. Regresión No Lineal - 11

Opciones de Análisis La caja de diálogo Opciones de Análisis controla el algoritmo usado para ajustar el modelo:

• Método: método usado para estimar los parámetros del modelo. El método Gauss-Newton

usa una técnica de linealización que ajusta una secuencia de modelos de regresión lineal para localizar la mínima suma de cuadrados de los residuos. El método Descenso de Mayor Pendiente sigue el gradiente de la superficie de la suma de cuadrados de los residuos. El método de Marquardt, selección por omisión, es un rápido y confiable término medio entre los otros dos.

• Criterio de Paro 1: Se asume que el algoritmo ha convergido cuando el cambio relativo en

la suma de cuadrados de los residuos de una iteración a la siguiente es menor que este valor. • Criterio de Paro 2: Se asume que el algoritmo ha convergido cuando el cambio relativo en

todas las estimaciones de los parámetros de una iteración a la siguiente es menor que este valor.

• Iteraciones Máximas: La estimación se detiene si no se alcanza la convergencia dentro de

este número de iteraciones. • Máximo de Llamadas de la Función: La estimación se detiene si no se alcanza la

convergencia cuando la función que se está ajustando ha sido evaluada este número de veces. Se realizan múltiples evaluaciones de la función durante cada iteración.

• Parámetro Marquardt: La magnitud del parámetro Marquardt controla la extensión con

que participa cada método en el balance entre ambos. Para detalles sobre el algoritmo Marquardt, vea Box, Jenkins y Reinsel (1994).

• Nivel de Confianza: el porcentaje usado para calcular los intervalos de confianza asintóticos

para los coeficientes del modelo.

Page 12: Regresión No Lineal - Statgraphics

STATGRAPHICS – Rev. 4/25/2007

© 2006 by StatPoint, Inc. Regresión No Lineal - 12

Reportes La ventana Reportes crea predicciones usando el modelo ajustado. Por omisión, la tabla incluye una línea por cada fila en la hoja de datos que tenga información completa en las variables X y un valor faltante para la variable Y. Esto le permite agregar columnas al final de la hoja de datos correspondientes a los niveles en los que quiera tener predicciones sin afectar el modelo ajustado. Por ejemplo, suponga que se desea una predicción en Weeks = 50 (por cierto una extrapolación del modelo). En la fila #45 de la hoja de datos, se agregaría el valor 50 a la columna Weeks pero la columna Chlorine se dejaría en blanco. La tabla resultante se muestra a continuación:

Resultados de la Regresión para chlorine Ajustado Error Estnd. LC Inferior 95.0% LC Superior 95.0% LC Inferior 95.0% LC Superior 95.0% Fila para Pronóstico para Pronóstico para Pronóstico para Media para Media 45 0.391541 0.0117214 0.367886 0.415196 0.382907 0.400175

Se incluye en la tabla:

• Fila – el número de la fila en la hoja de datos que contiene los valores de las variables independientes.

• Ajustado – el valor predicho de la variable dependiente usando el modelo ajustado.

• Error Estándar para Pronóstico – el error estándar estimado para predecir una sola

observación nueva.

• Límites de Confianza para Pronóstico – límites de predicción para nuevas observaciones.

• Límites de Confianza para la Media – límites de confianza para el valor medio de Y

para los valores dados de las variables independientes. Para la fila #45, el nivel predicho de cloro es aproximadamente 0.392 Una nueva muestra a Weeks = 50 se esperaría fuera entre 0.369 y 0.416 con un 95% de confianza (dado que valga la extrapolación). El nivel medio de cloro a la semana 50 se estima esté entre 0.385 y 0.400. Se puede incluir en la tabla información adicional sobre los valores predichos y residuos para los datos usados para ajustar el modelo, usando Opciones de Ventana.

Page 13: Regresión No Lineal - Statgraphics

STATGRAPHICS – Rev. 4/25/2007

© 2006 by StatPoint, Inc. Regresión No Lineal - 13

Opciones de Ventana

Usted puede incluir: • Y Observadas – los valores observados de la variable dependiente. • Y Ajustadas – los valores predichos a partir del modelo ajustado. • Residuos – los residuos ordinarios (observados menos predichos). • Residuos Estudentizados – los residuos eliminados Estudentizados como se describió

anteriormente. • Errores Estándar para los Pronósticos – los errores estándar para nuevas observaciones en

los valores de las variables independientes correspondientes a cada fila de la hoja de datos. • Límites de Confianza para Pronósticos Individuales – intervalos de confianza para nuevas

observaciones. • Límites de Confianza para las Medias de Pronósticos – intervalos de confianza para el valor

medio de Y en valores de las variables independientes correspondientes a cada fila de la hoja de datos.

Matriz de Correlación La Matriz de Correlación presenta estimaciones de la correlación entre los coeficientes estimados.

Matriz de correlación asintótica para los coeficientes estimados a b a 1.0000 0.8864 b 0.8864 1.0000

Esta tabla puede ser útil para determinar qué tan bien se han separado unos de otros los efectos de diferentes variables independientes.

Page 14: Regresión No Lineal - Statgraphics

STATGRAPHICS – Rev. 4/25/2007

© 2006 by StatPoint, Inc. Regresión No Lineal - 14

Observados versus Predichos El gráfico Observados versus Predichos muestra los valores observados de Y en el eje vertical y los valores predichos Y en el eje horizontal.

Gráfica de chlorine

0.38 0.4 0.42 0.44 0.46 0.48 0.5predicho

0.38

0.4

0.42

0.44

0.46

0.48

0.5

obse

rvad

o

Si el modelo ajusta bien, los puntos debieran estar dispersos aleatoriamente alrededor de la línea diagonal. A veces es posible apreciar curvatura en este gráfico, lo que indicaría la necesidad de un modelo curvilíneo más que uno lineal. Cualquier cambio en variabilidad de valores bajos de Y a valores altos de Y podría indicar la necesidad de transformar la variable dependiente antes de ajustar un modelo a los datos.

Gráficas de Residuos Al igual que con todos los modelos estadísticos, es una buena práctica examinar los residuos. En una regresión, los residuos se definen por iii yye ˆ−= (5) i.e., los residuos son las diferencias entre los valores de los datos observados y el modelo ajustado. El procedimiento Regresión No Lineal crea varios tipos de gráficos de residuos, dependiendo de las Opciones de Ventana.

Page 15: Regresión No Lineal - Statgraphics

STATGRAPHICS – Rev. 4/25/2007

© 2006 by StatPoint, Inc. Regresión No Lineal - 15

Diagrama de Dispersión versus X Este gráfico es útil para visualizar cualquier necesidad de un modelo diferente.

Gráfica de Residuos

0 10 20 30 40 50weeks

-3.6

-1.6

0.4

2.4

4.4R

esid

uo E

stud

entiz

ado

Gráfica de Probabilidad Normal Este gráfico puede emplearse para determinar si la desviación alrededor de la línea sigue o no una distribución normal, que es el supuesto usado para formar los intervalos de predicción.

Gráfica de Probabilidad Normal para chlorine

-2.7 -0.7 1.3 3.3 5.3Residuo Estudentizado

0.1

1

5

20

50

80

95

99

99.9

porc

enta

je

Si las desviaciones siguen una distribución normal, deben caer aproximadamente a lo largo de una línea recta. En el gráfico anterior, los datos se desvían bastante de la línea recta, indicando que las desviaciones siguen una distribución con colas más largas que las de una distribución normal.

Page 16: Regresión No Lineal - Statgraphics

STATGRAPHICS – Rev. 4/25/2007

© 2006 by StatPoint, Inc. Regresión No Lineal - 16

Autocorrelaciones de Residuos Este gráfico calcula la autocorrelación entre los residuos como una función del número de filas entre ellos en la hoja de datos.

Autocorrelaciones Residuales para chlorine

0 2 4 6 8 10 12retraso

-1

-0.6

-0.2

0.2

0.6

1

auto

corr

elac

ión

Sólo es relevante si los datos se colectaron secuencialmente. Cualquier barra extendiéndose más allá de los límites de probabilidad indicaría dependencia significativa entre residuos separados por el retraso indicado, lo que violaría el supuesto de independencia hecho cuando se ajustó el modelo de regresión. Optiones de Ventana

• Graficar: el tipo de residuos a graficar:

1. Residuos – los residuos del ajuste de mínimos cuadrados. 2. Residuos Estudentizados – la diferencia entre los valores observados yi y los valores

predichos iy cuando el modelo se ajusta usando todas las observaciones excepto la i-

Page 17: Regresión No Lineal - Statgraphics

STATGRAPHICS – Rev. 4/25/2007

© 2006 by StatPoint, Inc. Regresión No Lineal - 17

ésima, divididas por el error estándar estimado. Estos residuales se llaman a veces residuos eliminados externamente, ya que miden qué tan lejos está cada valor del modelo ajustado cuando ese modelo se ajusta con todos los datos exceptuando el punto en cuestión. Esto es importante, ya que un gran valor atípico de otro modo podría afectar tanto al modelo que podría no parecer inusualmente lejos de la línea de regresión.

• Tipo: el tipo de gráfico a crear. Se usa un Diagrama de Dispersión para probar curvatura. Se

emplea un Gráfica de Probabilidad Normal para determinar si los residuos del modelo provienen de una distribución normal. Se usa una Función de Autocorrelación para probar dependencia entre residuos consecutivos.

• Graficar versus: para un Diagrama de Dispersión, la cantidad a graficar en el eje horizontal. • Número de Retrasos: para una Función de Autocorrelación, el máximo número de retrasos.

Para grupos pequeños de datos, el número de retrasos graficados puede ser menor que este valor.

• Nivel de Confianza: para una Función de Autocorrelación, el nivel usado para crear los

límites de probabilidad.

Residuos Atípicos Una vez que el modelo ha sido ajustado, es útil estudiar los residuos para determinar si existe algún valor atípico que debiera ser removido de los datos. La ventana Residuos Atípicos lista todas las observaciones que tienen residuos Estudentizados de 2.0 o mayores en valor absoluto.

Residuos Atípicos para chlorine Y Residuo Fila Y Predicha Residuo Estudentizado 10 0.43 0.456641 -0.0266407 -2.67 17 0.46 0.42628 0.0337201 3.59 18 0.45 0.42628 0.0237201 2.35 35 0.38 0.400815 -0.0208151 -2.02

Residuos Estudentizados mayores que 3 en valor absoluto corresponden a puntos a más de 3 desviaciones estándar del modelo ajustado, lo que es un evento raro para una distribución normal. La fila #17 está a más de 3.5 desviaciones estándar del modelo ajustado, lo que es un evento muy raro si las desviaciones siguen una distribución normal. Nota: Los puntos pueden ser removidos del ajuste mientras se examina el Gráfico del Modelo Ajustado haciendo clic sobre un punto y luego presionando el botón Excluir/Incluir en la barra de herramientas del análisis. Los valores excluidos son marcados con una X.

Page 18: Regresión No Lineal - Statgraphics

STATGRAPHICS – Rev. 4/25/2007

© 2006 by StatPoint, Inc. Regresión No Lineal - 18

Puntos Influyentes Cuando se ajusta un modelo de regresión, no todas las observaciones tienen la misma influencia en la estimación de los parámetros del modelo ajustado. En una regresión simple, los puntos localizados a valores de X muy bajos o muy altos tienen mayor influencia que los localizados más cerca de la media de X. La ventana Puntos Influyentes presenta cualquier observación que tenga gran influencia en el modelo ajustado:

Puntos Influyentes para chlorine Distancia de Distancia Fila Leverage Mahalanobis DFITS de Cook 10 0.0407876 0.80918 -0.550164 0.132097 17 0.051007 1.2807 0.833184 0.270387 18 0.051007 1.2807 0.544379 0.133796 40 0.0752918 2.44299 -0.440596 0.0939656

Leverage promedio de un solo punto = 0.0454545 Se colocan puntos en esta lista por una de las siguientes razones: • Punto Leverage – mide cuán distante está una observación de la media de las n

observaciones en el espacio de las variables independientes. Entre más grande el punto nivelador, mayor el impacto del punto en los valore ajustados .y Los puntos son colocados en la lista si el punto nivelados es mayor de tres veces el de un punto promedio.

• Distancia de Mahalanobis – mide la distancia de un punto a partir del centro de la colección

de los puntos en el espacio multivariado de las variables independientes. Dado que esta distancia está relacionada con el punto nivelador, no suele seleccionar puntos para la tabla.

• DFITS – mide la diferencia entre los valores predichos iy cuando el modelo se ajusta con y

sin el i-ésimo dato. Los puntos se colocan en la lista si el valor absoluto de las DFITS excede np /2 , donde p es el número de coeficientes en el modelo ajustado.

Salvar Resultados Se pueden salvar los siguientes resultados en la hoja de datos:

1. Valores Predichos – los valores predichos de Y correspondientes a cada una de las n observaciones.

2. Errores Estándar para los Pronósticos – los errores estándar de los n valores predichos. 3. Límites Inferiores para Pronósticos – los límites inferiores de predicción para cada valor

predicho. 4. Límites Superiores para Pronósticos – los límites superiores de predicción para cada

valor predicho. 5. Errores Estándar de Medias - los errores estándar de los valores medios de Y para cada

uno de los n valores de X. 6. Límites Inferiores para las Medias Pronosticadas – los límites inferiores de confianza

para el valor medio de Y en cada uno de los n valores de X. 7. Límites Superiores para las Medias Pronosticadas – los límites superiores de confianza

para el valor medio de Y en cada uno de los n valores de X. 8. Residuos – los n residuos.

Page 19: Regresión No Lineal - Statgraphics

STATGRAPHICS – Rev. 4/25/2007

© 2006 by StatPoint, Inc. Regresión No Lineal - 19

9. Residuos Estudentizados – los n residuos Estudentizados. 10. Leverages – los valores de los puntos niveladores correspondientes a los n valores de X. 11. Estadísticas DFITS – el valor de las estadísticas DFITS correspondientes a los n valores

de X. 12. Distancias de Mahalanobis – la distancia de Mahalanobis correspondientes a los n

valores de X. 13. Coeficientes – los coeficientes estimados del modelo. 14. Función – una cadena de caracteres conteniendo la expresión de STATGRAPHICS para

la función que fue ajustada. Cálculos Las estimaciones de los parámetros se encuentran minimizando numéricamente la suma de cuadrados de los residuos. La matriz de varianzas-covarianzas de los coeficientes se estima a partir de las derivadas parciales en la vecindad de la solución de mínimos cuadrados.