54
Regresión lineal simple y correlación 12 446 INTRODUCCIÓN En los problemas de dos muestras discutidos en el capítulo 9, interesaba comparar valores de parámetros para la distribución x y la distribución y. Incluso cuando las ob- servaciones se aparearon, no se trató de utilizar sobre una de las variables al estudiar la otra variable. Éste es precisamente el objetivo del análisis de regresión, explotar la relación entre dos (o más) variables de modo que se pueda obtener información so- bre una de ellas mediante el conocimiento de los valores de la otra u otras. Gran parte de las matemáticas se dedica a estudiar variables que están deter- minísticamente relacionadas. Decir que x y y están relacionadas de esta manera sig- nifica que una vez conocido el valor de x, el valor de y queda completamente especificado. Por ejemplo, supóngase que se decide rentar una vagoneta por un día y la renta es de $25.00 más $0.30 por milla recorrida. Si x el número de millas re- corridas y y el cargo de la renta, entonces y 25 0.3x. Si se recorren 100 mi- llas (x 100), entonces y 25 + 0.3(100) 55. Como otro ejemplo, si la velocidad inicial de una partícula es v 0 y experimenta una aceleración constante a, entonces la distancia recorrida y v 0 x 1 2 ax 2 , donde x tiempo. Existen muchas variables x y y que parecerían estar relacionadas entre sí, pero no de una forma determinística. Un ejemplo conocido para muchos estudiantes es el de las variables x promedio de calificaciones de preparatoria (GPA, por sus siglas en inglés) y y GPA universitario. El valor de y no puede ser determinado sólo con el conocimiento de x, y dos estudiantes diferentes podrían tener el mismo valor x pero tener valores y muy distintos. No obstante, existe la tendencia de que aquellos estudiantes que tienen promedio de calificaciones de preparatoria alto (bajo) tam- bién tienen un promedio de calificaciones universitario alto (bajo). El conocimiento del promedio de calificaciones de preparatoria de un estudiante es bastante útil ya que permite predecir cómo se desempeñará en la universidad. www.FreeLibros.me

12 y correlación Regresión lineal simple - sgpwe.izt.uam.mxsgpwe.izt.uam.mx/files/users/uami/jdf/Devore/cap12.pdf · desarrollar un modelo probabilístico lineal. Si las dos variables

  • Upload
    lelien

  • View
    238

  • Download
    0

Embed Size (px)

Citation preview

Page 1: 12 y correlación Regresión lineal simple - sgpwe.izt.uam.mxsgpwe.izt.uam.mx/files/users/uami/jdf/Devore/cap12.pdf · desarrollar un modelo probabilístico lineal. Si las dos variables

Regresión lineal simple y correlación12

446

INTRODUCCIÓN

En los problemas de dos muestras discutidos en el capítulo 9, interesaba comparar

valores de parámetros para la distribución x y la distribución y. Incluso cuando las ob-

servaciones se aparearon, no se trató de utilizar sobre una de las variables al estudiar

la otra variable. Éste es precisamente el objetivo del análisis de regresión, explotar la

relación entre dos (o más) variables de modo que se pueda obtener información so-

bre una de ellas mediante el conocimiento de los valores de la otra u otras.

Gran parte de las matemáticas se dedica a estudiar variables que están deter-

minísticamente relacionadas. Decir que x y y están relacionadas de esta manera sig-

nifica que una vez conocido el valor de x, el valor de y queda completamente

especificado. Por ejemplo, supóngase que se decide rentar una vagoneta por un día

y la renta es de $25.00 más $0.30 por milla recorrida. Si x � el número de millas re-

corridas y y � el cargo de la renta, entonces y � 25 � 0.3x. Si se recorren 100 mi-

llas (x � 100), entonces y � 25 + 0.3(100) � 55. Como otro ejemplo, si la velocidad

inicial de una partícula es v0 y experimenta una aceleración constante a, entonces la

distancia recorrida � y � v0 x � 12

ax2, donde x � tiempo.

Existen muchas variables x y y que parecerían estar relacionadas entre sí, pero

no de una forma determinística. Un ejemplo conocido para muchos estudiantes es el

de las variables x � promedio de calificaciones de preparatoria (GPA, por sus siglas

en inglés) y y � GPA universitario. El valor de y no puede ser determinado sólo con

el conocimiento de x, y dos estudiantes diferentes podrían tener el mismo valor x

pero tener valores y muy distintos. No obstante, existe la tendencia de que aquellos

estudiantes que tienen promedio de calificaciones de preparatoria alto (bajo) tam-

bién tienen un promedio de calificaciones universitario alto (bajo). El conocimiento

del promedio de calificaciones de preparatoria de un estudiante es bastante útil ya

que permite predecir cómo se desempeñará en la universidad.

c12_p446-499.qxd 3/12/08 4:30 AM Page 446

www.FreeLibros.me

Page 2: 12 y correlación Regresión lineal simple - sgpwe.izt.uam.mxsgpwe.izt.uam.mx/files/users/uami/jdf/Devore/cap12.pdf · desarrollar un modelo probabilístico lineal. Si las dos variables

12.1 Modelo de regresión lineal simple 447

La relación matemática determinística más simple entre dos variables x y y es una relaciónlineal y � �0 � �1x.. El conjunto de pares (x, y) para los cuales y � �0 � �1x determina una línea recta con pendiente �1 e intersección en y �0.* El objetivo de esta sección es desarrollar un modelo probabilístico lineal.

Si las dos variables no están determinísticamente relacionadas, entonces con un valorfijo de x, el valor de la segunda variable es aleatorio. Por ejemplo, si se está investigando larelación entre la edad de un niño y el tamaño del vocabulario y se decide seleccionar un niñode x � 5.0 años de edad, entonces antes de hacer la selección, el tamaño del vocabulario esuna variable aleatoria Y. Después de que un niño particular de 5 años de edad se seleccionay se somete a prueba, el resultado puede ser un vocabulario de 2000 palabras. Se diría en-tonces que el valor observado de Y asociado con la fijación de x � 5.0 fue y � 2000.

Más generalmente, la variable cuyo valor fija el experimentador será denotada por xy se llamará variable independiente, pronosticadora o variable explicativa. Con x fija, lasegunda variable será aleatoria; esta variable aleatoria y su valor observado se designan Y yy, respectivamente y se la conoce como variable dependiente o de respuesta.

Normalmente se realizarán observaciones para varios escenarios de la variable inde-pendiente. Sean x1, x2, . . . , xn los valores de la variable independiente para la que se realizanlas observaciones y sean Yi y yi, respectivamente, la variable aleatoria y el valor observadoasociado con xi. Los datos bivariantes disponibles se componen entonces de los n pares (x1,y1), (x2, y2), . . . , (xn, yn). Un primer paso en el análisis de regresión que implica dos varia-bles es construir una gráfica de puntos de los datos observados. En una gráfica como esa,cada (xi, yi) está representado como un punto colocado en un sistema de coordenadas bidi-mensional.

12.1 Modelo de regresión lineal simple

Otros ejemplos de variables relacionadas de una forma no determinística inclu-

yen x � edad de un niño y y � tamaño del vocabulario de ese niño, x � tamaño de

un motor en centímetros cúbicos y y � eficiencia de combustible de un automóvil

equipado con dicho motor y x � fuerza de tensión aplicada y y � cantidad de alarga-

miento en una tira de metal.

El análisis de regresión es la parte de la estadística que se ocupa de investigar

la relación entre dos o más variables relacionadas en una forma no determinística. En

este capítulo, se generaliza la relación lineal determinística y � �0 � �1x a una relación

probabilística lineal, se desarrollan procedimientos para hacer inferencias sobre los pa-

rámetros del modelo y se obtiene una medida cuantitativa (el coeficiente de correlación)

del grado al cual las dos variables están relacionadas. En el siguiente capítulo, se conside-

rarán técnicas para validar un modelo particular y para investigar relaciones no lineales

y relaciones que implican más de dos variables.

* La pendiente de una línea es el cambio en y con un incremento de 1 unidad en x. Por ejemplo, si y � �3x � 10,entonces y se reduce en 3 cuando x se incrementa en 1, de modo que la pendiente es �3. La intersección en yes la altura a la cual la línea cruza el eje vertical y se obtiene haciendo x � 0 en la ecuación.

c12_p446-499.qxd 3/12/08 4:30 AM Page 447

www.FreeLibros.me

Page 3: 12 y correlación Regresión lineal simple - sgpwe.izt.uam.mxsgpwe.izt.uam.mx/files/users/uami/jdf/Devore/cap12.pdf · desarrollar un modelo probabilístico lineal. Si las dos variables

Los problemas visuales y musculoesqueléticos asociados con el uso de terminales con pan-tallas de visualización (VDT, por sus siglas en inglés) se han vuelto un tanto comunes en añosrecientes. Algunos investigadores se han enfocado en la dirección vertical de la mirada fijacomo causa del cansancio e irritación de los ojos. Se sabe que esta relación está estrechamen-te relacionada con el área de la superficie ocular (OSA, por sus siglas en inglés), así que serequiere un método de medir el área de la superficie ocular. Los datos representativos adjun-tos sobre y � OSA (cm2) y x � ancho de la fisura palprebal (es decir, el ancho horizontal dela apertura del ojo (en cm) se tomó del artículo “Analysis of Ocular Surface Area for Com-fortable VDT Workstation Layout” (Ergonomics, 1996: 877-884). No se da el orden en elcual se obtuvieron las observaciones, así que por conveniencia aparecen en orden crecientede los valores x.

i 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15

xi 0.40 0.42 0.48 0.51 0.57 0.60 0.70 0.75 0.75 0.78 0.84 0.95 0.99 1.03 1.12

yi 1.02 1.21 0.88 0.98 1.52 1.83 1.50 1.80 1.74 1.63 2.00 2.80 2.48 2.47 3.05

i 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30

xi 1.15 1.20 1.25 1.25 1.28 1.30 1.34 1.37 1.40 1.43 1.46 1.49 1.55 1.58 1.60

yi 3.18 3.76 3.68 3.82 3.21 4.27 3.12 3.99 3.75 4.10 4.18 3.77 4.34 4.21 4.92

Por consiguiente, (x1, y1) � (0.40, 1.02), (x5, y5) � (0.57, 1.52), y así sucesivamente. En la figura 12.1 se muestra una gráfica de puntos obtenida con MINITAB; se utilizó una opciónque produjo una gráfica de puntos tanto de valores x como de valores y individualmente a lolargo de los márgenes derecho y superior de la gráfica, lo que facilita visualizar las distribu-ciones de las variables individuales (los histogramas o gráficas de caja son opciones alterna-tivas). He aquí algunas cosas que hay que tener en cuenta sobre los datos y la gráfica:

• Varias observaciones tienen valores x idénticos aunque valores y diferentes (p. ej., x8 �x9 � 0.75 pero y8 � 1.80 y y9 � 1.74). Por lo tanto, el valor de y no está determinado só-lo por x sino también por varios otros factores.

• Existe una fuerte tendencia de que y se incremente a medida que x lo hace. Es decir, losvalores grandes de OSA tienden a asociarse con valores grandes de ancho de fisura, unarelación positiva entre las variables.

448 CAPÍTULO 12 Regresión lineal simple y correlación

Ejemplo 12.1

OSA

Ancho asociado

Figura 12.1 Gráfica de puntos obtenida con MINITAB con los datos del ejemplo 12.1, juntocon gráficas de puntos de valores x y y.

c12_p446-499.qxd 3/12/08 4:30 AM Page 448

www.FreeLibros.me

Page 4: 12 y correlación Regresión lineal simple - sgpwe.izt.uam.mxsgpwe.izt.uam.mx/files/users/uami/jdf/Devore/cap12.pdf · desarrollar un modelo probabilístico lineal. Si las dos variables

• Parece que el valor de y podría ser pronosticado a partir de x encontrando una línea que es-té razonablemente cerca a los puntos presentes en la gráfica (los autores del artículo citadosuperponen tal línea en su gráfica). En otras palabras, existe evidencia de una relación lineal(aunque no perfecta) sustancial entre las dos variables. ■

Los ejes horizontal y vertical en la gráfica de puntos que aparecen en la gráfica de lafigura 12.1 se cortan en el punto (0, 0). En muchos conjuntos de datos los valores de x o yo los valores de ambas variables difieren considerablemente de cero con respecto al rango orangos de los valores. Por ejemplo, un estudio de cómo la eficiencia de un equipo de aireacondicionado está relacionada con la temperatura diaria máxima a la intemperie podría im-plicar observaciones de temperaturas desde 80°F hasta 100°F. Cuando éste es el caso, unagráfica más informativa mostraría los ejes apropiadamente marcados en algún punto dife-rente de (0, 0).

Los fenómenos de crecimiento y declinación de los bosques por todo el mundo han atraídoun considerable interés del público y la comunidad científica. El artículo “RelationshipsAmong Crown Condition, Growth, and Stand Nutrition in Seven Northern Vermont Sugar-bushes” (Canad. J. of Forest Res., 1995: 386-397) incluye una gráfica de puntos de y � de-clinación de copa media (%), un indicador de la retardación del crecimiento y x � pH delsuelo (un pH más alto corresponde a un suelo más ácido), de donde se tomaron las siguien-tes observaciones:

x 3.3 3.4 3.4 3.5 3.6 3.6 3.7 3.7 3.8 3.8

y 7.3 10.8 13.1 10.4 5.8 9.3 12.4 14.9 11.2 8.0

x 3.9 4.0 4.1 4.2 4.3 4.4 4.5 5.0 5.1

y 6.6 10.0 9.2 12.4 2.3 4.3 3.0 1.6 1.0

La figura 12.2 muestra dos gráficas de puntos de estos datos obtenidas con MINITAB. Enla figura 12.2a), MINITAB seleccionó la escala para ambos ejes. La figura 12.2b) se obtu-vo especificando valores mínimo y máximo para x y y, de modo que los ejes se corten apro-ximadamente en el punto (0, 0). La segunda gráfica está más amontonada que la primera;tal amontonamiento hace más difícil valorar la naturaleza general de cualquier relación. Porejemplo, puede ser más difícil descubrir la curvatura en una gráfica amontonada.

12.1 Modelo de regresión lineal simple 449

Ejemplo 12.2

Porc

enta

je d

e de

clin

ació

n

Porc

enta

je d

e de

clin

ació

n

pH del suelo pH del suelo

b)a)

Figura 12.2 Gráficas de puntos obtenidas con MINITAB con los datos del ejemplo 12.2.

c12_p446-499.qxd 3/12/08 4:30 AM Page 449

www.FreeLibros.me

Page 5: 12 y correlación Regresión lineal simple - sgpwe.izt.uam.mxsgpwe.izt.uam.mx/files/users/uami/jdf/Devore/cap12.pdf · desarrollar un modelo probabilístico lineal. Si las dos variables

Los valores grandes de porcentaje de declinación tienden a asociarse con un bajo pHdel suelo, una relación negativa o inversa. Además, las dos variables parecen estar al menosaproximadamente relacionadas, aunque los puntos se dispersarían en torno a cualquier línearecta trazada a través de la gráfica. ■

Modelo probabilístico linealPara el modelo determinístico y � �0 � �1x, el valor observado de y es una función linealde x. La generalización apropiada de esto a un modelo probabilístico supone que el valoresperado de Y es una función lineal de x, pero que con x fija, la variable Y difiere de su va-lor esperado en una cantidad aleatoria.

450 CAPÍTULO 12 Regresión lineal simple y correlación

La variable � se conoce como término de error aleatorio o desviación aleatoria enel modelo. Sin �, cualquier par observado (x, y) correspondería a un punto que queda exac-tamente sobre la línea y � �0 � �1x, llamada línea de regresión (o de población) verda-dera. La inclusión del término de error aleatorio permite que (x, y) quede o por encima dela línea de regresión verdadera (cuando � � 0) o por debajo (cuando � � 0). Los puntos (x1,y1), . . . , (xn, yn) provenientes de n observaciones independientes se dispersarán entonces entorno a la línea de regresión verdadera, como se ilustra en la figura 12.3. En ocasiones, laconveniencia del modelo de regresión lineal simple puede ser sugerida por consideracionesteóricas (p. ej., existe una relación lineal exacta entre las dos variables, con � representandoel error de medición). Con mucha más frecuencia, no obstante, la racionalidad del modeloes indicada por una gráfica de puntos que exhibe un patrón lineal sustancial (como en la fi-gura 12.1).

DEFINICIÓN Modelo de regresión lineal simple

Existen parámetros �0, �1 y �2 de tal suerte que con cualquier valor fijo de la varia-ble independiente x, la variable dependiente está relacionada con x por conducto de laecuación de modelo

Y � �0 � �1x � � (12.1)

La cantidad � en la ecuación de modelo es una variable aleatoria, que se supone estánormalmente distribuida con E(�) � 0 y V(�) � � 2.

y

x

x1 x2

(x1, y1)

(x2, y2)

Línea de regresión verdaderay � 0 � 1x��

1

2

Figura 12.3 Puntos correspondientes a observaciones del modelo de regresión lineal simple.

c12_p446-499.qxd 3/12/08 4:30 AM Page 450

www.FreeLibros.me

Page 6: 12 y correlación Regresión lineal simple - sgpwe.izt.uam.mxsgpwe.izt.uam.mx/files/users/uami/jdf/Devore/cap12.pdf · desarrollar un modelo probabilístico lineal. Si las dos variables

Las implicaciones de la ecuación del modelo (12.1) se entienden mejor con la ayudade la siguiente notación. Sea x* un valor particular de la variable independiente x y

�Y�x* � el valor esperado (o media) de Y cuando x � x*

� 2Y�x* � la varianza de Y cuando x � x*

La notación alternativa es E(Y x*) y V(Y x*). Por ejemplo, si x � esfuerzo aplicado(kg/mm2) y y � tiempo para la fractura (h), entonces �Y�20 denotaría el valor esperado detiempo para la fractura cuando se aplica un esfuerzo de 20 kg/mm2. Si se piensa en una po-blación completa de pares (x, y), entonces �Y�x* es la media de todos los valores y con loscuales x � x* y � 2

Y�x* es una medida de cuántos de estos valores de y se dispersan en tornoal valor medio. Si por ejemplo, x � edad de un niño y y � tamaño del vocabulario, enton-ces �Y�5 es el tamaño del vocabulario promedio de todos los niños de 5 años que hay en lapoblación y � 2

Y�5 describe la cantidad de variabilidad del tamaño del vocabulario de esta par-te de la población. Una vez que se fija x, la única aleatoriedad del lado derecho de la ecua-ción del modelo (12.1) se encuentra en el error aleatorio � y su valor medio y varianza son 0 y �2, respectivamente, cualquiera que sea al valor de x. Esto implica que

�Y�x* � E(�0 � �1x* � �) � �0 � �1x* � E(�) � �0 � �1x*

� 2Y�x* � V(�0 � �1x* � �) � V(�0 � �1x*) � V(�) � 0 � � 2 � � 2

Reemplazando x* en �Y�x* por x se obtiene la relación �Y�x � �0 � �1x, la cual expre-sa que el valor medio de Y, en lugar de Y misma, es una función lineal de x. La línea de re-gresión lineal verdadera y � �0 � �1x es por consiguiente la línea de valores medios; sualtura por encima de cualquier valor x es el valor esperado de Y para ese valor de x. La pen-diente �1 de la línea de regresión verdadera se interpreta como el cambio esperado de Y aso-ciado con el incremento en una unidad del valor de x. La segunda relación manifiesta que lacantidad de variabilidad en la distribución de valores Y es la misma con cada valor diferen-te de x (homogeneidad de varianza). En el ejemplo que implica la edad de un niño y el ta-maño de su vocabulario, el modelo implica que el tamaño del vocabulario promedio cambiade manera lineal con la edad (afortunadamente �1 es positiva) y que la cantidad de variabi-lidad del tamaño del vocabulario a cualquier edad particular es la misma que a cualquier otraedad. Por último, con x fija, Y es la suma de una constante �0 � �1x y una variable aleato-ria normalmente distribuida � así que por sí misma tiene una distribución normal. Estas pro-piedades se ilustran en la figura 12.4. El parámetro de varianza �2 determina el grado al cualcada curva normal se dispersa en torno a su valor medio (la altura de la línea). Cuando �2

12.1 Modelo de regresión lineal simple 451

y

xx1 x2 x3

0 � 1x3��

0 � 1x2��

0 � 1x1��Línea y � �0 � �1x

b)

0�� �

a)

Media normal 0 desviación estándar �

Figura 12.4 a) Distribución de '; b) distribución de Y con diferentes valores de x.

c12_p446-499.qxd 3/12/08 4:30 AM Page 451

www.FreeLibros.me

Page 7: 12 y correlación Regresión lineal simple - sgpwe.izt.uam.mxsgpwe.izt.uam.mx/files/users/uami/jdf/Devore/cap12.pdf · desarrollar un modelo probabilístico lineal. Si las dos variables

es pequeña, un punto observado (x, y) normalmente quedará bastante cerca de la línea de re-gresión verdadera, mientras que las observaciones pueden desviarse considerablemente desus valores esperados (correspondientes a puntos alejados de la línea) cuando �2 es grande.

Supóngase que el modelo de regresión lineal simple con una línea de regresión verdadera y � 65 � 1.2x y � � 8 describe la relación entre el esfuerzo aplicado x y el tiempo para lafalla y. Entonces con cualquier valor fijo x* de esfuerzo, el tiempo para la falla tiene unadistribución normal con valor medio de 65 � 1.2x* y desviación estándar 8. En general, en la población compuesta de todos los puntos (x, y), la magnitud de una desviación típicacon respecto a la línea de regresión verdadera es aproximadamente 8. Con x � 20, Y tieneun valor medio �Y·20 � 65 � 1.2(20) � 41, por lo tanto

P(Y � 50 cuando x � 20) � P�Z � � � 1 � �(1.13) � 0.1292

La probabilidad de que el tiempo para la falla exceda de 50 cuando se aplica un esfuerzo de25 es, debido a que �Y·25 � 35,

P(Y � 50 cuando x � 25) � P�Z � � � 1 � �(1.88) � 0.0301

Estas probabilidades se ilustran como las áreas sombreadas en la figura 12.5.

50 � 35

8

50 � 41

8

452 CAPÍTULO 12 Regresión lineal simple y correlación

Ejemplo 12.3

Supóngase que Y1 denota una observación del tiempo para la falla realizada con x � 25y que Y2 denota una observación independiente realizada con x � 24. Entonces Y1 � Y2 estánormalmente distribuida con valor medio E(Y1 � Y2) � �1 � 1.2, varianza V(Y1 � Y2) ��2 � �2 � 128 y desviación estándar �1�2�8� � 11.314. La probabilidad de que Y1 exceda aY2 es

P(Y1 � Y2 � 0) � P�Z � � � P(Z � 0.11) � 0.4562

Es decir, aun cuando se espera que Y disminuya a medida que x se incrementa en una uni-dad, es probable que Y en x � 1 sea más grande que la Y observada en x. ■

0 � ( 1.2)

11.314

20 25x

y

50

4135

P(Y � 50 cuando x � 20) � 0.1292

P(Y � 50 cuando x � 25) � 0.0301

Línea de regresión verdaderay � 65 �1.2x

Figura 12.5 Probabilidades basadas en el modelo de regresión lineal simple.

c12_p446-499.qxd 3/12/08 4:30 AM Page 452

www.FreeLibros.me

Page 8: 12 y correlación Regresión lineal simple - sgpwe.izt.uam.mxsgpwe.izt.uam.mx/files/users/uami/jdf/Devore/cap12.pdf · desarrollar un modelo probabilístico lineal. Si las dos variables

12.1 Modelo de regresión lineal simple 453

1. La relación de eficiencia de un espécimen de acero sumer-gido en un tanque para fosfatizar es el peso del recubri-miento de fosfato dividido entre la pérdida de metal (ambosen mg/pie2). El artículo “Statistical Process Control of aPhosphate Coating Line” (Wire J. Intl., mayo de 1997: 78-81) dio los datos adjuntos sobre la temperatura del tan-que (x) y relación de eficiencia (y):

a. Construya gráficas de tallo y hojas tanto de la relaciónde temperatura como la relación de eficiencia y comen-te características interesantes.

b. ¿Está el valor de la relación de eficiencia determinadopor completo y de forma única por la temperatura deltanque? Explique su razonamiento.

c. Construya una gráfica de puntos de los datos. ¿Parece quela relación de eficiencia podría ser pronosticada muy bienpor el valor de la temperatura? Explique su razonamiento.

2. El artículo “Exhaust Emissions from Four-Stroke Lawn Mo-wer Engines” (J. of the Air and Water Mgmnt. Assoc., 1997:945-952) reportó datos de un estudio en el cual se utilizó unamezcla de gasolina básica y una gasolina reformulada. Con-sidere las siguientes observaciones sobre antigüedad (años)y emisiones de NOx (g/kWh):

Construya gráficas de puntos de emisiones de NOx contraantigüedad. ¿Cuál parece ser la naturaleza de la relación en-tre estas dos variables? [Nota: Los autores del artículo cita-do comentaron sobre la relación.]

3. A menudo surgen datos bivariantes cuando se utilizan dostécnicas diferentes de medir la misma cantidad. Comoejemplo, las observaciones adjuntas de x � concentraciónde hidrógeno (ppm) por medio de un método de cromato-grafía de gases y y � concentración mediante un nuevo mé-todo de sensor se leyeron en una gráfica que aparece en elartículo “A New Method to Measure the Diffusible Hydro-gen Content in Steel Weldments Using a Polymer Electroly-te-Based Hydrogen Sensor” (Welding Res., julio de 1997:251s-256s).

Construya una gráfica de puntos. ¿Parece haber una fuerterelación entre los dos tipos de mediciones de concentración?¿Parece que los métodos miden aproximadamente la mismacantidad? Explique su razonamiento.

4. Un estudio para valorar la capacidad de sistemas de hume-decimiento de suelos mediante flujo subsuperficial para eli-minar la demanda de oxígeno bioquímico (BOD, por sussiglas en inglés) y varios otros constituyentes químicos diolos datos adjuntos sobre x � carga masiva de BOD (kg/ha/d)y y � eliminación masiva de BOD (kg/ha/d) (“SubsurfaceFlow Wetlands-A Performance Evaluation”, Water Envir.Res., 1995. 244-247).

a. Construya gráficas de caja tanto de carga masiva comode eliminación masiva y comente sobre cualquier carac-terística interesante.

b. Construya una gráfica de puntos de los datos y comentesobre cualquier característica importante.

5. El artículo “Objective Measurement of the Stretchability ofMozzarella Cheese” (J. of Texture Studies, 1992: 185-194)reportó sobre un experimento para investigar la variacióndel comportamiento del queso mozzarella con la tempera-tura. Considere los datos adjuntos sobre x � temperatura y y � alargamiento (%) en el momento de la falla del que-so. [Nota: Los investigadores eran italianos y utilizaron quesomozzarella real, no el pobre primo ampliamente disponibleen Estados Unidos.]

a. Construya una gráfica de puntos en la cual los ejes secorten en (0, 0). Marque 0, 20, 40, 60, 80 y 100 en el ejehorizontal y 0, 50, 100, 150, 200 y 250 en el eje vertical.

b. Construya una gráfica de puntos en la cual los ejes secorten en (55, 100), como se hizo en el citado artículo.¿Parece ser preferible esta gráfica a la del inciso a)? Ex-plique su razonamiento.

c. ¿Qué sugieren las gráficas de los incisos a) y b) sobre lanaturaleza de la relación entre las dos variables?

6. Un factor en la presencia del codo de tenista, una dolenciaque provoca terror en el corazón de todos los verdaderos te-nistas, es la vibración inducida por el impacto del sistemaraqueta y brazo al contacto con la pelota. Es bien sabido quela probabilidad de sufrir de codo de tenista depende de

Motor 1 2 3 4 5Antigüedad 0 0 2 11 7Básica 1.72 4.38 4.06 1.26 5.31Reformulada 1.88 5.93 5.54 2.67 6.53

Motor 6 7 8 9 10Antigüedad 16 9 0 12 4Básica 0.57 3.37 3.44 0.74 1.24Reformulada 0.74 4.94 4.89 0.69 1.42

Temp. 170 172 173 174 174 175 176Relación 0.84 1.31 1.42 1.03 1.07 1.08 1.04

Temp. 177 180 180 180 180 180 181Relación 1.80 1.45 1.60 1.61 2.13 2.15 0.84

Temp. 181 182 182 182 182 184 184Relación 1.43 0.90 1.81 1.94 2.68 1.49 2.52

Temp. 185 186 188Relación 3.00 1.87 3.08

EJERCICIOS Sección 12.1 (1-11)

x 3 8 10 11 13 16 27 30 35 37 38 44 103 142

y 4 7 8 8 10 11 16 26 21 9 31 30 75 90

x 59 63 68 72 74 78 83

y 118 182 247 208 197 135 132

x 47 62 65 70 70 78 95 100 114 118

y 38 62 53 67 84 79 93 106 117 116

x 124 127 140 140 140 150 152 164 198 221

y 127 114 134 139 142 170 149 154 200 215

c12_p446-499.qxd 3/12/08 4:30 AM Page 453

www.FreeLibros.me

Page 9: 12 y correlación Regresión lineal simple - sgpwe.izt.uam.mxsgpwe.izt.uam.mx/files/users/uami/jdf/Devore/cap12.pdf · desarrollar un modelo probabilístico lineal. Si las dos variables

454 CAPÍTULO 12 Regresión lineal simple y correlación

varias propiedades de la raqueta utilizada. Considere la grá-fica de puntos de x � frecuencia de resonancia de la raque-ta (Hz) y y � suma de la aceleración pico a pico (unacaracterística de la vibración del brazo, en m/s/s) de n � 23raquetas diferentes (“Transfer of Tennis Racket Vibrationsinto the Human Forearm”, Medicine and Science in Sportsand Exercise, 1992: 1134-1140). Discuta características in-teresantes de los datos y la gráfica de puntos.

7. El artículo “Some Field Experience in the Use of an Acce-lerated Method in Estimating 28-Day Strength of Concrete”(J. Amer. Concrete Institute, 1969: 895) consideró regre-sar y � resistencia estándar después de 28 días de curado (lb/pulg2) contra x � resistencia acelerada (lb/pulg2). Su-ponga que la ecuación de la línea de regresión verdadera esy � 1800 � 1.3x.a. ¿Cuál es el valor esperado de la resistencia después de

28 días cuando la resistencia acelerada � 2500? b. ¿Cuánto se debe esperar que cambie la resistencia des-

pués de 28 días cuando la resistencia acelerada se incre-menta en una lb/pulg2?

c. Responda el inciso b) para un incremento de 100 lb/pulg2. d. Responda el inciso b) para una reducción de 100

lb/pulg2.

8. Recurriendo al ejercicio 7, suponga que la desviación están-dar de la desviación aleatoria � es de 350 lb/pulg2. a. ¿Cuál es la probabilidad de que el valor observado de la

resistencia después de 28 días excederá de 5000 lb/pulg2

cuando el valor de la resistencia acelerada es de 2000? b. Repita el inciso a) con 2500 en lugar de 2000. c. Considere hacer dos observaciones diferentes de resis-

tencia después de 28 días, la primera con una resistenciaacelerada de 2000 y la segunda con x � 2500. ¿Cuál esla probabilidad de que la segunda observación excederá laprimera por más de 1000 lb/pulg2?

d. Sean Y1 y Y2 las observaciones de resistencia después de 28días cuando x � x1 y x � x2, respectivamente. ¿Por cuán-to tendría que exceder x2 a x1 para que P(Y2 � Y1) � 0.95?

9. La velocidad de flujo y (m3/min) en un dispositivo utilizadopara medir la calidad del aire depende de la caída de presiónx (pulg. de agua) a través del filtro del dispositivo. Supongaque con valores de x entre 5 y 20, las dos variables están re-lacionadas de acuerdo con el modelo de regresión lineal sim-ple con línea de regresión verdadera y � �0.12 � 0.095x. a. ¿Cuál es el cambio esperado de la velocidad de flujo

asociado con un incremento de una pulg en la caída depresión? Explique.

b. ¿Qué cambio de la velocidad de flujo se puede esperarcuando la caída de presión se reduce en cinco pulg?

c. ¿Cuál es la velocidad de flujo esperada con una caída depresión de 10 pulg? ¿Una caída de presión de 15 pulg?

d. Suponga � � 0.025 y considere una caída de presión de10 pulg. ¿Cuál es la probabilidad de que el valor obser-vado de la velocidad de flujo excederá de 0.835?, ¿quela velocidad de flujo observada excederá de 0.840?

e. ¿Cuál es la probabilidad de que una observación de lavelocidad de flujo cuando la caída de presión es de 10pulg excederá una observación de la velocidad de flujocuando la caída de presión es de 11 pulg?

10. Suponga que el costo esperado de una serie de producciónestá relacionado con el tamaño de la serie por conducto de laecuación y � 4000 � 10x. Sea Y una observación sobre elcosto de una serie. Si el tamaño de las variables y el costo es-tán relacionados de acuerdo con el modelo de regresión linealsimple, podría ser el caso que P(Y � 5500 cuando x � 100)� 0.05 y P(Y � 6500 cuando x � 200) � 0.10? Explique.

11. Suponga que en cierto proceso químico el tiempo de reac-ción y (h) está relacionado con la temperatura (°F) en la cá-mara en la cual la reacción ocurre de acuerdo con el modelode regresión lineal simple con la ecuación y � 5.00 � 0.01xy � � 0.075. a. ¿Cuál es el cambio esperado del tiempo de reacción con

un incremento de un °F de la temperatura? ¿Con un in-cremento de 10°F de la temperatura?

b. ¿Cuál es el tiempo de reacción cuando la temperatura esde 200°F? ¿Cuando la temperatura es de 250°F?

c. Suponga que se realizan cinco observaciones indepen-dientemente del tiempo de reacción, cada una para unatemperatura de 250°F. ¿Cuál es la probabilidad de quelas cinco observaciones resulten entre 2.4 y 2.6 h?

d. ¿Cuál es la probabilidad de que dos tiempos de reacciónindependientemente observados a temperaturas con 1°de diferencia son tales que el tiempo a la temperaturamás alta excede el tiempo a la temperatura más baja?

x100

y

38

36

34

32

30

28

26

22

24

120110 130 140 160150 170 190180

12.2 Estimación de parámetros de modelo

Se supondrá en ésta y en las siguientes secciones que las variables x y y están relacionadasde acuerdo con el modelo de regresión lineal simple. Un investigador casi nunca conocerálos valores de �0, �1 y �2. En cambio, estará disponible una muestra de datos compuesta de n

c12_p446-499.qxd 3/12/08 4:30 AM Page 454

www.FreeLibros.me

Page 10: 12 y correlación Regresión lineal simple - sgpwe.izt.uam.mxsgpwe.izt.uam.mx/files/users/uami/jdf/Devore/cap12.pdf · desarrollar un modelo probabilístico lineal. Si las dos variables

pares observados (x1, y1), . . . , (xn, yn), con la cual los parámetros de modelo y la línea de regresión verdadera pueden ser estimados. Se supone que estas observaciones se obtuvieronindependientemente una de otra. Es decir, yi es el valor observado de una variable aleatoria Yi,donde Yi � �0 � �1xi � �i y las n desviaciones, �1, �2, . . . , �n son variables independientes.La independencia de Y1, Y2, . . . , Yn se desprende de la independencia de las �i .

De acuerdo con el modelo, los puntos observados estarán distribuidos en torno a la línea de regresión verdadera de una manera aleatoria. La figura 12.6 muestra una gráfica típica de pares observados junto con dos candidatos para la línea de regresión estimada, y � a0 � a1x y y � b0 � b1x. Intuitivamente, la línea y � a0 � a1x no es una estimación razonable de la línea verdadera y � �0 � �1x, porque si y � a0 � a1x fuera la línea verda-dera, los puntos observados con toda seguridad habrían quedado más cerca de esta línea. Lalínea y � b0 � b1x es una estimación más factible porque los puntos observados están dis-persos más cerca de esta línea.

12.2 Estimación de parámetros de modelo 455

La figura 12.6 y la discusión anterior sugieren que la estimación de y � �0 � �1xdeberá ser una línea que en cierto sentido se ajuste mejor a los puntos de los datos observa-dos. Esto es lo que motiva el principio de los mínimos cuadrados, que puede ubicarse has-ta el matemático alemán Gauss (1777-1855). De acuerdo con este principio, una líneaproporciona un buen ajuste para los datos si las distancias verticales (desviaciones) de lospuntos observados a la línea son pequeñas (véase la figura 12.7). La medida de la bondaddel ajuste es la suma de los cuadrados de estas desviaciones. La línea de mejor ajuste es en-tonces la que tiene la suma más pequeña posible de desviaciones al cuadrado.

y � a0 � a1x

y � b0 � b1x

x

y

Figura 12.6 Dos estimaciones diferentes de la línea de regresión verdadera.

Principio de los mínimos cuadrados.

La desviación vertical del punto (xi, yi) con respecto a la línea y � b0 � b1x es

la altura del punto � altura de la línea � yi � (b0 � b1xi)

La suma de las desviaciones verticales al cuadrado de los puntos (x1, y1), . . . , (xn, yn)a la línea es entonces

f (b0, b1) � �n

i=1[yi � (b0 � b1xi)]

2

Las estimaciones puntuales de �0 y �1, denotadas por �0 y �1 llamadas estimacionesde mínimos cuadrados, son aquellos valores que reducen al mínimo a f(b0, b1). Esdecir, �0 y�1 son tales que f(�0, �1) � f(b0, b1) con cualesquier b0 y b1. La línea deregresión estimada o línea de mínimos cuadrados es entonces la línea cuya ecua-ción es y � �0 � �1x.

c12_p446-499.qxd 3/12/08 4:30 AM Page 455

www.FreeLibros.me

Page 11: 12 y correlación Regresión lineal simple - sgpwe.izt.uam.mxsgpwe.izt.uam.mx/files/users/uami/jdf/Devore/cap12.pdf · desarrollar un modelo probabilístico lineal. Si las dos variables

456 CAPÍTULO 12 Regresión lineal simple y correlación

Los valores minimizantes de b0 y b1 se encuentran tomando las derivadas parciales def(b0, b1) con respecto tanto a b0 como b1, igualándolas a cero [análogamente a f �(b) � 0 encálculo univariante] y resolviendo las ecuaciones

� �2(yi � b0 � b1xi)( 1) � 0

� �2(yi � b0 � b1xi)( xi) � 0

La cancelación del factor �2 y reordenando se obtiene el siguiente sistema de ecuaciones,llamado ecuaciones normales.

nb0 � (�xi)b1 � �yi

(�xi)b0 � (�x2i )b1 � �xiyi

Las ecuaciones normales son lineales en las dos incógnitas b0 y b1. Siempre que por lo me-nos dos de las xi sean diferentes, las estimaciones de los mínimos cuadrados son la única so-lución de este sistema.

f(b0, b1)b1

f(b0, b1)b0

10 20 30 40

20

40

60

80y � b0 � b1x

Esfuerzo aplicado (kg/mm2)

Tie

mpo

has

ta la

fal

la (

hr)

y

x

Figura 12.7 Desviaciones de los datos observados con respecto a la línea y � b0 � b1x.

La estimación de los mínimos cuadrados del coeficiente de pendiente �1 de la líneade regresión verdadera es

b1 � �1 � � (12.2)

Las fórmulas de cálculo para el numerador y denominador de �1 son

Sxy � �xiyi � (�xi)(�yi)/n Sxx � �x2i � (�xi)2/n

La estimación de los mínimos cuadrados de la intersección �0 de la línea de regresiónverdadera es

b0 � �0 � � y� � �1x� (12.3)�yi � �1 �xi

n

SxySxx

�(xi � x�)(yi � y�)

�(xi � x�)2

Las fórmulas de cómputo para Sxy y Sxx requieren sólo los estadísticos resumidos �xi, �yi,�x2

i, �xiyi (�y2i se requerirá en breve) y reducir al mínimo los efectos de redondeo. Al

calcular �0 se utilizan dígitos adicionales en �1 porque, si x� es grande en magnitud, el redondeo afectará la respuesta final. Se hace hincapié en que antes de calcular �1 y �0 se

c12_p446-499.qxd 3/12/08 4:30 AM Page 456

www.FreeLibros.me

Page 12: 12 y correlación Regresión lineal simple - sgpwe.izt.uam.mxsgpwe.izt.uam.mx/files/users/uami/jdf/Devore/cap12.pdf · desarrollar un modelo probabilístico lineal. Si las dos variables

deberá examinar una gráfica para ver si un modelo probabilístico lineal es factible. Si los pun-tos no tienden a aglomerarse en torno a una línea recta con aproximadamente el mismo gradode dispersión de todas las x, se deberán investigar otros modelos. En la práctica, las gráfi-cas y cálculos de regresión normalmente se realizan con un programa de cómputo estadís-tico.

El concreto sin finos, hecho de un agregado grueso uniformemente graduado y una pasta decemento y agua, es benéfico en áreas propensas a lluvias intensas debido a sus excelentespropiedades de drenaje. El artículo “Pavement Thickness Design for No-Fines ConcreteParking Lots” (J. of Transportation Engr., 1995: 476-484) empleó un análisis de mínimoscuadrados al estudiar cómo y � porosidad (%) está relacionada con x � peso unitario (pcf)en especímenes de concreto. Considere los siguientes datos representativos, mostrados enformato tabular conveniente para calcular los valores de los estadísticos resumidos:

12.2 Estimación de parámetros de modelo 457

Ejemplo 12.4

Por lo tanto x� � 109.34, y� � 19.986667 y

�1 � �

� � 0.90473066 � 0.905

�0 � 19.986667 � ( 0.90473066)(109.34) � 118.909917 � 118.91

Se estima que el cambio de porosidad esperado asociado con un incremento de un pcf en elpeso unitario es de �0.905% (una reducción de 0.905%). La ecuación de la línea de regre-sión estimada (línea de mínimos cuadrados) es entonces y � 118.91 � 0.905x. La figura12.8 generada por el programa estadístico S-Plus, muestra que la línea de mínimos cuadra-dos proporciona un excelente resumen de la relación entre las dos variables.

471.542521.196

32 308.59 � (1640.1)(299.8)/15

179 849.73 � (1640.1)2/15

SxySxx

Obs x y x2 xy y2

1 99.0 28.8 9 801.00 2851.20 829.442 101.1 27.9 10 221.21 2820.69 778.413 102.7 27.0 10 547.29 2772.90 729.004 103.0 25.2 10 609.00 2595.60 635.045 105.4 22.8 11 109.16 2403.12 519.846 107.0 21.5 11 449.00 2300.50 462.257 108.7 20.9 11 815.69 2271.83 436.818 110.8 19.6 12 276.64 2171.68 384.169 112.1 17.1 12 566.41 1916.91 292.41

10 112.4 18.9 12 633.76 2124.36 357.2111 113.6 16.0 12 904.96 1817.60 256.0012 113.8 16.7 12 950.44 1900.46 278.8913 115.1 13.0 13 248.01 1496.30 169.0014 115.4 13.6 13 317.16 1569.44 184.9615 120.0 10.8 14 400.00 1296.00 116.64

Suma 1640.1 299.8 179 849.73 32 308.59 6430.06

c12_p446-499.qxd 3/12/08 4:30 AM Page 457

www.FreeLibros.me

Page 13: 12 y correlación Regresión lineal simple - sgpwe.izt.uam.mxsgpwe.izt.uam.mx/files/users/uami/jdf/Devore/cap12.pdf · desarrollar un modelo probabilístico lineal. Si las dos variables

458 CAPÍTULO 12 Regresión lineal simple y correlación

La línea de regresión estimada puede ser utilizada de inmediato para dos propósitosdiferentes. Con un valor fijo de x, x*, �0 � �1x* (la altura de la línea sobre x*) da 1) una es-timación puntual del valor esperado de Y cuando x � x* o 2) una predicción puntual del va-lor Y que dará por resultado una nueva observación realizada con x � x*.

Remítase a los datos de peso unitario-porosidad dados en el ejemplo anterior. Una estima-ción puntual de la porosidad promedio verdadera de todos los especímenes cuyo peso uni-tario es 110 es

�Y�110 � �0 � �1(110) � 118.91 � 0.905(110) � 19.4%

Si se tiene que seleccionar un solo espécimen cuyo peso unitario es de 110 pcf, 19.4% tam-bién es una predicción puntual de la porosidad de este espécimen. ■

La línea de mínimos cuadrados no deberá ser utilizada para predecir un valor de x mu-cho más allá del rango de los datos, como x � 90 o x � 135 en el ejemplo 12.4. El peligrode extrapolación es que la relación ajustada (una línea en este caso) puede no ser válidacon tales valores de x. (En el ejemplo precedente, x � 135 da y � 3.3, un valor obviamen-te ridículo de porosidad, pero la extrapolación no siempre dará por resultado semejantes in-consistencias.)

Estimación de �2 y �El parámetro �2 determina la cantidad de variabilidad, inherente en el modelo de regresión.Un valor grande de �2 conducirá a (xi, yi) observados que están bastante dispersos en tornoa la línea de regresión verdadera, mientras que �2 sea pequeña los puntos observados tende-rán a quedar cerca de la línea verdadera (véase la figura 12.9). Se utilizará una estimaciónde �2 en fórmulas de intervalos de confianza (IC) y procedimientos de prueba de hipótesispresentados en las dos secciones siguientes. Como la ecuación de la línea verdadera es des-conocida, la estimación se basa en el grado al cual las observaciones muestrales se desvíande la línea estimada. Muchas desviaciones grandes (residuos) sugieren un valor grande de�2, mientras que las desviaciones de pequeña magnitud sugieren que �2 es pequeña.

Poro

sida

d

Peso unitario

Figura 12.8 Gráfica de puntos de los datos del ejemplo 12.4 con la línea de cuadrados mínimos superpuesta, obtenida con S-Plus. ■

Ejemplo 12.5

c12_p446-499.qxd 3/12/08 4:30 AM Page 458

www.FreeLibros.me

Page 14: 12 y correlación Regresión lineal simple - sgpwe.izt.uam.mxsgpwe.izt.uam.mx/files/users/uami/jdf/Devore/cap12.pdf · desarrollar un modelo probabilístico lineal. Si las dos variables

En palabras, el valor pronosticado yi es el valor de y pronosticado o esperado cuando se uti-liza la línea de regresión estimada con x � xi; yi es la altura de la línea de regresión estima-da por encima del valor xi con el cual se realizó la i-ésima observación. El residuo yi � yi esla diferencia entre la yi observada y la yi pronosticada. Si todos los residuos son pequeños,entonces mucha de la variabilidad en los valores y observados parece deberse a la relaciónlineal entre x y y, mientras que muchos residuos grandes sugieren un poco de variabilidadinherente en y con respecto a la cantidad debida a la relación lineal. Suponiendo que la líneaen la figura 12.7 es la línea de mínimos cuadrados, los residuos están identificados por seg-mentos de línea verticales que parten de los puntos observados a la línea. Cuando se obtienela línea de regresión estimada vía el principio de mínimos cuadrados, la suma de los residuosen teoría debe ser de cero. En la práctica, la suma puede desviarse un poco de cero debido alredondeo.

La alta densidad de población de Japón ha provocado un sinnúmero de problemas de con-sumo de recursos. Una dificultad especialmente seria tiene que ver con la eliminación de de-sechos. El artículo “Innovative Sludge Handling Through Pelletization Thickening” (WaterResearch, 1999: 3245-3252) reportó la intervención de una nueva máquina de compresiónpara procesar lodos de albañal. Una parte importante de la investigación implicó relacionarel contenido de humedad de gránulos comprimidos (y, en %) con la velocidad de filtraciónde la máquina (x, en kg-DS/m/h). Los siguientes datos se tomaron de una gráfica incluidaen el artículo:

x 125.3 98.2 201.4 147.3 145.9 124.7 112.2 120.2 161.2 178.9

y 77.9 76.8 81.5 79.8 78.2 78.3 77.5 77.0 80.1 80.2

x 159.5 145.8 75.1 151.4 144.2 125.0 198.8 132.5 159.6 110.7

y 79.9 79.0 76.7 78.2 79.5 78.1 81.5 77.0 79.0 78.6

12.2 Estimación de parámetros de modelo 459

y � Alargamiento

x � Fuerza de tensión

y � Ventas de producto

x � Gastos de publicidad

a)

0 � 1x

0 � 1x

b)

� �

� �

Figura 12.9 Muestra típica con �2: a) pequeña; b) grande.

DEFINICIÓN Los valores ajustados (o pronosticados) y1, y2, . . . , yn se obtienen sustituyendo su-cesivamente x1, . . . , xn en la ecuación de la línea de regresión estimada y1 � �0 ��1x1, y2 � �0 � �1x2, . . . , yn � �0 � �1xn. Los residuos son las desviaciones vertica-les y1 � y1, y2 � y2, . . . , yn � yn con respecto a la línea estimada.

Ejemplo 12.6

c12_p446-499.qxd 3/12/08 4:30 AM Page 459

www.FreeLibros.me

Page 15: 12 y correlación Regresión lineal simple - sgpwe.izt.uam.mxsgpwe.izt.uam.mx/files/users/uami/jdf/Devore/cap12.pdf · desarrollar un modelo probabilístico lineal. Si las dos variables

460 CAPÍTULO 12 Regresión lineal simple y correlación

Las cantidades resumidas pertinentes (estadísticos resumidos) son �xi � 2817.9, �yi �1574.8, �x2

i � 415 949.85, �xiyi � 222 657.88 y �y2i � 124 039.58, de donde x� � 140.895,

y� � 78.74, Sxx � 18 921.8295 y Sxy � 776.434. Por lo tanto

�1 � � 0.04103377 � 0.041

�0 � 78.74 � (0.04103377)(140.895) � 72.958547 � 72.96

por lo que la ecuación de la línea de mínimos cuadrados es y � 72.96 � 0.041x. Para pre-cisión numérica, los valores ajustados se calcularon con yi � 72.958547 � 0.04103377xi:

y1 � 72.958547 � 0.04103377(125.3) � 78.100, y1 � y1 � 0.200, etcétera.

Un residuo positivo corresponde a un punto en la gráfica de puntos que queda sobre la línea demínimos cuadrados, en tanto que un residuo negativo resulta de un punto localizado debajo de la línea. Todos los valores pronosticados (ajustes) y residuos aparecen en la tabla adjunta.

776.43418 921.8295

Casi de la misma forma en que las desviaciones de la media en una situación de unamuestra se combinaron para obtener la estimación s2 � �(xi � x�)2/(n � 1), la estimación de�2 en un análisis de regresión se basa en elevar al cuadrado y sumar los residuos. Se conti-nuará utilizando el símbolo s2 para esta varianza estimada, así que no hay que confundirlacon la s2 previa.

Obs Filtrado Contenido en húmedo Ajuste Residuo

1 125.3 77.9 78.100 0.2002 98.2 76.8 76.988 0.1883 201.4 81.5 81.223 0.2774 147.3 79.8 79.003 0.7975 145.9 78.2 78.945 0.7456 124.7 78.3 78.075 0.2257 112.2 77.5 77.563 0.0638 120.2 77.0 77.891 0.8919 161.2 80.1 79.573 0.527

10 178.9 80.2 80.299 0.09911 159.5 79.9 79.503 0.39712 145.8 79.0 78.941 0.05913 75.1 76.7 76.040 0.66014 151.4 78.2 79.171 0.97115 144.2 79.5 78.876 0.62416 125.0 78.1 78.088 0.01217 198.8 81.5 81.116 0.38418 132.5 77.0 78.396 1.39619 159.6 79.0 79.508 0.50820 110.7 78.6 77.501 1.099

DEFINICIÓN La suma de cuadrados del error (o de forma equivalente, suma de cuadrados resi-duales) denotada por SCE, es

SCE � �(yi � yi)2 � � [yi � ( �0 � �1xi)]

2

y la estimación de �2 es

�2 � s2 � ��(yi � yi)

2

n � 2

SCEn � 2

c12_p446-499.qxd 3/12/08 4:30 AM Page 460

www.FreeLibros.me

Page 16: 12 y correlación Regresión lineal simple - sgpwe.izt.uam.mxsgpwe.izt.uam.mx/files/users/uami/jdf/Devore/cap12.pdf · desarrollar un modelo probabilístico lineal. Si las dos variables

El divisor n � 2 en s2 es el número de grados de libertad (gl) asociado con la estimación (o,en forma equivalente, con la suma de cuadrados del error). Esto es porque para obtener s2, pri-mero se deben estimar los parámetros �0 y �1, lo que hace que se pierdan 2 grados de libertad(exactamente como � hubo de ser estimada en problemas de una muestra, con el resultadode una varianza estimada basada en n � 1 grados de libertad). Reemplazando cada yi en lafórmula para s2 con la variable aleatoria Yi se obtiene el estimador S2. Se puede demostrar queS2 es un estimador insesgado de �2 (aunque el estimador S no es insesgado para �).

Previamente se calcularon los residuos de los datos de contenido de humedad-velocidad defiltración. La suma de cuadrados del error correspondiente es

SCE � ( 0.200)2 � ( 0.188)2 � . . . � (1.099)2 � 7.968

La estimación de �2 es entonces �2 � s2 � 7.968/(20 � 2) � 0.4427 y la desviación están-dar estimada es � � s � �0�.�4�4�2�7� � 0.665. De manera aproximada, 0.665 es la magnitudde una desviación típica con respecto a la línea de regresión estimada. ■

El cálculo de SCE con la fórmula definitoria implica mucha aritmética tediosa porqueprimero se deben calcular los valores pronosticados y residuos. La siguiente fórmula decómputo no requiere estas cantidades.

12.2 Estimación de parámetros de modelo 461

Ejemplo 12.7(continuacióndel ejemplo12.6)

Ejemplo 12.8

Esta expresión se obtiene al sustituir yi � �0 � �1xi en �(yi � yi)2, elevar al cuadrado el

sumando, realizar la suma y continuarla hasta los tres términos resultantes y simplificar. Lafórmula de cálculo es especialmente sensible a los efectos de redondeo en �0 y �1, así queconservar tantos dígitos como sea posible en cálculos intermedios protegerá contra erroresde redondeo.

El artículo “Promising Quantitative Nondestructive Evaluation Techniques for CompositeMaterials” (Materials Evaluation, 1985: 561-565) reporta sobre un estudio para investigarcómo la propagación de una onda de esfuerzo ultrasónica a través de una sustancia depen-de de las propiedades de ésta. Los datos adjuntos sobre resistencia a la fractura (x, como por-centaje de resistencia a la tensión última) y atenuación (y, en neper/cm, la disminución dela amplitud de la onda de esfuerzo) en compuestos de poliéster reforzados con fibra de vi-drio se tomaron de una gráfica que aparece en el artículo. El patrón lineal sustancial queaparece en la gráfica de puntos sugiere el modelo de regresión lineal simple.

x 12 30 36 40 45 57 62 67 71 78 93 94 100 105

y 3.3 3.2 3.4 3.0 2.8 2.9 2.7 2.6 2.5 2.6 2.2 2.0 2.3 2.1

Las cantidades resumidas necesarias son n � 14, �xi � 890, � x2i � 67 182,

�yi � 37.6, �y2i � 103.54 y �xiyi � 2234.30, de donde Sxx � 10 603.4285714, Sxy �

155.98571429, �1 � 0.0147109 y �0 � 3.6209072. La fórmula de cálculo para SCE da

SCE � 103.54 � (3.6209072)(37.6) � ( 0.0147109)(2234.30)

� 0.2624532

SCE � �y2i � �0�yi � �1�xi yi

c12_p446-499.qxd 3/12/08 4:30 AM Page 461

www.FreeLibros.me

Page 17: 12 y correlación Regresión lineal simple - sgpwe.izt.uam.mxsgpwe.izt.uam.mx/files/users/uami/jdf/Devore/cap12.pdf · desarrollar un modelo probabilístico lineal. Si las dos variables

462 CAPÍTULO 12 Regresión lineal simple y correlación

por lo tanto s2 � 0.2624532/12 � 0.0218711 y s � 0.1479. Cuando �0 y �1 se redondean atres cifras decimales en la fórmula de cálculo para SCE, el resultado es

SCE � 103.54 � (3.621)(37.6) � ( 0.015)(2234.30) � 0.905

la cual es más de tres veces el valor correcto. ■

Coeficiente de determinación La figura 12.10 muestra tres gráficas de puntos diferentes de datos bivariantes. En las tresgráficas, las alturas de los distintos puntos varían sustancialmente, lo que indica que existemucha variabilidad en los valores y observados. Todos los puntos en la primera gráfica que-dan exactamente en una línea recta. En este caso, toda la variación (100%) de y puede seratribuida al hecho de que x y y están linealmente relacionadas en combinación con la varia-ción de x. Los puntos en la figura 12.10b) no quedan exactamente en una línea, pero su variabilidad se compara a la variabilidad total de y, las desviaciones con respecto a la líneade cuadrados mínimos son pequeñas. Es razonable concluir en este caso que una gran par-te de la variación de y observada puede ser atribuida a la relación lineal aproximada entrelas variables postuladas por el modelo de regresión lineal simple. Cuando la gráfica de pun-tos es como la de la figura 12.10c), existe una variación sustancial en torno a la línea de mí-nimos cuadrados con respecto a la variación total de y, así que el modelo de regresión simpleno explica la variación de y relacionando y con x.

La suma de cuadrados SCE del error puede ser interpretada como una medida decuánta variación de y permanece sin ser explicada por el modelo, es decir, cuánta no puedeser atribuida a una relación lineal. En la figura 12.10a), SCE � 0, y no existe ninguna va-riación no explicada, en tanto ésta sea pequeña con los datos de la figura 12.10b) y muchomás grande en la figura 12.10c). La suma total de los cuadrados da una medida cuantita-tiva de la cantidad de variación total en los valores y observados

STC � Syy � �(yi � y�)2 � �y2i � (�yi)2/n

La suma total de los cuadrados es la suma de las desviaciones al cuadrado con respec-to a la media muestral de los valores y observados. Por consiguiente, se resta el mismo nú-mero y� de cada yi presente en STC, mientras que SCE implica restar cada valor diferentepronosticado yi de la yi correspondiente observada. Así como SCE es la suma de desviacio-nes al cuadrado con respecto a la línea de cuadrados mínimos y � �0 � �1x, STC es la suma de desviaciones al cuadrado con respecto a la línea horizontal a la altura y� (en tal casolas desviaciones verticales son yi � y�), como se ilustra en la figura 12.11. Además, como lasuma de desviaciones al cuadrado con respecto a la línea de mínimos cuadrados es más

x

y

a)x

y

b)x

y

c)

Figura 12.10 Utilización del modelo para explicar la variación de y : a) datos con los cuales toda lavariación es explicada; b) datos con los cuales la mayor parte de la variación es explicada; c) datos conlos cuales poca variación es explicada.

c12_p446-499.qxd 3/12/08 4:30 AM Page 462

www.FreeLibros.me

Page 18: 12 y correlación Regresión lineal simple - sgpwe.izt.uam.mxsgpwe.izt.uam.mx/files/users/uami/jdf/Devore/cap12.pdf · desarrollar un modelo probabilístico lineal. Si las dos variables

pequeña que la suma de desviaciones al cuadrado con respecto a cualquier otra línea. SCE� STC a menos que la recta horizontal sea la recta de mínimos cuadrados. La razónSCE/STC es la proporción de variación total que no puede ser explicada por el modelo deregresión lineal simple y 1 � SCE/STC (un número entre 0 y 1) es la proporción de varia-ción de y observada y explicada por el modelo.

12.2 Estimación de parámetros de modelo 463

a)

Línea de mínimos cuadrados

y

xb)

y

x

y

Línea horizontal a la altura y

Figura 12.11 Sumas de cuadrados ilustradas: a) SCE � suma de desviaciones cuadráticas en torno a la línea de mínimos cuadrados; b) STC � suma de desviaciones al cuadrado en torno a la línea horizontal.

Mientras más alto es el valor de r2, más exitoso es el modelo de regresión lineal simpleal explicar la variación de y. Cuando se realiza un análisis de regresión mediante un programade cómputo estadístico, r2 o 100r2 (el porcentaje de variación explicado por el modelo) es unaparte prominente de los resultados. Si r2 es pequeño, un analista normalmente deseará buscarun modelo alternativo (como un modelo no lineal o un modelo de regresión múltiple que im-plique más de una sola variable independiente) que explique con más eficacia la variación de y.

La gráfica de puntos de los datos de concreto sin finos que aparece en la figura 12.8 cierta-mente pretende un valor de r2 muy alto. Con

�0 � 118.909917 �1 � 0.90473066 �yi � 299.8

�xiyi � 32 308.59 �y2i � 6430.06

se tiene

STC � 6430.06 � � 438.057333 � 438.06

SCE � 6430.06 � (118.909917)(299.8) � ( 0.90473066)(32 308.59)

� 11.4388 � 11.44

El coeficiente de determinación es entonces

r 2 � 1 � � 1 � 0.026 � 0.97411.44438.06

299.82

15

DEFINICIÓN El coeficiente de determinación, denotado por r2, está dado por

r 2 � 1 �

Se interpreta como la proporción de variación y observada que puede ser explicadapor el modelo de regresión lineal simple (atribuida a una relación lineal aproximadaentre y y x).

SCESTC

Ejemplo 12.9(continuacióndel ejemplo12.4)

c12_p446-499.qxd 3/12/08 4:30 AM Page 463

www.FreeLibros.me

Page 19: 12 y correlación Regresión lineal simple - sgpwe.izt.uam.mxsgpwe.izt.uam.mx/files/users/uami/jdf/Devore/cap12.pdf · desarrollar un modelo probabilístico lineal. Si las dos variables

464 CAPÍTULO 12 Regresión lineal simple y correlación

Esto es, 97.4% de la variación de la porosidad observada es atribuible a (puede ser explicadapor) la relación lineal aproximada entre la porosidad y el peso unitario, un resultado muy im-presionante. (¡Muchos científicos sociales morirían por un valor de r2 muy por encima de 0.5!)

La figura 12.12 muestra resultados parciales generados por MINITAB con los datosde porosidad-peso unitario de los ejemplos 12.4 y 12.9; el programa también proporcionalos valores y residuos pronosticados si se los solicita, así como también otra información.Los formatos utilizados por otros programas difieren un poco de los de MINITAB, pero el contenido de la información es muy similar. En la sección 12.3 se discuten cantidades tales como las desviaciones estándar, relaciones t y la tabla ANOVA.

El coeficiente de determinación se escribe en una forma un poco diferente al introdu-cir una tercera suma de cuadrados, suma de cuadrados debido a la regresión, SCR–dadapor SCR � STC � SCE. La suma de cuadrados debido a la regresión se interpreta como lacantidad de variación total que es explicada por el modelo. En tal caso se tiene

r 2 � 1 � SCE/STC � (STC � SCE)/STC � SCR/STC

la relación de la variación explicada a la variación total. La tabla ANOVA que aparece en lafigura 12.12 muestra que SCR � 426.62 de donde r2 � 426.62/438.06 � 0.974.

Terminología y alcance del análisis de regresiónEl término análisis de regresión lo introdujo por primera vez Francis Galton a finales del si-glo XIX en conexión con su trabajo sobre la relación entre la estatura del padre x y la esta-tura del hijo y. Después de recopilar varios pares (xi, yi), Galton utilizó el principio demínimos cuadrados para obtener la ecuación de la línea de regresión estimada con el obje-tivo de utilizarla para predecir la estatura del hijo a partir de la estatura del padre. Al utili-zar la línea derivada, Galton encontró que si la estatura del padre era por encima delpromedio, era de esperarse que la estatura del hijo también fuera por encima del promedio,pero no tanto como el padre. Asimismo, el hijo de un padre con una estatura más corta queel promedio también tendría una estatura más corta que el promedio, pero no tanto como elpadre. Por lo tanto, la estatura pronosticada de un hijo era “llevada de vuelta” hacia la me-dia; porque regresión significa una ida o venida. Galton adoptó la terminología línea de re-gresión. Este fenómeno de ser llevado de vuelta hacia la media ha sido observado en muchasotras situaciones (p. ej., promedios de bateo de un año al otro en el béisbol) y se llama efec-to de regresión.

La discusión hasta ahora ha supuesto que la variable independiente está bajo elcontrol del investigador, así que sólo la variable dependiente Y es aleatoria. Este no fue,sin embargo, el caso con el experimento de Galton: las estaturas de los padres no fueron

The regression equation isporosity � 119 � 0.905 unitwt

�0 �1

Predictor Coef Stdev t-ratio pConstant 118.910 4.499 26.43 0.000unitwt 0.90473 0.04109 22.02 0.000

100r2

s � 0.9380 R-sq � 97.4% R-sq(adj) � 97.2%

Analysis of Variance SCE

SOURCE DF SS MS F pRegression 1 426.62 426.62 484.84 0.000Error 13 11.44 0.88Total 14 438.06 STC

Figura 12.12 Resultados obtenidos con MINITAB para la regresión de los ejemplos 12.4 y 12.9. ■

c12_p446-499.qxd 3/12/08 4:30 AM Page 464

www.FreeLibros.me

Page 20: 12 y correlación Regresión lineal simple - sgpwe.izt.uam.mxsgpwe.izt.uam.mx/files/users/uami/jdf/Devore/cap12.pdf · desarrollar un modelo probabilístico lineal. Si las dos variables

12. El ejercicio cuatro dio datos sobre carga masiva de x �BOD y eliminación masiva de y � BOD. Valores de canti-dades resumidas pertinentes son

n � 14 �xi � 517

�yi � 346 �x2i � 39 095

�y2i � 17 454 �xiyi � 25 825

a. Obtenga una ecuación de la línea de mínimos cuadrados. b. Pronostique el valor de la eliminación masiva de BOD

de una sola observación realizada cuando la carga masi-va de BOD es de 35, y calcule el valor del residuo corres-pondiente.

c. Calcule SCE y luego una estimación puntual de �. d. ¿Qué proporción de la variación observada de la elimi-

nación puede ser explicada por la relación lineal aproxi-mada entre las dos variables?

e. Los últimos dos valores de x, 103 y 142, son mucho másgrandes que los demás. ¿Cómo se ven afectados la ecua-ción de la línea de mínimos cuadrados y el valor de r2

por la supresión de las dos observaciones correspon-dientes de la muestra? Ajuste los valores dados de lascantidades resumidas y use el hecho de que el nuevo va-lor de SCE es 311.79.

13. Los datos adjuntos sobre x � densidad de corriente(mA/cm2) y y � tasa de deposición (�m/min) aparecieronen el artículo “Plating of 60/40 Tin/Lead Solder for HeadTermination Metallurgy” (Plating and Surface Finishing, ene-ro de 1997: 38-40). ¿Está de acuerdo con la afirmación del autor del artículo de que “se obtuvo una relación lineal a par-tir de la tasa de deposición de estaño-plomo como una funciónde la densidad de corriente?” Explique su razonamiento.

14. Remítase a los datos de relación de temperatura del tanque-eficiencia dada en el ejercicio uno. a. Determine la ecuación de la línea de regresión estimada. b. Calcule una estimación puntual de la relación eficiencia

promedio verdadera cuando la temperatura del tanque esde 182.

c. Calcule los valores de los residuos con la línea de cuadra-dos mínimos de las cuatro observaciones con las cualesla temperatura es de 182. ¿Por qué no todas tienen el mis-mo signo?

d. ¿Qué proporción de la variación observada en la rela-ción de eficiencia puede ser atribuida a la relación de re-gresión lineal simple entre las dos variables?

15. Se determinaron valores de módulo de elasticidad (MDE, larelación de esfuerzo, es decir, fuerza por unidad de área a deformación por unidad de longitud, en GPa) y resisten-cia a la flexión (una medida de la capacidad para resistir unafalta de flexibilidad, en MPa) con una muestra de vigas deconcreto de un cierto tipo, y se obtuvieron los siguientes da-tos (tomados de una gráfica que aparece en el artículo “Ef-fects of Aggregates and Microfillers on the FlexuralProperties of Concrete”, Magazine of Concrete Research,1997: 81-98):

a. Construya una gráfica de tallo y hojas de los valores deMDE y comente sobre cualquier característica interesante.

b. ¿En el valor de resistencia se determina completa y úni-camente por el valor del MDE? Explique.

c. Use los resultados adjuntos generados por MINITABpara obtener la ecuación de la línea de mínimos cuadra-dos para predecir resistencia a partir del módulo de elas-ticidad y luego para predecir resistencia de una vigacuyo módulo de elasticidad es de 40. ¿Se sentiría cómo-do si utiliza la línea de mínimos cuadrados para prede-cir resistencia cuando el módulo de elasticidad es de100? Explique.

Predictor Coef Stdev t-ratio pConstant 3.2925 0.6008 5.48 0.000mod elas 0.10748 0.01280 8.40 0.000

s � 0.8657 R�sq � 73.8% R�sq (adj) � 72.8%

Analysis of Variance

SOURCE DF SS MS F pRegression 1 52.870 52.870 70.55 0.000Error 25 18.736 0.749Total 26 71.605

d. ¿Cuáles son los valores de SCE, STC y el coeficientede determinación? ¿Sugieren estos valores que el mode-lo de regresión lineal simple describe de forma efectivala relación entre las dos variables? Explique.

preseleccionadas, sino que en su lugar tanto X como Y fueron aleatorias. Se pueden aplicar métodos y conclusiones de análisis de regresión tanto cuando los valores de la variable in-dependiente se fijan de antemano y cuando son aleatorios, pero como las derivaciones e interpretaciones son más directas en el primer caso, se continuará trabajando explícitamen-te con él. Para más comentarios, véase el excelente libro de John Neter y colaboradores, citado en la bibliografía del capítulo.

12.2 Estimación de parámetros de modelo 465

EJERCICIOS Sección 12.2 (12-29)

x 20 40 60 80

y 0.24 1.20 1.71 2.22

MDE 29.8 33.2 33.7 35.3 35.5 36.1 36.2Resistencia 5.9 7.2 7.3 6.3 8.1 6.8 7.0

MDE 36.3 37.5 37.7 38.7 38.8 39.6 41.0Resistencia 7.6 6.8 6.5 7.0 6.3 7.9 9.0

MDE 42.8 42.8 43.5 45.6 46.0 46.9 48.0Resistencia 8.2 8.7 7.8 9.7 7.4 7.7 9.7

MDE 49.3 51.7 62.6 69.8 79.5 80.0Resistencia 7.8 7.7 11.6 11.3 11.8 10.7

c12_p446-499.qxd 3/12/08 4:30 AM Page 465

www.FreeLibros.me

Page 21: 12 y correlación Regresión lineal simple - sgpwe.izt.uam.mxsgpwe.izt.uam.mx/files/users/uami/jdf/Devore/cap12.pdf · desarrollar un modelo probabilístico lineal. Si las dos variables

466 CAPÍTULO 12 Regresión lineal simple y correlación

16. El artículo “Characterization of Highway Runoff in Austin,Texas, Area” (J. of Envir. Engr., 1998: 131-137) incluyeuna gráfica de puntos junto con una línea de cuadrados mínimos, de x � volumen de precipitación pluvial (m3) y y � volumen de escurrimiento (m3) en un lugar particular.Los valores adjuntos se tomaron de la gráfica.

a. ¿Apoya una gráfica de puntos de los datos el uso del mo-delo de regresión lineal simple?

b. Calcule estimaciones puntuales de la pendiente e inter-sección de la línea de regresión de la población.

c. Calcule una estimación puntual del volumen de escu-rrimiento promedio verdadero cuando el volumen deprecipitación pluvial es de 50.

d. Calcule una estimación puntual de la desviación están-dar �.

e. ¿Qué proporción de la variación observada del volumende escurrimiento puede ser atribuida a la relación de re-gresión lineal simple entre el escurrimiento y la precipi-tación pluvial?

17. En el artículo “Use of Fly Ash or Silica Fume to Increase theResistance of Concrete to Feed Acids” (Magazine of Con-crete Research, 1997: 337-344) se reportó una regresión dey � contenido de calcio (g/L) en x � material disuelto(mg/cm2). La ecuación de la línea de regresión estimada fuey � 3.678 � 0.144x, con r2 � 0.860 basada en n � 23. a. Interprete la pendiente estimada 0.144 y el coeficiente

de determinación 0.860. b. Calcule una estimación puntual del contenido de calcio

promedio verdadero cuando la cantidad de material di-suelto es de 50 mg/cm2.

c. El valor de la suma total de cuadrados fue STC � 320.398.Calcule una estimación de la desviación estándar � debi-do al error en el modelo de regresión lineal simple.

18. Los siguientes estadísticos resumidos se obtuvieron con unestudio que utilizó análisis de regresión para investigar larelación entre la deflexión y la temperatura superficial delpavimento en varios lugares de una carretera estatal. He aquíx � temperatura (°F) y y � factor de ajuste por deflexión (y 0):

n � 15 �xi � 1425 �yi � 10.68

�x2i � 139 037.25 � xiyi � 987.645

�y2i � 7.8518

(Se realizaron más de 15 observaciones en el estudio; la re-ferencia es “Flexible Pavement Evaluation and Rehabilita-tion”, Transportation Eng. J., 1977: 75-85.) a. Calcule �1, �0 y la ecuación de la línea de regresión es-

timada. Trace la línea estimada. b. ¿Cuál es la estimación del cambio esperado del factor de

ajuste por deflexión cuando la temperatura se incremen-ta en 1°F?

c. Suponga que la temperatura se midió en °C en lugar de en°F? ¿Cuál sería la línea de regresión estimada? Respon-

da el inciso b) para un incremento de 1°C. [Sugerencia:°F � (9/5)°C � 32; ahora sustituya las “viejos valores x”en función de los “nuevos valores x”.]

d. Si una temperatura superficial de 200°F fuera posible,¿utilizaría la línea estimada del inciso a) a fin de prede-cir el factor de deflexión para esta temperatura? ¿Porqué sí o por qué no?

19. Los siguientes datos son representativos de los reportadosen el artículo (“An Experimental Correlation of Oxides ofNitrogen Emissions from Power Boilers Base on Field Da-ta” (J. Eng. for Power, julio de 1973: 165-170), con x � ta-sa de liberación debido a área de quemador (MBtu/h pie2) yy � tasa de emisión de NOX (ppm):

a. Suponiendo que el modelo de regresión lineal simple esválido, obtenga la estimación de mínimos cuadrados dela línea de regresión verdadera.

b. ¿Cuál es la estimación de la tasa de emisión de NOX es-perada cuando la tasa de liberación debido al área delquemador es igual a 225?

c. Estime la cantidad en la cual espera que cambie la tasade emisiones de NOX cuando la tasa de liberación debi-do al área del quemador disminuye en 50.

d. ¿Utilizaría la línea de regresión estimada para predecirla tasa de emisión con una tasa de liberación de 500?¿Por qué sí o por qué no?

20. Varios estudios han demostrado que los líquenes (ciertasplantas compuestas de un alga y un hongo) son excelentesbioindicadores de la contaminación del aire. El artículo“The Epiphytic Lichen Hypogymnia Physodes as a Biomo-nitor of Atmospheric Nitrogen and Sulphur Deposition inNorway” (Envir. Monitoring and Assessment, 1993: 27-47)da los siguientes datos (tomados de una gráfica) sobre x �deposición de x � NO�

3 en húmedo (g N/m2) y y � N de li-quen (% de peso en seco):

El autor utilizó regresión lineal simple para analizar los da-tos. Use los resultados obtenidos con MINITAB para res-ponder las siguientes preguntas: a. ¿Cuáles son las estimaciones de mínimos cuadrados de

�0 y �1? b. Pronostique el N de liquen con un valor de deposición

de NO�3 de 0.5.

c. ¿Cuál es la estimación de �? d. ¿Cuál es el valor de la variación total y cuánta de ella

puede ser explicada por la relación de modelo?

x 5 12 14 17 23 30 40 47

y 4 10 13 15 15 25 27 46

x 55 67 72 81 96 112 127

y 38 46 53 70 82 99 100

x 100 125 125 150 150 200 200

y 150 140 180 210 190 320 280

x 250 250 300 300 350 400 400

y 400 430 440 390 600 610 670

x 0.05 0.10 0.11 0.12 0.31 0.37 0.42

y 0.48 0.55 0.48 0.50 0.58 0.52 1.02

x 0.58 0.68 0.68 0.73 0.85 0.92

y 0.86 0.86 1.00 0.88 1.04 1.70

c12_p446-499.qxd 3/12/08 4:30 AM Page 466

www.FreeLibros.me

Page 22: 12 y correlación Regresión lineal simple - sgpwe.izt.uam.mxsgpwe.izt.uam.mx/files/users/uami/jdf/Devore/cap12.pdf · desarrollar un modelo probabilístico lineal. Si las dos variables

The regression equation is lichen N � 0.365 � 0.967 no3 depo

Predictor Coef Stdev t–ratio pConstant 0.36510 0.09904 3.69 0.004no3 depo 0.9668 0.1829 5.29 0.000

s � 0.1932 R-sq � 71.7% R-sq (adj) � 69.2%

Analysis of Variance

SOURCE DF SS MS F PRegression 1 1.0427 1.0427 27.94 0.000Error 11 0.4106 0.0373Total 12 1.4533

21. El ángulo de recuperación de arrugas y la resistencia a latensión son las dos características más importantes para eva-luar el desempeño de tela de algodón entrelazada. Un incre-mento en el ángulo de entrelazado, determinado por laabsorbencia de una banda de éster carboxilo, mejora la resis-tencia a las arrugas de la tela (a expensas de la reducción dela resistencia mecánica). Los datos adjuntos sobre x � ab-sorbencia y y � resistencia al ángulo de arrugamiento se to-maron de una gráfica incluida en el artículo “Predicting thePerformance of Durable Press Finished Cotton Fabric withInfrared Spectroscopy” (Textile Res. J., 1999: 145-151).

He aquí los resultados obtenidos con MINITAB.

Predictor Coef SE Coef T PConstant 321.878 2.483 129.64 0.000absorb 156.711 6.464 24.24 0.000

S = 3.60498 R-Sq = 98.5% R-Sq(adj) = 98.3%

Source DF SS MS F PRegression 1 7639.0 7639.0 587.81 0.000Residual Error 9 117.0 13.0Total 10 7756.0

a. ¿Parece ser apropiado el modelo de regresión lineal sim-ple? Explique.

b. ¿Qué ángulo de resistencia a las arrugas pronosticaríapara un espécimen de tela cuya absorbencia es de 0.300?

c. ¿Cuál sería la estimación del ángulo de resistencia a lasarrugas cuando la absorbencia es de 0.300?

22. a. Use las cantidades del ejercicio 18 para estimar la des-viación estándar de la desviación aleatoria � en el mode-lo de regresión lineal simple.

b. Basado en las cantidades del ejercicio 18, ¿qué propor-ción de la variación del factor de ajuste por deflexiónpuede ser explicado por la relación de regresión linealsimple entre el factor de ajuste y la temperatura?

23. a. Obtenga la SCE con los datos del ejercicio 19 a partir dela fórmula definitoria [SCE � �(yi � yi)

2] y comparecon el valor calculado con la fórmula de cómputo.

b. Calcule el valor de la suma total de los cuadrados. ¿Ex-plica el modelo de regresión lineal la variación de la tasade emisiones? Justifique su aseveración.

24. Los datos adjuntos se tomaron de una gráfica que aparecióen el artículo “Reactions on Painted Steel Under the Influen-ce of Sodium Chloride, and Combinations Thereof” (Ind.Engr. Chem. Prod. Res. Dev. 1985: 375-378). La variable in-dependiente es la tasa de deposición de SO2 (mg/m2/d) y lavariable independiente es pérdida de peso de acero (g/m2).

a. Construya una gráfica de puntos. ¿Parece razonable laregresión lineal simple en esta situación?

b. Calcule la ecuación de la línea de regresión estimada. c. ¿Qué porcentaje de la variación observada en la pérdida de

peso del acero puede ser atribuido a la relación de modeloen combinación con la variación de la tasa de deposición?

d. Debido a que el valor x más grande en la muestra exce-de en gran medida a los demás, esta observación puedehaber influido mucho al determinar la ecuación de la lí-nea estimada. Elimine esta observación y recalcule laecuación. ¿Difiere la nueva ecuación sustancialmente dela original (podría considerar valores pronosticados)?

25. Compruebe que b1 y b0 de las expresiones (12.2) y (12.3)satisfacen las ecuaciones normales.

26. Demuestre que el “punto de promedios” (x�, y�) queda en lalínea de regresión estimada.

27. Suponga que un investigador cuenta con datos sobre la can-tidad de espacio de anaquel x dedicado a la exhibición de unproducto particular y a ingresos por ventas y de ese produc-to. Es posible que el investigador desee adoptar un modelopara el cual la línea de regresión verdadera pase a través de(0, 0). El modelo apropiado es Y � �1x � �. Suponga que(x1, y1), . . . , (xn, yn) son pares observados generados con este modelo y deduzca el estimador de mínimos cuadradosde �1. [Sugerencia: Escriba la suma de desviaciones al cua-drado como una función de bI, un valor de prueba y use elcálculo para determinar el valor minimizante de bI.]

28. a. Considere los datos del ejercicio 20. Suponga que en lu-gar de la línea de mínimos cuadrados que pasa por lospuntos (x1, y1), . . . , (xn, yn), se desea que pase por (x1 �x�, y1), . . . , (xn � x�, yn). Construya una gráfica con lospuntos (xi, yi) y luego con los puntos (xi � x�, yi). Use lasgráficas para explicar intuitivamente cómo están relacio-nadas entre sí las dos líneas de mínimos cuadrados.

b. Suponga que en lugar del modelo Yi � �0 � �1xi ��i (i � 1, . . . , n), se desea ajustar un modelo de la for-ma Yi � �*0 � �*1(xi � x�) � �i (i � 1, . . . , n). ¿Cuálesson los estimadores de mínimos cuadrados de �*0 y �*1,y cómo están relacionados con �0 y �1?

29. Considere los siguientes tres conjuntos de datos, en los cua-les las variables de interés son x � distancia de la casa altrabajo y y � tiempo para recorrer la distancia de la casa al trabajo. Basado en una gráfica de puntos y los valores des y r2, ¿en qué situación la regresión lineal simple sería más(menos) efectiva y por qué?

12.2 Estimación de parámetros de modelo 467

x 14 18 40 43 45 112

y 280 350 470 500 560 1200

x 0.115 0.126 0.183 0.246 0.282 0.344 0.355 0.452 0.491 0.554 0.651

y 334 342 355 363 365 372 381 392 400 412 420

c12_p446-499.qxd 3/12/08 4:30 AM Page 467

www.FreeLibros.me

Page 23: 12 y correlación Regresión lineal simple - sgpwe.izt.uam.mxsgpwe.izt.uam.mx/files/users/uami/jdf/Devore/cap12.pdf · desarrollar un modelo probabilístico lineal. Si las dos variables

468 CAPÍTULO 12 Regresión lineal simple y correlación

En virtualmente todo el trabajo inferencial realizado hasta ahora, la noción de variabilidadde muestreo ha sido persistente. En particular, las propiedades de las distribuciones demuestreo de varios estadísticos han sido la base para desarrollar fórmulas de intervalo de con-fianza y métodos de prueba de hipótesis. La idea clave en este caso es que el valor de virtual-mente cualquier cantidad calculada a partir de datos muestrales, el valor de virtualmentecualquier estadístico, va a variar de una muestra a otra.

Reconsidere los datos sobre x � tasa de liberación debido al área del quemador y y � tasade emisiones de NOX del ejercicio 12.19 en la sección previa. Existen 14 observaciones, realizadas con los valores x: 100, 125, 125, 150, 150, 200, 200, 250, 250, 300, 300, 350, 400y 400, respectivamente. Suponga que la pendiente e intersección de la línea de regresiónverdadera son �1 � 1.70 y �0 � �50 con � � 35 (consistente con los valores �1 � 1.7114,�0 � 45.55, s � 36.75). Se procede a generar una muestra de desviaciones aleatorias~�1, . . . , ~�14 con respecto a una distribución normal con media 0 y desviación estándar 35 yluego se sumó ~�i a �0 � �1xi para obtener 14 valores y correspondientes. Se realizaron en-tonces los cálculos de regresión para obtener la pendiente, la intersección y la desviación estándar estimadas. Este proceso se repitió un total de 20 veces y los valores resultantes sedan en la tabla 12.1.

Claramente existe variación en los valores de la pendiente y la intersección estimadas,así como también la desviación estándar estimada. La ecuación de la línea de cuadrados mí-nimos varía por lo tanto de una muestra a la siguiente. La figura 12.13 muestra una gráficade puntos de las pendientes estimadas así como también gráficas de la línea de regresiónverdadera y las 20 líneas de regresión muestrales.

Conjunto de datos 1 2 3

x y x y x y

15 42 5 16 5 816 35 10 32 10 1617 45 15 44 15 2218 42 20 45 20 2319 49 25 63 25 3120 46 50 115 50 60

Sxx 17.50 1270.8333 1270.8333Sxy 29.50 2722.5 1431.6667�1 1.685714 2.142295 1.126557�0 13.666672 7.868852 3.196729STC 114.83 5897.5 1627.33SCE 65.10 65.10 14.48

Ejemplo 12.10

12.3 Inferencias sobre el parámetro de pendiente �1

Tabla 12.1 Resultados de simulación del ejemplo 12.10

�1 �0 s �1 �0 s

1. 1.7559 60.62 43.23 11. 1.7843 67.36 41.802. 1.6400 49.40 30.69 12. 1.5822 28.64 32.463. 1.4699 4.80 36.26 13. 1.8194 83.99 40.804. 1.6944 41.95 22.89 14. 1.6469 32.03 28.115. 1.4497 5.80 36.84 15. 1.7712 52.66 33.046. 1.7309 70.01 39.56 16. 1.7004 58.06 43.447. 1.8890 95.01 42.37 17. 1.6103 27.89 25.608. 1.6471 40.30 43.71 18. 1.6396 24.89 40.789. 1.7216 42.68 23.68 19. 1.7857 77.31 32.38

10. 1.7058 63.31 31.58 20. 1.6342 17.00 30.93

c12_p446-499.qxd 3/12/08 4:30 AM Page 468

www.FreeLibros.me

Page 24: 12 y correlación Regresión lineal simple - sgpwe.izt.uam.mxsgpwe.izt.uam.mx/files/users/uami/jdf/Devore/cap12.pdf · desarrollar un modelo probabilístico lineal. Si las dos variables

La pendiente �1 de la línea de regresión de la población es el cambio promedio ver-dadero en la variable dependiente y asociada con un incremento de una unidad en la varia-ble independiente x. La pendiente de la línea de mínimos cuadrados �1, da una estimaciónpuntual de �1. Del mismo modo que un intervalo de confianza para � y los procedimientospara probar hipótesis con respecto a � se basaron en propiedades de la distribución de mues-treo de X�, las inferencias adicionales sobre �1 están basadas en considerar a �1 como un estadístico e investigar su distribución de muestreo.

Se supone que los valores de las xi se eligen antes de realizar el experimento, así quesólo las Yi son aleatorias. Los estimadores (estadísticos, y por lo tanto variables aleatorias)de �0 y �1 se obtienen reemplazando yi por Yi en (12.2) y (12.3):

�1 �

�0 ��Yi � �i�xi

n

�(xi � x�)(Yi � Y�)�(xi � x�)2

12.3 Inferencias sobre el parámetro de pendiente �1 469

100

200

300

Y

400

500

600

100 150 200 250

X

300

Línea de regresión verdadera

350 400

Líneas de cuadrados mínimos simulados

b)

1.5 1.7

�1

a)

Pendiente

1.6 1.8 1.9

Figura 12.13 Resultados de simulación del ejemplo 12.10: a) gráfica de puntos de pendientes estimadas; b) gráficas de la línea de regresión verdadera y 20 líneas de mínimos cuadrados obtenidascon S-Plus. ■

c12_p446-499.qxd 3/12/08 4:30 AM Page 469

www.FreeLibros.me

Page 25: 12 y correlación Regresión lineal simple - sgpwe.izt.uam.mxsgpwe.izt.uam.mx/files/users/uami/jdf/Devore/cap12.pdf · desarrollar un modelo probabilístico lineal. Si las dos variables

470 CAPÍTULO 12 Regresión lineal simple y correlación

Asimismo, el estimador de �2 se obtiene al reemplazar cada yi en la fórmula para s2 por lavariable aleatoria Yi:

� 2 � S 2 �

El denominador de �1, Sxx � �(xi � x�)2, depende sólo de las xi y no de las Yi, así que es unaconstante. Entonces como �(xi � x�)Y� � Y� � (xi � x�) � Y� � 0 � 0, el estimador de la pen-diente se escribe como

�1 � � �ciYi donde ci � (xi � x�)/Sxx

Es decir, �1 es una función lineal de variables aleatorias independientes Y1, Y2, . . . , Yn, cada una de las cuales está normalmente distribuida. Invocando las propiedades de una fun-ción lineal de variables aleatorias discutidas en la sección 5.5 conduce a los siguientes resultados.

�(xi � x�)YiSxx

�Y 2i ��0�Yi��1�xiYi

n � 2

De acuerdo con (12.4), la varianza de �1 es igual a la varianza �2 del término de error alea-torio, o, en forma equivalente, de cualquier Yi, dividida entre �(xi � x�)2. Como �(xi � x�)2

mide la dispersión de las xi en torno a x�, se concluye que si realizan observaciones a valo-res xi que están bastante dispersos se obtiene un estimador más preciso del parámetro dependiente (varianza más pequeña de �1), mientras que los valores de xi muy cercanos entresí implican un estimador altamente variable. Desde luego, si las xi están demasiado disper-sas, un modelo lineal puede no ser apropiado a lo largo del rango de observación.

Muchos procedimientos inferenciales previamente discutidos se basaron en estanda-rizar un estimador restando primero su valor medio y luego dividiéndolo entre su desviaciónestándar estimada. En particular, los procedimientos de prueba y un intervalo de confianzapara � media de una población normal utilizaron el hecho de que la variable estandarizada(X� � �)/(S/�n�), es decir, (X� � �)/S�, tenía una distribución t con n � 1 grado de libertad.Un resultado similar en este caso abre la puerta a más inferencias sobre �1.

1. El valor medio de �1 es E(�1) � ��1� �1, así que �1, es un estimador insesgado

de �1 (la distribución de �1 siempre está centralizada en el valor de �1).

2. La varianza y desviación estándar de �1 son

V(�1) � � 2�1

� ��1� (12.4)

donde Sxx � �(xi � x�)2 � �x 2i � (�xi)

2/n. Reemplazando � por su estimación s dauna estimación para ��1

(la desviación estándar estimada, es decir, el error están-dar estimado, de �1):

s�1�

(Esta estimación también puede ser denotada por ��1.)

3. El estimador �1 tiene una distribución normal (porque es una función lineal de va-riables aleatorias independientes).

s�S�xx�

��S�xx�

� 2

Sxx

c12_p446-499.qxd 3/12/08 4:30 AM Page 470

www.FreeLibros.me

Page 26: 12 y correlación Regresión lineal simple - sgpwe.izt.uam.mxsgpwe.izt.uam.mx/files/users/uami/jdf/Devore/cap12.pdf · desarrollar un modelo probabilístico lineal. Si las dos variables

Un intervalo de confianza para �1

Como en la derivación de intervalos de confianza previos, se inicia con el enunciado de pro-babilidad

P��t�/2,n�2 � � t�/2,n�2� � 1 � �

La manipulación de las desigualdades entre los paréntesis para aislar �1 y la sustitución delas estimaciones en lugar de los estimadores da la fórmula del intervalo de confianza.

�1 � �1S�1

12.3 Inferencias sobre el parámetro de pendiente �1 471

TEOREMA La suposición del modelo de regresión lineal simple implica que la variable estándar

T � �

tiene una distribución t con n � 2 grados de libertad.

�1 � �1S�1

�1 � �1S /�S�xx�

Un intervalo de confianza de 100(1 � �)% para la pendiente �1 de la línea de re-gresión verdadera es

�1 ! t�/2,n�2 � s�1

Este intervalo tiene la misma forma general de muchos de los intervalos previos. Está cen-trado en la estimación puntual del parámetro y la cantidad que se extiende a cada lado de laestimación depende del nivel de confianza deseado (a través del valor crítico t) y de la can-tidad de variabilidad del estimador �1 (a través de s�1

, el cual tenderá a ser más pequeño

cuando existe poca variabilidad en la distribución de �1 y grande de lo contrario).

Las variaciones del peso de mampostería de ladrillos de arcilla tienen implicaciones no sólopara diseño estructural y acústico sino también para el diseño de sistemas de calefacción,ventilación y aire acondicionado. El artículo “Clay Brick Masonry Weight Variation” (J. ofArchitectural Engr., 1996: 135-137) incluye una gráfica de puntos de y � densidad de mor-tero en seco (lb/pie3) contra x � contenido de aire del mortero (%) para una muestra de es-pecímenes de mortero, de donde se tomaron los siguientes datos representativos:

x 5.7 6.8 9.6 10.0 10.7 12.6 14.4 15.0 15.3

y 119.0 121.3 118.2 124.0 112.3 114.1 112.2 115.1 111.3

x 16.2 17.8 18.7 19.7 20.6 25.0

y 107.2 108.9 107.8 111.0 106.2 105.0

La gráfica de puntos de estos datos en la figura 12.14 ciertamente sugiere la pertinencia delmodelo de regresión lineal simple; parece haber una sustancial relación lineal negativa en-tre el contenido de aire y la densidad, una en la cual la densidad tiende a incrementarse amedida que se incrementa el contenido de aire.

Ejemplo 12.11

c12_p446-499.qxd 3/12/08 4:30 AM Page 471

www.FreeLibros.me

Page 27: 12 y correlación Regresión lineal simple - sgpwe.izt.uam.mxsgpwe.izt.uam.mx/files/users/uami/jdf/Devore/cap12.pdf · desarrollar un modelo probabilístico lineal. Si las dos variables

472 CAPÍTULO 12 Regresión lineal simple y correlación

Los valores de los estadísticos resumidos requeridos para calcular las estimaciones delos mínimos cuadrados son

�xi � 218.1 �yi � 1693.6 �x 2i � 3577.01

�xiyi � 24 252.54 �y2i � 191 672.90

con las cuales se obtuvieron Sxy � 372.404, Sxx � 405.836, �1 � 0.917622, �0 �126.248889, STC � 454.1693, SCE � 112.4432 y r 2 � 1 � 112.4432/454.1693 � 0.752.Aproximadamente 75% de la variación de la densidad observada puede ser atribuido a la relación de modelo de regresión lineal simple entre la densidad y el contenido de aire. Elgrado de libertad debido al error es 15 � 2 � 13, para obtener s2 � 112.4432/13 � 8.6495y s � 2.941.

La desviación estándar estimada de �1 es

s�1� � � 0.1460

El valor crítico total t para un nivel de confianza de 95% es t0.025,13 � 2.160. El intervalo deconfianza es

0.918 ! (2.160)(0.1460) � 0.918 ! 0.315 � ( 1.233, 0.603)

Con un alto grado de confianza, se estima que una disminución promedio de la densidad de entre 0.603 lb/pie3 y 1.233 lb/pie3 está asociada con 1% de incremento del contenido de aire (por lo menos con valores de contenido de aire entre aproximadamente 5% y 25%, co-rrespondientes a los valores x en una muestra). El intervalo es razonablemente angosto, loque indica que la pendiente de la línea de población fue estimada con precisión. Obsérvese queel intervalo incluye sólo valores negativos, así que se puede estar seguro de la tendencia dela densidad a disminuir conforme el contenido de aire se incrementa.

Examinando los resultados obtenidos con SAS de la figura 12.15, se encuentra el va-lor de s �1

bajo Estimaciones de parámetro como el segundo número en la columna Error es-tándar. Todos los programas estadísticos más ampliamente utilizados incluyen este errorestándar estimado para el estadístico �0 con el cual se puede calcular la intersección �0 dela línea de regresión de la población.

2.941�4�0�5�.8�3�6�

s�S�xx�

Figura 12.14 Gráfica de puntos de los datos del ejemplo 12.11.

5 15 25

105

115

125

Contenido de aire

Densidad

c12_p446-499.qxd 3/12/08 4:30 AM Page 472

www.FreeLibros.me

Page 28: 12 y correlación Regresión lineal simple - sgpwe.izt.uam.mxsgpwe.izt.uam.mx/files/users/uami/jdf/Devore/cap12.pdf · desarrollar un modelo probabilístico lineal. Si las dos variables

Procedimientos de prueba de hipótesisComo antes, la hipótesis nula en una prueba con respecto a �1 será un enunciado de igual-dad. El valor nulo (valor de �1 alegado verdadero por la hipótesis nula) será denotado por�10 (léase “beta uno cero”, no “beta diez”). El estadístico de prueba se obtiene reemplazan-do �1 en la variable estandarizada T por el valor nulo �10, es decir, estandarizando el esti-mador de �1 conforme a la suposición de que H0 es verdadera. El estadístico de prueba tienepor lo tanto una distribución t con n � 2 grados de libertad cuando H0 es verdadera, así quela probabilidad de error de tipo I permanece al nivel deseado � utilizando un valor crítico tapropiado.

El par de hipótesis más comúnmente encontrado en torno a �1 es H0: �1 � 0 contraHa: �1 � 0. Cuando esta hipótesis nula es verdadera, �Y�x � �0 independiente de x, así queel conocimiento de x no da información sobre el valor de la variable dependiente. Una prue-ba de estas dos hipótesis a menudo se conoce como prueba de utilidad del modelo de regre-sión lineal simple. A menos que n sea demasiado pequeño, H0 será rechazada y la utilidaddel modelo confirmada con precisión cuando r2 es razonablemente grande. El modelo de re-gresión lineal simple no deberá ser utilizado para más inferencias (estimaciones del valormedio o predicciones de valores futuros) a menos que la prueba de la utilidad del modelodé por resultado el rechazo de H0 con un � apropiadamente pequeño.

12.3 Inferencias sobre el parámetro de pendiente �1 473

Dependent Variable: DENSITY

Analysis of Variance

Source DF Sum of Squares Mean Square F Value Prob � F

Model 1 341.72606 341.72606 39.508 0.0001Error 13 112.44327 8.64948C Total 14 454.16933

Root MSE 2.94100 R-square 0.7524Dep Mean 112.90667 Adj R-sq 0.7334C.V. 2.60481

Parameter Estimates

Parameter Standard T for H0:Variable DF Estimate Error Parameter � 0 Prob � T

INTERCEP 1 126.248889 2.25441683 56.001 0.0001AIRCONT 1 0.917622 0.14598888 6.286 0.0001

Dep Var PredictObs DENSITY Value Residual1 119.0 121.0 2.01842 121.3 120.0 1.29093 118.2 117.4 0.76034 124.0 117.1 6.92735 112.3 116.4 4.13036 114.1 114.7 0.58697 112.2 113.0 0.83518 115.1 112.5 2.61549 111.3 112.2 0.909310 107.2 111.4 4.183411 108.9 109.9 1.015212 107.8 109.1 1.289413 111.0 108.2 2.828314 106.2 107.3 1.145915 105.0 103.3 1.6917

Sum of Residuals 0Sum of Squared Residuals 112.4433Predicted Resid SS (Press) 146.4144

Figura 12.15 Resultados obtenidos con SAS con los datos del ejemplo 12.11. ■

c12_p446-499.qxd 3/12/08 4:30 AM Page 473

www.FreeLibros.me

Page 29: 12 y correlación Regresión lineal simple - sgpwe.izt.uam.mxsgpwe.izt.uam.mx/files/users/uami/jdf/Devore/cap12.pdf · desarrollar un modelo probabilístico lineal. Si las dos variables

474 CAPÍTULO 12 Regresión lineal simple y correlación

La limpieza del metal o aleación de aluminio fundida antes de vaciar una pieza está deter-minada principalmente por el contenido de hidrógeno e inclusiones del metal fundido. El artículo “Effect of Melt Cleanliness on the Properties of an A1-10 Wt Pct Si-10 Vol PctSiC(p) Composite” (Metallurgical Trans., 1993: 1631-1645) reporta sobre un estudio en elcual varias propiedades de tensión se relacionaron con x � fracción volumétrica de óxidos/in-clusiones (%). Aquí se presentan datos (leídos en una gráfica) sobre y � alargamiento (%)de barras de prueba. Los autores afirman que la gráfica de puntos muestra una relación li-neal y dan la ecuación de la línea de mínimos cuadrados. Utilice los resultados de la figura12.16 generados por MINITAB y realice la prueba de utilidad de modelo a un nivel de sig-nificación � � 0.01

x 0.10 0.16 0.31 0.37 0.37 0.46 0.50 0.50 0.60 0.70

y 0.96 1.10 0.80 0.84 0.77 0.87 0.60 0.87 0.60 0.61

x 0.75 0.80 0.90 1.00 1.07 1.08 1.11 1.30 1.37 1.54

y 0.70 0.41 0.40 0.41 0.45 0.59 0.25 0.25 0.08 0.10

Hipótesis nula: H0: �1 � �10

Valor estadístico de prueba: t �

Hipótesis alternativa Región de rechazo para una prueba a nivel �

Ha: �1 � �10 t t�,n�2

Ha: �1 � �10 t � t�,n�2

Ha: �1 � �10 o t t�/2,n�2 o t � t�/2,n�2

Se puede calcular un valor P basado en n � 2 grados de libertad como previamente sehizo con pruebas t en los capítulos 8 y 9.

La prueba de utilidad del modelo es la prueba de H0: �1 � 0 contra Ha: �1 � 0,en cuyo caso el valor estadístico de prueba es la relación t t � �1/s�1

.

�1 � �10

s�1

Ejemplo 12.12

El parámetro de interés es �1, el cambio esperado del porcentaje de alargamiento aso-ciado con 1% de incremento de la fracción volumétrica de óxidos/inclusiones. H0: �1 � 0

The regression equation is

elon � 1.07 � 0.649 volfrac s�1t �

Predictor Coef Stdev t-ratio P Valor PConstant 1.06930 0.04966 21.53 0.000volfrac 0.64884 0.05840 11.11 0.000

s � 0.1049 R-sq � 87.3% R-sq(adj) � 86.6%

Analysis of Variance

SOURCE DF SS MS F PRegression 1 1.3583 1.3583 123.42 0.000Error 18 0.1981 0.0110Total 19 1.5564

�1s�1

Figura 12.16 Resultados obtenidos con MINITAB del ejemplo 12.12.

para la prueba deutilidad del modelo

c12_p446-499.qxd 3/12/08 4:30 AM Page 474

www.FreeLibros.me

Page 30: 12 y correlación Regresión lineal simple - sgpwe.izt.uam.mxsgpwe.izt.uam.mx/files/users/uami/jdf/Devore/cap12.pdf · desarrollar un modelo probabilístico lineal. Si las dos variables

será rechazada a favor de Ha: �1 � 0 si la relación t � �1/s�1satisface o t t�/2,n�2 �

t0.005,18 � 2.878 o t � �2.878. De acuerdo con la figura 12.16, �1 � 0.64884 y s�1

� 0.05840, y

t � � 11.11 (también en la salida de resultados)

Con claridad, �11.11 � �2.878, de modo que H0 es resonantemente rechazada. De mane-ra alternativa, el valor P es dos veces el área capturada bajo la curva t de 18 grados de liber-tad a la izquierda de �11.11. MINITAB da un valor P � 0.000, de modo que H0 deberá serrechazada a cualquier nivel � razonable. Esta confirmación de la utilidad del modelo de regresión lineal simple permite calcular varias estimaciones y predicciones como se des-cribe en la sección 12.4. ■

Regresión y ANOVA La descomposición de la suma total de los cuadrados �(yi � y�)2 en una parte SCE, la cualmide la variación no explicada y una parte SCR, que mide la variación explicada por la re-lación lineal, hace recordar el ANOVA unidireccional. De hecho, la hipótesis nula H0: �1 � 0puede ser probada contra Ha: �1 � 0 con una tabla ANOVA (tabla 12.2) y rechazando H0 sif F�,1,n�2.

0.648840.05840

12.3 Inferencias sobre el parámetro de pendiente �1 475

La prueba F da exactamente el mismo resultado que la prueba t de utilidad del mode-lo t2 � f y t2

�/2,n�2 � F�,1,n�2. Virtualmente todos los programas de computadora que cuentancon opciones de regresión incluyen tal tabla ANOVA en los resultados. Por ejemplo, la fi-gura 12.15 muestra los resultados obtenidos con SAS con los datos de mortero del ejemplo12.11. La tabla ANOVA en la parte superior de los resultados tiene f � 39.508 con un valorP de 0.0001 para la prueba de utilidad de modelo. La tabla de estimaciones de parámetro dat � �6.286 con P � 0.0001 y (�6.286)2 � 39.51.

30. Reconsidere la situación descrita en el ejercicio 7, en el cualx � resistencia acelerada del concreto y y � resistencia des-pués de 28 días de curado. Suponga que el modelo de regre-sión lineal simple es válida con x entre 1000 y 4000 y que�1 � 1.25 y � � 350. Considere un experimento en el cualn � 7 y los valores x a los cuales se realizan las observacio-nes son x1 � 1000, x2 � 1500, x3 � 2000, x4 � 2500, x5 � 3000, x6 � 3500 y x7 � 4000. a. Calcule ��1

, la desviación estándar de �1.b. ¿Cuál es la probabilidad de que la pendiente estimada

basada en las observaciones esté entre 1.00 y 1.50?c. Suponga que también es posible hacer una sola obser-

vación con cada uno de los n � 11 valores x1 � 2000,

x2 � 2100, . . . , x11 � 3000. Si un objetivo importantees estimar �1 con tanta precisión como sea posible, ¿se preferiría el experimento con n � 11 a uno con n � 7?

31. Reconsidere las cantidades resumidas dadas en el ejercicio 18para la regresión de y � factor de deflexión en x � tempe-ratura.

a. Calcule la desviación estándar estimada s�1.

b. Calcule un intervalo de confianza de 95% para �1, elcambio esperado del factor de deflexión asociado con unincremento de 1°F de la temperatura.

Tabla 12.2 Tabla ANOVA para regresión lineal simple

Origen de la variación gl Suma de cuadrados Cuadrado de la media f

Regresión 1 SCR SCR

Error n � 2 SCE s2 �

Total n � 1 STC

SCEn � 2

SCRSCE/(n � 2)

EJERCICIOS Sección 12.3 (30-43)

c12_p446-499.qxd 3/12/08 4:30 AM Page 475

www.FreeLibros.me

Page 31: 12 y correlación Regresión lineal simple - sgpwe.izt.uam.mxsgpwe.izt.uam.mx/files/users/uami/jdf/Devore/cap12.pdf · desarrollar un modelo probabilístico lineal. Si las dos variables

476 CAPÍTULO 12 Regresión lineal simple y correlación

32. El ejercicio 16 de la sección 12.2 dio datos sobre x � volu-men de precipitación pluvial y y � volumen de escurrimien-to (ambos en m3). Use los resultados adjuntos obtenidos conMINITAB para decidir si existe una relación lineal útil entrela precipitación pluvial y el escurrimiento y luego calcule unintervalo de confianza para el cambio promedio verdaderodel volumen de escurrimiento asociado con 1 m3 de incre-mento del volumen de precipitación pluvial.

The regression equation isrunoff � 1.13 � 0.827 rainfall

Predictor Coef Stdev t-ratio pConstant 1.128 2.368 0.48 0.642rainfall 0.82697 0.03652 22.64 0.000

s � 5.240 R-sq � 97.5% R-sq(adj) � 97.3%

33. El ejercicio 15 de la sección 12.2 incluyó resultados gene-rados por MINITAB de módulo de elasticidad con una re-gresión de resistencia a la flexión de vigas de concreto. a. Úselos para calcular el ancho de intervalo de confianza

de 95% para la pendiente �1 de la línea de regresión dela población e interprete el intervalo resultante.

b. Suponga que previamente se creía que cuando el módu-lo de elasticidad se incrementa en 1 GPa, el cambio pro-medio verdadero asociado de la resistencia a la flexiónera cuando mucho de 0.1 MPa. ¿Contradicen los datosesta creencia? Formule y pruebe las hipótesis pertinentes.

34. Remítase a los resultados generados por MINITAB del ejer-cicio 20, en los cuales x � NO�

3 deposición en húmedo y y � liquen N (%). a. Realice la prueba de utilidad de modelo al nivel 0.01,

utilizando el método de región de rechazo. b. Repita el inciso a) con el método del valor P. c. Suponga que previamente se creía que cuando la deposi-

ción en húmedo de NO�3 se incrementa en 0.1 g N/m2, el

cambio asociado del liquen N esperado es por lo menosde 0.15%. Realice una prueba de hipótesis al nivel 0.01para decidir si los datos contradicen esta creencia previa.

35. ¿Cómo afecta la aceleración lateral (fuerzas laterales expe-rimentadas en las vueltas que en gran medida están bajo elcontrol del conductor) las náuseas percibidas por los pasa-jeros de un autobús? El artículo “Motion Sickness in PublicRoad Transport: The Effect of Driver, Route, and Vehicle”(Ergonomics, 1999: 1646-1664) reportó datos sobre x �dosis de mareo provocado por el movimiento (calculado deacuerdo con una norma británica para evaluar movimientossimilares en el mar) y y � náusea reportada (%). Las canti-dades pertinentes son

n � 17, �xi � 222.1, �yi � 193, �x2i � 3056.69,

� xiyi � 2759.6, �y2i � 2975

Los valores de dosis en la muestra oscilaron entre 6.0 y 17.6. a. Suponiendo que el modelo de regresión lineal simple es

válido para relacionar estas dos variables (esto es apoya-do por los datos sin procesar), calcule e interprete un es-timador del parámetro de pendiente que dé informaciónsobre la precisión y confiabilidad de la estimación.

b. ¿Parece haber una relación lineal útil entre estas dos va-riables? Responda la pregunta empleando el método delvalor P.

c. ¿Sería sensible utilizar el modelo de regresión linealsimple como base para predecir el % de náuseas cuandola dosis � 5.0? Explique su razonamiento.

d. Cuando se utilizó MINITAB para ajustar el modelo deregresión lineal simple a los datos sin procesar, la obser-vación (6.0, 2.50) fue señalada como que posiblementetiene un impacto sustancial en el ajuste. Elimine esta ob-servación de la muestra y recalcule la estimación del in-ciso a). Basado en esto, ¿parece ejercer la observaciónuna influencia indebida?

36. Se produce una bruma (gotas transportadas por el aire o aerosoles) cuando se utilizan fluidos para remover metalesen operaciones de maquinado para enfriar y lubricar la he-rramienta y la pieza de trabajo. La generación de bruma esuna preocupación para la OSHA, la que recientemente hareducido sustancialmente la norma del lugar de trabajo. Elartículo “Variables Affecting Mist Generation from MetalRemoval Fluids” (Lubrication Engr., 2002: 10-17) dio losdatos adjuntos sobre x � velocidad de flujo de fluido de unaceite soluble al 5% (cm/s) y y � la cantidad de gotas debruma con diámetro menor que 10 �m (mg/m3):

a. Los investigadores realizaron un análisis de regresión li-neal simple para relacionar las dos variables. ¿Apoya lagráfica de puntos esta estrategia?

b. ¿Qué proporción de la variación observada de la brumapuede ser atribuida a la relación de regresión lineal sim-ple entre velocidad y bruma?

c. A los investigadores les interesaba particularmente elimpacto en la bruma de la velocidad creciente de 100 a1000 (un factor de 10 correspondiente a la diferencia en-tre los valores x más pequeños y más grandes presentesen la muestra). Cuando x se incrementa de esta manera,¿existe evidencia sustancial de que el incremento pro-medio verdadero de y es menor que 0.6?

d. Estime el cambio promedio verdadero de la bruma aso-ciado con un incremento de 1 cm/s en la velocidad y há-galo de modo que dé información sobre precisión yconfiabilidad.

37. La obtención de imágenes por medio de resonancia magnéti-ca (MRI, por sus siglas en inglés) está bien establecida comouna herramienta para medir velocidades de la sangre y flujosde volúmenes. El artículo “Correlation Analysis of StenoticAortic Valve Flow Patterns Using Phase Constrast MRI”, ci-tado en el ejercicio 1.67, propuso utilizar esta metodologíapara determinar el área valvular en pacientes con estenosisaórtica. Los datos adjuntos sobre velocidad pico (m/s) deri-vados de exámenes de 23 pacientes en dos planos diferentesse tomaron de una gráfica que aparece en el artículo citado.

x 89 177 189 354 362 442 965

y 0.40 0.60 0.48 0.66 0.61 0.69 0.99

Nivel--: 0.60 0.82 0.85 0.89 0.95 1.01 1.01 1.05Nivel--: 0.50 0.68 0.76 0.64 0.68 0.86 0.79 1.03

Nivel--: 1.08 1.11 1.18 1.17 1.22 1.29 1.28 1.32Nivel--: 0.75 0.90 0.79 0.86 0.99 0.80 1.10 1.15

Nivel--: 1.37 1.53 1.55 1.85 1.93 1.93 2.14Nivel--: 1.04 1.16 1.28 1.39 1.57 1.39 1.32

c12_p446-499.qxd 3/12/08 4:30 AM Page 476

www.FreeLibros.me

Page 32: 12 y correlación Regresión lineal simple - sgpwe.izt.uam.mxsgpwe.izt.uam.mx/files/users/uami/jdf/Devore/cap12.pdf · desarrollar un modelo probabilístico lineal. Si las dos variables

a. ¿Parece haber alguna diferencia entre la velocidad pro-medio verdadera en los dos planos distintos? Realiceuna prueba de hipótesis apropiada (como lo hicieron losautores del artículo).

b. Los autores del artículo también analizaron el Nivel-ve-locidad contra Nivel-velocidad. La intersección y la pen-diente estimadas resultantes son 0.14701 y 0.65393 conerrores estándar estimados correspondientes de 0.07877y 0.05947, coeficiente de determinación de 0.852 y s � 0.110673. El artículo incluyó un comentario deque esta regresión mostraba evidencias de una fuerterelación lineal pero una pendiente de regresión muypor debajo de 1. ¿Está de acuerdo?

38. Remítase a los datos sobre x � tasa de liberación y y � tasade emisión de NOX dados en el ejercicio 19. a. ¿Especifica el modelo de regresión lineal simple una re-

lación útil entre las dos tasas? Use el procedimiento deprueba apropiado para obtener información sobre el va-lor P y luego saque una conclusión a nivel de significa-ción de 0.01.

b. Calcule un intervalo de confianza de 95% para cambioesperado de tasa de emisiones con un incremento de 10MBtu/h-pie2 en la tasa de liberación.

39. Realice la prueba de utilidad de modelo por medio del mé-todo ANOVA con los datos de contenido de humedad-tasade filtración del ejemplo 12.6. Verifique que da un resultadoequivalente al de la prueba t.

40. Use las reglas del valor esperado para demostrar que �0 esun estimador insesgado de �0 (suponiendo que �1 es un es-timador insesgado de �1).

41. a. Verifique que E( �1) � �1 con las reglas de valor espera-do del capítulo 5.

b. Use las reglas de varianza del capítulo 5 para verificar laexpresión para V( �1) dada en esta sección.

42. Verifique que si cada xi se multiplica por una constante po-sitiva c y cada yi se multiplica por otra constante positiva d,el estadístico t para probar H0: �1 � 0 contra Ha: �1 � 0 nocambia de valor (el valor de �1 cambiará, lo que demuestraque la magnitud de �1 no es indicativo por sí mismo de lautilidad del modelo).

43. La probabilidad de un error de tipo II con la prueba t paraH0: �1 � �10 se calcula del mismo modo que para las prue-bas t del capítulo 8. Si el valor alternativo de �1, denotadopor ��1, el valor de

d �

se calcula primero, luego se ingresa al conjunto apropiadode curvas de la tabla A.17 del apéndice por el eje horizon-tal en el valor de d y � se lee en la curva de n � 2 gradosde libertad. Un artículo que apareció en el Journal of PublicHealth Engineering reporta los resultados de un análisis deregresión basado en n � 15 observaciones en las cuales x �temperatura de aplicación de filtro (°C) y y � % de eficien-cia de eliminación de BOD. Las cantidades calculadas in-cluyen �xi � 402, �x2

i � 11 098, s � 3.725 y �1 �1.7035. Considere probar a un nivel de 0.01 H0: �1 � 1, laque manifiesta que el incremento esperado en el % de eli-minación de BOD es 1 cuando la temperatura de aplicacióndel filtro se incrementa 1°C, contra la alternativa Ha: �1 � 1.Determine P (error de tipo II) cuando ��1 � 2, � � 4.

�10 � ��1

� ���x�2i�n

���

(��1�xi

�)2�/n�

12.4 Inferencias sobre �Y�x* y predicción de valores Y futuros 477

Sea x* un valor específico de la variable independiente x. Una vez que �0 y �1 han sido calcu-ladas, �0 � �1x* puede ser considerada como una estimación puntual de �Y�x* (el valor espe-rado o el valor promedio esperado de Y cuando x � x*) o como una predicción del valor Y queresultará de una sola observación realizada cuando x � x*. La estimación puntual o predic-ción por sí misma no da información sobre qué tan precisamente �Y�x* ha sido estimada o Yha sido pronosticada. Esto se remedia desarrollando un intervalo de confianza para �Y�x* yun intervalo de predicción (IP) para un solo valor de Y.

Antes de obtener datos muestrales, tanto �0 como �1 están sujetas a variabilidad demuestreo, es decir, ambos son estadísticos cuyos valores variarán de muestra en muestra.Supóngase, por ejemplo que �0 � 50 y �1 � 2. Entonces una primera muestra de pares (x, y) podría dar �0 � 52.35, �1 � 1.895, una segunda muestra podría dar �0 � 46.52, �1 � 2.056 y así sucesivamente. Se desprende que Y � �0 � �1x* misma cambia de valorde muestra en muestra, así que es un estadístico. Si la intersección y la pendiente de la lí-nea de la población son los valores antes mencionados 50 y 2, de manera respectiva, y x* � 10, entonces este estadístico está tratando de estimar el valor 50 � 2(10) � 70. La es-timación con una primera muestra podría ser 52.35 � 1.895(10) � 71.30, con una segundamuestra podría ser 46.52 � 2.056(10) � 67.08 y así sucesivamente. Del mismo modo queun intervalo de confianza para �1 estaba basado en propiedades de la distribución de mues-treo de �1, un intervalo de confianza para un valor y medio en regresión está basado en pro-piedades de la distribución de muestreo del estadístico �0 � �1x*.

12.4 Inferencias sobre �Y�x* y predicción de valores Y futuros

c12_p446-499.qxd 3/12/08 4:30 AM Page 477

www.FreeLibros.me

Page 33: 12 y correlación Regresión lineal simple - sgpwe.izt.uam.mxsgpwe.izt.uam.mx/files/users/uami/jdf/Devore/cap12.pdf · desarrollar un modelo probabilístico lineal. Si las dos variables

478 CAPÍTULO 12 Regresión lineal simple y correlación

La sustitución de la expresión para �0 y �1 en �0 � �1x* seguida por algunas mani-pulaciones algebraicas conduce a la representación de �0 � �1x* como una función linealde las Yi:

�0 � �1x* � �n

i�1� � �Yi � �

n

i�1diYi

Los coeficientes d1, d2, . . . , dn en esta función lineal implica las xi y x*, las cuales son fi-jas. La aplicación de las reglas de la sección 5.5 a esta función lineal da las siguientes pro-piedades.

(x* � x�)(xi � x�)�(xi � x�)2

1n

La varianza de �0 � �1x* es más pequeña cuando x* � x� y se incrementa a medida que x*de aleja de x� en una u otra dirección. Por consiguiente, la estimación de �Y�x* es más preci-sa cuando x* está cerca del centro de las xi que cuando está lejos de los valores x a los cua-les se realizaron las observaciones. Esto implicará tanto que el intervalo de confianza comoel intervalo de predicción sean más angostos con una x* cerca de x� que con una x* lejos de x�. La mayoría de los programas de computadora dan tanto �0 � �1x* como s�0��1x* concualquier x* especificada.

Inferencias sobre �Y·x*

Así como los procedimientos inferenciales para �1 se basaron en la variable t obtenida es-tandarizando �1, una variable t obtenida estandarizando �0 � �1x* conduce a un intervalode confianza y procedimientos de prueba en este caso.

Sea Y � �0 � �1x*, donde x* es algún valor fijo de x. Entonces

1. El valor medio de Y es

E(Y ) � E(�0 � �1x*) � ��0��1x* � �0 � �1x*

Así pues �0 � �1x* es un estimador insesgado de �0 � �1x* (es decir, de �Y�x*).

2. La varianza de Y es

V(Y ) � �2Y � � 2� � � � � 2� � �

y la desviación estándar � Y es la raíz cuadrada de esta expresión. La desviación estándar estimada de �0 � �1x*, denotada por sY o s�0��1x*, se obtiene al reemplazar �por su estimación s:

sY � s�0��1x* � s ��� ����3. Y tiene una distribución normal.

(x* � x�)2

Sxx

1n

(x* � x�)2

Sxx

1n

(x* � x�)2

�x2i � (�xi)

2/n1n

TEOREMA La variable

T � � (12.5)

tiene una distribución t con n � 2 grados de libertad.

Y � (�0 � �1x*)

SY

�0 � �1x* � (�0 � �1x*)

S�0��1x*

c12_p446-499.qxd 3/12/08 4:30 AM Page 478

www.FreeLibros.me

Page 34: 12 y correlación Regresión lineal simple - sgpwe.izt.uam.mxsgpwe.izt.uam.mx/files/users/uami/jdf/Devore/cap12.pdf · desarrollar un modelo probabilístico lineal. Si las dos variables

12.4 Inferencias sobre �Y�x* y predicción de valores Y futuros 479

Este intervalo de confianza está centrado en la estimación puntual de �Y�x* y se extiende acada lado en una cantidad que depende del nivel de confianza y del grado de variabilidaddel estimador en el cual está basada la estimación puntual.

La corrosión de varillas de refuerzo de acero es el problema de durabilidad más importantede estructuras de concreto reforzadas. La carbonatación del concreto ocurre a consecuencia deuna reacción química que reduce el pH lo suficiente para iniciar la corrosión de las varillasde refuerzo. A continuación se dan datos representativos sobre x � profundidad de carbo-natación (mm) y y � resistencia (MPa) para una muestra de especímenes testigo tomadosde un edificio particular (tomados de una gráfica que aparece en el artículo “The Carbona-tion of Concrete Structures in the Tropical Environment of Singapore”, Magazine of Con-crete Res., 1996: 293-300).

x 8.0 15.0 16.5 20.0 20.0 27.5 30.0 30.0 35.0

y 22.8 27.2 23.7 17.1 21.5 18.6 16.1 23.4 13.4

x 38.0 40.0 45.0 50.0 50.0 55.0 55.0 59.0 65.0

y 19.5 12.4 13.2 11.4 10.3 14.1 9.7 12.0 6.8

Un intervalo de confianza de 100(1 � �)% para �Y�x*, el valor esperado de Y cuan-do x � x* es

�0 � �1x* ! t�/2,n�2 � s�0��1x* � y ! t�/2,n�2 � sY (12.6)

Ejemplo 12.13

Figura 12.17 Gráfica de puntos generada por MINITAB con intervalos de confianza e intervalos depredicción con los datos del ejemplo 12.13.

Como para �1 en la sección previa, un enunciado de probabilidad que implica esta va-riable estandarizada puede ser manipulado para que dé un intervalo de confianza para �Y�x*.

c12_p446-499.qxd 3/12/08 4:30 AM Page 479

www.FreeLibros.me

Page 35: 12 y correlación Regresión lineal simple - sgpwe.izt.uam.mxsgpwe.izt.uam.mx/files/users/uami/jdf/Devore/cap12.pdf · desarrollar un modelo probabilístico lineal. Si las dos variables

480 CAPÍTULO 12 Regresión lineal simple y correlación

Una gráfica de puntos de los datos (véase la figura 12.17) apoya fuertemente el uso del mo-delo de regresión lineal simple. Las siguientes son cantidades pertinentes:

�xi � 659.0 �x 2i � 28 967.50 x� � 36.6111 Sxx � 4840.7778

�yi � 293.2 �xiyi � 9293.95 �y2i � 5335.76

�1 � 0.297561 �0 � 27.182936 SCE � 131.2402

r 2 � 0.766 s � 2.8640

Calcúlese ahora un intervalo de confianza, utilizando un nivel de confianza de 95%, para la re-sistencia media de todos los especímenes testigo que tienen una profundidad de carbonataciónde 45 mm, es decir, un intervalo de confianza para �0 � �1(45). El intervalo está centrado en

y � �0 � �1(45) � 27.18 � 0.2976(45) � 13.79

La desviación estándar estimada del estadístico Y es

sY � 2.8640�� ����� � 0.7582

El valor crítico t de 16 grados de libertad para un intervalo de confianza de 95% es 2.120,con el cual se determina que el intervalo deseado es

13.79 ! (2.120)(0.7582) � 13.79 ! 1.61 � (12.18, 15.40)

La angostura de este intervalo sugiere que se tiene información razonablemente precisa so-bre el valor medio que se está estimando. Recuerde que si recalcula este intervalo para mues-tra tras muestra, a la larga aproximadamente 95% de los intervalos calculados incluirían �0 � �1(45). Sólo se puede esperar que este valor medio quede en el intervalo que se calculó.

La figura 12.18 muestra resultados MINITAB obtenidos por una solicitud de ajustarel modelo de regresión lineal simple y calcular intervalos para el valor medio de resistenciaa profundidades de 45 mm y 35 mm. Los intervalos aparecen en la parte inferior de los re-sultados; obsérvese que el segundo intervalo es más angosto que el primero, porque 35 estámucho más cerca de x� que 45. La figura 12.17 muestra 1) curvas correspondientes a los lí-mites de confianza con cada valor x diferente y 2) límites de predicción que se discutirán enbreve. Obsérvese cómo las curvas se alejan cada vez más a medida que x se aleja de x�.

(45 � 36.6111)2

4840.7778

118

En algunas situaciones, se desea un intervalo de confianza no sólo para un valor x si-no para dos o más valores x. Supóngase que un investigador desea un intervalo de confianza tanto para �Y�v como para �Y�w, donde � y w son dos valores diferentes de la va-riable independiente. Es tentador calcular el intervalo (12.6) primero con x � � y luego con x � w. Supóngase que se utiliza � � 0.05 en cada cálculo para obtener dos intervalos de

The regression equation is strength � 27.2 � 0.298 depth

Predictor Coef Stdev t-ratio p

Constant 27.183 1.651 16.46 0.000depth 0.29756 0.04116 7.23 0.000

s � 2.864 R-sq � 76.6% R-sq(adj) � 75.1%

Analysis of Variance

SOURCE DF SS MS F p

Regression 1 428.62 428.62 52.25 0.000Error 16 131.24 8.20Total 17 559.86

Fit Stdev.Fit 95.0% C.I. 95.0% P.I.13.793 0.758 (12.185, 15.401) (7.510, 20.075)

Fit Stdev.Fit 95.0% C.I. 95.0% P.I.16.768 0.678 (15.330, 18.207) (10.527, 23.009)

Figura 12.18 Resultados de regresión obtenidos con MINITAB con los datos del ejemplo 12.13. ■

c12_p446-499.qxd 3/12/08 4:30 AM Page 480

www.FreeLibros.me

Page 36: 12 y correlación Regresión lineal simple - sgpwe.izt.uam.mxsgpwe.izt.uam.mx/files/users/uami/jdf/Devore/cap12.pdf · desarrollar un modelo probabilístico lineal. Si las dos variables

95%. Luego, si las variables implicadas al calcular los dos intervalos fueran independientesuna de otra, el intervalo de confianza conjunto sería (0.95) � (0.95) � 0.90.

Sin embargo, los intervalos no son independientes porque se utilizan las mismas �0,�1 y S en cado uno. Por consiguiente, no se puede aseverar que el intervalo de confianza con-junto para los dos intervalos sea exactamente de 90%. Se puede demostrar, no obstante, quesi el intervalo de confianza de 100(1 � �)% (12.6) se calcula tanto con x � � como con x � w para obtener intervalos de confianza conjuntos para �Y�v y �Y�w, entonces, el nivel deconfianza conjunto en el par de intervalos resultante es por lo menos de 100(1 � 2�)%. Enparticular, si se utiliza � � 0.05 se obtiene un intervalo de confianza conjunto de por lo me-nos 90%, en tanto que si se utiliza � � 0.01 se obtiene un nivel de confianza de por lo menos 98%. Para muestra, en el ejemplo 12.13, un intervalo de confianza de 95% para �Y�45

fue (12.185, 15.401) y un intervalo de confianza de 95% para �Y�35 fue (15.330, 18.207). Elnivel de confianza simultáneo o conjunto para las dos proposiciones 12.185 � �Y�45 �15.401 y 15.330 � �Y�35 � 18.207 es por lo menos de 90%.

La validez de estos intervalos de confianza conjuntos o simultáneos se fundamenta enun resultado de probabilidad llamado desigualdad de Bonferroni, así que los intervalos deconfianza conjuntos se conocen como intervalos de Bonferroni. El método es fácil de ge-neralizar para que dé intervalos conjuntos para k diferentes �Y·x. Utilizando el intervalo(12.6) por separado primero con x � x*1 , luego con x � x*2 , . . . y finalmente con x � x*k seobtiene un conjunto de k intervalos de confianza con los cuales el nivel de confianza simul-táneo o conjunto está garantizado que sea de por lo menos 100(1 � k�)%.

Las pruebas de hipótesis con respecto a �0 � �1x* están basadas en el estadístico deprueba T obtenido reemplazando �0 � �1x* en el numerador de (12.5) por el valor nulo de �0. Por ejemplo, H0: �0 � �1(45) � 15 en el ejemplo 12.13 expresa que cuando la pro-fundidad de carbonatación es de 45, la resistencia esperada (es decir, promedio verdadera)es de 15. El valor estadístico de prueba es entonces t � [�0 � �1(45) � 15]/s�0��1(45) y laprueba es de cola superior, inferior o de dos colas de acuerdo con la desigualdad en Ha.

Intervalo de predicción para un valor futuro de YAnálogo al intervalo de confianza (12.6) para �Y�x*, con frecuencia se desea obtener un in-tervalo de valores factibles para el valor de Y asociado con alguna observación futura cuan-do la variable independiente tiene el valor x*. Para muestra, en el ejemplo en el cual eltamaño del vocabulario y está relacionado con la edad x de un niño, con x � 6 años (12.6)daría un intervalo de confianza para el tamaño de vocabulario promedio verdadero de todoslos niños de 6 años. Alternativamente, se podría desear un intervalo de valores posibles para el tamaño del vocabulario de un niño particular de 6 años.

Un intervalo de confianza se refiere a un parámetro, o característica de una población,cuyo valor es fijo pero desconocido. En contraste, un valor futuro de Y no es un parámetrosino una variable aleatoria; por eso se hace referencia a un intervalo de valores factibles para un valor Y futuro como intervalo de predicción en lugar de intervalo de confianza. Elerror de estimación es �0 � �1x* � ( �0 � �1x*), una diferencia entre una cantidad fija (pero desconocida) y una variable aleatoria. El error de predicción es Y � ( �0 � �1x*),una diferencia entre dos variables aleatorias. Existe por lo tanto más incertidumbre en lapredicción que en la estimación, así que un intervalo de predicción será más ancho que unintervalo de confianza. Como el valor futuro Y es independiente de las Yi observadas,

V[Y � ( �0 � �1x*)] � varianza del error de predicción

� V(Y ) � V( �0 � �1x*)

� � 2 � � 2� � �� � 2�1 � � �

(x* � x�)2

Sxx

1n

(x* � x�)2

Sxx

1n

12.4 Inferencias sobre �Y�x* y predicción de valores Y futuros 481

c12_p446-499.qxd 3/12/08 4:30 AM Page 481

www.FreeLibros.me

Page 37: 12 y correlación Regresión lineal simple - sgpwe.izt.uam.mxsgpwe.izt.uam.mx/files/users/uami/jdf/Devore/cap12.pdf · desarrollar un modelo probabilístico lineal. Si las dos variables

482 CAPÍTULO 12 Regresión lineal simple y correlación

Además, como E(Y) � �0 � �1x* y E( �0 � �1x*) � �0 � �1x*, el valor esperado del errorde predicción es E(Y � (�0 � �1x*)) � 0. Se puede demostrar entonces que la variable es-tandarizada

T �

tiene una distribución t con n � 2 grados de libertad. Sustituyendo esta T en la proposiciónde probabilidad P( t�/2,n�2 � T � t�/2,n�2) � 1 � � y manipulándola para aislar Y entre lasdos desigualdades se obtiene el siguiente intervalo.

Y � ( �0 � �1x*)

S�1� �� 1

n���� (�x*�S

��xx� x��)2

La interpretación del nivel de predicción de 100(1 � �)% es idéntico al de los niveles deconfianza previos, si se utiliza (12.7) repetidamente, a la larga los intervalos resultantes enrealidad contendrán los valores y observados el 100(1 � �)% del tiempo. Obsérvese que el1 debajo de la raíz cuadrada inicial hace que el intervalo de predicción (12.7) sea más an-cho que el intervalo de confianza (12.6), aun cuando ambos intervalos estén centrados en�0 � �1x*. Además, a medida que n �, el ancho del intervalo de confianza tiende a cero,en tanto que el ancho del intervalo de predicción no (porque incluso con el perfecto cono-cimiento de �0 y �1, seguirá habiendo incertidumbre en la predicción).

Regrese a los datos de profundidad de carbonatación del ejemplo 12.13 y calcule un inter-valo de predicción de 95% para un valor de resistencia que resultaría de seleccionar un soloespécimen testigo cuya profundidad de carbonatación es de 45 mm. Cantidades pertinentesdel ejemplo son

y � 13.79 sY � 0.7582 s � 2.8640

Con un nivel de predicción de 95% basado en n � 2 � 16 grados de libertad, el valor críti-co es 2.120, exactamente el que se utilizó antes para un nivel de confianza de 95%. El in-tervalo de predicción es entonces

13.79 ! (2.120)�(�2�.�8�6�4�0�)�2�����(�0�.�7�5�8�2�)�2� � 13.79 ! (2.120)(2.963)

� 13.79 ! 6.28 � (7.51, 20.07)

Valores posibles para una sola observación de resistencia cuando la profundidad es de 45mm son (al nivel de predicción de 95%) entre 7.51 MPa y 20.07 MPa. El intervalo de con-fianza de 95% para una resistencia media cuando la profundidad es de 45 fue (12.18, 15.40).El intervalo de predicción es mucho más ancho debido a los (2.8640)2 extra bajo la raíz cua-drada. La figura 12.18, los resultados MINITAB del ejemplo 12.13, muestran este intervaloasí como también el intervalo de confianza. ■

La técnica Bonferroni puede ser empleada como en el caso del intervalo de confian-za. Si se calcula un intervalo de predicción de 100(1 � �)% para cada uno de k valores di-ferentes de x, el nivel de predicción simultánea o conjunta para los k intervalos es por lomenos de 100(1 � k�)%.

Un intervalo de predicción de 100(1 � �)% para una observación Y futura quese va a realizar cuando x � x* es

�0 � �1x* ! t�/2,n�2 � s�1� ���� ���� (12.7)

� �0 � �1x* ! t�/2,n�2 � �s2� �� s�2�0��

�1x�

*�

� y ! t�/2,n�2 � �s2� �� s�2Y�

(x* � x�)2

Sxx

1n

Ejemplo 12.14

c12_p446-499.qxd 3/12/08 4:30 AM Page 482

www.FreeLibros.me

Page 38: 12 y correlación Regresión lineal simple - sgpwe.izt.uam.mxsgpwe.izt.uam.mx/files/users/uami/jdf/Devore/cap12.pdf · desarrollar un modelo probabilístico lineal. Si las dos variables

12.4 Inferencias sobre �Y�x* y predicción de valores Y futuros 483

44. El ajuste del modelo de regresión lineal simple a las n � 27observaciones de x � módulo de elasticidad y y � resisten-cia a la flexión dados en el ejercicio 15 de la sección 12.2dio por resultado y � 7.592, sY � 0.179 cuando x � 40 yy � 9.741, sY � 0.253 con x � 60. a. Explique por qué sY es más grande cuando x � 60 que

cuando x � 40. b. Calcule un intervalo de confianza con un nivel de con-

fianza de 95% para la resistencia promedio verdadera detodas las vigas cuyo módulo de elasticidad es de 40.

c. Calcule un intervalo de predicción con un nivel de 95%para la resistencia de una sola viga cuyo módulo de elas-ticidad es 40.

d. Si se calcula un intervalo de confianza de 95% para laresistencia promedio verdadera cuando el módulo deelasticidad es de 60, ¿cuál será el nivel de confianza si-multáneo tanto para este intervalo como para el interva-lo calculado en el inciso b)?

45. Reconsidere los datos de contenido de humedad-tasa de fil-tración introducidos en el ejemplo 12.6 (véase también elejemplo 12.7). a. Calcule un intervalo de confianza de 90% para �0 �

125�1, el contenido de humedad promedio verdaderacuando la tasa de filtración es 125.

b. Pronostique el valor del contenido de humedad con unsolo experimento en el cual la tasa de filtración es de125 utilizando un nivel de predicción de 90%. ¿Cómo secompara este intervalo al intervalo del inciso a)? ¿Porqué es éste el caso?

c. ¿Cómo se compararían los intervalos de los incisos a) yb) con un intervalo de confianza y un intervalo de pre-dicción cuando la tasa de filtración es de 115? Respon-da sin calcular en realidad estos nuevos intervalos.

d. Interprete las hipótesis H0: �0 � 125�1 � 80 y H0: �0 �125�1 � 80, y luego realice una prueba a un nivel designificación de 0.01.

46. El artículo “The Incorporation of Uranium and Silver by Hy-drothermally Synthesized Galena” (Econ. Geology, 1964:1003-1024) reporta sobre la determinación de contenido deplata de cristales de galena desarrollados en un sistema hidro-térmico cerrado dentro de un rango de temperatura. Con x �temperatura de cristalización en °C y y � Ag2S en mol%, losdatos son los siguientes:

con los cuales �xi � 6130, �x2i � 3 022 050, �yi � 4.73,

�y2i � 2.1785, �xiyi � 2418.74, �1 � 0.00143, �0 � �0.311

y s � 0.131. a. Estime el contenido de plata promedio verdadero cuan-

do la temperatura es de 500°C utilizando un intervalo deconfianza de 95 por ciento.

b. ¿Cómo se compararía el ancho de un intervalo de con-fianza de 95% para el contenido de plata promedio ver-dadero cuando la temperatura es de 400°C con el anchodel intervalo del inciso a)? Responda sin calcular estenuevo intervalo.

c. Calcule un intervalo de confianza de 95% para el cam-bio promedio verdadero del contenido de plata con unincremento de 1°C de la temperatura.

d. Suponga que previamente se creía que cuando la tempe-ratura de cristalización era de 400°C, el contenido deplata promedio verdadero sería de 0.25. Realice unaprueba a un nivel de significación de 0.05 para decidir silos datos muestrales contradicen esta creencia previa.

47. El modelo de regresión lineal simple se ajusta muy bien a losdatos de precipitación pluvial y volumen de escurrimiento da-dos en el ejercicio 16 de la sección 12.2. La ecuación de lalínea de cuadrados mínimos es y � �1.128 � 0.82697x,r 2 � 0.975 y s � 5.24. a. Use el hecho de que sY � 1.44 cuando el volumen de la

precipitación pluvial es de 40 m3 para predecir el escu-rrimiento en una forma que transmita información sobreconfiabilidad y precisión. ¿Sugiere el intervalo resultan-te que se dispone de información precisa sobre el valorde escurrimiento con esta futura observación? Expliquesu razonamiento.

b. Calcule un intervalo de precisión para escurrimientocuando la precipitación pluvial es de 50 utilizando elmismo nivel de predicción del inciso a). ¿Qué se puededecir sobre el nivel de predicción simultáneo para losdos intervalos que calculó?

48. El resumidero en un colector pluvial es la superficie de con-tacto entre el escurrimiento superficial y el conductor de desagüe. El inserto del resumidero es un dispositivo que me-jora las propiedades supresoras de contaminantes de éste. Elartículo “An Evaluation of the Urban Stormwater PollutantRemoval Efficiency of Catch Basin Inserts” (Water Envir.Res., 2005- 500-510) reportó pruebas de varios insertos encondiciones controladas en las que el flujo de entrada esmuy parecido al que se puede esperar en el campo. Conside-re los siguientes datos, tomados de una gráfica que apareceen el artículo, para un tipo particular de inserto sobre x can-tidad filtrada (miles de litros) y y � % total de sólidos sus-pendidos eliminados.

En resumen las cantidades son �xi � 1251, �x2

i � 199 365, �yi � 250.6, �y2i � 9249.36,

�xiyi � 21 904.4a. ¿Avala la gráfica de puntos la selección del modelo de

regresión simple? Explique. b. Obtenga la ecuación de la línea de mínimos cuadrados. c. ¿Qué proporción de la variación observada en el % de

eliminación puede ser atribuida a la relación de modelo? d. ¿Especifica el modelo de regresión lineal simple una re-

lación útil? Realice una prueba de hipótesis apropiadascon un nivel de significación de 0.05.

e. ¿Existe una fuerte evidencia para concluir que por lomenos existe 2% de reducción de la eliminación de só-lidos suspendidos promedio verdadera con un incremen-to de 10 000 litros de la cantidad filtrada? Pruebe lashipótesis apropiadas con � � 0.05.

EJERCICIOS Sección 12.4 (44-56)

x 398 292 352 575 568 450 550 408 484 350 503 600 600

y 0.15 0.05 0.23 0.43 0.23 0.40 0.44 0.44 0.45 0.09 0.59 0.63 0.60

x 23 45 68 91 114 136 159 182 205 228

y 53.3 26.9 54.8 33.8 29.9 8.2 17.2 12.2 3.2 11.1

c12_p446-499.qxd 3/12/08 4:30 AM Page 483

www.FreeLibros.me

Page 39: 12 y correlación Regresión lineal simple - sgpwe.izt.uam.mxsgpwe.izt.uam.mx/files/users/uami/jdf/Devore/cap12.pdf · desarrollar un modelo probabilístico lineal. Si las dos variables

484 CAPÍTULO 12 Regresión lineal simple y correlación

f. Calcule e interprete un intervalo de confianza de 95%para el % eliminado promedio verdadero cuando la can-tidad filtrada es de 100 000 litros. ¿Cómo se compara esteintervalo con respecto al ancho cuando la cantidad filtra-da es de 200 000 litros?

g. Calcule e interprete un intervalo de predicción de 95%para % eliminado cuando la cantidad filtrada es de 100 000litros. ¿Cómo se compara este intervalo en cuanto al an-cho con el intervalo de confianza calculado en f) y conintervalo de predicción cuando la cantidad filtrada es de200 000 litros?

49. Le informan que un intervalo de confianza de 95% para elcontenido de plomo esperado cuando el flujo de tráfico es de15, basado en una muestra de n � 10 observaciones es(462.1, 597.7). Calcule un intervalo de confianza de 99% parael contenido de plomo esperado cuando el tráfico es de 15.

50. Se han utilizado aleaciones de silicio-germanio en ciertostipos de celdas solares. El artículo “Silicon-GermaniumFilms Deposited by Low-Frequency Plasma-EnhancedChemical Vapor Deposition” (J. of Materials Res., 2006:88-104) reportó sobre un estudio de varias propiedades es-tructurales y eléctricas. Considere los datos adjuntos sobrex � concentración de Ge en fase sólida (desde 0 hasta 1) yy � posición de nivel Fermi (eV).

Una gráfica de puntos muestra una relación lineal sustan-cial. He aquí una salida MINITAB de un ajuste de cuadra-dos mínimos. [Nota: Existen varias inconsistencias entre losdatos dados en el artículo, la gráfica que allí aparece y la in-formación resumida sobre un análisis de regresión.]

The regression equation isFermi pos = 0.7217 – 0.4327 Ge conc

S = 0.0737573 R-Sq = 80.2% R-Sq(adj) = 78.4%

Analysis of VarianceSource DF SS MS F P

Regression 1 0.241728 0.241728 44.43 0.000Error 11 0.059842 0.005440Total 12 0.301569

a. Obtenga una estimación de intervalo del cambio esperadoen la posición del nivel Fermi asociado con un incrementode 0.1 en la concentración de Ge e interprete su estimación.

b. Obtenga una estimación de intervalo para la posiciónmedia del nivel Fermi cuando la concentración es de 0.50e interprete su estimación.

c. Obtenga un intervalo de valores factibles para la posi-ción que resulta de una sola observación que ha de rea-lizarse cuando la concentración es de 0.50, interprete suintervalo y compare con el intervalo de b).

d. Obtenga intervalos de confianza simultáneos para la po-sición esperada cuando la concentración es de 0.3, 0.5 y0.7; el intervalo de confianza conjunto deberá ser por lomenos de 97%.

51. Remítase al ejemplo 12.12 en el cual x � fracción volumé-trica de óxidos/inclusiones y y � % de alargamiento.

a. MINITAB dio s�0��1(0.40) � 0.0311 y s�0��1(1.20) � 0.0352.¿Por qué la primera desviación estándar estimada es máspequeña que la segunda?

b. Use los resultados obtenidos con MINITAB de ejemplopara calcular un intervalo de confianza de 95% para el% de alargamiento esperado cuando la fracción volumé-trica es � 0.40.

c. Use los resultados obtenidos con MINITAB para calcu-lar un intervalo de predicción de 95% para un solo valorde % de alargamiento que ha de ser observado cuando lafracción volumétrica es � 1.20.

52. El grabado con plasma es esencial en la transferencia de pa-trones de líneas finas en procesos de semiconductores decorriente. El artículo “Ion Beam-Assisted Etching of Alu-minum with Chlorine “ (J. Electrochem. Soc., 1985: 2010-2012) da los datos adjuntos (tomados de una gráfica)sobre flujo de cloro (x, en SCCM) a través de una toberautilizado en el mecanismo de grabado y en la velocidad degrabado (y, en 100 A/min).

Las cantidades resumidas son �xi � 24.0, �yi � 312.5,�x 2

i � 70.50, �xiyi � 902.25, �y2i � 11 626.75, �0 �

6.448718, �1 � 10.602564.a. ¿Especifica el modelo de regresión lineal simple una rela-

ción útil entre el flujo de cloro y la velocidad de grabado? b. Estime el cambio promedio verdadero en la velocidad

de grabado asociado con un incremento de 1 SCCM enla velocidad de flujo utilizando un intervalo de confian-za de 95% e interprete el intervalo.

c. Calcule un intervalo de confianza de 95% para �Y�3.0, lavelocidad de grabado promedio verdadera cuando el flu-jo � 3.0 ¿Ha sido estimado con precisión este promedio?

d. Calcule un intervalo de precisión de 95% para una solaobservación futura de velocidad de grabado que se rea-lizará cuando el flujo � 3.0. ¿Es probable que sea pre-cisa la observación?

e. ¿Serían los intervalos de confianza y predicción de 95%cuando el flujo � 2.5 más ancho o más angosto que losintervalos correspondientes de los incisos c) y d)? Res-ponda sin que en realidad calcule los intervalos.

f. ¿Recomendaría calcular un intervalo de predicción de95% para un flujo de 6.0? Explique.

53. Considere los siguientes cuatro intervalos basados en losdatos del ejemplo 12.4 (sección 12.2):a. Un intervalo de confianza de 95% para la porosidad me-

dia cuando el peso unitario es de 110.b. Un intervalo de confianza de 95% para la porosidad

cuando el peso unitario es de 110.c. Un intervalo de confianza de 95% para la porosidad me-

dia cuando el peso unitario es de 115.d. Un intervalo de confianza de 95% para la porosidad

cuando el peso unitario es de 115.Sin calcular alguno de estos intervalos, ¿qué se puede decirsobre sus anchos uno con respecto al otro?

54. La declinación de los abastos de agua en ciertas áreas deEstados Unidos ha creado la necesidad de incrementar el

x 0 0.42 0.23 0.33 0.62 0.60 0.45 0.87 0.90 0.79 1 1 1

y 0.62 0.53 0.61 0.59 0.50 0.55 0.59 0.31 0.43 0.46 0.23 0.22 0.19

x 1.5 1.5 2.0 2.5 2.5 3.0 3.5 3.5 4.0

y 23.0 24.5 25.0 30.0 33.5 40.0 40.5 47.0 49.0

c12_p446-499.qxd 3/12/08 4:30 AM Page 484

www.FreeLibros.me

Page 40: 12 y correlación Regresión lineal simple - sgpwe.izt.uam.mxsgpwe.izt.uam.mx/files/users/uami/jdf/Devore/cap12.pdf · desarrollar un modelo probabilístico lineal. Si las dos variables

conocimiento de las relaciones entre factores económicostales como rendimiento de cosechas y factores hidrológicos yde suelos. El artículo “Variability of Soil Water Propertiesand Crop Yield in a Sloped Watershed” (Water ResourcesBull., 1988: 281-288) da datos sobre cosechas de sorgo (y,en g/m-surco) y distancia pendiente arriba (x, en m) en unacuenca inclinada. En la tabla adjunta se dan observacionesseleccionadas.

a. Construya una gráfica de puntos. ¿Parece ser factible estemodelo de regresión lineal simple?

b. Realice una prueba de la utilidad del modelo. c. Estime el rendimiento promedio verdadero cuando la

distancia pendiente arriba es de 75 dando un intervalo devalores factibles.

55. Verifique que en realidad V(�0 � �1x) está dada por la ex-presión que aparece en el texto. [Sugerencia: V(�diYi) ��d2

i � V(Yi).]56. El artículo (“Bone Density and Insertion Torque as Predic-

tors of Anterior Cruciate Ligament Graft Fixation Strength”The Amer. J. of Sports Med., 2004: 1421-1429) dio los datosadjuntos sobre par de torsión de inserción máximo (N · m) ycarga de cedencia (N), donde ésta mide la resistencia del in-jerto, correspondientes a 15 especímenes diferentes.

a. ¿Es posible que la carga de cedencia esté normalmentedistribuida?

b. Estime la carga de cedencia promedio verdadera calcu-lando un intervalo de confianza de 95% e interprételo.

c. Los siguientes son resultados obtenidos con MINITABpara la regresión de la carga de cedencia generada por elmomento de torsión. ¿Especifica el modelo de regresiónlineal simple una relación útil entre las variables?

d. Los autores del artículo citado expresan: “Por consi-guiente, no se puede sino concluir que los métodos basa-dos en análisis de regresión simple no son clínicamentesuficientes para predecir la resistencia de fijación indivi-dual”. ¿Está de acuerdo? [Sugerencia: Considere prede-cir la carga de cedencia cuando el momento de torsiónes de 2.0.]

12.5 Correlación 485

Existen muchas situaciones en las que el objetivo al estudiar el comportamiento conjunto dedos variables es ver si están relacionadas, en lugar de utilizar una para predecir el valor de laotra. En esta sección, primero se desarrolla el coeficiente de correlación muestral r comouna medida de qué tan fuerte es la relación entre dos variables x y y en un muestra y luegose relaciona r con el coeficiente de correlación # definido en el capítulo 5.

Coeficiente de correlación muestral rDados n pares de observaciones (x1, y1), (x2, y2), . . . , (xn, yn), es natural hablar de que xy y tienen una relación positiva si las x grandes se aparean con y grandes y las x pequeñascon y pequeñas. Asimismo, si las x grandes se aparean con y pequeñas y las x pequeñascon y grandes, entonces se implica una relación negativa entre las variables. Considéresela cantidad

Sxy � �n

i�1(xi � x�)(yi � y�) � �

n

i�1xiyi � � �

n

i�1xi�� �

n

i�1yi��n

Entonces si la relación es fuertemente positiva, una xi por encima de la media x� tenderá a apa-rearse con una yi por encima de la media y�, de modo que (xi � x�)(yi � y�) � 0 y este productotambién será positivo siempre que tanto xi como yi estén por debajo de sus medias respectivas.De este modo una relación positiva implica que Sxy será positiva. Un argumento análogo de-muestra que cuando la relación es negativa, Sxy será negativa, puesto que la mayoría de los pro-ductos (xi � x�)(yi � y�) seguirán siendo negativos. Esto se ilustra en la figura 12.19.

Torsión 1.8 2.2 1.9 1.3 2.1 2.2 1.6 2.1Carga 491 477 598 361 605 671 466 431

Torsión 1.2 1.8 2.6 2.5 2.5 1.7 1.6Carga 384 422 554 577 642 348 446

x 0 10 20 30 45 50 70

y 500 590 410 470 450 480 510

x 80 100 120 140 160 170 190

y 450 360 400 300 410 280 350 Predictor Coef SE Coef T PConstant 152.44 91.17 1.67 0.118Torque 178.23 45.97 3.88 0.002

S = 73.2141 R–Sq = 53.6% R–Sq(adj) = 50.0%

Source DF SS MS F PRegression 1 80554 80554 15.03 0.002Residual Error 13 69684 5360Total 14 150238

12.5 Correlación

c12_p446-499.qxd 3/12/08 4:30 AM Page 485

www.FreeLibros.me

Page 41: 12 y correlación Regresión lineal simple - sgpwe.izt.uam.mxsgpwe.izt.uam.mx/files/users/uami/jdf/Devore/cap12.pdf · desarrollar un modelo probabilístico lineal. Si las dos variables

486 CAPÍTULO 12 Regresión lineal simple y correlación

Aunque Sxy parece ser una medida factible de la fuerza de una relación, aún no se sabequé tan positiva o negativa pueda ser. Por desgracia, Sxy tiene un serio defecto: Si se cam-bian las unidades de medición de x o y, se puede hacer que Sxy sea arbitrariamente grandeen magnitud o arbitrariamente próxima a cero. Por ejemplo, si Sxy � 25 cuando x se mide en metros, en ese caso Sxy � 25 000 cuando x se mide en milímetros y 0.025 cuandox está expresada en kilómetros. Una condición razonable para imponer cualquier medida dequé tan fuerte es la relación entre x y y es que la medida calculada no deberá depender de las unidades particulares utilizadas para medirlas. Esta condición se cumple modificandoSxy para obtener el coeficiente de correlación muestral.

x

a)

y

x

b)

y

Figura 12.19 a) Gráfica de puntos con Sxy positiva; b) gráfica de puntos con Sxy negativa [� significa(xi � x�)(yi � y�) � 0; y � significa (xi � x�)(yi � y�) � 0].

Una evaluación precisa de la productividad del suelo es crítica para una planificación racio-nal del uso del suelo. Desafortunadamente, como el autor del artículo “Productivity RatingsBased on Soil Series” (Prof. Geographer, 1980: 158-163) argumenta, no es fácil obtener uníndice de productividad del suelo aceptable. Una dificultad es que la productividad está de-terminada en parte por el tipo de cosecha y la relación entre el rendimiento de dos cosechasdiferentes plantadas en el mismo suelo puede no ser muy fuerte. Como ilustración, el artículopresenta los datos adjuntos sobre una cosecha de maíz x y una cosecha de cacahuates y(mT/Ha) para ocho tipos diferentes de suelo.

Ejemplo 12.15

DEFINICIÓN El coeficiente de correlación muestral para los pares n (x1, y1), . . . , (xn, yn) es

r � � (12.8)Sxy

�S�xx��S�yy�

Sxy����(x�i �� x��)2�������(y�i �� y��)2�

Con �xi � 25.7, �yi � 14.40, �x 2i � 88.31, �xiyi � 46.856 y �y2

i � 26.4324,

Sxx � 88.31 � � 88.31 � 82.56 � 5.75

Syy � 26.4324 � � 0.5124

Sxy � 46.856 � � 0.5960

de donde r � � 0.347 ■0.5960

�5�.�7�5��0�.�5�1�2�4�

(25.7)(14.40)

8

(14.40)2

8

(25.7)2

8

x 2.4 3.4 4.6 3.7 2.2 3.3 4.0 2.1

y 1.33 2.12 1.80 1.65 2.00 1.76 2.11 1.63

c12_p446-499.qxd 3/12/08 4:30 AM Page 486

www.FreeLibros.me

Page 42: 12 y correlación Regresión lineal simple - sgpwe.izt.uam.mxsgpwe.izt.uam.mx/files/users/uami/jdf/Devore/cap12.pdf · desarrollar un modelo probabilístico lineal. Si las dos variables

12.5 Correlación 487

Propiedades de rLas propiedades más importantes de r son las siguientes:

1. El valor de r no depende de cuál de las dos variables estudiadas es x y cual es y.

2. El valor de r es independiente de las unidades en las cuales x y y estén medidas.

3. �1 � r � 1

4. r � 1 si y sólo si todos los pares (xi, yi) quedan en una línea recta con pendiente positivay r � �1 si y sólo si los pares (xi, yi) quedan en una línea recta con pendiente negativa.

5. El cuadrado del coeficiente de correlación muestral da el valor del coeficiente de deter-minación que resultaría de ajustar el modelo de regresión lineal simple, en símbolos (r)2 � r2.

La propiedad 1 contrasta con lo que sucede en el análisis de regresión, donde virtual-mente todas las cantidades de interés (la pendiente estimada, la intersección y estimada, s2, etc.) dependen de cuál de las variables sea tratada como la variable dependiente. Sin em-bargo, la propiedad 5 demuestra que la proporción de variación de la variable dependienteexplicada al ajustar el modelo de regresión lineal simple no depende de cuál variable desem-peñe este rol.

La propiedad 2 equivale a decir que r no cambia si cada xi es reemplazada por cxi y sicada yi es reemplazada por dyi (un cambio en la escala de medición), así como también si ca-da xi es reemplazada por xi � a y yi por yi � b (lo que cambia la ubicación de cero en el eje de medición). Esto implica, por ejemplo, que r es el mismo si la temperatura se mide en °F o °C.

La propiedad 3 dice que el valor máximo de r, correspondiente al grado más grandeposible de relación positiva, es r � 1, mientras que la relación más negativa está identifica-da con r � �1. De acuerdo con la propiedad 4, las correlaciones positivas y negativas másgrandes se obtienen sólo cuando todos los puntos quedan a lo largo de una línea recta. Cual-quier otra configuración de puntos, aun cuando la configuración sugiere una relación deter-minística entre las variables, dará un valor r menor que 1 en magnitud absoluta. Porconsiguiente, r mide el grado de relación lineal entre las variables. Un valor de r cercano a0 no es evidencia de la falta de una fuerte relación, sino sólo de la ausencia de una relaciónlineal, de modo que tal valor de r debe ser interpretado con precaución. La figura 12.20 ilus-tra varias configuraciones de puntos asociadas con valores diferentes de r.

a) r cerca de �1 b) r cerca de �1

d) r cerca de 0, relación no lineal

c) r cerca de 0, ninguna relación aparente

Figura 12.20 Gráficas de puntos con valores diferentes de r.

c12_p446-499.qxd 3/12/08 4:30 AM Page 487

www.FreeLibros.me

Page 43: 12 y correlación Regresión lineal simple - sgpwe.izt.uam.mxsgpwe.izt.uam.mx/files/users/uami/jdf/Devore/cap12.pdf · desarrollar un modelo probabilístico lineal. Si las dos variables

488 CAPÍTULO 12 Regresión lineal simple y correlación

Una pregunta frecuentemente planteada es “Cuándo se puede decir que existe una co-rrelación fuerte entre las variables y cuándo es débil? Una regla empírica notable es decirque la correlación es débil si 0 � r � 0.5, fuerte si 0.8 � r � 1, y moderada de lo con-trario. Puede sorprender que r � 0.5 se considere débil, pero r2 � 0.25 implica que en unaregresión de y en x, solo 25% de la variación de y observada sería explicada por el modelo.En el ejemplo 12.15, la correlación entre la cosecha de maíz y la cosecha de cacahuates sedescribiría como débil.

Coeficiente de correlación � de una población e inferencias sobre correlación El coeficiente de correlación r mide qué tan fuerte es la relación entre x y y en la muestraobservada. Se puede pensar que los pares (xi, yi) se sacaron de una población de pares biva-riantes, con f(x, y) como la distribución de probabilidad conjunta de (Xi, Yi). En el capítulo 5,el coeficiente de correlación #(X, Y) se definió como

� � �(X, Y ) �

donde

�x

�y

(x � �X)(y � �Y)p(x, y) (X, Y ) discretoCov(X, Y ) � {��

���

�(x � �X)(y � �Y) f (x, y) dx dy (X, Y ) continuo

Si se considera que f(x, y) describe la distribución de pares de valores dentro de toda la po-blación, # se transforma en una medida de qué tan fuertemente están relacionadas x y y enla población. Propiedades de # análogas a aquellas para r se dieron en el capítulo 5.

El coeficiente de correlación de la población # es un parámetro o característica de lapoblación, exactamente como lo son �x, �y, �X y �Y, así que se puede utilizar el coeficien-te de correlación muestral para hacer varias inferencias sobre #. En particular, r es una esti-mación puntual de # y el estimador correspondiente es

Cov(X, Y )

�X � �Y

� � R ��(Xi � X�)(Yi � Y�)

���(X�i �� X��)2����(Y�i �� Y��)2�

En algunos lugares, existe una fuerte asociación entre las concentraciones de dos contami-nantes diferentes. El artículo “The Carbon Component of the Los Angeles Aerosol: SourceApportionment and Contributions to the Visibility Budget” (J. Air Pollution Control Fed.,1984: 643-650) reporta los datos adjuntos sobre concentración de ozono x (ppm) y concen-tración de carbono secundaria y (�g/m3).

x 0.066 0.088 0.120 0.050 0.162 0.186 0.057 0.100

y 4.6 11.6 9.5 6.3 13.8 15.4 2.5 11.8

x 0.112 0.055 0.154 0.074 0.111 0.140 0.071 0.110

y 8.0 7.0 20.6 16.6 9.2 17.9 2.8 13.0

Las cantidades resumidas son n � 16, �xi � 1.656, �yi � 170.6, �x 2i � 0.196912, �xiyi �

20.0397 y �y2i � 2253.56, de donde

r �

� � 0.7162.3826

(0.1597)(20.8456)

20.0397 � (1.656)(170.6)/16�0�.�1�9�6�9�1�2�����(�1�.�6�5�6�)�2�/�1�6��2�2�5�3�.5�6� �� (�1�7�0�.6�)2�/1�6�

Ejemplo 12.16

c12_p446-499.qxd 3/12/08 4:31 AM Page 488

www.FreeLibros.me

Page 44: 12 y correlación Regresión lineal simple - sgpwe.izt.uam.mxsgpwe.izt.uam.mx/files/users/uami/jdf/Devore/cap12.pdf · desarrollar un modelo probabilístico lineal. Si las dos variables

La estimación puntual del coeficiente de correlación de la población # entre la concentra-ción de ozono y la concentración de carbono secundaria es � � r � 0.716. ■

Los intervalos de muestra pequeña y los procedimientos de prueba presentados en loscapítulos 7-9 se basaron en la suposición de normalidad de la población. Para probar las hi-pótesis sobre # se debe hacer una suposición análoga sobre la distribución de los pares devalores (x, y) en la población. Ahora se supone que tanto X como Y son aleatorias, mientrasque una gran parte del trabajo de regresión se realizó con x fija:

12.5 Correlación 489

La distribución normal bivariante es obviamente un tanto complicada, pero para lospropósitos de este libro sólo se debe tener un conocimiento casual de varias de sus pro-piedades. La superficie determinada por f(x, y) se extiende por completo sobre el plano x,y [f(x, y) 0] con apariencia de montículo o campana tridimensional, como se ilustra enla figura 12.21. Si se rebana la superficie con cualquier plano perpendicular al plano x, y,y se examina la curva dibujada en el “plano de corte”, el resultado es una curva normal. Más precisamente, si X � x, se puede demostrar que la distribución (condicional) de Y es normalcon media �Y�x � �2 � ��1�2/�1 � ��2x/�1 y varianza (1 � �2)� 2

2. Éste es exactamente elmodelo utilizado en la regresión lineal simple con �0 � �2 � ��1�2/�1, �1 � ��2/�1

y � 2 � (1 � �2)� 22 independiente de x. La implicación es que si los pares observados

(xi, yi) en realidad se toman de una distribución normal bivariante, entonces el modelo deregresión lineal simple es una forma apropiada de estudiar el comportamiento de Y con xfija. Si # � 0, entonces �Y�x � �2 independiente de x; en realidad, cuando # � 0 la funciónde densidad de probabilidad conjunta f(x, y) de (12.9) puede ser factorizada en una parte quecomprende sólo x una parte que abarca sólo y, lo que implica que X y Y son variables inde-pendientes.

Suponer que los pares se tomaron de una distribución normal bivariante permite probarhipótesis sobre # y construir un intervalo de confianza. No existe una forma completamentesatisfactoria de verificar la factibilidad de la suposición de normalidad bivariante. Una verifi-cación parcial implica construir dos gráficas de probabilidad normales distintas, una para las xi

SUPOSICIÓNLa distribución de probabilidad conjunta de (X, Y) está especificada por

f (x, y) � e�[((x��1)/�1)2�2�(x��1)(y��2)/�1�2�((y��2)/�2)

2]/[2(1��2)]

� � x �

� � y � (12.9)

donde �1 y �1 son la desviación estándar y media de X, y �2 y �2 son la desviaciónestándar y media de Y; f(x, y) se conoce como distribución de probabilidad normalbivariante.

12� � �1�2�1� �� ��2�

f (x, y)

x

y

Figura 12.21 Gráfica de la función de densidad de probabilidad normal bivariante.

c12_p446-499.qxd 3/12/08 4:31 AM Page 489

www.FreeLibros.me

Page 45: 12 y correlación Regresión lineal simple - sgpwe.izt.uam.mxsgpwe.izt.uam.mx/files/users/uami/jdf/Devore/cap12.pdf · desarrollar un modelo probabilístico lineal. Si las dos variables

490 CAPÍTULO 12 Regresión lineal simple y correlación

de muestra y otra para las yi de muestra, puesto que la normalidad bivariante implica que lasdistribuciones marginales tanto de X como de Y son normales. Si cualquiera de las gráficasse aparta sustancialmente de un patrón de línea recta, no se deberán utilizar los siguientesprocedimientos inferenciales cuando el tamaño de muestra n es pequeño.

Los efectos neurotóxicos del manganeso son bien conocidos y normalmente son provoca-dos por la prolongada exposición ocupacional durante largos lapsos de tiempo. En los cam-pos de higiene ocupacional e higiene ambiental, la relación entre la peroxidación de lípidos, lacual es responsable del deterioro de los alimentos y de los daños de tejidos vivos, y la ex-posición ocupacional no ha sido previamente reportada. El artículo “Lipid Peroxidation inWorkers Exposed to Manganese” (Scand. J. Work and Environ. Health, 1996: 381-386) re-portó datos sobre x � concentración de manganeso en sangre (ppb) y y � concentración(�mol/L) de malondialdehído, el cual es el producto estable de la peroxidación de lípidos,tanto para una muestra de 22 trabajadores expuestos a manganeso como para una muestrade control de 45 individuos. El valor de r para la muestra de control fue de 0.29, por lo que

t � � 2.0

El valor P correspondiente para una prueba t de dos colas basada en 43 grados de libertades aproximadamente de 0.052 (el artículo citado reportó sólo que el valor P � 0.05). No sedesearía rechazar la aseveración de que # � 0 al nivel de significación de 0.01 o 0.05. Parala muestra de trabajadores expuestos, r � 0.83 y t � 6.7, existe una clara evidencia de quehay una relación lineal en toda la población de trabajadores expuestos de la cual se selec-cionó la muestra. ■

Como # mide el grado al cual existe una relación lineal entre las dos variables en la población, la hipótesis nula H0; # � 0 manifiesta que no existe tal relación de población.En la sección 12.3 se utilizó la relación t �1/s�1

para probar en cuanto a una relación linealentre las dos variables en el contexto de análisis de regresión. Resulta que los dos proce-dimientos de prueba son completamente equivalentes porque r�n� �� 2�/ �1� �� r�2� � �1/s�1

.Cuando radica sólo en valorar la fuerza de cualquier relación lineal en lugar de ajustarse aun modelo y utilizarlo para estimar o predecir, la fórmula del estadístico de prueba que seacaba de presentar requiere menos cálculos que la relación t.

(0.29)�4�5� �� 2��1�����(�0�.�2�9�)�2�

Ejemplo 12.17

Prueba en cuanto a la ausencia de correlación

Cuando H0: # � 0 es verdadera, el estadístico de prueba

T �

tiene una distribución t con n � 2 grados de libertad.

Hipótesis alternativa Región de rechazo para una prueba a nivel �

Ha: � � 0 t t�,n�2

Ha: � � 0 t � t�,n�2

Ha: � � 0 t t�/2,n�2 o t � t�/2,n�2

Un valor P basado en n � 2 grados de libertad puede ser calculado como previamen-te se describió.

R�n� �� 2��1� �� R�2�

c12_p446-499.qxd 3/12/08 4:31 AM Page 490

www.FreeLibros.me

Page 46: 12 y correlación Regresión lineal simple - sgpwe.izt.uam.mxsgpwe.izt.uam.mx/files/users/uami/jdf/Devore/cap12.pdf · desarrollar un modelo probabilístico lineal. Si las dos variables

Otras inferencias sobre �El procedimiento para H0: # � #0 cuando #0 � 0 no es equivalente a cualquier procedimien-to de análisis de regresión. El estadístico de prueba se basa en una transformación de R lla-mada transformación de Fisher.

12.5 Correlación 491

El artículo “Size Effect in Shear Strength of Large Beams-Behavior and Finite Element Mo-delling” (Mag. of Concrete Res., 2005: 497-509) reportó sobre un estudio de varias caracte-rísticas de grandes vigas de concreto reforzado bajas y profundas probadas hasta la falla.Considere los siguientes datos sobre x � resistencia de cubo y y � resistencia de cilindroen ambos MPa:

x 55.10 44.83 46.32 51.10 49.89 45.20 48.18 46.70 54.31 41.50

y 49.10 31.20 32.80 42.60 42.50 32.70 36.21 40.40 37.42 30.80

x 47.50 52.00 52.25 50.86 51.66 54.77 57.06 57.84 55.22

y 35.34 44.80 41.75 39.35 44.07 43.40 45.30 39.08 41.89

Entonces Sxx � 367.74, Syy � 488.54, Sxy � 322.37, de donde r � 0.761. ¿Proporciona este valor una fuerte evidencia para concluir que las dos medidas de resistencia están por lomenos moderada y positivamente relacionadas?

El estadístico de prueba para probar H0: # � #0 es

Z �

Hipótesis alternativa Región de rechazo para una prueba a nivel �

Ha: � � �0 z z�

Ha: � � �0 z � z�

Ha: � � �0 o z z�/2 o z � z�/2

Se puede calcular un valor P del mismo modo que para pruebas z previas.

V � 1

2 ln[(1 � �0)/(1 � �0)]

1/�n� �� 3�

PROPOSICIÓN Cuando (X1, Y1), . . . , (Xn, Yn) es una muestra de una distribución normal bivariante, lavariable aleatoria

V � 1

2 ln� � (12.10)

tiene aproximadamente una distribución normal con media y varianza

�V � 1

2 ln� � � 2

V �1

n � 3

1 � �1 � �

1 � R1 � R

Ejemplo 12.18

El razonamiento para la transformación es obtener una función de R que tenga una varian-za independiente de #; éste no sería el caso con R misma. Además, no se deberá utilizar latransformación si n es bastante pequeña, puesto que la aproximación no será válida.

c12_p446-499.qxd 3/12/08 4:31 AM Page 491

www.FreeLibros.me

Page 47: 12 y correlación Regresión lineal simple - sgpwe.izt.uam.mxsgpwe.izt.uam.mx/files/users/uami/jdf/Devore/cap12.pdf · desarrollar un modelo probabilístico lineal. Si las dos variables

492 CAPÍTULO 12 Regresión lineal simple y correlación

La interpretación previa de correlación positiva moderada fue 0.5 � # � 0.8, así quese desea probar H0: # � 0.5 contra Ha: # � 0.5. El valor calculado de V es entonces

v � 0.5ln� � � 0.999, y 0.5ln�11�

00

.

.55

� � 0.549

Por consiguiente z � (0.999 � 0.549) �19 � 3�� 1.80. El valor P para una prueba de colasuperior es 0.0359. La hipótesis nula por consiguiente puede ser rechazada a un nivel de sig-nificación de 0.05 pero no al nivel de 0.01. El último resultado en algo más sorprendente ala luz de la magnitud de r, pero cuando n es pequeño, puede resultar un parámetro rrazonablemente grande aun cuando # no sea del todo sustancial. A nivel de significación de0.01, la evidencia de una correlación moderadamente positiva no es convincente. ■

Para obtener un intervalo de confianza para #, primero se deriva un intervalo para�V �

12

ln[(1 � �)/(1 � �)]. Estandarizando V, escribiendo una proposición de probabilidady manipulando las desigualdades resultantes se obtiene

�v � , v � � (12.11)

como intervalo de 100(1 � �)% para �V, donde v � 12

ln[(1 � r)/(1 � r)]. Este intervalopuede entonces ser manipulado para dar un intervalo de confianza para #.

z�/2�n� �� 3�

z�/2�n� �� 3�

1 � 0.7611 � 0.761

El artículo “A Study of a Partial Nutrient Removal System for Wastewater Treatment Plants”(Water Research, 1972: 1389-1397) reporta sobre un método de eliminación de nitrógenoque implica el tratamiento del sobrenadante de un digestor aeróbico. Tanto el nitrógeno to-tal afluente x (mg/L) como el porcentaje de nitrógeno eliminado se registraron durante 20 días, con los siguientes estadísticos resultantes �xi � 285.90, �x 2

i � 4409.55, �yi �690.30, �y 2

i � 29 040.29 y �xiyi � 10 818.56. El coeficiente de correlación muestral entreel nitrógeno afluente y el porcentaje de nitrógeno eliminado es r � 0.733 y se obtiene n � 0.935. Con n � 20, un intervalo de confianza de 95% para �V (0.935 � 1.96/�1�7�, 0.935� 1.96/�1�7�) � (0.460, 1.410) � (c1, c2). El intervalo de 95% para # es

� , � � (0.43, 0.89) ■

En el capítulo 5, se advirtió que un valor grande del coeficiente de correlación (cerca-no a 1 o �1) implica sólo asociación y no causalidad. Esto es válido tanto para # como r.

e2(1.41) � 1e2(1.41) � 1

e2(0.46) � 1e2(0.46) � 1

Ejemplo 12.19

Un intervalo de confianza de 100(1 � �)% para # es

� , �donde c1 y c2 son los puntos extremos izquierdo y derecho, respectivamente, del in-tervalo (12.11).

e2c2 � 1e2c2 � 1

e2c1 � 1e2c1 � 1

EJERCICIOS Sección 12.5 (57-67)

57. El artículo “Behavioural Effects of Mobile Telephone UseDuring Simulated Driving” (Ergonomics, 1995: 2536-2562)reportó que para una muestra de 20 sujetos experimentales,el coeficiente de correlación muestral con x � edad y y �tiempo desde que el sujeto obtuvo una licencia de manejo

(años) fue 0.97. ¿Por qué piensa que el valor de r se aproximatanto a uno? (Los autores del artículo dieron una explicación.)

58. El Turbine Oil Oxidation Test (TOST) y el Rotating BombOxidation Test (RBOT) son dos procedimientos diferentesde evaluar la estabilidad ante la oxidación de aceites para

c12_p446-499.qxd 3/12/08 4:31 AM Page 492

www.FreeLibros.me

Page 48: 12 y correlación Regresión lineal simple - sgpwe.izt.uam.mxsgpwe.izt.uam.mx/files/users/uami/jdf/Devore/cap12.pdf · desarrollar un modelo probabilístico lineal. Si las dos variables

12.5 Correlación 493

TOST 4200 3600 3750 3675 4050 2770RBOT 370 340 375 310 350 200

TOST 4870 4500 3450 2700 3750 3300RBOT 400 375 285 225 345 285

x 46 48 55 57 60 72 81 85 94

y 2.18 2.10 2.13 2.28 2.34 2.53 2.28 2.62 2.63

x 109 121 132 137 148 149 184 185 187

y 2.50 2.66 2.79 2.80 3.01 2.98 3.34 3.49 3.26

turbina de vapor. El artículo “Dependence of Oxidation Sta-bility of Steam Turbine Oil on Base Oil Composition” (J. ofthe Society of Tribologists and Lubrication Engrs., octu-bre de 1997: 19-24) reportó las observaciones adjuntas sobrex � tiempo para realizar TOST (h) y y � tiempo para rea-lizar RBOT (min) con 12 especímenes de aceite.

a. Calcule e interprete el valor del coeficiente de correla-ción muestral (como lo hicieron los autores del artículo).

b. ¿Cómo se vería afectado el valor de r si se hubiera hechox � tiempo para realizar RBOT y y � tiempo para rea-lizar TOST?

c. ¿Cómo se vería afectado el valor de r si el tiempo pararealizar RBOT estuviera expresado en horas?

d. Construya gráficas de probabilidad normal y comente. e. Realice una prueba de hipótesis para decidir si el tiem-

po para realizar RBOT y el tiempo para realizar TOSTestán linealmente relacionados.

59. La tenacidad y fibrosidad de los espárragos son determinan-tes importantes de su calidad. Éste fue el enfoque de un es-tudio reportado en “Post-Harvest Glyphosphate ApplicationReduces Toughening, Fiber Content, and Lignification ofStored Asparagus Spears” (J. of the Amer. Soc. of Horticul-tural Science, 1988: 569-572). El artículo reportó los datosadjuntos (tomados de una gráfica) sobre x � fuerza cortan-te (kg) y y � porcentaje de peso de fibra en seco.

n � 18, �xi � 1950, �x 2i � 251 970,

�yi � 47.92, �y2i � 130.6074, �xiyi � 5530.92

a. Calcule el valor del coeficiente de correlación muestral.Basado en este valor, ¿cómo describiría la naturaleza dela relación entre las dos variables?

b. Si un primer espécimen tiene un valor más grande defuerza cortante que un segundo espécimen, ¿qué tiende aser cierto del porcentaje de peso de fibra en seco para losdos especímenes?

c. Si la fuerza cortante se expresa en libras, ¿qué le pasa alvalor de r? ¿Por qué?

d. Si el modelo de regresión lineal simple fuera ajustado aestos datos, ¿qué proporción de la variación observadaen porcentaje de peso de fibra en seco podría ser expli-cada por la relación de modelo?

e. Realice una prueba a un nivel de significación de 0.01para decidir si existe una asociación lineal positiva entrelas dos variables.

60. El artículo “A Dual-Buffer Titration Method for Lime Re-quirement of Acid Mine-soils” (J. of Environ. Qual., 1988:452-456) reporta sobre los resultados de un estudio en rela-

ción con la reforestación del suelo en sitios de restauraciónde minas. Con x � KCl aluminio extraíble y y � cantidad decal requerida para llevar el pH del suelo a 7.0, los datos queaparecen en el artículo dieron por resultado las siguientescantidades resumidas: n � 24, �x � 48.15, �x2 �155.4685, �y � 263.5, �y2 � 3750.53 y �xy � 658.455.Realice una prueba a un nivel de significación de 0.01 paraver si el coeficiente de correlación de la población es un va-lor diferente de 0.

61. Los autores del artículo “Objective Effects of a Six Months’Endurance and Strength Training Program in Outpatientswith Congestive Heart Failure” (Medicine and Science inSports and Exercise, 1999: 1102-1107) presentó un análisisde correlación para investigar la relación entre el nivel delactato máximo x y la resistencia muscular y. Los datos ad-juntos se tomaron de una gráfica incluida en el artículo.

Sxx � 36.9839, Syy � 2 628 930.357, Sxy � 7377.704. Unagráfica de puntos muestra un patrón lineal. a. Realice una prueba para ver si existe una correlación

positiva entre el nivel de lactato máximo y la resistenciamuscular en la población de la cual se seleccionaron es-tos datos.

b. Si se tuviera que realizar un análisis de regresión para pre-decir resistencia a consecuencia del nivel de lactato, ¿quéproporción de variación observada en la resistencia podríaser atribuida a la relación lineal aproximada? Responda lapregunta análoga si se utiliza regresión para predecir elnivel de lactato a partir de la resistencia, y responda am-bas preguntas sin que realice ningún cálculo de regresión.

62. Se conjetura que el contenido de hidrógeno es un factor im-portante en la porosidad de piezas fundidas de aleación dealuminio. El artículo “The Reduced Pressure Test as a Mea-suring Tool in the Evaluation of Porosity/Hydrogen Contentin A1-7 Wt Pct Si-10 Vol Pct SiC(p) Metal Matrix Compo-site” (Metallurgical Trans., 1993: 1857-1868) da los datosadjuntos sobre x � contenido y y � porosidad al gas parauna técnica de medición particular.

MINITAB da los siguientes resultados en respuesta al co-mando de CORRELATION:

Correlation of Hydrcon and Porosity � 0.449

a. Pruebe a un nivel de 0.05 para ver si el coeficiente de co-rrelación de la población difiere de 0.

b. Si se hubiera realizado un análisis de regresión linealsimple, ¿qué porcentaje de la variación observada en laporosidad podría ser atribuida a la relación de modelo?

x 400 750 770 800 850 1025 1200

y 3.80 4.00 4.90 5.20 4.00 3.50 6.30

x 1250 1300 1400 1475 1480 1505 2200

y 6.88 7.55 4.95 7.80 4.45 6.60 8.90

x 0.18 0.20 0.21 0.21 0.21 0.22 0.23

y 0.46 0.70 0.41 0.45 0.55 0.44 0.24

x 0.23 0.24 0.24 0.25 0.28 0.30 0.37

y 0.47 0.22 0.80 0.88 0.70 0.72 0.75

c12_p446-499.qxd 3/12/08 4:31 AM Page 493

www.FreeLibros.me

Page 49: 12 y correlación Regresión lineal simple - sgpwe.izt.uam.mxsgpwe.izt.uam.mx/files/users/uami/jdf/Devore/cap12.pdf · desarrollar un modelo probabilístico lineal. Si las dos variables

494 CAPÍTULO 12 Regresión lineal simple y correlación

63. Se investigaron las propiedades físicas de seis muestras de tela retardante a las llamas en el artículo “Sensory and Physi-cal Properties of Inherently Flame-Retardant Fabrics” (TextileResearch, 1984: 61-68. Use los datos adjuntos y un nivel designificación de 0.05 para determinar si existe una relación li-neal entre la rigidez x (mg-cm) y espesor y (mm). ¿Es sorpren-dente el resultado de la prueba a la luz del valor de r?

64. El artículo “Increases in Steroid Binding Globulins Inducedby Tamoxifen in Patients with Carcinoma of the Breast” (J. Endocrinology, 1978: 219-226) reporta datos sobre losefectos de la droga tamoxifeno en el cambio del nivel deglobulina afín al cortisol (CBG, por sus siglas en inglés,cortisol-binding globulin) de pacientes durante el tratamien-to. Con la edad � x y �CBG � y, los valores resumidos sonn � 26, �xi � 1613, �(xi � x�)2 � 3756.96, �yi � 281.9,�(yi � y�)2 � 465.34 y �xiyi � 16 731.a. Calcule un intervalo de confianza de 90% para el coefi-

ciente de correlación verdadero #. b. Pruebe H0: # � �0.5 contra Ha: # � �0.5 al nivel de 0.05. c. En un análisis de regresión de y en relación con x, ¿qué

proporción de la variación del cambio del nivel de glo-bulina afín al cortisol podría ser explicado por la varia-ción de la edad del paciente dentro de la muestra?

d. Si decide realizar un análisis de regresión con la edadcomo variable dependiente, ¿qué proporción de la varia-ción de la edad es explicable por la variación del�BCG?

65. El artículo “Chronological Trend in Blood Lead Levels” (N.Engl. J. Med., 1983: 1373-1377) da los siguientes datos so-bre y � promedio del nivel de plomo en la sangre de niñosblancos de seis meses a cinco años y x � cantidad de plo-mo utilizado en la producción de gasolina (en 1000 tonela-das) durante diez periodos de seis meses:

a. Construya gráficas de probabilidad normales distintaspara x y y. ¿Piensa que es razonable suponer que los pa-res (x, y) provienen de una población normal bivariante?

b. ¿Proporcionan los datos suficiente evidencia para con-cluir que existe una relación lineal entre el nivel de plo-mo en la sangre y la cantidad de plomo utilizado en laproducción de gasolina? Use � � 0.01.

66. Considere una serie de tiempo, es decir, una secuencia deobservaciones X1, X2, . . . obtenidas durante el transcursodel tiempo, con valores observados x1, x2, . . . , xn. Supongaque la serie no muestra tendencia hacia arriba o hacia aba-jo durante el transcurso del tiempo. Un investigador con frecuencia deseará saber qué tan fuertemente están relaciona-dos los valores en la serie separados por un número especifi-cado de unidades de tiempo. El coeficiente de autocorrelacionmuestral correspondiente a un retardo r1 es simplemente elvalor del coeficiente de correlación muestral r de los pares(x1, x2), (x2, x3), . . . , (xn�1, xn), es decir, pares de valo-res separados por una unidad de tiempo. Asimismo, el coe-ficiente de autocorrelación muestral correspondiente a dosretardos r2 es r para los n � 2 pares (x1, x3), (x2, x4), . . . ,(xn�2, xn).a. Calcule los valores de r1, r2 y r3 para los datos de tem-

peratura del ejercicio 82 del capítulo 1 y comente. b. Análogo al coeficiente de correlación de la población #,

sean #1, #2, . . . los coeficientes de autocorrelación teóri-cos o de largo plazo con los varios retardos. Si todos es-tos # son 0, no existe relación (lineal) con cualquierretraso. En este caso, si n es grande, cada Ri tiene apro-ximadamente una distribución normal con media 0 y des-viación estándar 1/�n� y los Ri diferentes son casiindependientes. Por consiguiente H0: #i � 0 puede ser re-chazada a un nivel de significación de aproximadamente0.05 si ri 2/�n� o ri � 2/�n�. ¿Si n � 100 y r1 �0.16, r2 � �0.09 y r3 � �0.15, existe alguna evidenciade autocorrelación teórica con los primeros tres retrasos?

c. Si prueba simultáneamente la hipótesis nula del inciso b)con más de un retraso, ¿por qué podría desear incremen-tar la constante de corte 2 en la región de rechazo?

67. Se recopiló una muestra de n � 500 pares (x, y) y se reali-zó una prueba de H0: # � 0 contra Ha: # � 0. El valor Presultante se calculó como 0.00032. a. ¿Qué conclusión sería apropiada a nivel de significación

de 0.001? b. ¿Indica este pequeño valor P que existe una relación

muy fuerte entre x y y (un valor de # que difiera consi-derablemente de 0)? Explique.

c. Suponga ahora que una muestra de n � 10 000 pares(x, y) dio por resultado r � 0.022. Pruebe H0: # � 0 con-tra Ha: # � 0 a un nivel de 0.05. ¿Es el resultado estadís-ticamente significativo? Comente sobre la significaciónpráctica de su análisis.

x 7.98 24.52 12.47 6.92 24.11 35.71

y 0.28 0.65 0.32 0.27 0.81 0.57

x 48 59 79 80 95

y 9.3 11.0 12.8 14.1 13.6

x 95 97 102 102 107

y 13.8 14.6 14.6 16.0 18.2

68. El avalúo de un almacén puede parecer sencillo en compa-ración con otras asignaciones de avalúo. El avalúo de un almacén implica comparar una edificación que es principal-mente un armazón abierto con otros edificios semejantes.Sin embargo, sigue habiendo varios atributos de un almacénque están posiblemente relacionados con el valor apreciado.

El artículo “Challenges In Appraising ‘Simple’ WarehouseProperties” (Donald Sonneman, The Appraisal Journal,abril de 2001, 174-178) dio los datos adjuntos sobre la altu-ra del armazón (pies), el cual determina qué tan alto puedenser apilados los productos almacenados y el precio de venta($) por pie cuadrado.

EJERCICIOS SUPLEMENTARIOS (68-87)

c12_p446-499.qxd 3/12/08 4:31 AM Page 494

www.FreeLibros.me

Page 50: 12 y correlación Regresión lineal simple - sgpwe.izt.uam.mxsgpwe.izt.uam.mx/files/users/uami/jdf/Devore/cap12.pdf · desarrollar un modelo probabilístico lineal. Si las dos variables

Ejercicios suplementarios 495

a. ¿Es el caso que la altura del armazón y el precio de ventaestán “determinísticamente” relacionados, es decir, que elprecio de venta está determinado por completo y única-mente por la altura del armazón? [Sugerencia: Examinelos datos.]

b. Construya una gráfica de puntos de los datos. ¿Qué su-gieren?

c. Determine la ecuación de la línea de mínimos cuadrados. d. Dé una predicción puntual del precio cuando la altura

del armazón es de 27 pies y calcule el residuo corres-pondiente.

e. ¿Qué porcentaje de la variación observada del precio deventa puede ser atribuido a la relación lineal aproxima-da entre la altura del armazón y el precio?

69. Remítase al ejercicio previo, el cual dio datos sobre alturasde armazones para una muestra de almacenes y los precios deventa correspondientes. a. Estime el cambio promedio verdadero del precio de ven-

ta asociado con un pie de incremento de la altura del ar-mazón y hágalo de modo que dé información sobre laprecisión de la estimación.

b. Estime el precio de venta verdadero de todos los almace-nes cuya altura de armazón es de 25 pies y hágalo de mo-do que dé información sobre la precisión de la estimación.

c. Pronostique el precio de venta de un solo almacén cuyaaltura de armazón es de 25 pies y hágalo de modo quedé información sobre la precisión de la predicción. ¿Có-mo se compara esta predicción con la estimación de b)?

d. Sin calcular ningún intervalo, ¿cómo se compararía elancho de un intervalo de predicción de 95% con el pre-cio de venta cuando la altura del armazón es de 25 piescon el ancho de un intervalo de 95% cuando la altura es de30 pies? Explique su razonamiento.

e. Calcule e interprete el coeficiente de correlación muestral. 70. Con frecuencia, a los científicos forenses les interesa reali-

zar alguna clase de medición en un cuerpo (vivo o muerto)y luego utilizarla como base para inferir algo sobre la edaddel cuerpo. Considere los datos adjuntos sobre edad (años) y% de ácido aspértico D (de aquí en adelante %DAA) de unapieza dental particular (“An Improved Method for Age atDeath Determination from the Measurements of D-AsperticAcid in Dental Collagen”, Archaeometry, 1990: 61-70.)

Suponga que una pieza dental de otro individuo tiene2.01%DAA. ¿Podría ser que el individuo tenga menos de22 años? Esta pregunta era pertinente para considerar si elindividuo podía o no ser sentenciado a cadena perpetua porhomicidio.

Una estrategia aparentemente sensible es retroceder laedad en %DAA y entonces calcular un intervalo de predic-ción para la edad cuando %DAA � 2.01. No obstante, esmás natural en este caso considerar la edad como la varia-ble independiente x y el %DDA como la variable depen-

diente y, así que el modelo de regresión es %DAA � �0 � �1x� �. Después de estimar los coeficientes de regresión, se pue-de sustituir y* � 2.01 en la ecuación estimada y luego resol-verla para una predicción de edad x. Este uso “inverso” dela línea de regresión se llama “calibración”. Un intervalo de predicción para edad con nivel de predicción aproxima-damente de 100(1 � �)% es x ! t�(2,n�2 � SE donde

SE � �1 � � Calcule este intervalo de predicción para y* � 2.01 y luegoaborde la pregunta previamente planteada.

71. Los datos adjuntos sobre x � tasa de consumo de diesel me-dida por el método pesaje de drenaje y y � tasa medida porel método de trazado de intervalo de confianza, ambos eng/h, se tomaron de una gráfica incluida en el artículo “ANew Measurement Method of Diesel Engine Oil Consump-tion Rate” (J. Society Auto Engr., 1985: 28-33).

a. Suponiendo que x y y están relacionadas por el modelode regresión lineal simple, realice una prueba para deci-dir si es factible que en promedio el cambio de la tasamedida por el método de trazado de intervalo de con-fianza sea idéntico al cambio de la tasa medido median-te el método de pesaje de drenaje.

b. Calcule e interprete el valor del coeficiente de correla-ción muestral.

72. Los resultados SAS que aparecen en la siguiente página es-tán basados en datos tomados del artículo “Evidence forand the Rate of Denitrification in the Arabian Sea” (DeepSea Research, 1978: 431-435). Las variables estudiadas sonx � nivel de salinidad (%) y y � nivel de nitrato (�M/L).a. ¿Cuál es el tamaño de muestra n? [Sugerencia: Busque

los grados de libertad para SCE.]b. Calcule una estimación puntual del nivel de nitrato espe-

rado cuando el nivel de salinidad es de 35.5. c. ¿Parece haber una relación lineal útil entre las dos variables? d. ¿Cuál es el valor del coeficiente de correlación muestral? e. ¿Utilizaría el modelo de regresión lineal simple para

sacar conclusiones cuando el nivel de salinidad es de 40? 73. La presencia de carburos de aleación duros en aleaciones de

hierro blanco al alto cromo produce una excelente resisten-cia a la abrasión, lo que las hace apropiadas para el manejode materiales en las industrias mineras y de procesamiento demateriales. Los datos adjuntos sobre x � contenido de auste-nita retenido (%) y y � pérdida por desgaste abrasivo (mm3)en prueba de desgaste de alfileres con granate como el abra-sivo se tomaron de una gráfica que aparece en el artículo“Microstructure-Property Relationships in High ChromiumWhite Iron Alloys” (Intl. Materials Reviews, 1996: 59-82).

(x � x�)2

Sxx

1n

s�1

x 4.6 17.0 17.4 18.0 18.5 22.4 26.5 30.0 34.0

y 0.66 0.92 1.45 1.03 0.70 0.73 1.20 0.80 0.91

x 38.8 48.2 63.5 65.8 73.9 77.2 79.8 84.0

y 1.19 1.15 1.12 1.37 1.45 1.50 1.36 1.29

x 4 5 8 11 12 16 17 20 22 28 30 31 39

y 5 7 10 10 14 15 13 25 20 24 31 28 39

Altura: 12 14 14 15 15 16 18 22 22 24Precio: 35.53 37.82 36.90 40.00 38.00 37.50 41.00 48.50 47.00 47.50

Altura del armazón: 24 26 26 27 28 30 30 33 36Precio de venta: 46.20 50.35 49.13 48.07 50.90 54.78 54.32 57.17 57.45

Edad: 9 10 11 12 13 14 33 39 52 65 69%DAA: 1.13 1.10 1.11 1.10 1.24 1.31 2.25 2.54 2.93 3.40 4.55

1/2

c12_p446-499.qxd 3/12/08 4:31 AM Page 495

www.FreeLibros.me

Page 51: 12 y correlación Regresión lineal simple - sgpwe.izt.uam.mxsgpwe.izt.uam.mx/files/users/uami/jdf/Devore/cap12.pdf · desarrollar un modelo probabilístico lineal. Si las dos variables

496 CAPÍTULO 12 Regresión lineal simple y correlación

Use los datos y los resultados obtenidos con SAS propor-cionados a continuación para responder las siguientes pre-guntas. a. ¿Qué proporción de la variación observada de pérdida

por desgaste puede ser atribuida a la relación de modelode regresión lineal simple?

b. ¿Cuál es el valor del coeficiente de correlación muestral? c. Pruebe la utilidad del modelo de regresión lineal simple

con � � 0.01. d. Estime la pérdida por desgaste promedio verdadera

cuando el contenido es de 50% y hágalo de modo que déinformación sobre confiabilidad y precisión.

e. ¿Qué valor de pérdida por desgaste predeciría cuando elcontenido es de 30% y cuál es valor del residuo corres-pondiente?

74. Los datos adjuntos se leyeron en una gráfica de puntos delartículo “Urban Emissions Measured with Aircraft” (J. ofthe Air and Waste Mgmt. Assoc., 1998: 16-25). La variablede respuesta es �NOy y la variable explicativa es �CO.

a. Adapte un modelo apropiado a los datos y juzgue la uti-lidad del modelo.

b. Pronostique el valor de �NOy que se obtendría al reali-zar una observación más cuando �CO es 400 y hágalode modo que dé información sobre precisión y confiabi-lidad. ¿Parece que el �NOy puede ser pronosticado conprecisión? Explique.

Resultados obtenidos con SAS para el ejercicio 72

Dependent Variable: NITRLVL

Analysis of Variance

Source DF Sum of Squares Mean Square SS ResidF Value Prob � F

Model 1 64.49622 64.49622 63.309 0.0002Error 6 6.11253 1.01875C Total 7 70.60875

Root MSE 1.00933 R-square 0.9134Dep Mean 26.91250 Adj R-sq 0.8990C.V. 3.75043

Parameter Estimates

Parameter Standard T for HO:Variable DF Estimate Error Parameter � 0 Prob � :T:

INTERCEP 1 326.976038 37.71380243 8.670 0.0001SALINITY 1 � 8.403964 1.05621381 � 7.957 0.0002

CO 50 60 95 108 135NOy 2.3 4.5 4.0 3.7 8.2

CO 210 214 315 720NOy 5.4 7.2 13.8 32.1

Resultados obtenidos con SAS para el ejercicio 73

Dependent Variable: ABRLOSSAnalysis of Variance

Source DF Sum of Squares Mean Square F Value Prob � F

Model 1 0.63690 0.63690 15.444 0.0013Error 15 0.61860 0.04124

C Total 16 1.25551

Root MSE 0.20308 R-square 0.5073Dep Mean 1.10765 Adj R-sq 0.4744C.V. 18.33410

Parameter Estimates

Parameter Standard T for H0:Variable DF Estimate Error Parameter � 0 Prob � T

INTERCEP 1 0.787218 0.09525879 8.264 0.0001AUSTCONT 1 0.007570 0.00192626 3.930 0.0013

c12_p446-499.qxd 3/12/08 4:31 AM Page 496

www.FreeLibros.me

Page 52: 12 y correlación Regresión lineal simple - sgpwe.izt.uam.mxsgpwe.izt.uam.mx/files/users/uami/jdf/Devore/cap12.pdf · desarrollar un modelo probabilístico lineal. Si las dos variables

c. El valor más grande de �CO es mucho más grande quelos demás valores. ¿Ha tenido esta observación un im-pacto sustancial en la ecuación adaptada?

75. Se estudió la relación entre la velocidad (pies/s) y la caden-cia al correr (número de pasos/s) entre corredoras de mara-tón. Las cantidades resumidas resultantes fueron n � 11,�(velocidad) � 205.4, �(velocidad)2 � 3880.08, �(caden-cia) � 35.16, �(cadencia)2 � 112.681 y �(velocidad/ca-dencia) � 660.130. a. Calcule la ecuación de la recta de mínimos cuadrados

que utilizaría para predecir la cadencia a partir de la ve-locidad.

b. Calcule la ecuación de la recta de mínimos cuadradosque utilizaría para predecir la velocidad a partir de la ca-dencia.

c. Calcule el coeficiente de determinación para la regre-sión de la cadencia basada en la velocidad del inciso a)y para la regresión de la velocidad basada en la cadenciadel inciso b). ¿Cómo están relacionadas?

76. “Mezclabilidad de modos” se refiere a cuánto de la propaga-ción de grietas es atribuible a los tres modos de fractura con-vencionales de abertura, deslizamiento o desgarro. Paraproblemas de aviones, sólo los dos primeros modos estánpresentes y el ángulo de mezclabilidad de modos mide elgrado al cual la propagación se debe a deslizamiento en opo-sición a abertura. El artículo “Increasing Allowable FlightLoads by Improved Structural Modeling” (AIAA J., 2006:376-381) dio los siguientes datos sobre x � ángulo de mez-clabilidad de modos (grados) y y � tenacidad a la fractura(N/m) de paneles utilizados en la construcción de aviones.

a. Obtenga la ecuación de la recta de regresión estimada ydiscuta el grado al cual el modelo de regresión linealsimple es una forma razonable de relacionar la tenacidada la fractura con el ángulo de mezclabilidad de modos.

b. ¿Sugieren los datos que el cambio promedio de la tena-cidad a la fractura asociado con un incremento de ungrado del ángulo de mezclabilidad de modos excede de50 N/m? Realice una prueba apropiada de hipótesis.

c. Para propósitos de estimación con precisión de la pen-diente de la recta de regresión de la población, ¿hubierasido preferible realizar observaciones a los ángulos 16,16, 18, 18, 20, 20, 20, 20, 22, 22, 22, 22, 24, 24, 26 y 26(de nuevo un tamaño de muestra de 16)? Explique su ra-zonamiento.

d. Calcule una estimación de tenacidad a la fractura pro-medio verdadera y también una predicción de tenacidada la fractura tanto para un ángulo de 18 grados como paraun ángulo de 22 grados y hágalo de modo que dé infor-mación sobre confiabilidad y precisión y luego interpre-te y compare las estimaciones y predicciones.

77. El artículo “Photocharge Effects in Dye Sensitized Ag[Br,I]Emulsions at Millisecond Range Exposures” (PhotographicSci. and Engr., 1981: 138-144) da los datos adjuntos sobre

x � % de absorción de luz a 5800 A y y � fotovoltaje máximo.

a. Construya una gráfica de puntos de estos datos. ¿Quésugieren?

b. Suponiendo que el modelo de regresión lineal simple esapropiado, obtenga la ecuación de la recta de regresiónestimada.

c. ¿Qué proporción de la variación observada del fotovoltajemáximo puede ser explicado por la relación de modelo?

d. Pronostique el fotovoltaje máximo cuando el % de ab-sorción es de 19.1 y calcule el valor del residuo corres-pondiente.

e. Los autores del artículo manifiestan que existe una rela-ción lineal útil entre el % de absorción y el fotovoltajemáximo. ¿Está de acuerdo? Realice una prueba formal.

f. Dé una estimación del cambio del fotovoltaje máximoesperado asociado con un incremento de 1% de la absor-ción de luz. Su estimación deberá informar sobre la pre-cisión de la estimación.

g. Repita el inciso f) del valor esperado del fotovoltaje máximo cuando el % de absorción de luz es de 20.

78. En la sección 12.4, se presentó una fórmula para V( �0 � �1x*)y un intervalo de confianza para �0 � �1x*. Considerandox* � 0 se obtiene �2

�0y un intervalo de confianza para �0.

Use los datos del ejemplo 12.11 para calcular la desviaciónestándar estimada de �0 y un intervalo de confianza de 95%para la intersección y de la línea de regresión verdadera.

79. Demuestre que SCE � Syy � ˆ�1Sxy, la cual da una fórmulaalternativa para SCE.

80. Suponga que x y y son variables positivas y que una mues-tra de n pares da r � 1. Si el coeficiente de correlaciónmuestral se calcula para los pares (x, y2), ¿será el valor re-sultante también aproximadamente 1? Explique.

81. Sean sx y sy las desviaciones estándar muestrales de las x y yobservadas, respectivamente [así que s 2

x � �(xi � x�)2/(n � 1) y asimismo para s 2

y ].a. Demuestre que una expresión alternativa para la línea de

regresión estimada y � �0 � �1x es

y � y� � r � (x � x�)

b. Esta expresión para la línea de regresión puede ser inter-pretada como sigue. Suponga r � 0.5. ¿Cuál es entoncesla y pronosticada con una x situada a una desviación es-tándar (sx unidades) sobre la media de las xi? Si r fuerauna, la predicción sería para que y quede a una desvia-ción estándar sobre su media y�, pero como r � 0.5, sepronostica una y que está a sólo 0.5 desviaciones están-dar (0.5sy unidad) sobre y�. Con los datos del ejercicio 64 para un paciente cuya edad está a una desviación estándarpor debajo de la edad promedio en la muestra, ¿a cuántasdesviaciones estándar se pronostica que esté el �CBG

sysx

Ejercicios suplementarios 497

x 16.52 17.53 18.05 18.50 22.39 23.89 25.50 24.89

y 609.4 443.1 577.9 628.7 565.7 711.0 863.4 956.2

x 23.48 24.98 25.55 25.90 22.65 23.69 24.15 24.54

y 679.5 707.5 767.1 817.8 702.3 903.7 964.9 1047.3

x 4.0 8.7 12.7 19.1 21.4

y 0.12 0.28 0.55 0.68 0.85

x 24.6 28.9 29.8 30.5

y 1.02 1.15 1.34 1.29

c12_p446-499.qxd 3/12/08 4:31 AM Page 497

www.FreeLibros.me

Page 53: 12 y correlación Regresión lineal simple - sgpwe.izt.uam.mxsgpwe.izt.uam.mx/files/users/uami/jdf/Devore/cap12.pdf · desarrollar un modelo probabilístico lineal. Si las dos variables

498 CAPÍTULO 12 Regresión lineal simple y correlación

pronosticado del paciente por encima o por debajo del�CBG promedio para la muestra?

82. Verifique que el estadístico t de prueba para probar H0: �1 � 0 en la sección 12.3 es idéntico al estadístico t en lasección 12.5 para probar H0: # � 0.

83. Use la fórmula para calcular SCE para comprobar que r2 �1 � SCE/STC.

84. En la biofiltración de aguas residuales, se hace que el airedescargado por una planta de tratamiento pase a través de unamembrana porosa húmeda que disuelve los contaminantes enel agua y los transforma en productos inocuos. Los datos ad-juntos sobre x � temperatura de entrada (°C) y y � eficien-cia de eliminación (%) fueron la base para una gráfica depuntos que apareció en el artículo “Treatment of Mixed Hydrogen Sulfide and Organic Vapors in a Rock MediumBiofilter” (Water Environment Research, 2001: 426-435).

Las cantidades calculadas son �xi � 384.26, �yi �3149.04, �x 2

i � 5099.2412, �xiyi � 37 850.7762 y �y 2i �

309 892.6548.a. Sugieren una gráfica de puntos de los datos la pertinen-

cia del modelo de regresión lineal simple? b. Ajuste el modelo de regresión lineal simple, obtenga una

predicción puntual de la eficiencia de eliminación cuan-do la temperatura � 10.50 y calcule el valor del residuocorrespondiente.

c. Aproximadamente, ¿cuál es el tamaño de una desvia-ción típica de puntos en la gráfica con respecto a la líneade mínimos cuadrados?

d. ¿Qué proporción de la variación observada de la eficien-cia de eliminación puede ser atribuida a la relación demodelo?

e. Estime el coeficiente de pendiente de modo que informesobre confiabilidad y precisión e interprete su estima-ción.

f. Comunicación personal con los autores del artículo re-veló que no hubo ninguna observación adicional que noestuvo incluida en su gráfica de puntos: (6.53, 96.55).

¿Qué impacto tiene esta observación adicional en laecuación de la línea de mínimos cuadrados y los valoresde s y r2?

85. Los procesos normales de incubación en acuacultura inevi-tablemente producen tensión en los peces, la cual puede im-pactar negativamente el crecimiento, reproducción y calidadde la carne y susceptibilidad a enfermedades. Tal tensión se pone de manifiesto en los elevados y sostenidos niveles de corticosteroides. El artículo “Evaluation of Simple Ins-truments for the Measurement of Blood Glucosa and Lactate and Plasma Protein as Stress Indicators in Fish” (J. of the World Aquaculture Society, 1999: 276-284) descri-bió un experimento en el cual los peces se sometieron a unprotocolo de tensión y luego se suspendió y se sometieron aprueba en varias ocasiones después de que se aplicó el pro-tocolo. Los datos adjuntos sobre x � tiempo (min) y y � ni-vel de glucosa en sangre (mmol/L) se leyeron en la gráfica.

Use los métodos desarrollados en este capítulo para analizarlos datos y escriba un breve reporte que resuma sus conclu-siones (suponga que los investigadores están particularmen-te interesados en el nivel de glucosa 30 min después de latensión).

86. El artículo “Evaluating the BOD POD for Assessing BodyFat in Collegiate Football Players” (Medicine and Sciencein Sports and Exercise, 1999: 1350-1356) reporta sobre unnuevo dispositivo de desplazamiento de aire para medir lagrasa corporal. El procedimiento acostumbrado utiliza dis-positivo hidrostático de pesar, el cual mide el porcentaje demasa corporal por medio del desplazamiento del agua. Lossiguientes son datos representativos tomados de una gráficaque aparece en el artículo.

a. Use varios métodos para decidir si es posible que las dostécnicas midan o promedien la misma cantidad de grasa.

b. Use los datos para desarrollar una forma de predecir unpeso hidróstatico a partir de una medición BOD POD einvestigue la efectividad de tales predicciones.

87. Reconsidere la situación del ejercicio 73, en el cual x �contenido de austenita retenida utilizando un abrasivo degranate y y � pérdida por desgaste abrasivo se relacionaronvía el modelo de regresión lineal simple Y � �0 � �1x � �.Suponga que con un segundo tipo de abrasivo, estas varia-bles también están relacionadas vía el modelo de regresiónlineal simple Y � 0 � 1x �� y que V(') � � 2 para am-bos tipos de abrasivo. Si el conjunto de datos se compone

% de elimi- % de elimi-Obs Temp nación Obs Temp nación

1 7.68 98.09 17 8.55 98.272 6.51 98.25 18 7.57 98.003 6.43 97.82 19 6.94 98.094 5.48 97.82 20 8.32 98.255 6.57 97.82 21 10.50 98.416 10.22 97.93 22 16.02 98.517 15.69 98.38 23 17.83 98.718 16.77 98.89 24 17.03 98.799 17.13 98.96 25 16.18 98.87

10 17.63 98.90 26 16.26 98.7611 16.72 98.68 27 14.44 98.5812 15.45 98.69 28 12.78 98.7313 12.06 98.51 29 12.25 98.4514 11.44 98.09 30 11.69 98.3715 10.17 98.25 31 11.34 98.3616 9.64 98.36 32 10.97 98.45

x 2 2 5 7 12 13 17 18 23 24 26 28

y 4.0 3.6 3.7 4.0 3.8 4.0 5.1 3.9 4.4 4.3 4.3 4.4

x 29 30 34 36 40 41 44 56 56 57 60 60

y 5.8 4.3 5.5 5.6 5.1 5.7 6.1 5.1 5.9 6.8 4.9 5.7

BOD 2.5 4.0 4.1 6.2 7.1 7.0 8.3 9.2 9.3 12.0 12.2

HW 8.0 6.2 9.2 6.4 8.6 12.2 7.2 12.0 14.9 12.1 15.3

BOD 12.6 14.2 14.4 15.1 15.2 16.3 17.1 17.9 17.9

HW 14.8 14.3 16.3 17.9 19.5 17.5 14.3 18.3 16.2

c12_p446-499.qxd 3/12/08 4:31 AM Page 498

www.FreeLibros.me

Page 54: 12 y correlación Regresión lineal simple - sgpwe.izt.uam.mxsgpwe.izt.uam.mx/files/users/uami/jdf/Devore/cap12.pdf · desarrollar un modelo probabilístico lineal. Si las dos variables

Bibliografía 499

de n1 observaciones del primer abrasivo y n2 del segundo y si SCE1 y SCE2 denotan las dos sumas de cuadrados de-bido al error, entonces una estimación agrupada de �2 es� 2 � (SCE1 � SCE2)/(n1 � n2 � 4). Sean SCx1 y SCx2

�(xi � x�)2 con los datos del primero y segundo abrasivos,respectivamente. Una prueba de H0: �1 � 1 � 0 (pendien-tes iguales) está basada en el estadístico

T �

Cuando H0 es verdadera, T tiene una distribución t conn1 � n2 � 4 gl. Suponga 15 observaciones usando la elas-ticidad abrasiva alternativa dada por SCx2 � 7152.5578, 1

� 0.006845, y SCE2 � 0.51350. Usando esto junto con losdatos del ejercicio 73, realice una pueba en el nivel 0.05para ver si el cambio previsto por pérdida en el desgasteasociado a 1% de incremento en el contenido de austeritaes idéntico para los dos tipos de abrasivo.�1 � 1

��S�C

1�x1

� �� S�C

1�x2

Draper, Norman y Harry Smith, Applied Regression Analysis(3a. ed.). Wiley, Nueva York, 1999. El libro más completo yautorizado sobre análisis de regresión actualmente en proce-so de impresión.

Neter, John, Michael Kutner, Christopher Nachsheim y WilliamWasserman, Applied Linear Statistical Models (4a. ed.). Irwin,Homewood, IL., 1996. Los primeros 15 capítulos constituyenun estudio extremadamente fácil de leer e informativo de aná-lisis de regresión.

Bibliografía

c12_p446-499.qxd 3/12/08 4:31 AM Page 499

www.FreeLibros.me