16
Análisis de Regresión Lineal Introducción El objetivo de este capítulo es introducir el análisis simultáneo de dos variables y adquirir criterios para el uso de las técnicas de regresión y correlación. Hasta el capítulo anterior se han introducido métodos estadísticos que se pueden utilizar cuando el interés es analizar el comportamiento de una sola variable, eventualmente, bajo distintas condiciones. Por ejemplo, el rendimiento o la altura de las plantas de un cultivo con o sin riego. Pero frecuentemente se presentan situaciones donde se observan dos o más variables sobre cada unidad experimental y el interés se centra en la forma en que estas variables se relacionan. Algunos ejemplos de relaciones funcionales que pueden ser de interés en agronomía son: la relación entre el rendimiento de un cultivo y la densidad de siembra, la relación entre la cantidad de suplemento dado y el aumento de peso que éste produce en un lote de animales, las dosis de un insecticida y la mortalidad de los insectos tratados, etc. En cada uno de estos casos se pueden plantear los siguientes interrogantes: ¿Existe alguna relación entre las variables? Si se conoce el comportamiento de una de ellas, ¿se puede predecir el comportamiento de la otra?

Teoría Análisis de Regresión Lineal

Embed Size (px)

Citation preview

Anlisis de Regresin Lineal

Anlisis de Regresin Lineal

Introduccin

El objetivo de este captulo es introducir el anlisis simultneo de dos variables y adquirir criterios para el uso de las tcnicas de regresin y correlacin.

Hasta el captulo anterior se han introducido mtodos estadsticos que se pueden utilizar cuando el inters es analizar el comportamiento de una sola variable, eventualmente, bajo distintas condiciones. Por ejemplo, el rendimiento o la altura de las plantas de un cultivo con o sin riego. Pero frecuentemente se presentan situaciones donde se observan dos o ms variables sobre cada unidad experimental y el inters se centra en la forma en que estas variables se relacionan.

Algunos ejemplos de relaciones funcionales que pueden ser de inters en agronoma son: la relacin entre el rendimiento de un cultivo y la densidad de siembra, la relacin entre la cantidad de suplemento dado y el aumento de peso que ste produce en un lote de animales, las dosis de un insecticida y la mortalidad de los insectos tratados, etc. En cada uno de estos casos se pueden plantear los siguientes interrogantes:

Existe alguna relacin entre las variables?

Si se conoce el comportamiento de una de ellas, se puede predecir el comportamiento de la otra?

La estadstica aplicada ofrece dos herramientas que permiten dar respuesta a dichas cuestiones: el Anlisis de Regresin y el Anlisis de Correlacin.

El Anlisis de Regresin estudia la relacin funcional que existe entre dos o ms variables. Identifica el modelo o funcin que liga a las variables, estima sus parmetros y, eventualmente, prueba hiptesis acerca de ellos. Una vez estimado el modelo es posible predecir el valor de la variable denominada variable dependiente en funcin de la o las otras variable/s independiente/s y dar una medida de la precisin con que esa estimacin se ha hecho.

Dependiendo del objetivo del estudio, los valores o niveles de la/s variable/s independiente/s pueden ser arbitrariamente modificados por el experimentador, es decir el investigador puede fijar los niveles de la variable independiente para los cuales desea estudiar la respuesta de la variable dependiente. El modelo hallado puede ser usado para predecir el comportamiento de la variable dependiente para otros niveles de la variable independiente, que pertenezcan al dominio del estudio.El Anlisis de Correlacin lineal estudia el grado y sentido de la asociacin lineal que hay entre un conjunto de variables y, a diferencia del anlisis de regresin, no se identifica ni se estima explcitamente un modelo funcional para las variables, este siempre se supone lineal. El inters principal es medir la asociacin entre dos variables aleatorias cualesquiera, sin necesidad de distinguir variables dependientes e independientes. Por ejemplo, puede quererse evaluar la intensidad de la asociacin entre la cantidad de espiguillas por espiga de trigo y la longitud de las espigas. Se ha establecido que cuanto mayor es la longitud de las espigas mayor es el nmero de espiguillas por espiga. Obsrvese que, en el ejemplo, no se habla de relacin funcional, ni tampoco se insina que la longitud de la espiga aumenta porque aumenta el nmero de espiguillas o viceversa, slo se enfatiza la forma en que se comporta una variable en relacin a la otra y el inters est centrado en medir la intensidad de esta asociacin.

En el anlisis de correlacin, ninguna de las variables puede ser fijada por el experimentador, ya que ste podra seleccionar niveles de las variables que no son frecuentes y esto podra conducir a una estimacin errada del grado de correlacin.

Los grficos de dispersin son tiles en la etapa exploratoria, tanto en el anlisis de regresin como en el de correlacin. La representacin grfica de los datos es frecuentemente el punto de partida de cualquier anlisis que involucra ms de una variable. En los grficos de dispersin lo que se ve es una nube de puntos, donde cada punto representa una observacin. La Figuras siguientes muestran los grficos de dispersin usados en estudios de asociacin entre dos variables donde adems se ha dibujado sobre la nube de puntos, la posible funcin de ajuste de esos datos, es decir, se ha identificado el modelo funcional de la relacin.

Anlisis de regresin lineal

Al estudiar la relacin entre dos o ms variables surge la idea de encontrar una expresin matemtica que la describa. Para el caso de dos variables, si se denota como Y a la variable que se supone dependiente y como X a la variable que se postula como independiente, resulta familiar utilizar el concepto de funcin y decir Y es funcin de X, para indicar que de acuerdo a los valores asignados a X se pueden predecir los valores que tomar Y. Dicho de otra manera, se puede conocer el comportamiento de Y a travs de un modelo que relaciona la variacin en Y con la variacin de X.El anlisis de regresin tiene por objetivo identificar un modelo funcional que describa cmo vara la esperanza de la variable dependiente, E(Y), frente a cambios en X. Al igual que en el anlisis de varianza el modelo para Y tambin presenta constantes desconocidas que se llaman parmetros, por lo que otro objetivo del anlisis es la estimacin de los parmetros a partir de una muestra aleatoria de observaciones en Y y en X. El anlisis de regresin se ocupa tambin de la validacin del modelo propuesto y de las pruebas de hiptesis sobre los parmetros del modelo; por ltimo, la modelacin por regresin tambin tiene como objetivo la prediccin, es decir el uso del modelo para dar el valor esperado de Y cuando X toma un valor particular.La complejidad matemtica del modelo de regresin y la adecuacin de ste depender de cunto se conoce acerca del proceso o fenmeno que se est estudiando.

En la prctica es posible adoptar modelos de regresin que se pueden agrupar o clasificar en lineales y no lineales. Los primeros hacen referencia a aquellos modelos en que la funcin adopta la forma de una suma de trminos, cada uno conformado por el producto de un parmetro y una variable independiente. Los modelos no lineales son aquellos donde los parmetros no se encuentran multiplicando a las variables independientes como en el modelo lineal de tal forma que no pueden ser estimados resolviendo un sistema de ecuaciones lineales. Por ejemplo, los parmetros pueden encontrarse como exponentes de las variables independientes. El modelo de regresin lineal ms sencillo es el que se presenta en la siguiente definicin:Se llama modelo de regresin lineal simple a:

Donde:

: Observacin de la variable dependiente bajo el i-simo nivel de X, i = 1,..., K en la j-sima unidad experimental, j = 1,..., m

: i-simo valor de la variable independiente, i = 1,..., K

: Parmetro que representa la ordenada al origen de la recta (indica valor esperado de

Y cuando X=0)

: Parmetro que representa la pendiente de la recta (tasa de cambio en Y frente al cambio unitario en X).

: Variacin aleatoria (o no explicada por el modelo) asociada a la j-sima observacin de Y bajo el nivel .

Los se suponen normales e independientemente distribuidos con esperanza 0 y varianza constante para todo X en un intervalo donde el modelo se supone verdadero. Esto es ~ N I D ( 0, ).Qu se puede decir de la esperanza de Y?, es decir cul es el valor esperado de Y para un determinado valor de X? Tomando esperanza de se tiene, por propiedades de la funcin esperanza que:

E (/X = ) = = +

Donde: representa la E () dado un valor de , es decir la esperanza de la distribucin de Y correspondiente a un valor particular de X.

y representan los parmetros del modelo y debe observarse que, dados y la esperanza de Y depende solo de X.Cuando el investigador trata con problemas de dos variables que estn ligadas por una relacin funcional lineal, difcilmente los pares de observaciones (X,Y) coincidan exactamente con una recta. La presencia de errores aleatorios en las observaciones hace imposible que en la prctica se encuentre una relacin funcional perfecta entre las variables.Ejemplo 9.1

Suponga que se quiere estudiar la distribucin de los pesos de una poblacin de plantas en relacin a sus alturas. Para cualquier altura elegida, por ejemplo X=50 cm., existe una distribucin de pesos, es decir, la distribucin de los pesos de todas las plantas de la especie que poseen esa altura. Esa distribucin, llamada distribucin condicional de Y dada X (Y|X=50), tiene como esperanza a = peso medio de todas las plantas que tienen altura 50 cm. y una varianza = varianza de los pesos de todas las plantas que tienen dicha altura.

As, se dice que la regresin del peso sobre la altura representa la esperanza de la distribucin de los pesos segn la altura. Obsrvese la siguiente figura.

Cmo se interpretan los parmetros del modelo de regresin lineal simple?

La ecuacin de cualquier recta puede ser escrita como = + donde es la ordenada al origen e indica el valor de y para x = 0 y es la pendiente e indica cunto cambia y por cada incremento unitario en x. Cuando es un nmero positivo significa que hay un crecimiento de unidades en y por cada incremento de una unidad en x; si es un nmero negativo, y disminuir unidades con cada incremento unitario de x. Luego, la pendiente y la ordenada al origen determinan la posicin de la recta. A continuacin se observa en la figura una recta con >0.

Volviendo al modelo estadstico de regresin lineal simple:a) el parmetro , u ordenada al origen de la recta de regresin de Y sobre X, es la esperanza de Y para X = 0; y

b) el parmetro , o pendiente de la regresin de Y sobre X, es la diferencia entre y cuando = 1.Coeficientes de regresin muestralSe llaman coeficientes de regresin muestral a las estimaciones de y , las que se denotan como a y b respectivamente.Estimacin de la recta de regresin. Mtodo de los mnimos Cuadrados

La presencia de los errores aleatorios muestra la necesidad de disponer de un mtodo que combine toda la informacin disponible en la muestra para dar una solucin razonable al problema de estimacin. Uno de estos mtodos es el conocido como Mtodo de Mnimos Cuadrados.El mtodo de Mnimos Cuadrados define la recta de mejor ajuste como aquella que hace que la suma de los cuadrados de las distancias de los valores observados o errores respecto a la recta, medidas sobre el eje de las ordenadas, sea lo ms pequea posible. Esto es:

Donde:

= a + bx, es el valor predicho por el modelo lineal y es el residuo definido como: .El mtodo de estimacin por mnimos cuadrados produce las siguientes expresiones para los estimadores b y a de y respectivamente:

Luego, igualamos a cero y escribimos en trminos de y y se tiene:

. (1)

(2)Luego: resolviendo (1) y (2) simultneamente, obtenemos la solucin para y

Varianza del Error del Modelo:

La varianza del error del modelo refleja la variacin aleatoria o la variacin del error experimental alrededor de la suma de regresin

Estimaciones y predicciones

La ecuacin de regresin puede ser usada para obtener estimaciones de la esperanza de Y o predicciones de Y para valores elegidos de X. Debe tenerse en cuenta, sin embargo, que los valores de X propuestos deben pertenecer al dominio de las X utilizado para la estimacin de la recta. No es conveniente usar la ecuacin de la recta para extrapolar, es decir para estimar la esperanza de Y para valores de X fuera del rango estudiado ya que no se conoce nada sobre el comportamiento de la relacin de X e Y fuera del dominio en la que se estudi esta relacin. Por supuesto, an dentro del dominio estudiado de X, la validez de las estimaciones depende de la bondad de ajuste del modelo, es decir su grado de aproximacin respecto de la verdadera relacin funcional entre las variables.

Cada valor calculado a partir de la recta de regresin, es la estimacin de la esperanza de la distribucin de Y condicionada a un valor de X o una prediccin del valor de Y para una observacin futura de X .Intervalo de confianza para la esperanza condicional de YEl intervalo de confianza al 95%, de para X= est dado por:

Si no se conoce y se estima, entonces, el intervalo anterior se modifica reemplazando el valor 1.96 por el cuantil correspondiente de una T con n-2 grados de libertad y sustituyendo por su estimador.

Cuando los intervalos de confianza se grafican para todos los valores de x en un recorrido dado se obtienen bandas de confianza.Intervalo de prediccin de Y dado XEl intervalo de prediccin de Y dado X= tiene la siguiente expresin:Valor predictivo del modelo de regresin

Se ha indicado que la variacin total en Y puede ser vista como la variacin explicada por la regresin ms la variacin no explicada o residual. Si la variacin no explicada es substancialmente mayor que la variacin explicada, se tendr un indicio de que el modelo no es bueno para fines predictivos, es decir, el modelo est explicando poco de la variacin en Y. No se debe, sin embargo, confundir la medida de cuanto explica un modelo con su pertinencia, ya que se recordar una vez ms, que el modelo es para las esperanzas de Y. Una medida muestral de la capacidad predictiva del modelo es el coeficiente de determinacin, denotado por .Coeficiente de determinacin muestralEste coeficiente se interpreta como la proporcin de la variabilidad total en Y explicable por la variacin de la variable independiente o como tambin es usual decir: la proporcin de la variabilidad total explicada por el modelo. Por ser una proporcin, el coeficiente de determinacin vara entre 0 y 1. Cuanto ms prximo est a 1, mayor valor predictivo tendr el modelo en el sentido que los valores observables estarn muy prximos a la esperanza estimada por la regresin.Anlisis de Correlacin Lineal

En el anlisis de regresin, la variable X es usualmente fija, mientras que la variable dependiente Y es aleatoria. Si X e Y son ambas variables aleatorias observables sobre una misma unidad o elemento de la poblacin, podra ser de inters medir el grado en que estas variables covarian ya sea positiva o negativamente. La simple observacin de que dos variables parecen estar relacionadas, no revela gran cosa. Dos importantes preguntas se pueden formular al respecto:

a) Qu tan estrechamente relacionadas se encuentran las variables? o cul es el grado de asociacin que existe entre ambas?

b) Es real la asociacin observada o podra haber ocurrido solo por azar?

Para responder la primera pregunta se necesita una medida del grado de asociacin entre las dos variables. Esta medida es el coeficiente de correlacin, que se denota con la letra griega (rho). Para la segunda, se precisa una prueba estadstica de hiptesis para .

El anlisis de correlacin clsico supone que los pares (Xi, Yi) son pares de variables aleatorias idnticamente distribuidos con distribucin normal bidimensional, o normal bivariada.

_1437774725.unknown

_1437775840.unknown

_1437776512.unknown

_1437777920.unknown

_1437778039.unknown

_1437778159.unknown

_1437778398.unknown

_1437778072.unknown

_1437777952.unknown

_1437776845.unknown

_1437776957.unknown

_1437776782.unknown

_1437776123.unknown

_1437776124.unknown

_1437775888.unknown

_1437775111.unknown

_1437775757.unknown

_1437775787.unknown

_1437775726.unknown

_1437775074.unknown

_1437775089.unknown

_1437775060.unknown

_1437773827.unknown

_1437774032.unknown

_1437774072.unknown

_1437774082.unknown

_1437774047.unknown

_1437773887.unknown

_1437772911.unknown

_1437773776.unknown

_1437773813.unknown

_1437773754.unknown

_1437772633.unknown

_1437772845.unknown

_1437772711.unknown

_1437772766.unknown

_1437772514.unknown

_1437772589.unknown

_1437772238.unknown