58
Regresión y Correlación Regresión y Correlación

Regresión y Correlación. 2Contenido Introducción Modelo de regresión lineal Estimación de la regresión Coeficiente de correlación

Embed Size (px)

Citation preview

Regresión y CorrelaciónRegresión y Correlación

2

ContenidoContenido

IntroducciónIntroducción Modelo de regresión linealModelo de regresión lineal Estimación de la regresiónEstimación de la regresión Coeficiente de correlaciónCoeficiente de correlación

3

ObjetivosObjetivos

Introducir el concepto de modelos estadísticosIntroducir el concepto de modelos estadísticos Describir las características y propiedades del Describir las características y propiedades del

modelo de regresión linealmodelo de regresión lineal Describir los métodos de estimación y pruebas Describir los métodos de estimación y pruebas

de hipótesis de la regresión linealde hipótesis de la regresión lineal Describir las propiedades y características del Describir las propiedades y características del

coeficiente de correlacióncoeficiente de correlación

4

IntroducciónIntroducción

Entre diferentes características (variables), Entre diferentes características (variables), pueden existir relaciones de tipo matemático. Tal pueden existir relaciones de tipo matemático. Tal es el caso de la relación entre la estatura y el peso es el caso de la relación entre la estatura y el peso de seres vivos, o del rendimiento y el número de de seres vivos, o del rendimiento y el número de plantas por unidad de área. Estas relaciones no plantas por unidad de área. Estas relaciones no siguen una ecuación matemática exacta, pero se siguen una ecuación matemática exacta, pero se pueden aproximar usando los métodos pueden aproximar usando los métodos estadísticos de regresión.estadísticos de regresión.

5

Relaciones entre variablesRelaciones entre variables

Una relación se refiere a la correspondencia Una relación se refiere a la correspondencia entre dos o más variables. entre dos o más variables.

Los tipos de relaciones entre variables están Los tipos de relaciones entre variables están definidos por dos criterios: La naturaleza de la definidos por dos criterios: La naturaleza de la relación y el patrón (o perfil) de la misma.relación y el patrón (o perfil) de la misma.

La naturaleza de la relación: La naturaleza de la relación:

Mientras que todas las relaciones hablan de la Mientras que todas las relaciones hablan de la correspondencia entre dos variables, hay un tipo especial de correspondencia entre dos variables, hay un tipo especial de relación que expresa que las dos variables no solamente tienen relación que expresa que las dos variables no solamente tienen correspondencia, sino que además, una variable causa la otra. correspondencia, sino que además, una variable causa la otra.

6

Naturaleza de las relaciones entre Naturaleza de las relaciones entre variablesvariables

Existe una distinción importante entre una Existe una distinción importante entre una relación funcional o percibida y una relación causal. relación funcional o percibida y una relación causal.

Una relación funcional dice simplemente que dos Una relación funcional dice simplemente que dos cosas ocurren de manera sincronizada. cosas ocurren de manera sincronizada.

Por ejemplo, se puede hablar de una relación Por ejemplo, se puede hablar de una relación funcional entre proteína de un alimento y otros funcional entre proteína de un alimento y otros componentes como agua, carbohidratos, grasas o componentes como agua, carbohidratos, grasas o cenizas. Cuando cambia el contenido de proteína, cenizas. Cuando cambia el contenido de proteína, alguno de los otros componentes puede cambiar. alguno de los otros componentes puede cambiar.

7

Naturaleza de las relaciones entre Naturaleza de las relaciones entre variablesvariables

Una relación causal es aquella donde el Una relación causal es aquella donde el cambio de una variable ocasiona el cambios cambio de una variable ocasiona el cambios de otra u otras variables asociadas a la de otra u otras variables asociadas a la primera. primera.

Esta relación puede ser de antecedente-Esta relación puede ser de antecedente-consecuente o de causa-efecto.consecuente o de causa-efecto.

8

EjercicioEjercicio

Describa algunas variables en su área de Describa algunas variables en su área de conocimientos que estén relacionadas.conocimientos que estén relacionadas.

Defina si la relación es causal o meramente Defina si la relación es causal o meramente funcional.funcional.

9

Forma de las relaciones entre Forma de las relaciones entre variablesvariables

Patrones de relacionesPatrones de relacionesExisten diversos tipos de Existen diversos tipos de

patrones que describen una patrones que describen una relación entre variables. relación entre variables.

El primero es la falta de El primero es la falta de relación entre las variables. Si se relación entre las variables. Si se conocen los valores en una conocen los valores en una variable, no se pueden deducir los variable, no se pueden deducir los valores en la otra. valores en la otra.

Por ejemplo, no se espera Por ejemplo, no se espera encontrar una relación entre la altura encontrar una relación entre la altura de los árboles en la Unison y el de los árboles en la Unison y el promedio de calificaciones de los promedio de calificaciones de los alumnos de este grupo. alumnos de este grupo.

Si se conoce el promedio de Si se conoce el promedio de calificaciones, no se puede predecir la calificaciones, no se puede predecir la altura de los árboles en cuestión, o altura de los árboles en cuestión, o viceversa. viceversa.

10

Forma de las relaciones entre Forma de las relaciones entre variablesvariables

En segundo lugar, está la relación positiva. En En segundo lugar, está la relación positiva. En una relación positiva, los valores altos en una una relación positiva, los valores altos en una variable se asocian a valores altos en la otra y los variable se asocian a valores altos en la otra y los valores bajos en una se asocian a valores bajos en la valores bajos en una se asocian a valores bajos en la otra. otra.

Por otra parte, una relación negativa implica Por otra parte, una relación negativa implica que los valores altos en una variable están que los valores altos en una variable están asociados a valores bajos en la otra. Esto también a asociados a valores bajos en la otra. Esto también a veces se llama una relación inversa. veces se llama una relación inversa.

11

Forma de las relaciones entre Forma de las relaciones entre variablesvariables

Años de EscolaridadAños de Escolaridad

Sa

lari

oS

ala

rio

Ejercicio físicoEjercicio físico

Pre

sió

n A

rte

ria

lP

res

ión

Art

eri

al

RelaciónRelación PositivaPositiva Relación NegativaRelación Negativa

12

Forma de las relaciones entre Forma de las relaciones entre variablesvariables

El patrón de una relación El patrón de una relación puede ser más complejo. puede ser más complejo.

En este ejemplo, el eje En este ejemplo, el eje horizontal representa la dosis de horizontal representa la dosis de una medicina para una una medicina para una enfermedad y el eje vertical enfermedad y el eje vertical representa una medición de la representa una medición de la severidad de la enfermedad. severidad de la enfermedad.

Mientras que se eleva la Mientras que se eleva la dosis, la severidad de la enfermedad dosis, la severidad de la enfermedad baja. Pero en un cierto punto, el baja. Pero en un cierto punto, el paciente comienza a experimentar los paciente comienza a experimentar los efectos secundarios negativos efectos secundarios negativos asociados a una dosis demasiado alta, asociados a una dosis demasiado alta, y la severidad de la enfermedad y la severidad de la enfermedad comienza a aumentar otra vez.comienza a aumentar otra vez.

Dosis Dosis S

ev

eri

da

d d

e e

nfe

rme

da

dS

ev

eri

da

d d

e e

nfe

rme

da

d

13

IntroducciónIntroducción

En estadística, se llama modelo lineal a una En estadística, se llama modelo lineal a una ecuación algebraica que tiene como variable ecuación algebraica que tiene como variable dependiente (Y), la característica observada, la cual dependiente (Y), la característica observada, la cual es aleatoria; y como variables independientes (V, W, es aleatoria; y como variables independientes (V, W, X, etc.), se consideran todas aquellas características X, etc.), se consideran todas aquellas características que se relacionan con la variable dependiente Y en que se relacionan con la variable dependiente Y en forma lineal.forma lineal.

14

IntroducciónIntroducción

Los modelos lineales se escriben como:Los modelos lineales se escriben como:

iii εβXαY

i2i2i10i εXβXββY

ii3i2i10i εZβWβXββY

15

En un estudio de la relación entre tiempo de En un estudio de la relación entre tiempo de cocción y textura de carne de res, se obtuvo una cocción y textura de carne de res, se obtuvo una muestra de 7 pares de valores de tiempos de cocción muestra de 7 pares de valores de tiempos de cocción y textura, los cuales pueden ser observados en el y textura, los cuales pueden ser observados en el gráfico de dispersión de la figura. gráfico de dispersión de la figura.

EjemploEjemplo

TIEMPO DE COCCION

TEXTURA

320

380

440

500

560

620

680

7 8 9 10 11 12

16

Ejemplo (Cont.)Ejemplo (Cont.)

Supongamos que el modelo de relación Supongamos que el modelo de relación planteado entre textura de carne y tiempo de planteado entre textura de carne y tiempo de cocción escocción es

YYi i = = + ßX + + ßX + i i

Donde YDonde Yii = Textura de carne, X = Textura de carne, X

ii = Tiempo de = Tiempo de

Cocción en horas, Cocción en horas, es la ordenada en el origen, ß es la ordenada en el origen, ß es la pendiente de la recta, y es la pendiente de la recta, y ii es el error aleatorio es el error aleatorio

de cada observación de textura de carne (Yde cada observación de textura de carne (Yi i ).).

17

Ejemplo (Cont.)Ejemplo (Cont.)

Si la relación fuera perfecta, conociendo Si la relación fuera perfecta, conociendo y y ß, y estableciendo un tiempo de cocción, se ß, y estableciendo un tiempo de cocción, se podría calcular la textura de la carne con ls podría calcular la textura de la carne con ls ecuación: ecuación:

Textura = Textura = + ß + ß**(Tiempo de cocción)(Tiempo de cocción)En la realidad sabemos que esto no es En la realidad sabemos que esto no es

posible, ya que la textura de la carne puede variar posible, ya que la textura de la carne puede variar con otros factores además del tiempo de cocción.con otros factores además del tiempo de cocción.

18

¿Cuándo se aplica la regresión?¿Cuándo se aplica la regresión?

Existen diferentes razones para realizar el Existen diferentes razones para realizar el análisis de regresión. Las que se mencionan a análisis de regresión. Las que se mencionan a continuación son las más frecuentes en las continuación son las más frecuentes en las ciencias de los alimentos. ciencias de los alimentos.

Cuando se quiere conocer la forma de la relación Cuando se quiere conocer la forma de la relación entre una variable aleatoria (la dependiente, Y) y entre una variable aleatoria (la dependiente, Y) y una variable no aleatoria (la independiente, X).una variable no aleatoria (la independiente, X).

Cuando se quiere predecir Y a través de X.Cuando se quiere predecir Y a través de X. Cuando se quiere examinar el comportamiento de Cuando se quiere examinar el comportamiento de

Y en un rango de valores de X.Y en un rango de valores de X.

19

El modelo de regresión lineal es un caso El modelo de regresión lineal es un caso particular de los modelos estadísticos lineales en el particular de los modelos estadísticos lineales en el que se presenta la relación de una variable aleatoria que se presenta la relación de una variable aleatoria con otras variables en forma de ecuación lineal.con otras variables en forma de ecuación lineal.

El modelo de regresión lineal El modelo de regresión lineal simplesimple se se representa por la ecuación:representa por la ecuación:

YYii = = + + XXii + + ii, i=1,2,...,n, i=1,2,...,nDonde YDonde Y

i i es la variable aleatoria respuesta, Xes la variable aleatoria respuesta, Xii es es

una variable no aleatoria, una variable no aleatoria, y y son los parámetros del son los parámetros del modelo, y modelo, y ii es el error aleatorio del modelo, el cual es es el error aleatorio del modelo, el cual es

independiente para cada observación. independiente para cada observación.

Modelo de regresion linealModelo de regresion lineal

20

Regresión lineal simpleRegresión lineal simple

Los métodos de estimación de la regresión Los métodos de estimación de la regresión lineal simple nos permitirán estimar el modelo que lineal simple nos permitirán estimar el modelo que relaciona Y con X, y representar promedialmente relaciona Y con X, y representar promedialmente ese modelo por medio de una recta. ese modelo por medio de una recta.

También nos permitirán probar la hipótesis También nos permitirán probar la hipótesis estadística para establecer con un cierto grado de estadística para establecer con un cierto grado de certeza, si la relación supuesta es debida al azar, o certeza, si la relación supuesta es debida al azar, o es real.es real.

Además, estos métodos nos permiten Además, estos métodos nos permiten predecir valores de Y de una nueva muestra, predecir valores de Y de una nueva muestra, cuando conocemos el valor de X.cuando conocemos el valor de X.

21

Regresión lineal simple Regresión lineal simple

Una de las formas de examinar la asociación Una de las formas de examinar la asociación entre la variable respuesta (Y) y la variable entre la variable respuesta (Y) y la variable independiente (X), es la de obtener un diagrama de independiente (X), es la de obtener un diagrama de dispersión o gráfica de puntos como la que se ve en dispersión o gráfica de puntos como la que se ve en la figura.la figura.

50.00

55.00

60.00

65.00

70.00

10 11 12 13 14 15 16 17 18

Edad (meses)

Altu

ra (c

m)

La gráfica a la La gráfica a la derecha proviene de derecha proviene de

un estudio para un estudio para determinar la relación determinar la relación

entre edad de entre edad de infantes (en meses) y infantes (en meses) y

su talla (en cm).su talla (en cm).

22

55.00

60.00

65.00

10 11 12 13 14 15 16 17 18

Edad (meses)

Altu

ra (c

m)

Regresión lineal simple Regresión lineal simple

El diagrama de dispersión permite visualizar el tipo de El diagrama de dispersión permite visualizar el tipo de relación que pudiera presentarse entre X y Y.relación que pudiera presentarse entre X y Y.

En esta gráfica se observa que cambiando la escala En esta gráfica se observa que cambiando la escala del eje de las Y, se puede ver en forma más clara que la del eje de las Y, se puede ver en forma más clara que la tendencia lineal se distorsiona para las edades altas (de 15 tendencia lineal se distorsiona para las edades altas (de 15 meses en adelante) meses en adelante)

23

Las suposiciones básicas que se deben Las suposiciones básicas que se deben hacer para realizar el análisis de regresión hacer para realizar el análisis de regresión incluyen las siguientes: incluyen las siguientes:

a)a) Hay una relación lineal entre X y Y como la Hay una relación lineal entre X y Y como la expresada en el modelo:expresada en el modelo:

YYii = = + + XXii + + ii

b)b) Los errores Los errores ii son aleatorios e independientes con son aleatorios e independientes con

media igual a 0 y varianza media igual a 0 y varianza 22

Suposiciones básicas del modelo Suposiciones básicas del modelo de regresiónde regresión

24

c)c) Los valores de X son medidos sin error.Los valores de X son medidos sin error.

d)d) Para pruebas de hipótesis sobre parámetros del Para pruebas de hipótesis sobre parámetros del modelo se debe suponer además, que los errores modelo se debe suponer además, que los errores ii

tienen distribución N (0,tienen distribución N (0,22). ).

Esto último implica que la variable dependiente Y debe Esto último implica que la variable dependiente Y debe de tener una distribución aproximadamente normal.de tener una distribución aproximadamente normal.

Suposiciones básicas del modelo Suposiciones básicas del modelo de regresiónde regresión

25

Estimación de regresión lineal Estimación de regresión lineal simplesimple

La recta estimada con las observaciones de una La recta estimada con las observaciones de una muestra al azar de n pares de valores de xmuestra al azar de n pares de valores de x

ii y y y yii, se , se

representa como:representa como:

Donde ={Donde ={XXiiYYii ‑ [( ‑ [(XXii)()(YYii)/n]} / [)/n]} / [(X(Xi i ‑ X) ‑ X)22] = ] =

=SPXY/ SCXX =SPXY/ SCXX

SPXY = SPXY = XXiiYYii ‑ [( ‑ [(XXii)( )( YYii)/n])/n]

SCXX = SCXX = XXii22 ‑[( ‑[(XXii))

22/n] y SCYY = /n] y SCYY = YYii22 ‑[( ‑[(YYii))

22 /n] /n]

iXbaiY

b

XbYa

26

La varianza estimada de las desviaciones del La varianza estimada de las desviaciones del modelo (llamada Varianza del Error) es:modelo (llamada Varianza del Error) es:

O escrito de otro modo:

ss22= { SCYY ‑ [ (SPXY)= { SCYY ‑ [ (SPXY)22 / SCXX]} / (n‑2) / SCXX]} / (n‑2)

)2n(

)YY(s

2ii2

Estimación de regresión lineal Estimación de regresión lineal simplesimple

27

Estimación de regresión lineal Estimación de regresión lineal simplesimple

Con el estimador de la varianza del error de Con el estimador de la varianza del error de

regresión (sregresión (s22), se pueden obtener intervalos de ), se pueden obtener intervalos de

confianza para la recta de regresión y para los confianza para la recta de regresión y para los

parámetros parámetros y y . .

Además, se pueden hacer pruebas de Además, se pueden hacer pruebas de

hipótesis para los parámetros hipótesis para los parámetros y y ..

28

Estimación de regresión lineal Estimación de regresión lineal simple simple

La prueba de hipótesis HLa prueba de hipótesis Hoo: : =0 vs. H=0 vs. H

aa: : 0 es 0 es

una prueba de hipótesis sobre la existencia real de una prueba de hipótesis sobre la existencia real de la regresión entre X y Y. la regresión entre X y Y.

Si Si =0, entonces para cualquier valor de X, el =0, entonces para cualquier valor de X, el resultado dará 0, y Y será igual a (resultado dará 0, y Y será igual a (++ii) evidenciando ) evidenciando

que no tiene relación con X.que no tiene relación con X.

29

Estimación de regresión lineal Estimación de regresión lineal simple simple

El estadístico de prueba para la hipótesis El estadístico de prueba para la hipótesis antedicha es: antedicha es:

dondedonde

La regla de decisión será: La regla de decisión será: Si Si , se rechaza la , se rechaza la

hipótesis Hhipótesis H0 0 de que no existe regresión.de que no existe regresión.

bc s

bt

SPXX

s

)X(x

ss

2

2i

22

b

))2n( ,2(c))2n( ,2(c t- t o tt

30

Prueba de hipótesis de la Prueba de hipótesis de la regresión linealregresión lineal

Hipótesis estadísticaHipótesis estadística

Ho: Ho: =0 vs. Ha: =0 vs. Ha: 00

Fijar el nivel de significancia de la prueba (Fijar el nivel de significancia de la prueba (αα), o usar el ), o usar el valor de p (Probabilidad de que el estadístico sea mayor valor de p (Probabilidad de que el estadístico sea mayor

que el valor calculado)que el valor calculado)

Datos: n (número de observaciones), Datos: n (número de observaciones),

Estadístico de Prueba: Estadístico de Prueba:

Regla de decisión: Se rechaza la hipótesis nula HRegla de decisión: Se rechaza la hipótesis nula H0 0 si:si:

2εsyb

bc s

bt

SPXX

s

)X(x

ss

2

2i

22

b

))2n( ,2(c))2n( ,2(c t- t o tt

31

Coeficiente de determinación (RCoeficiente de determinación (R22))

El valor de R2 es una estimación de la contribución relativa de la regresión de Y con X, a la variación que ocurre en Y. Este valor se calcula como:

R2 = {(SPXY)2 SCXX} SCYY =

R2, llamado el coeficiente de determinación, es un número que varía entre 0 y 1.

Se dice que la regresión entre X y Y explica el R2100 % de la variación observada en Y. Este valor nos da una idea de cuanto está explicando la variación que hay en la variable dependiente Y, la asociación o regresión con X.

SCYYSCXX

(SPXY)2

32

Resumen de estimacionesResumen de estimacionesen regresión lineal simpleen regresión lineal simple

Ecuación de la regresiónEcuación de la regresión Coeficiente de determinaciónCoeficiente de determinación Varianza del errorVarianza del error Desviación estándar del errorDesviación estándar del error Gráfico de regresión con:Gráfico de regresión con:

Diagrama de dispersiónDiagrama de dispersión

Recta estimada de la regresiónRecta estimada de la regresión

33

Cálculos para la estimación de la Cálculos para la estimación de la regresión lineal simpleregresión lineal simple

X Y XY X2 Y2

10 500 5000 100 250000

9 550 4950 81 302500

11 425 4675 121 180625

8 550 4400 64 302500

10 450 4500 100 202500

12 350 4200 144 122500

7 625 4375 49 390625

Suma=67 Suma=3450 Suma=32500 Suma=659 Suma=1751250

Para estimar la regresión se forma el siguiente cuadro, el cual permitirá calcular todos los estadísticos necesarios

34

Estimación de la regresión lineal Estimación de la regresión lineal simplesimple

Los estadísticos de la muestra son:Los estadísticos de la muestra son:

n = 7n = 7 X Xii = 67 = 67 Y Yii = 3450 = 3450

XXii22 = 659 = 659 Y Yii

22 = 1,751,250 = 1,751,250

XXiiYYii = 32,100 = 32,100

Las Sumas de Cuadrados para calcular los Las Sumas de Cuadrados para calcular los estimadores y la varianza del error son:estimadores y la varianza del error son:

SCYY = 1,751,350 – [(3450)SCYY = 1,751,350 – [(3450)22/7]= 50,892.86/7]= 50,892.86

SCReg = [(-921.43)SCReg = [(-921.43)22]/17.71 = 47,940.75]/17.71 = 47,940.75

SCError= 2SCError= 2, , 952.11952.11

35

Estimación de la regresión lineal Estimación de la regresión lineal simplesimple

Los estimadores de los parámetros del modelo de regresión Los estimadores de los parámetros del modelo de regresión son:son:

bb(Est)(Est) = SPXY/SCXX = [32,100 - (67*3450/7)]/ [659-(672/7)] = SPXY/SCXX = [32,100 - (67*3450/7)]/ [659-(672/7)]

= -921.43/17.71 = -52.03= -921.43/17.71 = -52.03

a a (Est)(Est) = 3450/7 - (-52.03*67/7) = 990.85 = 3450/7 - (-52.03*67/7) = 990.85

Es así, que la recta estimada será:Es así, que la recta estimada será:

YYi i = 990.85 ‑ 52.02(X= 990.85 ‑ 52.02(Xii); donde i=1,2,....7); donde i=1,2,....7

36

Estimación de la regresión lineal Estimación de la regresión lineal simplesimple

Gráfico de regresiónGráfico de regresión

TIEMPO DE COCCION(HORAS)

300

350

400

450

500

550

600

700

Linea de Regresión

Valores Observados

Intervalo de Confianza de 95%

Textura = 990.73 – 52.02 x Tiempo

TE

XT U R A

D E

C A R N E

37

Uso del Excel para regresiónUso del Excel para regresión

Muestra Temperatura Oxígeno

1 -18 5.2

2 -15 4.7

3 -10 4.5

4 -5 3.6

5 0 3.4

6 5 3.17 10 2.78 19 1.8

Los datos presentados son de un estudio sobre el efecto de la temperatura en el consumo de

oxígeno de cierta especie animal. Este es un experimento con 8 observaciones

realizadas a diferentes temperaturas, y para cada una de ellas se mide el consumo de oxígeno.

38

Uso del Excel para regresión Uso del Excel para regresión lineal simplelineal simple

En el menú de herramientas, y submenú de En el menú de herramientas, y submenú de Análisis de datos, está la opción de regresión.Análisis de datos, está la opción de regresión.

En la ventana activa debe llenar el rango de la En la ventana activa debe llenar el rango de la columna de los valores de Y (Oxígeno) y de columna de los valores de Y (Oxígeno) y de los valores de X (Temperatura). Además, los valores de X (Temperatura). Además, podrá escoger varias opciones gráficas que podrá escoger varias opciones gráficas que aparecen en la ventana y que serán explicadas aparecen en la ventana y que serán explicadas durante los ejercicios.durante los ejercicios.

39

EjercicioEjercicio

Usando el Excel, introduzca los datos del Usando el Excel, introduzca los datos del ejemplo anterior y realice el análisis de ejemplo anterior y realice el análisis de regresión.regresión.

Lea e interprete los resultados, resumiendo Lea e interprete los resultados, resumiendo éstos en un archivo de Word.éstos en un archivo de Word.

40

Ajuste de regresión usando JMPAjuste de regresión usando JMP

Datos en JMP y Datos en JMP y cálculo de regresión cálculo de regresión

lineal usando el lineal usando el menú “Fit Y by X”menú “Fit Y by X”

41

Ajuste de regresión usando JMPAjuste de regresión usando JMP

Resultados del Resultados del ajuste de una ajuste de una

regresión lineal regresión lineal simple usando el simple usando el menú “Fit Y by X”menú “Fit Y by X”

42

Ajuste de regresión usando JMPAjuste de regresión usando JMPLinear FitOXIGENO = 3.4714223 - 0.0877587 TEMPERATURASummary of Fit

RSquare0.980948

RSquare Adj 0.977773

Root Mean Square Error 0.168249

Mean of Response 3.625

Observations (or Sum Wgts) 8

Analysis of Variance

Source

DF Sum of Squares Mean Square F Ratio

Model 1 8.7451541 8.74515 308.9326

Error 6 0.1698459 0.02831 Prob > F

C. Total

7 8.9150000 <.0001Parameter Estimates

TermEstimate Std Error t Ratio Prob>|t|

Intercept 3.4714223 0.060123 57.74 <.0001

TEMPERATURA -0.087759 0.004993 -17.58 <.0001

Ecuación de la regresión

Resumen del modelo:Valores de R2, R2 ajustado, Desviación Estándar del Error, Promedio de los valores de Y, y número de observaciones (n).

ANDEVA: Fuentes, Grados de libertad, Suma de cuadrados, Cuadrados medios y Valores de F con su

probabilidad (valor p).

Parámetro, Estimación, Desv.

Estándar, Valor de t y su probabilidad.

43

Ajuste de otros modelos de regresión Ajuste de otros modelos de regresión usando JMPusando JMP

Ejemplo Ejemplo del JMP que se del JMP que se verá en clase. verá en clase.

44

EjercicioEjercicio

Usando el JMP, introduzca los datos del Usando el JMP, introduzca los datos del ejemplo anterior y realice el análisis de ejemplo anterior y realice el análisis de regresión.regresión.

Lea e interprete los resultados, resumiendo Lea e interprete los resultados, resumiendo éstos en un archivo de Word.éstos en un archivo de Word.

Compare los resultados con los obtenidos en Compare los resultados con los obtenidos en Excel.Excel.

45

Uso de Infostat para regresiónUso de Infostat para regresión

Para realizar regresiones en el Infostat se puede Para realizar regresiones en el Infostat se puede importar el archivo de Excel (las columnas importar el archivo de Excel (las columnas deben estar debidamente formateadas, para deben estar debidamente formateadas, para no tener problemas con los datos).no tener problemas con los datos).

Una vez introducidos los datos se va al menú de Una vez introducidos los datos se va al menú de análisis estadístico y se escoge “Regresión análisis estadístico y se escoge “Regresión lineal”. Aparecerá una ventana donde se le lineal”. Aparecerá una ventana donde se le pide que escoja la variable dependiente (Y), y pide que escoja la variable dependiente (Y), y el regresor o regresores (X) (variable el regresor o regresores (X) (variable independiente). independiente).

46

Uso de Infostat para regresiónUso de Infostat para regresión

Al finalizar con la pantalla anterior aparecerá otra donde se ofrecen Al finalizar con la pantalla anterior aparecerá otra donde se ofrecen una gran cantidad de opciones, las cuales se explicarán en el transcurso de los una gran cantidad de opciones, las cuales se explicarán en el transcurso de los ejercicios. La salida contiene varias pantallas que se pueden guardar en forma ejercicios. La salida contiene varias pantallas que se pueden guardar en forma independiente.independiente.

47

Evaluación de ajuste del modelo Evaluación de ajuste del modelo

Para evaluar el ajuste de un modelo de Para evaluar el ajuste de un modelo de regresión lineal se pueden usar varios criterios:regresión lineal se pueden usar varios criterios:

Los resultados de la prueba de F del análisis de Los resultados de la prueba de F del análisis de varianza de la regresión.varianza de la regresión. La desviación estándar del error de la regresiónLa desviación estándar del error de la regresión El gráfico de las desviaciones de los valores El gráfico de las desviaciones de los valores

estimados de Y con respecto a los valores estimados de Y con respecto a los valores observados: versus los valores de X.observados: versus los valores de X. El análisis de la bondad de ajuste del modelo El análisis de la bondad de ajuste del modelo

(cuando se tiene más de un valor de Y para cada (cuando se tiene más de un valor de Y para cada X). X).

)YY( ii ˆ

48

-1.5

-1

-0.5

0

0.5

1

1.5

2

0 2 4 6 8 10 12 14 16 18

X

(Y e

st.

- Y

ob

s.)

Evaluación de ajuste del modeloEvaluación de ajuste del modelo

Un buen ajuste del modelo de regresión Un buen ajuste del modelo de regresión producirá un gráfico de las desviaciones como el producirá un gráfico de las desviaciones como el que se muestra en la figura.que se muestra en la figura.

Las desviaciones se distribuyen al azar para los valores de X. Recordar que Las desviaciones se distribuyen al azar para los valores de X. Recordar que la suma de las desviaciones es igual a 0.la suma de las desviaciones es igual a 0.

49

Dispersión de las desviaciones de la regresión lineal (i) con respecto a la variable independiente (X).

Var. Independiente (X)

Des

via

cio

nes

()

+1

O

-1

Var. Independiente (X)

Des

via

cio

nes

()

+1

O

-1

Var. Independiente (X)

Des

via

cio

nes

()

+1

O

-1

Var. Independiente (X=Tiempo)

Des

via

cio

nes

()

+1

O

-1

Var. Independiente (X)

Des

via

cio

nes

()

+1

O

-1

Var. Independiente (X)

Des

via

cio

nes

()

+1

O

-1

Var. Independiente (X)

Des

via

cio

nes

()

+1

O

-1

AVar. Independiente (X)

Des

via

cio

nes

()

+1

O

-1

B

C D

G

FE

H

50

Coeficiente de correlaciónCoeficiente de correlación

El coeficiente de correlación es un número que sirve para medir en forma relativa el grado de asociación lineal entre dos variables (X y Y).

El valor del coeficiente de correlación puede variar entre -1 y 1. Cuando el valor del coeficiente de correlación es negativo, esto indica una asociación lineal inversa entre X y Y, esto es, cuando X sube Y baja.

Los valores de correlación cercanos a -1 o a 1, indican una fuerte asociación lineal entre X y Y. Los valores de correlación cercanos a 0 indican falta de asociación lineal entre X y Y.

51

Cuando las variables X y Y tienen distribución Cuando las variables X y Y tienen distribución aproximadamente normal, y existe una asociación aproximadamente normal, y existe una asociación lineal entre ellas, el coeficiente de correlación (lineal entre ellas, el coeficiente de correlación () es ) es un parámetro de la distribución un parámetro de la distribución bivariada bivariada normalnormal.

Si las variables X o Y no tienen distribución Si las variables X o Y no tienen distribución aproximadamente normal, o no hay suficientes aproximadamente normal, o no hay suficientes observaciones como para suponer que se observaciones como para suponer que se distribuyen normalmente, lo adecuado será recurrir a distribuyen normalmente, lo adecuado será recurrir a la estimación no paramétrica de correlación, como la estimación no paramétrica de correlación, como es la correlación de Kendall (es la correlación de Kendall () y la de Spearman () y la de Spearman (). ).

Coeficiente de correlaciónCoeficiente de correlación

52

Coeficiente de correlación Coeficiente de correlación

Si se toma una muestra aleatoria de pares de Si se toma una muestra aleatoria de pares de valores (xvalores (x

ii,y,yii), se podrá estimar el parámetro ), se podrá estimar el parámetro , ,

mediante el coeficiente de correlación de la muestra (r) mediante el coeficiente de correlación de la muestra (r) llamado coeficiente de correlación de Pearson , el cual llamado coeficiente de correlación de Pearson , el cual es:es:

})Yi

y()Xi

x({

n/)i

y)(i

x(i

yi

xr

22

)SCYYSCXX(

)SPXY(r

53

EjemploEjemplo

En este ejemplo nos interesa conocer si los cambios en contenido de trimetilamina en pescado congelado, están de algún modo asociados a los cambios en pH. Para calcular el coeficiente de correlación de estas dos variables aleatorias, se usa un cuadro similar al usado para regresión.

n=27 Xi =38.42 Yi = 108.46 XiYi = 262.68 Xi2 = 87.05 Yi

2 =897.85

Con estos datos el coeficiente de correlación entre trimetilamina y pH es r= 0.87.

54

Coeficiente de correlaciónCoeficiente de correlación

0.0

4.0

8.0

12.0

16.0

0.0 1.0 2.0 3.0 4.0 5.0

pH

Trim

etila

min

a

0.0

4.0

8.0

12.0

16.0

0.0 1.0 2.0 3.0 4.0 5.0

pH

Trim

etila

min

ar = 0.87r = 0.87

55

Consideraciones sobre la Consideraciones sobre la correlacióncorrelación

Interesa conocer el valor del coeficiente de correlación cuando:

Existe una explicación para la asociación entre X y Y.

Por deducción científica, o es una relación funcional (participan en un mismo proceso), o cuando son componentes de un organismo biológico, o se presume una relación por razones científicas publicadas con anterioridad. Los valores de X y Y son ambas variables aleatorias. La relación entre X y Y es lineal.

56

Consideraciones sobre la Consideraciones sobre la correlacióncorrelación

Un uso incorrecto del coeficiente de correlación ocurre cuando éste se emplea para detectar causas o efectos entre dos variables, cuando éstas causas o efectos no tienen una explicación científica bien definida y aceptada por los especialistas en la materia.

Por último se debe tomar en cuenta que el coeficiente de correlación es sensible a la variación que ocurre tanto en Y como en X. Cuando los datos están muy dispersos el coeficiente de correlación baja, aunque la pendiente de la recta de regresión se vea bien definida.

57

Consideraciones sobre la Consideraciones sobre la correlacióncorrelación

r =0.87r =0.87

r = -0.11r = -0.11

r =0.94

58

ResumenResumen

Modelo de regresión Modelo de regresión Modelo de regresión linealModelo de regresión lineal Ecuación de la rectaEcuación de la recta Estimación de la regresiónEstimación de la regresión Coeficiente de correlaciónCoeficiente de correlación