33
Modelo de Clasificación Análisis de la Varianza

Modelo de Clasificación Análisis de la Varianza Ejemplo 1:Modelo de Clasificación unifactorial Comparación del porcentaje de semillas germinadas en función

Embed Size (px)

Citation preview

Page 1: Modelo de Clasificación Análisis de la Varianza Ejemplo 1:Modelo de Clasificación unifactorial Comparación del porcentaje de semillas germinadas en función

Modelo de Clasificación

Análisis de la Varianza

Page 2: Modelo de Clasificación Análisis de la Varianza Ejemplo 1:Modelo de Clasificación unifactorial Comparación del porcentaje de semillas germinadas en función

Ejemplo 1:Modelo de Clasificación unifactorial

Comparación del porcentaje de semillas germinadas en función del color de las semillasClaro Oscuro Rojizo

60 53 80

73 40 87

73 53 87

80 33 93

93 13 66

87 33 60

93 20 87

93 26 100

87 20 80

claro rojizo oscuro

Color

14

35

56

78

99

PG

Page 3: Modelo de Clasificación Análisis de la Varianza Ejemplo 1:Modelo de Clasificación unifactorial Comparación del porcentaje de semillas germinadas en función

Ejemplo 1: Continuación

Análisis de la varianza

Variable N R² R² Aj CV PG 27 0.79 0.77 19.60

Cuadro de Análisis de la Varianza (SC tipo III)

F.V. SC gl CM F valor p Modelo 14900.22 2 7450.11 45.12 <0.0001 Episperma 14900.22 2 7450.11 45.12 <0.0001 Error 3962.44 24 165.10 Total 18862.67 26

Page 4: Modelo de Clasificación Análisis de la Varianza Ejemplo 1:Modelo de Clasificación unifactorial Comparación del porcentaje de semillas germinadas en función

Ejemplo 2:Modelo de Clasificaciónbifactorial – sin interacciones

Hembras

Machos

Hembras

Machos

15 20 25 30

Temperatura

23

26

29

32

35

Lo

ng

itu

d d

e co

la

Efecto de la temperatura sobre la longitud de la cola en hembras y machos de un nemátodo del género Pratylenchus.

Page 5: Modelo de Clasificación Análisis de la Varianza Ejemplo 1:Modelo de Clasificación unifactorial Comparación del porcentaje de semillas germinadas en función

Ejemplo 2 (continuación)

Variable N R^2 R^2ajustLargoCola 160 0.51 0.49

Cuadro de Análisis de la Varianza F.V. SC gl CM F p

Modelo 866.49 7 123.78 23.06 <0.0001

Temperatura 195.67 3 65.22 12.15 <0.0001

Sexo 640.97 1 640.97 119.38 <0.0001

Tempe*Sexo 29.85 3 9.95 1.85 0.14

Error 816.09 152 5.37

Total 1682.58 159

Page 6: Modelo de Clasificación Análisis de la Varianza Ejemplo 1:Modelo de Clasificación unifactorial Comparación del porcentaje de semillas germinadas en función

Modelo de Clasificación Unifactorial

Consideremos un experimento unifactorial balanceado con 3 niveles y 2 repeticiones.

11

11

11

11

11

11

X=

6

8

6

5

2

3

y=

3

2

1

b=

;i 1,...,3; j 1,2ij i ijY y=Xb+

Page 7: Modelo de Clasificación Análisis de la Varianza Ejemplo 1:Modelo de Clasificación unifactorial Comparación del porcentaje de semillas germinadas en función

Existen dos criterios que conducen a las ecuaciones normales

a. La maximización de la función de verosimilitud suponiendo y~N(Xb,2I)

b. La minimización de la suma de cuadrados residual (método de mínimos cuadrados)

Ecuaciones Normales

Page 8: Modelo de Clasificación Análisis de la Varianza Ejemplo 1:Modelo de Clasificación unifactorial Comparación del porcentaje de semillas germinadas en función

Ecuaciones Normales

Maximización de la función de verosimilitud

Este principio requiere la especificación de las propiedades estadísticas del vector y. Bajo la teoría clásica y ~Nn(Xb, 2I)

/ 2/ 22 22

2 22

1( , ) 2 exp

2

1ln( ( , )) ln(2 ) ln( )

2 2 2

nnL b

n nL b

y Xb y Xb

y Xb y Xb

Page 9: Modelo de Clasificación Análisis de la Varianza Ejemplo 1:Modelo de Clasificación unifactorial Comparación del porcentaje de semillas germinadas en función

2 22

1ln( ( , )) ln(2 ) ln( )

2 2 2

n nL b

y Xb y Xb

derivando ln(L) con respecto a b y 2 e igualando a cero se tiene

2

2

2

ln( ( , )) 1

21

2 2 0 02

L b

b b

y Xb y Xb

X y X Xb X y X Xb

X Xb X y

2

2 2 4

4 22

ln( ( , )) 1 10

2 2

12

2

L b n

n

n

y Xb y Xb

y Xb y Xby Xb y Xb

Page 10: Modelo de Clasificación Análisis de la Varianza Ejemplo 1:Modelo de Clasificación unifactorial Comparación del porcentaje de semillas germinadas en función

Ecuaciones NormalesMinimización de la SC del error

Este principio no requiere supuestos distribucionales sobre los

errores, excepto que su esperanza sea cero y su matriz de

covarianzas sea 2I.

Esta robustez permite utilizar el principio de estimación por

mínimos cuadrados aún cuando los errores no son normales.

Las propiedades asintóticas de las funciones estimables

obtenidas a partir de las soluciones por mínimos cuadrados son

idénticas a las que se obtienen bajo normalidad y por lo tanto la

inferencia clásica basada en modelo normal es válida si n es

suficientemente grande

(ver teorema de Gauss Markov, pag 219, Graybill F.).

Page 11: Modelo de Clasificación Análisis de la Varianza Ejemplo 1:Modelo de Clasificación unifactorial Comparación del porcentaje de semillas germinadas en función

Ecuaciones NormalesMinimización de la SC del error

bmin y Xb y Xb

2 2 0

b

y Xb y Xb

X y X Xb

X Xb X y

Page 12: Modelo de Clasificación Análisis de la Varianza Ejemplo 1:Modelo de Clasificación unifactorial Comparación del porcentaje de semillas germinadas en función

Tres formas de resolver el sistema de ecuaciones normales

Usando inversa generalizada

Imponiendo restricciones a las soluciones

Reparametrizando el modelo

Page 13: Modelo de Clasificación Análisis de la Varianza Ejemplo 1:Modelo de Clasificación unifactorial Comparación del porcentaje de semillas germinadas en función

Solución de las ecuaciones normales

Se propone como solución a b0=GX´Y, donde G es una

inversa generalizada de X´X.

Page 14: Modelo de Clasificación Análisis de la Varianza Ejemplo 1:Modelo de Clasificación unifactorial Comparación del porcentaje de semillas germinadas en función

Modelo de clasificación unifactorial-continuaciónG es una inversa generalizada de X’X

6 2 2 2

2 2 0 0

2 0 2 0

2 0 0 2

0 0 0 0

0 ½ 0 0

0 0 ½ 0

0 0 0 ½

0 1 1 1

0 1 0 0

0 0 1 0

0 0 0 1

6 2 2 2

2 2 0 0

2 0 2 0

2 0 0 2

6 2 2 2

2 2 0 0

2 0 2 0

2 0 0 2

=

X’X G

X’X X’XX’XG1 1 0 01 1 0 01 0 1 01 0 1 01 0 0 11 0 0 1

X

Page 15: Modelo de Clasificación Análisis de la Varianza Ejemplo 1:Modelo de Clasificación unifactorial Comparación del porcentaje de semillas germinadas en función

Modelo de clasificación unifactorial-continuación- una solución

b0=G X´y

G=X´y=

30

5

11

14

0 0 0 0

0 ½ 0 0

0 0 ½ 0

0 0 0 ½

b0=

0

5 / 2

11/ 2

14 / 2

6 2 2 2

2 2 0 0

2 0 2 0

2 0 0 2

X’X=

Page 16: Modelo de Clasificación Análisis de la Varianza Ejemplo 1:Modelo de Clasificación unifactorial Comparación del porcentaje de semillas germinadas en función

¿Es b0=G X´Y la única solución?

No, existen infinitas soluciones La forma general de la solución al sistema de

ecuaciones normales está dada por

b0=GX’y+(G1X’X - I)z

Donde G y G1 son g-inversas de X’X y z un vector px1 arbitrario.

Page 17: Modelo de Clasificación Análisis de la Varianza Ejemplo 1:Modelo de Clasificación unifactorial Comparación del porcentaje de semillas germinadas en función

Solución imponiendo restricciones

Page 18: Modelo de Clasificación Análisis de la Varianza Ejemplo 1:Modelo de Clasificación unifactorial Comparación del porcentaje de semillas germinadas en función

X X C b X yC 0 λ

C bRestricción

Searle, pag 212

GX XC C

Page 19: Modelo de Clasificación Análisis de la Varianza Ejemplo 1:Modelo de Clasificación unifactorial Comparación del porcentaje de semillas germinadas en función

Solución reparametrizando

Page 20: Modelo de Clasificación Análisis de la Varianza Ejemplo 1:Modelo de Clasificación unifactorial Comparación del porcentaje de semillas germinadas en función

Reparametrización

Forma particular de introducir restricciones

Fijar en cero los parámetros que “sobran”

El número total de parámetros a estimar es menor

La complicación es la interpretación de los resultados

Page 21: Modelo de Clasificación Análisis de la Varianza Ejemplo 1:Modelo de Clasificación unifactorial Comparación del porcentaje de semillas germinadas en función

Ejemplo de reparametrización

Page 22: Modelo de Clasificación Análisis de la Varianza Ejemplo 1:Modelo de Clasificación unifactorial Comparación del porcentaje de semillas germinadas en función

Modelo de Clasificación Unifactorial

Consideremos un experimento unifactorial balanceado con 3 niveles y 2 repeticiones.

11

11

11

11

11

11

X=

6

8

6

5

2

3

y=

3

2

1

b=

;i 1,...,3; j 1,2 ij i ijYy=Xb+

Page 23: Modelo de Clasificación Análisis de la Varianza Ejemplo 1:Modelo de Clasificación unifactorial Comparación del porcentaje de semillas germinadas en función

¿Como reconstruimos los valores medios?

Page 24: Modelo de Clasificación Análisis de la Varianza Ejemplo 1:Modelo de Clasificación unifactorial Comparación del porcentaje de semillas germinadas en función

Veamos un ejemplo sencillo

Parémetros Est EE

(Intercept) 2.5 0.7

tratB 3.0 1.0

tratC 4.5 1.0

Page 25: Modelo de Clasificación Análisis de la Varianza Ejemplo 1:Modelo de Clasificación unifactorial Comparación del porcentaje de semillas germinadas en función

Un ejemplo con interacciones

Page 26: Modelo de Clasificación Análisis de la Varianza Ejemplo 1:Modelo de Clasificación unifactorial Comparación del porcentaje de semillas germinadas en función

Sumas de Cuadrados

Page 27: Modelo de Clasificación Análisis de la Varianza Ejemplo 1:Modelo de Clasificación unifactorial Comparación del porcentaje de semillas germinadas en función

SC para Tipo I Tipo II Tipo III y IV

A R(|) R(|,) R(|,,)

B R(|,) R(|,) R(|,,)

AB R(|,,) R(|,,) R(|,,)

Fuente: SAS Institute (1996). Advanced General Linear Models with an emphasis on mixed model. Course Notes. Chapter 5.

Tipo de Sumas de Cuadrado para un Modelo Bifactorial

;i 1,...,a; j 1,...,b; k 1..ijnijk i j ij ijkY

Page 28: Modelo de Clasificación Análisis de la Varianza Ejemplo 1:Modelo de Clasificación unifactorial Comparación del porcentaje de semillas germinadas en función

Como calcular las reducciones

XU A B C

X=U|A|B|C

R(|) = y’(P(UA) -P(U)) y

R(|,) = y’(P(UAB) -P(UA))y

R(|,,) = y’(P(X) -P(UAB))y

R(|,) = y’(P(UAB) -P(UB))y

R(|,,) = y’(P(X) -P(UBC))y

R( |,,) = y’(P(X) -P(UAC))y

Page 29: Modelo de Clasificación Análisis de la Varianza Ejemplo 1:Modelo de Clasificación unifactorial Comparación del porcentaje de semillas germinadas en función

Efecto Iguales ProporcionalesNo

proporcionalesCeldas vacias

A I=II=III=IV I=II, III=IV III=IV

B I=II=III=IV I=II, III=IV I=II, III=IV I=II

AB I=II=III=IV I=II=III=IV I=II=III=IV I=II=III=IV

Numero de observaciones por celda

Cuando los tipos se omiten implica que difieren de cualquier otro tipo

Fuente: SAS Institute (1996). Advanced General Linear Models with an enphasis on mixed model. Course Notes. Chapter 5.

Relaciones entre tipos de sumas de cuadrados para un modelo bifactorial

Page 30: Modelo de Clasificación Análisis de la Varianza Ejemplo 1:Modelo de Clasificación unifactorial Comparación del porcentaje de semillas germinadas en función

¿Que prueban las sumas de cuadrados?

Dieta Insulina Glucosaaspartame A 5.16aspartame A 4.92aspartame A 4.68aspartame B 4.50aspartame B 4.29aspartame B 4.50saccharin A 4.93saccharin B 4.42saccharin B 4.54sugar A 5.25sugar A 4.94sugar A 5.53sugar B 4.69sugar B 4.44sugar B 4.95

A B Total

Aspartame 3 3 6

Saccharin 1 2 3

Azucar 3 3 6

Total 7 8 15

Fuente:Advanced General Linear Models With an Emphasis on Mixed Models.Course Notes (1996). SAS, SAS Institute. Cap 5, pag 421-464

SC Dieta glTipo I 0.34261000 2Tipo II 0.28195124 2Tipo III,IV 0.28448258 2

Page 31: Modelo de Clasificación Análisis de la Varianza Ejemplo 1:Modelo de Clasificación unifactorial Comparación del porcentaje de semillas germinadas en función

¿Que prueban las sumas de cuadrados?..Para el efecto dieta según el tipo de sc.

Tipo I

H01: 0.511+ 0.512 - 0.531 - 0.532=0H02: 1/321+ 1/622 - 0.531 - 0.532=0

Tipo II

H01: 0.511+ 0.512 - 0.531 - 0.532=0H02: 0.068211+ 0.068212 +0.3636 21 +0.6364 22 - 0.431831 - 0.568231=0

Tipo III y IV

H01: 0.511+ 0.512 - 0.531 - 0.532=0H02: 0.5 21+0.522 - 0.531 - 0.531=0

A B

Aspartame 11 12

Saccharin 21 22

Azucar 31 32

Page 32: Modelo de Clasificación Análisis de la Varianza Ejemplo 1:Modelo de Clasificación unifactorial Comparación del porcentaje de semillas germinadas en función

A B Total

Aspartame 3 3 6

Saccharin 1 2 3

Azucar 0 3 3

Total 4 8 12

Fuente:Advanced General Linear Models With an Emphasis on Mixed Models.Course Notes (1996). SAS, SAS Institute. Cap 5, pag 469-480

SC Dieta glTipo III 0.10920516 2Tipo IV 0.11402083 2

Sumas de cuadrados, celdas vaciasDieta Insulina Glucosaaspartame A 5.16aspartame A 4.92aspartame A 4.68aspartame B 4.50aspartame B 4.29aspartame B 4.50saccharin A 4.93saccharin B 4.42saccharin B 4.54

sugar B 4.69sugar B 4.44sugar B 4.95

Page 33: Modelo de Clasificación Análisis de la Varianza Ejemplo 1:Modelo de Clasificación unifactorial Comparación del porcentaje de semillas germinadas en función

¿Que prueban las sumas de cuadrados?..Para el efecto dieta según el tipo de sc.

Tipo III

H01: 0.2511+ 0.7512 - 0.2521 + 0.2522 - 32 =0H01: -0.2511+ 0.2512 +0.2521 + 0.7522 - 32 =0

Tipo IV

H01: 12 - 22=0

H02: 22 - 32=0

A B

Aspartame 11 12

Saccharin 21 22

Sugar 32