Upload
oscar-rojas-bustos
View
232
Download
0
Embed Size (px)
Citation preview
Modelo de Clasificación
Análisis de la Varianza
Ejemplo 1:Modelo de Clasificación unifactorial
Comparación del porcentaje de semillas germinadas en función del color de las semillasClaro Oscuro Rojizo
60 53 80
73 40 87
73 53 87
80 33 93
93 13 66
87 33 60
93 20 87
93 26 100
87 20 80
claro rojizo oscuro
Color
14
35
56
78
99
PG
Ejemplo 1: Continuación
Análisis de la varianza
Variable N R² R² Aj CV PG 27 0.79 0.77 19.60
Cuadro de Análisis de la Varianza (SC tipo III)
F.V. SC gl CM F valor p Modelo 14900.22 2 7450.11 45.12 <0.0001 Episperma 14900.22 2 7450.11 45.12 <0.0001 Error 3962.44 24 165.10 Total 18862.67 26
Ejemplo 2:Modelo de Clasificaciónbifactorial – sin interacciones
Hembras
Machos
Hembras
Machos
15 20 25 30
Temperatura
23
26
29
32
35
Lo
ng
itu
d d
e co
la
Efecto de la temperatura sobre la longitud de la cola en hembras y machos de un nemátodo del género Pratylenchus.
Ejemplo 2 (continuación)
Variable N R^2 R^2ajustLargoCola 160 0.51 0.49
Cuadro de Análisis de la Varianza F.V. SC gl CM F p
Modelo 866.49 7 123.78 23.06 <0.0001
Temperatura 195.67 3 65.22 12.15 <0.0001
Sexo 640.97 1 640.97 119.38 <0.0001
Tempe*Sexo 29.85 3 9.95 1.85 0.14
Error 816.09 152 5.37
Total 1682.58 159
Modelo de Clasificación Unifactorial
Consideremos un experimento unifactorial balanceado con 3 niveles y 2 repeticiones.
11
11
11
11
11
11
X=
6
8
6
5
2
3
y=
3
2
1
b=
;i 1,...,3; j 1,2ij i ijY y=Xb+
Existen dos criterios que conducen a las ecuaciones normales
a. La maximización de la función de verosimilitud suponiendo y~N(Xb,2I)
b. La minimización de la suma de cuadrados residual (método de mínimos cuadrados)
Ecuaciones Normales
Ecuaciones Normales
Maximización de la función de verosimilitud
Este principio requiere la especificación de las propiedades estadísticas del vector y. Bajo la teoría clásica y ~Nn(Xb, 2I)
/ 2/ 22 22
2 22
1( , ) 2 exp
2
1ln( ( , )) ln(2 ) ln( )
2 2 2
nnL b
n nL b
y Xb y Xb
y Xb y Xb
2 22
1ln( ( , )) ln(2 ) ln( )
2 2 2
n nL b
y Xb y Xb
derivando ln(L) con respecto a b y 2 e igualando a cero se tiene
2
2
2
ln( ( , )) 1
21
2 2 0 02
L b
b b
y Xb y Xb
X y X Xb X y X Xb
X Xb X y
2
2 2 4
4 22
ln( ( , )) 1 10
2 2
12
2
L b n
n
n
y Xb y Xb
y Xb y Xby Xb y Xb
Ecuaciones NormalesMinimización de la SC del error
Este principio no requiere supuestos distribucionales sobre los
errores, excepto que su esperanza sea cero y su matriz de
covarianzas sea 2I.
Esta robustez permite utilizar el principio de estimación por
mínimos cuadrados aún cuando los errores no son normales.
Las propiedades asintóticas de las funciones estimables
obtenidas a partir de las soluciones por mínimos cuadrados son
idénticas a las que se obtienen bajo normalidad y por lo tanto la
inferencia clásica basada en modelo normal es válida si n es
suficientemente grande
(ver teorema de Gauss Markov, pag 219, Graybill F.).
Ecuaciones NormalesMinimización de la SC del error
bmin y Xb y Xb
2 2 0
b
y Xb y Xb
X y X Xb
X Xb X y
Tres formas de resolver el sistema de ecuaciones normales
Usando inversa generalizada
Imponiendo restricciones a las soluciones
Reparametrizando el modelo
Solución de las ecuaciones normales
Se propone como solución a b0=GX´Y, donde G es una
inversa generalizada de X´X.
Modelo de clasificación unifactorial-continuaciónG es una inversa generalizada de X’X
6 2 2 2
2 2 0 0
2 0 2 0
2 0 0 2
0 0 0 0
0 ½ 0 0
0 0 ½ 0
0 0 0 ½
0 1 1 1
0 1 0 0
0 0 1 0
0 0 0 1
6 2 2 2
2 2 0 0
2 0 2 0
2 0 0 2
6 2 2 2
2 2 0 0
2 0 2 0
2 0 0 2
=
X’X G
X’X X’XX’XG1 1 0 01 1 0 01 0 1 01 0 1 01 0 0 11 0 0 1
X
Modelo de clasificación unifactorial-continuación- una solución
b0=G X´y
G=X´y=
30
5
11
14
0 0 0 0
0 ½ 0 0
0 0 ½ 0
0 0 0 ½
b0=
0
5 / 2
11/ 2
14 / 2
6 2 2 2
2 2 0 0
2 0 2 0
2 0 0 2
X’X=
¿Es b0=G X´Y la única solución?
No, existen infinitas soluciones La forma general de la solución al sistema de
ecuaciones normales está dada por
b0=GX’y+(G1X’X - I)z
Donde G y G1 son g-inversas de X’X y z un vector px1 arbitrario.
Solución imponiendo restricciones
X X C b X yC 0 λ
C bRestricción
Searle, pag 212
GX XC C
Solución reparametrizando
Reparametrización
Forma particular de introducir restricciones
Fijar en cero los parámetros que “sobran”
El número total de parámetros a estimar es menor
La complicación es la interpretación de los resultados
Ejemplo de reparametrización
Modelo de Clasificación Unifactorial
Consideremos un experimento unifactorial balanceado con 3 niveles y 2 repeticiones.
11
11
11
11
11
11
X=
6
8
6
5
2
3
y=
3
2
1
b=
;i 1,...,3; j 1,2 ij i ijYy=Xb+
¿Como reconstruimos los valores medios?
Veamos un ejemplo sencillo
Parémetros Est EE
(Intercept) 2.5 0.7
tratB 3.0 1.0
tratC 4.5 1.0
Un ejemplo con interacciones
Sumas de Cuadrados
SC para Tipo I Tipo II Tipo III y IV
A R(|) R(|,) R(|,,)
B R(|,) R(|,) R(|,,)
AB R(|,,) R(|,,) R(|,,)
Fuente: SAS Institute (1996). Advanced General Linear Models with an emphasis on mixed model. Course Notes. Chapter 5.
Tipo de Sumas de Cuadrado para un Modelo Bifactorial
;i 1,...,a; j 1,...,b; k 1..ijnijk i j ij ijkY
Como calcular las reducciones
XU A B C
X=U|A|B|C
R(|) = y’(P(UA) -P(U)) y
R(|,) = y’(P(UAB) -P(UA))y
R(|,,) = y’(P(X) -P(UAB))y
R(|,) = y’(P(UAB) -P(UB))y
R(|,,) = y’(P(X) -P(UBC))y
R( |,,) = y’(P(X) -P(UAC))y
Efecto Iguales ProporcionalesNo
proporcionalesCeldas vacias
A I=II=III=IV I=II, III=IV III=IV
B I=II=III=IV I=II, III=IV I=II, III=IV I=II
AB I=II=III=IV I=II=III=IV I=II=III=IV I=II=III=IV
Numero de observaciones por celda
Cuando los tipos se omiten implica que difieren de cualquier otro tipo
Fuente: SAS Institute (1996). Advanced General Linear Models with an enphasis on mixed model. Course Notes. Chapter 5.
Relaciones entre tipos de sumas de cuadrados para un modelo bifactorial
¿Que prueban las sumas de cuadrados?
Dieta Insulina Glucosaaspartame A 5.16aspartame A 4.92aspartame A 4.68aspartame B 4.50aspartame B 4.29aspartame B 4.50saccharin A 4.93saccharin B 4.42saccharin B 4.54sugar A 5.25sugar A 4.94sugar A 5.53sugar B 4.69sugar B 4.44sugar B 4.95
A B Total
Aspartame 3 3 6
Saccharin 1 2 3
Azucar 3 3 6
Total 7 8 15
Fuente:Advanced General Linear Models With an Emphasis on Mixed Models.Course Notes (1996). SAS, SAS Institute. Cap 5, pag 421-464
SC Dieta glTipo I 0.34261000 2Tipo II 0.28195124 2Tipo III,IV 0.28448258 2
¿Que prueban las sumas de cuadrados?..Para el efecto dieta según el tipo de sc.
Tipo I
H01: 0.511+ 0.512 - 0.531 - 0.532=0H02: 1/321+ 1/622 - 0.531 - 0.532=0
Tipo II
H01: 0.511+ 0.512 - 0.531 - 0.532=0H02: 0.068211+ 0.068212 +0.3636 21 +0.6364 22 - 0.431831 - 0.568231=0
Tipo III y IV
H01: 0.511+ 0.512 - 0.531 - 0.532=0H02: 0.5 21+0.522 - 0.531 - 0.531=0
A B
Aspartame 11 12
Saccharin 21 22
Azucar 31 32
A B Total
Aspartame 3 3 6
Saccharin 1 2 3
Azucar 0 3 3
Total 4 8 12
Fuente:Advanced General Linear Models With an Emphasis on Mixed Models.Course Notes (1996). SAS, SAS Institute. Cap 5, pag 469-480
SC Dieta glTipo III 0.10920516 2Tipo IV 0.11402083 2
Sumas de cuadrados, celdas vaciasDieta Insulina Glucosaaspartame A 5.16aspartame A 4.92aspartame A 4.68aspartame B 4.50aspartame B 4.29aspartame B 4.50saccharin A 4.93saccharin B 4.42saccharin B 4.54
sugar B 4.69sugar B 4.44sugar B 4.95
¿Que prueban las sumas de cuadrados?..Para el efecto dieta según el tipo de sc.
Tipo III
H01: 0.2511+ 0.7512 - 0.2521 + 0.2522 - 32 =0H01: -0.2511+ 0.2512 +0.2521 + 0.7522 - 32 =0
Tipo IV
H01: 12 - 22=0
H02: 22 - 32=0
A B
Aspartame 11 12
Saccharin 21 22
Sugar 32