If you can't read please download the document
Upload
duongdat
View
216
Download
0
Embed Size (px)
Citation preview
JOEL JORGE NUVUNGA
ANLISE DE FATORES PARA ENSAIOS
MULTIAMBIENTES SOB DIFERENTES
NVEIS DE DESBALANCEAMENTO USANDO
MODELOS MISTOS
LAVRAS-MG
2014
JOEL JORGE NUVUNGA
ANLISE DE FATORES PARA ENSAIOS MULTIAMBIENTES SOB
DIFERENTES NVEIS DE DESBALANCEAMENTO USANDO
MODELOS MISTOS
Dissertao apresentada Universidade Federal de Lavras como parte das exigncias do Programa de Ps-Graduao em Estatstica e Experimentao Agropecuria, rea de concentrao em Estatstica e Experimentao Agropecuria, para obteno do ttulo de Mestre.
Orientador
Dr. Renato Ribeiro de Lima
Coorientador
Dr. Marcio Balestre
LAVRAS-MG
2014
Nuvunga, Joel Jorge. Anlise de fatores para ensaios multiambientes sob diferentes nveis de desbalanceamento usando modelos mistos / Joel Jorge Nuvunga. Lavras : UFLA, 2014.
81 p. : il. Dissertao (mestrado) Universidade Federal de Lavras, 2014. Orientador: Renato Ribeiro de Lima. Bibliografia. 1. Interao gentipo-ambiente. 2. Varincia no estruturada. 3.
Adaptabilidade. 4. Estabilidade. 5. Fator analtico. I. Universidade Federal de Lavras. II. Ttulo.
CDD 519.535
Ficha Catalogrfica Elaborada pela Coordenadoria de Produtos e Servios da Biblioteca Universitria da UFLA
JOEL JORGE NUVUNGA
ANLISE DE FATORES PARA ENSAIOS MULTIAMBIENTES SOB
DIFERENTES NVEIS DE DESBALANCEAMENTO USANDO
MODELOS MISTOS
Dissertao apresentada Universidade Federal de Lavras como parte das exigncias do Programa de Ps-Graduao em Estatstica e Experimentao Agropecuria, rea de concentrao em Estatstica e Experimentao Agropecuria, para obteno do ttulo de Mestre.
Aprovada em 20 de Fevereiro de 2014.
Dr. Jlio Slvio de Souza Bueno Filho UFLA
Dr. Jos Arton Rodrigues Nunes UFLA
Dr. Marcio Balestre UFLA
Dr. Renato Ribeiro de Lima
Orientador
LAVRAS-MG
2014
Aos meus pais,
Jorge Nuvunga (In memoriam) e
Tahate Cossa,
que me ensinaram a importncia dos estudos
e em todos os momentos de dificuldade,
sempre me aconselharam.
Aos meus irmos exemplos de perseverana,
solidariedade e pela companhia constante, amizade,
pacincia e amor.
DEDICO
AGRADECIMENTOS
Universidade Federal de Lavras (UFLA) e ao Departamento de Cincias
Exatas (DEX), pela oportunidade concedida para a realizao do mestrado;
Aos meus orientadores, o Prof. Dr. Renato Ribeiro de Lima e Mrcio Balastre,
por ajudarem nos meus primeiros passos no Mestrado, pelo conhecimento
compartilhado, confiana no meu trabalho e apoio;
Ao Professor Doutor Carvalho Carlos Ecole, pelo apoio incondicional para esta
conquista e ao Doutor Manuel Amane pelo incentivo para continuar com os
estudos;
Aos Profs. Drs. Jlio Slvio de Sousa Bueno Filho, Daniel Ferreira Furtado, Jos
Airton Rodrigues Nunes, Joo Domingos Scalon, serei eternamente agradecido
pela pacincia, pelos ensinamentos e pela valiosa colaborao. Aos professores
do Departamento de Cincias Exatas da DEX/UFLA, obrigada pela amizade e
contribuio na minha formao;
Aos meus colegas do Mestrado, pelo constante apoio e amizade, a todos vocs
que fizeram parte deste meu aprendizado e de uma forma muito especial.
Agradeo a: Luciano Oliveira, Carlos Pereira, Andrezza Kellen, Fernando
Ribeiro, Carlos Muianga, Rafael Lemos, e Adriano Carvalho;
Aos meus irmos; Rita, Elisar, Marta, Alfredo, Matias, Jorge, Rute, Aida, Lcia
e Maria, pela amizade e companheirismo de toda vida;
A todos moambicanos em Lavras com os quais compartilhei os melhores
momentos e, em especial aos amigos Mateus Come e Chadreque Nhanengue,
pelo convvio e pacincia nos dois anos do Mestrado;
A Joaquim Uate, Edmundo Caetano, Bartolomeu Tanguene e Gilda Aparecida,
pela amizade e convivncia, durante minha estadia em Lavras;
Ao Momade lvaro, Noimilto Mindo, Bacar, Ldia e a todos que colaboraram
direta e indiretamente para esta conquista;
Ao Conselho Nacional de Desenvolvimento Cientfico e Tecnolgico (CNPq) e
Ministrio de Cincia e Tecnologia de Moambique (MCT) pelo apoio
financeiro.
RESUMO
Em ensaios de mltiplos ambientes comum a presena de dados desbalanceados, heterogeneidade de varincias e covarincias de resduos, que podem dificultar o trabalho de seleo do melhorista. Alm disso, a declarao de que um gentipo estvel, pode muitas vezes causar dvidas. Com o objetivo de avaliar as alternativas para o estudo da interao GE sob diferentes nveis de desbalanceamento, para este trabalho foram testados trs nveis de desbalanceamento em um conjunto de dados reais, adotando-se um modelo misto com varincia no estruturada (UN) e a validao cruzada para validar gentipos estveis. Foram considerados dados provenientes de ensaios multiambientes com 55 hbridos de milho, avaliados nos anos 2005 e 2006. As anlises foram feitas em dois estgios: no primeiro, os componentes de varincia foram estimados pelo mtodo da mxima verossimilhana restrita adotando o modelo mito, via algoritmo EM, enquanto que no segundo estgio aplicou-se a anlise FA (fator analtica) com objetivo de obter escores fatorais e a posio relativa de cada gentipo no biplot. Realizaram-se desbalanceamentos aleatrios nos dados, considerando nveis de 10%, 30% e 50% de parcelas perdidas e, em seguida, os escores foram reestimados utilizando o modelo FA. Os resultados mostraram que a anlise FA robusta na anlise de dados multiambientes (MET) sob diferentes nveis de perdas aleatrias nas parcelas, o que inclui os casos em que nem todos os gentipos so testados em todos os ambientes. Desbalanceamentos de 10%, 30% e 50% apresentaram valores mdios da correlao de 0,7; 0,6 e 0,56. De maneira geral, os gentipos considerados estveis no biplot apresentaram menor erro quadrtico de predio e menores elipses preditivas. Assim, os resultados permitem inferir que a soma de quadrados dos erros de predio PRESS poderia ser utilizada como alternativa para avaliar o desempenho de gentipos considerados estveis no biplot. Esse resultado se confirmou pela amplitude das elipses de predio, que foram menores nesses gentipos. Verificou-se que a anlise de fatores usando modelo misto robusta sob os diferentes nveis de desbalanceamento, com valores de correlao variando de mdio a alto, dependendo do nvel de perda estabelecido. Assim, no h dvidas quanto ao potencial desse tipo de anlise para avaliao da estabilidade no melhoramento de plantas. Palavras-chave: Interao GxE. Varincia no estruturada. Adaptabilidade. Estabilidade. Fator analtico.
ABSTRACT
It is common the presence of unbalanced data, and heterogeneity of residuals variances and covariances, which may become the work of plant breeders more difficult, mainly when it was considered multi-environment trials. Furthermore, the affirmation that a genotype is stable, under these conditions, may not be correct. However, aiming to evaluate the alternatives to study the genotype environment interaction (GE), under different unbalanced levels, it was carried out this study in which were assumed three different unbalanced levels on a real dataset, and it was adopted a mixed model with unstructured variance to analyse and to validate stable genotypes by using cross-validation. It was considered data from multi environment trials with 55 maize hybrids, assessed between 2005 and 2006. analyses were carried out in two stages: (i) the components of variance were estimated by considering restricted maximum likelihood method, using EM algorithm; and (ii) it was applied the factor analytic multiplicative mixed (FA) aiming to obtain factorial scores and relative position of each genotype in a biplot. Different unbalanced conditions were randomly performed by considering 10%, 30% and 50% of missed experimental units. Thus, the scores were estimated in different unbalanced conditions by using the FA-based analysis.. The results indicated that the FA-based analysis is robust to analyse data from multi environment trials (MET), under different levels of unbalancing, including cases in which not all genotypes are evaluated in all environments. Unbalancing of 10%, 30% and 50% showed correlation average of 0.7, 0.6, and 0.56, respectively. In general, genotypes which were considered stable in the biplot presented the lowest prediction square error and the smallest predictive ellipses. With these results, it is inferred that the Residuals The prediction error sum of squares (PRESS) could be an alternative method to evaluate the performance of genotypes considered stable in the biplot,what it was confirmed by the amplitude of the predictive ellipses. Furthermore, the factor analytic multiplicative mixed model analysis is robust under different unbalanced levels, with values of correlation raging from medium to high, depending on the established level of losses. Therefore, this type of analysis is proper and has potential to use in the assessing stability in programs of plant breeding.
Keywords: Interaction genotype environment. Unstructured variance. Adaptability. Stability. Factor analytic multiplicative mixed model.
SUMRIO 1 INTRODUO .......................................................................................... 6
1.1 Objetivo Geral ............................................................................................ 8
1.2 Objetivos Especficos ................................................................................. 9
2 REVISO DE LITERATURA ............................................................... 10
2.1 Modelos mistos multivariados (MMM) ................................................. 10
2.2 Anlise de fatores (AF) ............................................................................ 13
2.3 Efeitos de gentipos fixos ou aleatrios .................................................. 15
2.4 Predio dos efeitos aleatrios (G e GxE) .............................................. 17
2.5 Interao Gentipo x Ambiente (G x E) ................................................ 19
2.6 Estrutura Fator Analtica........................................................................ 34
2. 7 Seleo dos modelos FAMM ................................................................... 38
2.10 Tcnica da elipse de confiana ................................................................ 43
2.11 Elipses de confiana para predio ........................................................ 44
3 MATERIAL E MTODOS ..................................................................... 48
3.1 Material..................................................................................................... 48
3.2 Mtodos ..................................................................................................... 49
4 RESULTADOS E DISCUSSO ............................................................. 57
4.1 Resultados ................................................................................................. 57
4.1.1 Diagnsticos do modelo sob diferentes nveis de desbalanceamento e validao cruzada. .................................................................................. 61
4.2 Regies de confiana para a predio dos escores ................................ 65
4.2 Discusso ................................................................................................... 68
4.2.1 Estrutura da matriz de varincias e covarincias................................. 69
4.2.2 Estruturas de erro .................................................................................... 70
4.2.3 Diagnsticos do modelo sob diferentes nveis de desbalanceamento e validao cruzada. .................................................................................. 71
5 CONCLUSO ......................................................................................... 73
REFERNCIAS ..................................................................................... 74
6
1 INTRODUO
A identificao de gentipos com alta produtividade e estabilidade de
produo e ampla adaptabilidade aos mais variados ambientes um dos
principais objetivos dos programas do melhoramento gentico. Entretanto, essa
seleo afetada pela interao G x E. Existem diferentes metodologias
destinadas avaliao da interao G x E, em que a escolha de um mtodo
depende dos dados experimentais, especialmente do nmero de ambientes
disponveis, da preciso requerida e do tipo de informao desejada. Alm disso,
existem mtodos alternativos e complementares que podem ser utilizados
conjuntamente (CRUZ; REGAZZI; CARNEIRO, 2004).
Uma das metodologias utilizadas na avaliao da interao G x E
baseada em anlise multiplicativa, que explora a resposta dos gentipos em
ambientes especficos, descrevendo a interao G x E de uma forma mais
criteriosa (RESENDE, 2004). A vantagem dos mtodos multiplicativos reside na
possibilidade de agrupamento de ambientes e gentipos semelhantes, permitindo
tambm a identificao dos gentipos com maior potencial em cada subgrupo de
ambientes, por meio do grfico biplot.
Nos mtodos multiplicativos, os dados MET (multiambientes) so
frequentemente analisados em duas etapas: na primeira, os efeitos dos gentipos
so estimados separadamente para cada ensaio e, na segunda so combinados
para formar os dados para uma anlise geral. A abordagem de dois estgios
uma aproximao anlise conjunta dos dados brutos de todos os ensaios. Se
existe uma heterogeneidade de varincia do erro entre os ensaios e ou repetio
desigual nos ensaios, essa aproximao pode ser ruim. Uma alternativa o uso
do modelo misto, com efeitos principais de gentipos e ambientes (pelo menos
um dos quais aleatrio) e interao G x E aleatria (PATTERSON et al.,
1977). Essa interao geralmente assumida como um conjunto de efeitos
aleatrios independentes com varincias constantes. Porm, a validade dessas
suposies questionvel. Segundo Smith, Cullis e Thompson (2001), muitos
autores, incluindo Patterson e Nabugoomu (1992), reconhecem a possibilidade
7
da existncia da heterogeneidade de varincia. Nesse contexto, modelos que
contemplem essa heterogeneidade de varincia para interao G x E e
relaxamento da suposio de independncia podem ser necessrios.
Dentre os mtodos propostos destacam-se o uso de dois modelos mistos
multiplicativos: AMMI - additive main effects and multiplicative interactions e
FAMM - factor analytic multiplicative mixed models. Dentre esses modelos, o
que vem sendo mais utilizado na anlise de dados de MET so os modelos
mistos multiplicativos de fator analtico (que consideram aleatrios os efeitos
dos gentipos e interao G x E). Esses modelos foram propostos por Piepho
(1997) e, mais tarde, foram designados FAMM (ou simplesmente FA) por
Resende e Thompson (2004). Os modelos FA foram propostos em detrimento
aos AMMI devido ao fato desses ltimos apresentarem pelo menos cinco
grandes limitaes: consideram os efeitos de gentipo e de G x E como fixos;
so adequados apenas para dados balanceados; no consideram a variao
espacial dentro dos ensaios; no consideram a heterogeneidade de varincia
entre ensaios e no consideram os diferentes nmeros de repeties nos ensaios.
No entanto, estas so caractersticas geralmente encontradas em experimentos
de campo. Por essas razes, o FAMM com efeitos aleatrios de gentipo e de G
x E, conceitualmente e funcionalmente superior ao AMMI.
Kelly et al. (2007), Piepho (1998) e Smith, Cullis e Thompson (2001,
2005), mostraram a superioridade dos modelos FAMM, no estudo da interao
G x E. Contudo, os estudos propostos por estes autores limitaram-se a comparar
modelos e estrutura da matriz de varincias e covarincias genticas, na presena
de heterogeneidade de varincias. Apesar de terem demonstrado que esses
modelos so adequados para estudo da interao G x E na presena de
desbalanceamento dos dados (nem todos os gentipos cultivados em todos
locais), nenhum desses estudos avaliou a robustez do modelo FA na presena de
alto ndice de desbalanceamento (por perda de parcelas, gentipo ou bloco).
Recentemente Crossa et al. (2011b) verificara a robustez dos modelos FA na
presena de desbalanceamentos, sem, contudo testar diferentes nveis de perda.
8
Apesar do grande atrativo dessa tcnica no melhoramento de plantas,
uma das dificuldades encontradas por pesquisadores na adoo dos modelos FA
refere-se a sua implementao computacional, pois os pacotes disponveis, no
exploram o modelo de regresso em que assenta o modelo FA (SMITH;
CULLIS; THOMPSON, 2001). Por conseguinte, as equaes do modelo misto
so relativamente densas, reduzindo seriamente a velocidade computacional das
anlises para conjuntos de dados com um grande nmero de ambientes ou
quando se ajusta a varincia de modelos fator analticos com vrios fatores
(THOMPSON et al., 2003). Visando melhorar a estabilidade computacional,
Thompson et al. (2003) sugeriram a aplicao de matrizes esparsas na estrutura
FA, porm, sua implementao tambm computacionalmente intensiva como
pode ser observado nos doze passos propostos pelos autores. O outro problema
prtico com o modelo FA a ocorrncia frequente dos casos Heywood, onde
alguns parmetros da estrutura FA tornam-se nulos ou negativos, o que pode
prejudicar a anlise (SILVA; DUTKOWSKI, 2006; SMITH; CULLIS;
THOMPSON, 2001; THOMPSON et al., 2003). Nesse sentido, uma das formas
de confirmar as estabilidades de gentipos descritas em biplots em seria por
meio de validao cruzada (LAVORANTI, 2003; YANG et al., 2009) utilizando
a estatstica da soma de quadrados dos erros de predio (PRESS). Uma vez que
nessa abordagem o desbalanceamento no destri a estrutura de interao como
verificado em anlises bootstrap de AMMI ou GGE (LAVORANTI, 2003;
YAN, 2010; YANG et al., 2009), a preciso das elipses de confiana obtidas na
validao cruzada tem interpretao gentica direta em termos de estabilidade,
ou seja, quanto menos sensvel o desempenho de gentipo em relao a sua
perda em ambientes contrastantes, mas estvel podemos considerar esse
gentipo.
1.1 Objetivo Geral
Avaliar o desempenho da anlise MET (multiambientes) no estudo da interao
G x E sob os diferentes nveis de desbalanceamento (por perda de parcelas)
usando modelo misto multivariado.
9
1.2 Objetivos Especficos
a) Aplicar o modelo misto multivariado com o propsito de analisar a
estrutura da matriz de varincias e covarincias das e interaes
gentipo x ambiente na presena de dados balanceados e
desbalanceados;
b) Aplicar a estrutura fator analtico (FA) como forma de avaliar a
estabilidade e adaptabilidade dos gentipos;
c) Determinar regies de confiana de predio dos escores genotpicos
(blups) nos diferentes nveis de desbalanceamento.
10
2 REVISO DE LITERATURA
Nesta seo, apresentada uma reviso de literatura, que visa a abordar
os conceitos, bsicos sobre a anlise de fatores, modelos mistos, interao
gentipo por ambiente, mtodos de estudo do gentipo por ambiente e mtodos
de validao cruzada.
2.1 Modelos mistos multivariados (MMM)
O modelo misto multivariado uma extenso do modelo linear
multivariado. Isto significa que o modelo pode ser estimado adicionando um
componente aleatrio, assumindo que cada um dos elementos de Y tem uma
correlao sistemtica com a parte linear do modelo.
A anlise simultnea de vrios caracteres visando estimar a estrutura de
covarincia ou correlao e tambm a predio de valores genticos para fins de
seleo realizada de maneira eficiente pelo procedimento REML/BLUP
(multitrait) multivariado ou pela anlise multivariada no estruturada. Nesse
caso, o modelo multivariado especificado de forma a contemplar a covarincia
ambiental existente entre os caracteres (RESENDE, 2002, 2007).
Os modelos multivariados destinam-se avaliao de indivduos,
simultaneamente para dois ou mais caracteres e apresentam grande relevncia no
contexto de seleo envolvendo agregados genotpicos.
A combinao de tcnicas de anlise multivariada com os modelos
mistos importante para a anlise de mltiplos caracteres, mltiplos
experimentos e, em alguns casos, medidas repetidas. Dentre as tcnicas
multivariadas, a anlise de fatores tem se destacado, se mostrando muito
eficiente na anlise de dados MET quando associada aos modelos mistos.
A tcnica de anlise de fatores associada ao modelo misto designada
FAMM (factor analytic mixed multiplicative mixed) que mais indicada para
anlise de mltiplos experimentos. A anlise de fatores enfatiza a atribuio da
covarincia entre variveis a fatores comuns. Isto relevante quando as
11
variveis referem-se a ambientes ou experimentos e todos os ambientes so
alvos da anlise e no apenas aqueles que mais contribuem para a variao total.
Por outro lado, a covarincia ou correlao entre ambientes, atribudas a fatores
comuns considera a similaridade e dissimilaridade entre ambientes, o que uma
propriedade interessante nesse contexto (RESENDE; THOMPSON, 2004).
Definio do modelo
O modelo para uma anlise multivariada se assemelha a empilhar
modelos univariados para cada um dos caracteres (MRODE; THOMPSON,
2005). Por exemplo, considere uma anlise multivariada para dois caracteres,
com o modelo para cada caracterstica dada em (1), isto , para um carter
(ambiente 1):
1 1 1 1 1 1y X b Z u e= + + : (1)
E para o ambiente 2:
2 2 2 2 2 2y X b Z u e= + + (2)
em que:
iy vetor de observaes para o caractere i, ib vetor de efeitos fixos para do
ambiente i, i = vetor dos efeitos aleatrios de gentipo para o ambiente i, i
vetor de efeitos residuais aleatrios para o ambiente i, e iX e iZ so matrizes de
incidncia relativas para os efeitos fixos e efeitos aleatrios do gentipo,
respectivamente, para o ambiente i.
Se os gentipos so ordenados dentro de cada ambiente, o modelo de
anlise multivariada para os dois ambientes pode ser escrito como:
1 1 1 11 1
2 22 2 2 2
0 00 0
y b u eX ZX Zy b u e
= + + (3)
assumido que:
12
1 11 12
2 21 22
11 121
21 222
0 00 0
0 00 0
u I Iu I I
VarR ReR Re
s ss s
=
, (4)
em que ijsI so elementos de G-matriz de varincias e covarincias genticas,
11s = varincia gentica aditiva para efeitos diretos para o ambiente 1; 12s =
21s = covarincia gentica aditiva entre os dois ambientes, 22s = varincia
gentica aditiva para efeitos diretos para o ambiente 2; a matriz identidade e,
= matriz de varincia e covarincia para os efeitos residuais.
As equaes do modelo misto multivariado (MMM) so da mesma
forma como as do caso univariado, e estas so os seguintes:
1 1 1
1 1 1 1
X R X X R Z X R ybuZ R X Z R Z G Z R y
- - -
- - - -
+
= , (5)
em que:
1
2
00X
XX
= ; 1
2
00Z
ZZ
= ; 1
2
b
bb
=
e 1
2
u
uu =
.
Escrevendo as equaes para cada um dos ambientes no modelo
separadamente, o MME
torna-se:
1 11 1 1 11 21 11 1 1 12 2 1 11 1 1 12 2 1
22 12 1 2 22 2 2 12 1 2 22 2 2
1 11 1 1 12 2 1 11 1 11 1 12 2 12 1 2 21 1 2 22 2 1 21 1 21 2 22 2 22 2
X R y X R yX R X X R X X R Z X R Z bXX R X X R X X R Z X R Z b
Z R X Z R X Z R Z I Z R Z I uX R X Z R X Z R Z I Z R Z I u
s ss s
+
= + + + +
12 1 2 22 2
1 11 1 1 12 2 2 21 1 2 22 2
(6)R y X R yZ R y Z R yX R y Z R y
+ + +
E a soluo dada por:
1 1 11 1 1 11 21 11 1 1 12 2 1 11 1 1 12 21
2 12 1 2 22 2 2 12 1 2 22 22 1 11 1 1 12 2 1 11 1 11 1 12 2 121 2 21 1 2 22 2 1 21 1 21 2 22 2 222
X R y X R yX R X X R X X R Z X R ZbX R X X R X X R Z X R ZbZ R X Z R X Z R Z I Z R Z IuX R X Z R X Z R Z I Z R Z Iu
s ss s
- +
= + + + +
2 12 1 2 22 2 1 11 1 1 12 2 2 21 1 2 22 2
(7)X R y X R yZ R y Z R yX R y Z R y
+ + +
13
Deve-se notar que, se R12, R21, e 12s = 21s so ajustados para zero, as matrizes
nas equaes acima reduzem ao habitual modelo em que se realizam anlises de
um nico ambiente (modelo univariado) j que os dois ambientes tornam-se no
correlacionados (MRODE; THOMPSON, 2005).
2.2 Anlise de fatores (AF)
A anlise de fatores ou anlise fatorial um nome genrico dado a uma
classe de mtodos estatsticos multivariados cujo propsito principal definir a
estrutura subjacente e explicar o comportamento de um nmero relativamente
grande de variveis observadas, em termos de um nmero relativamente
pequeno de variveis latentes ou fatores em uma matriz de dados (HAIR
JUNIOR et al., 2005). Em termos gerais, a anlise de fatores aborda o problema
de analisar a estrutura das inter-relaes (correlaes) entre um grande nmero
de variveis, definindo um conjunto de dimenses latentes comuns, chamado de
fatores. Com a anlise fatorial, o pesquisador pode primeiro identificar as
dimenses separadas da estrutura, e ento determinar o grau em que cada
varivel explicada por cada dimenso. Uma vez que essas dimenses e a
explicao de cada varivel estejam determinadas, os principais objetivos da
anlise fatorial so conseguidos, isto , a reduo ou resumo de dados e o estudo
da variao em uma quantidade de variveis originais usando um nmero menor
de fatores (JOHNSON; WICHERN, 2007).
Os fatores podem ser no correlacionados (fatores ortogonais) ou
correlacionados (fatores oblquos). As variveis so agrupadas por meio de suas
correlaes, ou seja, aquelas pertencentes a um mesmo grupo sero fortemente
correlacionadas entre si, mas pouco correlacionadas com as variveis de outro
grupo. Cada grupo de variveis representar um fator (JOHNSON; WICHERN,
2007).
Seja Z um vetor de variveis aleatrias, com matriz de covarincia ,
pode-se representar o modelo fatorial como:
14
Z=+ +f , (8)
em que
: representa o vetor de mdias;
: matriz qxm de cargas fatoriais;
f : vetor 1mx de fatores comuns;
: o vetor 1qx de varincias especficas;
Na forma mais comum de anlise fatorial, as colunas de so
ortogonais, ou seja, 0 jg g = para i j , em que ig a i-sima coluna de .
Da que os elementos de f so no correlacionados. Alm disso, os fatores
comuns so assumidos ter varincia unitria, isto , ( )Var I=f . As colunas
ig so determinadas como os autovetores correspondentes de , escalado pela
raiz quadrada dos respectivos autovalores. No entanto, no nico e
frequentemente alvo de uma transformao ortogonal para se obter cargas
fatoriais interpretveis, ao invs daqueles derivados a partir dos autovetores.
Finalmente, os fatores especficos (erros) id so assumidos como distribudos de
forma independente com varincias heterogneas iy , sendo os vetores f e
no correlacionados. Isso d a matriz de covarincia de Z sob o modelo de FA:
FA( ) =+Var =Z , (9)
em que
i = diag( ) uma matriz diagonal de varincias especficas. Isto implica que
todas as covarincias entre os nveis de Z so devidos aos fatores comuns,
enquanto que os fatores especficos explicam a variao adicional de elementos
individuais de Z (MEYER, 2009). Para m fatores comuns, este descreve
( 1) / 2q q +
elementos de FAS por meio de ( 1) / 2p q mq m m= + - -
parmetros, que consistem em q varincias especficas iy e (2 1) / 2m q m- +
15
elementos de e os restantes ( 1) / 2m m- elementos determinados por
restries de ortogonalidade.
Para valores pequenos de m , um modelo FA oferece uma maneira
parcimoniosa de modelar as covarincias entre um considervel nmero de
variveis. Como p no pode exceder o nmero de parmetros no caso no
estruturado, o nmero de fatores comuns ( 1) / 2q q + que podem ser definidos
restrito.
Se todas as varincias especficas iy so diferentes de zero, o nmero
mnimo de caractersticas para as quais imposta uma estrutura FA para reduo
no nmero de parmetros q = 4. A estrutura FA para a varincia de Z mais
apropriada se todos os caracteres q envolvidos so correlacionados de forma
relativamente uniforme. Nesse caso, um pequeno nmero de fatores,
geralmente suficiente para modelar as covarincias entre os elementos de Z . O
modelo FA inclui muitas estruturas de covarincia corriqueiramente utilizadas
para modelar problemas de interao G x E em casos especiais. O mais simples
cenrio a estrutura de simetria composta, ou seja, 2 11 Is y= + , que um
modelo de FA com um nico fator comum e 1s= (onde 1 refere-se a um
vetor com todos os elementos igual um) e varincias especfica iguais y para
todas as variveis (MEYER, 2009). Jennrich e Schluchte (1986) propuseram
uma estrutura FA como opo para modelar as covarincias de dados entre
medidas repetidas e exemplos tpicos em que tal modelo seja adequado so
aquelas em que as mesmas medidas so tomadas em diferentes circunstncias
(como diferentes locais para interao G X E).
2.3 Efeitos de gentipos fixos ou aleatrios
A classificao dos efeitos de gentipo em fixo ou aleatrio interfere
diretamente na definio do modelo e, consequentemente, na utilizao de
diferentes funes para ranquear os gentipos. Embora a distino entre as duas
16
abordagens (fixos vs aleatrio) possa parecer sutil e at mesmo semntica, eles
levam diferentes modelos lineares e, portanto, diferentes funes dos dados
que so utilizados para classificar os gentipos. Isto resulta em diferentes
propriedades dos critrios de classificao entre as abordagens- aleatrias e fixas
(WHITE; HODGE, 1989).
Se gentipos so tomados como fixos as suas mdias sero estimadas
usando os melhores estimadores lineares no viesados (BLUEs) baseados em
mnimos quadrados generalizados e caso sejam considerados aleatrios sero
usados melhores preditores lineares no viesados (BLUPs) (FISCHER et al.,
2009; HENDERSON, 1984; SEARLE; CASELLA; MCCULLOCH, 1992).
A suposio de que efeitos de gentipos sejam aleatrios tem sido
debatida na literatura. Um argumento, contra, essa suposio que os gentipos
geralmente no so uma amostra aleatria de uma populao definida, j que,
gentipos em teste so o resultado de um processo de seleo. Embora, na
maioria dos casos isto seja verdade pode-se considerar que os gentipos em teste
so uma amostra aleatria de alguma populao hipottica de gentipos que
poderiam ter surgido como um resultado do processo de seleo levando aos
gentipos atualmente disponveis (PIEPHO; MHRING, 2006, 2010).
Se os efeitos de gentipos so tomados como aleatrios ou como fixos
depende da finalidade da anlise (SMITH; CULLIS; THOMPSON, 2001, 2005)
e sobre a forma como os gentipos foram gerados. Se o interesse for na
estimativa da mdia de gentipos, so tomados como fixo. Se o foco est em
predizer o valor gentico potencial dos gentipos em futuros experimentos, estes
podem ser considerados como aleatrios de uma populao base (FISCHER et
al., 2009; HENDERSON, 1984; RESENDE, 2007).
No melhoramento de plantas a predio de valores genticos de
interesse, mas devido seleo, e assegurar condies ideais a populao-base
como, cruzamentos ao acaso, equilbrio de ligao e falta de endogamia, ela no
existe (FISCHER et al., 2009; PIEPHO et al., 2008). At agora, os melhoristas
de plantas, muitas vezes vem tratando gentipos como um efeito fixo, ignorando
todas as covarincias entre os gentipos oriundos de descendncias ou processo
de avaliao. Assumindo gentipos como efeitos aleatrios, possvel obter
17
predies dos gentipos e dos efeitos da interao aleatria GxE. Alm da
separao de efeitos genticos em aditivos e no aditivos (PIEPHO; MHRING,
2010). A desvantagem de tomar o efeito gentico como aleatrio a exigncia
de se estimar um componente de varincia. Se h pouca informao para estimar
o componente de varincia, tanto a estimativa de componentes de varincia e os
BLUPs so incertos. Assim, Searle, Casella e McCulloch (1992) propuseram a
considerar os efeitos como aleatrios, se o nmero de gentipos for grande.
Eeuwijk (1995) sugeriu ter pelo menos dez graus de liberdade para estimar os
componentes de varincia.
2.4 Predio dos efeitos aleatrios (G e GxE)
A predio de uma observao futura um problema que tem sido
extensivamente estudado.
Os valores genticos so variveis aleatrias no observveis, preditas a
partir dos valores fenotpicos observveis, comumente usados nos programas de
melhoramento de plantas. A sua predio, que pode ser feita de forma pontual
ou intervalar, deve ser precisa e acurada, pois aumentam os ganhos pretendidos,
diminuindo as possibilidades de erro na seleo (PINTO JNIOR, 2004). A
predio pontual fornece os valores genticos preditos, ao passo que a intervalar
inclui os intervalos de confiana dos valores e dos ganhos genticos, propiciando
uma recomendao mais segura dos indivduos envolvidos e, portanto, deve ser
preferencial (RESENDE, 2002).
Os valores genticos preditos, entretanto, no so iguais aos valores
genticos verdadeiros dos indivduos. Conforme Vleck, Pollak e Oltenacu
(1987), a proximidade entre esses dois pode ser avaliada com base na estatstica
denominada acurcia, a qual se refere correlao entre os valores genticos
preditos e verdadeiros dos indivduos.
Resende (2002) argumenta que o sucesso do melhoramento gentico
depende da adoo de procedimentos de seleo acurados, e que a estruturao
dos mesmos baseia-se na estimao dos componentes de variao e predio dos
18
valores genticos visando avaliao gentica dos candidatos a seleo. O
procedimento timo de predio de valores genticos e seleo. usado no
melhoramento de espcies o BLUP (Best Linear Unbiesed Prediction) para
dados balanceados e desbalanceados. O BLUP ajusta os dados para efeitos
ambientais identificveis e simultaneamente prediz os valores genticos dos
indivduos. Pois os BLUPs so calculados com base na verdadeira forma para a
matriz de varincia e covarincias gentica.
A seleo geralmente exercida em vrios caracteres. No melhoramento
animal, a fim de evitar o vis devido seleo, comum realizar as anlises
utilizando modelo misto multicaracter (multitrait mixed model) (HENDERSON;
QUAAS, 1976; MRODE, 1996; PIEPHO et al., 2008). Neste contexto, para a
predio dos efeitos aleatrios, tm-se usado o BLUP Multicaracter
(multivariado) por apresentar vantagem quando os caracteres so altamente
correlacionados. Entretanto, essa abordagem apresenta a desvantagem de poder
tornar as equaes do modelo misto muito extensas.
No melhoramento vegetal a abordagem multivariada tem sido utilizada
com culturas perenes, sendo muito raro no melhoramento de culturas anuais
(PIEPHO et al., 2008). Simeo et al. (2002) utilizaram BLUP multivariado
considerando ambientes como caracteres diferentes em erva-mate (Ilex
paraguariensis). O BLUP multivariado considera adequadamente a questo da
interao G x E e heterogeneidade de varincias, permitindo tambm explorar as
diferentes herdabilidades entre os ambientes.
Embora o modelo misto multivariado seja o procedimento mais
recomendando para lidar com heterogeneidade de varincias e interao G x E,
uma possvel heterogeneidade de varincia entre blocos dentro de locais no
levada em considerao. Este fato pode conduzir seleo de maior nmero de
indivduos nos blocos, mais variveis fenotipicamente, o que incorreto quando
na verdade a herdabilidade nesses blocos no superior (RESENDE, 2007).
Na prtica, os componentes de varincia devem ser estimados com a
maior preciso possvel, empregando-se o procedimento padro no contexto dos
modelos lineares mistos, que o da mxima verossimilhana restrita (REML),
19
conforme Searle, Casella e McCulloch (1992). Tal procedimento permite a
seleo de indivduos com os maiores valores genticos, independentemente de
sua procedncia, sendo esta a estratgia mais plausvel em termos seletivos, em
detrimento da seleo de procedncias (RESENDE, 2007).
O impacto da escolha do modelo na predio dos efeitos G x E tem sido
considerado por Crossa et al. (2006), Kelly et al. (2007) e Piepho (1998), onde
as tcnicas de validao cruzada em cinco conjuntos de dados MET foram
utilizados para comparar BLUPs baseado em uma gama de modelos, em termos
da sua preciso preditiva para "preencher" as clulas na tabela G x E. Os
modelos considerados incluem fator analtico (FA), e modelos de varincia no
estruturadas (UN). Kelly et al. (2007) e Piepho (1998) concluram que a preciso
de previso BLUPs a partir dos modelos de FA foi superior do modelo
uniforme, mas os resultados tambm parecem indicar que eles so geralmente
inferiores dos modelos de varincia no-estruturada. Note-se que para o
modelo FA no Piepho (1998), uma varincia comum foi assumida pela falta
ajuste, enquanto Smith, Cullis e Thompson (2001) permitiu uma separao (a
chamada especificao) de varincia para cada ensaio.
2.5 Interao Gentipo x Ambiente (G x E)
Os experimentos multi-locais ou multiambientes (MET) so um tipo
especial de experimentos, muito usados em melhoramento gentico de plantas,
nos quais alguns gentipos so avaliados em diferentes locais. Nesses estudos
comum encontrar-se uma resposta diferenciada na resposta dos gentipos aos
diferentes ambientes, que recebe o nome de interao gentipo x ambientes ou G
x E.
Na presena da interao, os resultados das avaliaes podem variar de
um ambiente para o outro, ocasionando mudanas na posio relativa dos
gentipos ou mesmo na magnitude das suas diferenas.
Para Santos (2009) e Vencovsky e Barriga (1992) muito importante o
conhecimento da interao G x E, seja do tipo gentipos x locais ou gentipos x
20
anos ou outros, pois estes orientam o planejamento e adoo de estratgias do
melhoramento e recomendao de cultivares, alm de ser determinante na
estabilidade fenotpica dos gentipos para uma regio.
O conhecimento da interao G x E de extrema importncia nos
programas de melhoramento, pois o seu conhecimento permite a seleo de
gentipos com ampla adaptao ou especfica, escolher o local da seleo e
determinar o nmero ideal de ambientes e gentipos para seleo (FOX;
CROSSA; ROMAGOSA, 1997; SANTOS, 2009).
a) A interao G x E
O carter de um indivduo o conjunto de informaes biolgicas que o
identifica. As diferentes manifestaes de um dado carter definem o fentipo
(F). O fentipo por sua vez, influenciado pelo gentipo (G), que a
constituio gentica de um indivduo, e pelo ambiente (E) que pode ser
definido como o conjunto das condies que afetam o crescimento e
desenvolvimento do organismo (RAMALHO et al., 2012).
O F funo do G, do E e da interao G x E. Esse ltimo componente
ocorre devido diferenciao do comportamento dos gentipos nos vrios
ambientes de cultivo.
No processo de avaliao e desenvolvimento de cultivares, o
conhecimento da interao G x E de grande importncia para a seleo e/ou
indicao dos cultivares para os diferentes ambientes de cultivo.
A existncia ou no da interao G x E est representada nas Figuras 1,
2 e 3, onde esto exemplificadas quatro situaes de respostas das cultivares as
condies ambientais. Na Figura 1 os gentipos apresentam desempenhos
relativos semelhantes nos dois ambientes (E1 e E2). Portanto, no h interao e
a recomendao do melhor gentipo a mesma para os dois ambientes.
21
Figura 1 Comportamento de dois gentipos (G1 e G2) em duas condies
ambientais (E1 e E2) com ausncia de interao
Na Figura 2 o desempenho relativo dos dois gentipos (G1 e G2)
diferente nos dois ambientes, pois o G1 tem resposta mais acentuada melhoria
do ambiente, considerando-se o E2 melhor do que El. Neste caso ocorre
interao. No entanto, no um grande problema, porque a classificao dos
gentipos nos dois ambientes no alterada e, por esta razo, denominada de
interao simples. Os dois gentipos podero ser recomendados para os dois
ambientes ou ser recomendado somente o melhor gentipo no caso de a
diferena ser suficientemente grande para tal.
Figura 2 Comportamento de dois gentipos (G1 e G2) em duas condies ambientais (E1 e E2) com interao simples ou quantitativa
Na Figura 3 (a e b) observa-se uma inverso de comportamento das
cultivares nos dois ambientes. O G1 foi superior no El e inferior no E2 (figura
3a). Esta corresponde a uma situao de interao complexa (cruzada ou
22
qualitativa), onde normalmente, existe um gentipo mais adaptado para cada
ambiente especfico. Nessa Figura 3 pode-se observar que o G1 mais indicado
para o El e o G2 para o E2.
(a) (b)
Figura 3 Comportamento de dois gentipos (G1 e G2) em duas condies ambientais (E1 e E2) com interao cruzada ou qualitativa
As respostas diferenciadas dos gentipos s variaes ambientais tais
como, oscilao de temperatura, altitude, ocorrncia de doenas, tipo e
fertilidade do solo, entre outras, so atribudas s diferentes constituies
genotpicas de cada material, que conferem maior ou menor adaptabilidade e
estabilidade de produo.
Quando se consideram vrios gentipos avaliados em vrios ambientes,
a combinao de situaes como as das Figuras 1, 2 e 3 formam um emaranhado
de situaes, difcil de ser interpretado, exigindo mtodos adequados de anlise
da interao G x E.
Existe uma concordncia geral entre melhoristas de plantas de que a
interao G x E tem um importante significado para a obteno de variedades
superiores. Porque a existncia da mesma produz uma barreira de dificuldades
aos melhoristas na identificao de gentipos superiores, tanto no processo de
23
seleo, quanto no processo de recomendao de cultivares. Essa interao
indica que o comportamento dos gentipos nos experimentos depende
principalmente das condies ambientais a que so submetidos. Assim, a
resposta obtida de um gentipo, em comparao a outro, varivel, sendo que
essas variaes se apresentam devido mudana de ambientes (ARAJO;
DIAS, 2006).
b) Adaptabilidade e estabilidade
A presena da interao G x E interfere de forma intensa nos programas
de melhoramento, pois em uma situao ideal as cultivares deveriam possuir
adaptabilidade a vrios ambientes e terem boa estabilidade. Porm, o fator
interao faz com que, na maioria das vezes, as cultivares sejam indicadas a
ambientes especficos, por possurem maior adaptabilidade em algumas
condies ambientais (CAMPBELL; JONES, 2005). O termo adaptabilidade
refere-se capacidade dos gentipos responderem de forma positiva ao estmulo
do ambiente, enquanto a estabilidade refere-se capacidade dos gentipos
desempenharem um comportamento previsvel em funo do estmulo do
ambiente (CRUZ; REGAZZI; CARNEIRO, 2004).
A conduo de experimentos em vrios locais necessria para a
quantificao da interao G x E. Os estudos dos parmetros de adaptabilidade e
estabilidade fenotpica dos gentipos tm sido de grande contribuio nesse
aspecto, pois fornecem informaes sobre o comportamento de cada gentipo
em vrias condies ambientais (CRUZ; REGAZZI; CARNEIRO, 2004).
Diferentes metodologias para avaliar a adaptabilidade e a estabilidade
tm sido desenvolvidas e/ou aprimoradas. Tais procedimentos se baseiam em
anlises de varincia, regresso linear, regresso no linear, anlise multivariada
e estatstica no paramtrica (CROSSA, 1990).
Na prtica, os programas de melhoramento gentico envolvem, pelo
menos, trs etapas: escolha dos parentais que daro origem populao base;
24
seleo das prognies superiores dessa populao; e sua avaliao em um grande
nmero de ambientes.
Quando se avaliam materiais geneticamente distintos, em uma srie de
ambientes, o componente interao G x E aparece, normalmente, afetando o
ganho com a seleo (MAIA et al., 2009).
Adaptaes especficas de gentipos a ambientes, de acordo com Gauch
e Zobel (1996), podem fazer a diferena entre uma boa e uma excelente cultivar.
Pela mesma razo, sob o ponto de vista de recursos genticos, a explorao
dessa interao interessante para manter a variabilidade gentica da espcie.
Contudo, para que seja possvel tirar proveito desses efeitos positivos, de acordo
com Duarte e Zimmermam (1995), preciso se dispor de metodologias
estatsticas adequadas para se estimar e explorar a interao, permitindo, assim,
recomendaes regionalizadas.
Resende (2004) salienta que um modelo multivariado, considerando-se
todos os locais simultaneamente, adequado para a seleo, tendo como alvo a
produtividade mdia ao longo de todos os ambientes. No entanto, para o mesmo
autor, um modelo mais completo pode permitir inferncias adicionais, tais como:
seleo de gentipos especficos para cada local; seleo de gentipos estveis
por meio dos locais; seleo de gentipos responsivos (com alta adaptabilidade)
melhoria do ambiente; e seleo pelos trs atributos (produtividade,
estabilidade e adaptabilidade). Simultaneamente, esse tipo de seleo pode ser
realizado pelo mtodo da mdia harmnica da performance relativa dos valores
genticos (MHPRVG), que classifica os efeitos genotpicos como aleatrios e,
portanto, fornece estabilidade e adaptabilidade genotpica e no fenotpica.
Existem atualmente vrias metodologias de anlise de adaptabilidade e
estabilidade citadas na literatura. Cargnelutti Filho et al. (2009) classificaram
essas metodologias em:
1) as que so baseadas em anlise de varincia e do informao sobre a
estabilidade dos gentipos avaliados;
25
2) aquelas que usam a regresso linear e informam sobre a
adaptabilidade e a estabilidade dos gentipos;
3) as que se baseiam na regresso bissegmentada no-linear e linear;
4) as de estatsticas no-paramtricas, e
5) as que analisam os efeitos principais aditivos e a interao
multiplicativa (AMMI).
Todas elas do informaes importantes. No entanto, so limitadas
quando se tem dados desbalanceados, delineamentos experimentais no
ortogonais e heterogeneidade de varincias entre os locais onde so conduzidos
os ensaios (RESENDE, 2004).
d) Mtodos estatsticos para estudo da interao G x E
A existncia de interao G x E tm sido reconhecidas h muito tempo
de acordo com Freeman e Perkins (1971), sendo a referncia mais antiga feita
por Fisher e Mackenzie em 1923. Desde ento, muitos trabalhos tm sido feitos
para anlises estatsticas da interao gentipos x ambientes, seja por
estatsticos, agrnomos, melhoristas e geneticistas (ARAJO; DIAS, 2006).
A anlise de varincia conjunta o mtodo mais comum para identificar
a existncia de interao G x E a partir de ensaios MET. Se a interao G x E for
significativa, um ou mais dos vrios mtodos paramedir estabilidade de
gentipos pode ser usado para identificar gentipos estveis.
Existem vrios mtodos para a anlise da interao G x E, os quais
podem ser classificados em quatro grupos: a anlise de componentes de
varincia, anlise de estabilidade, mtodos multivariados e mtodos qualitativos.
A seguir sero descritos alguns desses mtodos.
i. Anlise de varincia convencional
A anlise conjunta de experimentos de grande interesse, em
especial, para os melhoristas, porque as estimativas de componentes de
26
varincia em experimentos conduzidos em nico ambiente costumam ser
superestimadas, pois o fator ambiente costuma influenciar nesses casos.
Desta forma vrios autores vm destacando a importncia do estudo do
componente da interao G x E (CROSSA, 1990).
Para avaliar a importncia e a magnitude das interaes podem ser
utilizados mtodos de anlise de varincia. Uma das formas seria a anlise
de varincia conjunta em blocos casualizados.
A anlise de varincia conjunta dos dados observados (ijky ), que
pode ser o rendimento do gentipo i no ambiente j no bloco k, executada
considerando-se o modelo estatstico:
( ) ( )ijk k j i j ij ijky b g e gem e= + + + + + , (10)
em que
m : uma constante inerente a cada observao;
( )k jb : o efeito do k-simo bloco dentro j-simo ambiente;
ig : o efeito do i-simo gentipo;
je : o efeito do j-simo ambiente;
( )ijge : o efeito da interao do i-simo gentipo com o j-simo
ambiente;
ijke : erro experimental associado ao i-simo gentipo, no j-simo
ambiente e no k-simo bloco, com 2~ (0; )ijk Ne s .
A interao no aditiva, conforme definido em (16) implica que o valor
esperado do i-simo gentipo no ambiente j (Yij) depende no apenas dos nveis
de G separadamente, mas tambm na combinao particular de nveis de G e E
(CROSSA, 1990).
A principal limitao dessa anlise que as varincias dos erros nos
ambientes devem ser homogneas para testar diferenas genotpicas. Se as
varincias dos erros so heterogneas, essa anlise est sujeita a crticas, como a
27
de que o teste F dos quadrados mdios de G x E contra as variaes de erro
apresenta vis para resultados significativos (CROSSA, 1990).
Um teste correto para a significncia realizado ponderando-se cada
gentipo com o inverso da sua varincia residual estimada. Essa anlise
ponderada atribui menos pesos para ambientes que tm um quadrado mdio
residual elevado. Uma desvantagem da anlise ponderada que os pesos podem
ser correlacionados com as respostas do rendimento no ambiente. Assim, pode
ocorrer, por exemplo, que ambientes com rendimento elevado apresentem maior
varincia do erro e ambientes com baixos rendimentos apresentem varincias de
erro reduzidas, o que pode mascarar o verdadeiro desempenho de alguns
gentipos em certos ambientes (CROSSA, 1990).
Uma das principais deficincias da anlise de varincia conjunta de
ensaios multi-locais que ela no explora qualquer estrutura subjacente dentro
da observao no-aditiva G x E (CROSSA, 1990).
Com a anlise de varincia no se consegue determinar o padro de
resposta de gentipos e ambientes. As valiosas informaes contidas nos (G-1)
(E-1) graus de liberdade so perdidas, principalmente se for feita sem uma
anlise mais aprofundada.
A anlise de varincia dos ensaios multi-locais til para estimar
componentes de varincia relacionadas com diferentes fontes de variao,
incluindo gentipos e G x E.
Em geral, a metodologia de componentes de varincia importante em
ensaios multi-locais, desde erros na mensurao do desempenho produtivo de
um gentipo que surgem em grande parte da interao G x E. Portanto, o
conhecimento da magnitude dessa interao necessrio para: (a) obter
estimativas eficientes dos efeitos genotpicos e (b) determinar recurso ideal
alocar, como o nmero de parcelas e os locais a serem includos em estudos
futuros.
28
ii. Metodologia AMMI (additive main effects and multiplicative
interaction)
O mtodo AMMI surge com a finalidade de estudar detalhadamente as
interaes (G x E) por meio da decomposio ortogonal da soma de quadrados
das interaes, fato que o torna vantajoso se comparado aos mtodos
tradicionais. Alm disso, esse mtodo apresenta uma boa capacidade preditiva.
A anlise AMMI uma combinao de mtodos univariados (anlise de
varincia) com mtodos multivariados (anlise de componentes principais e
decomposio por valores singulares). Nesse modelo, por meio de uma anlise
grfica, em biplot, busca-se identificar, simultaneamente, padres de interao
para gentipos e ambientes.
Esta combina em um nico modelo, componentes aditivos para os
efeitos principais de gentipos ig e de ambientes je , e componentes
multiplicativos ij(ge) para os efeitos da interao (ZOBEL; WRIGHT;
GAUCH, 1988).
Assim, a resposta mdia de um gentipo i num ambiente j dada por:
n
ij i j n ik jk ij ijk=1
y =+g +e + + + ; 1, 2,e ... 1, 2,...i G e j E= = , (11)
ijcom (ge) modelado por:
1
n
k ik jk ij
k
l g a d=
+ , (12)
em que
ijy : a mdia da produo do gentipo i no ambiente j,
m : uma constante inerente a cada observao;
ig : o efeito do gentipo i;
je o efeito do ambiente j,
nl : o n-simo valor singular de ge (escalar);
29
Logo, ikg e jka so os elementos relacionados ao gentipo i e ao
ambiente j dos vetores singulares k e k, respectivamente.
O ndice k (k= 1,2,..., n); em que:
{ } 1, 1 ,p min G E= - - (13)
o posto de ge, tomado at n no somatrio (n
30
k : a raiz quadrada do k-simo autovalor das matrizes (GE)(GE) e
(GE)(GE) (de iguais autovalores no nulos) 2kl o k-simo autovalor;
ik: o i-simo elemento (relacionado ao gentipo i) do k-simo
autovetor de (GE)(GE) associado a 2kl ; e jk: o j-simo elemento
(relacionado ao ambiente j) do k-simo autovetor de (GE)(GE) associado a 2kl .
Note-se que o termo (ge)ij (interao no modelo tradicional) agora
descrito como uma soma de p parcelas, cada uma resultante da multiplicao de
k , expresso na mesma unidade de Yij, por um efeito genotpico (ik) e um efeito
ambiental ( jka ), ambos adimensionais. O termo kl traz uma informao
relativa variao devida interao G x E, na k-sima parcela. De forma que a
soma das p parcelas recompem toda a variao ( 2
1
p
GxE k
k
SQ l=
= ). Os efeitos
ik e jk representam pesos para o gentipo i e para o ambiente j, naquela
parcela da interao 2kl .
Entretanto, pela abordagem AMMI no se busca recuperar toda a SQG x
E, mas apenas a parcela mais fortemente determinada por gentipos e ambientes
(linhas e colunas da matriz GE), ou seja: o padro (parte determinstica ou
sistemtica). Assim, a interao do gentipo i com o
ambiente j descrita por: 1
n
k ik jk
k
l g a= , descartando-se o resduo adicional ij
dado por: 1
p
k ik jk
k n
l g a= + .
Como em ACP (Anlise de Componentes Principais), estes eixos
captam, sucessivamente, pores cada vez menores da variao presente na
matriz GE ( 2 2 21 2 ... pl l l ). Por isso, o mtodo AMMI visto como um
31
procedimento capaz de separar padro e rudo na anlise da 1
:n
GxE k ik jk
k
SQ l g a=
e 1
p
k ik jk
k n
l g a= + , respectivamente (DUARTE; VENCOVSKY, 1999).
iii. Anlise de fatores sob modelos multiplicativos mistos (FAMM)
A anlise de grupos de experimentos ou de experimentos conduzidos em
mltiplos ambientes (MET) tem sido tradicionalmente baseada em modelos
simples, os quais assumem homogeneidade de varincia residual entre os
experimentos, independncia de erros dentro de ensaio, efeitos da interao G x
E como um grupo de efeitos aleatrios independentes.
A modelagem de efeitos da interao G x E para ensaios multi-
ambientes (METs) dentro de uma estrutura de modelo misto agora uma prtica
comum em muitos programas de melhoramento de plantas.
O modelo misto tradicional dado por:
y = Xb + Zu + e , (16)
em que
y : vetor de observaes;
b : vetor dos efeitos fixos, com matriz de incidncia X;
u : vetor dos efeitos aleatrios, com matriz de incidncia Z, ~u N(0, )
e : vetor de erros aleatrios, ~ ( , )e 0 R .
O modelo fator de analtico (FA) uma forma parcimoniosa usada para
aproximar a forma totalmente no estruturada da matriz de varincia-covarincia
gentica ( ) no modelo de dados MET (KELLY et al., 2007).
Uma extenso dos modelos mistos para incorporar a anlise de fatores
(modelo misto fator analtico) (FAMM) pode ser escrito como:
32
[ ]y=Xb+Z Lf+ +e , (17)
com [ ]u= Lf+ ,
em que
gL = I a matriz de cargas fatoriais;
f o vetor de escores fatoriais para os indivduos nos ambientes;
o vetor de erros representando a falta de ajuste do modelo fatorial.
Sob esse modelo, a matriz de covarincia gentica dada por
=+ , (18)
em que
=VD V , (19)
aD a matriz diagonal dos m autovalores e V a matriz dos autovetores.
Escolhendo-se V e Da referentes apenas dimenso m esse modelo misto
reduzido e ajusta somente os m fatores. Na tcnica FAMM, a estrutura de
covarincia simplificada para
p p= + , (20)
em que:2
p : a matriz dos carregamentos dos fatores nas variveis;
: a matriz diagonal de varincias especficas ( )iVar d (RESENDE;
THOMPSON, 2004).
A metodologia de modelos mistos padro pode ser usada para estimar
autovalores e autovetores diretamente sem a necessidade de se estimar
completa. A principal diferena para o modelo multivariado misto tradicional
refere-se ao fato de que os parmetros a serem estimados fazem parte da matriz
de incidncia dos efeitos genticos aleatrios. Como a distribuio de ] g[ I f
singular, isto conduz estimao sob posto reduzido, restries devem ser
33
impostas aos parmetros do modelo fator analtico (RESENDE, 2007). Uma
maior aplicao dos modelos fator analticos mistos na anlise de
experimentos multi-ambientes no estudo da interao G x E (j discutido em
2.6), e torna-se melhor nessa anlise por reunir em um s mtodo os
procedimentos de anlise multivariada, anlise de adaptabilidade e estabilidade e
modelos mistos.
Uma caracterstica fundamental do modelo de FA para os dados MET
a capacidade de generalizao da estrutura de varincia associado para efeitos G
x E, seja no ambiente ou na dimenso do gentipo. O modelo de varincia mais
geral, e, por conseguinte, o modelo que ir proporcionar o melhor ajuste (no
sentido de probabilidade) para os dados, uma matriz no-estruturada (SMITH;
CULLIS; THOMPSON, 2005).
Smith, Cullis e Thompson (2001) utilizam o modelo FA neste contexto
em que a anlise foi motivada pela abordagem da gentica quantitativa para
interao G x E, como explicado no Falconer e Mackay (1996). Falconer e
Mackay (1996) em Smith, Cullis e Thompson (2005) afirmam que
o conceito de correlao gentica pode ser aplicado soluo de alguns problemas relacionados com a interao gentipo e ambiente [...] um carter medido em dois ambientes diferentes deve ser considerado no como um personagem, mas como dois [...] Se a correlao gentica entre eles elevada, o desempenho em dois ambientes diferentes representa quase o mesmo carcter [...] Se for baixa, ento os caracteres so, em grande medida diferente.
Assim, Smith, Cullis e Thompson (2001) utilizam um modelo de FA
para aproximar uma matriz no-estruturada para a dimenso do ambiente de
( )(isto , a matriz de varincias e covarincias entre ambientes) (SMITH;
CULLIS; THOMPSON, 2005). Kelly et al. (2007), utilizando a abordagem de
Smith, Cullis e Thompson (2001, 2005), demonstraram que o modelo FA
geralmente o melhor modelo para o ajuste de uma srie de conjuntos de dados
em estudos iniciais de um programa de melhoramento. Alm disso, demonstram
a superioridade do modelo de FA em conseguir o objetivo mais comum de
MET, nomeadamente a seleo de gentipos superiores, por meio do uso dos
34
melhores preditores lineares no viesados (BLUPs) de efeitos de gentipo em
cada ambiente, considerados individualmente ou como uma mdia ponderada
entre ambientes.
Os modelos FAMM propiciam uma abordagem realstica completa para
anlise de dados de mltiplos experimentos.
Apesar de as recomendaes de Piepho (1997, 1998) e Smith, Cullis e
Thompson (2001), os modelos de FA no so amplamente utilizados fora da
Austrlia para a anlise regular de dados MET (KELLY et al., 2007).
2.6 Estrutura Fator Analtica
Um mtodo associado avaliao de vrios tratamentos ou gentipos e
vrios ambientes dado em (10).
O efeito da constante fixo, o efeito do ambiente pode ser considerado
fixo ou aleatrio e os demais efeitos so considerados como aleatrios. Um
modelo referente aos efeitos aleatrios em cada ambiente pode ser representado
por:
ijk ij j ijkY g em e= + + + (21)
em que:
m : uma constante inerente a cada observao;
ijg : o efeito do i-simo gentipo;
je : o efeito do j-simo ambiente;
ijke : erro experimental associado ao i-simo gentipo, no j-simo
ambiente e no k-simo bloco, com 2~ (0; )ijk Ne s .
Na anlise de experimentos multi-ambientes (MET), o uso da anlise de
fatores pode propiciar uma classe de estruturas para a matriz de varincia e
covarincia G0 , associada aos efeitos gij. O modelo de anlise postulado em
termos de efeitos genotpicos no observveis em diferentes ambientes:
35
1
k
ij jr ir ij
r
g fl d=
= + , (22)
em que
gij : efeito do gentipo i no ambiente j;
jrl : carregamento do fator r no ambiente j;
irf : escore para o gentipo i no fator r;
ijd : erro representando a falta de ajuste do modelo.
O modelo FA apresentado com base em Resende e Thompson (2004) e
Smith, Cullis e Thompson (2001, 2005). Aplicado a G gentipos e E ambientes,
o modelo de fator analtico postula dependncia em um conjunto de fatores
hipotticos aleatrios ( 1) , ( 1... )gxrf r k s= < . Em notao vetorial, o modelo de
anlise de fatores para estes efeitos em diferentes ambientes :
1 1( ) ... ( )s g k g ku I f I fl l d= + + + (23)
Onde:
( 1)sxrl : Cargas ou pesos dos fatores nos ambientes; ( ) 1gs xd : vetor de resduos ou a falta de ajuste para o modelo (tambm
chamado de vetor de fatores especfico).
De um modo compacto, o modelo :
1( )s gu I fl d= + (24)
em que :
( )1[ ... ]
sxkkl lL =
( 1) 1 2( , ... )
gkxkf f f f=
A distribuio conjunta de f e d dada por:
36
00~ , ,0 0k g
g
I IfN
Id Y
em que:
1( ... )pdiag y yY = ;
iy varincia especfica para o i-simo ensaio.
A matriz de varincia para efeitos de gentipos nos ambientes dada por
var( ) ( ) var( )( var( ) ( )s g g gu I f I Id= L L + = LL +Y (25)
O modelo para efeitos de gentipos em cada ambiente conduz a um
modelo de G em que:
2
1
k
g ij jr j
i
s l y=
= + : varincia genotpica em ambiente j;
1
k
g ij jr j r
i
s l l=
= : covarincia genotpica entre ambientes j e j ';
2 2 1/2
1 1 1
/ [( )( )]k k k
g ij jr j r jr j j r j
i i i
r l l l y l y= = =
= + + : correlao
genotpica entre os ambientes j e j '
A equao (24) para su tem a forma de uma regresso (aleatria) em k
covariveis ambiental 1... kl l , na qual todas as regresses passam pela origem.
Pode ser mais apropriado para permitir que o intercepto (no-zero) separado
para cada gentipo. Isto equivalente ao modelo com efeitos de gentipos
principais, gu e um modelo fator analtico k para interao G x E. Em seguida, a
expresso de gu torna-se:
( ) ( ) ( ) 1 I 1 +g f (26)g s g s g gu g ge I g I d= + = L + .
Vetor g tem mdia zero e varincia 2g Id ou
2gd A , onde A uma
matriz de correlao gentica ou de parantesco. O modelo pode ser escrito
como:
37
( ) ( ) ( )0 1 I f f f + (27)g gg g s gg gI Iu s d d= L L++ = em que:
( 1)
0 0[ 1 ]; / ; ( ) (28)s kg g s g gf g f f fs s
+L = L = =
Assim estimao BLUEs dos efeitos fixos dada por:
1 1 1 ( ) b X V X X V y- - -= (29)
em que 1 1V ZR Z- -= +S partindo de (10).
Para o modelo fator-analtico, os BLUPs dos escores dos f e resduos
para cada ambiente podem ser obtidos em termos de gu como:
1[ ( ) ]g gf I u-= L LL +Y f [ ([ ([ ( g gug gg g (30)
1[ ( ) ]g gI ud-= Y LL +Y [ (d = [ ([ ( g gug gg g (31)
Assim, o modelo com efeitos principais de gentipos e um modelo de
fator analtico de ordem k para interaes G x E um caso especial de um
modelo fator analtico de ordem (k +1) efeitos de gentipos de anlise em cada
ambiente, em que as primeiras cargas so restringidas a ser iguais. A
caracterstica que distingue as equaes para g, dos problemas de padro e de
regresso aleatria multivariada que ambas as co-variveis e os coeficientes de
regresso so desconhecidos e, por conseguinte, deve ser calculado a partir dos
dados. O modelo ento multiplicativo de coeficientes genotpicos e ambientais
(conhecido como cargas e escores fatoriais, respectivamente). Aqui reside a
analogia com modelos AMMI. No entanto, uma diferena fundamental que o
modelo multiplicativo na equao para sg acomoda efeitos aleatrios, enquanto
AMMI um modelo de efeitos fixos. Modelos FAMM so tambm chamados
AMMI aleatrios (RESENDE, 2007).
38
2. 7 Seleo dos modelos FAMM
O objetivo do modelo fator-analtico para efeitos G E explicar as
covarincias genticas entre os E ambientes em termos de um nmero muito
menor de k fatores (desconhecido) 1,..., kf f .
Segundo Resende e Thompson (2004) e Smith, Cullis e Thompson
(2001) a adequao dos modelos FAMM de vrias ordens k pode ser
formalmente testado, uma vez que so ajustados via abordagem de modelos
mistos. O modelo com k fatores, denotada FAK, hierrquico dentro do modelo
com k+1 fatores. Modelos, incluindo o efeito principal do gentipo (g) so
intermedirios entre os modelos de anlise de fator de ordem k (FAK) e de
ordem FAK +1. Modelo FA1+g intermdio entre os modelos FA1 e FA2.
Testes de razo de mxima verossimilhana restrita (REMLLRT) podem ser
utilizados para a comparao de tais modelos. Outras abordagens para testar o
ajuste de modelos de fatores analticos envolvem comparaes com a matriz de
covarincia no estruturada, o qual muito difcil de obter, com um grande
nmero de ambientes (MARDIA et al., 1988).
2.8 Algoritmos utilizados na estimao de componentes de varincia em
modelos FAMM utilizando REML
No modelo proposto por Smith, Cullis e Thompson (2001), dado em
(28), para calcular as estimativas dos efeitos fixos e aleatrios, exigem-se
estimativas dos parmetros e R. Em termos do modelo fator-analtico, os
parmetros de varincia associados so e . As estimativas dos
componentes de varincia, so obtidas utilizando o mtodo de REML
(PATTERSON; THOMPSON, 1971). Smith, Cullis e Thompson (2001) usaram
um algoritmo de escores conhecido como o algoritmo Informao Mdia (AI)
(GILMOUR; THOMPSON; CULLIS, 1995) para a obteno dos componentes
de varincia FA. Este um algoritmo de escores de Fisher modificado, no qual
39
a matriz de informao esperada substituda por uma mdia aproximada das
matrizes de informao observadas e esperadas. O software mais utilizado para
estimao dos parmetros de varincia, via mxima verossimilhana restrita
(REML), desses modelos o pacote ASReml (GILMOUR et al., 2002).
Em termos de componentes de varincia FA, a implementao original
no pacote ASReml em l baseou-se no algoritmo proposto por Smith, Cullis e
Thompson (2001), que no explora o modelo de regresso em que acomoda o
modelo FA. Por conseguinte, as equaes do modelo misto so relativamente
densas, reduzindo seriamente a velocidade computacional das anlises para
conjuntos de dados com um grande nmero de ambientes ou quando se ajusta a
varincia de modelos fator analticos com vrios fatores (THOMPSON et al.,
2003).
O outro problema prtico com o modelo FA a ocorrncia frequente dos
casos Heywood (SMITH; CULLIS; THOMPSON, 2001). Nestes casos, uma ou
mais varincia especficas tendem a zero, o que implica que a matriz de
varincias para os efeitos de interao gentipo x ambiente de posto
incompleto (doravante denominado de posto reduzido (varincia) do modelo).
Esse problema ocorre s vezes em aplicaes multivariados e difcil garantir
que as estimativas REML dos parmetros de varincia dos modelos de varincia
complexos, tais como o modelo de varincia desestruturada, permaneam dentro
do espao paramtrico. No caso desestruturado pode haver uma vantagem na
montagem de um modelo de varincia que envolve uma matriz que no de
posto completo, por meio da decomposio de Cholesky. Isto equivalente ao
modelo de varincia de posto reduzido para os gentipos em cada ambiente
(THOMPSON et al., 2003).
Para resolver os problemas encontrados na implementao dos modelos
com estrutura FA, Thompson et al. (2003) propuseram o uso do algoritmo AI
modificado para a estimativas REML de posto reduzido (RR) ou os
componentes de varincia FA.
40
2.8.1 Alternativas de estimao computacional do modelo FA
Teoricamente, um modelo com estrutura de matriz e covarincia no
estruturada (UN) seria o modelo de varincia mais completo para encaixar os
efeitos de n procedncias em cada um dos q ensaios considerados, pois est trata
os vrios locais como se fossem diferentes caracteres. No entanto, o nmero de
parmetros a ser estimado na matriz UN ( 1) / 2q q + e assim o processo de
estimao pode se tornar instvel com o aumento de q devido a uma super
parametrizao do modelo (SILVA et al., 2009; SMITH; CULLIS;
THOMPSON, 2001; THOMPSON et al., 2003). Esse modelo contempla tanto a
heterogeneidade de varincias quanto a covarincia entre locais. No entanto,
essa modelagem a mais complexa possvel e, com grande nmero de
ambientes, impraticvel devido necessidade de estimao de um grande
nmero de parmetros e a dificuldade de convergncia da anlise (RESENDE,
2007).
Silva et al. (2009) no verificaram a convergncia do modelo quando
usaram a matriz de covarincia UN completa para anlise univariada de cada
caractere. No entanto, na busca de modelos parcimoniosos para modelar os
efeitos de ug fizeram uma anlise conjunta (multivariada) de todos os caracteres
usando um modelo multiplicativo associado com a anlise fatorial com uma
aproximao forma UN onde verificaram a convergncia do modelo usando o
algoritmo AI (de informao-mdia). Apesar de garantir a convergncia usando
o procedimento proposto, o algoritmo AI pode conduzir a um modelo FA que
no de posto completo o que impe a restrio de que os elementos da matriz
de varincia especficas estejam dentro de espao paramtrico, que pode levar a
problemas de convergncia. Os mesmos autores verificaram que o algoritmo
proposto por Thompson et al. (2003) solucionou esses problemas, ajustando-se
diretamente a estrutura FA sem necessidade de aproximar a forma da matriz UN.
A abordagem do processo de estimao no modelo fator analtico
descrita em Smith, Cullis e Thompson (2001) so computacionalmente
intensivos. Um algoritmo alternativo que utiliza mtodos de matrizes esparsas
41
dado em Thompson et al. (2003). Este algoritmo foi proposto para reduzir o
tempo de computao. Ele tambm acomoda casos em que algumas (ou todas)
as varincias especficas precisam ser condicionadas a assumirem o valor zero,
conduzindo assim a uma estrutura de varincia que no seja de posto completo.
Segundo Smith, Cullis e Thompson (2002), as pesquisas em modelos fator-
analtico deveriam focar em alternativas para o algoritmo AI, em particular, no
EM (DEMPSTER; LAIRD; RUBIN, 1977) e mtodo de esperana-maximizao
com parmetros estendidos (PX-EM) (LIU; RUBIN; WU, 1998). Contudo, as
mesmas continuam sendo conduzidas usando esse algoritmo.
2.9 Dados faltantes (missing data)
Segundo McKnight et al. (2007, p. 2), de um modo geral, o termo
dados faltantes significa que est faltando algum tipo de informao sobre o
fenmeno em que estamos interessados. Normalmente, so observaes que
deveriam ter sido feitas, mas no foram por algum motivo. Quando isso
acontece, a capacidade de entender a natureza do fenmeno pode ser reduzida e
o impacto nos resultados dos estudos nem sempre so conhecidos, tornando-se
difcil extrair um conhecimento til a partir dos dados analisados (MCKNIGHT
et al., 2007; VERONEZE; FRANA; ZUBEN, 2011).
Litle e Rubin (2002) distinguem trs tipos de padres de dados faltantes:
falta informativa ou faltantes no ao acaso (MNAR- missing or missing not at
random), faltantes ao acaso (MAR- missing at random) e faltantes
completamente ao acaso (MCAR- missing completely at random).
MCAR- nesta situao, as observaes faltantes no so diferentes das
no faltantes em termos da anlise realizada. Neste caso, os faltantes surgiram de
maneira aleatria e, portanto, o nico problema gerado pelos dados faltantes a
perda de poder da anlise a ser realizada;
MAR- neste caso, os dados faltantes dependem das variveis
preenchidas e, portanto, podem ser totalmente explicadas pelas demais variveis
42
presentes no banco de dados. Logo, ao realizar o tratamento dos dados faltantes
de forma que sejam consideradas as informaes que causam os faltantes,
possvel realizar uma anlise no viesada. Neste, os dados faltantes so causados
por alguma varivel observada, disponvel para anlise e correlacionada com a
varivel que possui dados faltantes (GRAHAM et al., 1995).
MNAR- nesta situao os faltantes so gerados de forma no
mensurvel, ou seja, eles dependem de eventos que o pesquisador no consegue
observar e controlar. Este o caso mais grave, em que para tratamento dos dados
faltantes, em alguns casos, so necessrias tcnicas mais complicadas.
Os dados a partir de um indivduo podem ser subdivididos em dados
observados e ausentes. Se um padro de dados perdidos depende dos dados
observados, mas no sobre os dados em falta, o padro de dados em falta
MAR. Se depender de dados observados e perdidos informativo. Se for
independente, tanto dos dados observados e no observados, MCAR. MCAR
e, com a premissa adicional de seperabilidade, o padro MAR ignorada se
REML usado (FISCHER et al., 2009; VERBEKE; MOLENBERGHS, 2000).
Durante a seleo, os gentipos recm-criados so adicionados,
enquanto gentipos selecionados so descartados. Portanto, os dados de
melhoramento de plantas so quase sempre selecionados e desbalanceados. Isto
resulta em dados faltantes o que complica a anlise, por exemplo, na estimao
da Heredabilidade (FISCHER et al., 2009; PIEPHO; MHRING, 2007).
No melhoramento de plantas, o padro de dados em falta muitas vezes
informativo, devido falta de informao para decises de seleo ou falta de
informaes de pedigree. Os melhoristas costumam usar informaes de
pedigree durante concepo dos seus experimentos. comum que os gentipos
da mesma linhagem sejam testados no mesmo ensaio, muitas vezes lado a lado.
Se os testes de um conjunto de gentipos no foram realizados em cada local, a
informao pedigree influencia o padro de dados faltantes. Piepho e Mhring
(2006) mostraram que os dados em falta, devido seleo, podem ser ignorados,
se todos os dados utilizados para a seleo esto disponveis e so includos na
anlise.
43
2.10 Tcnica da elipse de confiana
Segundo Schofield e Breach (1972), elipse de confiana uma forma
conveniente de expressar graficamente a incerteza posicional de um ponto, e
sendo absoluta, fornece a medida de incerteza relativa do ponto analisado em
relao ao ponto fixo em estudo.
Esta tcnica do grfico da elipse de confiana mais utilizada para
verificar a compatibilidade entre os laboratrios, e baseada do mtodo de
Youden (CHUI et al., 2004). O planejamento experimental para a construo da
elipse de confiana prev a distribuio de um par de amostras semelhantes, no
necessariamente de concentraes iguais, porm de concentraes prximas. A
elipse construda para cada eixo simulado e representado por um ponto. As
retas que passam pelas mdias dos escores, em x (resultados relativos a uma das
simulaes) e em y (resultados relativos a outro escore fatorial), dividem o
diagrama em quadrantes. Pontos encontrados nos quadrantes; superior direito e
inferior esquerdo representam os escores que podem estar incorrendo em erros
sistemticos. Na prtica, quando somente erros aleatrios esto presentes, os
pontos devem estar distribudos de modo uniforme em todos os quadrantes. Se
os pontos se encontrarem mais concentrados nos quadrantes superior direito e
inferior esquerdo, isto interpretado como evidncia de ocorrncia de erros
sistemticos, ou seja, os escores tendem a obter valores altos ou baixos, em
ambas as amostras do par.
A elipse de confiana traada de tal modo que qualquer ponto tem a
mesma probabilidade de estar dentro da elipse e, em geral, estabelecido o grau
de 95% de confiana. Geralmente os pontos se situam dentro de uma elipse, cujo
eixo maior faz um ngulo de aproximadamente 450 com o eixo da horizontal.
Portanto a inclinao maior da elipse est prxima de +1 e a do eixo menor, de -
1. A disperso dos pontos ao longo do eixo maior est associada aos erros
sistemticos, enquanto que ao longo do eixo menor est associada aos erros
aleatrios (CHUI et al., 2004).
44
No caso em que os erros aleatrios podem ser considerados iguais, a
elipse estar posicionada no grfico com seu eixo maior a 45 em relao ao
eixo das abcissas. A disperso em torno do eixo menor da elipse representa
apenas os erros aleatrios, enquanto que a disperso ao longo do eixo maior
representa os erros sistemticos. Quando os erros aleatrios so ambos
pequenos, mas no necessariamente iguais em relao aos erros sistemticos, a
elipse de confiana apresentar-se- orientada com seu eixo maior a
aproximadamente 45, em relao ao eixo das abcissas, porm, com uma forma
mais alongada. Se os erros aleatrios das duas amostras forem bem diferentes, e
o erro sistemtico de uma delas se aproximar do erro aleatrio, a elipse de
confiana poder ter seu eixo maior entre 30 e 90, em relao ao eixo das
abcissas. Dependendo dos valores atribudos aos erros sistemticos e aos erros
aleatrios, o eixo maior pode at apresentar-se na horizontal, ou seja, a 0 com
relao ao eixo das abcissas (CHUI et al., 2004).
2.11 Elipses de confiana para predio
Vrias so as vantagens estatsticas e biolgicas dos modelos AMMI e
SREG (Sites Regression Analysis) mistos, como a capacidade de incorporar
informaes e flexibilidade para lidar com dados desbalanceados, sem a
necessidade de imputao dos dados em falta e heterogeneidade de varincia na
anlise de MET. No entanto, eles apresentam uma limitao pois no est claro
como regies de confiana assintticas paramtricas, construdas para modelos
de efeitos fixos (GOWER; DENIS, 1996), podem ser estendidas para modelos
de efeitos mistos (CROSSA et al., 2011a). Alm da teoria assinttica, regies de
confiana para os parmetros de interao do modelo AMMI tem sido propostas
utilizando procedimentos bootstrap (LAVORANTI, 2003; YANG et al., 2009) e
inferncia Bayesiana (CROSSA et al., 2011a). Entretanto, na literatura sobre a
anlise fatorial no encontramos nada formal escrito sobre inferncia para
escores fatorais. Crossa (2012) reconhece ser difcil propor intervalos de
confiana para os escores fatoriais. Neste contexto as elipses de confiana para
45
predio podem ser teis para representar as regies de confiana dos escores
fatoriais.
Uma elipse de confiana para predio uma regio de confiana para
predizer uma nova observao na populao. Tambm mostra onde uma
porcentagem especificada dos dados dever ficar.
Seja y e S a mdia e a matriz de covarincias de uma amostra aleatria
de tamanho n de uma distribuio normal bivariada com mdia y e 2 2S .
Considerando 2 1y como uma varivel aleatria bivariada para uma nova
observao e observando que a varivel 21
( ) ~ (0, (1 ) )y y Nn
- + S
independente de S , tem-se que uma elipse de confiana a 100(1 )%a- para
predio dada pela equao:
12, 2
2( 1)( 1)( ) ( ) (1 )
( 2) nn n
y y y y Fn n
a- -- +
- - = --
(35)
Segundo Dias (2012), a famlia de elipses gerada por diferentes valores
crticos F tem um centro comum, que a mdia amostral, e eixos maior e menor
comuns. Graficamente as elipses indicam a correlao entre as variveis.
Quando os eixos das variveis so padronizados (dividindo as variveis pelos
seus respectivos desvios padro), a razo dos dois comprimentos dos eixos (em
distncias Euclidianas) reflete a magnitude da correlao entre as duas variveis.
2.12 Validao cruzada
A validao cruzada uma tcnica para avaliar a capacidade de
generalizao de um modelo a partir de um conjunto de dados. Esta tcnica
amplamente empregada em problemas onde o objetivo da modelagem a
predio. Busca-se ento estimar o quo acurado este modelo na prtica, ou
seja, o seu desempenho para um novo conjunto de dados.
46
O conceito central das tcnicas de validao cruzada o particionamento
do conjunto de dados em subconjuntos mutuamente exclusivos, e
posteriormente, utilizar alguns desses subconjuntos para a estimao dos
parmetros do modelo (dados de treinamento) e outros subconjuntos (dados de
validao ou de teste) empregado na validao do modelo.
Diversas formas de realizar a validao cruzada foram sugeridas, sendo
as trs mais utilizadas o mtodo: holdout, k-fold e leave-one-out.
Para todos os mtodos de particionamento, citados acima e apresentados a
seguir, a acurcia final do modelo estimado obtido por:
,1 1
1 1( )
i i
v v
f y y i i
i i
Ac y yv v
e= =
= = - (32)
onde v o nmero de dados de validao e ,i iy ye o resduo dado pela
diferena entre o valor real da sada i e o valor predito. Com isso, pos