153

Análisis de Ensayos Agrícolas Multi-ambientalesI

Embed Size (px)

Citation preview

Page 1: Análisis de Ensayos Agrícolas Multi-ambientalesI
Page 2: Análisis de Ensayos Agrícolas Multi-ambientalesI
Page 3: Análisis de Ensayos Agrícolas Multi-ambientalesI

ANÁLISIS DE ENSAYOS AGRÍCOLAS MULTI-AMBIENTALES

Ejemplos con Info-Gen

Mónica Balzarini

Cecilia Bruno

Alejandra Arroyo

Estadística y Biometría.

Facultad de Ciencias Agropecuarias. Universidad Nacional de Córdoba

Page 4: Análisis de Ensayos Agrícolas Multi-ambientalesI
Page 5: Análisis de Ensayos Agrícolas Multi-ambientalesI

i

Prefacio

La utilización cuidadosa de procedimientos de análisis de datos agronómicos y

ambientales es una condición inherente al desarrollo actual y futuro de

investigaciones orientadas a mejorar los cultivos en forma económica y

ambientalmente sustentable. La eficiencia en la generación de tecnologías de

cultivo y en el proceso de adaptación de éstas a las áreas de producción

depende del entendimiento de las respuestas de las plantas a los diversos

ambientes. Los ensayos multi-ambientales, donde un conjunto de tratamientos

(por ejemplo, variedades) se evalúa en múltiples ambientes, son cruciales para

desarrollar el conocimiento científico necesario.

En particular, los ensayos muti-ambientales de comparación de rendimientos,

son frecuentes en investigaciones agrícolas ya que constituyen una de las

principales estrategias para la obtención de mejores genotipos vegetales y para

la identificación de ambientes donde éstos pueden expresarse de manera

diferencial. Los ensayos multi-ambientales representan una de las herramientas

de investigación más potentes para incrementar la productividad y rentabilidad

de los cultivos. Más allá de los aportes de centros internacionales a la mejora de

cultivos, muchos programas nacionales de mejoramiento y de investigación

agrícola (de gestión pública y privada) mantienen un rol fundamental en su

región, particularmente en lo concerniente a la explotación de la adaptación

específica y a las características de estabilidad de rendimiento desarrollando

alto nivel de conocimiento del germoplasma local, las prácticas de manejo y sus

interacciones con los ambientes de la región.

Una plétora de ensayos multi-ambientales comparativos de rendimiento se

conducen periódicamente, en cada región del área de cultivo de una especie,

debido a la omnipresencia de la interacción genotipo×ambiente, i.e. respuestas

genotípicas diferenciales en diferentes ambientes. Estos ensayos permiten

identificar adaptaciones de germoplasma tanto en sentido amplio (a través de

los ambientes) como específico (para cada ambiente o grupos de ambientes

particulares). Conceptos importantes tales como adaptación específica,

Page 6: Análisis de Ensayos Agrícolas Multi-ambientalesI

ii

estabilidad, ecotipos, ideotipos y subregiones o mega-ambientes se pueden

analizar a partir de la interacción genotipo×ambiente.

Los ensayos multi-ambientales, no son sólo diseñados para evaluar genotipos,

el interés puede radicar en la comparación de sistemas de cultivos u otros

tratamientos, pero el análisis de los patrones de interacción con el ambiente es

siempre necesario. Cuando la interacción es significativa se deben utilizar

estrategias de análisis apropiadas, ya que la comparación de medias de

tratamientos que no considera la variabilidad debida a la interacción con el

ambiente puede ser errónea. Los estudios de interacción tratamiento×ambiente,

así como la exploración de los patrones de interacción a partir de covariables

del cultivo y/o los ambientes, proveen valiosa información para optimizar la

respuesta de los cultivos en los ambientes de interés. Las bases de datos

relacionadas a ensayos multi-ambientales son costosas de obtener; la eficiencia

en el uso de los recursos destinados a esta tarea puede incrementarse

considerablemente a partir de la utilización de nuevos métodos y modelos de

análisis de datos capaces de convertirlos en información significativa.

En esta publicación presentamos, a través de ejemplos, herramientas

estadísticas para explorar bases de datos de ensayos multi-ambientales. Los

ejemplos se realizan a partir de datos gentilmente puestos a disposición por

investigadores en agricultura. Esperamos que ésta publicación sea de utilidad

para mejorar la productividad agrícola en beneficio de la sociedad y el

medioambiente y para promover un enfoque interdisciplinario en el diseño y

análisis de ensayos multi-ambientales.

Page 7: Análisis de Ensayos Agrícolas Multi-ambientalesI

iii

Organización del Texto

La primera parte está destinada a una revisión de ideas y principios

estadísticos, para establecer el lenguaje técnico que se utilizará más adelante

en la modelación de casos experimentales reales. En la Parte II se presentan

conceptos relacionados a experimentos agrícolas que involucran múltiples

ambientes, en especial aquellos comparativos de rendimiento y orientados a la

búsqueda de germoplasma diferencial. La Parte III presenta una colección de

ejemplos de análisis realizados sobre ensayos multi-ambiantales mediante la

aplicación de modelos de Análisis de la Varianza (ANAVA), de Regresión Lineal

y métodos estadísticos multivariados.

Los métodos presentados aquí no son exhaustivos, existen numerosas

estrategias analíticas que podrían ser implementadas en este tipo de ensayos,

pero hemos decidido “comenzar” por publicar éstas esperando que a partir de

su aplicación surjan nuevas preguntas y se genere un medio propicio para

explorar los desafíos y oportunidades de la modelación estadística en esta área.

El texto ha sido desarrollado proveyendo los comandos necesarios para utilizar

estas herramientas analíticas en el software Info-Gen (Balzarini y Di Rienzo,

2004), un programa amigable y portátil para el análisis de datos genéticos,

desarrollado por investigadores de la Cátedra de Estadística y Biometría de la

Facultad de Ciencias Agropecuarias, Universidad Nacional de Córdoba, con

subsidio de la Agencia Nacional de Ciencia y Tecnología de la República

Argentina y la Agencia Córdoba Ciencia. Una copia del CD del software Info-

Gen acompaña esta publicación; las instrucciones para la instalación se

encuentran en el mismo CD.

Page 8: Análisis de Ensayos Agrícolas Multi-ambientalesI
Page 9: Análisis de Ensayos Agrícolas Multi-ambientalesI

v

CONTENIDOS

PARTE I.................................................................................................................................................................1

MODELOS CIENTÍFICOS...................................................................................................................................1

MODELO MATEMÁTICO .......................................................................................................................................1 MODELO ESTADÍSTICO........................................................................................................................................2 TÉRMINOS ASOCIADOS A MODELOS ESTADÍSTICOS............................................................................................4 INFERENCIA ESTADÍSTICA ...................................................................................................................................6

PARTE II ...............................................................................................................................................................9

ENSAYOS MULTI-AMBIENTALES EN AGRICULTURA...............................................................................9

INTRODUCCIÓN ................................................................................................................................................ 11 ENSAYOS COMPARATIVOS MULTI-AMBIENTALES ............................................................................................. 13 GENOTIPO (G) ................................................................................................................................................. 14 AMBIENTE (E) .................................................................................................................................................. 14 INTERACCIÓN GENOTIPO×AMBIENTE (GE)...................................................................................................... 14 ADAPTABILIDAD................................................................................................................................................ 16 MEGA-AMBIENTES............................................................................................................................................ 17 ECOTIPOS E IDEOTIPOS ................................................................................................................................... 18 ESTABILIDAD.................................................................................................................................................... 18 CONFIABILIDAD DEL RENDIMIENTO................................................................................................................... 21 MODELOS PARA ANÁLISIS EN ENSAYOS COMPARATIVOS DE RENDIMIENTO..................................................... 21 ENSAYOS EN LAS PRIMERAS ETAPAS DE EVALUACIÓN .................................................................................... 25 ENSAYOS EN ETAPAS AVANZADAS DE EVALUACIÓN ........................................................................................ 26

PARTE III ........................................................................................................................................................... 31

MODELOS Y MÉTODOS DE ANÁLISIS EN ENSAYOS MULTI-AMIBIENTALES.................................. 31

ANÁLISIS DE LA VARIANZA (ANAVA) ............................................................................................................... 33 ANÁLISIS DE COMPONENTES PRINCIPALES (ACP)........................................................................................... 41 ESTUDIO DE INTERACCIÓN CON MODELOS DE ANAVA Y ACP......................................................................... 47

Modelo AMMI y Biplots para AMMI(2) y AMMI(1).................................................................................. 49 Modelo SREG y Biplot GGE.................................................................................................................... 55 Modelo GREG y Biplot GEE.................................................................................................................... 61 ACP en el Estudio de Correlaciones Genética y Ambientalmente Determinadas .............................. 65

ANÁLISIS DE REGRESIÓN ................................................................................................................................. 71 ANÁLISIS DE CORRELACIÓN LINEAL ................................................................................................................. 87 ANÁLISIS DE SENDERO (PATH ANALYSIS) ........................................................................................................ 91 REGRESIÓN POR MÍNIMOS CUADRADOS PARCIALES ....................................................................................... 95 ANÁLISIS DE CONGLOMERADOS..................................................................................................................... 103 ÁRBOL DE CLASIFICACIÓN ............................................................................................................................. 113 ANÁLISIS DISCRIMINANTE LINEAL................................................................................................................... 117

Page 10: Análisis de Ensayos Agrícolas Multi-ambientalesI

vi

ANEXO DESCRIPCIÓN DE LAS BASES DE DATOS UTILIZADAS COMO EJEMPLOS................... 123

Base de Datos: Ideotipos de Maíz......................................................................................................... 125 Base de Datos: Factores Limitantes. Soja............................................................................................ 127 Base de Datos: Selección de genotipos. Garbanzo ............................................................................ 129 Base de Datos: Ensayos Comparativos de Rendimiento de Poroto.................................................. 131 Base de Datos: Calidad de soja ............................................................................................................ 133 Base de Datos: Calidad de maní........................................................................................................... 135 Base de Datos: Ensayos Comparativos de Rendimiento de Maní..................................................... 137

BIBLIOGRAFÍA CITADA.................................................................................................................................... 139

Page 11: Análisis de Ensayos Agrícolas Multi-ambientalesI

PARTE I

MODELOS CIENTÍFICOS

Page 12: Análisis de Ensayos Agrícolas Multi-ambientalesI
Page 13: Análisis de Ensayos Agrícolas Multi-ambientalesI

1

Modelo Matemático

En investigaciones científicas se reconocen distintos niveles, uno

observacional-descriptivo, otro cuantitativo donde se ponen “números a las

obervaciones” y otro más avanzado que podríamos llamar nivel predictivo,

donde existe conocimiento como para pronosticar eventos futuros. No es

posible saltar de la descripción a la predicción sin pasar por la etapa de

cuantificación

Las bases de datos agrícolas, con observaciones repetidas en el tiempo y/o en

el espacio, se tornan cada vez más ricas (más variables). La importancia de

tener un modelo cuantitativo que ajuste los datos es poder predecir. A medida

que nuestro entendimiento de los mecanismos ecológicos, químicos, biológicos

y económicos de los procesos se incrementa existe mayor interés y necesidad

en la modelación de la dinámica que se observa o que se pone en acción

mediante la experimentación.

¿Qué es un modelo científico? Un modelo es un instrumento o herramienta

para estudiar el fenómeno de interés. Es una abstracción de la realidad, una

simplificación del proceso bajo estudio realizada para poner de manifiesto

aspectos relevantes en la búsqueda de respuestas a preguntas concretas. El

modelo es usado para coordinar el conocimiento en un todo coherente, para

representar los datos en una estructura sólida que los sintetice y que permita

visualizar los mecanismos que hay por detrás de éstos.

La Matemática es el sistema lógico más poderoso y universal, por ello no es

sorprendente que la mayoría de los modelos científicos sean desarrollados

como abstracciones matemáticas del fenómeno observado y cuantificado. Los

modelos matemáticos proveen una estructura lógica y concisa para estudiar

sistemas complejos (descubrir patrones, tendencias, relaciones), comunicar

hallazgos, realizar predicciones y desarrollar nuevos conocimientos y

tecnologías.

Page 14: Análisis de Ensayos Agrícolas Multi-ambientalesI

2

No existen modelos “buenos”, pero existen modelos que “son útiles”. No hay un

modelo “que tenga de todo”, cada modelo permite abordar algún punto de vista,

proporcionado una visión complementaria a la parte experimental.

La modelación científica es un proceso iterativo y fundamentalmente

interdisciplinario. En esta sección describiremos algunos aspectos teóricos

relacionados con la modelación estadística, para luego aplicar estas ideas en la

búsqueda de modelos para responder preguntas de interés desde ensayos

multi-ambientales usando Info-Gen como soporte computacional.

Modelo Estadístico

Un modelo puramente matemático es un dispositivo mecanístico

(=determinístico) tal que para un conjunto de “inputs” se predice el “output” con

absoluta certeza (Schabenberger y Pierce, 2002). Un modelo matemático no

deja nada liberado al azar. En particular en Bio-Ciencias, debido a la

variabilidad innata de los datos empíricos usados para desarrollar y validar el

modelo, muchas veces es imposible predecir su output con exactitud.

La variabilidad en el output puede provenir de fuentes de variación sistemáticas

o aleatorias asociados a los inputs, pero aún cuando éstas sean reconocidas a

priori e incorporadas en el modelo, existe mayor o menor extensión de

variabilidad residual debida a: 1) errores de medición, 2) errores de muestreo

(asociados con el mecanismo de observación) y/o 3) errores experimentales

provenientes de heterogeneidades en el material experimental y/o en la

aplicación de tratamientos (variación biológica y tecnológica).

El diseño de experimentos con repeticiones es recomendado ya que la

replicación de los tratamientos o condiciones experimentales de interés

garantiza que la variación debida al error experimental pueda ser estimada. La

replicación, en combinación con la aleatorización, permitirá obtener

estimaciones libres de sesgo.

Page 15: Análisis de Ensayos Agrícolas Multi-ambientalesI

3

Schabenberger y Pierce (2002) comentan que la inclusión de elementos

estocásticos (aleatorios) en un modelo matemático conduce a modelos más

parsimoniosos y a menudo a abstracciones más seguras que muchos modelos

determinísticos complejos.

El modelo estadístico (modelo que incorpora la aleatoriedad) es presentado

como un caso especial del modelo estocástico. El modelo estadístico contiene

componenetes determinísticas y aleatorias (como los modelos estocásticos)

pero asociadas a constantes desconocidas (parámetros) que deben ser

estimadas a partir de los datos empíricos. Por el contrario, en los modelos

estocásticos todos los parámetros son conocidos.

Por ejemplo, si modelamos la relación entre el rendimiento (g/m2) y niveles de

fertilización nitrogenada (kg/ha) con una función polinómica, un modelo

matemático describiría la variable output o respuesta (es decir, el rendimiento)

como función polinómica del nivel de fertilización (variable input o explicativa).

Así la i-ésima observación podría representarse a través de una polinomial de

segundo orden, i.e. i 0 1 i1 2 i2Y= + X + Xβ β β .

El modelo estocástico agregaría a esta ecuación un término de error aleatorio

con alguna distribución de probabilidad conocida y de media cero. Si los

parámetros involucrados en el modelo (por ejemplo los β y la varianza de los

errores) son desconocidas y deben ser estimados a partir de los datos, diremos

que el modelo i 0 1 i1 2 i2 iY= + X + Xβ β β ε+ es un modelo estadístico. Al agregar una

desviación aleatoria, el modelo explícitamente establece que la respuesta

también es aleatoria, es decir que no puede predecirse con exactitud:

La expresión del modelo matemático (i.e. 0 1 i1 2 i2+ X + Xβ β β ) es el valor esperado o

promedio de la variable respuesta en el modelo estadístico. En general

buscamos modelos estadísticos parsimoniosos, i.e. no necesitamos ajustar

perfectamente cada dato, sino los valores esperados de una respuesta de

interés bajo ciertas condiciones (no se espera que el modelo sea correcto para

una observación particular, sino que sea correcto en promedio). Usualmente se

Page 16: Análisis de Ensayos Agrícolas Multi-ambientalesI

4

necesita realizar omisiones de ciertos datos y suposiciones para abstraer el

fenómeno y conseguir un modelo útil para el valor esperado o promedio.

El modelo estadístico, en general, describe la variabilidad de una o más

variables respuesta, descomponiendo esa variabilidad en fuentes de variación

conocida y desconocida. La calidad de un modelo no es necesariamente

función de su complejidad o de su tamaño, sino que está determinada por su

utilidad en un estudio particular o experimento para responder a las preguntas

de interés (Schabenberger y Pierce, 2002).

Términos Asociados a Modelos Estadísticos

Un modelo estadístico tradicionalmente usado en ensayos multi-ambientales es

el modelo de análisis de la varianza (ANAVA) que se basa en la partición de la

variabilidad total de la variable respuesta (Y) en una componente de la

variabilidad debida a la influencia de factores de clasificación conocidos, más

otro componente aleatorio asociado a la variabilidad residual o experimental.

Otro modelo frecuente es el de regresión lineal (RL) donde la variabilidad en Y

se expresa como la suma de la variabilidad debida a una relación lineal entre Y

y una o más covariables o variables regresoras más la variabilidad residual.

Ambos modelos son lineales en los parámetros del valor esperado para Y.

Según la naturaleza (constante o aleatoria) de los efectos de los factores de

clasificación y/o covariables sobre Y, los modelos se clasifican como modelos

de efectos fijos o modelos de efectos aleatorios o modelos mixtos (modelos que

incluyen tanto efectos fijos como aleatorios distintos al término de error).

Para realizar inferencias a partir de modelos de efectos fijos sólo hay que

especificar supuestos distribucionales o probabilísticas sobre los términos

asociados a la variación no explicada (términos de error). Cuando se trabaja

con variables Y continuas como el rinde, generalmente se supone que los

errores se distribuyen independientemente como variables aleatorias normales

de media cero y varianza constante.

Page 17: Análisis de Ensayos Agrícolas Multi-ambientalesI

5

Estos supuestos se sustentan en un esquema de muestreo ideal y en un buen

diseño experimental. No siempre se cumplen, por lo que se han desarrollado

procesos de estimación asociados a modelos no lineales para datos no

normales, varianzas heterogéneas y datos no independientes. Casanoves

(2004, 2005b) ilustra aplicaciones de la teoría de modelos mixtos para modelar

falta de independencia y heterogeneidad de varianzas en modelos lineales para

ensayos multi-ambientales. En esta edición del libro, al usar modelos lineales

de ANAVA y RL supondremos que se cumplen los supuestos usuales del

muestreo ideal.

Como se dijera anteriormente las variables input de estos modelos pueden ser

variables de clasificación (es decir variables que generan categorizaciones o

clases de datos) o covariables (variables continuas que podrían variar

concomitantemente con la variable respuesta).

Consideremos un ejemplo para usar los términos introducidos. Supongamos un

ensayo multi-ambiental donde 10 genotipos son sembrados en cada uno de 5

ambientes en un diseño en bloques completos al azar (DBCA) con 3

repeticiones por ambiente. Las clasificaciones de los datos relevados (Rinde)

que identifican la fuente de cada dato son llamados “factores”. Cada clase

individual de un factor representa un “nivel”. Aquí los factores son: Genotipo,

Ambiente y Bloque. El factor Genotipo tiene 10 niveles, Ambiente 5 y Bloque 3.

Así hay 150 casos o filas (10×5×3) en la matriz de datos. Si en cada unidad

experimental (UE) o parcela se releva el rendimiento pero también la humedad

del grano a cosecha, podríamos considerar a la humedad como una

covariables ya que ésta es una variable cuantitativa que varía de parcela a

parcela y que posiblemente sus variaciones o expliquen variaciones en el

rendimiento.

Además del impacto de factores principales sobre la variabilidad de Y,

frecuentemente es necesario estudiar la influencia de la variabilidad inducida

por la interacción de múltiples factores a la variabilidad de la respuesta. Nuevos

factores pueden ser compuestos en términos de los factores principales

Page 18: Análisis de Ensayos Agrícolas Multi-ambientalesI

6

(Genotipo, Ambiente, Bloque) y de propiedades particulares respecto del

fenómeno estudiado.

Si A y B son factores principales el factor compuesto A*B se denomina

“interacción A×B” o “A cruzado con B” cuando cada nivel del factor A se

combina con cada nivel del factor B para dar la nueva clase del factor A×B.

El factor compuesto B>A se denomina “anidamiento de A en B” cuando todas la

unidades experimentales con el mismo valor de A tienen necesariamente el

mismo valor de B, y por tanto cualquier variabilidad entre las clases de B

contribuyen a la variabilidad entre las clases de A. Si A está anidado en B, los

valores de los niveles de A correspondientes a una clase de B pueden diferir de

los valores de los niveles de A en otra clases de B. En el ejemplo planteado, el

factor Bloque se encuentra anidado en el factor Ambiente. Si bien los valores de

los niveles del factor Bloque son 1, 2 y 3 (porque hay tres repeticiones) para

todo nivel del factor Ambiente (es decir en todos los ambientes los bloques se

numeran como 1, 2 y 3), el 1 para el factor Bloque del Ambiente 1 no tiene

“nada que ver” con el 1 que corresponde al factor Bloque en el Ambiente 2.

Postulado el modelo, es necesario estimar sus parámetros. El método más

usado en la estimación para modelos de efectos fijos es el método de mínimos

cuadrados, mediante el cual se realiza una búsqueda de valores para los

parámetros de manera tal que las diferencias cuadráticas entre cada dato

observado y el valor predicho según el modelo sea mínima.

Inferencia Estadística

La inferencia en un modelo estadístico implica no sólo la estimación de los

parámetros del modelo sino también la determinación de la precisión de las

estimaciones (o errores estándares). Las estimaciones de los parámetros y sus

errores estándares son utilizados para contrastar hipótesis referidas a los

parámetros desconocidos del modelo. Las pruebas F constituyen la base del

contraste de hipótesis. La hipótesis nula, comúnmente evaluada para un

parámetro del modelo, es aquella que postula que el parámetro es cero.

Page 19: Análisis de Ensayos Agrícolas Multi-ambientalesI

7

Cuando la hipótesis se rechaza se concluye que el input asociado a ese

parámetro es influyente o importante en la explicación de la variabilidad de Y.

El software estadístico expresa los resultados de cada contraste de hipótesis en

función de “valores p” o “p-values”. Los valores p son probabilidades calculadas

bajo el supuesto de que la hipótesis nula es verdadera. Ellos miden la

probabilidad de observar un resultado experimental al menos tan extremo como

el observado en nuestro experimento cuando la hipótesis nula es verdadera.

Por ello se rechaza la hipótesis nula (hipótesis que niega la existencia de

influencia o que postula la nulidad del parámetro) siempre que el valor p sea

pequeño. Como pequeño se debe entender menor o igual al nivel de

significación (α) definido a priori para el contraste, generalmente, α=0.05. Si se

rechaza la hipótesis nula y se concluye que existe un efecto significativo

(repetible) del input sobre el output.

Page 20: Análisis de Ensayos Agrícolas Multi-ambientalesI
Page 21: Análisis de Ensayos Agrícolas Multi-ambientalesI

PARTE II

ENSAYOS MULTI-AMBIENTALES EN AGRICULTURA

Page 22: Análisis de Ensayos Agrícolas Multi-ambientalesI
Page 23: Análisis de Ensayos Agrícolas Multi-ambientalesI

11

Introducción

En marzo de 2000, el premio Nobel Norman Borlaug (Borlaug, 2000) remarcó

que las investigaciones en agricultura deben orientarse al desarrollo y aplicación

de tecnologías que incrementen, en forma económica y ambientalmente

sustentable, los rendimientos de granos en un 75% en los próximos 25 años.

En respuesta a esta problemática se desarrollan investigaciones agrícolas que

involucran numerosas dimensiones de análisis; de particular importancia resulta

la búsqueda de germoplasma diferencial y de técnicas de manejo que permitan

un mejor uso y conservación de los recursos involucrados.

El aumento sostenido de la producción agropecuaria está orientando a las

investigaciones en agricultura hacia una diversidad de objetivos, que se

relacionan tanto a la producción económica como a la mayor calidad y también

hacia la capacidad de adaptación de las plantas a condiciones ambientales

específicas. El mejoramiento de germoplasma diversificado, adaptado

específicamente, constituye un importante elemento de políticas de desarrollo

hacia una agricultura sustentable. La obtención de germoplasma de alta

calidad, no sólo ofrece bio-seguridad, sino que también permite generar nichos

especiales de mercado.

El conocimiento de relaciones entre variables de cantidad y calidad de

producción y su ambiente de cultivo es clave para desarrollar tecnologías de

producción segura y de alto impacto. Es necesario maximizar el potencial

agrícola de sistemas de cultivos específicos y minimizar la ocurrencia de

eventos desfavorables. La mayoría de los caracteres de cultivo de importancia

económica corresponden a características complejas o poligénicas y son tanto

genética como ambientalmente determinados (Dayde, 2000; Casini et al., 2002;

Casini et al., 2003, Dardanelli et al., 2005).

Dado que las regiones de producción de los principales cultivos cubren

extensas áreas ecológicas con amplio rango longitudinal y latitudinal, se

observan importantes variaciones de condiciones climáticas (en especial

Page 24: Análisis de Ensayos Agrícolas Multi-ambientalesI

12

precipitaciones, radiación y temperatura) y de suelo; éstas en interacción con

aquellas debidas a la mejora continua del germoplasma vegetal y de las

tecnologías de producción, provocan respuestas altamente variables. La

interacción genotipo×ambiente, ofrece posibilidades, especialmente en la

selección y adopción de genotipos que muestren interacción positiva con una

localidad y sus condiciones ambientales prevalecientes (exploración de

adaptación específica) o de genotipos con baja frecuencia de rendimientos

pobres o fracaso del cultivo (exploración de estabilidad de rendimientos) (Kang,

1990).

La presencia de interacción entre genotipos y ambiente puede ser utilizada para

la generación de nichos “óptimos” para la obtención de productos agro-

alimentarios diferenciales. Su presencia debe ser contemplada en el análisis de

resultados experimentales, desde la generación de diseños o planes

experimentales hasta en el análisis y elaboración de recomendaciones. Las

decisiones concernientes con las estrategias de mejoramiento del germoplasma

y del cultivo de variedades vegetales deben ser basadas sobre un conocimiento

científico del material vegetal y sus relaciones con los ambientes de cultivo. Por

ello existe una inversión sustancial por parte de numerosas organizaciones en

la implementación de ensayos multi-ambientales.

Aspectos claves para el análisis de datos de ensayos multiambientales no sólo

se relacionan con las suposiciones que se deben realizar respecto a los efectos

principales de tratamientos, ambientes e interacciones sino también con los

supuestos asociados con las componentes de error derivadas de las parcelas y

el arreglo experimental que se utiliza a campo para conducir cada ensayo

individual. Es importante recordar que los experimentos que involucran

repeticiones permiten mejor control y estimación del error experimental. Sin

embargo, aumentar la repetición espacial y temporal de los ensayos

(obteniendo en mejor muestreo de la variación ambiental) es más conveniente

que aumentar el número de réplicas en cada ensayo cuando se trata de

experimentos multi-ambientales (Bradley et al., 1988). Si bien los diseños

experimentales realizados planificadamente para evaluar genotipos y/o

Page 25: Análisis de Ensayos Agrícolas Multi-ambientalesI

13

sistemas de cultivos en múltiples ambientes suelen tener un diseño balanceado

y con repeticiones dentro de cada ambiente, su elevado costo muchas veces

limita el plan experimental a nivel multi-ambiental y a menudo las conclusiones

deben extraerse de bases de datos con discontinuidad en el tiempo, con alta

dinámica de tratamientos entre ambientes y por tanto altamente

desbalanceadas.

Interpretar la gran cantidad de datos que se recolectan en ensayos multi-

ambientales ha generado importantes desafíos metodológicos-analíticos.

Nuevas aproximaciones para el análisis de datos relacionados a la variación

genotípica o entre tratamientos, ambiental y la interacción tratamiento×ambiente

han probado ser de utilidad. Pero, dada la multidimensionalidad del problema, el

enfoque seguido en la aplicación de estos métodos y modelos debe

necesariamente ser interdisciplinar. La interacción entre biometristas con

ecofisiólogos, mejoradores vegetales, agrometeorólogos, químicos,

fitopatólogos y biotecnólogos, entre otros, es crucial para favorecer la

generación de información necesaria para un accionar apropiadamente

planificado.

Ensayos Comparativos Multi-ambientales

Los ensayos multi-ambientales son comunes en la evaluación de germoplasma

vegetal. Al realizar los ensayos en distintos ambientes se aumenta el espacio

de inferencia y la potencia para explorar la interacción de los genotipos con los

ambientes. Los ensayos comparativos de rendimiento (ECR) multi-ambientales,

constituyen una colección de ensayos comparativos de rendimiento a través de

los ambientes. Los ECR multi-ambientales se caracterizan por involucrar

múltiples ambientes (localidades y/o años) en los que se evalúan varios

genotipos, dentro de cada ambiente se sigue un diseño experimental particular,

como por ejemplo, un diseño en bloques completamente aleatorizados (con

bloques completos o incompletos). Antes de iniciar una discusión sobre el

análisis de estos ensayos es importante dejar establecido ciertos términos y

Page 26: Análisis de Ensayos Agrícolas Multi-ambientalesI

14

abreviaciones que serán usadas, en concordancia con aquellas de la

bibliografía internacional.

Genotipo (G)

Se refiere a un cultivar (i.e., ya sea con material genéticamente homogéneo,

tales como líneas puras y clones o heterogéneos tales como poblaciones de

polinización abierta) más que al genoma del individuo.

Ambiente (E)

Se relaciona al conjunto de climas, suelos, factores bióticos (plagas y

enfermedades) y condiciones de manejo en un ensayo individual llevado a cabo

en una localidad dada en un año particular (en el caso de cultivos anuales) o en

varios años (en el caso de cultivos perennes). En ensayos repetidos en el

tiempo un ambiente se define a partir de la combinación de los factores

localidad y año (para anuales) o de la combinación de los factores localidad y

ciclo de cultivo (para perennes) (Annicchiarico, 2002).

Interacción Genotipo×Ambiente (GE)

La interacción GE no es directamente observable en ensayos multi-

ambientales, si no que es un concepto usado para contemplar la inconsistencia

de diferencias entre los desempeños de los genotipos a través de los

ambientes. Los estudios de interacción permiten clarificar el entendimiento de

adaptaciones en sentido amplio y en sentido estricto (o específicas de

ambiente) (Kang et al., 2004). El fin último es clasificar genotipos en relación a

los ambientes. Algunas veces el interés principal se centra en los ambientes,

pero el procedimiento de análisis no es muy diferente al usado cuando la

finalidad está focalizada en los genotipos, ya que ambos son necesarios para

que la interacción exista.

Las causas de la ocurrencia de la interacción GE son muy discutidas (Kang,

1998). Una interacción de magnitud importante puede provenir de una alta

Page 27: Análisis de Ensayos Agrícolas Multi-ambientalesI

15

variación entre los genotipos para caracteres morfofiosiológicos de resistencia

(o de escape) a uno más tipos de stress, o de una alta variación entre

ambientes para la incidencia del mismo o mismos tipos de stress (como los

determinados por clima, suelo, factores bióticos y de manejo). La estructura

genética del material vegetal puede también tener relación con la magnitud de

la interacción GE. Los tipos de variedades caracterizados por pocos niveles de

heterogeneidad (líneas puras, clones, híbridos simples) o heterocigosis (líneas

puras) tienden a interactuar con el ambiente más que los tipos de variedades

con comportamiento opuesto (poblaciones de polinización abierta, mezclas de

líneas puras) porque son menos ricos en genes de adaptabilidad y su estructura

genética los hace más susceptibles a las variaciones en las condiciones

ambientales (Annicchiarico, 2002).

La interacción GE, puede dividirse en dos categorías: 1) interacción GE con

cambio de rango (COI), también conocida como interacción “crossover”

(Cornelius et al., 1996) e interacción GE sin cambio de rango (NONCOI) o

interacción “noncrossover” (Figura 1).

genotipo 1 genotipo 2

1 2ambiente

0

5

10

15

20

25

30

35

rend

imie

nto

genotipo 1 genotipo 2 genotipo 1 genotipo 2

1 2ambiente

0

5

10

15

20

25

30

35

rend

imie

nto

genotipo 1 genotipo 2

Page 28: Análisis de Ensayos Agrícolas Multi-ambientalesI

16

genotipo 1 genotipo 2

1 2ambiente

0

5

10

15

20

25

30

35re

ndim

ient

o

genotipo 1 genotipo 2 genotipo 1 genotipo 2

1 2ambiente

0

5

10

15

20

25

30

35

rend

imie

nto

genotipo 1 genotipo 2

Figura 1. Interacción Genotipo-Ambientes.

En el cuadro superior izquierdo de la Figura 1 se presenta una situación con

interacción GE, hay cambio de rango y las varianzas de los ambientes son

similares. En el cuadro superior derecho los genotipos interaccionan con los

ambientes pero no hay cambio de rango, las varianzas de los ambientes son

diferentes. En el cuadro inferior izquierdo hay interacción GE sin cambio de

rango y las varianzas de los genotipos en los ambientes son distintas. En el

cuadro inferior derecho se representan dos genotipos cuya producción aumenta

proporcionalmente con los ambientes, no hay interacción GE y no hay cambio

de rango.

Adaptabilidad

Se refiere a la habilidad del genotipo de tener buen desempeño (por ej. altos

rendimientos) con respecto a determinadas condiciones ambientales. La

información provista por los ensayos multi-ambientales permite evaluar

adaptabilidad e identificar el tipo y tamaño de la interacción GE esperada en

una región dada para definir, si es necesario, una estrategia de cultivo exitosa

con respecto a los efectos de interacción. Los efectos de interacción que son de

importancia práctica pueden ser maximizados para el desarrollo de

germoplasma específicamente adaptado o minimizados para el desarrollo de

Page 29: Análisis de Ensayos Agrícolas Multi-ambientalesI

17

material ampliamente adaptado. Cuando el tamaño de los efectos de

interacción entre genotipos y localidades (interacción GE repetible) es pequeño

comparado con otras fuentes de variación en la respuesta, particularmente con

la variación genotípica, se reduce la posibilidad de mejoramiento para

adaptación específica. Los patrones de adaptación con respecto a localidades

individuales son de limitado interés per se, ya que la muestra de sitios o

localidades con la que comúnmente se trabaja es muy pequeña comparada con

el número de localidades de la región en estudio. El mejoramiento genético

específico, debiera ser dirigido hacia áreas o subregiones y en general no es de

interés ahondar en los efectos de interacción positiva de genotipos con

localidades particulares. Las estrategias de adaptación amplia surgen cuando

hay baja interacción entre genotipos y localidades o bien aunque la varianza de

interacción sea grande, no existen ventajas claras de una crianza específica.

Mega-ambientes

Los sitios que son similares en términos de respuesta genotípica suelen ser

agrupados por diferentes métodos, y cada grupo puede identificar un área de

cultivo que es relativamente uniforme porque los efectos de la interacción GL

son limitados o despreciables. Tales áreas (posibilidad del objeto de

mejoramiento específico) han sido definidas por diferentes autores como

subregiones, subzonas, subáreas, macro-ambientes o mega-ambientes

(CIMMYT, 1989; Yan y Hunt, 2002).

La identificación de mega-ambientes se asocia con la exploración de los

patrones de la interacción GE repetibles a través de los años, e incluso más allá

de su connotación en mejoramiento genético pueden ser utilizadas desde un

punto de vista productivo ya que permiten señalar nichos ambientales propicios

para una mayor productividad tanto en cantidad como en calidad. Las

subregiones pueden también ser definidas para la recomendación de

variedades. Cada subregión entonces coincide con un dominio de

recomendación, agrupando aquellos sitios con el o los genotipos de mejor

comportamiento (Gauch y Zobel, 1997). La definición de subregiones no

Page 30: Análisis de Ensayos Agrícolas Multi-ambientalesI

18

es geográficamente exacta. La identificación de subregiones, aún cuando no se

pretende mejorar para áreas específicas, podría ayudar a localizar sitios de

prueba cruciales para selección de germoplasma. Las subregiones que son

demasiado pequeñas para tener interés práctico a veces suelen ser fusionadas

con algunas más grandes.

Ecotipos e Ideotipos

Un ecotipo se asocia con la ocurrencia de adaptación específica de individuos o

poblaciones de una misma especie a ciertas áreas y condiciones ambientales.

El ecotipo puede incluir varios genotipos. El concepto de ideotipo vegetal, que

constituye una construcción artificial de una “planta modelo” (aquella que reúne

atributos deseados) ha sido desarrollado en diferentes especies para

incrementar rendimientos bajo condiciones de cultivo favorables. Un ideotipo

vegetal es un modelo para el genotipo ideal para una subregión.

Estabilidad

La expresión estabilidad de rendimientos alta se refiere a la habilidad de los

genotipos de comportarse consistentemente, ya sea con altos o bajos niveles

de rendimiento, a través de un amplio rango de ambientes. Las medidas de

estabilidad pueden ser relativas a diferentes conceptos, estabilidad bajo el

concepto “estático” (Tipo 1) o bajo el concepto “dinámico” (Tipo 2) (Becker y

León, 1998; Lin et al., 1986).

Desde el concepto estático, un genotipo se considera estable si posee un

desempeño sin cambios ante variaciones de las condiciones ambientales. El

término “sensibilidad ambiental” también ha sido utilizado en este sentido,

donde una gran sensibilidad corresponde a baja estabilidad (Dyke et al., 1995).

Así, los genotipos estables son aquellos que se comportan similarmente en

todos los ambientes en que son probados. Se podría decir que la varianza del

rendimiento a través de los ambientes tiende a cero.

Page 31: Análisis de Ensayos Agrícolas Multi-ambientalesI

19

Contrariamente, desde el concepto dinámico, un genotipo se considera estable

si tiene una respuesta predecible a las variaciones ambientales. Para el caso en

que el rendimiento es el carácter en estudio, se espera que un genotipo estable

rinda lo estimado o predicho por las condiciones ambientales. Becker (1981)

llamó a este tipo de estabilidad el concepto agronómico y lo distinguió del

concepto biológico, el cual es equivalente al concepto estático.

Lin et al. (1986), publican un resumen de ecuaciones para nueve estadísticos

de estabilidad basados ya sea en la desviación respecto a un efecto de

genotipo promedio usando sumas de cuadrados (Grupo A), basados en el

término de interacción GE usando sumas de cuadrados (Grupo B), basados la

desviación respecto a un efecto de genotipo promedio o en el término de

interacción GE pero usando coeficientes de regresión (Grupo C) y basados la

desviación respecto a un efecto de genotipo promedio o en el término de

interacción GE pero usando desviaciones de regresión (Grupo D).

La clasificación dada por Lin et al. (1986) representa tres tipos diferentes de

conceptos de estabilidad. Para la estabilidad tipo I, un genotipo es considerado

estable si su varianza entre los ambientes es pequeña. Este tipo de estabilidad

sería análogo al concepto de homeostasis que Becker (1981) llamó estabilidad

biológica. Desde un punto de vista agronómico genotipos con una buena

estabilidad tipo I pueden no ser preferidos por presentar bajos rendimientos en

ambientes que son altamente productivos para otros cultivares. Obviamente,

una respuesta fenotípica de alto rendimiento acompañada de alta estabilidad

tipo I es deseable, pero esto puede ser muy difícil de alcanzar en la práctica,

razón por la cual frecuentemente se hace necesario evaluar los genotipos

desde conceptualizaciones diferentes a la de estabilidad tipo I. La utilidad de la

estabilidad tipo I depende del rango de variación de las condiciones

ambientales que se incorporan en un ensayo. Si se trata de experimentos multi-

ambientales, con ambientes muy distintos, los estadísticos de estabilidad de

tipo I pueden no ser tan útiles como en ensayos donde se comparan varios

genotipos dentro de una región o a través de ambientes no muy diferentes.

Page 32: Análisis de Ensayos Agrícolas Multi-ambientalesI

20

La estabilidad tipo II considera un genotipo estable si su respuesta al ambiente

es paralela a la respuesta promedio de todos los genotipos en el ensayo. Este

tipo de estabilidad sería análogo al concepto agronómico dado por Becker

(1981). La estabilidad tipo II tiene el inconveniente de tomar valores relativos a

los genotipos presentes en el ensayo. Esto dificulta la comparación de

genotipos provenientes de ensayos diferentes, o de genotipos que año a año se

van incorporando. La selección de los genotipos que intervienen en el ensayo

debe ser hecha muy cuidadosamente y en función del nivel de inferencia que

se quiera alcanzar con los resultados.

Por último, el concepto de estabilidad tipo III identifica a un genotipo como

estable si muestra un cuadrado medio residual pequeño cuando se regresa su

respuesta fenotípica sobre índices ambientales. Breese (1969), sugirió que el

término estabilidad debiera ser reservado para medir irregularidades no

predecibles en la respuesta a los ambientes. Así, si al regresar genotipos con

ambientes, la variabilidad de la respuesta es subdividida en una parte

predecible (debida a la regresión) y en otra no predecible (desvíos de la

regresión), esta última podría servir como medida de estabilidad. El problema

es que para regresar la respuesta del genotipo con el ambiente, se construyen

índices ambientales a partir de los promedios de rendimiento de los genotipos

presentes en el ensayo, luego el modelo de análisis es descriptivo y no

predictivo.

Lin y Binns (1991) definieron el concepto Tipo 4 de estabilidad que está

estrictamente relacionado al concepto estático. La estabilidad Tipo 4 relaciona

la consistencia de rendimiento exclusivamente en el tiempo, i.e. a través de los

años (o ciclos de cultivo) dentro de las localidades, mientras que la estabilidad

de Tipo 1 relaciona la consistencia tanto en el tiempo como en el espacio, i.e. a

través de los ambientes pertenecientes al mismo o a diferentes sitios.

Desde el punto de vista de los productores, la localidad es un factor constante –

no variable - y la consistencia del rendimiento a través del tiempo es el único

componente relevante de la estabilidad de rendimiento de los genotipos. Por

Page 33: Análisis de Ensayos Agrícolas Multi-ambientalesI

21

esto es también importante evaluar la estabilidad del rendimiento con respecto

a los efectos de la interacción genotipo-año dentro de las localidades. En

realidad, la consistencia del rendimiento en el espacio también merece

consideración en presencia de interacción genotipo-localidad significativa, ya

que un genotipo seleccionado o recomendado debería ser estable tanto a

través de los años como a través de las localidades en su área de adaptación o

recomendación (Piepho, 1998). Mejorar por alta estabilidad de rendimiento

puede considerarse un objetivo útil cuando la variación en la interacción GE es

grande.

Confiabilidad del Rendimiento

El interés práctico de combinar niveles altos de rendimiento promedio y de

estabilidad de rendimiento ha llevado a desarrollar el concepto confiabilidad de

rendimiento (Eskridge, 1990; Kang y Pham, 1991; Evans, 1993). Un genotipo

seguro (confiable) está caracterizado por rendimientos consistentemente altos a

través de los ambientes. El uso de índices de confiabilidad de rendimiento

facilita la selección o recomendación de genotipos; el rendimiento promedio y

los caracteres de estabilidad de rendimiento son combinados dentro de una

única medida. La evaluación de la estabilidad del rendimiento requiere

numerosos ambientes de prueba (por lo menos ocho) para garantizar

confiabilidad (Kang, 1998; Piepho, 1998).

Modelos para Análisis en Ensayos Comparativos de Rendimiento

Un modelo estadístico simple para un ensayo comparativo de rendimiento multi-

ambiental conducido según un diseño en bloques completos al azar dentro de

cada ambiente para comparar g genotipos es:

ijk i j k(j) (ij) ijky = + G + E + B(E) + GE + µ ε

donde yijk es la respuesta (rendimiento) del genotipo i, en el ambiente j; µ es la

Page 34: Análisis de Ensayos Agrícolas Multi-ambientalesI

22

media general; Gi es el efecto (que puede ser considerado como aleatorio o fijo)

del genotipo i con i=1,...,g; Ej es el efecto fijo del ambiente j con j=1,…,t; B(E)k(j)

es el efecto de bloque k dentro del ambiente j; GE(ij) es el efecto aleatorio de la

interacción del genotipo i con el ambiente j; y εijk es el término de error aleatorio

asociado a la observación yijk. Cuando se analizan caracteres continuos como

el rendimiento, los términos de error generalmente se suponen distribuidos

normalmente con media cero pero la varianza de los errores puede ser

constante o no. En numerosas ocasiones resulta apropiado considerar que la

variación residual es heterocedástica (i.e. no constante) a través de las

localidades, ya que ensayos conducidos en diferentes localidades suelen tener,

por múltiples razones, diferente precisión.

Los ambientes son primariamente definidos según las localidades intervinientes

en el ensayo, pero éstos son repetidos a través de varias campañas agrícolas o

años, y por tanto cada combinación del factor localidad y el factor campaña

puede ser entendida como un nuevo ambiente. Un alternativa de análisis para

estos ensayos repetidos temporalmente es modelar la respuestas de interés

para cada año en forma separada y luego evaluar la consistencia de los

patrones de efectos de genotipo y/o interacción observados a través de los

análisis por campaña. Si las localidades son las mismas a través de las

campañas se podrá observar la persistencia de los agrupamientos de

localidades en el tiempo.

Aún cuando exista interacción con cambio de rango, si la misma refleja cambios

de rankings entre cultivares que pertenecen a una misma subregión, se suele

inferir la existencia de mega-ambientes. En general las tablas de datos de ECR

conducidos en un mismo año o campaña agrícola son completas. El modelo

básico para datos de ECR provenientes de una misma campaña agrícola es el

modelo de ANAVA a dos vías de clasificación presentado anteriormente donde

las localidades constituyen los ambientes. El término de interacción GEij,

interacción del i-ésimo genotipo en el j-ésimo ambiente, es estimado desde la

tablas de medias de genotipo en cada ambiente como el residuo del modelo

Page 35: Análisis de Ensayos Agrícolas Multi-ambientalesI

23

aditivo, . . ..ij i jy y y y− − + . El término de error del modelo de medias a través de

los bloques, asociado al i-ésimo genotipo en el j-ésimo ambiente es el promedio

de los errores asociados a cada genotipo en cada ambiente, ijε .

Bajo las suposiciones de varianzas residuales constantes, el error estándar

para la comparación de medias de genotipos es igual para todas las

comparaciones de a pares entre los genotipos. El modelo se usa para obtener

las contribuciones aditivas de genotipo, ambiente e interacción GE sobre las

respuestas. Si la interacción GE resulta significativa, los ranking de genotipos

usando las medias a través de los ambientes no son recomendados, sino que

convienen las comparaciones de genotipo dentro de cada ambiente.

El modelo anterior involucra (g-1)×(e-1) parámetros de interacción GE, con

e=número de ambientes, los cuales no proveen mucha información sobre los

patrones de la interacción. Posteriormente se presentarán otros modelos

basados en la re-expresión de cada término de interacción en función de

componentes principales de variación. Estos modelos permiten explorar más

parsimoniosamente los patrones de interacción. Cuando los ECR multi-

ambientales se llevan a cabo por más de una campaña agrícola, el efecto de la

campaña puede ser incorporado al modelo:

ijkl j k(j) l i (ij) (il) (ijl) ijkly = + L + B(L) + C + G + GL + GC + GLC + µ ε

donde yijkl es la respuesta (rendimiento) del genotipo i, en la localidad j, bloque k

en la campaña l; µ es la media general; Lj es el efecto de la localidad j con

j=1,…,s; B(L)k(j) es el efecto del bloque k dentro de la localidad j con k=1,...,n; Cl

es el efecto de la campaña l con l=1,…,a; Gi es el efecto del genotipo i con

i=1,...,g; GL(ij) es el efecto de la interacción del genotipo i con la localidad j; GC(il)

es el efecto de la interacción del genotipo i con la campaña l; GLC(ijl) es el efecto

de la interacción del genotipo i, la localidad j y la campaña l y εijkl es el término

de error aleatorio asociado a la observación yijkl. Este modelo es útil para

estimar la contribución relativa de los términos GC, GL y GCL en la interacción

GE, así como la contribución de la variabilidad debida a genotipo, ambiente y

Page 36: Análisis de Ensayos Agrícolas Multi-ambientalesI

24

GE sobre el total de (G+E+GE), donde E representa el efecto del ambiente

definido por la combinación de los niveles de los factores localidad (L) y

Campaña (C).

Las decisiones respecto a la estabilidad de rendimiento dependen

esencialmente de las relaciones entre estos componentes de varianza, las

cuales pueden ser estimadas únicamente si los ensayos son repetidos en el

tiempo. En particular los componentes de la interacción GC y GCL, o la

componente de la interacción GC dentro de localidades son relevantes para

decisiones en el contexto de una estrategia de adaptación amplia. El

mejoramiento en estabilidad de rendimiento se justifica cuando todos los

componentes de varianza relevantes de los efectos GE son relativamente más

grandes que los componentes de la varianza genotípica.

Generalmente, en etapas tempranas de la investigación existe un gran número

de genotipos experimentales con pocos antecedentes de evaluación que

pueden ser considerados como una colección aleatoria del material genético de

interés e interesa la adaptación general de los mismos a un amplio rango de

ambientes. El establecimiento de una estrategia de adaptación utiliza la

respuesta del conjunto de genotipos para obtener indicadores y generar

predictores relativos al futuro del material de mejoramiento que puede ser

producido desde la base genética de la que los genotipos evaluados, se

considera, conforman una muestra representativa.

Por el contrario, en etapas avanzadas de evaluación, usualmente se trabaja con

pocos genotipos altamente selectos y se requieren inferencias expresas sobre

ellos (recomendación de cultivares) y de existir una importante interacción

podría ser posible elaborar estrategias de cultivo para áreas determinadas de la

región objetivo. En general, el mejoramiento para adaptación específica tiende a

implicar grandes ganancias genéticas en comparación con el aumento de

costos relativos de una estrategia de adaptación general. Las ganancias

genéticas son derivadas de la exploración de los efectos de interacción entre

genotipos y localidades vía caracteres de adaptación útiles (Bindinger et al.,

Page 37: Análisis de Ensayos Agrícolas Multi-ambientalesI

25

1996), tanto como del aumento de la heredabilidad del rendimiento como una

consecuencia del decrecimiento de la interacción GE (Kang, 1998).

Ensayos en las Primeras Etapas de Evaluación

El uso de ensayos multi-ambientales en etapas tempranas de investigación, se

justifica en el propósito de ampliar el espacio de inferencia. Los efectos de

genotipos pueden ser considerados como aleatorios y el análisis de datos

experimentales se centrará en el estudio de la variabilidad entre genotipos y en

la elección del material que deberá continuar en evaluación. El análisis no se

centra en la diferencia entre ambientes por lo que la comparación de medias de

ambiente no es de interés. Los efectos de ambiente sólo se incorporan para

descontar posibles diferencias promedios entre ambientes y para considerar

que el desempeño de un genotipo podría cambiar a través de los ambientes,

pero en esta etapa no se trabaja pensando en adaptación específica.

El interés principal es poder evaluar el desempeño de los genotipos

experimentales sobre una base más amplia de ambientes. Los objetivos

clásicos del análisis para datos de ECR multi-ambientales en etapas tempranas

son: 1) estimar las componentes de varianza o contribución a la variación total

de los efectos de genotipo, ambiente y su interacción; 2) estimar si la respuesta

que se está analizando puede ser heredada, i.e. determinar la heredabilidad del

carácter basada en la relación entre la componente de varianza genotípica y la

varianza fenotípica (varianza debida a la interacción más varianza residual) y 3)

identificar los materiales superiores con el propósito de elegir un subconjunto

del conjunto de genotipos evaluados para continuar en futuros ECR. Si bien

pareciera ideal no descartar ningún material, la elección de un subconjunto para

continuar en evaluación es logísticamente necesaria debido a que cada año se

incorporan nuevos genotipos y no pueden seguir todos en evaluación.

El BLUP (del inglés, Best Linear Unbiased Predictor) es el mejor predictor

insesgado de los efectos del modelo cuando éstos se consideran aleatorios

(Robinson, 1991). Los BLUPs de efectos de genotipo son especialmente

Page 38: Análisis de Ensayos Agrícolas Multi-ambientalesI

26

recomendados para ser usados como predictores del desempeño futuro de

cada genotipo ya que ponderan el rendimiento observado en el genotipo por la

heredabilidad del carácter y contemplan el desbalance de información que

puede existir entre los genotipos que se están comparando (Balzarini, 2000;

Casanoves y Balzarini, 2003). El uso del BLUP de genotipos permite ponderar

las predicciones sobre genotipos en relación a la estructura de covarianzas

genéticas subyacentes. Si se tiene información de pedigree o molecular que

permita establecer relaciones genéticas (covarianzas) entre las líneas

comparadas, éstas pueden ser incorporadas en la expresión del predictor,

incrementando la información disponible desde cada evaluación (Bernardo,

1999).

Ensayos en Etapas Avanzadas de Evaluación

Los ECR se conducen en distintos sitios durante una serie de años para

obtener información que sustente la recomendación de cultivares superiores. La

información obtenida desde ensayos mutli-ambientales es explorada para

predecir respuestas de rendimiento en años venideros y, más comúnmente en

nuevas localidades. Los ensayos multiambientales en esta etapa generalmente

contienen un número reducido de genotipos mejorados (altamente

seleccionados) y uno o más cultivares comerciales usados como testigos

(Balzarini, 2001). El objetivo es comparar rendimientos promedios y estabilidad

de los rendimientos de los genotipos sobre varios ambientes y promedios de

rendimientos en ambientes específicos. Si bien se pretende identificar cultivares

superiores para un determinada región objetivo, estos ensayos también suelen

ser usados con otros propósitos, por ej., para evaluar si la región para la cual se

esta produciendo material puede ser subdividida en diferentes mega-ambientes

cuando la extensión de la interacción GE es considerablemente alta. Un mega-

ambiente usualmente representa un área relativamente amplia, no

necesariamente continua, con condiciones similares de stress biótico y abiótico,

requerimiento de sistemas de cultivo, preferencias del consumidor y de

volúmenes de producción (Braun et al., 1996). Gauch y Zobel (1996,1997)

Page 39: Análisis de Ensayos Agrícolas Multi-ambientalesI

27

definieron un mega-ambiente como una fracción del área de cultivo de una

especie que muestra condiciones ambientales homogéneas y que causa que

ciertos genotipos se desempeñen similarmente. Usando una base de datos de

ECR de maíz Gauch y Zobel (1997) presentaron la metodología www o “which

wins where” para identificar mega-ambientes, ésta constituye una aproximación

multivariada al estudio de interacción GE.

Aún cuando las medidas de rendimiento resultan de la suma de efectos de

genotipos (G), ambientes (E) y de efectos de interacción (GE), solamente G y

GE parecieran relevantes para recomendación de cultivares. Yan y Hunt (2002)

presentaron la técnica GGE biplot indicada para la identificación de mega-

ambientes. La técnica es derivada de la descomposición por valor singular

(SVD) de la matriz de residuos de un modelo que ajusta los datos sólo por los

efectos de ambientes, así el patrón de los residuos es usado para explorar

simultáneamente patrones de variación en la suma G+GE.

Los biplots (Gabriel, 1971) son gráficos de dispersión construidos a partir de

ejes artificialmente creados (denominados componentes principales o CP) para

mostrar los patrones más relevantes o de menor ruido de una matriz de datos

permitiendo visualizar en una misma gráfica tanto las filas de la matriz (casos)

como las columnas (variables). Estos de se obtienen a partir de la SVD de la

matriz de interés.

En los GGE biplots la SVD se aplica sobre una matriz conteniendo variaciones

debidas a G+GE, esto posibilita visualizar puntos que representan los filas

(genotipos) y otros que representan las columnas (ambientes) de la matriz de

datos con variaciones debidas a G+GE. Cuando la CP1, Componente Principal

de mayor variación, se correlaciona altamente con las medias de genotipo, se

interpreta que las diferencias entre genotipos observados a lo largo de este eje

representan respuestas proporcionales de los cultivares a través de los

ambientes. Los cultivares con altos valores de CP1 serán, en todos los

ambientes, más rendidores que los cultivares con bajos valores de la CP1. En

estos casos la CP2 generalmente muestra variaciones debidas a GE, es decir

Page 40: Análisis de Ensayos Agrícolas Multi-ambientalesI

28

respuestas no proporcionales de los genotipos a través de los ambientes, las

cuales son responsables de cambios de orden o ranking de los cultivares a

través de los ambientes (interacción crossover). Así, genotipos con valores altos

de CP1 se asocian a una respuesta promedio mayor y a ambientes con altos

valores de CP1 y valores de CP2 cercanos a cero facilitan la identificación de

tales genotipos. Las interpretaciones a realizar para este tipo de gráficos

depende de cada matriz de datos particular, es decir de cuánta variación debida

a los efectos G y GE se encuentran representadas por cada eje y por ello no

sólo es necesario indagar sobre los porcentajes explicados por cada eje, sino

también por el tipo de variación contenida en cada uno de ellos.

Predecesores de estos biplots son los biplots construidos a partir de un modelo

AMMI (del inglés, additive main effects and multiplicative interaction) (Gauch,

1988). El gráfico biplot asociado a un modelo AMMI, se obtiene a partir de la

descomposición por valor singular de la matriz de residuos de un modelo que

ajusta los datos no sólo por los efectos de ambientes sino también por los

efectos de genotipo. Así el patrón de los residuos es usado para explorar

patrones puramente atribuibles a los efectos GE.

Analizar las correlaciones entre genotipos y ambientes responsables de la

interacción GE es siempre informativo, sin embargo es importante realizar esta

interpretación junto a los niveles promedios de rendimiento. Por ello, los ejes de

representación de ambientes y genotipos obtenidos a partir de un modelo

AMMI, usualmente se presentan en combinación con las medias de los

genotipos, evaluando así simultáneamente producción y estabilidad de

producción.

Cuando existe información adicional sobre variables ambientales (datos

climáticos, de suelo, etc.) y/o sobre características de los genotipos o de manejo

del cultivo distinta a aquella considerada como variable de respuesta, es posible

introducir estos datos en el modelo como covariables. La información adicional

en cuanto a factores climáticos, de suelo, bióticos o de manejo de cultivo de las

localidades y los caracteres morfofisiológicos de los genotipos pueden ser

Page 41: Análisis de Ensayos Agrícolas Multi-ambientalesI

29

pruebas extremadamente valiosas para proporcionar causas de la ocurrencia

de interacciones GE, proporcionar promedios para la caracterización de las

subregiones y extender los resultados a nuevos sitios. También son útiles para

aumentar el conjunto de modelos posiblemente adoptados para el análisis de

adaptación y para identificar caracteres adaptativos y evaluar su potencial como

criterio de selección indirecto. Además, la comparación entre datos climáticos

de los años probados con los datos de los sitios a largo plazo puede ayudar a

verificar si ocurrió algún año con características muy inusuales para mejorar la

inferencia.

Page 42: Análisis de Ensayos Agrícolas Multi-ambientalesI
Page 43: Análisis de Ensayos Agrícolas Multi-ambientalesI

PARTE III

MODELOS Y MÉTODOS DE ANÁLISIS EN ENSAYOS MULTI-AMIBIENTALES

Page 44: Análisis de Ensayos Agrícolas Multi-ambientalesI
Page 45: Análisis de Ensayos Agrícolas Multi-ambientalesI

33

Análisis de la Varianza (ANAVA)

Descripción

En experimentos con fines comparativos, usualmente se realiza la

aplicación de varios tratamientos a un conjunto de unidades

experimentales para valorar y comparar las respuestas obtenidas bajo

cada tratamiento o grupo. Se entiende por tratamientos a la/s acciones

que se aplican sobre las unidades experimentales y que son objeto de

comparación. Los tratamientos pueden ser representados por los niveles

de un factor o por la combinación de los niveles de dos o más factores

(estructura factorial de tratamientos), por ejemplo, lo factores pueden ser

localidades, fechas de siembra, híbridos, campañas, etc.; a su vez, cada

factor puede tener dos o más niveles. Por ejemplo, el factor localidad

puede tener dos niveles digamos Pergamino (P) y Córdoba (C), el factor

híbrido también dos niveles digamos el híbrido 1 (H1) y el híbrido 2 (H2).

La combinación de los niveles de los factores forman los tratamientos, es

decir, si los dos híbridos fueron evaluados en Pergamino y en Córdoba,

tendremos cuatro tratamientos: PH1, CH1, PH2, CH2.

Para reducir el error o variabilidad entre unidades experimentales que

reciben el mismo tratamiento, con el propósito de incrementar precisión y

sensibilidad al momento de la inferencia, es importante planificar la

experiencia siguiendo los principios del Diseño de Experimentos (Kuehl,

2001). El diseño experimental es una estrategia de combinación de la

estructura de tratamientos (factores de interés) con la estructura de

unidades experimentales (parcelas, individuos, macetas, etc.) de manera

tal que las alteraciones en las respuestas, al menos en algún subgrupo

de unidades experimentales, puedan ser atribuidas solamente a la acción

de los tratamientos excepto por variaciones aleatorias. El modelo de

análisis de varianza depende del diseño de experimentos que se halla

implementado.

Page 46: Análisis de Ensayos Agrícolas Multi-ambientalesI

34

La diferencia entre el valor observado y el valor ajustado por el modelo

se denomina residuo. Ellos son utilizados como herramienta de

diagnóstico del modelo y para explorar patrones de interacción con el

ambiente en ensayos multi-ambientales muchas veces se ajusta un

modelo o se aplica algún método de análisis sobre los residuos para

analizar la tendencia de la variabilidad contenido en los mismos.

Objetivo

Comparar las respuestas promedio de dos o más tratamientos.

Datos

Para realizar un ANAVA la base de datos debe contener una columna

por cada factor de clasificación y una columna con los valores de la

variable respuesta, en las filas se consignan las repeticiones.

Ejemplo

Base de datos Ideotipos de Maíz (Anexo). Análisis de la varianza para evaluar

el rendimiento en función de ocho híbridos y siete ambientes. Los ambientes

surgieron como la combinación de las localidades y la presencia o ausencia de

fertilización nitrogenada en tres bloques o repeticiones (cada híbrido fue

repetido en cada ambiente). Debido a la combinación de la estructura de

tratamientos y de las unidades experimentales, se ajustó un modelo de ANAVA

para un diseño factorial con las repeticiones anidadas dentro del factor

ambiente, ya que los bloques dentro de un ambiente son diferentes a los

bloques dentro de otro ambiente.

Modelo: Rinde=µ+Híbrido+Ambiente+Ambiente>rep+Híbrido*Ambiente+ε

donde, Rinde es la variable respuesta, µ es la media general del Rinde, Híbrido

es el efecto debido al híbrido, Ambiente es el efecto debido al ambiente,

Ambiente>rep es el efecto de las repeticiones dentro de cada ambiente,

Híbrido*Ambiente es el efecto de la interacción entre los efectos de genotipo y

Page 47: Análisis de Ensayos Agrícolas Multi-ambientalesI

35

ambiente y ε es un término de error aleatorio.

Cuadro 1. Modelo factorial con repeticiones anidadas en ambientes.

Menú Estadísticas Comando Análisis de la varianza Ventana Selector de Variables

Variables dependientes

Rinde Variables de clasificación

Hibrido

Ambiente

rep Ventana Análisis de Varianza Solapa Modelo (Tipear Modelo)

Ambiente\Ambiente>rep Hibrido Ambiente>rep Hibrido*Ambiente

La sentencia Ambiente\Ambiente>rep indica que para evaluar el efecto de

Ambiente debe utilizarse como término de error (expresión Ambiente>rep que

sigue a “\”) es decir la variación entre repetición dentro de un ambiente

(Ambiente>rep) es la variación de referencia para comparar la variación

debida a los Ambientes.

La sentencia Hibrido*Ambiente permite evaluar la interacción, i.e., evaluar si

las diferencias entre híbridos son las mismas en cada ambiente.

Cuadro 2. Resultado del modelo factorial con repeticiones anidadas en ambientes.

Análisis de la varianza Variable N R² R² Aj CV Rinde 168 0,90 0,83 9,44 Cuadro de Análisis de la Varianza (SC tipo I) F.V. SC gl CM F p-valor (Error) Modelo 13291130,77 69 192625,08 12,82 <0,0001 Ambiente 10076605,28 6 1679434,21 13,34 <0,0001 (Ambiente>rep) Hibrido 722276,54 7 103182,36 6,86 <0,0001 Ambiente>rep 1762279,96 14 125877,14 8,37 <0,0001 Hibrido*Ambiente 729968,99 42 17380,21 1,16 0,2760 Error 1472991,50 98 15030,53 Total 14764122,28 167

Page 48: Análisis de Ensayos Agrícolas Multi-ambientalesI

36

Interpretación

La significancia del término de interacción, debe interpretarse antes de evaluar

la significancia de los efectos principales de cada factor. Para este ejemplo, no

hay interacción estadísticamente significativa entre ambientes e híbridos,

indicando que las diferencias en el rendimiento promedio entre los híbridos

evaluados se mantuvieron a través de los diferentes ambientes. Además, se

detectaron diferencias estadísticamente significativas entre los ambientes

(p<0.0001) y entre los híbridos (p<0.0001). Para detectar las diferencias

(estadísticamente significativas) entre pares de ambientes y de híbridos a nivel

del Rinde promedio, se realizaron pruebas de comparación múltiple a posteriori

repitiendo el procedimiento del Cuadro 3 se accedió a la solapa

“Comparaciones” para pedir la prueba LSD de Fisher. Se siguió el mismo

procedimiento seleccionando la opción de comparaciones múltiples DGC, en

una segunda implementación del análisis para poner de manifiesto algunas

diferencias entre estas dos técnicas de comparaciones múltiples.

Cuadro 3. Comparaciones Múltiples de a pares

Page 49: Análisis de Ensayos Agrícolas Multi-ambientalesI

37

El programa ordena automáticamente las medias de cada nivel en orden

ascendente, colocando letras diferentes a los niveles del factor en estudio que

muestran diferencias estadísticamente significativas para el nivel de

significación (α) fijado por el experimentador (en este caso α=0.05).

Con la prueba LSD de Fisher, tanto para las medias de ambientes como para

las de híbridos, hay superposición de letras diferentes, dificultando su

interpretación, sin embargo la prueba LSD permite concluir que los ambientes

que presentaron un mayor rendimiento promedio se asocian en general con las

localidades que recibieron fertilización nitrogenada (BN, ON, CN y PN) y que el

híbrido 2 presenta menor rendimiento promedio que los híbridos 5, 3 y 8 que

son de alto Rinde pero que no difieren en promedio de lo híbridos 4 y 7. Usando

DGC también se puede concluir que las localidades que recibieron fertilización

nitrogenada se asociaron con los mayores rindes y que se diferencian del resto

de las localidades. Entre las localidades que no recibieron fertilización

nitrogenada (P, O y C), P fue la que presentó menor rendimiento promedio. En

la comparación de los híbridos, surge que el 2 es el de menor rendimiento

medio, hay un grupo de híbridos con rendimiento promedio intermedio (1, 6 y 7)

y un grupo de alto rendimiento medio (3, 4, 5 y 8). La prueba DGC constituye un

método particionante (sin solapamiento de letras entre las medias) que es

recomendable para comparar muchas medias, digamos 5 o más (Di Rienzo et

al., 2001).

Page 50: Análisis de Ensayos Agrícolas Multi-ambientalesI

38

Cuadro 4. Resultado de comparaciones múltiples de a pares con la prueba de LSD Fisher

Test:LSD Fisher Alfa:=0,05 DMS:=219,66800 Error: 125877,1402 gl: 14 Ambiente Medias n P 860,48 24 A O 1076,43 24 A B C 1210,05 24 B C BN 1396,84 24 C D ON 1421,89 24 C D CN 1513,49 24 D PN 1614,33 24 D

Letras distintas indican diferencias significativas(p<= 0,05)

Test:LSD Fisher Alfa:=0,05 DMS:=75,08208 Error: 15030,5256 gl: 98 Hibrido Medias n 2 1163,28 21 A 6 1252,99 21 B 1 1263,30 21 B C 7 1304,21 21 B C D 4 1328,98 21 C D 8 1343,75 21 D 3 1360,20 21 D 5 1375,87 21 D

Letras distintas indican diferencias significativas(p<= 0,05)

Cuadro 5. Resultado de comparaciones múltiples de a pares con la prueba de DGC

Test:DGC Alfa:=0,05 PCALT:=210,0225 Error: 125877,1402 gl: 14 Ambiente Medias n P 860,48 24 A O 1076,43 24 B C 1210,05 24 B BN 1396,84 24 C ON 1421,89 24 C CN 1513,49 24 C PN 1614,33 24 C

Letras distintas indican diferencias significativas(p<= 0,05)

Test:DGC Alfa:=0,05 PCALT:=77,5846 Error: 15030,5256 gl: 98 Hibrido Medias n 2 1163,28 21 A 6 1252,99 21 B 1 1263,30 21 B 7 1304,21 21 B 4 1328,98 21 C 8 1343,75 21 C 3 1360,20 21 C 5 1375,87 21 C

Letras distintas indican diferencias significativas(p<= 0,05)

La manera resumida y clara de presentar los resultados de este análisis es a

través de gráficos. En la Fig. 2 se presentan los valores de rendimiento

Page 51: Análisis de Ensayos Agrícolas Multi-ambientalesI

39

para cada ambiente (media ± EE) (izquierda) y para cada híbrido (media ± EE)

(derecha). Además se presentan las letras resultantes de la prueba de

comparaciones múltiples DGC.

P O C BN ON CN PNAmbiente

750

930

1110

1290

1470

1650

Rin

de (g

/m2)

a

b

b

c c

c

c

2 6 1 7 4 8 3 5Hibrido

1000

1100

1200

1300

1400

1500

Rin

de (g

/m2)

a

b bb

c cc c

Figura 2. Rendimiento promedio y error estándar para cada ambiente (izquierda) y para cada híbrido (derecha). Letras distintas indican diferencias estadísticamente significativas (p<0.05), prueba de comparaciones múltiples DCG.

Page 52: Análisis de Ensayos Agrícolas Multi-ambientalesI
Page 53: Análisis de Ensayos Agrícolas Multi-ambientalesI

41

Análisis de Componentes Principales (ACP)

Descripción

El ACP es una forma de combinar linealmente las variables para

encontrar índices (componentes principales, CP) con máxima varianza.

Cada combinación de variables define una componente y los valores

(coeficientes con los que se pondera cada variable) usados para

construir cada combinación son tales que no solo maximizan la varianza

de las componentes sino que también garantizan la falta de correlación

entre ellas (i.e. cada CP aporta nueva información para el entendimiento

de los patrones de variabilidad). Los tipos de variables usadas deben ser

cuantitativas. Los pesos con los que se pondera cada variable en la

combinación lineal constituyen los autovalores obtenidos a partir de la

descomposición por valor singular (SVD) de la matriz de varianzas y

covarianzas entre variables (Balzarini, 2003). Los autovalores asociados

a cada autovector representan las varianzas de cada componente

principal. En algunas situaciones (por ejemplo cuando existen datos

inconmensurables) la SVD se aplica sobre la matriz de correlaciones

entre variables que se corresponde con la matriz de varianzas y

covarianzas de los datos previamente estandarizados. Los gráficos Biplot

(Gabriel, 1971) usualmente acompañan los resultados del ACP, ya que a

través de éstos se grafican en un plano óptimo para el estudio de

variabilidad las observaciones y las variables de manera simultánea. El

plano conformado usando como ejes a las dos primeras componentes

(CP1 y CP2), es el plano que explica mayor porcentaje de variabilidad

total.

Objetivo

Explicar la variabilidad de los casos en estudio con respecto a todas las

variables intervinientes.

Page 54: Análisis de Ensayos Agrícolas Multi-ambientalesI

42

Datos

Para realizar un Análisis de Componentes Principales se puede partir

desde bases de datos donde las filas representan los casos en estudio y

las columnas las distintas variables medidas sobre cada caso (formato

A). También puede realizarse desde bases de datos donde las filas sean

los caracteres medidos (variables) y las columnas los casos (formato B).

El ACP puede realizarse sobre datos estandarizados o no. Se

recomienda estandarizar los datos cuando las variables no son

conmensurables (medidas en diferentes escalas) y/o tienen varianzas de

magnitudes muy distinta.

¿Cómo interpretar un Biplot?

Para interpretar un Biplot obtenido a partir de un ACP clásico (no

corregido por el efecto de filas ni columnas, también denominado ACP no

centrado) se recomienda seguir los siguientes pasos:

1. Observar el porcentaje de variabilidad total explicado por el Biplot. Si el

Biplot conformado por las CP1 y CP2 no explica más del 60% de la

variabilidad total, juzgar la necesidad de explorar los patrones de

variabilidad en un segundo Biplot conformado por las CP1 y CP3. Si son

necesarios muchos Biplot para explicar un porcentaje razonable de la

variabilidad total, digamos mayor a 60-70%, habrá indicios de que el ACP

no es suficiente para representar confiablemente las relaciones entre los

casos y las variables (Arroyo et al., 2005).

2. Concentrarse en la CP1, que por construcción, siempre explicará el

mayor porcentaje de variabilidad total.

2.1 Analizar las proyecciones perpendiculares a la CP1 de los puntos que

representan los casos. Identificar los de mayor inercia, i.e. los puntos que

se encuentran a mayor distancia del cero, ya sea que se alejan hacia la

derecha o hacia la izquierda.

Page 55: Análisis de Ensayos Agrícolas Multi-ambientalesI

43

Interpretar “similaridades/disimilaridades” entre casos en función de las

distancias entre proyecciones sobre la CP1.

2.2. Analizar las proyecciones de los puntos que representan las

variables sobre la CP1. Identificar las variables de mayor inercia.

Interpretar “correlaciones” entre variables según los ángulos de los

vectores que los representan. Ángulos agudos indican correlaciones

positivas, ángulos obtusos corresponden a correlaciones negativas y

ángulos rectos indican que no hay correlación entre las variables.

Nota: La longitud de los vectores correspondientes a las variables no son

de interés cuando los datos han sido previamente estandarizados. Si no

se estandarizan los datos, las longitudes de los vectores son

proporcionales a las varianzas de las variables.

2.3. Interpretar correlaciones entre casos y variables en función de la

orientación, pero no de la cercanía entre puntos, i.e. las variables

orientadas hacia la derecha tendrán altos valores en los casos orientados

en la misma dirección y las variables orientadas hacia la izquierda

tendrán altos valores en los casos orientados hacia la izquierda.

3. Concentrarse en la CP2 y realizar las interpretaciones siguiendo un

procedimiento análogo al realizado para la CP1 pero teniendo en cuenta

que las variables en esta dimensión son de menor importancia que los

realizados sobre la CP1 según indican los porcentajes de variabilidad

total explicados por cada CP.

Ejemplo

Archivo Ideotipos de Maíz (Anexo). El objetivo del análisis es estudiar las

correlaciones entre las variables Rinde, PG, NG, EIRFL, EIRfinLL, IVH1-3,

IVH4-8, IVH7-9 y EUN y describir la variabilidad entre los casos que han sido

definidos por la combinación de ambiente y genotipo. Se aplicó un ACP sobre la

Page 56: Análisis de Ensayos Agrícolas Multi-ambientalesI

44

base de datos conformada por los casos (filas) y variables (columna).

Cuadro 6. Análisis de Componentes Principales.

Menú Estadísticas Comando Análisis Multivariado Opción Componentes Principales Ventana Selector de variables

Variables

Rinde

PG

NG

EI_F

EI_Fll

IV1-3

IV4-6

IV7-9

EUN Criterio de clasificación

Ambiente

Híbrido

Cuadro 7. Análisis de Componentes Principales con Info-Gen.

Page 57: Análisis de Ensayos Agrícolas Multi-ambientalesI

45

-4 -2 0 2 4CP 1 (43.3%)

-4

-2

0

2

4

CP

2 (2

0.5%

)

BN:2

BN:4

BN:5

BN:6

BN:7

BN:8

C:5C:7

CN:5

CN:7

CN:8

O:1

O:3

O:4

O:6

O:8

ON:5P:1

P:3

P:4

P:5

P:6

P:7

P:8

PN:1

PN:2 PN:3

PN:4

PN:5

PN:6

PN:8

Rinde

PG

NG IV1-3IV4-6

IV7-9

EI_F

EI_Fll

EUNBN:2

BN:4

BN:5

BN:6

BN:7

BN:8

C:5C:7

CN:5

CN:7

CN:8

O:1

O:3

O:4

O:6

O:8

ON:5P:1

P:3

P:4

P:5

P:6

P:7

P:8

PN:1

PN:2 PN:3

PN:4

PN:5

PN:6

PN:8

Rinde

PG

NG IV1-3IV4-6

IV7-9

EI_F

EI_Fll

EUN

Figura 3. Biplot según el plano conformado por las dos primeras componentes principales (CP1 y CP2). Los puntos representan los casos (combinación de híbridos-ambientes) y los vectores las variables. Se han identificado los casos marginales o aquellos con mayor inercia sobre cada eje.

Interpretación

El 63.8% de la variabilidad total en el conjunto de casos es explicado por el

primer plano factorial (CP1 y CP2). A nivel de la CP1, que es la componente

que explica por sí sola el 43,3% de la variabilidad total, los casos

correspondientes a situaciones donde se aplicó fertilización nitrogenada (BN,

PN, CN y ON) se “separan” de los casos sin nitrógeno. Con el término “separar”

se desea indicar que al realizar las proyecciones de los casos sobre la CP1, los

valores correspondientes a BN, PN, CN y ON quedan con signos negativos,

mientras que las proyecciones de O y P poseen valores de signos positivos

(Figura 3).

Page 58: Análisis de Ensayos Agrícolas Multi-ambientalesI

46

Los casos con mayor inercia, i.e., los casos cuyas proyecciones se encuentran

más distantes del cero, son los casos más representativos de la variabilidad

total. Por ejemplo, se manifiestan mayores diferencias entre P respecto de BN y

CN. Las variables con mayor inercia hacia la derecha son IV4-6 e IV1-3 y hacia

la izquierda Rinde, EI_Fll y PG. Dado que el ángulo entre IV4-6 e IV1-3 es

agudo y muy cerrado, suponemos que estas variables están positiva y

altamente correlacionadas, mientras que no se correlacionan con EUN, ya que

los vectores que las representan forman un ángulo recto, y se encuentran

correlacionadas negativamente con Rinde y PG (ángulo obtuso). Por otro lado,

el Rinde, PG, NG, EI_F y EI_Fll fueron las variables que presentaron valores

más altos en los casos posicionados sobre la izquierda del Biplot (fertilizados),

mientras que IVH1-3, IVH4-8, IVH7-9 y EUN presentaron los valores más altos

en los casos posicionados a la derecha del Biplot (casos sin fertilización

nitrogenada).

La CP2 permite diferenciar localidades dentro de los casos donde se aplicó

fertilización nitrogenada, ya que PN se “separa” de BN. Los casos

correspondientes a CN presentan proyecciones sobre la CP2 cercanas al cero,

indicando que estos casos poseen poca inercia. A nivel de la CP2, las variables

con mayor inercia son EUN e IV7-9 siendo las responsables de la variación

observada en esta componente. Estas son interpretaciones puramente

estadísticas, tienen por objeto recomendar un procedimiento de lectura de los

Biplt. Para que esta técnica de visualización de variaciones y asociaciones

tenga impacto en la búsqueda de conocimiento es necesario interpretar los

resultados en el contexto y conocimiento a priori del problema agronómico.

Page 59: Análisis de Ensayos Agrícolas Multi-ambientalesI

47

Estudio de Interacción con modelos de ANAVA y ACP

Modelos de ANAVA que incluyen componentes principales

La interacción GE o Tratamiento×Ambiente también puede analizarse

mediante modelos lineales y bilineales (Gollob, 1968), que separan la

porción de interacción dada por la heterogeneidad de las regresiones de

genotipos sobre las medias ambientales de la debida a error. Los

modelos lineales-bilineales representan la versión multivariada de los

procedimientos con interacción multiplicativa (Cornelius et al., 1992 y

1993; Crossa y Cornelius, 1993, 1997 y 2002, Crossa et al., 1993 y

1995). El nombre lineal-bilineal se debe a que el modelo para la

respuesta del genotipo i en el ambiente j comprende una parte

sistemática que involucra los efectos aditivos principales de genotipo y

ambiente (componentes lineales) como así también uno o más términos

multiplicativos para explicar patrones en el término de interacción GE

(componentes bilineales). Comúnmente la parte aleatoria del modelo

involucra al término de error y a la varianza residual del término de

interacción, i.e. la parte de la interacción GE no explicada por el modelo

multiplicativo. La ecuación de un modelo lineal-bilineal para la respuesta

de un genotipo en un ambiente dado puede expresarse como:

1G A

r

ij i j n ni nj ij ijn

y µ λ ξ η ρ ε=

= + + + + +∑

donde Gi es el efecto del genotipo i, Aj es el efecto del ambiente j,

1

r

n ni njn

λ ξ η=∑ es la sumatoria de términos multiplicativos que modela la

interacción GE, compuesta por el parámetro de interacción del j-ésimo

ambiente, denotado por njη , del i-ésimo genotipo para la misma

componente o eje, denotado por niξ y el autovalor (medida de variación)

asociado al eje y denotado por λn. El parámetro ijρ representa la porción

del ij-ésimo término de interacción GE no explicado por el modelo

Page 60: Análisis de Ensayos Agrícolas Multi-ambientalesI

48

multiplicativo y εij es el término de error aleatorio. El término niξ puede ser

interpretado como sensibilidad genotípica a los factores ambientales

latentes, los cuales son representados por njη en el j-ésimo ambiente.

La estimación de los parámetros de interacción GE en un modelo lineal-

bilineal de efectos fijos y para tablas de datos balanceadas se hace por

medio de la descomposición por valor singular (SVD) de una matriz Z,

que contiene los residuos del modelo aditivo luego de ajustar por

mínimos cuadrados el modelo de efectos principales que contiene los

efectos que se quieren descontar.

El cociente entre la suma de los n primeros valores singulares y la suma

de todos los valores singulares representa la proporción de la variabilidad

total en Z explicada por las n primeras componentes (CP1 a la CPn). Las

componentes obtenidas a partir de los autovectores de la SVD de Z son

ordenadas de mayor a menor en función a los autovalores asociados. La

SVD de Z, provee los autovectores que contienen los scores de

genotipos y ambientes respectivamente.

Generalmente los dos primeros términos multiplicativos son suficientes

para explicar los patrones de interacción; la variabilidad remanente se

interpreta como ruido. Para la interpretación de los patrones e interacción

GE, los scores de genotipos y ambientes del término de interacción de un

modelo lineal-bilineal son generalmente visualizados por medio de

gráficos biplot (Gabriel, 1971) para identificar los genotipos y ambientes

más importantes para explicar los patrones de variación contenidos en

los residuos que se analizan.

Page 61: Análisis de Ensayos Agrícolas Multi-ambientalesI

49

Modelo AMMI y Biplots para AMMI(2) y AMMI(1)

Descripción

Los primeros modelos lineales-bilineales usados en ensayos agrícolas

multiambientales fueron llamados modelos de efectos aditivos e

interacción multiplicativa o modelos AMMI (del inglés, Additive Main

effects and Multiplicative Interaction) por Zobel et al. (1988) y Gauch

(1988). Cuando se usa análisis de componentes principales, los

genotipos con valores cercanos a cero en la CP1 son interpretados como

adaptados a los ambientes de prueba o de menor contribución en la

interacción GE.

Los modelos AMMI, suelen denominarse como AMMI(1),

AMMI(2),...,AMMI(n) dependiendo del número de componentes

principales usadas para modelar la interacción. Existen pruebas

estadísticas que pueden implementarse para la selección del mejor

modelo (Macchiavelli y Beaver, 1999). Una manera de seleccionar el

modelo (es decir, seleccionar el número de CPs que se usarán), que

puede no ser la más eficiente pero sí la más sencilla y rápida, es

observando el porcentaje de variación en la tabla de residuos explicada

por cada componente. Se debiera seleccionar un número de

componentes tal que se explique un alto porcentaje de la variación de

interés (en este caso la variación debida a la interacción). El porcentaje

acumulado de variación explicada por las componentes seleccionadas

debiera ser similar al porcentaje de variación explicada por la interacción

respecto al error que acusó la tabla de ANAVA de un modelo completo,

i.e un modelo conteniendo los términos de genotipo, ambiente,

interacción y error.

Para explorar la interacción a partir de un modelo AMMI es necesario

primero ajustar un modelo de Análisis de la Varianza con efectos de

genotipo y de ambiente (sin la interacción). Luego realizar un Análisis de

Page 62: Análisis de Ensayos Agrícolas Multi-ambientalesI

50

Componentes Principales sobre los residuos de ese modelo aditivo. De

esta manera el residuo obtenido para cada observación (o el promedio

de los residuos para las repeticiones de una combinación genotipo-

ambiente) contiene además de una medida del error experimental el

efecto de la interacción GE. El ACP es aplicado sobre esta matriz de

residuos para rescatar las principales componentes de variación que se

espera se relacionen con algún patrón sistemático debido a la interacción

y separar aquellas componentes asociadas a alguna “señal” de las

últimas que muy probablemente se asocien a la variación debido al

“ruido” o error aleatorio. Ambos análisis son aplicados automáticamente

cuando se solicita un análisis de interacción en Info-Gen y se especifica

correctamente los términos del modelo de ANAVA a ajustar en la primera

etapa.

Objetivo

Estudiar la interacción GE, es decir identificar comportamientos

diferenciales (alejados de los esperados bajo un modelo aditivo) de los

genotipos a través de los distintos ambientes.

Datos

La base de datos para realizar un estudio de patrones de interacción GE

mediante un modelo AMMI debe contener una columna que identifique

genotipos, otra ambientes y otra que contenga los valores de la variable

respuesta.

Page 63: Análisis de Ensayos Agrícolas Multi-ambientalesI

51

Ejemplo

Base de datos Ensayos Comparativos de Rendimiento de Poroto (Anexo).

Análisis de Interacción Genotipo*Ambiente, modelo AMMI.

Cuadro 8. Modelo AMMI usando Info-Gen.

Menú Mejoramiento Comando Análisis de Interacción Ventana Selector de Variables

Variable dependiente

Rinde Criterio de Clasificación

Líneas

Ambientes

Cuadro 9. Análisis de la interacción Genotipo Ambiente

Page 64: Análisis de Ensayos Agrícolas Multi-ambientalesI

52

Cuadro 10. Gráficos Biplot asociado al modelo AMMI(2) (arriba) y AMMI(1) (abajo)

-2.00 -1.00 0.00 1.00 2.00CP 1 (55.3%)

-2.00

-0.93

0.15

1.22

2.30C

P 2

(17.

8%)

1 2

3

4

5 6

7

8

9

10

11

12

13

1415 16

17

18

19

20

21

22

2324

25

26

27

2829

30

IE0

IE1

IE2

IO0

IO1MG

SCSM

VJ1 2

3

4

5 6

7

8

9

10

11

12

13

1415 16

17

18

19

20

21

22

2324

25

26

27

2829

30

IE0

IE1

IE2

IO0

IO1MG

SCSM

VJ

1.0 1.2 1.4 1.6 1.8 2.0Rinde medio

-0.50

-0.25

0.00

0.25

0.50

Sco

res

CP

1

IE0

IE1IE2

IO0

IO1

MG

SC

SM

VJ

L1

L3

L4

L6

L7

L8

L11L12

L13

L14L15

L18

L20

L22L23

L24L25

L26

L28

L29

L30

IE0

IE1IE2

IO0

IO1

MG

SC

SM

VJ

L1

L3

L4

L6

L7

L8

L11L12

L13

L14L15

L18

L20

L22L23

L24L25

L26

L28

L29

L30

.

Page 65: Análisis de Ensayos Agrícolas Multi-ambientalesI

53

Interpretación

En estos datos el rendimiento promedio mostró un amplio rango, de 0.4 a más

de 3 ton.ha-1, con las líneas determinadas siendo en general de menor rinde

que las indeterminadas. Del ANAVA completo se deduce que la varianza

debida a la interacción GE tiene una magnitud de aproximadamente el 50% de

aquella debida al error. Las dos primeras componentes principales explican el

73.1% de la variabilidad en la tabla de residuos y por tanto se puede suponer

que ellas son suficientes para explicar los patrones debidos a la interacción; se

decidió trabajar con un modelo AMMI(2). También se graficaron las líneas de

regresión para ambos tipos de genotipos (determinados y no determinados)

construidas a partir de la relación entre las respuestas centradas (yij.- y…)

versus los efectos de ambiente (y.j.- y…) para cada genotipo (análisis no

mostrado). Se observó que estas rectas de regresión presentaban pendientes

diferentes; este es un buen indicador de la existencia de efectos multiplicativos

que pueden ser explicados a través del modelo AMMI. Al menos parte de la

interacción debe ser explicada por el hábito de crecimiento debido al cruce

observado de las rectas de regresión. Este tipo de análisis suele ser útil antes

de proceder a analizar el biplot relacionado al modelo AMMI.

Se presentaron dos biplots, uno construido a partir de las dos primeras

componentes principales y otro construido a partir de la CP1 y los rendimientos

medios (por línea y por ambiente), algunas veces este último gráfico es referido

como AMMI(1). La primera componente principal (CP1), claramente indica que

el aspecto más importante de la interacción GE puede ser explicado por el

hábito de crecimiento: esencialmente, todos los genotipos con crecimiento

indeterminado (numerados del 16 al 30) tienen scores o valores positivos de la

CP1, mientras que la mayoría de los genotipos con crecimiento determinado

tienen scores negativos.

Debido a los efectos multiplicativos usados en el modelo, un ambiente dado va

a manifestar efectos opuestos para líneas determinadas respecto a los

manifestados para líneas indeterminadas. Los ambientes IE1, IE2, IO0 y IO1

Page 66: Análisis de Ensayos Agrícolas Multi-ambientalesI

54

(todas fechas de plantación en Puerto Rico, excepto enero 1990) tendieron a

asociarse o mostrar correlación positiva con líneas indeterminadas, mientras

que los ambientes IE0, MG, SC, SM y VJ parecieran estar positivamente

correlacionados con líneas de hábito de crecimiento determinado. La CP2

diferencia líneas en función de la correlación de los términos de interacción con

el ambiente IO0.

Los ambientes IO1 y MG son extremos en el rango de variación de la CP1 y por

tanto concluimos que ellos contribuyen más en explicar los patrones de

interacción GE, es decir los cambios más importantes en las diferencias entre

genotipos son observados en estos ambientes. El biplot del AMMI(1) sugiere

que los genotipos L24 y L29 exhiben un comportamiento más predecible

(mayor estabilidad) entre aquellos genotipos de alto rendimiento. Ellos son

buenos candidatos, entre las líneas indeterminadas, para los ambientes IE1,

IE2, IO0 y IO1. El genotipo L3 mostró el mismo comportamiento entre las líneas

determinadas. El genotipo L14 es también una línea de alto rendimiento entre

las determinadas y a la vez un importante contribuyente a la interacción GE.

Page 67: Análisis de Ensayos Agrícolas Multi-ambientalesI

55

Modelo SREG y Biplot GGE

Descripción

Los modelos de regresión por sitio (SREG, Cornelius et al., 1996; Crossa

y Cornelius, 1997 y 2002) son modelos lineales-bilineales que remueven

el efecto de sitio y sólo expresan a la respuesta en función de G+GE.

Son aconsejables cuando los sitios (o ambientes) constituyen la fuente

de variación más importante en relación a la contribución de los

genotipos y la interacción GE sobre la variabilidad total, situaciones éstas

muy comunes en la práctica. Para visualizar los patrones de interacción

con remoción de los efectos de ambiente (datos centrados por sitio), Yan

et al. (2000) proponen los gráficos GGE biplots. A partir de estos gráficos

se puede investigar la diferenciación de mega-ambientes entre los

ambientes en estudio y seleccionar cultivares superiores en un mega-

ambiente dado. El modelo para construir un GGE biplot con las 2

primeras CP, a partir de la SVD de datos centrados por efecto de

ambientes (Yan y Hunt, 2002) es:

1 1 1 2 2 2ij j i j i j ijy y λ ξ η λ ξ η ε− = + +

donde ijy es el rendimiento medio del genotipo i en el ambiente j, jy es la

media de los genotipos en el ambiente j, 1λ y 2λ son los autovalores para

la CP1 y CP2 respectivamente, 1iξ y 2iξ son los scores del genotipo i en

la CP1 y CP2 respectivamente, 1jη y 2jη son los scores del ambiente j en

la CP1 y CP2 respectivamente y ijε es el término residual asociado a la

observación promedio del genotipo i en el ambiente j centrado por el

efecto del ambiente j. El modelo es escalado para asegurar que la CP1 y

la CP2 tengan las mismas unidades. El método de escalamiento consiste

en tomar la raíz cuadrada de la variable en su escala original

1/ 2 1/ 2 1/ 2 1/ 21 1 1 1 2 2 2 2ij j i j i j ijy y λ ξ λ η λ ξ λ η ε− = + + .

Page 68: Análisis de Ensayos Agrícolas Multi-ambientalesI

56

El GGE biplot basado en las dos primeras componentes es construido

graficando 1/ 21 1iλ ξ y 1/ 2

1 1jλ η versus 1/ 22 2iλ ξ y 1/ 2

2 2jλ η .

Yan et al. (2000) señalan que usualmente la CP1 representa respuestas

de los cultivares que son proporcionales a través de los ambientes las

cuales se asocian con la interacción GE sin cambio de rango, mientras

que la CP2 representa respuesta de los cultivares no proporcionales a

través de los ambientes, es decir aquellas responsables de la interacción

GE con cambio de rango. Si existe una alta correlación entre las medias

de los genotipos y la CP1 podría interpretarse el GGE biplot de acuerdo a

las sugerencias dada por Yan et al (2000), es decir los cultivares con

scores CP1 altos se interpretan como aquellos que tienden a tener

mayores rendimientos y los ambientes con CP1 altos y CP2 cercanos a

cero con los ambientes que facilitan la identificación de dichos cultivares.

Para explorar la interacción a partir de un modelo SREG es necesario

primero ajustar un modelo de Análisis de la Varianza con efectos de

ambiente (sin efectos de genotipo ni interacción). Luego realizar un

Análisis de Componentes Principales sobre los residuos del modelo

ajustado. De esta manera el residuo obtenido para cada observación (o

el promedio de los residuos para las repeticiones de una combinación

genotipo-ambiente) contiene además de una medida del error

experimental el efecto de genotipo (G) y el de la interacción GE.

El ACP es aplicado sobre esta matriz de residuos para rescatar las

principales componentes de variación que se espera se relacionen con

algún patrón sistemático debido a la suma G+GE y separar aquellas

componentes asociadas que no muestran patrón sino ruido. Ambos

análisis son aplicados automáticamente cuando se solicita un análisis de

interacción en Info-Gen y se especifica correctamente los términos del

modelo de ANAVA a ajustar en la primera etapa.

Page 69: Análisis de Ensayos Agrícolas Multi-ambientalesI

57

Objetivo

Identificar mega-ambientes y genotipos ganadores en cada mega-

ambiente.

Datos

La base de datos para realizar un estudio de patrones de interacción GE

mediante un modelo SREG debe contener una columna que identifique

genotipos, otra ambientes y otra que contenga los valores de la variable

respuesta.

Ejemplo

Base de datos Ensayos Comparativos de Rendimiento de Maní (Anexo).

Modelo GGE.

Cuadro 11. Modelo GGE

Menú Mejoramiento Comando Análisis de interacción Ventana Selector de variables

Variable dependiente

Rendim Criterio de Clasificación

Genotipo

Sitio

Bloque Ventana Siguiente (Borrar Genotipo manualmente)

Page 70: Análisis de Ensayos Agrícolas Multi-ambientalesI

58

Cuadro 12. Análisis de la Interacción Genotipo Ambiente para un modelo GGE

-2 -1 0 1 2CP 1 (76.2%)

-2

-1

0

1

2

CP

2 (1

6.7%

)

Florman

manf393mf447

mf457

mf478

mf480mf484

mf485

mf487

mf489

Tegua Sitio 1

Sitio 2

Sitio 3Florman

manf393mf447

mf457

mf478

mf480mf484

mf485

mf487

mf489

Tegua Sitio 1

Sitio 2

Sitio 3

Figura 4. GGE biplot para la identificación de los mejores genotipos en cada sitio. Puntos oscuros representan genotipos y puntos claros sitios.

Page 71: Análisis de Ensayos Agrícolas Multi-ambientalesI

59

Interpretación

Para la identificación de los mejores genotipos en cada ambiente, la propuesta

de Yan y Hunt (2002) de interpretación de los GGE biplot especifica que en

primer lugar se debe graficar un polígono envolvente de identificadores de

genotipo, este es automáticamente obtenido en Info-Gen (Figura 4). En la base

de datos analizada, los extremos que definen el envolvente están dados por los

genotipos mf480, mf457, mf489, mf485, mf484, Tegua y Florman. Estos son

genotipos de comportamiento extremo, i.e. los de mejor o peor rendimiento en

algunos ambientes. A continuación, para cada uno de los lados del polígono

(hay tantos lados como genotipos extremos haya) se trazan líneas rectas que

pasan por el origen y son perpendiculares a cada uno de los lados del polígono

(o a sus proyecciones). De esta forma, el biplot queda dividido en cuadrantes,

generalmente cada uno conteniendo un genotipo en el vértice.

Los genotipos que quedan en el vértice son los que más rinden en los

ambientes que quedan encerrados en el cuadrante. Se observa que en el

cuadrante que tiene como vértices a los genotipos mf480 y mf457 se encuentra

el Sitio 1. Estos genotipos son los de mayor rinde en ese sitio. Luego les sigue

en rendimiento el genotipo mf478. El cuadrante cuyo vértice esta determinado

por el genotipo Tegua, involucra al Sitio 2. Al genotipo Tegua le sigue en

rendimiento el genotipo Florman, aunque por su cercanía en el biplot estos

tienen rendimientos muy parecidos en ese sitio. El siguiente cuadrante queda

determinado por la proyección de la línea que une a los genotipos mf484 y

Tegua y por la proyección perpendicular hacia el origen de la línea que une

mf489 y mf457. En este cuadrante el marcador del genotipo mf485 es el vértice

del sector que contiene al Sitio 3 y a los genotipos mf485, mf484m, mf489,

mf487 y mf447 en orden de mayor a menor rendimiento dentro de ese sitio.

Todos los sitios que quedan en un mismo cuadrante pueden ser considerados

como pertenecientes a un mega-ambiente. Aquí, la componente de interacción

GE fue mayor que la componente de G, quedan todos los sitios en distintos

cuadrantes, sugiriendo la presencia de tres mega-ambientes diferentes.

Page 72: Análisis de Ensayos Agrícolas Multi-ambientalesI

60

Page 73: Análisis de Ensayos Agrícolas Multi-ambientalesI

61

Modelo GREG y Biplot GEE

Descripción

Los modelos de regresión por genotipo son modelos lineales-bilineales

que remueven el efecto de genotipo y expresan a la respuesta en función

de E+GE. Son aconsejables cuando los genotipos constituyen una fuente

de variación importante y es de interés identificar ambientes que

contribuyen a la interacción GE. Para visualizar los patrones de

interacción con remoción de los efectos de genotipo (datos centrados por

genotipo), se utilizan gráficos denominados GEE biplots. Estos son

obtenidos de manera análoga a la explicada para los GGE biplot.

Objetivo

Identificar ambientes que contribuyen a la interacción y los ambientes

“ganadores” dentro de mega-ambientes favorables para determinados

grupos de genotipos.

Datos

La base de datos para realizar un estudio de patrones de interacción GE

mediante un modelo GREG debe contener una columna que identifique

genotipos, otra ambientes y otra que contenga los valores de la variable

respuesta.

Page 74: Análisis de Ensayos Agrícolas Multi-ambientalesI

62

Ejemplo

Base de datos Ensayos Comparativos de Rendimiento de Poroto (Anexo).

Modelo GEE.

Cuadro 13. Modelo GEE usando Info-Gen

Menú Mejoramiento Comando Análisis de interacción Ventana Selector de variables

Variable dependiente

Rinde Criterio de Clasificación

Líneas

Ambiente Ventana Siguiente (Borrar Ambiente manualmente)

Cuadro 14. Análisis de la Interacción Genotipo Ambiente para un modelo GEE

Page 75: Análisis de Ensayos Agrícolas Multi-ambientalesI

63

Cuadro 15. Gráfico GEE Biplot

-3.2 -1.6 0.0 1.6 3.2CP 1 (53.7%)

-3.2

-1.6

0.0

1.6

3.2

CP

2 (2

1.3%

)

IE0

IE1IE2

IO0

IO1

MG

SC

SM

VJ

1 2

3

4

5 6

7

8

10

11

12

13

1415

1617

18

19

20 21

22

23

2425

2627

28

29

30

IE0

IE1IE2

IO0

IO1

MG

SC

SM

VJ

1 2

3

4

5 6

7

8

10

11

12

13

1415

1617

18

19

20 21

22

23

2425

2627

28

29

30

Interpretación

Para la identificación de los mejores ambientes desde los GEE biplot en primer

lugar se debe graficar un polígono envolvente de identificadores de ambientes,

este es automáticamente obtenido en Info-Gen. En la base de datos analizada,

los extremos que definen el envolvente están dados por los ambientes IO0, IO1,

IE0 y MG. Estos son ambientes de comportamiento extremo, i.e. los de mejor o

peor rendimiento para algunos genotipos. A continuación, para cada uno de los

lados del polígono (hay tantos lados como genotipos extremos haya) se trazan

líneas rectas que pasan por el origen y son perpendiculares a cada uno de los

lados del polígono (o a sus proyecciones). De esta manera se formaron cuatro

cuadrantes. Los ambientes que quedan en el vértice son los que más rinden

entre los que quedan encerrados en el cuadrante. El cuadrante cuyo vértice

es IE0 y que además contiene a los ambientes VJ y SC no contiene ningún

genotipo sugiriendo que estos ambientes son los de rendimientos más pobres

en todos las líneas evaluadas. El ambiente MG es vértice del cuadrante que

contiene a las líneas principalmente de crecimiento indeterminado. El

Page 76: Análisis de Ensayos Agrícolas Multi-ambientalesI

64

tercer cuadrante tiene como vértice IO0 y además contiene a los ambientes IE1

e IE2 y a la mayoría de las líneas de crecimiento determinado pero también

líneas de crecimiento indeterminado. Estos ambientes presentaron altos

rendimientos para líneas de los dos tipos de crecimiento. Ambientes como IE0

son desfavorables para rinde.

Page 77: Análisis de Ensayos Agrícolas Multi-ambientalesI

65

ACP en el Estudio de Correlaciones Genética y Ambientalmente

Determinadas

Objetivo

Estudiar correlaciones entre variables determinadas desde la genética de

los materiales o desde los ambientes en que éstos se evalúan.

Datos

Para estudiar correlaciones genéticamente determinadas se parte de una

base de datos que contenga las medias de cada variable (columnas) por

genotipo (filas). A partir de ésta base de datos se debe obtener una

nueva tabla de tres columnas. Una de las columnas contendrá el nombre

de los genotipos, otra el nombre de las variables evaluadas y la tercera

contendrá el valor promedio de cada uno de los caracteres para cada

genotipo. A partir de ésta nueva configuración de la base de datos se

realiza un Análisis de la Varianza del valor promedio de cada variable y

que sólo ajuste por la variación debida a la variable, es decir que se tiene

como único factor de clasificación a la variable con tantos niveles como

variables se hayan medido en el ensayo. Los residuos estimados a partir

del modelo ajustado contendrán la variación debida al genotipo más la

interacción genotipo*variable. Con los residuos así estimados se realiza

un ACP acompañado de su gráfico Biplot.

Para estudiar correlaciones ambientalmente determinadas se procede de

idéntica manera sólo que se parte de una base de datos que contiene las

medias de cada variable por ambiente.

Dado que las variables pueden ser no conmensurables y/o tener

varianzas muy distintas se recomienda estandarizar previo a cualquiera

de estos dos análisis.

Page 78: Análisis de Ensayos Agrícolas Multi-ambientalesI

66

Ejemplo

Para estudiar correlación genéticamente determinada

Base de datos Ideotipos de Maíz (Anexo). Correlación genéticamente

determinada

Cuadro 16. Paso 1 para estudiar Correlación Genéticamente Determinadas con Info-Gen

Menú Datos Comando Transformar Ventana Selector de variables

Variables

Rinde

PG

NG

MS2-1

IC

IV7-9

EI_F

EI_Fll

EUN Opción Estandarizar

Page 79: Análisis de Ensayos Agrícolas Multi-ambientalesI

67

Cuadro 17. Paso 2 para estudiar Correlación Genéticamente Determinadas con Info-Gen

Menú Estadísticas Comando Medidas Resumen Ventana Selector de variables

Variables

EST_Rinde

EST_PG

EST_NG

EST_MS2-1

EST_IC

EST_IV1-9

EST_EI_F,

EST_EI_Fll,

EST_EUN Criterio de clasificación

Híbrido Opción Medias

Cuadro 18. Paso 3. Ir a Menú Resultados, Comando Exportar Resultados como Tabla

Nota: Si los nombres de las variables están separados por espacios utilizar el

comando Separador de Campos>Tabulador del Menú Resultados

Page 80: Análisis de Ensayos Agrícolas Multi-ambientalesI

68

Cuadro 19. Paso 4. Sobre la Nueva Tabla confeccionada en el Paso 3

Menú Aplicaciones Comando Interacción Genotipo-Ambiente Borrar (Híbrido de Especificación del modelo manualmente)

Cuadro 20. Gráfico Biplot de correlación entre variables genéticamente determinada.

-1.5 -1.0 -0.5 0.0 0.5 1.0 1.5CP 1 (66.0%)

-1.5

-1.0

-0.5

0.0

0.5

1.0

1.5

CP

2 (1

8.5%

)

12

3

4

5

6

7

8

EI_F

EI_Fll

EUN

IC

IV7-9

MS2-1

NG

PG

Rinde

12

3

4

5

6

7

8

EI_F

EI_Fll

EUN

IC

IV7-9

MS2-1

NG

PG

Rinde

Interpretación

Las dos primeras CP explican el 84.5 % de la variabilidad total entre genotipos.

Los híbridos 5 y 7 son diferentes de los híbridos 2 y 6 según la CP1 y en cuanto

a los caracteres evaluados (Cuadro 20). Los caracteres que marcan la mayor

diferenciación genética a nivel de la CP1 es IV7-9 que está asociada a los

genotipos 2 y 6 (izquierda del gráfico) y los caracteres IC, PG y EUN que se

correlacionan positivamente a los genotipos 5 y 7 (derecha del gráfico). La CP2

separa principalmente al carácter NG. El rendimiento muestra correlación

positiva genéticamente determinada con IC, PG y EUN. La correlación entre las

variables IV7-9 y EI_F se encuentra genéticamente determinada; cuando estas

variables asumen valores mayores hay menores valores de IC, PG y EUN.

Page 81: Análisis de Ensayos Agrícolas Multi-ambientalesI

69

Ejemplo

Para estudiar correlación ambientalmente determinada

Base de datos Ideotipos de Maíz (Anexo). Correlación ambientalmente

determinada. Se procede de la misma forma que para el análisis anterior pero

las medias deben calculares por Ambiente (i.e. una media para cada ambiente).

Cuadro 21. Gráfico Biplot de correlaciones ambientalmente determinadas

-3.5 -2.3 -1.2 0.0 1.2 2.3 3.5CP 1 (64.3%)

-3.5

-2.3

-1.2

0.0

1.2

2.3

3.5

CP

2 (2

1.6%

)

BN

C CN

O

ON

P

PN

EI_F

EI_FllEUN

IC

IV7-9

MS2-1

NGPG

Rinde

BN

C CN

O

ON

P

PN

EI_F

EI_FllEUN

IC

IV7-9

MS2-1

NGPG

Rinde

Interpretación

Las dos primeras CP explican casi el 86% de la variabilidad total entre

ambientes (Cuadro 21). La CP1 separa los ambientes con nitrógeno (BN, PN,

CN y ON) de los que no recibieron fertilización nitrogenada (C, O y P). Los

primeros se correlacionan positivamente a las variables Rinde, PG, NG, EI_F,

EI_Fll, IC y MS2-1 mientras que los ambientes pobres en nitrógeno presentan

mayor EUN. A nivel de la CP2 se separan dentro de los ambientes

nitrogenados PN y CN de ON y BN las primeras se asocian a la EI_F mientras

que las segundas se asocian a EI_Fll e IC. El ambiente provoca correlaciones

altas entre Rinde, NG, PG y MS2-1 como así también entre EI_Fll e IC.

Page 82: Análisis de Ensayos Agrícolas Multi-ambientalesI

70

Page 83: Análisis de Ensayos Agrícolas Multi-ambientalesI

71

Análisis de Regresión

Descripción

En el análisis de regresión lineal se estudia cómo los cambios en la/s

variable/s input afectan a la variable respuesta (output), mediante el

ajuste de un modelo para la relación funcional entre ellas, suponiendo

que esta es lineal. Genéricamente, la relación entre las variables se

modela estadísticamente de la forma 0 1 1 2 2 ...i iY X Xβ β β ε= + + + + , donde

Yi es la i-ésima observación, X1, X2, … son las variables regresoras, ß1,

ß2 son los parámetros que dan los pesos de cada variable regresora

respectivamente también llamados coeficientes de regresión y que serán

estimados a partir de los datos y εi es el término de error aleatorio

asociado al i-ésimo dato. Asumiendo que el modelo es correcto, la

función de regresión estimada es usada para hacer inferencias y

predicciones. Antes de ello es importante examinar la adecuación del

modelo, es decir si se cumplen los supuestos del modelo sobre los

errores (normalidad, independencia y homogeneidad de varianza).

Toda la información muestral sobre falta de ajuste está contenida en los

residuos. Cada residuo es un estimador del error, que se espera se

distribuya como una variable aleatoria con media cero. Los residuos

pueden tener varianzas desiguales y correlaciones distintas de cero.

Dado que un dato puede asociarse a un residuo grande (outlier) pero no

ser influyente (no cambia fuertemente el modelo) suele ser preferible

realizar gráficos diagnóstico basados en residuos estudentizados, que

son los residuos corregidos por una medida de influencia de la

observación sobre el ajuste. Los residuos estudentizados debieran seguir

un patrón similar al de variables aleatorias independientes con

distribución normal de media cero y varianza constante. Valores de

residuos estudentizados entre -2 y 2 indican que no existen datos

aberrantes, mientras que datos con valores de residuos estudentizados

Page 84: Análisis de Ensayos Agrícolas Multi-ambientalesI

72

mayores a 2 o menores a -2 son considerados outliers o valores atípicos.

Los gráficos de residuos más usados para diagnóstico son:

Residuos (o residuos Estudentizados) versus predichos: Incumplimiento

de supuestos del modelo se reflejan en dependencias de los residuos

sobre los valores predichos que se manifiestan en la existencia de un

patrón (falta de aleatoriedad) en este gráfico.

QQ-plots e histogramas de residuos (o residuos Estudentizados):

Permiten verificar si los errores se distribuyen normalmente y detectar la

presencia de observaciones inusuales que podrían requerir especial

atención en el análisis. Cuando el tamaño de la muestra es grande, los

alejamientos de la normalidad tienen poco peso en la inferencia.

Para determinar qué proporción de la variabilidad en Y es explicada por

las regresoras introducidas en el modelo se usa el coeficiente de

determinación (R2).

En regresión múltiple, la existencia de multicolinealidad (i.e. correlación

fuerte entre variables regresoras) conduce a estimaciones de

coeficientes de regresión poco estables (cambian mucho al agregar o

quitar variables regresoras). La contribución de cada regresora puede

resultar confusa si existe multicolinealidad y en estos casos los errores

estándar de los estimadores suelen ser muy grandes. La

multicolinealidad puede tratarse mediante el agregado de puntos

adicionales que la destruyan, el uso de combinaciones lineales de las

variables que sean ortogonales y/o la eliminación de variables

redundantes. La técnica de centrar las regresoras también suele

aplicarse para disminuir la correlación entre regresoras.

Objetivo

Explicar la variación en la variable output como función lineal de la o las

variables regresoras.

Page 85: Análisis de Ensayos Agrícolas Multi-ambientalesI

73

Datos

Para realizar un análisis de regresión simple se debe disponer de una

variable dependiente o output (variable Y) y una variable regresora,

explicatoria o predictora (variable X). Si existe más de una variable

predictora se realizará un análisis de regresión múltiple.

Ejemplo

Regresión lineal simple

Base de datos Factores limitantes Soja (Anexo). El objetivo de este análisis es

estudiar si existe relación lineal significativa entre el rendimiento y la

precipitación acumulada durante algún período del cultivo: desde emergencia

hasta floración (Pr1), desde floración hasta inicio de llenado de grano (Pr2) y

desde inicio de llenado de grano hasta madurez fisiológica (Pr3). Además para

estudiar la relación de la precipitación acumulada durante todo el período

reproductivo y el rendimiento, se creó una nueva variable que mide la

precipitación acumulada durante todo el período reproductivo, desde floración

hasta madurez fisiológica (Pr2 + Pr3), mediante el comando Transformar del

menú Datos utilizando la opción Suma. Mediante gráficos de dispersión se

exploró la relación funcional que presentan las observaciones de la variable

dependiente (Rendimiento) vs cada una de variables de precipitación

(regresoras).

Cuadro 22. Gráfico de dispersión con Info-Gen

Menú Gráficos Comando Diagrama de dispersión Ventana Selector de Variables

Eje Y

Rend Eje X

Pr1

Se repite el procedimiento para cada par de variables de interés

Page 86: Análisis de Ensayos Agrícolas Multi-ambientalesI

74

En la Figura 5 se muestran los diagramas de dispersión entre cada una de las

variables relacionadas a la precipitación y el rendimiento. No se observa

relación lineal aparente entre Pr1, Pr2 o Pr3 y el rendimiento, mientras que para

la suma de precipitaciones (Pr2+Pr3) se observa una tendencia cuadrática.

Esta tendencia es difícil de explicar desde un punto de vista agronómico ya que

en general, si hay más agua se espera más rinde. No obstante si se analiza la

relación para casos donde la suma no supera los 180 mm la relación pareciera

ser lineal. Será entonces de interés, en este problema, modelar la relación

antes y después del valor de la precipitación donde se produce un cambio en la

tendencia. Si bien existen procedimientos estadísticos para la búsqueda de los

valores en X donde se produce un cambio en la relación mostrados, basados

en criterios agronómicos y según el diagrama de dispersión, seleccionamos el

valor de 180 mm como punto crítico para el cambio de modelo. Para realizar las

regresiones por separado se clasificó a la variable Suma[Pr2+Pr3] en 2 grupos

(hasta 180 mm y mayores a 180 mm) mediante el comando Categorizar del

Menú Datos.

40 140 240 340 440Pr1 (mm)

170

244

318

392

466

540

Ren

dim

ient

o (g

/m2)

A

0 63 125 188 250Pr2 (mm)

170

244

318

392

466

540

Ren

dim

ient

o (g

/m2)

B

Page 87: Análisis de Ensayos Agrícolas Multi-ambientalesI

75

0 110 220 330 440Pr3 (mm)

170

244

318

392

466

540

Ren

dim

ient

o (g

/m2)

C

40 170 300 430 560Suma[Pr2+Pr3] (mm)

170

244

318

392

466

540

Ren

dim

ient

o (g

/m2)

D

Figura 5. Diagramas de dispersión Rendimiento vs A: Precipitación acumulada desde emergencia hasta floración (Pr1); B: Precipitación acumulada desde floración hasta inicio de llenado de grano (Pr2); C: Precipitación acumulada desde inicio de llenado de grano hasta madurez fisiológica (Pr3) y D: Precipitación acumulada desde floración hasta madurez fisiológica (Suma[Pr2+Pr3]), en este último diagrama la línea de corte vertical indica el valor 180 mm.

Se realizó un análisis de regresión lineal simple del rendimiento en función de

las precipitaciones del período reproductivo (Suma[Pr2+Pr3]) para cada grupo:

Hasta 180 mm y Mayor a 180 mm.

Cuadro 23. Regresión Lineal Simple con Info-Gen

Menú Estadísticas Comando Regresión Lineal Ventana Selector de Variables

Variable dependiente

Rend Regresoras

Suma[Pr2+Pr3] En este ejemplo debió utilizarse además: Solapa Particiones Particionar por

CATSuma[Pr2+Pr3]

En la casilla Regresoras pueden ir más de una variable.

Page 88: Análisis de Ensayos Agrícolas Multi-ambientalesI

76

Cuadro 24. Resultados de Análisis de regresión Lineal Simple

Análisis de regresión lineal CATSuma Variable N R² R²Aj ECMP Hasta 180 Rend 29 0. 71 0.70 2657.63 Coeficientes de regresión y estadísticos asociados Coef Est. EE LI(95%) LS(95%) T p-valor CpMallows const 51.51 33.96 -18.18 121.20 1.52 0.1410 Suma 2.09 0.25 1.57 2.61 8.21 <0.0001 66.02

Interpretación

Los resultados de la regresión lineal para Suma[Pr2+Pr3] ≤ 180 mm se

presenta en el Cuadro 24. Se observa que la pendiente de la recta (2,09) es

estadísticamente distinta de cero (p<0.0001) por lo que existe relación lineal

positiva entre el rendimiento y las precipitaciones acumuladas durante la etapa

reproductiva, es decir que mientras mayor sea la precipitación acumulada en la

etapa reproductiva (hasta 180 mm) mayor será el rendimiento esperado. La

ordenada al origen (const) no es estadísticamente distinta de cero, si bien

podría ajustarse una recta que pase por el origen, en general se recomienda

dejar el término constante en el modelo aunque sea no significativo.

En el diagrama de dispersión de residuos estudentizados vs predichos (Figura 6

derecha) se observan tres puntos que podrían ser considerados outliers debido

a que presentan residuos estudentizados mayores a 2. Analizando la base de

datos se descubre que esos casos corresponden a las tres repeticiones de un

cultivar (DM 4800 RR) en una campaña (03_04) y en una localidad (Totoras).

Decidimos no incluirlo en la modelación ya que los valores de precipitación

registrados para esa localidad son más bajos de lo esperado. Sacando dichos

casos, el ajuste del modelo mejora (ver error cuadrático medio de predicción,

ECMP) (Cuadro 24). La raíz cuadrada de error cuadrático medio de predicción

es un indicador del error de predicción que debe esperarse cuando se use el

modelo en un sentido predictivo, es decir para pronosticar el valor de Y para

nuevos valores de la/s variables regresoras. En este ejemplo el error de

predicción nos dice en cuanto nos podemos equivocar al predecir el

Page 89: Análisis de Ensayos Agrícolas Multi-ambientalesI

77

rendimiento mediante este modelo. El primer ajuste realizado (sin sacar los

casos 110, 111 y 112) tiene un error de predicción (EP) de 51.55 g/m2, mientras

que el segundo ajuste (sin los casos 110, 111 y 112) tiene un EP de 32.07 g/m2.

60 90 120 150 180Suma[Pr2+Pr3] (mm)

140

240

340

440

540

Ren

dim

ient

o (g

/m2)

170 235 300 365 430Predichos

-3

-2

-1

0

1

2

3

Res

. est

uden

tizad

os_R

end

110111112

110111112

Figura 6. Diagrama de dispersión con el ajuste y las bandas de confianza de la regresión lineal simple del rendimiento en función de los valores de Suma[Pr2+Pr3] ≤ 180 mm (izquierda). Diagrama de dispersión de los residuos estudentizados vs valores predichos por el modelo ajustado (derecha).

Cuadro 25. Resultados de análisis de regresión lineal simple (sin los casos 110, 111 y 112)

para los casos donde Suma[Pr2+Pr3] es hasta 180 mm y para casos con Suma[Pr2+Pr3]

mayor a 180 mm

Análisis de regresión lineal CATSuma Variable N R² R² Aj ECMP Hasta 180 Rend 26 0.76 0.75 1028.60 Coeficientes de regresión y estadísticos asociados Coef Est. EE LI(95%) LS(95%) T p-valor CpMallows const 108.60 22.77 61.61 155.59 4.77 0.0001 Suma 1.54 0.18 1.17 1.91 8.64 <0.0001 72.63 CATSuma Variable N R² R² Aj ECMP Mayor 180 Rend 124 0.08 0.08 4379.05 Coeficientes de regresión y estadísticos asociados Coef Est. EE LI(95%) LS(95%) T p-valor CpMallows const 411.80 23.40 365.49 458.12 17.60 <0.0001 Suma -0.24 0.07 -0.38 -0.10 -3.34 0.0011 12.10

El modelo ajustado para relación entre rendimiento y precipitación acumulada

en el segundo y tercer período, cuando esta es menor a 180 mm es

Page 90: Análisis de Ensayos Agrícolas Multi-ambientalesI

78

ˆ 108.6 1.54 [Pr 2 Pr 3]y Suma= + × + (R2=0.76, Error de predicción

1028.6 ).

El modelo ajustado por la regresión realizada con los valores de Suma[Pr2+Pr3]

mayores a 180 mm sugiere que la pendiente es estadísticamente distinta de

cero (p=0.0011), pero pero que la relación es negativa, nuevamente si bien este

modelo puede ajustar los datos carece de sentido agronómico por lo que

debiera buscarse otras variables para predecir rendimiento cuando

Suma[Pr2+Pr3] es mayor a 180 mm.

Regresión Lineal Múltiple

Base de datos Factores limitantes Soja (Anexo). El objetivo del análisis es

explicar la variabilidad del rendimiento en función de variables climática y de

suelo para todos los casos y luego separan los casos según la Suma[Pr2+Pr3]

sean ≤ 180 mm y mayor a 180 mm.

De las 4 variables climáticas de interés (Pr, Ra, Tm y Fot) se tienen 3

mediciones a través del ciclo del cultivo, este hecho ocasiona correlación entre

las variables predictoras y podría hacer que la regresión múltiple no sea muy

confiable por multicolinealidad. Las tres medidas de Pr ya las hemos resumido

anteriormente, en la variable Suma[Pr2+Pr3] y por lo tanto vamos a usar

Suma[Pr2+Pr3] en lugar de las tres variables relacionadas a Pr que figuran en

la base de datos. Para seleccionar de las otras variables regresoras un

subconjunto sin problemas de alta correlación realizamos previamente un

análisis de correlación lineal entre variables usando el coeficiente de correlación

de Pearson (Cuadro 26). En la triangular inferior de esta matriz se presentan los

coeficientes de correlación y en la parte superior los valores p asociados a la

hipótesis nula de falta de correlación. Se trabaja con un nivel de significación del

5% para interpretar las significancias de las correlaciones.

Page 91: Análisis de Ensayos Agrícolas Multi-ambientalesI

79

Cuadro 26. Análisis de correlación lineal con Info-Gen

Menú Estadísticas Comando Análisis de Correlación Opción Coeficientes de Correlación

Variables Y

Ra1

Ra2

Ra3

Tm1

Tm2

Tm3

Fot1

Fot2

Fot3

En el Cuadro 27 se muestran los coeficientes de correlación obtenidos y la

significancia de la prueba de hipótesis de no correlación. En general, se

observa que las variables Fot1, Fot2, Fot3, Tm1, Tm2 y Tm3 están

correlacionadas entre ellas y con Ra1, Ra2 y Ra3 y que éstas últimas también

se correlacionan entre ellas, por lo que se decidió elegir sólo una de las

radiaciones. Se seleccionó Ra3 debido a que se hipotetiza que la radiación

acumulada durante la etapa de llenado de grano podría ser más explicativa que

radiaciones en otras etapas.

Cuadro 27. Resultados del Análisis de Correlación para las variables climáticas

Coeficientes de correlación Correlacion de Pearson: coeficientes\probabilidades Ra1 Ra2 Ra3 Tm1 Tm2 Tm3 Fot1 Fot2 Fot3 Ra1 1.000 2.5E-07 1.2E-08 0.017 3.5E-05 0.111 0.331 0.000 2.5E-12 Ra2 -0.402 1.000 0.000 0.000 0.265 2.9E-07 4.0E-12 0.000 0.000 Ra3 -0.440 0.558 1.000 0.000 0.165 0.042 4.5E-12 0.000 0.000 Tm1 0.193 -0.586 -0.602 1.000 0.136 0.002 1.1E-07 0.000 0.000 Tm2 -0.328 -0.091 0.113 -0.121 1.000 0.013 1.3E-07 0.080 0.118 Tm3 0.129 0.401 -0.164 -0.244 -0.201 1.000 0.019 0.006 1.4E-05 Fot1 -0.079 -0.523 -0.522 0.413 0.411 -0.189 1.000 5.1E-06 1.4E-10 Fot2 -0.589 0.729 0.646 -0.792 0.142 0.221 -0.359 1.000 0.000 Fot3 -0.527 0.706 0.606 -0.793 0.127 0.344 -0.489 0.954 1.000

Page 92: Análisis de Ensayos Agrícolas Multi-ambientalesI

80

Para el caso de las variables de suelo también se calcularon las correlaciones

(Cuadro 28) entre las variables y se decidió seleccionar AUI, MO y %Md para

comenzar a probar ajustes de modelos de regresión múltiple.

Cuadro 28. Resultados del Análisis de Correlación para las variables de suelo

Coeficientes de correlación Correlacion de Pearson: coeficientes\probabilidades AUI MO PrB2t %Md %pi Chid AUI 1.000 0.441 0.001 0.014 0.481 0.044 MO -0.063 1.000 0.132 4.6E-05 0.043 2.9E-09 PrB2t 0.276 -0.122 1.000 0.096 0.040 0.662 %Md -0.198 -0.323 0.135 1.000 0.000 0.000 %pi -0.057 -0.164 0.166 0.675 1.000 0.000 Chid 0.163 0.457 0.036 -0.597 -0.719 1.000

Al realizar la regresión múltiple y analizar los residuos estudentizados vs

predichos se encontró que los casos 110, 111 y 112 presentan residuos altos

residuos altos, como en el caso de la regresión lineal simple, por lo cual se

volvió a ajustar el modelo de Regresión Múltiple sin estos casos.

Cuadro 29. Análisis de Regresión Lineal Múltiple con Info-Gen

Menú Estadísticas Comando Regresión Lineal Ventana Análisis de Regresión Lineal

Variable dependiente

Rend Regresoras

Suma[Pr2+Pr3],

Ra3

AUI

MO

%Md Solapa Selección de modelo Opción Eliminación backward

La opción Eliminación backward es un método de selección de modelo. Se

parte con el modelo completo y se van eliminando de a una las variables poco

explicativas hasta obtener un modelos de mejor ajuste.

Page 93: Análisis de Ensayos Agrícolas Multi-ambientalesI

81

Los resultados sugieren un modelo para el ajuste (Cuadro 30) pero este

presenta nuevamente un problema desde el punto de vista agronómico, debido

a que el coeficiente estimado para la variable Suma[Pr2+Pr3] es negativo (-

0.11), un comportamiento análogo se observa con la variable AUI.

Cuadro 30. Resultados de la regresión múltiple del rendimiento como variable dependiente y 5

regresoras (Suma[Pr2+Pr3], Ra3, AUI, %Md y MO)

Análisis de regresión lineal Variable N R² R² Aj ECMP Rend 150 0.49 0.48 2602.42 Eliminación backward. Máximo p-valor para retener regresoras: 0.15 Variables totales: 6, variables en el modelo 6 Coeficientes de regresión y estadísticos asociados Coef Est. EE LI(95%) LS(95%) T p-valor CpMallows const 196.14 45.91 105.39 286.89 4.27 <0.0001 Ra3 0.24 0.04 0.17 0.32 6.40 <0.0001 45.70 AUI -0.25 0.10 -0.45 -0.05 -2.47 0.0145 11.09 MO 43.35 10.07 23.44 63.26 4.30 <0.0001 23.40 %Md -1.50 0.26 -2.02 -0.98 -5.69 <0.0001 37.19 Suma -0.11 0.04 -0.19 -0.03 -2.84 0.0052 13.00 Error cuadrático medio: 2386.124834

Como se mostró en el análisis de regresión simple existe un punto (180 mm) en

los valores de Suma[Pr2+Pr3] a partir del cual se produce un cambio en la

relación entre las precipitaciones y el rendimiento, por lo que se propone

realizar la regresión múltiple particionada según los valores de Suma[Pr2+Pr3]

sean hasta 180 mm o mayores a 180 mm.

Los resultados de la regresión múltiple para el grupo de casos con valores de

Suma[Pr2+Pr3]≤ 180 mm sugieren, luego de la selección de modelos, un

modelo que explica la variabilidad del rendimiento como función de una

ordenada al origen (const=172.32) y de dos regresoras, %Md y Suma[Pr2+Pr3]

con valores de coeficientes -0.89 y 1.29 respectivamente. El error de predicción

del modelo es ±31.5 g/m2 (Cuadro 31).

Page 94: Análisis de Ensayos Agrícolas Multi-ambientalesI

82

Cuadro 31. Resultados de la Regresión Múltiple del rendimiento con 5 variables para los casos

con Suma[Pr2+Pr3]≤180mm

Análisis de regresión lineal CATSuma Variable N R² R² Aj ECMP Hasta 180 Rend 26 0.80 0.78 993.76 Eliminación backward. Máximo p-valor para retener regresoras: 0.15 Variables totales: 6, variables en el modelo 3 Coeficientes de regresión y estadísticos asociados Coef Est. EE LI(95%) LS(95%) T p-valor CpMallows const 172.43 37.38 95.11 249.75 4.61 0.0001 %Md -0.89 0.43 -1.77 -4.7E-03 -2.08 0.0489 6.19 Suma 1.29 0.21 0.87 1.71 6.28 <0.0001 39.89 Error cuadrático medio: 744.811436

Para el conjunto de datos con Suma[Pr2+Pr3]>180 mm no se introdujo en el

modelo AUI ni Suma[Pr2+Pr3] debido a las anomalías detectadas

anteriormente. Los resultados sugieren que para valores de Suma[Pr2+Pr3]

mayores a 180 mm la variabilidad del rendimiento puede ser aceptablemente

explicada por Ra3, MO y %Md, con un error de predicción ±54.6 g/m2 (Cuadro

32).

Cuadro 32. . Resultados de la regresión múltiple del rendimiento con 3 variables para los casos

con Suma[Pr2+Pr3]>180mm

CATSuma Variable N R² R² Aj ECMP Mayor 180 Rend 124 0.42 0.40 2984.72 Eliminación backward. Máximo p-valor para retener regresoras: 0.15 Variables totales: 4, variables en el modelo 4 Coeficientes de regresión y estadísticos asociados Coef Est. EE LI(95%) LS(95%) T p-valor CpMallows const 67.09 39.56 -11.23 145.40 1.70 0.0925 Ra3 0.25 0.04 0.16 0.33 5.72 <0.0001 35.49 MO 50.12 11.90 26.55 73.68 4.21 <0.0001 20.59 %Md -1.38 0.31 -2.00 -0.76 -4.39 <0.0001 22.11 Error cuadrático medio: 2745.576428

Page 95: Análisis de Ensayos Agrícolas Multi-ambientalesI

83

Uso de regresión en el análisis de estabilidad

Para el análisis de estabilidad, es común el uso de modelos de regresión o de

análisis de varianza y regresión para descomponer la interacción GE en un

conjunto de términos multiplicativos y de desviaciones desde ellos. Las

aproximaciones univariadas para el estudio de interacción modelan la

interacción GE como una función lineal de efectos de ambiente aditivos, i.e.

GEij=βEj+dij, donde dij es la desviación de la regresión y (1+β) es el coeficiente

de regresión lineal de la respuesta del i-ésimo genotipo sobre la media de los

ambientes. Al ajustar el modelo aditivo se obtienen las estimaciones de los

términos de interacción GE y luego se regresionan esos valores sobre los

efectos ambientales, i.e. . ..jy y− . La interacción GE es expresada como

heterogeneidad de pendientes y la estabilidad óptima es representada por alta

respuesta media, moderada a alta respuesta a los ambientes favorables y bajas

desviaciones de regresión.

Casanoves, (1996) resume los estadísticos más frecuentemente utilizados para

la cuantificación de la estabilidad de acuerdo con el concepto de estabilidad

estática y estabilidad dinámica (Becker y Leon, 1988) y en función de su base

estructural (Lin et al., 1986) (Cuadro 33)

Page 96: Análisis de Ensayos Agrícolas Multi-ambientalesI

84

Cuadro 33.Medidas de estabilidad y su clasificación.

Grupo Concepto Estabilidad

Estadístico para medir Estabilidad Autores

A

Estático

tipo 1

Varianza ambiental 2 2

.1

1 ( )1

g

j ij ji

S Y Ya =

= −− ∑

Roemer (1917)

A

Estático

tipo 1

Coeficiente de variación ambiental 2

.

100jj

j

SCV

Y=

Francis y Kannenberg

(1978)

B

Dinámico

tipo 2

Componente de varianza promedio 2

. . ..1( )

2( 1)( 1) 2( 1)( 1)

g

j ij i ji

g SCGAY Y Y Yg a g a

θ=

= − − + +− − − −∑

donde 2. . ..

1 1( )

g a

ij i ji j

SCGA Y Y Y Y= =

= − − +∑∑

Plaisted Peterson (1959)

B

Dinámico

tipo 2

Componente de varianza de la interacción genotipo×ambiente

2( ) . . ..

1( )

2( 1)( 2)( 1) ( 1)( 1)

g

j ij i ji

g SCGAY Y Y Yg g a g a

θ=

= − − + +− − − − −∑

Plaisted (1960)

B Dinámico

tipo 2

Ecovalencia 2 2

. . ..1( )

g

j ij i ji

W Y Y Y Y=

= − − +∑

Wricke (1962)

B Dinámico

tipo 2

Varianza de estabilidad 2 2

. . ..1( )

( 2)( 1) ( 1)( 2)( 1)

g

j ij i ji

g SCGAY Y Y Yg a g g a

σ=

= − − + −− − − − −∑

Shukla (1972a)

C Dinámico

tipo 2

Coeficiente de regresión de valores observados sobre índices ambientales

. . ..1

2. ..

( )( )

( )

g

ij j ii

ji

Y Y Y Y

Y Yβ =

− −=

Finlay Wilkinson

(1963)

C y B Dinámico

tipo 2

Estabilidad genotípica 2 2

. min . min ..1( )

g

j ij j ii

D Y Y b Y b Y=

= − − +∑ Hanson (1970)

D Dinámico

tipo 3

Cuadrado medio residual de las desviaciones respecto a las regresiones de valores observados sobre índices

ambientales

2 2 2 2. . ..

1 1

1 ( ) ( )( 2)

g g

j ij j j ii i

Y Y Y Ya

δ β= =

⎡ ⎤= − − −⎢ ⎥− ⎣ ⎦

∑ ∑

Eberhart Rusell (1966)

Page 97: Análisis de Ensayos Agrícolas Multi-ambientalesI

85

Cuadro 34. (continuación): Medidas de estabilidad y su clasificación.

Grupo Concepto Estabilidad

Estadístico para medir Estabilidad (*) Autores

D Dinámico

tipo 3

Cuadrado medio residual de las desviaciones respecto a las regresiones de valores observados ajustados por

ambiente sobre índice ambiental.

2 2 2 2. . .. . ..

1 1

1 ( ) ( )( 2)

g g

j ij i j j ii i

Y Y Y Y Y Ya

δ β= =

⎡ ⎤= − − + − −⎢ ⎥− ⎣ ⎦

∑ ∑

Perkins Jinks

(1968)

D Dinámico

tipo 3

Coeficiente de determinación 2

221 dj

jyj

Sr

S= −

Pinthus (1973)

B Dinámico

Media del valor absoluto de la diferencia entre rangos del genotipo i-ésimo sobre todos los ambientes

(1)´

´ 1

2 | |( 1)

a

j ij i ji i

S r ra a = +

= −− ∑

Nassar Hühn (1987)

B

Dinámico (Estático desde el punto de vista de

los rangos)

Varianza común de los rangos del genotipo i-ésimo entre los ambientes

(2) 2.

1

1 ( )( 1)

a

j ij ji

S r ra =

= −− ∑

Nassar Hühn (1987)

(*) ijY es la respuesta del genotipo i en el ambiente j; . jY es el promedio sobre

genotipos; .iY es el promedio sobre ambientes; ..Y es el promedio general; bmin

es el mínimo coeficiente de regresión de Finlay y Wilkinson para genotipo; rij

es el rango del genotipo i en el ambiente j

Page 98: Análisis de Ensayos Agrícolas Multi-ambientalesI

86

Page 99: Análisis de Ensayos Agrícolas Multi-ambientalesI

87

Análisis de Correlación Lineal

Descripción

El objetivo del análisis de correlación lineal es conocer la relación

funcional entre dos variables numéricas i.e. estudiar si están linealmente

asociadas en el sentido que al aumentar el valor observado en una de las

variables, aumenta o disminuye linealmente el valor observado en la otra

variable. La medida de dicha asociación se puede realizar a través del

coeficiente de correlación de Pearson. El coeficiente de correlación de

Pearson (r) es una medida de la magnitud de la asociación lineal entre

dos variables numéricas. Ésta medida no depende de las unidades de

medida de las variables originales sino de la variación conjunta

(covarianza) entre las dos variables y de las varianzas de cada una de

ellas. La expresión del coeficiente de correlación de Pearson para las

variables X e Y es:

1

2 22 2

1

( )( ) /( 1)

( ) /( 1) ( ) /( 1)

n

i ixy i

xyn n

x yi i

i i l

x X y Y nS

rS S

x X n y Y n

=

= =

⎛ ⎞− − −⎜ ⎟

⎝ ⎠= =⎛ ⎞⎛ ⎞⎛ ⎞ ⎛ ⎞

− − − −⎜ ⎟⎜ ⎟⎜ ⎟ ⎜ ⎟⎝ ⎠ ⎝ ⎠⎝ ⎠⎝ ⎠

∑ ∑

donde rxy es el Coeficiente de Correlación de Pearson, Sxy es la

covarianza entre X e Y, 2xS es la varianza de X, 2

yS es la varianza de Y, xi

son los valores observados de la variable X, X es el valor medio de la

variable X, yi son los valores observados de la variable Y y Y es el medio

de la variable Y y n es el número de observaciones.

El coeficiente de correlación de Pearson puede tomar valores dentro del

intervalo [-1, 1]. Valores cercanos a 1 indican alta correlación lineal

positiva y valores de r cercanos a -1 indican alta correlación lineal

negativa. Si el coeficiente se aproxima a cero indica que no hay

correlación lineal entre variables. Para probar si un coeficiente de

Page 100: Análisis de Ensayos Agrícolas Multi-ambientalesI

88

correlación es estadísticamente distinto de cero se realiza una prueba de

hipótesis.

Objetivo

Conocer el grado de asociación que hay entre dos o más variables y

obtener una medida de la magnitud (y dirección) de la asociación o co-

variación de cada par de variables.

Datos

La base de datos debe tener dos o más variables numéricas observadas

sobre cada uno de los casos (genotipo, híbridos, etc.). Cada columna de

la base de datos contendrá la variable observada.

Ejemplo

Archivo Ideotipos de Maíz (Anexo). Análisis de Correlación entre variables

ecofisiológicas

Cuadro 35. Análisis de Correlación

Menú Estadísticas Comando Análisis de Correlación Opción Coeficientes de correlación Selector de variables

Variables Y

Rinde

PG,

NG

EI_F

EI_Fll

IV1-3

IV4-6

IV7-9

En el Cuadro 36 se presenta la matriz de correlaciones entre todos los

caracteres (triangular inferior) y los valores de p para la prueba de hipótesis de

Page 101: Análisis de Ensayos Agrícolas Multi-ambientalesI

89

correlación nula (triangular superior), obtenidos a partir del coeficiente de

correlación de Pearson.

Cuadro 36. Resultados del análisis de correlación entre variables ecofisiológicas. Matriz con los

coeficientes de correlación (triangular inferior) y valor p para la prueba de hipótesis de

correlación nula (triangular superior) entre nueve caracteres.

Coeficientes de correlación Correlacion de Pearson: coeficientes\probabilidades Rinde PG NG EI_F EI_Fll IV1-3 IV4-6 IV7-9 Rinde 1.00 0.00 0.00 3.9E-08 0.00 2.2E-03 7.8E-06 0.38 PG 0.67 1.00 0.32 9.0E-04 1.7E-09 0.01 5.1E-05 3.6E-04 NG 0.79 0.08 1.00 3.4E-05 1.8E-09 0.01 2.5E-03 0.12 EI_F 0.41 0.25 0.31 1.00 0.15 0.05 0.02 0.42 EI_Fll 0.58 0.44 0.44 0.11 1.00 1.9E-05 3.3E-07 0.12 IV1-3 -0.23 -0.19 -0.19 -0.15 -0.32 1.00 0.00 0.00 IV4-6 -0.34 -0.31 -0.23 -0.18 -0.38 0.90 1.00 0.00 IV7-9 -0.07 -0.27 0.12 -0.06 -0.12 0.58 0.68 1.00

Interpretación

El rendimiento presenta correlación lineal positiva significativa (r>0) con las

variables PG (r=0.7, p<0.0001), NG (r=0.79, p<0.0001), EI_F (r=0.41,

p<0.0001), EI_Fll (r=0.58, p<0.0001) y negativamente con IV1-3 ((r=-0.23,

p<0.0022), IV4-6 (r=-0.34, p<0.0001) y no está correlacionado

significativamente con IV7-9 (r=-0.07, p=0.38). El PG y NG no están

correlacionadas linealmente (r=0.08, p=0.32).

En general se observa correlación estadísticamente significativa (distinta de

cero) entre los pares de variables eco-fisiológicas incluidas en el análisis. Las

variables de inserción de hojas verticales (IV1-3, IV4-6, IV7-9) presentan

correlación negativa con las variables de eficiencia de intercepción de la

radiación (EI_F y EI_Fll), con los componentes del rendimiento (PG y NG) y con

el rendimiento (Rinde).

Page 102: Análisis de Ensayos Agrícolas Multi-ambientalesI

90

Page 103: Análisis de Ensayos Agrícolas Multi-ambientalesI

91

Análisis de Sendero

Descripción

En el análisis de sendero (Path Analysis) se pretende construir modelos

de causa-efecto entre las variables a través de la disección de la

correlación entre dos variables como la suma de dos tipos de efectos,

estos son efectos directos de una variable sobre otra (senderos simples)

y efectos indirectos de una variable sobre otra vía una o más variables

exógenos (senderos compuestos). Si se considera una nueva variable en

el sistema anterior, digamos la variable U, y suponemos que existe un

sistema con relaciones lineales 0 1 2Y X Uβ β β ε= + + + que pueden ser

representadas por ese modelo, el análisis de sendero nos brindará

información sobre los efectos directos de X y U sobre Y (senderos

simples en el diagrama del sistema) y además efectos indirectos de X

sobre Y a través de U y de U sobre Y a través de X. El efecto indirecto de

una variable X sobre Y vía otra variable U se define como , ,y x x up r , donde

los coeficientes ,y xp corresponden a los coeficientes estandarizados de la

regresión múltiple de Y sobre X y U y ,x ur es el coeficiente de correlación

simple entre X y U. El análisis de sendero de este sistema involucrando

dos variables causales realiza la siguiente disección de la correlación

entre Y y X y entre Y y U:

, , , ,

, , , ,

y x y x y u x u

y u y x x u y u

r p p r

r p r p

= +

= +

Dada una muestra, es posible obtener valores para todos los coeficientes

de correlación involucrado en este sistema de ecuaciones, las incógnitas

son siempre igual al número de ecuaciones y corresponden a los

estimadores de los efectos directos del sistema poblacional. Luego, otra

forma de estimar los coeficientes de sendero (path coefficients) es a

través de la resolución de este sistema de ecuaciones.

Page 104: Análisis de Ensayos Agrícolas Multi-ambientalesI

92

Objetivo

Estudiar un sistema de correlación entre variables donde existe una

variable output teniendo en cuenta efectos directos e indirectos de las

variables input.

Datos

Para realizar un estudio de correlación a través de un análisis de

senderos las variables que se quieren correlacionar deben conformar las

columnas de la base de datos. Se supone independencia entre casos u

observaciones.

Ejemplo

Archivo Ideotipos de Maiz (Anexo). Análisis de Sendero

Cuadro 37. Análisis de sendero

Menú Estadísticas Comando Análisis de correlación Opción Análisis de sendero (path analysis) Selector de variables

Dependiente

Rinde Independientes

PG

NG

EI_F

EI_Fin ll

EUN

Page 105: Análisis de Ensayos Agrícolas Multi-ambientalesI

93

Cuadro 38. Resultados del Análisis de sendero

Coeficientes de Sendero (Path Analysis) Variable dependiente: Rinde; n=168 Efecto Vía Coeficientes p-valor PG Directa 0.62 PG NG 0.06 PG EI_F 0.01 PG EI_Fll -0.01 PG EUN -2.2E-03 r total 0.67 <0.0001 NG Directa 0.74 NG PG 0.05 NG EI_F 0.01 NG EI_Fll -0.01 NG EUN -2.7E-03 r total 0.79 <0.0001 EI_F Directa 0.03 EI_F PG 0.16 EI_F NG 0.23 EI_F EI_Fll -3.1E-03 EI_F EUN -4.7E-03 r total 0.41 <0.0001 EI_Fll Directa -0.03 EI_Fll PG 0.28 EI_Fll NG 0.33 EI_Fll EI_F 2.8E-03 EI_Fll EUN -1.6E-03 r total 0.58 <0.0001 EUN Directa 0.02 EUN PG -0.08 EUN NG -0.11 EUN EI_F -0.01 EUN EI_Fll 2.4E-03 r total -0.17 0.0262

Interpretación

El rendimiento se correlaciona de manera estadísticamente significativa con las

5 variables independientes incluidas en el análisis r total, p<0.05). El coeficiente

de correlación general entre Rinde y PG es 0.67, la correlación directa es 0.62 y

el resto es correlación indirecta i.e. correlación vía las otras variables. Esto

indica que la correlación observada entre Rinde y PG es sobretodo correlación

directa del PG sobre el Rinde. El mismo resultado se observa con NG, la mayor

parte de la correlación se debe al efecto directo de NG sobre Rinde. Mientras

que tanto para las eficiencias en la intercepción de la radiación (EI_F y EI_Fll)

como para la eficiencia de uso del nitrógeno (EUN) la correlación directa con el

Page 106: Análisis de Ensayos Agrícolas Multi-ambientalesI

94

rendimiento es muy baja pero como las correlaciones indirectas vía NG y PG

son relativamente altas se explica la correlación con el rendimiento. La EUN se

relaciona negativamente con el Rinde (r=-0.17) y el camino de dicha correlación

sobretodo es vía NG (Cuadro 38).

Page 107: Análisis de Ensayos Agrícolas Multi-ambientalesI

95

Regresión por Mínimos Cuadrados Parciales

Descripción

PLS (del inglés, Partial Least Squares) es un método estadístico

multivariado relativamente nuevo para el análisis de ensayos multi-

ambientales. Es una técnica que generaliza y combina el ACP y el

análisis de Regresión Lineal. Es particularmente útil cuando se desea

predecir un conjunto de variables dependientes (Y) desde un conjunto

(relativamente grande y posiblemente correlacionadas) de variables

predictoras (X). El objetivo del método PLS es describir Y a partir de X y

su estructura de variación común.

Cuando hay más observaciones que variables predoctoras y no existe

problema de multicolinealidad, la predicción de Y en función de X puede

realizarse eficientemente con un análisis de regresión lineal múltiple. PLS

se usa cuando existe correlación entre las variables predictoras y/o

existen más predictoras que observaciones. El problema de la estimación

en estos casos podría resolverse combinando linealmente las predictoras

con un ACP y luego regresionando Y con un número reducido de CP.

Pero hay que recordar que las CP explican variación en X y nada nos

dicen sobre la relación de Y con X. Por el contrario la técnica PLS busca

una solución óptima o de compromiso entre el objetivo de explicar la

máxima variación en X y encontrar las correlaciones de éstas con Y.

La técnica se basa en un re-arreglo de la SVD de la matriz de correlación

entre dos bloques (o matrices) de variables. Así, se la SVD se interpreta

en relación a los scores de pares de variables latentes (VL), un elemento

del par para cada bloque, tales que los coeficientes de cualquiera de

ellas son proporcionales a las capacidad predictiva de la variable

correspondiente de un bloque sobre la otra VL.

Page 108: Análisis de Ensayos Agrícolas Multi-ambientalesI

96

Si llamamos X e Y a los dos bloques de variables y suponemos que el

número de variables en X es m (X1, X2, ...,Xm) y el número de variables

en Y es n (Y1, Y2, ...,Yn), es posible construir una matriz R de

correlación tal que su elemento Rij sea la correlación entre Xi e Yj. Esta

matriz no tiene unos en la diagonal y usualmente no es cuadrada. La

idea en PLS es obtener un vector de m coeficientes Ai, uno para cada

variable en X y un vector de n coeficientes Bj, uno para cada variable en

Y, tal que el producto AB (i.e., matriz cuya entrada ij es Ai*Bj) aproxime

bien a la matriz R en el sentido mínimo cuadrático (i.e., minimizando la

suma de los términos (Rij-Ai*Bj)2). Podríamos decir que estos

coeficientes permiten combinar las variables de cada bloque para

explicar la variabilidad debida a la relación o correlación entre ambos

bloques.

En particular en ensayos multi-ambientales, PLS puede ser usado para

explicar a partir de un conjunto (relativamente grande y posiblemente

correlacionado) de variables relacionadas a los genotipos o a los

ambientes, las variaciones debidas a la interacción genotipo-ambiente.

Los resultados de PLS, son presentados a través de un “tri-plot”. Nos

referimos a tri-plot cuando se dispone de un gráfico biplot sobre el que

además se grafican covariables para explicar la asociación entre los

marcadores filas y columnas representados en el biplot.

Objetivos

Descubrir y reportar la naturaleza de la relaciones de variables

predictoras con una o varias variables respuesta (i.e., un bloque de

variables respuestas).

Datos

Se necesitan I observaciones o casos descriptos por m variables

dependientes (bloque de variables Y) y además n predictores colectados

sobre estos I casos en una matriz de datos I×n (bloque de variables X).

Page 109: Análisis de Ensayos Agrícolas Multi-ambientalesI

97

La tabla de datos en Info-Gen deberá contener I casos y al menos (m+n)

columnas

Ejemplo

Base de datos Factores limitantes Soja (Anexo). PLS para explicar la

interacción GE (en la Campaña 01_02) en función de las siguientes covariables

ambientales: Ra3, %MD, %pi, PrB2t y MO. En esta campaña intervinieron 3

genotipos (A5520RG, A6040RG y DM4800RR) y 7 localidades (Cavanagh,

Totoras, Oliveros, Maizales, Bouquet, Rueda, y C.Gómez).

Para realizar el PLS entre Y (matriz que contiene términos de interacción entre

7 localidades y 3 genotipos) y la matriz X (conteniendo las covariables

ambientales antes descriptas), se ejecutaron los siguientes pasos: 1) Obtención

de las matrices Y y X. 2) Implementación de la rutina SVD para PLS de los

datos en X e Y estandarizados.

Para obtener X, simplemente se solicitó, mediante el menú Medidas Resumen,

las medias de las covariables por localidad. La tabla de datos resultantes

(Cuadro 39) constituye una matriz de covariables de dimensión 7×5 ya que las

5 covariables ambientales varían con las localidades. Si se desea correlacionar

la interacción GE con covariables genotípicas, la matriz X se construye a partir

de las medias de covariables genotípicas por genotipo (matriz de dimensión

3×m).

Cuadro 39. Medias de covariables por ambiente (matriz X)

Estadística descriptiva

Localidad Resumen Ra3 %Md MO %pi PrB2t

Bouquet Media 493.03 17.00 2.87 52.50 28.00

C.Gómez Media 488.83 0.00 3.13 21.67 14.67

Cavanagh Media 548.13 22.00 3.65 37.07 20.00

Maizales Media 469.80 31.00 3.07 88.50 25.00

Oliveros Media 452.43 19.00 2.54 59.07 31.33

Rueda Media 368.03 3.57 2.85 35.33 28.67

Totoras Media 540.47 0.00 3.55 19.00 33.33

Page 110: Análisis de Ensayos Agrícolas Multi-ambientalesI

98

Para obtener Y se usó el menú Análisis de Interacción para ajustar un modelo

AMMI(2). Como el experimento tiene repeticiones dispuestas según un diseño

completamente aleatorizado, es importante aclarar cuál es la variable que

contiene el dato de la repetición, pero no usar esta variable como factor en el

modelo (el factor repetición sólo se pone en el modelo si el diseño experimental

es en bloques).

En el Cuadro 40 se muestran los resultados del ajuste del AMMI para este

diseño. Se seleccionaron las localidades como “tratamientos” ya que sólo de

ésta forma Info-Gen produce una tabla de residuos de dimensión 7×3 (en caso

contrario los residuos son los mismos pero organizados en un tabla 3×7. Este

tipo de matriz Y sería necesaria si se desea predecir la interacción a partir de

covariables genotípicas).

Cuadro 40. Obtención de matriz Y

Análisis de la Interacción Genotipo Ambiente

Matriz de residuos analizada por SVD

A5520RG A6040RG DM4800RR

Bouquet 13.10 -23.86 10.76

C.Gómez -2.07 4.06 -1.99

Cavanagh 8.56 -10.28 1.71

Maizales 4.93 7.92 -12.85

Oliveros -21.68 2.31 19.37

Rueda -0.81 17.51 -16.70

Totoras 3.99 -2.99 -1.00

Autovalores

Lambda Valor Proporción Prop Acum

1 276.64 0.60 0.60

2 184.83 0.40 1.00

3 0.00 0.00 1.00

Finalmente ambas matrices se usaron para construir una Tabla Nueva como se

muestra en el Cuadro 40. En el Cuadro 41 se muestran los comandos para la

implementación de la rutina SVD para PLS y la obtención del tri-plot (Figura 7)

ejecutados sobre esta nueva tabla.

Page 111: Análisis de Ensayos Agrícolas Multi-ambientalesI

99

Cuadro 41. Tabla de datos necesaria para implantar la técnica PLS con el propósito de

correlacionar una matriz (7×3) de términos de interacción con otra matriz (7×5) de covariables

ambientales.

Localidad A5520RG A6040RG DM4800RR Ra3 %Md MO %pi PrB2tBouquet 13.10 -23.86 10.76 493.03 17.00 2.87 52.50 28.00C.Gómez -2.07 4.06 -1.99 488.83 0.00 3.13 21.67 14.67Cavanagh 8.56 -10.28 1.71 548.13 22.00 3.65 37.07 20.00Maizales 4.93 7.92 -12.85 469.80 31.00 3.07 88.50 25.00Oliveros -21.68 2.31 19.37 452.43 19.00 2.54 59.07 31.33Rueda -0.81 17.51 -16.70 368.03 3.57 2.85 35.33 28.67Totoras 3.99 -2.99 -1.00 540.47 0.00 3.55 19.00 33.33

Cuadro 42. Análisis PLS (las columnas de Y deben ir como variables dependientes, mientras

que las filas como clasificatorias; las columnas de X como predictoras)

Menú Estadísticas Comando Análisis Multivariado

Opción PLS

Selector de variables

Variables dependientes

A5520RG

A6040RG

DM4800RR Clasificatoria

Localidad Variables predictoras

Ra3

%Md

MO

%pi

PrB2t

Page 112: Análisis de Ensayos Agrícolas Multi-ambientalesI

100

Cuadro 43. PLS y triplot

-2.2 -1.1 0.0 1.1 2.2Dim: 1

-2.2

-1.1

0.0

1.1

2.2

Dim

: 2

Bouquet

C.Gómez

Cavanagh

Maizales

Oliveros

Rueda

Totoras

Ra3

%Md

MO

%pi

PrB2t

A5520RG

A6040RG

DM4800RR

Bouquet

C.Gómez

Cavanagh

Maizales

Oliveros

Rueda

Totoras

Ra3

%Md

MO

%pi

PrB2t

A5520RG

A6040RG

DM4800RR

Figura 7. Tri-plot de la correlación entre una matriz de interacción entre 3 genotipos y 7 ambientes versus una matriz de 5 covariables ambientales.

Interpretación

La interacción GE se explica en su totalidad a partir de las dos primeras CP,

según lo muestran los autovalores del Cuadro 40. Los scores de genotipos y

ambientes para el estudio de interacción se presentan en la salida, ellos sirven

para asociar genotipos con ambientes, pero no para explicar esta asociación

con variables en X, las nuevas variables latentes obtenidas a partir de la técnica

PLS se muestran en la ventana resultados (no presentada aquí). Al

correlacionar la matriz de residuos del modelo AMMI(2) con las covariables

Page 113: Análisis de Ensayos Agrícolas Multi-ambientalesI

101

ambientales, las covariables de mayor “inercia” sobre el eje 1 del tri-plot

resultaron ser Ra3 y MO. Luego las interacciones detectadas en este conjunto

de datos, desde el punto de vista ambiental, son principalmente atribuidas a

estas dos variables.

Valores de Ra3, relativamente altos se registraron en Cavanagh y en Totoras,

éstos podrían explicar el desempeño mejor que tuvo el genotipo A5520RG

respecto a los otros en esas localidades. La MO también fue relativamente alta

en Cavanagh y Totoras y muy baja en Oliveros (correlación negativa entre el

marcador de MO y el de la localidad Oliveros). Las características de suelo

distintas de la MO, no resultaron importantes para explicar las interacciones en

esta campaña. El cultivar A6040RG se desempeñó, relativos a los otros dos

cultivares, mejor en Rueda y en Oliveros; la interacción con Rueda se

correlaciona negativamente con Ra3. La segunda dimensión del tri-plot se

asocia con las adaptaciones mejores de DM4800 en Oliveros que presenta un

menor contenido de MO que los otros sitios.

Page 114: Análisis de Ensayos Agrícolas Multi-ambientalesI

102

Page 115: Análisis de Ensayos Agrícolas Multi-ambientalesI

103

Análisis de Conglomerados

Descripción

El análisis de conglomerados es una combinación de técnicas o

algoritmos matemáticos que tienen por objeto la búsqueda de grupos

similares, ya sean éstos, grupos de genotipos, de ambientes o de los

caracteres medidos. En el análisis de conglomerados no se conoce a

priori el grupo de pertenencia de las entidades a agrupar. Cuando se

realizan agrupamientos de casos se busca clasificar a los objetos en

grupos lo más homogéneos posible en base a todas las variables

involucradas. En el análisis de conglomerados para agrupar casos, si se

utiliza una matriz de datos n×m (casos×variables), se calcula primero una

matriz de distancias (n×n) que contiene las interdistancias entre todos los

pares de casos y luego sobre esa matriz se aplica un procedimiento de

conglomeración o agrupamiento. Cuando se agrupan variables se busca

clasificar a las mismas en función de su perfil a través de todos los

casos, luego el algoritmo de conglomeración trabajará sobre una matriz

de interdistancias m×m. Para realizar un análisis de conglomerado, es

necesario seleccionar una medida de distancia o proximidad entre los

objetos a agrupar y un criterio o algoritmo de agrupamiento (este puede

ser jerárquico o no jerárquico). Hay numerosos algoritmos disponibles,

entre los jerárquicos, el más usado es el conocido como UPGMA o

encadenamiento promedio que define la distancia entre dos grupos o

conglomerados como el promedio de todas las distancias de a pares

entre elementos de un grupo y elementos del otro grupo. Entre los no

jerárquicos, el más conocido es el algorimo K-means (Balzarini, 2003).

Los resultados del agrupamiento jerárquico se visualizan en un

dendrograma. El dendrograma resultante puede presentarse

acompañado del coeficiente de correlación cofenético que mide la

correlación entre las interdistancias en el dendrograma y las

interdistancias en la matriz de distancia sobre la que se aplicó el

Page 116: Análisis de Ensayos Agrícolas Multi-ambientalesI

104

procedimiento. Los distintos algoritmos de conglomeración jerárquica, por

ejemplo, el método del vecino más cercano, el método del vecino más

lejano, el método de encadenamiento promedio o UPGMA y el método

de Ward, podrían producir agrupamientos diferentes sobre un mismo

conjunto de datos. En estos casos, el coeficiente de correlación

cofenética podría utilizarse como criterio de selección del algoritmo, i.e.

aquel algoritmo con el mayor coeficiente de correlación cofenética.

Respecto a medidas de distancias, es importante seleccionar una que se

adecue al tipo de datos (cuantitativo o categorías). Definiremos la

distancia entre un objeto denominado “i” y otro objeto denominado “j”

como dij. Las expresiones dij deben cumplir propiedades para ser

consideradas como medidas de distancia entre el par de objetos (i,j),

éstas son: (i) dij > 0 si i≠j, (ii) dij = 0 y (iii) dij = dij. Además, existen

propiedades que de cumplirse permiten identificar las distancias como

ultra-métricas. Las distancias ultra-métricas cumplen las 3 propiedades

mencionadas anteriormente y además la desigualdad triangular, i.e.,

ij ik jkd d d≤ + . Estas son recomendadas cuando el objetivo del estudio es

obtener una ordenación de las observaciones. La distancia más común

cuando se trabaja con datos cuantitativos viene dada por 2 2 2 1/2

1 2 m 1 2 m 1 1 2 2 m m=d((i , i ,...,i ),((j , j ,...,j ))=((i -j ) +(i -j ) +...+(i -j ) )ijd . A esta distancia se le llama

distancia Euclídea. Cuando las variables poseen naturaleza binaria,

como puede ser el caso de presencia/ausencia de determinadas

características, la distancias euclídea puede no ser apropiada. Al

comparar dos objetos, para cada variable binaria, existen cuatro eventos

disjuntos posibles: 1) en los dos objetos se observa la presencia de la

característica deseada, denotado como evento (1,1); 2) ninguno de los

objetos presenta la característica deseada, evento denotado como (0,0);

3) el primer objeto presenta la característica, evento denotado como (1,0)

y 4) el primero no presenta la característica pero el segundo si, denotado

como evento (0,1), La frecuencia con que ocurre cada uno de estos

eventos cuando se comparan dos objetos caracterizados por múltiples

Page 117: Análisis de Ensayos Agrícolas Multi-ambientalesI

105

variables binarias se denominarán a, b, c, y d según correspondan a los

eventos (1,1), (1,0), (0,1) y (0,0) respectivamente (Cuadro 44).

Cuadro 44. Frecuencias de eventos cuando se comparan dos objetos mediante variables

binarias.

Muestra 2 Muestra 1 Característica Presente (1) Característica Ausente (0)

Característica Presente (1) a b Característica Ausente (0) c d

Nota: a, b, c, y d frecuencias absolutas para eventos (1,1), (1,0), (0,1) y (0,0) respectivamente.

Las frecuencia de “desacuerdos” representados por los eventos (1,0) y

(0,1), de co-presencia (1,1) y de co-ausencia (0,0) contienen toda la

información relevante para la construcción de índices de similitud entre

dos objetos, i.e. los índices pueden ser expresados como función de

dichos recuentos.

Pueden construirse, distintos índices de similitud o asociación variando la

importancia relativa (mediante ponderación) que se le asigna a cada uno

de los cuatro eventos antes mencionados. Un índice de similitud muy

utilizado en el caso de variables binarias es el índice de Jaccard

( ( )a a b c+ + ) que no tienen en cuenta el evento de ausencia simultanea.

Este debiera usarse cuando por la naturaleza del problema, se supone

que dos objetos son más parecidos entres sí por presencia de una

característica que por ausencia. Desde cada índice de similitud, es

posible obtener una medida de distancia.

La transformación 1 ijijd S= − , aplicada sobre matrices de similitud

definidas o semidefinidas positivas, asegura la obtención de una métrica

y por lo tanto es recomendada. Existe un coeficiente de similaridad que

permite el tratamiento de diferentes tipos de variables simultaneamente,

i.e., variables continuas y discretas como por ejemplo las variables

binarias. Fue propuesto por Gower (Gower, 1985) para agrupar objetos

caracterizados por distintos tipos de variables:

Page 118: Análisis de Ensayos Agrícolas Multi-ambientalesI

106

1

1

m

ijc ijcc

ij p

ijcK

W SS

W

=

=

=∑

donde:

Sij = similaridad entre el i-ésimo y j-ésimo objeto

m = número de variables o características observadas

Wijc = ponderación para la c-ésima variable entre el i-ésimo y j-ésimo

objeto

Si la c-ésima variable es de tipo binaria o cualitativa, la similitud entre el

objeto i y el objeto j para la variable c (Sijc) vale 0 si los datos entre el i-

ésimo (xi) y el j-ésimo objeto son diferentes y vale 1 si son iguales. Para

el caso de una variable cuantitativa la similaridad está dada por:

1 ic jcijc

c

x xS

r−

= −

donde rc es el rango de la variable c.

Objetivo

Formar grupos tal que los elementos de un grupo sean más parecidos

entre sí que con los elementos de otro grupo.

Datos

Para realizar un análisis de conglomerados como método de clasificación

se puede partir desde matrices de datos con los formatos A y B

descriptos anteriormente o directamente desde matrices de distancia.

Page 119: Análisis de Ensayos Agrícolas Multi-ambientalesI

107

Ejemplo

Base de datos Selección de genotipos. Garbanzos (Anexo). Análisis de

conglomerados para agrupar genotipos en función de las distancias entre ellos

obtenidas a partir de todas las variables cuantitativas medidas (i.e., no se

incluyeron las variables dicotómicas relacionadas a la incidencia de patologías).

Cuadro 45. Análisis de conglomerados.

Menú Estadísticas Comando Análisis multivariado Opción Análisis de conglomerados Ventana Selector de Variables

Variables

tamaño

número

largo

ancho

espesor

altura

INS

NBA

SBA

PSEr

larpedu

larpedi

larest

anchoest

nfolo

larfol

anchofol

larsem

anchsem

espsem

probu Criterios de clasificación (opcional)

genotipo Ventana Análisis de conglomerados Solapa Jerárquicos (seleccionar método y distancia)

Page 120: Análisis de Ensayos Agrícolas Multi-ambientalesI

108

Se construyó una matriz de distancia entre genotipos usando la distancia

Euclidea (Cuadro 47). Se utilizó el algoritmo encadenamiento promedio

(UPGMA) de conglomeración jerárquica. En la Figura 8 se muestra el

dendrograma resultante de comparar la matriz de interdistancias entre

genotipos de garbanzo y el algorimto UPGMA.

Cuadro 46. Métodos y métricas para el análisis de conglomerados

Page 121: Análisis de Ensayos Agrícolas Multi-ambientalesI

109

Cuadro 47. Matriz de distancias euclídeas entre 14 genotipos de garbanzo.

Análisis de conglomerados Euclidea 41 67 70 75 156 202 240 336 337 507 517 521 522 555 41 0,00 67 6,24 0,00 70 6,59 4,16 0,00 75 5,86 5,32 4,60 0,00 156 6,84 5,32 3,87 5,85 0,00 202 6,72 5,21 3,75 5,83 3,55 0,00 240 5,55 4,87 4,26 5,22 4,75 5,54 0,00 336 4,62 4,45 4,09 5,09 4,36 3,65 4,68 0,00 337 7,05 4,67 5,23 7,85 6,81 5,90 5,78 5,41 0,00 507 5,18 6,18 5,84 4,47 5,39 6,03 3,97 5,05 7,90 0,00 517 4,69 5,40 5,68 4,92 5,67 5,62 5,01 3,43 6,25 4,19 0,00 521 5,08 4,89 5,02 5,04 4,46 5,08 4,50 3,34 6,10 3,95 2,12 0,00 522 5,06 4,45 4,62 4,90 4,05 3,73 4,88 3,36 6,24 4,15 3,84 3,39 0,00 555 13,84 11,94 10,17 13,10 11,46 10,53 10,98 12,42 10,63 12,97 14,03 13,50 12,44 0,00

0,00 3,34 6,68 10,02 13,36

4170

1562022405073365225175217567

337555

Distancia

Figura 8. Dendrograma resultante del análisis de conglomerado aplicado sobre 14 genotipos (cultivares) de garbanzo utilizando el algoritmo UPGMA sobre la matriz de distancias Euclideas.

Interpretación

Al analizar los dendrogramas, una pregunta muy frecuente es dónde realizar el

corte sobre el eje de las abscisas (distancias) para definir el número de grupos

o conglomerados que subyacen en la base de datos. Existen diferentes criterios

de corte, uno frecuentemente utilizado es tomar la distancia que se encuentra a

la mitad del rango total de los valores de distancia, en este ejemplo, el 50% de

la distancia seria 6,68. Utilizando este criterio de corte el dendrograma

Page 122: Análisis de Ensayos Agrícolas Multi-ambientalesI

110

indica que el genotipo 555 es muy distinto al resto de los genotipos. Si usamos

un criterio de corte del 25% de la distancia (3,34), los genotipos 521 y 517

conformarían un grupo y el resto de los genotipos serían todos diferentes.

Debido a la experiencia del mejorador, en este ejemplo se fijó como criterio de

corte la distancia 5, encontrando que los genotipos 555, 75 y 41 permanecieron

separados, mientras que los genotipos 337 y 67 formaron un grupo y los

restantes genotipos otro grupo. Muchas veces el número de grupos formado

depende del conocimiento del problema y de la conveniencia en los análisis

posteriores que pueden realizarse con estos grupos.

Para la selección del algoritmo más apropiado para estos datos se realizaron

análisis de conglomerados con los métodos de encadenamiento completo,

encadenamiento promedio (UPGMA) y Ward. En el Cuadro 48 se presentan los

coeficientes de correlación cofenéticos obtenidos con los distintos métodos de

conglomeración sobre la misma matriz de distancias Euclídeas. El algoritmo

UPGMA produjo conglomerados más afines a la estructura subyacente, ya que

la correlación cofenética usando este método de agrupamiento (0.958) fue

mayor que la encontrada usando otras técnicas.

Cuadro 48. Coeficientes de correlación cofenética obtenidos mediante cuatro algoritmos de

conglomeración sobre una misma matriz de distancias Euclídeas.

Método de conglomeración Coeficiente de Correlación Cofenético

Encadenamiento Completo (Complete linkage) 0.936

Promedio (Average linkage) 0.958

Método de Ward 0.907

A título ilustrativo también se aplicó un análisis de conglomerados (UPGMA)

sobre dos matrices de distancia diferentes teniendo en cuenta además de las

variables cuantitativas, las tres variables relacionadas a incidencia de

patologías. Para la construcción de una matriz de distancia, se usó el índice de

similitud de Gower y la transformación 1-Sij para obtener distancias a partir de

las similitudes. La otra matriz de distancia fue calculada a partir de la métrica

Euclídea. De los coeficientes de correlación cofenético respectivos se concluye

Page 123: Análisis de Ensayos Agrícolas Multi-ambientalesI

111

que para este problema, el algorítmo UPGMA aplicado sobre la matriz de

distnacias Euclídeas reproduce bien la estructura de interdistancias de los

genotipos. La pequeña diferencia entre ambas matrices de distancias podrías

deberse al hecho de que la mayoría de las variables en este ejemplo son

cuantitativas (Figura 9).

0,00 3,33 6,65 9,98 13,31

4167

33770

20215624050733652251752175

555

0,00 0,20 0,41 0,61 0,82

4167

33770

20215652233651752175

240507555

Figura 9. Dendrograma resultante del análisis de conglomerado aplicado sobre 14 genotipos (cultivares) de garbanzo utilizando el algoritmo UPGMA sobre la matriz de distancias Euclídeas (izquierda) y sobre la matriz de distancia construida a partir del índice de similitud de Gower (derecha). Los datos incluyen 21 variables cuantitativas más tres variables binarias relacionadas a la incidencia de patologías.

Page 124: Análisis de Ensayos Agrícolas Multi-ambientalesI

112

Page 125: Análisis de Ensayos Agrícolas Multi-ambientalesI

113

Árbol de Clasificación

Descripción

Se denominan modelos de árbol porque el método original de presentar

los resultados es en forma de árbol binario. Un árbol de clasificación es

un conjunto de reglas determinadas por un procedimiento de ajuste por

particiones binarias recursivas, donde un conjunto de datos es

sucesivamente particionado. Esta técnica está relacionada con técnicas

de análisis de conglomerados divisivos. Inicialmente todos los objetos

son considerados como pertenecientes al mismo grupo. El grupo se

separa en dos subgrupos a partir de una de las variables regresoras de

manera tal que la “heterogeneidad”, a nivel de la variable dependiente,

sea mínima dentro de cada grupo formado. En la construcción de árboles

de clasificación, la medida de heterogeneidad recomendada es la

deviance que depende de la heterogeneidad de clases en los grupos

formados (i.e. proporción de elementos de uno y otro grupo dentro del

nodo). Los dos grupos (nodos) formados se separaran nuevamente si:

(1) hay suficiente heterogeneidad dentro de ellos para producir una

nueva partición de observaciones y/o (2) el tamaño del nodo (i.e.

cantidad de elementos en el grupo) es superior al mínimo establecido

para continuar el algoritmo. El proceso se detiene cuando no se cumple

una de estas condiciones. En cada instancia de separación el algoritmo

analiza todas las variables regresoras y selecciona, para realizar la

partición, aquella que permite conformar grupos más homogéneos dentro

y más heterogéneos entre ellos.

Objetivo

Conocer cuáles son las variables que permiten separar los grupos más

eficientemente y proveer valores umbrales de estas variables que

permiten saber si una observación pertenece a uno u otro nodo.

Page 126: Análisis de Ensayos Agrícolas Multi-ambientalesI

114

Datos

Se trabaja sobre una matriz n×(m+1) de datos, cada uno de los n objetos

u casos es caracterizado a través de m variables cuantitativas. Una

columna adicional es usada para indicar el grupo de pertenencia de los

objetos (variable dependiente clasificatoria), el cual debe ser conocido a

priori. El número de elementos por grupo debiera ser mayor al número de

variables que se consideran en el análisis.

Ejemplo

Base de datos Calidad de Soja (Anexo). Árboles de clasificación para investigar

cuál o cuáles variables climáticas permiten separar mejor los ambientes que

producen granos de soja con mayor contenido de proteínas de aquellos con

menor contenido. La identificación de variables podría ser usado en una futura

comparación para predecir si debe esperarse alto o bajo contenido de proteínas

en un nuevo ambiente. Se trabajó con una matriz de dimensión 26×(30+1), es

decir 26 ambientes y 30 variables. Los ambientes fueron clasificados a priori

según la concentración de proteína estuviera por encima o debajo de la

mediana. Se pretende identificar cuál o cuáles son las variables climáticas con

mayor capacidad para clasificar a los ambientes en estos dos grupos. Las

columnas de la matriz contienen información de variables climáticas que

podrían predecir la calidad del grano antes de la cosecha (bh, tmed, tmax, tmin

y rad). El número de variables usadas fue 15, ya que para cada variable

climática se utilizaron tres valores mensuales (diciembre, enero y febrero). En la

Figura 10 se presenta el árbol de clasificación obtenido.

Page 127: Análisis de Ensayos Agrícolas Multi-ambientalesI

115

Cuadro 49. Árboles de clasificación.

Menú Estadísticas Comando Análisis multivariado Opción Árboles de clasificación Ventana Selector de Variables

Variable dependiente

dependiente Regresoras

bh dic

bh ene

bh feb

tmax dic

tmin dic

rad dic

Cuadro 50. Ventana Árboles de clasificación/regresión

Interpretación

Se observa que de todas las variables climáticas utilizadas para este análisis, la

temperatura media de febrero (tmed feb) y el balance hídrico de diciembre (bh

dic) son las de mayor potencialidad para diferenciar entre los grupos que se

encuentran por encima de la mediana en concentración de proteínas. Valores

de tmed feb mayores a 25.3ºC caracterizan a los ambientes con contenido de

proteínas mayores a la mediana (del total de ambientes que pertenecían al

grupo de contenido de proteínas mayores a la mediana, el 100% poseía una

tme feb>25.3ºC). La próxima variable usada para identificar ambientes es el

Page 128: Análisis de Ensayos Agrícolas Multi-ambientalesI

116

balance hídrico de diciembre (bh dic), valores de esta variable menores o

iguales a -75.8 mm permite diferenciar entre ambientes con mayor contenido de

proteína (4/5 80%) de los ambientes con menor contenido de proteína (1/5

20%).

Cuadro 51. Variables y valores umbral de un árbol de clasificación para predecir la calidad del

grano de soja antes de cosecha

Árboles de clasificación/regresión H= Deviance (suma (ni*ln(pi)) Nodo Formación H Predicción n mayor menor p(mayor) p(menor) Raíz 26 13 13 0,50 0,50 1 tmed feb(<=25,3) 29,77 menor 22 9 13 0,41 0,59 1.1 bh dic(<=-75,8) 5,00 mayor 5 4 1 0,80 0,20 1.2 bh dic(>-75,8) 20,60 menor 17 5 12 0,29 0,71 1.2.1 rad ene(<=25,4) 15,01 menor 15 3 12 0,20 0,80 1.2.1.1 rad dic(<=20,3) 8,32 mayor 6 3 3 0,50 0,50 1.2.1.1.1 bh ene(<=-79,1) 0,00 mayor 1 1 0 1,00 0,00 1.2.1.1.2 bh ene(>-79,1) 6,73 menor 5 2 3 0,40 0,60 1.2.1.2 rad dic(>20,3) 0,00 menor 9 0 9 0,00 1,00 1.2.2 rad ene(>25,4) 0,00 mayor 2 2 0 1,00 0,00 2 tmed feb(>25,3) 0,00 mayor 4 4 0 1,00 0,00

(n=26)

tmed feb(<=25,3; n=22)

bh dic(<=-75,8; n=5)bh dic(>-75,8; n=17)

rad ene(<=25,4; n=15)

rad dic(<=20,3; n=6)

bh ene(<=-79,1; n=1) bh ene(>-79,1; n=5)

rad dic(>20,3; n=9)

rad ene(>25,4; n=2)

tmed feb(>25,3; n=4)

(n=26)

tmed feb(<=25,3; n=22)

bh dic(<=-75,8; n=5)bh dic(>-75,8; n=17)

rad ene(<=25,4; n=15)

rad dic(<=20,3; n=6)

bh ene(<=-79,1; n=1) bh ene(>-79,1; n=5)

rad dic(>20,3; n=9)

rad ene(>25,4; n=2)

tmed feb(>25,3; n=4)

Figura 10. Árbol de clasificación para identificar a través de variables climáticas registradas, antes de la cosecha, ambientes asociados a granos de soja con concentración de proteínas mayor a la mediana.

Page 129: Análisis de Ensayos Agrícolas Multi-ambientalesI

117

Análisis Discriminante Lineal

Descripción

Una función discriminante lineal es una combinación lineal de variables

que maximiza la diferencia entre grupos definidos a priori del análisis.

Si g denota el número de grupos, es posible construir g-1 funciones

discriminantes. La proporción de variabilidad entre grupos asociada a

cada función (cuantificada mediante el autovalor asociado a los pesos

usados en la construcción de las funciones) permite decidir el número de

funciones discriminantes lineales que deben examinarse para explicar

suficientemente la variabilidad entre grupos. Los valores, denominados

pesos estandarizados por los que se pondera la participación de cada

variable en la función, permiten identificar las variables con mayor

potencialidad para explicar las diferencias entre grupos. Estos pesos se

obtienen de la SVD de una matriz conformada a partir de la relación de la

variabilidad entre grupos con la variabilidad dentro de grupos.

La o las funciones encontradas pueden ser usadas de forma predictiva

para clasificar a un nuevo objeto como miembro de uno u otro grupo de

los definidos a priori. Una regla de asignación común es asignar el nuevo

objeto al grupo con centroide (media de la función discriminante en el

grupo) más cercano al valor obtenido al evaluar la función discriminante

con los datos del nuevo objeto. La tasa de error aparente es la

estimación de la probabilidad de una mala clasificación, obtenida al

clasificar los objetos en los grupos utilizando la función discriminante

construida. Las tasas de error aparente tienden a subestimar el error, son

útiles cuando se disponen de grandes tamaño de muestra en cada

población.

Los resultados del análisis discriminante lineal, cuando existen 3 o más

grupos. Al menos pueden representarse en un gráfico Biplot, para

Page 130: Análisis de Ensayos Agrícolas Multi-ambientalesI

118

mostrar en un mismo espacio (aquel generado por los dos primeros ejes

canónicos o funciones discriminantes) tanto a los objetos como a las

variables.

Objetivo

Encontrar una o más funciones, denominadas funciones discriminantes o

ejes canónicos, que combinen linealmente los datos de características

continuas ponderando cada uno de ellos por pesos tales que las

diferencias entre grupos sean máximas a nivel de esta o estas funciones.

Usar dichas funciones para identificar variables con buena capacidad de

discriminación de grupos y/o clasificar nuevos objetos en los grupos

disponibles.

Datos

Se trabaja sobre una matriz n×(m+1) de datos, cada uno de los n casos

es caracterizado a través de m variables cuantitativas. Una columna

adicional es usada para indicar el grupo de pertenencia de los casos, el

cual debe ser conocido a priori. El número de elementos por grupo

debiera ser mayor al número de variables que se consideran en el

análisis.

Ejemplo

Base de datos Calidad de Maní (Anexo). Análisis discriminante para separar

tres zonas productoras de maní a través de variables indicadoras de la calidad

del grano, como Acidez, porcentaje de materia grasa (MG), índice de Iodo (IY) y

relación de oleico/linoleico (O/L). Se trabajó con una matriz de dimensión

130×(4+1), donde 130 es el número de muestras provenientes de alguno de los

siguientes tres ambientes: Salta, Centro y Sáenz Peña. El tamaño muestral fue

suficiente para realizar este análisis (i.e. el número de elementos por grupo fue

mayor al número de variables que se consideran en el análisis). La zona

Central estuvo representada por 43 observaciones, la zona Sáenz Peña por 45

Page 131: Análisis de Ensayos Agrícolas Multi-ambientalesI

119

observaciones y la zona Salta por 42. Las columnas de la matriz poseen

información de las m=4 variables que definen la calidad de aceite.

Cuadro 52. Análisis discriminante.

Menú Estadísticas Comando Análisis multivariado Opción Análisis discriminante Ventana Selector de Variables

Variables Acidez O/L MG IY

Criterios de agrupamiento Zonas

Ventana Análisis de conglomerados Solapa Jerárquicos (seleccionar método y distancia)

Cuadro 53. Ventana de Análisis discriminante lineal.

Page 132: Análisis de Ensayos Agrícolas Multi-ambientalesI

120

Cuadro 54. Resultado del Análisis discriminante lineal.

Análisis discriminante lineal Prueba de Homogeneidad de Matrices de Covarianzas Grupos N Estadístico gl p-valor 3 130 112,29 20 <0,0001 Autovalores de Inv(E)H Autovalores % % acumulado 33,44 99,21 99,21 0,27 0,79 100,00 Funciones discriminantes canónicas 1 2 Constante 1,77 -7,55 Acidez 10,50 -1,41 O/L 2,83 4,55 IY -0,02 -0,01 MG -0,03 0,02 Funciones discriminantes - datos estandarizadas con la varianzas comunes 1 2 Acidez 0,56 -0,07 O/L 0,50 0,80 IY -1,04 -0,29 MG -0,56 0,51 Centroides en el espacio discriminante Grupo Eje 1 Eje 2 Centro -1,78 -0,71 Saenz Peña -5,71 0,48 Salta 7,94 0,21 Tabla de clasificación cruzada Grupo Centro Saenz Peña Salta Total Error(%) Centro 42 1 0 43 2,33 Saenz Peña 1 44 0 45 2,22 Salta 0 0 42 42 0,00 Total 43 45 42 130 1,54

Interpretación

La primera función discriminante (FLD) que permite separar la Zona manicera

de Salta de la zona Centro y Sáenz Peña es:

FLD=1.77+10.50*Acidez+2.83* O/L-0.02* IY-0.03* MG

Los pesos estandarizados (Cuadro 55) son utilizados para identificar la o las

variables de mayor peso en la discriminación entre ambos grupos.

Page 133: Análisis de Ensayos Agrícolas Multi-ambientalesI

121

Cuadro 55. Pesos asignados a 4 variables de calidad en maní en la construcción de una FLD

para separar las zonas maniceras en función de la calidad del grano de maní.

Variable Pesos1 Acidez 0.56 O/L 0.50 IY -1.04 MG -0.56 1Pesos estandarizados por la matriz de covarianzas dentro de zona.

Las características de mayor peso en la diferenciación entre zonas es el

porcentaje de Iodo (IY), este tiene peso negativo, luego se separan valores

mayores en la zona de menor promedio para la FLD. El centroide para la zona

Centro es de –1.78, para Saénz Peña -5.71 y para Salta de 7.94. La tasa de

error aparente (tasa de mala clasificación) de la función es 1.54%. Luego

supongamos que tenemos una muestra nueva, es decir un aislamiento que no

participó en el análisis, por lo cual no sabemos a cual de estas zonas tendría

más chance de pertenecer y que los valores de las características químicas del

grano para esta nueva muestra son 0.56 para Acidez, 1.95 para la relación O/L,

115 para porcentaje de Iodo (IY) y 46 para porcentaje de MG. El valor de la

función para esa muestra será 9.09 y como este es más próximo a la Zona de

Salta que resto se podría concluir que la muestra desconocida tiene más

chance de pertenecer a la Zona manicera de Salta.

En este ejemplo, la primera FDL explica un 99.21% de la variabilidad entre

grupos (según muestran los autovalores asociados a cada función) y por tanto

no tendría sentido examinar la segunda FDL. En la Figura 11 (izquierda) se

presenta el gráfico de dispersión de las muestras en el espacio discriminante,

donde se visualiza que a nivel del Eje Canónico 1 hay una diferencia importante

de las muestras procedentes de distintos ambientes, sobre todo de aquella

proveniente de Salta. En la Figura 11 (derecha) se presenta un biplot sobre el

espacio discriminante donde además de la variabilidad entre observaciones es

posible distinguir también las variables con mayor potencial para la clasificación

de observaciones en estas zonas.

Page 134: Análisis de Ensayos Agrícolas Multi-ambientalesI

122

Saenz PeñaCentroSalta

-9,38 -4,41 0,56 5,53 10,51Eje Canónico 1

-2,81

-1,37

0,07

1,51

2,95

Eje

Can

ónic

o 2

Saenz PeñaCentroSalta

Saenz PeñaCentroSalta

-13,78 -7,71 -1,64 4,43 10,50Eje Canónico 1

-4,18

-0,51

3,17

6,84

10,51

Eje

Can

ónic

o 2

Acidez

O/L

IY

MG

Acidez

O/L

IY

MG

Saenz PeñaCentroSalta

Figura 11. Dispersión de muestras en función de dos ejes canónicos que combinan información sobre cuatro características químicas del grano de maní (izquierda) y biplot sobre el espacio discriminante (derecha).

Page 135: Análisis de Ensayos Agrícolas Multi-ambientalesI

ANEXO DESCRIPCIÓN DE LAS BASES DE DATOS UTILIZADAS COMO EJEMPLOS

Page 136: Análisis de Ensayos Agrícolas Multi-ambientalesI
Page 137: Análisis de Ensayos Agrícolas Multi-ambientalesI

125

Base de Datos: Ideotipos de Maíz

La base de datos Ideotipos de Maíz se generó en el marco de un proyecto de

investigación denominado “Identificación de caracteres ecofisiológicos

asociados a mayor eficiencia en el uso de nitrógeno y en la captación de

energía en maíz” El objetivo del proyecto fue caracterizar la variabilidad

existente en híbridos comerciales respecto a atributos ecofisiológicos asociados

a la eficiencia de uso de N y de la radiación y su incidencia relativa en la

expresión final de tales eficiencias. Las principales instituciones participantes y

los representantes de cada una fueron:

Institución participante Investigador responsable E.E.A. Pergamino (Unidad Sede del Proyecto) Alfredo Cirilo

E.E.A. Oliveros Hugo Pedrol E.E.A. Balcarce Fernando Andrade

E.E.A. Manfredi Julio Dardanelli Marcelo Cantarero Sergio Luque

En la campaña 2003/2004 se implantaron experimentos en diferentes

ambientes de la región pampeana argentina (Balcarce, Pergamino, Oliveros y

Córdoba), con ocho híbridos comerciales de maíz provenientes de los criaderos

Syngenta Agro S.A., Dow Agrosciences S.A., Nidera Semillas S.A. y Monsanto

Argentina S.A.: Dow-Mass462MG, Dow-Mass563MG, Nidera-AX882MG,

Nidera-AX890MG, Monsanto-DK682MG, Monsanto-DK752MG, Syngenta-

NK830MG y Syngenta-NK900MG. Todos los genotipos incluyeron la

transformación transgénica para tolerancia a daño por Diatraea sacchararis.

Los híbridos fueron sometidos a dos niveles de oferta nitrogenada edáfica

(baja=0 kg.ha-1 de fertilizante; alta=250 kg.ha-1 de fertilizante), en condiciones

de alta densidad (aprox. 8 pl.m-2), y sin limitaciones hídricas ni de otros

nutrientes como P y S. El diseño utilizado fue de parcelas divididas con tres

repeticiones en cada localidad. Durante el ciclo del cultivo se determinó la

fenología, la biomasa aérea particionada, el área foliar, la intercepción de

radiación fotosintéticamente activa, la orientación espacial de las hojas en el

plano vertical y horizontal y la senescencia foliar post-F. En F se determinó el

Page 138: Análisis de Ensayos Agrícolas Multi-ambientalesI

126

contenido de N en láminas y resto de biomasa aérea, y en madurez en los

mismos componentes más el grano, para determinar la acumulación y partición

de nitrógeno. Se determino el rendimiento en grano y sus componentes. A

continuación se presenta la lista de variables y la abreviatura incluida en el

archivo que contiene los datos (Ideotipos de Maíz.idb).

Variable Abreviatura Rendimiento (g/m2) Rinde Peso de granos (mg) PG Numero de granos por m2 NG Materia seca aérea en F (g m-2) MS1 Materia seca aérea en MF (g m-2) MS2 Materia seca aérea entre F y MF (g m-2) MS2-1 Peso seco de hojas en F (g m-2) PSH1 Peso seco de hojas en MF (g m-2) PSH_MF Índice de cosecha IC Absorción de nitrógeno de E a F (g m-2) AbsN1 Absorción de nitrógeno desde F a MF (g m-2) AbsN2 Área foliar en F AF_F Nitrógeno foliar especifico en F NFE_F Inserción horizontal entre surco IH_es Inserción vertical promedio hojas 1-3 IV1-3 Inserción vertical promedio hojas 4-6 IV4-6 Inserción vertical promedio hojas 7-9 IV7-9 Eficiencia intercepción de la radiación en F EI_F Eficiencia intercepción de la radiación en Fll EI_Fll Numero de hojas verdes en MF #HV_MF PAR interceptado acumulado desde E a F (mj/M2) IPAR1 PAR interceptado acumulado desde F a MF (mj/M2) IPAR2 Eficiencia en el uso de la radiación desde E a F (g/mj) RUE1 Eficiencia en el uso de la radiación de E a F (g/mj) RUE2 Eficiencia en el uso del Nitrógeno EUN E= Emergencia

F= Floración

MF= Madurez Fisiológica

Fll= Fin de llenado del grano

Page 139: Análisis de Ensayos Agrícolas Multi-ambientalesI

127

Base de Datos: Factores Limitantes. Soja

La base de datos Factores limitantes. Soja fue generada en el marco de un

proyecto de investigación denominado “Factores limitantes del rendimiento y

determinantes de su variabilidad en el cultivo de soja en sistemas de siembra

directa”. El proyecto surgió con la finalidad de fue incrementar y/o estabilizar los

rendimientos de soja, en lotes bajo siembra directa y reducir la variabilidad

espacial y temporal de los mismos.

Las instituciones participantes e investigadores responsables fueron:

Institución Investigador responsable

EEA OLIVEROS

Marcelo BODRERO José ANDRIANI Silvina BACIGALUPPO Guillermo GERSTER Juan Martín ENRRICO Cristina GONZALEZ

EEA Paraná INTA Diego SANTOS Ricardo MELCHIORI Hugo PELTZER

EEA Manfredi INTA Julio DARDANELLI

FCA Alvaro QUIJANO Ricardo MARTIGNONE

El ensayo se llevó a cabo durante tres campañas (01_02, 02_03, 03_04) en 16

localidades (A. Seco, ArmstrongA, Bouquet, C.Gómez, Carcaraña, Casilda,

Cavanagh, EEAOliveros, Las Rosas, Maizales, Oliveros, OliverosB, Rueda,

Totoras, TotorasA y TotorasB). Se probaron tres cultivares de soja A5520RG,

A6040RG y DM4800RR.

Las variables utilizadas en los ejemplos y las abreviaturas incluidas en el

archivo Factores Limitantes. Soja.idb se presentan a continuación:

Variables Abreviatura Rendimiento Rend Número de granos NG Peso de grano PG Precipitación acumulada de E a R1 (mm) Pr1 Precipitación acumulada de R1 a R5 (mm) Pr2 Precipitación acumulada de R5 a R5 (mm) Pr3 Radiación acumulada de E a R1 Ra1 Radiación acumulada de R1 a R5 Ra2

Page 140: Análisis de Ensayos Agrícolas Multi-ambientalesI

128

Radiación acumulada de R5 a R7 Ra3 Temperatura media de E a R1 (ºC) Tm1 Temperatura media de R1 a R5 (ºC) Tm2 Temperatura media de R5 a R7 (ºC) Tm3 Fotoperíodo de E a R1 (hs) Fot1 Fotoperíodo de R1 a R5 (hs) Fot2 Fotoperíodo de R5 a R7 (hs) Fot3 Agua útil inicial (mm) AUI Contenido de materia Orgánica (%) MO Profundidad del horizonte B textural (cm) PrB2t M delta (%) %Md Pisos de arado (%) %pi Conductividad hidráulica (cm/seg) Chid Estados fenológicos

E= Emergencia

R1= Floración

R5= Comienzo de llenado de granos

R7= Madurez Fisiológica

Page 141: Análisis de Ensayos Agrícolas Multi-ambientalesI

129

Base de Datos: Selección de genotipos. Garbanzo

Carreras (1999) publicó que se han obtenido líneas de garbanzo que han

demostrado buena capacidad productiva y marcada semejanza fenotípica

durante la crianza. En su origen compartieron sus progenitores (madre y padre),

por ello poseen un estrecho parentesco y altos niveles de homocigosis. El

potencial genético de las mismas les confiere la posibilidad de ser futuras

creaciones fitogenéticas, por lo cual resulta relevante su diferenciación

genotípica. Para diferenciar un genotipo de otro se utilizan descriptores,

caracteres cualitativos y/o cuantitativos. La base de datos facilitada por la Ing.

Agr. (MSc) J. Carreras (FCA-UNC) contiene 25 descriptores relacionados con la

planta, inflorescencias, fruto, semillas y otros, sobre 12 líneas puras selectas

emparentadas y dos testigos. Las semillas empleadas correspondientes a las

12 líneas en selección avanzada forman parte del Proyecto Contribución al

Mejoramiento de Garbanzo, con sede en la Facultad de Ciencias Agropecuarias

de la Universidad Nacional de Córdoba, fueron identificadas como: 41, 67, 70,

75, 202, 240, 336, 337, 507, 517, 521, 522. Los testigos utilizados fueron el

cultivar Chañaritos S-156 y la línea pura Chañaritos M-6, ambos fueron

identificados como 156 y 555 respectivamente.

Los descriptores evaluados y sus abreviaciones utilizadas se detallan a

continuación:

Variables Abreviatura 1. Caracteres Vegetativos de la planta Altura de planta a cosecha (cm) altura Altura de inserción de la primera vaina (cm) INS Número de ramificaciones totales número Número de foliolos por hoja nfolo

Largo y ancho de foliolos (cm) Larfol anchofol

Largo del Pedicelo larpedi

Page 142: Análisis de Ensayos Agrícolas Multi-ambientalesI

130

2. Caracteres de inflorescencia

Largo y ancho de estandarte (cm) larest anchoest

Largo de pedúnculo (cm) larpedu Número de vainas NBA Número de semillas por vainas SBA

Largo, ancho, espesor y tamaño de vainas (cm)

Largo Ancho Espesor Tamaño

3. Caracteres de la semilla Número de semillas NSE Peso de semillas PSE

Largo, ancho y espesor de semillas (cm) Larsem Anchosem espsem

4. Otros Incidencia patógeno A InsPA Incidencia patógeno B InsPB Incidencia patógeno c InsPC Contenido de proteínas probru

Las unidades experimentales fueron parcelas de cuatro surcos de cuatro

metros de longitud y setenta centímetros de espaciamiento entre surcos, con

una densidad de siembra de diez semillas por metro lineal, uniformemente

distribuidas. Los ensayos fueron llevados a cabo bajo un diseño en bloques

completos al azar, con cuatro repeticiones para los ambientes uno y dos y con

tres repeticiones para el ambiente tres.

Page 143: Análisis de Ensayos Agrícolas Multi-ambientalesI

131

Base de Datos: Ensayos Comparativos de Rendimiento de Poroto

Los datos de rendimiento de poroto rojo moteado (Phaseolus vulgaris L.)

provienen de varios ensayos conducido en República Dominicana y Puerto

Rico. En los ensayos de Poroto rojo moteado se probaron 30 líneas diferentes:

15 con hábito de crecimiento determinado (número de líneas 1-15) y 15 con

hábito de crecimiento indeterminado (número de líneas 16 al 30) evaluadas en

9 ambientes. Los ambientes se formaron a partir de la combinación de

localidades y fechas de siembra.

País Localidad Fecha de siembra Nombre República Dominicana San Cristobal Diciembre 1990 SC República Dominicana Vallejuelo Septiembre 1991 VJ República Dominicana Manoguayabo Diciembre 1991 MG República Dominicana San Juan de la Maguana Diciembre 1991 SM Puerto Rico Isabela Enero 1990 IE0 Puerto Rico Isabela Octubre 1990 IO0 Puerto Rico Isabela Enero 1991 IE1 Puerto Rico Isabela Octubre 1991 IO1 Puerto Rico Isabela Enero 1992 IE2

Page 144: Análisis de Ensayos Agrícolas Multi-ambientalesI

132

Page 145: Análisis de Ensayos Agrícolas Multi-ambientalesI

133

Base de Datos: Calidad de soja

La base de datos Calidad de soja fue generada en el marco de un proyecto de

investigación denominado “Caracterización del germoplasma argentino de soja

de alta calidad nutricional a través de nuevas tecnologías”. Con el objetivo de

caracterizar la calidad del grano de soja argentino a través de la evaluación de

la diversidad genética del germoplasma, la variabilidad de sus cualidades

químicas y sanitarias y la interacción de los genotipos con los ambientes que

definen la región agro-ecológica argentina. Las instituciones participantes y los

investigadores responsables fueron:

Institución participante Investigador responsable Comisión de Investigaciones Científicas, Bs As Dra. Silvia RESNIK EEA INTA Manfredi Dra María José Martinez

EEA INTA Marcos Juárez Ing. Agr. (M. Sc.) Héctor Baigorri Ing. Quim. Martha Cuniberti

Se midió el contenido de proteína (%) de granos de soja de 26 procedencias.

De cada ambientese obtuvieron registros mensuales, desde diciembre a mayo,

de 4 variables climáticas: temperatura media (tmed), temperatura máxima

(tmax), temperatura mínima (tmin), radiación (rad) y se estimó el balance hídrico

(bh) a partir de la diferencia entre la precipitación acumulada mensual y la

evapotranspiración acumulada mensual.

Page 146: Análisis de Ensayos Agrícolas Multi-ambientalesI

134

Page 147: Análisis de Ensayos Agrícolas Multi-ambientalesI

135

Base de Datos: Calidad de maní

Se evaluó la calidad del grano de maní procedente de tres zonas productoras

de maní de Argentina. Se recolectaron 43 muestras de Sáenz Peña, 45 de

Salta y 42 de la zona Centro. Como variables indicadoras de la calidad del

grano se midió Acidez, relación Oleico/Linoleico (O/L), índice de Yodo (IY) y

porcentaje de Materia Grasa (MG).

Page 148: Análisis de Ensayos Agrícolas Multi-ambientalesI

136

Page 149: Análisis de Ensayos Agrícolas Multi-ambientalesI

137

Base de Datos: Ensayos Comparativos de Rendimiento de Maní

La fuente de información utilizada (cedida gentilmente por el Ing. Agr. (MSc) J.

Baldessari), comprende los ensayos comparativos de rendimiento regionales de

maní de INTA realizados durante 1996/97. Los ensayos se realizaron en 8

localidades, algunas de las cuales por su proximidad y similitud edáfica-

climática fueron consideradas como un mismo sitio (Cuadro 56). Fueron

evaluados 11 genotipos, 3 de ciclo corto y 8 de ciclo largo (Cuadro 57). En

todos los sitios, el diseño experimental usado fue en bloques completos al azar

con cuatro repeticiones. Las parcelas experimentales fueron de dos surcos de

10 m de longitud, distanciados 70 cm uno de otro. Para la siembra se utilizaron

15 semillas por metro lineal de surco en promedio. Cada parcela se cosechó en

su totalidad en forma manual. Los valores de rendimiento analizados

corresponden a kilogramos de grano por parcela a humedad constante (8%).

Cuadro 56. Sitios intervinientes en el período 1996/97 en los ECR de cultivares del Programa

de Mejoramiento de Maní de la EEA-Manfredi, INTA.

Sitios Localidades

Sitio 1 Gral Deheza Gral Cabrera

Sitio 2 Manfredi

Sitio 3

El sur San Ambrosio Las Vertientes Reducción las acequias

Cuadro 57. Genotipos presentes en los ECR de cultivares del Programa de Mejoramiento de

Maní de la EEA-Manfredi, INTA en la campaña agrícola 1996/97.

Genotipo Ciclo 1 Parentesco Manf393 Corto Robut 33-1 / NC Ac 2698 Mf447 Corto Florman / Manfredi Virginia 5 Mf480 Corto CS 9 / ICGS 5 Florman Largo Selección de Florunner Mf457 Largo Florman / Tachimasari Mf484 Largo Florman / Marc 1 ℵ Mf485 Largo Florman / Marc 1 ℵ Mf486 Largo Florman / Marc 1ℵ Mf487 Largo Florman / Marc 1 Mf489 Largo Florman / Marc 1 Tegua Largo Selección de Florunner

Page 150: Análisis de Ensayos Agrícolas Multi-ambientalesI

138

Page 151: Análisis de Ensayos Agrícolas Multi-ambientalesI

139

Bibliografía Citada

Annicchiarico, P. 2002. Genotype x environment interaction. Challenges and opportunities for plant breeding and cultivar recommndations. Food and Agriculture Organization of the United Nations. ISBN 92-5-104870-3

Arroyo,A., Balzarini,M., Bruno,C., Di Rienzo,J., 2005. Árboles de expansión mínimos: ayudas para una mejor interpretación de ordenaciones en bancos de germoplasma. Interciencia, ISSN 0378-1844 Vol 30 Nº 9: 550-554.

Balzarini M. 2000. Biometrical Models for Predicting Future Performance in Plant Breeding. Thesis Ph.D. Louisiana State University, Baton Rouge, LA, USA, 268 pp.

Balzarini M., S.B. Milligan, M.S. Kang. 2001.Best linear unbiased prediction: A mixed model approach in multi-environment trials. In M.S. Kang (ed.) Crop Improvement: Challenges in the 21st Century. pp.102-113. Food Products Press, Binghamton, NY.

Balzarini, M. 2003. Introducción al Análisis Multivariado. Notas de clases. Maestría en Estadística Aplicada de la Universidad Nacional de Córdoba. 130 pp

Balzarini, M. y Di Rienzo, J. 2004. Info-Gen: Software para análisis estadístico de datos genéticos. Universidad Nacional de Córdoba. Córdoba. Argentina.

Becker H.C. 1981. Correlations among some statistical measures of phenotypic stability. Euphytica 30: 835-840.

Becker, H. y León, J. 1998. Stability analysis in plant breeding. Plan Breed 101:1-23. Bernardo R. 1999. Best linear unbiased predictor analysis. En: The genetics and

explication of heterosis in Crops. American Society of Agronomy, Crop Science Society of America, Soil Science Society of America, Madison, Wisconsin, pp. 269-276.

Bindinger, F., Hammer, G. and Muchow, R. 1996. The physiological basis of genotype by environment interaction in crop adaptation. En: M. Cooper & G. L. Hammer, eds. Plant adaptation and crop improvement, p.329-347. Wallingford, UK, CABI.

Borlaug, N. E. 2000. Text of speech: http://usinfo.state.gov/topical/global/biotech Bradley, J., Knittle, K. and Troyer, A. 1988. Statisical methods in seed corn product

selection. J. Prod. Agric. 1:34-38. Braun, H., Pfeiffer, W. and Pollmer, W. 1996. CIMMYT’s approach to breeding for wide

adaptation. Euphytica, 92:175:183. Casanoves F. 1996. Interacción Genotipo-ambiente. Evaluación simultanea de

modelos usados para la evaluación de genotipos. Tesis de Maestría. Facultad de Agronomía, UBA. 120 pp.

Casanoves, F.y Balzarini, M. 2002. Predictores lineales insesgados (BLUP) en ensayos comparativos de rendimiento. Journal or Basic &Applied Genetics 14 (3) pp:55-62.

Casanoves F. 2004. Análisis de ensayos comparativos de rendimiento en mejoramiento vegetal en el marco de los modelos lineales mixtos. Tesis de Doctorado. Facultad de Agronomía, UNC. 144 pp.

Casanoves, F., J. Baldessari, and M. Balzarini. Evaluation of multi-environmental trials of peanut (Arachis hypogaea L.) cultivars. 2005a. Crop Sci. 45:18-26.

Casanoves F, Macchiavelli R, and Balzarini M. Error variation in multi-environment peanut trials: within-trial spatial correlation and between-trial heterogeneity. 2005b. Crop Sci., 45: 1927-1933

Page 152: Análisis de Ensayos Agrícolas Multi-ambientalesI

140

Casini C., Dardanelli J., Martinez M., Balzarini, M., Borgogno C., and Nasetta M. 2003. Oil quality and sugar content of peanut (Arachis hypogaea) grown in Argentina. Their relationship with climatic variables and seed yield. Journal of Agricultural and Food Chemistry, American Chemical Society. 51(21) 6309-6313. ISSN. 0021-8561

Casini C., Martínez M.J., Dardanelli, J., Borgogno C., Balzarini M., Nassetta M., Silva C. y Avalis D. 2002. Relacion entre algunos componentes químicos que caracterizan al maní argentino con variables climáticas y de cultivo. IDIA XXI, 2 (3) Pp. 168-171

CIMMYT. 1989. Towars the 21st century: CIMMYT’s strategy. El Batan, Mexico, CIMMYT.

Cornelius, P.L. 1993. Statistical test and retention of terms in the additive main effects and multiplicative interaction model for cultivar trials. Crop Sci., 33: 1186-1193.

Cornelius, P.L., Seyedsadr, M.S. y Crossa, J.L. 1992. Using the shifted multiplicative model to search for “separability” in crop cultivar trials. Theor. Appl. Genet., 84: 161-172.

Cornelius, P.L.Crossa, J. y Seyedsadr, MS. 1996. Statistical test and estimators of multiplicative models for genotype-by-environment interaction. In M.S. Kang y H.G. Gauch, eds. Genotypr-by-environment interaction, p 199-234.Boca Raton, FL, CRC Press.

Crossa, J. Cornelius, P.L. y Yan W. 2002. Biplots of Linear-Bilinear Models for Studying Crossover Genotype _ Environment Interaction. Crop Sci. 42:619–633.

Crossa, J. Cornelius, P.L., Sayre, K. y Ortiz-Monasterio, R.J. 1995. A shifted multiplicative model fision method for grouping environments without cultivar rank change. Crop Sci., 35: 54-62.

Crossa, J. Cornelius,P.L. Seyedsadr, M.S. y Byre, P. 1993. A shifted multiplicative model cluster análisis for grouping environments without cultivar rank change. Theor. Appl. Genet., 85:577-586.

Crossa, J. y Cornelius, P.L. 1997. Sites regresion and shifted multiplicative model clustering of cultivar trials sites Ander heterogenety of variantes. Crop Sci., 37: 406-415.

Dardanelli, J., Balzarini, M, Martínez, M., Cuniberti, M., Resnik, S., Ramunda, F., Herrero, R and Hector Baigorri. Mega-environments for Soybean Seed Oil and Protein Concentrations and Maturity Groups effects in the Argentinean Crop Region. Crop Sci. In press.

Dayde J., Lacombe S. 2000. “Variation of isoflavone content and composition in soybean seeds and related products”. Proceedings of the Third International Soybean Processing and Utilization Conference, Tukuba, Ibaraki, Japan, 55-58.

Di Rienzo, J.A.; Guzmán A.W.; Casanoves F. 2001. A Multiple Comparisons Method based on the Distribution of the Root Node Distance of a Binary Tree. Journal of Agricultural, Bioogical, and Environment Statistics, 7 (1): 146-159.

Dyke, G., Lana, P. and Jenkyn, J. 1995. Sensitivity (stability) analysis of multiple variety trials, wirh special reference to data expressed as proportions or percentages. Exp. Agric., 31:75:87.

Eskridge, K. 1990. Selection of stable cultivars using a segety-first rule. Crop Sci., 30:369-374.

Evans, L. 1993. Crop evolution, adaptation, and yield. New York, Cambridge Univ. Press.

Gabriel, k. R. 1971. Biplot display of multivariate matrices with application to principal

Page 153: Análisis de Ensayos Agrícolas Multi-ambientalesI

141

components analysis. Biometrika, 58:453-467. Gauch H.G. Jr. 1988. Model selection and validation for yield trials with interaction.

Biometrics 44: 705-715. Gauch, H. G. and Zobel, R. W. 1996. AMMI analysis of yield trials. In M.S. Kang & H.G.

Gauch, eds. Genotype-by-environments interaction. p. 85-122. Boca Raton, FL, CRC Press.

Gauch, H. G. and Zobel, R. W. 1997. Identifying mega-environments and targeting genotypes. Crop Sci., 37:311-326

Gollob, H.F. 1968. A statistical model with combines features of factor analytic and análisis of variante technique. Psychometrika, 33: 73-115.

Gower, J.C. 1985. Measures of similarity, dissimilarity and distance, p. 397-405. In Kotz, S. and Jonhson N. Ed. Encyclopedia of stastistical science. Vol. 5. Wiley, New York.

Kang M.S. 1990. Understanding and utilization of genotype-by-environment interaction in plant breeding. En. Genotype-by-environment interaction in plant breeding. Kang, M.S (ed.) pp.52-68.

Kang, M.S. 1998. Using genotype-by-environment interaction for crop cultivar development. Advances in Agronomy 62: 199-252.

Kang, M.S. 2002. Genotype-environment interaction: Progress and prospects. Kang M.S. (ed.) CABI Publishing, New York

Kang. M. S. y Pham, H. N. 1991. Simultaneous selection for high yielding and stable crop genotypes. Agron. J., 83:161-165.

Kang M, Balzarini M and J. Guerra. 2004. Genotype-by-Environment interaction. In A. Saxton (ed.) Genetic Analysis of Complex Traits Using SAS. pp 69-94. BBU Press. SAS Institute, Cary NC. ISSN 1-59047-507-0.

Kuehl, Robert O. 2001. Diseño de Experimentos. Principios estadísticos de diseño y análisis de investigación. 2ª edición. 666 pp. Thomson Learning. México.

Lin, C.S. and Binns, M.R. 1991. Genetic properties of four types of stability parameter. Theor. Appl. Genet., 82:505-509.

Lin, C.S. Binns M.R. and Lefkovitch L.P. 1986. Stability analysis: Where do we stand?. Crop Sci., 26: 894-900.

Macchiavelli R. and Beaver J. 1999. Analysis of genotype-by-environment interaction with AMMI models using SAS Proc Mixed. Applied Statistics in Agriculture 11: 171-183.

Piepho H.P. 1998. Methods for comparing the yield stability of croppping systems – A review. J. Agron. Crop Sci., 180:193-213.

Robinson G.K. 1991. That BLUP is a good thing: The estimation of random effects. Statistical Sciences. 6: 15-21.

Schabenberger, O. y Pierce, F. 2002. Contemporary statistical models for the plant and soil sciences. p. 738. Taylor & Francis. CRC Press.

Yan W. y Hunt L. A.2002. Biplot Analysis of Diallel Data. Crop Sci. 42:21–30. Yan W., Hunt L. A., Sheng Q. and Szlavnics Z. 2000. Cultivar evaluation and mega-

environment investigation based on GGE Biplot. Crop Sci. 40: 597-605. Zobel, R.W., Wright, M.J. y Gauch, H.G. 1988. Statistical analysis of a yield trial. Agron.

J., 80: 388-393.