Análisis de datos en el estudio de variabilidad espacial ... · nejo de la varia-bilidad espacial y temporal dentro de los lotes en producción. Conocer la varia-bilidad espacial

los cultivos a escala fina,

se genera un gran volumen

de datos que presenta un

interesante desafío respec-

to al desarrollo de técnicas

Estadística y de Computa-

ción para su análisis.

El óptimo uso de esta

información depende

fuertemente de las capa-

cidades para

explorar los

datos que se

obtienen.

La capacidad

de contar con

in fo rmac ión

de una gran

cantidad de

sitios dentro

de un mismo

lote en pro-

ducción no

sólo para

variables de

cultivo sino

también para

otras como

son las topográficas y las

de suelo, genera datos con

estructuras particulares,

disponiendo de datos es-

paciales (con localización

en el espacio) y multivaria-

dos (más de una variable

por sitio).

El manejo sitio-específico

demanda el uso de infor-

mación acerca de la varia-

bilidad espacio-temporal

presente en los lotes de

manera de delimitar zonas

que expresan una combi-

nación relat ivamente

homogénea no sólo del

La agricultura mundial

enfrenta el desafío cons-

tante de aumentar la pro-

ducción agrícola en res-

puesta a la creciente de-

manda alimentaria de la

población. Con el objetivo

de producir alimentos de

manera eficaz pero con-

servando el medio am-

biente, la agricultura sos-

tenible surge

como el único

medio de pro-

ducción de ali-

mentos para el

futuro.

La agricultura de

precisión tiene

como objetivo el

monitoreo y ma-

nejo de la varia-

bilidad espacial y

temporal dentro

de los lotes en

producción.

Conocer la varia-

bilidad espacial y

cómo ésta se mantiene o

cambia con los años, per-

mite ajustar prácticas de

manejo agronómico a las

necesidades del cultivo,

reducir el impacto ambien-

tal y aumentar la competi-

tividad del sistema pro-

ductivo a través de un uso

eficiente de los insumos.

Bajo este enfoque la agri-

cultura de precisión surge

como una alternativa pro-

metedora para favorecer

una agricultura sostenible

(Corwin y Lesch, 2010).

La agricultura de precisión

es un conjunto de técnicas

orientado a optimizar el

uso de los insumos agríco-

las (semillas, agroquímicos

y correctivos) en función

de la cuantificación de la

variabilidad espacial y

temporal de la producción

agrícola (Mantovani et al.,

2007).

La observación de la exis-

tencia de variabilidad in-

tralote de las propiedades

o factores determinantes

de la producción es ya una

práctica instalada en nu-

meroso lotes debido a los

miles de monitores y equi-

pamiento de agricultura de

precisión ya en uso

(Bragachini et al., 2008).

Sin embrago con el desa-

rrollo de la tecnologías de

maquinarias de agricultura

de precisión y de sistemas

de sensores remotos a

partir de los cuales tam-

bién pueden monitorearse

Estadística y Biometría, Facultad de Ciencias Agropecuarias, Universidad Nacional de Córdoba-CONICET,

Córdoba, Argentina.

Análisis de datos en el

estudio de variabilidad

espacial intralote

Contenido:

Inicio 1

Análisis de

conglomerados

2

ACP 3

CART 3

Análisis espacial multivariado

4

Consideraciones finales

5

Bibliografía 5

Córdoba Mariano, Bruno Cecilia y Balzarini Mónica

Puntos de interés

especial:

Agricultura de Preci-

sión

Manejo sitio-

especifico

Geoestadística

Análisis multivariado

Análisis multivariado

espacial

Fuente: www.advancedcropmanagement.com/yeild.html

Inicio

rendimiento sino también de

otros factores como son tex-

tura, topografía o nivel de

nutrientes.

Los análisis tradicionales de

datos espaciales se basan en

técnicas de estadístico-

computacionales conocidas

como Geoestadística o Ge-

omática.

Los métodos geoestadísticos

surgieron a partir de los años

sesenta, especialmente en el

área de la Geología y Minería,

con el propósito de predecir

valores de las variables en

sitios no muestreados, luego

de muestrear intensivamente

sobre una grilla de puntos

sobre el área problema.

Las técnicas se basan en el

concepto de autocorrelación-

que indica la presencia de

correlaciones o similitudes

mayores entre observaciones

pertenecientes a sitios más

cercanos en el espacio.

El análisis geoestadístico

tradicional se aborda variable

a variable. Por ello, puede

resultar difícil la interpreta-

ción de la variabilidad con-

junta causadas por las rela-

ciones entre variabilidad del

rendimiento y de otras varia-

bles como podría ser propie-

dades de suelo.

Para comprender la relación

entre las variables medidas

a escala fina y los rendi-

mientos obtenidos conse-

cutivamente en una zona

del lote, se propone el uso

de técnicas multivariadas.

sitio-específicas.

Análisis de conglomerados

Se usa con el objetivo de

agrupar sitios dentro de lote

de manera tal que los sitios

en un grupo son mas pareci-

dos entre si que los sitios en

distintos grupos. Consiste en

una serie de algoritmos ma-

temáticos que realizan el

agrupamiento de las observa-

ciones basados en similitudes

o distancias multivariadas, es

decir teniendo en cuenta va-

rias variables simultáneamen-

te.

Un software basado en

el análisis de conglo-

merado, especialmente

desarrollado para la

delimitación de zonas

de manejo es el difun-

dido como MZA, por sus

siglas en inglés Mana-

gement Zone Analyst

(Fridgen et al., 2004).

El software utiliza el

algoritmo no supervisa-

do fuzzy k-means y

permite realizar si-

multáneamente varias

clasificaciones de zonas

de manejo (ZM), lue-

go, el usuario puede

seleccionar la canti-

dad de zonas para la

delimitación final

usando dos índices: 1) el

índice de desempeño del gra-

do de ambigüedad (Fuzziness

Performance Index, FPI) y 2)

entropía de clasificación nor-

Ilustración del uso de técnicas multivariadas para la

delimitación de zonas de manejo sitio-específicas

El uso de Estadística Multiva-

riado permite un mejor en-

tendimiento de cómo cambia

o varían los rendimientos

dentro de un lote en produc-

ción (variabilidad espacial).

Al analizar los datos de

manera multivariada es

posible detectar rela-

ciones o estructuras en

los datos que facilitan

la interpretación de las

complejas relaciones

que subyacen la reali-

zación de un rendi-

miento particular.

A continuación se men-

cionan algunas de las

técnicas multivariadas

que podrían ser usadas

para mejorar la inter-

pretación de datos pro-

venientes de la agri-

cultura de precisión

como son el análisis

de conglomerados o

cluster

componentes principales y

los árboles de clasificación y

regresión. Todas ellas pue-

den ser usada para la delimi-

tación de zonas de manejo

Página 2 Análisis de datos en el estudio de variabilidad espacial intralote

“La estadística

multivariada es

usada para

describir y

analizar

mediciones de

varias

variables

conjuntamente”

Mapa de rendimiento

Figura 1: Mapa de variabilidad espacial mostrando

posibles zonas de manejo sitio-específicas (círculos

azules y rojos) obtenidos a partir de un análisis de

conglomerado.

Longitud

La

titu

d

5799000

5799200

5799400

5799600

5799800

5800000

5576400 5576600 5576800 5577000 5577200

1.0

1.5

2.0

2.5

3.0

Fuente: www.agronota.com/

Noticia.php?id=159

malizada (Normalized Classi-

fication Entropy, NCE).

Fridgen et al. (2004) reco-

miendan elegir el número de

ZM que haga que los niveles

de los índices (FPI y NCE) se

minimicen.

En la Figura 1 se observa un

mapa de rendimiento con

dos zonas de manejo sugeri-

das por el MZA. Los datos

usados corresponden a 7576

sitios monitoreados en un

lote donde se registró no

solo el rendimiento de soja

(RtoSj) y trigo (RtoTg)

de una campaña agrícola

sino también la conduc-

tividad eléctrica aparente

a 30 cm (CEa30) y 90 cm

Los datos fueron gentil-

mente provistos por los

Ingenieros Costa y Pe-

ralta del EEAA INTA Bal-

carce.

Análisis de componen-

tes principales (ACP)

Esta técnica multivariada

permite identificar las

variables que explican la

mayor parte de la va-

riabilidad total conte-

nida en los datos, ex-

plorar las correlacio-

nes entre variables y

reducir la dimensión del aná-

lisis al combinar todas las

variables en nuevos índices

nados componentes princi-

pales (CP) (Balzarini et al.,

2008).

Un primer resultado del ACP

se puede visualizar en un

gráfico denominado biplot, el

cual permite representar, de

manera óptima, la variabili-

dad entre los sitios del lote y

las variables que mejor ex-

plican las principales varia-

ciones.

En la Figura 2 se presenta un

gráfico biplot generado

usando como ejes coordena-

dos a las dos primeras com-

ponentes principales (CP1 y

CP2 ). Los puntos represen-

tan los sitios monitoreados

vectores que se dibujan des-

de el origen del gráfico re-

presentan las variables.

Aquellas con vectores de

mayor proyección sobre el

eje I, son consideradas como

para explicar la variabilidad

de los datos. Dos variables se

orientan para la misma direc-

ción cuando la correlación

entre ellas es positiva y en

sentido opuesto si la correla-

ción es negativa. El Biplot de

Figura 2 muestra que donde

la CEa30 es alta, los rendi-

mientos son más bajos.

El eje 1 (CP1) siempre se

interpreta como el eje de

mayor importancia para ex-

plicar la variabilidad total de

los datos y puede ser usado

en sí mismo como una varia-

ble para mapeo de variabili-

dad espacial (Figura 3). Así el

mapa de la Figura 3 repre-

senta las principales varia-

bles simultáneamente.

Arboles de clasificación y

regresión (CART)

Los árboles de clasificación y

de regresión, conocidos co-

mo algoritmos CART (del

inglés classification and re-

gression trees; Breiman et

al., 1984), particionan de

manera binaria y recursiva al

conjunto de datos en función

de la variabilidad o heteroge-

neidad de una variable indi-

cada como respuesta, por ej.

el rendimiento, y de otras

variables indicadas co-

mo explicativas. En cada

instancia de partición el

algoritmo analiza todas

las variables explicativas

y selecciona una para

realizar la partición bi-

naria de los datos. La

seleccionada es aquella

que permite conformar

dos subgrupos de datos

homogéneos dentro del

nodo que entre nodos.

Los árboles de regresión

permiten predecir el

valor de una variable

respuestas del tipo

continuo como el ren-

dimiento medido en

pesadas. Mientras que

los árboles de clasifi-

cación predicen el valor de

una variable de clasificación

como podría ser el rendi-

miento clasificado en pobre,

medio y alto. En la Figuras 4

y 5, se representan dos árbo-

les binarios generados a par-

tir de los algoritmos CARTs

en los datos de nuestra

ejemplificación.

Roel y Plant (2004) utilizaron

éstos algoritmos para deter-

minar los factores subyacen-

tes en la distribución de los

conglomerados utilizados

para discernir los patrones

Página 3 Córdoba Mariano, Bruno Cecilia y Balzarini Mónica

“Los mapas de

variación espacial

construidos a

partir de la

primera componente

principal ponen de

manifiesto

variabilidad en

sentido

multivariado”

Figura 2: Biplot del ACP:

Variabilidad de 7.576 sitios

de un lote y correlaciones

entre conductividad eléctrica

aparente a 30 cm (CEa30) y

rendimiento de soja (RtoSj) y

de trigo (RtoTg).

-5.0 -2.5 0.0 2.5 5.0 CP 1 (34.5%)

-5.0

-2.5

0.0

2.5

5.0

CP

2 (

23.2

%)

(23

.2%

)

CEa3

CEa9

RtoSj

RtoT CEa30

CEa90

Elevación

RtoSj

RtoTg

-3.0 -2.0 -1.0 0.0 1.0 2.0 3.0 Variable de rinde

-3.0

-2.0

-1.0

0.0

1.0

2.0

3.0

Varia

ble

de

suelo

suelo

Longitud

La

titu

d

5799000

5799200

5799400

5799600

5799800

5800000

5576400 5576600 5576800 5577000 5577200

-3

-2

-1

0

1

2

3

4

Figura 3: Mapa de variabilidad espacial obtenido a

partir de la primera componente principal del ACP

espacio-temporales del ren-

dimiento de grano.

En ambos tipos de

árboles se observa la

importancia de la con-

ductividad eléctrica del

suelo en la explicación

de los rendimientos

(primera variable parti-

cionante o clasificadora

del total de sitios).

La mayoría de las

técnicas multivariadas

no han sido desarrolla-

das explícitamente para

manejar datos espacia-

les, por lo cual la com-

binación de la infor-

mación multivariada

obtenida desde cada

sitio del lote y su

posición se realiza a

posteriori

sis multivariado. Un

aspecto común a

estas técnicas multivariadas,

usualmente utilizadas en

agricultura de precisión,

es que no tienen en

cuenta las relaciones

debidas a estructuras

espaciales en el cálculo

de las zonas de manejo

sitio específicas ya que

no han sido diseñados

para detectar estas es-

tructuras espaciales. Sin

embargo existen formas

de incorporar esta infor-

mación espacial a los

métodos multivariados a

través del uso de varia-

bles sintéticas obtenidas

a partir de la combina-

ción de variables origi-

nales utilizando méto-

dos geoestadísticos

clásicos (Córdoba et

al., 2011a).

Análisis espacial multiva-

riado

En los últimos años se han

desarrollado técnicas que

permiten incorporar la infor-

mación espacial a priori. Es-

tas han sido desarrolladas en

el ámbito del análisis de da-

tos genéticos moleculares

(sPCA; Jombart et al., 2008) y

para el estudio de estructuras

espaciales en la composición

de comunidades vegetales

(MULTISPATI; Dray et al.,

2008). MULTISPATI ha sido

utilizado para la evaluación

de patrones espaciales de

propiedades de suelo a

nivel de una región

(Arrouays et al., 2011)

y recientemente para la

delimitación de zonas

de manejo a escala de

lote (Córdoba et al.,

espacial multivariado se

basa en el índice de

Moran para medir la

dependencia o correla-

ción espacial entre las

observaciones introdu-

ciendo una matriz de

pesos espaciales estan-

darizada por fila, per-

mitiendo estudiar

las relaciones entre

las variables medi-

das (análisis multi-

variado) y su estruc-

t u r a e s p a c i a l

Finalmente, a partir de las

variables sintéticas con la

información espacial incorpo-

rada a priori, se pueden

confeccionar los mapas

de variabilidad espacial

como se muestra en la

Figura 6.


“La incorporación

de la

autocorrelación

espacial a priori

permite detectar

las relaciones

subyacentes entre

las variables que

no son detectadas

cuando se tiene en

cuenta a

posteriori”

Longitud

La

titu

d

5799000

5799200

5799400

5799600

5799800

5800000

5576400 5576600 5576800 5577000 5577200

-4

-3

-2

-1

0

1

2

3

Figura 6: Mapa de variabilidad espacial obtenido a

partir de la primera componente principal del MULTIS-

PATI-PCA.

Árbol de clasificación (Izquierda)

particionando 7576 sitios de un lote

de acuerdo a la relación entre las

categorías de rendimiento de los

sitios y las variables del suelo repre-

sentada por la conductividad eléctrica

aparente a los 30 cm (ECa30) y 90 cm

(ECa90). Se muestran los valores de

umbral y la distribución de la categor-

ía de rendimiento en cada nodo

(negro: rendimiento alto, gris: rendi-

miento medio, blanco: rendimiento

bajo).

Figura 5: Arbol de regresión particionando 7576 sitios de

un lote de acuerdo a la relación entre el rendimiento de los

sitios (como variable continua) y las variables del suelo

representada por la conductividad eléctrica aparente a los

30 cm (ECa30) y 90 cm (ECa90). Se muestran los valores

de umbral y la distribución del rendimiento en cada nodo.

ECa30<=24.53 mS m-1

(n=2776)

ECa30>24.53 mS m-1

(n=4800)

EC a90<=28.78 mS m-1

(n=2293)

EC a90>28.78 mS m-1

(n=2507)

Sitios

(n=7576)

ECa30<=24.53 mS m-1

(n=2776)

ECa30<=24.53 mS m-1

(n=4800)

EC a90<=28.78 mS m-1

(n=2293)

EC a90<=28.78 mS m

-1

(n=2507)

Sitios

(n=7576)

ECa30<=24.53 mS m-1

(n=2776)

ECa30>24.53 mS m-1

(n=4800)

EC a90<=28.78 mS m-1

(n=2293)

EC a90>28.78 mS m-1

(n=2507)

Sitios

(n=7576)

ECa30<=24.53 mS m-1

(n=2776)

ECa30<=24.53 mS m-1

(n=4800)

EC a90<=28.78 mS m-1

(n=2293)

EC a90<=28.78 mS m

-1

(n=2507)

Sitios

(n=7576)

Los métodos multivariados

están siendo ampliamente

utilizados en la actualidad

debido a que se cuenta con

recursos computacionales

que permiten realizar los

mismos de manera rápida y

eficiente

Dado que los recursos

computacionales no son

una limitante, se pueden

aplicar este tipo de análisis

a grandes volúmenes de

datos como los que prove-

en las nuevas tecnologías

de la agricultura de preci-

sión en las que se miden

varias variables para un

mismo sitio en múltiples

sitios.

Los modelos geoestadísti-

cos clásicos, son modelos

paramétricos que exigen

una distribución normal de

los datos y la presencia de

un determinado nivel de

homogeneidad de varianza

entre las variables. El no

cumplimiento de estas exi-

gencias puede acarrear

problemas a la hora de

analizar los datos.

Los algoritmos multivaria-

dos flexibilizan el problema

de los supuestos plantea-

dos por los modelos pa-

ramétricos.

Existen una gran cantidad

de software estadísticos

disponibles que permiten

realizar distintos análisis

multivariados. A nivel na-

cional, existe el software

estadístico InfoStat (Di

Rienzo et al., 2011), con un

entorno amigable, para el

cual existe una versión

gratuita con las mismas

prestaciones que la versión

profesional y se encuentra

d i s p o n i b l e e n

www.infostat.com.ar. Tam-

bién es posible utilizar el

s o f t w a r e l i b r e R

(www.cran.r-project.org),

pero en éste caso, es nece-

sario contar con un cierto

entrenamiento en progra-

mación.

La generación de mapas a

partir de los resultados

obtenidos de los análisis

multivariados es posible

realizarla con técnicas geo-

estadísticas clásicas. Para

ello existen librerías en R

como gstat o geoR. Tam-

bién se pueden utilizar

diferentes software comer-

ciales como Surfer, Idrisi o

ArcGis, por nombrar algu-

nos, los cuales ofrecen

diferentes módulos para

análisis geoestadísticos.

Algunos resultados en al

análisis de datos de agri-

cultura de precisión han

demostrado que la incor-

poración de la autocorrela-

ción espacial a priori per-

mite detectar las relaciones

subyacentes entre las va-

riables que no son detecta-

das cuando se tiene en

cuenta a poster ior i

et al., 2011b).

Actualmente, los datos

georreferenciados son ana-

lizados con modelos es-

tadísticos contemporáneos

como los modelos lineales

mixtos (MLM) capaces de

contemplar las correlacio-

nes producidas por la va-

riación espacial (Balzarini et

al., 2002; Schabenberger y

Pierce, 2002; Casanoves et

al., 2005; Gili et al., 2011).

Estos modelos constituyen

herramientas prometedoras

para el tratamiento de da-

tos correlacionados espa-

cialmente.

Balzarini, M.G., González, L., Tablada, M., Casanoves, F., Di Rienzo, J.A., Roble-do, C.W., 2008. Manual del Usuario. Brujas, Córdoba, Argentina.

Bragachini, M., Mendez, A., Scaramuzza, F. 2008. Monitor de Rendimiento y Conocimientos de Calibración. Disponible en Internet: http://www.agriculturadeprecision.org/Activo mayo 2011

Breiman, L., Friedman, J.H., Olshen, R.A., Stone, C.J., 1984. Classification and regression trees. Chap-

Arrouays, D., Saby, N.P.A., Thioulouse, J., Jolivet, C., Boulonne, L., Ratié, C., 2011. Large trends in French topsoil characte-ristics are revealed by spatially constrained multivariate analysis. Geoderma, 161, 107114.

Balzarini, M., 2002. Applica-tions of Mixed Models in Plant Breeding. In: Quan-titative Genetics, Geno-mics, and Plant Breeding. M. S. Kang (ed.). CABI Publishing, U.K., pp. 353365.

man and Hall, New York. Casanoves, F., Macchiavelli,

R., Balzarini, M., 2005. Error variation in multi-environment peanut trials: within-trial spatial correlation and between-trial heterogeneity. Crop Science 45, 1927 1933.

Córdoba, M., Bruno, C., Cos-ta, J., Balzarini, M., 2011a. Identifying homo-geneous zones in crop-ping fields via multivaria-te algorithms. Comp. Electron. Agric. In Review.

Córdoba, M., Bruno, C., Cos-ta, J., Balzarini, M.,

Consideraciones finales

Bibliografía

Página 5 Córdoba Mariano, Bruno Cecilia y Balzarini Mónica

"Biometry, the

active pursuit

of biological

knowledge by

quantitative

methods." R.A.

Fisher.

Dirección postal:

Cátedra de Estadística y Biometría, Facultad de

Ciencias Agropecuarias. UNC. CP 5000. CC 509

Av. Valparaiso s/n- Ciudad Universitaria.

Córdoba, Argentina.

Teléfono: +54 351 4334103 ext 219 fax: Fax: +54 351 4334118 ext 114

zonas de manejo sitio-específicas. 40º Jornadas Argentinas de Informáti-ca, 3º Congreso Argenti-no de AgroInformática. Córdoba.

Corwin, D.L., Lesch, S.M., 2010. Delineating Site-Specific Management Units with Proximal Sen-sors. In: Geostatistical Applications for Precision Agriculture. Oliver M.O. (ed), Springer, Nether-lands, pp.139 165.

Di Rienzo, J.A., Casanoves, F., Balzarini, M.G., Gonzalez, L., Tablada, M., Robledo, C.W., InfoStat versión 2011. Grupo. InfoStat, FCA, Universidad Nacional de Córdoba, Argentina. URL http://www.infostat.com.ar.

Dray, S., Said, S., Debias, F., 2008. Spatial ordination of vegetation data using a generalization of Warten-berg's multivariate spatial correlation. J. Veg. Sci. 19,45 56.

Fridgen, J.J., Kitchen, N.R., Sudduth, K.A., Drum-mond, S.T., Wiebold, W.J., Fraisse, C.W., 2004. Ma-nagement Zone Analyst (MZA): Software for Sub-

field Management Zone Delineation. Agron. J. 96,100 108.

Gili., A.A., Noellemeyer, E.J., Balzarini, M., 2011. Hie-rarchical Linear Mixed Models in multi-stage sampling soil stdies. J. Agric. Biol. Envir. S. In Press.

Jombart, T., Devillard, S., Dufour, A.B., Pontier, D., 2008. Revealing cryptic spatial patterns in genetic variability by a new multi-variate method. Heredity 101, 92 103.

Mantovani, E.C., Carvalho Pinto, F.A., Marçal de Queiro D., 2007. Intro-ducción a la agricultura de precisión. En: Agricul-tura de Precisión: Inte-grando conocimientos para una agricultura mo-derna y sustentable. Bon-giovanni R., Mantovani E.C., Best, S., Roel, A. (ed.), PROCISUR/IICA. Montevideo, Uruguay, pp. 15 22.

Roel, A., Plant, R., 2004. Fac-tors underlying yield va-riability in two California rice fields. Agron. J. 96, 1481 1494.

Schabenberger, O., Pierce F.J., 2002. Contemporary sta-tistical models for the

plant and soil sciences. Taylor and Francis. CRC Press, Boca Raton, Florida.


Los autores agradecen espe-

cialmente a los Ing. Agr. José

Luis Costa y Nahuel Peralta, de

la EEA INTA Balcarce por pro-

veer los datos a partir de los

cuales se ilustraron las técnicas

de análisis multivariadas pre-

sentadas.

Datos de Contacto: Ing. Agr. Mariano Córdoba. Profesor Ayudante, Cátedra de Estadística y Biometría. Becario CONICET. Correo electrónico: [email protected]

http://www.infostat.com.ar

http://www.infostat.com.ar

Documents

Análisis de datos en el estudio de variabilidad espacial ... · nejo de la varia-bilidad espacial y temporal dentro de los lotes en producción. Conocer la varia-bilidad espacial