Upload
vodien
View
220
Download
0
Embed Size (px)
Citation preview
los cultivos a escala fina,
se genera un gran volumen
de datos que presenta un
interesante desafío respec-
to al desarrollo de técnicas
Estadística y de Computa-
ción para su análisis.
El óptimo uso de esta
información depende
fuertemente de las capa-
cidades para
explorar los
datos que se
obtienen.
La capacidad
de contar con
in fo rmac ión
de una gran
cantidad de
sitios dentro
de un mismo
lote en pro-
ducción no
sólo para
variables de
cultivo sino
también para
otras como
son las topográficas y las
de suelo, genera datos con
estructuras particulares,
disponiendo de datos es-
paciales (con localización
en el espacio) y multivaria-
dos (más de una variable
por sitio).
El manejo sitio-específico
demanda el uso de infor-
mación acerca de la varia-
bilidad espacio-temporal
presente en los lotes de
manera de delimitar zonas
que expresan una combi-
nación relat ivamente
homogénea no sólo del
La agricultura mundial
enfrenta el desafío cons-
tante de aumentar la pro-
ducción agrícola en res-
puesta a la creciente de-
manda alimentaria de la
población. Con el objetivo
de producir alimentos de
manera eficaz pero con-
servando el medio am-
biente, la agricultura sos-
tenible surge
como el único
medio de pro-
ducción de ali-
mentos para el
futuro.
La agricultura de
precisión tiene
como objetivo el
monitoreo y ma-
nejo de la varia-
bilidad espacial y
temporal dentro
de los lotes en
producción.
Conocer la varia-
bilidad espacial y
cómo ésta se mantiene o
cambia con los años, per-
mite ajustar prácticas de
manejo agronómico a las
necesidades del cultivo,
reducir el impacto ambien-
tal y aumentar la competi-
tividad del sistema pro-
ductivo a través de un uso
eficiente de los insumos.
Bajo este enfoque la agri-
cultura de precisión surge
como una alternativa pro-
metedora para favorecer
una agricultura sostenible
(Corwin y Lesch, 2010).
La agricultura de precisión
es un conjunto de técnicas
orientado a optimizar el
uso de los insumos agríco-
las (semillas, agroquímicos
y correctivos) en función
de la cuantificación de la
variabilidad espacial y
temporal de la producción
agrícola (Mantovani et al.,
2007).
La observación de la exis-
tencia de variabilidad in-
tralote de las propiedades
o factores determinantes
de la producción es ya una
práctica instalada en nu-
meroso lotes debido a los
miles de monitores y equi-
pamiento de agricultura de
precisión ya en uso
(Bragachini et al., 2008).
Sin embrago con el desa-
rrollo de la tecnologías de
maquinarias de agricultura
de precisión y de sistemas
de sensores remotos a
partir de los cuales tam-
bién pueden monitorearse
Estadística y Biometría, Facultad de Ciencias Agropecuarias, Universidad Nacional de Córdoba-CONICET,
Córdoba, Argentina.
Análisis de datos en el
estudio de variabilidad
espacial intralote
Contenido:
Inicio 1
Análisis de
conglomerados
2
ACP 3
CART 3
Análisis espacial multivariado
4
Consideraciones finales
5
Bibliografía 5
Córdoba Mariano, Bruno Cecilia y Balzarini Mónica
Puntos de interés
especial:
Agricultura de Preci-
sión
Manejo sitio-
especifico
Geoestadística
Análisis multivariado
Análisis multivariado
espacial
Fuente: www.advancedcropmanagement.com/yeild.html
Inicio
rendimiento sino también de
otros factores como son tex-
tura, topografía o nivel de
nutrientes.
Los análisis tradicionales de
datos espaciales se basan en
técnicas de estadístico-
computacionales conocidas
como Geoestadística o Ge-
omática.
Los métodos geoestadísticos
surgieron a partir de los años
sesenta, especialmente en el
área de la Geología y Minería,
con el propósito de predecir
valores de las variables en
sitios no muestreados, luego
de muestrear intensivamente
sobre una grilla de puntos
sobre el área problema.
Las técnicas se basan en el
concepto de autocorrelación-
que indica la presencia de
correlaciones o similitudes
mayores entre observaciones
pertenecientes a sitios más
cercanos en el espacio.
El análisis geoestadístico
tradicional se aborda variable
a variable. Por ello, puede
resultar difícil la interpreta-
ción de la variabilidad con-
junta causadas por las rela-
ciones entre variabilidad del
rendimiento y de otras varia-
bles como podría ser propie-
dades de suelo.
Para comprender la relación
entre las variables medidas
a escala fina y los rendi-
mientos obtenidos conse-
cutivamente en una zona
del lote, se propone el uso
de técnicas multivariadas.
sitio-específicas.
Análisis de conglomerados
Se usa con el objetivo de
agrupar sitios dentro de lote
de manera tal que los sitios
en un grupo son mas pareci-
dos entre si que los sitios en
distintos grupos. Consiste en
una serie de algoritmos ma-
temáticos que realizan el
agrupamiento de las observa-
ciones basados en similitudes
o distancias multivariadas, es
decir teniendo en cuenta va-
rias variables simultáneamen-
te.
Un software basado en
el análisis de conglo-
merado, especialmente
desarrollado para la
delimitación de zonas
de manejo es el difun-
dido como MZA, por sus
siglas en inglés Mana-
gement Zone Analyst
(Fridgen et al., 2004).
El software utiliza el
algoritmo no supervisa-
do fuzzy k-means y
permite realizar si-
multáneamente varias
clasificaciones de zonas
de manejo (ZM), lue-
go, el usuario puede
seleccionar la canti-
dad de zonas para la
delimitación final
usando dos índices: 1) el
índice de desempeño del gra-
do de ambigüedad (Fuzziness
Performance Index, FPI) y 2)
entropía de clasificación nor-
Ilustración del uso de técnicas multivariadas para la
delimitación de zonas de manejo sitio-específicas
El uso de Estadística Multiva-
riado permite un mejor en-
tendimiento de cómo cambia
o varían los rendimientos
dentro de un lote en produc-
ción (variabilidad espacial).
Al analizar los datos de
manera multivariada es
posible detectar rela-
ciones o estructuras en
los datos que facilitan
la interpretación de las
complejas relaciones
que subyacen la reali-
zación de un rendi-
miento particular.
A continuación se men-
cionan algunas de las
técnicas multivariadas
que podrían ser usadas
para mejorar la inter-
pretación de datos pro-
venientes de la agri-
cultura de precisión
como son el análisis
de conglomerados o
cluster
componentes principales y
los árboles de clasificación y
regresión. Todas ellas pue-
den ser usada para la delimi-
tación de zonas de manejo
Página 2 Análisis de datos en el estudio de variabilidad espacial intralote
“La estadística
multivariada es
usada para
describir y
analizar
mediciones de
varias
variables
conjuntamente”
Mapa de rendimiento
Figura 1: Mapa de variabilidad espacial mostrando
posibles zonas de manejo sitio-específicas (círculos
azules y rojos) obtenidos a partir de un análisis de
conglomerado.
Longitud
La
titu
d
5799000
5799200
5799400
5799600
5799800
5800000
5576400 5576600 5576800 5577000 5577200
1.0
1.5
2.0
2.5
3.0
Fuente: www.agronota.com/
Noticia.php?id=159
malizada (Normalized Classi-
fication Entropy, NCE).
Fridgen et al. (2004) reco-
miendan elegir el número de
ZM que haga que los niveles
de los índices (FPI y NCE) se
minimicen.
En la Figura 1 se observa un
mapa de rendimiento con
dos zonas de manejo sugeri-
das por el MZA. Los datos
usados corresponden a 7576
sitios monitoreados en un
lote donde se registró no
solo el rendimiento de soja
(RtoSj) y trigo (RtoTg)
de una campaña agrícola
sino también la conduc-
tividad eléctrica aparente
a 30 cm (CEa30) y 90 cm
Los datos fueron gentil-
mente provistos por los
Ingenieros Costa y Pe-
ralta del EEAA INTA Bal-
carce.
Análisis de componen-
tes principales (ACP)
Esta técnica multivariada
permite identificar las
variables que explican la
mayor parte de la va-
riabilidad total conte-
nida en los datos, ex-
plorar las correlacio-
nes entre variables y
reducir la dimensión del aná-
lisis al combinar todas las
variables en nuevos índices
nados componentes princi-
pales (CP) (Balzarini et al.,
2008).
Un primer resultado del ACP
se puede visualizar en un
gráfico denominado biplot, el
cual permite representar, de
manera óptima, la variabili-
dad entre los sitios del lote y
las variables que mejor ex-
plican las principales varia-
ciones.
En la Figura 2 se presenta un
gráfico biplot generado
usando como ejes coordena-
dos a las dos primeras com-
ponentes principales (CP1 y
CP2 ). Los puntos represen-
tan los sitios monitoreados
vectores que se dibujan des-
de el origen del gráfico re-
presentan las variables.
Aquellas con vectores de
mayor proyección sobre el
eje I, son consideradas como
para explicar la variabilidad
de los datos. Dos variables se
orientan para la misma direc-
ción cuando la correlación
entre ellas es positiva y en
sentido opuesto si la correla-
ción es negativa. El Biplot de
Figura 2 muestra que donde
la CEa30 es alta, los rendi-
mientos son más bajos.
El eje 1 (CP1) siempre se
interpreta como el eje de
mayor importancia para ex-
plicar la variabilidad total de
los datos y puede ser usado
en sí mismo como una varia-
ble para mapeo de variabili-
dad espacial (Figura 3). Así el
mapa de la Figura 3 repre-
senta las principales varia-
bles simultáneamente.
Arboles de clasificación y
regresión (CART)
Los árboles de clasificación y
de regresión, conocidos co-
mo algoritmos CART (del
inglés classification and re-
gression trees; Breiman et
al., 1984), particionan de
manera binaria y recursiva al
conjunto de datos en función
de la variabilidad o heteroge-
neidad de una variable indi-
cada como respuesta, por ej.
el rendimiento, y de otras
variables indicadas co-
mo explicativas. En cada
instancia de partición el
algoritmo analiza todas
las variables explicativas
y selecciona una para
realizar la partición bi-
naria de los datos. La
seleccionada es aquella
que permite conformar
dos subgrupos de datos
homogéneos dentro del
nodo que entre nodos.
Los árboles de regresión
permiten predecir el
valor de una variable
respuestas del tipo
continuo como el ren-
dimiento medido en
pesadas. Mientras que
los árboles de clasifi-
cación predicen el valor de
una variable de clasificación
como podría ser el rendi-
miento clasificado en pobre,
medio y alto. En la Figuras 4
y 5, se representan dos árbo-
les binarios generados a par-
tir de los algoritmos CARTs
en los datos de nuestra
ejemplificación.
Roel y Plant (2004) utilizaron
éstos algoritmos para deter-
minar los factores subyacen-
tes en la distribución de los
conglomerados utilizados
para discernir los patrones
Página 3 Córdoba Mariano, Bruno Cecilia y Balzarini Mónica
“Los mapas de
variación espacial
construidos a
partir de la
primera componente
principal ponen de
manifiesto
variabilidad en
sentido
multivariado”
Figura 2: Biplot del ACP:
Variabilidad de 7.576 sitios
de un lote y correlaciones
entre conductividad eléctrica
aparente a 30 cm (CEa30) y
rendimiento de soja (RtoSj) y
de trigo (RtoTg).
-5.0 -2.5 0.0 2.5 5.0 CP 1 (34.5%)
-5.0
-2.5
0.0
2.5
5.0
CP
2 (
23.2
%)
(23
.2%
)
CEa3
CEa9
RtoSj
RtoT CEa30
CEa90
Elevación
RtoSj
RtoTg
-3.0 -2.0 -1.0 0.0 1.0 2.0 3.0 Variable de rinde
-3.0
-2.0
-1.0
0.0
1.0
2.0
3.0
Varia
ble
de
suelo
suelo
Longitud
La
titu
d
5799000
5799200
5799400
5799600
5799800
5800000
5576400 5576600 5576800 5577000 5577200
-3
-2
-1
0
1
2
3
4
Figura 3: Mapa de variabilidad espacial obtenido a
partir de la primera componente principal del ACP
espacio-temporales del ren-
dimiento de grano.
En ambos tipos de
árboles se observa la
importancia de la con-
ductividad eléctrica del
suelo en la explicación
de los rendimientos
(primera variable parti-
cionante o clasificadora
del total de sitios).
La mayoría de las
técnicas multivariadas
no han sido desarrolla-
das explícitamente para
manejar datos espacia-
les, por lo cual la com-
binación de la infor-
mación multivariada
obtenida desde cada
sitio del lote y su
posición se realiza a
posteriori
sis multivariado. Un
aspecto común a
estas técnicas multivariadas,
usualmente utilizadas en
agricultura de precisión,
es que no tienen en
cuenta las relaciones
debidas a estructuras
espaciales en el cálculo
de las zonas de manejo
sitio específicas ya que
no han sido diseñados
para detectar estas es-
tructuras espaciales. Sin
embargo existen formas
de incorporar esta infor-
mación espacial a los
métodos multivariados a
través del uso de varia-
bles sintéticas obtenidas
a partir de la combina-
ción de variables origi-
nales utilizando méto-
dos geoestadísticos
clásicos (Córdoba et
al., 2011a).
Análisis espacial multiva-
riado
En los últimos años se han
desarrollado técnicas que
permiten incorporar la infor-
mación espacial a priori. Es-
tas han sido desarrolladas en
el ámbito del análisis de da-
tos genéticos moleculares
(sPCA; Jombart et al., 2008) y
para el estudio de estructuras
espaciales en la composición
de comunidades vegetales
(MULTISPATI; Dray et al.,
2008). MULTISPATI ha sido
utilizado para la evaluación
de patrones espaciales de
propiedades de suelo a
nivel de una región
(Arrouays et al., 2011)
y recientemente para la
delimitación de zonas
de manejo a escala de
lote (Córdoba et al.,
espacial multivariado se
basa en el índice de
Moran para medir la
dependencia o correla-
ción espacial entre las
observaciones introdu-
ciendo una matriz de
pesos espaciales estan-
darizada por fila, per-
mitiendo estudiar
las relaciones entre
las variables medi-
das (análisis multi-
variado) y su estruc-
t u r a e s p a c i a l
Finalmente, a partir de las
variables sintéticas con la
información espacial incorpo-
rada a priori, se pueden
confeccionar los mapas
de variabilidad espacial
como se muestra en la
Figura 6.
Página 4 Análisis de datos en el estudio de variabilidad espacial intralote
“La incorporación
de la
autocorrelación
espacial a priori
permite detectar
las relaciones
subyacentes entre
las variables que
no son detectadas
cuando se tiene en
cuenta a
posteriori”
Longitud
La
titu
d
5799000
5799200
5799400
5799600
5799800
5800000
5576400 5576600 5576800 5577000 5577200
-4
-3
-2
-1
0
1
2
3
Figura 6: Mapa de variabilidad espacial obtenido a
partir de la primera componente principal del MULTIS-
PATI-PCA.
Árbol de clasificación (Izquierda)
particionando 7576 sitios de un lote
de acuerdo a la relación entre las
categorías de rendimiento de los
sitios y las variables del suelo repre-
sentada por la conductividad eléctrica
aparente a los 30 cm (ECa30) y 90 cm
(ECa90). Se muestran los valores de
umbral y la distribución de la categor-
ía de rendimiento en cada nodo
(negro: rendimiento alto, gris: rendi-
miento medio, blanco: rendimiento
bajo).
Figura 5: Arbol de regresión particionando 7576 sitios de
un lote de acuerdo a la relación entre el rendimiento de los
sitios (como variable continua) y las variables del suelo
representada por la conductividad eléctrica aparente a los
30 cm (ECa30) y 90 cm (ECa90). Se muestran los valores
de umbral y la distribución del rendimiento en cada nodo.
ECa30<=24.53 mS m-1
(n=2776)
ECa30>24.53 mS m-1
(n=4800)
EC a90<=28.78 mS m-1
(n=2293)
EC a90>28.78 mS m-1
(n=2507)
Sitios
(n=7576)
ECa30<=24.53 mS m-1
(n=2776)
ECa30<=24.53 mS m-1
(n=4800)
EC a90<=28.78 mS m-1
(n=2293)
EC a90<=28.78 mS m
-1
(n=2507)
Sitios
(n=7576)
ECa30<=24.53 mS m-1
(n=2776)
ECa30>24.53 mS m-1
(n=4800)
EC a90<=28.78 mS m-1
(n=2293)
EC a90>28.78 mS m-1
(n=2507)
Sitios
(n=7576)
ECa30<=24.53 mS m-1
(n=2776)
ECa30<=24.53 mS m-1
(n=4800)
EC a90<=28.78 mS m-1
(n=2293)
EC a90<=28.78 mS m
-1
(n=2507)
Sitios
(n=7576)
Los métodos multivariados
están siendo ampliamente
utilizados en la actualidad
debido a que se cuenta con
recursos computacionales
que permiten realizar los
mismos de manera rápida y
eficiente
Dado que los recursos
computacionales no son
una limitante, se pueden
aplicar este tipo de análisis
a grandes volúmenes de
datos como los que prove-
en las nuevas tecnologías
de la agricultura de preci-
sión en las que se miden
varias variables para un
mismo sitio en múltiples
sitios.
Los modelos geoestadísti-
cos clásicos, son modelos
paramétricos que exigen
una distribución normal de
los datos y la presencia de
un determinado nivel de
homogeneidad de varianza
entre las variables. El no
cumplimiento de estas exi-
gencias puede acarrear
problemas a la hora de
analizar los datos.
Los algoritmos multivaria-
dos flexibilizan el problema
de los supuestos plantea-
dos por los modelos pa-
ramétricos.
Existen una gran cantidad
de software estadísticos
disponibles que permiten
realizar distintos análisis
multivariados. A nivel na-
cional, existe el software
estadístico InfoStat (Di
Rienzo et al., 2011), con un
entorno amigable, para el
cual existe una versión
gratuita con las mismas
prestaciones que la versión
profesional y se encuentra
d i s p o n i b l e e n
www.infostat.com.ar. Tam-
bién es posible utilizar el
s o f t w a r e l i b r e R
(www.cran.r-project.org),
pero en éste caso, es nece-
sario contar con un cierto
entrenamiento en progra-
mación.
La generación de mapas a
partir de los resultados
obtenidos de los análisis
multivariados es posible
realizarla con técnicas geo-
estadísticas clásicas. Para
ello existen librerías en R
como gstat o geoR. Tam-
bién se pueden utilizar
diferentes software comer-
ciales como Surfer, Idrisi o
ArcGis, por nombrar algu-
nos, los cuales ofrecen
diferentes módulos para
análisis geoestadísticos.
Algunos resultados en al
análisis de datos de agri-
cultura de precisión han
demostrado que la incor-
poración de la autocorrela-
ción espacial a priori per-
mite detectar las relaciones
subyacentes entre las va-
riables que no son detecta-
das cuando se tiene en
cuenta a poster ior i
et al., 2011b).
Actualmente, los datos
georreferenciados son ana-
lizados con modelos es-
tadísticos contemporáneos
como los modelos lineales
mixtos (MLM) capaces de
contemplar las correlacio-
nes producidas por la va-
riación espacial (Balzarini et
al., 2002; Schabenberger y
Pierce, 2002; Casanoves et
al., 2005; Gili et al., 2011).
Estos modelos constituyen
herramientas prometedoras
para el tratamiento de da-
tos correlacionados espa-
cialmente.
Balzarini, M.G., González, L., Tablada, M., Casanoves, F., Di Rienzo, J.A., Roble-do, C.W., 2008. Manual del Usuario. Brujas, Córdoba, Argentina.
Bragachini, M., Mendez, A., Scaramuzza, F. 2008. Monitor de Rendimiento y Conocimientos de Calibración. Disponible en Internet: http://www.agriculturadeprecision.org/Activo mayo 2011
Breiman, L., Friedman, J.H., Olshen, R.A., Stone, C.J., 1984. Classification and regression trees. Chap-
Arrouays, D., Saby, N.P.A., Thioulouse, J., Jolivet, C., Boulonne, L., Ratié, C., 2011. Large trends in French topsoil characte-ristics are revealed by spatially constrained multivariate analysis. Geoderma, 161, 107114.
Balzarini, M., 2002. Applica-tions of Mixed Models in Plant Breeding. In: Quan-titative Genetics, Geno-mics, and Plant Breeding. M. S. Kang (ed.). CABI Publishing, U.K., pp. 353365.
man and Hall, New York. Casanoves, F., Macchiavelli,
R., Balzarini, M., 2005. Error variation in multi-environment peanut trials: within-trial spatial correlation and between-trial heterogeneity. Crop Science 45, 1927 1933.
Córdoba, M., Bruno, C., Cos-ta, J., Balzarini, M., 2011a. Identifying homo-geneous zones in crop-ping fields via multivaria-te algorithms. Comp. Electron. Agric. In Review.
Córdoba, M., Bruno, C., Cos-ta, J., Balzarini, M.,
Consideraciones finales
Bibliografía
Página 5 Córdoba Mariano, Bruno Cecilia y Balzarini Mónica
"Biometry, the
active pursuit
of biological
knowledge by
quantitative
methods." R.A.
Fisher.
Dirección postal:
Cátedra de Estadística y Biometría, Facultad de
Ciencias Agropecuarias. UNC. CP 5000. CC 509
Av. Valparaiso s/n- Ciudad Universitaria.
Córdoba, Argentina.
Teléfono: +54 351 4334103 ext 219 fax: Fax: +54 351 4334118 ext 114
zonas de manejo sitio-específicas. 40º Jornadas Argentinas de Informáti-ca, 3º Congreso Argenti-no de AgroInformática. Córdoba.
Corwin, D.L., Lesch, S.M., 2010. Delineating Site-Specific Management Units with Proximal Sen-sors. In: Geostatistical Applications for Precision Agriculture. Oliver M.O. (ed), Springer, Nether-lands, pp.139 165.
Di Rienzo, J.A., Casanoves, F., Balzarini, M.G., Gonzalez, L., Tablada, M., Robledo, C.W., InfoStat versión 2011. Grupo. InfoStat, FCA, Universidad Nacional de Córdoba, Argentina. URL http://www.infostat.com.ar.
Dray, S., Said, S., Debias, F., 2008. Spatial ordination of vegetation data using a generalization of Warten-berg's multivariate spatial correlation. J. Veg. Sci. 19,45 56.
Fridgen, J.J., Kitchen, N.R., Sudduth, K.A., Drum-mond, S.T., Wiebold, W.J., Fraisse, C.W., 2004. Ma-nagement Zone Analyst (MZA): Software for Sub-
field Management Zone Delineation. Agron. J. 96,100 108.
Gili., A.A., Noellemeyer, E.J., Balzarini, M., 2011. Hie-rarchical Linear Mixed Models in multi-stage sampling soil stdies. J. Agric. Biol. Envir. S. In Press.
Jombart, T., Devillard, S., Dufour, A.B., Pontier, D., 2008. Revealing cryptic spatial patterns in genetic variability by a new multi-variate method. Heredity 101, 92 103.
Mantovani, E.C., Carvalho Pinto, F.A., Marçal de Queiro D., 2007. Intro-ducción a la agricultura de precisión. En: Agricul-tura de Precisión: Inte-grando conocimientos para una agricultura mo-derna y sustentable. Bon-giovanni R., Mantovani E.C., Best, S., Roel, A. (ed.), PROCISUR/IICA. Montevideo, Uruguay, pp. 15 22.
Roel, A., Plant, R., 2004. Fac-tors underlying yield va-riability in two California rice fields. Agron. J. 96, 1481 1494.
Schabenberger, O., Pierce F.J., 2002. Contemporary sta-tistical models for the
plant and soil sciences. Taylor and Francis. CRC Press, Boca Raton, Florida.
Página 6 Análisis de datos en el estudio de variabilidad espacial intralote
Los autores agradecen espe-
cialmente a los Ing. Agr. José
Luis Costa y Nahuel Peralta, de
la EEA INTA Balcarce por pro-
veer los datos a partir de los
cuales se ilustraron las técnicas
de análisis multivariadas pre-
sentadas.
Datos de Contacto: Ing. Agr. Mariano Córdoba. Profesor Ayudante, Cátedra de Estadística y Biometría. Becario CONICET. Correo electrónico: [email protected]