Upload
others
View
5
Download
0
Embed Size (px)
Citation preview
Implementación del método máquinas de soporte vectorial en bases de datos espaciales para
análisis de clasificación supervisada en imágenes de sensores remotos
Raúl Alejandro Murillo Castañeda
Universidad Distrital Francisco José de Caldas
Facultad de ingeniería, Maestría en Ciencias de la Información y las Comunicaciones
Bogotá, Colombia
2018
Implementación del método máquinas de soporte vectorial en bases de datos espaciales para
análisis de clasificación supervisada en imágenes de sensores remotos
Raúl Alejandro Murillo Castañeda
Tesis presentada como requisito parcial para optar al título de:
Magister en Ciencias de la Información y las Comunicaciones
Director:
Álvaro Enrique Ortiz Dávila. Msc
Línea de Investigación:
Geomática
Grupo de Investigación:
Núcleo de Investigación en Datos Espaciales (NIDE)
Universidad Distrital Francisco José de Caldas
Facultad de ingeniería, Maestría en Ciencias de la Información y las Comunicaciones
Bogotá, Colombia
2018
La preocupación por el hombre y su destino
siempre debe ser el interés primordial de todo
esfuerzo técnico. Nunca olvides esto entre tus
diagramas y ecuaciones.
Albert Einstein
Resumen y Abstract VII
Resumen
El presente proyecto está orientado a la implementación de un método de clasificación
supervisada sobre imágenes provenientes sensores remotos ya sean activos o pasivos
almacenadas en una base de datos espacial de tipo relacional que permita contribuir a la
clasificación de imágenes, según parámetros de normalidad y anormalidad donde se
consiga además almacenar estos resultados dentro del mismo sistema manejador de
bases de datos.
Dado que el algoritmo de clasificación supervisada Máquinas de Soporte Vectorial (MSV)
es ampliamente aceptado por la comunidad científica como una de las mejores técnicas
de clasificación, ya que permite tener una muy buena exactitud en el diagnóstico de las
diferentes coberturas presentes en el suelo, puesto que busca no solo encontrar una
disociación entre estas, sino lograr una separación entre los elementos a clasificar, se
implementará como técnica de clasificación para el proyecto.
La aplicación está diseñada para el usuario final, que permita no sólo obtener un apoyo y
sustento al momento de tomar decisiones, sino que facilite la actualización de la base de
datos, la inclusión o la eliminación de información de la misma, así como la posibilidad de
elegir las características principales que se deban tener en cuenta durante el proceso de
clasificación. Esta utilidad es de gran valor, ya que al trabajar con imágenes de
características similares, la posibilidad de establecer rangos de disociación o pesos a las
diferentes coberturas afecta directamente el resultado que se espera obtener.
Finalmente se presentará un caso de estudio relacionado con la deforestación de la
amazonia colombiana donde se demostrará la utilidad de la aplicación por medio de una
clasificación supervisada la cual será comparada con el módulo de clasificación de
algunos software que la implementan en la actualidad.
Palabras clave: Máquinas de soporte vectorial, coberturas, imágenes raster,
clasificación, base de datos espacial.
VII
I
Implementación del método máquinas de soporte vectorial en bases de datos
espaciales para análisis de clasificación supervisada en imágenes de sensores
remotos
Abstract
The present project is oriented to the implementation of a supervised classification
method on images from remote sensors stored in a spatial database that allows
contributing to the diagnosis of image classification, according to parameters of normality
and abnormality where it is also possible to store these results within the same database
manager system.
Given that the supervised classification algorithm Vector Support Machines (MSV) is
widely accepted as one of the best classification techniques because it allows to have a
very good accuracy in the diagnosis of the different coverages present in the ground,
since it seeks not only to find a dissociation between these, but to achieve a separation
between the elements to be classified, will be implemented as a classification technique
for the pilot project to be carried out.
The application will be designed for the end user, which allows not only to obtain support
and sustenance when making decisions, but also to facilitate the updating of the
database, the inclusion or elimination of information from it, as well as the possibility to
choose the main characteristics that must be taken into account during the classification
process. This utility is of great value, since when working with images of similar
characteristics, the possibility of establishing dissociation ranges or weights to the
different coverages directly affects the expected result.
Finally, a case study related to the deforestation of the Colombian Amazon will be
presented, where the usefulness of the application will be demonstrated through a
supervised classification which will be compared with the classification module of some
software that implements it at present.
Keywords: Vector support machines, coverages, raster images, classification, spatial
database.
Contenido IX
NOTA DE ACEPTACIÓN
Nota de aceptación
_________________________________________
_________________________________________
_________________________________________
_________________________________________
_________________________________________
_________________________________________
_________________________________________
_________________________________________
_________________________________________
_________________________________________
_________________________________________
Director
_________________________________________
Jurado
_________________________________________
Jurado
Contenido XI
Contenido
Pág.
Resumen ........................................................................................................................ VII
Lista de figuras ............................................................................................................ XIV
Lista de tablas ............................................................................................................. XVI
Introducción .................................................................................................................... 1
Justificación .................................................................................................................... 3
Objetivos .......................................................................................................................... 5 Objetivo General. ....................................................................................................... 5 Objetivos específicos ................................................................................................. 5
Problema de investigación ............................................................................................. 6
1. Teledetección ........................................................................................................... 9 1.1 Definición de teledetección .............................................................................. 9 1.2 Historia de la teledetección ............................................................................ 10 1.3 Elementos Básicos de la Teledetección ......................................................... 14 1.4 Características de las imágenes obtenidas por sensores remotos ................. 15
1.4.1 Imágenes de sensores remotos .......................................................... 15 1.4.2 Resolución de las imágenes de sensores remotos .............................. 17 1.4.3 Errores en la captación de las imágenes de sensores remotos ........... 19 1.4.4 Satélites Landsat ................................................................................. 20 1.4.5 Combinación de imágenes verdadero color ........................................ 22 1.4.6 Combinación de imágenes falso color ................................................. 23 1.4.7 Índice de Factor Optimo OIF ............................................................... 24
1.5 Clasificación de imágenes ............................................................................. 25 1.5.1 Clasificación supervisada y no supervisada de imágenes ................... 25 1.5.2 Algoritmos de clasificación supervisada de imágenes ......................... 28 1.5.3 Algoritmos de clasificación no supervisada de imágenes .................... 28
1.6 Máquinas de Soporte Vectorial (MSV) ........................................................... 29 1.6.1 Funciones de decisión dentro de las MSV ........................................... 30 1.6.2 Clasificación linealmente separable .................................................... 31 1.6.3 Clasificación linealmente no separable ............................................... 34 1.6.4 Kernels ................................................................................................ 35
1.7 Indicadores de calidad de los clasificadores .................................................. 37 1.8 Bases de Datos Espaciales ........................................................................... 38
XII Implementación del método máquinas de soporte vectorial en bases de datos
espaciales para análisis de clasificación supervisada en imágenes de sensores
remotos
1.8.1 Características .....................................................................................38 1.8.2 Sistema de Gestión de Base de Datos SGBD......................................39 1.8.3 Información vectorial ............................................................................41 1.8.4 Información Raster ..............................................................................42 1.8.5 Aplicaciones ........................................................................................45 1.8.6 Modelo de datos orientado a objetos ...................................................46
1.9 Ingeniería de software ....................................................................................47 1.9.1 Modelo Lineal Secuencial ....................................................................48
2. Metodología y diseño .............................................................................................51 2.1 Etapa de desarrollo: análisis, diseño y generación de código .........................52
2.1.1 Algoritmo MSV .....................................................................................53 2.1.2 Calculo de calidad en la clasificación ...................................................54
2.2 Etapa de Pre - procesamiento ........................................................................55 2.2.1 Recorte ................................................................................................55 2.2.2 Reescalar ............................................................................................57 2.2.3 Combinación de imágenes ..................................................................57 2.2.4 Almacenamiento de la imagen en la base de datos .............................61
2.3 Etapa de extracción de características ...........................................................63 2.4 Clasificación (Maquinas de soporte vectorial) .................................................71
2.4.1 Entrenamiento .....................................................................................71 2.4.2 Clasificación ........................................................................................72 2.4.3 Validación de la clasificación de imágenes ..........................................73
2.5 Herramientas utilizadas para la investigación .................................................73 2.5.1 Erdas Imagine......................................................................................73 2.5.2 ENVI ....................................................................................................74 2.5.3 Orfeo Toolbox ......................................................................................76 2.5.4 PostgreSQL .........................................................................................77 2.5.5 PostGIS ...............................................................................................78 2.5.6 Python .................................................................................................79
3. Resultados Obtenidos ............................................................................................82 3.1 Objetivo # 1: Desarrollar e implementar el algoritmo de clasificación supervisada sobre una base de datos espacial. ........................................................82 3.2 Objetivo # 2: Preparación de las imágenes de acuerdo a la zona de estudio .83 3.3 Objetivo # 3: Comprobar la aplicabilidad de la extensión mediante un caso de estudio ......................................................................................................................84
3.3.1 Clasificación MSV con ENVI. ...............................................................84 3.3.2 Clasificación MSV con ORFEO Toolbox ..............................................85 3.3.3 Clasificación MSV con el aplicativo desarrollado .................................86
3.4 Objetivo # 4: Comparar los resultados obtenidos con otros softwares especializados en clasificación supervisada .............................................................88
3.4.1 Matriz de confusión ENVI ....................................................................89 3.4.2 Matriz de confusión MONTEVERDI (ORFEO) .....................................90 3.4.3 Matriz de confusión con el aplicativo desarrollado ...............................91
4. Conclusiones y recomendaciones ........................................................................93 4.1 Conclusiones ..................................................................................................93 4.2 Recomendaciones ..........................................................................................94
Contenido XIII
Bibliografía .................................................................................................................... 96
Contenido XIV
Lista de figuras
Pág.
Figura 1-1 Elementos básicos de un sistema de teledetección ....................................... 15
Figura 1-2 Imagen Landsat de Santa fe de Bogotá (bandas 2, 5 y 7) .............................. 16
Figura 1-3 Imagen Landsat de Santa Fe de Bogotá (bandas 4, 3 y 2: color verdadero) .. 17
Figura 1-4 Esquema general del satélite Landsat 8 ........................................................ 21
Figura 1-5 Combinación 4,3,2, Verdadero color, Santa fe de Bogotá .............................. 23
Figura 1-6 Combinación Intensidad, Matiz, Saturación, Falso color, Santa fe de Bogotá 24
Figura 1-7 Esquema del proceso de clasificación de imágenes ...................................... 26
Figura 1-8 Funciones de decisión ................................................................................... 31
Figura 1-9 Clasificador convencional .............................................................................. 32
Figura 1-10 Clasificador Óptimo ...................................................................................... 34
Figura 1-11 Clasificador No-lineal. .................................................................................. 35
Figura 2-1 Metodología propuesta .................................................................................. 51
Figura 2-2 Arquitectura del Algoritmo MSV ..................................................................... 52
Figura 2-3 Arquitectura Etapa de Pre - Procesamiento ................................................... 55
Figura 2-4 Imagen en verdadero color (4,3,2) zona de estudio La Macarena .................. 57
Figura 2-5 Imagen Pseudocolor a partir del OIF 356 ....................................................... 61
Figura 2-6 Creación de la base de datos con Postgis ..................................................... 62
Figura 2-7 Imagen cargada en Qgis almacenada desde Postgis .................................... 63
Figura 2-8 Estratos de intervención por deforestación en la zona de estudio .................. 64
Figura 2-9 Selección de pixeles ...................................................................................... 69
Figura 2-10 Polígonos de entrenamiento ........................................................................ 72
Figura 2-11 Interfaz gráfica de Erdas Imagine 2014 ....................................................... 74
Figura 2-12 Interfaz gráfica de ENVI. Imagen de satélite: Amazonas 2017. .................... 76
Figura 2-13 Interfaz gráfica de Monteverdi (extensión ORFEO Toolbox) . ...................... 77
Figura 2-14 Interfaz gráfica de PostgreSQL + Extensión PostGIS. ................................. 79
Figura 2-15 Ambiente de programación con python. ....................................................... 81
Figura 3-1 Mapa resultante de la clasificación supervisada MSV utilizando el software
comercial ENVI ............................................................................................................... 85
Figura 3-2 Mapa resultante de la clasificación supervisada MSV utilizando el software
libre Monteverdi (Orfeo) .................................................................................................. 86
Figura 3-3 Mapa resultante de la clasificación supervisada MSV utilizando el aplicativo
desarrollado .................................................................................................................... 87
Figura 3-4 Mapa resultante de la clasificación supervisada MSV utilizando el aplicativo
desarrollado versus la estratificación de la deforestación en la zona de estudio ............. 88
Contenido XV
XVI Implementación del método máquinas de soporte vectorial en bases de datos
espaciales para análisis de clasificación supervisada en imágenes de sensores
remotos
Lista de tablas
Pág.
Tabla 1 Periodo de actividad de los satélites Landsat ..................................................... 20
Tabla 2 Desviación estándar de cada una de las bandas de la imagen .......................... 58
Tabla 3 Matriz de Correlación de las bandas de la imagen ............................................. 59
Tabla 4 Calculo del OIF a partir de cada combinación de bandas posible ....................... 59
Tabla 5 Variables ecológicas de vegetación zona la Macarena Meta .............................. 65
Tabla 6 Características principales de las 7 clases presentes en la imagen satelital ...... 67
Tabla 7 Características de la imagen procesada ............................................................. 83
Tabla 8 Matriz de confusión clasificación supervisada MSV utilizando el software
comercial ENVI ............................................................................................................... 89
Tabla 9 Matriz de confusión clasificación supervisada MSV utilizando el software libre
Monteverdi (Orfeo) .......................................................................................................... 90
Tabla 10 Matriz de confusión clasificación supervisada MSV utilizando el software
desarrollado .................................................................................................................... 91
Tabla 11 Comparación de los resultados obtenidos ........................................................ 92
Introducción
El presente trabajo de investigación desarrolla una herramienta sobre un sistema
manejador de bases de datos espaciales PostGis que toma imágenes de sensores
remotos como fuentes de datos y el algoritmo de máquinas de soporte vectorial (MSV)
como método de clasificación, a través de los cuales; se logró una simbolización temática
y lógica por clases de las diferentes coberturas del suelo presentes en la imagen. La
información presente en una imagen se puede clasificar como cobertura de suelo, agua,
vegetación, entre otras. Con el fin de dar un entendimiento más profundo a esta fuente
de información, se empieza presentando el estado del arte en donde se dará los
conceptos básicos y usos de las imágenes; además se expone la utilidad y el significado
de cada una de las bandas y la filosofía de la solución donde se expone el algoritmo y la
teoría que sustenta las MSV dentro del proceso de clasificación supervisada.
Gracias a esta clasificación es posible generar mapas de usos y coberturas, tomando
como referencia las imágenes raster, de aquí radica la importancia de utilizar un
algoritmo basado en MSV estructurado sobre un sistema manejador de bases de datos
espaciales de libre licenciamiento que permita el fácil acceso a la herramienta, ya que en
la actualidad este módulo existe dentro de los paquetes de software licenciado y en muy
pocos paquetes de software de libre licenciamiento, lo cual hace que sea de difícil
acceso.
Se realizó una comprobación del funcionamiento de la aplicación con una sustentación
práctica sobre la zona de estudio en la amazonia colombiana a partir de una imagen
obtenida por el sensor Landsat 8 OLI, donde se hizo un análisis de la deforestación y se
explicó el funcionamiento del algoritmo de clasificación supervisada por medio de las
2 Introducción
MSV, donde se analizaron los resultados sometiéndolos a una comparación con los
resultados obtenidos a partir de clasificar la misma imagen en otros paquetes de
procesamiento digital de imágenes que implementan el algoritmo de clasificación
supervisada MSV.
Por último, se exponen las conclusiones y recomendaciones de los efectos de aplicar la
clasificación supervisada a partir del algoritmo MSV en imágenes de sensores remotos
almacenadas en bases de datos espaciales.
Introducción 3
Justificación
Los resultados obtenidos por los algoritmos de clasificación supervisada de imágenes
traídas de los diferentes sensores remotos tienen muchas aplicaciones en el ámbito
cartográfico, ya que pueden ser estas medioambientales, sociales, políticas, entre otras.
Estos resultados son los principales elementos que utilizan muchos sistemas de
información geográficos (SIG) para ofrecer al usuario la información requerida, como por
ejemplo los mapas de usos y cobertura del suelo, la prevención de desastres naturales,
la evaluación del impacto en cuanto a los usos de los recursos naturales o el estudio del
cambio climático.
Con el acelerado crecimiento del volumen de estos datos obtenidos por imágenes de
sensores remotos, se ha configurado como una necesidad almacenar esta información
de forma estructurada y fácil de consultar[1], de aquí nace la importancia de almacenar
esta información en bases de datos espaciales, aunque en muchos casos almacenar y
procesar esta información es muy difícil y complejo ya que se requieren operaciones de
recuperación y análisis de la información que sean rápidas y precisas.
Las tendencias actuales para el tratamiento de la información geoespacial están
enfocadas en el desarrollo de técnicas basadas en la representación y recuperación de
estos datos desde un punto de vista semántico. En este sentido cuando hablamos de
información de tipo raster aún falta mucho para que estos datos almacenados sobre una
base de datos espacial se asemejen al nivel de abstracción que se logra con la
información vectorial. El hecho de lograr que los análisis se hagan directamente en la
base de datos le da una ventaja en ejecución a los procesos analíticos realizados por los
sistemas manejadores de bases de datos[2], por lo que es muy importante lograr acercar
los análisis de la información espacial en la base de datos a todos los niveles incluyendo
4 Introducción
la información raster. Por lo tanto con este trabajo de investigación, se implementó una
nueva herramienta que mediante la utilización del método de clasificación supervisada
basado en máquinas de soporte vectorial se brinde resultados más precisos y ajustados,
que además estén soportados sobre una plataforma no propietaria.
La herramienta desarrollada se fundamentó en el algoritmo de máquinas de soporte
vectorial, ya que a partir de diferentes estudios se ha comprobado que genera muy
buenos resultados[3],[4],[5] además de su facilidad en el manejo de grandes volúmenes
de información, puesto que logra altos niveles de confiablidad en los resultados[6].
Por otro lado, es importante destacar que la herramienta utiliza imágenes almacenadas
directamente en una base de datos espacial de la extensión PostGis, ya que con esto se
reducen costos de procesamiento, además se dio una visión más amplia en el sentido de
almacenamiento de información de tipo raster y procesamiento de la misma sobre bases
de datos espaciales y la caracterización de las imágenes para conseguir una óptima
clasificación.
Introducción 5
Objetivos
A continuación se presentan los objetivos del presente proyecto:
Objetivo General.
Diseñar e implementar una extensión sobre el gestor de bases de datos espaciales
PostGis que emplee el algoritmo de clasificación supervisada Máquinas de Soporte
Vectorial sobre la representación de imágenes de sensores remotos.
Objetivos específicos
Desarrollar e implementar las funcionalidades y procedimientos que permiten
ejecutar el algoritmo de clasificación supervisada MSV desde el gestor de base de
datos espacial PostGis sobre imágenes almacenadas en una base de datos
espacial.
Preparar las imágenes de acuerdo a la zona de estudio, para realizar un buen
procedimiento de clasificación.
Comprobar la aplicabilidad de la extensión mediante un caso de estudio sobre la
deforestación en una zona piloto de la selva amazónica colombiana utilizando
imágenes satelitales Landsat 8 OLI.
Comparar los resultados obtenidos a partir de la aplicación del algoritmo
desarrollado, con los resultados provenientes de aplicar la clasificación
supervisada con máquinas de soporte vectorial en diferentes paquetes de
procesamiento digital de imágenes como ORFEO y ENVI para determinar
precisiones y calidad de resultados.
6 Introducción
Problema de investigación
La clasificación supervisada de datos, es el proceso que se lleva a cabo para encontrar
propiedades comunes entre un conjunto de datos y clasificarlos dentro de diferentes
rangos, de acuerdo a un modelo de clasificación[7]. El objetivo de la clasificación es
primero desarrollar una descripción o modelo para cada clase usando las características
disponibles en los datos[7]. Tales descripciones de las clases son entonces usadas para
agrupar futuros datos de prueba en la base de datos o para desarrollar mejores
descripciones (llamadas reglas de descripción) para cada clase en la base de datos[7].
Por lo general este tipo de clasificaciones tienen implicaciones relativamente elevadas,
debido a los costos de las imágenes de alta resolución, y del software implementado para
realizar la clasificación, ya que a través de esta investigación se comprobó que hoy en
día no existe una herramienta que realice una clasificación supervisada de imágenes
integrada a una base de datos espacial que sea de libre licenciamiento. Adicionalmente,
se debe agregar el factor humano, ya que al clasificar las imágenes se debe incluir todo
el aporte experimental para lograr un resultado lo más acercado posible a la realidad[8].
En este sentido y de forma general aún se aplican las mismas técnicas de clasificación
de los años setenta[9], y si bien la investigación y el desarrollo de métodos avanzados de
clasificación han rendido frutos aún no se ha identificado un método que sea aceptado
por la comunidad científica y académica que compita directamente con los algoritmos
tradicionales[10], [11].
Por tal motivo, en los últimos años alrededor del mundo se han venido desarrollando
algoritmos de detección y clasificación supervisada de imágenes [12],[13],[14], en los
cuales se desarrollan clasificadores utilizando redes neuronales, lógica difusa, redes
Bayesianas entre otros. Sin embargo muchos de estos algoritmos requieren de una
herramienta que brinde el soporte y la capacidad computacional para su ejecución dentro
Introducción 7
de un ambiente de desarrollo comercial, lo cual limita su uso[15]. Por tal motivo utilizar un
sistema de clasificación basado en Maquinas de Soporte Vectorial (MSV) almacenada en
una base de datos espacial establecida a partir de una herramienta libre como lo es
Postgres SQL es una solución novedosa de alta precisión en la clasificación y regresión
de datos, siendo una herramienta poderosa para el desarrollo de sistemas
multiclasificadores[16].
1. Teledetección
En la actualidad existen en funcionamiento una gran cantidad de sensores remotos, los
cuales están destinados al monitorio y observación de diferentes características de la
tierra, los cuales día a día proveen una gran cantidad de imágenes que tienen diferentes
finalidades como por ejemplo el monitoreo del clima, evaluación de la forma de la tierra,
aplicaciones medioambientales, militares entre otras. Debido al gran repositorio de
imágenes relacionadas con la teledetección, es necesario la implementación de nuevos
algoritmos computacionales que automaticen los procesos de análisis e interpretación de
las imágenes, con el fin de optimizar y mejorar los resultados obtenidos por algoritmos
ya existentes en la literatura.
1.1 Definición de teledetección
Desde un punto de vista estrictamente técnico, podemos definir la teledetección como “el
conjunto de técnicas, aparatos y procedimientos que permiten obtener y analizar
imágenes de la superficie de la Tierra desde sensores ubicados remotamente"[17],[18].
La palabra teledetección realmente corresponde a la traducción de la expresión inglesa
remote sensing, ciencia aplicada que surgió a principio de los años 60 para definir los
métodos de observación remota de la superficie de la tierra. Aunque en sus orígenes
este término se aplicó principalmente a la fotografía aérea, posteriormente también se
incluyó la observación a través de plataformas de observación satelitales, surgiendo así
la teledetección satelital.
La teledetección es una ciencia aplicada que permite la adquisición de información sobre
la superficie terrestre sin necesidad de tener contacto real con la zona que está siendo
observada[19]. Esta ciencia se puede utilizar en diferentes aplicaciones[20],[21],[22]
dando soporte para resolver y mejorar los problemas derivados de las diferentes
temáticas que se estén modelando a partir de ella, por ejemplo problemas
10 Implementación del método máquinas de soporte vectorial en bases de datos
espaciales para análisis de clasificación supervisada en imágenes de sensores
remotos
medioambientales, climatológicos, de temperaturas, etc. En este espectro de
aplicaciones, podemos encontrar algunas que incluyen tipificación del suelo, análisis de
recursos hídricos, establecer zonas de protección ambiental o simplemente análisis
multitemporales, entre otras.
1.2 Historia de la teledetección
Primer periodo: Inicio 1859. Bajo el seudónimo de Nadar, Gaspard Felix Tournachon
utilizó un globo para realizar las primeras fotografías aéreas sobre el bosque de
Boulogne y el Arco del Triunfo. Intuyó que era posible la aplicación de la fotografía aérea
a los levantamientos topográficos y catastrales[23].
De forma paralela, James Wallace Black registró una de las primeras fotografías aéreas
sobre el distrito de negocios de Boston desde un globo, a una altitud aproximada de 365
metros[24].
En 1903 Orville Wright se convirtió en la primera persona en volar sobre una aeronave, el
Flyer, más pesada que el aire. Otros especialistas consideran a Alberto Santos Dumont
el protagonista de esta hazaña, ya que voló, en septiembre de 1906, a bordo del 14-bis
sin ayuda externa[23].
En cualquier caso, poco más tarde, en 1909, Wilburg Wright adquirió la primera fotografía
captada desde un avión, iniciando un largo y fructífero periodo de campañas y misiones
fotográficas, que se prolongan hasta la actualidad, con fines militares, civiles y
aplicaciones temáticas muy variadas[23].
En 1915, J.T.C. Moore-Brabazon desarrolló la primera cámara aérea de la historia,
diseñada específicamente para ser accionada desde un avión.
Durante la I Guerra Mundial se registró gran número de misiones fotográficas de
reconocimiento. Enseguida se comprendió la gran importancia estratégica de esta nueva
información geográfica para los ejércitos contendientes. Los aviones de reconocimiento
se convirtieron en objetivos prioritarios[24].
Capítulo 1 11
En el periodo de entreguerras aparecieron nuevas emulsiones que favorecieron nuevas
aplicaciones.
La II Guerra Mundial fomentó definitivamente el empleo sistemático de la fotografía aérea
gracias a los avances de la técnica fotográfica (óptica de las cámaras de reconocimiento
y de las emulsiones utilizadas), de la aviación (plataformas más estables) y a la continua
demanda de información geográfica[25].
Los fotointérpretes fueron entrenados para realizar tareas complejas de identificación
directa de los objetos o mediante deducción.
En esta época se comenzaron a utilizar las primeras películas en infrarrojo, desarrolladas
por Kodak. Asimismo, se introdujeron nuevos sensores como el radar y se utilizaron,
habitualmente, los pares estereoscópicos[23].
Segundo periodo: Inicio 1957. La desaparecida URSS lanzó el primer satélite artificial,
el Sputnik, en el contexto de lo que se ha denominado “carrera espacial”.
Se trata de un hito histórico de gran importancia para la teledetección, ya que esta misión
y esta plataforma inauguran una nueva época para la observación de la tierra. Ha sido
seguida de numerosas misiones civiles y militares. Se dice que en los últimos 60 años, la
cartografía ha avanzado más que a lo largo de toda su historia, cumpliendo la intuición de
Sócrates de que era necesario elevarse más allá de la atmósfera para conocer mejor
nuestro planeta y disponer de un punto de vista más global[26].
En 1960, la NASA puso en órbita el primer satélite de observación de la tierra, TIROS-1,
pionero de la investigación meteorológica desde el espacio. Ésta es una de las
aplicaciones claramente operativas desde la década de los años 70. Desde 1979, los
satélites de esta familia pasaron a denominarse NOAA (National Oceanic and
Atmospheric Administration), como la agencia meteorológica responsable de sus
operaciones. Una de las principales ventajas de este satélite, de órbita polar, es su buena
resolución temporal, proporciona una imagen cada 6 horas, gracias a la sincronización de
dos satélites[27].
En la década de los años 60, junto a los satélites artificiales, las misiones tripuladas
aportaron más de 35.000 imágenes tomadas por los astronautas, conscientes del interés
12 Implementación del método máquinas de soporte vectorial en bases de datos
espaciales para análisis de clasificación supervisada en imágenes de sensores
remotos
científico de las mismas. Las primeras fueron tomadas por Alan B. Shepard durante una
de las misiones de la plataforma Mercury, en 1961[23].
Entre 1965 y 1966, se desarrolló el programa Gemini. Sus investigaciones geológicas y
oceanográficas permitieron obtener 2.400 fotografías desde el espacio[24].
Los astronautas fueron adquiriendo un creciente entrenamiento en ciencias de la tierra,
meteorología y oceanografía. Desarrollaron una sensibilidad especial para captar
megaformas, gracias a la visión global de la superficie terrestre adquirida durante las
misiones espaciales, esto unido a los avances en estudios de numerosos fenómenos
naturales y humanos, en ocasiones, permitió la prevención de desastres[23].
Más tarde, las misiones Apollo ensayaron nuevos experimentos científicos. Desde
Apollo-6 se obtuvieron 750 fotografías de alta resolución espacial, estereoscópicas, en
color. En Apollo-9 se embarcaron cuatro cámaras Hasselblad con filtros multiespectrales
y películas en blanco y negro sensibles a distintas longitudes de onda y en infrarrojo
color[28].
Tercer Periodo: Inicio 1972. Los éxitos acumulados por la NASA, hicieron concebir
nuevos proyectos focalizados en la cartografía y evaluación de recursos naturales. El 23
de julio de 1972 se puso en órbita el primer satélite de la serie ERTS (Earth Resources
Technollogy Satellite), rebautizada LANDSAT, a partir de 1975. Esta familia de satélites
ha sido la más fructífera en aplicaciones civiles de la teledetección[23]. Los estudios han
crecido de forma exponencial y han incidido en temáticas muy diversas[29].
En 1981, el lanzamiento del transbordador espacial Space Shuttle supuso un nuevo hito
en la carrera espacial. A lo largo de las veinte misiones que se sucedieron entre 1981 y
1994 se obtuvieron 45.000 fotografías espaciales, de dominio público. Entre todas,
merece la pena destacar las fotografías estereoscópicas obtenidas desde esta
plataforma tripulada por las cámaras métricas RMK (Zeiss) y de gran formato (Itek) con
objeto de probar sus aptitudes para generar cartografía topográfica básica de escalas
medias, a bajo coste, en los países menos desarrollados[23]. En 1986, Francia, en
Capítulo 1 13
colaboración con Bélgica y Suecia, lanza el satélite SPOT (Système Pour l’Observation
de la Terre). Este satélite, de órbita heliosíncronica, tiene una repetitividad de 26 días[24].
Se han lanzado otros cuatro satélites de la misma familia en 1990, 1993, 1998 y 2002. El
sensor HRV (Haute Résolution Visible) dispone de una tecnología de exploración por
empuje. Incorpora la posibilidad de captar escenas verticales y oblicuas en dos órbitas
sucesivas, gracias a lo cual es posible disponer de imágenes estereoscópicas. En 1991,
la Agencia Espacial Europea (ESA), lanzó su primer satélite de teledetección, el ERS-1
(European Remote Sensing Satellite)[24].
En 1995, se lanzó el segundo satélite de esta serie, el ERS-2. Su objetivo era
complementar a los sensores ópticos embarcados en Landsat y SPOT. Aunque sus
aplicaciones han sido muy variadas, se orientaban al estudio de los océanos y de la
criosfera. Junto a los sensores activos de tipo radar, se han embarcado otros dispositivos
de barrido térmico, altímetros y medidores de ozono[28].
Cuarto Periodo: Inicio 1999. En septiembre de 1999, se lanza el satélite IKONOS-2,
con 1m de resolución espacial. De esta manera, Space Imaging, ahora integrada en la
empresa Geoeye, inaugura el mercado de los satélites comerciales de teledetección,
ocupando un segmento comercial, el de las observaciones de alta resolución espacial,
hasta entonces reservado a la fotografía aérea. En octubre de 2001, la empresa Digital
Globe lanza el satélite Quickbird, con dos cámaras de alta resolución espacial, 61 cm en
modo pancromático y de 2,5 m en modo multiespectral[23].
En diciembre de 1999, la NASA lanza el satélite TERRA. Unos años más tarde, en mayo
de 2002, se pone en órbita el satélite AQUA. Ambas plataformas forman parte del
ambicioso programa EOS (Earth Observing System), un sistema de observación global
de la tierra que organiza los satélites participantes en torno a una constelación. Los
sensores embarcados (ASTER, MODIS, CERES, MISR, MOPPIT, entre otros) se
complementan para generar variables de gran interés ambiental y estudiar procesos
globales[24].
El 29 de julio de 2009, Deimos Imaging (DMI) lanza, con éxito, el primer satélite de
observación de la tierra, DEIMOS-1, explotado por una empresa española privada. Se
14 Implementación del método máquinas de soporte vectorial en bases de datos
espaciales para análisis de clasificación supervisada en imágenes de sensores
remotos
trata de una plataforma de órbita heliosíncrona, a 680 km de altitud. Dispone de 6
cámaras que captan información en las regiones espectrales del verde, rojo e infrarrojo
próximo, con una resolución espacial de entre 20m y 22 m, se espera que cubra múltiples
aplicaciones desde los estudios de agricultura y ocupación del suelo hasta la gestión de
recursos naturales y prevención de desastres[30].
1.3 Elementos Básicos de la Teledetección
Un sistema genérico de teledetección[31] suele incluir todos los elementos que se
muestran en la Figura 1.1:
Fuente de energía: produce la radiación electromagnética captada por los sensores del
satélite, que puede ser pasiva (como la luz solar) o activa (emitida por el propio sensor
para posteriormente captar el reflejo).
Superficie terrestre: natural o artificial, y refleja la radiación electromagnética.
Sistema sensor: formado por los sensores (cámaras, radar, etc…) y la plataforma de
observación (satélite, avión, etc…), que recoge la radiación electromagnética emitida por
la superficie terrestre y la enviada al sistema de recepción.
Sistema de recepción: recibe y almacena la información del sistema sensor.
Interprete: transforma los datos recibidos en información útil para el usuario.
Analista experto: utiliza la información interpretada con algún objetivo.
Capítulo 1 15
Figura 1-1 Elementos básicos de un sistema de teledetección
Fuente:[32]
1.4 Características de las imágenes obtenidas por sensores remotos
1.4.1 Imágenes de sensores remotos
Una imagen es un archivo tipo raster formado por una matriz de celdas, donde cada
celda se denomina pixel. A cada pixel se le asignan varios valores digitales, que
corresponden a la reflectividad recogida por un sensor específico. Las imágenes son
almacenadas en diversas bandas espectrales, donde cada banda almacena el valor que
corresponde a cada pixel de la imagen en un intervalo concreto del espectro
electromagnético. Por lo tanto, una imagen es en realidad un conjunto de imágenes, con
las mismas propiedades geométricas, donde cada imagen almacena el valor de
reflectancia de los pixeles en un intervalo de longitud de onda concreto del espectro
electromagnético[33].
16 Implementación del método máquinas de soporte vectorial en bases de datos
espaciales para análisis de clasificación supervisada en imágenes de sensores
remotos
Las imágenes obtenidas por sensores remotos pueden tener un número reducido de
bandas, como es el caso de las imágenes multiespectrales (menos de 10 bandas) o un
número muy elevado, como ocurre con las imágenes hiperespectrales (con cientos de
bandas)[33].
En una imagen captada por sensores remotos también se pueden combinar distintas
bandas entre sí, para conseguir diferentes resultados, dependiendo del estudio que se
quiera realizar. Las Figuras 1-2 y 1-3 muestran la misma imagen de satélite, combinando
distintas bandas.
Figura 1-2 Imagen Landsat de Santa fe de Bogotá (bandas 2, 5 y 7)
(Fuente: Elaboración Propia)
Capítulo 1 17
Figura 1-3 Imagen Landsat de Santa Fe de Bogotá (bandas 4, 3 y 2: color verdadero)
(Fuente: Elaboración Propia)
1.4.2 Resolución de las imágenes de sensores remotos
Los sensores remotos captan la radiación emitida o reflejada por la superficie terrestre en
cuatro dimensiones distintas: espacio, tiempo, longitud de onda y radiancia[33]. Toda
esta información debe ser muestreada por los sensores para convertirla en datos
digitales discretos. Este proceso de discretizacion tiene por lo tanto cuatro resoluciones
posibles[33]:
Resolución espacial: es la superficie terrestre que almacena cada pixel de la imagen.
También se suele usar el concepto de IFOV, o campo instantáneo de visión, que se
define como la sección angular en radianes observada en un momento determinado. En
la ecuación 1.1 se muestra la relación entre IFOV y el tamaño de pixel:
𝑑 = 2𝐻𝑡𝑎𝑛(𝐼𝐹𝑂𝑉
2) (1.1)
18 Implementación del método máquinas de soporte vectorial en bases de datos
espaciales para análisis de clasificación supervisada en imágenes de sensores
remotos
Donde d es el tamaño de pixel y H la distancia del sensor a la superficie terrestre.
Este valor puede variar bastante dependiendo del tipo de sensor que tome la imagen y
además dependiendo del tipo de fenómeno que queramos estudiar, convendría elegir un
tipo de resolución u otra. Si el estudio está enfocado a grandes fenómenos
meteorológicos, la resolución que ofrece el sensor Meteosat será la adecuada para poder
disponer de una cobertura global de la superficie terrestre[33]. Si se desea estudiar la
cobertura ecológica de una determinada zona, la resolución espacial ofrecida por el
satélite Landsat puede ser adecuada, debido a que no es ni muy elevada ni demasiado
reducida. En cambio, si se quiere realizar un estudio de objetos de manera individual, es
necesario utilizar la resolución ofrecida por el sensor Quickbird[34]. Por lo tanto, la
resolución espacial que se elija para cada estudio debe ser lo suficientemente amplia
como para poder disponer de la información que necesitamos representar en la imagen
y, a su vez, lo suficientemente reducida como para descartar información redundante[35].
Mantener dicho equilibrio puede ahorrarnos no solo costes computacionales
innecesarios, sino también resultados erróneos, por no disponer de la suficiente
información.
Resolución temporal: es el intervalo de tiempo que transcurre entre cada imagen
obtenida por el sensor de la misma zona de la superficie terrestre. Esta resolución puede
ser la que se requiera en el caso de los aviones, cada media hora en el caso de los
satélites geo sincrónicos y variable en el caso de los satélites helio sincrónicos.
Resolución espectral: es el número y anchura de las bandas electromagnéticas
captadas por el sensor. A mayor número de bandas, se dispone de mayor número de
variables que pueden describir cada pixel de la imagen. Por otro lado, las bandas
estrechas aumentan el poder discriminante de los valores captados por el sensor sobre
las bandas anchas. El número de bandas y la anchura depende del objetivo que se
pretende cubrir con la información captada por el sensor[35].
Resolución radiométrica: es la sensibilidad para discriminar entre pequeñas
variaciones en la radiación captada por el sensor. Esta resolución se suele expresar
como el número de bits necesarios para almacenar cada pixel, lo que ofrece el número
Capítulo 1 19
de niveles digitales (ND) del sensor. A mayor resolución radiométrica, mayor información
será captada por el sensor[35].
1.4.3 Errores en la captación de las imágenes de sensores remotos
Existen diversos factores que pueden influir, negativamente, durante el proceso de
captación de la radiación electromagnética de la superficie terrestre por parte de los
sensores remotos, introduciendo errores no deseados en los datos recogidos. Estos
errores se pueden clasificar como geométricos, radiométricos y atmosféricos. A
continuación se muestran los errores más frecuentes que se pueden encontrar dentro de
cada categoría:
Errores geométricos: provocados por la propia plataforma sobre la cual se soporta el
sensor, por los equipamientos instalados en ella o por la rotación terrestre. En primer
lugar, las distorsiones provocadas por la plataforma satelital tienen su origen en
oscilaciones aleatorias de su altitud, orientación y velocidad, que alteran de manera
impredecible la relación que se establece entre la superficie terrestre y las posiciones de
la imagen adquirida. En segundo lugar, los errores introducidos por los sensores se
deben a la elevada complejidad del proceso de captación de la imagen, y puede producir
que no todos los pixeles de la imagen tengan la misma resolución. En tercer lugar, el
fenómeno natural de rotación de la Tierra produce que la superficie terrestre se desplace
espacialmente desde el momento de inicio del proceso de la captura de la imagen hasta
el final del mismo, debido a que dicho proceso puede llegar a requerir bastante tiempo.
En cuarto lugar la elevación de cada píxel en el cálculo de las funciones de
transformación. El motivo que justifica este proceder es que la elevación de un punto del
terreno provoca un desplazamiento aparente de dicho punto en la imagen. Este
desplazamiento depende de parámetros como la localización y orientación de la imagen,
de la propia elevación del punto en el terreno y otros específicos del tipo de sensor[36].
Todos estos errores se pueden solucionar gracias a la corrección geométrica y
ortorectificacion, mediante un proceso llamado georreferenciación de la imagen[35].
Errores radiométricos: provocados por la des-calibración de algún detector que los
sensores poseen por cada una de las bandas electromagnéticas que captan, lo que
puede producir efectos de bandeado en la imagen obtenida. En algunos casos pueden
20 Implementación del método máquinas de soporte vectorial en bases de datos
espaciales para análisis de clasificación supervisada en imágenes de sensores
remotos
perderse algunos pixeles o líneas enteras. Estos errores pueden solucionarse mediante
la corrección radiométrica[35].
Errores atmosféricos: provocados por la interacción que se produce entre la radiación
electromagnética y la atmosfera. Estos errores pueden solucionarse mediante la
corrección atmosférica[35].
1.4.4 Satélites Landsat
El programa Landsat está formado por un grupo de satélites creados y puestos en órbita
por EE.UU. con el objetivo de observar la superficie terrestre a alta resolución. Los
satélites Landsat están controlados por la NASA, aunque las imágenes recibidas son
procesadas y comercializadas por la Servicio Geológico de los Estados Unidos (USGS
en inglés). La Tabla 1 muestra el periodo de actividad de los 8 satélites Landsat lanzados
hasta la fecha[33].
Tabla 1 Periodo de actividad de los satélites Landsat
Satélite Fecha de Lanzamiento Fin de Operación
Landsat 1 23/07/1972 05/01/1978
Landsat 2 22/01/1975 27/07/1983
Landsat 3 05/03/1978 07/09/1993
Landsat 4 16/06/1982 14/12/1993
Landsat 5 01/03/1984 30/11/2011
Landsat 6 03/10/1993 Lanzamiento fallido
Landsat 7 15/04/1999 Activo
Landsat 8 11/02/2013 Activo
Fuente: NASA
Los experimentos llevados a cabo para desarrollar esta tesis de maestría se han
realizado sobre imágenes de satélite capturadas en 2017 por parte del Landsat 8 OLI,
cuyo esquema se muestra en la Figura 1-4.
Capítulo 1 21
Figura 1-4 Esquema general del satélite Landsat 8
Fuente: USGS. 2013
Los dos primeros satélites Landsat incorporaban un sistema de sensores formado por
tres cámaras RBV, que registraban información en una banda espectral comprendida
entre el verde y el infrarrojo cercano. Este sistema fue sustituido en el tercer satélite
Landsat por el sistema Vidicon, que mejoraba la resolución espacial de las imágenes de
satélite capturadas. Más adelante, el Landsat 5 utilizo un nuevo tipo de sensor
denominado Thematic Mapper (TM), que mejoraba la resolución espacial, espectral y
radiométrica respecto al sistema Vidicon. Posteriormente, el satélite Landsat 7 fue
equipado con una versión mejorada del sensor TM, denominado ETM+ (Enhaced
Thematic Mapper), que incorporaba una banda pancromática con una resolución espacial
de 15 metros, y un total de 8 bandas espectrales. Para finalizar, el Landsat 8 cuenta con
dos sensores: el OLI (Operational Land Imager) y el TIRS (Thermal Infrared Sensor), y
con un total de 11 bandas espectrales. En el caso del satélite Landsat 8, cuyas imágenes
han sido utilizadas durante la experimentación realizada en esta tesis de maestría, la
resolución espacial de sus bandas es de 30 metros, lo que permite disponer de una gran
cantidad de información del área de estudio, sin que a su vez sea redundante por tener
exceso de resolución. La Tabla 2 muestra las características técnicas de las bandas
proporcionadas por el sistema Landsat 8 OLI.
22 Implementación del método máquinas de soporte vectorial en bases de datos
espaciales para análisis de clasificación supervisada en imágenes de sensores
remotos
Tabla 2 Características técnicas del sistema Landsat 8 OLI
Landsat 8 Operationa
l Land Imager
(OLI) and Thermal Infrared Sensor (TIRS)
February 11, 2013
Bandas Longitud de onda
(micrómetros) Resolución
(metros)
Banda 1 - Aerosol Costero 0,43 - 0,45 30
Banda 2 - Azul 0,45 - 0,51 30
Banda 3 - Verde 0,53 - 0,59 30
Banda 4 - Rojo 0,64 - 0,67 30
Banda 5 - Infrarrojo cercano (NIR) 0,85 - 0,88 30
Banda 6 - SWIR 1 1,57 - 1,65 30
Banda 7 - SWIR 2 2,11 - 2,29 30
Banda 8 - Pancromático 0,50 - 0,68 30
Banda 9 - Cirrus 1,36 - 1,38 30
*Banda 10 - Infrarrojo térmico (TIRS) 1 10,60 - 11,19 100
*Banda 11 - Infrarrojo térmico (TIRS) 2 11,50 - 12,51 100
Fuente: USGS. 2013
* Las bandas TIRS se adquieren a una resolución de 100 metros, pero se vuelven a
remuestrear a 30 metros.
Estas bandas espectrales se pueden combinar entre sí para optimizar los resultados de
un estudio concreto, como se muestra en las siguientes secciones.
1.4.5 Combinación de imágenes verdadero color
Constituye la combinación más próxima a la percepción de la tierra con nuestros ojos
desde el espacio, de ahí el nombre de color verdadero[37]. Las bandas visibles dan
respuesta a la luz que ha penetrado más profundamente, y por tanto sirven para
discriminar el agua poco profunda y sirven para distinguir aguas turbias, corrientes,
batimetría y zonas con sedimentos. El azul oscuro indica aguas profundas. El azul claro
indica aguas de media profundidad. La vegetación se muestra en tonalidades verdes. El
suelo aparece en tonos marrones y tostados. El suelo desnudo y la roca aparecen en
tonos amarillentos y plateados[37].
Capítulo 1 23
Figura 1-5 Combinación 4,3,2, Verdadero color, Santa fe de Bogotá
Fuente: Elaboración Propia
1.4.6 Combinación de imágenes falso color
El ojo humano puede ver muchos más detalles en las imágenes en color que en blanco y
negro. Incluso se pueden apreciar más detalles en una imagen de color falso que en otra
equivalente en color natural o verdadero[38].
En el procesado de imágenes de satélite, se generan a menudo imágenes en falsos
colores porque incrementan la percepción de determinados detalles de la superficie. Una
imagen en falso color es una representación artificial de una imagen multiespectral[38].
En algunas aplicaciones de teledetección, puede ser útil asociar las clases de cobertura
del suelo con colores familiares, por ejemplo, la hierba con el verde. En otros casos, se
prefieren los colores contrastados para resaltar objetos de interés en el fondo. La
24 Implementación del método máquinas de soporte vectorial en bases de datos
espaciales para análisis de clasificación supervisada en imágenes de sensores
remotos
codificación que se emplea en las imágenes multibanda, se basa en la numeración de las
bandas que integran dicha imagen, siguiendo el orden específico de rojo, verde y azul.
Figura 1-6 Combinación Intensidad, Matiz, Saturación, Falso color, Santa fe de Bogotá
Fuente: Elaboración Propia
1.4.7 Índice de Factor Optimo OIF
El índice de Factor Óptimo fue desarrollado para, estimar la combinación de bandas con
mayor variabilidad para resaltar las características de estas, se basa en la varianza y en
la correlación de cada banda. El índice del Factor Óptimo se obtiene con la ecuación
1.2[39]
Capítulo 1 25
𝑂𝐼𝐹 = ∑ 𝑆𝑑𝐾
3
𝐾=1
∑|𝐶𝐶𝐽|
3
𝐽=1
(1.2)
Donde:
𝑆𝑑𝐾 = Desviación estándar de la banda.
|𝐶𝐶𝐽| = Valor absoluto de la correlación entre dos de las tres bandas
Se considera que la combinación de tres bandas con los más altos valores de OIF
presenta la mayor variabilidad por lo que es posible observar mejor las diferencias en las
imágenes de falso color compuesto[39].
1.5 Clasificación de imágenes
1.5.1 Clasificación supervisada y no supervisada de imágenes
La clasificación de imágenes es un proceso que consiste en agrupar los pixeles de una
imagen en un número finito de clases, basándose en los valores espectrales de las
distintas bandas, convirtiendo de este modo la información captada por los sensores
como niveles digitales a una escala categórica fácil de interpretar[40]. Los pixeles que
pertenezcan a la misma clase deberán tener unas características espectrales
similares[41].
Los algoritmos de clasificación de imágenes son una de las técnicas más importantes
utilizadas en el ámbito de la teledetección, ya que facilitan la interpretación de una gran
cantidad de información contenida en sus bandas. El objetivo de los algoritmos de
clasificación de imágenes consiste en dividir los pixeles de la imagen en distintas clases,
llamadas clases espectrales, teniendo en cuenta la similitud existente entre dichos
pixeles.
La clasificación de una imagen es una tarea que se realiza con el propósito de convertir
datos cuantitativos (generalmente los niveles digitales de los píxeles en cada banda
espectral) en datos cualitativos (temas o clases que son importantes en un dominio
específico del conocimiento)[42]. La motivación principal de una clasificación es la de
representar un fenómeno que ocurre sobre la superficie terrestre a partir de la
generalización y agrupación de datos obtenidos mediante sensores remotos[43]. Una
26 Implementación del método máquinas de soporte vectorial en bases de datos
espaciales para análisis de clasificación supervisada en imágenes de sensores
remotos
buena clasificación debe representar de manera exacta la realidad a partir de las
características pictórico-morfológicas presentes en las imágenes[44].
La función que relaciona los atributos que se consideran relevantes y las clases
deseadas se puede establecer de manera analítica. Si el problema es muy complejo para
ser resuelto analíticamente, es posible usar aproximaciones heurísticas, como las
ofrecidas por las técnicas de Inteligencia Artificial conocidas como máquinas de
aprendizaje inductivo[45].
La imagen que se obtiene como resultado consiste básicamente en un mapa temático de
la imagen original[41]. Posteriormente la imagen clasificada se utiliza para interpretar de
manera más sencilla la información contenida en la imagen.
La Figura 1-7 muestra el esquema general del proceso de clasificación de una imagen.
Figura 1-7 Esquema del proceso de clasificación de imágenes
Fuente: [46]
Como se puede observar en la parte izquierda de la figura 1-6, la imagen tiene 4 bandas,
y se han tomado los valores espectrales de un pixel concreto como ejemplo, con el
Capítulo 1 27
objetivo de clasificarlo en una de las cuatro clases existentes: Bosque, Pasto, Agua,
Barbecho. En la parte derecha de la imagen se muestra un ejemplo de cómo quedaría el
pixel original después del proceso de clasificación, en la que este ha sido etiquetado en
su clase correspondiente, teniendo en cuenta sus cuatro valores espectrales.
En cualquier algoritmo de clasificación de imágenes podemos encontrar las siguientes
fases genéricas[33]:
Definición del Problema: las clases objetivo deben ser definidas, al igual que el
conjunto de atributos que se utilizarán para identificar las clases.
Selección de las muestras de entrenamiento (clasificación supervisada): Para que
la clasificación sea exacta, esas muestras deben ser representativas de cada clase. Es
recomendable realizar algún tipo de análisis exploratorio para establecer si las clases se
están caracterizando de manera correcta, al igual que entender si existen dificultades
para la separación de las clases. Si se descubre algún problema de caracterización, se
deben modificar las clases objetivo y/o cambiar los atributos que se utilizarán para
diferenciarlas.
Construcción del clasificador: usando criterios predeterminados, en Inteligencia
Artificial (IA) este paso se conoce de manera indistinta como fase de entrenamiento o
como aprendizaje inductivo[40].
Validación de los resultados del entrenamiento: Este paso busca evaluar el
desempeño del clasificador usando datos nuevos que no se han utilizado en el
entrenamiento. Si los resultados no son satisfactorios, puede ser necesario repetir el
proceso de entrenamiento utilizando criterios diferentes.
Es importante tener en cuenta que la selección de un clasificador específico afecta
principalmente la construcción de un clasificador y que tiene un impacto menor en los
demás pasos. Sin embargo, los factores limitantes más grandes en una clasificación
tienen que ver con la definición del problema y la selección de muestras de
entrenamiento; específicamente la capacidad de diferenciar las clases depende del
cuidado que se tenga en la selección de las clases objetivo y de los atributos que se
utilizan para caracterizar esas clases y realizar su discernimiento.
28 Implementación del método máquinas de soporte vectorial en bases de datos
espaciales para análisis de clasificación supervisada en imágenes de sensores
remotos
Los algoritmos de clasificación de imágenes se pueden dividir en dos grandes grupos,
dependiendo del método utilizado durante la fase de entrenamiento: clasificación no
supervisada y clasificación supervisada, ambos tipos de clasificadores son basados en
las propiedades espectrales de los pixeles de la imagen[33]. La utilización de
procedimientos no supervisados o supervisados depende fundamentalmente del
conocimiento que se posee sobre la zona de estudio[47]. Si se posee conocimiento
humano experto de la zona de estudio, es recomendable usar siempre una clasificación
supervisada[48].
1.5.2 Algoritmos de clasificación supervisada de imágenes
En los algoritmos de clasificación supervisados, se seleccionan varias muestras de los
pixeles de cada clase, formando el denominado conjunto de entrenamiento, para que el
algoritmo pueda realizar una clasificación más precisa basada en el conocimiento
humano. En este tipo de algoritmos, el conocimiento que se posee sobre el área de
estudio determina la calidad del conjunto de entrenamiento, y por lo tanto es un factor
muy influyente en el resultado final de la clasificación. Los pixeles son etiquetados en la
clase a la que más se asemejan a nivel espectral, teniendo en cuenta el conjunto de
entrenamiento[49]. Existen muchos algoritmos de clasificación supervisados, como
paralelepípedos, mínima distancia, máxima verosimilitud, Maquinas de Soporte Vectorial,
entre otros.
1.5.3 Algoritmos de clasificación no supervisada de imágenes
En los algoritmos de clasificación no supervisados, el analista experto solo debe
especificar el número de clases en las que desea dividir la imagen, y el propio algoritmo
se encarga de agrupar los pixeles similares basándose únicamente en la información
espectral almacenada en las bandas de cada pixel. Los algoritmos clasificadores k-
medias e isodata son dos de los procedimientos más utilizados para la clasificación no
supervisada de imágenes[33].
Capítulo 1 29
1.6 Máquinas de Soporte Vectorial (MSV)
Las MSV son un conjunto de algoritmos de aprendizaje supervisado desarrollados por
Vapnik y Cortés (1995) y su equipo AT&T, que han surgido como métodos relacionados
con problemas de clasificación y regresión. Su buen desempeño ha llevado a su uso en
una gran variedad de problemas, algunos investigadores [50],[51],[3],[52],[53], han
utilizado MSV para solucionar problemas de clasificación y regresión relacionados a la
predicción de series de tiempo y clasificación de imágenes, mostrando tener muy buenos
resultados en comparación a otras metodologías tradicionales como modelos
econométricos, redes neuronales y en algunos casos a modelos de aprendizaje de
máquina.
La construcción de las máquinas de soporte vectorial (MSV) se basa en la idea de
transformar o proyectar un conjunto de datos pertenecientes a una dimensión n dada,
hacia un espacio de dimensión superior aplicando una función kernel – Kernel Trick[54].
A partir del nuevo espacio creado, se operarán los datos como si se tratase de un
problema de tipo lineal, resolviendo el problema sin considerar la dimensionalidad de los
datos[54].
Las MSV se empezaron a emplear para resolver problemas de clasificación y
reconocimiento de patrones para luego extenderse en el estudio de predicción de series
de tiempo y clasificación de imágenes de sensores remotos. Los problemas de
clasificación se emplean para obtener resultados de tipo cualitativo, por ejemplo,
determinar la clase de un dato de entrada o características, mientras que las de tipo
regresión son más útiles en problemas cuantitativos, cuando se trata de obtener una
salida numérica al dato de entrada[55]. Un punto a favor de utilizar este tipo de modelos
es que el desempeño de las MSV no depende del tamaño de la muestra que se va
utilizar para el problema, por lo que puede ser utilizado para una cantidad limitada de
datos en contraste con otras metodologías que presentan mejor desempeño cuando el
tamaño de la muestra es grande.
Asimismo, el algoritmo detrás de las MSV se puede ajustar a problemas no lineales y la
solución se realiza bajo programación cuadrática, lo cual hace que su solución sea única
y generalizable[56].
30 Implementación del método máquinas de soporte vectorial en bases de datos
espaciales para análisis de clasificación supervisada en imágenes de sensores
remotos
La idea detrás de las MSV es que a partir de unos inputs de entrada al modelo, se
etiquetan las clases y se entrena una MSV construyendo un modelo que sea capaz de
predecir la clase de los nuevos datos que se introduzcan al modelo. La MSV se
representa en un eje de coordenadas los vectores de entrenamiento, separando las
clases por un espacio lo más grande posible. Cuando nuevos datos son introducidos al
modelo, estos se colocan sobre el mismo eje y en función de la cercanía de los grupos
antes separados, los cuáles serán clasificados en una u otra clase.
1.6.1 Funciones de decisión dentro de las MSV
Se considera el problema de clasificación de un pixel cuyas características están dadas
por el vector X tal que X = (X1, . . . , XP)T y este pertenece a una de dos clases posibles.
Ahora se supone que se tienen las funciones F1(x) y F2(x) que definen las clases 1 y 2 y
se clasifica al pixel X dentro de la clase 1 si:
F1(x) > 0, F2(x) < 0,
O clasificamos al pixel X dentro de la clase 2 si:
F1(x) < 0, F2(x) > 0,
Estas funciones se denominan funciones de decisión. Al proceso de encontrar las
funciones de decisión a partir de pares de entrada-salida es llamado entrenamiento. Los
métodos convencionales de entrenamiento determinan las funciones de decisión de tal
forma que cada par entrada-salida sea correctamente clasificado dentro de la clase a la
que pertenece. La Figura 1-8 muestra un ejemplo. Asumiendo que los cuadros
pertenecen a la clase 1 y los círculos pertenecen a la clase 2, resulta claro que los datos
de entrenamiento no se intersectan en ningún momento y es posible trazar una línea
separando los datos de manera perfecta [4]:
Capítulo 1 31
Figura 1-8 Funciones de decisión
Fuente:[4]
Sin embargo, ya sea que la función de decisión F1(x) o la función F2(x) se muevan hacia
la línea punteada de su propio lado, el conjunto de datos de entrenamiento aún sigue
siendo correctamente clasificado, dándonos la certeza de que es posible encontrar un
conjunto infinito de hiperplanos que correctamente clasifiquen los datos de
entrenamiento. Sin embargo, es claro que la precisión de clasificación al generalizar será
directamente afectada por la posición de las funciones de decisión[4].
Las MSV a diferencia de otros métodos de clasificación consideran esta desventaja y
encuentra la función de decisión de tal forma que la distancia entre los datos de
entrenamiento es maximizada. Esta función de decisión es llamada función de decisión
óptima o hiperplano de decisión óptima[56].
1.6.2 Clasificación linealmente separable
Se considera el problema de clasificación binaria en donde los datos de entrenamiento
son dados como:
(X1, Y1), (X2, Y2), . . . , (Xl, Yl), X ∈ Rn, y ∈ {+1, −1} (1.3)
Donde Xi es un vector de entrada el cual tiene asociada una etiqueta o clase Yi.
32 Implementación del método máquinas de soporte vectorial en bases de datos
espaciales para análisis de clasificación supervisada en imágenes de sensores
remotos
Figura 1-9 Clasificador convencional
Fuente:[4]
Los datos son linealmente separables y existen diferentes hiperplanos que pueden
realizar la separación. La Figura 1-9 muestra varios hiperplanos de decisión que separan
perfectamente el conjunto de datos de entrada. Es claro que existe un número infinito de
hiperplanos que podrían realizar este trabajo. Sin embargo, la habilidad de generalización
depende de la localización del hiperplano de separación y el hiperplano con máximo
margen es llamado hiperplano de separación óptima[56]. La cota de decisión, la línea
que separa el espacio de entrada es definida por la ecuación WT Xi + B = 0[4] donde W
define el hiperplano de separación óptimo y b es el sesgo.
Sin embargo, el problema radica en encontrar la mejor cota de decisión, la función de
separación óptima. El caso más simple de MSV es el caso linealmente separable en el
espacio de características.
Si se optimiza el margen geométrico fijando para ello el margen funcional Ki = 1 (también
llamado Hiperplano Canónico[57]), por lo tanto, el clasificador lineal:
yi = ±1,
Capítulo 1 33
(w · x+ ) + b = 1 (1.4)
(w · x- ) + b = −1
Estos pueden ser combinados dentro de un conjunto de desigualdades:
𝑦𝑖 (<𝑤
‖𝑤‖ . 𝑥𝑖 > +𝑏) ≥ 1 ∀𝑖 (1.5)
el margen geométrico de x+ y x- es
𝛾𝑖 = 1
2(<
𝑤
‖𝑤‖ . 𝑥+ > −<
𝑤
‖𝑤‖ . 𝑥− >)
=1
2‖𝑤‖[< 𝑤 ∙ 𝑥+ > −< 𝑤 ∙ 𝑥− >] (1.6)
=1
‖𝑤‖
Donde w define el hiperplano de separación óptima y b es el sesgo. La distancia entre el
hiperplano de separación y el dato de entrenamiento más cercano al hiperplano, es
llamado margen. La habilidad de generalización depende de la localización del
hiperplano de separación y el hiperplano con máximo margen es llamado hiperplano de
separación óptima. Es intuitivamente claro que la habilidad de generalización es
maximizada si el hiperplano de separación óptima es seleccionado como el hiperplano de
separación. Al resolver el problema de programación cuadrática tratamos de encontrar el
hiperplano óptimo y dos hiperplanos (H1 y H2) paralelos. Las distancias entre H1 y H2 es
maximizada y no existe ningún dato entre los dos hiperplanos. Cuando la distancia entre
H1 y H2 es maximizada, algunos puntos de datos pueden estar sobre H1 y algunos puntos
de datos pueden estar sobre H2. Estos puntos de datos son llamados vectores
soporte[56],[57], ya que participan de forma directa en definir el hiperplano de
separación, los otros puntos pueden ser removidos o cambiados sin cruzar los planos H1
y H2 y no modificarán de alguna forma la habilidad de generalización del clasificador, la
solución de una MSV está dada únicamente por éste pequeño conjunto de vectores
soporte. Cualquier hiperplano puede ser representado mediante w, x y b, donde w es un
vector perpendicular al hiperplano. La Figura 1-10 muestra la representación geométrica
del problema de programación cuadrática mostrando H (separador óptimo) y los
hiperplanos H1 y H2[4].
34 Implementación del método máquinas de soporte vectorial en bases de datos
espaciales para análisis de clasificación supervisada en imágenes de sensores
remotos
Figura 1-10 Clasificador Óptimo
Fuente:[4]
1.6.3 Clasificación linealmente no separable
El clasificador lineal presentado anteriormente es muy limitado. En la mayoría de las
clases, no únicamente se traslapan o intersectan los datos al generar un hiperplano de
separación, sino que la separación genuina de estos datos está dada por hiper-
superficies no-lineales. Una característica del enfoque presentado anteriormente radica
en que éste, puede ser fácilmente extendido para crear cotas de decisión no lineal. El
motivo de tal extensión es que una MSV puede crear una hipersuperficie de decisión no
lineal, capaz de clasificar datos separables no linealmente. Generalmente, para patrones
de entrada n-dimensionales, en lugar de una curva no lineal, una MSV creará una
hipersuperficie de separación no lineal[57], [58]. El problema de optimización utilizando
kernels queda de la siguiente manera:
Capítulo 1 35
Figura 1-11 Clasificador No-lineal.
Fuente:[4]
1.6.4 Kernels
En una MSV, el hiperplano óptimo es determinado para maximizar su habilidad de
generalización. Pero, si los datos de entrenamiento no son linealmente separables, el
clasificador obtenido puede no tener una alta habilidad de generalización, aun cuando los
hiperplanos sean determinados óptimamente, para maximizar el espacio entre clases, el
espacio de entrada original es transformado dentro de un espacio altamente dimensional
llamado “espacio de características”[4].
La idea básica en diseño de MSV no lineales es transformar los vectores de entrada
𝑥 ∈ ℝ𝑛 dentro de vectores Φ(𝑥) de un espacio de características altamente
dimensional[57] F (donde Φ representa el mapeo: ℝ𝑛 → ℝ𝑓 ) y resolver el problema de
clasificación lineal en este espacio de características
𝑥 ∈ ℝ𝑛 → 𝛷(𝑥) = [𝛷1(𝑥), 𝛷2(𝑥), … , 𝛷𝑛(𝑥)]𝑇 ∈ ℝ𝑓 (1.7)
El conjunto de hipótesis que consideraremos serán funciones de tipo
36 Implementación del método máquinas de soporte vectorial en bases de datos
espaciales para análisis de clasificación supervisada en imágenes de sensores
remotos
𝑓(𝑥) = ∑ 𝑤𝑖𝜙𝑖
𝑙
𝑖=1
(𝑥) + 𝑏 (1.8)
Donde 𝜙: X → F es un mapeo no lineal desde un espacio de entrada a un espacio de
características, i.e., el procedimiento de aprendizaje consiste de dos pasos: primero, un
mapeo no lineal transforma los datos dentro de un espacio de características F y
después, una máquina lineal es utilizada para clasificar los datos en un espacio de
características. Como se vio anteriormente, una propiedad de las máquinas de
aprendizaje lineal es que éstas pueden ser expresadas en una representación dual, esto
significa que la ecuación (1.8) puede ser expresada como una combinación lineal de los
puntos de entrenamiento. Por lo tanto, la regla de decisión puede ser evaluada usando
productos punto.
𝑓(𝑥) = ∑ 𝛼𝑖𝑦𝑖⟨𝜙(𝑥𝑖) . 𝜙(𝑥)⟩
𝑙
𝑖=1
+ 𝑏 (1.9)
Si se tiene una forma de capturar el producto ⟨𝜙(𝑥𝑖) . 𝜙(𝑥)⟩ en el espacio de
características, directamente como una función de los puntos de entrada originales, esto
hace posible unir los dos pasos necesarios para construir una máquina de aprendizaje
no-lineal. A este método de cómputo directo se le llama función kernel[59].
Definición 1. Un kernel es una función K, tal que para todo x, z ∈ X
𝐾(𝑥, 𝑧) = ⟨𝜙(𝑥) . 𝜙(𝑧)⟩ (1.10)
Donde 𝜙 es un mapeo de X a un espacio de características F.
La clave del enfoque es encontrar una función kernel que pueda ser evaluada
eficientemente. Una vez que tenemos tal función de decisión, la regla puede ser
evaluada
𝑓(𝑥) = ∑ 𝛼𝑖𝑦𝑖𝐾⟨𝑥𝑖 . 𝑥⟩
𝑙
𝑖=1
+ 𝑏 (1.11)
Capítulo 1 37
1.7 Indicadores de calidad de los clasificadores
Un tema clave es la evaluación de fiabilidad de los procedimientos empleados y su
calidad en los resultados finales. La calidad final de un método de clasificación o de
combinación de clasificadores, se puede extraer a partir de un coeficiente de precisión,
de forma que se otorga mayor confianza a aquel clasificador que haya demostrado mayor
acierto. Este es el caso de la matriz de confusión de la cual se derivan distintos índices
de calidad[10].
La matriz de confusión, también llamada tabla de contingencias, consta de una tabla de
doble entrada, que confronta los valores reales o verdad de terreno con los resultados de
la clasificación. La diagonal de la matriz nos muestra la cantidad de píxeles reales y de la
clasificación que coinciden por categoría, mientras que los restantes, nos vienen a decir
aquellos que se confunden con otras categorías. Es decir, en sentido vertical se
representa el porcentaje de píxeles reales que se confundieron en la verdad de terreno, y
en sentido horizontal el porcentaje de píxeles después de la clasificación que se han
confundido[10].
El índice Kappa propuesto por Cohen (1960) se usa para evaluar la concordancia de
métodos cuyo resultado es categórico, con dos o más clases. Este índice representa la
proporción de acuerdos observados respecto del máximo acuerdo posible más allá del
azar. En la interpretación del índice Kappa hay que tener en cuenta que el índice
depende del acuerdo observado, pero también de la prevalencia del carácter estudiado y
de la simetría de los totales marginales[60].
En este sentido Cohen propuso el denominado índice kappa (K), que definió como[61]:
𝐾 = 𝑝0 − 𝑝𝑒
1 − 𝑝𝑒 (1.12)
Siendo 𝑝0 la proporción de acuerdos observados y 𝑝𝑒 la proporción de acuerdos
esperados en la hipótesis de independencia entre los observadores, es decir, de
acuerdos por azar.
Finalmente Landis y Koch propusieron, y desde entonces ha sido ampliamente usada, la
escala de valoración del índice Kappa que se describe en la tabla 3[62].
Tabla 3 Valoración del índice Kappa
38 Implementación del método máquinas de soporte vectorial en bases de datos
espaciales para análisis de clasificación supervisada en imágenes de sensores
remotos
Kappa (K) Grado de acuerdo
< 0,00 Sin acuerdo
0,00 - 0,20 Insignificante
0,21 - 0,40 Mediano
0,41 - 0,60 Moderado
0,61 - 0,80 Sustancial
0,81 - 1,00 Casi Perfecto
1.8 Bases de Datos Espaciales
Son una colección de datos referidos a objetos de los que se conoce su localización
espacial se denomina Base de Datos Espacial. Esta Base de Datos es un modelo
de la realidad que se ajusta a un cierto fenómeno[63].
1.8.1 Características
En el dominio no espacial, las bases de datos se han aplicado para diferentes
propósitos como la administración bancaria, la gestión de empresas e instituciones, entre
otros. Estas aplicaciones tienen en común que la cantidad de datos suele ser muy
grande, pero los datos en sí tienen una estructura simple y regular[63]. El diseño de una
base de datos es complejo y se requiere al menos documentar los siguientes pasos para
su configuración y administración[63]:
Definir cuidadosamente su propósito
Establecer quienes serán sus usuarios
Identificar las fuentes de datos disponibles
Definir la estructura o modelo de organización de datos
Especificar el método de ingreso de datos
Prever procesos para el análisis y explotación de la información
Especificar el o los procedimientos para la actualización permanente
Una base de datos geográfica puede definirse como la colección lógica de información
geográfica interrelacionada que se administra y almacena como una unidad,
Capítulo 1 39
comprendiendo antecedentes sobre la ubicación de las características del mundo real y
sobre sus particularidades en relación a su entorno[63].
Es importante indicar que para el caso del almacenamiento de la información geográfica,
se consideran las bases de datos espaciales y temáticas, en las que se almacenan de
manera estructurada los objetos cartográficos (posición, tamaño y forma) y sus
características no geométricas (atributos alfanuméricos) respectivamente[63]. En algunos
sistemas, las dos bases de datos están separadas, mientras que en otros se integran en
una sola.
El almacenamiento adecuado de datos geográficos es un factor crítico para lograr el
procesamiento y comprensión óptima de la información geográfica[63]. En la mayoría de
los sistemas disponibles, los datos espaciales se organizan en capas según el tema y/o
de acuerdo a su escala. Por ejemplo, los datos pueden organizarse en categorías
temáticas, como uso del suelo, topografía y límites administrativos, o bien, en función de
la escala del mapa. En una base de datos espacial, se almacenan los objetos junto con
sus atributos y relaciones geométricas y no-geométricas, ya sea en formato vectorial o
raster[63].
Desde el punto de vista territorial, es importante considerar aspectos tales como la
topología de los datos geográficos[63]. Una base de datos que contiene topología no sólo
almacena cada característica individual, sino que también almacena la forma en que las
características se relacionan con otras de igual o diferente clase. Por ejemplo, además
de un conjunto de líneas que representan una red de calles, el sistema almacenará los
nodos que definen las intersecciones de las calles, lo que posibilita que determine las
rutas a lo largo de varios segmentos de calle, o bien, almacenaría una línea por vez,
junto con información sobre los polígonos que se encuentran a ambos lados de la línea,
en lugar de almacenar los polígonos como figuras cerradas, caso en el que se
almacenarían dos veces los límites entre polígonos aledaños. Esto evita la redundancia y
facilita la aplicación de muchas funciones de análisis espacial.
1.8.2 Sistema de Gestión de Base de Datos SGBD
Es un software que permite establecer, usar y mantener una base de datos. De la misma
manera que un SIG permite configurar una aplicación de información geográfica, un
sistema de gestión de base de datos ofrece la funcionalidad genérica para la
40 Implementación del método máquinas de soporte vectorial en bases de datos
espaciales para análisis de clasificación supervisada en imágenes de sensores
remotos
organización de la respectiva base de datos y de su manejo, incluyendo funciones
básicas tales como el ingreso, almacenamiento, manipulación, recuperación y consulta
de datos[64]. Las principales razones para emplear un sistema de gestión de base de
datos, en el almacenamiento y procesamiento de datos en general y de manera
específica en relación con la información geográfica, se pueden sintetizar en las
siguientes[63]:
Da soporte al almacenamiento y manejo de conjunto de datos muy grandes.
Cuenta con mecanismos de acceso seguro
Es compatible con el uso simultaneo del mismo conjunto de datos por muchos
usuarios
Proporciona un lenguaje de consulta de alto nivel
Es compatible con el uso de un modelo de datos
Se incluyen las funciones de respaldo y de recuperación para asegurar la
disponibilidad de datos en todo momento
Se puede controlar la redundancia de datos
Un sistema de gestión de base de datos tiene como propósito general manejar de
manera clara y ordenada un conjunto de datos que posteriormente se convertirán en
información relevante para una organización[63].
En el contexto de los SIG corporativos e infraestructura de datos espaciales (IDE),
constituyen la interfaz entre la base de datos espacial, los usuarios y las aplicaciones que
la utilizan, por lo que se requiere de herramientas informáticas robustas y sólidas[63]. La
eficiencia del sistema de gestión de base de datos depende de muchos factores, siendo
el de mayor incidencia el relacionado con la modelación adecuada, la definición de los
objetos y la propuesta de los resultados esperados.
Los sistemas de gestión de base de datos pueden clasificarse en: sistemas de datos
relacionales, de objetos, y que no tienen un lenguaje estructurado para consultas (SQL),
predecesores jerárquicos y de red, Además es importante resaltar que con la aparición
de SQL-99 se extendió la funcionalidad de los sistemas manejadores de base de datos
Capítulo 1 41
relacionales con características orientadas a objetos dando lugar a los sistemas
manejadores de bases de datos objeto – relacionales[64].
Un sistema gestor de base de datos consiste en una colección de datos interrelacionados
y un conjunto de programas para acceder a dichos datos[65].
Entre los programas comerciales para SGBD, cabe mencionar Microsoft Access, SQL
Server, DB2, Oracle, etc., y de fuente abierta MySQL, Postgres y DBApache, entre otros.
Los Sistemas de Gestión de Base de Datos Orientado a Objetos (SGBDOO) están
diseñados para responder a una deficiencia fundamental en los SGBDR: su incapacidad
para almacenar objetos complejos directamente en la base de datos[63]. Los SGBDOO
pueden almacenar sistemáticamente objetos y proporcionar instrumentos de indagación
orientados a ellos.
Los Sistemas de Gestión de Base de Datos de Objetos Relacionales (SGBDOR) son
híbridos, con características a la vez de objetos y relacionales. Consisten en un
dispositivo para datos relacionales con un marco de extensión para manejar objetos. En
condiciones ideales, un SGBDOR consta de los siguientes componentes: un analizador
de la gramática del lenguaje para consultas SQL (lenguaje estructurado para consultas),
un optimizador de consultas, un lenguaje de consultas, un indizador, dispositivos para la
gestión del almacenamiento, servicios de transacción y dispositivo de duplicación. Entre
los programas comerciales y de fuente abierta para SGBDOR se encuentran Oracle,
Informix, entre otros., así como postgreSQL[64].
1.8.3 Información vectorial
En el modelo vectorial, los fenómenos espaciales se representan por las coordenadas
que codifican el límite o perímetro que define el elemento. De esta manera, cada una de
las primitivas geométricas que se utilizan para «dibujar» fenómenos geográficos
espaciales, tendrá una representación compuesta por uno o muchos pares de
coordenadas[66].
Los elementos puntuales se representan mediante el par de coordenadas (X,Y) que
definen su posición. Con un solo par (X,Y) queda definido un fenómeno puntual[66].
42 Implementación del método máquinas de soporte vectorial en bases de datos
espaciales para análisis de clasificación supervisada en imágenes de sensores
remotos
Los elementos lineales se representan mediante las coordenadas (X,Y) de todos y cada
uno de los vértices que definen los tramos que componen la línea. Para representar un
fenómeno lineal se necesitan dos o más vértices que sean diferentes, y el primero y el
último tienen que ser distintos[66].
Por último, los elementos superficiales se codifican mediante las coordenadas (X,Y) de
los vértices que componen la poligonal del recinto cerrado. Para codificar una superficie
vectorialmente, se necesitan al menos tres puntos diferentes no alineados. Además, se
añade un último vértice que coincide con el primero, cerrando así el polígono[66].
Basándose en estos conceptos geométricos, cualquier fenómeno geográfico espacial
puede representarse vectorialmente. La escala de representación determinará la
geometría del fenómeno. Un fenómeno tipo edificación puede ser puntual o superficial,
mientras que un fenómeno tipo río será lineal o superficial[66].
Los SIG también soportan geometrías complejas, compuestas por dos o más geometrías
simples. Por ejemplo, dos áreas que pertenezcan a un mismo fenómeno geográfico,
como en el caso de términos municipales anexos; o un área con un hueco en el interior,
como un edificio con un patio interior. Este último caso se conoce como descuento o
agujeros superficiales[66].
Existen diferentes métodos de captura de información geográfica vectorial. La mayoría de
ellos son procesos manuales que requieren la actuación de operadores. Apoyándose
sobre imágenes raster, estos operadores digitalizan –dibujan– el fenómeno geográfico
recorriéndolo de principio a fin. No siempre se requieren operadores: por ejemplo, en
redes viales de transporte (carreteras o ferrocarriles), un dispositivo GPS colocado sobre
el vehículo que recorra la vía es capaz de capturar automáticamente, y sin necesidad de
operadores, la definición geométrica del fenómeno[66].
1.8.4 Información Raster
El ejemplo más característico de información raster es la imagen, fotografía o modelo
digital (figura 1-12). Este formato se consigue mediante la superposición de una rejilla de
unidades poligonales de igual forma y tamaño, sobre la imagen original (analógica y
Capítulo 1 43
continua). A este método se le denomina rasterización y a esas unidades píxel. A cada
píxel se le asigna el valor asociado al área que representa sobre la imagen original. Si la
imagen es una fotografía en color, el valor del píxel lleva asociada el componente RGB
del color. Si se trata de un modelo de elevaciones, el píxel representa el valor de la altura
del terreno[66].
La palabra píxel proviene de la fusión de las palabras inglesas ‘picture’ (imagen) y
‘element’ (elemento). La rejilla puede estar formada por tres tipos de figuras geométricas
elementales: cuadrados (rectángulos), triángulos regulares y hexágonos[66].
La rejilla más utilizada es la cuadrada y en este caso, un parámetro fundamental es el
tamaño del píxel. Cuánto más pequeño sea, más precisa será la representación digital de
la imagen. La longitud de los lados del píxel en unidades del terreno nos proporciona la
escala de la imagen raster generada[66].
Cada píxel queda localizado sobre la rejilla a través del par de coordenadas que se
extraen al establecer el origen de coordenadas (0,0), en la esquina superior izquierda de
la imagen. La razón de este origen se encuentra en la manera de trabajar de muchos
equipos usados en la captura y tratamiento de datos raster: scanner, sensores
espaciales, impresoras, etc[66].
El establecimiento del origen de coordenadas y la regularidad de la rejilla permiten
recoger la topología de la imagen raster. De esta manera, es posible conocer cuáles son
los vecinos de una celda de la rejilla[66].
44 Implementación del método máquinas de soporte vectorial en bases de datos
espaciales para análisis de clasificación supervisada en imágenes de sensores
remotos
Figura 1-12 Imagen Raster La Macarena.
Fuente: Elaboración Propia
Una misma imagen analógica puede tener asociadas diferentes imágenes digitales. Por
ejemplo, en el caso de una fotografía aérea representada digitalmente por su
componente RGB, su formato raster se descompone en tres capas. En la primera de
ellas cada píxel representa el valor de la componente del color rojo (R), la segunda la del
color verde (G) y la tercera la del color azul (B). Se denominan capas roja, verde y azul
respectivamente[66].
Una imagen raster se puede descomponer en diferentes imágenes digitales en función
de la longitud de onda del espectro electromagnético[66].
La información asociada a cada píxel determinará el tipo de imagen raster. Cuando esa
información es el valor de la temperatura será una imagen digital térmica; si se trata de la
componente RGB nos referiremos a una imagen en color natural; si el píxel almacena el
valor de la cota del terreno, será un Modelo Digital del Terreno (MDT) o de un Modelo
Capítulo 1 45
Digital de Elevaciones (MDE) si el píxel informa de la cota calculada por el sensor al
incidir la señal emitida sobre el primer obstáculo que encuentra[66].
La información raster se captura, en la mayoría de los casos, de manera automática a
través de sensores digitales terrestres, aerotransportados pasivos o activos. En la
mayoría de los casos, las imágenes obtenidas requieren ciertos tratamientos digitales,
muchos de ellos automatizados hasta componer la imagen final raster. En cambio, para
la obtención de MDE, se necesitan complejos cálculos y procesamientos puramente
manuales como la identificación y toma de puntos de referencia en el terreno[66].
1.8.5 Aplicaciones
Dentro de las aplicaciones que acogieron los estándares definidos por la OGC del inglés
(Open Geospatial Consortium Inc), están los Sistemas Manejadores de Base de Datos
Espaciales[67], en donde definen los tipos de datos y la forma como se debe representar
la información espacial en formato vectorial, y las funciones que operan sobre esos
nuevos tipos de datos. Esto se pudo logar gracias a la definición del estándar SQL-99, el
cual permite definir nuevos tipos abstractos de datos, permitiendo crear las álgebras
necesarias para el uso de información espacial en formato vectorial[68]. Con esta nueva
implementación de base de datos, en donde se extienden los tipos de datos para poder
incluir la información espacial, y la adición de funciones espaciales con las que se
pueden operar entre esos tipos de datos embebidos en SQL, más la adición de nuevos
índices para optimizar las operaciones se puede, finalmente, utilizar los objetos
espaciales directamente en la base de datos[69]. Este es el nuevo concepto de lo que es
una base de datos espacial[69].
Las compañías que producen software han respondido a la demanda de capacidades
espaciales mediante extensiones que den soporte a objetos geográficos permitiendo el
almacenamiento, indexación, consulta y manipulación de datos e información espacial. Si
bien algunas bases de datos geográficas están implementadas para permitir también el
uso de funciones de geoprocesamiento, su principal beneficio se centra en las
capacidades que ofrecen en el almacenamiento de datos georreferenciados. Entre las
más conocidas están DB2 Spatial Extender, Informix Spatial Datablade y Oracle
Spatial[63].
46 Implementación del método máquinas de soporte vectorial en bases de datos
espaciales para análisis de clasificación supervisada en imágenes de sensores
remotos
Entre los sistemas manejadores de bases de datos que permiten trabajar con información
raster cabe destacar dos, en primer lugar Oracle spatial y en segundo lugar PostgreSQL
+ PostGIS. Oracle tiene como principal inconveniente su elevado precio y a su vez
PostgreSQL es una alternativa libre (y gratuita) que realmente es muy eficiente. PostGIS
es una extensión también libre, de PostgreSQL que permite trabajar con bases de datos
espaciales que soportan información raster[63].
1.8.6 Modelo de datos orientado a objetos
Se entiende por modelo de datos, el diseño conceptual de un conjunto de datos que
describe las entidades de la base de datos y las relaciones entre ellas definido por un
usuario[64]. En este sentido, el modelo orientado a objetos, se basa en la representación
de la realidad como un conjunto de objetos interrelacionados para un fin común,
enviándose mensajes unos a otros. Cada objeto es una instancia de una clase, que
puede definirse de manera informal como un conjunto de objetos de características
similares.
Los objetos geográficos se agrupan en clases en función de la similitud de los atributos
de geometría, topología y relaciones temáticas que comparten. Los atributos temáticos
de cada objeto geográfico son el resultado de aplicar unas determinadas funciones que
varían según las relaciones del objeto de referencia con su entorno. Los sistemas de
información geográficos orientados a objetos (SIGOO) introducen un carácter dinámico a
la información incluida en el sistema, frente a los modelos vectoriales y raster que tienen
un carácter estático[63]. Por ello, este modelo es más aconsejable para situaciones en
las que la naturaleza de los objetos que se trata de modelar es cambiante en el tiempo
y/o en el espacio.
En la programación orientada a objetos pueden definirse los objetos como entidades
poseedoras de, literalmente, miles de características[64]. Cuando se importan e
incorporan a un SIG, estas características posibilitan que los objetos «se comporten» de
manera previsible en condiciones de simulación, haciéndolos susceptibles de una
compleja modelación, como por ejemplo, para el análisis de rutas de viaje[64].
Capítulo 1 47
1.9 Ingeniería de software
Es una disciplina o área de las ciencias de la computación que ofrece métodos y técnicas
para desarrollar y mantener software de calidad que resuelve problemas de todo tipo[70].
Ingeniería de Software no es una disciplina que solo debe seguirse para proyectos de
software que se encuentren pensados dentro de ciertas áreas, por el contrario, trata con
áreas muy diversas de las ciencias de la computación, tales como construcción de
compiladores, sistemas operativos, desarrollos en Internet o extensiones que realicen
una función específica como es muy cercanamente el caso de la aplicación de esta
propuesta.
Esta abarca todas las fases del ciclo de vida del desarrollo de cualquier tipo de sistemas
de información aplicables a áreas tales como los negocios, investigación científica,
medicina, producción, logística, banca[70], y para el caso particular de este estudio una
herramienta que genere clasificaciones supervisadas aplicando el algoritmo de máquinas
de soporte vectorial sobre cualquier tipo de imagen obtenida por un sensor remoto.
Un aspecto muy importante de Ingeniería de Software es que proporciona parámetros
formales para lo que se conoce como Gestión de Proyectos de Software. Esto se refiere
a que Ingeniería de Software proporciona diversas métricas y metodologías que pueden
usarse como especificaciones para todo lo referente a la administración del personal
involucrado en proyectos de software, ciclos de vida de un proyecto de software, costos
de un proyecto, y en si todo el aspecto administrativo que implica el desarrollar software.
Existen diferentes modelos de procesos para la Ingeniería de Software. Cada uno de
estos modelos pretende de una manera u otra proporcionar orden al complicado proceso
de desarrollar software. Para el caso de este proyecto es necesario apegarse lo más
posible a uno de estos modelos con el fin de tener una organización de actividades que
se planean con base a una serie de etapas lógicas e interconectadas entre sí. Entre ellos
se encuentra el modelo lineal secuencial, que se describe a continuación.
48 Implementación del método máquinas de soporte vectorial en bases de datos
espaciales para análisis de clasificación supervisada en imágenes de sensores
remotos
1.9.1 Modelo Lineal Secuencial
El modelo lineal secuencial, también conocido como modelo en cascada, se basa en un
enfoque sistemático y secuencial del desarrollo del software que comienza en un nivel de
sistemas y progresa con el análisis, diseño, codificación, pruebas, y mantenimiento[70].
Análisis
El proceso de reunión de requisitos se intensifica y se centra especialmente en el
software. Dentro del proceso de análisis es fundamental que a través de una colección
de requerimientos funcionales y no funcionales, el desarrollador o desarrolladores del
software comprendan completamente la naturaleza de los programas que deben
construirse para desarrollar la aplicación, la función requerida, el comportamiento, el
rendimiento y la interconexión[70].
Diseño
El diseño del software es realmente un proceso de muchos pasos pero que se clasifican
dentro de uno mismo. En general, la actividad del diseño se refiere al establecimiento de
las estructuras de datos, la arquitectura general del software, representaciones de
interfaz y algoritmos. El proceso de diseño traduce requisitos en una representación de
software[70].
Generación del código
Esta actividad consiste en traducir el diseño en una forma legible por la máquina. El
lenguaje de programación Python es un lenguaje de modelado en el cuál se representan
los objetos por medio de generar código de programación de formato y marcado para
especificar las características de los objetos que se van agregando a un mundo o entorno
virtual[70].
Pruebas
Una vez que se ha generado código, comienzan las pruebas del software o sistema que
se ha desarrollado. El proceso de pruebas se centra en los procesos lógicos internos del
software, asegurando que todas las sentencias se han comprobado, en los procesos
externos funcionales, es decir, la realización de las prueba para la detección de
errores[70]. Se requiere poder probar el software con diferentes imágenes de diferentes
Capítulo 1 49
sensores que puedan evaluar el comportamiento del software con el fin de proporcionar
una buena retroalimentación.
Mantenimiento
El software indudablemente sufrirá cambios, y habrá que hacer algunas modificaciones a
su funcionalidad. Es de suma importancia que el software de calidad pueda adaptarse
con fines de acoplarse a los cambios de su entorno externo[70].
Capitulo 2 51
2. Metodología y diseño
A continuación se menciona la metodología utilizada para la elaboración del proyecto la
cual se describe en la figura 2-1.
Figura 2-1 Metodología propuesta
Fuente: Elaboración Propia
ETAPA DE DESARROLLO
• Análisis
• Diseño
• Generación de Código
•Modelo MSV
ETAPA DE PRE-PROCESAMIENTO
• Recortar
• Reescalar
• Calculo del OIF
ETAPA DE EXTRACCIÓN DE
CARACTERISTICAS
ETAPA CLASIFICACIÓN
(MSV)
ETAPA DE VALIDACIÓN
Etapas fuera del gestor
de bases de datos
Etapas dentro del gestor
de bases de datos
52 Implementación del método máquinas de soporte vectorial en bases de datos
espaciales para análisis de clasificación supervisada en imágenes de sensores
remotos
2.1 Etapa de desarrollo: análisis, diseño y generación de código
Esta sección se centra en la arquitectura de la herramienta, que está formada por una
combinación de componentes relacionados con el ámbito de la teledetección y
componentes relacionados con el modelo matemático de máquinas de soporte vectorial.
La Figura 2-2 muestra la arquitectura principal del algoritmo MSV.
Figura 2-2 Arquitectura del Algoritmo MSV
Capítulo 2 53
La figura 2-2 representa la arquitectura de la herramienta que se explica en las secciones
siguientes la cual está compuesta por dos componentes principales: el algoritmo MSV
propiamente dicho y la aplicación del cálculo de calidad de la clasificación obtenida. El
algoritmo MSV, a su vez, está compuesto por una clasificación espectral. No obstante, la
arquitectura descrita en esta sección se trata en realidad de un modelo bastante
simplificado, donde solo se muestran los componentes relacionados con la obtención de
los objetivos principales del algoritmo MSV.
Los componentes relacionados con la obtención de la información complementaria de
cada objetivo han sido obviados, para no aumentar la complejidad de la arquitectura.
A continuación se explica el funcionamiento de los componentes principales de la
arquitectura de la herramienta propuesta:
2.1.1 Algoritmo MSV
El algoritmo MSV tiene varios componentes de entrada y un solo componente de salida:
la imagen clasificada. Los componentes de entrada se pueden agrupar en tres categorías
distintas:
Componentes de entrada del algoritmo MSV relacionados con la imagen de
satélite a clasificar. El algoritmo MSV tiene dos entradas de este tipo: la aplicación
de lectura de la imagen y la aplicación de lectura del conjunto de muestras
(Polígonos de entrenamiento) los cuales fueron seleccionados por el analista,
tomando de la propia imagen de satélite, varias muestras de las diferentes clases.
Dichas muestras están formadas por pixeles representativos que componen el
denominado conjunto de entrenamiento (o firmas), sobre el que posteriormente se
basó el proceso de clasificación supervisado. Por lo tanto, en este método, el
conocimiento que se posea sobre el área de estudio determina la calidad, tanto
del conjunto de entrenamiento como de la tasa de acierto obtenida por parte del
proceso de clasificación. Este algoritmo por ser de tipo supervisado compara cada
pixel de la imagen con estas firmas elegidas y, a continuación, cada pixel es
etiquetado en la clase a la que más se asemeja espectralmente obtenido
previamente a partir de pixeles que pertenecen a las clases elegidas para el
54 Implementación del método máquinas de soporte vectorial en bases de datos
espaciales para análisis de clasificación supervisada en imágenes de sensores
remotos
proceso de clasificación. Estos dos componentes se encuentran almacenados
dentro una base de datos espacial y proporcionan al algoritmo MSV todos los
elementos necesarios para realizar una clasificación de la imagen de tipo
supervisada.
Componentes de entrada del algoritmo MSV relacionados con los demás
paquetes de procesamiento digital de imágenes ENVI y Orfeo Toolbox, para de
esta manera producir puntos de comparación y evaluación de las diferentes
clasificaciones. El algoritmo MSV utiliza los componentes de entrada y muestras
pero se debe aclarar que estos no se encuentran almacenados en una base de
datos espacial.
Componentes de entrada del algoritmo MSV relacionados con el tipo clasificación
realizada que para este caso se utilizó como temática de clasificación los usos del
suelo y como modelo piloto de la herramienta el modelo linealmente separable el
cual se apoya en la generación de hiperplanos de separación para realizar la
clasificación. Algunos de estos componentes relacionados con MSV deben ser
configurados por el analista experto antes de llevar a cabo el proceso de
clasificación, como el tipo de separación de hipeplanos (lineal, no lineal) o la
temática a trabajar dentro de la clasificación, personalizando la configuración del
algoritmo MSV para cada imagen concreta.
2.1.2 Calculo de calidad en la clasificación
Esta aplicación toma como entradas la imagen clasificada mediante el algoritmo MSV y la
imagen clasificada a través del análisis de las variables ecológicas presentes dentro de la
imagen a partir de una interpretación visual, y se obtuvo la matriz de confusión entre
ambas imágenes, ofreciendo como salida un índice de concordancia del proceso de
clasificación, es decir, el porcentaje de pixeles bien clasificados y los que quedaron mal
clasificados, además de tener en cuenta el error debido al azar con lo cual se puede
determinar si existe confusión entre las clases por estar muy próximas entre sí.
Capítulo 2 55
2.2 Etapa de Pre - procesamiento
Esta sección se centra en la recolección, obtención y procesamiento digital de las
imágenes a trabajar.
La Figura 2-3 muestra la arquitectura principal de la etapa de pre – procesamiento
Figura 2-3 Arquitectura Etapa de Pre - Procesamiento
La etapa de pre-procesamiento consiste en dejar la imagen con el menor porcentaje de
ruido posible a partir de correcciones radiometrías y geométricas, para aumentar las
posibilidades de éxito en las siguientes fases. Además su objetivo en el presente trabajo
de maestría consiste en la selección del área de estudio, reescalar la imagen y hacer la
selección de una buena combinación de bandas que permita una óptima ejecución de las
siguientes fases. Para lo cual se definieron las siguientes sub-etapas:
2.2.1 Recorte
Es la parte donde se toma una porción de la escena la cual contendrá la zona de estudio
y permitirá reducir los costos de procesamiento ya que se reducirán el número de filas y
columnas de la imagen y por ende los procesos serán más rápidos.
56 Implementación del método máquinas de soporte vectorial en bases de datos
espaciales para análisis de clasificación supervisada en imágenes de sensores
remotos
La comparativa de los algoritmos de clasificación supervisada MSV sobre diferentes
softwares que lo implementan se ha llevado a cabo sobre 1 imagen de satélite Landsat 8
OLI de 7 bandas, con una resolución espacial de 30x30m. La región de estudio elegida
fue el municipio de “La Macarena” en el Meta el cual es limítrofe entre los departamentos
de Caquetá, Meta y Guaviare. El tamaño de la imagen es de 2048 x 2048 pixeles (un
total de 4.194.304 pixeles).
La enorme diversidad de vegetación y la intervención que ha generado el hombre en
cuanto a la desforestación de bosques que existe en esta zona al sur de Colombia
complica bastante la verificación de cualquier algoritmo de clasificación, ya que al
modificar el ecosistema se homogenizan grandes extensiones de terreno y se genera
que diferentes clases se aprecien muy similares produciendo que cualquier algoritmo de
clasificación necesite más información detallada de entrada para lograr realizar una
clasificación consecuente con la realidad de la zona.
Por tal motivo y por ser una de las regiones de la selva amazónica que más
deforestación presenta se ha elegido esta área de estudio para confirmar en condiciones
no convenciones la calidad del proceso de clasificación y la efectividad del método
seleccionado. La Figura 2-4 muestra la imagen de satélite Landsat 8 OLI de Sierra la
Macarena, la Macarena y Caño Cristales (bandas 4, 3, 2 verdadero color).
Capítulo 2 57
Figura 2-4 Imagen en verdadero color (4,3,2) zona de estudio La Macarena
2.2.2 Reescalar
Se procesa la imagen para dejarla en un formato estándar de 8 bits ya que se adaptara la
resolución radiométrica de la imagen a la capacidad de visualización del monitor. Cada
sensor codifica la reflectancia en un número de determinados niveles digitales. Ese rango
digital puede no corresponder con el número de niveles de visualización que facilita la
consola gráfica, por lo que resulta preciso ajustar estos parámetros ya que al trabajar con
una paleta de colores entre 0-255 niveles de color se ajustan estos niveles y además se
ocupa menos espacio en la memoria del PC, por lo que se acelera la manipulación de la
misma.
2.2.3 Combinación de imágenes
Dentro del pre-procesamiento de imágenes es importante definir desde un principio cual
será la mejor combinación de color que se utilizará, este proceso permite visualizar,
simultáneamente imágenes sobre diferentes partes del espectro, lo que facilita una
58 Implementación del método máquinas de soporte vectorial en bases de datos
espaciales para análisis de clasificación supervisada en imágenes de sensores
remotos
identificación visual más precisa de algunas coberturas lo cual permite realizar una mejor
clasificación.
La elección de las bandas para realizar la combinación y el orden de los colores
dependen del sensor elegido y la naturaleza del trabajo a realizar, para el caso de este
trabajo por tratarse de un sensor Landsat 8 OLI dotado de 11 bandas de las cuales se
dispuso de 7 (azul, verde, rojo, Infrarrojo cercano, dos infrarrojos lejanos y la
pancromática) con las cuales se tiene la posibilidad de realizar combinaciones en un
amplio rango de composiciones de color.
El método que nos permitió seleccionar la combinación de bandas que contiene la mayor
cantidad de información con la menor cantidad de redundancia de entre las 35 posibles
combinaciones (7 tomadas de 3, sin repeticiones) se denomina Índice de Factor Optimo
OIF por sus siglas en ingles.
Para calcular el coeficiente OIF lo primero que se discriminó fueron las desviaciones de
cada una de las bandas. En la tabla 2 se presentan las desviaciones de cada banda:
Tabla 2 Desviación estándar de cada una de las bandas de la imagen
Banda Desviación
Aerosol Costero 1,305
Azul 1,728
Verde 2,601
Rojo 4,455
Infrarrojo cercano 13,035
SWIR 1 8,51
SWIR 2 6,272
Posteriormente se procedió a calcular la matriz de correlación entre todas las bandas de
la imagen con la ayuda del software ERDAS. En la tabla 3 se presenta la matriz de
correlación resultante:
Capítulo 2 59
Tabla 3 Matriz de Correlación de las bandas de la imagen
Aerosol Costero
Azul Verde Rojo Infrarrojo cercano
SWIR 1 SWIR 2
Aerosol Costero
1,0000 0,9553 0,8118 0,8830 -0,5371 0,6950 0,8502
Azul 0,9553 1,0000 0,8841 0,9454 -0,5093 0,7677 0,8919
Verde 0,8118 0,8841 1,0000 0,9321 -0,2041 0,8388 0,8218
Rojo 0,8830 0,9454 0,9321 1,0000 -0,4359 0,8691 0,9258
Infrarrojo cercano
-0,5371 -0,5093 -0,2041 -0,4359 1,0000 -0,1275 -0,4457
SWIR 1 0,6950 0,7677 0,8388 0,8691 -0,1275 1,0000 0,9093
SWIR 2 0,8502 0,8919 0,8218 0,9258 -0,4457 0,9093 1,0000
Finalmente se procedió a calcular el OIF para cada una de las combinaciones presentes
en la imagen las cuales suman 35 posibles. En la tabla 4 se presentan los resultados del
cálculo del OIF para cada combinación posible ordenadas según el OIF de mayor a
menor:
Tabla 4 Calculo del OIF a partir de cada combinación de bandas posible
R G B ∑ Desviación ∑ Correlaciones OIF
3 5 6 24,146 1,170438624 20,629873
5 6 7 27,817 1,482486506 18,763746
4 5 6 26 1,432539051 18,149592
1 5 6 22,85 1,359634669 16,805985
2 5 6 23,273 1,404509225 16,570201
3 5 7 21,908 1,471619953 14,886996
4 5 7 23,762 1,807500342 13,146332
3 4 5 20,091 1,572172763 12,77913
2 5 7 21,035 1,846956134 11,389009
1 5 7 20,612 1,833036209 11,244732
1 3 5 16,941 1,552985644 10,908665
2 3 5 17,364 1,597608758 10,868744
2 4 5 19,218 1,890636127 10,164833
1 4 5 18,795 1,856056953 10,126306
60 Implementación del método máquinas de soporte vectorial en bases de datos
espaciales para análisis de clasificación supervisada en imágenes de sensores
remotos
1 2 5 16,068 2,001758784 8,0269412
4 6 7 19,237 2,704205099 7,1137356
3 6 7 17,383 2,569841088 6,7642315
1 6 7 16,087 2,454508784 6,5540609
2 6 7 16,51 2,568807642 6,4271064
3 4 6 15,566 2,64004761 5,8961058
1 4 6 14,27 2,44718324 5,8311939
2 4 6 14,693 2,582141348 5,6902385
1 3 6 12,416 2,345628309 5,2932513
2 3 6 12,839 2,490630357 5,1549199
3 4 7 13,328 2,679705138 4,9736815
1 2 6 11,543 2,418031822 4,7737172
1 4 7 12,032 2,659060978 4,5249056
2 4 7 12,455 2,763064455 4,5076762
1 3 7 10,178 2,483726086 4,0978754
2 3 7 10,601 2,597773503 4,0808023
1 2 7 9,305 2,697395179 3,4496243
1 3 4 8,361 2,626900807 3,1828381
2 3 4 8,784 2,761607473 3,1807562
1 2 4 7,488 2,783697083 2,6899479
1 2 3 5,634 2,651215211 2,1250632
El mayor valor de OIF corresponde a la combinación de bandas con menor correlación
entre ellas y con mayor desviación estándar para cada banda indicando la mayor
posibilidad de discriminación de coberturas estudiadas. Por lo tanto según el resultado
obtenido podemos afirmar que la mejor combinación de bandas corresponde al valor OIF
de 20,629873 es la combinación RGB – 356 de OLI, correspondiente al Verde, Infrarrojo
cercano, y SWIR 1. La combinación elegida se presenta en la figura 2-5:
Capítulo 2 61
Figura 2-5 Imagen Pseudocolor a partir del OIF 356
2.2.4 Almacenamiento de la imagen en la base de datos
En este paso se definen los parámetros para realizar el almacenamiento de las imágenes
en una base de datos espacial la cual será utilizada posteriormente para realizar la
clasificación supervisada de las imágenes.
La extensión para almacenamiento de imágenes para el gestor de base de datos
postgres se denomina Postgis la cual permite convertir datos raster que estén en
formatos soportados por GDAL en un archivo sql que posteriormente puede ser
ejecutado desde el motor de base de datos para crear la tabla raster correspondiente.
Esta a su vez permite importar directorios completos lo mismo que crear versiones
reducidas (overviews) de los datos raster.
Para importar una imagen a una tabla raster se debe tener una base de datos mínimo en
la versión PostGIS 2.0. Primero se ha creado una base de datos llamada “Postgis” tal
como se puede ver en la figura 2-6:
62 Implementación del método máquinas de soporte vectorial en bases de datos
espaciales para análisis de clasificación supervisada en imágenes de sensores
remotos
Figura 2-6 Creación de la base de datos con Postgis
Una buena práctica al importar datos raster es la de “cortarlo” en piezas (tiles en inglés)
que para nuestro caso, fueron, de 100x100 pixeles. Esta es una de las principales
ventajas de trabajar las imágenes sobre una base de datos ya que al crear los tiles se
corta la imagen en variar porciones las cuales tendrán un impacto directo sobre el tiempo
de procesamiento y el resultado obtenido. Igualmente, es conveniente utilizar la opción –
C para aplicar restricciones y asegurar que el raster tenga un registro apropiado en el
catálogo raster, la opción –I para crear un índice GIST de la tabla raster, lo mismo que la
opción –M para forzar el análisis de dicha tabla[71].
Para visualizar la información almacenada en la tabla creada llamada “Amazonas” se
utilizó el software QGIS la cual se puede observar en la figura 2-7 en donde se muestra
la composición de bandas definida anteriormente RGB356:
Capítulo 2 63
Figura 2-7 Imagen cargada en Qgis almacenada desde Postgis
2.3 Etapa de extracción de características
Para la extracción de características se debe analizar la imagen según la combinación de
bandas elegida anteriormente mediante el software que la realiza de manera automática,
teniendo en cuenta que es necesario realizar un estudio de las variables ecológicas de
vegetación más relevantes dentro de la zona de estudio, esto con el fin de poder
establecer de manera más precisa las clases que se deben tener en cuenta dentro del
algoritmo y comenzar a realizar una separación de pixeles según las características
identificadas.
Según el SIAT – AC (Sistema de información ambiental territorial de la amazonia) es
necesario establecer parámetros sólidos en cuanto a la tala indiscriminada de bosques
en la amazonia, sobre todo en las zonas aledañas a La Macarena desde el ordenamiento
territorial de los municipios a partir de una zonificación ambiental que permita identificar
prontamente las principales zonas afectadas. La Figura 2-8 muestra la estratificación de
la intervención por deforestación en la zona de estudio.
64 Implementación del método máquinas de soporte vectorial en bases de datos
espaciales para análisis de clasificación supervisada en imágenes de sensores
remotos
Figura 2-8 Estratos de intervención por deforestación en la zona de estudio
Fuente:[72]
Esta gran intervención ecológica provoca que muchas clases se encuentren muy
próximas entre si desde el punto de vista espectral ya que en muchas zonas la
deforestación se encuentra en diferentes niveles de impacto como se muestra en la
figura 2-8, per gracias a esta estratificación se simplifico en gran medida la separación de
la clase deforestación. Sin embargo, tomando en cuenta que la zona de estudio es en su
mayoría es selvática y para intensificar más la variabilidad, esta zona está dividida, a su
vez, en múltiples variables ecológicas de vegetación, las cuales se tomaron como base
para definir las demás clases establecidas dentro de la clasificación. Estas variables
ecológicas de vegetación se presentan en la Tabla 5.
Capítulo 2 65
Tabla 5 Variables ecológicas de vegetación zona la Macarena Meta
Fuente:[73].
1. TERRITORIOS AGRICOLAS
CULTIVOS PERMANENTES
PASTOS Coca
Pastos limpios
AREAS AGRICOLAS HETEREOGENEAS
Pastos Enmalezados Mosaico de Pastos y Cultivos Mosaico de Cultivos, Pastos y Espacios Naturales Mosaico de Cultivos, Espacios Naturales
2. BOSQUES Y AREAS SEMINATURALES
BOSQUES
Bosque Denso Alto de Tierra Firme
Bosque Denso Alto Inundable
AREAS CON VEGETACION HERBACEA Y/O ARBUSTIVA
Bosque Fragmentado con Pastos y Cultivos
Bosque Fragmentado con Vegetación Secundaria
Herbazal Denso de Tierra Firme no Arbolado
Herbazal Denso de Tierra Firme Arbolado
Herbazal Denso de Tierra Firme con Arbustos
Herbazal Abierto Rocoso
AREAS ABIERTAS SIN O CON POCA VEGETACIÓN Arbustal Denso
Arbustal Abierto
Vegetación Secundaria o en Transición
Zonas Arenosas Naturales
Zonas Quemadas
3. AREAS HUMEDAS
AREAS HUMEDAS CONTINENTALES Zonas Pantanosas
4. SUPERFICIES DE AGUA
En concreto, la región de La Macarena está caracterizada por la presencia de los 4
anteriores variables ecológicas de vegetación, los cuales se pueden etiquetar en 7 clases
66 Implementación del método máquinas de soporte vectorial en bases de datos
espaciales para análisis de clasificación supervisada en imágenes de sensores
remotos
espectrales distintas, algunas de ellas con un alto grado de heterogeneidad, es decir, con
un alto porcentaje de pixeles inciertos. Sobre todo, en la zona de caño cristales ya que se
caracteriza por la presencia de una enorme cantidad de vegetación con diferente
coloración, lo cual dificulta su clasificación. El proceso de clasificación de los pixeles de la
clase “Caño Cristales” es muy complicado, ya que se trata de una clase con un grado de
heterogeneidad extremadamente alto, y por lo tanto sus pixeles pueden cubrir un amplio
rango espectral en el espacio de características. Como consecuencia, los algoritmos de
clasificación basados en pixeles tienen una alta probabilidad de fallar con este tipo de
pixeles.
En esta región se encuentra además la clase “Casco Urbano”, es decir, la zona urbana,
que también se trata de una clase bastante heterogénea porque agrupa pixeles con
diferentes características espectrales, como construcciones y vías que se pueden
confundir con la clase “suelo desnudo” la cual también es muy heterogénea. Los
algoritmos de clasificación también suelen fallar con los pixeles de estas clases.
La imagen de satélite se caracteriza además por la presencia de otras clases de
heterogeneidad media, como “Bosque Natural”, “Bosque fragmentado”, y “Cuerpos de
agua”. Finalmente, esta región también se caracteriza por la presencia de la clase “Vías”,
con un bajo nivel de heterogeneidad.
Por lo anterior y para efecto del Proyecto se adoptaron las categorías de cobertura de la
Tierra de la leyenda CORINE Land Cover adaptada para Colombia a escala
1:100.000[74]. Los distintos niveles y clases de este sistema de clasificación de
coberturas de la Tierra, se adaptan a las necesidades de identificación de categorías de
uso. La Tabla 6 muestra las características de las 7 clases que se pueden encontrar en la
imagen de satélite.
Capítulo 2 67
Tabla 6 Características principales de las 7 clases presentes en la imagen satelital
CLASE COBERTURA VARIABLE DE VEGETACIÓN
NOMBRE CLASE
HETEROGENEIDAD
C1
4
Cuerpos de agua
Media
C2
2
Bosque fragmentado
Media
C3
2
Bosque natural
Media
C4
1
Casco urbano
Alta
C5
4
Caño cristales
Alta
68 Implementación del método máquinas de soporte vectorial en bases de datos
espaciales para análisis de clasificación supervisada en imágenes de sensores
remotos
C6
2
Suelo desnudo
Alta
C7
1
Vías
Baja
Una vez definidas las características de entrenamiento se creó un archivo shape donde
se digitalizaron cada uno de los polígonos de entrenamiento sobre la imagen y se creó
otro archivo shape para generar los polígonos de prueba los cuales se almacenaron
dentro de la base de datos espacial.
Postgis dispone de un comando para la importación de ficheros en formato shape
denominado shp2pgsql, este comando se invoca desde la consola del sistema e importa
tanto los datos espaciales como los datos temáticos asociados y a su vez crea un fichero
.sql donde se incluyen las sentencias sql necesarias para la creación de la tabla y carga
de cada uno de los registros. Este comando se utilizó para la importación de la
información geográfica necesaria para la descripción de las características consideradas
para el entrenamiento de la máquina y los polígonos de prueba para la validación.
Posterior a esto se definió una sentencia sql dentro de la base de datos que permitió
ejecutar una función de análisis espacial denominada intersección entre los polígonos de
entrenamiento almacenados con el nombre “clases” y los pixeles de la imagen
denominada dentro de la base de datos “amazonas” para de esta manera definir las
zonas consideradas como verdad absoluta de terreno y asociarle los niveles digitales
correspondientes a cada una de las clases definidas anteriormente. Esta consulta se
presenta a continuación:
Capítulo 2 69
CREATE TEMPORARY VIEW consulta1 AS
SELECT class_id,ST_UNION(ST_CLIP(rast, ST_Transform(geom, ST_SRID(rast)))) rast
FROM amazonas, clases WHERE ST_INTERSECTS(rast, geom) GROUP BY class_id
La anterior consulta crea una tabla temporal llamada “consulta1” dentro de la cual
almacena el valor del atributo “class_id” el cual corresponde a la nomenclatura asignada
a cada una de las clases de entrenamiento y que por lo tanto vienen del archivo shape
“clases” creado con los polígonos de verdad terreno, posterior a esto la consulta
relaciona cada uno de los valores de los pixeles presentes en la imagen “amazonas” que
están por dentro de esos polígonos de entrenamiento, definidos a través de la función
“ST_Clip” la cual recorre pixel a pixel la imagen y genera un recorte de la misma solo con
aquellos registros de pixeles que se encuentran dentro de algún polígono de
entrenamiento, cumpliendo con la particularidad de recortar los pixeles si y solo si el
centroide de este se encuentra dentro del polígono, esto es muy importante ya que
gracias a esta particularidad se estableció una condición de frontera que permite eliminar
ruido en la muestra ya que un pixel no es seleccionado solamente por intersectarse con
algún polígono, sino que es necesario que su punto central también este contenido
dentro de este y con lo cual se establece una selección de pixeles más acertada ya que
dentro del entrenamiento se buscó hacer la selección de pixeles lo más homogénea
posible. Esta particularidad se representa gráficamente en la figura 2-10.
Figura 2-9 Selección de pixeles.
Fuente: Elaboración Propia
70 Implementación del método máquinas de soporte vectorial en bases de datos
espaciales para análisis de clasificación supervisada en imágenes de sensores
remotos
Luego de haber realizado el recorte de los pixeles que están dentro de los polígonos de
entrenamiento la consulta a través de la función “ST_Union” reconstruye cada una de las
partes de la tabla solo con los pixeles que cumplen con la característica de frontera
mencionada anteriormente y los agrupa dentro de la tabla, dándole paso a la
implementación de la sentencia “Where” dentro de la consulta, la cual genera la
intersección entre los pixeles resultantes y las clases definidas a partir de sus
coordenadas geográficas, asignando de esta manera un único valor de clase a cada pixel
dentro de la imagen, los cuales se utilizaron como entrenamiento para el proceso de
clasificación.
Posterior a esto se utilizó la siguiente consulta con el fin de obtener los valores de los
niveles digitales de cada uno de los pixeles en cada una de las bandas con su respectiva
asociación de clase según se definió en la consulta anterior:
SELECT st_value(rast,1,(st_pixelascentroids(rast)).geom) as nd1,
…………st_value(rast,2,(st_pixelascentroids(rast)).geom) as nd2,
…………st_value(rast,3,(st_pixelascentroids(rast)).geom) as nd3,
class_id FROM consulta1
Tabla 7 Consulta polígonos verdad terreno
Capítulo 2 71
El cruce entre la imagen y los polígonos de verdad terreno generaron un total de 16.490
registros los cuales se utilizaron dentro del entrenamiento de la máquina.
Finalmente se debe aclarar que este mismo procedimiento se utilizó con los polígonos
que definimos para realizar las pruebas de validación del modelo los cuales son
diferentes a los polígonos de verdad terreno.
2.4 Clasificación (Maquinas de soporte vectorial)
Este proyecto de investigación propone un algoritmo de clasificación de imágenes
supervisado, basado en el algoritmo de clasificación máquinas de soporte vectorial. El
algoritmo se implementó directamente sobre una base de datos espacial desde el gestor
Postgres aprovechando las propiedades raster definidos en la extensión Postgis sobre
las imágenes, con el propósito de implementar un proceso de clasificación supervisado
espectral.
Por lo tanto en esta etapa se aplicó el algoritmo planteado en la etapa de desarrollo
sobre una imagen satelital Landsat 8 OLI para una zona piloto en la Macarena Meta
perteneciente a la amazonia colombiana para lo cual se definió como temática para la
clasificación la deforestación, se analizó el comportamiento del algoritmo comparándolo
con los paquetes de procesamiento digital de imágenes ENVI para el caso de uso de
software comercial y ORFEO para el caso de software libre, y se establecieron las
ventajas y desventajas de cada uno de los algoritmos y se comparó a través de cada
matriz de confusión y coeficiente Kappa el rendimiento de cada clasificador y se concluyó
según los resultados obtenidos.
Esta es la última fase del sistema propuesto, que es donde se asigna la clase a las
diferentes coberturas que se van a reconocer. Una vez descritos los objetos según todas
las características, es necesaria la asignación de los objetos a una de las clases de la
leyenda.
2.4.1 Entrenamiento
Para el entrenamiento de los datos se requiere el vector de características de cada una
de las coberturas a clasificar. El proceso se hace del siguiente modo: Para los datos de
entrada que pertenecen a una cierta clase, sus respectivos vectores de características se
colocan en una matriz X en forma de columnas. Cabe mencionar que se deben colocar
72 Implementación del método máquinas de soporte vectorial en bases de datos
espaciales para análisis de clasificación supervisada en imágenes de sensores
remotos
primero todos los datos que pertenecen a una clase y después todos los que pertenecen
a la siguiente clase. Para cada dato de entrada X le corresponde una salida Y por lo que
tenemos una pareja (x, y).[76] En este sentido se debe indicar al método de
entrenamiento cuál es la salida Y que le corresponde a cada entrada X.
En la figura 2-11 podemos apreciar los polígonos de entrenamiento utilizados durante el
proceso de clasificación:
Figura 2-10 Polígonos de entrenamiento
2.4.2 Clasificación
Una vez hecho el entrenamiento, lo que sigue es clasificar los datos. Una buena
clasificación depende de que los datos estén bien entrenados, es decir, si el vector de
características de cada cobertura, efectivamente es diferente a los demás, la clasificación
se hará de manera correcta.
Capítulo 2 73
La clasificación realizada se basa en el algoritmo de máquinas de vectores soporte
(MSV) y se utilizó un clasificador lineal muy sencillo. El clasificador lineal empleado
obtiene la línea (para 2 dimensiones o el hiperplano para un mayor número de
dimensiones) que separe limpiamente las dos clases maximizando la distancia a la
frontera de los ejemplos más próximos a la misma.
El algoritmo es muy eficiente incluso para cientos de dimensiones, ya que el separador
lineal puede tener únicamente en cuenta los puntos más próximos y descartar los más
lejanos a la frontera.
2.4.3 Validación de la clasificación de imágenes
Para la validación de la clasificación existen dos posibilidades, evaluar una estimación
teórica del error en función de las características del algoritmo de clasificación o analizar
una serie de áreas test obtenidas del mismo modo que las áreas de entrenamiento. Para
el presente proyecto de investigación se ha implementado el segundo modo de proceder
ya que permite obtener una estimación más realista de los errores mientras la muestra de
pixeles para la estimación del error sea lo suficientemente grande y representativa.
Para la evaluación de los errores se utilizó una matriz de confusión de clases ya que con
este tipo de análisis, se obtuvo, no sólo una caracterización del error cometido, sino
también una medida sobre la adecuación de la clasificación considerada a la realidad y
de los parámetros utilizados para caracterizarlas.
2.5 Herramientas utilizadas para la investigación
En este apartado se describen las herramientas más importantes utilizadas para
desarrollar el trabajo de investigación de esta tesis de maestría: por un lado los paquetes
de tratamiento de imágenes Erdas Imagine, ENVI y ORFEO y por otro lado el gestor de
bases de datos PostgreSQL y su extensión espacial PostGis así como el lenguaje de
programación utilizado Python.
2.5.1 Erdas Imagine
Erdas Imagine es una herramienta software relacionada con el ámbito de la teledetección
que proporciona las técnicas más avanzadas en el análisis de imágenes de satélite y
74 Implementación del método máquinas de soporte vectorial en bases de datos
espaciales para análisis de clasificación supervisada en imágenes de sensores
remotos
modelado espacial para la generación de nueva información[77]. Con Erdas Imagine se
pueden visualizar los resultados en 2D y 3D, crear videos y composiciones de mapa,
corregir geométricamente las imágenes, así como analizar, clasificar y automatizar la
realización de mapas generados de imágenes para una gran variedad de aplicaciones.
Soporta múltiples formatos compatibles con otras herramientas disponibles en el
mercado, permitiendo tanto importar como exportar los resultados obtenidos. Para
desarrollar gran parte del trabajo de investigación de esta tesis se ha usado la versión
2014 de Erdas Imagine.
Esta herramienta se eligió principalmente para realizar todo lo relacionado con el recorte
y reescalado de la imagen, además se tomó como herramienta de apoyo en el cálculo del
OIF de la cual se exporto la combinación de imágenes resultante ya que ha demostrado
tener una forma muy sencilla de estandarizar las imágenes, además de permitir el trabajo
con múltiples imágenes en simultánea.
Figura 2-11 Interfaz gráfica de Erdas Imagine 2014. Imagen de satélite: Amazonas 2017.
2.5.2 ENVI
ENVI es un sistema de procesamiento digital de imágenes diseñado para proporcionar un
análisis exhaustivo de imágenes y datos de teledetección remota. Proporciona un
Capítulo 2 75
poderoso, entorno para visualizar y analizar imágenes de cualquier tamaño y tipo de
datos en un amplio rango de plataformas informáticas[77].
Con su enfoque combinado de archivos y bandas para el procesamiento de imágenes,
ENVI permite trabajar con archivos de imágenes completos, bandas individuales o
ambos, además cada banda espectral queda disponible para todas las funcionalidades
del sistema. Con múltiples archivos de entrada, puede seleccionar fácilmente bandas de
diferentes archivos para ser procesadas juntos. También incluye herramientas para
extraer espectros, utilizar bibliotecas espectrales y analizar conjuntos de datos de
imágenes de alta resolución espectral como AVIRIS, GERIS y GEOSCAN y HyMap.
Además proporciona capacidades especializadas para el análisis de conjuntos de datos
SAR avanzados tales como SIR-C de JPL, AIRSAR y TOPSAR.
ENVI está escrito completamente en IDL, el Lenguaje de Datos Interactivo. IDL es un
lenguaje de programación estructurado basado en arreglos que proporciona una imagen
integrada y capacidades de procesamiento, visualización y un kit de herramientas GUI
fácil de usar[77].
Adicional a esto ENVI combina procesamiento de imágenes avanzado y provee
tecnologías para el análisis geoespacial para ayudar a extraer información importante
que mejore la toma decisiones.
Entre los métodos de clasificación supervisada cuenta con el algoritmo Support Vector
Machine Classification el cual requiere como insumo la imagen a clasificar junto con los
archivos vector que poseen las muestras de entrenamiento de clases que se quieren
extraer en la clasificación[5].
76 Implementación del método máquinas de soporte vectorial en bases de datos
espaciales para análisis de clasificación supervisada en imágenes de sensores
remotos
Figura 2-12 Interfaz gráfica de ENVI. Imagen de satélite: Amazonas 2017.
2.5.3 Orfeo Toolbox
Orfeo Toolbox es una biblioteca de código abierto en C para el procesamiento de
imágenes satelitales, distribuido bajo la licencia CeCILL-v2. Este software fue iniciado por
el CNES (Agencia Espacial Francesa) en el marco del programa ORFEO para preparar,
acompañar y promover el uso y la explotación de las imágenes derivadas de los satélites
Pléiades. Orfeo Toolbox tiene como objetivo permitir el procesamiento avanzado de
imágenes de gran tamaño incluso en computadoras portátiles de recursos limitados. Este
software suministra un conjunto de herramientas listas para su uso para las tareas
clásicas de teledetección, así como un totalmente integrado de software aplicativo
llamado Monteverdi[78].
Capítulo 2 77
Figura 2-13 Interfaz gráfica de Monteverdi (extensión ORFEO Toolbox). Imagen de satélite: Amazonas 2017.
2.5.4 PostgreSQL
PostgreSQL es un manejador de bases de datos relacionales, de tipo cliente / servidor.
Este ofrece una mezcla única de características que lo equiparan con los grandes
manejadores de bases de datos tales como Oracle (Free and Open Source Software
from Oracle), Sybase (Sybase: Managing, Analyzing and Mobilizing Information. Sybase
Inc), DB2 (DB2 Express C. IBM.), entre otros. Una de las mayores ventajas que ofrece
PostgreSQL es que su código es abierto (se puede ver su código fuente) ya que
PostgreSQL no es propiedad de una sola compañía sino que es mantenido, desarrollado
y actualizado por un grupo de desarrolladores voluntarios alrededor del mundo[79].
Para esta investigación es fundamental contar con sistema manejar de bases de datos
que cuente un módulo avanzado de procesamiento de información espacial y esta es una
de las razones por la que se ha seleccionado como la plataforma donde se realizará la
extensión propuesta ya que a pesar de existir en el mercado actual distintos manejadores
de bases de datos como MySQL (MySQL AB), Oracle, DB2, Microsoft SQL Server
(Microsoft SQL Server 2005 Express Edition), entre otros; estos no proveen buenos
módulo de procesamiento de información espacial y mucho menos de información de
raster y además la documentación existente sobre los mismos es muy escasa, por lo que
es imposible su extensión y modificación para los efectos de esta investigación.
78 Implementación del método máquinas de soporte vectorial en bases de datos
espaciales para análisis de clasificación supervisada en imágenes de sensores
remotos
2.5.5 PostGIS
Es un complemento del motor de base de datos PostgreSQL, que permite administrar
información espacial de manera similar a ESRI SDE o al plugin de Oracle Spatial.
Permite la implementación de funciones y ejecución de consultas SQL espaciales,
cumpliendo con las especificaciones de OpenGIS “Simple Features Specification for
SQL”[80].
Existen varias herramientas libres que trabajan con PostGIS. El proyecto uDig está
trabajando de manera directa con PostGIS ejecutando tanto la lectura y escritura en un
ambiente de escritorio. En vía web se encuentra MapServer que puede utilizar PostGIS
como fuente de datos. El conjunto de herramientas GeoTools tienen soporte para
PostGIS, al igual que el servidor GeoServer. GRASS soporta PostGIS como fuente de
datos. El visualizador Open JUMP cuenta con un complemento que le permite leer datos
de PostGIS, también el proyecto QGIS tiene un buen soporte para el manejo de este
motor de base de datos[81].
La información almacenada en una base de datos de PostGIS puede ser exportada a una
gran variedad de formatos usando un conjunto de librerías OGR escritas en C++, así
como un sin número de herramientas de línea de comando. Y por supuesto, cualquier
lenguaje de programación que pueda trabajar con PostgreSQL puede trabajar con
PostGIS por ejemplo Perl, PHP, Python, TCL, C, C++, Java, C#, y más[81].
Entre las características más importantes de PostGIS se encuentra[80]:
Alto rendimiento, debido a que utiliza la menor cantidad de recursos posibles para
la representación de geometrías y manejo de la estructura de los indicies. Una
menor representación.
Incluye soporte para índices GiST basados en R-Tree y funciones para el análisis
de objetos GIS.
Permite manejar todas las geometrías que aparecen en las especificaciones
OpenGIS como puntos, líneas, polígonos, multilíneas, multipuntos, y colecciones
geográficas.
Capítulo 2 79
Permite trabajar formatos de tipo raster con el cual se pueden hacer operaciones
por medio de consultas SQL que combine análisis espacial entre geometrías de
tipo vectorial y raster.
Gracias a estas características y sobre todo la última hace de postgreSQL + postGIS una
herramienta ideal y fundamental dentro del presente trabajo de investigación ya que al
ser una herramienta de código abierto con tan avanzados desarrollos en cuanto a
información espacial vectorial y raster facilitan el análisis de los componentes necesarios
para la realización de una clasificación supervisada apoyado desde el gestor de bases de
datos y almacenando los resultados dentro de la misma base de datos espacial.
Figura 2-14 Interfaz gráfica de PostgreSQL + Extensión PostGIS.
2.5.6 Python
Python es un lenguaje de programación poderoso y fácil de aprender. Cuenta con
estructuras de datos eficientes y de alto nivel y un enfoque simple pero efectivo a la
programación orientada a objetos. La elegante sintaxis de Python y su tipado dinámico,
junto con su naturaleza interpretada, hacen de éste un lenguaje ideal para scripting y
desarrollo rápido de aplicaciones en diversas áreas y sobre la mayoría de las
plataformas[82].
80 Implementación del método máquinas de soporte vectorial en bases de datos
espaciales para análisis de clasificación supervisada en imágenes de sensores
remotos
El intérprete de Python y la extensa biblioteca estándar están a libre disposición en forma
binaria y de código fuente para las principales plataformas desde el sitio web de Python,
y puede distribuirse libremente. El mismo sitio contiene también distribuciones y enlaces
de muchos módulos libres de Python de terceros, programas y herramientas, y
documentación adicional.
El intérprete de Python puede extenderse fácilmente con nuevas funcionalidades y tipos
de datos implementados en C o C++ (u otros lenguajes accesibles desde C). Python
también puede usarse como un lenguaje de extensiones para aplicaciones
personalizables[82].
Este lenguaje provee muchas opciones de integración dentro de los SIG, puesto que
posee capacidades de plataforma cruzada y fácil integración con otros lenguajes como
por ejemplo C, C++, FORTRAN y Java. Python posee una gran cantidad de librerías y
herramientas desarrolladas para el trabajo con datos geográficos e integración SIG, ya
que permite la manipulación de shapefiles y formatos raster.
Para el trabajo con vectores python posee una librería “open source” llamada Shapelib la
cual funciona con shapefiles; para el trabajo con elementos raster integra la librería (open
source) GDAL que permite trabajar con diversos formatos como ArcInfo grids, JPEG
2000, BSP, United States Geological Survey digital elevation model, entre otros. GDAL
en combinación con Python tiene la facilidad para escribir operaciones de algebra de
mapas y generar los resultados en los formatos soportados[82].
Capítulo 2 81
Figura 2-15 Ambiente de programación con python.
Capitulo 2 82
3. Resultados Obtenidos
El algoritmo desarrollado dentro del presente proyecto de investigación para la
clasificación supervisada de imágenes mediante el método de máquinas de soporte
vectorial, ha sido implementado, experimentado y validado a partir del área de estudio
definida. Los resultados obtenidos por parte del algoritmo han sido muy satisfactorios
desde varios puntos de vista, y ha alcanzado todos los objetivos principales propuestos,
además podemos afirmar que la hipótesis planteada en el objetivo general sobre lograr
diseñar e implementar un algoritmo que permita realizar una clasificación supervisada de
imágenes almacenadas en una bases de datos espacial que cumpla con los estándares
de clasificación y genere un mapa de coberturas de usos del suelo acorde a la realidad,
ha sido validada y comprobada y se puede definir como una hipótesis aceptada a partir
de los siguientes resultados.
3.1 Objetivo # 1: Desarrollar e implementar el algoritmo de clasificación supervisada sobre una base de datos espacial.
El algoritmo está formado por una combinación de componentes relacionados con el
ámbito de la teledetección y componentes relacionados con el modelo matemático de las
máquinas de soporte vectorial.
Como ya se ha comentado, el alto grado de heterogeneidad de ciertas clases de la
región de estudio complica bastante la clasificación de sus pixeles y, en consecuencia,
disminuye la tasa de acierto de los algoritmos de clasificación supervisada aplicados a la
imagen de satélite. Sin embargo, la tasa de acierto del algoritmo desarrollado en el
presente trabajo de investigación es mayor que la de otros software que implementan la
clasificación supervisada por el método de máquinas de soporte vectorial, ya que utiliza
algunas técnicas contextuales del análisis espacial vectorial, gracias al almacenamiento
en la base de datos espacial a partir de consultas SQL en función de seleccionar los
Capítulo 3 83
pixeles con más alta probabilidad de pertenecer a la clase estudiada, ya que se establece
la condición de seleccionar el pixel si y solo si el centroide de este, se intercepta con el
polígono de entrenamiento, esto con el objetivo de mejorar la clasificación en los pixeles
inciertos y ruidosos, ya que al digitalizar los polígonos de entrenamiento no se tiene la
suficiente precisión para encerrar solamente lo que realmente pertenece a cada clase, lo
cual genera problemas en la selección de los pixeles en los bordes de cada polígono.
Adicional a esto el algoritmo planteado mejora su rendimiento gracias al proceso de
teselado que se realiza durante el almacenamiento en la base de datos, ya que al dividir
la imagen en porciones definidas por el usuario se logra optimizar el recurso
computacional y agiliza las consultas SQL, además gracias al proceso de indexado, se
consigue optimizar la búsqueda de los pixeles, permitiendo que al momento de aplicar el
algoritmo de clasificación, este se ejecute de manera más rápida y segura, reduciendo la
probabilidad de fallo del algoritmo.
3.2 Objetivo # 2: Preparación de las imágenes de acuerdo a la zona de estudio
Una vez realizado el proceso de preparación de las imágenes, se ha definido una imagen
con las siguientes características:
Tabla 7 Características de la imagen procesada
Procesamiento Características Nivel 1
Tamaño de pixel Bandas Oli Multierspectrales 1-7: 30 metros
Características de los datos
Formato de datos Geotiff
Norte arriba (MAP) orientación
Proyección cartográfica: Universal Transversa de Mercator (UTM)
Datum del sistema Geodésico Mundial (WGS84)
12 Metros de error circular, 90% de confianza exactitud global para OLI
41 metros de error circular, 90% de confianza exactitud global para TIRS
Los valores del pixel en 8 Bits
Tamaño: 2048 x 2048
Mejor combinación de imágenes: 356
84 Implementación del método máquinas de soporte vectorial en bases de datos
espaciales para análisis de clasificación supervisada en imágenes de sensores
remotos
3.3 Objetivo # 3: Comprobar la aplicabilidad de la extensión mediante un caso de estudio
Dentro de los objetivos planteados en el presente proyecto de investigación, se
estableció comprobar la aplicabilidad de la extensión mediante un caso de estudio y
además la comparación del funcionamiento del algoritmo respecto a otros softwares que
implementan la clasificación supervisada de imágenes por el método de máquinas de
soporte vectorial para validar su funcionamiento.
La comparativa de la extensión desarrollada con otros softwares de clasificación se ha
llevado a cabo sobre una imagen de satélite Landsat 8 OLI, dentro de la cual se
seleccionó la mejor combinación de bandas 356 a partir del OIF, con una resolución
espacial de 30x30m. La región de estudio elegida fue el municipio de La Macarena,
perteneciente al departamento del Meta, el cual es limítrofe con la Amazonia Colombiana
por el norte. El caso de estudio planteado dentro de esta investigación corresponde al
análisis de la deforestación en esta región y se ha sometido a comparación por dos
softwares seleccionados principalmente por cumplir las características de
implementación del algoritmo máquinas de soporte vectorial en clasificación de imágenes
de sensores remotos y por ser en el caso de ENVI un software licenciado y para ORFEO
por ser libre de licenciamiento.
3.3.1 Clasificación MSV con ENVI.
A continuación se presenta el resultado obtenido a partir de la información de
entrenamiento:
Capítulo 3 85
Figura 3-1 Mapa resultante de la clasificación supervisada MSV utilizando el software comercial ENVI
Como se puede observar en la imagen anterior tenemos que la clasificación realizada a
tenido un resultado muy bueno desde la perspectiva de la evaluación visual ya que las
diferentes clases están muy bien definidas aunque en algunos casos como lo son las
coberturas de “cuerpos de agua” y “casco urbano” presentan un poco de confusión ya
que algunos pixeles presentan características similares entre las dos coberturas,
generando confusión, además de ser dos coberturas que como lo mencionamos
anteriormente tienen un alto grado de heterogeneidad.
3.3.2 Clasificación MSV con ORFEO Toolbox
Ahora analizaremos los resultados obtenidos a partir de la clasificación supervisada con
el algoritmo MSV con el software libre Monteverdi y su extensión para imágenes raster
ORFEO Toolbox:
86 Implementación del método máquinas de soporte vectorial en bases de datos
espaciales para análisis de clasificación supervisada en imágenes de sensores
remotos
Figura 3-2 Mapa resultante de la clasificación supervisada MSV utilizando el software libre Monteverdi (Orfeo)
Al analizar la imagen resultante de la clasificación realizada con el software Monteverdi,
se observa que la clasificación genera muy buenos resultados ya que cada una de las
clases propuestas dentro de esta investigación están bien definidas, sin embargo al
igual que con ENVI las clases “cuerpos de agua” y “casco urbano” generan un poco de
confusión por su alto grado de heterogeneidad.
3.3.3 Clasificación MSV con el aplicativo desarrollado
Finalmente veremos los resultados obtenidos a partir del clasificador desarrollado en el
presente proyecto a partir del almacenamiento de las imágenes en una base de datos
espacial.
Capítulo 3 87
Figura 3-3 Mapa resultante de la clasificación supervisada MSV utilizando el aplicativo desarrollado
Analizando la imagen clasificada con el aplicativo desarrollado durante esta tesis de maestría,
el resultado es satisfactorio ya que cada una de las clases están bien definidas y se logra ver
claramente la disociación entre las mismas.
Cada elemento de la imagen ha sido clasificado y podemos ver claramente el avance de la
deforestación indiscriminada de la zona, en concordancia con lo planteado en la figura 2-8,
según la estratificación de la desforestación, de la cual para evidenciar mejor situación se
representara en la figura 3-4 donde se superpuso la calificación realizada con el mapa de
estratificación de la deforestación.
88 Implementación del método máquinas de soporte vectorial en bases de datos
espaciales para análisis de clasificación supervisada en imágenes de sensores
remotos
Figura 3-4 Mapa resultante de la clasificación supervisada MSV utilizando el aplicativo
desarrollado versus la estratificación de la deforestación en la zona de estudio
Según la figura 3-4 se representa como ha sido el efecto negativo de la intervención del
hombre sobre los bosques en la amazonia, y se puede observar como la clasificación obtenida
representa en gran medida estos efectos ya que coincide la clase deforestación con los
polígonos de estratificación de la deforestación catalogados como de mayor impacto sobre la
zona.
3.4 Objetivo # 4: Comparar los resultados obtenidos con otros softwares especializados en clasificación supervisada
La comparativa de la extensión desarrollada con otros softwares de clasificación se ha
llevado a cabo sobre la misma imagen satelital, los mismos polígonos de entrenamiento y
Capítulo 3 89
polígonos de comprobación en los tres casos para de esta manera establecer un
parámetro de evaluación a partir del coeficiente Kappa el cual permitió comparar los
resultados.
3.4.1 Matriz de confusión ENVI
En la tabla 8 se evaluó la clasificación realizada a partir de la matriz de confusión y se
midió por medio de un criterio matemático la exactitud temática de la clasificación.
Tabla 8 Matriz de confusión clasificación supervisada MSV utilizando el software comercial ENVI
Validación
Total Comisión
EU(%) RP(%)
Caño Cristales
Cuerpos de Agua
Casco Urbano
Deforestación Vías Suelo
Desnudo Bosque Natural
PR
EDIC
CIO
N
Caño Cristales 3.153 - - 133 8 8 - 3.302 149
96% 4%
Cuerpos de Agua - 2.027 - - - - - 2.027 -
100% 0%
Casco Urbano - - 234 - 26 - - 260 26
91% 9%
Deforestación 4 - 2 5.585 56 5 - 5.652 67
99% 1%
Vías - - 4 - 72 - - 76 4
95% 5%
Suelo Desnudo 83 - 60 2.375 391 2.778 - 5.687 2.909
66% 34%
Bosque Natural - - - 982 - - 13.605 14.587 982 94% 6%
Total 3.240 2.027 300 9.075 553 2.791 13.605 31.591
Omisiones 87 - 66 3.490 481 13 -
RP(%) 2,61% 0,00% 18,03% 27,78% 46,52% 0,46% 0,00%
EP/%) 97% 100% 82% 72% 53% 100% 100%
Como se puede observar la clasificación ha tenido un buen resultado ya que su
porcentaje de acuerdo es superior al 80% al igual que su coeficiente Kappa, sin embargo
cabe resaltar que para las clases Deforestación y Suelo desnudo existe un alto grado de
confusión ya que son clases muy similares, aunque en su gran mayoría el clasificador
logro realizar una buena separación entre las clases.
Índices Globales Porcentaje de Acuerdo: 86,90%
Coeficiente Kappa: 0,8178
90 Implementación del método máquinas de soporte vectorial en bases de datos
espaciales para análisis de clasificación supervisada en imágenes de sensores
remotos
3.4.2 Matriz de confusión MONTEVERDI (ORFEO)
Dado que en la evaluación visual de la imagen se evidencian algunas confusiones entre
clases es necesario analizar la matriz de confusión para concluir que tan buena resulta
esta clasificación ya que visualmente el más óptimo es el resultado obtenido con el
software ENVI:
Tabla 9 Matriz de confusión clasificación supervisada MSV utilizando el software libre Monteverdi (Orfeo)
Validación
Total Comisión
EU(%) RP(%)
Caño Cristales
Cuerpos de Agua
Casco Urbano
Deforestación Vías Suelo
Desnudo Bosque Natural
PR
EDIC
CIO
N
Caño Cristales 3.114 - - 30 - 58 - 3.202 88
97% 3%
Cuerpos de Agua - 2.001 - - - - - 2.001 -
100% 0%
Casco Urbano - - 239 - - 2 - 241 2
99% 1%
Deforestación 132 - 88 5.601 4 2.278 985 9.088 3.487
72% 28%
Vías 5 - 107 50 12 434 - 608 596
50% 50%
Suelo Desnudo 8 - - 8 - 2.727 - 2.743 16
99% 1%
Bosque Natural - - - - - - 13.607 13.607 - 100% 0%
Total 3.259 2.001 434 5.689 16 5.499 14.592 31.490
Omisiones 145 - 195 88 4 2.772 985
RP(%) 4,26% 0,00% 31,00% 1,52% 20,00% 33,51% 6,32%
EP/%) 96% 100% 69% 98% 80% 66% 94%
Tal y como se esperaba las mayores confusiones se presentaron en las coberturas
Deforestación, y Vías siendo esta ultima la que mayor porcentaje de error presenta.
Sin embargo al realizar una evaluación general al coeficiente Kappa podemos afirmar que
es una clasificación aceptable ya que supero el umbral del 80% de acierto aunque
definitivamente el algoritmo de máquinas de soporte vectorial configurado para esta
herramienta tienen un rendimiento un poco más bajo que el de ENVI.
Indices Globales Porcentaje de Acuerdo: 86,69%
Coeficiente Kappa: 0,8146
Capítulo 3 91
Se debe aclarar que el número de pixeles tomados como referencia en la evaluación de
la exactitud temática de la clasificación depende de la forma como cada software procesa
la información y selecciona los pixeles, como se evidencia Monteverde procesa la
información diferente a ENVI y por tal motivo el número de pixeles tomados en las
muestras son diferentes.
3.4.3 Matriz de confusión con el aplicativo desarrollado
Ahora comprobaremos los resultados obtenidos a través de la matriz de confusión y su
respectivo coeficiente Kappa para el software desarrollado durante este trabajo de
investigación.
Tabla 10 Matriz de confusión clasificación supervisada MSV utilizando el software desarrollado
Validación
Total Comisión
EU(%) RP(%)
Caño Cristales
Cuerpos de Agua
Casco Urbano
Deforestación Vías Suelo
Desnudo Bosque Natural
PR
EDIC
CIO
N
Caño Cristales 3.120 - - 24 - 58 - 3.202 82
98% 2%
Cuerpos de Agua
- 2.001 - - - - - 2.001 -
100% 0%
Casco Urbano - - 239 - - 2 - 241 2
99% 1%
Deforestación 140 1 88 5.585 4 2.285 985 9.088 3.503
72% 28%
Vías 5 - 12 54 107 430 - 608 501
55% 45%
Suelo Desnudo 8 - - 8 - 2.727 - 2.743 16
99% 1%
Bosque Natural - - - - - - 13.607 13.607 - 100% 0%
Total 3.273 2.002 339 5.671 111 5.502 14.592 31.490
Omisiones 153 1 100 86 4 2.775 985
RP(%) 4,47% 0,05% 22,78% 1,49% 3,48% 33,53% 6,32%
EP/%) 96% 100% 77% 99% 97% 66% 94%
En la tabla 11 se analizan los resultados obtenidos con cada uno de los softwares
implementados:
Índices Globales Porcentaje de Acuerdo: 86,96%
Coeficiente Kappa: 0,8184
92 Implementación del método máquinas de soporte vectorial en bases de datos
espaciales para análisis de clasificación supervisada en imágenes de sensores
remotos
Tabla 11 Comparación de los resultados obtenidos
MSV % ACUERDO COEFICIENTE KAPPA
ENVI 86,90% 0,8178
MONTEVERDI (ORFEO) 86,69% 0,8146
ALGORITMO DESARROLLADO 86,96% 0,8184
Como se puede observar en la tabla 11 el clasificador desarrollado en esta tesis de
maestría fue el que mejor eficiencia presento ya que tuvo el índice Kappa más alto entre
las 3 clasificaciones propuestas, esto se ve reflejado tanto en la imagen como en su
matriz de confusión cumpliendo así con el objetivo planteado de lograr realizar una
clasificación con un alto índice de exactitud temática.
Como consecuencia, el algoritmo desarrollado optimiza la funcionalidad general de
cualquier clasificación que se realice, y cuyo funcionamiento se base en la identificación
adecuada de los pixeles de las imágenes en sus clases correspondientes, debido a que
mejora la tasa de acierto de la clasificación de las imágenes al tomar como base la
selección de pixeles incluyendo solamente aquellos pixeles que cumplan con la
condición de tener su centroide dentro del polígono de entrenamiento o validación
según sea el caso. Por lo tanto, respecto a la evaluación temática del clasificador los
resultados obtenidos por parte del algoritmo con una imagen de satélite con complejidad
alta son muy buenos.
Capitulo 2 93
4. Conclusiones y recomendaciones
4.1 Conclusiones
En la actualidad no se encontró evidencia de investigaciones relacionados con la
implementación de técnicas de procesamiento de imágenes almacenadas en una base
de datos espacial. Durante el desarrollo de este trabajo de investigación, se ha
implementado un algoritmo de clasificación de imágenes basado en máquinas de soporte
vectorial el cual logro alcanzar su objetivo principal, el cual fue: generar una clasificación
supervisada de imágenes de usos y coberturas del suelo con altos estándares de
exactitud temática procesando esta información desde una base de datos espacial.
La aplicación utilizo el lenguaje SQL para implementar consultas estructuradas de
análisis espacial convencional a favor de mejorar la selección de pixeles al momento de
intersecarlos con las clases de entrenamiento y de esta manera se definió que es más
provechoso para el algoritmo el utilizar una agrupación de pixeles si y solo si contienen al
centroide del mismo, ya que de esta manera las probabilidades de asociar de manera
correcta cada pixel a un hiperplano según la clase de entrenamiento se aumentan,
generando unos mejores resultados de clasificación, además el agrupar los pixeles de
este modo, es de mucha utilidad durante el posterior proceso de interpretación de los
resultados obtenidos por parte de los analistas expertos.
Los resultados obtenidos por parte del aplicativo han sido muy satisfactorios desde varios
puntos de vista, ya que el algoritmo de máquinas de soporte vectorial ha sido una técnica
que proporciona muy buenos resultados dentro del proceso de clasificación de imágenes
de satélite. El aplicativo ha conseguido alcanzar el objetivo principal ya que se obtuvo
una clasificación con altos niveles de exactitud temática.
En primer lugar, en relación con la comparación con un software comercial como ENVI, el
algoritmo ha conseguido una tasa de acierto de pixeles bien clasificados similar, lo cual
permite inferir el buen funcionamiento del aplicativo y el cumplimiento frente a la calidad
94 Implementación del método máquinas de soporte vectorial en bases de datos
espaciales para análisis de clasificación supervisada en imágenes de sensores
remotos
de la clasificación en comparación con los estándares de calidad presentes en un
software de uso comercial.
En segundo lugar al compararlo con la clasificación obtenida por medio del software libre
Monteverdi y su extensión raster OrfeoToolbox se puede ver que la tasa de asertividad
del aplicativo también es muy similar, aunque es un poco más elevada lo cual genera una
evidencia de la competitividad del aplicativo desarrollado frente a herramientas Open
Source, además, no solo ha dado buenos resultados al compáralo con otros software,
sino que también ha optimizado su funcionamiento, implementado algunas funciones
inherentes al lenguaje SQL como por ejemplo el recorte de cada polígono ya sea de
entrenamiento o validación dentro de la imagen, además de la aplicación de tiles de
segmentación de la imagen dentro de la base de datos espacial y la implementación de
consultas del análisis espacial convencional.
En tercer lugar, es importante mencionar que una de las principales limitantes de las
operaciones de análisis raster radica en que los valores de las celdas son números o
expresiones Booleanas, es decir que realizan una representación del mundo real a través
de la matemática convencional a partir de variables cuantitativas. La naturaleza en el
ámbito geográfico no se comporta de esta manera ya que sus principales características
se definen generalmente a través de variables cualitativas, aunque en algunos casos
también cuantitativos, por lo que las podemos clasificar como variables heterogéneas, las
cuales describen los fenómenos u objetos que se están representando, en este sentido
podemos concluir que aún falta un largo camino por recorrer para encontrar métodos que
tomen en cuenta esta limitante y permitan trabajar con las descripciones mezcladas de
manera simultánea. En este trabajo de investigación se ha realizado una aproximación
de este tipo de análisis combinando herramientas del análisis espacial vectorial con el
procesamiento digital de imágenes, obteniendo buenos resultados, aunque aún es muy
amplio el espectro de investigación por hacer en este ámbito.
4.2 Recomendaciones
Los resultados obtenidos por parte del aplicativo han sido muy satisfactorios aunque es
muy importante tener en cuenta que el presente proyecto es una primera aproximación
de lo que se puede hacer aplicando algoritmos de clasificación sobre la información
Capítulo 4 95
raster almacenada en una base de datos espacial, por tal motivo a partir de esta tesis de
maestría se despliegan algunas líneas de investigación abiertas que podrían llegar a
complementar y mejorar los resultados obtenidos.
Estas líneas de investigación relacionadas con la clasificación supervisada de imágenes
almacenadas en bases de datos espaciales son las siguientes:
Desarrollar nuevas versiones del aplicativo, con nuevas funcionalidades y
herramientas, para personalizar aún más el proceso de clasificación, y poder
ajustar lo máximo posible los resultados deseados a la zona de estudio utilizada
Implementar diferentes algoritmos de clasificación y personalizarlos para obtener
mejores resultados a partir de un ambiente de programación que permita
manipular todas las variables del sistema.
Implementar diferentes técnicas de procesamiento digital de imágenes como por
ejemplo la fusión de imágenes a partir de algoritmos como los componentes
principales y aplicar la clasificación para comparar los resultados.
Combinar diferentes niveles de clasificación a partir de características inherentes
de los pixeles como por ejemplo la información de textura, información espectral y
la regional.
Implementar un clasificador no supervisado
Utilizar nuevas técnicas de programación orientada a reducir el coste
computacional del algoritmo.
Mejorar el Plugin de interfaz gráfica sobre el software PgAdmin III
Capitulo 2 96
Bibliografía
[1] E. Jaime, R. Larín, y E. Garea, “Hacia métodos de análisis de datos espaciales raster en el nivel semántico”, Comput. Sist., vol. 15, núm. 1, pp. 91–106, 2011.
[2] C. S. Shekhar Sashi, Spatial Databases: A Tour, vol. 1. Minnesota, 2003. [3] J. P. Argañaraz y I. Entraigas, “Análisis comparativo entre las máquinas de vectores
soporte y el clasificador de máxima probabilidad para la discriminación de cubiertas del suelo”, Rev. Teledetec., vol. 36, pp. 26–39, 2011.
[4] J. C. Canales, X. L. Zhang, y W. Y. Liu, “Clasificación de grandes conjuntos de datos vía Máquinas de Vectores Soporte y aplicaciones en sistemas biológicos”, Inst. Politécnico Nac. México DF, 2009.
[5] J. Castellon, “Análisis comparativo entre ENVI y Orfeo Toolbox SVM”, Teledeteccion, vol. 1, 24-jun-2015.
[6] N. S. Anzola, “Máquinas de soporte vectorial y redes neuronales artificiales en la predicción del movimiento USD/COP spot intradiario”, ODEON, vol. 0, núm. 9, pp. 113–172, feb. 2016.
[7] A. García, G. Martínez, E. Nuñez, y A. Guzmán, “Clasificación supervisada, inducción de arboles de decisión, algoritmo kd”, Proc Simp Int Comp CIC, vol. 98, pp. 602–614, 1998.
[8] J. P. A. López, O. J. E. Valero, y J. L. H. Escorcia, “Validación de una Metodología de Clasificación de Imágenes Satelitales en un entorno Orientado a Objetos”, Ingeniería, vol. 10, núm. 1, pp. 61–69, 2004.
[9] T. Blaschke, S. Lang, E. Lorup, J. Strobl, y P. Zeil, “Object-oriented image processing in an integrated GIS/remote sensing environment and perspectives for environmental applications”, Environ. Inf. Plan. Polit. Public, vol. 2, pp. 555–570, 2000.
[10] J. Borràs, J. Delegido, A. Pezzola, M. Pereira, G. Morassi, y G. Camps-Valls, “Clasificación de usos del suelo a partir de imágenes Sentinel-2”, Rev. Teledetec., núm. 48, p. 55, jun. 2017.
[11] A. J. Perea, J. E. Meroño, y M. J. Aguilera, “CLASIFICACIÓN ORIENTADA A OBJETOS EN FOTOGRAFÍAS AÉREAS DIGITALES PARA LA DISCRIMINACIÓN DE USOS DEL SUELO”, Interciencia, vol. 34, núm. 9, 2009.
[12] V. R. L. Y. Caviedes Sanabria Milton Antonio, HERRAMIENTA BASADA EN MÁQUINAS DE SOPORTE VECTORIAL PARA LA CLASIFICACIÓN DE CÉLULAS ESCAMOSAS DE CITOLOGÍAS CÉRVICO UTERINAS. UNIVERSIDAD INDUSTRIAL DE SANTANDER, 2009.
[13] O. Cortazar Martínez, “Procesamiento digital de imágenes usando wavelets”, Universidad Autonoma del estado de Hidalgo, 2006.
[14] P. Cáceres y A. Verónica, “Diseño del proceso de clasificación supervisada de cubiertas de suelo en imágenes satelitales”, Repos. Académico - Univ. Chile, 2017.
[15] R. M. Ayala y M. Menenti, “Metodología para la búsqueda del mejor clasificador de imágenes de satélite”, en Teledetección : medio ambiente y cambio global, 2001, ISBN 84-9743-001-8, págs. 469-472, 2001, pp. 469–472.
Bibliografía 97
[16] V. R. Otero, “Reconocimiento de localizaciones mediante Máquinas de Soporte Vectorial”, Univ. Carlos III Madr. Madr., 2008.
[17] E. Chuvieco y A. Huete, Fundamentals of satellite remote sensing. Boca Raton FLA : CRC Press, 2010.
[18] E.C. Salinero, Teledeteccion ambiental. Grupo Planeta (GBS), 2008. [19] W. G. Rees, Physical Principles of Remote Sensing. Cambridge University Press,
2012. [20] J. Estornell, L. A. Ruiz, y A. del Rey, “Análisis metodológico para la detección de
cambios urbanos en la ciudad de Valencia”, Rev. Teledetec., vol. 22, pp. 55–66, 2004.
[21] P. G. Rodríguez y M. a E. P. González, “Aplicaciones de la teledetección en hidrología”, Obs. Medioambient., núm. 9, pp. 171–186, jun. 2006.
[22] D. Marchionni y I. Schalamuk, “Aplicación de la teledetección espacial óptica y de radar para el análisis geológico y la detección de áreas mineralizadas en el sector central del Macizo del Deseado, Provincia de Santa Cruz”, Rev. Asoc. Geológica Argent., vol. 66, núm. 4, pp. 592–607, jun. 2010.
[23] J. Martínez-Vega, M. P. Martín, J. M. Díaz Montejo, J. M. López Vizoso, y F. J. Muñoz Recio, “Guía didáctica de Teledetección y Medio Ambiente”, jun. 2010.
[24] R. P. Daniel, S. C. Noela, D. G. J. Antonio, y S. M. P. Cristina, CUESTIONES DE TELEDETECCIÓN. Editorial UNED, 2015.
[25] M. A. Abellán, La evaluación del impacto ambiental de proyectos y actividades agroforestales. Univ de Castilla La Mancha, 2006.
[26] Perez Carlos, Teledetección: nociones y aplicaciones. 2006. [27] J. Miguel y V. Moreno Burgos, “Pasado, presente y futuro de la teledetección de alta
resolución: El satelite IKONOS”. INDRA, 01-ene-2000. [28] J. M. V. M.Pilar Martín Isabel, Guia Didactica de Teledetección y medio ambiente.
Centro de Ciencias Humanas y Sociales (CSIC). [29] J. A. Sobrino, Teledetección. Universitat de València, 2001. [30] G. Casal y J. Freire, “Síntesis de la evolución histórica de la teledetección en España
(1889-2012)”, Rev. Teledetec. AET, vol. 38, pp. 109–120, 2012. [31] C. E. Huete A., Fundamentals of satellite remote sensing", CRC Press. Boca Raton
(USA), 2010. [32] E. Chuvieco y E. C. Salinero, Fundamentos de teledetección espacial. Rialp, 2000. [33] A. M. Espínola, Clasificación de imágenes de satélite mediante autómatas celulares.
2014. [34] E. Universitat Politècnica de València, “Teledetección. Nuevas plataformas y
sensores aplicados a la gestión del agua, la agricultura y el medio ambiente”, Ing. Agua, vol. 18, núm. 1, p. ix, sep. 2014.
[35] A. M. Espínola, Clasificación de imágenes de satélite mediante autómatas celulares. 2014.
[36] Á. M. F. Pérez y A. C. Sáez, “Rectificación y ortorrectificación de imágenes de satélite: Análisis comparativo y discusión”, Geofocus Rev. Int. Cienc. Tecnol. Inf. Geográfica, núm. 3, p. 4, 2003.
[37] Ignacio Alonso Fernández-Coppel, “EL SATELITE LANDSAT. ANALISIS VISUAL DE IMÁGENES OBTENIDAS DEL SENSOR ETM+ SATELITE LANDSAT”. Universidad de Valldolid.
[38] A. L. Jordi Vivancos Martí, “Generación de imágenes en falso color”. Universidad de Zaragoza, 2005.
98 Implementación del método máquinas de soporte vectorial en bases de datos
espaciales para análisis de clasificación supervisada en imágenes de
sensores remotos
[39] R. S. Dwivedi y B. R. M. Rao, “The selection of the best possible Landsat TM band combination for delineating salt-affected soils”, Int. J. Remote Sens., vol. 13, pp. 2051–2058, jul. 1992.
[40] Mather P., Tso B., Classification methods for remotely sensed data, 2 Edition. CRC Press, 2009.
[41] Schowengerdt R.A., Techniques for image processing and classification in remote sensing. Academic Press, 1985.
[42] Richards, J. A. y Jia X., Remote Sensing Digital Image Analysis. Springer-Verl, 1999. [43] Jensen J.R, Introductory Digital Image Processing – A Remote Sensing Perspective,
3a ed. New Jersey, USA: Prentice Hall, 2005. [44] ASPRS, Manual of Photographic Interpretation. Bethesda, USA: American Society for
Photogrammetry and Remote Sensing, 1997. [45] I. Lizarazo, “Clasificación de la cobertura y del uso del suelo urbano usando
imágenes de satélite y algoritmos supervisados de Inteligencia Artificial”, UD GEOMÁTICA, núm. 2, pp. 4–18, 2008.
[46] http://volaya.github.io/libro-sig/chapters/Estadistica_avanzada.html. [Consultado: 01-may-2018].
[47] M. M. Ayala R y Girolana D, “Evaluation methodology for classification process of digital images”, IEEE Int. Geosci. Remote Sens. Symp. IGARSS 2002 24-28 June Tor. Can., vol. 6, pp. 3363–365, 2002.
[48] J. A. Piedra-Fernandez, M. Canton-Garbin, y J. Z. Wang, “Feature Selection in AVHRR Ocean Satellite Images by Means of Filter Methods”, IEEE Trans. Geosci. Remote Sens., vol. 48, núm. 12, pp. 4193–4203, dic. 2010.
[49] Ayala R., Becerra A., Flores I.M, J.F, Diaz J.R., “Evaluation of greenhouse covered extensions and required resources with satellite images and GIS. Almeria’s case”, Second Eur. Conf. Eur. Fed. Inf. Technol. Agric. Food Environ. Bonn Ger., pp. 27–30, 1999.
[50] T. Fletcher, Z. Hussain, y J. Shawe-Taylor, “Multiple Kernel Learning on the Limit Order Book”, p. 8, 2010.
[51] W. Huang, Y. Nakamori, y S.-Y. Wang, “Forecasting stock market movement direction with support vector machine”, Comput. Oper. Res., vol. 32, núm. 10, pp. 2513–2522, oct. 2005.
[52] G. Mountrakis, J. Im, y C. Ogole, “Support vector machines in remote sensing: A review”, ISPRS J. Photogramm. Remote Sens., vol. 66, pp. 247–259, may 2011.
[53] A. T. Espinosa, J. C. M. Sánchez, y J. S. R. Castilla, “Identificar cobertura vegetal de suelo clasificando pixeles en imágenes hiperespectrales con svm (máquina de soporte vectorial)”, p. 20.
[54] E. Alpaydin, Introduction to machine learning, 2nd ed. Cambridge, Mass: MIT Press, 2010.
[55] L. Hosseini y R. S. Kandovan, “Hyperspectral Image Classification Based on Hierarchical SVM Algorithm for Improving Overall Accuracy”, Adv. Remote Sens., vol. 06, núm. 01, p. 66, ene. 2017.
[56] N. Cristianini y J. Shawe-Taylor, An Introduction to Support Vector Machines and Other Kernel-based Learning Methods. Cambridge University Press, 2000.
[57] C. J. Burges, “A tutorial on support vector machines for pattern recognition”, Data Min. Knowl. Discov., vol. 2, núm. 2, pp. 121–167, 1998.
Bibliografía 99
[58] V. N. Vapnik, “An overview of statistical learning theory”, IEEE Trans. Neural Netw., vol. 10, núm. 5, pp. 988–999, sep. 1999.
[59] V. N. Vapnik, The Nature of Statistical Learning Theory. New York, NY, USA: Springer-Verlag New York, Inc., 1995.
[60] V. Abraira, “El índice kappa”, Med. Fam. SEMERGEN, pp. 247–249. [61] J. Cohen, “A Coefficient of Agreement for Nominal Scales”, Educ. Psychol. Meas.,
vol. 20, núm. 1, pp. 37–46, abr. 1960. [62] J. R. Landis y G. G. Koch, “The measurement of observer agreement for categorical
data”, Biometrics, vol. 33, núm. 1, pp. 159–174, mar. 1977. [63] M. Á. Bernabé Poveda, C. M. López Vázquez, y O. Abarca, Fundamentos de las
infraestructuras de datos espaciales (IDE). Madrid: UPM Press, 2012. [64] Nacions Unides y División de Estadística, Manual de infraestructura geoespacial en
apoyo de actividades censales. Nueva York: Naciones Unidas, 2010. [65] A. Silberschatz, H. F. Korth, y S. Sudarshan, Database system concepts, 4th ed.
Boston: McGraw-Hill, 2002. [66] M. Madden y A. Ross, “Genocide and GIScience: Integrating Personal Narratives and
Geographic Information Science to Study Human Rights”, Prof. Geogr., vol. 61, núm. 4, pp. 508–526, oct. 2009.
[67] John R. Herring, OpenGIS® Implementation Standard for Geographic information - Simple feature access - Part 2: SQL option, Corregendum., vol. 1.2.1. .
[68] ISO, International Organization for Standardization, ISO/IEC 9075-1:2011 Information technology -- Database languages - SQL -- Part 1: Framework (SQL/Framework). ISO, International Organization for Standardization, 2016.
[69] Alvaro Enrique Ortiz Dávila, “Trayectorias en Bases de Datos de objeto en movimiento”, XVI Simp. Int. SELPER, 2014.
[70] R. S. Pressman, Ingeniería del software: un enfoque práctico. México: McGraw-Hill, 2010.
[71] Iván Lizarazo, “Ejemplos prácticos para manejar datos raster en PostGIS 2.0.0”. 2012.
[72]. :“SIATAC:.” [En línea]. Disponible en: http://webcache.googleusercontent.com/search?q=cache:http://siatac.co/. [Consultado: 21-ene-2018].
[73] A. S. R. Rivera, diagnóstico y análisis de los cambios de coberturas vegetales en el parque nacional natural sierra de la macarena por cultivos de coca y acciones del estado colombiano entre 2002 y 2012. Bogota, 2015.
[74] N. J. Martínez Ardila y U. G. Murcia García, Leyenda nacional de coberturas de la tierra: metodología CORINE Land Cover adaptada para Colombia : Escala 1:100.000. Bogota: IDEAM, 2010.
[75] J. A. F. Hernández, R. A. B. Cámara, J. A. P. Cruz, y C. de la Cruz Dorantes, “Entrenamiento de Máquinas de Soporte Vectorial”, Univ. Autónoma Carmen CA Tecnol. Inf. México, 2005.
[76] R. A. Barrera-Camara, “Entrenamiento de Máquinas de Soporte Vectorial”. [77] A. Mansourian, P. Pilesjö, L. Harrie, y R. van Lammeren, Geospatial Technologies for
All: Selected Papers of the 21st AGILE Conference on Geographic Information Science. Springer, 2018.
[78] E. Christophe, J. Inglada, y A. Giros, “Orfeo toolbox: a complete solution for mapping from high resolution satellite images”, may 2018.
[79] P. López Herrera, “Comparación del desempeño de los Sistemas Gestores de Bases de Datos MySQL y PostgreSQL”.
[80] R. O. Obe y L. S. Hsu, PostGIS in Action. Manning Publications, 2015.
100 Implementación del método máquinas de soporte vectorial en bases de datos
espaciales para análisis de clasificación supervisada en imágenes de
sensores remotos
[81] E. C. M. ESQUIVEL, “Implementación de un sistema de información geográfica con software libre para el apoyo a la toma de decisiones en las pymes”.
[82] G. Van Rossum y F. L. Drake Jr, “Tutorial Python”, Disponível Gratuit. Em Httppython Org, 2004.