Implementación del método máquinas de soporte vectorial en ...repository.udistrital.edu.co/bitstream/11349/14489/1...clasificación supervisada la cual será comparada con el módulo

Implementación del método máquinas de soporte vectorial en bases de datos espaciales para

análisis de clasificación supervisada en imágenes de sensores remotos

Raúl Alejandro Murillo Castañeda

Universidad Distrital Francisco José de Caldas

Facultad de ingeniería, Maestría en Ciencias de la Información y las Comunicaciones

Bogotá, Colombia

2018

Implementación del método máquinas de soporte vectorial en bases de datos espaciales para

análisis de clasificación supervisada en imágenes de sensores remotos

Raúl Alejandro Murillo Castañeda

Tesis presentada como requisito parcial para optar al título de:

Magister en Ciencias de la Información y las Comunicaciones

Director:

Álvaro Enrique Ortiz Dávila. Msc

Línea de Investigación:

Geomática

Grupo de Investigación:

Núcleo de Investigación en Datos Espaciales (NIDE)

Universidad Distrital Francisco José de Caldas

Facultad de ingeniería, Maestría en Ciencias de la Información y las Comunicaciones

Bogotá, Colombia

2018

La preocupación por el hombre y su destino

siempre debe ser el interés primordial de todo

esfuerzo técnico. Nunca olvides esto entre tus

diagramas y ecuaciones.

Albert Einstein

Resumen y Abstract VII

Resumen

El presente proyecto está orientado a la implementación de un método de clasificación

supervisada sobre imágenes provenientes sensores remotos ya sean activos o pasivos

almacenadas en una base de datos espacial de tipo relacional que permita contribuir a la

clasificación de imágenes, según parámetros de normalidad y anormalidad donde se

consiga además almacenar estos resultados dentro del mismo sistema manejador de

bases de datos.

Dado que el algoritmo de clasificación supervisada Máquinas de Soporte Vectorial (MSV)

es ampliamente aceptado por la comunidad científica como una de las mejores técnicas

de clasificación, ya que permite tener una muy buena exactitud en el diagnóstico de las

diferentes coberturas presentes en el suelo, puesto que busca no solo encontrar una

disociación entre estas, sino lograr una separación entre los elementos a clasificar, se

implementará como técnica de clasificación para el proyecto.

La aplicación está diseñada para el usuario final, que permita no sólo obtener un apoyo y

sustento al momento de tomar decisiones, sino que facilite la actualización de la base de

datos, la inclusión o la eliminación de información de la misma, así como la posibilidad de

elegir las características principales que se deban tener en cuenta durante el proceso de

clasificación. Esta utilidad es de gran valor, ya que al trabajar con imágenes de

características similares, la posibilidad de establecer rangos de disociación o pesos a las

diferentes coberturas afecta directamente el resultado que se espera obtener.

Finalmente se presentará un caso de estudio relacionado con la deforestación de la

amazonia colombiana donde se demostrará la utilidad de la aplicación por medio de una

clasificación supervisada la cual será comparada con el módulo de clasificación de

algunos software que la implementan en la actualidad.

Palabras clave: Máquinas de soporte vectorial, coberturas, imágenes raster,

clasificación, base de datos espacial.

VII

I

Implementación del método máquinas de soporte vectorial en bases de datos

espaciales para análisis de clasificación supervisada en imágenes de sensores

remotos

Abstract

The present project is oriented to the implementation of a supervised classification

method on images from remote sensors stored in a spatial database that allows

contributing to the diagnosis of image classification, according to parameters of normality

and abnormality where it is also possible to store these results within the same database

manager system.

Given that the supervised classification algorithm Vector Support Machines (MSV) is

widely accepted as one of the best classification techniques because it allows to have a

very good accuracy in the diagnosis of the different coverages present in the ground,

since it seeks not only to find a dissociation between these, but to achieve a separation

between the elements to be classified, will be implemented as a classification technique

for the pilot project to be carried out.

The application will be designed for the end user, which allows not only to obtain support

and sustenance when making decisions, but also to facilitate the updating of the

database, the inclusion or elimination of information from it, as well as the possibility to

choose the main characteristics that must be taken into account during the classification

process. This utility is of great value, since when working with images of similar

characteristics, the possibility of establishing dissociation ranges or weights to the

different coverages directly affects the expected result.

Finally, a case study related to the deforestation of the Colombian Amazon will be

presented, where the usefulness of the application will be demonstrated through a

supervised classification which will be compared with the classification module of some

software that implements it at present.

Keywords: Vector support machines, coverages, raster images, classification, spatial

database.

Contenido IX

NOTA DE ACEPTACIÓN

Nota de aceptación

_________________________________________

_________________________________________

_________________________________________

_________________________________________

_________________________________________

_________________________________________

_________________________________________

_________________________________________

_________________________________________

_________________________________________

_________________________________________

Director

_________________________________________

Jurado

_________________________________________

Jurado

Contenido XI

Contenido

Pág.

Resumen ........................................................................................................................ VII

Lista de figuras ............................................................................................................ XIV

Lista de tablas ............................................................................................................. XVI

Introducción .................................................................................................................... 1

Justificación .................................................................................................................... 3

Objetivos .......................................................................................................................... 5 Objetivo General. ....................................................................................................... 5 Objetivos específicos ................................................................................................. 5

Problema de investigación ............................................................................................. 6

1. Teledetección ........................................................................................................... 9 1.1 Definición de teledetección .............................................................................. 9 1.2 Historia de la teledetección ............................................................................ 10 1.3 Elementos Básicos de la Teledetección ......................................................... 14 1.4 Características de las imágenes obtenidas por sensores remotos ................. 15

1.4.1 Imágenes de sensores remotos .......................................................... 15 1.4.2 Resolución de las imágenes de sensores remotos .............................. 17 1.4.3 Errores en la captación de las imágenes de sensores remotos ........... 19 1.4.4 Satélites Landsat ................................................................................. 20 1.4.5 Combinación de imágenes verdadero color ........................................ 22 1.4.6 Combinación de imágenes falso color ................................................. 23 1.4.7 Índice de Factor Optimo OIF ............................................................... 24

1.5 Clasificación de imágenes ............................................................................. 25 1.5.1 Clasificación supervisada y no supervisada de imágenes ................... 25 1.5.2 Algoritmos de clasificación supervisada de imágenes ......................... 28 1.5.3 Algoritmos de clasificación no supervisada de imágenes .................... 28

1.6 Máquinas de Soporte Vectorial (MSV) ........................................................... 29 1.6.1 Funciones de decisión dentro de las MSV ........................................... 30 1.6.2 Clasificación linealmente separable .................................................... 31 1.6.3 Clasificación linealmente no separable ............................................... 34 1.6.4 Kernels ................................................................................................ 35

1.7 Indicadores de calidad de los clasificadores .................................................. 37 1.8 Bases de Datos Espaciales ........................................................................... 38

XII Implementación del método máquinas de soporte vectorial en bases de datos


remotos

1.8.1 Características .....................................................................................38 1.8.2 Sistema de Gestión de Base de Datos SGBD......................................39 1.8.3 Información vectorial ............................................................................41 1.8.4 Información Raster ..............................................................................42 1.8.5 Aplicaciones ........................................................................................45 1.8.6 Modelo de datos orientado a objetos ...................................................46

1.9 Ingeniería de software ....................................................................................47 1.9.1 Modelo Lineal Secuencial ....................................................................48

2. Metodología y diseño .............................................................................................51 2.1 Etapa de desarrollo: análisis, diseño y generación de código .........................52

2.1.1 Algoritmo MSV .....................................................................................53 2.1.2 Calculo de calidad en la clasificación ...................................................54

2.2 Etapa de Pre - procesamiento ........................................................................55 2.2.1 Recorte ................................................................................................55 2.2.2 Reescalar ............................................................................................57 2.2.3 Combinación de imágenes ..................................................................57 2.2.4 Almacenamiento de la imagen en la base de datos .............................61

2.3 Etapa de extracción de características ...........................................................63 2.4 Clasificación (Maquinas de soporte vectorial) .................................................71

2.4.1 Entrenamiento .....................................................................................71 2.4.2 Clasificación ........................................................................................72 2.4.3 Validación de la clasificación de imágenes ..........................................73

2.5 Herramientas utilizadas para la investigación .................................................73 2.5.1 Erdas Imagine......................................................................................73 2.5.2 ENVI ....................................................................................................74 2.5.3 Orfeo Toolbox ......................................................................................76 2.5.4 PostgreSQL .........................................................................................77 2.5.5 PostGIS ...............................................................................................78 2.5.6 Python .................................................................................................79

3. Resultados Obtenidos ............................................................................................82 3.1 Objetivo # 1: Desarrollar e implementar el algoritmo de clasificación supervisada sobre una base de datos espacial. ........................................................82 3.2 Objetivo # 2: Preparación de las imágenes de acuerdo a la zona de estudio .83 3.3 Objetivo # 3: Comprobar la aplicabilidad de la extensión mediante un caso de estudio ......................................................................................................................84

3.3.1 Clasificación MSV con ENVI. ...............................................................84 3.3.2 Clasificación MSV con ORFEO Toolbox ..............................................85 3.3.3 Clasificación MSV con el aplicativo desarrollado .................................86

3.4 Objetivo # 4: Comparar los resultados obtenidos con otros softwares especializados en clasificación supervisada .............................................................88

3.4.1 Matriz de confusión ENVI ....................................................................89 3.4.2 Matriz de confusión MONTEVERDI (ORFEO) .....................................90 3.4.3 Matriz de confusión con el aplicativo desarrollado ...............................91

4. Conclusiones y recomendaciones ........................................................................93 4.1 Conclusiones ..................................................................................................93 4.2 Recomendaciones ..........................................................................................94

Contenido XIII

Bibliografía .................................................................................................................... 96

Contenido XIV

Lista de figuras

Pág.

Figura 1-1 Elementos básicos de un sistema de teledetección ....................................... 15

Figura 1-2 Imagen Landsat de Santa fe de Bogotá (bandas 2, 5 y 7) .............................. 16

Figura 1-3 Imagen Landsat de Santa Fe de Bogotá (bandas 4, 3 y 2: color verdadero) .. 17

Figura 1-4 Esquema general del satélite Landsat 8 ........................................................ 21

Figura 1-5 Combinación 4,3,2, Verdadero color, Santa fe de Bogotá .............................. 23

Figura 1-6 Combinación Intensidad, Matiz, Saturación, Falso color, Santa fe de Bogotá 24

Figura 1-7 Esquema del proceso de clasificación de imágenes ...................................... 26

Figura 1-8 Funciones de decisión ................................................................................... 31

Figura 1-9 Clasificador convencional .............................................................................. 32

Figura 1-10 Clasificador Óptimo ...................................................................................... 34

Figura 1-11 Clasificador No-lineal. .................................................................................. 35

Figura 2-1 Metodología propuesta .................................................................................. 51

Figura 2-2 Arquitectura del Algoritmo MSV ..................................................................... 52

Figura 2-3 Arquitectura Etapa de Pre - Procesamiento ................................................... 55

Figura 2-4 Imagen en verdadero color (4,3,2) zona de estudio La Macarena .................. 57

Figura 2-5 Imagen Pseudocolor a partir del OIF 356 ....................................................... 61

Figura 2-6 Creación de la base de datos con Postgis ..................................................... 62

Figura 2-7 Imagen cargada en Qgis almacenada desde Postgis .................................... 63

Figura 2-8 Estratos de intervención por deforestación en la zona de estudio .................. 64

Figura 2-9 Selección de pixeles ...................................................................................... 69

Figura 2-10 Polígonos de entrenamiento ........................................................................ 72

Figura 2-11 Interfaz gráfica de Erdas Imagine 2014 ....................................................... 74

Figura 2-12 Interfaz gráfica de ENVI. Imagen de satélite: Amazonas 2017. .................... 76

Figura 2-13 Interfaz gráfica de Monteverdi (extensión ORFEO Toolbox) . ...................... 77

Figura 2-14 Interfaz gráfica de PostgreSQL + Extensión PostGIS. ................................. 79

Figura 2-15 Ambiente de programación con python. ....................................................... 81

Figura 3-1 Mapa resultante de la clasificación supervisada MSV utilizando el software

comercial ENVI ............................................................................................................... 85

Figura 3-2 Mapa resultante de la clasificación supervisada MSV utilizando el software

libre Monteverdi (Orfeo) .................................................................................................. 86

Figura 3-3 Mapa resultante de la clasificación supervisada MSV utilizando el aplicativo

desarrollado .................................................................................................................... 87


desarrollado versus la estratificación de la deforestación en la zona de estudio ............. 88

Contenido XV

XVI Implementación del método máquinas de soporte vectorial en bases de datos


remotos

Lista de tablas

Pág.

Tabla 1 Periodo de actividad de los satélites Landsat ..................................................... 20

Tabla 2 Desviación estándar de cada una de las bandas de la imagen .......................... 58

Tabla 3 Matriz de Correlación de las bandas de la imagen ............................................. 59

Tabla 4 Calculo del OIF a partir de cada combinación de bandas posible ....................... 59

Tabla 5 Variables ecológicas de vegetación zona la Macarena Meta .............................. 65

Tabla 6 Características principales de las 7 clases presentes en la imagen satelital ...... 67

Tabla 7 Características de la imagen procesada ............................................................. 83

Tabla 8 Matriz de confusión clasificación supervisada MSV utilizando el software

comercial ENVI ............................................................................................................... 89

Tabla 9 Matriz de confusión clasificación supervisada MSV utilizando el software libre

Monteverdi (Orfeo) .......................................................................................................... 90

Tabla 10 Matriz de confusión clasificación supervisada MSV utilizando el software

desarrollado .................................................................................................................... 91

Tabla 11 Comparación de los resultados obtenidos ........................................................ 92

Introducción

El presente trabajo de investigación desarrolla una herramienta sobre un sistema

manejador de bases de datos espaciales PostGis que toma imágenes de sensores

remotos como fuentes de datos y el algoritmo de máquinas de soporte vectorial (MSV)

como método de clasificación, a través de los cuales; se logró una simbolización temática

y lógica por clases de las diferentes coberturas del suelo presentes en la imagen. La

información presente en una imagen se puede clasificar como cobertura de suelo, agua,

vegetación, entre otras. Con el fin de dar un entendimiento más profundo a esta fuente

de información, se empieza presentando el estado del arte en donde se dará los

conceptos básicos y usos de las imágenes; además se expone la utilidad y el significado

de cada una de las bandas y la filosofía de la solución donde se expone el algoritmo y la

teoría que sustenta las MSV dentro del proceso de clasificación supervisada.

Gracias a esta clasificación es posible generar mapas de usos y coberturas, tomando

como referencia las imágenes raster, de aquí radica la importancia de utilizar un

algoritmo basado en MSV estructurado sobre un sistema manejador de bases de datos

espaciales de libre licenciamiento que permita el fácil acceso a la herramienta, ya que en

la actualidad este módulo existe dentro de los paquetes de software licenciado y en muy

pocos paquetes de software de libre licenciamiento, lo cual hace que sea de difícil

acceso.

Se realizó una comprobación del funcionamiento de la aplicación con una sustentación

práctica sobre la zona de estudio en la amazonia colombiana a partir de una imagen

obtenida por el sensor Landsat 8 OLI, donde se hizo un análisis de la deforestación y se

explicó el funcionamiento del algoritmo de clasificación supervisada por medio de las

2 Introducción

MSV, donde se analizaron los resultados sometiéndolos a una comparación con los

resultados obtenidos a partir de clasificar la misma imagen en otros paquetes de

procesamiento digital de imágenes que implementan el algoritmo de clasificación

supervisada MSV.

Por último, se exponen las conclusiones y recomendaciones de los efectos de aplicar la

clasificación supervisada a partir del algoritmo MSV en imágenes de sensores remotos

almacenadas en bases de datos espaciales.

Introducción 3

Justificación

Los resultados obtenidos por los algoritmos de clasificación supervisada de imágenes

traídas de los diferentes sensores remotos tienen muchas aplicaciones en el ámbito

cartográfico, ya que pueden ser estas medioambientales, sociales, políticas, entre otras.

Estos resultados son los principales elementos que utilizan muchos sistemas de

información geográficos (SIG) para ofrecer al usuario la información requerida, como por

ejemplo los mapas de usos y cobertura del suelo, la prevención de desastres naturales,

la evaluación del impacto en cuanto a los usos de los recursos naturales o el estudio del

cambio climático.

Con el acelerado crecimiento del volumen de estos datos obtenidos por imágenes de

sensores remotos, se ha configurado como una necesidad almacenar esta información

de forma estructurada y fácil de consultar[1], de aquí nace la importancia de almacenar

esta información en bases de datos espaciales, aunque en muchos casos almacenar y

procesar esta información es muy difícil y complejo ya que se requieren operaciones de

recuperación y análisis de la información que sean rápidas y precisas.

Las tendencias actuales para el tratamiento de la información geoespacial están

enfocadas en el desarrollo de técnicas basadas en la representación y recuperación de

estos datos desde un punto de vista semántico. En este sentido cuando hablamos de

información de tipo raster aún falta mucho para que estos datos almacenados sobre una

base de datos espacial se asemejen al nivel de abstracción que se logra con la

información vectorial. El hecho de lograr que los análisis se hagan directamente en la

base de datos le da una ventaja en ejecución a los procesos analíticos realizados por los

sistemas manejadores de bases de datos[2], por lo que es muy importante lograr acercar

los análisis de la información espacial en la base de datos a todos los niveles incluyendo

4 Introducción

la información raster. Por lo tanto con este trabajo de investigación, se implementó una

nueva herramienta que mediante la utilización del método de clasificación supervisada

basado en máquinas de soporte vectorial se brinde resultados más precisos y ajustados,

que además estén soportados sobre una plataforma no propietaria.

La herramienta desarrollada se fundamentó en el algoritmo de máquinas de soporte

vectorial, ya que a partir de diferentes estudios se ha comprobado que genera muy

buenos resultados[3],[4],[5] además de su facilidad en el manejo de grandes volúmenes

de información, puesto que logra altos niveles de confiablidad en los resultados[6].

Por otro lado, es importante destacar que la herramienta utiliza imágenes almacenadas

directamente en una base de datos espacial de la extensión PostGis, ya que con esto se

reducen costos de procesamiento, además se dio una visión más amplia en el sentido de

almacenamiento de información de tipo raster y procesamiento de la misma sobre bases

de datos espaciales y la caracterización de las imágenes para conseguir una óptima

clasificación.

Introducción 5

Objetivos

A continuación se presentan los objetivos del presente proyecto:

Objetivo General.

Diseñar e implementar una extensión sobre el gestor de bases de datos espaciales

PostGis que emplee el algoritmo de clasificación supervisada Máquinas de Soporte

Vectorial sobre la representación de imágenes de sensores remotos.

Objetivos específicos

Desarrollar e implementar las funcionalidades y procedimientos que permiten

ejecutar el algoritmo de clasificación supervisada MSV desde el gestor de base de

datos espacial PostGis sobre imágenes almacenadas en una base de datos

espacial.

Preparar las imágenes de acuerdo a la zona de estudio, para realizar un buen

procedimiento de clasificación.

Comprobar la aplicabilidad de la extensión mediante un caso de estudio sobre la

deforestación en una zona piloto de la selva amazónica colombiana utilizando

imágenes satelitales Landsat 8 OLI.

Comparar los resultados obtenidos a partir de la aplicación del algoritmo

desarrollado, con los resultados provenientes de aplicar la clasificación

supervisada con máquinas de soporte vectorial en diferentes paquetes de

procesamiento digital de imágenes como ORFEO y ENVI para determinar

precisiones y calidad de resultados.

6 Introducción

Problema de investigación

La clasificación supervisada de datos, es el proceso que se lleva a cabo para encontrar

propiedades comunes entre un conjunto de datos y clasificarlos dentro de diferentes

rangos, de acuerdo a un modelo de clasificación[7]. El objetivo de la clasificación es

primero desarrollar una descripción o modelo para cada clase usando las características

disponibles en los datos[7]. Tales descripciones de las clases son entonces usadas para

agrupar futuros datos de prueba en la base de datos o para desarrollar mejores

descripciones (llamadas reglas de descripción) para cada clase en la base de datos[7].

Por lo general este tipo de clasificaciones tienen implicaciones relativamente elevadas,

debido a los costos de las imágenes de alta resolución, y del software implementado para

realizar la clasificación, ya que a través de esta investigación se comprobó que hoy en

día no existe una herramienta que realice una clasificación supervisada de imágenes

integrada a una base de datos espacial que sea de libre licenciamiento. Adicionalmente,

se debe agregar el factor humano, ya que al clasificar las imágenes se debe incluir todo

el aporte experimental para lograr un resultado lo más acercado posible a la realidad[8].

En este sentido y de forma general aún se aplican las mismas técnicas de clasificación

de los años setenta[9], y si bien la investigación y el desarrollo de métodos avanzados de

clasificación han rendido frutos aún no se ha identificado un método que sea aceptado

por la comunidad científica y académica que compita directamente con los algoritmos

tradicionales[10], [11].

Por tal motivo, en los últimos años alrededor del mundo se han venido desarrollando

algoritmos de detección y clasificación supervisada de imágenes [12],[13],[14], en los

cuales se desarrollan clasificadores utilizando redes neuronales, lógica difusa, redes

Bayesianas entre otros. Sin embargo muchos de estos algoritmos requieren de una

herramienta que brinde el soporte y la capacidad computacional para su ejecución dentro

Introducción 7

de un ambiente de desarrollo comercial, lo cual limita su uso[15]. Por tal motivo utilizar un

sistema de clasificación basado en Maquinas de Soporte Vectorial (MSV) almacenada en

una base de datos espacial establecida a partir de una herramienta libre como lo es

Postgres SQL es una solución novedosa de alta precisión en la clasificación y regresión

de datos, siendo una herramienta poderosa para el desarrollo de sistemas

multiclasificadores[16].

1. Teledetección

En la actualidad existen en funcionamiento una gran cantidad de sensores remotos, los

cuales están destinados al monitorio y observación de diferentes características de la

tierra, los cuales día a día proveen una gran cantidad de imágenes que tienen diferentes

finalidades como por ejemplo el monitoreo del clima, evaluación de la forma de la tierra,

aplicaciones medioambientales, militares entre otras. Debido al gran repositorio de

imágenes relacionadas con la teledetección, es necesario la implementación de nuevos

algoritmos computacionales que automaticen los procesos de análisis e interpretación de

las imágenes, con el fin de optimizar y mejorar los resultados obtenidos por algoritmos

ya existentes en la literatura.

1.1 Definición de teledetección

Desde un punto de vista estrictamente técnico, podemos definir la teledetección como “el

conjunto de técnicas, aparatos y procedimientos que permiten obtener y analizar

imágenes de la superficie de la Tierra desde sensores ubicados remotamente"[17],[18].

La palabra teledetección realmente corresponde a la traducción de la expresión inglesa

remote sensing, ciencia aplicada que surgió a principio de los años 60 para definir los

métodos de observación remota de la superficie de la tierra. Aunque en sus orígenes

este término se aplicó principalmente a la fotografía aérea, posteriormente también se

incluyó la observación a través de plataformas de observación satelitales, surgiendo así

la teledetección satelital.

La teledetección es una ciencia aplicada que permite la adquisición de información sobre

la superficie terrestre sin necesidad de tener contacto real con la zona que está siendo

observada[19]. Esta ciencia se puede utilizar en diferentes aplicaciones[20],[21],[22]

dando soporte para resolver y mejorar los problemas derivados de las diferentes

temáticas que se estén modelando a partir de ella, por ejemplo problemas

10 Implementación del método máquinas de soporte vectorial en bases de datos


remotos

medioambientales, climatológicos, de temperaturas, etc. En este espectro de

aplicaciones, podemos encontrar algunas que incluyen tipificación del suelo, análisis de

recursos hídricos, establecer zonas de protección ambiental o simplemente análisis

multitemporales, entre otras.

1.2 Historia de la teledetección

Primer periodo: Inicio 1859. Bajo el seudónimo de Nadar, Gaspard Felix Tournachon

utilizó un globo para realizar las primeras fotografías aéreas sobre el bosque de

Boulogne y el Arco del Triunfo. Intuyó que era posible la aplicación de la fotografía aérea

a los levantamientos topográficos y catastrales[23].

De forma paralela, James Wallace Black registró una de las primeras fotografías aéreas

sobre el distrito de negocios de Boston desde un globo, a una altitud aproximada de 365

metros[24].

En 1903 Orville Wright se convirtió en la primera persona en volar sobre una aeronave, el

Flyer, más pesada que el aire. Otros especialistas consideran a Alberto Santos Dumont

el protagonista de esta hazaña, ya que voló, en septiembre de 1906, a bordo del 14-bis

sin ayuda externa[23].

En cualquier caso, poco más tarde, en 1909, Wilburg Wright adquirió la primera fotografía

captada desde un avión, iniciando un largo y fructífero periodo de campañas y misiones

fotográficas, que se prolongan hasta la actualidad, con fines militares, civiles y

aplicaciones temáticas muy variadas[23].

En 1915, J.T.C. Moore-Brabazon desarrolló la primera cámara aérea de la historia,

diseñada específicamente para ser accionada desde un avión.

Durante la I Guerra Mundial se registró gran número de misiones fotográficas de

reconocimiento. Enseguida se comprendió la gran importancia estratégica de esta nueva

información geográfica para los ejércitos contendientes. Los aviones de reconocimiento

se convirtieron en objetivos prioritarios[24].

Capítulo 1 11

En el periodo de entreguerras aparecieron nuevas emulsiones que favorecieron nuevas

aplicaciones.

La II Guerra Mundial fomentó definitivamente el empleo sistemático de la fotografía aérea

gracias a los avances de la técnica fotográfica (óptica de las cámaras de reconocimiento

y de las emulsiones utilizadas), de la aviación (plataformas más estables) y a la continua

demanda de información geográfica[25].

Los fotointérpretes fueron entrenados para realizar tareas complejas de identificación

directa de los objetos o mediante deducción.

En esta época se comenzaron a utilizar las primeras películas en infrarrojo, desarrolladas

por Kodak. Asimismo, se introdujeron nuevos sensores como el radar y se utilizaron,

habitualmente, los pares estereoscópicos[23].

Segundo periodo: Inicio 1957. La desaparecida URSS lanzó el primer satélite artificial,

el Sputnik, en el contexto de lo que se ha denominado “carrera espacial”.

Se trata de un hito histórico de gran importancia para la teledetección, ya que esta misión

y esta plataforma inauguran una nueva época para la observación de la tierra. Ha sido

seguida de numerosas misiones civiles y militares. Se dice que en los últimos 60 años, la

cartografía ha avanzado más que a lo largo de toda su historia, cumpliendo la intuición de

Sócrates de que era necesario elevarse más allá de la atmósfera para conocer mejor

nuestro planeta y disponer de un punto de vista más global[26].

En 1960, la NASA puso en órbita el primer satélite de observación de la tierra, TIROS-1,

pionero de la investigación meteorológica desde el espacio. Ésta es una de las

aplicaciones claramente operativas desde la década de los años 70. Desde 1979, los

satélites de esta familia pasaron a denominarse NOAA (National Oceanic and

Atmospheric Administration), como la agencia meteorológica responsable de sus

operaciones. Una de las principales ventajas de este satélite, de órbita polar, es su buena

resolución temporal, proporciona una imagen cada 6 horas, gracias a la sincronización de

dos satélites[27].

En la década de los años 60, junto a los satélites artificiales, las misiones tripuladas

aportaron más de 35.000 imágenes tomadas por los astronautas, conscientes del interés



remotos

científico de las mismas. Las primeras fueron tomadas por Alan B. Shepard durante una

de las misiones de la plataforma Mercury, en 1961[23].

Entre 1965 y 1966, se desarrolló el programa Gemini. Sus investigaciones geológicas y

oceanográficas permitieron obtener 2.400 fotografías desde el espacio[24].

Los astronautas fueron adquiriendo un creciente entrenamiento en ciencias de la tierra,

meteorología y oceanografía. Desarrollaron una sensibilidad especial para captar

megaformas, gracias a la visión global de la superficie terrestre adquirida durante las

misiones espaciales, esto unido a los avances en estudios de numerosos fenómenos

naturales y humanos, en ocasiones, permitió la prevención de desastres[23].

Más tarde, las misiones Apollo ensayaron nuevos experimentos científicos. Desde

Apollo-6 se obtuvieron 750 fotografías de alta resolución espacial, estereoscópicas, en

color. En Apollo-9 se embarcaron cuatro cámaras Hasselblad con filtros multiespectrales

y películas en blanco y negro sensibles a distintas longitudes de onda y en infrarrojo

color[28].

Tercer Periodo: Inicio 1972. Los éxitos acumulados por la NASA, hicieron concebir

nuevos proyectos focalizados en la cartografía y evaluación de recursos naturales. El 23

de julio de 1972 se puso en órbita el primer satélite de la serie ERTS (Earth Resources

Technollogy Satellite), rebautizada LANDSAT, a partir de 1975. Esta familia de satélites

ha sido la más fructífera en aplicaciones civiles de la teledetección[23]. Los estudios han

crecido de forma exponencial y han incidido en temáticas muy diversas[29].

En 1981, el lanzamiento del transbordador espacial Space Shuttle supuso un nuevo hito

en la carrera espacial. A lo largo de las veinte misiones que se sucedieron entre 1981 y

1994 se obtuvieron 45.000 fotografías espaciales, de dominio público. Entre todas,

merece la pena destacar las fotografías estereoscópicas obtenidas desde esta

plataforma tripulada por las cámaras métricas RMK (Zeiss) y de gran formato (Itek) con

objeto de probar sus aptitudes para generar cartografía topográfica básica de escalas

medias, a bajo coste, en los países menos desarrollados[23]. En 1986, Francia, en

Capítulo 1 13

colaboración con Bélgica y Suecia, lanza el satélite SPOT (Système Pour l’Observation

de la Terre). Este satélite, de órbita heliosíncronica, tiene una repetitividad de 26 días[24].

Se han lanzado otros cuatro satélites de la misma familia en 1990, 1993, 1998 y 2002. El

sensor HRV (Haute Résolution Visible) dispone de una tecnología de exploración por

empuje. Incorpora la posibilidad de captar escenas verticales y oblicuas en dos órbitas

sucesivas, gracias a lo cual es posible disponer de imágenes estereoscópicas. En 1991,

la Agencia Espacial Europea (ESA), lanzó su primer satélite de teledetección, el ERS-1

(European Remote Sensing Satellite)[24].

En 1995, se lanzó el segundo satélite de esta serie, el ERS-2. Su objetivo era

complementar a los sensores ópticos embarcados en Landsat y SPOT. Aunque sus

aplicaciones han sido muy variadas, se orientaban al estudio de los océanos y de la

criosfera. Junto a los sensores activos de tipo radar, se han embarcado otros dispositivos

de barrido térmico, altímetros y medidores de ozono[28].

Cuarto Periodo: Inicio 1999. En septiembre de 1999, se lanza el satélite IKONOS-2,

con 1m de resolución espacial. De esta manera, Space Imaging, ahora integrada en la

empresa Geoeye, inaugura el mercado de los satélites comerciales de teledetección,

ocupando un segmento comercial, el de las observaciones de alta resolución espacial,

hasta entonces reservado a la fotografía aérea. En octubre de 2001, la empresa Digital

Globe lanza el satélite Quickbird, con dos cámaras de alta resolución espacial, 61 cm en

modo pancromático y de 2,5 m en modo multiespectral[23].

En diciembre de 1999, la NASA lanza el satélite TERRA. Unos años más tarde, en mayo

de 2002, se pone en órbita el satélite AQUA. Ambas plataformas forman parte del

ambicioso programa EOS (Earth Observing System), un sistema de observación global

de la tierra que organiza los satélites participantes en torno a una constelación. Los

sensores embarcados (ASTER, MODIS, CERES, MISR, MOPPIT, entre otros) se

complementan para generar variables de gran interés ambiental y estudiar procesos

globales[24].

El 29 de julio de 2009, Deimos Imaging (DMI) lanza, con éxito, el primer satélite de

observación de la tierra, DEIMOS-1, explotado por una empresa española privada. Se



remotos

trata de una plataforma de órbita heliosíncrona, a 680 km de altitud. Dispone de 6

cámaras que captan información en las regiones espectrales del verde, rojo e infrarrojo

próximo, con una resolución espacial de entre 20m y 22 m, se espera que cubra múltiples

aplicaciones desde los estudios de agricultura y ocupación del suelo hasta la gestión de

recursos naturales y prevención de desastres[30].

1.3 Elementos Básicos de la Teledetección

Un sistema genérico de teledetección[31] suele incluir todos los elementos que se

muestran en la Figura 1.1:

Fuente de energía: produce la radiación electromagnética captada por los sensores del

satélite, que puede ser pasiva (como la luz solar) o activa (emitida por el propio sensor

para posteriormente captar el reflejo).

Superficie terrestre: natural o artificial, y refleja la radiación electromagnética.

Sistema sensor: formado por los sensores (cámaras, radar, etc…) y la plataforma de

observación (satélite, avión, etc…), que recoge la radiación electromagnética emitida por

la superficie terrestre y la enviada al sistema de recepción.

Sistema de recepción: recibe y almacena la información del sistema sensor.

Interprete: transforma los datos recibidos en información útil para el usuario.

Analista experto: utiliza la información interpretada con algún objetivo.

Capítulo 1 15

Figura 1-1 Elementos básicos de un sistema de teledetección

Fuente:[32]

1.4 Características de las imágenes obtenidas por sensores remotos

1.4.1 Imágenes de sensores remotos

Una imagen es un archivo tipo raster formado por una matriz de celdas, donde cada

celda se denomina pixel. A cada pixel se le asignan varios valores digitales, que

corresponden a la reflectividad recogida por un sensor específico. Las imágenes son

almacenadas en diversas bandas espectrales, donde cada banda almacena el valor que

corresponde a cada pixel de la imagen en un intervalo concreto del espectro

electromagnético. Por lo tanto, una imagen es en realidad un conjunto de imágenes, con

las mismas propiedades geométricas, donde cada imagen almacena el valor de

reflectancia de los pixeles en un intervalo de longitud de onda concreto del espectro

electromagnético[33].



remotos

Las imágenes obtenidas por sensores remotos pueden tener un número reducido de

bandas, como es el caso de las imágenes multiespectrales (menos de 10 bandas) o un

número muy elevado, como ocurre con las imágenes hiperespectrales (con cientos de

bandas)[33].

En una imagen captada por sensores remotos también se pueden combinar distintas

bandas entre sí, para conseguir diferentes resultados, dependiendo del estudio que se

quiera realizar. Las Figuras 1-2 y 1-3 muestran la misma imagen de satélite, combinando

distintas bandas.

Figura 1-2 Imagen Landsat de Santa fe de Bogotá (bandas 2, 5 y 7)

(Fuente: Elaboración Propia)

Capítulo 1 17

Figura 1-3 Imagen Landsat de Santa Fe de Bogotá (bandas 4, 3 y 2: color verdadero)

(Fuente: Elaboración Propia)

1.4.2 Resolución de las imágenes de sensores remotos

Los sensores remotos captan la radiación emitida o reflejada por la superficie terrestre en

cuatro dimensiones distintas: espacio, tiempo, longitud de onda y radiancia[33]. Toda

esta información debe ser muestreada por los sensores para convertirla en datos

digitales discretos. Este proceso de discretizacion tiene por lo tanto cuatro resoluciones

posibles[33]:

Resolución espacial: es la superficie terrestre que almacena cada pixel de la imagen.

También se suele usar el concepto de IFOV, o campo instantáneo de visión, que se

define como la sección angular en radianes observada en un momento determinado. En

la ecuación 1.1 se muestra la relación entre IFOV y el tamaño de pixel:

𝑑 = 2𝐻𝑡𝑎𝑛(𝐼𝐹𝑂𝑉

2) (1.1)



remotos

Donde d es el tamaño de pixel y H la distancia del sensor a la superficie terrestre.

Este valor puede variar bastante dependiendo del tipo de sensor que tome la imagen y

además dependiendo del tipo de fenómeno que queramos estudiar, convendría elegir un

tipo de resolución u otra. Si el estudio está enfocado a grandes fenómenos

meteorológicos, la resolución que ofrece el sensor Meteosat será la adecuada para poder

disponer de una cobertura global de la superficie terrestre[33]. Si se desea estudiar la

cobertura ecológica de una determinada zona, la resolución espacial ofrecida por el

satélite Landsat puede ser adecuada, debido a que no es ni muy elevada ni demasiado

reducida. En cambio, si se quiere realizar un estudio de objetos de manera individual, es

necesario utilizar la resolución ofrecida por el sensor Quickbird[34]. Por lo tanto, la

resolución espacial que se elija para cada estudio debe ser lo suficientemente amplia

como para poder disponer de la información que necesitamos representar en la imagen

y, a su vez, lo suficientemente reducida como para descartar información redundante[35].

Mantener dicho equilibrio puede ahorrarnos no solo costes computacionales

innecesarios, sino también resultados erróneos, por no disponer de la suficiente

información.

Resolución temporal: es el intervalo de tiempo que transcurre entre cada imagen

obtenida por el sensor de la misma zona de la superficie terrestre. Esta resolución puede

ser la que se requiera en el caso de los aviones, cada media hora en el caso de los

satélites geo sincrónicos y variable en el caso de los satélites helio sincrónicos.

Resolución espectral: es el número y anchura de las bandas electromagnéticas

captadas por el sensor. A mayor número de bandas, se dispone de mayor número de

variables que pueden describir cada pixel de la imagen. Por otro lado, las bandas

estrechas aumentan el poder discriminante de los valores captados por el sensor sobre

las bandas anchas. El número de bandas y la anchura depende del objetivo que se

pretende cubrir con la información captada por el sensor[35].

Resolución radiométrica: es la sensibilidad para discriminar entre pequeñas

variaciones en la radiación captada por el sensor. Esta resolución se suele expresar

como el número de bits necesarios para almacenar cada pixel, lo que ofrece el número

Capítulo 1 19

de niveles digitales (ND) del sensor. A mayor resolución radiométrica, mayor información

será captada por el sensor[35].

1.4.3 Errores en la captación de las imágenes de sensores remotos

Existen diversos factores que pueden influir, negativamente, durante el proceso de

captación de la radiación electromagnética de la superficie terrestre por parte de los

sensores remotos, introduciendo errores no deseados en los datos recogidos. Estos

errores se pueden clasificar como geométricos, radiométricos y atmosféricos. A

continuación se muestran los errores más frecuentes que se pueden encontrar dentro de

cada categoría:

Errores geométricos: provocados por la propia plataforma sobre la cual se soporta el

sensor, por los equipamientos instalados en ella o por la rotación terrestre. En primer

lugar, las distorsiones provocadas por la plataforma satelital tienen su origen en

oscilaciones aleatorias de su altitud, orientación y velocidad, que alteran de manera

impredecible la relación que se establece entre la superficie terrestre y las posiciones de

la imagen adquirida. En segundo lugar, los errores introducidos por los sensores se

deben a la elevada complejidad del proceso de captación de la imagen, y puede producir

que no todos los pixeles de la imagen tengan la misma resolución. En tercer lugar, el

fenómeno natural de rotación de la Tierra produce que la superficie terrestre se desplace

espacialmente desde el momento de inicio del proceso de la captura de la imagen hasta

el final del mismo, debido a que dicho proceso puede llegar a requerir bastante tiempo.

En cuarto lugar la elevación de cada píxel en el cálculo de las funciones de

transformación. El motivo que justifica este proceder es que la elevación de un punto del

terreno provoca un desplazamiento aparente de dicho punto en la imagen. Este

desplazamiento depende de parámetros como la localización y orientación de la imagen,

de la propia elevación del punto en el terreno y otros específicos del tipo de sensor[36].

Todos estos errores se pueden solucionar gracias a la corrección geométrica y

ortorectificacion, mediante un proceso llamado georreferenciación de la imagen[35].

Errores radiométricos: provocados por la des-calibración de algún detector que los

sensores poseen por cada una de las bandas electromagnéticas que captan, lo que

puede producir efectos de bandeado en la imagen obtenida. En algunos casos pueden



remotos

perderse algunos pixeles o líneas enteras. Estos errores pueden solucionarse mediante

la corrección radiométrica[35].

Errores atmosféricos: provocados por la interacción que se produce entre la radiación

electromagnética y la atmosfera. Estos errores pueden solucionarse mediante la

corrección atmosférica[35].

1.4.4 Satélites Landsat

El programa Landsat está formado por un grupo de satélites creados y puestos en órbita

por EE.UU. con el objetivo de observar la superficie terrestre a alta resolución. Los

satélites Landsat están controlados por la NASA, aunque las imágenes recibidas son

procesadas y comercializadas por la Servicio Geológico de los Estados Unidos (USGS

en inglés). La Tabla 1 muestra el periodo de actividad de los 8 satélites Landsat lanzados

hasta la fecha[33].

Tabla 1 Periodo de actividad de los satélites Landsat

Satélite Fecha de Lanzamiento Fin de Operación

Landsat 1 23/07/1972 05/01/1978

Landsat 2 22/01/1975 27/07/1983

Landsat 3 05/03/1978 07/09/1993

Landsat 4 16/06/1982 14/12/1993

Landsat 5 01/03/1984 30/11/2011

Landsat 6 03/10/1993 Lanzamiento fallido

Landsat 7 15/04/1999 Activo

Landsat 8 11/02/2013 Activo

Fuente: NASA

Los experimentos llevados a cabo para desarrollar esta tesis de maestría se han

realizado sobre imágenes de satélite capturadas en 2017 por parte del Landsat 8 OLI,

cuyo esquema se muestra en la Figura 1-4.

Capítulo 1 21

Figura 1-4 Esquema general del satélite Landsat 8

Fuente: USGS. 2013

Los dos primeros satélites Landsat incorporaban un sistema de sensores formado por

tres cámaras RBV, que registraban información en una banda espectral comprendida

entre el verde y el infrarrojo cercano. Este sistema fue sustituido en el tercer satélite

Landsat por el sistema Vidicon, que mejoraba la resolución espacial de las imágenes de

satélite capturadas. Más adelante, el Landsat 5 utilizo un nuevo tipo de sensor

denominado Thematic Mapper (TM), que mejoraba la resolución espacial, espectral y

radiométrica respecto al sistema Vidicon. Posteriormente, el satélite Landsat 7 fue

equipado con una versión mejorada del sensor TM, denominado ETM+ (Enhaced

Thematic Mapper), que incorporaba una banda pancromática con una resolución espacial

de 15 metros, y un total de 8 bandas espectrales. Para finalizar, el Landsat 8 cuenta con

dos sensores: el OLI (Operational Land Imager) y el TIRS (Thermal Infrared Sensor), y

con un total de 11 bandas espectrales. En el caso del satélite Landsat 8, cuyas imágenes

han sido utilizadas durante la experimentación realizada en esta tesis de maestría, la

resolución espacial de sus bandas es de 30 metros, lo que permite disponer de una gran

cantidad de información del área de estudio, sin que a su vez sea redundante por tener

exceso de resolución. La Tabla 2 muestra las características técnicas de las bandas

proporcionadas por el sistema Landsat 8 OLI.



remotos

Tabla 2 Características técnicas del sistema Landsat 8 OLI

Landsat 8 Operationa

l Land Imager

(OLI) and Thermal Infrared Sensor (TIRS)

February 11, 2013

Bandas Longitud de onda

(micrómetros) Resolución

(metros)

Banda 1 - Aerosol Costero 0,43 - 0,45 30

Banda 2 - Azul 0,45 - 0,51 30

Banda 3 - Verde 0,53 - 0,59 30

Banda 4 - Rojo 0,64 - 0,67 30

Banda 5 - Infrarrojo cercano (NIR) 0,85 - 0,88 30

Banda 6 - SWIR 1 1,57 - 1,65 30

Banda 7 - SWIR 2 2,11 - 2,29 30

Banda 8 - Pancromático 0,50 - 0,68 30

Banda 9 - Cirrus 1,36 - 1,38 30

*Banda 10 - Infrarrojo térmico (TIRS) 1 10,60 - 11,19 100

*Banda 11 - Infrarrojo térmico (TIRS) 2 11,50 - 12,51 100

Fuente: USGS. 2013

* Las bandas TIRS se adquieren a una resolución de 100 metros, pero se vuelven a

remuestrear a 30 metros.

Estas bandas espectrales se pueden combinar entre sí para optimizar los resultados de

un estudio concreto, como se muestra en las siguientes secciones.

1.4.5 Combinación de imágenes verdadero color

Constituye la combinación más próxima a la percepción de la tierra con nuestros ojos

desde el espacio, de ahí el nombre de color verdadero[37]. Las bandas visibles dan

respuesta a la luz que ha penetrado más profundamente, y por tanto sirven para

discriminar el agua poco profunda y sirven para distinguir aguas turbias, corrientes,

batimetría y zonas con sedimentos. El azul oscuro indica aguas profundas. El azul claro

indica aguas de media profundidad. La vegetación se muestra en tonalidades verdes. El

suelo aparece en tonos marrones y tostados. El suelo desnudo y la roca aparecen en

tonos amarillentos y plateados[37].

Capítulo 1 23

Figura 1-5 Combinación 4,3,2, Verdadero color, Santa fe de Bogotá

Fuente: Elaboración Propia

1.4.6 Combinación de imágenes falso color

El ojo humano puede ver muchos más detalles en las imágenes en color que en blanco y

negro. Incluso se pueden apreciar más detalles en una imagen de color falso que en otra

equivalente en color natural o verdadero[38].

En el procesado de imágenes de satélite, se generan a menudo imágenes en falsos

colores porque incrementan la percepción de determinados detalles de la superficie. Una

imagen en falso color es una representación artificial de una imagen multiespectral[38].

En algunas aplicaciones de teledetección, puede ser útil asociar las clases de cobertura

del suelo con colores familiares, por ejemplo, la hierba con el verde. En otros casos, se

prefieren los colores contrastados para resaltar objetos de interés en el fondo. La



remotos

codificación que se emplea en las imágenes multibanda, se basa en la numeración de las

bandas que integran dicha imagen, siguiendo el orden específico de rojo, verde y azul.

Figura 1-6 Combinación Intensidad, Matiz, Saturación, Falso color, Santa fe de Bogotá


1.4.7 Índice de Factor Optimo OIF

El índice de Factor Óptimo fue desarrollado para, estimar la combinación de bandas con

mayor variabilidad para resaltar las características de estas, se basa en la varianza y en

la correlación de cada banda. El índice del Factor Óptimo se obtiene con la ecuación

1.2[39]

Capítulo 1 25

𝑂𝐼𝐹 = ∑ 𝑆𝑑𝐾

3

𝐾=1

∑|𝐶𝐶𝐽|

3

𝐽=1

(1.2)

Donde:

𝑆𝑑𝐾 = Desviación estándar de la banda.

|𝐶𝐶𝐽| = Valor absoluto de la correlación entre dos de las tres bandas

Se considera que la combinación de tres bandas con los más altos valores de OIF

presenta la mayor variabilidad por lo que es posible observar mejor las diferencias en las

imágenes de falso color compuesto[39].

1.5 Clasificación de imágenes

1.5.1 Clasificación supervisada y no supervisada de imágenes

La clasificación de imágenes es un proceso que consiste en agrupar los pixeles de una

imagen en un número finito de clases, basándose en los valores espectrales de las

distintas bandas, convirtiendo de este modo la información captada por los sensores

como niveles digitales a una escala categórica fácil de interpretar[40]. Los pixeles que

pertenezcan a la misma clase deberán tener unas características espectrales

similares[41].

Los algoritmos de clasificación de imágenes son una de las técnicas más importantes

utilizadas en el ámbito de la teledetección, ya que facilitan la interpretación de una gran

cantidad de información contenida en sus bandas. El objetivo de los algoritmos de

clasificación de imágenes consiste en dividir los pixeles de la imagen en distintas clases,

llamadas clases espectrales, teniendo en cuenta la similitud existente entre dichos

pixeles.

La clasificación de una imagen es una tarea que se realiza con el propósito de convertir

datos cuantitativos (generalmente los niveles digitales de los píxeles en cada banda

espectral) en datos cualitativos (temas o clases que son importantes en un dominio

específico del conocimiento)[42]. La motivación principal de una clasificación es la de

representar un fenómeno que ocurre sobre la superficie terrestre a partir de la

generalización y agrupación de datos obtenidos mediante sensores remotos[43]. Una



remotos

buena clasificación debe representar de manera exacta la realidad a partir de las

características pictórico-morfológicas presentes en las imágenes[44].

La función que relaciona los atributos que se consideran relevantes y las clases

deseadas se puede establecer de manera analítica. Si el problema es muy complejo para

ser resuelto analíticamente, es posible usar aproximaciones heurísticas, como las

ofrecidas por las técnicas de Inteligencia Artificial conocidas como máquinas de

aprendizaje inductivo[45].

La imagen que se obtiene como resultado consiste básicamente en un mapa temático de

la imagen original[41]. Posteriormente la imagen clasificada se utiliza para interpretar de

manera más sencilla la información contenida en la imagen.

La Figura 1-7 muestra el esquema general del proceso de clasificación de una imagen.

Figura 1-7 Esquema del proceso de clasificación de imágenes

Fuente: [46]

Como se puede observar en la parte izquierda de la figura 1-6, la imagen tiene 4 bandas,

y se han tomado los valores espectrales de un pixel concreto como ejemplo, con el

Capítulo 1 27

objetivo de clasificarlo en una de las cuatro clases existentes: Bosque, Pasto, Agua,

Barbecho. En la parte derecha de la imagen se muestra un ejemplo de cómo quedaría el

pixel original después del proceso de clasificación, en la que este ha sido etiquetado en

su clase correspondiente, teniendo en cuenta sus cuatro valores espectrales.

En cualquier algoritmo de clasificación de imágenes podemos encontrar las siguientes

fases genéricas[33]:

Definición del Problema: las clases objetivo deben ser definidas, al igual que el

conjunto de atributos que se utilizarán para identificar las clases.

Selección de las muestras de entrenamiento (clasificación supervisada): Para que

la clasificación sea exacta, esas muestras deben ser representativas de cada clase. Es

recomendable realizar algún tipo de análisis exploratorio para establecer si las clases se

están caracterizando de manera correcta, al igual que entender si existen dificultades

para la separación de las clases. Si se descubre algún problema de caracterización, se

deben modificar las clases objetivo y/o cambiar los atributos que se utilizarán para

diferenciarlas.

Construcción del clasificador: usando criterios predeterminados, en Inteligencia

Artificial (IA) este paso se conoce de manera indistinta como fase de entrenamiento o

como aprendizaje inductivo[40].

Validación de los resultados del entrenamiento: Este paso busca evaluar el

desempeño del clasificador usando datos nuevos que no se han utilizado en el

entrenamiento. Si los resultados no son satisfactorios, puede ser necesario repetir el

proceso de entrenamiento utilizando criterios diferentes.

Es importante tener en cuenta que la selección de un clasificador específico afecta

principalmente la construcción de un clasificador y que tiene un impacto menor en los

demás pasos. Sin embargo, los factores limitantes más grandes en una clasificación

tienen que ver con la definición del problema y la selección de muestras de

entrenamiento; específicamente la capacidad de diferenciar las clases depende del

cuidado que se tenga en la selección de las clases objetivo y de los atributos que se

utilizan para caracterizar esas clases y realizar su discernimiento.



remotos

Los algoritmos de clasificación de imágenes se pueden dividir en dos grandes grupos,

dependiendo del método utilizado durante la fase de entrenamiento: clasificación no

supervisada y clasificación supervisada, ambos tipos de clasificadores son basados en

las propiedades espectrales de los pixeles de la imagen[33]. La utilización de

procedimientos no supervisados o supervisados depende fundamentalmente del

conocimiento que se posee sobre la zona de estudio[47]. Si se posee conocimiento

humano experto de la zona de estudio, es recomendable usar siempre una clasificación

supervisada[48].

1.5.2 Algoritmos de clasificación supervisada de imágenes

En los algoritmos de clasificación supervisados, se seleccionan varias muestras de los

pixeles de cada clase, formando el denominado conjunto de entrenamiento, para que el

algoritmo pueda realizar una clasificación más precisa basada en el conocimiento

humano. En este tipo de algoritmos, el conocimiento que se posee sobre el área de

estudio determina la calidad del conjunto de entrenamiento, y por lo tanto es un factor

muy influyente en el resultado final de la clasificación. Los pixeles son etiquetados en la

clase a la que más se asemejan a nivel espectral, teniendo en cuenta el conjunto de

entrenamiento[49]. Existen muchos algoritmos de clasificación supervisados, como

paralelepípedos, mínima distancia, máxima verosimilitud, Maquinas de Soporte Vectorial,

entre otros.

1.5.3 Algoritmos de clasificación no supervisada de imágenes

En los algoritmos de clasificación no supervisados, el analista experto solo debe

especificar el número de clases en las que desea dividir la imagen, y el propio algoritmo

se encarga de agrupar los pixeles similares basándose únicamente en la información

espectral almacenada en las bandas de cada pixel. Los algoritmos clasificadores k-

medias e isodata son dos de los procedimientos más utilizados para la clasificación no

supervisada de imágenes[33].

Capítulo 1 29

1.6 Máquinas de Soporte Vectorial (MSV)

Las MSV son un conjunto de algoritmos de aprendizaje supervisado desarrollados por

Vapnik y Cortés (1995) y su equipo AT&T, que han surgido como métodos relacionados

con problemas de clasificación y regresión. Su buen desempeño ha llevado a su uso en

una gran variedad de problemas, algunos investigadores [50],[51],[3],[52],[53], han

utilizado MSV para solucionar problemas de clasificación y regresión relacionados a la

predicción de series de tiempo y clasificación de imágenes, mostrando tener muy buenos

resultados en comparación a otras metodologías tradicionales como modelos

econométricos, redes neuronales y en algunos casos a modelos de aprendizaje de

máquina.

La construcción de las máquinas de soporte vectorial (MSV) se basa en la idea de

transformar o proyectar un conjunto de datos pertenecientes a una dimensión n dada,

hacia un espacio de dimensión superior aplicando una función kernel – Kernel Trick[54].

A partir del nuevo espacio creado, se operarán los datos como si se tratase de un

problema de tipo lineal, resolviendo el problema sin considerar la dimensionalidad de los

datos[54].

Las MSV se empezaron a emplear para resolver problemas de clasificación y

reconocimiento de patrones para luego extenderse en el estudio de predicción de series

de tiempo y clasificación de imágenes de sensores remotos. Los problemas de

clasificación se emplean para obtener resultados de tipo cualitativo, por ejemplo,

determinar la clase de un dato de entrada o características, mientras que las de tipo

regresión son más útiles en problemas cuantitativos, cuando se trata de obtener una

salida numérica al dato de entrada[55]. Un punto a favor de utilizar este tipo de modelos

es que el desempeño de las MSV no depende del tamaño de la muestra que se va

utilizar para el problema, por lo que puede ser utilizado para una cantidad limitada de

datos en contraste con otras metodologías que presentan mejor desempeño cuando el

tamaño de la muestra es grande.

Asimismo, el algoritmo detrás de las MSV se puede ajustar a problemas no lineales y la

solución se realiza bajo programación cuadrática, lo cual hace que su solución sea única

y generalizable[56].



remotos

La idea detrás de las MSV es que a partir de unos inputs de entrada al modelo, se

etiquetan las clases y se entrena una MSV construyendo un modelo que sea capaz de

predecir la clase de los nuevos datos que se introduzcan al modelo. La MSV se

representa en un eje de coordenadas los vectores de entrenamiento, separando las

clases por un espacio lo más grande posible. Cuando nuevos datos son introducidos al

modelo, estos se colocan sobre el mismo eje y en función de la cercanía de los grupos

antes separados, los cuáles serán clasificados en una u otra clase.

1.6.1 Funciones de decisión dentro de las MSV

Se considera el problema de clasificación de un pixel cuyas características están dadas

por el vector X tal que X = (X1, . . . , XP)T y este pertenece a una de dos clases posibles.

Ahora se supone que se tienen las funciones F1(x) y F2(x) que definen las clases 1 y 2 y

se clasifica al pixel X dentro de la clase 1 si:

F1(x) > 0, F2(x) < 0,

O clasificamos al pixel X dentro de la clase 2 si:

F1(x) < 0, F2(x) > 0,

Estas funciones se denominan funciones de decisión. Al proceso de encontrar las

funciones de decisión a partir de pares de entrada-salida es llamado entrenamiento. Los

métodos convencionales de entrenamiento determinan las funciones de decisión de tal

forma que cada par entrada-salida sea correctamente clasificado dentro de la clase a la

que pertenece. La Figura 1-8 muestra un ejemplo. Asumiendo que los cuadros

pertenecen a la clase 1 y los círculos pertenecen a la clase 2, resulta claro que los datos

de entrenamiento no se intersectan en ningún momento y es posible trazar una línea

separando los datos de manera perfecta [4]:

Capítulo 1 31

Figura 1-8 Funciones de decisión

Fuente:[4]

Sin embargo, ya sea que la función de decisión F1(x) o la función F2(x) se muevan hacia

la línea punteada de su propio lado, el conjunto de datos de entrenamiento aún sigue

siendo correctamente clasificado, dándonos la certeza de que es posible encontrar un

conjunto infinito de hiperplanos que correctamente clasifiquen los datos de

entrenamiento. Sin embargo, es claro que la precisión de clasificación al generalizar será

directamente afectada por la posición de las funciones de decisión[4].

Las MSV a diferencia de otros métodos de clasificación consideran esta desventaja y

encuentra la función de decisión de tal forma que la distancia entre los datos de

entrenamiento es maximizada. Esta función de decisión es llamada función de decisión

óptima o hiperplano de decisión óptima[56].

1.6.2 Clasificación linealmente separable

Se considera el problema de clasificación binaria en donde los datos de entrenamiento

son dados como:

(X1, Y1), (X2, Y2), . . . , (Xl, Yl), X ∈ Rn, y ∈ {+1, −1} (1.3)

Donde Xi es un vector de entrada el cual tiene asociada una etiqueta o clase Yi.



remotos

Figura 1-9 Clasificador convencional

Fuente:[4]

Los datos son linealmente separables y existen diferentes hiperplanos que pueden

realizar la separación. La Figura 1-9 muestra varios hiperplanos de decisión que separan

perfectamente el conjunto de datos de entrada. Es claro que existe un número infinito de

hiperplanos que podrían realizar este trabajo. Sin embargo, la habilidad de generalización

depende de la localización del hiperplano de separación y el hiperplano con máximo

margen es llamado hiperplano de separación óptima[56]. La cota de decisión, la línea

que separa el espacio de entrada es definida por la ecuación WT Xi + B = 0[4] donde W

define el hiperplano de separación óptimo y b es el sesgo.

Sin embargo, el problema radica en encontrar la mejor cota de decisión, la función de

separación óptima. El caso más simple de MSV es el caso linealmente separable en el

espacio de características.

Si se optimiza el margen geométrico fijando para ello el margen funcional Ki = 1 (también

llamado Hiperplano Canónico[57]), por lo tanto, el clasificador lineal:

yi = ±1,

Capítulo 1 33

(w · x+ ) + b = 1 (1.4)

(w · x- ) + b = −1

Estos pueden ser combinados dentro de un conjunto de desigualdades:

𝑦𝑖 (<𝑤

‖𝑤‖ . 𝑥𝑖 > +𝑏) ≥ 1 ∀𝑖 (1.5)

el margen geométrico de x+ y x- es

𝛾𝑖 = 1

2(<

𝑤

‖𝑤‖ . 𝑥+ > −<

𝑤

‖𝑤‖ . 𝑥− >)

=1

2‖𝑤‖[< 𝑤 ∙ 𝑥+ > −< 𝑤 ∙ 𝑥− >] (1.6)

=1

‖𝑤‖

Donde w define el hiperplano de separación óptima y b es el sesgo. La distancia entre el

hiperplano de separación y el dato de entrenamiento más cercano al hiperplano, es

llamado margen. La habilidad de generalización depende de la localización del

hiperplano de separación y el hiperplano con máximo margen es llamado hiperplano de

separación óptima. Es intuitivamente claro que la habilidad de generalización es

maximizada si el hiperplano de separación óptima es seleccionado como el hiperplano de

separación. Al resolver el problema de programación cuadrática tratamos de encontrar el

hiperplano óptimo y dos hiperplanos (H1 y H2) paralelos. Las distancias entre H1 y H2 es

maximizada y no existe ningún dato entre los dos hiperplanos. Cuando la distancia entre

H1 y H2 es maximizada, algunos puntos de datos pueden estar sobre H1 y algunos puntos

de datos pueden estar sobre H2. Estos puntos de datos son llamados vectores

soporte[56],[57], ya que participan de forma directa en definir el hiperplano de

separación, los otros puntos pueden ser removidos o cambiados sin cruzar los planos H1

y H2 y no modificarán de alguna forma la habilidad de generalización del clasificador, la

solución de una MSV está dada únicamente por éste pequeño conjunto de vectores

soporte. Cualquier hiperplano puede ser representado mediante w, x y b, donde w es un

vector perpendicular al hiperplano. La Figura 1-10 muestra la representación geométrica

del problema de programación cuadrática mostrando H (separador óptimo) y los

hiperplanos H1 y H2[4].



remotos

Figura 1-10 Clasificador Óptimo

Fuente:[4]

1.6.3 Clasificación linealmente no separable

El clasificador lineal presentado anteriormente es muy limitado. En la mayoría de las

clases, no únicamente se traslapan o intersectan los datos al generar un hiperplano de

separación, sino que la separación genuina de estos datos está dada por hiper-

superficies no-lineales. Una característica del enfoque presentado anteriormente radica

en que éste, puede ser fácilmente extendido para crear cotas de decisión no lineal. El

motivo de tal extensión es que una MSV puede crear una hipersuperficie de decisión no

lineal, capaz de clasificar datos separables no linealmente. Generalmente, para patrones

de entrada n-dimensionales, en lugar de una curva no lineal, una MSV creará una

hipersuperficie de separación no lineal[57], [58]. El problema de optimización utilizando

kernels queda de la siguiente manera:

Capítulo 1 35

Figura 1-11 Clasificador No-lineal.

Fuente:[4]

1.6.4 Kernels

En una MSV, el hiperplano óptimo es determinado para maximizar su habilidad de

generalización. Pero, si los datos de entrenamiento no son linealmente separables, el

clasificador obtenido puede no tener una alta habilidad de generalización, aun cuando los

hiperplanos sean determinados óptimamente, para maximizar el espacio entre clases, el

espacio de entrada original es transformado dentro de un espacio altamente dimensional

llamado “espacio de características”[4].

La idea básica en diseño de MSV no lineales es transformar los vectores de entrada

𝑥 ∈ ℝ𝑛 dentro de vectores Φ(𝑥) de un espacio de características altamente

dimensional[57] F (donde Φ representa el mapeo: ℝ𝑛 → ℝ𝑓 ) y resolver el problema de

clasificación lineal en este espacio de características

𝑥 ∈ ℝ𝑛 → 𝛷(𝑥) = [𝛷1(𝑥), 𝛷2(𝑥), … , 𝛷𝑛(𝑥)]𝑇 ∈ ℝ𝑓 (1.7)

El conjunto de hipótesis que consideraremos serán funciones de tipo



remotos

𝑓(𝑥) = ∑ 𝑤𝑖𝜙𝑖

𝑙

𝑖=1

(𝑥) + 𝑏 (1.8)

Donde 𝜙: X → F es un mapeo no lineal desde un espacio de entrada a un espacio de

características, i.e., el procedimiento de aprendizaje consiste de dos pasos: primero, un

mapeo no lineal transforma los datos dentro de un espacio de características F y

después, una máquina lineal es utilizada para clasificar los datos en un espacio de

características. Como se vio anteriormente, una propiedad de las máquinas de

aprendizaje lineal es que éstas pueden ser expresadas en una representación dual, esto

significa que la ecuación (1.8) puede ser expresada como una combinación lineal de los

puntos de entrenamiento. Por lo tanto, la regla de decisión puede ser evaluada usando

productos punto.

𝑓(𝑥) = ∑ 𝛼𝑖𝑦𝑖⟨𝜙(𝑥𝑖) . 𝜙(𝑥)⟩

𝑙

𝑖=1

+ 𝑏 (1.9)

Si se tiene una forma de capturar el producto ⟨𝜙(𝑥𝑖) . 𝜙(𝑥)⟩ en el espacio de

características, directamente como una función de los puntos de entrada originales, esto

hace posible unir los dos pasos necesarios para construir una máquina de aprendizaje

no-lineal. A este método de cómputo directo se le llama función kernel[59].

Definición 1. Un kernel es una función K, tal que para todo x, z ∈ X

𝐾(𝑥, 𝑧) = ⟨𝜙(𝑥) . 𝜙(𝑧)⟩ (1.10)

Donde 𝜙 es un mapeo de X a un espacio de características F.

La clave del enfoque es encontrar una función kernel que pueda ser evaluada

eficientemente. Una vez que tenemos tal función de decisión, la regla puede ser

evaluada

𝑓(𝑥) = ∑ 𝛼𝑖𝑦𝑖𝐾⟨𝑥𝑖 . 𝑥⟩

𝑙

𝑖=1

+ 𝑏 (1.11)

Capítulo 1 37

1.7 Indicadores de calidad de los clasificadores

Un tema clave es la evaluación de fiabilidad de los procedimientos empleados y su

calidad en los resultados finales. La calidad final de un método de clasificación o de

combinación de clasificadores, se puede extraer a partir de un coeficiente de precisión,

de forma que se otorga mayor confianza a aquel clasificador que haya demostrado mayor

acierto. Este es el caso de la matriz de confusión de la cual se derivan distintos índices

de calidad[10].

La matriz de confusión, también llamada tabla de contingencias, consta de una tabla de

doble entrada, que confronta los valores reales o verdad de terreno con los resultados de

la clasificación. La diagonal de la matriz nos muestra la cantidad de píxeles reales y de la

clasificación que coinciden por categoría, mientras que los restantes, nos vienen a decir

aquellos que se confunden con otras categorías. Es decir, en sentido vertical se

representa el porcentaje de píxeles reales que se confundieron en la verdad de terreno, y

en sentido horizontal el porcentaje de píxeles después de la clasificación que se han

confundido[10].

El índice Kappa propuesto por Cohen (1960) se usa para evaluar la concordancia de

métodos cuyo resultado es categórico, con dos o más clases. Este índice representa la

proporción de acuerdos observados respecto del máximo acuerdo posible más allá del

azar. En la interpretación del índice Kappa hay que tener en cuenta que el índice

depende del acuerdo observado, pero también de la prevalencia del carácter estudiado y

de la simetría de los totales marginales[60].

En este sentido Cohen propuso el denominado índice kappa (K), que definió como[61]:

𝐾 = 𝑝0 − 𝑝𝑒

1 − 𝑝𝑒 (1.12)

Siendo 𝑝0 la proporción de acuerdos observados y 𝑝𝑒 la proporción de acuerdos

esperados en la hipótesis de independencia entre los observadores, es decir, de

acuerdos por azar.

Finalmente Landis y Koch propusieron, y desde entonces ha sido ampliamente usada, la

escala de valoración del índice Kappa que se describe en la tabla 3[62].

Tabla 3 Valoración del índice Kappa



remotos

Kappa (K) Grado de acuerdo

< 0,00 Sin acuerdo

0,00 - 0,20 Insignificante

0,21 - 0,40 Mediano

0,41 - 0,60 Moderado

0,61 - 0,80 Sustancial

0,81 - 1,00 Casi Perfecto

1.8 Bases de Datos Espaciales

Son una colección de datos referidos a objetos de los que se conoce su localización

espacial se denomina Base de Datos Espacial. Esta Base de Datos es un modelo

de la realidad que se ajusta a un cierto fenómeno[63].

1.8.1 Características

En el dominio no espacial, las bases de datos se han aplicado para diferentes

propósitos como la administración bancaria, la gestión de empresas e instituciones, entre

otros. Estas aplicaciones tienen en común que la cantidad de datos suele ser muy

grande, pero los datos en sí tienen una estructura simple y regular[63]. El diseño de una

base de datos es complejo y se requiere al menos documentar los siguientes pasos para

su configuración y administración[63]:

Definir cuidadosamente su propósito

Establecer quienes serán sus usuarios

Identificar las fuentes de datos disponibles

Definir la estructura o modelo de organización de datos

Especificar el método de ingreso de datos

Prever procesos para el análisis y explotación de la información

Especificar el o los procedimientos para la actualización permanente

Una base de datos geográfica puede definirse como la colección lógica de información

geográfica interrelacionada que se administra y almacena como una unidad,

Capítulo 1 39

comprendiendo antecedentes sobre la ubicación de las características del mundo real y

sobre sus particularidades en relación a su entorno[63].

Es importante indicar que para el caso del almacenamiento de la información geográfica,

se consideran las bases de datos espaciales y temáticas, en las que se almacenan de

manera estructurada los objetos cartográficos (posición, tamaño y forma) y sus

características no geométricas (atributos alfanuméricos) respectivamente[63]. En algunos

sistemas, las dos bases de datos están separadas, mientras que en otros se integran en

una sola.

El almacenamiento adecuado de datos geográficos es un factor crítico para lograr el

procesamiento y comprensión óptima de la información geográfica[63]. En la mayoría de

los sistemas disponibles, los datos espaciales se organizan en capas según el tema y/o

de acuerdo a su escala. Por ejemplo, los datos pueden organizarse en categorías

temáticas, como uso del suelo, topografía y límites administrativos, o bien, en función de

la escala del mapa. En una base de datos espacial, se almacenan los objetos junto con

sus atributos y relaciones geométricas y no-geométricas, ya sea en formato vectorial o

raster[63].

Desde el punto de vista territorial, es importante considerar aspectos tales como la

topología de los datos geográficos[63]. Una base de datos que contiene topología no sólo

almacena cada característica individual, sino que también almacena la forma en que las

características se relacionan con otras de igual o diferente clase. Por ejemplo, además

de un conjunto de líneas que representan una red de calles, el sistema almacenará los

nodos que definen las intersecciones de las calles, lo que posibilita que determine las

rutas a lo largo de varios segmentos de calle, o bien, almacenaría una línea por vez,

junto con información sobre los polígonos que se encuentran a ambos lados de la línea,

en lugar de almacenar los polígonos como figuras cerradas, caso en el que se

almacenarían dos veces los límites entre polígonos aledaños. Esto evita la redundancia y

facilita la aplicación de muchas funciones de análisis espacial.

1.8.2 Sistema de Gestión de Base de Datos SGBD

Es un software que permite establecer, usar y mantener una base de datos. De la misma

manera que un SIG permite configurar una aplicación de información geográfica, un

sistema de gestión de base de datos ofrece la funcionalidad genérica para la



remotos

organización de la respectiva base de datos y de su manejo, incluyendo funciones

básicas tales como el ingreso, almacenamiento, manipulación, recuperación y consulta

de datos[64]. Las principales razones para emplear un sistema de gestión de base de

datos, en el almacenamiento y procesamiento de datos en general y de manera

específica en relación con la información geográfica, se pueden sintetizar en las

siguientes[63]:

Da soporte al almacenamiento y manejo de conjunto de datos muy grandes.

Cuenta con mecanismos de acceso seguro

Es compatible con el uso simultaneo del mismo conjunto de datos por muchos

usuarios

Proporciona un lenguaje de consulta de alto nivel

Es compatible con el uso de un modelo de datos

Se incluyen las funciones de respaldo y de recuperación para asegurar la

disponibilidad de datos en todo momento

Se puede controlar la redundancia de datos

Un sistema de gestión de base de datos tiene como propósito general manejar de

manera clara y ordenada un conjunto de datos que posteriormente se convertirán en

información relevante para una organización[63].

En el contexto de los SIG corporativos e infraestructura de datos espaciales (IDE),

constituyen la interfaz entre la base de datos espacial, los usuarios y las aplicaciones que

la utilizan, por lo que se requiere de herramientas informáticas robustas y sólidas[63]. La

eficiencia del sistema de gestión de base de datos depende de muchos factores, siendo

el de mayor incidencia el relacionado con la modelación adecuada, la definición de los

objetos y la propuesta de los resultados esperados.

Los sistemas de gestión de base de datos pueden clasificarse en: sistemas de datos

relacionales, de objetos, y que no tienen un lenguaje estructurado para consultas (SQL),

predecesores jerárquicos y de red, Además es importante resaltar que con la aparición

de SQL-99 se extendió la funcionalidad de los sistemas manejadores de base de datos

Capítulo 1 41

relacionales con características orientadas a objetos dando lugar a los sistemas

manejadores de bases de datos objeto – relacionales[64].

Un sistema gestor de base de datos consiste en una colección de datos interrelacionados

y un conjunto de programas para acceder a dichos datos[65].

Entre los programas comerciales para SGBD, cabe mencionar Microsoft Access, SQL

Server, DB2, Oracle, etc., y de fuente abierta MySQL, Postgres y DBApache, entre otros.

Los Sistemas de Gestión de Base de Datos Orientado a Objetos (SGBDOO) están

diseñados para responder a una deficiencia fundamental en los SGBDR: su incapacidad

para almacenar objetos complejos directamente en la base de datos[63]. Los SGBDOO

pueden almacenar sistemáticamente objetos y proporcionar instrumentos de indagación

orientados a ellos.

Los Sistemas de Gestión de Base de Datos de Objetos Relacionales (SGBDOR) son

híbridos, con características a la vez de objetos y relacionales. Consisten en un

dispositivo para datos relacionales con un marco de extensión para manejar objetos. En

condiciones ideales, un SGBDOR consta de los siguientes componentes: un analizador

de la gramática del lenguaje para consultas SQL (lenguaje estructurado para consultas),

un optimizador de consultas, un lenguaje de consultas, un indizador, dispositivos para la

gestión del almacenamiento, servicios de transacción y dispositivo de duplicación. Entre

los programas comerciales y de fuente abierta para SGBDOR se encuentran Oracle,

Informix, entre otros., así como postgreSQL[64].

1.8.3 Información vectorial

En el modelo vectorial, los fenómenos espaciales se representan por las coordenadas

que codifican el límite o perímetro que define el elemento. De esta manera, cada una de

las primitivas geométricas que se utilizan para «dibujar» fenómenos geográficos

espaciales, tendrá una representación compuesta por uno o muchos pares de

coordenadas[66].

Los elementos puntuales se representan mediante el par de coordenadas (X,Y) que

definen su posición. Con un solo par (X,Y) queda definido un fenómeno puntual[66].



remotos

Los elementos lineales se representan mediante las coordenadas (X,Y) de todos y cada

uno de los vértices que definen los tramos que componen la línea. Para representar un

fenómeno lineal se necesitan dos o más vértices que sean diferentes, y el primero y el

último tienen que ser distintos[66].

Por último, los elementos superficiales se codifican mediante las coordenadas (X,Y) de

los vértices que componen la poligonal del recinto cerrado. Para codificar una superficie

vectorialmente, se necesitan al menos tres puntos diferentes no alineados. Además, se

añade un último vértice que coincide con el primero, cerrando así el polígono[66].

Basándose en estos conceptos geométricos, cualquier fenómeno geográfico espacial

puede representarse vectorialmente. La escala de representación determinará la

geometría del fenómeno. Un fenómeno tipo edificación puede ser puntual o superficial,

mientras que un fenómeno tipo río será lineal o superficial[66].

Los SIG también soportan geometrías complejas, compuestas por dos o más geometrías

simples. Por ejemplo, dos áreas que pertenezcan a un mismo fenómeno geográfico,

como en el caso de términos municipales anexos; o un área con un hueco en el interior,

como un edificio con un patio interior. Este último caso se conoce como descuento o

agujeros superficiales[66].

Existen diferentes métodos de captura de información geográfica vectorial. La mayoría de

ellos son procesos manuales que requieren la actuación de operadores. Apoyándose

sobre imágenes raster, estos operadores digitalizan –dibujan– el fenómeno geográfico

recorriéndolo de principio a fin. No siempre se requieren operadores: por ejemplo, en

redes viales de transporte (carreteras o ferrocarriles), un dispositivo GPS colocado sobre

el vehículo que recorra la vía es capaz de capturar automáticamente, y sin necesidad de

operadores, la definición geométrica del fenómeno[66].

1.8.4 Información Raster

El ejemplo más característico de información raster es la imagen, fotografía o modelo

digital (figura 1-12). Este formato se consigue mediante la superposición de una rejilla de

unidades poligonales de igual forma y tamaño, sobre la imagen original (analógica y

Capítulo 1 43

continua). A este método se le denomina rasterización y a esas unidades píxel. A cada

píxel se le asigna el valor asociado al área que representa sobre la imagen original. Si la

imagen es una fotografía en color, el valor del píxel lleva asociada el componente RGB

del color. Si se trata de un modelo de elevaciones, el píxel representa el valor de la altura

del terreno[66].

La palabra píxel proviene de la fusión de las palabras inglesas ‘picture’ (imagen) y

‘element’ (elemento). La rejilla puede estar formada por tres tipos de figuras geométricas

elementales: cuadrados (rectángulos), triángulos regulares y hexágonos[66].

La rejilla más utilizada es la cuadrada y en este caso, un parámetro fundamental es el

tamaño del píxel. Cuánto más pequeño sea, más precisa será la representación digital de

la imagen. La longitud de los lados del píxel en unidades del terreno nos proporciona la

escala de la imagen raster generada[66].

Cada píxel queda localizado sobre la rejilla a través del par de coordenadas que se

extraen al establecer el origen de coordenadas (0,0), en la esquina superior izquierda de

la imagen. La razón de este origen se encuentra en la manera de trabajar de muchos

equipos usados en la captura y tratamiento de datos raster: scanner, sensores

espaciales, impresoras, etc[66].

El establecimiento del origen de coordenadas y la regularidad de la rejilla permiten

recoger la topología de la imagen raster. De esta manera, es posible conocer cuáles son

los vecinos de una celda de la rejilla[66].



remotos

Figura 1-12 Imagen Raster La Macarena.


Una misma imagen analógica puede tener asociadas diferentes imágenes digitales. Por

ejemplo, en el caso de una fotografía aérea representada digitalmente por su

componente RGB, su formato raster se descompone en tres capas. En la primera de

ellas cada píxel representa el valor de la componente del color rojo (R), la segunda la del

color verde (G) y la tercera la del color azul (B). Se denominan capas roja, verde y azul

respectivamente[66].

Una imagen raster se puede descomponer en diferentes imágenes digitales en función

de la longitud de onda del espectro electromagnético[66].

La información asociada a cada píxel determinará el tipo de imagen raster. Cuando esa

información es el valor de la temperatura será una imagen digital térmica; si se trata de la

componente RGB nos referiremos a una imagen en color natural; si el píxel almacena el

valor de la cota del terreno, será un Modelo Digital del Terreno (MDT) o de un Modelo

Capítulo 1 45

Digital de Elevaciones (MDE) si el píxel informa de la cota calculada por el sensor al

incidir la señal emitida sobre el primer obstáculo que encuentra[66].

La información raster se captura, en la mayoría de los casos, de manera automática a

través de sensores digitales terrestres, aerotransportados pasivos o activos. En la

mayoría de los casos, las imágenes obtenidas requieren ciertos tratamientos digitales,

muchos de ellos automatizados hasta componer la imagen final raster. En cambio, para

la obtención de MDE, se necesitan complejos cálculos y procesamientos puramente

manuales como la identificación y toma de puntos de referencia en el terreno[66].

1.8.5 Aplicaciones

Dentro de las aplicaciones que acogieron los estándares definidos por la OGC del inglés

(Open Geospatial Consortium Inc), están los Sistemas Manejadores de Base de Datos

Espaciales[67], en donde definen los tipos de datos y la forma como se debe representar

la información espacial en formato vectorial, y las funciones que operan sobre esos

nuevos tipos de datos. Esto se pudo logar gracias a la definición del estándar SQL-99, el

cual permite definir nuevos tipos abstractos de datos, permitiendo crear las álgebras

necesarias para el uso de información espacial en formato vectorial[68]. Con esta nueva

implementación de base de datos, en donde se extienden los tipos de datos para poder

incluir la información espacial, y la adición de funciones espaciales con las que se

pueden operar entre esos tipos de datos embebidos en SQL, más la adición de nuevos

índices para optimizar las operaciones se puede, finalmente, utilizar los objetos

espaciales directamente en la base de datos[69]. Este es el nuevo concepto de lo que es

una base de datos espacial[69].

Las compañías que producen software han respondido a la demanda de capacidades

espaciales mediante extensiones que den soporte a objetos geográficos permitiendo el

almacenamiento, indexación, consulta y manipulación de datos e información espacial. Si

bien algunas bases de datos geográficas están implementadas para permitir también el

uso de funciones de geoprocesamiento, su principal beneficio se centra en las

capacidades que ofrecen en el almacenamiento de datos georreferenciados. Entre las

más conocidas están DB2 Spatial Extender, Informix Spatial Datablade y Oracle

Spatial[63].



remotos

Entre los sistemas manejadores de bases de datos que permiten trabajar con información

raster cabe destacar dos, en primer lugar Oracle spatial y en segundo lugar PostgreSQL

+ PostGIS. Oracle tiene como principal inconveniente su elevado precio y a su vez

PostgreSQL es una alternativa libre (y gratuita) que realmente es muy eficiente. PostGIS

es una extensión también libre, de PostgreSQL que permite trabajar con bases de datos

espaciales que soportan información raster[63].

1.8.6 Modelo de datos orientado a objetos

Se entiende por modelo de datos, el diseño conceptual de un conjunto de datos que

describe las entidades de la base de datos y las relaciones entre ellas definido por un

usuario[64]. En este sentido, el modelo orientado a objetos, se basa en la representación

de la realidad como un conjunto de objetos interrelacionados para un fin común,

enviándose mensajes unos a otros. Cada objeto es una instancia de una clase, que

puede definirse de manera informal como un conjunto de objetos de características

similares.

Los objetos geográficos se agrupan en clases en función de la similitud de los atributos

de geometría, topología y relaciones temáticas que comparten. Los atributos temáticos

de cada objeto geográfico son el resultado de aplicar unas determinadas funciones que

varían según las relaciones del objeto de referencia con su entorno. Los sistemas de

información geográficos orientados a objetos (SIGOO) introducen un carácter dinámico a

la información incluida en el sistema, frente a los modelos vectoriales y raster que tienen

un carácter estático[63]. Por ello, este modelo es más aconsejable para situaciones en

las que la naturaleza de los objetos que se trata de modelar es cambiante en el tiempo

y/o en el espacio.

En la programación orientada a objetos pueden definirse los objetos como entidades

poseedoras de, literalmente, miles de características[64]. Cuando se importan e

incorporan a un SIG, estas características posibilitan que los objetos «se comporten» de

manera previsible en condiciones de simulación, haciéndolos susceptibles de una

compleja modelación, como por ejemplo, para el análisis de rutas de viaje[64].

Capítulo 1 47

1.9 Ingeniería de software

Es una disciplina o área de las ciencias de la computación que ofrece métodos y técnicas

para desarrollar y mantener software de calidad que resuelve problemas de todo tipo[70].

Ingeniería de Software no es una disciplina que solo debe seguirse para proyectos de

software que se encuentren pensados dentro de ciertas áreas, por el contrario, trata con

áreas muy diversas de las ciencias de la computación, tales como construcción de

compiladores, sistemas operativos, desarrollos en Internet o extensiones que realicen

una función específica como es muy cercanamente el caso de la aplicación de esta

propuesta.

Esta abarca todas las fases del ciclo de vida del desarrollo de cualquier tipo de sistemas

de información aplicables a áreas tales como los negocios, investigación científica,

medicina, producción, logística, banca[70], y para el caso particular de este estudio una

herramienta que genere clasificaciones supervisadas aplicando el algoritmo de máquinas

de soporte vectorial sobre cualquier tipo de imagen obtenida por un sensor remoto.

Un aspecto muy importante de Ingeniería de Software es que proporciona parámetros

formales para lo que se conoce como Gestión de Proyectos de Software. Esto se refiere

a que Ingeniería de Software proporciona diversas métricas y metodologías que pueden

usarse como especificaciones para todo lo referente a la administración del personal

involucrado en proyectos de software, ciclos de vida de un proyecto de software, costos

de un proyecto, y en si todo el aspecto administrativo que implica el desarrollar software.

Existen diferentes modelos de procesos para la Ingeniería de Software. Cada uno de

estos modelos pretende de una manera u otra proporcionar orden al complicado proceso

de desarrollar software. Para el caso de este proyecto es necesario apegarse lo más

posible a uno de estos modelos con el fin de tener una organización de actividades que

se planean con base a una serie de etapas lógicas e interconectadas entre sí. Entre ellos

se encuentra el modelo lineal secuencial, que se describe a continuación.



remotos

1.9.1 Modelo Lineal Secuencial

El modelo lineal secuencial, también conocido como modelo en cascada, se basa en un

enfoque sistemático y secuencial del desarrollo del software que comienza en un nivel de

sistemas y progresa con el análisis, diseño, codificación, pruebas, y mantenimiento[70].

Análisis

El proceso de reunión de requisitos se intensifica y se centra especialmente en el

software. Dentro del proceso de análisis es fundamental que a través de una colección

de requerimientos funcionales y no funcionales, el desarrollador o desarrolladores del

software comprendan completamente la naturaleza de los programas que deben

construirse para desarrollar la aplicación, la función requerida, el comportamiento, el

rendimiento y la interconexión[70].

Diseño

El diseño del software es realmente un proceso de muchos pasos pero que se clasifican

dentro de uno mismo. En general, la actividad del diseño se refiere al establecimiento de

las estructuras de datos, la arquitectura general del software, representaciones de

interfaz y algoritmos. El proceso de diseño traduce requisitos en una representación de

software[70].

Generación del código

Esta actividad consiste en traducir el diseño en una forma legible por la máquina. El

lenguaje de programación Python es un lenguaje de modelado en el cuál se representan

los objetos por medio de generar código de programación de formato y marcado para

especificar las características de los objetos que se van agregando a un mundo o entorno

virtual[70].

Pruebas

Una vez que se ha generado código, comienzan las pruebas del software o sistema que

se ha desarrollado. El proceso de pruebas se centra en los procesos lógicos internos del

software, asegurando que todas las sentencias se han comprobado, en los procesos

externos funcionales, es decir, la realización de las prueba para la detección de

errores[70]. Se requiere poder probar el software con diferentes imágenes de diferentes

Capítulo 1 49

sensores que puedan evaluar el comportamiento del software con el fin de proporcionar

una buena retroalimentación.

Mantenimiento

El software indudablemente sufrirá cambios, y habrá que hacer algunas modificaciones a

su funcionalidad. Es de suma importancia que el software de calidad pueda adaptarse

con fines de acoplarse a los cambios de su entorno externo[70].

Capitulo 2 51

2. Metodología y diseño

A continuación se menciona la metodología utilizada para la elaboración del proyecto la

cual se describe en la figura 2-1.

Figura 2-1 Metodología propuesta


ETAPA DE DESARROLLO

• Análisis

• Diseño

• Generación de Código

•Modelo MSV

ETAPA DE PRE-PROCESAMIENTO

• Recortar

• Reescalar

• Calculo del OIF

ETAPA DE EXTRACCIÓN DE

CARACTERISTICAS

ETAPA CLASIFICACIÓN

(MSV)

ETAPA DE VALIDACIÓN

Etapas fuera del gestor

de bases de datos

Etapas dentro del gestor

de bases de datos



remotos

2.1 Etapa de desarrollo: análisis, diseño y generación de código

Esta sección se centra en la arquitectura de la herramienta, que está formada por una

combinación de componentes relacionados con el ámbito de la teledetección y

componentes relacionados con el modelo matemático de máquinas de soporte vectorial.

La Figura 2-2 muestra la arquitectura principal del algoritmo MSV.

Figura 2-2 Arquitectura del Algoritmo MSV

Capítulo 2 53

La figura 2-2 representa la arquitectura de la herramienta que se explica en las secciones

siguientes la cual está compuesta por dos componentes principales: el algoritmo MSV

propiamente dicho y la aplicación del cálculo de calidad de la clasificación obtenida. El

algoritmo MSV, a su vez, está compuesto por una clasificación espectral. No obstante, la

arquitectura descrita en esta sección se trata en realidad de un modelo bastante

simplificado, donde solo se muestran los componentes relacionados con la obtención de

los objetivos principales del algoritmo MSV.

Los componentes relacionados con la obtención de la información complementaria de

cada objetivo han sido obviados, para no aumentar la complejidad de la arquitectura.

A continuación se explica el funcionamiento de los componentes principales de la

arquitectura de la herramienta propuesta:

2.1.1 Algoritmo MSV

El algoritmo MSV tiene varios componentes de entrada y un solo componente de salida:

la imagen clasificada. Los componentes de entrada se pueden agrupar en tres categorías

distintas:

Componentes de entrada del algoritmo MSV relacionados con la imagen de

satélite a clasificar. El algoritmo MSV tiene dos entradas de este tipo: la aplicación

de lectura de la imagen y la aplicación de lectura del conjunto de muestras

(Polígonos de entrenamiento) los cuales fueron seleccionados por el analista,

tomando de la propia imagen de satélite, varias muestras de las diferentes clases.

Dichas muestras están formadas por pixeles representativos que componen el

denominado conjunto de entrenamiento (o firmas), sobre el que posteriormente se

basó el proceso de clasificación supervisado. Por lo tanto, en este método, el

conocimiento que se posea sobre el área de estudio determina la calidad, tanto

del conjunto de entrenamiento como de la tasa de acierto obtenida por parte del

proceso de clasificación. Este algoritmo por ser de tipo supervisado compara cada

pixel de la imagen con estas firmas elegidas y, a continuación, cada pixel es

etiquetado en la clase a la que más se asemeja espectralmente obtenido

previamente a partir de pixeles que pertenecen a las clases elegidas para el



remotos

proceso de clasificación. Estos dos componentes se encuentran almacenados

dentro una base de datos espacial y proporcionan al algoritmo MSV todos los

elementos necesarios para realizar una clasificación de la imagen de tipo

supervisada.

Componentes de entrada del algoritmo MSV relacionados con los demás

paquetes de procesamiento digital de imágenes ENVI y Orfeo Toolbox, para de

esta manera producir puntos de comparación y evaluación de las diferentes

clasificaciones. El algoritmo MSV utiliza los componentes de entrada y muestras

pero se debe aclarar que estos no se encuentran almacenados en una base de

datos espacial.

Componentes de entrada del algoritmo MSV relacionados con el tipo clasificación

realizada que para este caso se utilizó como temática de clasificación los usos del

suelo y como modelo piloto de la herramienta el modelo linealmente separable el

cual se apoya en la generación de hiperplanos de separación para realizar la

clasificación. Algunos de estos componentes relacionados con MSV deben ser

configurados por el analista experto antes de llevar a cabo el proceso de

clasificación, como el tipo de separación de hipeplanos (lineal, no lineal) o la

temática a trabajar dentro de la clasificación, personalizando la configuración del

algoritmo MSV para cada imagen concreta.

2.1.2 Calculo de calidad en la clasificación

Esta aplicación toma como entradas la imagen clasificada mediante el algoritmo MSV y la

imagen clasificada a través del análisis de las variables ecológicas presentes dentro de la

imagen a partir de una interpretación visual, y se obtuvo la matriz de confusión entre

ambas imágenes, ofreciendo como salida un índice de concordancia del proceso de

clasificación, es decir, el porcentaje de pixeles bien clasificados y los que quedaron mal

clasificados, además de tener en cuenta el error debido al azar con lo cual se puede

determinar si existe confusión entre las clases por estar muy próximas entre sí.

Capítulo 2 55

2.2 Etapa de Pre - procesamiento

Esta sección se centra en la recolección, obtención y procesamiento digital de las

imágenes a trabajar.

La Figura 2-3 muestra la arquitectura principal de la etapa de pre – procesamiento

Figura 2-3 Arquitectura Etapa de Pre - Procesamiento

La etapa de pre-procesamiento consiste en dejar la imagen con el menor porcentaje de

ruido posible a partir de correcciones radiometrías y geométricas, para aumentar las

posibilidades de éxito en las siguientes fases. Además su objetivo en el presente trabajo

de maestría consiste en la selección del área de estudio, reescalar la imagen y hacer la

selección de una buena combinación de bandas que permita una óptima ejecución de las

siguientes fases. Para lo cual se definieron las siguientes sub-etapas:

2.2.1 Recorte

Es la parte donde se toma una porción de la escena la cual contendrá la zona de estudio

y permitirá reducir los costos de procesamiento ya que se reducirán el número de filas y

columnas de la imagen y por ende los procesos serán más rápidos.



remotos

La comparativa de los algoritmos de clasificación supervisada MSV sobre diferentes

softwares que lo implementan se ha llevado a cabo sobre 1 imagen de satélite Landsat 8

OLI de 7 bandas, con una resolución espacial de 30x30m. La región de estudio elegida

fue el municipio de “La Macarena” en el Meta el cual es limítrofe entre los departamentos

de Caquetá, Meta y Guaviare. El tamaño de la imagen es de 2048 x 2048 pixeles (un

total de 4.194.304 pixeles).

La enorme diversidad de vegetación y la intervención que ha generado el hombre en

cuanto a la desforestación de bosques que existe en esta zona al sur de Colombia

complica bastante la verificación de cualquier algoritmo de clasificación, ya que al

modificar el ecosistema se homogenizan grandes extensiones de terreno y se genera

que diferentes clases se aprecien muy similares produciendo que cualquier algoritmo de

clasificación necesite más información detallada de entrada para lograr realizar una

clasificación consecuente con la realidad de la zona.

Por tal motivo y por ser una de las regiones de la selva amazónica que más

deforestación presenta se ha elegido esta área de estudio para confirmar en condiciones

no convenciones la calidad del proceso de clasificación y la efectividad del método

seleccionado. La Figura 2-4 muestra la imagen de satélite Landsat 8 OLI de Sierra la

Macarena, la Macarena y Caño Cristales (bandas 4, 3, 2 verdadero color).

Capítulo 2 57

Figura 2-4 Imagen en verdadero color (4,3,2) zona de estudio La Macarena

2.2.2 Reescalar

Se procesa la imagen para dejarla en un formato estándar de 8 bits ya que se adaptara la

resolución radiométrica de la imagen a la capacidad de visualización del monitor. Cada

sensor codifica la reflectancia en un número de determinados niveles digitales. Ese rango

digital puede no corresponder con el número de niveles de visualización que facilita la

consola gráfica, por lo que resulta preciso ajustar estos parámetros ya que al trabajar con

una paleta de colores entre 0-255 niveles de color se ajustan estos niveles y además se

ocupa menos espacio en la memoria del PC, por lo que se acelera la manipulación de la

misma.

2.2.3 Combinación de imágenes

Dentro del pre-procesamiento de imágenes es importante definir desde un principio cual

será la mejor combinación de color que se utilizará, este proceso permite visualizar,

simultáneamente imágenes sobre diferentes partes del espectro, lo que facilita una



remotos

identificación visual más precisa de algunas coberturas lo cual permite realizar una mejor

clasificación.

La elección de las bandas para realizar la combinación y el orden de los colores

dependen del sensor elegido y la naturaleza del trabajo a realizar, para el caso de este

trabajo por tratarse de un sensor Landsat 8 OLI dotado de 11 bandas de las cuales se

dispuso de 7 (azul, verde, rojo, Infrarrojo cercano, dos infrarrojos lejanos y la

pancromática) con las cuales se tiene la posibilidad de realizar combinaciones en un

amplio rango de composiciones de color.

El método que nos permitió seleccionar la combinación de bandas que contiene la mayor

cantidad de información con la menor cantidad de redundancia de entre las 35 posibles

combinaciones (7 tomadas de 3, sin repeticiones) se denomina Índice de Factor Optimo

OIF por sus siglas en ingles.

Para calcular el coeficiente OIF lo primero que se discriminó fueron las desviaciones de

cada una de las bandas. En la tabla 2 se presentan las desviaciones de cada banda:

Tabla 2 Desviación estándar de cada una de las bandas de la imagen

Banda Desviación

Aerosol Costero 1,305

Azul 1,728

Verde 2,601

Rojo 4,455

Infrarrojo cercano 13,035

SWIR 1 8,51

SWIR 2 6,272

Posteriormente se procedió a calcular la matriz de correlación entre todas las bandas de

la imagen con la ayuda del software ERDAS. En la tabla 3 se presenta la matriz de

correlación resultante:

Capítulo 2 59

Tabla 3 Matriz de Correlación de las bandas de la imagen

Aerosol Costero

Azul Verde Rojo Infrarrojo cercano

SWIR 1 SWIR 2

Aerosol Costero

1,0000 0,9553 0,8118 0,8830 -0,5371 0,6950 0,8502

Azul 0,9553 1,0000 0,8841 0,9454 -0,5093 0,7677 0,8919

Verde 0,8118 0,8841 1,0000 0,9321 -0,2041 0,8388 0,8218

Rojo 0,8830 0,9454 0,9321 1,0000 -0,4359 0,8691 0,9258

Infrarrojo cercano

-0,5371 -0,5093 -0,2041 -0,4359 1,0000 -0,1275 -0,4457

SWIR 1 0,6950 0,7677 0,8388 0,8691 -0,1275 1,0000 0,9093

SWIR 2 0,8502 0,8919 0,8218 0,9258 -0,4457 0,9093 1,0000

Finalmente se procedió a calcular el OIF para cada una de las combinaciones presentes

en la imagen las cuales suman 35 posibles. En la tabla 4 se presentan los resultados del

cálculo del OIF para cada combinación posible ordenadas según el OIF de mayor a

menor:

Tabla 4 Calculo del OIF a partir de cada combinación de bandas posible

R G B ∑ Desviación ∑ Correlaciones OIF

3 5 6 24,146 1,170438624 20,629873

5 6 7 27,817 1,482486506 18,763746

4 5 6 26 1,432539051 18,149592

1 5 6 22,85 1,359634669 16,805985

2 5 6 23,273 1,404509225 16,570201

3 5 7 21,908 1,471619953 14,886996

4 5 7 23,762 1,807500342 13,146332

3 4 5 20,091 1,572172763 12,77913

2 5 7 21,035 1,846956134 11,389009

1 5 7 20,612 1,833036209 11,244732

1 3 5 16,941 1,552985644 10,908665

2 3 5 17,364 1,597608758 10,868744

2 4 5 19,218 1,890636127 10,164833

1 4 5 18,795 1,856056953 10,126306



remotos

1 2 5 16,068 2,001758784 8,0269412

4 6 7 19,237 2,704205099 7,1137356

3 6 7 17,383 2,569841088 6,7642315

1 6 7 16,087 2,454508784 6,5540609

2 6 7 16,51 2,568807642 6,4271064

3 4 6 15,566 2,64004761 5,8961058

1 4 6 14,27 2,44718324 5,8311939

2 4 6 14,693 2,582141348 5,6902385

1 3 6 12,416 2,345628309 5,2932513

2 3 6 12,839 2,490630357 5,1549199

3 4 7 13,328 2,679705138 4,9736815

1 2 6 11,543 2,418031822 4,7737172

1 4 7 12,032 2,659060978 4,5249056

2 4 7 12,455 2,763064455 4,5076762

1 3 7 10,178 2,483726086 4,0978754

2 3 7 10,601 2,597773503 4,0808023

1 2 7 9,305 2,697395179 3,4496243

1 3 4 8,361 2,626900807 3,1828381

2 3 4 8,784 2,761607473 3,1807562

1 2 4 7,488 2,783697083 2,6899479

1 2 3 5,634 2,651215211 2,1250632

El mayor valor de OIF corresponde a la combinación de bandas con menor correlación

entre ellas y con mayor desviación estándar para cada banda indicando la mayor

posibilidad de discriminación de coberturas estudiadas. Por lo tanto según el resultado

obtenido podemos afirmar que la mejor combinación de bandas corresponde al valor OIF

de 20,629873 es la combinación RGB – 356 de OLI, correspondiente al Verde, Infrarrojo

cercano, y SWIR 1. La combinación elegida se presenta en la figura 2-5:

Capítulo 2 61

Figura 2-5 Imagen Pseudocolor a partir del OIF 356

2.2.4 Almacenamiento de la imagen en la base de datos

En este paso se definen los parámetros para realizar el almacenamiento de las imágenes

en una base de datos espacial la cual será utilizada posteriormente para realizar la

clasificación supervisada de las imágenes.

La extensión para almacenamiento de imágenes para el gestor de base de datos

postgres se denomina Postgis la cual permite convertir datos raster que estén en

formatos soportados por GDAL en un archivo sql que posteriormente puede ser

ejecutado desde el motor de base de datos para crear la tabla raster correspondiente.

Esta a su vez permite importar directorios completos lo mismo que crear versiones

reducidas (overviews) de los datos raster.

Para importar una imagen a una tabla raster se debe tener una base de datos mínimo en

la versión PostGIS 2.0. Primero se ha creado una base de datos llamada “Postgis” tal

como se puede ver en la figura 2-6:



remotos

Figura 2-6 Creación de la base de datos con Postgis

Una buena práctica al importar datos raster es la de “cortarlo” en piezas (tiles en inglés)

que para nuestro caso, fueron, de 100x100 pixeles. Esta es una de las principales

ventajas de trabajar las imágenes sobre una base de datos ya que al crear los tiles se

corta la imagen en variar porciones las cuales tendrán un impacto directo sobre el tiempo

de procesamiento y el resultado obtenido. Igualmente, es conveniente utilizar la opción –

C para aplicar restricciones y asegurar que el raster tenga un registro apropiado en el

catálogo raster, la opción –I para crear un índice GIST de la tabla raster, lo mismo que la

opción –M para forzar el análisis de dicha tabla[71].

Para visualizar la información almacenada en la tabla creada llamada “Amazonas” se

utilizó el software QGIS la cual se puede observar en la figura 2-7 en donde se muestra

la composición de bandas definida anteriormente RGB356:

Capítulo 2 63

Figura 2-7 Imagen cargada en Qgis almacenada desde Postgis

2.3 Etapa de extracción de características

Para la extracción de características se debe analizar la imagen según la combinación de

bandas elegida anteriormente mediante el software que la realiza de manera automática,

teniendo en cuenta que es necesario realizar un estudio de las variables ecológicas de

vegetación más relevantes dentro de la zona de estudio, esto con el fin de poder

establecer de manera más precisa las clases que se deben tener en cuenta dentro del

algoritmo y comenzar a realizar una separación de pixeles según las características

identificadas.

Según el SIAT – AC (Sistema de información ambiental territorial de la amazonia) es

necesario establecer parámetros sólidos en cuanto a la tala indiscriminada de bosques

en la amazonia, sobre todo en las zonas aledañas a La Macarena desde el ordenamiento

territorial de los municipios a partir de una zonificación ambiental que permita identificar

prontamente las principales zonas afectadas. La Figura 2-8 muestra la estratificación de

la intervención por deforestación en la zona de estudio.



remotos

Figura 2-8 Estratos de intervención por deforestación en la zona de estudio

Fuente:[72]

Esta gran intervención ecológica provoca que muchas clases se encuentren muy

próximas entre si desde el punto de vista espectral ya que en muchas zonas la

deforestación se encuentra en diferentes niveles de impacto como se muestra en la

figura 2-8, per gracias a esta estratificación se simplifico en gran medida la separación de

la clase deforestación. Sin embargo, tomando en cuenta que la zona de estudio es en su

mayoría es selvática y para intensificar más la variabilidad, esta zona está dividida, a su

vez, en múltiples variables ecológicas de vegetación, las cuales se tomaron como base

para definir las demás clases establecidas dentro de la clasificación. Estas variables

ecológicas de vegetación se presentan en la Tabla 5.

Capítulo 2 65

Tabla 5 Variables ecológicas de vegetación zona la Macarena Meta

Fuente:[73].

1. TERRITORIOS AGRICOLAS

CULTIVOS PERMANENTES

PASTOS Coca

Pastos limpios

AREAS AGRICOLAS HETEREOGENEAS

Pastos Enmalezados Mosaico de Pastos y Cultivos Mosaico de Cultivos, Pastos y Espacios Naturales Mosaico de Cultivos, Espacios Naturales

2. BOSQUES Y AREAS SEMINATURALES

BOSQUES

Bosque Denso Alto de Tierra Firme

Bosque Denso Alto Inundable

AREAS CON VEGETACION HERBACEA Y/O ARBUSTIVA

Bosque Fragmentado con Pastos y Cultivos

Bosque Fragmentado con Vegetación Secundaria

Herbazal Denso de Tierra Firme no Arbolado

Herbazal Denso de Tierra Firme Arbolado

Herbazal Denso de Tierra Firme con Arbustos

Herbazal Abierto Rocoso

AREAS ABIERTAS SIN O CON POCA VEGETACIÓN Arbustal Denso

Arbustal Abierto

Vegetación Secundaria o en Transición

Zonas Arenosas Naturales

Zonas Quemadas

3. AREAS HUMEDAS

AREAS HUMEDAS CONTINENTALES Zonas Pantanosas

4. SUPERFICIES DE AGUA

En concreto, la región de La Macarena está caracterizada por la presencia de los 4

anteriores variables ecológicas de vegetación, los cuales se pueden etiquetar en 7 clases



remotos

espectrales distintas, algunas de ellas con un alto grado de heterogeneidad, es decir, con

un alto porcentaje de pixeles inciertos. Sobre todo, en la zona de caño cristales ya que se

caracteriza por la presencia de una enorme cantidad de vegetación con diferente

coloración, lo cual dificulta su clasificación. El proceso de clasificación de los pixeles de la

clase “Caño Cristales” es muy complicado, ya que se trata de una clase con un grado de

heterogeneidad extremadamente alto, y por lo tanto sus pixeles pueden cubrir un amplio

rango espectral en el espacio de características. Como consecuencia, los algoritmos de

clasificación basados en pixeles tienen una alta probabilidad de fallar con este tipo de

pixeles.

En esta región se encuentra además la clase “Casco Urbano”, es decir, la zona urbana,

que también se trata de una clase bastante heterogénea porque agrupa pixeles con

diferentes características espectrales, como construcciones y vías que se pueden

confundir con la clase “suelo desnudo” la cual también es muy heterogénea. Los

algoritmos de clasificación también suelen fallar con los pixeles de estas clases.

La imagen de satélite se caracteriza además por la presencia de otras clases de

heterogeneidad media, como “Bosque Natural”, “Bosque fragmentado”, y “Cuerpos de

agua”. Finalmente, esta región también se caracteriza por la presencia de la clase “Vías”,

con un bajo nivel de heterogeneidad.

Por lo anterior y para efecto del Proyecto se adoptaron las categorías de cobertura de la

Tierra de la leyenda CORINE Land Cover adaptada para Colombia a escala

1:100.000[74]. Los distintos niveles y clases de este sistema de clasificación de

coberturas de la Tierra, se adaptan a las necesidades de identificación de categorías de

uso. La Tabla 6 muestra las características de las 7 clases que se pueden encontrar en la

imagen de satélite.

Capítulo 2 67

Tabla 6 Características principales de las 7 clases presentes en la imagen satelital

CLASE COBERTURA VARIABLE DE VEGETACIÓN

NOMBRE CLASE

HETEROGENEIDAD

C1

4

Cuerpos de agua

Media

C2

2

Bosque fragmentado

Media

C3

2

Bosque natural

Media

C4

1

Casco urbano

Alta

C5

4

Caño cristales

Alta



remotos

C6

2

Suelo desnudo

Alta

C7

1

Vías

Baja

Una vez definidas las características de entrenamiento se creó un archivo shape donde

se digitalizaron cada uno de los polígonos de entrenamiento sobre la imagen y se creó

otro archivo shape para generar los polígonos de prueba los cuales se almacenaron

dentro de la base de datos espacial.

Postgis dispone de un comando para la importación de ficheros en formato shape

denominado shp2pgsql, este comando se invoca desde la consola del sistema e importa

tanto los datos espaciales como los datos temáticos asociados y a su vez crea un fichero

.sql donde se incluyen las sentencias sql necesarias para la creación de la tabla y carga

de cada uno de los registros. Este comando se utilizó para la importación de la

información geográfica necesaria para la descripción de las características consideradas

para el entrenamiento de la máquina y los polígonos de prueba para la validación.

Posterior a esto se definió una sentencia sql dentro de la base de datos que permitió

ejecutar una función de análisis espacial denominada intersección entre los polígonos de

entrenamiento almacenados con el nombre “clases” y los pixeles de la imagen

denominada dentro de la base de datos “amazonas” para de esta manera definir las

zonas consideradas como verdad absoluta de terreno y asociarle los niveles digitales

correspondientes a cada una de las clases definidas anteriormente. Esta consulta se

presenta a continuación:

Capítulo 2 69

CREATE TEMPORARY VIEW consulta1 AS

SELECT class_id,ST_UNION(ST_CLIP(rast, ST_Transform(geom, ST_SRID(rast)))) rast

FROM amazonas, clases WHERE ST_INTERSECTS(rast, geom) GROUP BY class_id

La anterior consulta crea una tabla temporal llamada “consulta1” dentro de la cual

almacena el valor del atributo “class_id” el cual corresponde a la nomenclatura asignada

a cada una de las clases de entrenamiento y que por lo tanto vienen del archivo shape

“clases” creado con los polígonos de verdad terreno, posterior a esto la consulta

relaciona cada uno de los valores de los pixeles presentes en la imagen “amazonas” que

están por dentro de esos polígonos de entrenamiento, definidos a través de la función

“ST_Clip” la cual recorre pixel a pixel la imagen y genera un recorte de la misma solo con

aquellos registros de pixeles que se encuentran dentro de algún polígono de

entrenamiento, cumpliendo con la particularidad de recortar los pixeles si y solo si el

centroide de este se encuentra dentro del polígono, esto es muy importante ya que

gracias a esta particularidad se estableció una condición de frontera que permite eliminar

ruido en la muestra ya que un pixel no es seleccionado solamente por intersectarse con

algún polígono, sino que es necesario que su punto central también este contenido

dentro de este y con lo cual se establece una selección de pixeles más acertada ya que

dentro del entrenamiento se buscó hacer la selección de pixeles lo más homogénea

posible. Esta particularidad se representa gráficamente en la figura 2-10.

Figura 2-9 Selección de pixeles.




remotos

Luego de haber realizado el recorte de los pixeles que están dentro de los polígonos de

entrenamiento la consulta a través de la función “ST_Union” reconstruye cada una de las

partes de la tabla solo con los pixeles que cumplen con la característica de frontera

mencionada anteriormente y los agrupa dentro de la tabla, dándole paso a la

implementación de la sentencia “Where” dentro de la consulta, la cual genera la

intersección entre los pixeles resultantes y las clases definidas a partir de sus

coordenadas geográficas, asignando de esta manera un único valor de clase a cada pixel

dentro de la imagen, los cuales se utilizaron como entrenamiento para el proceso de

clasificación.

Posterior a esto se utilizó la siguiente consulta con el fin de obtener los valores de los

niveles digitales de cada uno de los pixeles en cada una de las bandas con su respectiva

asociación de clase según se definió en la consulta anterior:

SELECT st_value(rast,1,(st_pixelascentroids(rast)).geom) as nd1,

…………st_value(rast,2,(st_pixelascentroids(rast)).geom) as nd2,

…………st_value(rast,3,(st_pixelascentroids(rast)).geom) as nd3,

class_id FROM consulta1

Tabla 7 Consulta polígonos verdad terreno

Capítulo 2 71

El cruce entre la imagen y los polígonos de verdad terreno generaron un total de 16.490

registros los cuales se utilizaron dentro del entrenamiento de la máquina.

Finalmente se debe aclarar que este mismo procedimiento se utilizó con los polígonos

que definimos para realizar las pruebas de validación del modelo los cuales son

diferentes a los polígonos de verdad terreno.

2.4 Clasificación (Maquinas de soporte vectorial)

Este proyecto de investigación propone un algoritmo de clasificación de imágenes

supervisado, basado en el algoritmo de clasificación máquinas de soporte vectorial. El

algoritmo se implementó directamente sobre una base de datos espacial desde el gestor

Postgres aprovechando las propiedades raster definidos en la extensión Postgis sobre

las imágenes, con el propósito de implementar un proceso de clasificación supervisado

espectral.

Por lo tanto en esta etapa se aplicó el algoritmo planteado en la etapa de desarrollo

sobre una imagen satelital Landsat 8 OLI para una zona piloto en la Macarena Meta

perteneciente a la amazonia colombiana para lo cual se definió como temática para la

clasificación la deforestación, se analizó el comportamiento del algoritmo comparándolo

con los paquetes de procesamiento digital de imágenes ENVI para el caso de uso de

software comercial y ORFEO para el caso de software libre, y se establecieron las

ventajas y desventajas de cada uno de los algoritmos y se comparó a través de cada

matriz de confusión y coeficiente Kappa el rendimiento de cada clasificador y se concluyó

según los resultados obtenidos.

Esta es la última fase del sistema propuesto, que es donde se asigna la clase a las

diferentes coberturas que se van a reconocer. Una vez descritos los objetos según todas

las características, es necesaria la asignación de los objetos a una de las clases de la

leyenda.

2.4.1 Entrenamiento

Para el entrenamiento de los datos se requiere el vector de características de cada una

de las coberturas a clasificar. El proceso se hace del siguiente modo: Para los datos de

entrada que pertenecen a una cierta clase, sus respectivos vectores de características se

colocan en una matriz X en forma de columnas. Cabe mencionar que se deben colocar



remotos

primero todos los datos que pertenecen a una clase y después todos los que pertenecen

a la siguiente clase. Para cada dato de entrada X le corresponde una salida Y por lo que

tenemos una pareja (x, y).[76] En este sentido se debe indicar al método de

entrenamiento cuál es la salida Y que le corresponde a cada entrada X.

En la figura 2-11 podemos apreciar los polígonos de entrenamiento utilizados durante el

proceso de clasificación:

Figura 2-10 Polígonos de entrenamiento

2.4.2 Clasificación

Una vez hecho el entrenamiento, lo que sigue es clasificar los datos. Una buena

clasificación depende de que los datos estén bien entrenados, es decir, si el vector de

características de cada cobertura, efectivamente es diferente a los demás, la clasificación

se hará de manera correcta.

Capítulo 2 73

La clasificación realizada se basa en el algoritmo de máquinas de vectores soporte

(MSV) y se utilizó un clasificador lineal muy sencillo. El clasificador lineal empleado

obtiene la línea (para 2 dimensiones o el hiperplano para un mayor número de

dimensiones) que separe limpiamente las dos clases maximizando la distancia a la

frontera de los ejemplos más próximos a la misma.

El algoritmo es muy eficiente incluso para cientos de dimensiones, ya que el separador

lineal puede tener únicamente en cuenta los puntos más próximos y descartar los más

lejanos a la frontera.

2.4.3 Validación de la clasificación de imágenes

Para la validación de la clasificación existen dos posibilidades, evaluar una estimación

teórica del error en función de las características del algoritmo de clasificación o analizar

una serie de áreas test obtenidas del mismo modo que las áreas de entrenamiento. Para

el presente proyecto de investigación se ha implementado el segundo modo de proceder

ya que permite obtener una estimación más realista de los errores mientras la muestra de

pixeles para la estimación del error sea lo suficientemente grande y representativa.

Para la evaluación de los errores se utilizó una matriz de confusión de clases ya que con

este tipo de análisis, se obtuvo, no sólo una caracterización del error cometido, sino

también una medida sobre la adecuación de la clasificación considerada a la realidad y

de los parámetros utilizados para caracterizarlas.

2.5 Herramientas utilizadas para la investigación

En este apartado se describen las herramientas más importantes utilizadas para

desarrollar el trabajo de investigación de esta tesis de maestría: por un lado los paquetes

de tratamiento de imágenes Erdas Imagine, ENVI y ORFEO y por otro lado el gestor de

bases de datos PostgreSQL y su extensión espacial PostGis así como el lenguaje de

programación utilizado Python.

2.5.1 Erdas Imagine

Erdas Imagine es una herramienta software relacionada con el ámbito de la teledetección

que proporciona las técnicas más avanzadas en el análisis de imágenes de satélite y



remotos

modelado espacial para la generación de nueva información[77]. Con Erdas Imagine se

pueden visualizar los resultados en 2D y 3D, crear videos y composiciones de mapa,

corregir geométricamente las imágenes, así como analizar, clasificar y automatizar la

realización de mapas generados de imágenes para una gran variedad de aplicaciones.

Soporta múltiples formatos compatibles con otras herramientas disponibles en el

mercado, permitiendo tanto importar como exportar los resultados obtenidos. Para

desarrollar gran parte del trabajo de investigación de esta tesis se ha usado la versión

2014 de Erdas Imagine.

Esta herramienta se eligió principalmente para realizar todo lo relacionado con el recorte

y reescalado de la imagen, además se tomó como herramienta de apoyo en el cálculo del

OIF de la cual se exporto la combinación de imágenes resultante ya que ha demostrado

tener una forma muy sencilla de estandarizar las imágenes, además de permitir el trabajo

con múltiples imágenes en simultánea.

Figura 2-11 Interfaz gráfica de Erdas Imagine 2014. Imagen de satélite: Amazonas 2017.

2.5.2 ENVI

ENVI es un sistema de procesamiento digital de imágenes diseñado para proporcionar un

análisis exhaustivo de imágenes y datos de teledetección remota. Proporciona un

Capítulo 2 75

poderoso, entorno para visualizar y analizar imágenes de cualquier tamaño y tipo de

datos en un amplio rango de plataformas informáticas[77].

Con su enfoque combinado de archivos y bandas para el procesamiento de imágenes,

ENVI permite trabajar con archivos de imágenes completos, bandas individuales o

ambos, además cada banda espectral queda disponible para todas las funcionalidades

del sistema. Con múltiples archivos de entrada, puede seleccionar fácilmente bandas de

diferentes archivos para ser procesadas juntos. También incluye herramientas para

extraer espectros, utilizar bibliotecas espectrales y analizar conjuntos de datos de

imágenes de alta resolución espectral como AVIRIS, GERIS y GEOSCAN y HyMap.

Además proporciona capacidades especializadas para el análisis de conjuntos de datos

SAR avanzados tales como SIR-C de JPL, AIRSAR y TOPSAR.

ENVI está escrito completamente en IDL, el Lenguaje de Datos Interactivo. IDL es un

lenguaje de programación estructurado basado en arreglos que proporciona una imagen

integrada y capacidades de procesamiento, visualización y un kit de herramientas GUI

fácil de usar[77].

Adicional a esto ENVI combina procesamiento de imágenes avanzado y provee

tecnologías para el análisis geoespacial para ayudar a extraer información importante

que mejore la toma decisiones.

Entre los métodos de clasificación supervisada cuenta con el algoritmo Support Vector

Machine Classification el cual requiere como insumo la imagen a clasificar junto con los

archivos vector que poseen las muestras de entrenamiento de clases que se quieren

extraer en la clasificación[5].



remotos

Figura 2-12 Interfaz gráfica de ENVI. Imagen de satélite: Amazonas 2017.

2.5.3 Orfeo Toolbox

Orfeo Toolbox es una biblioteca de código abierto en C para el procesamiento de

imágenes satelitales, distribuido bajo la licencia CeCILL-v2. Este software fue iniciado por

el CNES (Agencia Espacial Francesa) en el marco del programa ORFEO para preparar,

acompañar y promover el uso y la explotación de las imágenes derivadas de los satélites

Pléiades. Orfeo Toolbox tiene como objetivo permitir el procesamiento avanzado de

imágenes de gran tamaño incluso en computadoras portátiles de recursos limitados. Este

software suministra un conjunto de herramientas listas para su uso para las tareas

clásicas de teledetección, así como un totalmente integrado de software aplicativo

llamado Monteverdi[78].

Capítulo 2 77

Figura 2-13 Interfaz gráfica de Monteverdi (extensión ORFEO Toolbox). Imagen de satélite: Amazonas 2017.

2.5.4 PostgreSQL

PostgreSQL es un manejador de bases de datos relacionales, de tipo cliente / servidor.

Este ofrece una mezcla única de características que lo equiparan con los grandes

manejadores de bases de datos tales como Oracle (Free and Open Source Software

from Oracle), Sybase (Sybase: Managing, Analyzing and Mobilizing Information. Sybase

Inc), DB2 (DB2 Express C. IBM.), entre otros. Una de las mayores ventajas que ofrece

PostgreSQL es que su código es abierto (se puede ver su código fuente) ya que

PostgreSQL no es propiedad de una sola compañía sino que es mantenido, desarrollado

y actualizado por un grupo de desarrolladores voluntarios alrededor del mundo[79].

Para esta investigación es fundamental contar con sistema manejar de bases de datos

que cuente un módulo avanzado de procesamiento de información espacial y esta es una

de las razones por la que se ha seleccionado como la plataforma donde se realizará la

extensión propuesta ya que a pesar de existir en el mercado actual distintos manejadores

de bases de datos como MySQL (MySQL AB), Oracle, DB2, Microsoft SQL Server

(Microsoft SQL Server 2005 Express Edition), entre otros; estos no proveen buenos

módulo de procesamiento de información espacial y mucho menos de información de

raster y además la documentación existente sobre los mismos es muy escasa, por lo que

es imposible su extensión y modificación para los efectos de esta investigación.



remotos

2.5.5 PostGIS

Es un complemento del motor de base de datos PostgreSQL, que permite administrar

información espacial de manera similar a ESRI SDE o al plugin de Oracle Spatial.

Permite la implementación de funciones y ejecución de consultas SQL espaciales,

cumpliendo con las especificaciones de OpenGIS “Simple Features Specification for

SQL”[80].

Existen varias herramientas libres que trabajan con PostGIS. El proyecto uDig está

trabajando de manera directa con PostGIS ejecutando tanto la lectura y escritura en un

ambiente de escritorio. En vía web se encuentra MapServer que puede utilizar PostGIS

como fuente de datos. El conjunto de herramientas GeoTools tienen soporte para

PostGIS, al igual que el servidor GeoServer. GRASS soporta PostGIS como fuente de

datos. El visualizador Open JUMP cuenta con un complemento que le permite leer datos

de PostGIS, también el proyecto QGIS tiene un buen soporte para el manejo de este

motor de base de datos[81].

La información almacenada en una base de datos de PostGIS puede ser exportada a una

gran variedad de formatos usando un conjunto de librerías OGR escritas en C++, así

como un sin número de herramientas de línea de comando. Y por supuesto, cualquier

lenguaje de programación que pueda trabajar con PostgreSQL puede trabajar con

PostGIS por ejemplo Perl, PHP, Python, TCL, C, C++, Java, C#, y más[81].

Entre las características más importantes de PostGIS se encuentra[80]:

Alto rendimiento, debido a que utiliza la menor cantidad de recursos posibles para

la representación de geometrías y manejo de la estructura de los indicies. Una

menor representación.

Incluye soporte para índices GiST basados en R-Tree y funciones para el análisis

de objetos GIS.

Permite manejar todas las geometrías que aparecen en las especificaciones

OpenGIS como puntos, líneas, polígonos, multilíneas, multipuntos, y colecciones

geográficas.

Capítulo 2 79

Permite trabajar formatos de tipo raster con el cual se pueden hacer operaciones

por medio de consultas SQL que combine análisis espacial entre geometrías de

tipo vectorial y raster.

Gracias a estas características y sobre todo la última hace de postgreSQL + postGIS una

herramienta ideal y fundamental dentro del presente trabajo de investigación ya que al

ser una herramienta de código abierto con tan avanzados desarrollos en cuanto a

información espacial vectorial y raster facilitan el análisis de los componentes necesarios

para la realización de una clasificación supervisada apoyado desde el gestor de bases de

datos y almacenando los resultados dentro de la misma base de datos espacial.

Figura 2-14 Interfaz gráfica de PostgreSQL + Extensión PostGIS.

2.5.6 Python

Python es un lenguaje de programación poderoso y fácil de aprender. Cuenta con

estructuras de datos eficientes y de alto nivel y un enfoque simple pero efectivo a la

programación orientada a objetos. La elegante sintaxis de Python y su tipado dinámico,

junto con su naturaleza interpretada, hacen de éste un lenguaje ideal para scripting y

desarrollo rápido de aplicaciones en diversas áreas y sobre la mayoría de las

plataformas[82].



remotos

El intérprete de Python y la extensa biblioteca estándar están a libre disposición en forma

binaria y de código fuente para las principales plataformas desde el sitio web de Python,

y puede distribuirse libremente. El mismo sitio contiene también distribuciones y enlaces

de muchos módulos libres de Python de terceros, programas y herramientas, y

documentación adicional.

El intérprete de Python puede extenderse fácilmente con nuevas funcionalidades y tipos

de datos implementados en C o C++ (u otros lenguajes accesibles desde C). Python

también puede usarse como un lenguaje de extensiones para aplicaciones

personalizables[82].

Este lenguaje provee muchas opciones de integración dentro de los SIG, puesto que

posee capacidades de plataforma cruzada y fácil integración con otros lenguajes como

por ejemplo C, C++, FORTRAN y Java. Python posee una gran cantidad de librerías y

herramientas desarrolladas para el trabajo con datos geográficos e integración SIG, ya

que permite la manipulación de shapefiles y formatos raster.

Para el trabajo con vectores python posee una librería “open source” llamada Shapelib la

cual funciona con shapefiles; para el trabajo con elementos raster integra la librería (open

source) GDAL que permite trabajar con diversos formatos como ArcInfo grids, JPEG

2000, BSP, United States Geological Survey digital elevation model, entre otros. GDAL

en combinación con Python tiene la facilidad para escribir operaciones de algebra de

mapas y generar los resultados en los formatos soportados[82].

Capítulo 2 81

Figura 2-15 Ambiente de programación con python.

Capitulo 2 82

3. Resultados Obtenidos

El algoritmo desarrollado dentro del presente proyecto de investigación para la

clasificación supervisada de imágenes mediante el método de máquinas de soporte

vectorial, ha sido implementado, experimentado y validado a partir del área de estudio

definida. Los resultados obtenidos por parte del algoritmo han sido muy satisfactorios

desde varios puntos de vista, y ha alcanzado todos los objetivos principales propuestos,

además podemos afirmar que la hipótesis planteada en el objetivo general sobre lograr

diseñar e implementar un algoritmo que permita realizar una clasificación supervisada de

imágenes almacenadas en una bases de datos espacial que cumpla con los estándares

de clasificación y genere un mapa de coberturas de usos del suelo acorde a la realidad,

ha sido validada y comprobada y se puede definir como una hipótesis aceptada a partir

de los siguientes resultados.

3.1 Objetivo # 1: Desarrollar e implementar el algoritmo de clasificación supervisada sobre una base de datos espacial.

El algoritmo está formado por una combinación de componentes relacionados con el

ámbito de la teledetección y componentes relacionados con el modelo matemático de las

máquinas de soporte vectorial.

Como ya se ha comentado, el alto grado de heterogeneidad de ciertas clases de la

región de estudio complica bastante la clasificación de sus pixeles y, en consecuencia,

disminuye la tasa de acierto de los algoritmos de clasificación supervisada aplicados a la

imagen de satélite. Sin embargo, la tasa de acierto del algoritmo desarrollado en el

presente trabajo de investigación es mayor que la de otros software que implementan la

clasificación supervisada por el método de máquinas de soporte vectorial, ya que utiliza

algunas técnicas contextuales del análisis espacial vectorial, gracias al almacenamiento

en la base de datos espacial a partir de consultas SQL en función de seleccionar los

Capítulo 3 83

pixeles con más alta probabilidad de pertenecer a la clase estudiada, ya que se establece

la condición de seleccionar el pixel si y solo si el centroide de este, se intercepta con el

polígono de entrenamiento, esto con el objetivo de mejorar la clasificación en los pixeles

inciertos y ruidosos, ya que al digitalizar los polígonos de entrenamiento no se tiene la

suficiente precisión para encerrar solamente lo que realmente pertenece a cada clase, lo

cual genera problemas en la selección de los pixeles en los bordes de cada polígono.

Adicional a esto el algoritmo planteado mejora su rendimiento gracias al proceso de

teselado que se realiza durante el almacenamiento en la base de datos, ya que al dividir

la imagen en porciones definidas por el usuario se logra optimizar el recurso

computacional y agiliza las consultas SQL, además gracias al proceso de indexado, se

consigue optimizar la búsqueda de los pixeles, permitiendo que al momento de aplicar el

algoritmo de clasificación, este se ejecute de manera más rápida y segura, reduciendo la

probabilidad de fallo del algoritmo.

3.2 Objetivo # 2: Preparación de las imágenes de acuerdo a la zona de estudio

Una vez realizado el proceso de preparación de las imágenes, se ha definido una imagen

con las siguientes características:

Tabla 7 Características de la imagen procesada

Procesamiento Características Nivel 1

Tamaño de pixel Bandas Oli Multierspectrales 1-7: 30 metros

Características de los datos

Formato de datos Geotiff

Norte arriba (MAP) orientación

Proyección cartográfica: Universal Transversa de Mercator (UTM)

Datum del sistema Geodésico Mundial (WGS84)

12 Metros de error circular, 90% de confianza exactitud global para OLI

41 metros de error circular, 90% de confianza exactitud global para TIRS

Los valores del pixel en 8 Bits

Tamaño: 2048 x 2048

Mejor combinación de imágenes: 356



remotos

3.3 Objetivo # 3: Comprobar la aplicabilidad de la extensión mediante un caso de estudio

Dentro de los objetivos planteados en el presente proyecto de investigación, se

estableció comprobar la aplicabilidad de la extensión mediante un caso de estudio y

además la comparación del funcionamiento del algoritmo respecto a otros softwares que

implementan la clasificación supervisada de imágenes por el método de máquinas de

soporte vectorial para validar su funcionamiento.

La comparativa de la extensión desarrollada con otros softwares de clasificación se ha

llevado a cabo sobre una imagen de satélite Landsat 8 OLI, dentro de la cual se

seleccionó la mejor combinación de bandas 356 a partir del OIF, con una resolución

espacial de 30x30m. La región de estudio elegida fue el municipio de La Macarena,

perteneciente al departamento del Meta, el cual es limítrofe con la Amazonia Colombiana

por el norte. El caso de estudio planteado dentro de esta investigación corresponde al

análisis de la deforestación en esta región y se ha sometido a comparación por dos

softwares seleccionados principalmente por cumplir las características de

implementación del algoritmo máquinas de soporte vectorial en clasificación de imágenes

de sensores remotos y por ser en el caso de ENVI un software licenciado y para ORFEO

por ser libre de licenciamiento.

3.3.1 Clasificación MSV con ENVI.

A continuación se presenta el resultado obtenido a partir de la información de

entrenamiento:

Capítulo 3 85

Figura 3-1 Mapa resultante de la clasificación supervisada MSV utilizando el software comercial ENVI

Como se puede observar en la imagen anterior tenemos que la clasificación realizada a

tenido un resultado muy bueno desde la perspectiva de la evaluación visual ya que las

diferentes clases están muy bien definidas aunque en algunos casos como lo son las

coberturas de “cuerpos de agua” y “casco urbano” presentan un poco de confusión ya

que algunos pixeles presentan características similares entre las dos coberturas,

generando confusión, además de ser dos coberturas que como lo mencionamos

anteriormente tienen un alto grado de heterogeneidad.

3.3.2 Clasificación MSV con ORFEO Toolbox

Ahora analizaremos los resultados obtenidos a partir de la clasificación supervisada con

el algoritmo MSV con el software libre Monteverdi y su extensión para imágenes raster

ORFEO Toolbox:



remotos

Figura 3-2 Mapa resultante de la clasificación supervisada MSV utilizando el software libre Monteverdi (Orfeo)

Al analizar la imagen resultante de la clasificación realizada con el software Monteverdi,

se observa que la clasificación genera muy buenos resultados ya que cada una de las

clases propuestas dentro de esta investigación están bien definidas, sin embargo al

igual que con ENVI las clases “cuerpos de agua” y “casco urbano” generan un poco de

confusión por su alto grado de heterogeneidad.

3.3.3 Clasificación MSV con el aplicativo desarrollado

Finalmente veremos los resultados obtenidos a partir del clasificador desarrollado en el

presente proyecto a partir del almacenamiento de las imágenes en una base de datos

espacial.

Capítulo 3 87

Figura 3-3 Mapa resultante de la clasificación supervisada MSV utilizando el aplicativo desarrollado

Analizando la imagen clasificada con el aplicativo desarrollado durante esta tesis de maestría,

el resultado es satisfactorio ya que cada una de las clases están bien definidas y se logra ver

claramente la disociación entre las mismas.

Cada elemento de la imagen ha sido clasificado y podemos ver claramente el avance de la

deforestación indiscriminada de la zona, en concordancia con lo planteado en la figura 2-8,

según la estratificación de la desforestación, de la cual para evidenciar mejor situación se

representara en la figura 3-4 donde se superpuso la calificación realizada con el mapa de

estratificación de la deforestación.



remotos


desarrollado versus la estratificación de la deforestación en la zona de estudio

Según la figura 3-4 se representa como ha sido el efecto negativo de la intervención del

hombre sobre los bosques en la amazonia, y se puede observar como la clasificación obtenida

representa en gran medida estos efectos ya que coincide la clase deforestación con los

polígonos de estratificación de la deforestación catalogados como de mayor impacto sobre la

zona.

3.4 Objetivo # 4: Comparar los resultados obtenidos con otros softwares especializados en clasificación supervisada

La comparativa de la extensión desarrollada con otros softwares de clasificación se ha

llevado a cabo sobre la misma imagen satelital, los mismos polígonos de entrenamiento y

Capítulo 3 89

polígonos de comprobación en los tres casos para de esta manera establecer un

parámetro de evaluación a partir del coeficiente Kappa el cual permitió comparar los

resultados.

3.4.1 Matriz de confusión ENVI

En la tabla 8 se evaluó la clasificación realizada a partir de la matriz de confusión y se

midió por medio de un criterio matemático la exactitud temática de la clasificación.

Tabla 8 Matriz de confusión clasificación supervisada MSV utilizando el software comercial ENVI

Validación

Total Comisión

EU(%) RP(%)

Caño Cristales

Cuerpos de Agua

Casco Urbano

Deforestación Vías Suelo

Desnudo Bosque Natural

PR

EDIC

CIO

N

Caño Cristales 3.153 - - 133 8 8 - 3.302 149

96% 4%

Cuerpos de Agua - 2.027 - - - - - 2.027 -

100% 0%

Casco Urbano - - 234 - 26 - - 260 26

91% 9%

Deforestación 4 - 2 5.585 56 5 - 5.652 67

99% 1%

Vías - - 4 - 72 - - 76 4

95% 5%

Suelo Desnudo 83 - 60 2.375 391 2.778 - 5.687 2.909

66% 34%

Bosque Natural - - - 982 - - 13.605 14.587 982 94% 6%

Total 3.240 2.027 300 9.075 553 2.791 13.605 31.591

Omisiones 87 - 66 3.490 481 13 -

RP(%) 2,61% 0,00% 18,03% 27,78% 46,52% 0,46% 0,00%

EP/%) 97% 100% 82% 72% 53% 100% 100%

Como se puede observar la clasificación ha tenido un buen resultado ya que su

porcentaje de acuerdo es superior al 80% al igual que su coeficiente Kappa, sin embargo

cabe resaltar que para las clases Deforestación y Suelo desnudo existe un alto grado de

confusión ya que son clases muy similares, aunque en su gran mayoría el clasificador

logro realizar una buena separación entre las clases.

Índices Globales Porcentaje de Acuerdo: 86,90%

Coeficiente Kappa: 0,8178



remotos

3.4.2 Matriz de confusión MONTEVERDI (ORFEO)

Dado que en la evaluación visual de la imagen se evidencian algunas confusiones entre

clases es necesario analizar la matriz de confusión para concluir que tan buena resulta

esta clasificación ya que visualmente el más óptimo es el resultado obtenido con el

software ENVI:

Tabla 9 Matriz de confusión clasificación supervisada MSV utilizando el software libre Monteverdi (Orfeo)

Validación

Total Comisión

EU(%) RP(%)

Caño Cristales

Cuerpos de Agua

Casco Urbano



PR

EDIC

CIO

N

Caño Cristales 3.114 - - 30 - 58 - 3.202 88

97% 3%

Cuerpos de Agua - 2.001 - - - - - 2.001 -

100% 0%

Casco Urbano - - 239 - - 2 - 241 2

99% 1%

Deforestación 132 - 88 5.601 4 2.278 985 9.088 3.487

72% 28%

Vías 5 - 107 50 12 434 - 608 596

50% 50%

Suelo Desnudo 8 - - 8 - 2.727 - 2.743 16

99% 1%

Bosque Natural - - - - - - 13.607 13.607 - 100% 0%

Total 3.259 2.001 434 5.689 16 5.499 14.592 31.490

Omisiones 145 - 195 88 4 2.772 985

RP(%) 4,26% 0,00% 31,00% 1,52% 20,00% 33,51% 6,32%

EP/%) 96% 100% 69% 98% 80% 66% 94%

Tal y como se esperaba las mayores confusiones se presentaron en las coberturas

Deforestación, y Vías siendo esta ultima la que mayor porcentaje de error presenta.

Sin embargo al realizar una evaluación general al coeficiente Kappa podemos afirmar que

es una clasificación aceptable ya que supero el umbral del 80% de acierto aunque

definitivamente el algoritmo de máquinas de soporte vectorial configurado para esta

herramienta tienen un rendimiento un poco más bajo que el de ENVI.

Indices Globales Porcentaje de Acuerdo: 86,69%


Capítulo 3 91

Se debe aclarar que el número de pixeles tomados como referencia en la evaluación de

la exactitud temática de la clasificación depende de la forma como cada software procesa

la información y selecciona los pixeles, como se evidencia Monteverde procesa la

información diferente a ENVI y por tal motivo el número de pixeles tomados en las

muestras son diferentes.

3.4.3 Matriz de confusión con el aplicativo desarrollado

Ahora comprobaremos los resultados obtenidos a través de la matriz de confusión y su

respectivo coeficiente Kappa para el software desarrollado durante este trabajo de

investigación.

Tabla 10 Matriz de confusión clasificación supervisada MSV utilizando el software desarrollado

Validación

Total Comisión

EU(%) RP(%)

Caño Cristales

Cuerpos de Agua

Casco Urbano



PR

EDIC

CIO

N

Caño Cristales 3.120 - - 24 - 58 - 3.202 82

98% 2%

Cuerpos de Agua

- 2.001 - - - - - 2.001 -

100% 0%

Casco Urbano - - 239 - - 2 - 241 2

99% 1%

Deforestación 140 1 88 5.585 4 2.285 985 9.088 3.503

72% 28%

Vías 5 - 12 54 107 430 - 608 501

55% 45%

Suelo Desnudo 8 - - 8 - 2.727 - 2.743 16

99% 1%

Bosque Natural - - - - - - 13.607 13.607 - 100% 0%

Total 3.273 2.002 339 5.671 111 5.502 14.592 31.490

Omisiones 153 1 100 86 4 2.775 985

RP(%) 4,47% 0,05% 22,78% 1,49% 3,48% 33,53% 6,32%

EP/%) 96% 100% 77% 99% 97% 66% 94%

En la tabla 11 se analizan los resultados obtenidos con cada uno de los softwares

implementados:

Índices Globales Porcentaje de Acuerdo: 86,96%




remotos

Tabla 11 Comparación de los resultados obtenidos

MSV % ACUERDO COEFICIENTE KAPPA

ENVI 86,90% 0,8178

MONTEVERDI (ORFEO) 86,69% 0,8146

ALGORITMO DESARROLLADO 86,96% 0,8184

Como se puede observar en la tabla 11 el clasificador desarrollado en esta tesis de

maestría fue el que mejor eficiencia presento ya que tuvo el índice Kappa más alto entre

las 3 clasificaciones propuestas, esto se ve reflejado tanto en la imagen como en su

matriz de confusión cumpliendo así con el objetivo planteado de lograr realizar una

clasificación con un alto índice de exactitud temática.

Como consecuencia, el algoritmo desarrollado optimiza la funcionalidad general de

cualquier clasificación que se realice, y cuyo funcionamiento se base en la identificación

adecuada de los pixeles de las imágenes en sus clases correspondientes, debido a que

mejora la tasa de acierto de la clasificación de las imágenes al tomar como base la

selección de pixeles incluyendo solamente aquellos pixeles que cumplan con la

condición de tener su centroide dentro del polígono de entrenamiento o validación

según sea el caso. Por lo tanto, respecto a la evaluación temática del clasificador los

resultados obtenidos por parte del algoritmo con una imagen de satélite con complejidad

alta son muy buenos.

Capitulo 2 93

4. Conclusiones y recomendaciones

4.1 Conclusiones

En la actualidad no se encontró evidencia de investigaciones relacionados con la

implementación de técnicas de procesamiento de imágenes almacenadas en una base

de datos espacial. Durante el desarrollo de este trabajo de investigación, se ha

implementado un algoritmo de clasificación de imágenes basado en máquinas de soporte

vectorial el cual logro alcanzar su objetivo principal, el cual fue: generar una clasificación

supervisada de imágenes de usos y coberturas del suelo con altos estándares de

exactitud temática procesando esta información desde una base de datos espacial.

La aplicación utilizo el lenguaje SQL para implementar consultas estructuradas de

análisis espacial convencional a favor de mejorar la selección de pixeles al momento de

intersecarlos con las clases de entrenamiento y de esta manera se definió que es más

provechoso para el algoritmo el utilizar una agrupación de pixeles si y solo si contienen al

centroide del mismo, ya que de esta manera las probabilidades de asociar de manera

correcta cada pixel a un hiperplano según la clase de entrenamiento se aumentan,

generando unos mejores resultados de clasificación, además el agrupar los pixeles de

este modo, es de mucha utilidad durante el posterior proceso de interpretación de los

resultados obtenidos por parte de los analistas expertos.

Los resultados obtenidos por parte del aplicativo han sido muy satisfactorios desde varios

puntos de vista, ya que el algoritmo de máquinas de soporte vectorial ha sido una técnica

que proporciona muy buenos resultados dentro del proceso de clasificación de imágenes

de satélite. El aplicativo ha conseguido alcanzar el objetivo principal ya que se obtuvo

una clasificación con altos niveles de exactitud temática.

En primer lugar, en relación con la comparación con un software comercial como ENVI, el

algoritmo ha conseguido una tasa de acierto de pixeles bien clasificados similar, lo cual

permite inferir el buen funcionamiento del aplicativo y el cumplimiento frente a la calidad



remotos

de la clasificación en comparación con los estándares de calidad presentes en un

software de uso comercial.

En segundo lugar al compararlo con la clasificación obtenida por medio del software libre

Monteverdi y su extensión raster OrfeoToolbox se puede ver que la tasa de asertividad

del aplicativo también es muy similar, aunque es un poco más elevada lo cual genera una

evidencia de la competitividad del aplicativo desarrollado frente a herramientas Open

Source, además, no solo ha dado buenos resultados al compáralo con otros software,

sino que también ha optimizado su funcionamiento, implementado algunas funciones

inherentes al lenguaje SQL como por ejemplo el recorte de cada polígono ya sea de

entrenamiento o validación dentro de la imagen, además de la aplicación de tiles de

segmentación de la imagen dentro de la base de datos espacial y la implementación de

consultas del análisis espacial convencional.

En tercer lugar, es importante mencionar que una de las principales limitantes de las

operaciones de análisis raster radica en que los valores de las celdas son números o

expresiones Booleanas, es decir que realizan una representación del mundo real a través

de la matemática convencional a partir de variables cuantitativas. La naturaleza en el

ámbito geográfico no se comporta de esta manera ya que sus principales características

se definen generalmente a través de variables cualitativas, aunque en algunos casos

también cuantitativos, por lo que las podemos clasificar como variables heterogéneas, las

cuales describen los fenómenos u objetos que se están representando, en este sentido

podemos concluir que aún falta un largo camino por recorrer para encontrar métodos que

tomen en cuenta esta limitante y permitan trabajar con las descripciones mezcladas de

manera simultánea. En este trabajo de investigación se ha realizado una aproximación

de este tipo de análisis combinando herramientas del análisis espacial vectorial con el

procesamiento digital de imágenes, obteniendo buenos resultados, aunque aún es muy

amplio el espectro de investigación por hacer en este ámbito.

4.2 Recomendaciones

Los resultados obtenidos por parte del aplicativo han sido muy satisfactorios aunque es

muy importante tener en cuenta que el presente proyecto es una primera aproximación

de lo que se puede hacer aplicando algoritmos de clasificación sobre la información

Capítulo 4 95

raster almacenada en una base de datos espacial, por tal motivo a partir de esta tesis de

maestría se despliegan algunas líneas de investigación abiertas que podrían llegar a

complementar y mejorar los resultados obtenidos.

Estas líneas de investigación relacionadas con la clasificación supervisada de imágenes

almacenadas en bases de datos espaciales son las siguientes:

Desarrollar nuevas versiones del aplicativo, con nuevas funcionalidades y

herramientas, para personalizar aún más el proceso de clasificación, y poder

ajustar lo máximo posible los resultados deseados a la zona de estudio utilizada

Implementar diferentes algoritmos de clasificación y personalizarlos para obtener

mejores resultados a partir de un ambiente de programación que permita

manipular todas las variables del sistema.

Implementar diferentes técnicas de procesamiento digital de imágenes como por

ejemplo la fusión de imágenes a partir de algoritmos como los componentes

principales y aplicar la clasificación para comparar los resultados.

Combinar diferentes niveles de clasificación a partir de características inherentes

de los pixeles como por ejemplo la información de textura, información espectral y

la regional.

Implementar un clasificador no supervisado

Utilizar nuevas técnicas de programación orientada a reducir el coste

computacional del algoritmo.

Mejorar el Plugin de interfaz gráfica sobre el software PgAdmin III

Capitulo 2 96

Bibliografía

[1] E. Jaime, R. Larín, y E. Garea, “Hacia métodos de análisis de datos espaciales raster en el nivel semántico”, Comput. Sist., vol. 15, núm. 1, pp. 91–106, 2011.

[2] C. S. Shekhar Sashi, Spatial Databases: A Tour, vol. 1. Minnesota, 2003. [3] J. P. Argañaraz y I. Entraigas, “Análisis comparativo entre las máquinas de vectores

soporte y el clasificador de máxima probabilidad para la discriminación de cubiertas del suelo”, Rev. Teledetec., vol. 36, pp. 26–39, 2011.

[4] J. C. Canales, X. L. Zhang, y W. Y. Liu, “Clasificación de grandes conjuntos de datos vía Máquinas de Vectores Soporte y aplicaciones en sistemas biológicos”, Inst. Politécnico Nac. México DF, 2009.

[5] J. Castellon, “Análisis comparativo entre ENVI y Orfeo Toolbox SVM”, Teledeteccion, vol. 1, 24-jun-2015.

[6] N. S. Anzola, “Máquinas de soporte vectorial y redes neuronales artificiales en la predicción del movimiento USD/COP spot intradiario”, ODEON, vol. 0, núm. 9, pp. 113–172, feb. 2016.

[7] A. García, G. Martínez, E. Nuñez, y A. Guzmán, “Clasificación supervisada, inducción de arboles de decisión, algoritmo kd”, Proc Simp Int Comp CIC, vol. 98, pp. 602–614, 1998.

[8] J. P. A. López, O. J. E. Valero, y J. L. H. Escorcia, “Validación de una Metodología de Clasificación de Imágenes Satelitales en un entorno Orientado a Objetos”, Ingeniería, vol. 10, núm. 1, pp. 61–69, 2004.

[9] T. Blaschke, S. Lang, E. Lorup, J. Strobl, y P. Zeil, “Object-oriented image processing in an integrated GIS/remote sensing environment and perspectives for environmental applications”, Environ. Inf. Plan. Polit. Public, vol. 2, pp. 555–570, 2000.

[10] J. Borràs, J. Delegido, A. Pezzola, M. Pereira, G. Morassi, y G. Camps-Valls, “Clasificación de usos del suelo a partir de imágenes Sentinel-2”, Rev. Teledetec., núm. 48, p. 55, jun. 2017.

[11] A. J. Perea, J. E. Meroño, y M. J. Aguilera, “CLASIFICACIÓN ORIENTADA A OBJETOS EN FOTOGRAFÍAS AÉREAS DIGITALES PARA LA DISCRIMINACIÓN DE USOS DEL SUELO”, Interciencia, vol. 34, núm. 9, 2009.

[12] V. R. L. Y. Caviedes Sanabria Milton Antonio, HERRAMIENTA BASADA EN MÁQUINAS DE SOPORTE VECTORIAL PARA LA CLASIFICACIÓN DE CÉLULAS ESCAMOSAS DE CITOLOGÍAS CÉRVICO UTERINAS. UNIVERSIDAD INDUSTRIAL DE SANTANDER, 2009.

[13] O. Cortazar Martínez, “Procesamiento digital de imágenes usando wavelets”, Universidad Autonoma del estado de Hidalgo, 2006.

[14] P. Cáceres y A. Verónica, “Diseño del proceso de clasificación supervisada de cubiertas de suelo en imágenes satelitales”, Repos. Académico - Univ. Chile, 2017.

[15] R. M. Ayala y M. Menenti, “Metodología para la búsqueda del mejor clasificador de imágenes de satélite”, en Teledetección : medio ambiente y cambio global, 2001, ISBN 84-9743-001-8, págs. 469-472, 2001, pp. 469–472.

Bibliografía 97

[16] V. R. Otero, “Reconocimiento de localizaciones mediante Máquinas de Soporte Vectorial”, Univ. Carlos III Madr. Madr., 2008.

[17] E. Chuvieco y A. Huete, Fundamentals of satellite remote sensing. Boca Raton FLA : CRC Press, 2010.

[18] E.C. Salinero, Teledeteccion ambiental. Grupo Planeta (GBS), 2008. [19] W. G. Rees, Physical Principles of Remote Sensing. Cambridge University Press,

2012. [20] J. Estornell, L. A. Ruiz, y A. del Rey, “Análisis metodológico para la detección de

cambios urbanos en la ciudad de Valencia”, Rev. Teledetec., vol. 22, pp. 55–66, 2004.

[21] P. G. Rodríguez y M. a E. P. González, “Aplicaciones de la teledetección en hidrología”, Obs. Medioambient., núm. 9, pp. 171–186, jun. 2006.

[22] D. Marchionni y I. Schalamuk, “Aplicación de la teledetección espacial óptica y de radar para el análisis geológico y la detección de áreas mineralizadas en el sector central del Macizo del Deseado, Provincia de Santa Cruz”, Rev. Asoc. Geológica Argent., vol. 66, núm. 4, pp. 592–607, jun. 2010.

[23] J. Martínez-Vega, M. P. Martín, J. M. Díaz Montejo, J. M. López Vizoso, y F. J. Muñoz Recio, “Guía didáctica de Teledetección y Medio Ambiente”, jun. 2010.

[24] R. P. Daniel, S. C. Noela, D. G. J. Antonio, y S. M. P. Cristina, CUESTIONES DE TELEDETECCIÓN. Editorial UNED, 2015.

[25] M. A. Abellán, La evaluación del impacto ambiental de proyectos y actividades agroforestales. Univ de Castilla La Mancha, 2006.

[26] Perez Carlos, Teledetección: nociones y aplicaciones. 2006. [27] J. Miguel y V. Moreno Burgos, “Pasado, presente y futuro de la teledetección de alta

resolución: El satelite IKONOS”. INDRA, 01-ene-2000. [28] J. M. V. M.Pilar Martín Isabel, Guia Didactica de Teledetección y medio ambiente.

Centro de Ciencias Humanas y Sociales (CSIC). [29] J. A. Sobrino, Teledetección. Universitat de València, 2001. [30] G. Casal y J. Freire, “Síntesis de la evolución histórica de la teledetección en España

(1889-2012)”, Rev. Teledetec. AET, vol. 38, pp. 109–120, 2012. [31] C. E. Huete A., Fundamentals of satellite remote sensing", CRC Press. Boca Raton

(USA), 2010. [32] E. Chuvieco y E. C. Salinero, Fundamentos de teledetección espacial. Rialp, 2000. [33] A. M. Espínola, Clasificación de imágenes de satélite mediante autómatas celulares.

2014. [34] E. Universitat Politècnica de València, “Teledetección. Nuevas plataformas y

sensores aplicados a la gestión del agua, la agricultura y el medio ambiente”, Ing. Agua, vol. 18, núm. 1, p. ix, sep. 2014.

[35] A. M. Espínola, Clasificación de imágenes de satélite mediante autómatas celulares. 2014.

[36] Á. M. F. Pérez y A. C. Sáez, “Rectificación y ortorrectificación de imágenes de satélite: Análisis comparativo y discusión”, Geofocus Rev. Int. Cienc. Tecnol. Inf. Geográfica, núm. 3, p. 4, 2003.

[37] Ignacio Alonso Fernández-Coppel, “EL SATELITE LANDSAT. ANALISIS VISUAL DE IMÁGENES OBTENIDAS DEL SENSOR ETM+ SATELITE LANDSAT”. Universidad de Valldolid.

[38] A. L. Jordi Vivancos Martí, “Generación de imágenes en falso color”. Universidad de Zaragoza, 2005.


espaciales para análisis de clasificación supervisada en imágenes de

sensores remotos

[39] R. S. Dwivedi y B. R. M. Rao, “The selection of the best possible Landsat TM band combination for delineating salt-affected soils”, Int. J. Remote Sens., vol. 13, pp. 2051–2058, jul. 1992.

[40] Mather P., Tso B., Classification methods for remotely sensed data, 2 Edition. CRC Press, 2009.

[41] Schowengerdt R.A., Techniques for image processing and classification in remote sensing. Academic Press, 1985.

[42] Richards, J. A. y Jia X., Remote Sensing Digital Image Analysis. Springer-Verl, 1999. [43] Jensen J.R, Introductory Digital Image Processing – A Remote Sensing Perspective,

3a ed. New Jersey, USA: Prentice Hall, 2005. [44] ASPRS, Manual of Photographic Interpretation. Bethesda, USA: American Society for

Photogrammetry and Remote Sensing, 1997. [45] I. Lizarazo, “Clasificación de la cobertura y del uso del suelo urbano usando

imágenes de satélite y algoritmos supervisados de Inteligencia Artificial”, UD GEOMÁTICA, núm. 2, pp. 4–18, 2008.

[46] http://volaya.github.io/libro-sig/chapters/Estadistica_avanzada.html. [Consultado: 01-may-2018].

[47] M. M. Ayala R y Girolana D, “Evaluation methodology for classification process of digital images”, IEEE Int. Geosci. Remote Sens. Symp. IGARSS 2002 24-28 June Tor. Can., vol. 6, pp. 3363–365, 2002.

[48] J. A. Piedra-Fernandez, M. Canton-Garbin, y J. Z. Wang, “Feature Selection in AVHRR Ocean Satellite Images by Means of Filter Methods”, IEEE Trans. Geosci. Remote Sens., vol. 48, núm. 12, pp. 4193–4203, dic. 2010.

[49] Ayala R., Becerra A., Flores I.M, J.F, Diaz J.R., “Evaluation of greenhouse covered extensions and required resources with satellite images and GIS. Almeria’s case”, Second Eur. Conf. Eur. Fed. Inf. Technol. Agric. Food Environ. Bonn Ger., pp. 27–30, 1999.

[50] T. Fletcher, Z. Hussain, y J. Shawe-Taylor, “Multiple Kernel Learning on the Limit Order Book”, p. 8, 2010.

[51] W. Huang, Y. Nakamori, y S.-Y. Wang, “Forecasting stock market movement direction with support vector machine”, Comput. Oper. Res., vol. 32, núm. 10, pp. 2513–2522, oct. 2005.

[52] G. Mountrakis, J. Im, y C. Ogole, “Support vector machines in remote sensing: A review”, ISPRS J. Photogramm. Remote Sens., vol. 66, pp. 247–259, may 2011.

[53] A. T. Espinosa, J. C. M. Sánchez, y J. S. R. Castilla, “Identificar cobertura vegetal de suelo clasificando pixeles en imágenes hiperespectrales con svm (máquina de soporte vectorial)”, p. 20.

[54] E. Alpaydin, Introduction to machine learning, 2nd ed. Cambridge, Mass: MIT Press, 2010.

[55] L. Hosseini y R. S. Kandovan, “Hyperspectral Image Classification Based on Hierarchical SVM Algorithm for Improving Overall Accuracy”, Adv. Remote Sens., vol. 06, núm. 01, p. 66, ene. 2017.

[56] N. Cristianini y J. Shawe-Taylor, An Introduction to Support Vector Machines and Other Kernel-based Learning Methods. Cambridge University Press, 2000.

[57] C. J. Burges, “A tutorial on support vector machines for pattern recognition”, Data Min. Knowl. Discov., vol. 2, núm. 2, pp. 121–167, 1998.

Bibliografía 99

[58] V. N. Vapnik, “An overview of statistical learning theory”, IEEE Trans. Neural Netw., vol. 10, núm. 5, pp. 988–999, sep. 1999.

[59] V. N. Vapnik, The Nature of Statistical Learning Theory. New York, NY, USA: Springer-Verlag New York, Inc., 1995.

[60] V. Abraira, “El índice kappa”, Med. Fam. SEMERGEN, pp. 247–249. [61] J. Cohen, “A Coefficient of Agreement for Nominal Scales”, Educ. Psychol. Meas.,

vol. 20, núm. 1, pp. 37–46, abr. 1960. [62] J. R. Landis y G. G. Koch, “The measurement of observer agreement for categorical

data”, Biometrics, vol. 33, núm. 1, pp. 159–174, mar. 1977. [63] M. Á. Bernabé Poveda, C. M. López Vázquez, y O. Abarca, Fundamentos de las

infraestructuras de datos espaciales (IDE). Madrid: UPM Press, 2012. [64] Nacions Unides y División de Estadística, Manual de infraestructura geoespacial en

apoyo de actividades censales. Nueva York: Naciones Unidas, 2010. [65] A. Silberschatz, H. F. Korth, y S. Sudarshan, Database system concepts, 4th ed.

Boston: McGraw-Hill, 2002. [66] M. Madden y A. Ross, “Genocide and GIScience: Integrating Personal Narratives and

Geographic Information Science to Study Human Rights”, Prof. Geogr., vol. 61, núm. 4, pp. 508–526, oct. 2009.

[67] John R. Herring, OpenGIS® Implementation Standard for Geographic information - Simple feature access - Part 2: SQL option, Corregendum., vol. 1.2.1. .

[68] ISO, International Organization for Standardization, ISO/IEC 9075-1:2011 Information technology -- Database languages - SQL -- Part 1: Framework (SQL/Framework). ISO, International Organization for Standardization, 2016.

[69] Alvaro Enrique Ortiz Dávila, “Trayectorias en Bases de Datos de objeto en movimiento”, XVI Simp. Int. SELPER, 2014.

[70] R. S. Pressman, Ingeniería del software: un enfoque práctico. México: McGraw-Hill, 2010.

[71] Iván Lizarazo, “Ejemplos prácticos para manejar datos raster en PostGIS 2.0.0”. 2012.

[72]. :“SIATAC:.” [En línea]. Disponible en: http://webcache.googleusercontent.com/search?q=cache:http://siatac.co/. [Consultado: 21-ene-2018].

[73] A. S. R. Rivera, diagnóstico y análisis de los cambios de coberturas vegetales en el parque nacional natural sierra de la macarena por cultivos de coca y acciones del estado colombiano entre 2002 y 2012. Bogota, 2015.

[74] N. J. Martínez Ardila y U. G. Murcia García, Leyenda nacional de coberturas de la tierra: metodología CORINE Land Cover adaptada para Colombia : Escala 1:100.000. Bogota: IDEAM, 2010.

[75] J. A. F. Hernández, R. A. B. Cámara, J. A. P. Cruz, y C. de la Cruz Dorantes, “Entrenamiento de Máquinas de Soporte Vectorial”, Univ. Autónoma Carmen CA Tecnol. Inf. México, 2005.

[76] R. A. Barrera-Camara, “Entrenamiento de Máquinas de Soporte Vectorial”. [77] A. Mansourian, P. Pilesjö, L. Harrie, y R. van Lammeren, Geospatial Technologies for

All: Selected Papers of the 21st AGILE Conference on Geographic Information Science. Springer, 2018.

[78] E. Christophe, J. Inglada, y A. Giros, “Orfeo toolbox: a complete solution for mapping from high resolution satellite images”, may 2018.

[79] P. López Herrera, “Comparación del desempeño de los Sistemas Gestores de Bases de Datos MySQL y PostgreSQL”.

[80] R. O. Obe y L. S. Hsu, PostGIS in Action. Manning Publications, 2015.


espaciales para análisis de clasificación supervisada en imágenes de

sensores remotos

[81] E. C. M. ESQUIVEL, “Implementación de un sistema de información geográfica con software libre para el apoyo a la toma de decisiones en las pymes”.

[82] G. Van Rossum y F. L. Drake Jr, “Tutorial Python”, Disponível Gratuit. Em Httppython Org, 2004.

Documents

Implementación del método máquinas de soporte vectorial en ...repository.udistrital.edu.co/bitstream/11349/14489/1...clasificación supervisada la cual será comparada con el módulo