Máquinas de Soporte vectorial fukl

FUNDACIÓN UNIVERSITARIA KONRAD LORENZ

FACULTAD DE MATEMÁTICAS E INGENIERÍAS

INGENIERÍA DE SISTEMAS

MÁQUINAS DE SOPORTE VECTORIAL

Por: Pervys Rengifo Rengifo

Leonardo Jiménez

El creciente desarrollo de la sociedad humana y las necesidades cada vez más imperiosas de optimizar los sistemas de diferente tipo, con el fin de satisfacer la creciente demanda de bienes y servicios, ha desafiado a profesionales y científicos relacionados con todas las ramas del saber, para hallar procedimiento operativos, que permitan resolver con éxito los problemas relacionados con la gestión y la preservación de los recursos disponibles bajo los principios de sostenibilidad ambiental y social. Estos retos, en general, no pueden ser atacados con las técnicas de modelación clásicas, entre otras, por alguna(s) de las siguientes razones:

Conocimientos y habilidades que exige su aplicación. No aprovechan todo el conocimiento disponible en los datos históricos

registrados. Suposiciones que se hacen en cuanto a distribuciones de probabilidad y en

cuanto a la linealidad y estacionariedad de los procesos. La mayoría requiere una gran variedad y cantidad de datos registrados con

suficiente precisión(que en muchos casos se traduce en una imposibilidad práctica)

Por otra parte, cuando de analiza el panorama actual de la sociedad moderna, se pueden apreciar algunos hechos que pueden orientar mejores soluciones a los problemas planteados:

Equipos de computación con mayor capacidad y velocidad(computación molecular y quántica)

Los dispositivos para registrar información acerca de los sistemas son cada vez más sofisticados y eficientes, lo cual implica un incremento exponencial en la cantidad y diversidad de información disponible, incluso en tiempo real.

Complejidad creciente en los enfoques utilizados para el estudio de los sistemas, debido a la interacción de múltiples agentes y sistemas, la variabilidad temporal y la no- linealidad reinante en ellos, sobre todo a pequeña escala, y el conflicto de objetivos que se persiguen. La tendencia es hacia una visión integral (holística) de los problemas (inter-multi-transdisciplinariedad).

Creciente interés y necesidad en todas las disciplinas y profesiones de la aplicación de técnicas de Minería de datos, Aprendizaje de máquinas, Inteligencia Computacional, Computación Suave, Sistemas Basados en el conocimiento. Resultado: Integración de los modelos computacionales convencionales, modelos conducidos por datos (data driven models), modelos, datos y procedimientos de interés tradicional de otras disciplinas y ciencias, tecnologías de la información y de las comunicaciones (TIC). Hibridación de los enfoques: Hidroinformática, ecohidrología, ecohidroinformática, ecohidráulica, sistemas expertos neurodifuso genéticos.

Lo anterior, evidencia una clara tendencia a universalizar las técnicas y procedimientos que permitan abordar la complejidad de los sistemas y faciliten la obtención de resultados operativos útiles para resolver los problemas que se presentan en la vida real. En este orden de ideas, y teniendo en cuenta que las técnicas de modelación convencionales, sólo funcionan adecuadamente para problemas de complejidad muy restringida, las ingenierías y demás profesiones relacionadas con la tecnología, han renunciado, en algunos casos, a la comprensión de los procesos en aras de obtener resultados prácticos requeridos en el corto plazo, acogiendo diversas técnicas de lo que se conoce como computación suave(softcomputing), en la cual se hace una renuncia explícita al resultado preciso y exacto por otro que, a pesar de no ser tan exacto y preciso, si es suficiente para alcanzar una solución satisfactoria para problemas de gran complejidad. Muchos de estos métodos son catalogados como cajas negras, debido a que, en general, cuando ellos se usan, no se está interesado en conocer la estructura interna de los procesos que se modelan. Esta idea tiene mucha similitud al proceso de toma de decisiones del ser humano, en el cual las decisiones que se producen casi nunca son óptimas, entre otras razones, debido a la incertidumbre y la difusividad de la información que recibe y a las limitaciones de procesamiento y de tiempo. Como se puede sospechar, el panorama actual ofrece una oportunidad única para la aplicación y la integración transversal de técnicas de inteligencia artificial en diferentes disciplinas y campos de investigación. Esto ha dado origen a una creciente formación de profesionales de diferentes áreas en temáticas relacionadas con la inteligencia computacional, que antes estaban relegadas a los ingenieros informáticos. Entre estas temáticas se destacan las Redes Neuronales Artificiales(ANN), los Árboles de Decisión(AD), Máquinas de Soporte Vectorial(MSV) y la Programación Genética(PG), que junto con diferentes métodos de búsqueda heurística y meta heurística como: Quimiotaxis, Búsqueda Tabú, Simulated Annealing(SA), Algoritmos genéticos( y otros relacionados como los algoritmos culturales y los algoritmos inmunológicos), GRASP, Ant Colony Optimization(ACO), Particle Swarm Optimization(PSO) y con otras técnicas estadísticas y de teoría de sistemas de control tradicionales, han conformado un paquete de herramientas teóricas y operativas. Estas técnicas, relacionadas con el aprendizaje de máquina y la minería de datos, se han convertido en herramientas indispensables para resolver muchos problemas, que debido a su gran complejidad, antes era imposible resolver en tiempos razonables.

Sin embargo, a pesar del éxito relativo en aplicaciones prácticas en muchos campos de las ciencias y la ingeniería, estas técnicas han sido fuertemente criticadas, ya que, la mayoría de ellas, sólo proveen resultados operativos y no obtienen explícitamente la función que transforma las entradas en salidas, es decir la función de transformación que representa al sistema. No obstante, es innegable que son un camino efectivo y eficiente para modelar los fenómenos en situaciones en donde el conocimiento explícito de los subprocesos internos no se requiere, como es el caso de muchas situaciones prácticas en ingeniería.

Como se puede suponer de la discusión anterior, la disponibilidad de sistemas de aprendizaje confiables es de importancia estratégica, ya que hay muchas tareas que no pueden ser resueltas por técnicas de programación clásica, debido a que no existen modelos matemático disponibles para los problemas que implican. Así por ejemplo, no se sabe como escribir un programa de computador para realizar reconocimiento de caracteres escritos, a pesar de que hay una gran cantidad de ejemplos disponibles. De esta forma, es natural preguntarse, si un computador puede ser entrenado para reconocer la letra “A” a partir de ejemplos, después de todo, es la manera como los humanos aprenden a leer.Dada la creciente cantidad de datos para análisis y la variedad y complejidad de los problemas de análisis de datos que son encontrados en los negocios, en la industria, e investigaciones, resulta impráctico demandar la mejor solución todo el tiempo(es mejor una buena solución en tiempo razonable que la mejor solución en un tiempo inaceptable). El sueño último, es por supuesto tener disponible algún agente inteligente que pueda preprocesar sus datos, aplicar las técnicas matemáticas, estadísticas y de inteligencia artificial apropiadas y luego proveer una solución y una explicación. El propósito de la minería de datos, en este sentido, es usar las herramientas disponibles para analizar datos y proporcionar soluciones parciales a un problema de negocios. En este contexto muchos problema de ingeniería y demás ciencias aplicadas, pueden asociarse con problemas de clasificación y regresión. Estos problemas, como puede suponerse, no son triviales y han demandado un gran esfuerzo, tanto científico como tecnológico.Aunque existen muchas técnicas alternativas para enfrentar problemas de regresión y clasificación, las máquinas de soporte vectorial han sido desarrolladas como una herramienta robusta para regresión y clasificación en dominios complejos y ruidosos. Las MSV pueden ser usadas para extraer información relevante a partir de conjunto de datos y construir algoritmos de clasificación o de regresión rápidos para datos masivos. Las MSV, aplicadas al problema de clasificación, mapean los datos a un espacio de características alto-dimensional, donde se puede hallar más fácilmente un hiperplano de separación. Este mapeo puede ser llevado a cabo aplicando el kernel, el cual transforma implícitamente el espacio de entrada en un espacio de características de alta dimensión. El hiperplano de separación es calculado maximizando la distancia de los patrones más cercanos, es decir la maximización del margen. Las MSV pueden ser definidas como un sistema para el entrenamiento eficiente de máquinas de aprendizaje lineal en una espacio de características inducido por un kernel, mientras respeta los principios de la teoría de la generalización y explota la teoría de la optimización(Crisitianini&Shave-Taylor, 2000)

Las dos características claves de las máquinas de soporte vectorial son: La teoría de generalización, la cual conduce a una elección de hipótesis

basada en principios teóricos; y Un kernel de funciones, que introduce no linealidades en el espacio de

hipótesis sin requerir explícitamente algoritmos no lineales. Las Máquinas de Soporte Vectorial (MSV) han sido aplicadas con éxitos en muchos problemas de la vida real y en diversas áreas: reconocimiento de patrones, Regresión, Multimedia, Bioinformática, Inteligencia artificial, etc.Muchas técnicas como árboles de decisión, redes neuronales, algoritmos genéticos, etc., han sido usadas en esas áreas; sin embargo, lo que distingue a las MSV es su sólida fundamentación matemática la cual está basada es la teoría del aprendizaje estadístico. Además, más que la minimización del error de entrenamiento (riesgo empírico, como es el caso de las redes neuronales), la MSV minimizan el riesgo estructural que expresa una cota superior del error de generalización, es decir la probabilidad de una clasificación errónea sobre ejemplos no vistos todavía. Esto hace particularmente conveniente a las MSV en muchas aplicaciones con datos dispersos, ya que ese énfasis especial de las MSV sobre la habilidad de generalización hace de esta aproximación particularmente interesante para aplicaciones del mundo real con limitada cantidad de datos de entrenamiento Estudiar las máquinas de soporte vectorial es útil en dos aspectos: Es completamente satisfactoria desde el punto de vista teórico: Las SVM

están basadas en unas ideas hermosamente simples y proporciona una clara intuición de que el aprendizaje a partir de ejemplo hace sentido así.

A menudo presentan excelente desempeño en aplicaciones prácticasPara cierto tipo de algoritmos, la teoría del aprendizaje estadístico puede determinar más precisamente los factores que deben ser tenidos en cuenta para un aprendizaje exitoso. Las aplicaciones del mundo real, sin embargo, a menudo demandan el uso de algoritmos y modelos más complejos, como las redes neuronales, que son muy difíciles de analizar teóricamente. El algoritmo de SVM logra las dos. Construye modelos que son lo suficientemente complejos: ella contiene una gran clase de redes neuronales, redes de funciones de base radial y clasificadores polinomiales como casos especiales. Pero aún es suficientemente simple para ser analizado matemáticamente, ya que se puede demostrar que corresponde a métodos lineales en un espacio de características alto-dimensional relacionado no linealmente con el espacio de entrada. Además aunque se pueden pensar como un algoritmo lineal en un espacio alto-dimensional, en la práctica, no involucra ninguna computación en ese espacio alto-dimensional. Mediante el uso de kernels, todos los cálculos necesarios son realizados en el espacio de entrada. Esta es una característica peculiar del algoritmo de los métodos SV. Se está tratando con algoritmos complejos para reconocimiento de patrones no lineales, regresión, o extracción de características, pero para los propósitos del análisis y algorítmico, sólo se requiere trabajar con un simple algoritmo lineal.

Además, los algoritmos basados en MSV, son diferentes de otros algoritmos alternativos (tales como redes neuronales y programación genética) usados en aprendizaje de máquina en muchos aspectos:

Ellos están explícitamente basados en un modelo teórico de aprendizaje más que sobre una analogía relajada con los sistemas de aprendizaje natural u otras heurísticas.

Ellos tienen garantía teórica sobre su desempeño y tienen un diseño modular que hace posible separar la implementación y el análisis de sus componentes.

Ellos, además, no son afectados por el problema de los mínimos locales, debido a que su entrenamiento se basa en problemas de optimización convexa.

Por otra parte, en la última década, una considerable comunidad de teóricos e ingenieros se ha formado alrededor de estos métodos, y se han realizado numerosas aplicaciones prácticas. Aunque la investigación sobre las MSV no ha concluido, ya son muchos los métodos basados en ellas que aparecen en el estado del arte de diversas tareas de aprendizaje de máquina. Su fácil uso, su atractivo teórico, y su notable desempeño han hecho de ellas una buena elección para muchos problemas de aprendizaje computacional. Las aplicaciones exitosas varían desde la categorización de textos y reconocimiento de caracteres escritos hasta la clasificación de datos de expresiones de genes. En muchos aspectos, los últimos años han sido testigos del surgimiento de un nuevo paradigma para el aprendizaje de máquina, comparable a lo ocurrido en los años 80´s cuando la casi simultánea introducción de los algoritmos de árboles de decisión y de redes neuronales revolucionó la práctica en reconocimiento de patrones y minería de datos. En unos pocos años, una nueva comunidad se ha agrupado, involucrando miles de investigadores e ingenieros, congresos y seminarios anuales, sitios web, y libros. El tema de su investigación: Las máquinas de soporte vectorial (MSV) y otros métodos basados en kernels (Norgaard L., 2002). Esto indica que las MSV han evolucionado desde un concepto puramente académico soportado en la teoría del aprendizaje estadístico hasta convertirse en una técnica popular del aprendizaje de máquinas (Joel A. & Lim H., 2004).

En Colombia, la inserción real en esta tendencia es todavía incipiente, pero ya está tomando un fuerte impulso, aunque todavía existe un desconocimiento general sobre esta nueva concepción de los modelos, por parte de los investigadores y consultores. El campo específico de las MSV se pudieron identificar algunos autores tales como: Hurtado J. E, et al 2002 y Carvajal J. L. & Branco J. W. 2005. Las causas posibles de esto, podrían ser falta de fomento e ilustración de los procedimientos básicos, falta de evidencia teórica y práctica de la efectividad operacional de ellas o falta de herramientas conceptuales y computacionales.

La Facultad de ingeniería de la FUKL, tiene el firme propósito investigativo de convertirse, en el largo plazo en protagonista en investigación a nivel nacional, por lo tanto las MSV, constituyen una oportunidad muy especial para continuar en este proceso, debido a su gran potencial en aplicaciones reales, lo que daría especial impacto a sus resultados dada la pertinencia del problema que se ataca y el panorama actual no sólo nacional, sino mundialmente.

En concordancia con todo lo expuesto anteriormente se propone:

Constituir un marco conceptual, que permita establecer claramente los procedimientos involucrados en las aplicaciones más comunes, de las Máquinas de Soporte Vectorial en problemas de clasificación y de regresión.

Identificar problemas, que al resolverlos con Máquinas de Soporte Vectorial, permitan ilustrar tanto los conceptos y procedimientos fundamentales sugeridos en el marco conceptual, como la potencia de esta técnica en casos reales.

Diseñar e implementar un aplicativo que facilite el uso de las Máquinas de Soporte Vectorial a problemas de regresión y clasificación, que incentive la aplicación de esta técnica a problemas de diferentes contextos y disciplinas.

Con esta propuesta se busca pues, contribuir de forma efectiva a la comprensión de los aspectos fundamentales de las Máquinas de Soporte Vectorial, como también a la aplicabilidad práctica de este paradigma en la solución de problemas que involucren regresión o clasificación. Esta investigación que se propone, que tiene el carácter de investigación básica, podría generar toda una serie de investigaciones sobre aplicaciones y potenciación de las Maquinas de Soporte Vectorial como herramienta operativa y de análisis en ingeniería. Además, si se hace una difusión adecuada dentro del medio académico, en poco tiempo se podría tener investigaciones similares dentro de otras disciplinas, que sin duda, valorarán la gran representatividad y las impensadas posibilidades de las Maquinas de Soporte Vectorial.Esta investigación se constituiría en una primera aproximación a las Máquinas de Soporte Vectorial que daría el soporte conceptual suficiente para iniciar diferentes proyectos aplicados a casos específicos en donde se disponga de datos históricos. En el futuro cercano podría conducir a la exploración integral de las diferentes formas y aplicaciones de las Máquinas de Soporte Vectorial, lo cual podría conducir a consolidar una herramienta computacional que involucre las diferentes técnicas de estadística multivariada y de inteligencia computacional (Redes Neuronales, árboles de Decisión, Programación Genética, Métodos Bayesianos, etc.), para realizar minería de datos de forma efectiva.Es de anotar que la temática que se aborda, además de estar dentro de la tendencia mundial en investigación en ingeniería, y es altamente pertinente, dado el estado actual del conocimiento y las inmensas posibilidades que involucra en la solución de problemas reales.

De esta forma, el problema que se propone abordar mediante esta investigación se puede formular así: ¿A través de las máquinas de soporte vectorial se pueden construir modelos de regresión y de clasificación de buen desempeño en aplicaciones prácticas?

Esta pregunta está motivada en la inmensa potencialidad que muchos autores han identificado en las Máquinas de Soporte Vectorial como paradigma de modelación, y la preocupación por la actualización permanente que debe

caracterizar a un programa de ingeniería de sistemas y corresponde a un convencimiento por parte de los proponentes de que esta técnica tiene un excelente desempeño en aplicaciones prácticas que involucran problemas de clasificación y/o de regresión, lo que da lugar a la hipótesis básica con la cual se inicia esta investigación:

“Las Máquinas de soporte vectorial son apropiadas para resolver exitosamente problemas reales de regresión y clasificación”

La cual se soporta en las evidencias teóricas y empíricas reportadas por investigadores de todo el mundo.Con este proyecto y el anterior en esta línea (Herramientas Conceptuales y computacionales para la Aplicación de Programación Genética en Regresión Simbólica) se empieza a consolidar un paquete de opciones en minería de datos que permitirían en un futuro próximo hacer comparaciones entre las diferentes técnicas y paradigmas a la luz de aplicaciones prácticas específicas.

3.2 MARCO TEÓRICO Y ESTADO DEL ARTE: (Adaptado de Dibike Y., Solomatine D. et al, 2001)

El rápido avance el los sistemas de procesamiento de información en las décadas recientes, ha dirigido la investigación en ingeniería hacia el desarrollo de sistemas inteligentes que puedan evolucionar modelos de los fenómenos naturales automáticamente. En este sentido un amplio rango de técnicas de aprendizaje de máquina como árboles de decisión, redes neuronales artificiales(ANNs), Métodos Bayesianos, sistemas basados en reglas difusas y algoritmos evolucionarios han sido exitosamente aplicados para modelar diferentes sistemas relacionados con la ingeniería. Como un resultado, el problema de la modelación de datos empíricos se ha vuelto muy importante en aplicaciones de ingeniería. En tales circunstancias se usa un proceso de inducción para construir un modelo del sistema particular, a partir del cual se pretende deducir respuestas del sistema para situaciones que aún no han sido observadas. El desempeño de un modelo como tal, por lo tanto, depende de la cantidad y calidad de las observaciones usadas durante el proceso de aprendizaje del modelo. Sin embargo, en la mayoría de los casos el conjunto de datos no es tan grande y además ha sido constituido a partir de un muestreo no uniforme. Además, debido a la naturaleza alta-dimensional de muchos problemas, los datos forman sólo una distribución dispersa en el espacio de entrada. El problema de la inducción es entonces considerado como un problema de hallar una dependencia plausible usando el número limitado de observaciones disponibles. Las necesidades para tratar este problema han conducido a una considerable atención en la literatura científica en el uso de técnicas de aprendizaje de máquina para construir(o inducir) modelosUna de las áreas más antiguas en la estimación de dependencias a partir de datos, es la estadística, tal y como se puede evidenciar por los clásicos modelos de regresión y clasificación multivariadas. En los 1960´s y los 1970´s, surgen nuevas técnicas para el reconocimiento de patrones y el análisis de cluster, las cuales no están a menudo, basados en la suposición de distribuciones estadísticas de “buen comportamiento” de proceso aleatorio

(jane y Duber 1988). Entre estas técnicas están los métodos que intentan imitar al cerebro humano y la percepción como las redes neuronales y el sistema difusos (Tsoukalas y Uhrig 1997, Solomatin y Torres, 1996), Programación genética (Koza, 1992; Bavovic & Keijzer, 2000), árboles de decisión (Quinlan 1986, 19992), y el aprendizaje reforzado (Watkins y Dayan 1992, Wilson 1996). Al mismo tiempo, la extensión de los principios de inducción estadísticamente basados continuó para dar origen a nuevos métodos , tales como aprendizaje bayesiano (Leonhard y Hsu 1999). Otro desarrollo en esta área estuvo asociado la investigación realizada en 1960-80s en el instituto Paa el Control de Problemas de la Academia de Ciencias Rusa(Vapnick y Lerner 1963; Vapnick y Chervonenskis 1974; Vapnick 1979). Mas tarde esos resultados iniciales fueron extendidos y generalizados para proporcionar el tema conocido como Teoría del aprendizaje estadístico(Vapnick 1995, 1998),el cual sirve como una base para la técnica de las máquinas de soporte vectorial(SVM). La teoría de Vapnick está basada en sólidos principios y permite la generalización y el hallazgo de elementos comunes entre varia técnicas , incluyendo el muy popular método de las redes neuronales y los sistemas difusos.

Aunque el uso de los métodos SV en aplicaciones ha comenzado solo recientemente, un considerable número de investigadores ha reportado ya estados del arte del su desempeño en una variedad de aplicaciones en reconocimientos de patrones, estimación de regresión, y la predicción de series de tiempo. Para mencionar unos pocos ejemplos, Osuna et al(1997) aplicó SVM a la clasificación de imágenes digitales para detección de rostros humanos, mientras que Mukherjee et al.(1997) y Muller et al(1997) usaron SVMs predicción de series de tiempo no lineales. Mattera y Hykin(1999) también ha reportado una aplicación útil de SVMs para la reconstrucción dinámica de un sistema caótico, y Dibike et al(2001) reportan aplicaciones en análisis de imágenes por clasificación de características en datos de sensores remotos y en la modelación de transformaciones lluvia-escorrentía en tres cuencas diferentes.A continuación se hará una exposición breve de los principales conceptos y elementos teóricos y procedimentales de las máquinas de soporte vectorial(MSV)

3.2.1 TEORÍA DEL APRENDIZAJE ESTADÍSTICO

En la teoría del aprendizaje estadístico( Vapnick, 1995,1998), el problema de aprender una relación entrada-salida a partir de un conjunto de datos es generalmente visto como el problema de elegir , a partir de un conjunto dado de funciones f(x, ), ( donde x Rn es un vector aleatorio tomado independientemente de una función de distribución de probabilidad P(x), fija pero desconocida y es un conjunto de parámetros) la que mejor aproxime el valor de la salida “y” para todos los vectores de entrada x, de acuerdo a una función de distribución condicional P(y/x), también fija pero desconocida. La selección de la función deseada está basada en un conjunto de entrenamiento de l observaciones independientes e idénticamente distribuidas (x1,y1),..,(xl, yl) tomados de acuerdo a P(x,y) =P(x)P(y/x)

Si se considera que el valor esperado de las pérdidas debido a los errores de clasificación o estimación, está dado por el riesgo funcional

(1)

Donde es la discrepancia entre las respuestas medida “y” y la respuesta proporcionada por la máquina de aprendizaje, la meta sería encontrar la función que minimice el riesgo funcional en la situación en donde la única información disponible es el conjunto de entrenamiento.Para el caso de reconocimiento de patrones de dos clases, la tarea del aprendizaje a partir de ejemplos puede ser formulada de la siguiente forma: Se da un conjunto de funciones , y un conjunto de ejemplos, es decir pares de patrones xi y etiquetas yi, (xi,yi), ...., (xl, yl), Rn {-1,+1}, cada uno de ellos generado a partir de una distribución de probabilidad desconocida P(x,y) que contiene la dependencia subyacente. Lo que se requiere ahora es aprender la función que proporciona el valor más pequeño posible del error promedio comprometido en los ejemplos independientes tomados aleatoriamente de la misma distribución , P, conocido como el riesgo. Sin embargo, el riesgo - - es desconocido , ya que P(x,y) es desconocida; por lo tanto, se necesita un principio de inducción para la minimización del riesgo. Uno de tales principios es llamado el principio inductivo de la Minimización del Riesgo Empírico(ERM). Sin embargo, esta aproximación directa, que es minimizar el riesgo empírico:

(2)

no garantiza un riesgo real pequeño si el número l de ejemplos de entrenamiento es limitada. En otras palabras, un error más pequeño sobre el conjunto de entrenamiento, no necesariamente implica una habilidad de generalización mayor( es decir un error más pequeño sobre el conjunto independiente de prueba). Para hacer lo máximo con una cantidad limitada de datos, una novedosa técnica estadística llamada Minimización del Riesgo Estructural ha sido desarrollada(Vapnik, 1995,1998). La teoría de la convergencia uniforme en probabilidad, desarrollada por Vapnik y Chervonenkis(VC), provee cotas sobre la desviación del riesgo empírico con respecto al riesgo esperado. Esta teoría muestra que es crucial restringir la clase de funciones que la máquina de aprendizaje puede implementar a una clase con una capacidad que resulte conveniente para la cantidad de datos de entrenamiento disponibles.

Para y l > h, una cota VC, la cual se verifica con probabilidad , tiene la siguiente forma (Vapnik, 1995, 1998):

(3)

El parámetro h es llamado la dimensión-VC( Vapnik-Chervonenkis) de un conjunto de funciones y ella describe la capacidad de un conjunto de funciones para representar el conjunto de datos. La dimensión VC es una medida de la complejidad del clasificador y ella es a menudo proporcional al número de

parámetros libre en el clasificador . Especialmente cuando es pequeño, un

riesgo empírico pequeño no garantiza un valor pequeño en el riesgo real o estructural. En este caso, con el fin de minimizar el riesgo real R(), se debe minimizar el lado derecho de la desigualdad en la ecuación (3) simultáneamente sobre ambos términos. Para hacer esto, se hace de la dimensión VC una variable controlante. Por lo tanto, el principio general, el cual se denomina “principio inductivo de minimización del riesgo estructural(SRM), fue motivado para minimizar el riesgo funcional, con respecto a ambos términos: el riesgo empírico y el intervalo de confianza. (Vapnik y Chevonenkis, 1974). El término de confianza VC en la ecuación (3) depende de la clase de funciones elegidas, mientras que el riesgo empírico depende de la función particular elegida por el proceso de entrenamiento. El objetivo aquí es encontrar ese subconjunto del conjunto de funciones elegidas, tal que la cota del riesgo para ese subconjunto sea mínima. Esto se hace introduciendo una estructura que divida la clase completa de funciones en subconjuntos anidados(Ver figura 1). SRM consiste en hallar ese subconjunto de funciones que minimiza la cota sobre el riesgo real. Esto se hace simplemente entrenando una serie de máquinas, una para cada subconjunto, donde para un subconjunto dado, la meta de entrenamiento es simplemente minimizar el riesgo empírico. Luego se toma la máquina para la cual la suma del riesgo empírico y la confianza de VC sea mínima(Burges, 1998)

Figura 1: La cota del riesgo real es igual a la suma del riesgo empírico y el intervalo de confianza.

3.2.2 MÁQUINAS DE SOPORTE VECTORIAL

Cristianini y Shawe-Taylor (Cristianini & Shawe-Taylor, 2000), definen a las máquinas de soporte vectorial (MSV) como un sistema de aprendizaje que usa un espacio de hipótesis de funciones lineales en una espacio de características alto-dimensional, entrenado con un algoritmos de aprendizaje tomado de la teoría de la optimización que implementa un sesgo de aprendizaje derivado de la teoría del aprendizaje estadístico. El fundamento del tema de las máquinas de soporte(SVM) ha sido desarrollado principalmente por Vapnik y sus colaboradores(Vapnik 1995 & 1998) y los correspondientes métodos SV están ganado popularidad debido a

sus muchas características atractivas y el promisorio desempeño empírico. Su formulación incorpora el principio de Minimización del Riesgo Estructural(SRM), el cual se ha demostrado que es superior al más tradicional principio de minimización del riesgo empírico(ERM) empleado por muchas técnicas de modelación (Osuna, et al, 1997, Gunn, 1998). Esta es la diferencia que proporciona a las SVM una habilidad mayor para generalizar, la cual es la meta en aprendizaje estadístico.

3.2.2.1 CLASIFICACIÓN POR VECTORES DE SOPORTE

Considere el problema de separar el conjunto de vectores de entrenamiento (x1, y1),...,(xl, yl), Rn que pertenecen a dos clases separadas (yi={1,-1}). En este problema la meta es separar los vectores de entrenamiento en dos clases mediante un hiperplano.

(4)Donde w y b son parámetros que se inducen a partir de los ejemplos disponibles correspondientes a la función de decisión f(x)=sign(wx+b) tal que ella se desempeña bien sobre ejemplos no vistos, es decir que generaliza bien. Para el caso del espacio de entrada bidimensional como se muestra en la figura (2), hay muchos posibles clasificadores lineales que pueden separar los datos; pero hay sólo uno que maximiza el margen( es decir, maximiza la distancia entre el y el dato más cercado de cada clase). Este clasificador lineal es llamado el hiperplano de separación óptima. Se ha demostrado, además que el hiperplano óptimo, definido como el que tiene el margen máximo de separación entre las dos clases, tiene la capacidad más baja y minimiza la cota sobre el riesgo real(Vapnik, 1979).

Figura 2: Hiperplano de separación óptima para el caso bidimensional

El hiperplano (wx)+b=0 satisface las condiciones: y (5)

Combinando las dos expresiones en la ecuación (5) y escalando w y b, con un factor apropiado, una superficie de decisión equivalente se puede formular como aquella que satisfaga la restricción:

Se puede demostrar que el hiperplano que separa óptimamente los datos en dos clases es aquel que minimiza el funcional:

(7)

Por lo tanto, el problema de optimización puede ser reformulado como un problema de optimización no restringida, usando multiplicadores de Langrange y su solución estaría dada por la identificación de los puntos de silla del funcional de Lagrange(Minoux, 1986), como sigue:

(8)

Donde son los multiplicadores de Lagrange. El Lagrangiano tiene que ser minimizado con respecto a w y b, es decir:

y

Poniendo las expresión para wo en la ecuación (8) resultará en la siguiente forma dual de la función, que debe ser maximizada con respecto a las restricciones

(9)

Encontrar la solución de la ecuación (9) para problemas el mundo real usualmente requerirá la aplicación de técnicas de optimización de programación cuadrática(QP) y métodos numéricos. Una vez se halla la

solución en la forma de un vector , el hiperplano de

separación óptimo estará dado por:

y

Donde xr y xs son cualesquiera vectores de soporte uno de cada clase. Los clasificadores pueden ser, entonces construidos como:

(10)

Solamente los puntos xi, que tienen multiplicadores de Lagrange diferentes de cero son llamados Vectores de Soporte(SVs). Si los datos son linealmente separables, todos los vectores de soporte estarán sobre el margen y por lo tanto, el número de SV puede ser muy pequeño.

La solución anterior sólo se verifica para datos separables linealmente, y todavía debe ser ligeramente modificada para datos no separables linealmente introduciendo un nuevo conjunto de variables que mide la cantidad en la cual las restricciones son violadas( ver figura (2b)). Luego el margen es maximizado, asumiendo una penalización proporcional a la cantidad de la violación de la restricción. Formalmente se resuelve el siguiente problema:

Minimice (11)

Sujeto a , y i=1,...,l

Donde C es un parámetro elegido a priori y que define el costo de la violación de la restricción. El primer término en la ecuación (11) proporciona una minimización de la dimensión VC de la máquina de aprendizaje, minimizando por lo tanto, el segundo término en la cota de la ecuación (3). De otra parte, la minimización en el segundo término de la ecuación (11) controla el riesgo empírico, el cual es el primer término en la ecuación (3). Esta aproximación, por lo tanto, constituye una implementación práctica de la Minimización del Riesgo Estructural sobre el conjunto de funciones dado. Con el fin de resolver este problema, el Lagrangiano se construye como sigue:

(12)

Donde y están asociados con las restricciones en la ecuación (11) y los valores de tienen que ser acotados como . De nuevo, la solución de este problema se determina por los puntos de silla de este Lagrangiano de forma similar para el caso de datos separables.En el caso donde una frontera lineal sea definitivamente inapropiada( o cuando la superficie de decisión es no lineal), el SVM puede mapear el vector de entrada x, en un espacio de características alto-dimensional z, eligiendo un mapeo no lineal a priori. Entonces la SVM construye el hiperplano de separación óptimo en este espacio más alto-dimensional. En este caso, los problemas de optimización de la ecuación(20) se convierten en :

(13)

Donde K(x,y) es la función kernel que realiza el mapeo no lineal en el espacio de características, y las restricciones permanecen sin cambio. La solución de la ecuación anterior determina los multiplicadores de Lagrange, y un clasificador que implementa en hiperplano de separación óptima en el espacio de característica está dado por,

(14)

Consecuentemente, todo lo que se ha derivado para el caso lineal es también aplicable para un caso no lineal usando un kernel conveniente K en vez del producto punto. Además, usando diferentes funciones kernel, el algoritmo de SV puede construir una variedad de máquinas de aprendizaje(ver figura 3), algunas de las cuales parecen ser similares a arquitecturas clásicas. Funciones de base radial, funciones polinomiales y ciertas funciones

sigmoideas son entre otras que proporcionan kernels aceptables y los correspondientes mapeos son descritos como sigue:

El kernel simple polinomial: , donde el

grado del polinomio d, es definido por el usuario.

Kernel de Funciones de Base Radial: , donde

es definido por el usuario Kernel de redes Neuronales: , donde b

y c son definidos por el usuario.

Figura 3: Arquitectura de las Máquinas de Soporte Vectorial

El otro caso surge cuando los datos están en múltiples clases. Con el fin de obtener una clasificación de k-clases, se construye un conjunto de clasificadores binarios f1,f2,...,fk, cada uno entrenado para separar una clase del resto, y estos son combinados para llevar a cabo la multiclasificación( en un esquema de votación) de acuerdo con la salida máxima, antes de aplicar la función signo(Scholkopf, 1997)

3.2.2.2 REGRESION POR VECTORES DE SOPORTE

Las SVMs pueden ser aplicadas también a problemas de regresión mediante la introducción de una función de pérdida alternativa que es modificada para incluir una medida de distancia(Smola, 1996). Sea “y” la variable observada que tiene valores reales, y sea f(x, ), A, un conjunto de funciones reales que contiene la función de regresión f(x,o). Considerando el problema de la aproximación de un conjunto de datos {(x1,y1), (x2,y2),...,(xl,yl), xRn, yR) con una función lineal, f(x,)=(wx)+b, la función de regresión óptima está dada que minimiza el riesgo empírico:

(15)

Con la función de pérdida más general con -zonas insensibles descrita como:

(16)

El objetivo ahora es encontrar una función f(x, ), que tenga al máximo una desviación de con respecto a la salida observada yi para todos los datos de entrenamiento, y al mismo tiempo es tan simple como sea posible. Esto es equivalente a minimizar el funcional:

(17)

Donde C es un valor preespecificado y son variables comodines que representan las restricciones superiores e inferiores sobre las salidas del sistema(ver figura 4). Como sigue:

(18)

y

Figura 4: Precisión pre-especificada y una variable comodín en un problema de regresión SV

Ahora la función de Lagrange es construida a partir de la función objetivo y las restricciones correspondientes introduciendo un conjunto dual de variables, como sigue:

(19)Se sigue a partir de los puntos de la condición de puntos de silla que las derivadas parciales de L con respecto a las variables primarias (w,b, i, i*) tienen que desvanecerse en la optimalidad. Substituyendo los resultados de esta derivación en la ecuación (17) se obtiene el problema de optimización dual:

(20)

Que tiene que ser maximizada sujeta a las restricciones: ; y para i=1,2,...,l

Una vez los coeficientes y , son determinados a partir de la ecuación (20), los vectores deseados se pueden encontrar como:

, y por lo tanto, (21)

Donde (22)

De nuevo, cuando la regresión lineal no sea apropiada, como en el caso de la mayoría de aplicaciones en ingeniería, un kernel de mapeo no lineal K se usa para mapear los datos en un espacio de características de dimensión mayor en donde se puede realizar la regresión lineal. Una vez se obtienen los valores óptimos de y , entonces la función de regresión está dada por:

(23)

En donde

y

Babovic, V. and Keijzer, M. 2000 Genetic programming as a model induction engine. Journal of Hydroinformatics. 2 (1), 35-60.

Burges, C.J.C., 1998, A Tutorial on Support Vector Machines for Pattern Recognition, Data Mining and Knowledge Discovery, 2 (2), 121-167.

Dibike, Y. B. 2000 Machine Learning Paradigms for Rainfall-Runoff Modelling, en The Proc. of the 3rd International Conference on Hydroinformatics, Iowa City, USA.

Dibike, Y., Solomatine D. et al. 2001. Model Induction with Support Vector Machines: Introduction and Applications. En ASCE Journal of Computing in Civil Engineering, July 2001, vol. 15, No. 3, pp. 208-216

Gunn, S. 1998 Support Vector Machines for Classification and Regression. ISIS Technica Report.

Jan A.K. and Dubes R.C. 1988 Algorithms for Clustering Data. Prentice Hall, USA.

Koza, J.R., 1992 Genetic Programing: on the programming of computers by natural selection, MIT, Cambridge, MA.

Mattera D. and Haykin S. 1999 Support vector machines for dynamic reconstruction of a chaotic system. In Scholkopf et al, editors, Advances in Kernel Methods – Support Vector Learning, Cambridge, MA, MIT Press, 211-242..

Minoux, M. 1986 Mathematical Programing: Theory and Algorithms. John Wiley and Sons.

Mukherjee, S. Osuna, E. and Girosi, F. 1997 Nonlinear prediction of chaotic time series using support vector machine. In proceedings of the IEEE Workshop on Neural Networks for Signal Processing 7, Amerlia Island, FL, 511-519.

Muller, K.R., Smola, A. Ratsch, G., Scholkopf, B., Kohlmorgen, J. and Vapnik, V. 1997 Predicting time series with support vector machines. In proceedings, International Conference on Artificial Neural Networks, Springer Lecture Notes in Computer Science, page 999.

Norgaard, M., Ravn, O., Poulsen, N.K., and Hansen L.K. 2000, Neural Networks for Modelling and Control of Dynamic Systems, Springer, London.

Norgaaad Lars. 2002. Journal of Chemometrics, Proceedings of the 7th Scandinavian Symposium on Chemometrics. Volume 16, Issue 8-10 , Pages 482 – 489. John Wiley & Sons.2002

Osuna, E., Freund, R. and Girosi, F. 1997 An improved training algorithm for support vector machines. In Proc. of the IEEE Workshop on Neural Networks for Signal Processing VII, New York, 276-285.

Quinlan, J. R. 1986 Induction of decision trees. Machine Learning. 81-106. Quinlan, J. R. 1992 C4.5: program for machine learning. Morgan Kaufmann. Schalkoff, R.J. 1997 Artificial Neural Networks, McGraw-Hill, New York. Scholkopf, B. 1997 Support Vector Learning, R. Oldenbourg, Munich. Smola, A. 1996 Regression Estimation with Support Vector Learning

Machines, Technische Universitat Munchen. Solomatine D.P. and Torres L.A. 1996 Neural network approximation of a

hydrodynamic model in optimizing reservoir operation - Proc. 2nd Intern. Conference on

Hydroinformatics, Zurich, September 9-13, 201-206. TR-20 project formulation hydrology 1965, USDA Soil Conservation Service (SCS), Central Technical Service, Portland USA.

Tsoukalas, L.H. and Uhrig, R.E. 1997 Fuzzy and Neural Approaches in Engineering. John Wiley and Sons, N.Y., 587.

Vapnik, V. 1995 The Nature of Statistical Learning Theory, Springer, New York.

Vapnik, V. 1998 Statistical Learning Theory, Wiley, New York. Vapnik, V., & Chervonenkis 1974 Theory of Pattern Recognition [in

Russian], Nauka, Moscow. Watkins, C.J.C.H. and Dayan, P. 1992, Q-learning. Machine learning, 8,

279-292. Wilson, G. 1996 Reinforcement learning: A new technique for the real-time

optimal control of hydraulic networks. Proc. 2nd Int. Conference on Hydroinformatics, Zurich, 9-13. September, 2, 893-900.

(Joel A. & Lim H., 2004) Amrit L. Goel & Hojung Lim. 2004. Support Vector Machines and Their Applications in Systems Engineering, publicado en Tutorial at the 8th IEEE International Symposium on High Assurance Systems Engineering (HASE 2004) March 25 – 26, 2004, Tampa, Florida

http://www3.interscience.wiley.com/cgi-bin/jissue/97516823

Hurtado J. E., Henao R., Castellanos G. 2002. Clasificación de Señales Sísmicas por Medio de Onditas y Máquinas de Soporte Vectorial. Primer Simposio Colombiano de Sismología. INGEOMINAS. 2002

Carvajal J. L. & Branco J. W. 2005. Comparación de Modelos de Clasificación Automática de Patrones Texturales de Minerales Presentes en los Carbones Colombianos. Dyna, Año 72, Nro. 146, pp. 115-124. Medellín, Julio de 2005. ISSN 0012-7353

Documents

Máquinas de Soporte vectorial fukl