65
Protocolo de Investigación Héctor Paniagua Guerrero Las redes neuronales artificiales aplicadas a los riesgos de negocios de las PYME’s de servicios en la Ciudad de México Índice 1. Proyecto de Investigación ………………………………………….…. 1.1 Antecedentes……………………………………………………..… 1.2 Planteamiento del problema de investigación………………….. 1.3 Preguntas de investigación………………………………………. 1.4 Justificación de la Investigación………………………………….. 1.5 Objetivos de la investigación……………………………………... 1.6 Hipótesis de investigación………………………………………… 1.7 Alcance de la Investigación………….………………………….... 1.8 Marco teórico de la investigación………………………………… 1.9 Metodología de la investigación………………………………….. 1.10 Aportaciones………………………………………………………. 1.11 Índice tentativo……………………………………………………. 2. Fuentes de información disponibles……………………………………….. 1

 · Web viewLa red neuronal artificial incluirá un nuevo planteamiento de la función de aptitud tradicionalmente empleada para resolver estos problemas, permitiendo obtener una

Embed Size (px)

Citation preview

Page 1:  · Web viewLa red neuronal artificial incluirá un nuevo planteamiento de la función de aptitud tradicionalmente empleada para resolver estos problemas, permitiendo obtener una

Protocolo de Investigación Héctor Paniagua Guerrero

Las redes neuronales artificiales aplicadas a los riesgos de

negocios de las PYME’s de servicios en la Ciudad de México

Índice

1. Proyecto de Investigación ………………………………………….….

1.1 Antecedentes……………………………………………………..…

1.2 Planteamiento del problema de investigación…………………..

1.3 Preguntas de investigación……………………………………….

1.4 Justificación de la Investigación…………………………………..

1.5 Objetivos de la investigación……………………………………...

1.6 Hipótesis de investigación…………………………………………

1.7 Alcance de la Investigación………….…………………………....

1.8 Marco teórico de la investigación…………………………………

1.9 Metodología de la investigación…………………………………..

1.10 Aportaciones……………………………………………………….

1.11 Índice tentativo…………………………………………………….

2. Fuentes de información disponibles………………………………………..

1

Page 2:  · Web viewLa red neuronal artificial incluirá un nuevo planteamiento de la función de aptitud tradicionalmente empleada para resolver estos problemas, permitiendo obtener una

Protocolo de Investigación Héctor Paniagua Guerrero

1.1 Antecedentes

1.1.1 Introducción1

Uno de los problemas más antiguos de la ciencia experimental es encontrar funciones que ajusten, o expliquen, datos que se observan de fenómenos naturales. La principal ventaja de la existencia de tales funciones es la posibilidad de predecir el comportamiento del sistema natural en el futuro y controlar sus salidas mediante la aplicación de las entradas adecuadas. Algunos ejemplos podrían ser la predicción de valores en bolsa, la predicción meteorológica o la clasificación de formas tumorales.

En este sentido, el hombre se ha caracterizado siempre por su búsqueda constante de nuevas vías para mejorar sus condiciones de vida. Estos esfuerzos le han servido para reducir el trabajo en aquellas operaciones en las que la fuerza juega un papel primordial. Los progresos obtenidos han permitido dirigir estos esfuerzos a otros campos, como por ejemplo, a la construcción de máquinas calculadoras que ayuden a resolver de forma automática y rápida determinadas operaciones que resultan tediosas cuando se realizan a mano.

Los desarrollos actuales de los científicos se dirigen al estudio de las capacidades humanas como una fuente de nuevas ideas para el diseño de las nuevas máquinas. Así, la inteligencia artificial es un intento por descubrir y describir aspectos de la inteligencia humana que pueden ser simulados mediante máquinas. Esta disciplina se ha desarrollado fuertemente en los últimos años teniendo aplicación en algunos campos como visión artificial, demostración de teoremas, procesamiento de información expresada mediante lenguajes humanos... etc.

Las redes neuronales son más que otra forma de emular ciertas características propias de los humanos, como la capacidad de memorizar y de asociar hechos. Si se examinan con atención aquellos problemas que no pueden expresarse a través de un algoritmo, se observará que todos ellos tienen una característica en común: la experiencia. El hombre es capaz de resolver estas situaciones acudiendo a la experiencia acumulada. Así, parece claro que una forma de aproximarse al problema consista en la construcción de sistemas que sean capaces de reproducir esta característica humana. En definitiva, las redes neuronales no son más que un modelo artificial y simplificado del cerebro humano, que es el ejemplo más perfecto del que disponemos para un sistema que es capaz de adquirir conocimiento a través de la experiencia. Una red neuronal es “un nuevo sistema para el tratamiento de la información, cuya unidad básica de procesamiento está inspirada en la célula fundamental del sistema nervioso humano: la neurona”

Todos los procesos del cuerpo humano se relacionan en alguna u otra forma con la (in)actividad de estas neuronas. Las mismas son un componente relativamente simple del ser humano, pero cuando millares de ellas se conectan en forma conjunta se hacen muy poderosas.

1.1.2 La neurona clásica2

Una gran cantidad de terminología biológica se ha introducido a la literatura de las redes neuronales. Vale la pena conocer estos términos, en cualquier caso, junto con las otras partes esenciales de una buena educación liberal, tales como la mecánica cuántica, la siguiente figura 1.1 es un diagrama de la neurona genérica. La neurona genérica esta modelada con base en las neuronas motoras o motoneuronas espinales, una de las neuronas mejor caracterizadas en los

1 Inteligencia artificial, Ed.McGraw Hill, José T. Palma Méndez, Roque Marín Morales, pág.650-6512 Redes neuronales, Ed.Alfaomega, James A. Anderson, Año 2007, pág. 27

2

Page 3:  · Web viewLa red neuronal artificial incluirá un nuevo planteamiento de la función de aptitud tradicionalmente empleada para resolver estos problemas, permitiendo obtener una

Protocolo de Investigación Héctor Paniagua Guerrero

mamíferos. Las neuronas son células, y tienen un núcleo y el aparato metabólico celular relacionado.

Figura 1.1 Neurona genérica etiquetada

Un extremo de la célula, el de entrada, tiene un número de finas ramificaciones, llamadas dendritas, por su parecido, por su parecido a un árbol (dendro – es una raíz griega para significar “árbol”, de ahí dendrita, dendrocronología, etc.). La figura 1.2 las formas dendríticas de un número de neuronas reales. La variabilidad en formas y tamaños refleja el procesamiento analógica de información que realiza la neurona. El cuerpo celular se conoce como soma.

Figura 1.2 Árboles dendríticos de varias neuronas reales.

3

Page 4:  · Web viewLa red neuronal artificial incluirá un nuevo planteamiento de la función de aptitud tradicionalmente empleada para resolver estos problemas, permitiendo obtener una

Protocolo de Investigación Héctor Paniagua Guerrero

La mayoría de las neuronas tienen una larga y delgada ramificación, el axón, que se aparta del cuerpo celular y puede extenderse por metros. El axón es la línea de transmisión de la neurona. Los axones pueden dar lugar a ramificaciones colaterales, junto con la rama principal, por lo que la conectividad real de una neurona puede ser bastante complicada. Las neuronas se encuentran entre las células más grandes del cuerpo humano, y ciertamente son las más extendidas. Por ejemplo, las motoneuronas espinales en la parte baja de la espalda pueden tener axones que llegan a su destino final, se ramifican nuevamente en lo que se conoce como arborización terminal (arbor es la palabra latina para “árbol”, de ahí día arbor, arboretum, arbóreo, etc.).

En los extremos de las ramas axonales hay unas complejas estructuras altamente especializadas llamadas sinapsis figura 1.3. En la imagen normal de la neurona, las dendritas reciben entradas desde otras células, el soma y las dendritas procesan e integran las entradas, y la información se retransmite por el axón hacia la sinapsis cuyas salidas proporcionan entradas a otras neuronas u órganos efectores.

Las sinapsis que una célula influya en la actividad de las otras. El dogma recibido en la teoría de las redes neuronales dice que la sinapsis varía en fuerza, y que éstas, esto es, las detalladas interacciones entre muchas neuronas, son la clave de la naturaleza de los cómputos que realizan las redes neuronales. La mayoría de los neurofisiólogos concuerdan con este supuesto, pero, excepto por algunos casos especiales, como el ganglio abdominal de la Aplysia y el ojo del Limulus, la evidencia detallada de esto es sorprendentemente escasa. Es difícil pensar en alternativas plausibles. Sin embargo:

El núcleo y maquinaria circundante tienen el trabajo de enviar nutrientes, enzimas y materiales de construcción por el axón hacia el resto de la célula, que puede encontrarse a alguna distancia. Paul Weiss, en la década de los cuarentas, demostró un significativo flujo axoplasmático al simplemente constreñir el axón y señalar que se hinchaba en el lado entre el núcleo y la constricción. El flujo retrógrado de materiales de regreso hacia el núcleo también ocurre. Parece haber un número de mecanismos de transporte intracelular con diferentes velocidades y características. La neurona es un sitio muy ocupado.

Figura 1.3 Árborización terminal.

4

Page 5:  · Web viewLa red neuronal artificial incluirá un nuevo planteamiento de la función de aptitud tradicionalmente empleada para resolver estos problemas, permitiendo obtener una

Protocolo de Investigación Héctor Paniagua Guerrero

Como en todas las células animales, la neurona está cubierta por una delgada membrana con sorprendentes propiedades. La función de la membrana consiste en separar el interior del exterior. En las neuronas, el interior y el exterior son bastante diferentes en cuanto a sus propiedades químicas y eléctricas. La membrana tiene apenas un grosor de 60 a 70 A, y está compuesta principalmente por lípidos y proteínas. Los lípidos están distribuidos en una capa doble en la que se incrustan proteínas; las proteínas flotan en una especie de “mar” de lípidos.

La figura 1.4 Criofractura

La figura 1.4 muestra una imagen de una fractura por congelamiento o criofractura de la membrana de una neurona con las proteínas incrustadas en ella tomada con un microscopio electrónico.

Las proteínas pueden estar ubicadas en la cara interior o exterior de la membrana, o pasar a través de ella, lo hacen por pasajes continuos o poros. Iones particulares pueden pasar a través de de los poros y, por lo mismo, a través de la membrana. Los poros pueden cambiar su conformación bajo control ya sea eléctrico o químico, por lo que el flujo de iones puede ser regulado; esto es, la permeabilidad de la membrana está bajo control del ambiente eléctrico o químico.

Figura 1.5 Diagrama esquemático de un canal iónico. 1 - Dominios de canal (normalmente son cuatro por canal), 2 - vestíbulo exterior, 3 - filtro de selectividad, 4 - diámetro del filtro de selectividad, 5 - sitio de fosforilación, 6 - membrana célula.

5

Page 6:  · Web viewLa red neuronal artificial incluirá un nuevo planteamiento de la función de aptitud tradicionalmente empleada para resolver estos problemas, permitiendo obtener una

Protocolo de Investigación Héctor Paniagua Guerrero

La figura 1.5 un dibujo de dicho canal, que cambia su conformación y su permeabilidad a los iones cuando encuentra a la substancia química llamada acetilcolina. Este mecanismo para la conductancia iónica variable, forma bases de las propiedades eléctricas de la neurona.

1.1.3 Breve introducción biológica a una red neuronal3

1.1.3.1 Tipos de Neuronas

Aunque hay muchos tipos diferentes de neuronas, hay tres grandes categorías basadas en su función:

Las neuronas sensoriales son sensibles a varios estímulos no neurales. Hay neuronas sensoriales en la piel, los músculos, articulaciones, y órganos internos que indican presión, temperatura, y dolor. Hay neuronas más especializadas en la nariz y la lengua que son sensibles a las formas moleculares que percibimos como sabores y olores. Las neuronas en el oído interno nos proveen de información acerca del sonido, y los conos y bastones de la retina nos permiten ver.

Las neuronas motoras son capaces de estimular las células musculares a través del cuerpo, incluyendo los músculos del corazón, diafragma, intestinos, vejiga, y glándulas.

Las interneuronas son las neuronas que proporcionan conexiones entre las neuronas sensoriales y las neuronas motoras, al igual que entre ellas mismas. Las neuronas del sistema nervioso central, incluyendo al cerebro, son todas interneuronas.

La mayoría de las neuronas están reunidas en “paquetes” de un tipo u otro, a menudo visible a simple vista. Un grupo de cuerpos celulares de neuronas, por ejemplo, es llamado un ganglio o un núcleo. Una fibra hecha de muchos axones se llama un nervio. En el cerebro y la médula espinal, las áreas que están compuestas en su mayoría por axones se llaman materia blanca, y es posible diferenciar vías o tractos de esos axones. Las áreas que incluyen un gran número de cuerpos celulares se llaman materia gris.

3 Redes neuronales y sistemas borrosos, Ed.Alfaomega, Bonifacio Martín del Brío, Alfredo Sanz Molina, pág.3-10

6

Page 7:  · Web viewLa red neuronal artificial incluirá un nuevo planteamiento de la función de aptitud tradicionalmente empleada para resolver estos problemas, permitiendo obtener una

Protocolo de Investigación Héctor Paniagua Guerrero

1.1.4 ¿Qué es una red neuronal4

Las neuronas (del griego νεῦρον, cuerda, nervio) son un tipo de células del sistema nervioso cuya principal característica es la excitabilidad de su membrana plasmática; están especializadas en la recepción de estímulos y conducción del impulso nervioso (en forma de potencial de acción) entre ellas o con otros tipos celulares, como por ejemplo las fibras musculares de la placa motora. Altamente diferenciadas, la mayoría de las neuronas no se dividen una vez alcanzada su madurez; no obstante, una minoría sí lo hace. Las neuronas presentan unas características morfológicas típicas que sustentan sus funciones: un cuerpo celular llamado soma o «pericarion», central; una o varias prolongaciones cortas que generalmente transmiten impulsos hacia el soma celular, denominadas dendritas; y una prolongación larga, denominada axón o «cilindro-eje», que conduce los impulsos desde el soma hacia otra neurona u órgano diana.

La neurogénesis en seres adultos, fue descubierta apenas en el último tercio del siglo XX. Hasta hace pocas décadas se creía que, a diferencia de la mayoría de las otras células del organismo, las neuronas normales en el individuo maduro no se regeneraban, excepto las células olfatorias. Los nervios mielinados del sistema nervioso periférico también tienen la posibilidad de regenerarse a través de la utilización del neurolema, una capa formada de los núcleos de las células de Schwann.

Existen numerosas formas de definir a las redes neuronales; desde las definiciones cortas y genéricas hasta las que intentan explicar más detalladamente qué son las redes neuronales. Por ejemplo:

1) Una nueva forma de computación, inspirada en modelos biológicos. 2) Un modelo matemático compuesto por un gran número de elementos procesales organizados en niveles. 3) Un sistema de computación compuesto por un gran número de elementos simples, elementos de procesos muy interconectados, los cuales procesan información por medio de su estado dinámico como respuesta a entradas externas. 4) Redes neuronales artificiales son redes interconectadas masivamente en paralelo de elementos simples (usualmente adaptativos) y con organización jerárquica, las cuales intentan interactuar con los objetos del mundo real del mismo modo que lo hace el sistema nervioso

biológico.

4 Redes neuronales y sistemas borrosos, Ed.Alfaomega, Bonifacio Martín del Brío, Alfredo Sanz Molina, pág.3-10

7

Page 8:  · Web viewLa red neuronal artificial incluirá un nuevo planteamiento de la función de aptitud tradicionalmente empleada para resolver estos problemas, permitiendo obtener una

Protocolo de Investigación Héctor Paniagua Guerrero

1.1.5 Acerca de las redes neuronales artificiales (RNA) 5.

Las Redes Neuronales Artificiales (RNA) o sistemas conexionistas son sistemas de procesamiento de la información cuya estructura y funcionamiento están basados en las redes neuronales biológicas. Las RNA’s consisten en un conjunto de elementos simples de procesamiento que se llamarán nodos o neuronas conectadas entre ellas por conexiones que tienen un valor numérico que será modificable y llamado peso.

Uno de los primeros en acometer esta empresa fue Charles Babbage, quien trató infructuosamente de construir una máquina capaz de resolver problemas matemáticos. Posteriormente otros tantos intentaron construir máquinas similares, pero no fue hasta la Segunda Guerra Mundial, cuando ya se disponía de instrumentos electrónicos, que se empezaron a recoger los primeros frutos. En 1946 se construyó la primera computadora electrónica. Desde entonces los desarrollos en este campo han tenido un auge espectacular.

Estas máquinas permiten implementar fácilmente algoritmos para resolver multitud de problemas que antes resultaban engorrosos de resolver. Sin embargo, se observa una limitación importante, por ejemplo ¿qué ocurre cuando el problema que se quiere resolver no admite un tratamiento algorítmico, como es el caso de la clasificación de objetos por rasgos comunes? Este ejemplo demuestra que la construcción de nuevas máquinas más versátiles requiere un enfoque del problema desde otro punto de vista.

Los desarrollos actuales de los científicos se dirigen al estudio de las capacidades humanas como una fuente de nuevas ideas para el diseño de las nuevas máquinas. Así, la inteligencia artificial es un intento por descubrir y describir aspectos de la inteligencia humana que pueden ser simulados mediante máquinas. Esta disciplina se ha desarrollado fuertemente en los últimos años teniendo aplicación en algunos campos como visión artificial, demostración de teoremas, procesamiento de información expresada mediante lenguajes humanos... etc.

Las redes neuronales son más que otra forma de emular ciertas características propias de los humanos, como la capacidad de memorizar y de asociar hechos. Si se examinan con atención aquellos problemas que no pueden expresarse a través de un algoritmo, se observará que todos ellos tienen una característica en común: la experiencia.

El hombre es capaz de resolver estas situaciones acudiendo a la experiencia acumulada. Así, parece claro que una forma de aproximarse al problema consista en la construcción de sistemas que sean capaces de reproducir esta característica humana. En definitiva, las redes neuronales no son más que un modelo artificial y simplificado del cerebro humano, que es el ejemplo más perfecto del que disponemos para un sistema que es capaz de adquirir conocimiento a través de la experiencia. Una red neuronal es “un nuevo sistema para el tratamiento de la información, cuya unidad básica de procesamiento está inspirada en la célula fundamental del sistema nervioso humano: la neurona”.

1.1.6 Generación y transmisión de las señal nerviosa6

La unión entre dos neuronas se denomina sinapsis. En el tipo de sinapsis más común no existe un contacto físico entre las neuronas, sino que estas permanecen separadas por un pequeño vacío de unas 0.2 micras. En relación a la sinapsis, se habla de neuronas presinápticas (las que envían señales).

5 Redes neuronales artificiales, Ed. Limusa Noriega, Carlos Alberto Ruíz, Marta Susana Basualdo, año 2004, pág. 176 Redes neuronales artificiales, Ed. Alfaomega, Bonifacio Martín del Brío, Alfredo Sanz Molina ,año 2007, pág.6-10

8

Page 9:  · Web viewLa red neuronal artificial incluirá un nuevo planteamiento de la función de aptitud tradicionalmente empleada para resolver estos problemas, permitiendo obtener una

Protocolo de Investigación Héctor Paniagua Guerrero

1.1.7 Evolución histórica7

1936 - Alan Turing. Fue el primero en estudiar el cerebro como una forma de ver el mundo de la computación. Sin embargo, los primeros teóricos que concibieron los fundamentos de la computación neuronal fueron Warren McCulloch, un neurofisiólogo, y Walter Pitts, un matemático, quienes, en 1943, lanzaron una teoría acerca de la forma de trabajar de las neuronas (Un cálculo lógico de la inminente idea de la actividad nerviosa - boletín de matemática biofísica 5: 115-133). Ellos modelaron una red neuronal simple mediante circuitos eléctricos.

1949 - Donald Hebb. Fue el primero en explicar los procesos del aprendizaje (que es el elemento básico de la inteligencia humana) desde un punto de vista psicológico, desarrollando una regla de como el aprendizaje ocurría. Aun hoy, este es el fundamento de la mayoría de las funciones de aprendizaje que pueden hallarse en una red neuronal. Su idea fue que el aprendizaje ocurría cuando ciertos cambios en una neurona eran activados. También intentó encontrar semejanzas entre el aprendizaje y la actividad nerviosa. Los trabajos de Hebb formaron las bases de la Teoría de las Redes Neuronales.

1950 - Karl Lashley. En sus series de ensayos, encontró que la información no era almacenada en forma centralizada en el cerebro sino que era distribuida encima de él.

1956 - Congreso de Dartmouth. Este Congreso frecuentemente se menciona para indicar el nacimiento de la inteligencia artificial.

1957 - Frank Rosenblatt. Comenzó el desarrollo del Perceptron. Esta es la red neuronal más antigua; utilizándose hoy en día para aplicación como identificador de patrones. Este modelo era capaz de generalizar, es decir, después de haber aprendido una serie de patrones podía reconocer otros similares, aunque no se le hubiesen presentado en el entrenamiento. Sin embargo, tenía una serie de limitaciones, por ejemplo, su incapacidad para resolver el problema de la función OR-exclusiva y, en general, era incapaz de clasificar clases no separables linealmente.

1959 - Frank Rosenblatt: Principios de Neurodinámica. En este libro confirmó que, bajo ciertas condiciones, el aprendizaje del Perceptron convergía hacia un estado finito (Teorema de Convergencia del Perceptron).

1960 - Bernard Widroff/Marcian Hoff. Desarrollaron el modelo Adaline (ADAptative LINear Elements). Esta fue la primera red neuronal aplicada a un problema real (filtros adaptativos para eliminar ecos en las líneas telefónicas) que se ha utilizado comercialmente durante varias décadas.

1961 - Karl Steinbeck: Die Lernmatrix. Red neuronal para simples realizaciones técnicas (memoria asociativa).

1969 - Marvin Minsky/Seymour Papert. En este año casi se produjo la “muerte abrupta” de las Redes Neuronales; ya que Minsky y Papert probaron (matemáticamente) que el Perceptrons no era capaz de resolver problemas relativamente fáciles, tales como 7 el aprendizaje de una función no-lineal. Esto demostró que el Perceptron era muy débil, dado que las funciones no-lineales son extensamente empleadas en computación y en los problemas del mundo real.

1974 - Paul Werbos. Desarrolló la idea básica del algoritmo de aprendizaje de propagación hacia atrás (backpropagation); cuyo significado quedó definitivamente aclarado en 1985.

7 Redes neuronales artificiales, Ed. Limusa Noriega, Carlos Alberto Ruíz, Marta Susana Basualdo, año 2004, pág. 6

9

Page 10:  · Web viewLa red neuronal artificial incluirá un nuevo planteamiento de la función de aptitud tradicionalmente empleada para resolver estos problemas, permitiendo obtener una

Protocolo de Investigación Héctor Paniagua Guerrero

1977 - Stephen Grossberg: Teoría de Resonancia Adaptada (TRA). La Teoría de Resonancia Adaptada es una arquitectura de red que se diferencia de todas las demás previamente inventadas. La misma simula otras habilidades del cerebro: memoria a largo y corto plazo.

1985 - John Hopfield. Provocó el renacimiento de las redes neuronales con su libro: “Computación neuronal de decisiones en problemas de optimización.”

1986 - David Rumelhart/G. Hinton. Redescubrieron el algoritmo de aprendizaje de propagación hacia atrás (backpropagation). A partir de 1986, el panorama fue alentador con respecto a las investigaciones y el desarrollo de las redes neuronales. En la actualidad, son numerosos los trabajos que se realizan y publican cada año, las aplicaciones nuevas que surgen (sobre todo en el área de control) y las empresas que lanzan al mercado productos nuevos, tanto hardware como software (sobre todo para simulación).

1.1.8 Ventajas de las redes neuronales artificiales8

Se ha comprobado que es una ciencia multidisciplinaria donde ingenieros, psicólogos, médicos, matemáticos y físicos teóricos han aportado algún elemento a estas teorías, pero, ¿por qué ese interés en esos sistemas?, ¿qué tienen en especial frente a otros que podríamos denominar clásicos?, ¿qué cosas nuevas nos ofrecen?.

Por tanto, se comenta que la potencia computacional de una red neuronal deriva, principalmente, de su estructura de cálculo distribuido paralelo. Esta estructura le permite la resolución de problemas que necesitarían gran cantidad de tiempo en ordenadores clásicos. Pero aparte de este hecho aparecen otras propiedades que le hacen especialmente atractivas para ser usadas en una gran cantidad de problemas prácticos.

a) Son sistemas distribuidos no lineales: Una neurona es un elemento no lineal por lo que una interconexión de ellas (red neuronal) también será dispositivo no lineal. Esta propiedad permitirá la simulación de sistemas no lineales y caóticos, simulación, que, con los sistemas lineales, no se puede realizar.

b) Son sistemas tolerantes o fallos: Una red neuronal, al ser un sistema distribuido, permite el fallo de algunos elementos individuales (neuronas) sin alterar significativamente la respuesta total del sistema. Este hecho las hace especialmente atractivas frente a las computadoras actuales que, por lo general, son sistemas secuenciales de tal forma que un fallo en uno de sus componentes conlleva que el sistema total no funcione.

c) Adaptabilidad: una red neuronal tiene la capacidad de modificar los parámetros de los que depende su funcionamiento de acuerdo con los cambios que se produzcan en su entorno de trabajo (cambios en las entradas, presencia de ruidos, etc.). Con respecto a la capacidad de adaptación hay que tener en cuenta que ésta no puede ser tampoco excesivamente grande ya que conduciría a tener un sistema inestable respondiendo a pequeñas perturbaciones. Este es el problema conocido como plasticidad-estabilidad.

d) Establecen relaciones no lineales entre datos: las redes neuronales son capaces de relacionar dos conjuntos de datos. Comparando con los métodos estadísticos clásicos que realizan la misma misión tienen como principal ventaja que lo datos no tienen por qué cumplir las condiciones de linealidad, gausianidad y estacionariedad.

8 Redes neuronales artificiales, Ed. Alfaomega, Antonio J. Serrano, Emilio Soria, José D. Martín , pág.14

10

Page 11:  · Web viewLa red neuronal artificial incluirá un nuevo planteamiento de la función de aptitud tradicionalmente empleada para resolver estos problemas, permitiendo obtener una

Protocolo de Investigación Héctor Paniagua Guerrero

e) Posibilidad de implementación: Esta posibilidad permite que estos sistemas puedan ser aplicados en sistemas de tiempo real, simulando sistemas biológicos mediante elementos de silicio.

Todas estas ventajas hacen el uso de las redes neuronales especialmente atractivo en un gran número de aplicaciones. Sin embargo antes de enunciar algunas (no todas) de estas aplicaciones pasaremos a describir los diferentes modelos conexionistas que podemos encontrar.

En el campo de las redes neuronales se conoce con el nombre de arquitectura la forma en que se unen los diferentes elementos, neuronas, mediante una serie de conexiones, pesos sinápticos. En principio podemos distinguir tres niveles, en cuanto a arquitectura se refiere, que los podemos definir como:

a. Microestructura: Este nivel hace referencia al elemento más pequeño que nos podemos encontrar en un modelo conexionista: La neurona. Este es el nivel más pequeño que nos podemos pero no por ello es el menos importante, aquí se fijan características tan importantes como la función de activación.

b. Mesoestructra: Una vez sobrepasado el nivel neuronal llegamos a este nivel donde se fija la forma de conexión y la disposición de los elementos explicados anteriormente.

c. Macreoestructura: Las diferentes redes planteadas en el nivel anterior se pueden combinar entre sí para dar estructuras mayores alcanzándose mejores prestaciones.

1.1.9 Introducción a las PYME’s9

1.1.10 La administración de las Pymes10.

En cada momento los administradores, los economistas y en general todas las personas que buscan obtener mejores resultados en la operación de las empresas se preocupan por idear nuevas técnicas administrativas que conduzcan a la obtención de mayores rendimientos, eficacia, calidad, y por supuesto, mayores unidades, por lo general estas técnicas se dirigen hacia empresas grandes, lo cual origina que no se preste la debida atención a las pequeñas y medianas empresas. Todo esto ocurre porque no se considera el hecho de que toda empresa alguna vez fue pequeña o mediana y también por subestimar o desconocer la ayuda que la Pyme proporciona a la sociedad, señalada en muchas formas en estadísticas.

Desgraciadamente, cada instante inician en todo el país cientos de pequeños negocios que luchan en la difícil prueba de su iniciación y subsistencia; muchos de ellos sucumben debido a la multitud de problemas y riesgos con que se encuentran, así como la falta de capacitación técnica y administrativa para resolverlos.

9 Redes neuronales artificiales, Ed.Alfaomega, Antonio J. Serrano, Emilio Soria, José D. Martín , pág.1410 Administración de Pequeñas y Medianas Empresas, Ed. Thomson 5ta Edición, Rodríguez Valencia Joaquín, 2007, pág.27-40

11

Page 12:  · Web viewLa red neuronal artificial incluirá un nuevo planteamiento de la función de aptitud tradicionalmente empleada para resolver estos problemas, permitiendo obtener una

Protocolo de Investigación Héctor Paniagua Guerrero

La pequeña y mediana empresa constituye, en la actualidad, el centro del sistema económico de nuestro país. El enorme crecimiento de la influencia actual de estas empresas se debe a la masificación de la sociedad, a la necesidad de concentrar grandes capitales y enormes recursos técnicos para el adecuado funcionamiento de la producción y servicios, así como el alto nivel de perfección logrado ya por muchas normas de dirección. Estas empresas lo investigan todo, lo planean y se someten a procedimientos y métodos exhaustivos y científicos.

Por tanto, las tareas directivas son cada vez más complejas y al mismo tiempo de gran trascendencia social, porque sus efectos se transmiten y multiplican en cadena en cualquier actividad de los pueblos.

1.1.11 La importancia de las Pymes11.

Las micro, pequeñas y medianas empresas (MIPYMES), tienen una gran importancia en la economía, en el empleo a nivel nacional y regional, tanto en los países industrializados como en los de menor grado de desarrollo. Las empresas MIPYMES representan a nivel mundial el segmento de la economía que aporta el mayor número de unidades económicas y personal ocupado; de ahí la relevancia que reviste este tipo de empresas y la necesidad de fortalecer su desempeño, al incidir éstas de manera fundamental en el comportamiento global de las economías nacionales; de hecho, en el contexto internacional se puede afirmar que el 90% o un porcentaje superior de las unidades económicas totales está conformado por las PYMES.

Los criterios para clasificar a la micro, pequeña y mediana empresa son diferentes en cada país, de manera tradicional se ha utilizado el número de trabajadores como criterio para estratificar los establecimientos por tamaño y como criterios complementarios, el total de ventas anuales, los ingresos y/o los activos fijos.

1.1.12 Características generales de las Pymes

De manera muy general todas las pequeñas y medianas empresas (Pymes) comparten casi siempre las mismas características, por lo tanto, se podría decir, que estas son las características generales con las que cuentan las Pymes

El capital es proporcionado por una o dos personas que establecen una sociedad. Los propios dueños dirigen la marcha de la empresa; su administración es empírica.

Su número de trabajadores empleados en el negocio crece y va de 16 hasta 250 personas. Utilizan más maquinaria y equipo, aunque se sigan basando más en el trabajo que en el capital.

Dominan y abastecen un mercado más amplio, aunque no necesariamente tiene que ser local o regional, ya que muchas veces llegan a producir para el mercado nacional e incluso para el mercado internacional.

11 Administración y Dirección, Ed. McGraw Hill, Díez de Castro Emilio Pablo, 2007, pág.20

12

Page 13:  · Web viewLa red neuronal artificial incluirá un nuevo planteamiento de la función de aptitud tradicionalmente empleada para resolver estos problemas, permitiendo obtener una

Protocolo de Investigación Héctor Paniagua Guerrero

Está en proceso de crecimiento, la pequeña tiende a ser mediana y está aspira a ser grande. Obtienen algunas ventajas fiscales por parte del Estado que algunas veces las considera causantes menores dependiendo de sus ventas y utilidades.

Su tamaño es pequeño o mediano en relación con las otras empresas que operan en el ramo.

1.1.12.1 Características generales y particulares de las empresas en México.

La definición de una empresa sin importar su tamaño, ni su lugar de origen, es igual en cualquier parte del mundo, ya que dentro de su definición, siempre gozará de los mismos componentes necesarios para que pueda decirse que es una empresa.

Por consiguiente se definirá a la empresa como:

“Una unidad económica de producción y decisión que, mediante la organización y coordinación de una serie de factores (capital y trabajo), persigue obtener un beneficio produciendo y comercializando productos o prestando servicios en el mercado”

Una vez ya definida a la empresa, podemos ampliarnos más en sus características, observando, la relación que posee con su definición.

Por tanto cualquier empresa contará con las siguientes características:

a) Cuentan con recursos humanos, de capital, técnicos y financieros.

b) Realizan actividades económicas referentes a la producción, distribución de bienes y servicios que satisfacen necesidades humanas.

c) Combinan factores de producción a través de los procesos de trabajo, de las relaciones técnicas y sociales de la producción.

d) Planean sus actividades de acuerdo a los objetivos que desean alcanzar.

e) Son una organización social muy importante que forman parte del ambiente económico y social de un país.

f) Son un instrumento muy importante del proceso de crecimiento y desarrollo económico y social.

13

Page 14:  · Web viewLa red neuronal artificial incluirá un nuevo planteamiento de la función de aptitud tradicionalmente empleada para resolver estos problemas, permitiendo obtener una

Protocolo de Investigación Héctor Paniagua Guerrero

g) Para sobrevivir debe de competir con otras empresas, lo que exige: modernización, racionalización y programación.

h) El modelo de desarrollo empresarial reposa sobre las nociones de riesgo, beneficio y mercado.

i) Es el lugar donde se desarrollan y combinan el capital y el trabajo, mediante la administración, coordinación e integración que es una función de la organización.

j) La competencia y la evolución industrial promueven el funcionamiento eficiente de la empresa.

k) Se encuentran influenciadas por todo lo que suceda en el medio ambiente natural, social, económico y político, al mismo tiempo que su actividad repercute en la propia dinámica social.

1.1.13 Entorno empresarial de las empresas familiares12.

Las empresas familiares son analizadas tomando en cuenta su importancia en México y el mundo, la participación e influencia de los accionistas, los miembros integrantes del consejo de administración y/o aquellos directivos que son representantes clave dentro de las compañías.

Por su parte, las definiciones y contextos de las empresas familiares, sus ventajas y limitaciones, así como la representación de modelos, las resoluciones de conflictos y los retos que enfrentan estas organizaciones son considerados para determinar y facilitar su gestión y desarrollo.

Hoy las empresas Pymes enfrentan el gran reto del cambio generacional para procurar la permanencia, continuidad y crecimiento de los negocios a través de estructuras y funciones familiares y empresariales.

A. Las empresas familiares en el mundo.

Las empresas familiares son importantes en las economías de primer mundo y en las economías emergentes. En términos generales, las empresas familiares a nivel global poseen dos características:

1. La participación de la familia en la prioridad de la empresa, es decir, el porcentaje de acciones que tiene en la empresa o en el grupo de empresas.

2. La participación de la familia en la administración de la empresa, es decir, cuando está involucrada en la dirección, gerencia u operación de la empresa familiar.

Atendiendo la primera característica, podemos darnos cuenta de que los patrones de propiedad en empresas familiares alrededor del mundo, representan un 30% de las veinte empresas más grandes listadas en la bolsa de cada país, siendo esto un reflejo de la importancia de estas organizaciones dentro de la economía global (Lopez de Silanes 2004).

El National Bureau of Economic Research, emitido en 2004 por la Universidad de Yale, índica que América Latina, Uruguay ocupa el primer lugar de empresas familiares con 78% de

12 Gobierno corporativo en la empresa familiar, Centro de excelencia en gobierno corporativo, Ed. Lid Editorial Mexicana, 2009, pág.18-30

14

Page 15:  · Web viewLa red neuronal artificial incluirá un nuevo planteamiento de la función de aptitud tradicionalmente empleada para resolver estos problemas, permitiendo obtener una

Protocolo de Investigación Héctor Paniagua Guerrero

propiedad familiar de acciones, seguido de México con 64%, Colombia con 63% en tercero, Brasil con 57% en cuarto y Perú con 56% en el quinto sitio. El criterio a considerar fue de tres accionistas de las más grandes empresas privadas.

En términos de operación, el porcentaje de administración familiar es de 95% en México y Estados Unidos, 62% en Argentina y 100% en Canadá. En Europa por ejemplo, Italia representa 100%, mientras que en Alemania y Bélgica significa 50% y en Austria 33%. En Asía, específicamente Hong Kong cuenta con 86% y Singapur con 67%.

Se concluye lo siguiente:

a) Las empresas familiares representan en promedio 34% del total de empresas.b) La administración de la empresa en manos de miembros de la familia el 71%.c) La propiedad de las empresas más importantes listadas en los mercados internacionales (en

manos de tres accionistas) representan en promedio 39% del total.

B. Las empresas familiares en México13

Las empresas pequeñas y medianas representan alrededor del 90% del total y, según analistas empresariales, 95% de estas compañías operan bajo una estructura familiar. También hay empresas grandes que operan bajo dicha estructura y se calcula que generan más del 50% del PIB.

Una de las contribuciones más importantes de la empresa familiar es la estabilidad del empleo. Por su naturaleza social, los trabajadores adquieren continuidad, afecto y confianza, los cual genera e impacta considerablemente en la creación de cadenas de valor de productos y servicios.

La empresa familiar aporta valores al desarrollo, a la generación de una sociedad más justa, a la estabilidad del empleo, a la responsabilidad hacia los trabajadores, al fomento a la superación y a la transmisión de principios y valores éticos de una generación a otra.

La definición de empresa familiar es el resultado de la fusión de dos sistemas: el familiar y el empresarial. Estos sistemas se superponen llegando a ser interdependientes (Steckerl 2005).

a) Clasificaciones del tamaño de las empresas PYME

Para este punto, se comparará las diferencias que hay en la definición del tamaño de la empresa, según su número de trabajadores que laboren en ella, tomando en cuenta las siguientes instituciones:

FALTA CUADRO???

1.1.14 Introducción a los riesgos empresariales14.

13 Administración de pequeñas empresas, Ed. McGraw Hill, Anzola Rojas Sérvulo, 2010, pág.28

14 Administración de Pequeñas y Medianas Empresas, Ed. Thomson 5ta Edición, Rodríguez Valencia Joaquín, 2007, pág.27-40

15

Page 16:  · Web viewLa red neuronal artificial incluirá un nuevo planteamiento de la función de aptitud tradicionalmente empleada para resolver estos problemas, permitiendo obtener una

Protocolo de Investigación Héctor Paniagua Guerrero

El tema de los riesgos empresariales ha ganado gran popularidad en los años recientes y su importancia se ha establecido de manera firme. En el ámbito internacional, la evolución de la disciplina ha sido vertiginosa debido a la experiencia derivada de las crisis empresariales y financieras que se registraron en los últimos 10 años.

1.1.14.1 Introducción a los riesgos

La necesidad de entender los riesgos y las oportunidades es ineludible cuando se trata de alcanzar el progreso de cualquier empresa. Proporcionarle dirección estratégica a un negocio, significa entender qué genera la creación de valor y qué la destruye. Esto alternativamente significa que la búsqueda de oportunidades debe exigir comprensión de los riesgos a tomar y de los riesgos a evitar. Por lo tanto, el crecimiento de cualquier negocio exige la evaluación del riesgo y la aceptación del riesgo implícito.

La capacidad de un negocio de prosperar al afrontar los riesgos, al mismo tiempo que responde a acontecimientos imprevistos, buenos o malos, es un indicador excelente de su capacidad para competir. Sin embargo, la exposición al riesgo es cada vez mayor, más compleja, diversa y dinámica. Esto se ha generado en gran parte por los rápidos cambios en la tecnología, la velocidad de la comunicación, la globalización de los negocios y las fluctuaciones en los tipos de cambio dentro de los mercados financieros.

Los negocios ahora operan en un entorno completamente diferente comparado con hace apenas 10 años. La fuente del riesgo también puede gestarse dentro de la organización mientras los negocios luchan por lograr su crecimiento. La adopción de estrategias de expansión, como las adquisiciones de empresas, las inversiones en nuevos mercados internacionales, las grandes reestructuraciones organizacionales, el outsourcing de los procesos clave, los grandes proyectos de inversión y el desarrollo de nuevos productos, se pueden convertir en elementos que aumentan la exposición al riesgo de un negocio.

Como consecuencia de la diversidad de riesgos, la gerencia requiere un acercamiento más profundo a la administración de riesgos. La mayoría de los accionistas y los organismos reguladores están requiriendo a las juntas directivas una administración de riesgos más comprensivos, rigurosos y sistemática. Las compañías que consideraban la administración de riesgos solo una cuestión de cumplimiento de los principios contables y legales, están aumentando bastante su exposición y eso provocará que reporten estados financieros afectados seriamente por los riesgos.

1.1.14.2 Riesgo y Oportunidad

No debería haber una preocupación por los inconvenientes de los riesgos. La administración de riesgo lo considera de doble dirección, teniendo en cuenta siempre que riesgo y rentabilidad son directamente proporcionales, así tanto los riesgos favorables (oportunidades) como los riesgos desfavorables (amenazas) están en el centro del crecimiento del negocio y de la creación de la riqueza.

Una vez que la junta directiva haya determinado su visión, su misión y los valores, debe establecer la estrategia corporativa y las políticas para transmitir la visión del negocio. El establecimiento de la estrategia está basado en el pensamiento estratégico. Definir la estrategia, es señalar la dirección que muestra el estilo de liderazgo para lograr los objetivos empresariales.

Sin embargo, cualquiera que sea la estrategia, la junta directiva debe decidir qué oportunidades, presentes y futuras, desea alcanzar y qué riesgos está dispuesta a tomar para desarrollar las oportunidades seleccionadas. La administración tanto de oportunidades debe recibir igual

16

Page 17:  · Web viewLa red neuronal artificial incluirá un nuevo planteamiento de la función de aptitud tradicionalmente empleada para resolver estos problemas, permitiendo obtener una

Protocolo de Investigación Héctor Paniagua Guerrero

atención y es importante que las juntas directivas seleccionen un balance correcto. Esto se ha expresado en una resolución de la National Audit Office como: “el enfoque de la administración de riesgos empresarial ofrece la posibilidad de lograr una equilibrio razonablemente juicioso y sistemáticamente discutido, entre los riesgos y las oportunidades, en forma que maneje las presiones contradictorias de emprender retos que representen mejores beneficios por un lado y limite las amenazas de los riesgos por la otro”. Exagerar en los inconvenientes de los riesgos y su manejo puede ser dañino para cualquier empresa. Knight y Perry señalan que la administración de riesgos pretende buscar los riesgos favorables u oportunidades, no solamente tratar de librarse de los riesgos que amenazan las fuentes de creación del valor y el potencial de la empresa. Cualquier procedimiento que intente librarse del riesgo completamente conducirá al menos a una decisión racional, que el no hacer nada. Los riesgos son importantes, pues todos los negocios hacen frente al riesgo de sus inicios, no son motivos para la acción sino restricciones en la acción. Por lo tanto, la gerencia trata de controlar los riesgos lo más lejos posible para permitirle al negocio maximizar sus oportunidades. El desarrollo de una política del riesgo debe ser una iniciativa creativa, exponiendo las oportunidades para el crecimiento del valor y el manejo innovador del riesgo, no es una tarea que deprima, llene de ambigüedades, de advertencias y de pesimismo. La administración de riesgo empresarial entonces es manejar de ambos, oportunidades y riesgos.

1.1.14.3 El concepto del riesgo.

Son múltiples las formas que se han dado a la definición del concepto de riesgo. Riesgo se puede definir como la incertidumbre que existe de que un hecho ocurra, durante un período y bajo condiciones determinadas, reportando pérdidas económicas. Se habla de riesgo tanto para crédito, como en operación, mercadeo, tasas de interés, productos, tanto para entidades de crédito como para seguros e industria.

Igualmente, el riesgo ha sido definido como la variación de los posibles réditos o resultados que existen en una situación económica dada. Además, riesgo es la variación de los resultados esperados bajo las condiciones dadas en un período de tiempo.

Se considera que las variaciones no necesariamente son en un resultado final, sino en el conjunto de variables intervinientes que afectan el resultado. Así mismo, el estudio de riesgo involucra el análisis de las consecuencias de la ocurrencia del evento, no sólo se limita a la medida sino a la protección, prevención, precaución en las actividades económicas y sociales.

De la misma forma los individuos se clasifican, según su actitud ante el riesgo, en neutrales, esto es, cuando mantienen constante su utilidad marginal; en tomadores de riesgo cuando la utilidad marginal crece, y en adversos al riesgo cuando la utilidad marginal decrece. En cada categoría se encuentran casos, como puede ser el de inversionistas que emprenden proyectos de riesgo por negocios nuevos, el cual es un caso de tomadores de riesgo, pero en el caso más generalizado se presenta aversión al riesgo. Se buscará reducir la posible variación de resultados esperados a cambio de un pago por cobertura, o adicionalmente por la posible administración de las variables que optimizan el proceso de selección y adopción del riesgo.

En forma adicional, la gestión de riesgo es un conjunto de metodologías estandarizadas, probadas en muchos mercados que también tienen su aplicación en diferentes niveles de desarrollo de los medios empresariales, a pesar de los escépticos.

Sin embargo, la gestión de riesgos no reemplazará nunca el buen sentido común; lo importante es preguntarse qué es un buen sentido común y cómo podría complementarse con la valoración óptima del riesgo.

17

Page 18:  · Web viewLa red neuronal artificial incluirá un nuevo planteamiento de la función de aptitud tradicionalmente empleada para resolver estos problemas, permitiendo obtener una

Protocolo de Investigación Héctor Paniagua Guerrero

Los mercados son independientes y en nada les afectan las opiniones ni los conocimientos de los expertos. La gestión de riesgo debe ser independiente y, por tanto, separada de las instancias que toman decisiones; en caso de conflicto debe primar el criterio del gestor de riesgos. (Los desaciertos impactan más en una organización que los aciertos).

Toda actividad está sometida a riesgo, los mayores crecimientos son en muchos casos posiciones a riesgo muy grandes, en casi todos los negocios. La actividad bancaria, por definición, es un negocio de administración y transformación de riesgos.

1.2 Planteamiento del problema

En este tema de investigación se desea observar la evolución, mejora y supervivencia a la gestión de riesgos de negocios, financieros y económicos que pudieran impactar: “Las redes neuronales artificiales aplicadas al riesgo de negocios de las PYME’s de servicios en la Ciudad de México”, por lo que se propone el desarrollo de un modelo con redes neuronales artificiales que sea capaz de ajustar y predecir la tendencia de los riesgos empresariales, que permita evaluar el desempeño y apoye a lograr la permanencia de la empresa; el crecimiento sustentable a través de la creación de valor; así como optimizar la reducción del riesgo empresarial, disminuir la incertidumbre en la toma de decisiones y que mejore la competitividad de la empresa en su mercado.

1.2.1 Preguntas de Investigación

1) Determinar si es posible que se logre que la compañía pueda crear valor en el mercado mediante la aplicación de una red neuronal artificial en la administración de riesgo de negocios.

2) Con la construcción de un modelo de redes neuronales artificiales para los riesgos de las empresas Pyme, ¿Se podrán controlar sus costos y gastos, disminuirá el riesgo empresarial, permitiendo elevar la posición financiera y competitiva del negocio?

3) ¿Con la implantación de un modelo de redes neuronales artificiales para los riesgos de las empresas Pyme, permitirá a la compañía crecer de manera sustentable y disminuir su incertidumbre?

1.3 Justificación de la Investigación

Se propone orientar la estrategia y el esfuerzo de las redes neuronales artificiales a la administración del riesgo corporativo en dirección a la maximización de valor de la empresa y de su rentabilidad. Por lo que las redes neuronales artificiales y la toma de decisiones aplicadas al riesgo de la empresa para disminuir su incertidumbre, se han convertido en una pieza central de la teoría de la misma, y en el eje de la vida de las sociedades mercantiles.

1.4 Objetivos de la Investigación

El objetivo general de esta investigación se centra en la creación de un modelo de administración del riesgo de negocios con redes neuronales artificiales aplicadas a las Pymes de servicios que se encuentran localizadas en la Ciudad de México, y que permita evaluar la competitividad y desempeño en un periodo mayor a 3 años, implantando análisis y evaluación de diagnósticos en periodos mensuales.

18

Page 19:  · Web viewLa red neuronal artificial incluirá un nuevo planteamiento de la función de aptitud tradicionalmente empleada para resolver estos problemas, permitiendo obtener una

Protocolo de Investigación Héctor Paniagua Guerrero

1.4.1 Objetivos específicos de la investigación

En el campo de la gestión financiera empresarial, las redes neuronales artificiales intentan resolver en forma eficiente problemas en la predicción de la bancarrota de una empresa, evaluación y predicción de su capacidad financiera, absorber un préstamo y con el fin de decidir el otorgamiento del mismo, el análisis y evaluación de los riesgos empresariales y la implementación de un simulacro de riesgos corporativos, así como la inferencia de reglas que indiquen las mejores decisiones sobre la asignación de recursos con base en información histórica de varios años. Obteniendo un diagnóstico con un modelo de alerta temprana que permita detectar una situación de riesgo empresarial.

1.5 Hipótesis de la Investigación

¿Cómo será la toma de decisiones bajo incertidumbre en cuanto a riesgos corporativos se refiere para empresas de servicios aplicando un modelo basado en redes neuronales artificiales que sea capaz de ajustar y predecir la tendencia de los riesgos, y que le permitan crear valor, crecer de manera sustentable, así como elevar su posición financiera y competitiva?

1.6 Alcance de la Investigación

Se pretende desarrollar un modelo con una red neuronal artificial a través del cual sea posible obtener una solución factible y satisfactoria al problema de la incertidumbre del riesgo empresarial. La red neuronal artificial incluirá un nuevo planteamiento de la función de aptitud tradicionalmente empleada para resolver estos problemas, permitiendo obtener una solución más ajustada a la realidad.

Esta plataforma constituirá una herramienta con un adecuado grado de funcionalidad, pues no solo presentará una sencilla forma de utilización, sino que permitirá abarcar una amplia gama de tareas relacionadas con el diseño e implementación de redes neuronales artificiales.

Se propone utilizar los métodos de redes neuronales artificiales que nos apoyen a tener una solución de problemas, utilizando creativos modelos de planteamiento de problemas para la industria de servicios.

Por lo que se propone realizar el desarrollo de modelo de red neuronal artificial, como una herramienta que cumpla los objetivos planteados tales como el observar gráficamente y entender mejor las soluciones generadas por la red, en otras palabras “decodificar” la información en diagramas e interpretarla.

Por consiguiente, se pretende aplicar el modelo de red neuronal artificial a una muestra de empresas mexicanas que se encuentren ubicadas como “Pequeñas y Medianas Empresas” del área de servicios en el área de la Ciudad de México. Y que dicho modelo de red neuronal artificial nos ayude a identificar, medir y monitorear la administración de riesgo empresarial y los modelos financieros del negocio; alineación de los riesgos, modelos y retornos de inversión, así como fortalecer el ambiente de control en la administración y reportes.

El periodo de diagnostico del programa de simulacro es de 3 años, revisando el comportamiento del modelo de red neuronal artificial en periodos mensuales, y si es posible de manera semanal.

19

Page 20:  · Web viewLa red neuronal artificial incluirá un nuevo planteamiento de la función de aptitud tradicionalmente empleada para resolver estos problemas, permitiendo obtener una

Protocolo de Investigación Héctor Paniagua Guerrero

5.15.25.35.45.55.65.7

1.7 Marco Teórico de la Investigación.

1.7.1 Definición de una Red Neuronales Artificial15

Las RNA se definen como sistemas de mapeos lineales cuya estructura se basa en principios observados en los sistemas nerviosos humanos y animales. Constan de un número grande de procesadores simples ligados por conexiones de pesos. Las unidades de procesamiento se denominan neuronas. Cada unidad recibe entradas de otros nodos y genera una salida simple escalar que depende que depende de la información local disponible, guardada internamente o que llega a través de las conexiones con pesos. Pueden realizarse muchas funciones complejas dependiendo de las conexiones.

Las neuronas artificiales simples fueron introducidas por McCulloch y Pitts en 1943. Una red neuronal se caracteriza por los siguientes elementos:

1. Un conjunto de unidades de procesamiento o neuronas.2. Un estado de activación para cada unidad, equivalente a la salida de la unidad.3. Conexiones entre las unidades, generalmente definidas por un peso que determina el

efecto de una señal de entrada en la unidad.4. Una regla de propagación, que determina la entrada efectiva de una unidad a partir de

las entradas externas.5. Una función de activación que actualiza el nuevo nivel de activación basándose en la

entrada efectiva y la activación anterior.6. Una entrada externa que corresponde a un término determinado como vías para cada unidad.

7. Un método para reunir la información, correspondiente a la regla de aprendizaje.8. Un ambiente en el que el sistema va a operar, con señales de entrada e incluso señales

de error.

En muchas redes las unidades de proceso tienen respuesta de la forma:

y=(∑k ωk xk )Donde:

xk : Señales de salida de otros nodos o entradas externas.ωk : Pesos de las ligas de conexión.f ( . ) : Función no lineal simple.

15Inteligencia artificial con aplicaciones a la Ingeniería, Pedro Ponce Cruz , Ed. Alfaomega, Año 2010. Páginas 198-202.

20

Page 21:  · Web viewLa red neuronal artificial incluirá un nuevo planteamiento de la función de aptitud tradicionalmente empleada para resolver estos problemas, permitiendo obtener una

Protocolo de Investigación Héctor Paniagua Guerrero

La funciónf puede ser sigmoidal, tangente hiperbólica, escalón, entre otras. Cada unidad de proceso tiene una tarea simple: recibe la entrada de otras unidades o de fuentes externas y procesa la información para obtener una salida que se propaga a otras unidades.

Una red puede tener una estructura arbitraria, pero las capas que contienen estas estructuras están definidas de acuerdo con su ubicación en la topología de la red neuronal. Las entradas externas son aplicadas en la primera capa, y las salidas se consideran la última capa. Las capas internas que no se consideran como capa porque no realizan procesamiento.

La entrada total “u” de una unidad “k” es la suma de los pesos de las entradas conectadas, más bien θ:

u=∑jω j x j+θ

Si el peso ω es positivo se habla de una excitación y si el peso es negativo se considera una inhibición de la entrada. Si consideramos a las entradas como funciones del tiempo, la expresión anterior se convierte en:

u(t )=∑jω j (t ) x j(t )+θ(t)

b) Funciones de activación

La regla que logra establecer el efecto de la entrada total u(t) en la activación de la unidad k se denomina función de activación (F k ) :

u(t+1)=F k ( y (t ) ,u( t))

En muchas ocasiones esta función es de la forma no decreciente respecto a la entrada total de la unidad:

u(t+1)=F k (∑j ω j ( t ) x j(t)+θ(t ))Algunas de las funciones de activación más usadas son las siguientes:

i. Función escalón.

La función de activación escalón se asocia a neuronas binarias en las cuales, cuando la suma de las entradas es mayor o igual que el umbral de la neurona, la activación es 1; si es menor la activación es 0 (o – 1).

21

Page 22:  · Web viewLa red neuronal artificial incluirá un nuevo planteamiento de la función de aptitud tradicionalmente empleada para resolver estos problemas, permitiendo obtener una

Protocolo de Investigación Héctor Paniagua Guerrero

F k ( x )={10 si x ≥0si x<0 }

F k ( x )={ 1−1

si x≥0si x<0}

ii. Función lineal mixta.

La función lineal mixta o identidad responde a la expresión F k (u )=u. En las neuronas con función mixta, si la suma de las señales de entrada es menor que un límite inferior, la función se define como 0 (o – 1). Si dicha suma es mayor o igual que el límite superior, entonces la activación es 1. Si la suma de entrada está comprendida entre ambos límites, superior e inferior, entonces la activación se define como una función lineal de la suma de las señales de entrada.

F k ( x )=x :

22

Y

X

1

1/2

0

Y

X

11/2

0

-1-1/2

Y

X

11/2

0

Y

X

11/2

0 C-C

Page 23:  · Web viewLa red neuronal artificial incluirá un nuevo planteamiento de la función de aptitud tradicionalmente empleada para resolver estos problemas, permitiendo obtener una

Protocolo de Investigación Héctor Paniagua Guerrero

F k ( x )={ 0 si x<−C1 si x>C

x2c

+12

enotrocaso }

F k ( x )={−1 si x<−C1 si x>Cax enotrocaso }

iii. Función tangente hiperbólica.

La función de activación tangente hiperbólica se emplea en los casos que presentan variaciones suaves de valores positivos y negativos de la señal a clasificar. Como se puede ver en su descripción es una de las funciones más empleadas en entrenamientos supervisados, como en el caso del entrenamiento de retropropagación del error.

Debe de tenerse cuidado de emplear esta figura entre los umbrales positivos y negativos antes de la saturación, de otra forma la salida siempre generará valores saturados iguales a 1 y -1.

23

Y

X

1

1/2

0 C-C

-1

-1/2

Y

X

1

1/2

0 C-C

-1

-1/2

Page 24:  · Web viewLa red neuronal artificial incluirá un nuevo planteamiento de la función de aptitud tradicionalmente empleada para resolver estos problemas, permitiendo obtener una

Protocolo de Investigación Héctor Paniagua Guerrero

F k (u )= eu−e−u

eu+e−u

iv. Función sigmoidal.

Con la función sigmoidal el valor dado por la función es cercano a uno de los valores asintóticos. Esto hace que en la mayoría de los casos, el valor de salida esté comprendido en la zona alta o baja del sigmoide. De hecho, cuando la pendiente es elevada, esta función tiende a la función escalón. Sin embargo, la importancia de la función sigmoidal es que su derivada siempre es positiva y cercana a cero para los valores grandes positivos o negativos; además, toma su valor máximo cuando x = 0. Esto hace que se puedan utilizar reglas de aprendizaje definidas para las funciones escalón, con la ventaja, respecto a esta función, de que la derivada está definida en todo intervalo.

F k (u )= 11+e−u

v. Función de Gauss.

Los mapeos ocultos algunas veces pueden realizarse con un solo nivel de neuronas mediante el uso de funciones de activación tipo Gauss, en lugar de funciones tipo sigmoidales.

F k ( X )= 1σ √2π

e( x

2

2σ2)

24

Y

X

1

1/2

0 b

Page 25:  · Web viewLa red neuronal artificial incluirá un nuevo planteamiento de la función de aptitud tradicionalmente empleada para resolver estos problemas, permitiendo obtener una

Protocolo de Investigación Héctor Paniagua Guerrero

c) Topologías de las redes neuronales

Dos de las topologías más usadas, de acuerdo con las diferencias en la manera de realizar las conexiones, son:

a. Redes de propagación hacia adelante (feed-forward): el flujo de información de las entradas a las salidas es exclusivamente hacia adelante, extendiéndose por capas múltiples de unidades, pero no hay ninguna conexión de retroalimentación.

b. Redes recurrentes: contienen conexiones de retroalimentación, lo que puede derivarse en un proceso de evolución hacia un estado estable en le que no haya cambios en el estado de activación de las neuronas.

d) Elementos de una red neuronal artificial

Una RNA consta de un conjunto de elementos de procesamiento conectados entre sí y entre los que se envían información a través de conexiones. Un esquema básico de una red neuronal artificial se observa en la siguiente figura, la cual presenta las diferentes capas que tiene esta topología, que es una estructura que se conoce con el nombre de feed-forward (hacia adelante) debida al flujo de la información.

Esquema básico de una RNA

Los elementos básicos de una RNA son:

Conjunto de unidades de procesamiento (neuronas). Conexiones entre unidades (asociado a cada conexión un peso o valor) Funciones de salida o activación para cada unidad de procesamiento

El modelo de la neurona y la arquitectura de la red describen cómo esta última transforma sus entradas y salidas. Los elementos individuales de cálculo que forman la mayoría de los modelos de sistemas neuronas artificiales, se conocen como neuronas artificiales.

1.7.2 Entrenamiento de las Redes Neuronales16

16Inteligencia artificial con aplicaciones a la Ingeniería, Pedro Ponce Cruz, Ed. Alfaomega, Año 2010. Páginas 203.

25

EntradasCapas deentradas

Capas ocultas

Capas de salidas

Riesgo alto

Riesgo bajo

Historia médica

Edad

Ocupación

Tipo de vida

Page 26:  · Web viewLa red neuronal artificial incluirá un nuevo planteamiento de la función de aptitud tradicionalmente empleada para resolver estos problemas, permitiendo obtener una

Protocolo de Investigación Héctor Paniagua Guerrero

Se denomina entrenamiento al proceso de configuración de una red neuronal para que las entradas produzcan las salidas deseadas a través del fortalecimiento de las conexiones. Una forma de llevar esto a cabo es a partir del establecimiento de pesos conocidos con anterioridad, y otro método implica el uso de técnicas de retroalimentación y patrones de aprendizaje que cambian los pesos hasta encontrar los adecuados.

Además, el aprendizaje puede dividirse en supervisado o asociado y no supervisado o auto-organizado. En el primer caso se introducen entradas que corresponden a determinadas salidas, ya sea por un agente externo o por el mismo sistema. En el segundo caso el entrenamiento se enfoca a encontrar características estadísticas entre agrupamientos de patrones en las entradas.

Un tipo de regla que se usa para el entrenamiento mediante el ajuste de pesos es la Hebbiana, propuesta por Hebb en 1949 y que ha dado pie a diversas variantes propuestas en el transcurso del tiempo. Si dos unidades j y k están activas al mismo tiempo, la conexión entre las dos debe de ser fortalecida mediante la modificación del peso

Δω jk=γ y j yk

Donde γ es una constante de proporcionalidad positiva que representa la tasa de aprendizaje.

Otra regla usada comúnmente implica el ajuste de los pesos a través de la diferencia entre la activación actual y la deseada; se le conoce como regla Delta:

Δω jk=γ y j(dk− yk) .Donde dk es la activación deseada.

1.7.2.1 Proceso de entrenamiento o aprendizaje.

Como se menciono, las RNA reciben unos datos de entrada que se transforman para producir una salida con el objeto de clasificarlos o ajustar una función. La justificación teórica para este tipo de aplicaciones es que, suponiendo que la red tenga un número suficiente de neuronas, podrá ajustar cualquier función continua con una cierta precisión con tan solo escoger los valores adecuados para los parámetros ajustables de dicha red. Estos parámetros son; en general, los pesos sinápticos y son, por tanto, el medio que la red emplea para almacenar sus conocimientos sobre el problema a resolver.

Este conocimiento se almacena en la RNA a través de un proceso de aprendizaje o entrenamiento, que no es más que la modificación de los parámetros de la RNA mediante un conocimiento preestablecido, al objeto de conseguir una mejora en su rendimiento. Como el proceso de aprendizaje humano, el de las RNA está basado en el uso de ejemplos que representan el problema. A este conjunto se le conoce como conjunto de entrenamiento. Es importante recalcar que el objetivo del aprendizaje no es memorizar las relaciones entrada/salida que hay en el conjunto de entrenamiento, sino modelar el proceso que ha generado estos datos para ello es conveniente que el número y tipo de ejemplos disponibles para el entrenamiento de la red sean suficientemente representativo de la relación que desea aprender. De este modo, una vez entrenada, la red será capaz de manejar no solo los datos de entrenamiento, sino nuevos datos distintos de los primeros, sin que por ello se degrade su rendimiento. Esto se conoce como la capacidad de generalización de la red.

En función de cómo este constituido el conjunto de entrenamiento se distinguen básicamente dos tipos de aprendizaje: supervisado y no supervisado. En el aprendizaje supervisado se parte de

26

Page 27:  · Web viewLa red neuronal artificial incluirá un nuevo planteamiento de la función de aptitud tradicionalmente empleada para resolver estos problemas, permitiendo obtener una

Protocolo de Investigación Héctor Paniagua Guerrero

una serie de observaciones o entradas y unas salidas deseadas que la red debería de obtener, y el objetivo es aprender la correspondencia entre ambas. Es decir, el conjunto de entrenamiento estará compuesto por pares de la forma:

X={¿

Donde “x” es el vector de entradas, “t ” el de salidas deseadas y “N ” es el tamaño del conjunto de entrenamiento. La aproximación que se sigue es partir del modelo genérico f (∙) que representa la red, totalmente definido excepto por una serie de parámetros o pesos “w”, y con él producir una buena aproximación a “t ”.

y=f ( x|w ¿

Donde “y” representa la salida proporcionada por la red. El algoritmo de aprendizaje optimizará los parámetros de manera que la salida producida por el modelo sea los más parecida posible a la del conjunto de entrenamiento. Es decir, se trata de encontrar el conjunto de parámetros w ¿ que minimiza el error “E” que, en cada paso del aprendizaje, indique lo cerca que está de la solución.

De nuevo existe una serie de funciones de error que, por sus características, se utilizan más frecuentemente. Todas ellas toman la forma de una suma del error que, para cada ejemplo “n” de aprendizaje, mide la diferencia entre la salida t n que se debería haber obtenido. La forma de medir dicho error dependerá del tipo de problema que se intente resolver. Así, si se trata de un problema de regresión, la salida de la red es una variable continua y la función de error más utilizada es el “Error Cuadrático Medio” (en adelante EMC):

E= 1N∑

n=1

N

( yn−tn)2.

El uso de esta función permitirá que las salidas reales de la red modelen la función de distribución media de las salidas deseadas utilizadas durante el entrenamiento.

Por otro lado, si hablamos de problemas de clasificación, la salida de la red no será única sino que deberá de estar formada por tantas neuronas como clase posibles “C”, y la salida deseada estará codificada como un vector t=(t1 , t2 ,…,tC ) de valores binarios (0,1) en el que solo el bit correspondiente a la clase adecuada tomará el valor 1. En este caso, el objetivo a conseguir que las salidas de la red modelen las probabilidades de pertenencia de las entradas a alguna de las clases consideradas. Para conseguirlo, en esta situación resulta más adecuado utilizar la función de entropía cruzada, cuya ecuación es:

E=∑n=1

N

∑k=1

C

( ykn)t k

n

Donde ykn es la salida de la neurona “k” para el ejemplo de entrenamiento “n”. La diferencia

fundamental respecto al ECM es que, en este caso, no se valorará tanto la diferencia exacta entre el valor deseado t k

n para cada neurona “k” de salida y el obtenido ykn, sino que el resultado

de la clasificación sea el correcto. Es decir, que la neurona que representa la clase correcta sea la que obtenga el mayor de activación a su salida.

27

Page 28:  · Web viewLa red neuronal artificial incluirá un nuevo planteamiento de la función de aptitud tradicionalmente empleada para resolver estos problemas, permitiendo obtener una

Protocolo de Investigación Héctor Paniagua Guerrero

Por otro lado, el tipo de problema y la función de error utilizada están muy ligados al tipo de función de activación empleada en las neuronas de salida. En el caso de problemas de clasificación, lo ideal es obtener valores discretos en las neuronas de salida (p.e., (0,1)) y que además, éstas se pueden interpretar como probabilidades para lo que, en conjunto, la suma de todas ellas deberá estar en el intervalo [0,1]. Con este fin, es recomendable utilizar la función sigmoidea.

F k (u )= 11+e−u

Otra forma alternativa de entrenamiento es el aprendizaje no supervisado. En este caso, en el conjunto de entrenamiento los datos de entrada “x” no vienen acompañados de una salida deseada, y el objetivo no es encontrar un mapeo entrada/salida, sino que encontrar patrones que definan regularidades subyacentes en x. Además estos patrones ocurren con distintas frecuencias y la red deberá de encontrar una estimación de la distribución de probabilidad de x, y en otros el objetivo será inferir las clases existentes en las que agrupar los ejemplos de entrada que presenten similitudes.

1.7.3 Redes Neuronales Supervisadas17

Algunos de los modelos re redes neuronales más populares son: en primer lugar; son la clase de redes unidireccionales organizadas en capas (feed-forward) y con aprendizaje supervisado, que son empleadas como clasificadores de patrones y estimadores de funciones. Estos modelos en la literatura son denominados “mapping neural networks”, o redes neuronales para representación (ajuste) funcional.

Dentro de este grupo de redes se analizará al “Perceptrón simple, Adalina y Perceptrón multicapa”. El popular algoritmo de aprendizaje llamado retro propagación (backpropagation, BP), y se aplica precisamente al último modelo. El perceptrón multicapa con aprendizaje BP (o alguna de sus variantes) es el modelo neuronal más empleado en las aplicaciones prácticas (se estima que el 70% de los desarrollos con redes neuronales hacen uso de sus variantes.

1.7.3.1 Redes Unidireccionales

Muchos problemas del mundo real pueden interpretarse desde el punto de vista de la estimación o aproximación funcional, en el sentido de tratar de encontrar la función que a partir de un conjunto de entradas proporciona la salida deseada. Por ejemplo, si queremos desarrollar un reconocedor de caracteres manuscritos el objetivo será encontrar un sistema que implemente la función que asocia la imagen de una determinada letra o carácter escrito con la clase que pertenece.

Otro caso es el de la predicción de cotizaciones bursátiles, en el que mediante una red neuronal se trataría de encontrar la función que relaciona diversas variables de entrada (cotizaciones previas, tipos de interés, inflación, etc.) con la actual cotización en bolsa de una determinada entidad o empresa.

1.7.3.2 El Asociador Lineal: Aprendizaje Hebbiano

Este modelo, mediante una transformación lineal, asocia un conjunto de patrones de entrada a otros de salida. En este sentido, el Asociador Lineal consta únicamente de una capa de neuronas lineales, cuyas entradas las denotamos por “x” y sus salidas por “y”, vector que

17 Redes neuronales y sistemas borrosos, Ed. Alfaomega, Bonifacio Martín del Brío, Alfredo Sanz Molina, pág.42.

28

Page 29:  · Web viewLa red neuronal artificial incluirá un nuevo planteamiento de la función de aptitud tradicionalmente empleada para resolver estos problemas, permitiendo obtener una

Protocolo de Investigación Héctor Paniagua Guerrero

constituye además la respuesta a la red neuronal. Asimismo, denotaremos W={w ij} a la matriz de pesos sinápticos; cada fila de W contiene los pesos de una neurona wi .

Asociador lineal (función de activación identidad)

W=(w1 ,w2 ,…,wm)T

La operación del asociador lineal es simplemente:

y=W X

O bien,

y1=∑j=1

n

wij , x j

Por tanto, cada neurona “i” del asociador lineal lleva a cabo la suma ponderada de las entradas con sus pesos sinápticos. Es decir, dentro del marco de neurona estándar se calcula el potencial sináptico por medio de la convencional suma ponderada, cantidad a la que aplica finalmente una función de activación tipo identidad.

El asociador deberá de aprender a asociar “p” pares de entrada-salida, {(xμ , t μ)/1≤μ≤ p }, ajustando sus pesos “W” de modo que ante un cierto patrón de entrada xμ responda con tμ, y que ante entradas similares, (xμ+ε), responda con salidas también próximas (t μ+δ ), (con ε y δ cantidades pequeñas). El problema se centra en encontrar la matriz de pesos W óptima en el sentido descrito. Para ello, en el campo de las redes neuronales normalmente se hace uso de una regla de aprendizaje, que a partir de las entradas y de las salidas deseadas (en el caso de aprendizaje supervisado), proporcione el conjunto óptimo de pesos W.

1.7.3.3 El Perceptrón Simple

Este modelo neuronal fue introducido por Rosenblatt a finales de los años cincuenta. La estructura del perceptrón se inspira en las primeras etapas de procesamiento de los sistemas sensoriales de los animales (ejemplo, el de la visión), en los cuales la información va atravesando sucesivas capas de neuronas, que realizan un procesamiento progresivamente de más alto nivel.

29

Capas deentradas

Capas desalidas

f(x)

X

Page 30:  · Web viewLa red neuronal artificial incluirá un nuevo planteamiento de la función de aptitud tradicionalmente empleada para resolver estos problemas, permitiendo obtener una

Protocolo de Investigación Héctor Paniagua Guerrero

El Perceptrón simple es un modelo unidireccional, compuesto por dos capas de neuronas, una sensorial o de entradas, y otra de salida. La operación de una red de este tipo, con “n” neuronas de entrada y “m” de salida, se puede expresar como:

y i ( t )=f (∑j=1

n

wij x j−θi) ,∀i ,1≤ i≤m

Perceptrón simple y función de transferencia de su neurona

Las neuronas de entrada no realizan ningún cómputo, únicamente envían la información (en principio consideraremos señales directas discretas {0, +1}) a las neuronas de salida (en el modo de entrada estas neuronas de entrada representaban información ya procesada, no datos directamente procedentes del exterior). La función de activación de las neuronas de la capa de salida es de tipo escalón. Así, la operación de un perceptrón simple puede escribirse:

y i=H (∑j=1

n

wij x j−θi) ,∀ i ,1≤ i≤m

Con “H” (.) la función de Heaviside o escalón. El perceptrón puede utilizarse tanto como clasificador, como para la representación de funciones booleanas, pues su neurona es esencialmente de tipo “MacCulloch-Pitts, de salida binaria. La importancia histórica del perceptrón radica en su carácter de dispositivo entrenable, pues el algoritmo de aprendizaje del modelo introducido por Rosenblatt, permite determinar automáticamente los pesos sinápticos que clasifican un conjunto de patrones a partir de un conjunto de ejemplos etiquetados.

Un perceptrón permite realizar tareas de clasificación. Cada neurona del perceptrón representa una determinada clase, de modo que dado un vector de entrada, una cierta neurona responde con “0” si no pertenece a la clase que representa, y con un 1 si sí pertenece. Es fácil ver que una neurona tipo perceptrón solamente permite discriminar entre dos clases “linealmente separables” (es decir, cuyas regiones de decisión pueden ser separadas mediante una única condición lineal o hiperplano). Sea una neurona tipo perceptrón de dos entradas, x1 y x2, con salida y, cuya operación se define, por tanto:

30

f (x)

x

Page 31:  · Web viewLa red neuronal artificial incluirá un nuevo planteamiento de la función de aptitud tradicionalmente empleada para resolver estos problemas, permitiendo obtener una

Protocolo de Investigación Héctor Paniagua Guerrero

Regiones de decisión en el plano

y i=H (∑j=1

n

wij x j−θi)O bien

y=¿0 , siw1 x1 +w2x2<θ1 ,si w1x1+w2 x2≥ θ¿

Si consideramos x1 y x2 situadas sobre los ejes de abscisas y ordenadas en el plano, la condición:

w1 x1+w2 x2−θ=0→x2=−w1

w2x1+

θw2

Representa una recta (hiperplano, si trabajamos con “n” entradas) que divide el plano (espacio) en dos regiones, aquéllas para las que la neurona proporciona una salida “0” o “1”, respectivamente (como la figura de arriba). Luego, efectivamente, una neurona tipo perceptrón representa un discriminador lineal, al implementar una condición lineal que separa dos regiones en el espacio, que representa dos diferentes clases de patrones.

1.7.3.4 El algoritmo de aprendizaje del Perceptrón18

La importancia del perceptrón radica en su carácter de dispositivo entrenable, pues el algoritmo de aprendizaje introducido por Rosenblatt permite que el perceptrón determine automáticamente los pesos sinápticos que clasifican un determinado conjunto de patrones etiquetados.

El del perceptrón es un algoritmo de aprendizaje de los denominados por “corrección de errores”. Los algoritmos de este tipo (en el que incluiremos también el de la adalina y el BP) ajustan los pesos en proporción a la diferencia existente entre la salida actual de la red y la salida deseada, con el objetivo de minimizar el error actual de la red.

La regla de aprendizaje. Sea un conjunto de “p” patrones xμ, μ=1,…,p, con sus salidas deseadas tμ. Tanto las entradas como las salidas solo pueden tomar los valores -1 o 1 (o bien, 0 o 1, según

18Inteligencia artificial, técnicas métodos y aplicaciones, J. Palma y R. Martín, Ed. MacGraw Hill, Año 2008. Páginas 430.

31

x xx

xxx

xx

xxx x

xx xxx

xRegión

Región

X1

X2

o ->’0’x ->’1’

oo o

o

o

o

oo o

o

o

o

oo o

o

o

o

oo o

o

o

ooo o

o

o

o

Page 32:  · Web viewLa red neuronal artificial incluirá un nuevo planteamiento de la función de aptitud tradicionalmente empleada para resolver estos problemas, permitiendo obtener una

Protocolo de Investigación Héctor Paniagua Guerrero

definamos los niveles lógicos). Se tiene una arquitectura de perceptrón simple, con pesos iniciales del conjunto de aprendizaje (lo cual es posible solamente si son separables linealmente).

Por lo que actuaremos del siguiente modo, ante la presentación del patrón μ-ésimo, si la respuesta que proporciona el perceptrón es correcta, no actualizaremos los pesos; si es incorrecta, los modificaremos según la regla de Hebb se tiene:

∆ wijμ (t)=¿0 , si y i

μ=t iμ

2 ε tiμx j

μ , si yiμ≠ti

μ

¿

Que se puede rescribir del siguiente modo:

∆ wijμ (t )=ε .( tiμ− y i

μ )x jμ

Que es la forma habitual de expresar la regla del perceptrón. En su utilización práctica, se debe llegar a un compromiso para el valor del ritmo de aprendizaje ε , puesto que un valor pequeño implica un aprendizaje lento, mientras que uno excesivamente grande puede conducir a oscilaciones en el entrenamiento, al introducir variaciones en los pesos excesivamente amplias. Al ser las entradas y las salidas discretas {-1, +1}, también lo será la actualización de los pesos (2.21), que únicamente podrá tomar los valores 0 o ±2ε .

Una forma mucho más gráfica de introducir la regla del perceptrón es la siguiente. Sea la neurona i tipo perceptrón {-1, +1}, cuyo vector de pesos es w i. Se presenta el patrón de entrada

xμ, la salida objetivo de la neurona i ante este patrón es t iμ. La operación de la neurona la

escribimos como

y iμ (t )=signo(∑j=1

n

w ij x jμ−θi)=signo (wi . x

μ )=signo (∥wi ∥ .∥ xμ∥cos (∅ ) )

Considerando el umbral como un peso adicional de entrada -1 (véase el capítulo 1), y siendo ∅ el ángulo que forman los vectores de pesos y entradas. La hipersuperficie w i . xμ=0 establece la condición lineal que separa el espacio en dos regiones, etiquetadas por -1 y + 1, respectivamente. En el proceso de aprendizaje, ante la presentación del patrón μ-ésimo en la iteración t pueden darse los siguientes casos:

a) La salida objetivo de la neurona es t iμ=+1, pero su salida actual es y i

μ=-1.

En este caso, el producto escalar w i . xμdebería ser positivo, pero es negativo, lo cual indica

que el ángulo existente entre w i y xμ es mayor de 90° (∅∈ [π /2,3 π /2 ], Figura 2.6). Así, la

regla de aprendizaje del perceptrón debería en este caso acercar w i a xμ para reducir el

ángulo que forman, y eventualmente conseguir que sea inferior a 90° (w i . xμ>¿¿0), lo cual se puede realizar del siguiente modo (véase la Figura 2.6a)

w iμ ( t+1 )=w i

μ ( t )+α . x μ

32

Page 33:  · Web viewLa red neuronal artificial incluirá un nuevo planteamiento de la función de aptitud tradicionalmente empleada para resolver estos problemas, permitiendo obtener una

Protocolo de Investigación Héctor Paniagua Guerrero

b) La salida objetivo de la neurona es t iμ=-1, pero su salida actual es t i

μ=+1. Razonando al revés que en el caso anterior, la regla de aprendizaje deberá alejar w i de wμ, por lo tanto en este caso (figura 2.6b)

w iμ (t+1 )=w i

μ ( t )−α . xμ

c) La salida objetivo de la neurona t iμ coincide con su salida actual y i

μ. En este caso la regla de aprendizaje no actúa.

Figuras pag. 54 figura 2.6.

Figura 2.7 Regiones de decisión que establece iterativamente el perceptrón durante el aprendizaje (en la iteracción 115 ha conseguido separar ya las dos clases)

Es fácil comprobar que los tres casos se resumen en la siguiente regla:

w i ( t+1 )=wi (t )+(∝/2 ) . xμ (t iμ− y iμ )

Y llamando ε ≡α /2 , se tiene

∆ wi (t )=ε . x μ(tiμ− y i

μ)

Que es la regla del perceptrón (2.21) ya conocida.

Es importante remarcar que el proceso de aprendizaje es iterativo: se parte de una configuración sináptica de partida (de pesos pequeños alaetorios, habitualmente), y se presentan otra vez los patrones, para que los pesos se ajusten iterativamente según (2.21), hasta que todos queden bien clasificados. El hiperplano que establece el límite entre dos clases se desplaza lentamente hasta conseguir separarlas por completo (sin ello es posible), como se puede apreciar en la Figura 2.7. El ajuste de los pesos en la iteración t debido a todo el conjunto de aprendizaje será

w ij (t+1 )=w ij (t )+∑μ=1

p

∆ wijμ (t)

Rosenblatt demostró que si la función a representar es linealmente separable, este algoritmo siempre converge en un tiempo finito y con independencia de los pesos de partida. Por otra parte, si la función no es linealmente separable, el proceso de entrenamiento oscilará. Una prueba de la convergencia del algoritmo puede encontrarse. Por otro lado, el algoritmo del perceptrón se detiene tan pronto como consigue clasificar correctamente todos los ejemplos, por lo que con frecuencia la línea de discriminación queda muy cerca de las muestras de uno de los grupos (en la Figura 2.7 ha quedado cerca de los patrones ´0´). Para obtener una discriminación óptima (en medio de ambos grupos) se han introducido algoritmos como el denominado Adatron.

1.7.3.5 Adalina (Widrow, 1961)

Otro de los modelos clásicos es la Adalina (Adaline), introducida por Widrow en 1959, cuyo nombre proviene de Adaptive Linear Neuron. Este modelo utiliza una neurona similar a la del

33

Page 34:  · Web viewLa red neuronal artificial incluirá un nuevo planteamiento de la función de aptitud tradicionalmente empleada para resolver estos problemas, permitiendo obtener una

Protocolo de Investigación Héctor Paniagua Guerrero

perceptrón, pero de respuesta lineal (figura 2.8), cuyas entradas pueden ser continuas. Por otra parte, a diferencia del nodo del asociador lineal, el de la adalina incorpora un parámetro adicional denominado bias, que traduciremos como umbral, aunque tenerse en cuenta que no se trata de un umbral de disparo como el del perceptrón, sino de un parámetro que proporciona un grado de libertad adicional 7. De este modo, la ecuación de la adalina queda

Pag. 55 figura 2.8

y i (t )=∑i=1

n

wij x j−¿θi,∀i ,1≤i≤ m¿

No obstante, la diferencia más importante con el perceptrón y con el asociador lineal reside en la regla de aprendizaje que implementa. En la adalina se utiliza la regla d Windrow-Hoff, también conocida como regla LMS (Least Mean Squares, mínimos cuadrados), que conduce a actualizaciones de tipo continuo, siendo la actualización de los pesos proporcional al error que la neurona comete.

Este ANS es un modelo muy conocido y ampliamente utilizado, aunque en ocasiones se hace más referencia a su carácter de dispositivo adaptativo lineal que a su naturaleza neuronal. La adalina se viene utilizando con asiduidad desde los años sesenta como filtro adaptativo, por ejemplo, para cancelar el ruido en la transmisión de comunicaciones telefónicas por satélite: para el interesado en profundizar en el tema, una interesante introducción al tratamiento de señal con la adalina se expone en. De este modo, y desde hace años, millones de módems en todo el mundo incluyen una adalina.

Su utilidad se ve limitada por tratarse de un sistema lineal. Así, solamente podrá separar correctamente patrones linealmente independientes, fallando en ocasiones ante patrones linealmente separables, que el perceptrón siempre discrimina. No obstante, ante patrones no separables linelamente, los resultados que proporciona son en promedio mejores que los del perceptrón], pues la adalina siempre opera reduciendo el error cuadrático medio al mínimo posible.

1.7.3.6 El Perceptrón Multicapa

Si añadimos capas intermedias (ocultas) a un perceptrón simple, obtendremos un perceptrón multicapa o MLP (Multi-Layer Perceptrón). Esta arquitectura suele entrenarse mediante el algoritmo denominado retropropagación de errores o BP, o bien haciendo uso de alguna de sus variantes o derivados, motivo por el que en muchas ocasiones el conjunto arquitectura MLP + aprendizaje BP suele denominarse red de retropropagación, o simplemente BP.

Como se describe en el proceso de desarrollo del BP resulta una curiosa historia de redescubrimientos y olvidos. Al parecer, fue Werbos quien introdujo por primera vez el BP en su tesis doctoral en 1974, pero el hecho no tuvo demasiada repercusión en la época. Años más tarde, hacia 1984, el BP fue redescubierto por D. Parker, y casi a la vez (1985) por el grupo de PDP quienes realmente lo popularizaron. Además, existe un procedimiento matemático recursivo empleado en control, de apariencia similar al BP, que data de 1969.

Pese a todo, el mérito del éxito de BP se debe al trabajo del grupo PDP, que lo presentaron a la comunidad internacional como una técnica útil de resolución de problemas complejos, lo que despertó el interés, no solo por el perceptrón, sino por el campo de la neurocomputación en general. Los importantes requisitos de cómputo que el algoritmo BP precisa no podían ser satisfechos con los medios disponibles a principios de los setenta, por lo que el primer

34

Page 35:  · Web viewLa red neuronal artificial incluirá un nuevo planteamiento de la función de aptitud tradicionalmente empleada para resolver estos problemas, permitiendo obtener una

Protocolo de Investigación Héctor Paniagua Guerrero

descubrimiento del BP era quizás algo prematuro. Por fin en los años ochenta los computadores eran suficientemente potentes como para permitir la aplicación del BP a problemas de interés, lo cual permitió que el grupo PDP pudiera mostrar su gran potencial de aplicabilidad a la resolución de tareas complejas.

La estructura del MLP se presenta en las Figuras 2.10 y 2.11 Denominaremos x i a las entradas de la red, t kserán las salidas objetivo (target). Por otro lado,w ij son los pesos de la capa oculta y θ jsus umbrales, w kj

´ los pesos de la capa de salida y θk' sus umbrales. La operación de un MLP

con una capa oculta y neuronas de salida lineal (estructura que constituye, como veremos, un aproximador universal de funciones) se expresa matemáticamente de la siguiente manera:

zk=¿∑jw ' kj y j−θi=¿∑

jw ´kjƒ (∑i wij x i−θj )−θi

´ ¿¿

Siendo ƒ (.) de tipo sigmoideo (Figura 2.10), como por ejemplo, las siguientes:

ƒ ( x )= 11+e−x

ƒ ( x )= ex−e− x

ex +e−x =tanh (x )

Proporcionando la primera una salida en el intervalo [0,+1] la segunda.

Ésta es la arquitectura más común de MLP, aunque existen numerosas variantes, como incluir neuronas no lineales en la capa de salida (del mismo tipo que las (2.47), solición que se adopta especialmente en problemas de clasificación), introducir más capas ocultas, emplear otras funciones de activación, limitar el número de conexiones entre una neurona y las de la capa siguiente, introducir dependencias temporales o arquitecturas recurrentes [Werbos 90], etc.

1.7.3.7 EL MLP como aproximador universal de funciones

El desarrollo del MLP durante los últimos treinta años ha resultado curioso. Partiendo de un perceptrón monocapa y observando sus limitaciones computacionales, se llegó a la arquitectura perceptrón multicapa, y aplicándolo a numerosos problemas, se comprobó experimentalmente que éste era capaz de representar complejos mappings y de abordar problemas de clasificación de gran envergadura, de una manera eficaz y relativamente simple. Sin embargo, faltaba una demostración teórica que permitiese explicar sus aparentemente enormes capacidades computacionales.

Este proceso histórico comienza con McCulloch y Pitts, quienes mostraron que mediante su modelo de neurona (esencialmente un dispositivo de umbral) podría representarse cualquier función booleana; mucho más tarde, Denker y otros demostraron que toda función booleana podía ser representada por una red unidireccional multicapa de una sola capa oculta. Por las mismas fechas, Lippmann mostró que un perceptrón con dos capas ocultas bastaba para representar regiones de decisión arbitrariamente complejas.

Por otra parte, Lapedes y Farber demostraron que un perceptrón de dos capas ocultas es suficiente para representar cualquier función arbitraria (no necesariamente boolena). Más tarde, Hecht-Nielsen aplicando el teorema de Kolmogrov demostró que una arquitectura de características similares al MLP, con una única capa oculta, resultaba ser un aproximador universal de funciones. Por fin, a finales de la década, diverso grupos propusieron casi a la par teoremas muy similares que demostraban matemáticamente que un MLP convencional, de una

35

Page 36:  · Web viewLa red neuronal artificial incluirá un nuevo planteamiento de la función de aptitud tradicionalmente empleada para resolver estos problemas, permitiendo obtener una

Protocolo de Investigación Héctor Paniagua Guerrero

única capa oculta (ecuación 2.46), constituía, en efecto, un aproximador universal de funciones. A título de ejemplo, enunciaremos uno de estos teoremas.

Teorema [Funahashi 89]. Sea ƒ(x) una función no constante, acotada y monótona creciente. Sea K un subconjunto compacto (acotado y cerrado) de Rn. Sea un número real ε∈R, y sean un entero k∈ z , tal que k ≥3 , que fijamos. En estas condiciones, se tiene que:

Cualquier mapping g : x∈K→ (g1 ( x ) , g2 (x ) ,…,gm (x ) )∈Rm, con gi ( x ) sumables en K, puede

ser aproximado en el sentido de la topología L2 en K por el mapping entrada-salida representado por una red neuronal unidireccional (MLP) de k capas (k-2 ocultas), con ƒ(x) como función de transferencia d las neuronas ocultas, y funciones lineales para las de las capas de entrada y de salida. En otras palabras:

∀ ε>0 ,∃ MLP de las características anteriores, que implementa el mapping

g' : x∈K→( g'1 ( x ), g'2 ( x ) ,…, g'm( x))∈Rm

De manera que

d L2 (K ) (g ,g' )=(∑i=1

m

∫K|gi ( x1 ,…, xn )−g i

' (x1 ,…, xn )|dx)1/2<ε

Es más fácil observar que las funciones sigmoideas empleadas habitualmente en el MLP (ecuación (2.47)) cumplen las condiciones exigidas a ƒ(x). Hornik llega a un resultado similar, considerando funciones de activación sigmoideas, no necesariamente continuas.

En resumen, un MLP de una única capa oculta puede aproximar hasta el nivel deseado cualquier función continua en un intervalo8 , por lo tanto, las redes neuronales multicapa unidireccionales son aproximadores universales de funciones. A partir de la expresión que define la operación de este tipo de red.

gk' ( x )=∑

jw ' kj y j−θ ' i=∑

jw ' kjƒ(∑i w ' ij x i−θ j)−θi'

Podemos observar que la g’(x) dada por el MLP representa una cierta función g(x), como un desarrollo en funciones sigmoideas ƒ(x ), lo cual posee una clara analogía con la representación convenciónal de una función periódica como un desarrollo en serie de Fourier de sinusoides. También se han establecido paralelismos entre el MLP y otros tipos de transformaciones, como la de Gabor o las wavelets.

Los teoremas citados resultan de vital importancia, puesto que proporcionan una sólida base teórica al campo de las redes neuronales, al incidir sobre un aspecto (la aproximación funcional) y un modelo (el MLP) centrales en la teoría de las redes neuronales artificiales. No obstante, todavía quedan muchos asuntos abiertos. Por ejemplo, estos teoremas no informan sobre el número de nodos ocultos necesarios para aproximar una función determinada, simplemente se afirma que hay que colocar lo necesario para lograr el nivel de aproximación requerido. Para un problema concreto, muy bien pudiera ocurrir que el número de neuronas ocultas para alcanzar una cierta cota de error sea tan elevado que su aplicación resulte inabordable en la práctica.

Una solución al problema de entrenar los nodos de las capas ocultas de las arquitecturas multicapa la proporciona el algoritmo de retropropagación de errores o BP (back-propagation).

36

Page 37:  · Web viewLa red neuronal artificial incluirá un nuevo planteamiento de la función de aptitud tradicionalmente empleada para resolver estos problemas, permitiendo obtener una

Protocolo de Investigación Héctor Paniagua Guerrero

En el marco conceptual que estamos describiendo la deducción del BP aparece como una consecuencia natural de extender el algoritmo LMS a las redes multicapa. Para ello, se planteará un funcional de error similar al (2.43), y se derivará, no sólo en función de los pesos de la capa de salida, sino también en función de los pesos de las neuronas ocultas, haciendo uso de la regla de la cadena; en consecuencia, habrá que exigir que las funciones de transferencia de las neuronas sean derivables.

Sean un MLP de tres capas, cuya arquitectura se presenta en la Figura 2.11, con las entradas, salidas pesos y umbrales de las neuronas definidas en la sección anterior. Dado un patrón de entada xμ,(μ=1,…, p¿ , recordemos que la operación global de esta arquitectura se expresa del siguiente modo:

Dibujo pag. 66

zkμ=g (∑ w' kj y j

μ−θk' )=g(∑j w 'kjƒ(∑

iw ji x i

μ−θ j)−θk' )g(.) es la función de activación de las neuronas de salida y ƒ(.) la de las ocultas. Ambas pueden ser sigmoideas (2.47), aunque a menudo la función de las neuronas de salida g(.) se considera la identidad (2.46) De nuevo partimos del error cuadrático medio como función costo.

E (w ji,θ j ,w ' kj ,θk' )=1

2∑μ ∑k [ t kμ−g (∑j w ' kj y j

μ−θk' )] 2

Cuya minimización se lleva a cabo mediante descenso por el gradiente; en esta ocasión habrá un gradiente respecto de los pesos de la capa de salida (w kj

' ) y otro respecto de los de la oculta

(w¿¿ ji)¿ Las expresiones de actualización de los pesos se obtienen derivando teniendo en cuenta las dependencias funcionales y aplicando la regla de la cadena

δwkj' =ε∑

μ∆k' μ y j

μ , con ∆k' μ=[ tkμ−g (hk' μ )] ∂g (hk' μ )

∂hk' μ yhk

' μ=∑ wkj' y j

μ−θk'

δwkj' =−ε ∂E

∂w kj' δw ji=−ε ∂ E

∂w ji

hk' μ y h j

μ son los potenciales postsinápticos (o locales). La actualización de los bias (o umbrales) se realiza haciendo uso de las expresiones anteriores, considerando que el bias es un caso particular de peso sináptico, cuya entrada es una constante igual a -1, como vimos ya en el caso de adaline (sección 2.4.1).

En estas expresiones está implícito el concepto de propagación hacia atrás de los errores (backpropagation) que da nombre al algoritmo. En primer lugar se calcula la expresión ∆k

' μ (2.54), que denominaremos señal de error, por ser proporcional al error de la salida actual de la red, con el que calculamos la actualización δwkj

' de los pesos de las sinapsis, proporcionando así las

37

Page 38:  · Web viewLa red neuronal artificial incluirá un nuevo planteamiento de la función de aptitud tradicionalmente empleada para resolver estos problemas, permitiendo obtener una

Protocolo de Investigación Héctor Paniagua Guerrero

señales de errores ∆ jμ (2.55), correspondientes a las sinapsis de la capa oculta; con éstas se

calcula la actualización δw jide las sinapsis ocultas. El algoritmo puede extenderse fácilmente a arquitecturas con más de una capa oculta siguiendo el mismo esquema.

En resumen, el procedimiento a seguir para entrenar mediante BP una arquitectura MLP dada es el siguiente:

1) Establecer aleatoriamente los pesos y umbrales iniciales (t:=0).2) Para cada patrón μ del conjunto de aprendizaje:

2.1) Llevar a cabo una fase de ejecución para obtener la respuesta de la red ante el patrón μ−ésimo (2.51).2.2) Calcular las señales de error asociadas ∆k

' μ y ∆ jμ según (2.54-55)).

3) Calcular el incremento total (para todos los patrones) actual de los pesos δwkj y' δw ji según (2.54-

55). Hacer lo mismo para los umbrales. 4) Actualizar pesos y umbrales. 5) Calcular el error actual (2.52), t:= t+1, y volver a 2) si todavía no es satisfactorio.

Se debe comenzar siempre con pesos iniciales aleatorios (normalmente números pequeños, positivos y negativos), ya que si se parte de pesos y umbrales iniciales nulos el aprendizaje no progresará (puesto que las salidas de las neuronas y el incremento en los pesos serán siempre nulos). En la siguiente sección se explicará una heurística que permite elegir unos pesos iniciales adecuados.

En el esquema presentado, que surge de forma natural del proceso de descenso por le gradiente, se lleva a cabo una fase de ejecución para todos y cada uno de los patrones del conjunto de entrenamiento, se calcula la variación en los pesos debida a cada patrón, se acumulan, y solamente entonces se procede a la actualización de los pesos.

Este esquema se suele denominar aprendizaje por lotes (batch). Otra posibilidad consiste en actualizar los pesos sinápticos tras la presentación de cada patrón μ (en vez de presentarlos todos y luego actualizar), esquema denominado aprendizaje en serie (on line). Recientemente se ha demostrado que el aprendizaje en serie estima mejor el gradiente, permite emplear ritmos de entrenamiento mayores y suele ser más rápido (hasta varios órdenes de magnitud). El modo serie es habitualmente empleado en aquellos problemas en los que se dispone de extensos conjuntos de patrones de aprendizaje. Si se emplease en este caso el modo por lotes, el tener que procesar todos los patrones antes de actualizar los pesos demoraría considerablemente el entrenamiento (además de precisar el almacenamiento de numerosos resultados parciales).

Es importante considerar que en el aprendizaje en serie el orden en la presentación de los patrones debe ser aleatorio, puesto que si siempre se siguiese un mismo orden el entrenamiento estaría viciado a favor del último patrón del conjunto de entrenamiento, cuya actualización, por ser la última, siempre predominaría sobre las anteriores. Además, esta aleatoriedad presenta una importante ventaja, puesto que en ocasiones permite escapar de mínimos locales alcanzándose mínimos del error más profundos.

El algoritmo BP constituye un método de gran generalidad, lo que presenta ventajas e inconvenientes. Su ventaja principal es que se puede aplicar a multitud de problemas diferentes, proporcionando con frecuencia buenas soluciones con no demasiado tiempo de desarrollo. No obstante, si se requiere una solución realmente excelente, habrá que dedicar más tiempo al desarrollo del sistema neuronal, teniendo en cuenta diferentes cuestiones adicionales que todavía no hemos abordado (partir de una arquitectura óptima, selección de los pesos iniciales,

38

Page 39:  · Web viewLa red neuronal artificial incluirá un nuevo planteamiento de la función de aptitud tradicionalmente empleada para resolver estos problemas, permitiendo obtener una

Protocolo de Investigación Héctor Paniagua Guerrero

estilo de aprendizaje, preprocesamiento de los datos de entrada, conjunto de patrones de aprendizaje empleado, utilización de técnicas que eviten el sobreajuste, etc.).

Un inconveniente del BP es su lentitud de convergencia, precio a pagar por disponer de un método general de ajuste funcional que no requiere (en principio) información apriorística. Sin embargo, se debe tener en cuenta que el BP no requiere tanto esfuerzo computacional como el que sería necesario si se tratasen de obtener los pesos de la red mediante la evaluación directa de las derivadas; en ese sentido se ha comparado el BP con la transformada rápida de Fourier, que permite calcular la transformada de Fourier con un muy inferior esfuerzo computacional.

Otro problema del BP es que puede incurrir en el denominado sobre aprendizaje (sobreajuste), fenómeno directamente relacionado con la capacidad de generalización de la red a partir de los ejemplos presentados, y sobre el que profundizaremos en la próxima sección. Po otra parte, debe tenerse en cuenta que el algoritmo BP no garantiza alcanzar el mínimo global de la función error, tan sólo un mínimo local, por lo que el proceso de aprendizaje puede estancarse en uno de estos mínimos locales.

1.7.4 Redes Neuronales NO Supervisadas19

1.7.4.1 Redes autoorganizables20

1.7.4.2 Modelo de mapas autoorganizados (Kohonen, 1982)21

1.7.5 Riesgo empresarial22.

a) El riesgo empresarial, es el determinante individual más importante de la estructura de capital. El riesgo empresarial varia de una industria a otra, además del riesgo básico corporativo puede cambiar a lo largo del tiempo. Las compañías pequeñas, principalmente las que se dedican a un solo producto, tienen también un grado de riesgo relativamente alto.

a. El riesgo empresarial depende de diversos factores, los más importantes incluyen lo siguiente:

i. Variabilidad de las ventas (volumen y precios). Mientras más estables sean las ventas unitarias (volumen) y los precios de los productos de una empresa, si todo lo demás se mantiene constante, más bajo será su riesgo de negocio.

ii. Variabilidad del precio de los insumos. Una empresa que opera en una industria, en la que los precios de los insumos (mano de obra, costos de los productos, etc.) sean altamente inciertos, se encuentra expuesta a un alto grado de riesgo de negocio.

iii. Capacidad para ajustar los precios. De los productos ante los cambios observados en los precios de los insumos. Algunas empresas tienen pocos problemas para aumentar los precios de sus productos cuando los costos de los insumos aumentan. Así mientras más grande sea la capacidad para ajustar los precios de venta, más bajo será el riesgo de negocio. Este factor es especialmente importante durante los periodos de alta inflación.

19 Redes neuronales y sistemas borrosos, Ed. Alfaomega, Bonifacio Martín del Brío, Alfredo Sanz Molina, pág.85.20 Inteligencia artificial con aplicaciones a la Ingeniería, Pedro Ponce Cruz, Ed. Alfaomega, Año 2010. Páginas 236.21 Redes neuronales y sistemas borrosos, Ed. Alfaomega, Bonifacio Martín del Brío, Alfredo Sanz Molina, pág.88.22 Scott Besley y Eugene F. Brighamm Fundamentos de administración financiera, Mc Graw Hill, 2008, págs. 523, 524, 525

39

Page 40:  · Web viewLa red neuronal artificial incluirá un nuevo planteamiento de la función de aptitud tradicionalmente empleada para resolver estos problemas, permitiendo obtener una

Protocolo de Investigación Héctor Paniagua Guerrero

iv. Rigidez de los costos. Si un alto porcentaje de los costos operativos son fijos y no disminuyen cuando la demanda se contrae, aumenta el riesgo de negocio de la empresa. Este factor, recibe el nombre de apalancamiento operativo.1) Cada uno de estos está determinado parcialmente por las características de la industria

de la empresa. Pero pueden ser controlados hasta cierto punto por la administración.

b) El riesgo financiero. Resulta de uso del apalancamiento financiero, el cual existe cuando una empresa utiliza valores de renta fija, tales como deudas y acciones preferentes, para obtener recursos de capital. Cuando recurre al apalancamiento financiero, una empresa intensifica el riesgo del negocio que corren los accionistas comunes. Por tanto, el empleo de deudas intensifica el riesgo corporativo asumido por los accionistas comunes. Nuestro objetivo es determinar la estructura de capital que maximice el valor de la empresa, la cual se conoce como la estructura de capital fijada como meta.

c) Administración de riesgo empresarial23. Administrar el riesgo es administrar el negocio, ya que el riesgo es inherente en toda la organización. La naturaleza y extensión de los riesgos que se asumen dependen de los objetivos del negocio y la forma como se responde a esos riesgos al intentar mitigarlos.

En este sentido, es importante apoyar a las empresas en el proceso de evaluación del grado de alienación o balance entre los objetivos de crecimiento y retorno del negocio versus los riesgos relacionados, cubriendo:

Objetivos de los negocios. Factores críticos de éxito para el logro de los objetivos. Definición de los principales roles y responsabilidades. Los riesgos empresariales que podrían afectar la obtención de objetivos. Índices de medición de riesgo corporativo. Implantación de procesos de negocios que soporten sus operaciones. Definición de estrategias en respuesta al riesgo para minimizarlo. Evaluación de mejores prácticas financieras y de riesgos para el crecimiento sustentable

y creación de valor. Evaluación de estrategias de mejores prácticas en respuestas a los modelos financieros

y que respondan a la administración del riesgo. Aceptación de la cultura al riesgo. Plan de implementación de modelos financieros y de la administración al riesgo.

a. La administración de riesgos, que incluyen las siguientes capacidades: Alinear el riesgo empresarial aceptado y la estrategia seleccionada. Mejorar la respuesta a los riesgos corporativos. Reducir las sorpresas y pérdidas operativas aplicando los modelos financieros. Identificar y administrar modelos financieros y la diversidad de riesgos para la entidad. Desarrollar y tomar las oportunidades de negocio. Mejorar la rentabilidad al capital de la empresa.

1.23 De Lara Haro Alfonso, Medición y control de riesgos financieros, Ed. Limusa, 2008, págs. 11-20

40

Page 41:  · Web viewLa red neuronal artificial incluirá un nuevo planteamiento de la función de aptitud tradicionalmente empleada para resolver estos problemas, permitiendo obtener una

Protocolo de Investigación Héctor Paniagua Guerrero

1.11.1.1

1.1.1.11.1.1.2

d) Evaluación de riesgos: Es la identificación y análisis de los riesgos relevantes para el logro de los objetivos de la organización. Cualquier entidad enfrenta una variedad de riesgos de fuentes externas e internas que deben ser valorados para determinar cómo deben ser administrados: evitarlos, aceptarlos, compartirlos o transferirlos a terceros.

Las corporaciones existen con el fin de generar valor para sus grupos de interés. El reto para la corporación es definir qué nivel de incertidumbre se puede aceptar mientras se

incrementa el valor. La incertidumbre conlleva riesgos y genera oportunidades; además de poseer el potencial de

reducir o aumentar el valor de la empresa. Se busca la maximización de valor cuando la dirección establezca una estrategia y objetivos

para encontrar un equilibrio entre los objetivos del riesgo empresarial y su competitividad.

1.8.2 Marco de Referencia.

El enorme éxito que han tenido los algoritmos evolutivos en la solución de problemas del mundo real de gran complejidad. De tal forma, es de esperarse que en los años siguientes el uso de este tipo de técnicas prolifere aún más. Nótese, sin embargo, que es importante tener en mente que los algoritmos evolutivos son técnicas heurísticas.

Por tanto, no garantizan que convergerán al óptimo de un problema dado, aunque en la práctica suelen aproximar razonablemente bien el óptimo de un problema en un tiempo promedio considerablemente menor que los algoritmos deterministas.

Algunas aplicaciones de los Algoritmos Genéticos24 son las siguientes:

a) Optimización (estructural, de topologías, numérica, combinatoria, etc.)b) Aprendizaje de máquina (sistemas clasificadores)c) Bases de datos (optimización de consultas)d) Reconocimiento de patrones (por ejemplo, imágenes o letras)e) Generación de gramáticas (regulares, libres de contexto, etc.)f) Predicción

1.1.1

1.7.6 Ventajas de las técnicas evolutivas en riesgos empresariales.

Es importante destacar las diversas ventajas que presenta el uso de técnicas evolutivas para resolver problemas de búsqueda y optimización:

a) Simplicidad Conceptual.b) Amplia aplicabilidad.c) Superiores a las técnicas tradicionales en muchos problemas del mundo real.d) Tienen el potencial para incorporar conocimiento sobre el dominio y para integrarse con otras técnicas de búsqueda/optimización.e) Pueden explotar fácilmente las arquitecturas en paralelo.f) Son robustas a los cambios dinámicos.

24 Algoritmos genéticos y computación evolutiva Adam Marczyk 2006, pág. 54,55, 56

41

Page 42:  · Web viewLa red neuronal artificial incluirá un nuevo planteamiento de la función de aptitud tradicionalmente empleada para resolver estos problemas, permitiendo obtener una

Protocolo de Investigación Héctor Paniagua Guerrero

1.8 Metodología de la investigación

Los tipos de investigación que se están considerando para el presente proyecto están basados en una mezcla de investigación exploratoria y descriptiva25 y más que considerar una clasificación, constituye un continuo de “causalidad” del alcance que se puede tener. Con esta reflexión importante, la estrategia de la investigación, así como el diseño, los procedimientos y otros componentes de los procesos serán distintos.

En este sentido, se propone desarrollar un simulacro de administración de riesgo empresarial sobre modelos multivariables dinámicos construidos a partir de redes neuronales artificiales, para predecir el signo de las variaciones semanales de los índices corporativos. Los resultados estarán siendo evaluados con modelos AR, MA, ARIMA, series de tiempo, regresión lineal y múltiple,26 y un modelo multivariable construido en forma aleatoria. Los mejores modelos producidos por las redes neuronales artificiales arrojaron un porcentaje de predicción de signo.

Para cada paso se obtendrá una probabilidad y una estadística, obteniéndose al final una traza de la ejecución de la red neuronal artificial, y que coopera también con dichas resultados a un nivel más detallado. Permitiendo evaluar el desempeño propuesto.

La administración de riesgo empresarial. El administrar el riesgo es administrar el negocio, ya que el riesgo es inherente en toda la organización. Por lo que la naturaleza y la extensión del riesgo que se asume dependen de los objetivos del negocio y la forma de como se responde a esos riesgos al intentar mitigarlos.

Se pondrá énfasis en la aplicación de modelo como una herramienta de administración de riesgo empresarial así como la econometría expondrá conceptos y conocimientos de procesos estocásticos, probabilidad e inferencia estadística para la estimación y análisis de los modelos econométricos.

1.9 Aportaciones

La principal aportación es demostrar que el modelo propuesto basado en redes neuronales artificiales aplicado a los riesgos del negocio es capaz de obtener mejores aproximaciones tanto en el ajuste como en el pronóstico, y que además nos permita observar que la aproximación generada por medio de la metodología nos ayuda para la aplicación de las redes neuronales artificiales en la predicción de variables económicas financieras. Así como también realizar un análisis comparativo del modelo propuesto y utilizado como referencia para determinar qué modelo proporciona los mejores resultados.

A. Teórica, (aportación del conocimiento). Por ejemplo: para el crecimiento exponencial de los riesgos corporativos en la sociedad moderna que tiene sus proyecciones en el ámbito económico. La volatilidad macroeconómica y financiera, el incremento de la competencia, la fluctuación de la moneda nacional, la crisis energética, así como tantos otros peligros e incertidumbres que se producen en el mundo empresarial y financiero, y una creciente percepción de los riesgos a los que se enfrentan.

25 Hernández Sampieri Roberto, Metodología de la Investigación, Ed. Mc Graw Hill, 2006, Pág. 100-101

26 Dernodar N. Gujarati, Econometría, Ed. Mc Graw Hill, 2006, Pág. 100-101

42

Page 43:  · Web viewLa red neuronal artificial incluirá un nuevo planteamiento de la función de aptitud tradicionalmente empleada para resolver estos problemas, permitiendo obtener una

Protocolo de Investigación Héctor Paniagua Guerrero

B. Metodológica. Los motivos básicos por los cuales se elabora esta investigación son: Para efectos de poseer un instrumento de consulta y análisis que permita llevar a cabo una evaluación técnica del valor determinado para la empresa, y asentar por escrito todas las consideraciones, supuestos, fundamentos, premisas y criterios técnicos empleados en el riesgo corporativo.

C. Práctica. Hoy en día las empresas buscan en la práctica generar valor, y al valuar una empresa se deben de tomar en cuenta tanto los recursos tangibles como los intangibles. Existen varios motivos para llevar a cabo la valuación de empresas tales como; ingresos de nuevos socios, retiro de accionistas, fusiones, adquisiciones, emisión de capital, co-inversiones, etc. Por tanto es importante considerar algunos de los factores que determinan el valor de una empresa tales como; competitividad, inteligencia, talento, creatividad, edad, salud, cultura, historia, presencia física, presencia de mercado, etc. Asimismo, algunos de los factores por los que las empresas adquieren valor son por; sus utilidades, sus flujos de efectivo, la configuración de sus activos, la estructura de sus pasivos, su productividad financiera, su rentabilidad, su efectividad, la certeza de ventas futuras, su administración, su marca y su baja incertidumbre al riesgo.

43

Page 44:  · Web viewLa red neuronal artificial incluirá un nuevo planteamiento de la función de aptitud tradicionalmente empleada para resolver estos problemas, permitiendo obtener una

Protocolo de Investigación Héctor Paniagua Guerrero

1.10 Índice tentativo

2.0 Fuentes de información disponible

1. Introducción a la teoría general de la administración, Ed. McGraw Hill, Chiavenato Idalberto.

2. Administración contemporánea, Ed. McGraw Hill, Gareth R. Jones, Jennifer M. George, 2007.

3. Administración de Pequeñas y Medianas Empresas, Ed. Thomson 5ta Edición, Rodríguez Valencia Joaquín, 2007.

4. Administración y Dirección, Ed. McGraw Hill, Díez de Castro Emilio Pablo, 2007.5. Micro, pequeña, mediana y gran empresa, estratificación de los establecimientos,

Censos Económicos, INEGI, 2004.6. Administración de pequeñas empresas, Ed. McGraw Hill, Anzola Rojas Sérvulo, 2010.7. Fundamentos de admón. financiera, Scott Besley y Eugene F. Brighamm, Mc Graw Hill,

2008.8. Fundamentos de administración financiera, Van Horne James C., Pearson Prentice Hall,

2002.9. Finanzas corporativas, Berk Jonathan y Demarzo Peter, Pearson Addison Wesley, 2008.10. Fundamentos de inversiones, Gordon Alexander, William F. Sharpe, Bailey, Ed. Prentice

Hill, tercera edición, año 2007.11. Introducción a los mercados de futuros y opciones, John C. Hull, Ed. Prentice Hall, 6ª

Edición, año 2009.12. En busca del valor, G. Bennett Stewart, III, Ed. Gestión 200613. Valuación de empresas y creación de valor, UNAM, PriceWaterHouse, IMEF, Ed. L.

Ingramex, 2003. 14. La gestión del riesgo operacional, Ana Fernández Laviada, Ed. Limusa, 201015. Medición y control de riesgos financieros, De Lara Haro Alfonso, Ed. Limusa, 2008.16. Valor en Riesgo, Philippe Jorion, Ed. Limusa, 2008.17. Indicadores del fracaso en las empresas mexicanas, Dr. Rubén Martín Mosqueda, Ed.

IMEF18. Riesgos financieros y económicos, Venegas Martínez Francisco, Ed. Cengage Learning,

2008.19. Estadística Matemática con aplicaciones, Dennis D. Wackerly, William Mendenhall III,

Richard L. Scheaffer, Ed. Cengage Learning, 7ª Eición, año 2008. 20. Introducción a la probabilidad y estadística, Mendenhall William, Ed. Cengage Learning,

2006.21. Estadística p/admón. y economía, Levin, Rubin, Balderas, Pearson Prentice Hall, 2007.22. Investigación de operaciones en la ciencia administrativa, G.D. Eppen, F.J. Gould, C.P.

Schimdt, Ed. Prentice Hall, Quinta edición, 200523. Métodos cuantitativos para los negocios, Anderson Sweeney Williams Camm Martin, Ed.

Cengage Learning, 11ª, edición, 201024. Toma de decisiones a través de métodos cuantitativos “un enfoque algorítmico”, Mojica

Palacios José Ignacio, Ed. Trillas, 200225. Introducción al algebra lineal, Howard Anton, Ed. Limusa, 4ª edición, 2008

44

Page 45:  · Web viewLa red neuronal artificial incluirá un nuevo planteamiento de la función de aptitud tradicionalmente empleada para resolver estos problemas, permitiendo obtener una

Protocolo de Investigación Héctor Paniagua Guerrero

26. Algebra, Ximena Carreño Campos, Ximena Cruz Schmidt, 1ª edición, 200327. Cálculo diferencial para ingeniería, Prado, Santiago, Gómez, Quezada, Zúñiga, Ed.

Prentice Hill, primera edición, 2006.28. Precálculo funciones y gráficas, Raymond A. Barnett, Michael R. Ziegler, Karl E. Byleen,

Ed. Mc Graw Hill, año 200729. Econometría, Dernodar N. Gujarati, Ed. Mc Graw Hill, 2006.30. Econometría con aplicaciones, Eduardo Loria, Ed. Prentice Hall, 1ª edición, 200731. Pronósticos, series de tiempo y regresión, Bruce L. Bpwerman, Richard T. O’Conell,

Anne B- Koehler, Ed. Thompson, 4ª edición, 2007.32. Técnicas de análisis multivariante de datos, César Pérez, Ed. Prentice Hall, 2007.33. Análisis estadístico y pronóstico de series de tiempo económicas, Ed. Orión Impresiones,

3ª edición, 2009. 34. Pronósticos en los negocios, Hanke John E. y Wichern Dean W., Pearson Prentice Hall,

2007.35. Inteligencia artificial, José T. Palma Méndez y Roque Marín Morales, Ed. McGraw Hill,

200836. Redes neuronales, Tatiana Baidyk y Ernst Kussul, Ed. Itaca, 2009.37. Redes neuronales, James A. Anderson, Ed. Alfaomega, 2007.38. Redes neuronales y sistemas borrosos, Bonifacio Martín del Brío y Alfredo Sanz Molina,

Ed. Alfaomega, 3ª edición, 200739. Inteligencia artificial con aplicaciones a la ingeniería, Dr. Pedro Ponce Cruz, Ed.

Alfaomega, 2010 40. Inteligencia artificial en la gestión financiera empresarial, Universidad del Atlántico

(Colombia). Especialista en Finanzas, Universidad del Norte (Colombia)María Del Carmen Sosa Sierra

41. O'Leary, D.E. (1995): "Artificial intelligence in business", AI/ES Section of the American Accounting Association, (en Internet, http://www.rutgers.edu/ accounting /raw/aaa/aiet).

42. CINVESTAV-IPN (Grupo de Computación Evolutiva), Santana Quintero, Luis Vicente Departamento de Computación. Diciembre de 2006.

43. Simulación y análisis de sistemas, García Dunna Eduardo, Pearson Prentice Hall, 200444. Hernández Sampieri Roberto, Metodología de la Investigación, Ed. Mc Graw Hill, 2006.

45