95
Aproximación al aprendizaje humano basado en la teoría de redes neuronales artificiales Presentado por: Julián Eduardo Arana M. Proyecto de Grado Asesor: Ing. Mauricio Duque PhD. Universidad de los Andes Facultad de Ingeniería Departamento de Ingeniería Eléctrica y Electrónica Junio de 2006

Aproximación al aprendizaje humano basado en la teoría de

  • Upload
    others

  • View
    3

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Aproximación al aprendizaje humano basado en la teoría de

Aproximación al aprendizaje humano basado en la teoría de redes neuronales artificiales

Presentado por: Julián Eduardo Arana M.

Proyecto de Grado

Asesor: Ing. Mauricio Duque PhD.

Universidad de los Andes Facultad de Ingeniería

Departamento de Ingeniería Eléctrica y Electrónica Junio de 2006

Page 2: Aproximación al aprendizaje humano basado en la teoría de

2

TABLA DE CONTENIDOS

I. INTRODUCCIÓN ............................................................................................................................................ 4

II. CONTENIDO .................................................................................................................................................. 7

A. ELEMENTOS DE PSICOLOGÍA DEL APRENDIZAJE......................................................................................... 7 Aprendizaje funcional................................................................................................................................. 7 Memoria ....................................................................................................................................................... 9

Memoria sensorial ................................................................................................................................................. 10 Memoria operante ................................................................................................................................................. 10 Memoria a largo plazo .......................................................................................................................................... 11 Memoria a mediano plazo .................................................................................................................................... 12 Relación entre los tres tipos de memoria .......................................................................................................... 13

B. ELEMENTOS INTRODUCTORIOS A LA NEUROCIENCIA................................................................................ 13 Sistemas Funcionales: El encéfalo ........................................................................................................ 14 Partes internas del Cerebro .................................................................................................................... 17 Organización de la corteza ..................................................................................................................... 19 Mapas en la corteza................................................................................................................................. 20

Propiedad de Formación Topológica (Topological mapping property) ......................................................... 21 Propiedad de Amplificación (Amplification property) ....................................................................................... 21 Propiedad de categorización (Categoring property) ........................................................................................ 22

La neurona ................................................................................................................................................ 22 Sinapsis ..................................................................................................................................................... 25 Función del Soma .................................................................................................................................... 27 Dinámica del cerebro ............................................................................................................................... 27 Aprendizaje a nivel Neuronal .................................................................................................................. 29

C. ELEMENTOS INTRODUCTORIOS A LA TEORÍA DE REDES NEURONALES ARTIFICIALES. ............................ 31 El Perceptrón ............................................................................................................................................ 31 Perceptrón multinivel ............................................................................................................................... 32 Aprendizaje ............................................................................................................................................... 35 Entrenamiento Supervisado del Perceptrón......................................................................................... 36 Entrenamiento supervisado del perceptrón multinivel ........................................................................ 37 Función XOR ............................................................................................................................................ 40 Algoritmos de poda .................................................................................................................................. 40 Arquitectura dual de redes Multicapa .................................................................................................... 41 Redes de Hopfield.................................................................................................................................... 43

Funciones de Energía........................................................................................................................................... 45 Redes de Hopfield Estocásticas ......................................................................................................................... 47 Redes de Hopfield continuas............................................................................................................................... 48

Máquinas de Boltzman ............................................................................................................................ 49 Técnicas de Aprendizaje no supervisado ............................................................................................. 50 Mapas de Kohonen .................................................................................................................................. 52 Campos neuronales auto-organizativos................................................................................................ 54

D. COMPARACIÓN ENTRE EL MODELO ARTIFICIAL Y LOS MODELOS BIOLÓGICOS. ....................................... 58 Debates entre la psicología y la ciencia computacional ..................................................................... 59 Tercer nivel: El Hardware........................................................................................................................ 60

Serial vs. paralelo .................................................................................................................................................. 60 Unidades de procesamiento ................................................................................................................................ 61 Constante de aprendizaje y recorte de neuronas ............................................................................................ 62 Arquitecturas .......................................................................................................................................................... 63 Modelo de condicionamiento clásico.................................................................................................................. 64 Modelo de la memoria .......................................................................................................................................... 66 ¿Un modelo de la arquitectura del proceso de aprendizaje? ......................................................................... 70 Modelo del hipocampo.......................................................................................................................................... 72

Segundo nivel: algoritmos y representación......................................................................................... 74

Page 3: Aproximación al aprendizaje humano basado en la teoría de

3

Aprendizaje............................................................................................................................................................. 74 Elección de la red y tareas de alto nivel ............................................................................................................ 76 Representación...................................................................................................................................................... 77

Primer Nivel............................................................................................................................................... 78

III. CONCLUSIONES Y COMENTARIOS FINALES .................................................................................. 80

IV. REFERENCIAS .......................................................................................................................................... 83

VI. TABLA DE ACRÓNIMOS Y SÍMBOLOS............................................................................................... 86

VI. ANEXOS...................................................................................................................................................... 88

ARTÍCULO........................................................................................................................................................ 88 I. INTRODUCCIÓN.................................................................................................................................... 88 II. CONTENIDO ......................................................................................................................................... 88 III. ANEXOS ARTICULO............................................................................................................................ 95

Page 4: Aproximación al aprendizaje humano basado en la teoría de

4

I. INTRODUCCIÓN

Desde el periodo antiguo (Grecia antigua) se ha intentado dar una explicación

sobre la localización del centro nervioso de los animales, sobre como piensan,

como sienten y como aprenden. Sin embargo, en los siglos XIX, XX se hecho

bastantes estudios y se han logrado establecer teorías y puntos de partida que dan

lugar a más teorías. (Gersenowies, 2000) No obstante, los estudios realizados no

pueden considerarse pertenecientes a una sola rama de la ciencia, llámese

psicología, filosofía, neurología, biología, química, etc., sino a un compendio de

todas las ramas que se sostienen con teorías formuladas por ramas “hermanas” y

que sirven para encontrar nuevos caminos y crear nuevos modelos que

proporcionen una visión más amplia del funcionamiento del cerebro y su relación

con los pensamientos, el aprendizaje, etc.

Gersenowies (2000) hace un recuento de los estudios más importantes que se han

hecho con la intención de entender el funcionamiento de la corteza cerebral.

Dentro de los estudios más importantes menciona a Santiago Ramón y Cajal quien

en 1906 recibió el premio Nobel por haber propuesto que el funcionamiento del

Sistema Nervioso estaba basado en células que unos años se denominarían

Neuronas. A partir de ésta observación se intenta modelar una célula mediante un

lenguaje matemático. Especialmente importantes fueron los modelos planteados

por Churchland, Rosenblant y Widrow en los primeros años de la década de los

60’s1. En investigaciones posteriores se crean redes de varias de las neuronas

modeladas anteriormente y surgen, así mismo, mecanismos que permiten enseñar

a las redes determinadas tareas bajo aprendizaje supervisado y no supervisado.

Surgen arquitecturas de redes neuronales y algoritmos que permiten simular el

aprendizaje y el comportamiento de las redes de neuronas. El problema ahora no

parece hacer parte de las ciencias “convencionales” que estudian el

comportamiento humano y animal, sino de ciencias computacionales. Se da el

nombre de Redes Neuronales al estudio de los procesos computacionales que

1 Bishop (1995) menciona, en una forma introductoria, las contribuciones de éstos investigadores en el modelo

neuronal

Page 5: Aproximación al aprendizaje humano basado en la teoría de

5

realizan la tareas anteriormente descritas, y se enmarca dentro de un rama de la

computación denominada Machine Learning A partir de los modelos, algoritmos,

simulaciones, etc., surgen aplicaciones en varios otros campos como pronósticos

financieros, automatización de procesos, reconocimiento de patrones, ayuda en el

descubrimiento de enfermedades, entre otros. No obstante, también está en

camino de contribuir a la investigación del aprendizaje humano y animal,

complementando un poco las teorías psicológicas2 y complementando las

investigaciones en neurología.

Existe una nueva ciencia denominada ciencia cognitiva que integra todas las

disciplinas mencionadas anteriormente (psicología, filosofía, neurología, biología,

ciencia computacional, entre otras) y cuya función es la investigación del proceso

de aprendizaje humano sustentándose en las asignaturas mencionadas, pero

especialmente, en lo que comúnmente se conoce como inteligencia artificial. En

Diller (2006) se evidencia la dificultad existente para definir la ciencia cognitiva,

existen diferentes puntos de vista que incluyen o no algunas disciplinas. De hecho

Diller, a pesar de mencionar varias definiciones, prefiere arriesgarse a decir que lo

importante de la nueva disciplina no es tanto definirla como multidisciplinaria o

como disciplina, sino como la intención que tiene: entender como funciona la

mente humana.

Éste documento pretende: 1) dar a conocer algunas teorías de aprendizaje desde

el punto de vista psicológico; 2) conocer los sistemas funcionales del sistema

nervioso central, su organización, sus métodos de intercambio de información,

algunos modelos con los que se cuenta para su estudio desde el campo de la

neurociencia; 3) recopilar brevemente la teoría de redes neuronales artificiales, dar

a conocer algunas arquitecturas y algunos algoritmos y 4) hacer una comparación

entre todas las disciplinas con la teoría computacional.

La distribución del texto se hace en el orden mencionado en el párrafo anterior.

Existen tres secciones principales: introducción, contenido, y bibliografía. En la

2 Como mencionan Hardy & Jackson (1998)

Page 6: Aproximación al aprendizaje humano basado en la teoría de

6

segunda se desarrolla todo el tema en cuatro capítulos: En el primero se hace un

breve recorrido por las teorías del aprendizaje desde el punto de vista de la

psicología, en el segundo se describe la anatomía cerebral, en el tercero se

describen los algoritmos y las arquitecturas desde el punto de vista de machine

learning, y en el último se hace entre todas las disciplinas con la del aprendizaje

artificial tratando de encontrar intersecciones y contradicciones.

Page 7: Aproximación al aprendizaje humano basado en la teoría de

7

II. CONTENIDO

A. Elementos de psicología del aprendizaje

Aprendizaje funcional

Los psicólogos distinguen dos categorías básicas de aprendizaje: no asociativo y

asociativo. La diferencia básica entre los dos tipos de aprendizaje es el número de

estímulos involucrados en el proceso de aprendizaje. En el aprendizaje no

asociativo se involucra únicamente un estímulo, mientras que en el asociativo

pueden existir dos o más estímulos. El aprendizaje no asociativo es la forma más

simple de aprendizaje.

Como se describe en Rosenzweig et al (1996, pp. 620-621), la categoría de

aprendizaje no asociativo se divide en tres sub-clases denominadas:

1) Habituación: La respuesta al estímulo se va perdiendo debido a la repetición

continua del estímulo y un estímulo del mismo tipo pero más intenso puede

dar origen a la respuesta esperada después de la habituación. Usualmente la

habituación tiene una duración bastante moderada. El individuo se habitúa al

estímulo mientras éste este presente, pero si deja de presentarse durante un

periodo de tiempo considerable, la habituación se pierde y el individuo vuelve

a responder al estímulo como lo hacía antes de la habituación (ocurre lo que

se denomina deshabituación).

2) Deshabituación: La magnitud de la respuesta a un estímulo crece debido a un

estímulo fuerte. Se remueve la habituación que ha alcanzado el individuo.

3) Sensibilización: Es una deshabituación en la que nunca existió habituación,

es decir, antes de la sensibilización la respuesta al estímulo era la respuesta

que el individuo siempre tendría debido al estimulo. Después de la

habituación dicha respuesta será mayor en magnitud.

Page 8: Aproximación al aprendizaje humano basado en la teoría de

8

En el aprendizaje asociativo se distinguen dos clases de aprendizaje que se

describen muy bien en Hardy y Jackson (1998, pp. 17-48), así como en Clayton

(2004, Capítulo 4). A continuación se describen las principales características del

condicionamiento clásico y el condicionamiento operante, las dos subcategorías

que conforman el aprendizaje asociativo:

1) Condicionamiento Clásico o Pavloviano: Se tiene un estímulo Incondicionado

(EI) que produce una respuesta natural denominada Respuesta Incondicionada

(RI). Mediante un emparejamiento con el EI se logra obtener una respuesta

casi idéntica a RI con otro estímulo denominado Estímulo Condicionado (EC).

De ésta manera es posible que un individuo asocie un estímulo que no

produciría una RI, con un EI, respondiendo a EC de la misma forma que lo

haría a EI. Un ejemplo de éste tipo de aprendizaje se da, como en el conocido

caso de Pavlov, cuando un perro reacciona al sonido de una campana (EC)

salivando (RC), pues asocia la comida (EI) con el sonido producido por la

campana, debido a un entrenamiento anterior en donde se tocaba la campana

y después de un muy corto periodo de tiempo se proporcionaba el alimento al

animal. En el condicionamiento interviene el cerebelo (que, como veremos, se

encarga de la respuesta involuntaria), sin embargo, para condicionamientos

elaborados, tiene lugar el hipocampo (al que, como veremos, se le adjudica la

función de memoria de corto plazo).

2) Condicionamiento Operante o Instrumental: En este tipo de condicionamiento

se crea una asociación entre un comportamiento y una consecuencia. De ésta

manera si un individuo tiene cierto comportamiento puede recibir un castigo o

una recompensa. Después de algunos castigos o recompensas el individuo

empieza a asociar su comportamiento con la consecuencia que éste trae. Éste

tipo de condicionamiento es el utilizado en el entrenamiento de animales:

inmediatamente después de realizar una acción correctamente, que ha sido

propuesta por el entrenador, éste lo premia con comida o con caricias. El

animal empieza entonces a asociar el comportamiento con el premio que

recibe.

Page 9: Aproximación al aprendizaje humano basado en la teoría de

9

Existen otras teorías (teoría Gestalt) que involucran tanto los estímulos recibidos,

como las experiencias que ha tenido el individuo, de éste manera no se aprende

únicamente recibiendo estímulos sino recibiendo los estímulos analizándolos,

comparándolos con situaciones vividas anteriormente y produciendo una respuesta

y un aprendizaje nuevo con base a toda esa información (véase Clark, 1999). Éste

tipo de aprendizaje involucra el conocimiento de conceptos aprendidos en un

tiempo anterior y guardados en la memoria, mediante las conexiones de las

neuronas del cerebro (más adelante se profundizará sobre la memorización

neuronal). A continuación se describe un poco cuales son las teorías que explican

el funcionamiento de la memoria.

Memoria

Un elemento importante que debe tenerse cuando se intenta descifrar lo complejo

del aprendizaje y el contenido del procesamiento de la información es la memoria.

La capacidad de mantener recuerdos de ciertas experiencias y de recuperarlos en

un momento dado puede ser vital para la supervivencia de cualquier animal.

(Rozensweig et. al, 1996)

En el estudio psicológico suelen nombrarse tres o cuatro clases de memoria:

memoria sensorial, memoria operante o de corto plazo, memoria a mediano plazo

y memoria a largo plazo.3 Cada una de ellas tiene diferentes funciones y se localiza

en diferentes regiones del cerebro como se verá más adelante.

La siguiente explicación de cada una de las clases mencionadas se basa en los

apuntes hechos por Hardy & Jackson (1998). En éste documento no se pretende

entrar a discutir si existen o no las diferentes clases de memoria, sencillamente se

aceptan como un modelo válido para alcanzar el objetivo propuesto, basados en la

3 Hay un excelente documento de Gardner sobre las múltiples memorias. “multiples intelligences” que deduce

de la observación de personas con problemas mentales, la existencia de al menos 7 tipos de memoria. Es un trabajo muy controvertido. Comentario proporcionado por Mauricio Duque PhD.

Page 10: Aproximación al aprendizaje humano basado en la teoría de

10

experiencia alcanzada por algunos psicólogos en experimentos realizados (ver

Hardy & Jackson, 1998).

Memoria sensorial

Se piensa que es un almacén de material totalmente desorganizado de la

información que se recibe sensorialmente. Se podría pensar que es una copia

“exacta” de la realidad en el sentido en que guarda la información más reciente

que los elementos sensoriales han recibido. La información almacenada puede

ser olvidada o retenida para el posterior procesamiento en la memoria operante.

El tiempo que suele almacenar la información depende de los sentidos que

reciban la información. Para la visión se retiene, en promedio 0.75s y para la

audición 3.5s.

Para que un trozo de información específica sea lo suficientemente importante

como para ser procesada por la memoria operante, es necesario prestar especial

atención a ella. A partir de aquí parte un estudio psicológico conocido como

atención y otro conocido como reconocimiento de patrones Hardy y Jakcson

(1996, 117-132).

La memoria sensorial se llevaría a cabo por estructuras neuronales en las áreas

sensoriales del cerebro, como se indica más adelante.

Memoria operante

Éste tipo de memoria contiene información sobre la que se está pensando

actualmente, ésta información se guarda el tiempo suficiente como para poder

realizar acciones o tomar decisiones basados en ella.

El tiempo que dura la información es en promedio de 20s, lo que parece ser una

ventaja pues, según comenta Hardy & Jackson (1998) libera la mente de

abarrotamiento de información innecesaria. Si la información demanda un tiempo

Page 11: Aproximación al aprendizaje humano basado en la teoría de

11

mayor en memoria, se recurre a un buffer de repaso que es capaz de refrescar la

memoria el tiempo que la información sea requerida.

La memoria operativa puede tomar información para procesarla desde la

memoria sensorial y guardarla en la memoria o desde la memoria a largo plazo

analizarla y guardar la nueva información en la memoria a largo plazo.

Memoria a largo plazo

La memoria a largo plazo es quizá el tipo de memoria más estudiado en el campo

de la psicología. Con base en ella se desarrolla toda una teoría que incluye la

codificación de la información en la memoria, el uso de ella como memoria

implícita (en la que no somos conscientes de la información que procesamos) y

memoria explícita (en la cual somos conscientes de la información que estamos

procesando y por ende es necesario enviarla primero a la memoria operativa).

Dentro de las formas de codificación de la memoria se han planteado varios

modelos que explicarían como la información se encuentra almacenada. El

primero modelo que surgió sugería la existencia de jerarquías dentro de la

memoria, en donde existían nodos superiores y subordinados. Éstos últimos

heredaban las características más generales de un nivel superior y,

adicionalmente, contaban con características propias que distinguían y

diferenciaban nodos del mismo nivel. En la Fig. 1 se muestra un ejemplo de éste

modelo. Existe una categoría principal en la que se encuentran Perros y Gatos

que comparten características que le da el nodo “animales”. Cada uno de ellos

tiene características propias que son heredados por nodos de nivel inferior.

Éste modelo evolucionó un poco y sirvió para describir el lenguaje y la forma en

como comprendemos las palabras escritas en un texto como enseña Feldman

(1990).

Page 12: Aproximación al aprendizaje humano basado en la teoría de

12

Fig. 14

Existe, sin embargo, un modelo conexionista de la codificación de la memoria que

toma una forma de redes como en los modelos anteriores, pero no insinúa la

existencia de jerarquías. Hardy & Jackson (1998, pp. 152) lo describen de la

siguiente manera: “El conocimiento no está codificado en un <<lugar>> concreto

por alguna <<cosa>>, sino que esta codificado mediante fuerzas de conexión, y el

aprendizaje ocurre a través de la modificación de las conexiones”. Los autores

mencionan, adicionalmente, que éste modelo es adaptable a una gran variedad

de situaciones y que sirve para describir situaciones de percepción, memoria y

habilidades motrices.

Memoria a mediano plazo

Éste tipo de memoria no suele ser muy mencionado en los libros y artículos sobre

memoria, sin embargo está presente ya se como parte de la memoria a largo

plazo o como una entidad individual a ésta última. La memoria a mediano plazo

involucra recuerdos o ideas aprendidas que no son retenidos más de uno dos

días, tales como el lugar en el que se parqueó el carro antes de llegar al

supermercado ó el lugar en el que se dejaron las llaves la noche anterior.

(Rosenzweig et al, 1996, pp. 624-627).

4 Tomado y adaptado de Hardy & Jackson (1998, pp.149)

Page 13: Aproximación al aprendizaje humano basado en la teoría de

13

Relación entre los tres tipos de memoria

Basados en la discusión en Hardy & Jackson (1998, caps. 5-6) sobre la relación

existente entre los tres tipos de memoria más importantes, explicamos a

continuación el proceso que se lleva a cabo:

Un individuo puede captar un estímulo y almacenarlo en la memoria sensorial, allí

el estimulo tiene dos opciones que son: la pérdida de la información del estímulo

o el almacenamiento de éste en la memoria operativa. Éste último proceso se

realiza mediante la atención o el reconocimiento de patrones.

Información almacenada en la memoria operativa puede ser olvidada, puede ser

usada para producir una respuesta, puede ser “refrescada” para no olvidarla o

puede ser codificada y enviada a la memoria de largo plazo. La información que

reside en la memoria operativa puede venir de la memoria sensorial o de la

memoria a largo plazo (cuando sea necesaria la recuperación de ésta

información).

Finalmente, la memoria a largo plazo puede recibir la información de la memoria

operante o enviarla a la memoria operante.

B. Elementos introductorios a la neurociencia

En el campo de investigación de la neurociencia se encuentran bien definidas

algunas áreas de estudio que contribuyen al desarrollo teórico del funcionamiento

del sistema nervioso. Dichos niveles, como los describe Perkel (1990) o

Churchland et al. (1990), son los siguientes:

1) Biofísica y bioquímica de la membrana celular y del citoplasma celular de la

neurona.

2) Subdivisiones de la neurona: dendritas, axones, sinapsis, etc.

Page 14: Aproximación al aprendizaje humano basado en la teoría de

14

3) Procesos funcionales de la célula y procesos metabólicos. La neurona como un

todo: propiedades eléctricas de la neurona, comportamiento de las salidas y las

entradas, crecimiento, intercambio de proteínas, etc.

4) Pequeños circuitos de células nerviosas.

5) Circuitos de tamaño medio a gran tamaño.

6) Sistemas funcionales completos.

7) Sistema Nervioso Central.

8) Sistemas motores y sensoriales.

A fin de entender el funcionamiento básico del cerebro como preámbulo para la

investigación que se pretende realizar, se realizará una breve descripción de los

estudios realizados en cada área descrita, haciendo énfasis en los puntos 2), 4), 5)

y cierta información del punto 3) pues es allí en donde se pueden hacer las

comparaciones con las redes neuronales artificiales. Sin embargo es interesante

comprender las partes más importantes del cerebro, así como sus funciones

básicas puesto que van a ser nombradas en algunas ocasiones dentro del texto.

Sistemas Funcionales: El encéfalo

El encéfalo esta compuesto por tres partes principales que son denominadas

cerebro, cerebelo y tallo cerebral. La Fig. 2 muestra el diagrama del encéfalo con

sus componentes principales.

Como explica Valiant (1994, pp. 12) la labor de encontrar lugares precisos del

cerebro que realicen tareas específicas es bastante desalentadora, debido a que

en muchos casos las áreas que se han identificado resultan multifuncionales en el

sentido en el que pueden tener además de la función, que se cree que es la

principal, funciones compartidas con otros áreas cerebrales. Sin embargo, es

importante darse la oportunidad de describir algunas funciones que se han

adjudicado a la masa cerebral, con el fin de entender el modo de procesamiento

Page 15: Aproximación al aprendizaje humano basado en la teoría de

15

del cerebro. A continuación se resumen algunos comentarios hechos por National

Institute of Neurological Disorders and Strokes [NINDS] (2001a) y por Lehr (2006)

con respecto a las funciones principales de las partes más importantes del cerebro.

0. Tallo cerebral: Controla las funciones vitales principales como la respiración y el

ritmo cardiaco.

1. Cerebelo: Encargado de los movimientos repetitivos (reflejos). Coordina

movimientos voluntarios.

2. Cerebro: Fuente de las actividades intelectuales. Se llevan tareas de

reconocimiento, pensamiento y memorización.

3. Lóbulos Frontales: Permiten guardar recuerdos e ideas por un periodo corto de

tiempo y analizarlas y utilizarlas para responder en ciertas actividades diarias.

Parecen ser los responsables de la memoria a corto plazo. Es en gran parte

responsable de las funciones del lenguaje.

4. Área motora: Hace parte de los lóbulos frontales. Procesa los movimientos

voluntarios.

5. Área de Broca: Hace parte de los lóbulos frontales. Responsable de expresar las

ideas mediante palabras.

6. Lóbulos Parietales: Encargados de percibir las sensaciones. Interviene en

procesos de lectura y de razonamiento aritmético. Permite la percepción del

sentido del tacto. También proporciona el control de movimientos voluntarios y

de manipulación de objetos. Integra diferentes sentidos con el fin de entender un

concepto.

7. Áreas sensoriales: Hacen parte de los lóbulos parietales. Es aquí en donde se

procesa la mayor cantidad de información sensorial.

8. Lóbulos Occipitales: Procesa información visual (específicamente de imágenes)

y las relaciona con información almacenada en la memoria.

Page 16: Aproximación al aprendizaje humano basado en la teoría de

16

9. Lóbulos Temporales: Se encarga de recibir y procesar información proveniente

de los oídos. También parece ser responsable de guardar y recuperar

información en la memoria. Pueden integrar la información guardada en

memoria. Adicionalmente sirve para la categorización de objetos.

Fig. 25

NINDS (2001a, pp. 6) describe también la corteza como una “capa que recubre el

cerebro y el cerebelo” y agrega que “la mayor cantidad de información que se

procesa en el cerebro se hace en la corteza”. El color de la corteza cerebral es gris

“debido a que no existe una capa aislante que le da el color blanco a la mayor

parte del cerebro” como describe NINDS (2001a). Valiant (1994) menciona que la

materia blanca es la encargada de comunicar diferentes zonas del cerebro y que,

de hecho, está compuesta en su mayor parte por los axones que atraviesan el

cerebro. La materia gris, en contraste, es la zona en al que se encuentran los

cuerpos de las neuronas y por tanto es el lugar en donde la mayor cantidad de la

información es procesada.

Los sistemas completos (visuales, olfativos, gustativos, sensoriales, auditivos) se

encuentran de alguna forma embebidos en el encéfalo. El sistema visual es, según

Haken (2002), el sistema más estudiado. Los modelos con los que se cuenta son

5Imagen tomada y adaptada de NINDS (2001). Sección the architecture of the brain.

Page 17: Aproximación al aprendizaje humano basado en la teoría de

17

estudiados por niveles de complejidad. Cada nivel cuenta con una red que realiza

una tarea específica y en la que la información suele verse cada vez más

especializada mientras se asciende en los niveles. Por ejemplo Hummel &

Biederman (1992) muestran 7 capas, en las que la información es cada vez más

especializada, en un modelo de reconocimiento de objetos en tres dimensiones. En

la primera capa se reconocen los bordes de los objetos, en el segundo la

información es separada en ejes, vértices y sombras; la tercera capa se ocupa de

analizar aspectos geométricos de los objetos; la siguiente se encarga de analizar la

relación que existe entre los atributos medidos en la capa anterior; en la capa 6 se

reconstruyen las características en una imagen mental que se tiene sobre el objeto;

y en la última se crea la imagen mental del objeto con las características que

encontró la capa anterior.

Partes internas del Cerebro

Existen, en la parte interna del cerebro, otras partes que cumplen funciones

importantes, especialmente en el aprendizaje y las emociones. En la Fig. 3 se

observan las estructuras mencionadas. A continuación se hará, como en la sección

anterior un breve resumen de sus funciones, basado en la publicación NINDS

(2001a).

Page 18: Aproximación al aprendizaje humano basado en la teoría de

18

Fig. 36

10. Hipotálamo: Centro emocional, controla el flujo de adrenalina durante los

momentos de tensión.

11. Tálamo: Es un intermediario entre la información que viaja desde el cerebro

hasta la espina dorsal y viceversa.

12. Hipocampo: Es un indexador de memoria. Se encarga de buscar el lugar en

el que la información debe ser almacenada a largo plazo y de recuperarla en el

momento en el que sea requerida. En otras palabras su función principal es

“establecer rápidamente conexiones…entre patrones” y lo logra mediante la

presentación repetida de la información a la corteza cerebral. Al hipocampo se le

atribuye la función de memorización7 a corto plazo o de memoria operativa que

ya ha sido mencionada en la sección I del documento.

6 Imagen tomada de NINDS(2001) Sección The Inner brain. 7 Es muy importante aclarar que la palabra memorización no se refiere a la forma en como un computador

almacena su información. Se debe entender que el proceso de memorizarción y en general de aprendizaje se da modificando las conexiones neuronales y éstas representan los conceptos aprendidos o los recuerdos “guardados”. Esta diferenciación se hará más clara en la sección C. Elementos introductiorios a las redes neuronales artificiales y en la sección en que se compara el modelo artificial con el cerebro, sección D Comparaciones entre el modelo artificial y los modelos biologicos.

Page 19: Aproximación al aprendizaje humano basado en la teoría de

19

Organización de la corteza

Hebb (1949), además de su planteamiento del aprendizaje Hebbiano, habla de

arreglos de células que se activan simultáneamente y que pueden estar dispersas

a lo largo de la masa cerebral, y que podrían constituir la percepción de una

escena inmersa dentro de un contexto. Es decir, si se produce un estimulo visual,

por ejemplo, la información recibida se podría procesar en diferentes lugares del

cerebro en forma paralela, dando como resultado una comprensión de la situación

presentada y no de casos aislados de la que forman parte de la situación.

(Rosenzweig et al, 1996).

Adicionalmente a las divisiones que se han descrito en la sección anterior, la

corteza cerebral está dividida fundamentalmente en dos partes según el número

láminas horizontales de un área específica de la corteza; las divisiones son

llamadas isocorteza (isocortex o homotyipical cortex) y allocorteza (allocortex o

heterotypical cortex). La isocorteza se caracteriza por tener seis láminas, mientras

que la allocorteza tiene un número variable de láminas. Valiant (1994) comenta

que la isocorteza es en gran parte la encargada de los procesos de memorización

(largo plazo) y aprendizaje. La allocorteza se encuentra en el hipocampo y en la

corteza olfatoria, entre otras regiones.

Adicionalmente, Spitzer (1999, pp. 91-95), describe columnas (diferentes a las

capas mencionadas anteriormente, pues las columnas atraviesan

perpendicularmente las capas) de procesamiento de información encontradas en la

corteza del cerebro de las que dice que pueden “ser recordadas como las más

pequeñas unidades de procesamiento de la corteza”. Estas columnas parecen

tener ciertas funciones específicas cuando algunas células son activadas.

Spitzer (1999) asegura que la organización en columnas supone la existencia de

una unidad funcional (un grupo de células dentro de una columna) que es activada

ante un estímulo único y concreto. No obstante, existen neuronas vecinas que son

estimuladas también en menor medida pero no alcanzan a ser activadas. Este

grupo de células vecinas pueden ser activadas por estímulos similares al que

Page 20: Aproximación al aprendizaje humano basado en la teoría de

20

activa la columna que contiene la unidad funcional, convirtiéndose ahora ésta en

una columna vecina. La unidad funcional conecta neuronas inhibitorias que tienen

como función no permitir la activación de células más lejanas. Tenemos entonces

un estímulo que actúa localmente y solamente activa unas pocas neuronas de una

región concreta del cerebro. En la Fig. 4 se observa una “unidad funcional de

procesamiento de información”, como la llama Spitzer.

Fig. 4

Mapas en la corteza

Desde un punto de vista más amplio, la corteza puede verse dividida en

estructuras que describen diferentes sistemas del cuerpo (sistemas visuales,

sensoriales, olfativos) y que pueden estar constituidas de la manera como se

explicó en la sección anterior.

El trazado de los mapas cerebrales se ha apoyado en pacientes con lesiones en

algunas partes del cerebro. Al estar lesionadas algunas áreas, los psicólogos y

neurólogos investigan qué funciones motoras, auditivas, visuales, del lenguaje,

entre otras; ha perdido el paciente. Otra fuente de información es la investigación

hecha con animales a los que se les extrae partes del cerebro o se les

“desconectan” ciertas partes del cerebro.

A continuación se definen algunos conceptos para entender como se construye un

mapa en la corteza. Para Amari (1990, pp. 267-268), un campo neuronal es “un

trozo de tejido cortical de neuronas en el que muchas neuronas son continuamente

organizadas”. El autor comenta que dependiendo de un estímulo ciertas neuronas

Page 21: Aproximación al aprendizaje humano basado en la teoría de

21

son excitadas como respuesta de ese estimulo y que esta característica puede ser

vista como una representación interna del mundo exterior dentro del cerebro,

organizado de acuerdo a la experiencia que tenga el individuo sobre el mundo

exterior. Además define un mapa a nivel físico como una campo neuronal que

representa el mundo exterior, o a nivel abstracto, como una representación

localizada de señales recibidas (es decir de estímulos) del individuo.

Adicionalmente, Amari (1990) explica un modelo matemático de los mapas en la

corteza y prueba rigurosamente la existencia de algunas propiedades que se le

han asignado a dichos mapas. Más adelante, en la sección de redes neuronales

artificiales, se dará una breve explicación de la matemática involucrada en el

modelo, por ahora centrémonos en las propiedades de los mapas.

Propiedad de Formación Topológica (Topological mapping property)

La formación topológica hace referencia a la estructura física de los campos

neuronales descritos anteriormente, sus conexiones inter-neuronales y su

organización. Según Amari (1990) los arreglos físicos se “programan”

genéticamente, sin embargo, comenta que la respuesta que dan los arreglos es

bastante burda en los momentos más prematuros. El individuo debe, con base en

su experiencia, refinar las conexiones de las neuronas que existen en el campo

neuronal y las que conectan éste campo con otros campos (esto es: aprendizaje).

Propiedad de Amplificación (Amplification property)

Con base en la experiencia que tiene el individuo, las estructuras discutidas son

capaces de mejorar sus conexiones para que se puedan adaptar mejor a las

condiciones en las que se encuentra el individuo. Para tal fin, las estructuras dan

un mayor espacio (físico) de procesamiento a los estímulos que se producen con

más frecuencia.

La capacidad que el cerebro tiene para modificar sus conexiones de acuerdo a

los estímulos presentados con mayor frecuencia se conoce con el nombre de

auto-organización (self-organization) de los mapas. Amari (1990) describe la auto-

Page 22: Aproximación al aprendizaje humano basado en la teoría de

22

organización como la responsable de la afinación de las estructuras referidas

anteriormente.

Propiedad de categorización (Categoring property)

La categorización se da al realizarse el proceso de auto-organización. Las

neuronas se establecen de tal manera que la información con características

similares se procesa en bloques del campo neuronal que son físicamente

adyacentes (como se mencionaba en las estructuras de columnas).

Información sobre el estudio detallado de algunos mapas como la corteza visual o

la corteza auditiva se consigue en Robinson (1990), Mead et al. (1990), Arbib

(1990), Suga (1990), Yeshurun et al (1990), Bienenstock et al (1982), entre otros.

Estos mapas son relevantes para nuestra investigación pues en general no

podemos decir que las neuronas actúan solas, sino en grupos como se ha visto en

éste modelo. Las redes neuronales artificiales supone la activación de neuronas

individuales.

La neurona

Dentro del sistema nervioso (SN) se encuentran varios tipos de células entre ellas

la neuroglia y la neurona. La primera parece ser la encargada de facilitar las

conexiones de las neuronas en el SN y de envolver el cerebro (Rosenzweig et al.,

1996), la segunda, la neurona, es la encargada del procesamiento de la

información en el cerebro (Rosenzweig et al., 1996). Valiant (1994) menciona que

en la corteza cerebral residen los cuerpos de alrededor 1010 neuronas,

aproximadamente. Spitzer, señala la dificultad existente al intentar entender la

complejidad de la red neuronal del cerebro. Young (1985), quien ve el

procesamiento de la información en el cerebro como un computador, opina que:

…los patrones de esas conexiones [entre neuronas] y los impulsos nerviosos que circulan en ellos de alguna manera constituyen los programas codificados del cerebro… Algunas partes funcionan rítmicamente, como en el programa de respiración… Algunos esperan listos hasta que se les necesite usar, como los que proporcionan el poder del entendimiento del habla y la respuesta [a lo que se entiende]. Young (1985)

Page 23: Aproximación al aprendizaje humano basado en la teoría de

23

Fig. 58

Las neuronas se componen de tres partes fundamentales denominadas dendritas,

axones y soma (ó cuerpo de la célula). En la Fig. 5 se ilustra una de las formas

más comunes de neurona ubicada en la neocorteza con sus partes más

importantes.

Las dendritas son ramificaciones que se encargan de recolectar la información

codificada en los impulsos eléctricos provenientes de los axones y de transferirla al

soma; los axones, por el contrario, tienen como función enviar la información

procesada por el soma a otras células nerviosas y el soma se encarga del

procesamiento de la información recibida por las dendritas (más adelante se

profundiza un poco sobre el procesamiento de la información que realiza el soma).

En la gran mayoría de neuronas existe una gran cantidad de dendritas que forman

ramificaciones y son comúnmente llamadas ramas dendríticas. En dichas

ramificaciones se encuentran las llamadas espinas dendríticas que son

protuberancias en donde se lleva a cabo la unión entre la célula receptora y la

célula emisora.

8 Imagen tomada de NINDS(2001) Sección making Connections.

Page 24: Aproximación al aprendizaje humano basado en la teoría de

24

Como describe Rosenzweig et al (1996, pp. 37), existen diferentes formas de

clasificar las neuronas de acuerdo a sus formas (multipolares, bipolares y

monopolares), a su tamaño (grande y pequeño) y a su función (motoneuronas,

neuronas sensoriales e interneuronas). Mas adelante Rosenzweig et al (1996, pp.

47) describe las diferencias entre lo que se denomina Sistema Nervioso Central y

Sistema Nervioso Periférico, haciendo claro que las neuronas sensoriales y

motoras forman parte del Periférico y las interneuronas forman parte (en su

mayoría) del sistema nervioso Central.9

Las neuronas motoras “llevan su axón a músculos o glándulas, y su trabajo es

hacer que los músculos se contraigan o hacer cambiar la actividad de las

glándulas” (Rosenzweig et al., 1996, pp. 37). Las neuronas sensoriales “son

afectadas directamente por el entorno” (Rosenzweig et al., 1996, pp. 37), y las

interneuronas reciben señales de entrada y salida de otras neuronas, como

comenta Rosenzweig et al. (1996).

Adicionalmente, existen tres estados eléctricos que se encuentran en una neurona.

Los estados eléctricos son medidos entre la parte interior del cuerpo de la célula y

la superficie exterior: el primero se conoce con el nombre de potencial de descanso

(resting potential) que es el estado inactivo de la neurona es de aproximadamente -

70µV; el segundo se denomina potencial de acción (action potential) que es el

producido cuando ha sido activada por haber alcanzado el umbral de activación

(véase la sección Función del soma), es de aproximadamente +40µV; y el último

es designado mediante el nombre potencial post-sináptico local (local postsynaptic

potential) que se debe a la activación de una neurona pre-sináptica, el valor que

puede tener es variable dependiendo de la fuerza de conexión entre las dos

neuronas y positivo o negativo dependiendo de la naturaleza de la neurona pre-

sináptica (inhibitoria o excitatoria).

9 En el modelo multicapa de la teoría de Redes neuronales Artificiales se podrían modelar las neuronas motoras

y sensoriales como las que se encuentran en las capas de entrada y de salida; y las interneuronas como las que se encuentran entre dichas capas.

Page 25: Aproximación al aprendizaje humano basado en la teoría de

25

Haken (2002, p. 3) señala que muchas de las neuronas que se encuentran en el

cerebro no producen una respuesta binaria (dos estados posibles además del

estado de reposo), sino que producen “trenes de pulsos individuales” y menciona

que muchos investigadores creen que la sincronización de dichos pulsos entre las

neuronas puede contener la codificación de la información en el cerebro.

Sinapsis

Como explica Rosenzweig et al (1996, pp. 41-42), la unión entre dos neuronas que

hace posible su comunicación se denomina sinapsis. No existe un contacto físico

entre los axones de una neurona y las dendritas de la siguiente, sino un vacío en el

que son liberadas sustancias químicas (llamadas neurotransmisores) que excitan

moléculas receptoras en las dendritas de la neurona receptora. Los

neurotransmisores pueden excitar la neurona positiva o negativamente

dependiendo de su composición química. Dependiendo del tipo de excitación las

neuronas se pueden clasificar, además como excitatorias (si excitan la neurona

post-sináptica positivamente) e inhibitorias (si excitan la neurona post-sináptica

negativamente).

Además del vacío las otras dos etapas que forman parte de una sinapsis son la

pre-sinapsis y la post-sinapsis que son los lugares de donde se desprenden los

neurotransmisores, y en donde se reciben por medio de las moléculas receptoras,

respectivamente.

En Rall & Segev (1990) se describen las características que hacen que una señal

sea transmitida con un grado de atenuación desde el vacío de la sinapsis y la post-

sinapsis (efectividad sináptica ó fuerza sináptica). Entre las características

mencionadas están la frecuencia con que son liberados los neurotransmisores, la

posición en la que la sinapsis se da con respecto al soma, las distancias que

existen entre las diferentes sinapsis de la célula receptora, que vienen desde

Page 26: Aproximación al aprendizaje humano basado en la teoría de

26

diferentes axones o desde el mismo axón. También cuenta la forma geométrica de

las espinas dendríticas, especialmente el área expuesta a la sinapsis.

Sin embargo, existen otros aspectos que intervienen en la fuerza de enlace en la

sinapsis de la neurona. Como menciona Rosenzweig et al (1996, p. 643), la

fortaleza en la unión de diferentes neuronas se puede dar por cambios químicos,

modulados por la influencia de otras neuronas que tienen contacto cerca al axón

de la neurona emisora, así como el número de moléculas receptoras en las

dendritas, la frecuencia de activación del axón, el área de contacto de la sinapsis.

La relación entre la cabeza de la espina dendrítica y la dendrita es no lineal como

se propone demostrar Koch (1990). En su trabajo muestra un modelo

comportamental dependiente del voltaje de entrada a la cabeza de la espina

dendrítica. Así mismo, enseña un modelo de la contribución de una sinapsis dada

dentro de una rama dendrítica a la neurona, la relación, que es una ecuación

diferencial de primer orden dependiente del tiempo y la posición en la que se

encuentra la espina dendrítica, se muestra a continuación tal y como es

presentada en el documento original:

( )2

2

1m j j

ja m

V V Vc g E V

t r t r

∂ ∂= − + −

∂ ∂ ∑ (1)

Fig. 6

Page 27: Aproximación al aprendizaje humano basado en la teoría de

27

en donde ra es la resistencia, considerada constante del citoplasma de la célula, rm

es la resistencia de la membrana, cm la capacitancia de la membrana, gj

conductancia sináptica, Ej representan sinapsis inhibitorias o excitatorias (Ei o Ee

respectivamente). La ecuación es la expresión matemática del modelo circuital de

la sinapsis presentado en la Fig. 6.

Función del Soma

En la literatura sobre el tema en general (Rosenzweig et al., 1996; Spitzer, 1999;

Valiant, 1994 entre otros), la función adjudicada al soma (dentro del contexto de

actividad neuronal, es decir, sin tener en cuenta condiciones de intercambio de

proteínas, oxigenación, etc.) es la de tomar las entradas obtenidas en las ramas

dendríticas y sumarlas de manera que se pueda dar un total que es comparado

con un valor de umbral en donde se dispararía un pulso en el axón de la neurona.

Sin embargo, como es mencionado en Koch (1990) varios han propuesto

teóricamente y han demostrado experimentalmente que dicha linealidad no existe.

No obstante Poggio & Torre (1981) demuestran que si las sinapsis se encuentran

situadas a una distancia relativamente corta en la dendrita de la neurona, dicha

linealidad se puede asumir con un error que es relativamente despreciable10.

Dinámica del cerebro11

Adicionalmente a las relaciones anteriores, Haken (2002) presenta una descripción

detallada del comportamiento de las neuronas en la sinapsis y de las implicaciones

que éste proceder tiene sobre una red de varias neuronas. Los modelos se basan

(o al menos se presentan) utilizando observaciones del comportamiento de las

10 Aunque existen modelos más completos de la neurona, la tesis de un error despreciable se defiende diciendo

que no es necesario conocer el sistema completamente para conocer las redes como un todo. Koch (1990) menciona que es casi como intentar simular el comportamiento de los electrones en un semiconductor para entender el comportamiento de un computador.

11 Título del libro de Haken (2002).

Page 28: Aproximación al aprendizaje humano basado en la teoría de

28

neuronas en el sistema visual. Presentarlo aquí en detalle sería una tarea

demasiado tediosa, por lo que solamente se darán las bases del comportamiento.

En primer lugar, la forma en como se presenta la información a lo largo del axón de

algunas neuronas no es una señal constante en el tiempo, justo después del

disparo de la neurona, sino una señal de voltaje oscilatorio con frecuencia que

depende de la función específica que cumpla la célula (los pesos de entrada de la

neurona o, lo que es lo mismo, las conexiones entre las neuronas pre-sinápticas y

la neurona que se estudia) y de los estímulos presentados en las dendritas de la

neurona. Estas señales son definidas como impulsos presentados, en los modelos

más simples, con una frecuencia constante.

La frecuencia de los impulsos y su amplitud liberan cierta cantidad de

neurotransmisores en el axón de la neurona con el fin de comunicar la información

codificada en los pulsos a las neuronas post-sinápticas. En la neurona post-

sináptica la información (representada por la corriente generada en las dendritas)

recibida es normalizada con los pesos de conexión y su magnitud depende

directamente de la frecuencia de los impulsos y de su amplitud.

( )

( )postpost

d taP t F

dt

ψτ γψ= − − + (2)

en donde P es la función que representa los picos presentes en el axón de la

neurona pre-sináptica, F es ruido presente en las dendritas, a es la amplitud (que

por ahora se supone constante para todos los pulsos), ψpost es la corriente

generada en los axones de la neurona post-sináptica y γ es la constante de

decaimiento de la corriente propia de la neurona. Básicamente la ecuación

describe una corriente que decrece exponencialmente con el tiempo cuando un

pulso es generado en el tiempo τ.

Un problema que surge cuando se discute un modelo como el presentado por

Haken (2002) es que para poder activar una neurona post-sináptica, las neuronas

pre-sinápticas deben ser disparadas en tiempos casi simultáneos, pues de no ser

de ésta manera la contribución de una neurona sola no podría alcanzar el nivel de

Page 29: Aproximación al aprendizaje humano basado en la teoría de

29

disparo requerido y la neurona post-sináptica no produciría una señal de salida.

Éste tipo de planteamientos sugiere una codificación de la información más

completa que la codificación que se supone en el modelo básico de la neurona y

en la teoría de redes neuronales artificiales clásica.

Aprendizaje a nivel Neuronal

La base del aprendizaje neuronal reside en la posibilidad de modificar la fuerza

sináptica. Al modificar las conexiones entre las neuronas es posible obtener

diferentes resultados en la respuesta de la red neuronal.

De ésta manera, para que una red neuronal tenga la capacidad de aprender, debe

ser hábil para poder modificar sus sinapsis. Entre las posibilidades que existen de

modificar la sinapsis se encuentran cambios químicos, incremento de las

moléculas receptoras, cambios en la frecuencia de la señal enviada por el axón,

cambios estructurales en la espina dendrítica, así como un cambio en el área de

contacto de la sinapsis y la instauración de nuevas conexiones entre neuronas, de

la misma manera pueden surgir reemplazos de caminos existentes por otras

conexiones (Rosenzweig et al., 1996). La anterior propuesta teórica ha sido

sustentada mediante experimentos con mamíferos, aves y otros animales, como

comenta Rosenzweig et. al (1996), él cita los siguientes autores: Rosenzweig et al

(1961), Bennet et al. (1964), Renner & Rosenzweig (1987), Rosenzweig (1984),

Hubel & Wiesel (1965), entre otros y estudios de Greenough &Volkmar (1973)

Volkmar & Greenough (1972)

En otros estudios, ha sido posible detectar cambios electrofisiológicos, químicos y

anatómicos en el cerebro debido a una actividad que el individuo debe aprender

(aprendizaje asociativo y no asociativo). En Rosenzweig et al (1996, pp. 650-670)

se comentan algunas observaciones y experimentos realizados.

El estudio se ha hecho en su mayoría con animales invertebrados debido a la

simplicidad de su Sistema Nervioso. Los resultados encontrados han sido, entre

otros, un aumento en el peso del cerebro después del entrenamiento, lo que

Page 30: Aproximación al aprendizaje humano basado en la teoría de

30

sugiere un crecimiento del número de dendritas que posee una neurona y por lo

tanto un mayor número de conexiones posible entre neuronas. Siguiendo los

resultados observados se han desarrollado modelos de circuitos neuronales que

indican la forma en que se realizan los procesos de sensibilización, habituación,

deshabituación y condicionamiento de animales invertebrados -en Rosenzweig et

al (1996, pp. 655-670) se evalúan ejemplos con Drosophila y Aplysia, animales

invertebrados. En los estudios se presentan los mecanismos por medio de los

cuales dichos animales presentan habituación y sensibilización de término corto y

de término largo.

Hebb (1949) propone que los cambios se pueden dar cuando la neurona pre-

sináptica excita en ocasiones repetidas la neurona post-sináptica (ésta hipótesis es

conocida como aprendizaje Hebbiano o Regla Hebbiana en la literatura científica).

Hebb (1949) añade la hipótesis del trazo doble en la que establece que durante el

aprendizaje se lleva a cabo una actividad neuronal en uno o diversos circuitos

neuronales que permite guardar información por un periodo de tiempo corto y es lo

que los psicólogos reconocen como memoria a corto plazo. Si la actividad es lo

suficientemente fuerte, puede dar paso a una modificación en las conexiones

neuronales, lo que significaría memoria a largo plazo.

Existe una fuerte teoría sobre el aprendizaje a nivel neuronal, aunque con

bastantes críticas, denominada LTP (Long-Term Potentiation). Básicamente

consiste en la activación simultánea de dos estímulos en una misma neurona

sincrónicamente. Como se describe en Spitzer (1999, pp. 42-45), existen dos

estímulos A y B. A es un estímulo que por si solo no causa ninguna respuesta en la

neurona (o es una respuesta muy débil) y B es un estímulo que causa una buena

respuesta de la neurona. Si los estímulos A y B son presentados simultáneamente

la neurona responde de la misma manera que lo haría si estuviera estimulada

únicamente por B. El aprendizaje se da después de éste estímulo simultáneo; la

neurona es activada indiferentemente por cualquiera de los dos estímulos

independientemente. Como comenta Ronsezweig et al (1994, pp. 670) el LTP

puede durar desde horas días y hasta semanas. El funcionamiento del LTP ha sido

Page 31: Aproximación al aprendizaje humano basado en la teoría de

31

probado en el hipocampo. Sin embargo no ha habido pruebas contundentes que

demuestren que este tipo de aprendizaje se de en otras partes del cerebro como,

por ejemplo, la corteza, según comenta Spìtzer (1999).

C. Elementos introductorios a la teoría de redes neuronales artificiales.

El Perceptrón

El modelo básico de una neurona, planteado por McCulloc y Pitts (1943) y

estudiado por Rosenblant (1962) quien lo denominó Perceptrón es, básicamente,

la suma de “n” señales “xk” ponderadas con una constante (comúnmente

denominada peso) “wk” (con valores de k desde 1 hasta n). El resultado de esa

suma se hace pasar por una función de activación que se dispara si la suma

anterior pasa un valor de umbral previamente establecido. Como ayuda visual

podríamos ver el perceptrón como se muestra en la Fig. 7. La ecuación que

describe al perceptrón es:

( ) ( )oy x g wx w= + (3)

En dondew es el vector de pesos de tamaño n, x es el vector de señales de

entrada en un momento específico ow corresponde a una entrada adicional (con

valor 1) denominada bias (la interpretación para éste bias puede ser profundizada

en Bishop (1995, pp. 78)). Finalmente g(.) es la función de activación que

típicamente tiene la forma de un paso como se describe a continuación:

1 0

( )1 0

si ag a

si a

− <=

≥ (4)

Page 32: Aproximación al aprendizaje humano basado en la teoría de

32

Fig. 7

Perceptrón multinivel

La arquitectura presentada a continuación es capaz de aproximar cualquier función

matemática. Es muy utilizada para reconocer patrones y predecir eventos futuros

con base en información de eventos pasados.

Una red neuronal multinivel o perceptrón multinivel, es un conjunto de

perceptrones “con conexiones desde cualquier unidad en una capa a todas las

unidades de las capas siguientes, pero sin ninguna otra conexión permitida”

(Bishop, 1995, pp. 117). Un ejemplo de un perceptrón multinivel es mostrado en

Fig. 8.

En la Fig. 8 se puede ver un ejemplo de un perceptrón multinivel de tres capas (ó

niveles). Se pueden distinguir 11 perceptrones marcados desde N1 hasta N11. A la

primera capa entran n señales x1…xn y cada perceptrón de la una capa anterior

está relacionado con una entrada de la siguiente capa. Las cuatro salidas de la red

(y1, y2, y3, y4) corresponden a las salidas de los perceptrones de la capa 3. Así

como en las entradas del perceptrón multinivel tenemos un vector de pesos para

cada entrada y cada perceptrón independientemente, existen vectores de pesos en

las conexiones entre perceptrón de diferentes capas.

Page 33: Aproximación al aprendizaje humano basado en la teoría de

33

Fig. 8

Es importante anotar que en el denominado perceptrón multinivel son permitidos

diferentes tipos de funciones de activación, especialmente para las capas

escondidas (capas que no corresponden a la salida de la red). En la mayoría de

casos los perceptrones de las capas escondidas tienen funciones de activación

sigmoidales del tipo:

1

1( )

1 exp( 2 )g a

aβ=

+ − (5)

ó,

( ) ( )2 tanhg a aβ= (6)

En donde β es una constante que por ahora asumiremos tiene valor β=1/2. La

diferencia entre ambas funciones está dada por 2 1( ) 2 ( ) 1g a g aβ = − . Una

comparación entre las dos funciones se puede ver en la Fig. 9. Nótese que la forma

de ambas funciones es exactamente la misma, el cambio está en que la primera

función tiene su valor mínimo en 0, mientras que la segunda lo alcanza en -1.

Page 34: Aproximación al aprendizaje humano basado en la teoría de

34

Fig. 9

De la constante β va a depender la rapidez con la que la función alcance los

extremos. (Véase Fig. 10). A medida que β →∞ la forma de la función es más

parecida a la función de activación del Perceptrón (ver (4))

Fig. 10

Como lo describe Bishop (1995, pp. 121-122, pp. 226-228), la razón para que

éstas funciones de activación sean diferentes es que cumplen diferentes funciones

dentro de la red. Biológicamente pueden representar “…fuerzas variables en el

disparo de la neurona, retrasos en la sinapsis, fluctuación aleatorias de los

transmisores de liberación en vesículas discretas, entre otras. Éstos efectos se

pueden pensar como ruido…” como lo describe Hertz et al. (1991). Más adelante

se presentará la forma en la que afecta el ruido a las Redes de Hopfield.

Page 35: Aproximación al aprendizaje humano basado en la teoría de

35

Aprendizaje

Según Valiant (1999, pp. 38-40) existen dos dicotomías básicas en el aprendizaje,

la primera: memorización y aprendizaje inductivo, y la segunda: aprendizaje

supervisado y aprendizaje no supervisado. La primera de ellas la describe como:

La memorización es simplemente el almacenamiento de alguna información que es explícitamente presentada o internamente deducida… La segunda noción, aprendizaje inductivo, la definimos esencialmente negativamente, como cualquier forma de obtención de información en donde la información adquirida no está explícitamente dada o necesariamente implícita por la que se da explícitamente. (Valiant, 1999, pp. 38).

La diferencia entre el aprendizaje supervisado y no supervisado es descrita por el

mismo autor de la siguiente manera:

En el caso de aprendizaje supervisado, la información que describe cada ejemplo es acompañada por información de un segundo tipo llamada etiqueta. La etiqueta puede ser dada por un instructor o deducida por algún proceso interno por el aprendiz…. En el caso de aprendizaje no supervisado, por otro lado, solamente se presenta la información que describe los ejemplos, sin ningún comentario adicional. (Valiant, 1999, pp. 38).

Adicionalmente, es posible distinguir dos tipos de aprendizaje supervisado: el

aprendizaje por refuerzo, en donde el aprendiz obtiene como “realimentación si la

respuesta que dio a una entrada específica es correcta o no” (Hertz et al., 1991,

pp. 10), es decir, simplemente se presenta la respuesta a una entrada y el

aprendizaje supervisado común, en donde el aprendiz conoce durante el proceso

de aprendizaje, ejemplos de las respuestas deseadas.

El aprendizaje de las redes neuronales artificiales, se basa en la actualización de

los pesos de acuerdo a las entradas de cada perceptrón. Éste proceso se conoce

comúnmente como entrenamiento y, en sus aplicaciones más comunes el

entrenamiento es supervisado.

Lo que la red conoce, está implícitamente guardado en la configuración de los

pesos de las conexiones entre ellas. La red es simplemente un sistema que

relaciona entradas con salidas. Los pesos juegan un papel muy importante pues

ellos dan la relación de entrada-salid del sistema. La red como tal no guarda

Page 36: Aproximación al aprendizaje humano basado en la teoría de

36

información como se podría pensar desde el punto de vista computacional en

donde la información se encuentra almacenada y se busca mediante un indexador

que busca una posición de memoria en la que pueda guardar información o

extraerla. Más adelante, en la sección de redes de Hopfield y mapas de Kohonen

se extiende ésta información.

Entrenamiento Supervisado del Perceptrón

Para entrenar un Perceptrón suponemos un conjunto de datos de entrenamiento

etiquetado. Los datos pueden pertenecer a dos clases en cuyo caso las podremos

diferenciar por un valor 0 ó 1 (en algunos casos como -1 o +1) dependiendo de la

clase.

Con base al conjunto de datos de entrenamiento es posible calcular un error

conocido como el criterio del Perceptrón (Bishop, 1995), que consiste en contar el

número de puntos mal clasificados por el perceptrón (en el estado actual),

multiplicados por el vector de pesos.

El compromiso del algoritmo es la minimización de dicho error. El algoritmo

propuesto en Bishop (1995, pp. 100) consiste en utilizar el método de optimización

gradient descent:

( ) ( )1 n nj j jw w x tτ τ η+ = + (7)

En donde tn es la etiqueta correspondiente a la entrada particular nx (con valores

posibles +1 y -1) y n identifica un elemento particular del conjunto de

entrenamiento. La constante η se denomina tasa de aprendizaje, que suele tener

un valor pequeño y en algunos algoritmos se asume que decrece con el tiempo

(ésta propiedad de decrecimiento será importante cuando se haga la comparación

entre los modelos artificial y las observaciones en el campo biológico). La

expresión n njx t viene de la derivada de el criterio del perceptrón con respecto al

Page 37: Aproximación al aprendizaje humano basado en la teoría de

37

peso wj, por lo que está midiendo que tanto afecta ese peso específico en el error y

de esa manera corrige el peso en menor o mayor medida.

Éste algoritmo converge a una solución, para un número finito de pasos solamente

si los datos son linealmente separables. Si no es el caso, el algoritmo se quedaría

iterando infinitamente a menos que se permita cierto error en la actualización de

los pesos como un criterio de parada para el algoritmo. Sin embargo el valor

encontrado con éste criterio de parada puede no acercarse mucho al valor óptimo

que puede separar los datos linealmente.

Existe un algoritmo más eficiente que el perceptrón denominado perceptrón con

bolsillo que consiste en guardar el error más pequeño hasta el momento y la

configuración de pesos que lo producen. Luego de un número de iteraciones pre-

establecido o de algún criterio de error de parada, se toman éstos pesos como los

óptimos para producir el menor de generalización. Para un estudio más profundo

léase Bishop (1995, pp. 354-357) y/o Gallant (1990).

Entrenamiento supervisado del perceptrón multinivel

El proceso de actualización de los pesos en un Perceptrón multinivel es mucho

más complejo que en el caso anterior, puesto que no es tan sencillo encontrar la

relación entre el error de salida y los pesos, específicamente los de las capas

internas. Existe un algoritmo denominado Back-Propagation (Rumelhart et al.,

1986) que calcula dichas relaciones y actualiza los pesos.

El algoritmo se lleva a cabo en dos partes. En la primera parte, llamada forward

propagation, se hace pasar una de las entradas etiquetadas hasta que se obtiene a

la salida de la red la respuesta para la señal.

Durante la segunda etapa se calcula la relación que existe entre el error y los

pesos, con el fin de modificarlos para minimizar el error. Por facilidad suponemos

Page 38: Aproximación al aprendizaje humano basado en la teoría de

38

un ejemplo sencillo de una capa escondida con tres neuronas en la capa

escondida y una en la capa de salida, como se muestra en la Fig. 11.

Fig. 11

A continuación se definen los elementos que se muestran en la Fig. 11 y que

servirán como apoyo para explicar el proceso que se lleva a cabo en el algoritmo:

- yk: Salida de la red. El subíndice k indica sugiere la posibilidad de más de una

salida de la red.

- ak : Es la suma de las entradas ponderadas por los pesos de la neurona de la

capa de salida.

- wj: Peso j de la neurona de la capa de salida.

- yj: Salida de la neurona j de la capa escondida.

- aj: Suma de las entradas de la neurona j de la capa escondida ponderadas por

los pesos de dicha neurona.

- wij: Pesos correspondientes a la entrada i de la neurona j de la capa de

entrada.

- En: Será el error producido por una entrada xn específica a la red. Éste error se

calcula con base en los datos de entrenamiento.

Page 39: Aproximación al aprendizaje humano basado en la teoría de

39

Podemos deducir la contribución al error de cada uno de los pesos de la capa

escondida, apoyándonos en la regla de la cadena, de la siguiente manera:

n

jk k k

ij k k k j ij

ay a wE E

w y a w a w

∂∂ ∂ ∂∂ ∂=

∂ ∂ ∂ ∂ ∂ ∂ (8)

Es fácil obtener el valor del primer término en (8) pues el error es calculado en

términos de la salida, además suele ser una función cuadrática fácilmente

derivable, véase Bishop (1995, pp. 194-198).

Sobre el segundo término sabemos que depende exclusivamente de la forma que

tome la función de activación para ésta neurona. En éste punto es importante

aclarar que, en términos computacionales, es más fácil calcular la derivada de una

función sigmoidal como en (5) ó (6), que de una función paso como en (4).

El tercer término es fácil de calcular pues sabemos que:

k j kk

a y w=∑ (9)

en donde yj corresponde a la salida de la neurona j en la capa escondida y wk es el

peso de la entrada k a la neurona de la capa de salida. De (9) podemos observar

que la dependencia de ak en términos de wk es lineal y como consecuencia el

tercer término de (8) es fácilmente calculable.

Para el cuarto término tenemos el mismo caso que en el segundo término con la

excepción de que no todas las relaciones entre wk y aj existen por lo que sus

derivadas toman el valor de 0.

Finalmente el último término se calcula de la misma manera que el tercer término.

Ahora que es posible calcular todos los términos de la expresión (8) el algoritmo

puede actualizar los pesos de la red de una manera parecida a como lo haría el

algoritmo del Perceptrón. Para describir el procedimiento definamos dos términos

que facilitarán la escritura matemática de la actualización:

Page 40: Aproximación al aprendizaje humano basado en la teoría de

40

δj y δk: Se llamarán errores y se definen mediante las siguientes relaciones:

nk

kk k k

nk k

j kj k j

ydE E

da y a

a wE

a w a

δ

δ δ

∂∂= =

∂ ∂

∂ ∂∂= =∂ ∂ ∂

(10)

El algoritmo de actualización debe entonces modificar los pesos de acuerdo a:

ij j i

k k j

w x

w y

ηδηδ

∆ = −

∆ = − (11)

Teniendo éstas definiciones podemos modificar (10) para el caso de la capa de

salida de la siguiente manera:

( )'n

k kk

Eg a

∂=

∂ (12)

Explicaciones más detalladas y variaciones de Back-Propagation en Bishop (1995,

pp. 117-163) y/o Hertz et al. (1991, pp. 115-163) y/o Haykin (1994, pp. 185-201).

Función XOR

Cuando se creó el modelo del perceptrón se tenía la restricción de no poder

realizar sino una función lógica AND y esto limitaba la capacidad computacional de

las neuronas individuales. Sin embargo, cuando se construyeron redes multicapa

fue posible, no solamente implementar la función AND, sino también la XOR. Es

bien conocido que con base a estas dos funciones es posible implementar

cualquier otra función lógica, por lo que el poder computacional de las redes

multicapa se ve altamente incrementado. Bishop (Bishop, 1995, pp. 86,104;

Spitzer, 1999, pp.116).

Algoritmos de poda

Existen algunos otros algoritmos que permiten afinar un poco la respuesta de las

redes multicapa presentadas hasta ahora. Algunos métodos se mencionan en

Page 41: Aproximación al aprendizaje humano basado en la teoría de

41

Bishop (1991, pp. 353-364) y se conocen mediante los nombre de pruning (poda) y

growing (crecimiento). El primero consiste básicamente en la eliminación de las

conexiones de algunas neuronas, tratando de minimizar el error de la respuesta de

la red. El segundo es el caso contrario: se parte de unas pocas neuronas y se van

creando conexiones poco a poco entre ellas, luego se agregan más neuronas, y

así suscesivamente.

Arquitectura dual de redes Multicapa

La implementación del algoritmo de Back-propagation es bastante lenta y tediosa,

por lo que no parece ser posible que el aprendizaje, biológicamente hablando, se

posible llevarse a cabo de ésta manera. Sin embargo, Zipser et al (1990, pp. 197-

199) han propuesto una arquitectura-mixta que tendría una mayor aproximación al

caso biológico y que utiliza la arquitectura de red multicapa manifestada

anteriormente. La técnica consiste, básicamente, en utilizar dos redes: una red

cuya función sería recibir la información, procesarla y brindar una salida tal y como

se hace en el proceso de forward propagation, la arquitectura es exactamente la

misma que la mostrada en la sección de redes neuronales multicapa; la otra

tendría la tarea de modificar los pesos y su arquitectura sería un tanto similar,

aunque en lugar de hacer los cálculos que realizaría el perceptrón, calcularía los

valores de (10) para todas las neuronas (su tarea es realizar el cálculo de los

valores de los errores que antes deducía el algoritmo de back-propagation).

Finalmente, cada neurona sería capaz de “auto-modificar” sus pesos con base en

la información recibida por la segunda red de propagación inversa. Sin embargo,

es justo anotar que la segunda red lleva a cabo cálculos un poco más complejos

que los realizados por el modelo de la neurona (por ejemplo la multiplicación de

señales de entrada). Adicionalmente, la última red mencionada, no cuenta con una

función de activación sigmoidal sino lineal.

Page 42: Aproximación al aprendizaje humano basado en la teoría de

42

Fig. 12

La Fig. 12 muestra la arquitectura de la red que se describió anteriormente. Los

cuadros nombrados como E1...E4 son los encargados de realizar el cálculo del

error de cada una de las neuronas dependiendo de t1 y la salida y1 actuales. Las

líneas punteadas representan la conexión entre las neuronas tal y como se

presentan en la arquitectura descrita en la sección anterior. Las líneas sólidas son

las conexiones entre las neuronas y los bloques de cálculo de error y una más

marcada se hace para distinguirla de la otra.

El funcionamiento se basa en el algoritmo de back-propagation, es decir que

cuando la red se está entrenando, se hace el proceso de forward propagation y

con base a la salida y y a la salida esperada t, se calculan los errores que luego

son pasados a la neuronas de la última capa y a las unidades que calculan el error

en la capa anterior. Allí se calcula el error las neuronas de esa capa, se pasa la

información a las neuronas de ésa capa y a las unidades de la capa anterior y así

sucesivamente, hasta que todas las capas hayan tenido calculado los pesos.

Adicionalmente, mientras se realiza el proceso, las neuronas que reciben la

Page 43: Aproximación al aprendizaje humano basado en la teoría de

43

información de las unidades de error, son capaces de corregir las conexiones entre

éstas y las neuronas de la capa anterior, a menos que sea la capa de entrada en

donde se actualizan las conexiones con las señales de entrada. En éste modelo se

asume que la responsable de darle un peso a la conexión es la neurona después

de la sinapsis, ésta propiedad puede ser una limitante del modelo si se compara

con las sinapsis en la sección que describía las neuronas (página 25 de éste

documento).

En resumen, la red de propagación inversa es capaz de calcular (12) y producir

como salida el resultado de ésta operación, con base en la información

proporcionada por el resultado de la operación, calculan los pesos mostrados en

(11). Una condición importante que se debe tener en cuenta (y que se deriva de la

descripción matemática, referirse a Zipser & Rumelhart, 1990) es que los pesos de

las conexiones de los bloques de error deben ser: 1 para t, -1para y y uij=wji para

las conexiones de las capas escondidas. De ésta manera, al actualizar las

conexiones entre las neuronas de forward-propagation, se deben actualizar

también los pesos de las conexiones de la red de back-propagation.

De éste modelo se deriva una forma diferente para calcular los pesos. Es la

neurona y no el algoritmo el que debe implementar el cambio.

Redes de Hopfield

Otro tipo de red Neuronal muy estudiado, incluso antes de las redes neuronales

multinivel, es la red de Hopfield o tipo Hopfield. Su nombre se da luego de la

contribución de Hopfield (1982) en donde “introduce la idea de Función de Energía

en la teoría de Redes Neuronales” (Hertz et al., 1991).

Una de las aplicaciones más comunes de las redes tipo Hopfield es la memoria

direccionable por contenido. Aunque dicha red tiene otras aplicaciones comunes, la

memoria es la que nos interesa en éste caso.

Una memoria direccionable por contenido es capaz de identificar un elemento

guardado en la memoria a partir de un elemento ruidoso dado, como por ejemplo

Page 44: Aproximación al aprendizaje humano basado en la teoría de

44

parte de una fotografía o una fotografía muy borrosa. En palabras más formales es

capaz de:

Guardar un conjunto de p patrones uiξ -en donde u=1,2,…,p es un patrón e i=1,2,…,N (N será

el número de neuronas) representa el iésimo elemento del patrón12- de tal manera que cuando se presente un nuevo patrón ζi, la red responde produciendo cualquiera de los patrones que se han guardado que mas se parece a ζi. (Hertz, J et al. , 1991, pp. 11).

Las Redes Neuronales tipo Hopfield son redes realimentadas de una capa. Todas

las neuronas dentro de una red de Hopfield están interconectadas entre sí con

pesos wij, con el subíndice ij se indica que la conexión está hecha desde la

neurona i hasta la neurona j. Las única conexión que no es permitida dentro de una

red de Hopfield es en el caso en el que i=j, es decir cuando una neurona se

conecta a sí misma. En la Fig. 13 se ilustra una red de Hopfield de 5 neuronas.

Fig. 13

A partir de la Fig. 13 es posible deducir la ecuación de salida de cada neurona,

asumiendo que cada una es modelada como un perceptrón y que existe un retraso

de una unidad de tiempo entre la salida y la salida. Para una neurona i la salida

será:

,

i ij ji i j

S g w S≠

=

∑ (13)

El algoritmo consiste en utilizar (13) en repetidas ocasiones hasta alcanzar un

punto en el que S se estabilice y de ésta manera la red es capaz de encontrar un

patrón guardado en el lugar en el que se ha estabilizado. La ecuación (13) es

conocida también como regla de evolución.

12 Las anotaciónes entre guiones son comentarios realizados por el autor

Page 45: Aproximación al aprendizaje humano basado en la teoría de

45

El proceso de aprendizaje en las redes de Hopfield difiere bastante con los

enseñados anteriormente. Los pesos son preestablecidos de acuerdo al postulado

de aprendizaje de Hebb13:

1

1 pu u

ij i ju

wN

ξ ξ=

= ∑ (14)

Funciones de Energía

Una forma diferente de ver las redes de Hopfield es mediante el uso de las

funciones de energía. La idea de una función de energía en las redes de Hopfield

es inspirada en las funciones de energía utilizadas para modelar los sistemas

magnéticos. Aunque en redes neuronales el término energía no es el más

preciso, se denominan de ésta manera por la analogía que se hace con dichos

sistemas. “La propiedad central de una función de energía es que siempre

decrece (o permanece constante) mientras el sistema avanza de acuerdo a su

regla de evolución.” (Hertz et Al, 1991, pp. 21).

Si se tiene presente que la función siempre disminuye, es posible utilizar los

mínimos (llamados attractors) de la función para almacenar los patrones

requeridos por la memoria asociativa. La única condición que deben cumplir las

redes de Hopfield con el fin de asociar una función de energía a ellas es que los

pesos deben ser simétricos, es decir ij jiw w= .

La función de energía asociada a una red de Hopfield determinística es14:

13 En Hertz, J et al. (1991, pp. 15-17) es posible encontrar una descripción detallada del procedimiento para

hallar (14). 14 En Hertz, J. et Al (1991, pp. 22) se prueba que la función de Energía (15) siempre decrece.

Page 46: Aproximación al aprendizaje humano basado en la teoría de

46

1

2 ij i jij

H w S S= − ∑ (15)

Capacidad de almacenamiento y Estados Espurios de las Redes de Hopfield

Dentro del conjunto de mínimos de la función de energía de una red de Hopfield

es posible encontrar, además de los que se utilizan para guardar la información

de la memoria asociativa, algunos otros estados que no corresponden a ninguna

información y que se pueden interpretar como ruido.

Existen tres diferentes clases de estados espurios como lo describe Hertz, et al.

(1991, pp. 24). El primero es debido a que un estado de memoria representa Si y

su contraparte –Si. Es decir que el sistema representa a ξi y -ξi en un mismo

“attractor”.

El segundo tipo de estado espurio es debido a la suma de un número impar de

tres patrones. La condición de estabilidad se puede dar en un estado como el

siguiente:

( )1 2 3ss g ξ ξ ξ= ± ± ± (16)

Finalmente, el tercer tipo es debido a una mayor cantidad de estados diseñados

en la red de los que son necesarios, es decir, puedo querer una red de tan solo K

patrones, pero el diseño real se hace de p patrones con p>K.

Existe un error inherente en la respuesta de la red neuronal, debido a estos

estados espurios. El error podrá hacer que el “attractor” para alguna entrada

inicial, la salida no sea la correcta. La probabilidad de que exista ese error puede

ser modificada de acuerdo a la cantidad de elementos que se quieran almacenar

Page 47: Aproximación al aprendizaje humano basado en la teoría de

47

(p) y al número de neuronas (N) de la red.15 Por ejemplo, para lograr una

probabilidad de error de 0.001 el valor máximo de p debe ser 0.105N.

Redes de Hopfield Estocásticas

Hasta ahora se han considerado las denominadas redes de Hopfield

determinísticas, sin embargo, es importante tomar en cuenta las redes de

Hopfield estocásticas ya que dan una versión más real de lo que ocurre a nivel

biológico en el cerebro. La diferencia básica radica en que la probabilidad de la

respuesta de las neuronas tiene la forma de (5), es decir:

( ) 1( 1)

1 exp( 2 )i ii

P S f hhβ β

= ± = ± =+ m

(17)

en donde

,

i ij ji i j

h w S≠

=∑ (18)

En las redes estocásticas no se mide como tal la salida de la neurona después de

su activación, sino la probabilidad de que la neurona tenga valores de +1 y -1. “Es

posible reinterpretar (17) como una función de activación ordinaria con un umbral

aleatorio θ descrito por una densidad de probabilidad dada como ( )'fβ θ .”(Hertz et

al., 1991).

Como anota Hertz et al. (1991), el comportamiento estocástico en las neuronas

reales se puede deber a variaciones en la fuerza de disparo de la neurona, y a

retrasos entre las sinapsis, entre otras causas. Una consecuencia de utilizar

variables aleatorias como salida de las neuronas es que se disminuyen los

estados espurios. El valor de β indica que tan ruidosa es la neurona.

15 En la Tabla 2.1 en Hertz et al. (1991, p. 19) es posible encontrar algunas probabilidades de error de acuerdo

a la relación entre p y N. También se encuentra el procedimiento para hallar los resultados en Hertz et al. (1991, pp. 19-20)

Page 48: Aproximación al aprendizaje humano basado en la teoría de

48

Redes de Hopfield continuas

El tratamiento que se ha hecho en las redes de Hopfield hasta ahora ha sido en

tiempo discreto. Sin existe un modelo de red de Hopfield en tiempo continuo que

se aproxima más al funcionamiento biológico del cerebro.

Siguiendo la notación de Hertz et Al. (1991) los valores de salida para la neurona i

será renombradas como Vi y sus entradas como ui. De ésta manera (13) se

redefinirá como:

( )i i ij jj

V g u g w V

= = ∑ (19)

en donde la función g puede estar descrita por (5) ó (6).

Las salidas de las neuronas pueden ser actualizad as de tres maneras diferentes:

asincrónicamente (en donde se selecciona únicamente una neurona para ser

actualizada), sincrónicamente (todas las neuronas se actualizan al mismo tiempo)

y de manera continua, en donde todas las neuronas cambian continuamente y

sincrónicamente.

La forma de actualización continua puede ser descrita mediante la siguiente

ecuación:

( )ii i j j

j

dVV g wi V

dtτ = − + ∑ (20)

Hertz(1991, pp.54, 56-57) demuestra que el comportamiento de la ecuación (20)

contiene los requeridos “attractors” para poder describir la red de Hopfield.

La función de energía de la red de Hopfield continua como la describe Hopfield

(1984) es:

Page 49: Aproximación al aprendizaje humano basado en la teoría de

49

( )1

0

1

2

Vi

ij i jij i

H w VV g V dV−= − +∑ ∑∫ (21)

Máquinas de Boltzman

Las máquinas de Boltzman son redes neuronales recurrentes, es decir, las

conexiones entre las diferentes neuronas se permiten de atrás hacia adelante y de

una neurona a sí misma. Como comenta Hertz et al. (1991, pp. 163), las redes

recurrentes no necesariamente son estables, incluso para entradas constantes.

En particular, las maquinas de Boltzman requieren, como las redes de Hopfield

anteriormente mencionadas, que las conexiones entre las neuronas sean

simétricas ( ij jiw w= ). Hertz et al. (1991) agrega que éste tipo de redes se pueden

considerar como redes de Hopfield que tienen capas escondidas y señala que las

neuronas son clasificables de tres formas a saber como: unidades escondidas,

unidades de salida y unidades de entrada.

Fig. 14

En la Fig. 14 se visualiza un ejemplo de máquina de Boltzman. Las líneas entre

neuronas indican la conexión entre ellas en ambas direcciones. Aunque las

conexiones no están completas, la figura ilustra la similitud que existe con el

perceptrón multinivel (presentada en la Fig. 8).

Page 50: Aproximación al aprendizaje humano basado en la teoría de

50

Otra condición que deben cumplir las neuronas en las máquinas de Boltzman es

que son estocásticas, es decir que la salida de cada neurona está determinada,

como en las redes de Hopfield estocásticas, mediante las ecuaciones (17) y (18).

Existe una función de energía definida como en (15) que tiene un mínimo cuando

el sistema es estable.

Como da a entender Hertz et al. (1991), para describir ésta red es necesario definir

la distribución de Boltzman-Gibbs que da la probabilidad de encontrar el sistema

en un estado en particular después de que se ha alcanzado un estado estable y

por la cual se deriva el nombre de éste tipo de red recurrente. La distribución está

definida como:

( ) { }( )exp ii

H SP S Z

β−= (22)

en donde,

{ }( ){ }

exp iSi

Z H Sβ= −∑ (23)

En el proceso de aprendizaje de una red de éste tipo, lo que se trata de hacer es

que las conexiones entre cada una de las neuronas se ajusten de tal manera, que

las unidades de entrada y de salida tengan una función de probabilidad específica.

El proceso de aprendizaje de una máquina de Boltzman es lento por el número de

cálculos que se deben realizar en parte porque es un proceso estocástico. Dentro

de los usos más comunes de éste tipo de redes se encuentra el reconocimiento de

patrones. Sin embargo por su complejidad se utiliza más el perceptrón multinivel

que este tipo de redes.

Técnicas de Aprendizaje no supervisado

Como se mencionó anteriormente, existe un tipo de aprendizaje que no requiere

una entrada externa que diga si el “concepto” aprendido es correcto o no. El

sistema, toma las entradas y mediante un análisis, es capaz de actualizar los

Page 51: Aproximación al aprendizaje humano basado en la teoría de

51

pesos sin necesidad de un “oráculo” que conteste a la pregunta de si es o no

correcta la salida que está produciendo. Ya se ha dicho que éste tipo de

aprendizaje se denomina aprendizaje no supervisado. A continuación se describen

una serie de algoritmos y redes que permiten obtener un aprendizaje no

supervisado.

Dentro de las redes neuronales que se basan en el aprendizaje no supervisado,

podemos encontrar cierto tipo de redes que aprenden mediante competencia.

Como comenta Fausett (1994), el tipo de competencia más utilizado es el

denominado winner takes all en donde al final del proceso de aprendizaje, queda

una neurona que se activa dada una entrada específica; las neuronas restantes no

son activadas por el patrón de entrada, aunque pueden activarse para otros

patrones.

Se han investigado varias redes de éste tipo y dentro de los más conocidos

algoritmos se encuentran MAXNET, Mexican Hat, Hamming Net, las redes de

Kohonen, LVQ (Learning Vector Quantization), Counterpropagation y Adaptive

Vector Resonance. A excepción de las redes de Kohonen, las otras arquitecturas

tienen una construcción demasiado ceñida y en general no parecen ajustarse a

ninguna arquitectura posible en el cerebro, razón por la cual, van a ser de utilidad

en la investigación. (si se desea profundizar sobre la arquitectura y los algoritmos

de éstas redes en Hertz et. al (1991) se encuentra una buena explicación).

Existen redes neuronales en las que se combinan redes de aprendizaje

supervisado y de aprendizaje no supervisado. Como describe Hertz et al (1991) la

técnica consiste, en general, en tener una capa de neuronas que aprenden de

forma no supervisada y varias capas que se entrenan con el algoritmo de Back-

Propagation. La red mencionada anteriormente “counterpropagation” es realmente

una técnica híbrida.

Page 52: Aproximación al aprendizaje humano basado en la teoría de

52

Mapas de Kohonen

Los mapas de Kohonen (Kohonen self-organizing maps como los llama Fausett

(1994)) pertenecen a un grupo de redes neuronales denominadas “redes

neuronales basadas en la competencia” (Fausett, 1994). Éste tipo de redes

neuronales se caracteriza por la existencia de una neurona que tenga una

activación mayor dado un estímulo, es decir, si se presenta una entrada a la red

neuronal, habrá una neurona con un mayor nivel de activación y se denominará

‘neurona ganadora’. El aprendizaje de este tipo de redes neuronales se basa en el

denominado aprendizaje de Kohonen. El aprendizaje de Kohonen consiste en la

actualización de los pesos “formando un nuevo vector de pesos que es una

combinación lineal de los pesos anteriores y del vector de entradas actual”

(Fausett, 1994, pp. 157).

La arquitectura básica de un mapa de Kohonen se podría describir como un

perceptrón de una capa con n numero de entradas. La función de activación en los

mapas de Kohonen es lineal es decir, la salida de cada neurona es ij iy w x=∑ . Un

diagrama que evidencia la arquitectura de un mapa de Kohonen con 4

perceptrones, o como las llama Kohonen (1982), unidades de procesamiento, se

expone en la Fig. 15.

Fig. 15

A diferencia del entrenamiento realizado para un perceptrón, en donde la

actualización de los pesos depende del error obtenido por la red, las redes de

Page 53: Aproximación al aprendizaje humano basado en la teoría de

53

Kohonen modifican los vectores de pesos de cada uno de los perceptrones

basadas en la unidad que tenga una mayor magnitud en su respuesta, osea la

neurona ganadora. Para tal efecto debe existir un mecanismo que detecte la mayor

respuesta y sea capaz de actualizar los pesos de la neurona ganadora, de la

siguiente manera:

( )( ) ( )( ) ( )

1 ijij

ij

w t x tw t

w t x t

α

α

++ =

+ (24)

En donde el numerador representa la normalización de la operación y α es

denominado el parámetro de ganancia. Dicha normalización como se anota en el

paper original (Kohonen, 1982) ayuda a incrementar la selectividad y ayuda a

mantener los recursos dentro de un rango definido. En el mismo paper anota la

diferencia existente con el perceptrón, que es, básicamente, que “la dirección de

las correcciones es siempre la misma que la dirección de x” y que por lo tanto no

se requiere un proceso de supervisión.

Sin embargo en la mayoría de los casos no se actualiza únicamente la neurona

ganadora, tambien se suelen actualizar algunas neuronas cercanas a la ganadora

dentro de un radio especificado. Para hacer esto posible se debe asumir una

“estructura topológica de las unidades de agrupamiento” (Fausett, 1994). Las

estructuras utilizadas en la mayoria de los casos son cuadrados o hexagonos como

se muestra en la Fig. 16 en donde el circulo en blanco representa la neurona

ganadora y los circulos negros representan los vecinos. Cada rectángulo o

hexágono representa un radio, asi el Radio 0 involucra unicamente a la neurona

ganadora, el Radio 1 representa a los vecinos más cercanos, el radio 2 involucra a

los vecinos más cercanos y los vecinos más cercanos de las neuronas de radio 1.

Page 54: Aproximación al aprendizaje humano basado en la teoría de

54

Fig. 1616

Al finalizar el procedimiento de entrenamiento de los mapas de Kohonen lo que se

obtienen son neuronas especializadas que se activan ante ciertas entradas y que

pueden identificar entradas parecidos a los datos con los que fue entrenada. Las

neuronas que se activan, dada una entrada específica se localizan ‘físicamente’

dentro del arreglo neuronal. Ésta característica es bastante importante ya que se

asimila mucho a los mapas trazados en el cerebro, de los cuales ya se ha hablado

y se se hablará más adelante, con el fin de realizar comparaciones.

Campos neuronales auto-organizativos

Aunque el siguiente modelo no corresponde con exactitud a un modelo de redes

neuronales artificiales, sino un modelo mátematico del comportamiento de los

campos neuronales biológicos, se analiza en ésta sección porque su pertinencia y

por que se considera que es más fácil de entender con los conceptos que se han

estudiado. Es importante aclarar que NO es un modelo artificial.

Recuerde que Amari(1990) definió un campo neuronal como “un trozo de tejido

cortical en el que muchas neuronas son continuamente organizadas”.

Matemáticamente hablando denomina F a un campo de éstos. Además puede

direccionar un punto del campo mediante las coordenadas ( )1 2,ξ ξ ξ= , suponiendo,

16 Diagramas basados en las Figuras 4.7 y 4.6 en Fausett (1994, pp. 171)

Page 55: Aproximación al aprendizaje humano basado en la teoría de

55

en principio que el campo es de dos dimensiones únicamentre. Se define ( ),u tξ

como potencial promedio alrededor de la posición ξ en el tiempo t.

La ecuación (25) describe la dinámica del potencial de un campo. En ella V

representa la suma de los estímulos de entrada del campo en la posición ξ y el

tiempo t, h es el potencial de descanso y τ es la constante de tiempo de la

ecuación.

( ) ( ) ( )

,, ,

u tu t V t h

t

ξτ ξ ξ∂

= − + −∂

(25)

Similar a la salida de un perceptrón, se definen el promedio de salidas z en la

posición ξ y el tiempo t como se muestra en la ecuación (26) la forma de un paso

tal y como se describe en la ecuación (27)

( ) ( )z ,t ,f u tξ ξ= (26)

1 0

( )1 0

si ag a

si a

− <=

≥ (27)

Adicionalmente, las neuronas del campo pueden recibir estímulos de neuronas

internas y externas, por lo que es necesario definir dos clases de conexiones. Para

las neuronas internas, el promedio de los pesos de la conexiones eficaces se

define mediante w(ξ,ξ’), en donde ξ corresponde a la posición del campo

“presináptica” y ξ’ la posición del campo postsináptica. El conjunto de conexiones

que reciben los estímulos externos es definido como ( ) ( ) ( ) ( ){ }1 2, ,..., ns s s sξ ξ ξ ξ= ,

en donde n es la dimensión del estímulo provenientes del exterior y los subindices

corresponden a la unidad de estímulo que conecta al campo en la posición ξ. El

estímulo es definido como un conjunto de unidades de estímulo de la siguiente

manera: { }1 2, ,..., nx x x x= .

Page 56: Aproximación al aprendizaje humano basado en la teoría de

56

La suma de los estimulos internos del campo, en la posición ξ es definida como la

convolución entre los pesos y la función de activación de las neuronas

presinapticas en ξ’. La definición formal se muestra en la ecuación (28)

( ) ( ) ( ), ,w f u w f u t dξ ξ ξ ξ′ ′ ′= ∫o (28)

Adicionalmente, la contribución de los estimulos es:

( ) ( ) ( ), o oV x s x s xξ ξ ξ= − (29)

en donde el úitlimo término se refiere a la eficacia de las neuronas inhibitorias.

La ecuación que muestra la dínamica del campo queda, teniendo en cuenta las

anteiores definiciones, de la siguiente manera:

( ) ( ) ( )

,, ,

u tu t w f V t h

t

ξτ ξ ξ∂

= − + + −∂

o (30)

Ésta ecuación da una idea del comportamiento del potencial cuando ocurren

estímulos en el campo por medios externos y por medios internos.

Para resolver la ecuación se supone un estado de equilibrio arbitrario para el

potencial. El resultado es una ecuación exponencial dependiente del tiempo,

alrededor del punto ξ con constante τ.

En general el resultado de activar un punto específico ξ tiende a activar, en menor

medida, una región alrededor del mismo. Ésta región se denomina E(x) y se define

como:

( ) ( ){ }, 0E x U xξ ξ= > (31)

en donde U(ξ,x) representa el punto de equilibrio del que se había hablado para

dar solución a la ecuación (30)

Page 57: Aproximación al aprendizaje humano basado en la teoría de

57

Adicionalmente el modelo exige que las conexiones efectivas de las neuronas

dentro del campo son excitatorias si el grupo de neuronas en ξ’ están en un radio

pequeño y son inhibitorias si se presentan fuera de ése radio. Esto implica que el

conjunto de señales externas que activan la región E(x) debe ser bien preciso,

pues si no lo fuera excitaria neuronas en otros puntos que inhibirían la respuesta

del E(x) y no alcanzarían a cruzar el umbral para obtener la respuesta z en 1 de las

neuronas en ξ.

Con el fin de introducir la modificación de las conexiones provenientes del exterior

al campo F, Amari introduce una ecuación que describe un decaimiento de la

eficacia de la conexión con una constante de tiempo muy grande y un incremento

proporcional a la intensidad de la señal si la neurona se activa. A continuación se

presenta la ecuación:

( ) ( ) ( )

,, ,

s ts t cxf u x

t

ξτ ξ ξ∂′ = − + ∂

(32)

en donde c es una constante. Para so se tiene una ecuación de la misma forma,

con una constante c’. SI ahora se analiza cual es el cambio de la suma de los

estimulos dado que existe un cambio en los pesos, se obtiene una ecuación de la

forma:

( ) ( ) ( ),

, ( , ') ,V t

V t k x x U xt

ξτ ξ ξ∂′ = − + ∂ (33)

en donde

( ), ' 'tok x x cx x c x= ⋅ − (34)

Éste resultado es particularmente interesante, pues el cambio de la suma de las

señales de externas depende de lo parecidas que sean.como puede verse en (34).

Entre más parecidas sean las señales, mayor va a ser el cambio en V. Esto no es

más que aprendizaje.

Page 58: Aproximación al aprendizaje humano basado en la teoría de

58

D. Comparación entre el modelo artificial y los modelos biológicos.

Existen tres niveles de análisis para los sistemas de procesamiento de información

para David Marr. Estos niveles están descritos con profundidad en Grobstein

(1990) y se explica con brevedad a continuación.

1) Teoría computacional: En este nivel Marr (1982) mira el sistema como uno

que mapea información de un tipo en otro tipo, resuelve detalladamente las

propiedades del mapeo y demuestra si el mapeo es o no apropiado para la

tarea que realiza el sistema.

2) Representación y algoritmo: En éste nivel se decide cuales deben ser los

símbolos y los pasos que se van a utilizar para dar solución al problema. En

el caso concreto que estamos tratando sería, por un lado las redes

neuronales artificiales, la representación de las conexiones, la forma en que

van a ser almacenadas en memoria, etc.; y por el otro, serían preguntas no

completamente resueltas como ¿cómo representa la información el

cerebro?,¿Por qué se crean conexiones en el cerebro y bajo que

condiciones?, entre otras.

3) Implementación en Hardware: En éste nivel se resuelve la pregunta ¿cómo

implementamos el algoritmo planteado físicamente? Para el caso artificial se

cuenta con opciones como un computador personal o mediante circuitos

eléctricos que trabajen en paralelo; para el caso biológico el Hardware es el

cerebro (como unidad más importante) y en general el Sistema Nervioso

Central.

En éste documento nos hemos centrado hasta ahora en los niveles 2

(representación de las conexiones y algoritmos que procesan la información y

modifican las conexiones) y 3 (anatomía general del cerebro y las neuronas) que

Marr plantea. Sin embargo no se puede decir que se conocen con certeza todas

las respuestas, pues, por un lado es claro que la fisiología del cerebro y su

funcionamiento no ha sido totalmente explorada (por ejemplo no se conocen con

Page 59: Aproximación al aprendizaje humano basado en la teoría de

59

certeza las funciones de partes concretas o la arquitectura de la conexión

neuronal). Por otro lado, se ha propuesto una teoría sobre la relación entre

neuronas, se han desarrollado algoritmos y arquitecturas, se han desarrollado

modelos que permiten describir, desde el punto de vista psicológico, la codificación

de la información; pero no conocemos un algoritmo que sirva para describir el

aprendizaje de la red neuronal que pueda ser implementado en el cerebro ni la

validez absoluta de los modelos planteados.

El problema que tenemos en el primer nivel es también difícil de resolver: no se

conoce exactamente la forma en que la información es codificada en el cerebro y

por lo tanto no se puede establecer exactamente una relación entre el tipo de

información recibida y el modo como es ésta es procesada.

A continuación se mostrará que preguntas se han resuelto sobre el cerebro,

viéndolo como una gran red neuronal. Se enseñarán similitudes, diferencias y

dificultades entre los modelos biológico y artificial.

Debates entre la psicología y la ciencia computacional

Existe una rama de la psicología denominada psicología cognitiva que incluye la

investigación del aprendizaje como un sistema de procesamiento de la información

y una investigación sobre la diferencia entre la mente (consciencia) y el cerebro. En

la psicología cognitiva se utiliza un lenguaje diferente al que se utiliza en otras

ramas de la psicología. Comentan Hardy & Jackson (1998) al respecto que el

vocabulario utilizado incluye palabras como entrada, salida, procesamiento de

información que fueron inspiradas en la forma en que se habla de un computador y

las funciones que en él se llevan a cabo. Perkel (1990), agrega que se han

utilizado metáforas para describir el funcionamiento del cerebro con base en la

experiencia adquirida en el campo computacional y viceversa. Señala además que

dicha comparación se originó, en parte, por la demostración, en 1943 por

Page 60: Aproximación al aprendizaje humano basado en la teoría de

60

McCulloch y Pitts, de que una red neuronal es capaz de realizar cualquier tarea

que un sistema de entrada-salida pueda hacer.

Tenemos entonces metáforas que tratan los problemas de un lado utilizando

herramientas del otro y proponen debates como los planteados por Searle (1990) y

Churchland & Churchland (1990) sobre si debe considerarse el cerebro humano

como una máquina o si una máquina es capaz de pensar.

Perkel recalca, sin embargo, que dichas metáforas pueden aplicarse en ambos

casos siendo útiles para describir los otros sistemas, pero que en ningún caso

podrá describir completamente al otro. Podría entonces ser útil aplicar el caso de

las redes neuronales artificiales a entender el funcionamiento del cerebro.

A continuación se presentan las diferencias que existen entre el modelo artificial y

el natural: Se comenzará mencionando las que se encuentran en el último nivel de

Marr, el Hardware; luego se iniciará la discusión sobre el segundo nivel; y

finalmente se hablará del primer nivel.

Tercer nivel: El Hardware

Serial vs. paralelo

En primer lugar es necesario mencionar que el procesamiento de la información

en el cerebro se hace en forma paralela, mientras que en un computador el

procesamiento es serial, aunque la simulación sea de un proceso en paralelo. El

computador es un emulador de procesamiento en forma serial de un proceso en

paralelo.

El cerebro puede ser visto como un computador, como sugieren Churchland et al.

(1990), para quienes es muy importante resaltar que el cerebro no es un

computador serial. La sugerencia que se presenta en el trabajo de ellos es tratar

de ver el funcionamiento como un computador paralelo. De hecho hay psicólogos

que utilizan la metáfora computacional insinuando que el cerebro humano se

Page 61: Aproximación al aprendizaje humano basado en la teoría de

61

puede ver como una serie de computadores que trabajan independientemente.

(Gardner, 1993)

Mapas vs. Neuronas

Recordemos que en las investigaciones de neurología el cerebro parece procesar

la información en estructuras cilíndricas que contienen un gran número de

neuronas. El modelo artificial es supremamente simplificado en éste aspecto pues

una neurona puede simular el funcionamiento de una de éstas columnas

únicamente, como se hace en el caso de los mapas de Kohonen. La actividad de

gran número de neuronas puede asegurar una arquitectura más robusta, en el

sentido en que puede perder varias neuronas y las columnas pueden seguir

funcionando muy bien.

Unidades de procesamiento

Otro punto a tratar son las unidades de procesamiento para ambos casos:

aunque en la literatura en general es común comparar el numero de transistores

de un procesador con el número de neuronas existentes en el cerebro y la

velocidad con la que realizan el procesamiento de la información, ésta

comparación no es del todo correcta pues, aunque es claro que los transistores

en el computador son las unidades de procesamiento de la información, también

es claro que éstos no la procesan de la misma manera que lo hacen las neuronas

(o desde el punto de vista de Shepherd (1990), la sinapsis). La unidad

computacional en ambos casos es diferente y cumple diferentes funciones

específicas para llevar a cabo su tarea.

Adicionalmente, la neurona en el cerebro solamente cumple una función

inhibitoria o excitatoria que es una característica que depende de la química de la

célula y que no cambia con el tiempo o con el entrenamiento que tenga. Sin

embargo, en todos los algoritmos estudiados surge la posibilidad de que las

neuronas puedan tener ambas características dependiendo del entrenamiento

que se le dé; es decir, una neurona puede tener inicialmente naturaleza

Page 62: Aproximación al aprendizaje humano basado en la teoría de

62

inhibitoria, pero después de un entrenamiento puede ser excitatoria. Ésta

posibilidad es totalmente errónea y es un limitante del modelo artificial, pues no

concuerda con las observaciones del cerebro. Chown (s.f.)

Constante de aprendizaje y recorte de neuronas

Una cuestión que se debe discutir en éste nivel es la constante de aprendizaje

decreciente de la que se habló en la sección del entrenamiento supervisado del

perceptrón. Aunque ésta cuestión, desde el punto de vista de inteligencia artificial

parece tener cabida en el software del sistema, desde el punto de vista del

cerebro no parece formar parte del software sino del hardware, pues en las

primeras etapas del desarrollo el cerebro parece estar más acondicionado para

realizar tareas de aprendizaje que un cerebro de mayor edad (Spitzer, 1996, pp.

51-53).

Igualmente, comenta Spitzer (1996), que la tasa de mortalidad de las neuronas

en el cerebro es bastante alta y parece poco probable que el cerebro sea capaz

de generar nuevas neuronas17. No obstante, somos capaces de retener la misma

información que teníamos cuando éramos más jóvenes, de pronto no con el

mismo grado de agudeza, pero la información sigue estando “almacenada en las

conexiones” que restan en el cerebro. Ésta característica tolerante a fallos se da

también en las redes neuronales artificiales. Ya se ha visto en la sección

Algoritmos de poda

que existe un algoritmo de pruning que recorta algunas conexiones en el cerebro

y no solamente no causa daños en la respuesta de la red, sino que además

puede para mejorar su respuesta18. Cuando el recorte neuronal es demasiado

17 Aunque desde principios de los años 60 se vienen presentado algunos estudios sobre la posibilidad de la neurogénesis (nacimiento de neuronas) incluso después del nacimiento de un animal, todavía no se tiene una teoría lo suficientemente fuerte para poder dar por sentado éste hecho (Véase NINDS (2006b)). Si ésta cualidad de regeneración de neuronas fuera plausible, podría suponer la posibilidad de implementación de algoritmos de crecimiento (como los comentados en la sección Algoritmos de poda

en la página 40 de éste documento) para el entrenamiento o el aprendizaje de las redes neuronales. 18 Se debe tener claro que en el algoritmo de pruning, la intención es hacer menos compleja la red y en parte

mejorar la respuesta de la misma. Por ésta razón se realiza una búsqueda de las conexiones menos relevantes en la red (con pesos más pequeños) como describe Bishop (1995). En el caso del cerebro no se realiza una

Page 63: Aproximación al aprendizaje humano basado en la teoría de

63

grande, sin embargo, la respuesta va a ser menos coherente con la respuesta

que se espera. Lo importante aquí es señalar que las redes neuronales pueden

funcionar bien incluso cuando porciones de sus conexiones (después de

entrenadas) han sido recortadas. Hardy & Jackson (1996) comentan el caso del

secretario de Prensa de Reagan, “quien recibió un disparo en la cabeza durante

el intento de asesinato de Reagan… Pese a la lesión cortical masiva, la

personalidad la inteligencia de Brady [el secretario] están razonablemente

intactas”.

Arquitecturas

Una dificultad muy grande es que no existe claridad sobre la arquitectura exacta

del cerebro (o de partes de él), pues, como comenta Young (1985) no se conoce

exactamente el procesamiento que realizan las células cuando alguien o algo

decide llevar a cabo una acción. Spitzer (1999) comenta al respecto: “Los

investigadores no saben exactamente como se ven las células, en donde se

encuentran exactamente en la corteza, o, en particular, como y donde se

conectan sus fibras” y agrega que existen métodos nuevos de estudio como son

el PET (positron emission tomography), el EEG (electroencefalolgrama), la fMRI

(functional magnetic resonante imaging), entre otros que sirven de herramienta

para “ver” el cerebro funcionando, desde el exterior. Además, existen modelos,

con base en experimentos, que han dado lugar a arquitecturas como las descritas

en la sub-sección de mapas de la corteza que toman una porción bastante

grande de células, pero aún así no se conoce la conexión exacta entre las

células, lo que hace difícil la comparación.

Existen algunas arquitecturas que cumplen funciones similares a las estudiadas

en la sección de aprendizaje humano, como condicionamiento clásico, o

condicionamiento operante. Inclusive Hardy & Jackson (1998, pp. 339-340)

mencionan la existencia de un modelo conexionista del hipocampo desarrollado

selección detallada de las neuronas que menor relevancia tengan, por lo que hay una clara diferencia entre las dos formas de recorte.

Page 64: Aproximación al aprendizaje humano basado en la teoría de

64

por Schmajuk (Hardy & Jackson mencionan el trabajo Schmajuk y DiCarlo, 1992).

Sin embargo, estos modelos están basados más en función de la tarea que

deben cumplir que en una arquitectura real existente en el cerebro. A

continuación se presenta una breve descripción de ellos las arquitecturas de una

red que simula condicionamiento clásico y el modelo conexionista mencionados,

Modelo de condicionamiento clásico

Un modelo de condicionamiento clásico, basado en la arquitectura de redes

neuronales artificiales, es descrito en Hardy & Jackson (1998, pp. 312-315). La

arquitectura es verdaderamente sencilla. Básicamente es un perceptrón con dos

entradas (véase la Fig. 17): uno es el estímulo incondicionado y el otro es el

estimulo condicionado. Antes del condicionamiento, la conexión entre el EI y la

neurona es nula o ajustada de tal manera que el estímulo no sea capaz de

disparar la neurona, sin embargo el peso de la conexión entre EC y la neurona es

lo suficientemente grande como para lograr una respuesta en ella. Después de

que el individuo ha sido condicionado cualquiera de los dos estímulos es capaz

de producir respuesta en la neurona.

Fig. 17

Con éste modelo es posible tener un mayor número de estímulos condicionados

que pueden ser añadidos agregando más entradas al perceptrón, sin embargo, si

se diera un caso de condicionamiento en donde dos estímulos produjeran una

respuesta condicionada, pero solamente estando presentes uno a parte del otro

(es decir con los dos estímulos al tiempo no se produce respuesta), la

arquitectura de la Fig. 17 no sirve para describir el funcionamiento. Tenemos, en

éste caso el mismo problema que se describió en la sección de la función XOR

descrita anteriormente. En éste caso es necesario tener una red de dos capas

(véase Fig. 18) que, además de solucionar el problema de selección de la

respuesta dependiente de un estímulo condicionado únicamente, también se

Page 65: Aproximación al aprendizaje humano basado en la teoría de

65

puede “condicionar” primero con un estímulo y luego con el otro mediante

entrenamientos separados, como suelen darse los procesos de

condicionamiento. (Hardy & Jackson, 1999, pp. 312-315)

Fig. 1819

Sobre éste modelo es necesario decir que la conexión entre N1 y N2 debe ser

inhibitoria, pues sólo de ésta manera se lograría implementar la función XOR

necesaria para que se discriminen los estímulos condicionados entre ellos.

Un modelo más completo conocido como modelo S-D (Schmajuk-DiCarlo) que

toma en cuenta el contexto en el que se desarrolla el (o los) estímulos

condicionados será descrito más adelante en la sección que analiza el hipocampo

(página 70 de éste documento)

Rosenzweig et al. (1998, pp.673-676) mencionan un modelo que proviene de la

observación de la actividad neuronal de la reacción a un estímulo condicionado.

Se le describe mediante neuronas simples dentro del cerebelo y las conexiones

necesarias para que el estímulo pueda llegar hasta ése lugar. El caso que se

menciona es, específicamente, el condicionamiento del ojo a un parpadeo

involuntario (RC) con una variedad de estímulos condicionados. El modelo fue

elaborado por Thompson (1990), basado en estudios realizados por él y algunos

colaboradores de animales con lesiones en el cerebelo y con animales

intencionalmente drogados o con partes cerebrales extraídas. En la Fig. 19 se

muestra el modelo (que he simplificado para hacerlo más parecido al lenguaje y la

simbología utilizados en éste documento), en donde no se puede apreciar, como

en el modelo original, con detalle la ubicación de las neuronas en el cerebro y,

19 Tomado y modificado de Hardy & Jackson (1999, pp.314)

Page 66: Aproximación al aprendizaje humano basado en la teoría de

66

adicionalmente, se han recortado algunas neuronas intermedias entre las

neuronas de la capa interior y la capa exterior20. Funcionalmente, las neuronas

recortadas pueden ser reemplazadas por una sola neurona modificando los

pesos de las conexiones, pues son neuronas con una sola entrada y una sola

salida.

Fig. 1921

Es clave observar que en el modelo existen signos que indican la naturaleza de la

conexión (excitatoria o inhibitoria) y que existe una conexión recíproca entre las

neuronas de la capa interior. Adicionalmente se señalan (mediante color gris) las

neuronas que actúan en el acto reflejo cuando existe un estímulo incondicionado

únicamente. La neurona N2 se refiere al área del cerebelo que desarrolla el

condicionamiento. Thompson cree que existe un área precisa que es plástica (en

donde se pueden modificar las conexiones, quizá mediante LTP) y da origen al

condicionamiento. La conexión inhibitoria entre N2 y N1 asegura la activación de

la RC únicamente por el EC.

Modelo de la memoria

Si se acepta el modelo de la memoria presentado en la sección Memoria de

Elementos de psicología del aprendizaje, se puede hacer un bosquejo de la

estructura neuronal de éste modelo.

20 Las neuronas recortadas conectaban neuronas de las capas de salida y neuronas del cerebelo, sin embargo no

estaban conectadas a ninguna otra. Su función se puede reemplazar por pesos adecuados entre esas neuronas. Adicionalmente, la red aquí estudiada permite comprender en términos generales el funcionamiento que pretende mostrar el autor.

21 Basado en el modelo de Thompson, en Rosenzweig (1996, pp. 673)

Page 67: Aproximación al aprendizaje humano basado en la teoría de

67

El primer lugar en la recepción de estímulos es la memoria sensorial. Allí se lleva

a cabo el almacenamiento de la información sensorial por un periodo corto de

tiempo. El modelo que se podría pensar haría tal tarea podría ser el mismo que

guarda la información en la memoria a corto plazo y que será discutido más

adelante. Para pasar la información a la memoria a corto plazo se debe filtrar la

información existente en la memoria a corto plazo. El procedimiento se puede

bautizar como un pre-procesamiento de las señales de entrada (como es

conocido en el lenguaje de Machine Learning) y que toma la información más

importante de las señales recibidas para procesarlas con mayor facilidad, pues la

cantidad de información recibida por las células sensoriales es demasiado grande

y no puede procesarse al mismo tiempo. Según Hardy & Jackson (1998, pp.117-

132) en la memoria sensorial se lleva a cabo un proceso de selección de la

información que debe ser enviada a la memoria operativa. Existes varias formas

de llevar a cabo ésta selección de la información, entre estas están la atención y

el reconocimiento de patrones. De la atención el autor señala que “se ha

conceptualizado de dos formas [:]… estado de concentración en algo… [y]

…como capacidad de procesamiento, que puede distribuirse a diferentes

estímulos y actividades en distintas formas” (pp. 118)22.y sobre el reconocimiento

de patrones menciona que es la forma en como se perciben y se reconocen los

estímulos con base en información almacenada anteriormente.

En general, el reconocimiento de patrones se modela con redes multicapa sin

realimentación (aún cuando podrían implementarse con una máquina de

Boltzman), por lo que se puede utilizar una red de éste tipo aún cuando sería

mejor darle la arquitectura dual descrita en la página 41 de éste documento, pues

solucionaría el problema de implementación del aprendizaje mediante back-

propagation.

Sin embargo, comentan Zipser & Rumelhart (1990) que se presenta un problema,

pues la respuesta que dan los bloques de error pueden ser positivos o negativos,

22 Retomaremos la cuestión de la atención cuando se analice el segundo nivel de Marr

Page 68: Aproximación al aprendizaje humano basado en la teoría de

68

pero esto no es posible en la implementación neuronal real, a menos que se

puedan diferenciar unas de otras mediante una codificación especial23.

Ahora bien, la memoria a largo plazo puede tener diferentes modelos de red, o

mejor, diferentes tipos de red distribuidas en subredes de la gran red

conformando la memoria a largo plazo. Conocemos con bastante profundidad el

potencial de las redes de Hopfield para guardar información y además de poder

recuperar la información por el contenido que hay en ella (la memoria) y no como

se recupera en un computador: indicando la posición de memoria de la que se

desea extraer la información.

Sin embargo, si tenemos en cuenta la existencia de mapas en la corteza cerebral

y el modelo jerárquico que se discutió en la presentación de la memoria a largo

plazo, es válido esperar que la memoria de éste tipo se pueda modelar como un

mapa de Kohonen o como un tipo de red competitiva como los mencionados en la

página 51. En el modelo se pueden tener en cuenta ambas arquitecturas.

Finalmente es necesario mencionar como se podría modelar la memoria a corto

plazo. En White et al (2004) se explica un modelo planteado por Jaeger (2001) y

se prueba que la capacidad de la memoria es proporcional al tamaño de la red.

La arquitectura, como la comentan White et al (2004) tiene una capa, con N

neuronas { }1... NX x x= , que guardan el “estado” de la memoria, y una capa de M

neuronas de salida { }1... MY y y= , de donde se puede obtener una copia similar a

la señal de entrada. El conjunto de neuronas X permite conexiones entre ellas

como en el caso presentado en la máquina de Boltzman, mientras que las

neuronas de salida Y permiten conexiones únicamente del conjunto de neuronas

Y. La señal de entrada, s(n), cambia con el tiempo discreto n y la red es capaz de

obtener “una copia de la historia de las señales ( ){ }s m m n≤ ” (White et al, 2004)

similar a la señal de entrada. La ecuación que describe el estado de la red es:

23 Al analizar el segundo nivel de Marr se profundizará sobre la codificación de la información en el cerebro.

Page 69: Aproximación al aprendizaje humano basado en la teoría de

69

( ) ( ) ( ) ( )1x n Wx n vs n z n= − + + (35)

en donde W24 son los pesos entre las neuronas X, v es el vector de conexiones

entre la señal de entrada y las neuronas X (la condición que debe cumplir es que

su norma sea 125) y z es un factor de interferencia, que simula la pérdida de los

datos en memoria (ruido). Adicionalmente, es necesario definir las conexiones

entre las neuronas de la primera capa y la capa de salida mediante una matriz

u(k,j), en donde k representa una neurona de la capa de salida y j representa una

neurona de la capa X. Los valores de u se escojen de tal manera que se minimice

el error entre la señal de entrada y la salida, después de un manejo matemático

se llega a la conclusión de que:

1ku C p−= (36)

en donde:

( ) ( )

( ) ( )

T

n

k n

C x n x n

p s n k x n

=

= − (37)

y en donde n representa el tiempo discreto.

La actualización de los pesos entre las neuronas de la capa central se hace

mediante:

( ) ( )1

1

1

Nk k T

k

W v vα−

+

=

= ∑ (38)

en donde α es una constante muy cercana a 1 y es un parámetro que puede

ajustar la capacidad de memoria de la red.

La arquitectura se muestra en la siguiente figura. Las líneas gruesas representan

la conexión entre las neuronas X.

24 En su trabajo, White et al (2004) demuestran que aunque inicialmente asumen la matriz W ortogonal, ésta

condición no es necesaria para que el sistema sea robusto. 25 Vk

se escoge de tal manera sea ortogonal con vk-1

Page 70: Aproximación al aprendizaje humano basado en la teoría de

70

Fig. 20

Sobre el modelo, comentan los autores, que para ser viable su implementación a

nivel biológico, las conexiones ‘u’ deben ser refrescadas constantemente para

que no haya pérdida de memoria, pues siempre se están modificando las

conexiones v y W.

¿Un modelo de la arquitectura del proceso de aprendizaje?

En la Fig. 21 se propone un prototipo de la memoria mediante redes neuronales

artificiales. Ésta se divide, básicamente en cinco elementos que han sido

mencionados y explicados en la sección anterior (modelo de la memoria): señales

de entrada (estímulos) memoria sensorial, procesamiento, memoria operante o

memoria a corto plazo (MCP) y memoria a largo plazo (MLP).

El modelo supone dos células sensoriales. Cada una de ellas puede guardar

información independientemente en la memoria sensorial en la que no se ha

indicado exactamente cuántos estímulos puede guardar ni por cuanto tiempo lo

puede hacer.

El segundo bloque corresponde al procesamiento. En él se decide que

información debe ser pasada a la memoria de corto plazo. La arquitectura, como

es presentada, es una red de dos capas por simplicidad, aunque podría

extenderse a un mayor número. Recibe información de las dos memorias

sensoriales.

El tercer bloque corresponde a la memoria a corto plazo. Al igual que las

memorias sensoriales utiliza la arquitectura propuesta por Jaeger (2001),

Page 71: Aproximación al aprendizaje humano basado en la teoría de

71

explicada anteriormente (p. 68). En principio se debe asumir que la memoria debe

ser capaz de guardar una mayor cantidad de información por más tiempo que la

memoria sensorial.

Fig. 21

El último bloque corresponde a la memoria de largo plazo. Se señalan, como se

describió anteriormente, dos tipos de arquitectura red de Kohonen (arriba) y red

de Hopfield (abajo), no queriendo decir que necesariamente deban ser utilizadas

las dos, sino que cabe la posibilidad de utilizar cualquiera de las dos o las dos si

es necesario. Las líneas que conectan la MCP con la MLP son punteadas

queriendo indicar que su función no es la de pasar información como en las redes

convencionales, sino la de ajustar las conexión entre las neuronas de la red, de

acuerdo a la codificación26 que deba tener la información en la memoria a largo

plazo. Podría pensarse que las líneas punteadas pueden ser redes que modifican

los valores a los pesos, comparando la salida de las redes de MLP con la

información de las redes de MCP y ajustándolos de acuerdo a un error entre las

dos señales27.

26 Como la llaman Hardy & Jackson (1996,pp. 112) 27 Tal como lo haría la arquitectura propuesta por Zipser & Rumelhart (1990)

Page 72: Aproximación al aprendizaje humano basado en la teoría de

72

Modelo del hipocampo

Ya se ha visto que el hipocampo cumple una función importante en el proceso de

almacenamiento de la información en la memoria a largo plazo se trata. Su tarea

principal parece ser la de repetir la información (almacenada en la memoria a

corto plazo) a la corteza para modificar sus conexiones y, de ésta manera

guardarla en la memoria a largo plazo.

Schmajuk y algunos colaboradores han trabajado en las funciones que posee el

hipocampo y su relación con el condicionamiento. Concretamente, Schmajuk &

Di-Carlo (1992) muestran un modelo conexionista del hipocampo aplicando el

Modelo SD del condicionamiento.

Fig. 2228

28 Imagen que representa la función del hipocampo. Contiene una subred encargada del condicionamiento y

otra encargada deguardar la información en la memoria a largo plazo. Tomada de Schmajuk & Di-Carlo (1992, pp.277)

Page 73: Aproximación al aprendizaje humano basado en la teoría de

73

Schmajuk & Di-Carlo (1992) dividen la red en tres etapas principales. Las

primeras dos (ubicadas en la parte inferior de la Fig. 22), representan la

información almacenada en la corteza del cerebro y la salida producida por el

cerebelo son las encargadas del condicionamiento.

Para aclarar el funcionamiento suponga que no existe la etapa del hipocampo

(presentada en la parte superior de la figura). Se tiene, de ésta manera una red

de tres capas con dos capas ocultas y tres señales de entrada. Las dos primeras

entradas (CS1 y CS2) son estímulos que ya han sido condicionados y la última

entrada (CX) representa el contexto en el que se presentan los estímulos. De la

arquitectura se sabe, entonces, que es un simple rastreador de patrones que

produce una salida (CR) cuando la configuración de las señales de entrada es la

apropiada, de acuerdo a los pesos que las conectan con las neuronas de las

capas ocultas.

Adicionalmente está presente el estímulo incondicionado (UC) que es capaz de

cambiar los pesos entre las neuronas de la primera y la segunda etapa mediante

un proceso similar al indicado en la sección que describía la arquitectura dual de

las redes multicapa (página 41).

Schmajuk & Di-Carlo(1992), adicionalmente, sitúan cada una de las subredes en

diferentes lugares del cerebro. La primera capa la ubican en la corteza cerebral

porque, según Hardy & Jackson(1998), allí se almacena una representación de

los estímulos. La segunda capa y la capa de salida están situadas en el cerebelo,

lo que va en concordancia con el modelo neurobiológico mencionado en

Rosenzweig et al. (1996, pp. 673-676), que se comentó anteriormente.

Finalmente, tenemos otra subred que no se ha discutido, que hace parte del

hipocampo, y cuya función es modificar las conexiones en la corteza. Ésta red

recibe la información en parte procesada por el cerebelo y por la corteza, y la

utiliza para modificar en mayor o menor medida las conexiones de la corteza.

Adicionalmente, la unidad que recibe la información del estímulo incondicionado

recibe una señal de predicción que ajustaría no solamente las conexiones entre

Page 74: Aproximación al aprendizaje humano basado en la teoría de

74

corteza y cerebelo, sino también las conexiones entre hipocampo y corteza. La

capacidad de modificar las conexiones de ésta manera es consecuente con la

teoría del aprendizaje mediante LTP (Long-Term potentiation, página 30 en éste

documento) en el hipocampo.

Segundo nivel: algoritmos y representación

A nivel de algoritmo es razonable discutir tres puntos: el primero es el relacionado

con el aprendizaje; el segundo se refiere al comportamiento de las neuronas

cuando han aprendido algo y se requiere que cumplan una función específica, en

otras palabras cuando a la red se le presentan los estímulos y obtiene una salida; y

el tercero hace referencia al proceso que se lleva a cabo cuando se utiliza una red

para un propósito específico, siendo éste más general que el anterior, pues

consiste en utilizar determinada zona del cerebro o determinada red, dependiendo

del problema que se esté afrontando, básicamente tomar la decisión de cual red

debe hacer la tarea o cual debe aprender.

Aprendizaje

El primero de ellos, el aprendizaje, puede tener dos puntos de vista: el punto de

vista biológico (en donde el aprendizaje parece ser parte del hardware y no del

software) y el punto de vista artificial (en el que en la mayoría de los casos se

asume que es parte del software de la red).

En la sección B se presentó la forma en como se cree se da el aprendizaje a nivel

neuronal, se explicó que las neuronas pueden modificar sus conexiones de

acuerdo a la experiencia adquirida (se crean o se destruyen conexiones ó se

modifica su fuerza de conexión). Por otro lado, según se vio en la sección C, el

modelo artificial también es capaz de modificar sus conexiones mediante el

algoritmo de back-propagation (al menos para las redes multicapa). No obstante,

el algoritmo requiere bastante tiempo para su realización29. Adicionalmente, las

29 Con base en mi experiencia puedo afirmar que para entrenar una red de dos capas con cinco o seis neuronas

en cada capa el entrenamiento demora un poco más de cinco minutos utilizando un procesador Pentium IV 2.3 GHz

Page 75: Aproximación al aprendizaje humano basado en la teoría de

75

redes que se programan mediante éste tipo de algoritmos no suelen ser de un

gran número de neuronas (no más de 30 neuronas) y aún así el tiempo

consumido para su entrenamiento es considerable. Por ésta razón es permisible

pensar que la implementación de una porción relativamente grande del cerebro

es prácticamente imposible. (Spitzer, 1999).

Se tienen entonces dos problemas que se resumen como: una diferencia en la

construcción del aprendizaje, una solución es “software” y la otra “hardware”; y un

requerimiento de tiempo excesivo en el aprendizaje artificial. Sin embargo estas

dos dificultades dieron lugar a la construcción de arquitecturas más complejas,

pero que hace más fácil su implementación y que solucionan el primer problema.

Ya se ha descrito la arquitectura de red dual propuesta en Zipser & Rumelhart

(1990) que soluciona en cierta forma el problema de implementación del

algoritmo de back-propagation.

Aunque el proceso de aprendizaje artificial, con ésta solución, se parece un poco

más al aprendizaje real, no dejan de haber limitaciones como las que señalas los

diseñadores del modelo y que se discutieron en la sección anterior, pues el

problema se ve desde el nivel de software.

Se podría pensar que la implementación del aprendizaje en otros tipos de red

como la red de Hopfield o la red tipo máquina de Boltzman también podría

ejecutarse mediante hardware adicional dentro de la red. De hecho un caso

concreto fue discutido en la sección anterior en el modelo SD del

condicionamiento, en donde los pesos de las redes de la corteza y el cerebelo se

modifican de acuerdo a señales que provienen del hipocampo.

Adicionalmente, el aprendizaje presenta un problema adicional conocido como

interferencia catastrófica (Hardy & Jackson, 1996, pp. 319; Spitzer, 1999, pp. 201-

202). Este problema se da cuando la red se entrena varias veces para cumplir

tareas diferentes, poco a poco la red va perdiendo la buena respuesta que había

logrado para la primera tarea y acomodándose mejor para realizar la segunda o la

tercera tarea para la cual fue entrenada. Hardy & Jackson comentan que la

Page 76: Aproximación al aprendizaje humano basado en la teoría de

76

interferencia no se da en los humanos, que podemos aprender a realizar una

tarea (como aprender un lenguaje) y luego aprender otra (conducir un automóvil)

y nunca tendremos interferencia de una tarea con la otra. Sin embargo, tal

interferencia se podría deber a dos causas principalmente: 1) que la red que se

entrena para hacer esas tareas, de manera artificial, es muy pequeña; 2) como ya

se ha visto, las tareas que realiza el cerebro se pueden dividir en varias áreas

especificas, por lo que la tarea “aprender a conducir” se lleva a cabo en una red

diferente a la cumple con la tarea “hablar inglés”30.

Elección de la red y tareas de alto nivel

Hardy & Jackson (1996, pp. 285-288) enseñan la teoría de los borradores

múltiples desarrollada por Dennett (1991), según la cual en la mente humana

existen borradores de algún episodio que van cambiando con la experiencia, pero

no todos cambian al mismo tiempo ni con la misma frecuencia. Algunos de éstos

borradores se pueden hacer conscientes y esta información que se hace

consciente es lo que normalmente se recuerda de la escena, aunque claro está,

no es la escena misma pues ha cambiado con base en la experiencia y depende

del borrado que se evoque. Más adelante Hardy & Jackson (1996, pp. 320-321)

señalan que el modelo que propone Dennet (1991) “se basa en la idea de la

mente como un híbrido de procesamiento en serie y paralelo” y que la

consciencia puede ser vista como varias máquinas virtuales, cargadas en

diferentes momentos, para realizar tareas específicas y que se desarrollan

dependiendo del ambiente en el que se desenvuelva el individuo que la posea.

De acuerdo a ésta teoría, en la consciencia se cargan los programas que deben

ser usados cuando se siente dolor, cuando se piensa en algo, cuando se hace

consciente en general cualquier pensamiento. Y es claro que el autor menciona

que el procesamiento en la consciencia se hace en forma serial aunque la

30 Sin embargo es probable que haya interferencia en dos tareas que sean más parecidas como aprender dos

idiomas extranjeros. Podría ser interesante conocer estudios que investiguen esta interferencia en el lenguaje.

Page 77: Aproximación al aprendizaje humano basado en la teoría de

77

máquina que la procesa es completamente paralela. Una pregunta que queda

abierta en este punto es: ¿como se “cargan” esos programas y como se elige

entre cargar uno u otro cuando existe una situación de conflicto?

Representación

El problema de la representación sigue aún en discusión. La pregunta que se

intenta resolver aquí es: ¿cómo se representa la información en el cerebro? En

inteligencia artificial la información se representa mediante un conglomerado de

conexiones y sus pesos, los cuales forman la arquitectura de la red. Conociendo

las conexiones entre las neuronas se pueden obtener las respuestas a los

estímulos, se puede “cargar” información de una memoria indexada por

contenido. Sin embargo, desde el punto de vista biológico no parece ser del todo

clara la representación de la información, pues la respuesta neuronal no es una

señal con un valor único binario como en el caso anterior, sino es una respuesta

oscilante como se vio en el primer capítulo, en la sección de

Dinámica del cerebro (p. 27).

Más allá de la codificación de las señales se plantean preguntas sobre la

representación de la información “almacenada” en el cerebro. Existen algunas

teorías dependiendo de las funciones que se quieran estudiar. Por ejemplo, en el

caso del lenguaje la teoría más fuerte que se tiene es una estructura jerárquica

como la mostrada en la Fig. 1, en donde las palabras con ciertas relaciones se

pueden encontrar en lugares cercanos del cerebro. La codificación se realizaría

mediante neuronas relativamente especializadas en una palabra (o su significado)

que se activan cuando se piensa, se escucha o se dice una palabra con el

significado que tiene “almacenada” esa neurona o con una palabra con un

significado parecido. Por ésta razón el lenguaje suele modelarse mediante redes

de Kohonen como ya se ha analizado.

Page 78: Aproximación al aprendizaje humano basado en la teoría de

78

Spitzer(1996, cap 4) evidencia la posibilidad de representar la información

mediante vectores en un espacio n-dimensional dependiendo de las

características de la información que se desea representar. Por ejemplo,

menciona existen evidencias de que los colores pueden ser representados en un

espacio de cuatro dimensiones. La información recibida por el ojo podría codificar

la información en ese espacio y luego podría ser utilizada en procesos más

complejos.

Así mismo, señala la posibilidad de representar los movimientos de las

extremidades mediante vectores en tres dimensiones. La posición a la que desea

llevarse la mano en un momento determinado, podría ser un vector que se

distribuiría en varias neuronas especializadas que se activan dependiendo de la

dirección que deba tomarse para llegar al punto que se desea (tal como se

modelan los movimientos en un brazo robótico).

Primer Nivel

Para Marr (1982) este parece ser el nivel más importante, pues es aquí en donde

se define cual es el problema que el sistema debe resolver, cuales son sus

entradas y salidas, sin necesidad de definir cómo se va a realizar. En términos

generales conocemos el problema que nuestro cerebro debe resolver.

En general se podría pensar que el sistema nervioso debe recibir información

sensorial por medio de los sentidos. En el caso de la vista, por ejemplo, la

información recibida son ondas de luz de diferentes frecuencias e intensidades; en

el caso del olfato, la información recibida son sustancias químicas, al igual que en

el caso del gusto. Las salidas son básicamente movimientos de los músculos de

manera voluntaria o involuntaria.

Sentidos Información recibida Olfativo Sustancias químicas. Gustativo Sustancias químicas. Tacto Pequeños “golpes” que son transformados en pulsos eléctricos.

Page 79: Aproximación al aprendizaje humano basado en la teoría de

79

Vista Luz: Diferentes frecuencias e intensidades Sonoro Sonidos de diferentes frecuencias e intensidades

Rangos:16Hz – 20.000Hz en humanos31 Información de salida

Músculos Señales eléctricas que contraen los músculos de manera precisa. En forma voluntaria por medio de el áreaa motora del cerebro (lóbulos parietales y cerebelo), o de forma involuntaria por medio del cerebelo.

31Alvarez (2004)

Page 80: Aproximación al aprendizaje humano basado en la teoría de

80

III. CONCLUSIONES Y COMENTARIOS FINALES

A lo largo del documento se han presentado algunos modelos del cerebro desde el

punto de vista psicológico y neurológico. Se presentaron modelos computacionales

que surgieron inspirados en la neurona, algunas arquitecturas básicas y algunos

algoritmos por medio de los cuales estas arquitecturas son capaces de lograr un

aprendizaje.

Al final del documento se presenta una comparación en la que se pretende

relacionar algunos conceptos encontrados en la neurología y la psicología. Se

muestran arquitecturas que se han desarrollado para explicar, mediante el

denominado conexionismo, teorías básicas del aprendizaje como el

condicionamiento y la memoria a corto plazo. Se lanzó una hipótesis sobre un

posible modelo que serviría para describir el proceso de memorización a partir de

simples estímulos, a partir del modelo de memoria presentado en Hardy & Jackson

(1996).

Las redes neuronales parecen SIMULAR bien los procesos de aprendizaje a nivel

Hardware. Es posible modelar algunas zonas cerebrales mediante redes

neuronales de diferentes arquitecturas aunque no se ha logrado definir con

exactitud la arquitectura del cerebro. Se han planteado modelos que se aproximan

bien y parecen tener respuestas a algunas preguntas, sin embargo, muchos

modelos parecen ser muy básicos y no logran entrar en detalles de niveles de

abstracción superiores en los sistemas sensoriales. Solamente se cuenta con

posibles modelos de los niveles de abstracción superiores.

Haken (2002) menciona que el sistema sensorial más estudiado en los animales es

el visual, pero solamente se han logrado conclusiones sobre los primeros niveles

de procesamiento, sin embargo parecen haber más de 15 diferentes campos

visuales que procesan información más compleja conforme se van alejando del

nivel primario. La información, como se ha señalado anteriormente, no se procesa

en una única zona del cerebro. Spitzer (1999) utiliza el término niveles de

Page 81: Aproximación al aprendizaje humano basado en la teoría de

81

abstracción. Todavía hay mucho que investigar sobre el sistema visual y mucho

más en otros sistemas sensoriales, sobre todo en los niveles de abstracción más

profundos. Existen modelos como el propuesto por Hummel & Biederman (1992),

pero no se conoce con certeza si dichos niveles representan exactamente lo que

sucede a nivel cerebral.

La interferencia catastrófica también sería un buen punto de investigación. Con

base en un modelo de red que se especialice en cierto tipo de problemas (por

ejemplo el lenguaje), se podría evaluar la capacidad de la red para soportar la

interferencia que se da cuando se aprenden palabras nuevas o se aprende un

nuevo lenguaje. Éste estudio requeriría un trabajo conjunto con psicólogos del

lenguaje.

En cuanto al software las preguntas son igualmente complejas: no se cuenta con

un algoritmo que se pueda implementar en un sistema biológico, además existen

cuestiones más filosóficas ó teológicas que técnicas ó psicológicas: como los

planteamientos que visualizan la consciencia como el software que controla el

hardware (el cerebro).

Sin embargo, quedan aún por resolver cuestiones como los algoritmos de

aprendizaje de las redes neuronales para que se parezcan más a la forma del

aprendizaje a nivel neuronal. Se necesita un mecanismo de aprendizaje que no

requiera una realimentación como el algoritmo de back-propagation o su

implementación en hardware como se mencionó. Si se trabaja con un modelo

como el presentado en Haken (2002) podría resultar posible que las señales

presentadas como impulsos en la sección pre-sináptica puedan servir tanto como

un mecanismo de comunicación, como un mecanismo de aprendizaje,

dependiendo de la frecuencia de los impulsos o de un patrón de impulsos o de la

sincronía de varias neuronas sobre una post-sináptica. Recuérdese que Hebb

(1949) encontró que la repetición de estímulos sobre una neurona cambiaba la

conexión que ésta tenía con dicho estímulo. El algoritmo estaría entonces muy

relacionado con la codificación de las señales presentes en las sinapsis y

Page 82: Aproximación al aprendizaje humano basado en la teoría de

82

especialmente en la sección pre-sináptica. Queda, con un modelo como éste,

abierta la pregunta sobre qué tanto debería modificarse la fuerza de conexión entre

dos neuronas, ¿Cómo se podrían codificar los errores que al final son los que van

a determinar la modificación de los pesos?

Un gran problema que surge con éste modelo es que la sincronización de las

neuronas debe ser bastante precisa para tener una buena respuesta neuronal. La

investigación sobre la sincronización de las neuronas requiere bastante trabajo

matemático. Éste sería un buen punto de partida como proyecto posterior de

investigación en el campo de redes neuronales artificiales.

Un inconveniente que hasta ahora está siendo estudiado es el ruido presente en

las conexiones neuronales: como se podría modelar dicho dentro de una red

neuronal, que tan robustos son los modelos propuestos en redes neuronales como

para no dejarse afectar por el ruido presente entre las conexiones. Se han dado

algunos pasos para responder ésta pregunta en White et al. (2004) y Haken

(2002), pero el camino se sigue desarrollando mediante la investigación de los

neurocientíficos.

El ruido presente en las señales sensoriales parece ser importante para mejorar la

capacidad cerebral y responder ante esos estímulos. Actualmente ésta es un área

que está en discusión e investigación (véase Hidaka et al (2000))

Actualmente también se investigan las aplicaciones que la teoría del caos puede

tener sobre diferentes investigaciones de los seres humanos, como la psicología, el

corazón y también en el campo de la neurología (véase Ives (2003)). La teoría

toma en cuenta fenómenos mas complejos del cerebro, pues no solamente tiene

en cuenta las conexiones dentro del cerebro, sino que añade características como

fenómenos electromagnéticos, diferentes clases de neuronas y diferentes clases

de neurotransmisores, elementos en los que la teoría de redes neuronales “clásica”

se queda bastante corto. Un estudio de las aplicaciones de la teoría del caos sobre

las redes neuronales también tendría bastante cabida como un tema de

investigación de cognición humana.

Page 83: Aproximación al aprendizaje humano basado en la teoría de

83

IV. REFERENCIAS

Las fuentes presentadas a continuación fueron consultadas directamente a lo largo de la investigación reflejada en éste documento: [1] Alvarez (2004). Posicionamientro ultrasónico: introducción. Universidad de las Américas.

Recuperado el 26 de Junio de 2006 de http://catarina.udlap.mx/u_dl_a/tales/documentos/lep/alvarez_p_af/

[2] Amari S.(1990) Formation of Cortical Cognitive Map by Self-Organization. En Schwartz (ed.) Computational Neuroscience (pp. 267-277). MIT Press.

[3] Arbib, M. A. (1990) Schemas for High-Level Vision: The problem of Instantiation. En Schwartz (ed.) Computational Neuroscience (pp. 341-351). MIT Press.

[4] Ballard, D. H.(1990), Modular Learning in Hierarchical Neural Networks. En Schwartz (Ed.), Computational Neuroscience (pp. 139-153). MIT Press.

[5] Bennet, E. L., Diamond, M. L., Krech, D. & Rosenzweig, M. R. (1964) Chemical and Anatomical Plasticity of Brain. En Science, 206:649-654

[6] Bienenstock, E. L., Cooper, L. N. & Munro, P. W. (1982) Theory for the development of neuron slectivity: orientation specificity and binocular interaction in the visual cortex. Journal of Neuroscience 2 (pp. 32-48). Reimpreso en Anderson, J. A. & Rosenfeld, E. (Eds.,1990) Neurocomputing: Foundations of Research (pp. 437-456).MIT Press

[7] Bishop,C. M.(1995), Neural Networks for Pattern Recognition. Oxford University Press. [8] Braslau S.,S.(1998).An Animal Trainer's Introduction To Operant and Classical Conditioning.

Recuperado el 19 de Febrero de 2006 de http://www.wagntrain.com/OC/ [9] Castro A., C. (1999). Mapas cognitivos, que son y como explorarlos. Script Nova, 33. Recuperado

el 12 de Abril de 2006 de http://www.ub.es/geocrit/sn-33.htm [10] Chown, E. (s. f.) Reminiscence and Arousal: A connectionist model. Recuperado el 28 de Abril de

2006 de www.bowdoin.edu/~echown/papers/ChownCogSci02.pdf [11] Churchland, P. M. & Churchland P. S. (1990).Could a Machine think? En Scientific American 262,

(pp.26-31) [12] Churchland, P. S., & Koch, Christof, & Sejnowski, T. J. (1990) What is Computational

Neuroscience?. En Schwartz (Ed.), Computational Neuroscience (pp. 46 - 55). MIT Press. [13] Clark, Debbie. (1999). Gestalt theory. Recuperado el 20 de Febrero de 2006 de

http://chd.gse.gmu.edu/immersion/knowledgebase/strategies/cognitivism/gestalt/gestalt2.htm [14] Diller, Antoni (2006). Cognitive Science. University of Birmingham. Recuperado el 2 de Junio de

2006 de http://www.cs.bham.ac.uk/~ard/modules/b.pdf [15] Fausett L. (1994). Fundamentals of Neural Networks: Architectures, Algorithms, and applications.

Prentice Hall. [16] Feldman J. A. (1990). Computational Constraints on higher Neural Representations. En Schwartz

(Ed.), Computational Neuroscience (pp. 163-178). MIT Press. [17] Gallant S. I. (1990), Perceptron Based Learning Algorihms. IEEE Transaction in Neural Networks.

Vol 1. No. 2. (pp. 179-191). [18] Gardner, H. (1993). Frames of mind. Basic Books. [19] Gersenowies R., J. R. (2000). Breve revisión histórica del estudio de la corteza cerebral.

Universidad Nacional autonoma de México. Recuperado el 12 de Abril de 2006 de http://biologia.iztacala.unam.mx/biblioteca_en_linea/pdf/Breve_revision_historica_del_estudio_de_la_corteza_cerebral.pdf

[20] Grobstein,P (1990). Strategies for Analizing Complex Organization in the Nervous System: I. Lesion Experiments. En Schwartz (ed.) Computational Neuroscience (19-37). MIT Press.

[21] Haken H. (2002). Brain Dynamics. Springer [22] Hardy L, T. & Jackson H., R. (1998) Aprendizaje y Cognición. 4 edición. Prentice Hall. [23] Haykin, S. (1994). Neural Networks A Comprehensive Foundation. MacMillan College Publishing

Company. [24] Hebb D. O. (1949). The Organization of Behavior. Wiley [25] Hertz, J. & Krogh A. & Palmer R. G. (1991). Introduction to the theory of Neural Computation.

Addison-Wesley Publishing Company.

Page 84: Aproximación al aprendizaje humano basado en la teoría de

84

[26] Hidaka, I & Nozaki, D. & Yamamoto, Y. (2000). Functional Stochastic resonance in the Human Brain: Noise Induced Sensitization of Baroreflex System. [Versión electrónica].En Physical review Letters Vol 85 No. 17

[27] Hopfield J.J.(1982). Neural Networks and Physical Systems with Emrgent Collective Computational Abilities. Proceedings of the national Academy os Sciences USA 79 2554-2558.

[28] Hummel, J. E. & Biederman, I. (1992) Dynamic Binding in a Neural Network for shape recognition. Psychological Review Vol. 99 No. 3 pp. 480-517 [Versión electrónica]

[29] Ives, C. (2003). Human beings as Chaotic Systems. Recuperado el 2 de Junio de 2006 de www.physics.orst.edu/~stetza/COURSES/ph407h/Chaos.pdf

[30] Jaeger, H.(2001) Report No. 148 en German National Research Center for Information Technology.

[31] Koch C. (1990). Biophysics of Computation: Toward the Mechanisms Underlying Information Processing in Single Neurons. En Schwartz (Ed.), Computational neurscience.(pp. 97-113)

[32] Kohonen, T. (1982). Self-organizaed formation of topologically correct feature maps. Biological Cybernetics 43:59-69. Reimpreso en Anderson & Rosenfield [1988] pp. 511-521

[33] Lehr, Robert (2006) Brain Map recuperado el 5 de Mayo de 2006 de Centre of neuro skills http://www.neuroskills.com/brain.shtml.

[34] Marr, D. (1982) Vision. WH Ferman, San Francisco. Reimpreso en Anderson & Rosenfeld (Eds., 1990) Neurocomputing Foundations of Research (pp. 465-480). MIT Press.

[35] Mead, C. A. & Mahowald M.(1990) A Silicion Model of Early Visual Processing. En Schwartz (ed.) Computational Neuroscience (pp. 331-339). MIT Press.

[36] National Institute of Neurological Disorders and Stroke (2001a) Brain Basics: Know your Brain Recuperado el 31 de marzo de 2006, de http://www.ninds.nih.gov/disorders/brain_basics/know_your_brain.htm.

[37] National Institute of Neurological Disorders and Stroke (2001b) The life and death of a neuron. Recuperado el 16 de abril de 2006, de http://www.ninds.nih.gov/disorders/brain_basics/ninds_neuron.htm.

[38] Perkel, Donald H (1990). Computational Neuroscience: Scope and Strcuture. En Schwartz (Ed.), Computational neuroscience (pp. 38-45). MIT Press.

[39] Poggio T. & Torre V. (1981) en Theoretical Approaches in Neurobiology, Reichardt W. & Poggio T (Ed.). MIT Press,Cambridge.

[40] Rall W. & Segev I. (1990). Dendritic Branches, Spines, Synapses, and Excitable Spine Clusters. En Schwartz (Ed.), Computational Neuroscience (pp. 69-81). MIT Press.

[41] Robinson, D. A. (1990) A computational View of the Oculomotor System. En Schwartz (ed.) Computational Neuroscience (pp. 319-330). MIT Press.

[42] Rosenzweig, M. R.,& Leiman A. L. & Breedlove S. M. (1996) Biological Phsycology. Sinauer Associates Inc.

[43] Rumelhart, D. E., & Hinton. G. E., & Williams, R. J. (1986). Learning Internal representations by error propagation. En Rumelhart D. E. & McCleland, & the PDP research Group (Eds.) Parallel Distributed Processing: Explorations of microstructure of Cognition, Vol. 1:Foundations, pp. 318-362. Cambridge, MA, MIT Press.

[44] Schmajuk, N.A., & DiCarlo, J.J. (1992) Stimulus configuration, classical conditioning, and hippocampal function. En Psychological Review Vol.99, pp. 268-305.

[45] Searle, J. R. (1990)Is the brain’s mind a Computer Program? En Scientific American 262, (pp. 21-25)

[46] Shepherd, G. M. (1990). The significance of Real Neuron Architectures for Neural Network Simulations. En Schwartz (ed.) Computational Neuroscience (pp. 82-96).MIT Press.

[47] Spitzer, Manfred (1999), The Mind Within the Net. MIT Press. [48] Spitzer, M. (2005, Noviembre) Post and pop-out neuroplasticity of cortical maps in postal workers.

Recuperado el 2 de Abril de 2006, de http://www.oecd.org/document/47/0,2340,en_2649_14935397_35782703_1_1_1_1,00.html

[49] Suga, N. (1990) Computations of Velocity and Range in the Bat Auditory System for Echo Location. En Schwartz (ed.) Computational Neuroscience (pp. 213-231). MIT Press.

[50] Thompson, R. F. (1990) Neural mechanisms of classical conditioning on mammals. En Philosophical transactions of the Royal Society (London) Vol 329, pp. 161-170.

[51] Tucker-Ladd, Clayton E. (2004) Psychological Self-Help Versión Electrónica], Clayton Tucker-Ladd & Mental Health Net. Recuperado el 22 de marzo de 2006, de http://mentalhelp.net/psyhelp/

Page 85: Aproximación al aprendizaje humano basado en la teoría de

85

[52] Valiant L. G.(1994), Circuits of the Mind. Oxford University Press. [53] Watkins A. B. (2005) Exploiting immunological metaphors in the development of serial, parallel,

and distributed learning algorithms. Recuperado el 10 de Mayo de 2006 de http://www.cs.kent.ac.uk/pubs/2005/2178/index.html

[54] White, O.L. & Lee, D. D. & Sompolinsky, H. (2004). Short-term memory in orthogonal neural networks [Versión electrónica].En Physical review Letters Vol 92 No. 14.

[55] Yeshurun, Y. & Schwartz E. L.(1990) Neural Maps as data Structures: Fast Segmentation of Binocular Images. En Schwartz (ed.) Computational Neuroscience (pp. 256-266). MIT Press.

[56] Young, J. Z. (1985) What’s in a brain? En Coen, C. W. Functions of the brain Clarendon Press. Oxford.

[57] Zipser, D. & Rumelhart D. E.(1990) The neurobiological significance of the new learning models. En Schwartz (Ed.) Computational Neuroscience (pp. 192-209).MIT Press.

V. REFERENCIAS ADICIONALES

Las siguientes referencias no fueron consultadas directamente. Son señaladas pues son trabajos destacados que mencionan los autores sobre temas que se trataron en éste documento, sin embargo en ningún momento se contó con la fuente primaria de éstas referencias. En rosenzweig et al. (1996): [1] Bennet, E. L.& Diamond M. L. & Krech, D. & Ronsenzweig, M. R. (1964). Chemical and Anatomical Plasticity of brain.En Science, 146. [2] Greenough, W. T. & Volkmar F. R.(1973) Pattern of dendritic branching in occipital cortex or rats

reared incomplex environments. En Experimental Neurology No. 40 [3] Hubel, D.H. & Wiesel, T. N. (1965) Binocular Interaction instriate cortex kittens reared with artificial Squint. En Journal of Psychology 28:1041-1059. [4] Renner, M. J. & Rosenzweig M. R. (1987). Enriched and impoverished environments: Effects on

brain and Behavior. Springer-Verlga, N.Y. [5] Ronsenzweig M. R. (1984). Experience, memory and the brain. En American Psychologist No. 39 [6] Ronsenzweig, M. R. (1946). Discrimination of audiotry intensities in the Cat. American journal of Phsicology. No. 59. [7] Rosenzweig, M. R, Krech, D. , Bennet, E. L. (1961). Heredity, environment, brain chiomestry, and

learning. En current trends in psycohological theory. Pp. 87-110. University of Pittsburgh Press, Pittsburgh

[8] Volkmar, F. R. & Greenough, W.T.(1972) Rearing complexity affects branching of dendrites in the visual cortex of the rat. En Science, 176:1445-1447.

En Hardy & Jackson (1996): [1] Dennett, D. C. (1991) Consciousness explained. Boston: Little, Brown [2] Kohonen, T. (1990). Improved versions of Learning Vector Quantization. En International Joint

Conference on Neural Networks, I, pp. 545-550.

Page 86: Aproximación al aprendizaje humano basado en la teoría de

86

VI. TABLA DE ACRÓNIMOS Y SÍMBOLOS

Acrónimo o símbolo Descripción

ak Suma de las señales de entrada de un perceptrón ponderada por los pesos AND Función lógica AND cap. Capítulo caps. Capítulos CE Estímulo Condicionado Cm Capacitancia de la membrana celular CR Respuesta Condicionada Dwij Cambio en el peso de la conexión entre la neurona i y la neurona j EC Estímulo Condicionado Ee Potencial de sinápsis excitatorias EI Estímulo Incondicionado Ei Potencial de sinápsis inhibitorias En Error de respuesta de la neurona (o de una red) F Ruido en las dendritas Fig. Figura γ Constante de dacaimiento de corriente post-sináptica g Función de activación gj Conductancia sináptica H Constante de aprendizaje H Funciones de energía de la red de Hopfield LTM Memoria a Largo Plazo LTP Long-Term Potentiation MCP Memoria a Corto Plazo MLP Memoria a Largo Plazo N Número de Neuronas en una red de Hopfield N Número de entradas de una red NINDS National Institute of Neurological Disorders and Strokes P Función periódica de impulsos P Número de posiciones de memoria de una red de Hopfield p. Página pp. Páginas ra Resitencia del Citoplasma RC Respuesta Condicionada rm Resistencia de la membrana Celular S Salida de la red de Hopfield S(n) Señal discreta en tiempo n s. f. Sin Fecha SD Modelo del Hipocampo por Schmajuak -DiCarlo SN Sistema Nervioso SNC Sistema Nervioso Central STM Memoria a Corto Plazo T Respuesta esperada de una neurona U Potencial alrededor de un campo autorganizativo UC Estímulo Incondicionado

uij Pesos de la "neurona" i a la neurona j que calculan el error en implementación Hardware de Back-propagation

Page 87: Aproximación al aprendizaje humano basado en la teoría de

87

V Salida de la red de Hopfield contínua wij Pesos de la conexión de la neurona i a la neurona j wk k-ésimo peso de una neurona o un perceptrón

x Conjunto de patrones disponibles para presentar a la red de Hopfield. Punto de un campo neuronal

Xk k-ésima señal de entrada de un perceptrón o una neurona XOR Función lógica XOR yk k-ésima salida de una red neuronal ψpost Corriente post-sináptica ζ Patrón presentado ala entrada de una red de Hopfield

Page 88: Aproximación al aprendizaje humano basado en la teoría de

88

VI. ANEXOS

Artículo

Aproximación al aprendizaje humano basado en la teoría de redes neuronales artificiales

Julián Arana M. Asesor:Mauricio Duque

Junio de 2006, [email protected],[email protected]

Resumen - En este documento se muestran los hallazgos hechos en la investigación de Proyecto de Grado sobre el aprendizaje

humano con base en la teoría de redes neuronales artificiales.

Se investigaron disciplinas como la psicología, la nuerología y

la ciencia cognitiva

Palabras Clave – Ciencia Cognitiva, Redes Neuronales, Aprendizaje, Machine Learning, Neurología, Neurociencia, psicología del aprendizaje.

I. INTRODUCCIÓN

En 1906, Santiago Ramón y Cajal recibió el premio Nobel por haber propuesto que el funcionamiento del Sistema Nervioso estaba basado en células que, después de algunos años se denominarían Neuronas. A partir de ésta afirmación surge la neurociencia, que se ha encargado, entre otras cosas, de modelar el funcionamiento de dichas células como unidades individuales que permiten entender su funcionamiento a partir de una aproximación matemática.

Inspirados en dicho modelo surge lo que se llama “redes neuronales”, una rama de Machine Learning que tiene como fin la investigación de redes de varias neuronas y de aplicaciones de dichas redes.

Las arquitecturas de las redes neuronales artificiales han servido para explicar el funcionamiento del aprendizaje en animales, sobre todo en sistemas sensoriales y de procesos de memorización de eventos. La motivación principal para escribir este artículo es conocer un poco sobre los estados actuales de la investigación de lo que se denomina Ciencia Cognitiva, con el fin de dar un panorama sobre investigaciones que se podrían desarrollar a futuro, con el fin de trazar un camino en el entendimiento del aprendizaje animal.

La investigación se basó en la investigación de información sobre neurología, psicología y redes neuronales artificiales. Al final se presentan puntos de comparación entre las tres áreas y puntos de discusión que están abiertos en la actualidad para llevar a cabo los objetivos.

II. CONTENIDO

A Psicología del aprendizaje

El campo de la psicología del aprendizaje abarca varios aspectos. Los más básicos se refieren al aprendizaje por

condicionamiento y a la memoria. A partir de éstos se derivan los procesos de aprendizaje más complejos como el aprendizaje de un nuevo idioma o el aprendizaje de una nueva habilidad.

En la literatura psicológica se conocen dos tipos de condicionamiento: el condicionamiento clásico y el condicionamiento operante (Ronsenzweig et al, 1996). El primero supone la existencia de dos estímulos: uno (estímulo incondicionado, EI) que causa una respuesta habitual (respuesta condicionada, RI), y uno que puede causar la misma respuesta después de un entrenamiento (estímulo condicionado, EC). El EC produce RC después de varias presentaciones del EC unos momentos antes del EI.

El segundo tipo de condicionamiento supone castigos o recompensas por un comportamiento dado, es decir, si un animal se comporta de una manera y se la da un premio, el animal va a tender a seguir realizando ese comportamiento pues lo asocia directamente con el premio que podría recibir. También funciona el proceso inverso en el que se presenta un castigo por un comportamiento, y el animal dejará, progresivamente, de dar dicho comportamiento pues lo asociará con un castigo que podría recibir.

Ahora bien, el estudio de la memoria ha dado como resultado una clasificación de los tipos de memoria, dependiendo del tiempo que es capaz de retenr información. En Hardy & Jackson (1996) se describen tres tipos de memoria: Memoria sensorial, memoria operante o de corto plazo y memoria a largo plazo.

La memoria sensorial retiene la información proveniente de los órganos sensoriales por un periodod muy corto de tiempo (0.75s a 3.5s). Su función es retener la información proveniente de dichos órganos mientras se clasifica y se determina cual es la información más importante para el individuo. La clasificación de ésta información se realiza mediante procesos de atención dependiendo de la situación en la que se encuentre el individuo y en qué decida concentrarse; y mediante el reconocimiento de patrones de la información presente en la memoria sensorial. La clasificación de la información es entonces un filtro de la información que se recibe.

La memoria operante tiene como función retener la información un periodo de tiempo suficiente para que el individuo pueda realizar proces de pensamiento con base en esa información. Si un individuo se concentra en algo, por ejemplo la descripción de cierto objeto, la información que guarda en la memoria operante son las características del objeto del que está hablando. El proceso de descripción del objeto lo realiza organizando las ideas

Page 89: Aproximación al aprendizaje humano basado en la teoría de

89

que él tiene guardadas en la memoria operante y expresándolas ya sea mediante un palabras, gestos, etc. Si la información la requiere durante un periodo largo de tiempo la información debe ser “refrescada” (como se hace en una memoria DRAM). Éste tipo de memoria recibe la información de la memoria sensorial y de la memoria de largo plazo y puede enviar información a la memoria de largo plazo.

La memoria a largo plazo (LTM por sus siglas en inglés) permite guardar la información durante un tiempo muy largo. Los dos tipos de memoria anteriores median su duración en segundos, pero la memoria a largo plazo lo puede medir en años, dependiendo de que tan afianzada esté la información en ella (qué tantas veces ha sido repetida la información).La información almacenada en la memoria a largo plazo es recibida directamente de la memoria a corto plazo.

Un problema que trata Hardy & Jackson (1996, cap. 6) en el capítulo de la LTM es la representación de la información. Describe dos teorías de representación de la información: una analógica y una analítica. En la primera la información es semejante a la representación que tiene físicamente: por ejemplo imágenes de un objeto, sonidos, etc., la otra sugiere que la información se representa de manera abstracta. Ésta última sirve para describir la manera en la que almacenamos conceptos del lenguaje y de allí se parte para modelar de varias maneras la representación de la información. (más adelante se detallara un poco éste tipo de representación

B. Elementos introductorios a la Neurociencia La Neurona

Las neuronas se componen de tres partes fundamentales denominadas dendritas, axones y soma. Las dendritas son ramificaciones que se encargan de recolectar información y transferirla al soma; los axones, por el contrario, tienen como función enviar la información procesada por el soma a otras células nerviosas; el soma se encarga del procesamiento de la información recibida por las dendritas.

En la gran mayoría de neuronas existe una gran cantidad de dendritas que forman ramificaciones y son comúnmente llamadas ramas dendríticas. En dichas ramificaciones se encuentran las llamadas espinas dendríticas que son protuberancias en donde se lleva a cabo la unión entre la célula receptora y la célula emisora.

Existen diferentes formas de clasificar las neuronas32 de acuerdo a sus formas (multipolares, bipolares y monopolares), a su tamaño (grande y pequeño) y a su función (motoneuronas encargadas de los movimientos; neuronas sensoriales, encargadas de la recepción de sensaciones; interneuronas, encargadas del procesamiento de la información).

La unión entre dos neuronas se denomina sinapsis. Sin embargo, no existe un contacto físico entre los axones de una neurona y las dendritas de la siguiente, sino un vacío en el que son liberadas sustancias químicas (neurotransmisores) que excitan moléculas receptoras en las dendritas de la neurona receptora. Además del vacío las otras dos etapas que forman parte de una sinapsis son la pre-sinapsis y la post-sinapsis que son los lugares en donde se sueltan los neurotransmisores y en donde se reciben por medio de las moléculas receptoras, respectivamente.

Existe un nivel de atenuación entre la señal en la pre- y la post- sinapsis. La atenuación se puede dar por: la frecuencia con que

32Rosenzweig et al (1996, pp. 37)

son liberados los neurotransmisores, la posición en la que la sinapsis se da con respecto al soma, las distancias que existen entre diferentes sinapsis que vienen de diferentes axones o del mismo axón y geometría de las espinas dendríticas33. Otros motivos que atenúan la fortaleza en la unión de diferentes neuronas son cambios químicos, modulados por la influencia de otras neuronas que tienen contacto cerca al axón de la neurona emisora, así como el número de moléculas receptoras en las dendritas, la frecuencia de activación del axón, el área de contacto de la sinapsis.34

La relación entre la cabeza de la espina dendrítica y la dendrita es no lineal como procura demostrar Koch (1990). En su trabajo muestra un modelo comportamental dependiente del voltaje de entrada a la cabeza de la espina dendrítica. Así mismo, enseña un modelo de la contribución de una sinapsis dada dentro de una rama dendrítica a la neurona, la relación es una ecuación diferencial de primer orden dependiente del tiempo y la posición en la que se encuentra la espina dendrítica.

En la mayoría de los casos se asume que la función adjudicada al soma (dentro del contexto de actividad neuronal, es decir, sin tener en cuenta condiciones de intercambio de proteínas, oxigenación, etc.) es la de tomar las entradas obtenidas en las ramas dendríticas y sumarlas de manera que se pueda dar un total que es comparado con un valor de umbral en donde se dispararía un pulso en el axón de la neurona. Sin embargo, como es mencionado en Koch (1990) varios han propuesto teóricamente y han demostrado experimentalmente que dicha linealidad no existe. Sin embargo, como demuestra Poggio & Torre (1981) si las sinapsis se encuentran situadas una cerca de la otra en la dendrita de la neurona, la linealidad se puede asumir siendo ésta una muy buena aproximación.

Cambios en la química, incremento de moléculas receptoras, cambos de frecuencia de la señal enviada por el axón, cambios estructurales en la espina dendrítica, cambios en el área de contacto de la sinapsis la instauración de nuevas conexiones entre neuronas, reemplazos de caminos existentes por otras conexiones pueden dar lugar a cambios en la fuerza de conexión entre dos neuronas.35

Los cambios se pueden dar cuando la neurona pre-sináptica excita en ocasiones repetidas la neurona post-sináptica36 Durante el aprendizaje se lleva a cabo una actividad neuronal en uno o diversos circuitos neuronales que permite guardar información por un periodo de tiempo corto.37 Si la actividad es lo suficientemente fuerte, puede dar paso a una modificación en las conexiones neuronales, lo que significaría memoria a largo plazo.

Un mecanismo por medio del cual las neuronas cambian su fuerza sináptica es el denominadao LTP (Long-Term Potentiation). Básicamente consiste en la activación simultánea de dos estímulos en una misma neurona sincrónicamente. Existen dos estímulos A y B. A es un estímulo que por si solo no causa ninguna respuesta en la neurona y B es un estímulo que causa una buena respuesta de la neurona. Si los estímulos A y B son presentados simultáneamente la neurona responde de la misma manera que lo haría si estuviera estimulada únicamente por B. El

33Rall & Segev (1990) 34Rosenzweig et al (1996, p. 643) 35Rosenzweig et al. (1996) 36 Hebb (1949) 37 Hebb (1949). Esta propiedad es importante cuando se habla

de Memoria a Corto Plazo.

Page 90: Aproximación al aprendizaje humano basado en la teoría de

90

aprendizaje se da después de éste estímulo simultáneo; la neurona es activada indiferentemente por cualquiera de los dos estímulos independientemente.38 El LTP puede tener una duración de hasta semanas.39 El funcionamiento del LTP ha sido probado en el hipocampo. Sin embargo no ha habido pruebas contundentes que demuestren que este tipo de aprendizaje se de en otras partes del cerebro como, por ejemplo, la corteza.40

C. Elementos introductorios a la teoría de Redes Neuronales Artificiales. El Perceptrón

El modelo básico de una neurona, planteado por McCulloc y Pitts (1943) es, la suma de “n” señales “xk” ponderadas con una constante (comúnmente denominada peso) “wk” (con valores de k desde 1 hasta n). El resultado de esa suma se hace pasar por una función de activación que se dispara si la suma anterior pasa un valor de umbral previamente establecido. La ecuación que describe al perceptrón es:

( ) ( )oy x g wx w= + (39)

En dondew es el vector de pesos de tamaño n, x es el vector

de señales de entrada en un momento específico ow corresponde

a una entrada adicional (con valor 1) denominada bias (la interpretación para éste bias puede ser profundizada en Bishop (1995, pp. 78)) y g(.) es la función de activación que típicamente tiene la forma siguiente:

1 0

( )1 0

si ag a

si a

− <=

≥ (40)

Perceptrón multinivel

Una red neuronal multinivel o perceptrón multinivel, es un conjunto de perceptrones “con conexiones desde cualquier unidad en una capa a todas las unidades de las capas siguientes, pero sin ninguna otra conexión permitida” (Bishop, 1995, pp. 117.

Es importante anotar que en el denominado perceptrón multinivel son permitidos diferentes tipos de funciones de activación, especialmente para las capas escondidas41. Típicamente son funciones sigmoidales del tipo:

1

1( )

1 exp( 2 )g a

aβ=

+ − (41)

en donde β es un parámetro modificable.42 El aprendizaje de las redes neuronales artificiales planteadas

anteriormente, se basa en la actualización de los pesos en las

38 Spitzer (1999, pp. 42-45) 39Ronsezweig et al (1994, pp. 670) 40 Spitzer (1999) 41 Las capas escondidas se refieren a las unidades que no

pertenecen al conjunto de neuronas de salida. 42Las funciones de activación en las neuronas reales suele ser

diferente debido a que cumplen diferentes funciones dentro de la red. Biológicamente pueden representar “…fuerzas variables en el disparo de la neurona, retrasos en la sinapsis, fluctuación aleatorias de los transmisores de liberación en vesículas discretas, entre otras. Éstos efectos se pueden pensar como ruido…”Hertz et al. (1991)

entradas de cada perceptrón. Éste proceso se conoce comúnmente como entrenamiento y, en sus aplicaciones más comunes el entrenamiento es supervisado (se hace presentando la entrada y la respuesta que debería provocar).

El algoritmo de entrenamiento se conoce como Back-propagation pero tiene dificultades en su implementación pues requiere que se recorra la red hacia delante y hacia atrás para poder modificar los pesos. Redes de Hopfield

Las Redes Neuronales tipo Hopfield son redes de una capa que permiten realimentación (algo que no es permitido en el perceptrón multinivel) La aplicación típica de las redes tipo Hopfield es una memoria direccionada por contenido, es decir, a la entrada de la red se presenta parte de la información que se requiere, y ella es capaz de devolver la información completa. La red describe una función matemática con muchos puntos mínimos. La información de entrada le permite localizarse en un lugar dentro de la función y ésta es capaz de encontrar el punto mínimo que representa la información completa. Redes de Kohonen

Los mapas de Kohonen pertenecen a un grupo de redes neuronales denominadas que son entrenadas por competencia, es decir que se instruyen para que una neurona tenga mayor activación que otras a partir de un estímulo dado. Ésta neurona se llamará neurona ganadora. En La Fig. 4 se presenta un grupo de neuronas, en donde las neuronas blancas representan la neurona ganadora para cierto estímulo y las demás representan neuronas cercanas que se activan, en menor medida, cuando se presenta el estímulo.

Fig. 2343

Máquina de Boltzman

La red denominada máquina de Boltzman tiene una arquitectura similar a la descrita en el perceptrón multinivel. La diferencia radica en que, a diferencia del perceptrón multinivel, la máquina de Boltzman permite la realimentación de las neuronas. El proceso de aprendizaje en éste tipo de red es más complejo que el algoritmo de Back-propagation. Éste tipo de red suele usarse para reconocimiento de Patrones y tiene aplicaciones en memoria direccionada por contenido, como en el caso de la red de Hopfield. D. Comparación entre los modelos Serial vs. Paralelo:

El cerebro puede ser visto como un computador, como sugieren Churchland et al. (1990), para quienes es muy importante resaltar que el cerebro no es un computador serial. El procesamiento de la

43 Imagen tomada y modificada de Kohonen (1982)

Page 91: Aproximación al aprendizaje humano basado en la teoría de

91

información en el cerebro se hace en forma paralela y no sería comparable a la simulaciones que de una red artificial se hacen en un computador serial. Se tiende mucho a comparar las velocidades de los procesos artificial y natural, pero no es una comparación válida pues los procesos son totalmente diferentes.

Unidades de procesamiento

E común comparar el numero de transistores de un procesador con el número de neuronas existentes en el cerebro y la velocidad con la que realizan el procesamiento de la información, ésta comparación no es del todo correcta pues, aunque es claro que los transistores en el computador son las unidades de procesamiento de la información, también es claro que éstos no la procesan de la misma manera que lo hacen las neuronas La unidad computacional en ambos casos es diferente y cumple diferentes funciones específicas para llevar a cabo su tarea.

La neurona en el cerebro solamente cumple una función inhibitoria o excitatoria (cualidad que no cambia con el entrenamiento) Sin embargo, en todos los algoritmos estudiados surge la posibilidad de que las neuronas puedan tener ambas características dependiendo del entrenamiento que se le dé. Ésta posibilidad es totalmente errónea y es un limitante del modelo artificial, pues no concuerda con las observaciones del cerebro. Chown (s.f.)

Constante de aprendizaje y recorte de neuronas

En algunos algoritmos se suele utilizar una constante de aprendizaje que disminuye conforme se va entrenando la red. Spitzer (1996) comenta que ésta tasa de aprendizaje también se encuentra en las neuronas cerebrales, pues conforme pasa el tiempo, nuestros cerebros van perdiendo la capacidad de aprender. En los primeros años de nuestras vidas, la tasa de aprendizaje parece ser más alta que cuando alcanzamos cierta edad.

Igualmente, comenta Spitzer (1996), que la tasa de mortalidad de las neuronas en el cerebro es bastante alta y parece poco probable que el cerebro sea capaz de generar nuevas neuronas. No obstante, somos capaces de retener la misma información que teníamos cuando éramos más jóvenes, de pronto no con el mismo grado de agudeza, pero la información sigue estando “almacenada en las conexiones” que restan en el cerebro. Por otro lado, existen técnicas que utilizan la poda de las neuronas para hacer menos complejas las redes. La respuesta de las redes no es perturbada a menos que haya un excesivo recorte de neuronas, lo que sugiere que las redes son bastante robustas.44

Arquitecturas

No existe claridad sobre la arquitectura exacta del cerebro (o de partes de él), pues, como comenta Young (1985) no se conoce exactamente el procesamiento que realizan las células cuando alguien o algo decide llevar a cabo una acción.

Existen algunas arquitecturas que cumplen funciones similares en la sección de psicología del aprendizaje, como condicionamiento clásico, modelos del hipocampo, modelos de memoria a corto plazo

44 Hardy & Jackson (1996) comentan el caso del secretario de

Prensa de Reagan, “quien recibió un disparo en la cabeza durante el intento de asesinato de Reagan… Pese a la lesión cortical masiva, la personalidad la inteligencia de Brady [el secretario] están razonablemente intactas”.

Modelo de condicionamiento clásico

La arquitectura propuesta para describir el condicionamiento es verdaderamente sencilla.45 Básicamente es un perceptrón con dos entradas (véase Fig 4): uno es el estímulo incondicionado y el otro es el estimulo condicionado. Antes del condicionamiento, la conexión entre el EI y la neurona es nula o ajustada de tal manera que el estímulo no sea capaz de disparar la neurona, sin embargo el peso de la conexión entre EC y la neurona es lo suficientemente grande como para lograr una respuesta en ella. Después de que el individuo ha sido condicionado cualquiera de los dos estímulos es capaz de producir respuesta en la neurona.

Fig. 24

Existe otro modelo que permite que dos estímulos produzcan una respuesta condicionada, pero solamente estando presente uno sólo de ellos. La arquitectura46 tiene dos capas (véase Fig 5) que, además de solucionar el problema de selección de la respuesta dependiente de un estímulo condicionado únicamente, también se puede “condicionar” primero con un estímulo y luego con el otro mediante entrenamientos separados, como suelen darse los procesos de condicionamiento.47

Fig. 2548

Modelo de la memoria A continuación se discuten los modelos que podrían servir de

base para describir la memoria. La memoria sensorial y la memoria a corto plazo se podría describir mediante una red de varias capas realimentadas como la máquina de Boltzman.49. La arquitectura que describiría éste tipo de memoria tiene la siguiente forma:

Fig. 26

Para pasar la información de la memoria sensorial a la de corto plazo, ésta debe ser filtrada para clasificar la que es más importante. El procedimiento se puede bautizar como un pre-

45 Descrita en Hardy & Jackson (1998, pp. 312-315). 46 Descrita en Hardy & Jackson (1998, pp. 312-315). 47 Hardy & Jackson (1999, pp. 312-315) 48Tomado y modificado de Hardy & Jackson (1999, pp.314)

La conexión entre N1 y N2 debe ser inhibitoria, para que se produzca la respuesta con un único estímulo.

49 En White et al (2004) se explica un modelo planteado por Jaeger (2001) y se prueba que la capacidad de la memoria es proporcional al tamaño de la red.

Page 92: Aproximación al aprendizaje humano basado en la teoría de

92

procesamiento50 de las señales de entrada. Existen dos formas –básicas- de llevar a cabo la selección de la información51, entre estas están la atención y el reconocimiento de patrones. De la atención el autor señala que “se ha conceptualizado de dos formas [:]… estado de concentración en algo… [y] …como capacidad de procesamiento, que puede distribuirse a diferentes estímulos y actividades en distintas formas” (Hardy & Jackson, 1998, p. 118) y sobre el reconocimiento de patrones menciona que es la forma en como se perciben y se reconocen los estímulos con base en información almacenada anteriormente. Se podría pensar entonces, que este procedimiento se puede modelar mediante perceptrón multinivel o mediante la máquina de Boltzman.

Ahora bien, la memoria a largo plazo puede tener diferentes tipos de red distribuidas en subredes de la gran red conformando la memoria a largo plazo. Conocemos el potencial de las redes de Hopfield para “almacenar” información y recuperarla por el contenido que hay en ella. Sin embargo, también pueden entrar a jugar un papel importante los mapas de Kohonen pues describen situaciones encontradas en estudios realizados en el campo del lenguaje.52 Un modelo de la arquitectura del proceso de aprendizaje En el anexo se presenta un modelo que bien podría describir las bases del proceso que se lleva cuando se memoriza algo (Fig A1). Ésta se divide, básicamente en cinco elementos que han sido mencionados y explicados en la sección anterior (modelo de la memoria): señales de entrada (estímulos) memoria sensorial, procesamiento, memoria operante o memoria a corto plazo (STM) y memoria a largo plazo (LTM).

Modelo del hipocampo

Ya se ha visto que el hipocampo cumple una función importante en el proceso de almacenamiento de la información en la memoria a largo plazo se trata. Su tarea principal parece ser la de repetir la información (almacenada en la memoria a corto plazo) a la corteza para modificar sus conexiones y, de ésta manera guardarla en la memoria a largo plazo.

Schmajuk y algunos colaboradores han trabajado en las funciones que posee el hipocampo y su relación con el condicionamiento. Concretamente, Schmajuk & Di-Carlo (1992) muestran un modelo conexionista del hipocampo aplicando el Modelo SD del condicionamiento.

Schmajuk & Di-Carlo (1992) dividen la red en tres etapas principales. Las primeras dos (ubicadas en la parte inferior de la Fig. 8), representan la información almacenada en la corteza del cerebro y la salida producida por el cerebelo son las encargadas del condicionamiento.

Para aclarar el funcionamiento suponga que no existe la etapa del hipocampo (presentada en la parte superior de la figura). Se tiene, de ésta manera una red de tres capas con dos capas ocultas y tres señales de entrada. Las dos primeras entradas (CS1 y CS2) son estímulos que ya han sido condicionados y la última entrada (CX) representa el contexto en el que se presentan los estímulos. De la arquitectura se sabe, entonces, que es un simple rastreador de patrones que produce una salida (CR) cuando la configuración

50 Como se le conoce en el lenguaje de Machine Learning 51Hardy & Jackson (1998, pp.117-132) 52 Vease Hardy & Jackson (1998) y Feldman (1990) entre

otros

de las señales de entrada es la apropiada, de acuerdo a los pesos que las conectan con las neuronas de las capas ocultas.

Adicionalmente está presente el estímulo incondicionado (UC) que es capaz de cambiar los pesos entre las neuronas de la primera y la segunda etapa mediante un proceso similar al indicado en la sección que describía la arquitectura dual de las redes multicapa.

Finalmente, tenemos otra subred que no se ha discutido, que hace parte del hipocampo, y cuya función es modificar las conexiones en la corteza. Ésta red recibe la información en parte procesada por el cerebelo y por la corteza, y la utiliza para modificar en mayor o menor medida las conexiones de la corteza. Adicionalmente, la unidad que recibe la información del estímulo incondicionado recibe una señal de predicción que ajustaría no solamente las conexiones entre corteza y cerebelo, sino también las conexiones entre hipocampo y corteza. La capacidad de modificar las conexiones de ésta manera es consecuente con la teoría del aprendizaje mediante LTP (Long-Term potentiation) en el hipocampo.

Aprendizaje

El aprendizaje, puede tener dos puntos de vista: el biológico (en donde el aprendizaje parece ser parte del hardware y no del software) y el punto de vista artificial (en el que en la mayoría de los casos se asume que es parte del software de la red).

En la sección B se presentó la forma en como se cree se da el aprendizaje a nivel neuronal, se explicó que las neuronas pueden modificar sus conexiones de acuerdo a la experiencia adquirida (se crean o se destruyen conexiones ó se modifica su fuerza de conexión). Por otro lado, según se vio en la sección C, el modelo artificial también es capaz de modificar sus conexiones mediante el algoritmo de back-propagation. No obstante, el algoritmo requiere bastante tiempo para su realización. Adicionalmente, las redes que se programan mediante éste tipo de algoritmos no suelen ser de un gran número de neuronas (no más de 30 neuronas) y aún así el tiempo consumido para su entrenamiento es considerable.

Adicionalmente, el aprendizaje presenta un problema conocido como interferencia catastrófica53. Este problema se da cuando la red se entrena varias veces para cumplir tareas diferentes, poco a poco la red va perdiendo la buena respuesta que había logrado para la primera tarea y acomodándose mejor para realizar la segunda o la tercera tarea para la cual fue entrenada. A diferencia del caso artificial, la interferencia no parece darse en los animales54. Sin embargo, tal interferencia se podría deber a dos causas principalmente: 1) que la red que se entrena para hacer esas tareas, de manera artificial, es muy pequeña; 2) que la red no se especialice en ciertas tareas55.

Representación

Más allá de la codificación de las señales se plantean preguntas sobre la representación de la información “almacenada” en el cerebro. Existen algunas teorías dependiendo de las funciones

53 (Hardy & Jackson, 1996, pp. 319; Spitzer, 1999, pp. 201-

202) 54 Hardy & Jackson 55 Sin embargo es probable que haya interferencia en dos

tareas que sean más parecidas como aprender dos idiomas extranjeros. Podría ser interesante conocer estudios que investiguen esta interferencia en el lenguaje.

Page 93: Aproximación al aprendizaje humano basado en la teoría de

93

que se quieran estudiar. Por ejemplo, en el caso del lenguaje la teoría más fuerte que se tiene es una estructura jerárquica en donde las palabras con ciertas relaciones se pueden encontrar en lugares cercanos del cerebro. La codificación se realizaría mediante neuronas relativamente especializadas en una palabra (o su significado) que se activan cuando se piensa, se escucha o se dice una palabra con el significado que tiene “almacenada” esa neurona o con una palabra con un significado parecido. Por ésta razón el lenguaje suele modelarse mediante redes de Kohonen como ya se ha analizado.

Spitzer(1996, cap 4) evidencia la posibilidad de representar la información mediante vectores en un espacio n-dimensional dependiendo de las características de la información que se desea representar. Por ejemplo, menciona existen evidencias de que los colores pueden ser representados en un espacio de cuatro dimensiones. La información recibida por el ojo podría codificar la información en ese espacio y luego podría ser utilizada en procesos más complejos.

Así mismo, señala la posibilidad de representar los movimientos de las extremidades mediante vectores en tres dimensiones. La posición a la que desea llevarse la mano en un momento determinado, podría ser un vector que se distribuiría en varias neuronas especializadas que se activan dependiendo de la dirección que deba tomarse para llegar al punto que se desea (tal como se modelan los movimientos en un brazo robótico). E. CONCLUSIONES Y COMENTARIOS FINALES

A lo largo del documento se han presentado algunos modelos del cerebro desde el punto de vista psicológico y neurológico. Se presentaron modelos computacionales que surgieron inspirados en la neurona, algunas arquitecturas básicas y algunos algoritmos por medio de los cuales estas arquitecturas son capaces de lograr un aprendizaje.

Al final del documento se presenta una comparación en la que se pretende relacionar algunos conceptos encontrados en la neurología y la psicología. Se muestran arquitecturas que se han desarrollado para explicar, mediante el denominado conexionismo, teorías básicas del aprendizaje como el condicionamiento y la memoria a corto plazo. Se lanzó una hipótesis sobre un posible modelo que serviría para describir el proceso de memorización a partir de simples estímulos.

Las redes neuronales parecen SIMULAR bien los procesos de aprendizaje a nivel Hardware. Es posible modelar algunas zonas cerebrales mediante redes neuronales de diferentes arquitecturas aunque no se ha logrado definir con exactitud la arquitectura del cerebro. Se han planteado modelos que se aproximan bien y parecen tener respuestas a algunas preguntas, sin embargo, muchos modelos parecen ser muy básicos y no logran entrar en detalles de niveles de abstracción superiores en los sistemas sensoriales. Solamente se cuenta con posibles modelos de los niveles de abstracción superiores.

Haken (2002) menciona que el sistema sensorial más estudiado en los animales es el visual, pero solamente se han logrado conclusiones sobre los primeros niveles de procesamiento, sin embargo parecen haber más de 15 diferentes campos visuales que procesan información más compleja conforme se van alejando del nivel primario. La información, como se ha señalado anteriormente, no se procesa en una única zona del cerebro. Spitzer (1999) utiliza el término niveles de abstracción. Todavía hay mucho que investigar sobre el sistema visual y mucho más en

otros sistemas sensoriales, sobre todo en los niveles de abstracción más profundos.

En cuanto al software las preguntas son igualmente complejas: no se cuenta con un algoritmo que se pueda implementar en un sistema biológico, además existen cuestiones más filosóficas ó teológicas que técnicas ó psicológicas: como los planteamientos que visualizan la consciencia como el software que controla el hardware (el cerebro).

Sin embargo, quedan aún por resolver cuestiones como los algoritmos de aprendizaje de las redes neuronales para que se parezcan más a la forma del aprendizaje a nivel neuronal. Se necesita un mecanismo de aprendizaje que no requiera una realimentación como el algoritmo de back-propagation o su implementación en hardware como se mencionó. Si se trabaja con un modelo como el presentado en Haken (2002) podría resultar posible que las señales presentadas como impulsos en la sección pre-sináptica puedan servir tanto como un mecanismo de comunicación, como un mecanismo de aprendizaje, dependiendo de la frecuencia de los impulsos o de un patrón de impulsos o de la sincronía de varias neuronas sobre una post-sináptica. Recuérdese que Hebb (1949) encontró que la repetición de estímulos sobre una neurona cambiaba la conexión que ésta tenía con dicho estímulo. El algoritmo estaría entonces muy relacionado con la codificación de las señales presentes en las sinapsis y especialmente en la sección pre-sináptica. Queda, con un modelo como éste, abierta la pregunta sobre qué tanto debería modificarse un la fuerza de conexión entre dos neuronas, ¿Cómo se podrían codificar los errores que al final son los que van a determinar la modificación de los pesos?

Un gran problema que surge con éste modelo es que la sincronización de las neuronas debe ser bastante precisa para tener una buena respuesta neuronal. La investigación sobre la sincronización de las neuronas requiere bastante trabajo matemático. Éste sería un buen punto de partida como proyecto posterior de investigación en el campo de redes neuronales artificiales.

Un problema que hasta ahora está siendo estudiado es el ruido presente en las conexiones neuronales: como se podría modelar dicho dentro de una red neuronal, que tan robustos son los modelos propuestos en redes neuronales como para no dejarse afectar por el ruido presente entre las conexiones. Se han dado algunos pasos para responder ésta pregunta en White et al. (2004) y Haken (2002), pero el camino se sigue desarrollando mediante la investigación de los neurocientíficos.

El ruido presente en las señales sensoriales parece ser importante para mejorar la capacidad cerebral y responder ante esos estímulos. Actualmente ésta es un área que está en discusión e investigación (véase Hidaka et al (2000))

Actualmente también se investigan las aplicaciones que la teoría del caos puede tener sobre diferentes investigaciones de los seres humanos, como la psicología, el corazón y también en el campo de la neurología (véase Ives (2003)). La teoría toma en cuenta fenómenos mas complejos del cerebro, pues no solamente tiene en cuenta las conexiones dentro del cerebro, sino que añade características como fenómenos electromagnéticos, diferentes clases de neuronas y diferentes clases de neurotransmisores, elementos en los que la teoría de redes neuronales “clásica” se queda bastante corto. Un estudio de las aplicaciones de la teoría del caos sobre las redes neuronales también tendría bastante cabida como un tema de investigación de cognición humana.

Page 94: Aproximación al aprendizaje humano basado en la teoría de

94

E. Referencias [3] Bishop,C. M.(1995), Neural Networks for Pattern Recognition. Oxford

University Press. [4] Chown, E. (s. f.) Reminiscence and Arousal: A connectionist model.

Recuperado el 28 de Abril de 2006 de www.bowdoin.edu/~echown/papers/ChownCogSci02.pdf

[5] Churchland, P. S., & Koch, Christof, & Sejnowski, T. J. (1990) What is Computational Neuroscience?. En Schwartz (Ed.), Computational Neuroscience (pp. 46 - 55). MIT Press.

[6] Feldman J. A. (1990). Computational Constraints on higher Neural Representations. En Schwartz (Ed.), Computational Neuroscience (pp. 163-178). MIT Press.

[7] Haken H. (2002). Brain Dynamics. Springer [8] Hardy L, T. & Jackson H., R. (1998) Aprendizaje y Cognición. 4 edición.

Prentice Hall. [9] Hebb D. O. (1949). The Organization of Behavior. Wiley [10] Hertz, J. & Krogh A. & Palmer R. G. (1991). Introduction to the theory of

Neural Computation. Addison-Wesley Publishing Company. [11] Ives, C. (2003). Human beings as Chaotic Systems. Recuperado el 2 de

Junio de 2006 de www.physics.orst.edu/~stetza/COURSES/ph407h/Chaos.pdf

[12] Jaeger, H.(2001) Report No. 148 en German National Research Center for Information Technology.

[13] Koch C. (1990). Biophysics of Computation: Toward the Mechanisms Underlying Information Processing in Single Neurons. En Schwartz (Ed.), Computational neurscience.(pp. 97-113)

[14] Kohonen, T. (1982). Self-organizaed formation of topologically correct feature maps. Biological Cybernetics 43:59-69. Reimpreso en Anderson & Rosenfield [1988] pp. 511-521

[15] Poggio T. & Torre V. (1981) en Theoretical Approaches in Neurobiology, Reichardt W. & Poggio T (Ed.). MIT Press,Cambridge.

[16] Rall W. & Segev I. (1990). Dendritic Branches, Spines, Synapses, and Excitable Spine Clusters. En Schwartz (Ed.), Computational Neuroscience (pp. 69-81). MIT Press.

[17] Rosenzweig, M. R.,& Leiman A. L. & Breedlove S. M. (1996) Biological Phsycology. Sinauer Associates Inc.

[18] Schmajuk, N.A., & DiCarlo, J.J. (1992) Stimulus configuration, classical conditioning, and hippocampal function. En Psychological Review Vol.99, pp. 268-305.

[19] Spitzer, Manfred (1999), The Mind Within the Net. MIT Press. [20] White, O.L. & Lee, D. D. & Sompolinsky, H. (2004). Short-term memory

in orthogonal neural networks [Versión electrónica].En Physical review Letters Vol 92 No. 14.

[21] Young, J. Z. (1985) What’s in a brain? En Coen, C. W. Functions of the brain Clarendon Press. Oxford.

Page 95: Aproximación al aprendizaje humano basado en la teoría de

95

III. ANEXOS ARTICULO

Fig. A1

Fig. A256

56 Imagen que representa la función del hipocampo. Contiene una subred encargada del condicionamiento y

otra encargada deguardar la información en la memoria a largo plazo. Tomada de Schmajuk & Di-Carlo (1992, pp.277)