Upload
hiltraud-gerstel
View
108
Download
2
Embed Size (px)
Citation preview
Elman-Netzwerke
Wintersemester 2004/05
Seminar Kindlicher Spracherwerb
C. Friedrich & R. Assadollahi
vorgestellt von
Christian Scharinger & Guido Heinecke
...bisher kennengelernt
• Supervised learning durch backpropagation• Implementierung eines Langzeitgedächtnisses• Problem: Verarbeitung von Phänomenen, die eine zeitlichen Charakter haben (bei denen der unmittelbare Kontext eine Rolle spielt)
Das Problem mit der Zeit
Bei vielen kognitiven Prozessen spielt der Faktor Zeit eine wesentliche Rolle. Beispiel: Sprache – kontinuierliches sich über die Zeit veränderndes Schallsignal Extraktion diskreter Segmente? Lernen der Einheit Wort? Lernen grammatikalischer Kategorien? Richtiger Satzbau? usw.
Das Problem mit der Zeit
Zeit kann in feed-forward-Netzen nur explizit über die Eingabe vermittelt werden Unbefriedigend, da:
Input muss zwischengespeichert werden, um dem Netz „in einem Rutsch“ präsentiert (und von diesem parallel verarbeitet) werden zu können
Problem der Abgrenzung (Wo beginnt/endet mein Input) Inputs unterschiedlicher Länge (d.h. verschiedener zeitlicher
Ausdehnung) vgl. Sätze Vektoren [011100000] & [000111000] gleiches Muster,
zeitlich verschoben oder unterschiedliche Vektoren?
Kurz: in vielen Fällen wäre eine „implizite“ Darstellung von Zeit durch ein „Kurzzeitgedächtnis“ wünschenswert
Das Problem mit der Zeit - Lösung
Rekurrente Netzwerke „Sonderfall“: einfache rekurrente Netzwerke (Elman-Netze)
Elman-Netzwerke
Partially recurrent networks Status der hidden units zum Zeitpunkt t wird unverändert in den context
units gespeichert Zum Zeitpunkt t+1 des folgenden Inputs wirkt der Status der context units
zusätzlich auf die hidden units ein Implizite Darstellung von Zeit durch die Auswirkungen auf die Verarbeitung
des Inputs „Kurzzeitgedächtnis“
Elman-Netzwerke: Self-supervised learning
Elman-Netzwerke lernen durch Autoassoziation Dem Netz wird eine Folge von Inputs gegeben & dabei die Aufgabe gestellt, den nächstfolgenden Input korrekt vorherzusagen nach vielen Trainingsdurchgänge mit vielen Trainingsdaten „lernt“ das Netz bestimmte Regularitäten im Input zu erkennen bzw. abstrakte Kategorien zu bildenFehlerrate & Aktivität der hidden unit als Nachweis des Lernerfolges
Leistungsfähigkeit von Elman-Netzwerken (1)
Das XOR-Problem in temporaler Variante
Erkennen komplexer Regularitäten im Intput Dem Netz wird eine Sequenz von Buchstaben präsentiert Die Reihenfolge der Konsonanten darin ist zufällig; die Vokale durch die Konsonanten bedingt Ersetzungsregeln: b => ba; d => dii; g => guu Buchstaben werden dem Netz als 6-Bit Vektoren präsentiert Aufgabe: Vorhersage des nächstfolgenden Buchstabens
Leistungsfähigkeit von Elman-Netzwerken (2)
Leistungsfähigkeit von Elman-Netzwerken (2)
Leistungsfähigkeit von Elman-Netzwerken (2)
Leistungsfähigkeit von Elman-Netzwerken (3)
Erkennen von Wortgrenzen Lernen des Konzeptes „Wort“
aus einem Lexikon mit 15 Wörtern wurden 200 Sätze generiert
Die Buchstaben dieser Sätze wurden dem Netz (als 5-BitVektor codiert) in unmittelbarer Abfolge in mehreren Durchgängen präsentiert
Leistungsfähigkeit von Elman-Netzwerken
Leistungsfähigkeit von Elman-Netzwerken (3)
Lexikalische Klassen
Lexikalische Klassen
Lexikalische Klassen