View
219
Download
0
Category
Preview:
Citation preview
Einleitung formale Sprachen Modellierungsannahmen Resultate
Grundkurs LinguistikZur formalen Komplexität natürlicher
Sprachen
Wiebke Petersen
Wiebke Petersen Grundkurs 1
Einleitung formale Sprachen Modellierungsannahmen Resultate
Formale Komplexität natürlicher Sprachen
Deutsch, Englisch, Chinesisch, Finnisch, . . .Prolog, Pascal, . . .Esperanto, Volapük, Interlingua, . . .Aussagenlogik, Prädikatenlogik, . . .. . .
Wiebke Petersen Grundkurs 2
Einleitung formale Sprachen Modellierungsannahmen Resultate
Formale Komplexität natürlicher Sprachen
Deutsch, Englisch, Chinesisch, Finnisch, . . .
Prolog, Pascal, . . .Esperanto, Volapük, Interlingua, . . .Aussagenlogik, Prädikatenlogik, . . .. . .
Wiebke Petersen Grundkurs 2
Einleitung formale Sprachen Modellierungsannahmen Resultate
Formale Komplexität natürlicher Sprachen
Deutsch, Englisch, Chinesisch, Finnisch, . . .Prolog, Pascal, . . .
Esperanto, Volapük, Interlingua, . . .Aussagenlogik, Prädikatenlogik, . . .. . .
Wiebke Petersen Grundkurs 2
Einleitung formale Sprachen Modellierungsannahmen Resultate
Formale Komplexität natürlicher Sprachen
Deutsch, Englisch, Chinesisch, Finnisch, . . .Prolog, Pascal, . . .Esperanto, Volapük, Interlingua, . . .
Aussagenlogik, Prädikatenlogik, . . .. . .
Wiebke Petersen Grundkurs 2
Einleitung formale Sprachen Modellierungsannahmen Resultate
Formale Komplexität natürlicher Sprachen
Deutsch, Englisch, Chinesisch, Finnisch, . . .Prolog, Pascal, . . .Esperanto, Volapük, Interlingua, . . .Aussagenlogik, Prädikatenlogik, . . .. . .
Wiebke Petersen Grundkurs 2
Einleitung formale Sprachen Modellierungsannahmen Resultate
Formale Komplexität natürlicher Sprachen
Deutsch, Englisch, Chinesisch, Finnisch, . . .
vage, ambig,
Ambiguitäten
lexikalische Ambiguitäten (Ruf morgen an - Der Ruf der Möwen)strukturelle Ambiguitäten:
Die Frau sieht p den Mann q mit dem Fernrohr
Die Frau sieht p den Mann mit dem Fernrohr qeinzige Experten: Menschendynamische Sprachentwicklung
Wiebke Petersen Grundkurs 3
Einleitung formale Sprachen Modellierungsannahmen Resultate
Formale Komplexität natürlicher Sprachen
Deutsch, Englisch, Chinesisch, Finnisch, . . .vage, ambig,
Ambiguitäten
lexikalische Ambiguitäten (Ruf morgen an - Der Ruf der Möwen)strukturelle Ambiguitäten:
Die Frau sieht p den Mann q mit dem Fernrohr
Die Frau sieht p den Mann mit dem Fernrohr qeinzige Experten: Menschendynamische Sprachentwicklung
Wiebke Petersen Grundkurs 3
Einleitung formale Sprachen Modellierungsannahmen Resultate
Formale Komplexität natürlicher Sprachen
Deutsch, Englisch, Chinesisch, Finnisch, . . .vage, ambig,
Ambiguitäten
lexikalische Ambiguitäten (Ruf morgen an - Der Ruf der Möwen)
strukturelle Ambiguitäten:
Die Frau sieht p den Mann q mit dem Fernrohr
Die Frau sieht p den Mann mit dem Fernrohr qeinzige Experten: Menschendynamische Sprachentwicklung
Wiebke Petersen Grundkurs 3
Einleitung formale Sprachen Modellierungsannahmen Resultate
Formale Komplexität natürlicher Sprachen
Deutsch, Englisch, Chinesisch, Finnisch, . . .vage, ambig,
Ambiguitäten
lexikalische Ambiguitäten (Ruf morgen an - Der Ruf der Möwen)strukturelle Ambiguitäten:
Die Frau sieht p den Mann q mit dem Fernrohr
Die Frau sieht p den Mann mit dem Fernrohr q
einzige Experten: Menschendynamische Sprachentwicklung
Wiebke Petersen Grundkurs 3
Einleitung formale Sprachen Modellierungsannahmen Resultate
Formale Komplexität natürlicher Sprachen
Deutsch, Englisch, Chinesisch, Finnisch, . . .vage, ambig,
Ambiguitäten
lexikalische Ambiguitäten (Ruf morgen an - Der Ruf der Möwen)strukturelle Ambiguitäten:
Die Frau sieht p den Mann q mit dem Fernrohr
Die Frau sieht p den Mann mit dem Fernrohr qeinzige Experten: Menschendynamische Sprachentwicklung
Wiebke Petersen Grundkurs 3
Einleitung formale Sprachen Modellierungsannahmen Resultate
Formale Komplexität natürlicher Sprachen
schwierig zu erlernen im Erstspracherwerb / Zweitspracherwerb
komplexe Phonologie / Morphologie / Syntax / . . .schwierig zu parsen
Wiebke Petersen Grundkurs 4
Einleitung formale Sprachen Modellierungsannahmen Resultate
Formale Komplexität natürlicher Sprachen
schwierig zu erlernen im Erstspracherwerb / Zweitspracherwerbkomplexe Phonologie / Morphologie / Syntax / . . .
schwierig zu parsen
Wiebke Petersen Grundkurs 4
Einleitung formale Sprachen Modellierungsannahmen Resultate
Formale Komplexität natürlicher Sprachen
schwierig zu erlernen im Erstspracherwerb / Zweitspracherwerbkomplexe Phonologie / Morphologie / Syntax / . . .schwierig zu parsen
Wiebke Petersen Grundkurs 4
Einleitung formale Sprachen Modellierungsannahmen Resultate
Formale Komplexität natürlicher Sprachen
Komplexität der Berechnung / Verarbeitungskomplexität(computational complexity)
Komplexität der Struktur
Komplexität der Struktur:Natürliche Sprachen werden als abstrakte Symbolsystemebetrachtet, bestehend aus elementaren Zeichen undKombinationsvorschriften.Fragen nach der Grammatikalität natürlichsprachlicher Sätzeentsprechen Fragen nach der syntaktischen Korrektheit vonProgrammen oder der Wohlgeformtheit logischer Ausdrücke.
Wiebke Petersen Grundkurs 5
Einleitung formale Sprachen Modellierungsannahmen Resultate
Formale Komplexität natürlicher Sprachen
Komplexität der Berechnung / Verarbeitungskomplexität(computational complexity)Komplexität der Struktur
Komplexität der Struktur:Natürliche Sprachen werden als abstrakte Symbolsystemebetrachtet, bestehend aus elementaren Zeichen undKombinationsvorschriften.Fragen nach der Grammatikalität natürlichsprachlicher Sätzeentsprechen Fragen nach der syntaktischen Korrektheit vonProgrammen oder der Wohlgeformtheit logischer Ausdrücke.
Wiebke Petersen Grundkurs 5
Einleitung formale Sprachen Modellierungsannahmen Resultate
Formale Komplexität natürlicher Sprachen
Komplexität der Berechnung / Verarbeitungskomplexität(computational complexity)Komplexität der Struktur
Komplexität der Struktur:Natürliche Sprachen werden als abstrakte Symbolsystemebetrachtet, bestehend aus elementaren Zeichen undKombinationsvorschriften.Fragen nach der Grammatikalität natürlichsprachlicher Sätzeentsprechen Fragen nach der syntaktischen Korrektheit vonProgrammen oder der Wohlgeformtheit logischer Ausdrücke.
Wiebke Petersen Grundkurs 5
Einleitung formale Sprachen Modellierungsannahmen Resultate
Was eine Grammatiktheorie erklären muss
die Katze frisst den Hundfrisst die Katze Hund denden Hund frisst die Katzeden die Hund Katze frisstfrisst die Katze den Hundden Katze die Hund frisstKatze frisst die den Hund. . .
Auch wenn das Deutsche eine relativ freie Wortstellung hat, so wird doch deutlich,dass die Zahl der grammatisch korrekten Sätze verschwindend klein ist imVergleich zu den ungrammatischen Wortketten.
Wiebke Petersen Grundkurs 6
Einleitung formale Sprachen Modellierungsannahmen Resultate
Wie komplex sind denn nun Sätze des Deutschen?
Anne sieht PeterAnne sieht Peter am Rathaus mit dem FernrohrAnne sieht Peter, den sie vorgestern kennengelernt hat, amRathaus mit dem Fernrohr
Anne sieht Peter und Hans und Sabine und Joachim und Elfriedeund Johanna und Maria und Jochen und Thomas und Andrea
Satzlänge spielt zwar bei der Verarbeitungskomplexität eine Rolle, istaber kein strukturelles Komplexitätsmerkmal!
Wiebke Petersen Grundkurs 7
Einleitung formale Sprachen Modellierungsannahmen Resultate
Wie komplex sind denn nun Sätze des Deutschen?
Anne sieht PeterAnne sieht Peter am Rathaus mit dem FernrohrAnne sieht Peter, den sie vorgestern kennengelernt hat, amRathaus mit dem FernrohrAnne sieht Peter und Hans und Sabine und Joachim und Elfriedeund Johanna und Maria und Jochen und Thomas und Andrea
Satzlänge spielt zwar bei der Verarbeitungskomplexität eine Rolle, istaber kein strukturelles Komplexitätsmerkmal!
Wiebke Petersen Grundkurs 7
Einleitung formale Sprachen Modellierungsannahmen Resultate
Wie komplex sind denn nun Sätze des Deutschen?
Anne sieht PeterAnne sieht Peter am Rathaus mit dem FernrohrAnne sieht Peter, den sie vorgestern kennengelernt hat, amRathaus mit dem FernrohrAnne sieht Peter und Hans und Sabine und Joachim und Elfriedeund Johanna und Maria und Jochen und Thomas und Andrea
Satzlänge spielt zwar bei der Verarbeitungskomplexität eine Rolle, istaber kein strukturelles Komplexitätsmerkmal!
Wiebke Petersen Grundkurs 7
Einleitung formale Sprachen Modellierungsannahmen Resultate
Grammatiktheorie versus Theorie formaler Sprachen
Grammatiktheorien- sollen sprachliche Daten erklären- sind einzelsprachspezifisch (Deutsch, Englisch,. . . )
Theorie formaler Sprachen- ist eine Theorie über den Aufbau und die Struktur vonSymbolkettenmengen
- nicht einzelsprachspezifisch- erlaubt Aussagen über die Mechanismen der Erzeugung undErkennung von Symbolkettenmengen
Wiebke Petersen Grundkurs 8
Einleitung formale Sprachen Modellierungsannahmen Resultate
Grammatiktheorie versus Theorie formaler Sprachen
Grammatiktheorien- sollen sprachliche Daten erklären- sind einzelsprachspezifisch (Deutsch, Englisch,. . . )
Theorie formaler Sprachen- ist eine Theorie über den Aufbau und die Struktur vonSymbolkettenmengen
- nicht einzelsprachspezifisch- erlaubt Aussagen über die Mechanismen der Erzeugung undErkennung von Symbolkettenmengen
Wiebke Petersen Grundkurs 8
Einleitung formale Sprachen Modellierungsannahmen Resultate
Theorie formaler Sprachen
Definition (Definition: formale Sprache)Eine formale Sprache L ist eine Menge von Symbolketten (Wörtern) über einemAlphabet Σ.
Sprache Lrom der gültigen römischen Zahldarstellungen über dem AlphabetΣrom = {I,V,X,L,C,D,M}.
Sprache Lpal der Palindrome im deutschen Duden über dem Alphabet{a,b,c , . . . ,z} Lpal = {neben, reliefpfeiler, gnutötung, retsinakanister, . . . }
Menge der Wörter der Länge 13 über dem Alphabet {a,b,c}
Sprache der syntaktisch wohlgeformten Java-Programme
Wiebke Petersen Grundkurs 9
Einleitung formale Sprachen Modellierungsannahmen Resultate
Theorie formaler Sprachen
Definition (Definition: formale Sprache)Eine formale Sprache L ist eine Menge von Symbolketten (Wörtern) über einemAlphabet Σ.
Sprache Lrom der gültigen römischen Zahldarstellungen über dem AlphabetΣrom = {I,V,X,L,C,D,M}.Sprache Lpal der Palindrome im deutschen Duden über dem Alphabet{a,b,c , . . . ,z} Lpal = {neben, reliefpfeiler, gnutötung, retsinakanister, . . . }
Menge der Wörter der Länge 13 über dem Alphabet {a,b,c}
Sprache der syntaktisch wohlgeformten Java-Programme
Wiebke Petersen Grundkurs 9
Einleitung formale Sprachen Modellierungsannahmen Resultate
Theorie formaler Sprachen
Definition (Definition: formale Sprache)Eine formale Sprache L ist eine Menge von Symbolketten (Wörtern) über einemAlphabet Σ.
Sprache Lrom der gültigen römischen Zahldarstellungen über dem AlphabetΣrom = {I,V,X,L,C,D,M}.Sprache Lpal der Palindrome im deutschen Duden über dem Alphabet{a,b,c , . . . ,z} Lpal = {neben, reliefpfeiler, gnutötung, retsinakanister, . . . }
Menge der Wörter der Länge 13 über dem Alphabet {a,b,c}
Sprache der syntaktisch wohlgeformten Java-Programme
Wiebke Petersen Grundkurs 9
Einleitung formale Sprachen Modellierungsannahmen Resultate
Theorie formaler Sprachen
Definition (Definition: formale Sprache)Eine formale Sprache L ist eine Menge von Symbolketten (Wörtern) über einemAlphabet Σ.
Sprache Lrom der gültigen römischen Zahldarstellungen über dem AlphabetΣrom = {I,V,X,L,C,D,M}.Sprache Lpal der Palindrome im deutschen Duden über dem Alphabet{a,b,c , . . . ,z} Lpal = {neben, reliefpfeiler, gnutötung, retsinakanister, . . . }
Menge der Wörter der Länge 13 über dem Alphabet {a,b,c}
Sprache der syntaktisch wohlgeformten Java-Programme
Wiebke Petersen Grundkurs 9
Einleitung formale Sprachen Modellierungsannahmen Resultate
Sprachbeschreibung durch Angabe einer Grammatik
Definition (formale Grammatik)Eine formale Grammatik besteht aus
einem Alphabet von Terminalsymbolen Σ (den Symbolen der beschriebenenSprache)einer Menge von Nichtterminalsymbolen N (unseren Hilfssymbole)einem Startsymbol S ∈Neiner Menge von Regeln der Form α→β, wobei α und β Ketten vonSymbolen aus Σ∪N sind.
- Grammatiken sind endliche Regelsysteme.- Die Menge aller Ketten, die von einer Grammatik generiert werden, bilden dievon der Grammatik beschriebene formale Sprache (das sind alle Ketten vonTerminalsymbolen, die man aus dem Startsymbol durch sukzessiveRegelanwendung gewinnen kann).
Wiebke Petersen Grundkurs 10
Einleitung formale Sprachen Modellierungsannahmen Resultate
Beispielgrammatiken
Σ= {a,b}, N = {S ,A},Regeln: S → bA, A→ aA, A→ a.Die Grammatik generiert die Sprache L(baa∗)= {ba,baa,baaa,baaaa, . . .}.Σ= {a,b}, N = {S},Regeln: S → aSb, S → ab.Die Grammatik generiert die SpracheL(anbn)= {ab,aabb,aaabbb,aaaabbbb, . . .}.Σ= {a,b}, N = {S},Regeln: S → aSa, S → bSb, S → a, S → b, S → ε (ε ist das ‚leere Wort‘derLänge 0).Die Grammatik generiert die Sprache der Palindrome über dem Alphabet{a,b}.
Wiebke Petersen Grundkurs 11
Einleitung formale Sprachen Modellierungsannahmen Resultate
Chomskyhierarchie
Wenn man die Form der Regeln einschränkt erhält manTeilmengen der Menge aller durch eine Grammatik erzeugtenSprachen.
Die Chomskyhierarchie ist eine Hierarchie über dieRegelbedingungen (den verschiedenen Sprachklassen entsprechenEinschränkungen über die rechten und linken Regelseiten).Für Linguisten ist die Chomsky Hierarchie besonders interessant,da sie die Form der Regeln zentral stellt, und somit Aussagen überGrammatikformalismen zuläßt.
Wiebke Petersen Grundkurs 12
Einleitung formale Sprachen Modellierungsannahmen Resultate
Chomskyhierarchie
Wenn man die Form der Regeln einschränkt erhält manTeilmengen der Menge aller durch eine Grammatik erzeugtenSprachen.Die Chomskyhierarchie ist eine Hierarchie über dieRegelbedingungen (den verschiedenen Sprachklassen entsprechenEinschränkungen über die rechten und linken Regelseiten).
Für Linguisten ist die Chomsky Hierarchie besonders interessant,da sie die Form der Regeln zentral stellt, und somit Aussagen überGrammatikformalismen zuläßt.
Wiebke Petersen Grundkurs 12
Einleitung formale Sprachen Modellierungsannahmen Resultate
Chomskyhierarchie
Wenn man die Form der Regeln einschränkt erhält manTeilmengen der Menge aller durch eine Grammatik erzeugtenSprachen.Die Chomskyhierarchie ist eine Hierarchie über dieRegelbedingungen (den verschiedenen Sprachklassen entsprechenEinschränkungen über die rechten und linken Regelseiten).Für Linguisten ist die Chomsky Hierarchie besonders interessant,da sie die Form der Regeln zentral stellt, und somit Aussagen überGrammatikformalismen zuläßt.
Wiebke Petersen Grundkurs 12
Einleitung formale Sprachen Modellierungsannahmen Resultate
Chomsky-Hierarchie (grober Überblick)
Sprachtyp komplexesterRegeltyp
Beispiele
allgemeine Regelsprachenrecursively enumerable languages
Typ 0, RE α→β
kontextsensitive Sprachencontext-sensitive languages
Typ 1, CS βAγ→βδγ anbncn, anbmcndm,Wiederholungswörter(ww)
kontextfreie Sprachen(context-free languages)
Typ 2, CF A→β anbn, Palindrome
reguläre Sprachen(regular languages)
Typ 3, REG A→ aB a∗b∗
a,b ∈T ,A,B ∈N,α,β,γ,δ sind Ketten aus N ∪T
Wiebke Petersen Grundkurs 13
Einleitung formale Sprachen Modellierungsannahmen Resultate
Chomsky-Hierarchie (grober Überblick)
Wiebke Petersen Grundkurs 14
Einleitung formale Sprachen Modellierungsannahmen Resultate
Chomskyhierarchie: Hauptsatz
REG⊂CF⊂CS⊂RE
CF
REG
CSRE
REG: reguläre Sprachen, CF: kontextfreie Sprachen, CS: kontextsensitive Sprachen,RE: rekursiv-aufzählbare Sprachen
Wiebke Petersen Grundkurs 15
Einleitung formale Sprachen Modellierungsannahmen Resultate
Zu welcher Sprachklasse gehören die natürlichenSprachen?
Warum ist die formale Komplexität natürlicher Sprachen von Interesse?
gibt Information über die Struktur von natürlichen Sprachen (NL)erlaubt Rückschlüsse auf Adäquatheit eines Grammatikformalismus für NLunter computerlinguistischen Aspekten sind möglichst effizient verarbeitbareAnalysen gefragterlaubt Rückschlüsse auf menschliche Sprachverarbeitung
Notwendige Modellierungsannahmen
1 Es gibt die Familie der natürlichen Sprachen2 Natürliche Sprachen lassen sich als Mengen von Zeichenketten modellieren3 Natürliche Sprachen lassen sich durch endliche Regelsysteme beschreiben4 Damit die Frage spannend ist: Natürliche Sprachen sind unendlich
Wiebke Petersen Grundkurs 16
Einleitung formale Sprachen Modellierungsannahmen Resultate
Zu welcher Sprachklasse gehören die natürlichenSprachen?
Warum ist die formale Komplexität natürlicher Sprachen von Interesse?
gibt Information über die Struktur von natürlichen Sprachen (NL)
erlaubt Rückschlüsse auf Adäquatheit eines Grammatikformalismus für NLunter computerlinguistischen Aspekten sind möglichst effizient verarbeitbareAnalysen gefragterlaubt Rückschlüsse auf menschliche Sprachverarbeitung
Notwendige Modellierungsannahmen
1 Es gibt die Familie der natürlichen Sprachen2 Natürliche Sprachen lassen sich als Mengen von Zeichenketten modellieren3 Natürliche Sprachen lassen sich durch endliche Regelsysteme beschreiben4 Damit die Frage spannend ist: Natürliche Sprachen sind unendlich
Wiebke Petersen Grundkurs 16
Einleitung formale Sprachen Modellierungsannahmen Resultate
Zu welcher Sprachklasse gehören die natürlichenSprachen?
Warum ist die formale Komplexität natürlicher Sprachen von Interesse?
gibt Information über die Struktur von natürlichen Sprachen (NL)erlaubt Rückschlüsse auf Adäquatheit eines Grammatikformalismus für NL
unter computerlinguistischen Aspekten sind möglichst effizient verarbeitbareAnalysen gefragterlaubt Rückschlüsse auf menschliche Sprachverarbeitung
Notwendige Modellierungsannahmen
1 Es gibt die Familie der natürlichen Sprachen2 Natürliche Sprachen lassen sich als Mengen von Zeichenketten modellieren3 Natürliche Sprachen lassen sich durch endliche Regelsysteme beschreiben4 Damit die Frage spannend ist: Natürliche Sprachen sind unendlich
Wiebke Petersen Grundkurs 16
Einleitung formale Sprachen Modellierungsannahmen Resultate
Zu welcher Sprachklasse gehören die natürlichenSprachen?
Warum ist die formale Komplexität natürlicher Sprachen von Interesse?
gibt Information über die Struktur von natürlichen Sprachen (NL)erlaubt Rückschlüsse auf Adäquatheit eines Grammatikformalismus für NLunter computerlinguistischen Aspekten sind möglichst effizient verarbeitbareAnalysen gefragt
erlaubt Rückschlüsse auf menschliche Sprachverarbeitung
Notwendige Modellierungsannahmen
1 Es gibt die Familie der natürlichen Sprachen2 Natürliche Sprachen lassen sich als Mengen von Zeichenketten modellieren3 Natürliche Sprachen lassen sich durch endliche Regelsysteme beschreiben4 Damit die Frage spannend ist: Natürliche Sprachen sind unendlich
Wiebke Petersen Grundkurs 16
Einleitung formale Sprachen Modellierungsannahmen Resultate
Zu welcher Sprachklasse gehören die natürlichenSprachen?
Warum ist die formale Komplexität natürlicher Sprachen von Interesse?
gibt Information über die Struktur von natürlichen Sprachen (NL)erlaubt Rückschlüsse auf Adäquatheit eines Grammatikformalismus für NLunter computerlinguistischen Aspekten sind möglichst effizient verarbeitbareAnalysen gefragterlaubt Rückschlüsse auf menschliche Sprachverarbeitung
Notwendige Modellierungsannahmen
1 Es gibt die Familie der natürlichen Sprachen2 Natürliche Sprachen lassen sich als Mengen von Zeichenketten modellieren3 Natürliche Sprachen lassen sich durch endliche Regelsysteme beschreiben4 Damit die Frage spannend ist: Natürliche Sprachen sind unendlich
Wiebke Petersen Grundkurs 16
Einleitung formale Sprachen Modellierungsannahmen Resultate
Zu welcher Sprachklasse gehören die natürlichenSprachen?
Warum ist die formale Komplexität natürlicher Sprachen von Interesse?
gibt Information über die Struktur von natürlichen Sprachen (NL)erlaubt Rückschlüsse auf Adäquatheit eines Grammatikformalismus für NLunter computerlinguistischen Aspekten sind möglichst effizient verarbeitbareAnalysen gefragterlaubt Rückschlüsse auf menschliche Sprachverarbeitung
Notwendige Modellierungsannahmen
1 Es gibt die Familie der natürlichen Sprachen2 Natürliche Sprachen lassen sich als Mengen von Zeichenketten modellieren3 Natürliche Sprachen lassen sich durch endliche Regelsysteme beschreiben
4 Damit die Frage spannend ist: Natürliche Sprachen sind unendlich
Wiebke Petersen Grundkurs 16
Einleitung formale Sprachen Modellierungsannahmen Resultate
Zu welcher Sprachklasse gehören die natürlichenSprachen?
Warum ist die formale Komplexität natürlicher Sprachen von Interesse?
gibt Information über die Struktur von natürlichen Sprachen (NL)erlaubt Rückschlüsse auf Adäquatheit eines Grammatikformalismus für NLunter computerlinguistischen Aspekten sind möglichst effizient verarbeitbareAnalysen gefragterlaubt Rückschlüsse auf menschliche Sprachverarbeitung
Notwendige Modellierungsannahmen
1 Es gibt die Familie der natürlichen Sprachen2 Natürliche Sprachen lassen sich als Mengen von Zeichenketten modellieren3 Natürliche Sprachen lassen sich durch endliche Regelsysteme beschreiben4 Damit die Frage spannend ist: Natürliche Sprachen sind unendlich
Wiebke Petersen Grundkurs 16
Einleitung formale Sprachen Modellierungsannahmen Resultate
Annahme 1: Familie der natürlichen Sprachen
Es gibt die Familie der natürlichen Sprachen:alle natürlichen Sprachen sind strukturell ähnlichalle natürlichen Sprachen haben eine ähnliche generative Kapazität
Argumente:Alle Sprachen haben gleiche FunktionJeder Mensch kann jede Sprache im Erstspracherwerb erlernen (in ähnlicherZeit)
Wiebke Petersen Grundkurs 17
Einleitung formale Sprachen Modellierungsannahmen Resultate
Annahme 2+3: nat. Spr. = Mengen vonZeichenketten beschreibbar durch endlichesRegelsystem
Natürliche Sprachen lassen sich als Mengen von Zeichenketten modellierenund durch endliche Regelsysteme beschreiben:
Muttersprachler haben volle Kompetenzkonsistente Grammatikalitätsurteile
Argumente:Fehler beruhen auf Performanz- und nicht Kompetenzproblemen
Mathews (1979) Gegenbeispiel:
The canoe floated down the river sank.The man thrown down the stairs died.The man that was thrown down the stairs died.
Reihenfolge beeinträchtigt Grammatikalitätsurteile
Wiebke Petersen Grundkurs 18
Einleitung formale Sprachen Modellierungsannahmen Resultate
Annahme 2+3: nat. Spr. = Mengen vonZeichenketten beschreibbar durch endlichesRegelsystem
Natürliche Sprachen lassen sich als Mengen von Zeichenketten modellierenund durch endliche Regelsysteme beschreiben:
Muttersprachler haben volle Kompetenzkonsistente Grammatikalitätsurteile
Argumente:Fehler beruhen auf Performanz- und nicht Kompetenzproblemen
Mathews (1979) Gegenbeispiel:
The canoe floated down the river sank.
The man thrown down the stairs died.The man that was thrown down the stairs died.
Reihenfolge beeinträchtigt Grammatikalitätsurteile
Wiebke Petersen Grundkurs 18
Einleitung formale Sprachen Modellierungsannahmen Resultate
Annahme 2+3: nat. Spr. = Mengen vonZeichenketten beschreibbar durch endlichesRegelsystem
Natürliche Sprachen lassen sich als Mengen von Zeichenketten modellierenund durch endliche Regelsysteme beschreiben:
Muttersprachler haben volle Kompetenzkonsistente Grammatikalitätsurteile
Argumente:Fehler beruhen auf Performanz- und nicht Kompetenzproblemen
Mathews (1979) Gegenbeispiel:
The canoe floated down the river sank.The man thrown down the stairs died.
The man that was thrown down the stairs died.Reihenfolge beeinträchtigt Grammatikalitätsurteile
Wiebke Petersen Grundkurs 18
Einleitung formale Sprachen Modellierungsannahmen Resultate
Annahme 2+3: nat. Spr. = Mengen vonZeichenketten beschreibbar durch endlichesRegelsystem
Natürliche Sprachen lassen sich als Mengen von Zeichenketten modellierenund durch endliche Regelsysteme beschreiben:
Muttersprachler haben volle Kompetenzkonsistente Grammatikalitätsurteile
Argumente:Fehler beruhen auf Performanz- und nicht Kompetenzproblemen
Mathews (1979) Gegenbeispiel:
The canoe floated down the river sank.The man thrown down the stairs died.The man that was thrown down the stairs died.
Reihenfolge beeinträchtigt Grammatikalitätsurteile
Wiebke Petersen Grundkurs 18
Einleitung formale Sprachen Modellierungsannahmen Resultate
Annahme 4: Natürliche Sprachen sind unendlich
Jede natürliche Sprache besteht aus einer unendlichen Zahl von ZeichenkettenRekursion:
Dies ist der Hund, der die Katze ärgerte, die die Maus tötete, die den Käsefraß, der in dem Haus lag, das Maja gebaut hat.
Dies ist der Hund, der die Katze, die die Maus, die den Käse, der in demHaus, das Maja gebaut hat, lag, fraß, tötete, ärgerte.Donaudampfschiffskapitänsmützenschirm
Aber ist Deutsch wirklich unendlich?Dies ist der Junge, der den Hasen, der den Hund, der die Katze, die dieMaus, die den Käse, der in dem Haus, das Maja gebaut hat, lag, fraß, tötete,ärgerte, jagte, sah, mochte.
Wiebke Petersen Grundkurs 19
Einleitung formale Sprachen Modellierungsannahmen Resultate
Annahme 4: Natürliche Sprachen sind unendlich
Jede natürliche Sprache besteht aus einer unendlichen Zahl von ZeichenkettenRekursion:
Dies ist der Hund, der die Katze ärgerte, die die Maus tötete, die den Käsefraß, der in dem Haus lag, das Maja gebaut hat.Dies ist der Hund, der die Katze, die die Maus, die den Käse, der in demHaus, das Maja gebaut hat, lag, fraß, tötete, ärgerte.
Donaudampfschiffskapitänsmützenschirm
Aber ist Deutsch wirklich unendlich?Dies ist der Junge, der den Hasen, der den Hund, der die Katze, die dieMaus, die den Käse, der in dem Haus, das Maja gebaut hat, lag, fraß, tötete,ärgerte, jagte, sah, mochte.
Wiebke Petersen Grundkurs 19
Einleitung formale Sprachen Modellierungsannahmen Resultate
Annahme 4: Natürliche Sprachen sind unendlich
Jede natürliche Sprache besteht aus einer unendlichen Zahl von ZeichenkettenRekursion:
Dies ist der Hund, der die Katze ärgerte, die die Maus tötete, die den Käsefraß, der in dem Haus lag, das Maja gebaut hat.Dies ist der Hund, der die Katze, die die Maus, die den Käse, der in demHaus, das Maja gebaut hat, lag, fraß, tötete, ärgerte.Donaudampfschiffskapitänsmützenschirm
Aber ist Deutsch wirklich unendlich?Dies ist der Junge, der den Hasen, der den Hund, der die Katze, die dieMaus, die den Käse, der in dem Haus, das Maja gebaut hat, lag, fraß, tötete,ärgerte, jagte, sah, mochte.
Wiebke Petersen Grundkurs 19
Einleitung formale Sprachen Modellierungsannahmen Resultate
Annahme 4: Natürliche Sprachen sind unendlich
Jede natürliche Sprache besteht aus einer unendlichen Zahl von ZeichenkettenRekursion:
Dies ist der Hund, der die Katze ärgerte, die die Maus tötete, die den Käsefraß, der in dem Haus lag, das Maja gebaut hat.Dies ist der Hund, der die Katze, die die Maus, die den Käse, der in demHaus, das Maja gebaut hat, lag, fraß, tötete, ärgerte.Donaudampfschiffskapitänsmützenschirm
Aber ist Deutsch wirklich unendlich?Dies ist der Junge, der den Hasen, der den Hund, der die Katze, die dieMaus, die den Käse, der in dem Haus, das Maja gebaut hat, lag, fraß, tötete,ärgerte, jagte, sah, mochte.
Wiebke Petersen Grundkurs 19
Einleitung formale Sprachen Modellierungsannahmen Resultate
Annahme 4: Natürliche Sprachen sind unendlich
Jede natürliche Sprache besteht aus einer unendlichen Zahl von ZeichenkettenRekursion:
Dies ist der Hund, der die Katze ärgerte, die die Maus tötete, die den Käsefraß, der in dem Haus lag, das Maja gebaut hat.Dies ist der Hund, der die Katze, die die Maus, die den Käse, der in demHaus, das Maja gebaut hat, lag, fraß, tötete, ärgerte.Donaudampfschiffskapitänsmützenschirm
Aber ist Deutsch wirklich unendlich?Dies ist der Junge, der den Hasen, der den Hund, der die Katze, die dieMaus, die den Käse, der in dem Haus, das Maja gebaut hat, lag, fraß, tötete,ärgerte, jagte, sah,
mochte
.
Wiebke Petersen Grundkurs 19
Einleitung formale Sprachen Modellierungsannahmen Resultate
Zurück zur Frage
Zu welcher Sprachklasse gehören die natürlichen Sprachen?
Chomsky (1957):“English is not a regular language”context-free languages: “I do not know whether or not English isitself literally outside the range of such analysis”
Wiebke Petersen Grundkurs 20
Einleitung formale Sprachen Modellierungsannahmen Resultate
Sind natürliche Sprachen regulär? Nein!
a woman hired another womana woman whom another woman hired hired another womana woman whom another woman whom another woman hiredhired hired another womana woman whom another woman whom another woman whomanother woman hired hired hired hired another woman. . .
a woman whom (another woman)n (hired)n hired another woman(n > 0)Struktur anbn nicht regulär.
Wiebke Petersen Grundkurs 21
Einleitung formale Sprachen Modellierungsannahmen Resultate
Sind natürliche Sprachen regulär? Nein!
a woman hired another womana woman whom another woman hired hired another womana woman whom another woman whom another woman hiredhired hired another womana woman whom another woman whom another woman whomanother woman hired hired hired hired another woman. . .
a woman whom (another woman)n (hired)n hired another woman(n > 0)Struktur anbn nicht regulär.
Wiebke Petersen Grundkurs 21
Einleitung formale Sprachen Modellierungsannahmen Resultate
Sind natürliche Sprachen kontextfrei? fehlerhafteArgumente (1)
unzulässige Induktion:wir kennen keine adäquate kontextfreie Grammatik des Englischen ⇒ es gibtkeine adäquate kontextfreie Grammatik des Englischen
An Introduction to the Principles of Transformational Syntax (Akmajian &Heny, 1975):“Since there seems to be no way of using such PS rules to represent anobviously significant generalization about one language, namely, English, we canbe sure that phrase structure grammars cannot possibly represent all thesignificant aspects of language structure.”
Wiebke Petersen Grundkurs 22
Einleitung formale Sprachen Modellierungsannahmen Resultate
Sind natürliche Sprachen kontextfrei? fehlerhafteArgumente (1)
unzulässige Induktion:wir kennen keine adäquate kontextfreie Grammatik des Englischen ⇒ es gibtkeine adäquate kontextfreie Grammatik des Englischen
An Introduction to the Principles of Transformational Syntax (Akmajian &Heny, 1975):“Since there seems to be no way of using such PS rules to represent anobviously significant generalization about one language, namely, English, we canbe sure that phrase structure grammars cannot possibly represent all thesignificant aspects of language structure.”
Wiebke Petersen Grundkurs 22
Einleitung formale Sprachen Modellierungsannahmen Resultate
Sind natürliche Sprachen kontextfrei? fehlerhafteArgumente (2)
intuitive Auffassung von Kontextfreiheit:
the girl sees the dog / the girls see the dogthe girl who climbed the tree which was planted last year when it rained somuch sees the dogthe girls who climbed the tree which was planted last year when it rained somuch see the dog
Transformational grammar (Grinder & Elgin, 1973):“. . . the defining characteristic of a context-free rule is that the symbol to berewritten is to be rewritten without reference to the context in which it occurs.”
A realistic transformational grammar (Bresnan, 1987)“ [. . . ] in many cases the number of a verb agrees with that of a noun phrase atsome distance from it [. . . ] the distant type of agreement [. . . ] cannot beadequately described even by context-sensitive phrase-structure rules, for thepossible context is not correctly describable as a finite string of phrases.”
Wiebke Petersen Grundkurs 23
Einleitung formale Sprachen Modellierungsannahmen Resultate
Sind natürliche Sprachen kontextfrei? fehlerhafteArgumente (2)
intuitive Auffassung von Kontextfreiheit:the girl sees the dog / the girls see the dog
the girl who climbed the tree which was planted last year when it rained somuch sees the dogthe girls who climbed the tree which was planted last year when it rained somuch see the dog
Transformational grammar (Grinder & Elgin, 1973):“. . . the defining characteristic of a context-free rule is that the symbol to berewritten is to be rewritten without reference to the context in which it occurs.”
A realistic transformational grammar (Bresnan, 1987)“ [. . . ] in many cases the number of a verb agrees with that of a noun phrase atsome distance from it [. . . ] the distant type of agreement [. . . ] cannot beadequately described even by context-sensitive phrase-structure rules, for thepossible context is not correctly describable as a finite string of phrases.”
Wiebke Petersen Grundkurs 23
Einleitung formale Sprachen Modellierungsannahmen Resultate
Sind natürliche Sprachen kontextfrei? fehlerhafteArgumente (2)
intuitive Auffassung von Kontextfreiheit:the girl sees the dog / the girls see the dogthe girl who climbed the tree which was planted last year when it rained somuch sees the dogthe girls who climbed the tree which was planted last year when it rained somuch see the dog
Transformational grammar (Grinder & Elgin, 1973):“. . . the defining characteristic of a context-free rule is that the symbol to berewritten is to be rewritten without reference to the context in which it occurs.”
A realistic transformational grammar (Bresnan, 1987)“ [. . . ] in many cases the number of a verb agrees with that of a noun phrase atsome distance from it [. . . ] the distant type of agreement [. . . ] cannot beadequately described even by context-sensitive phrase-structure rules, for thepossible context is not correctly describable as a finite string of phrases.”
Wiebke Petersen Grundkurs 23
Einleitung formale Sprachen Modellierungsannahmen Resultate
Pullum & Gazdar (1982)
These: Alle bis dato präsentierten Argumente für dieNichtkontexfreiheit von NL sind nicht zwingend!
Folklorefalsche Datenformale Fehler
30 Jahre vergebliche Suche nach einer nichtkontextfreiennatürlichen SpracheMenschen scheinen Sätze in linearer Zeit zu parsen
Probleme bereiten genau die Sätze, die beweisen, dass NL nichtregulär sind.
Wiebke Petersen Grundkurs 24
Einleitung formale Sprachen Modellierungsannahmen Resultate
Sind natürliche Sprachen kontextfrei?
Wiebke Petersen Grundkurs 25
Einleitung formale Sprachen Modellierungsannahmen Resultate
Sind natürliche Sprachen kontextfrei?
Wiebke Petersen Grundkurs 25
Einleitung formale Sprachen Modellierungsannahmen Resultate
Sind natürliche Sprachen kontextfrei?
Wiebke Petersen Grundkurs 25
Einleitung formale Sprachen Modellierungsannahmen Resultate
Das Schweizerdeutsche ist nicht kontextfrei!(Shieber 1985)
Nebensatzeinbettung im Schweizerdeutschen:
em HansDat
es huusAkk
hälfeDat
aastriicheAkk
d’chindAkk
em HansDat
es huusAkk
löndAkk
hälfeDat
aastriicheAkk
Die Sprache der Wiederholwörter über dem Alphabet {Akk, Dat} ist nichtkontextfrei!
Nebensatzeinbettung im Deutschen:
demDat
HansAkk
dasAkk
HausDat
streichen helfen
dieAkk
KinderDat
demAkk
HansAkk
dasDat
HausAkk
streichen helfen ließ
Die Sprache der Palindrome über dem Alphabet {Akk, Dat} ist kontextfrei!
Wiebke Petersen Grundkurs 26
Einleitung formale Sprachen Modellierungsannahmen Resultate
Das Schweizerdeutsche ist nicht kontextfrei!(Shieber 1985)
Nebensatzeinbettung im Schweizerdeutschen:
em HansDat
es huusAkk
hälfeDat
aastriicheAkk
d’chindAkk
em HansDat
es huusAkk
löndAkk
hälfeDat
aastriicheAkk
Die Sprache der Wiederholwörter über dem Alphabet {Akk, Dat} ist nichtkontextfrei!
Nebensatzeinbettung im Deutschen:
demDat
HansAkk
dasAkk
HausDat
streichen helfen
dieAkk
KinderDat
demAkk
HansAkk
dasDat
HausAkk
streichen helfen ließ
Die Sprache der Palindrome über dem Alphabet {Akk, Dat} ist kontextfrei!Wiebke Petersen Grundkurs 26
Einleitung formale Sprachen Modellierungsannahmen Resultate
Mögliche Angriffspunkte
falsche Daten (unsichere Grammatikalitätsurteile)Kasus ist nicht syntaktisch sondern semantisch (aber ‚helfen‘ vs.‚unterstützen‘)Die Länge der Sätze ist beschränktShieber: "Down this path lies tyranny. Acceptance of thisargument opens the way to proofs of natural languages asregular, nay, finite. The linguist proposing this counterargumentto salvage the context-freeness of natural language may havewon the battle, but has certainly lost the war.
Wiebke Petersen Grundkurs 27
Einleitung formale Sprachen Modellierungsannahmen Resultate
Literatur
Chomsky, Noam 1956: Three models for the description oflanguage. In IRE Transactions on Information Theory 2(3),113-124.Chomsky, Noam 1957: Syntactic structures. The Hague: MoutoMatthews, Robert J. 1979: Are the Grammatical Sentences of aLanguage a Recursive Set? In Synthese 40, 209–224.Pullum, Geoffrey K. und Gazdar, Gerald 1982: NaturalLanguages and Context-Free Languages. In Linguistics andPhilosophy, 4:471–504.Shieber, Stuart M. 1985. Evidence against the context-freenessof natural language. In Linguistics and Philosophy, 8:333–343.
Wiebke Petersen Grundkurs 28
Einleitung formale Sprachen Modellierungsannahmen Resultate
Hausaufgabe
Sie haben in der Sitzung ein Argument kennengelernt, das anhand desSchweizerdeutschen zeigt, dass natürliche Sprachen nicht kontextfreisind. Dieses Argument basiert unter anderem auf der Annahme, dasssich eine natürliche Sprache adäquat als eine unendliche Menge vonZeichenketten über einem festgelegten Alphabet modellieren lässt.Diskutieren Sie diese Annahme (nicht das Argument) und beziehenSie zu ihr Stellung (300-400 Wörter).
Die beiden Texte von Geoffrey K. Pullum liefern wertvolleHintergrundinformationen zu der Diskussion um die formaleMächtigkeit natürlicher Sprachen und geben einen Eindruck in dielinguistische Methodologie.
Wiebke Petersen Grundkurs 29
Recommended