Upload
others
View
10
Download
0
Embed Size (px)
Citation preview
SPEZIELLE MUSTERANALYSESYSTEMESchrift- und Spracherkennung mit
Hidden-Markov-Modellen
Vorlesung im Wintersemester 2019
Prof. E.G. Schukat-Talamazzini
Stand: 26. August 2019
Motivation Ganzwort-HMM Wortuntereinheiten CD-PLUs Subphone Wortgrenzen Neue Wörter A-Varianten Σ
Teil VI
Wortmodelle
Motivation Ganzwort-HMM Wortuntereinheiten CD-PLUs Subphone Wortgrenzen Neue Wörter A-Varianten Σ
Motivation
Wortbezogene Hidden Markov Modelle
Modellierungseinheiten unterhalb der Wortebene
Kontextabhängige Phone
Subphonemische Modellierung
Modellierung phonetischer Effekte an den Wortgrenzen
Ad hoc Modellierung unbekannter Wörter
Modellierung von Aussprachevarianten
Beispielaufbau
Motivation Ganzwort-HMM Wortuntereinheiten CD-PLUs Subphone Wortgrenzen Neue Wörter A-Varianten Σ
HMMs als WortmodelleBayesregel zur Wortkettenerkennung
w∗ = argmaxw∈V∗
P(w |X ) = argmaxw∈V∗
LSM︷ ︸︸ ︷P(w) ·
ASM︷ ︸︸ ︷P(X |w)
P(X )
GEGEBEN: eine Wortfolge
w = w1 . . .wm
GESUCHT: ein HMM λ(w) mit
P(X | λ(w)) ≈ P(X |w)
Analysis-by-Synthesissequentielle Verkettung von Wortmodellen
λ(w) = λ(w1) ◦ λ(w2) ◦ λ(w3) ◦ . . . ◦ λ(wm)
Motivation Ganzwort-HMM Wortuntereinheiten CD-PLUs Subphone Wortgrenzen Neue Wörter A-Varianten Σ
Motivation
Wortbezogene Hidden Markov ModelleHMM-Struktur · Initialisierung · Stichprobe · Lernen
Modellierungseinheiten unterhalb der Wortebene
Kontextabhängige Phone
Subphonemische Modellierung
Modellierung phonetischer Effekte an den Wortgrenzen
Ad hoc Modellierung unbekannter Wörter
Modellierung von Aussprachevarianten
Beispielaufbau
Motivation Ganzwort-HMM Wortuntereinheiten CD-PLUs Subphone Wortgrenzen Neue Wörter A-Varianten Σ
Erzeugung von Ganzwortmodellen
Konfiguration• Links-Rechts-HMM (linear, Bakis)• λ(w`) besitzt N` Zustände
z.B. N` = 5 (Ziffernwörter) oder N` ∝ „Anzahl der Phoneme in W`“
Initialisierung• πi , aij unkritisch; bjk , cjm gleichverteilt• SCHMM-Parameter µk , Sk via LBG/EM• CD-HMM und GM-HMM µjm, S jm = ?
Parametertraining• Baum-Welch-Iteration auf etikettierter Sprachdatensammlung
Motivation Ganzwort-HMM Wortuntereinheiten CD-PLUs Subphone Wortgrenzen Neue Wörter A-Varianten Σ
Datengetriebene Vorbesetzung der HMM-Parameter
10987654321
/n//�//b//a://h/
h h a a b b � � n n
Wortmodell λ(/hab�n/ mit N = 10 Zuständen· explizite phonetische Segmentierung (oben)· lineare Zeitverzerrung (Daten vs. HMM) (unten)
Motivation Ganzwort-HMM Wortuntereinheiten CD-PLUs Subphone Wortgrenzen Neue Wörter A-Varianten Σ
Aufbau einer Sprachdatensammlung
• Einzelsprechersysteme≥ 10, besser 50 oder 100 Aussprachebeispiele / Wortform
• Sprecherunabhängige Systemeausgewogene Population von ≥ 100 SprecherInnenGeschlecht · Anatomie · Dialekt · Ideolekt · Soziolekt
• Wohldefinierte & kontrollierte SprachqualitätMikrofon/Telefon · Bandbreite · Störfaktoren · Dynamik
• ÄußerungseinheitenEinzelwörter · Kommandos/Sätze · Dialogturns · ≥ Szenarien
• AkquisitionSpontansprachdaten · Textreproduktionen · „Wizard of Oz“
• Etikettierung (deskriptiv/normativ)Text · Sätze · Wörter · Phoneme · AllophoneIntonation · Pausen · nonverbale Phänomene · Überlappung
Motivation Ganzwort-HMM Wortuntereinheiten CD-PLUs Subphone Wortgrenzen Neue Wörter A-Varianten Σ
Die Erlanger Bahnauskunft-Stichprobe1. ich muesste morgen nach Falkenberg fahren , so_dass ich ab zwei Uhr ankomme.2. wann kommt der spaeteste ICE , der uebermorgen in Sonthofen abfaehrt, in Nordhausen an ?3. hat der Zug um acht Uhr in Bad_Kleinen Anschluss nach Weida ?4. um wieviel Uhr geht der spaeteste Intercity-Zug nach Schaffhausen_Faehre ?5. faehrt der erste Zug um fuenf Uhr sechs nach Heiligenstadt auch werktags ?6. wann faehrt morgen der frueheste Zug nach Kitzingen ?7. guten Morgen, gibt es einen Intercity , der an einem Wochentag nachmittags direkt nach
Flensburg faehrt?8. wir muessen nach Neustadt fahren , und_zwar uebermorgen .9. ich haette gerne einen Intercity-Zug nach Eisenhuettenstadt .
10. heute Nacht muesste ich mit dem Zug von Pasewalk nach Neuhaus fahren .11. ich suche einen Zug von Kempten nach Stralsund mit Ankunftszeit ab sechs Uhr .12. wann muss ich abfahren , damit ich moeglichst frueh in Leipzig_Bayerischer_Bahnhof bin ?13. ich will fragen, wann uebermorgen Nachmittag ein Zug von Andernach nach Rosenheim geht ?14. wann kann ich am naechsten Wochenende mittags nach Wasserbillig fahren ?15. wann kommt der frueheste IC , der um halb fuenf in Bad_Bentheim abfaehrt, in
Berlin-Schoeneweide an ?16. ich will morgen in Kassel-Wilhelmshoehe sein .17. ist es moeglich, an einem Wochentag von Emden ueber Rendsburg nach Berlin zu fahren ?18. hat der Zug um zehn Uhr in Dortmund Anschluss nach Worms ?19. ich moechte direkt mit dem Intercity-Zug an Pfingsten nach Immenstadt fahren .20. damit ich um viertel vor sieben in Hanau ankomme , wann muss ich in Neustadt losfahren ?21. ich wollte fragen, ob man morgen auch nach Biberach fahren kann ?22. welche Moeglichkeiten gibt es, zwischen fuenf und ein Uhr nach Rotenburg zu kommen ?23. wuerden Sie mir am neunundzwanzigsten neunten die kuerzeste Verbindung nach Allensbach
angeben ?24. gibt es einen Zug , der uebermorgen nach Guestrow faehrt?25. gibt es eine Moeglichkeit, spaetestens heute von Amstetten nach Dillenburg zu kommen ?26. gibt es eine stuendliche Direktverbindung zwischen Dortmund und Forchheim ?27. guten Morgen, faehrt an Heiligabend ein Intercity nach Gehlberg ?28. wir moechten zwischen vier und fuenf Uhr in Celle sein .29. gibt es eine IC-Verbindung am Mittwoch zwischen Schleswig und Fulda ?30. faehrt der naechste Zug um ein Uhr von Mittenwald nach Bad_Brambach auch in zwei Tagen ?31. wir moechten einen Zug von Traunstein nach Goettingen .32. faehrt am kommenden Wochenende ein ICE nach Oberstdorf ?33. was ist die spaeteste Moeglichkeit, um zwoelf Uhr ueber Gelsenkirchen nach Saarburg zu fahren ?34. gibt es einen Zug , der am Montag in Weimar ist ?35. gibt es einen ICE , der nach viertel vor sechs von Hamburg-Altona nach Flensburg faehrt?36. ich moechte wissen, ob heute um drei Uhr auch ein IC nach Buende faehrt ?37. ... ... ... ... ...
(50+50)·100 Äußerungen · 10 000 Anfragetexte · 949 Wortformen · 154 IC-Halte · 417 D-Zug-Halte
Motivation Ganzwort-HMM Wortuntereinheiten CD-PLUs Subphone Wortgrenzen Neue Wörter A-Varianten Σ
Eingebettetes Lernen
• EinzelwortprobeWortrealisierungen liegen in Sprechpausen eingebettet vor
(Stille) „Nichtsein“ (Stille) (Stille)„ist“ „hier“
. . .
(Stille)„Frage“„oder“„Sein“(Stille)
• VerbundwortprobeWortrealisierungen liegen in komplette Sätze eingebettet vorSatzrealisierungen liegen in Sprechpausen eingebettet vor
• Diskontinuierliche VerbundwortprobeWortrealisierungen sind u.U. durch Stillebereiche unterbrochenStillebereiche sind nicht Bestandteil der Etikettierung
Motivation Ganzwort-HMM Wortuntereinheiten CD-PLUs Subphone Wortgrenzen Neue Wörter A-Varianten Σ
Wörter sind keine geeigneten Modellierungseinheiten !
1. erforderliches Datenmaterial ∝ Wortschatzumfang Lmehrere Aussprachebeispiele für jeden Wortschatzeintrag
2. enorme Zahl freier HMM-Parameter labile Schätzwerte & hoher Rechen- und Speicheraufwand
3. geringe Flexibilität monolithischer Modelle Trainingswortschatz = Erkennungswortschatz
4. wortübergreifende Ausspracheverschleifungen ?5. spontane Kompositabildung ?
Motivation Ganzwort-HMM Wortuntereinheiten CD-PLUs Subphone Wortgrenzen Neue Wörter A-Varianten Σ
Analyse durch Synthese
Wort-HMMs werden aus Phonem-HMMs verkettet.
BeispielDas HMM für das Wort „Torte“ besitzt die Struktur
λ(/tOrt@/) = λ(/t/) ◦ λ(/O/) ◦ λ(/r/) ◦ λ(/t/) ◦ λ(/@/)
Zustandsverklebungen
/@//t//r//O//t/
Motivation Ganzwort-HMM Wortuntereinheiten CD-PLUs Subphone Wortgrenzen Neue Wörter A-Varianten Σ
HMM-Topologien für Einzellaute
• Linear- oder Bakis-HMM mit N = 3 Zuständen• Spezialmodelle mit N > 3 für Diphthonge & Affrikate• Kai-Fu Lees „Dreimaster“ mit N = 7 Zuständen:
A =
0 a12 a13 0 0 0 a170 a22 0 a24 0 0 00 0 0 0 0 a36 a370 0 0 a44 a45 0 00 0 0 0 a55 0 a570 0 0 0 0 0 10 0 0 0 0 0 0
2 541 7
63
Motivation Ganzwort-HMM Wortuntereinheiten CD-PLUs Subphone Wortgrenzen Neue Wörter A-Varianten Σ
Motivation
Wortbezogene Hidden Markov Modelle
Modellierungseinheiten unterhalb der WortebeneEntwurfskriterien · Phonologische Einheiten · AkustischeEinheiten
Kontextabhängige Phone
Subphonemische Modellierung
Modellierung phonetischer Effekte an den Wortgrenzen
Ad hoc Modellierung unbekannter Wörter
Modellierung von Aussprachevarianten
Beispielaufbau
Motivation Ganzwort-HMM Wortuntereinheiten CD-PLUs Subphone Wortgrenzen Neue Wörter A-Varianten Σ
GütekriterienWortuntereinheiten zur akustischen Modellierung
• Präzisiondie WUE ist hochspezialisiert und folglich trennscharf
• Robustheitgroßer Trainingsmaterialvorrat & wirksame Glättungsmaßnahmen gute Schätzwerte
• Modularitätfixes Inventar moderaten Umfangs für alle potentiellen Sprechakte
• TransferSynthese neuer Wortmodelle aus vorhandenen WUE nachorthografischer/phonematischer Umschrift
• maschinelle Segmentierbarkeit ?heutzutage irrelevant wg. Analysis-by-Synthesis Strategie
Motivation Ganzwort-HMM Wortuntereinheiten CD-PLUs Subphone Wortgrenzen Neue Wörter A-Varianten Σ
Phonologisch orientierte Wortuntereinheiten I
am Beispiel „Hamburg“
Silbe
EndkonsonantenfolgeAnfangs-
/b/
PhonemzentrumTransem
Diphon
Phonem / PhonSilbe
/b/
/b//m//a/
/b//m//a/
/m//a/
/ham/ /bUrk/
initiale terminale
Nukleus
Halbsilbe
/k//r//U//b/
/U/ /r/ /k/
Motivation Ganzwort-HMM Wortuntereinheiten CD-PLUs Subphone Wortgrenzen Neue Wörter A-Varianten Σ
Phonologisch orientierte Wortuntereinheiten II
• Phone +modular, −präzis
je nach Differenzierungsgrad 40–200 universelle Einheiten• Phoneme +modular, −präzis
je nach Sprache 20–60• Silben +präzis, −modular
20 000 (engl.), 100 (japan.); Koartikulation primär innerhalb• Halbsilben +trennscharf, ±modular
800/2560 initiale/terminale im Deutschen• Sylparts guter Kompromiß
47 AKF, 20 Nuklei, 159 EKF im Deutschen• Diphone besser: Transeme
1000–1500 Einheiten (engl./ital.), ungünstige Nahtstellen• Doppelhalbsilbe ++trennscharf, −−modular, −−robust
Silbenkern–Silbenkern, 2 Mill. im Deutschen
Motivation Ganzwort-HMM Wortuntereinheiten CD-PLUs Subphone Wortgrenzen Neue Wörter A-Varianten Σ
HMM für längerdauernde Wortuntereinheiten
PROAussprachevariabilität wird in ihrer lautlichen Umgebung eingefroren
KONTRAverminderte Robustheit & mangelhafte Modularität
LÖSUNG
• hierarchische Zerlegung der Wortaussprache• hierarchische Modellstruktur durch parallel verdrahtete HMMs• HMMs ausschließlich für häufig auftretende Spracheinheiten• Interpolation konkurrierender HMMs’context-freezing units’ (CFU) sind Kompromiß zwischenstabil & unspezifisch versus labil & trennscharf
Motivation Ganzwort-HMM Wortuntereinheiten CD-PLUs Subphone Wortgrenzen Neue Wörter A-Varianten Σ
CFU — „context-freezing units“Hierarchische Wortrepräsentation & HMM-Struktur
/n//@//d//s//e:/
/@n//d@//e:s//dre/
/d@n//dre:s/
/dre:sd@n/
/dr/
/d/ /r/
Achse potentieller Interpolationspartner
Motivation Ganzwort-HMM Wortuntereinheiten CD-PLUs Subphone Wortgrenzen Neue Wörter A-Varianten Σ
Akustisch (statt phonetisch) orientierte Wortuntereinheiten
〈Algorithmus〉
1 BOOTSTRAP-ERKENNERAufbau eines initialen ASE-Systems
2 FENONISCHE GRUNDFORMAnalyse eines oder mehrerer Aussprachebeispiele je Wortform
W` F(W`) = f1 . . . fm
3 WORTMODELL-KONFIGURATION
λ(W`)def= λ(f1) ◦ λ(f2) ◦ λ(f3) ◦ . . . ◦ λ(fm)
4 PARAMETER INITIALISIEREN5 BAUM-WELCH TRAININGSALGORITHMUS
〈Algorithmus〉
Motivation Ganzwort-HMM Wortuntereinheiten CD-PLUs Subphone Wortgrenzen Neue Wörter A-Varianten Σ
Erzeugen einer fenonischen Wortumschrift1. Methode:
Verschmelzung identischer sukzessiver VQ-Indizes
x1 . . . xT o1 . . . oT ot(1) . . . ot(m)def= f1 . . . fm
2. Methode:VQ-Gewinnerzellen der Zustände eines LR Ganzwort-HMM
fj = argmaxk∈K
P(ot = k | qt = j ,λ(W )) = argmaxk∈K
b(W )jk
3. Methode:Bestparkettierung der Wortaussprache(n) mit Basis-HMMs
M∏m=1
P(Xm | λ(F)) =M∏
m=1
P(Xm | λ(f1)◦. . .◦λ(fm))!→ MAX
Motivation Ganzwort-HMM Wortuntereinheiten CD-PLUs Subphone Wortgrenzen Neue Wörter A-Varianten Σ
Motivation
Wortbezogene Hidden Markov Modelle
Modellierungseinheiten unterhalb der Wortebene
Kontextabhängige PhoneAllophone · Triphone · Generalisierung · Polyphone
Subphonemische Modellierung
Modellierung phonetischer Effekte an den Wortgrenzen
Ad hoc Modellierung unbekannter Wörter
Modellierung von Aussprachevarianten
BeispielaufbauMotivation Ganzwort-HMM Wortuntereinheiten CD-PLUs Subphone Wortgrenzen Neue Wörter A-Varianten Σ
Phoneme im Kontext (Allophone)
• Segmentelle Basisspracheinheit kurzer Dauer ( Phonem)• Modellierung durch HMM ist kontextabhängig
BeispielDas Phonem r im Wort Hamburg hambUrk,als Triphon oder rechtes/linkes Biphon oder Monophon:
r→ U/r/k , r→ /r/k , r→ U/r/ , r→ /r/
#/h/a h/a/m a/m/b m/b/U b/U/r U/r/k r/k/#
b U r k /mah/
Motivation Ganzwort-HMM Wortuntereinheiten CD-PLUs Subphone Wortgrenzen Neue Wörter A-Varianten Σ
Trainieren von Triphon-HMMsmaterielles Korrelat
kontextueller Einzugsbereich
/k//r//U//b//m//a//h/
〈Algorithmus〉
1 Erfassung der phonematischen Wortumschrift2 Konfiguration gewöhnlicher Monophonmodelle
Initialisierung & Optimierung der Parameter3 Konfiguration linker/rechter Biphonmodelle
Initialisierung & Optimierung der Parameter4 Konfiguration der Triphonmodelle
Initialisierung & Optimierung der Parameter5 Synthese der Erkennungswortschatzmodelle (Rückgriff/Interpolation)
b/U/r /U/r b/U/ /U/
〈Algorithmus〉
Motivation Ganzwort-HMM Wortuntereinheiten CD-PLUs Subphone Wortgrenzen Neue Wörter A-Varianten Σ
Verallgemeinerte Triphone
ProblemSeltene Triphone labile HMM-ParameterFragmentierung der Trainingsdaten
LösungBündeln geeigneter Gruppen kerngleicher Triphone mitverwandten akustischen Eigenschaften
?HV/m//m/SK
HV/m/SK
a/m/SKHV/m/b
/m/
a/m//m/b
a/m/b
/m/
a/m//m/b
a/m/b
a/m/b
/m/
Motivation Ganzwort-HMM Wortuntereinheiten CD-PLUs Subphone Wortgrenzen Neue Wörter A-Varianten Σ
Umschriftgetriebene Generalisierung
sonstige KonsonantenNasalesonstige Vokale hintere Vokale
SzsvgkxpbRdZtfI E @ i e 9 j Y l 2 y h m n N a 6 O o r U u w cn,
• Phonemmodellierung fj(x) = N (x | µj ,S j)
• Ähnlichkeit als Transinformation simij = I(fi , fj)
• Agglomerative Gruppierung Phonetisches Dendrogramm
Phonetisches Oberklassensystem (C = 4):NA HV SK SV
Nasale hintere Vokale sonstige Konsonanten sonstige Vokale
Motivation Ganzwort-HMM Wortuntereinheiten CD-PLUs Subphone Wortgrenzen Neue Wörter A-Varianten Σ
Datengetriebene Generalisierung
R ?=hinterer Vokal
J N
R ?=Liquid R ?
= vorderer Vokal
J JN N
L ?=Vokal L ?
=Vokal R ?=Schwa R ?
=Frikativ
J J J J NNNN
• Induktive Erzeugung eines binären Entscheidungsbaumes
• Fragen = diskriminative Phonemkontexte
• Resultat auch für „ungesehene“ Kontexte
Motivation Ganzwort-HMM Wortuntereinheiten CD-PLUs Subphone Wortgrenzen Neue Wörter A-Varianten Σ
Polyphone — Phoneme in beliebig breitem Kontext
• häufige Spracheinheiten sind modellierungsfähigrobuste Schätzwerte
• häufige Spracheinheiten sind modellierungsbedürftigRedundanz & Verschleifung
• Phoneme in beliebig breitem rechten/linken Kontextindirekte Koartikulationseffekte
• Vergröberung durch balanciertes Abschälenskalierte Kontextabhängigkeit
• Inkorporation von AkzentzeichenModellierung betonter & unbetonter Silben
• Inkorporation von GrenzmarkierungenPhrasengrenze · Wortgrenze · Morphemgrenze · Silbengrenze
Motivation Ganzwort-HMM Wortuntereinheiten CD-PLUs Subphone Wortgrenzen Neue Wörter A-Varianten Σ
Polyphone — Beispielwort „Hannover“
Pentaphon
Tetraphon
Triphon
Monophon
Generalisierung
mehr
Kontext
mehr
Aussprache-
beispiele
„Hannover“
ha/n/o:f6
ha/n/o:f
a/n/o:f
a/n/o:
/n/o:
/n/
/h/ano:f6 hano:f/6/
Biphon
Motivation Ganzwort-HMM Wortuntereinheiten CD-PLUs Subphone Wortgrenzen Neue Wörter A-Varianten Σ
Motivation
Wortbezogene Hidden Markov Modelle
Modellierungseinheiten unterhalb der Wortebene
Kontextabhängige Phone
Subphonemische ModellierungSemiphone · Senone
Modellierung phonetischer Effekte an den Wortgrenzen
Ad hoc Modellierung unbekannter Wörter
Modellierung von Aussprachevarianten
BeispielaufbauMotivation Ganzwort-HMM Wortuntereinheiten CD-PLUs Subphone Wortgrenzen Neue Wörter A-Varianten Σ
Subphonemische Modellstruktur
Jedes Phonem gliedert sich segmentell in drei Semiphone:1. Anglitt — abhängig vom Vorgängerphonem2. Zentrum — phonkontextunabhängig3. Abglitt — abhängig vom Nachfolgerphonem
AbglittAnglitt Zentrum
U.U/ U◦
Motivation Ganzwort-HMM Wortuntereinheiten CD-PLUs Subphone Wortgrenzen Neue Wörter A-Varianten Σ
Semiphondarstellung
U◦/U./r/U//U◦/U.b./U//U◦
/r//U//b/
• für Semiphone werden einfache Links/Rechtskontexte postuliert
• resultierende Spracheinheiten:· unabhängige Phonemzentren· viele kombinatorische Transemhälften· einige unabhängige Anglitte & Abglitte
Motivation Ganzwort-HMM Wortuntereinheiten CD-PLUs Subphone Wortgrenzen Neue Wörter A-Varianten Σ
Senonische Spracheinheiten
O/x/@ „Kocher“
O/x/t „Tochter“
a/x/t „Frachter“
Senon 1
Senon 2
Senon Triphon-HMMl l
Fenon Ganzwort-HMM
Äquivalenzklassen akustisch ähnlicher Triphonzustände
Motivation Ganzwort-HMM Wortuntereinheiten CD-PLUs Subphone Wortgrenzen Neue Wörter A-Varianten Σ
Lernen senonischer Grundformen
phonemischeGrundform
triphonischeGrundform
Triphon-modelle
GrundformsenonischeSenon-
modelle
Separate Clusteranalyse aller Triphonzustände eines Kernphonems
Motivation Ganzwort-HMM Wortuntereinheiten CD-PLUs Subphone Wortgrenzen Neue Wörter A-Varianten Σ
Motivation
Wortbezogene Hidden Markov Modelle
Modellierungseinheiten unterhalb der Wortebene
Kontextabhängige Phone
Subphonemische Modellierung
Modellierung phonetischer Effekte an den WortgrenzenWortübergreifende Verschleifung · Lernphase · Erkennungsphase
Ad hoc Modellierung unbekannter Wörter
Modellierung von Aussprachevarianten
Beispielaufbau
Motivation Ganzwort-HMM Wortuntereinheiten CD-PLUs Subphone Wortgrenzen Neue Wörter A-Varianten Σ
Verschleifungseffekte über die Wortfugen hinweg
Wortübergreifende Koartikulation„in München“
/In/ + /mYnc@n/ /ImYnc@n/
Verstümmelung unbetonter Funktionswörter„Roß und Reiter“
/rOs/ + /Unt/ + /raIt6/ /rOsnraIt6/
Motivation Ganzwort-HMM Wortuntereinheiten CD-PLUs Subphone Wortgrenzen Neue Wörter A-Varianten Σ
Wortgrenzenübergreifende Triphone in der Lernphase
„in München“ mit optionaler Stille
„in München“ ohne Stille
I/n/m n/m/Y
/I/n/m n/m/Y
I/n/- /-/ -/m/Y
Koartikulation überbrückt keine Stillebereiche
ohne Stille
mit{annotierterlatenter
}Stille
Motivation Ganzwort-HMM Wortuntereinheiten CD-PLUs Subphone Wortgrenzen Neue Wörter A-Varianten Σ
Wortgrenzenübergreifende Triphone in der Lernphase
„seit eh und je“ mit optionaler Stille
-/e:/-I/t/-
-/e:/UI/t/-
-/U/n/-//-/
/-/
/-/ -/U/nt/e:/-
e:/U/n
I/t/e:
e:/U/nt/e:/UI/t/e:
Kombinatorische Verwicklung bei einphonemigen Wörtern
Motivation Ganzwort-HMM Wortuntereinheiten CD-PLUs Subphone Wortgrenzen Neue Wörter A-Varianten Σ
Wortgrenzenübergreifende Triphone in der Erkennungsphase
pm/v/$
p1/v/$
$/v/$
$/v/a
pm/v/a
p1/v/a
v/a/n a/n/t
n/t/p1
n/t/pm
n/t/$
$/t/$
$/t/p1
$/t/pm
Ungebremste Kombinatorik der kontextbedingt verästelten initialen/finalenTriphonmodelle des HMMs für /vant/ („Wand“)
#/v/a v/a/n a/n/t n/t/#
Motivation Ganzwort-HMM Wortuntereinheiten CD-PLUs Subphone Wortgrenzen Neue Wörter A-Varianten Σ
Motivation
Wortbezogene Hidden Markov Modelle
Modellierungseinheiten unterhalb der Wortebene
Kontextabhängige Phone
Subphonemische Modellierung
Modellierung phonetischer Effekte an den Wortgrenzen
Ad hoc Modellierung unbekannter WörterNichtwörter · Detektion · Modellierung · Wiedererkennung
Modellierung von Aussprachevarianten
Beispielaufbau
Motivation Ganzwort-HMM Wortuntereinheiten CD-PLUs Subphone Wortgrenzen Neue Wörter A-Varianten Σ
Performanzlücke der ASE bei Spontansprache
Unbekannte Wörter• Wörter außerhalb des Erkennungswortschatzes
Außerlexikalische Einheiten• Ungefüllte Pausen („Häsitationen“)• Gefüllte Pausen („äh“ , „mmh“)
Nichtverbale Realisierungen• Räuspern, Husten, Lachen• Atemgeräusche, Schmatzlaute
Nichtartikulatorische Störproduktionen• Türenschlagen, Rascheln, Klopfen, ...
Detektion ad hoc Modelle Wiedererkennung
Motivation Ganzwort-HMM Wortuntereinheiten CD-PLUs Subphone Wortgrenzen Neue Wörter A-Varianten Σ
OOV-Detektion mit Rückweisungsmodellen
Füllmuster-HMM λ∅ mit diffuser Wahrscheinlichkeitsverteilung:
P(X | λ∅) ≤ P(X | λ(w)) für das korrekte Wort w und
P(X | λ∅) ≥ P(X | λ(v)) für alle anderen Wörter v 6= w
Rückkopplung
1. Phonem 2. und weitere Phoneme
• SYNTHETISIEREN:λ∅ als repetitive Verkettung von Lautalternativeblöcken
• TRAINIEREN:Ganzwort-HMM λ∅, trainiert mit allen Sprachproben
Motivation Ganzwort-HMM Wortuntereinheiten CD-PLUs Subphone Wortgrenzen Neue Wörter A-Varianten Σ
Modelle für „neue“ Wörter I
Phonematische Modellsynthese
eine Phonemumschrift liegt i.a. nicht vor
Akustische Modellsynthese
Viterbi-TranskriptionBauplan = a posteriori wahrscheinlichste Phonemfolge
Fenon-TranskriptionBauplan = a posteriori wahrscheinlichste Fenonfolge
Senon-TranskriptionBauplan = wahrscheinlichste Senonfolge eines intermediärenGanzwort-HMMs
Motivation Ganzwort-HMM Wortuntereinheiten CD-PLUs Subphone Wortgrenzen Neue Wörter A-Varianten Σ
Modelle für „neue“ Wörter IIBuchstabiermodus
„Hamburg“
„ha–ah–em–beh–uh–er–geh“
„Heinrich“–„Anton“–„Martha“–„Berta“–„Ulrich“–„Rudolf“–„Gustav“
Graphematische Modellsynthese
RegelbasiertErzeugung einer phonemischen Wortumschrift aus der Orthographie
Beispiel NetTalk:
Künstliches Neuronales Netz (KNN) mit
7× 29 Eingabe-,80 Zwischen- und
26 Ausgabeneuronen
PolygraphenBasis-HMMs für „kontextabhängige Buchstaben“
Motivation Ganzwort-HMM Wortuntereinheiten CD-PLUs Subphone Wortgrenzen Neue Wörter A-Varianten Σ
Polygraphen — kontextabhängige Buchstaben
Kontext
mehr
Oktagraphen
Heptagraph
Hexagraph
Pentagraph
Tetragraph
Trigraph
Bigraph
Monograph
Generalisierung
Aussprache-
beispiele
mehr
an/n/ov
an/n/ove
han/n/ove
hannove/r/han/n/over/h/annover
„Hannover“
/n/
/n/o
n/n/ov
n/n/o
Motivation Ganzwort-HMM Wortuntereinheiten CD-PLUs Subphone Wortgrenzen Neue Wörter A-Varianten Σ
Motivation
Wortbezogene Hidden Markov Modelle
Modellierungseinheiten unterhalb der Wortebene
Kontextabhängige Phone
Subphonemische Modellierung
Modellierung phonetischer Effekte an den Wortgrenzen
Ad hoc Modellierung unbekannter Wörter
Modellierung von AussprachevariantenStandardumschrift · Varianten · Expansion · Graphen
BeispielaufbauMotivation Ganzwort-HMM Wortuntereinheiten CD-PLUs Subphone Wortgrenzen Neue Wörter A-Varianten Σ
Standardumschrift & alternative Umschriften
Phonematische Standardumschrift• Wörterbucheintrag der Form „haben“ /ha:b�n/• ein Wort · eine Umschrift · ein Wortmodellungenaues Modell & streuende Parameter
Ausgewählte Ausprachevarianten• zum Beispiel „zwei“ 1. /tsva*/ und 2. /tsvo:/• ein Wort · mehrere Umschriften · konkurrierende Wortmodellehoher Dekodieraufwand & Datenfragmentierung
Motivation Ganzwort-HMM Wortuntereinheiten CD-PLUs Subphone Wortgrenzen Neue Wörter A-Varianten Σ
Maschinelle Erzeugung alternativer Ausspracheumschriften
Expansion durch phonetische Verschleifungsregeln• Nichtdeterminiertes Textersetzungssystem:
EINGABE = StandardumschriftREGELN = Assimilation, Elision, schwache FormenAUSGABE = (große) Menge von Aussprachevarianten
kombinatorische Explosion bei langen WörternGefahr der ÜbergeneralisierungAkquisition des Regelinventars ?!?
BeispielFür das Wort „haben“ ergeben sich die Varianten
/ha:b�n/ ; /ha:bn/ ; /ha:bm/ ; /ha:m/ ; /h=am/ ; ... ... ...
Motivation Ganzwort-HMM Wortuntereinheiten CD-PLUs Subphone Wortgrenzen Neue Wörter A-Varianten Σ
Phonetische Wortrepräsentation durch Aussprachegraphen
/h/ /a/ /b/ /�/ /n/
/m//o/
Alle Aussprachevarianten eines Wortes werden in einen zyklenfreien,gerichteten Graphen eingebettet.
• Paßfähigkeit eines AussprachegraphenV = P exakte Ausschöpfung (hohe Knotenzahl)V ⊃ P Übergeneralisierung (fehlerhafte Annahme)V ⊂ P Überspezialisierung (fehlerhafte Ablehnung)
• Variantenwahrscheinlichkeiten ← EM-Algorithmuseine Wahrscheinlichkeit je Variante (∼ L · 100)eine Wahrscheinlichkeit je Graphkante (∼ L · 10)eine Wahrscheinlichkeit je Verschleifungsregel (∼ 1 · 1000)
Motivation Ganzwort-HMM Wortuntereinheiten CD-PLUs Subphone Wortgrenzen Neue Wörter A-Varianten Σ
Motivation
Wortbezogene Hidden Markov Modelle
Modellierungseinheiten unterhalb der Wortebene
Kontextabhängige Phone
Subphonemische Modellierung
Modellierung phonetischer Effekte an den Wortgrenzen
Ad hoc Modellierung unbekannter Wörter
Modellierung von Aussprachevarianten
BeispielaufbauMotivation Ganzwort-HMM Wortuntereinheiten CD-PLUs Subphone Wortgrenzen Neue Wörter A-Varianten Σ
An Stelle einer ZusammenfassungEXEMPLARISCHE BERECHNUNGSFOLGE ZUM WORTMODELLAUFBAU
Senon-gestützter HMM-Worterkenner
1 Anlegen einer SprachdatensammlungEntwurf — Aufnahme — Diskretisierung
2 Erstellung eines AussprachelexikonsPhonemische Umschriften aller Wörter der Lernstichprobe
3 Merkmalberechnung & Vektorquantisierung... für die gesamte Lernstichprobe; siehe (3), (4)
4 Lernen der Monophon-HMM’sUniforme Initialisierung, Baum-Welch-Training
5 Lernen der Triphon-HMM’sInitialisierung mit den Monophon-HMM’s, Baum-Welch-Training
6 Clustern der Triphon-HMM-Zustände in SenonklassenPartitionieren der Mischungskoeffizientenvektoren mit LBG
7 Lernen der Senon-HMM’sInitialisierung mit den Triphon-HMM’s, Baum-Welch-Training
8 Rotationsmatrix aus Senon-LDA etc. ...Alle Zeitscheiben werden senonisch klassifiziert LDA