13
SPEZIELLE MUSTERANALYSESYSTEME Schrift- und Spracherkennung mit Hidden-Markov-Modellen Vorlesung im Wintersemester 2019 Prof. E.G. Schukat-Talamazzini Stand: 26. August 2019 Motivation Ganzwort-HMM Wortuntereinheiten CD-PLUs Subphone Wortgrenzen Neue Wörter A-Varianten Σ Teil VI Wortmodelle Motivation Ganzwort-HMM Wortuntereinheiten CD-PLUs Subphone Wortgrenzen Neue Wörter A-Varianten Σ Motivation Wortbezogene Hidden Markov Modelle Modellierungseinheiten unterhalb der Wortebene Kontextabhängige Phone Subphonemische Modellierung Modellierung phonetischer Effekte an den Wortgrenzen Ad hoc Modellierung unbekannter Wörter Modellierung von Aussprachevarianten Beispielaufbau Motivation Ganzwort-HMM Wortuntereinheiten CD-PLUs Subphone Wortgrenzen Neue Wörter A-Varianten Σ HMMs als Wortmodelle Bayesregel zur Wortkettenerkennung w * = argmax w ∈V * P(w |X )= argmax w ∈V * LSM z }| { P(w ) · ASM z }| { P(X |w ) P(X ) GEGEBEN: eine Wortfolge w = w 1 ... w m GESUCHT: ein HMM λ(w ) mit P(X | λ(w )) P(X |w ) Analysis-by-Synthesis sequentielle Verkettung von Wortmodellen λ(w )= λ(w 1 ) λ(w 2 ) λ(w 3 ) ... λ(w m )

SPEZIELLEMUSTERANALYSESYSTEME Schrift ... · SPEZIELLEMUSTERANALYSESYSTEME Schrift-undSpracherkennungmit Hidden-Markov-Modellen VorlesungimWintersemester2019 Prof.E.G.Schukat-Talamazzini

  • Upload
    others

  • View
    10

  • Download
    0

Embed Size (px)

Citation preview

Page 1: SPEZIELLEMUSTERANALYSESYSTEME Schrift ... · SPEZIELLEMUSTERANALYSESYSTEME Schrift-undSpracherkennungmit Hidden-Markov-Modellen VorlesungimWintersemester2019 Prof.E.G.Schukat-Talamazzini

SPEZIELLE MUSTERANALYSESYSTEMESchrift- und Spracherkennung mit

Hidden-Markov-Modellen

Vorlesung im Wintersemester 2019

Prof. E.G. Schukat-Talamazzini

Stand: 26. August 2019

Motivation Ganzwort-HMM Wortuntereinheiten CD-PLUs Subphone Wortgrenzen Neue Wörter A-Varianten Σ

Teil VI

Wortmodelle

Motivation Ganzwort-HMM Wortuntereinheiten CD-PLUs Subphone Wortgrenzen Neue Wörter A-Varianten Σ

Motivation

Wortbezogene Hidden Markov Modelle

Modellierungseinheiten unterhalb der Wortebene

Kontextabhängige Phone

Subphonemische Modellierung

Modellierung phonetischer Effekte an den Wortgrenzen

Ad hoc Modellierung unbekannter Wörter

Modellierung von Aussprachevarianten

Beispielaufbau

Motivation Ganzwort-HMM Wortuntereinheiten CD-PLUs Subphone Wortgrenzen Neue Wörter A-Varianten Σ

HMMs als WortmodelleBayesregel zur Wortkettenerkennung

w∗ = argmaxw∈V∗

P(w |X ) = argmaxw∈V∗

LSM︷ ︸︸ ︷P(w) ·

ASM︷ ︸︸ ︷P(X |w)

P(X )

GEGEBEN: eine Wortfolge

w = w1 . . .wm

GESUCHT: ein HMM λ(w) mit

P(X | λ(w)) ≈ P(X |w)

Analysis-by-Synthesissequentielle Verkettung von Wortmodellen

λ(w) = λ(w1) ◦ λ(w2) ◦ λ(w3) ◦ . . . ◦ λ(wm)

Page 2: SPEZIELLEMUSTERANALYSESYSTEME Schrift ... · SPEZIELLEMUSTERANALYSESYSTEME Schrift-undSpracherkennungmit Hidden-Markov-Modellen VorlesungimWintersemester2019 Prof.E.G.Schukat-Talamazzini

Motivation Ganzwort-HMM Wortuntereinheiten CD-PLUs Subphone Wortgrenzen Neue Wörter A-Varianten Σ

Motivation

Wortbezogene Hidden Markov ModelleHMM-Struktur · Initialisierung · Stichprobe · Lernen

Modellierungseinheiten unterhalb der Wortebene

Kontextabhängige Phone

Subphonemische Modellierung

Modellierung phonetischer Effekte an den Wortgrenzen

Ad hoc Modellierung unbekannter Wörter

Modellierung von Aussprachevarianten

Beispielaufbau

Motivation Ganzwort-HMM Wortuntereinheiten CD-PLUs Subphone Wortgrenzen Neue Wörter A-Varianten Σ

Erzeugung von Ganzwortmodellen

Konfiguration• Links-Rechts-HMM (linear, Bakis)• λ(w`) besitzt N` Zustände

z.B. N` = 5 (Ziffernwörter) oder N` ∝ „Anzahl der Phoneme in W`“

Initialisierung• πi , aij unkritisch; bjk , cjm gleichverteilt• SCHMM-Parameter µk , Sk via LBG/EM• CD-HMM und GM-HMM µjm, S jm = ?

Parametertraining• Baum-Welch-Iteration auf etikettierter Sprachdatensammlung

Motivation Ganzwort-HMM Wortuntereinheiten CD-PLUs Subphone Wortgrenzen Neue Wörter A-Varianten Σ

Datengetriebene Vorbesetzung der HMM-Parameter

10987654321

/n//�//b//a://h/

h h a a b b � � n n

Wortmodell λ(/hab�n/ mit N = 10 Zuständen· explizite phonetische Segmentierung (oben)· lineare Zeitverzerrung (Daten vs. HMM) (unten)

Motivation Ganzwort-HMM Wortuntereinheiten CD-PLUs Subphone Wortgrenzen Neue Wörter A-Varianten Σ

Aufbau einer Sprachdatensammlung

• Einzelsprechersysteme≥ 10, besser 50 oder 100 Aussprachebeispiele / Wortform

• Sprecherunabhängige Systemeausgewogene Population von ≥ 100 SprecherInnenGeschlecht · Anatomie · Dialekt · Ideolekt · Soziolekt

• Wohldefinierte & kontrollierte SprachqualitätMikrofon/Telefon · Bandbreite · Störfaktoren · Dynamik

• ÄußerungseinheitenEinzelwörter · Kommandos/Sätze · Dialogturns · ≥ Szenarien

• AkquisitionSpontansprachdaten · Textreproduktionen · „Wizard of Oz“

• Etikettierung (deskriptiv/normativ)Text · Sätze · Wörter · Phoneme · AllophoneIntonation · Pausen · nonverbale Phänomene · Überlappung

Page 3: SPEZIELLEMUSTERANALYSESYSTEME Schrift ... · SPEZIELLEMUSTERANALYSESYSTEME Schrift-undSpracherkennungmit Hidden-Markov-Modellen VorlesungimWintersemester2019 Prof.E.G.Schukat-Talamazzini

Motivation Ganzwort-HMM Wortuntereinheiten CD-PLUs Subphone Wortgrenzen Neue Wörter A-Varianten Σ

Die Erlanger Bahnauskunft-Stichprobe1. ich muesste morgen nach Falkenberg fahren , so_dass ich ab zwei Uhr ankomme.2. wann kommt der spaeteste ICE , der uebermorgen in Sonthofen abfaehrt, in Nordhausen an ?3. hat der Zug um acht Uhr in Bad_Kleinen Anschluss nach Weida ?4. um wieviel Uhr geht der spaeteste Intercity-Zug nach Schaffhausen_Faehre ?5. faehrt der erste Zug um fuenf Uhr sechs nach Heiligenstadt auch werktags ?6. wann faehrt morgen der frueheste Zug nach Kitzingen ?7. guten Morgen, gibt es einen Intercity , der an einem Wochentag nachmittags direkt nach

Flensburg faehrt?8. wir muessen nach Neustadt fahren , und_zwar uebermorgen .9. ich haette gerne einen Intercity-Zug nach Eisenhuettenstadt .

10. heute Nacht muesste ich mit dem Zug von Pasewalk nach Neuhaus fahren .11. ich suche einen Zug von Kempten nach Stralsund mit Ankunftszeit ab sechs Uhr .12. wann muss ich abfahren , damit ich moeglichst frueh in Leipzig_Bayerischer_Bahnhof bin ?13. ich will fragen, wann uebermorgen Nachmittag ein Zug von Andernach nach Rosenheim geht ?14. wann kann ich am naechsten Wochenende mittags nach Wasserbillig fahren ?15. wann kommt der frueheste IC , der um halb fuenf in Bad_Bentheim abfaehrt, in

Berlin-Schoeneweide an ?16. ich will morgen in Kassel-Wilhelmshoehe sein .17. ist es moeglich, an einem Wochentag von Emden ueber Rendsburg nach Berlin zu fahren ?18. hat der Zug um zehn Uhr in Dortmund Anschluss nach Worms ?19. ich moechte direkt mit dem Intercity-Zug an Pfingsten nach Immenstadt fahren .20. damit ich um viertel vor sieben in Hanau ankomme , wann muss ich in Neustadt losfahren ?21. ich wollte fragen, ob man morgen auch nach Biberach fahren kann ?22. welche Moeglichkeiten gibt es, zwischen fuenf und ein Uhr nach Rotenburg zu kommen ?23. wuerden Sie mir am neunundzwanzigsten neunten die kuerzeste Verbindung nach Allensbach

angeben ?24. gibt es einen Zug , der uebermorgen nach Guestrow faehrt?25. gibt es eine Moeglichkeit, spaetestens heute von Amstetten nach Dillenburg zu kommen ?26. gibt es eine stuendliche Direktverbindung zwischen Dortmund und Forchheim ?27. guten Morgen, faehrt an Heiligabend ein Intercity nach Gehlberg ?28. wir moechten zwischen vier und fuenf Uhr in Celle sein .29. gibt es eine IC-Verbindung am Mittwoch zwischen Schleswig und Fulda ?30. faehrt der naechste Zug um ein Uhr von Mittenwald nach Bad_Brambach auch in zwei Tagen ?31. wir moechten einen Zug von Traunstein nach Goettingen .32. faehrt am kommenden Wochenende ein ICE nach Oberstdorf ?33. was ist die spaeteste Moeglichkeit, um zwoelf Uhr ueber Gelsenkirchen nach Saarburg zu fahren ?34. gibt es einen Zug , der am Montag in Weimar ist ?35. gibt es einen ICE , der nach viertel vor sechs von Hamburg-Altona nach Flensburg faehrt?36. ich moechte wissen, ob heute um drei Uhr auch ein IC nach Buende faehrt ?37. ... ... ... ... ...

(50+50)·100 Äußerungen · 10 000 Anfragetexte · 949 Wortformen · 154 IC-Halte · 417 D-Zug-Halte

Motivation Ganzwort-HMM Wortuntereinheiten CD-PLUs Subphone Wortgrenzen Neue Wörter A-Varianten Σ

Eingebettetes Lernen

• EinzelwortprobeWortrealisierungen liegen in Sprechpausen eingebettet vor

(Stille) „Nichtsein“ (Stille) (Stille)„ist“ „hier“

. . .

(Stille)„Frage“„oder“„Sein“(Stille)

• VerbundwortprobeWortrealisierungen liegen in komplette Sätze eingebettet vorSatzrealisierungen liegen in Sprechpausen eingebettet vor

• Diskontinuierliche VerbundwortprobeWortrealisierungen sind u.U. durch Stillebereiche unterbrochenStillebereiche sind nicht Bestandteil der Etikettierung

Motivation Ganzwort-HMM Wortuntereinheiten CD-PLUs Subphone Wortgrenzen Neue Wörter A-Varianten Σ

Wörter sind keine geeigneten Modellierungseinheiten !

1. erforderliches Datenmaterial ∝ Wortschatzumfang Lmehrere Aussprachebeispiele für jeden Wortschatzeintrag

2. enorme Zahl freier HMM-Parameter labile Schätzwerte & hoher Rechen- und Speicheraufwand

3. geringe Flexibilität monolithischer Modelle Trainingswortschatz = Erkennungswortschatz

4. wortübergreifende Ausspracheverschleifungen ?5. spontane Kompositabildung ?

Motivation Ganzwort-HMM Wortuntereinheiten CD-PLUs Subphone Wortgrenzen Neue Wörter A-Varianten Σ

Analyse durch Synthese

Wort-HMMs werden aus Phonem-HMMs verkettet.

BeispielDas HMM für das Wort „Torte“ besitzt die Struktur

λ(/tOrt@/) = λ(/t/) ◦ λ(/O/) ◦ λ(/r/) ◦ λ(/t/) ◦ λ(/@/)

Zustandsverklebungen

/@//t//r//O//t/

Page 4: SPEZIELLEMUSTERANALYSESYSTEME Schrift ... · SPEZIELLEMUSTERANALYSESYSTEME Schrift-undSpracherkennungmit Hidden-Markov-Modellen VorlesungimWintersemester2019 Prof.E.G.Schukat-Talamazzini

Motivation Ganzwort-HMM Wortuntereinheiten CD-PLUs Subphone Wortgrenzen Neue Wörter A-Varianten Σ

HMM-Topologien für Einzellaute

• Linear- oder Bakis-HMM mit N = 3 Zuständen• Spezialmodelle mit N > 3 für Diphthonge & Affrikate• Kai-Fu Lees „Dreimaster“ mit N = 7 Zuständen:

A =

0 a12 a13 0 0 0 a170 a22 0 a24 0 0 00 0 0 0 0 a36 a370 0 0 a44 a45 0 00 0 0 0 a55 0 a570 0 0 0 0 0 10 0 0 0 0 0 0

2 541 7

63

Motivation Ganzwort-HMM Wortuntereinheiten CD-PLUs Subphone Wortgrenzen Neue Wörter A-Varianten Σ

Motivation

Wortbezogene Hidden Markov Modelle

Modellierungseinheiten unterhalb der WortebeneEntwurfskriterien · Phonologische Einheiten · AkustischeEinheiten

Kontextabhängige Phone

Subphonemische Modellierung

Modellierung phonetischer Effekte an den Wortgrenzen

Ad hoc Modellierung unbekannter Wörter

Modellierung von Aussprachevarianten

Beispielaufbau

Motivation Ganzwort-HMM Wortuntereinheiten CD-PLUs Subphone Wortgrenzen Neue Wörter A-Varianten Σ

GütekriterienWortuntereinheiten zur akustischen Modellierung

• Präzisiondie WUE ist hochspezialisiert und folglich trennscharf

• Robustheitgroßer Trainingsmaterialvorrat & wirksame Glättungsmaßnahmen gute Schätzwerte

• Modularitätfixes Inventar moderaten Umfangs für alle potentiellen Sprechakte

• TransferSynthese neuer Wortmodelle aus vorhandenen WUE nachorthografischer/phonematischer Umschrift

• maschinelle Segmentierbarkeit ?heutzutage irrelevant wg. Analysis-by-Synthesis Strategie

Motivation Ganzwort-HMM Wortuntereinheiten CD-PLUs Subphone Wortgrenzen Neue Wörter A-Varianten Σ

Phonologisch orientierte Wortuntereinheiten I

am Beispiel „Hamburg“

Silbe

EndkonsonantenfolgeAnfangs-

/b/

PhonemzentrumTransem

Diphon

Phonem / PhonSilbe

/b/

/b//m//a/

/b//m//a/

/m//a/

/ham/ /bUrk/

initiale terminale

Nukleus

Halbsilbe

/k//r//U//b/

/U/ /r/ /k/

Page 5: SPEZIELLEMUSTERANALYSESYSTEME Schrift ... · SPEZIELLEMUSTERANALYSESYSTEME Schrift-undSpracherkennungmit Hidden-Markov-Modellen VorlesungimWintersemester2019 Prof.E.G.Schukat-Talamazzini

Motivation Ganzwort-HMM Wortuntereinheiten CD-PLUs Subphone Wortgrenzen Neue Wörter A-Varianten Σ

Phonologisch orientierte Wortuntereinheiten II

• Phone +modular, −präzis

je nach Differenzierungsgrad 40–200 universelle Einheiten• Phoneme +modular, −präzis

je nach Sprache 20–60• Silben +präzis, −modular

20 000 (engl.), 100 (japan.); Koartikulation primär innerhalb• Halbsilben +trennscharf, ±modular

800/2560 initiale/terminale im Deutschen• Sylparts guter Kompromiß

47 AKF, 20 Nuklei, 159 EKF im Deutschen• Diphone besser: Transeme

1000–1500 Einheiten (engl./ital.), ungünstige Nahtstellen• Doppelhalbsilbe ++trennscharf, −−modular, −−robust

Silbenkern–Silbenkern, 2 Mill. im Deutschen

Motivation Ganzwort-HMM Wortuntereinheiten CD-PLUs Subphone Wortgrenzen Neue Wörter A-Varianten Σ

HMM für längerdauernde Wortuntereinheiten

PROAussprachevariabilität wird in ihrer lautlichen Umgebung eingefroren

KONTRAverminderte Robustheit & mangelhafte Modularität

LÖSUNG

• hierarchische Zerlegung der Wortaussprache• hierarchische Modellstruktur durch parallel verdrahtete HMMs• HMMs ausschließlich für häufig auftretende Spracheinheiten• Interpolation konkurrierender HMMs’context-freezing units’ (CFU) sind Kompromiß zwischenstabil & unspezifisch versus labil & trennscharf

Motivation Ganzwort-HMM Wortuntereinheiten CD-PLUs Subphone Wortgrenzen Neue Wörter A-Varianten Σ

CFU — „context-freezing units“Hierarchische Wortrepräsentation & HMM-Struktur

/n//@//d//s//e:/

/@n//d@//e:s//dre/

/d@n//dre:s/

/dre:sd@n/

/dr/

/d/ /r/

Achse potentieller Interpolationspartner

Motivation Ganzwort-HMM Wortuntereinheiten CD-PLUs Subphone Wortgrenzen Neue Wörter A-Varianten Σ

Akustisch (statt phonetisch) orientierte Wortuntereinheiten

〈Algorithmus〉

1 BOOTSTRAP-ERKENNERAufbau eines initialen ASE-Systems

2 FENONISCHE GRUNDFORMAnalyse eines oder mehrerer Aussprachebeispiele je Wortform

W` F(W`) = f1 . . . fm

3 WORTMODELL-KONFIGURATION

λ(W`)def= λ(f1) ◦ λ(f2) ◦ λ(f3) ◦ . . . ◦ λ(fm)

4 PARAMETER INITIALISIEREN5 BAUM-WELCH TRAININGSALGORITHMUS

〈Algorithmus〉

Page 6: SPEZIELLEMUSTERANALYSESYSTEME Schrift ... · SPEZIELLEMUSTERANALYSESYSTEME Schrift-undSpracherkennungmit Hidden-Markov-Modellen VorlesungimWintersemester2019 Prof.E.G.Schukat-Talamazzini

Motivation Ganzwort-HMM Wortuntereinheiten CD-PLUs Subphone Wortgrenzen Neue Wörter A-Varianten Σ

Erzeugen einer fenonischen Wortumschrift1. Methode:

Verschmelzung identischer sukzessiver VQ-Indizes

x1 . . . xT o1 . . . oT ot(1) . . . ot(m)def= f1 . . . fm

2. Methode:VQ-Gewinnerzellen der Zustände eines LR Ganzwort-HMM

fj = argmaxk∈K

P(ot = k | qt = j ,λ(W )) = argmaxk∈K

b(W )jk

3. Methode:Bestparkettierung der Wortaussprache(n) mit Basis-HMMs

M∏m=1

P(Xm | λ(F)) =M∏

m=1

P(Xm | λ(f1)◦. . .◦λ(fm))!→ MAX

Motivation Ganzwort-HMM Wortuntereinheiten CD-PLUs Subphone Wortgrenzen Neue Wörter A-Varianten Σ

Motivation

Wortbezogene Hidden Markov Modelle

Modellierungseinheiten unterhalb der Wortebene

Kontextabhängige PhoneAllophone · Triphone · Generalisierung · Polyphone

Subphonemische Modellierung

Modellierung phonetischer Effekte an den Wortgrenzen

Ad hoc Modellierung unbekannter Wörter

Modellierung von Aussprachevarianten

BeispielaufbauMotivation Ganzwort-HMM Wortuntereinheiten CD-PLUs Subphone Wortgrenzen Neue Wörter A-Varianten Σ

Phoneme im Kontext (Allophone)

• Segmentelle Basisspracheinheit kurzer Dauer ( Phonem)• Modellierung durch HMM ist kontextabhängig

BeispielDas Phonem r im Wort Hamburg hambUrk,als Triphon oder rechtes/linkes Biphon oder Monophon:

r→ U/r/k , r→ /r/k , r→ U/r/ , r→ /r/

#/h/a h/a/m a/m/b m/b/U b/U/r U/r/k r/k/#

b U r k /mah/

Motivation Ganzwort-HMM Wortuntereinheiten CD-PLUs Subphone Wortgrenzen Neue Wörter A-Varianten Σ

Trainieren von Triphon-HMMsmaterielles Korrelat

kontextueller Einzugsbereich

/k//r//U//b//m//a//h/

〈Algorithmus〉

1 Erfassung der phonematischen Wortumschrift2 Konfiguration gewöhnlicher Monophonmodelle

Initialisierung & Optimierung der Parameter3 Konfiguration linker/rechter Biphonmodelle

Initialisierung & Optimierung der Parameter4 Konfiguration der Triphonmodelle

Initialisierung & Optimierung der Parameter5 Synthese der Erkennungswortschatzmodelle (Rückgriff/Interpolation)

b/U/r /U/r b/U/ /U/

〈Algorithmus〉

Page 7: SPEZIELLEMUSTERANALYSESYSTEME Schrift ... · SPEZIELLEMUSTERANALYSESYSTEME Schrift-undSpracherkennungmit Hidden-Markov-Modellen VorlesungimWintersemester2019 Prof.E.G.Schukat-Talamazzini

Motivation Ganzwort-HMM Wortuntereinheiten CD-PLUs Subphone Wortgrenzen Neue Wörter A-Varianten Σ

Verallgemeinerte Triphone

ProblemSeltene Triphone labile HMM-ParameterFragmentierung der Trainingsdaten

LösungBündeln geeigneter Gruppen kerngleicher Triphone mitverwandten akustischen Eigenschaften

?HV/m//m/SK

HV/m/SK

a/m/SKHV/m/b

/m/

a/m//m/b

a/m/b

/m/

a/m//m/b

a/m/b

a/m/b

/m/

Motivation Ganzwort-HMM Wortuntereinheiten CD-PLUs Subphone Wortgrenzen Neue Wörter A-Varianten Σ

Umschriftgetriebene Generalisierung

sonstige KonsonantenNasalesonstige Vokale hintere Vokale

SzsvgkxpbRdZtfI E @ i e 9 j Y l 2 y h m n N a 6 O o r U u w cn,

• Phonemmodellierung fj(x) = N (x | µj ,S j)

• Ähnlichkeit als Transinformation simij = I(fi , fj)

• Agglomerative Gruppierung Phonetisches Dendrogramm

Phonetisches Oberklassensystem (C = 4):NA HV SK SV

Nasale hintere Vokale sonstige Konsonanten sonstige Vokale

Motivation Ganzwort-HMM Wortuntereinheiten CD-PLUs Subphone Wortgrenzen Neue Wörter A-Varianten Σ

Datengetriebene Generalisierung

R ?=hinterer Vokal

J N

R ?=Liquid R ?

= vorderer Vokal

J JN N

L ?=Vokal L ?

=Vokal R ?=Schwa R ?

=Frikativ

J J J J NNNN

• Induktive Erzeugung eines binären Entscheidungsbaumes

• Fragen = diskriminative Phonemkontexte

• Resultat auch für „ungesehene“ Kontexte

Motivation Ganzwort-HMM Wortuntereinheiten CD-PLUs Subphone Wortgrenzen Neue Wörter A-Varianten Σ

Polyphone — Phoneme in beliebig breitem Kontext

• häufige Spracheinheiten sind modellierungsfähigrobuste Schätzwerte

• häufige Spracheinheiten sind modellierungsbedürftigRedundanz & Verschleifung

• Phoneme in beliebig breitem rechten/linken Kontextindirekte Koartikulationseffekte

• Vergröberung durch balanciertes Abschälenskalierte Kontextabhängigkeit

• Inkorporation von AkzentzeichenModellierung betonter & unbetonter Silben

• Inkorporation von GrenzmarkierungenPhrasengrenze · Wortgrenze · Morphemgrenze · Silbengrenze

Page 8: SPEZIELLEMUSTERANALYSESYSTEME Schrift ... · SPEZIELLEMUSTERANALYSESYSTEME Schrift-undSpracherkennungmit Hidden-Markov-Modellen VorlesungimWintersemester2019 Prof.E.G.Schukat-Talamazzini

Motivation Ganzwort-HMM Wortuntereinheiten CD-PLUs Subphone Wortgrenzen Neue Wörter A-Varianten Σ

Polyphone — Beispielwort „Hannover“

Pentaphon

Tetraphon

Triphon

Monophon

Generalisierung

mehr

Kontext

mehr

Aussprache-

beispiele

„Hannover“

ha/n/o:f6

ha/n/o:f

a/n/o:f

a/n/o:

/n/o:

/n/

/h/ano:f6 hano:f/6/

Biphon

Motivation Ganzwort-HMM Wortuntereinheiten CD-PLUs Subphone Wortgrenzen Neue Wörter A-Varianten Σ

Motivation

Wortbezogene Hidden Markov Modelle

Modellierungseinheiten unterhalb der Wortebene

Kontextabhängige Phone

Subphonemische ModellierungSemiphone · Senone

Modellierung phonetischer Effekte an den Wortgrenzen

Ad hoc Modellierung unbekannter Wörter

Modellierung von Aussprachevarianten

BeispielaufbauMotivation Ganzwort-HMM Wortuntereinheiten CD-PLUs Subphone Wortgrenzen Neue Wörter A-Varianten Σ

Subphonemische Modellstruktur

Jedes Phonem gliedert sich segmentell in drei Semiphone:1. Anglitt — abhängig vom Vorgängerphonem2. Zentrum — phonkontextunabhängig3. Abglitt — abhängig vom Nachfolgerphonem

AbglittAnglitt Zentrum

U.U/ U◦

Motivation Ganzwort-HMM Wortuntereinheiten CD-PLUs Subphone Wortgrenzen Neue Wörter A-Varianten Σ

Semiphondarstellung

U◦/U./r/U//U◦/U.b./U//U◦

/r//U//b/

• für Semiphone werden einfache Links/Rechtskontexte postuliert

• resultierende Spracheinheiten:· unabhängige Phonemzentren· viele kombinatorische Transemhälften· einige unabhängige Anglitte & Abglitte

Page 9: SPEZIELLEMUSTERANALYSESYSTEME Schrift ... · SPEZIELLEMUSTERANALYSESYSTEME Schrift-undSpracherkennungmit Hidden-Markov-Modellen VorlesungimWintersemester2019 Prof.E.G.Schukat-Talamazzini

Motivation Ganzwort-HMM Wortuntereinheiten CD-PLUs Subphone Wortgrenzen Neue Wörter A-Varianten Σ

Senonische Spracheinheiten

O/x/@ „Kocher“

O/x/t „Tochter“

a/x/t „Frachter“

Senon 1

Senon 2

Senon Triphon-HMMl l

Fenon Ganzwort-HMM

Äquivalenzklassen akustisch ähnlicher Triphonzustände

Motivation Ganzwort-HMM Wortuntereinheiten CD-PLUs Subphone Wortgrenzen Neue Wörter A-Varianten Σ

Lernen senonischer Grundformen

phonemischeGrundform

triphonischeGrundform

Triphon-modelle

GrundformsenonischeSenon-

modelle

Separate Clusteranalyse aller Triphonzustände eines Kernphonems

Motivation Ganzwort-HMM Wortuntereinheiten CD-PLUs Subphone Wortgrenzen Neue Wörter A-Varianten Σ

Motivation

Wortbezogene Hidden Markov Modelle

Modellierungseinheiten unterhalb der Wortebene

Kontextabhängige Phone

Subphonemische Modellierung

Modellierung phonetischer Effekte an den WortgrenzenWortübergreifende Verschleifung · Lernphase · Erkennungsphase

Ad hoc Modellierung unbekannter Wörter

Modellierung von Aussprachevarianten

Beispielaufbau

Motivation Ganzwort-HMM Wortuntereinheiten CD-PLUs Subphone Wortgrenzen Neue Wörter A-Varianten Σ

Verschleifungseffekte über die Wortfugen hinweg

Wortübergreifende Koartikulation„in München“

/In/ + /mYnc@n/ /ImYnc@n/

Verstümmelung unbetonter Funktionswörter„Roß und Reiter“

/rOs/ + /Unt/ + /raIt6/ /rOsnraIt6/

Page 10: SPEZIELLEMUSTERANALYSESYSTEME Schrift ... · SPEZIELLEMUSTERANALYSESYSTEME Schrift-undSpracherkennungmit Hidden-Markov-Modellen VorlesungimWintersemester2019 Prof.E.G.Schukat-Talamazzini

Motivation Ganzwort-HMM Wortuntereinheiten CD-PLUs Subphone Wortgrenzen Neue Wörter A-Varianten Σ

Wortgrenzenübergreifende Triphone in der Lernphase

„in München“ mit optionaler Stille

„in München“ ohne Stille

I/n/m n/m/Y

/I/n/m n/m/Y

I/n/- /-/ -/m/Y

Koartikulation überbrückt keine Stillebereiche

ohne Stille

mit{annotierterlatenter

}Stille

Motivation Ganzwort-HMM Wortuntereinheiten CD-PLUs Subphone Wortgrenzen Neue Wörter A-Varianten Σ

Wortgrenzenübergreifende Triphone in der Lernphase

„seit eh und je“ mit optionaler Stille

-/e:/-I/t/-

-/e:/UI/t/-

-/U/n/-//-/

/-/

/-/ -/U/nt/e:/-

e:/U/n

I/t/e:

e:/U/nt/e:/UI/t/e:

Kombinatorische Verwicklung bei einphonemigen Wörtern

Motivation Ganzwort-HMM Wortuntereinheiten CD-PLUs Subphone Wortgrenzen Neue Wörter A-Varianten Σ

Wortgrenzenübergreifende Triphone in der Erkennungsphase

pm/v/$

p1/v/$

$/v/$

$/v/a

pm/v/a

p1/v/a

v/a/n a/n/t

n/t/p1

n/t/pm

n/t/$

$/t/$

$/t/p1

$/t/pm

Ungebremste Kombinatorik der kontextbedingt verästelten initialen/finalenTriphonmodelle des HMMs für /vant/ („Wand“)

#/v/a v/a/n a/n/t n/t/#

Motivation Ganzwort-HMM Wortuntereinheiten CD-PLUs Subphone Wortgrenzen Neue Wörter A-Varianten Σ

Motivation

Wortbezogene Hidden Markov Modelle

Modellierungseinheiten unterhalb der Wortebene

Kontextabhängige Phone

Subphonemische Modellierung

Modellierung phonetischer Effekte an den Wortgrenzen

Ad hoc Modellierung unbekannter WörterNichtwörter · Detektion · Modellierung · Wiedererkennung

Modellierung von Aussprachevarianten

Beispielaufbau

Page 11: SPEZIELLEMUSTERANALYSESYSTEME Schrift ... · SPEZIELLEMUSTERANALYSESYSTEME Schrift-undSpracherkennungmit Hidden-Markov-Modellen VorlesungimWintersemester2019 Prof.E.G.Schukat-Talamazzini

Motivation Ganzwort-HMM Wortuntereinheiten CD-PLUs Subphone Wortgrenzen Neue Wörter A-Varianten Σ

Performanzlücke der ASE bei Spontansprache

Unbekannte Wörter• Wörter außerhalb des Erkennungswortschatzes

Außerlexikalische Einheiten• Ungefüllte Pausen („Häsitationen“)• Gefüllte Pausen („äh“ , „mmh“)

Nichtverbale Realisierungen• Räuspern, Husten, Lachen• Atemgeräusche, Schmatzlaute

Nichtartikulatorische Störproduktionen• Türenschlagen, Rascheln, Klopfen, ...

Detektion ad hoc Modelle Wiedererkennung

Motivation Ganzwort-HMM Wortuntereinheiten CD-PLUs Subphone Wortgrenzen Neue Wörter A-Varianten Σ

OOV-Detektion mit Rückweisungsmodellen

Füllmuster-HMM λ∅ mit diffuser Wahrscheinlichkeitsverteilung:

P(X | λ∅) ≤ P(X | λ(w)) für das korrekte Wort w und

P(X | λ∅) ≥ P(X | λ(v)) für alle anderen Wörter v 6= w

Rückkopplung

1. Phonem 2. und weitere Phoneme

• SYNTHETISIEREN:λ∅ als repetitive Verkettung von Lautalternativeblöcken

• TRAINIEREN:Ganzwort-HMM λ∅, trainiert mit allen Sprachproben

Motivation Ganzwort-HMM Wortuntereinheiten CD-PLUs Subphone Wortgrenzen Neue Wörter A-Varianten Σ

Modelle für „neue“ Wörter I

Phonematische Modellsynthese

eine Phonemumschrift liegt i.a. nicht vor

Akustische Modellsynthese

Viterbi-TranskriptionBauplan = a posteriori wahrscheinlichste Phonemfolge

Fenon-TranskriptionBauplan = a posteriori wahrscheinlichste Fenonfolge

Senon-TranskriptionBauplan = wahrscheinlichste Senonfolge eines intermediärenGanzwort-HMMs

Motivation Ganzwort-HMM Wortuntereinheiten CD-PLUs Subphone Wortgrenzen Neue Wörter A-Varianten Σ

Modelle für „neue“ Wörter IIBuchstabiermodus

„Hamburg“

„ha–ah–em–beh–uh–er–geh“

„Heinrich“–„Anton“–„Martha“–„Berta“–„Ulrich“–„Rudolf“–„Gustav“

Graphematische Modellsynthese

RegelbasiertErzeugung einer phonemischen Wortumschrift aus der Orthographie

Beispiel NetTalk:

Künstliches Neuronales Netz (KNN) mit

7× 29 Eingabe-,80 Zwischen- und

26 Ausgabeneuronen

PolygraphenBasis-HMMs für „kontextabhängige Buchstaben“

Page 12: SPEZIELLEMUSTERANALYSESYSTEME Schrift ... · SPEZIELLEMUSTERANALYSESYSTEME Schrift-undSpracherkennungmit Hidden-Markov-Modellen VorlesungimWintersemester2019 Prof.E.G.Schukat-Talamazzini

Motivation Ganzwort-HMM Wortuntereinheiten CD-PLUs Subphone Wortgrenzen Neue Wörter A-Varianten Σ

Polygraphen — kontextabhängige Buchstaben

Kontext

mehr

Oktagraphen

Heptagraph

Hexagraph

Pentagraph

Tetragraph

Trigraph

Bigraph

Monograph

Generalisierung

Aussprache-

beispiele

mehr

an/n/ov

an/n/ove

han/n/ove

hannove/r/han/n/over/h/annover

„Hannover“

/n/

/n/o

n/n/ov

n/n/o

Motivation Ganzwort-HMM Wortuntereinheiten CD-PLUs Subphone Wortgrenzen Neue Wörter A-Varianten Σ

Motivation

Wortbezogene Hidden Markov Modelle

Modellierungseinheiten unterhalb der Wortebene

Kontextabhängige Phone

Subphonemische Modellierung

Modellierung phonetischer Effekte an den Wortgrenzen

Ad hoc Modellierung unbekannter Wörter

Modellierung von AussprachevariantenStandardumschrift · Varianten · Expansion · Graphen

BeispielaufbauMotivation Ganzwort-HMM Wortuntereinheiten CD-PLUs Subphone Wortgrenzen Neue Wörter A-Varianten Σ

Standardumschrift & alternative Umschriften

Phonematische Standardumschrift• Wörterbucheintrag der Form „haben“ /ha:b�n/• ein Wort · eine Umschrift · ein Wortmodellungenaues Modell & streuende Parameter

Ausgewählte Ausprachevarianten• zum Beispiel „zwei“ 1. /tsva*/ und 2. /tsvo:/• ein Wort · mehrere Umschriften · konkurrierende Wortmodellehoher Dekodieraufwand & Datenfragmentierung

Motivation Ganzwort-HMM Wortuntereinheiten CD-PLUs Subphone Wortgrenzen Neue Wörter A-Varianten Σ

Maschinelle Erzeugung alternativer Ausspracheumschriften

Expansion durch phonetische Verschleifungsregeln• Nichtdeterminiertes Textersetzungssystem:

EINGABE = StandardumschriftREGELN = Assimilation, Elision, schwache FormenAUSGABE = (große) Menge von Aussprachevarianten

kombinatorische Explosion bei langen WörternGefahr der ÜbergeneralisierungAkquisition des Regelinventars ?!?

BeispielFür das Wort „haben“ ergeben sich die Varianten

/ha:b�n/ ; /ha:bn/ ; /ha:bm/ ; /ha:m/ ; /h=am/ ; ... ... ...

Page 13: SPEZIELLEMUSTERANALYSESYSTEME Schrift ... · SPEZIELLEMUSTERANALYSESYSTEME Schrift-undSpracherkennungmit Hidden-Markov-Modellen VorlesungimWintersemester2019 Prof.E.G.Schukat-Talamazzini

Motivation Ganzwort-HMM Wortuntereinheiten CD-PLUs Subphone Wortgrenzen Neue Wörter A-Varianten Σ

Phonetische Wortrepräsentation durch Aussprachegraphen

/h/ /a/ /b/ /�/ /n/

/m//o/

Alle Aussprachevarianten eines Wortes werden in einen zyklenfreien,gerichteten Graphen eingebettet.

• Paßfähigkeit eines AussprachegraphenV = P exakte Ausschöpfung (hohe Knotenzahl)V ⊃ P Übergeneralisierung (fehlerhafte Annahme)V ⊂ P Überspezialisierung (fehlerhafte Ablehnung)

• Variantenwahrscheinlichkeiten ← EM-Algorithmuseine Wahrscheinlichkeit je Variante (∼ L · 100)eine Wahrscheinlichkeit je Graphkante (∼ L · 10)eine Wahrscheinlichkeit je Verschleifungsregel (∼ 1 · 1000)

Motivation Ganzwort-HMM Wortuntereinheiten CD-PLUs Subphone Wortgrenzen Neue Wörter A-Varianten Σ

Motivation

Wortbezogene Hidden Markov Modelle

Modellierungseinheiten unterhalb der Wortebene

Kontextabhängige Phone

Subphonemische Modellierung

Modellierung phonetischer Effekte an den Wortgrenzen

Ad hoc Modellierung unbekannter Wörter

Modellierung von Aussprachevarianten

BeispielaufbauMotivation Ganzwort-HMM Wortuntereinheiten CD-PLUs Subphone Wortgrenzen Neue Wörter A-Varianten Σ

An Stelle einer ZusammenfassungEXEMPLARISCHE BERECHNUNGSFOLGE ZUM WORTMODELLAUFBAU

Senon-gestützter HMM-Worterkenner

1 Anlegen einer SprachdatensammlungEntwurf — Aufnahme — Diskretisierung

2 Erstellung eines AussprachelexikonsPhonemische Umschriften aller Wörter der Lernstichprobe

3 Merkmalberechnung & Vektorquantisierung... für die gesamte Lernstichprobe; siehe (3), (4)

4 Lernen der Monophon-HMM’sUniforme Initialisierung, Baum-Welch-Training

5 Lernen der Triphon-HMM’sInitialisierung mit den Monophon-HMM’s, Baum-Welch-Training

6 Clustern der Triphon-HMM-Zustände in SenonklassenPartitionieren der Mischungskoeffizientenvektoren mit LBG

7 Lernen der Senon-HMM’sInitialisierung mit den Triphon-HMM’s, Baum-Welch-Training

8 Rotationsmatrix aus Senon-LDA etc. ...Alle Zeitscheiben werden senonisch klassifiziert LDA