Govorne tehnologije za hrvatski Speech Technologies for Croatian

Govorne tehnologije za hrvatskiSpeech Technologies for Croatian

doc. dr. sc. Sanda Martinčić-Ipšić[email protected]

1

Odjel za informatiku, Sveučilište u RijeciRadmile Matejčić 2, 51000 Rijeka, Hrvatska

Tel.: + 385 51 584 700

Uvodgovor je prirodan i najlakši način

sporazumijevanja među ljudima

govorne tehnologije su sustavi koji koriste govor za komunikaciju čovjeka s računalom sustavi za raspoznavanje govora sustavi za sintezu govora

Zašto nema šire primjene govora za interakciju čovjeka s računalom?

2

Uvod IIograničena primjena proizlazi iz promjenjive naravi govora:

dijelovi riječi i rečenica su često ispušteni u spontanom govoru,

– nerazumljivo izgovoreni, – različito naglašeni, – izgovoreni različitom brzinom, – glasniji ili tiši, – utjecaj dijalekata...

teško je razlučiti početak i kraj riječi koje se zajedno izgovaraju,

velike anatomske razlike među govornicima (očituju se u govoru),

govor je često popraćen pozadinskim šumom, zvukovima, glazbom, ....

3

Govorne tehnologije

tehnologije koje čovjeku omogućavaju govornu interakciju s računalom u obliku govornoga signala koristeći znanje o jeziku i govoru

raspoznavanje i sinteza govora

4

Govorne tehnologije IImultidisciplinarno područje

znanja, pristupi i postupci iz različitih područja lingvistike, fonetike, akustike, psihologije, fiziologije,... obrade signala, statistike, raspoznavanja uzoraka, umjetne

inteligencije i strojnog učenja,...istraživačka područja

Automatsko raspoznavanje govora (ASR Automatic Speech Recognition)

Sinteza govora (TTS –Text-to-Speech) Prepoznavanje govornika (Speaker Recognition), verifikacija govornika Prepoznavanje jezika (Spoken Language Identification) Prepoznavanje emocija iz govora, generiranje emotivnoga govora

(Emotion recognition, Emotional TTS)5

SadržajGovorne tehnologije

Raspoznavanje hrvatskoga govora Sinteza hrvatskoga govora

Izgradnja sustava Govorni korpusi Rezultati

Primjena sustav za govorni dijalog

6

Raspoznavanje govoraulazni govorni signal predstavljen nizom vektora značajki, na

osnovu akustičnog i jezičnog znanja, zapisanog u akustičnom i jezičnom modelu, pretvara se u niz riječi

7

Fonetski rječnik

Akustički model P(X|W )

kontekstno ovisni SMM-i......

Govorni signal

Parametriziran govor (značajke)

Jezični model P(W )RASPOZNAVANJE

argmaxP(X|W )P(W )

UČE

NJE

Raspoznatgovor

W 1,.. ,W m

X1,X2,.. ,Xn

RASPOZNAVA

NJE

Speech recognition technology (Furui, 2005)

8

0010-11

2 20 200 2000 20000 Unrestricted

Spontaneousspeech

Readspeech

Fluentspeech

Connectedspeech

Isolatedwords

Vocabulary size (number of words)

Spea

king

styl

e

1980　

1990 　

2000　

naturalconversation2-way

dialoguetranscriptionnetwork

agent &intelligentmessaging

system drivendialogue

officedictation

namedialing

form fillby voice

directoryassistance

wordspotting

digitstrings

voicecommands

naši rezultati

Sinteza govora proces u kojem se iz danog teksta tvori čovjeku

razumljiv govor

statističke metode u sintezi uporaba skrivenih Markovljevih modela – SMM

(Hidden Markov Models)–za odabir odgovarajućih jedinica (unit selection) -

korpusna sinteza–kao generativni model govora (HMM TTS) –

statistička parametarska sinteza

9

Statistička parametarska sinteza govoraza ulazni tekst se iz

kontekstno ovisnih SMM-a generira govorni signal

iz naučenog modela se generira niz značajki

iz niza značajki se rekonstruira govorni signal

10

SINTEZA

UČENJE

O dređivanjeos novne

frek venc ije

O dređivan jes pek tra ln ihparam etara

g ovo rn i s ig n a li tran skr ipcije

F 0 Me l-ke pstru m

Učenje SMM(ko n tekstno ne o visn ih i ko n te kstno o visn ih )

la be le

te kst

A naliz ate ks ta

Generiranje parametra izkontekstno ovisnih SMM-a

La be l

G e ne rira n jef undamenta lne

f rekv enc ije

MLSAfilta r g e ne riran

g o vo r

F 0 Mel-ke p stru m

.... ..konteksno ovis ni SMM-i

Izgradnja sustavaakustički modeligovorni korpusrezultati

11

Učenje akustičkog modela30 standardnojezičnih fonema hrvatskoga jezika

kod sinteze +6 naglašenih vokala + stanka, udah i izdah kao i svi posebni akustični događaji u

govorumonofonski akustični modeli trifonski modeli

12

1 32 4 5

outputvector

x1 x2 x3 x4 x5

a12 a23 a34 a45

a22 a33 a44

b2(x1) b2(x2) b4(x5)b4(x4)b3(x3)

hmonophone h hakustički model za glas /h/

Govorni korpuszbirka govornih signala i njihovih tekstualnih prijepisa

pohranjenih na digitalnom mediju i primjerenih za računalnu obradu

najvažniji dio sustava za raspoznavanje i sintezu govora statistički pristupi učenja iz podataka veličina, kakvoća i cjelovitost korpusa vitalni su dio sustava utječu na razvojne mogućnosti i rezultate istraživanja proces izgradnje korpusa dugotrajan, težak i skup

za hrvatski jezik je potrebno izgraditi govorni korpus

13

Hrvatski govorni korpus Inastajao u periodu 2002-2010.

Radijske vremenske prognoze Radijske vijesti Priče Dijalozi vezani uz vremensku prognozu Telefonska vremenska izvješća Hrvatski BCN (Broadcast News) + video snimke 6

dnevnikaoko 25.5 sati transkribiranoga govora

preko 280.000 izgovorenih riječi približno 20.000 različitih riječi 280 različitih govornika

14

Hrvatski govorni korpus IIBroj Govornici Riječi Trajanje

snimaka iskaza M Ž svih različitih h

Radijske vremenske prognoze 1057 5456 11 14 77322 1462 8

Radijske vijesti 237 3975 1 2 105678 9923 5

Priče 10 2532 1 18984 5268 2Dijalozi vezani uz

vremensku prognozu 34 1530 17 17 6664 78 1Telefonska vremenska

izvješća 170 3276 5 7 52430 1788 6

HR-BCN 6 157 61 18632 9326 3.5

UKUPNO 1514 16769 192 85 279710 ~20000 25.5

15

Testiranje sustava za raspoznavanje 4 različita sustava za raspoznavanje: vremenskih

prognoza, vijesti, priča i dijalogamodeli učeni na kumulativnom govoru:

vremenske prognoze 8 sati, vijesti 13 sati, priče 15 sati govora istih 8 muških i 8 ženskih govornika

testiranje svih sustava: uvijek istih 1710 rečenica u vezi s vremenom od

preostalih 3 muških i 6 ženskih govornika

16

Rezultati raspoznavanja:prognoza, vijesti i priča

prognoze 10.54%

17

vijesti 10.5% priče 8.55%Pogreška raspoznavanja riječi

Raspoznavanje dijalogaučeno na 15.5 sati govora:

cijeli korpus: vremenske prognoze, vijesti i priče (istih 8 muških i 8 ženskih govornika) + dijalozi novih 12 muških i 12 ženskih govornika

(70% od ukupnog broja dijaloga u korpusu)testirano:

dijalozi preostalih 5 muških i 5 ženskih govornika (30% dijaloga)

rezulati su neovisni o govorniku (speaker independent) rezultat: oko 5% pogrešno raspoznatih riječi

18

Izgradnja sustava za SMM sintezu

odabrani govornik sm04 6222 različitih riječi u 2332 izgovorenih blokova 2.5 sata govora

vrednovanje sustava: objektivni test: sustavom za raspoznavanje hrvatskoga

govora subjektivni test: anketa, 21 ocjenjivač usporedni test: ocjenjivači i sustav za raspoznavanje

19

Rezultati sinteze tekst iz vremenske domene

muški glas većina riječi iz rječnika za učenje modela sintetizirana vremenska prognoza 07.05.2012.

tekst izvan vremenske domene ženski glas riječi izvan rječnika sintetizirane tekuće vijesti 26.11.2012.

20

Primjena

sustav za govorni dijalog

21

Mogućnosti primjeneza e-učenje

npr. aplikacije za pomoć pri učenju izgovora hrvatskoga jezika kao stranog jezika

moguće progovoriti strani jezik vlastitim glasomasistivne tehnologije

aplikacije za pomoć slabovidnim osobama i osobama smanjene pokretljivosti (Servus http://www.eglas.hr/)

sustavi za diktiranje i automatsko zapisivanje npr. diktiranje dijagnoza za rendgenske slike

sustavi za vođenje govornog dijaloga čovjeka s računalom npr. vezanog uz trenutnu vremensku situaciju i prognozu

22

Mogućnosti primjene IIInterakcija čovjeka s računalom (HCI)

nadzor i korištenje različitih inteligentnih naprava– dlanovnici, tableti i pametni telefoni – upotreba u situacijama gdje se ruke i oči zauzete– kompaktni i tematski određeni sustavi za raspoznavanje

i sintezu govoragovorno sučelje WEB aplikacija

Biometrija prepoznavanje i identifikacija govornika – sigurnost

Zabava interaktivne igre, avatari, računalni likovi

23

Sustav za govorni dijalogograničenja

veličina vokabulara uska domena primjene jednostavne rečenice

govorni dijalog za vremenske informacije pridobivanje informacija o

vremenskoj situaciji i vremenskoj prognozi

za različite dijelove Hrvatske semantička analiza domene

(ekstrakcija informacija)

24

Sustav za govorni dijalog II

25

DIALOG MANAGER

SEMANTIC MODULE

Internet Sites

weather forecasts,weather, wind, sea,

snow conditions, etc.

SemanticDatabase

SemanticAnalysis

Speech Recognition

SemanticCategory

The DialogFlow

speechutterance

recognizedtext

SemanticDictionary

Internettext

understoodrecognized text

decomposed Internet text

Speech Synthesis

generatedanswer

synthesizedspeech

KnowledgeBase

semantic frame

SentenceGenerator

output frame

ZaključakGovorne tehnologije za hrvatski

raspoznavanje velikog vokabulara hrvatskog jezika (10000+ različitih riječi), telefonskog govora

parametarska sinteza – generiranje hrvatskoga govora dobre razumljivosti

primjena u sustavu za vođenje govornoga dijaloga za vremenske prognoze

otvoreno: proširenje korpusa, poboljšanje rezultata, sustav za govorni dijalog, nove domene...

26

Istraživački tim

27

prof.dr.sc.Ivo Ipšić[email protected]

doc.dr.sc.Sanda Martinčić-Ipšić[email protected]

doc.dr.sc.Ana Meštrović[email protected]

Miran [email protected]

Lucia Načinović[email protected]

Govorne tehnologije za hrvatskiSpeech Technologies for Croatiandoc. dr. sc. Sanda Martinčić-Ipšić, [email protected]

28

Odjel za informatiku, Sveučilište u RijeciRadmile Matejčić 2, 51000 Rijeka, Hrvatska

Tel.: + 385 51 584 700

Objavljeni radovi Pobar, Miran; Martinčić-Ipšić, Sanda; Ipšić, Ivo. Optimization of Cost Function Weights for

Unit Selection Speech Synthesis Using Speech Recognition. Neural Network World. Forthcoming 2012.

Martinčić-Ipšić, Sanda; Pobar, Miran; Ipšić, Ivo.Croatian Large Vocabulary Automatic Speech Recognition. // Automatika. 52 (2011) , 2; 147-157

Meštrović, Ana; Bernić, Luka; Pobar, Miran; Martinčić-Ipšić, Sanda; Ipšić, Ivo.Overview of a Croatian Weather Domain Spoken Dialogue System Prototype // Proceedings of the ITI 2010 pp.103-108.

Martinčić-Ipšić, Sanda; Ribarić, Slobodan; Ipšić, Ivo.Acoustic Modelling for Croatian Speech Recognition and Synthesis. // Informatica. 19 (2008) , 2; 227-254

Sanda, Martinčić - Ipšić; Ivo, Ipšić.Croatian HMM-based Speech Synthesis. // Journal of Computing and Information Technology, CIT. 14 (2006) , 4; pp.307-313.

Meštrović, Ana; Martiničić-Ipšić, Sanda; Ipšić, Ivo.Semantic Analysis in F-logic // Semantic Representation of Spoken Language 2007 / Plá, Manuel A ; Declerck, Thierry (ur.).Salamanca : DFKI, 2007. pp.59-66.

Martinčić-Ipšić, Sanda; Ipšić, Ivo. Recognition of Croatian Broadcast SpeechMIPRO 2004. 111-114.

Martinčić-Ipšić, Sanda; Ipšić, Ivo.Croatian Telephone Speech Recognition IPRO 2006,. 182-186

29

http://bib.irb.hr/prikazi-rad?&rad=524866






















































































SMM (HMM) sinteza učenje akustičkog modela izvodi se

jednako kao pri sustavu za raspoznavanje kontekstno neovisni (monofonski) i kontekstno ovisni (trifonski) akustički SMM-i

– uče se na govoru predstavljenom vektorima značajki

30

1 32 4 5

outputvector

x1 x2 x3 x4 x5

a12 a23 a34 a45

a22 a33 a44

b2(x1) b2(x2) b4(x5)b4(x4)b3(x3)

hmonophone h hakustički model za glas /h/

Raspoznavanje govorastatistički pristup raspoznavanju govora: formalizam skrivenih

Markovljevih modela (SMM-a)

X=(X1,X2,..,Xn) niz akustičnih opažanja ili niz vektora značajki govornoga signala, W=(W1,W2,..,Wm) niz raspoznatih riječi,

P(X|W) vjerojatnost akustičnog događaja pri raspoznatom nizu riječi W, P(X) vjerojatnost akustičnog opažanja i P(W) vjerojatnost izlaznog niza raspoznatih riječi

raspoznavanje govora pomoću SMM-a: maksimum produkta vjerojatnosti akustičnog modela P(X|W) i vjerojatnosti jezičnoga modela P(W)

31

)()|(maxarg)(

)()|(maxarg)|(maxarg WPWXPXP

WPWXPXWPWwww

Izgradnja sustava

raspoznavanje hrvatskoga govorasinteza hrvatskoga govora

32

Izgradnja sustava za raspoznavanje

određivanje značajki govornoga signala

izgradnja akustičkog modela

učenje kontekstno neovisnih modela

učenje kontekstno ovisnih modela

izgradnja jezičnog modela

bigrami

33

VEPRAD korpus

RASPOZNAVANJE

PARAMETRIZACIJAGOVORA

govorni signal

ve kto r zna ča jk iMF C C ,, 2

transkripcije

MONOFONSKISM M

( je dn o lika se gme nta cija )

MONOFONSKISM M

proc jenaparametara

T RIFONSKISM M

proc jenaparametara

a u to matskise gmen tiran e

la be le

F o ne tsk irje čn ik

p o ve ća n jeb ro ja

G a usso vskihmje ša vin a

mo n ofo n sk iSMM

VEZIVANJEST ANJAF o n e tska

prav ila

VEZANI T RIFO NSKISM M

proc jenaparametara

fon e tskastab la

p o ve ća n jeb ro ja

G a usso vskihmje ša vin a

tr ifo n sk iSMM

AKUSTI

ČKI

MODEL

STATISTIČKIJEZIČNI MODEL

b ig ramskije zičn imod e l

JEZI

ČNI

MODEL

raspoznatgovor

labele

govor

PARAMETRIZACIJAGOVORA

tekst

trifonski SMM bigramskijezični model

sustavza raspoznavanjegovora

mo n ofo nskela be le

tr ifon skelab e le

. .. .. .

Izgradnja sustava za SMM sintezu

određivanje značajki govornoga signala

učenje akustičnoga modela

kontekstno neovisnog kontekstno ovisnog

generiranje govornoga signala

34

povez ani SMM-i i tra janja prem a teks tu

te kst

ana liz ateks ta

tr ifon sk izap is

g en er ira ng ovo rMLSA

filta r

......

d 1 d 2 d n......F 0 1 F 02 F 0 3 F 0 4 F 0 5 ......... F 0N -3 F 0 N -2 F 0N -1 F 0 N

C 1 C 2 C 3 C 4 C 5 ... .. .... C N-3 C N-2 C N-1 C N

SUSTAV ZA SMM SINTEZU

konteksno ovisni SMM-i

m odel trajanja s tanja SMM-a

.....

.....

T VORBAGO VORA

VEPRAD korpus(odabrani govornik)

govorni signaltranskripcije

Učenje akustičnog modela30 standardnojezičnih fonema hrvatskoga jezika

kod sinteze +6 naglašenih vokala + stanka, udah i izdah kao i svi posebni akustični događaji u govoru

monofonski akustični modeli linearni SMM-i s Gaussovim kontinuiranim funkcijama gustoća

vjerojatnosti, 5/3 stanja automatska segmentacija

trifonski modeli inicijalne vrijednosti svih parametara jednake vrijednostima monofonskih

modela problem oskudnosti govornoga materijala za učenje postupak vezivanja stanja - 83 hrvatskih fonetskih pravila

35

Postupak parametrizacije govornoga signala u sustavima za raspoznavanje i sintezu govora

na govornom signalu izvodi se brza Fourierova transformacija (FFT) čime se dobiva spektar govornoga signala.

Trokutastim mel-frekvencijskim filtrom se iz spektra određuju mel-kepstralni koeficijenti.

logaritmiranjem i diskretnom kosinusnom transformacijom dobivamo vektor MFCC značajki s 39 vrijednosti: prvih 13 MFCC koeficijenata, 13 dinamičnih značajki prvog

() reda i 13 dinamičnih značajki drugog

(2) reda.

36

FFT

FFT spektar

govor

trokutasti f ilter imel-skale

logdiskretnakosinusna

transformac ija13 mel-kepstralnihkoefic ijenata

vektorMFCC

značajki(39 elemenata)

13

13 2

Jezično modeliranje hrvatskoga govora

statistički n-gramski modeli vjerojatnost nastupa pojedine riječi wn ako joj prethodi niz riječi Wn-1

n-gramska vjerojatnost nastupa niza riječi W=w1,w2,..,wn

BIGRAM: vjerojatnost nastupa riječi wi, ako joj je prethodila riječ wi-1 N(wi-1,wi) frekvencija nastupa para riječi N(wi-1) frekvencija nastupa riječi wi-1

37

1 2 1 2 1 3 1 2 1 2 1 1 2 11

( ) ( , ,.., ) ( ) ( | ) ( | , ).. ( | , ,.., ) ( | , ,.., )n

n n n i ii

P W P w w w P w P w w P w w w P w w w w P w w w w

11

1

( , )( | )

( )i i

i ii

N w wP w w

N w

11

, 0( , )

( ) ( ), 0r

i ii i

d r rN w w

w P w r

UNIGRAM

BIGRAM

w i-1 w i

w j (w i-1)

(w j) P(w i)

P(w i|w i-1)

bigramska vjerojatnost

unigramska vjerojatnostglađenje bigramske vjerojatnosti unigramskom

Učenje kontekstno ovisnih modela

svaki trifon modeliran jednim linearnim SMM-om 5/3

stanja Gaussovim kontinuiranim

funkcijama gustoća vjerojatnosti inicijalne vrijednosti svih

parametara jednake vrijednostima monofonskih modela 1 iteracijom Baum-Welcheva

učenja postupak vezivanja stanja

83 hrvatska fonetskih pravila procjena parametara vezanih

stanja modela iteracije Baum-Welcheva učenja

povećava broj Gaussovih mješavina iteracije učenja

38

/h /

o -h + r e-h + a a- h+ m

o -h + r e-h + a a- h+ m

o -h + r e-h + a a- h + m

Postupak raspoznavanja iz trifonskih SMM-a se gradi

modele za sve riječi w1,w2,..,wM iz fonetskog rječnika

trifonski SMM-i riječi povezuju se u mrežu zajedničko početno sp i završno

stanje sk

P(X|wi) akustična vjerojatnost pojedine riječi

P(wi) vjerojatnost jezičnoga modela

raspoznavanje:

39

SMM wM

SMM w3

SMM w2

SMM w1

s 1 (w2 )

s1 (wM ) sk(wM )

s1 (w1 ) sk(w1 )

s 1 (w3 )SPSksk(w3 )

sk(w2 )

P(X|w i)P (w i)Raspoznavanje rijeèi

P(w1)

P(w2)

P(w3)

P(wn)

P(X|w1)

P(X|w2)

P(X|w3)

P(X|wn)

arg max ( | ) ( )i iw

w P X w P w

Evaluacija sustava za raspoznavanje

Točnost raspoznatih riječi (Correctness)

Preciznost raspoznatih riječi (Accuracy)

N ukupan broj riječi u izvornom nizu riječi, D broj pogrešaka nastalih izostavljanjem riječi u raspoznatom nizu riječi, S broj pogrešaka nastalih zamjenama pravilne riječi iz izvornog niza nepravilnom riječi u

raspoznatome nizu riječi te I broj pogrešaka nastalih ubacivanjem nepravilnih riječi u raspoznatome nizu na mjesta

gdje u izvornome nizu nema riječiMjera pogrešno raspoznatih riječi = 1-preciznost(Word Error Rate – WER)

%100

N

SDNT

40

100%N D S IPN

%100

N

IDSWER

Rezultati ASR dijalozi WER trifonskih modela

SpikerWER

1mix 10mix 20mixdm013 13,64 1,75 3,15dm014 10,49 8,39 6,29dm015 12,59 4,55 5,59dm016 3,85 3,85 3,5dm017 13,64 1,05 0,7dz013 13,99 1,75 1,4dz014 21,33 11,54 11,89dz015 6,29 1,75 3,5dz016 18,18 3,15 4,55dz017 10,84 4,9 5,24

UKUPNO 12,48 4,27 4,58

41

Word Error Rate %100

N

IDSWER

Najvažniji alatisustav za raspoznavanje govora

HTK Toolkit ver. 3.4 (The Hidden Markov Model Toolkit)

sustav za sintezu govora HTS ver. 2.2. (The HMM-Based Speech Synthesis

System) alat za analizu i obradu govornog signala

SPTK ver. 3.5. (Speech Signal Processing Toolkit)

42

Izgradnja sustava za SMM sintezu IIvektor značajki govornoga signala 75 vrijednostimonofonski SMM-i

36 fonema (naglašeni i nenaglašeni samoglasnici + samoglasničko /r/) + 4 posebna akustična događaja

trifonski SMM-i 10394 trifona vezivanje stanja pomoću hrvatskih fonetskih pravila (83) iz trajanja svakog stanja SMM-a određen model trajanja fonema omogućeno generiranje parametara za "neviđene" trifone

generiranje govora za vrijeme trajanja svakog stanja se generiraju izlazna opažanja iz generiranih vektora mel-kepstralnih značajki i osnovne frekvencije

upotrebom MLSA filtra se generira govorni signal (model izvor-filtar)

43

Generiranje govornoga signala (SMM sinteza)

ulazni tekst se pretvori u odgovarajući trifonski zapis za svaki od trifona iz ulaznoga teksta povezuju se trifonski SMM-i u

modele riječi i rečenica pomoću modela trajanja izračunava trajanje svakog stanja u

povezanim SMM-ima duljina trajanja utječe na broj izlaznih vektora koji će se generirati iz

toga stanja za vrijeme trajanja svakog stanja se generiraju izlazna opažanja

iz distribucija vjerojatnosti stanja generiraju izlazni vektori mel-kepstralnih značajki govornoga signala i logaritma osnovne frekvencije

izlazni vektori značajki po strukturi odgovaraju ulaznima iz generiranih vektora mel-kepstralnih značajki i osnovne frekvencije

upotrebom MLSA filtra se generira govorni signal (izvor-filtar model)

44

Semantička analiza

45

1 . D o m a in k n o wle dg e de f in it io n

3 . S e m a n tic

co n te x t

d e ter m in a tio n

S e m an ti c D atabas e

S e m an t ic u n it

4 . S e m a n ticu n it sd e f in it io n

S e m an t icco n t e x t

5 . Slo t f i

l ling

6 . Upda t in gm is s in gv a lu e s

TEX T

S e n te n cePa ra g ra ph

2 . t e x t de co m po s it io n

S e m an ti cdic tionar y

S e m an ti cc ate g or i e s

O u tputfr am e s

D o m a in k n o wle dg e in F- lo g ic

Documents

Govorne tehnologije za hrvatski Speech Technologies for Croatian