Skripta o Digitalnoj Obradi Govornog Signala

____________________________D i g i t a l n a o b r a d a g o v o r a

2

2


3

3

Predgovor

Posle više decenija provedenih u laboratorijama, digitalna obrada signala (DSP) je danas postala

sastavni deo raznih tehnologija koje susrećemo u svakodnevnom životu. Slobodno možemo reći da je danas digitalna obrada signala osnova elektrotehnike.

Verovatno zato što je govor najprirodniji način komunikacija između ljudi, obrada govora je

najzanimljivija i najuzbudljivija oblast obrade signala. Mada postoji dosta knjiga koje se bave teorijom i aplikacijama digitalne obrade signala na

srpskom, naša namera je bila da iskustvo, sakupljeno u toku višegodišnjeg rada autora ove knjige u Institutu Mihajlo Pupin u oblasti digitalne obrade govora, prikažemo u ovoj knjizi iz našeg ugla.

Želja autora je da knjiga pomogne studentima koji se prvi put susreću sa digitalnom obradom

govora, a imaju osnovna znanja iz digitalne obrade signala, da lakše i brže savladaju i razumeju teoriju kroz praktične primere. Knjiga je takođe namenjena i svima onima koji se bave digitalnom obradom govora.

Autori se ovom prilikom, posebno zahvaljuju prof. dr Milanu D. Saviću sa Elektrotehničkog

fakulteta u Beogradu na podršci, brojnim savetima i saradnji tokom niza godina.

Autori


4

4


5

5

SADRŽAJ POGLAVLJE 1 7

UVOD U DIGITALNU OBRADU GOVORA 7 1.1. Digitalizacija govornog signala 7 1.2. Osnovni principi sistema za digitalnu obradu govora 10

POGLAVLJE 2 25

OSNOVNE KARAKTERISTIKE GOVORA 25 2.1. Fonemi 28 2.2. Vokalni trakt 29 2.3. Suglasnici i vokali 29

POGLAVLJE 3 33

MODEL VOKALNOG TRAKTA 33 3.1. Formanti i antiformanti 34 3.2. Linearni model vokalnog trakta 36 3.3. Pojednostavljeni linearni model 39 3.4. Vokalni trakt kao akustička cev 40

POGLAVLJE 4 43

PARAMETRI GOVORNOG SIGNALA 43 4.1. Princip kratkovremenske analize 43 4.2. Analiza u vremenskom domenu 45 4.3. Analiza u frekventnom domenu 50 4.4. Izbor prozorske funkcije 53

POGLAVLJE 5 55

PRINCIP LINEARNE PREDIKCIJE (LPC) 55 5.1. Prediktor kao digitalni filtar 56 5.2. Određivanje koeficijenata predikcije 57 5.3. Karakteristike u frekventnom domenu 62 5.4. Primena metode linearne predikcije na govornom signalu 64

POGLAVLJE 6 69

ODREĐIVANJE OSNOVNIH PARAMETARA GOVORNOG SIGNALA 69 6.1. Formantna analiza 69 6.2. Određivanje osnovne učestanosti govora 76 6.3. Određivanje tipa pobude: zvučno/bezvučno 81

POGLAVLJE 7 83

DIGITALNI PRENOS GOVORA 83 7.1. PCM 84 7.2. Poluparametarski vokoderi 86


6

6

7.3. Parametarski postupci 87

POGLAVLJE 8 91

AUTOMATSKO PREPOZNAVANJE GOVORA 91 8.2. Sistem za prepoznavanje govora 93

LITERATURA 95

INDEX 97


7

7

POGLAVLJE 1

UVOD U DIGITALNU OBRADU GOVORA

Novi mediji i savremena digitalna tehnologija su doprineli da su govor, muzika, video, grafika i

kompjuterska animacija dostupni zajedno na računaru i da se njihovim kombinovaljem otvaraju najrazličitije mogućnosti. Interakcija različitih medija u jednom multimedijalnom projektu i stvaranje multimedijalnog korisničkog interfejsa je potreba savremene tehnologije i svakodnevnog života.

O prirodi govornog signala, kao i o različitim postupcima digitalne obrade govornog signala biće

reči u narednim poglavljima.

1.1. Digitalizacija govornog signala

Neka se govorni signal )(tf zameni nizom impulsa )( tnf Δ , koji su na jednakom međusobnom

rastojanju tnt Δ= , a čija je površina proporcionalna analognoj vrednosti signala. Takav postupak se naziva odmeravanje.

Ako je impuls )(ta površine 1, a trajanja τ , odmeravanje signala )(tf se može izraziti kao u

(1.1.1) iskazano u delićima vremena tΔ :

)()()( tntatnfttfn

T Δ−Δ∑ Δ=+∞

−∞= (1.1.1)

Ako važi (1.1.2), onda su )(ta Dirakovi impulsi.


8

8

)()(lim02,1

2,0)( tta

t

tta δ

τττ

τ=

→⎪⎩

⎪⎨⎧

≤

⟩= (1.1.2)

Možemo reći da Dirakovi impulsi 'uzimaju' vrednost signala )(tf u trenucima tnΔ . Zato izraz

(1.1.1) možemo da napišemo i kao:

)()(

)()()()()(

tntttg

tgtftntttftf

n

nT

Δ−∑ Δ=

=Δ−∑ Δ=

∞+

−∞=

+∞

−∞=

δ

δ

(1.1.3)

Znači, odmeravanje se može shvatiti kao proizvod signala )(tf i funkcije )(tg , pri čemu je

)(tg beskonačan red Dirakovih impulsa pomnožen konstantom tΔ . Funkcija )(tg je periodična sa

periodom 0

1f

tT =Δ= , gde je 0f učestanost odmeravanja. Ako se )(tg razvije u Furijeov red, njegov

kompleksni koeficijent nG se računa kao u (1.1.4).

1)(1

)(1

022

2

022

2

=Δ=∫ Δ=

∫=

−

−

−

−

Ttdtett

T

dtetgT

G

tnfjT

T

tnfjT

Tn

π

π

δ (1.1.4)

Pokazuje se naime, da je spektar signala )(tg , “beo” linijski spektar koji ne zavisi od frekventne

komponente 0nf . Furijeov red signala )(tg je dat u (1.1.5).

∑ ∑==∞

∞−=

∞

∞−=n n

tnfjtnfjn eeGtg 0202)( ππ

(1.1.5)

Može se postaviti pitanje, koliko dobro funkcija )(tfT predstavlja funkciju )(tf , odnosno, koliko dobro yamenjujemo analognu funkciju )(tf njenom diskretnom funkcijom )(tfT ?

Kako je:

tfetftfn

tnfjT Δ=∑=

+∞

−∞=1)()( 002π

(1.1.6)

njena Furijeova transformacija je:

dteetffF ftj

n

tnfjT

ππ 202)()( −+∞

−∞=

∞

∞−∑∫= (1.1.7)

Ako sada integral i suma zamene mesta, dobija se:


9

9

dtetffF tnffj

nT

)0(2)()( −−∞

−∞=

∞

∞−∑ ∫= π

(1.1.8)

odnosno:

tfnffFfFn

T Δ=∑ −=∞

−∞=1)()( 00 (1.1.9)

)( fFT predstavlja sumu pojedinih spektara koji su dobijeni pomeranjem originalnog spektra

)( fF u frekventnom domenu za celobrojni umnožak frekvencije 0f . Može se desiti da su pojedini spektri međusobno razdvojeni, a mogu biti i preklopljeni u zavisnosti

od odnosa frekvencije 0f i maksimalne frekvencije B spektra signala )(tf . Ako je Bf 20 > onda su

pojedinačni spektri razdvojeni a ako je Bf 20 < onda se pojedinačni spektri preklapaju, kao što je prikazano na slici 1.1.1. Ako je signal )(tf frekventno ograničen, odnosno ako važi BfB <<− , spektri

signala )(tf i odmeravanog signala )(tfT su identični u opsegu ),( BB− . Iz ovoga proizilazi teorema o

odabiranju (ili odmeravanju) koja kaže da frekvencija odmeravanja signala 0f mora biti bar dvostruko veća od najveće frekvencije u spektru tog signala B, odnosno, treba da važi:

2,2 00 fBfBf gr ≤=≥ grff 20 ≥ (1.1.11)

Posle diskretizacije po vremenu, potrebno je svaku odmerenu vrednost predstaviti digitalno u

obliku binarnog broja. Taj postupak se naziva kvantizacija. Znači, digitalni oblik signala je i vremenski i amplitudski diskretan. Kako je dužina reči binarnog broja ograničena, na primer na 16 bita, uvek je prisutna veća ili manja greška kvantizacije. Greška kvantizacije se javlja kao razlika između stvarne vrednosti i vrednosti koja joj je pridružena kvantizacijom. Greška kvantizacije se ponaša kao šum kvantizacije. Kod linearne kvantizacije se može proceniti koliki je šum kvantizacije, kao:

[ ]dBWPPr w

N

Sq 2log20log20log10 =≅=

gde je SP snaga signala a NP snaga šuma, što se za duže reči svodi na: bitupodBrq 6≅ .

a)

b) c)

Slika 1.1.1. a) spektar originalnog signala b) spektar odmeravanog signala za fo > 2B c) spektar odmeravanog signala za fo < 2B

B

FT(f)

ff0

B

F(f)

f

f0

FT(f)

f


10

10

1.2. Osnovni principi sistema za digitalnu obradu govora Sistem za digitalnu obradu govora a je takav sistem koji na osnovu izmerenih ulaznih signala,

prema nekom algoritmu, uz pomoć utvrđenih računskih operacija, daje odgovarajuće izlazne signale. U našem slučaju ulazni signal je govorni signal. Izlazni signal može biti ponovo govorni signal, kao kod filtriranja ili procesa prenosa, ili neki parametri govora. Analogni ulazni govorni signal )(tf se odmerava, kvantizuje i pretvara u brojne vrednosti )(nx :

)()( tnfnx Δ= (1.2.1)

kojih ima ograničeno mnogo. Uzeta je oznaka )(nx koja je uobičajena kao ulazna veličina za

filtre, mada se može koristiti i oznaka )(ns s obzirom da se radi o govornom signalu. Iz izračunatih vrednosti )(ny , kao izlaznih vrednosti iz sistema za digitalnu obradu govora, pomoću D/A konvertora i NF filtra može se ponovo dobiti vremenski signal )(ny kao što pokazuje slika 1.2.1.

Sistem za digitalnu obradu signala ima svoju prenosnu funkciju H, koja u potpunosti opisuje

postupak dobijanja izlaznih od ulaznih vrednosti. Na slici 1.2.2. je dat jedan digitalni sistem.

[ ] )()( nynxH = Posmatramo samo one sisteme koji su vremenski invarijantni i linearni. Vremenski invarijantni

sistemi su oni sistemi kod kojih funkcija prenosa H ne zavisi od vremena, odnosno važi:

• ako je [ ] )()( nynxH = onda je [ ] )()( snysnxH −=− Linearnost znači da važi:

• [ ] [ ] [ ])()()()( 2121 nxbHnxaHnxbnxaH +=+ (a i b su konstante). Linearni sistemi se mogu opisati linearnim sistemom diferencnih jednačina sa konstantnim

koeficijentima kao što je to slučaj u (1.2.2):

S&H A/D

D/ANF

x(t)

y(t)

x(n)

y(n)

digitalna obrada

Slika 1.2.1. Osnovni princip

digitalne obrade govora (S & H – odmeravanje

signala; A/D, D/A konverzija; NF – niskofrekventni

filtar)

Slika 1.2.2. Digitalni sistem sa prenosnom

f

Hx(n) y(n)


11

11

)(...)()(....)1()( 01 qnxbnxbpnyanyany qp −++=−++−+ (1.2.2)

faktor 10 =a . Podrazumeva se kauzalnost sistema, što znači da se izlazne veličine pojavljuju tek

kada se na ulazu pojave ulazne veličine, a ne pre toga. Diferencna jednačina se može rešiti kao u (1.2.3). Iz izraza se vidi da se radi samo o tri osnovne računske operacije. To su sabiranje, množenje konstantom i pomeranje u vremenu, što je šematski prikazano na slici 1.2.3.

∑ ∑ −−−== =

q

j

p

iij inyajnxbny

0 1)()()( (1.2.3)

Na sličan način se može predstaviti i diferencna jednačina iz izraza (1.2.2). Na slici 1.2.4. je

prikazana realizacija ove diferencne jednačine.

)()()( 21 nxnxny += )()( nxcny = )1()( −= nxny

Slika 1.2.3 Osnovne računske operacije kod digitalnih sistema

Slika 1.2.4. Realizacija diferencne

jednačine

Δ

Δ

Δ

b0

b1

bq

x(n)

x(n-1)

x(n-2)

x(n-q)

b2

+ +

++

+ +

+

Δ

Δ

Δ

−

++

+

+

y(n)

y(n-1)

y(n-2)

y(n-p)

x1(n)

x2(n)

+

+

y(n)

x(n) y(n)

c

Δx(n) y(n)


12

12

1.2.1 Impulsni odziv linearnog sistema Linearni sistemi se mogu dobro opisati pomoću svog impulsnog odziva. To isto važi i za digitalne

linearne sisteme. Kao što je poznato, impulsni odziv sistema )(nh je odziv sistema na Dirakov impuls )(nδ :

[ ])()( nHnh δ= (1.2.1.1)

Iz teorije odmeravanja je poznato da se odmeravani signal može predstaviti kao suma proizvoda

signala i pomerenih Dirakovih impulsa kao u izrazu (1.2.1.2).

∑ −=∞

−∞=kknkxnx )()()( δ (1.2.1.2)

Ako se u izraz za prenosnu funkciju sistema uvede izraz (1.2.1.2), izlazni signal postaje:

[ ]∑ −=⎥⎦

⎤⎢⎣

⎡∑ −=

∞

−∞=

∞

−∞= kkknHkxknkxHny )()()()()( δδ (1.2.1.3)

Zamenom izraza (1.2.1.1) u (1.2.1.3), izlazni signal postaje:

∑ −=∞

−∞=kknhkxny )()()( (1.2.1.4)

što predstavlja konvoluciju. Znači, izlazni signal predstavlja konvoluciju ulaznog signala i

impulsnog odziva sistema:

)(*)()( nhnxny = (1.2.1.5) Treba imati na umu da digitalni sistem treba da bude kauzalan, odnosno da za impulsni odziv

sistema važi:

0 nnh <= 0)( (1.2.1.6) Za digitalni sistem kažemo da je stabilan, ako za ulazni ograničeni niz vrednosti imamo ograničeni

izlazni niz. Potreban i dovoljan uslov za to je:

∑ ∞<−∞=n

nh )( (1.2.1.7)

Ovaj uslov se naziva i BIBO stabilnost (bounded-input-bounded-output).

Ako pogledamo izraz za diferencnu jednačinu (1.2.3) u slučaju da su svi koeficijenti ia nula, ona se redukuje samo na jednu sumu na desnoj strani znaka jednakosti, tako da važi:

nbnh =)( (1.2.1.8)


13

13

odnosno, impulsni odziv je identičan koeficijentima ib , pa je i dužina impulsnog odziva ograničena na q+1 vrednost. Tada kažemo da se radi o FIR sistemu (finite impulse response). Ako je bar jedan od koeficijenta ia

različit od nule, impulsni odziv sistema može trajati vrlo dugo (neograničeno) jer imamo povratnu spregu pa sistem može da osciluje. U tom slučaju govorimo o IIR sistemu (infinite impulse response).

1.2.2. Z - transformacija

Za analizu linearnih, vremenski invarijantnih sistema koristi se Laplasova transformacija:

∫=∞

∞−

− dtetxpX pt)()( (1.2.2.1)

pri čemu je: ωσ jp += . Ako je 0=σ , radi se o Furijeovoj transformaciji kao specijalnom slučaju

Laplasove transformacije. Laplasova transformacija je kompleksna funkcija koja položajem svojih polova i nula obezbeđuje odgovarajuću stabilnost sistema koji opisuje.

Za digitalne linearne sisteme se može primeniti slična transformacija. To je Z-transformacija, koja

se definiše na sledeći način:

∑=∞

−∞=

−

n

nznxzX )()( (1.2.2.2)

Z je kompleksna i kontinualna promenljiva, mada je )(nx diskretna. Z-transformacija se ne može

posmatrati jednostavno kao diskretna Laplasova transformacija. Ako se uzme da je tpez Δ= , dobija se

Laplasova transformacija za vremenski diskretne sisteme. Za kauzalne sisteme za koje važi (1.2.1.6), izraz (1.2.2.2) postaje jednostavniji i glasi:

∑=∞

=

−

0)()(

n

nznxzX (1.2.2.3)

Kao i kod Furijeove transformacije, Z-transformacija je definisana samo za one vrednosti z za

koje transformacija konvergira. Ako se uzme u obzir Košijev kriterijum koji kaže da jedan red ∑∞

=0nnu

konvergira ako je ispunjen uslov (1.2.2.4), onda za Z-transformaciju treba da važi (1.2.2.5).

∞→

<

n1u nn

1lim

(1.2.2.4)

∞→∞→

<⋅< −−

nn

1znx1znx nnn 111)(lim,)(lim

(1.2.2.5)


14

14

Da bi ovaj kriterijum bio zadovoljen, izraz (1.2.2.2) ćemo podeliti na dve sume od kojih obe treba

da budu ograničene (1.2.2.6). Uvodimo dve granice za svaku sumu, −R i +R kao u (1.2.2.7).

∑+∑=∞

=

−−

−∞=

−

0

1)()()(

n

n

n

n znxznxzX (1.2.2.6)

∞→∞→

−== +−

m nmxRnxR mn

11)(lim1)(lim

(1.2.2.7)

Prvi član u sumi konvergira za +< Rz a drugi za −> Rz . Kako obe granice treba da budu ispunjene za svako z, dobijamo uslov (1.2.2.8) koji treba da bude zadovoljen:

∞<<<< +RzR-0 (1.2.2.8)

Znači, ako imamo ispunjen uslov (1.2.2.8) za neko 0zz = , onda je on ispunjen i za ceo krug

poluprečnika 0z . Za kauzalne sisteme imamo samo granicu −R tako da je oblast konvergencije izvan

kruga poluprečnika −R . U tabeli 1.2.2.1. je dat pregled kriterijuma konvergencije za razne redove.

TABELA 1.2.2.1. Pregled kriterijuma konvergencije

Z-transformacija Oblast

konvergencije

Poluprečnik

konvergencije

Konačan

red

∑==

−2

1)()(

n

nn

nznxzX

∞<< z0

Neograničen

Red

ograničen

sa donje

strane

∑=∞

=

−

1)()(

nn

nznxzX

∞<< zR-

∞→

=−

nnxR n1)(lim

Red

ograničen

sa gornje

strane

∑=−∞=

−2)()(

n

n

nznxzX

+<< Rz0

nnxR

1)(lim1−=

+

Beskonačan

red

∑=∞

−∞=

−

n

nznxzX )()(

+<< RzR-

nnx

R1)(lim1

−=+

∞→

=−

nnxR n1)(lim


15

15

Primer 1. Posmatrajmo signal koji je definisan kao : 01)( >= nzanx . Kao što je poznato

za beskonačni geometrijski red važi: 1uu

un

n <−

=∑∞

= 11

0 . Ovaj red konvergira za 1u < . Ako to

primenimo na naš primer, Z-transformacija signala )(nx postaje:

111)(

)()(

1

0

−=

−=

∑=∑=

−

∞

=

−∞

−∞=

−

zz

zzX

zznxzXn

n

n

n

koja konvergira za 1z > . Ovde su poluprečnici konvergencije: 1=−R i ∞=+R .


16

16

Primer 2. Posmatrajmo niz 0nanx n >=)( . Njegova Z-transformacija je:

∑=∑=∞

=

−−∞

−∞= 0

1)()(n

nn

n

n zazanX ,

odnosno, azz

zza

zX >−

=−

=− 11

1)( 1

a poluprečnici konvergencije su: aR =− i ∞=+R . Kao što se iz dobijenog rezultata vidi, primer 1 je poseban slučaj primera 2.

Primer 3. Neka je dat niz nanx =)( . Poluprečnici konvergencije se mogu izračunati prema kao:

∞→

==−

n

aaR nn1

lim∞→

==−= −+

maamxR m 11

1)(lim1 (1.2.2.9)

Kako su obe granice iste, a kako treba da bude ispunjen uslov (1.2.2.8), može se zaključiti da

ovde nema konvergencije. Primer 4. Neka je dat niz )(nx koji predstavlja jedinični impuls tj. )()( nnx δ= . Njegova Z-

transformacije je 1)( =zX . Oblast konvergencije je celokupna z-ravan. U tabeli 1.2.2.2. su date Z-transformacije i oblast konvergencije za neke nizove.

TABELA 1.2.2.2. Elementarni nizovi i njihove Z-transformacije

kauzalni signal

(x(n)=0 za n<0)

X(z) Oblast

konvergencije

δ(n)=1 za n=0 1

x(n)=1 za n>=0 111

−− z

1z >

na

11

1−− za

az >

nan

21

1

)1( −

−

− zaza

az >

)2sin( tfnΔπ

21

1

)2cos(1)2sin(

−−

−

+Δ−

Δ

zztfztf

ππ

1z >

)2cos( tfnΔπ

21

1

)2cos(1)2cos(1

−−

−

+Δ−

Δ−

zztfztf

ππ

1z >


17

17

Kao i kod Furijeove transformacije i kod Z-transformacije postoje odgovarajuće relacije u odnosu na signal u vremenu. U tabeli 1.2.2.3. su date te relacije.

TABELA 1.2.2.3. Oslovne relacije između signala u vremenskom domenu i njegove Z-

transformacije

signal u vremenskom

domenu

Z-transformcija

)()( 21 nbxnax +

)()( 21 zbXzaX +

)( knx +

)(zXzk

)( nx −

)( 1−zX

∑ −=

N

kknhkx

0)()(

)()( zHzX

)(nxn dz

zdXz )(−

)(nxan

)( 1 zaX −

Za kauzalni sistem Z-transformacija konvergira, ako uopšte konvergira, u oblasti izvan kruga

poluprečnika −R u z-ravni. Od značaja su vremenski ograničeni, kauzalni signali kao u (1.2.2.10):

0,0)()( 212

1>>∑=

=

− nnznxzXn

nn

n (1.2.2.10)

čija Z-transformacija konvergira za svako z za 0,0 21 >> nn , ali ne i za z=0, ako važi :

21)( nnnnx ≤≤∞< . (za n>0, član nz−

za z=0 divergira) Od date Z-transformacije, H(z) može se dobiti odgovarajući niz x(n) pomoću inverzne Z-

transformacije. Ona se definiše preko integrala:

∫= −

C

n dzzzXj

nx 1)(21)(π (1.2.2.11)

pri čemu je C zatvorena kontura u z-ravni u oblasti konvergencije )(zX po kojoj se integrali u

smeru suprotnom kretanju kazaljke na satu. Kako Z-transformaciju koristimo za utvrđivanje ponašanja linearnog digitalnog sistema, inverzna Z-transformacija nam nije od nekog većeg značaja.

1.2.3. Prenosna funkcija sistema H(z)

Linearni, digitalni sistem je potpuno opisan diferencnom jednačinom koju ovde navodimo još

jednom:

∑ ∑ −−−== =

q

j

p

iij inyajnxbny

0 1)()()( (1.2.3.1)


18

18

Ako primenimo Z-transformaciju, dobijamo sledeću relaciju:

∑ ∑−== =

−−q

j

p

i

ii

jj zYzazXzbzY

0 1)()()( (1.2.3.2)

pri čemu je )(zX , Z-transformacija )(nx a )(zY , Z-transformacija )(ny . Ako se ovaj izraz sredi

po )(zY , dobija se:

)(1

)(

1

0 zXza

zbzY

ii

p

i

q

j

jj

−

=

=

−

∑+

∑= (1.2.3.3)

)()()( zXzHzY = (1.2.3.4) Z-transformacija izlaznog niza je proizvod Z-transformacije ulaznog niza i prenosne

funkcije sistema H(z). Prenosna funkcija sistema je funkcija od 1−z i opisuje ponašanje linearnog

sistema:

ii

p

i

q

j

jj

za

zbzH

−

=

=

−

∑+

∑=

1

0

1)( (1.2.3.5)

Treba se samo podsetiti da ako važi izraz (1.2.3.4) u frekventnom domenu, izraz (1.2.3.6) važi u

vremenskom domenu,

)(*)()( nxnhny = (1.2.3.6) odnosno, izlazni niz je konvolucija ulaznog niza i impulsnog odziva sistema, a prenosna

funkcija sistema je Z-transformacija impulsnog odziva sistema. Stabilnost sistema zavisi od položaja polova prenosne funkcije sistema, odnosno nula polinoma u

imeniocu izraza za prenosnu funkciju sistema (1.2.3.5). Kažemo da je sistem stabilan kada se svi polovi prenosne funkcije sistema nalaze unutar jediničnog kruga u z-ravni. Za kauzalan sistem prenosna

funkcija )(zH treba da konvergira u celoj oblasti 1≥z . Kako )(zH ne konvergira u tačkama gde se nalaze polovi, oni moraju da leže unutar jediničnog kruga da bi se garantovala stabilnost sistema. Kako

su koeficijenti ii ba , realni brojevi, polovi i nule prenosne funkcije sistema su ili realni brojevi ili su konjugovano kompleksni parovi.

Ako linearni sistem pobudimo signalom sinusoidalnog oblika, na izlazu imamo odziv sistema koji

je takođe sinusoida iste učestanosti, ali druge amplitude i faze. Posmatrajmo kompleksni ulazni signal )(nx :


19

19

tnnenx nj Δ== Ω)( (1.2.3.7)

čija je frekvencija Ω a perioda π2 . Izlazni signal dobijamo kao konvoluciju ulaznog signala i

impulsnog odziva sistema:

njj

nj

k

kj

knj

k

eezH

eekh

ekhny

ΩΩ

Ω∞

−∞=

Ω−

−Ω∞

−∞=

==

∑=

∑=

)(

)(

)()()(

(1.2.3.8)

Iz izraza (1.2.3.8) se vidi da je i izlazni signal sinusoidalan. Njegova kompleksna amplituda zavisi

od Z-transformacije prenosne funkcije sistema. Kada se uzme da je Ω= jez , izraz (1.2.3.9) predstavlja

frekventnu karakteristiku prenosne funkciije sistema:

)( Ω= jezH (1.2.3.9) Drugim rečima, frekventna karakteristika prenosne funkcije sistema se dobija kada se

izračuna njegova Z-transformacija duž jediničnog kruga 1=z . Naravno, jedinični krug mora da pripada oblasti konvergencije. Izraz (1.2.3.9) se često skraćeno piše )(ΩH . Tako da važi:

∑=Ω∞

−∞=

Ω

n

njenhH )()( (1.2.3.10)

Amplitudska i fazna karakteristika se računaju respektivno kao:

)(Re())(Im(arctan)(

)(

ΩΩ

=Ω

Ω

HH

H

φ

(1.2.3.11)

gde je Ω bezdimenzionalna veličina. To je normirana frekvencija periode π2 koja definiše

kretanje po jediničnom krugu. )(ΩH predstavlja (kompleksnu) Furijeovu transformaciju za vremenski diskretne signale, kontinualna je funkcija i periodična sa periodom π2 . Impulsni odziv se dobija inveznom transformacijom, kao u (1.2.3.12).

Ω∫ Ω= Ω

−deHnh njπ

ππ)(

21)( (1.2.3.12)

Posebno je značajna diskretna Furijeova transformacija. Ako frekventnu karakteristiku računamo

na diskretnim frekvencijama tfkk Δ=Ω π2 , dobijamo diskretnu Furijeovu transformaciju. Ako je


20

20

tf

Δ=

10 , nalazimo se na jediničnom krugu u tački 1=z koja odgovara i svim celobrojnim umnožcima

frekvencije odmeravanja 0f . Tački 1−=z na jediničnom krugu, odgovara frekvencija 20f što predstavlja i maksimalnu frekvenciju koja postoji u signalu (po teoremi o odmeravanju). Deo jediničnog

kruga od 0 do π , odgovara pozitivnim frekvencijama od 0 do 20f , dok deo jediničnog kruga od 0 do π− , odgovara negativnim frekvencijama od 0 do - 20f .

Na osnovu svega navedenog može se zaključiti da je Furijeova transformacija vremenski

diskretnih signala poseban slučaj Z-transformacije. Ako Z-transformaciju posmatramo na jediničnom krugu, dobijamo spektralnu karakteristiku.

Primer

Neka je data prenosna funkcija sistema: 21

21

85.02.1165.08.12)(

−−

−−

+−

++=

zzzzzH . Njoj odgovara sledeća

diferencna jednačina:

)2(65.0)1(8.1)(2)2(85.0)1(2.1)( −+−+=−+−− nxnxnxnynyny . Polove i nule ove prenosne funkcije dobijamo ako izjednačimo imenilac i brojilac sa nulom tj.

065.08.12,085.02.11 2121 =++=+− −−−− zzzz .

Rešenja ovih kvadratnih jednačina su konjugovano kompleksni par polova 7.06.02,1 jz p ±= i

konjugovano kompleksni par nula 35.045.02,01 jz ±−= . Polovi i nule leže unutar jediničnog kruga, pa se može zaključiti da je sistem stabilan. Na slici 1.2.3.1.1. su date amplitudska i fazna karakteristika ovog sistema. Može se zaključiti da se radi o sistemu koji ima karakteristike filtra propusnika opsega.

1.2.4. Diskretna Furijeova transformacija (DFT)

Slika 1.2.3.1. Amplitudska i

fazna karakteristika prenosne funkcije sistema


21

21

Diskretnu Furijeovu transformaciju možemo posmatrati kao poseban slučaj Z-transformacije. Neka je dat vremenski ograničeni, konačan signal:

)1....(0),( −= Nnnx (1.2.4.1)

Njegova frekventna karakteristika se računa kao:

∑=Ω−

=

Ω−1

0)()(

N

n

njenxX (1.2.4.2)

Kako je signal ograničen u vremenu, može se odmeravati u frekventnom domenu. Neka je broj

odmeravanih vrednosti M (pri čemu važi NM ≥ ). Spektar računamo u tačkama fmΔ :

)1....(0,)()(1

0

2 −=∑=−

=

− MmenxmXN

n

Mnmj π (1.2.4.3)

Poseban slučaj nastaje kada je NM = . Tada dobijamo izraz za diskretnu Furijeovu

transformaciju::

)1....(0)()(1

0

2 −=∑=−

=

− NmenxmXN

n

Nnmj π (1.2.4.4)

Ako Z-transformaciju vremenski ograničenog (ili periodičnog) signala računamo u ekvidistantnim

tačkama Nmjez π2= na jediničnom krugu, dobijamo diskretnu Furijeovu transformaciju signala. Znači,

u vremenskom domenu posmatramo signal u trenucima tnΔ , a u frekventnom domenu na

frekvencijama fmΔ , pri čemu važi relacija: Nf

tNf 01

=Δ

=Δ .

Inverzna diskretna Furijeova transformacija (IDFT) se računa kao:

∑=−

=

1

0

2)(1)(N

m

NnmjemXN

nx π (1.2.4.5)

Diskretnom spektru odgovara periodičan vremenski signal i obrnuto, diskretnom vremenskom

signalu odgovara periodičan spektar. Najčešće se u praksi uzima da je N stepen broja 2 i koristi se optimalan, brzi algoritam za

računanje diskretne Furijeove transformacije (FFT- Fast Fourier Transform). Digitalni kratkovremenski spektar ),( nmS govornog signala )(ns je funkcija diskretne frekvencije

( fmΔ ) i diskretnog vremena ( tnΔ ). Neka se signal )(ks množi funkcijom )(kw koja je ograničena na N vrednosti i simetrično je postavljena u odnosu na tačku n . Takvu funkciju nazivamo prozorska funkcija. O njenoj ulozi biće više reči kasnije.

Kao i kod analognog kratkovremenskog spektra i digitalni kratkovremesnki spektar računamo za

svaki trenutak n , kao:


22

22

∑ −−=−=

−=

−12

2

2)1()(),(Nn

Nnk

NkmjeknwksnmS π (1.2.4.6)

U praksi se deo vremenskog signala dužine N i prozorska funkcija memorišu kao vektor, tako da indeks k ide od 0 do 1−N . Kao prozorsku funkciju koristimo pomereni Hamming-ov prozor, pomeren

za 2N vrednosti. Za njega važi:

10)2cos(46.054.0)( −≤≤−= NkNkkw π (1.2.4.7)

Kratkovremenski spektar za vremenski trenutak n označavamo sa )(mSn , pa se izraz (1.2.4.6) može jednostavnije pisati kao:

∑=−

=

−1

0

2)()()(N

k

Nkmjn ekwksmS π

(1.2.4.8)

Primer Neka se vremenski signal odmerava sa 20 kHz (Δt = 50 υs). Neka je prozorska funkcija dužine N

= 256, što odgovara vremenskom intervalu od 12.8 ms. Rezolucija diskretne Furijeove transformacije je:

HztN

f 781=

Δ=Δ . Strogo matematički gledano širina opsega prozorske funkcije mB je:

HztN

Bm 15621

≅Δ

= , dok je stvarna širina: HzBB m 782 == .

1.2.5. Digitalni filtri Linearni, digitalni sistem koji od ulaznog niza )(nx pravi izlazni niz )(ny , naziva se linearni,

digitalni filtar. Digitalni filtar se može realizovati hardverski i softverski. Jedan digitalni filtar je potpuno određen svojom prenosnom funkcijom )(zH . Kao što smo već rekli, prenosna funkcija je definisana kao:

∏ −

∏ −

=∑+

∑=

=

=

−

=

=

−

p

ipi

q

jj

ii

p

i

q

j

jj

zz

zzH

za

zbzH

1

10

0

1

0

)(

)(

1)( (1.2.5.1)

gde je 0H konstanta, a pioj zz , su nule i polovi. Kao što se može videti, koriste se samo tri računske operacije: sabiranje, množenje i pomeranje. Pomeraju u vremenu za jedan vremenski interval

tΔ odgovara množenje sa 1−z kod Z-transformacije. Ako u vremenskom domenu imamo )1( −nx ,

njegova Z-transformacija je 1−z )(zH pri čemu je )(zH Z-transformacija od )(nx . Umesto bloka za

pomeranje u vremenskom domenu koristimo blok sa oznakom 1−z i tako dobijamo tzv. direktnu formu

digitalnog filtra, kao što pokazuje slika 1.2.5.1.


23

23

Ako prenosna funkcija filtra ima samo koeficijente jb ( piai ...1,0 == ), tada govorimo o transverzalnom filtru. Njegov impulsni odziv je uvek vremenski ograničen (FIR filtar). Prenosna funkcija ima q realnih ili konjugovano kompleksnih nula u z-ravni. Ovakav filtar je uvek stabilan.

Ako prenosna funkcija filtra ima i koeficijente ja ( qjbj ...1,0 == ), tada govorimo o rekurzivnom filtru. Njegov impulsni odziv je uvek vremenski neograničen (IIR filtar) a prenosna funkcija ima oblik kao u (1.2.5.2). Ovakav rekurzivni filtar p-tog reda ima p realnih ili konjugovano kompleksnih polova u z-ravni. Osim tačke 0=z gde funkcija ima nulu p-tog reda, ona nema drugih nula. Da bi ovakav filtar bio stabilan njegovi polovi moraju da leže unutar jediničnog kruga.

1)( 0

0

0

0

0 =∑

=∑

=

=−

=

−a

za

zb

za

bzH p

i

iip

p

p

i

ii

(1.2.5.2)

Ako filtar ima i jedne i druge koeficijente, radi se o mešovito-rekurzivnom filtru koji ima i nule i

polove a stabilan je ako mu polovi leže unutar jediničnog kruga u z-ravni. Direktna forma digitalnog filtra

se može malo preurediti tako da sadrži minimalan broj članova 1−z . Tako dobijamo kanonsku formu

filtra, prikazanu na slici 1.2.5.2.

x(n)

b1

b2

bq-1

bq

y(n)+

++

+b0

. . .

-ap-1

. . .

++

++

z-1

z-1

z-1

-a2

-a1

z-1

z-1

. . .

z-1

-ap

. . .

z-1

b2

-a1

++

-ap-1

b0

+

z-1

bq

bq-1

-ap

. . .

++

x(n)

. . .

. . .

+

-a2

b1

+

y(n)

z-1

+

Slika 1.2.5.1. Direktna forma digitalnog filtra

Slika 1.2.5.2. Kanonska forma

digitalnog filtra


24

24

Ovakva forma nam olakšava da se softverski proračuna ovakav filtar jer sadrži minimalan broj pomeranja i sabirače sa dva člana. Moguće su i druge varijante kod kojih imamo smanjeni broj sabirača ali oni sabiraju po tri člana.


25

25

POGLAVLJE 2

OSNOVNE KARAKTERISTIKE GOVORA

Govor sigurno predstavlja najznačajnije sredstvo komunikacija između ljudi. Govorni signal nosi

informaciju koja se prenosi od onoga ko priča ka onome ko sluša, preko različitih nivoa. Tabela 2.1. prikazuje te nivoe informacija.

Kada govorimo o obradi govornog signala, podrazumevamo sve nivoe informacija govornog

signala, a akustičko-fonetski nivo smatramo najvišim. Za razliku od pisanog teksta, gde imamo niz slova, znači precizno poređanih diskretnih elemenata azbuke, kod izgovorenih reči to nije slučaj jer pri izgovoru susedne elementarne celine – fonemi, utiču jedan na drugog i najčešće je veoma teško naći granicu gde se jedan završava a gde drugi počinje. Glavna informacija je sadržana u prelazima sa jednog na drugi fonem, tako da su ovi prelazi jako značajni sa stanovišta akustičkog prenosa informacija. Tu ustvari i leži glavni problem kod prepoznavanja govora - kako pridružiti niz akustičkih događaja, koji se javljaju pri izgovoru, nizu fonema. Jedna od značajnih karakteristika akustičkog signala je veliki protok informacija, koji je prikazan u tabeli 2.2.

Kada govorimo o obradi govornog signala tada podrazumevamo sve postupke koji kao ulazni ili

kao izlazni parametar imaju govorni signal. U zavisnosti od toga koji se sve nivoi informacija, prikazani u tabeli 2.1, obuhvataju primenjenim postupcima obrade, govorimo o analizi, sintezi ili prenosu govora. Svaki nivo informacija se može predstaviti određenim skupom parametara. Ako idemo sa nižeg ka višem nivou informacija uvek imamo redukciju podataka koji se obrađuju. Svi oni postupci nad govornim signalom, takvi da se ide ka višim nivoima informacija, pripadaju oblasti koja se zove analiza govora. Ako su postupci takvi da se sa viših nivoa informacija ide ka samom govornom signalu, onda govorimo o oblasti koja se zove sinteza govora. Ako je govorni signal i početak i kraj postupaka obrade, radi se o oblasti koju nazivamo prenos govora.


26

26

TABELA 2.1. Nivoi informacija govornog signala

nivo informacija predstavnik

akustički govorni signal

parametarski parametri vokalnog trakta

akustičko-fonetski foni i druge fonetske jedinice

fonetski fonemi, slogovi, poluslogovi…

leksički morfeme ili reči

sintaksni grupe reči, rečenice

semantički sadržaj ili značenje iskaza

pragmatički tematika nekog iskaza (kontekst)

prozodijski naglasak, promena osnovne učestanosti

pojedinačna

obeležja

boja glasa, dijalekt, stil govora pojedinog

govornika… Najznačajnije primene digitalne obrade govornog signala su:

• prenos govora. Postupci se sastoje u tome da se njima obezbedi neoštećeni prenos govora od predajnika do prijemnika. Jedan od značajnijih postupaka, koji se primenjuju pri prenosu je kodovanje govora. Cilj kodovanja je da se govor prenese sa što je moguće nižim bitskim protokom, pogodnim izborom parametara govornog signala i njihovim kodovanjem, i što boljim ostvarenim kvalitetom govora. Ta dva zahteva su međusobno suprotna. Za bolji kvalitet govora koristi se kvantizacija sa više nivoa (kodovanje sa više bita). Za ograničeni propusni opseg kanala potrebno je kodovati sa što je moguće manje bita.

• skladištenje - memorisanje govornog signala. Ukoliko je potrebno da se što više govora smesti na disk računara, potrebno je voditi računa o tome da on zauzme što je moguće manje memorijskog prostora. To se postiže korišćenjem parametara govora i različitim postupcima kodovanja, odnosno kompresije.

• prepoznavanje govora. Postupci se sastoje u tome da računar prepozna šta je izgovoreno odnosno, da prepozna akustičku informaciju koju nosi govorni signal. Ovde je od značaja prepoznati i pretvoriti ono što je izgovoreno u niz reči.

• prepoznavanje i verifikacija govornika. Postupci se sastoje u tome da se pronađe govornik iz baze govornika, koji je izgovorio tekst (prepoznavanje govornika) odnosno, da se utvrdi da je određeni govornik izgovorio tekst (verifikacija govornika). Potrebno je raspolagati specifičnim informacijama karakterističnim za pojedine govornike. Ova oblast je značajna za pristup specifičnim sistemima pomoću tzv. govornog potpisa.


27

27

• sinteza govora. Pod sintezom govora se podrazumeva generisanje govornog signala iz teksta (TtS – text-to-speech). Sintetizovan govor treba da zvuči što prirodnije. Suština postupaka je da se govor sintetiše iz manjih govornih celina odnosno, nije potrebno da se memoriše ceo govorni signal. Sinteza govora je značajna za one aplikacije gde je potrebno da se, kao odgovor na neko pitanje na primer, preko telefonske linije, generiše govorna poruka u sistemima za pružanje informacija (govorni automati).

Pod analizom govornog signala i pod sintezom govora podrazumevamo u užem smislu, sisteme i

algoritme koji prave prelaz sa akustičkog na parametarski nivo i obrnuto. U okviru ovog razmatranja zadržaćemo se na akustičkom, parametarskom i akustičko-fonetskom

nivou. Svaki prelaz sa nižeg na viši nivo informacija, povezan je sa izvesnim gubitkom informacija. Tako je i jedan od osnovnih problema razdvojiti korisne informacije od nebitnih.


28

28

TABELA 2.2. Protok informacija za različite vidove predstavljanja govornog signala

Nivo

protok

(bit / s)

Način predstavljanja

240 000

HiFi – govorni signal

(odmeravanje 20 kHz, 12 bita po odmerku)

64 000 govor telefonskog PCM kvaliteta

(odmeravanje 8 kHz, 8 bita po odmerku)

akustički

8 000 najniža granica za predstavljanje na akustičkom nivou

(sa primenjenim postupcima kodovanja)

parametarski 9 000 parametarska predstava signala dobrog kvalitetom

4 800 parametarska predstava signala dobriog kvaliteta (sa

primenjenim postupcima kodovanja)

2 400 parametarska predstava signala srednjeg kvaliteta

600 donja granica za parametarsku predstavu signala

akustičko-

fonetski

200 -

600

parametarsko-fonetska predstava signala

(fonetski vokoder)

fonetski 20 predstavljanje signala kao niza fonema (30 fonema, 5

bita po fonemu, brzina: 10 glasova u sekundi), bez

ograničenja lingvističke prirode

fonetski i viši

nivoi

10-20 ugrađena informacija koja je potrebna za razumevanje

sa ograničenjima tipa sintaksa, semantika, fonetika

2.1. Fonemi Govor se sastoji iz manjih jezičkih celina koje omogućavaju da se dva različita izraza razlikuju po

značenju. Te celine se nazivaju fonemi. Za jedan jezik, fonem možemo definisati kao celinu koja prilikom zamene nekim drugim fonemom menja značenje izraza u kome se on nalazi. Svaki jezik ima određeni broj sebi specifičnih fonema. Pri izgovoru fonema, govornik ima u neku ruku slobodu da ih izgovori kako hoće. Svaki od mogućih izgovora jednog fonema predstavlja fon, a svi mogući izgovori jednog fonema se nazivaju alofoni.


29

29

2.2. Vokalni trakt Podelu glasova ćemo bolje razumeti ako posmatramo strukturu čovekovog vokalnog trakta. Kao

što je poznato, vazdušni talas proizveden iz pluća se kreće kroz dušnik, grlo i kroz usnu duplju, a za neke glasove paralelno i kroz nosnu šupljinu. U grkljanu se stvara pobuda za deo koji sledi i koji nazivamo vokalni trakt. Tu se kažemo, formira govorni signal.

Razlikujemo tri različite pobude za nastanak govornog signala:

• zvučna pobuda. Glasne žice periodično trepere. Frekvencija treperenja se naziva osnovna frekvencija. Zvučni glasovi su vokali i pojedini suglasnici.

• bezvučna pobuda. Vazduh struji i u usnoj šupljini nastaje pobudni signal koji podseća na šum. Javlja se turbulentno strujanje vazduha. Bezvučni glasovi su suglasnici, kao na primer: š, s, h, f.

• prelazna pobuda. Vazduh u usnoj duplji nailazi na prepreku koja nastaje naglim otvaranjem usta, kao što je slučaj pri izgovoru ploziva: p ili b.

2.3. Suglasnici i vokali Fonemi se dele na vokale (samoglasnike) i suglasnike. Vokali su zvučni glasovi i izgovaraju se sa

manje ili više otvorenim vokalnim traktom. U srpskom jeziku imamo pet vokala: a, e, i, o, u. Pojedini delovi vokalnog trakta su odgovorni za izgovor određenih suglasnika. Suglasnik može nastati pobudom glasnih žica, ali i ne mora. U zavisnosti od toga, sve suglasnike delimo na zvučne i bezvučne. Suglasnici se mogu podeliti po načinu i mestu izgovora. Način izgovora pokazuje kako se ponaša vazdušni talas pri izgovoru tog suglasnika. Mesto izgovora pokazuje koji su organi, odnosno delovi vokalnog trakta odgovorni za nastanak suglasnika. U tabeli 2.3.1. je dat pregled suglasnika srpskog jezika po vrsti pobude. U tabeli 2.3.2 je dat pregled suglasnika po mestu izgovora. U srpskom jeziku ima 25 suglasnika.

TABELA 2.3.1. Podela suglasnika po vrsti pobude

Zvučni bezvučni

eksplozivni, praskavi ili

plozivi

b, d, g p. t, k

frikativi ili strujni z, ž s, š, f, h

afrikate ili sliveni dž, đ č, ć, c

sonanti j, r, l, lj, v, m, n , nj


30

30

TABELA 2.3.2. Podela suglasnika po mestu izgovora

p o m e s t u n a s t a n k a

bilabijalni – usneni p, b, m

labiodentalni - usnenozubni f, v

dentalni – zubni c, d, t, s, z

alveolarni – nadzubni r, l, n

palatalni – prednjenepčani č, dž, ć, đ, j, lj, nj, š, ž

velarni – zadnjenepčani k, g, h

nazalni – nosni n, m, nj Na slikama koje slede dati su vremenski oblici govornog signla jednog govornika. Na slici 2.3.1 je

prikazan vremenski oblik vokal /a/ u vremenu. Na x-osi je redni broj odmerka, a na y-osi je relativni nivo u odnosu na maksimalnu amplitudu u celoj rečenici iz koje je izdvojen deo prikazan na slici. Sa slike se može uočiti periodičnost signala, koja je karakteristična za zvučne glasove. Na slici 2.3.2 je prikazan vremenski oblik ploziva /p/ u reči. Plozivi ili praskavi glasovi su i dobili ime po vremenskom obliku signala, nastaju kao prasak, odjednom. Na slici 2.3.3 je prikazan vremenski oblik govornog signala pri prelazu sa suglasnika /p/ na vokal /e/. Sa slike se može uočiti prelaz na stacionarni deo koji predstavlja vokal. Slika 2.3.4 prikazuje prelaz bezvučno /s/ - zvučno /a/. Na slici 2.3.5 je prikazan vremenski oblik govornog signala pri izgovoru reči /pobedio/.

Slika 2.3.1. Vremenski oblik vokala /a/

Slika 2.3.2. Vremenski oblik ploziva /p/


31

31

Slika 2.3.3. Vremenski

oblik signala pri prelazu sa ploziva /p/ na vokal /e/

Slika 2.3.5. Vremenski oblik govornog signala (reč /pobedio/)


oblik govornog signala pri prelazu sa suglasnika /s/ na vokal /a/


32

32

Postoji velika varijabilnost (promenljivost) istih fonema u govoru različitih, ali i istih govornika (ili

kažemo, subjekata). To je i najveći problem u prepoznavanju govora. Kao ilustraciju pomenute varijabilnosti, posmatrajmo vremenski oblik govornog signala dva subjekta (muškog i ženskog) koji su izgovorili vokal /i/. Na slikama 2.3.6 i 2.3.7 su prikazani vremenski oblici izdvojenog vokala /i/ u reči muškog i ženskog govornika respektivno, kao i njihove spektralne karakteristike (sonagrami) o kojima će biti više reči kasnije. Sa gornjih slika se vidi da su oba signala periodična sa različitim periodama koje odgovaraju različitim osnovnim učestanostima muškog i ženskog govornika. Na donjim slikama, gde su prikazani sonagrami, mesta koja su više zatamnjena ukazuju na one frekvencije sa većom spektralnom energijom.


oblik izdvojenog vokala /i/ muškog govornika (gornja slika)

• Sonagram signala sa gornje slike (donja slika)

Slika 2.3.7. Vremenski oblik

izdvojenog vokala /i/ ženskog govornika (gornja slika)

• Sonagram signala sa gornje slike (donja slika)


33

33

POGLAVLJE 3

MODEL VOKALNOG TRAKTA Govorni signal je nosilac akustičke informacije odnosno, onoga šta je izgovoreno i šta se prenosi

od govornika do slušaoca. Teško je napraviti jednostavan, a sveobuhvatan model vokalnog trakta jer bi on bio veoma složen. Ipak, u praksi se koriste različiti modeli koji samo u određenoj meri opisuju vokalni trakt. Oni služe da, uglavnom, pojasne mehanizam nastanka govora. Svojim kvalitetom i jednostavnošću, izdvojili su se linearni modeli.

Kako govor nastaje možemo sebi predstaviti koristeći sliku 3.1. Vazdušna struja koja nastaje iz

pluća transformiše se uz pomoć glasnih žica u vazdušne impulse. Takav signal služi kao pobuda za vokalni trakt se sastoji iz grla i usne duplje kojoj je paraleno postavljena nosna šupljina, odgovorna za izgovor nazala (m, n ili nj). Vokalni trakt i nosna šupljina se mogu posmatrati kao jedan selektivan prenosni sistem. Govor se emituje sa usana, otvaranjem usta, ili preko nosne šupljine.

Za početak možemo posmatrati vokalni trakt samo kao provodnik vazdušne struje. Može se reći

da je on pasivan sistem jer osim na jednom mestu gde je koncentrisana pobuda (treperenje glasnih žica ili turbulencija vazdušne struje na jednom mestu), ni jedno drugo mesto ne generiše govorni signal. Takođe se može smatrati da su zanemarljivi gubici usled trenja, toplote ili turbulencije vazdušnog talasa. Talasna dužina akustičkog signala je velika u odnosu na poprečni presek vokalnog trakta tako da su od značaja samo oscilacije u pravcu kretanja vazdušne struje, uzdužno. Takođe se može reći da su promene oblika vokalnog trakta spore u poređenju sa frekvencijom treperenja glasnih žica. Smatra se da se vokalni trakt ne menja brzo u toku vremena, što sigurno i važi za kraće vremenske intervale. Šta više, može se smatrati da se u toku vrlo kratkih vremenskih intervala ne menjaju parametri vokalnog trakta u opšte.

Ako posmatramo vokalni trakt kao jedan linearni model, zadovoljene su predpostavke:

• pobuda se generiše preko glasnih žica čiji je poprečni presek manji od poprečnog preseka vokalnog trakta,

• emitovanje govora se vrši prostiranjem vazdušne struje kroz otvor između usana u slobodan prostor,


34

34

• posmatrano preko analogija sa elektromehaničkim sistemima, može se reći da je vokalni trakt linearan sistem koji ima veliku ulaznu impedansu, a na izlazu je kratko spojen.

3.1. Formanti i antiformanti

U neutralnom položaju, vokalni trakt se može aproksimirati jednom akustičkom cevi kao što je

prikazano na slici 3.1.1. U gornjem delu slike je označena nosna šupljina, levo je glotis a desno su usni otvor i nos. Za početak ćemo zanemariti nosnu šupljinu. Ako posmatramo cev dužine L, koja je na jednom kraju zatvorena, onda su rezonantne frekvencije ove akustičke cevi date sledećim izrazom (c=340m/s):

...3,2,14

)12(=

−= n

Lcnfn

nosna šupljina

jezik

glasne žice

pluća

Slika 3.1. Kako nastaje govor


35

35

Vokalni trakt se može i aproksimirati ovakvom cevi dužine L. Obično je kod muškaraca u proseku L=17cm, pa se za rezonantne frekvencije dobija sledeći izraz:

[ ] ...3,2,1500)12( =−= nHznfn (3.1.1)

odnosno, rezonantne frekvencije su neparni umnošci učestanosti od 500 Hz, tj. nalaze se na 500

Hz, 1500 Hz, 2500 Hz itd. Ove frekvencije se zovu formanti ili formantne frekvencije. Pri izgovoru se menja položaj vokalnog trakta, tako da se i formantne frekvencije u izvesnoj meri pomeraju i karakteristične su za svaki vokal.

Obično se posmatraju samo prva tri formanta. Veoma retko se posmatraju i viši formanti. Smatra se da glasne žice ne trepere višom učestanošću od 5 kHz, pa je energija pobudnog signala u oblasti viših učestanosti zanemarljiva.

Uobičajeno je da se vokali predstavljaju preko svoje formantne karte čije su ose prva dva

formanta. Na slici 3.1.2. je prikazana formantna karta za vokale srpskog jezika.

Slika 3.1.1. Pojednostavljeni model vokalnog

trakta u neutralnom položaju

Slika 3.1.2 Formantna karta vokala srpskog jezika

F2[kHz]

F1[kHz]

1.00.5

0.5

1.0

1.5

2.0

:o:

:a:

2.5

:i: :e:

:u:

17 cm

8.5 cm

13 cm


36

36

Pri izgovoru nazala /n/, /m/ ili /nj/, vazdušna struje se kreće kroz nosnu šupljinu. Kako se na oblik nosne šupljine pri izgovoru ne može uticati, može se smatrati da usna duplja utiče na izgovor ovih suglasnika načinom na koji se vrši njeno otvaranje. Tada govorimo o nulama prenosne funkcije vokalnog trakta, odnosno o pojavi antiformanata. U tabeli 3.1. je dat pregled antiformantnih učestanosti nazala.

TABELA 3.1. Položaj antiformantnih učestanosti nazala

nazal antiformant (Hz)

m 750… 1250

n 1450 … 2200

nj > 3000 Slična je situacija pri izgovoru frikativa. Kako se smatra da je kod njih pobuda negde na sredini

vokalnog trakta jer jezik pravi suženje u odgovarajućem delu usne duplje, vazdušna struja se kreće od tog mesta ili napred, ka usnama, ili nazad, ka glotisu. Tada nastaju takođe antiformanti, tj. nule prenosne funkcije vokalnog trakta.

Pošli smo od predpostavke da nema gubitaka u vokalnom traktu. Međutim, treba navesti da gubici

postoje i to: pri pobudi glotisa, pri oscilovanju zidova vokalnog trakta, kao i pri emitovanju onoga što se izgovara, zbog toga što se izvesna količina energije gubi, mada se podrazumeva da se emitovanje obavlja trenutno. Svi ovi gubici se mogu analizirati i posmatranjem učestanosti formanata jer dolazi do njihovog pomeranja. Na učestanosti nižih formanata utiče trenje, oscilovanje zidova vokalnog trakta, zagrevanje, dok na učestanosti viših formanata utiče emitovanje onog što se izgovara.

3.2. Linearni model vokalnog trakta Prvo ćemo posmatrati proces nastanka zvučnih glasova. Pobudni signal koji potiče od glasnih

žica možemo posmatrati kao povorku trougaonih, periodičnih impulsa koji su prikazani na slika 3.2.1 (gore). Na slici 3.2.1 (dole) prikazana je njena spektralna karakteristika. Kako je govorni signal periodičan signal, njegov spektar je linijski a rastojanje spektralnih linija odgovara osnovnoj frekvenciji govora :

00

1T

f = (3.2.1)

pri čemu je 0T osnovna perioda govora, odnosno rastojanje pobudnih trougaonih impulsa u vremenskom domenu. Na slici 3.2.1 osnovna perioda je 5 ms.

Osnovna frekvencija je specifična za svakog govornika i nalazi se u opsegu od 80 do 350 Hz. Kod

muških govornika ona je niža. Može da bude i niža od 80 Hz kod onih koji puše i imaju hrapav glas, dok je kod ženskih govornika viša i približava se gornjoj navedenoj granici. Sa slike 3.2.1 se može potvrditi relacija (3.2.1), ako se posmatra rastojanje impulsa u vremenskom domenu (slika gore) i rastojanje maksimuma u spektru na spektralnoj karakteristici (slika dole). Sa slike (dole) se može odrediti osnovna frekvencija, koja iznosi 200 Hz.


37

37

Spektralna karakteristika govora opada sa 12 dB po oktavi zbog trougaonog oblika vremenskog

pobudnog signala. Kako se ceo vokalni trakt može posmatrati kao sistem koji ima jako veliku ulaznu impedansu, a izlaznu impedansu nula, odnosno, kratko je spojen, može se reći da u sistemu nema povratne sprege. To znači da se ceo sistem može predstaviti kao kaskadna veza pojedinih delova sistema, što takođe znači da pojedinačne prenosne funkcije treba pomnožiti da bi se dobila ukupna prenosna karakteristika.

Slika 3.2.1. Oblik ppobudnog signala za zzvučnu pobudu i njegov sspektar

Slika 3.2.2. Prenosna funkcija vokalnog trakta (gore) i spektralna karakteristika signala na izlazu


38

38

Da se vokalni trakt može posmatrati kao linearni sistem pokazuju slike koje slede. Ako podrazumevamo da pobudni signal i njegov spektar izgledaju kao na slici 3.2.1, a da je na slici 3.2.2 (gornja slika) prikazana prenosna funkcija vokalnog trakta, onda spektar izlaznog signala izgleda kao na slici 3.2.2 (donja slika).

Možda je još uočljivija ta linearnost sa slike 3.2.3. Na gornjoj slici je pobudni signal, na slici u

sredini je prenosna funkcija vokalnog trakta, dok je na slici na dnu prikazana spektralna karakteristika signala na izlazu.

Poželjno je, ako je moguće, razdvojiti vremenski promenljive od vremenski nepromenljivih delova

sistema. Proces emitovanja onog što je izgovoreno možemo da prikažemo preko vremenski

nepromenljivog člana )( fR pri čemu imamo povećanje energije emitovanja od 6 dB po oktavi ka višim frekvencijama. Vokalni trakt je vremenski promenljiv i njegovu prenosnu karakteristiku predstavlja

)( fH . Izvor zvučnih glasova možemo predstaviti kao impulsni generator )( fP koji generiše (Dirakove) impulse na rastojanju koje odgovara osnovnoj frekvenciji govora, što je vremenski promenljivo. Tu imamo i nešto što je približno vremenski nepromenljivo ali je zavisno od govornika a to

je korektivni član )( fSz koji predstavlja korigovanu spektralnu karakeristiku pobudnog signala. Ukupno gledano, prenosna karakteristika vokalnog trakta unosi slabljenje od 6 dB po oktavi.

Na slici 3.2.4. je prikazan linearni model vokalnog trakta za zvučne glasove.

emitovanje R(f)

amplituda

vokalni trakt H(f)

Sz(f)P(f)

Slika 3.2.4. Linearni model

za generisanje zvučnih glasova

Slika 3.2.3. Pobudni signal (zvučna pobuda), prenosna funkcija vokalnog trakta i spektar izlaznog signala


39

39

Ovaj model se može proširiti i za slučaj generisanja bezvučnih i prelaznih glasova. Pobuda za

bezvučne glasove se može aproksimirati jednim standardnim izvorom belog šuma )( fN sa korektivnim

faktorom )( fSbz određene amplitude. Tada dobijamo uopšteni linearni model za generisanje govora, kao na slici 3.2.5.

3.3. Pojednostavljeni linearni model Neke od komponenata sa slike 3.2.5. se mogu združiti. Slika 3.3.1. prikazuje pojednostavljeni

model kod koga su sjedinjeni blokovi koji predstavljaju faktor korekcije za zvučnu pobudu )( fSz i faktor )( fR koji se odnosi na proces emitovanja pri izgovoru, u zajednički faktor )( fG .

Množenje amplitudom A je ostavljeno na kraju. Tip pobude, da li je zvučna ili bezvučna se bira

pomoću prekidača. Tri parametra se ovde mogu podešavati. To su rastojanje između impulsa zvučne

pobude 0T , koje definiše osnovnu frekvenciju govora, prenosna funkcija vokalnog trakta )( fH i amplituda A .

P(f)

+

sumN(f)

vokalni trakt H(f)

amplituda A

G(f)

p o b u d a v o k a l n i t r a k t

Slika 3.2.5. Uopšteni model za generisanje govora

amplituda

Sz(f)P(f)

+

sumN(f) Sbz(f)

amplituda

vokalni trakt H(f)

emitovanje R(f)

Slika 3.3.1 Pojednostavljeni linearni model za generisanje govora


40

40

S obzirom na to da je u faktoru )( fG sadržan i faktor korekcije za zvučnu pobudu )( fSz i faktor )( fR koji se odnosi na proces emitovanja pri izgovoru, treba razmotriti odnos )(/)( fSfS zbz za

određenu prenosnu funkciju vokalnog trakta )( fH . To je utoliko potrebnije jer se pri bezvučnim glasovima pobuda i prenosna funkcija vokalnog trakta fizički ne mogu razdvojiti. Ovakav model je samo pojednostavljeni model i za neku detaljniju analizu on ne bi bio pogodan. Međutim, sasvim je dobar za postupke ekstrakcije parametara govora u sistemima za prenos i prepoznavanje govora.

3.4. Vokalni trakt kao akustička cev Kao model vokalnog trakta često se uzima akustička cev koja na pojedinim svojim mestima ima

različite poprečne preseke u zavisnosti od toga koji se glas trenutno izgovora [4]. Možemo da zamislimo prstenove istih debljina, različitih poluprečnika koji su nalepljeni jedan na drugi tako da formiraju akustičku cev čija dužina odgovara prosečnoj dužini vokalnog trakta. Na slici 3.4.1. je prikazan presek kroz akustičku cev normalan na osnovnu osu.

Ako se sistem, čija je prenosna karakeristika opisana ovakvim rasporedom različitih poprečnih

preseka, pobudi Dirakovim impulsima dobija se spektralna karakteristika pojedinih vokala. Na slici 3.4.2. je prikazan izgled poprečnog preseka vokalnog trakta pri izgovoru vokala /a/. Na

slici 3.4.3. je prikazana spektralna karakteristika proizvedenog vokala. Na slici 3.4.4. prikazani su spektri vokala /o/ i /i/. Sa slike se mogu videti, pažljivim posmatranjem

obvojnice spektralne karakteristike, položaji formanata (to su maksimumi spektralne karakteristike). Formanti bi bili uočljiviji ako bi se ova spektralna karakteristika uglačala. U narednim poglavljima koristićemo model vokalnog trakta prethodno opisan.

osnovna osa

poluprecnmik

prstena

duzina vokalnog trakta

Slika 3.4.1. Vokalni trakt kao akustička cev

Slika 3.4.2. Poprečni presek

vokalnog trakta pri izgovoru vokala /a/


41

41

Slika 3.4.3. Spektar vokala /a/

Slika 3.4.4. Spektri vokala /i/ i /o/


42

42


43

43

POGLAVLJE 4

PARAMETRI GOVORNOG SIGNALA Kao što smo rekli, određivanje parametara govora spada u oblast koja se naziva analiza govora.

Određeni parametri govornog signala opisuju neka od njegovih karakterističnih svojstava. Najznačajniji su:

• energija govornog signala

• spektralni parametri koji opisuju strukturu spektra govornog signala, odnosno i osobine vokalnog trakta

• osnovna frekvencija govornog signala

• tip pobude: zvučno / bezvučno.

4.1. Princip kratkovremenske analize Govorni signal spada u grupu signala koji se menjaju u vremenu. Zato i parametre govornog

signala koje želimo da koristimo, moramo da posmatramo kao vremenski promenljive. Analiza govora je zato analiza jednog vremenski promenljivog signala. Međutim, u analizi govornog signala obično kažemo da, iako je govorni signal promenljiv u vremenu, njegovi relevantni parametri se menjaju sporije u poređenju sa samim signalom. Vremenski tok nekog od parametara govornog signala posmatramo kao jedan novi signal koji se takođe odmeravati i posmatrati. Frekvencija kojom odmeravamo ovaj signal se naziva frekvencija odmeravanja parametara govornog signala (u engleskoj terminologiji: frame rate), za razliku od frekvencije odmeravanja signala (govornog signala) koja se naziva frekvencija odmeravanja.

Kako se merenje parametara govornog signala vrši u vremenskom trenutku t , potrebno je uvesti i

tekuću promenljivu za vreme τ signala )(τf . Kao što je prikazano na slici 4.1.1 pri kratkovremenskoj


44

44

analizi se govorni signal deli na manje delove. Na tom manjem delu, parametri govorni signal se mogu smatrati stacionarnim, tj. približno vremenski nepromenljivim. To se postiže tako što se govorni signal u vremenskom domenu množi težinskom funkcijom )(τw koja se naziva prozorska funkcija ili prozor. Na slici 4.1.2. je prikazan princip prozorovanja bez i sa preklapanjem. Prozorska funkcija naglašava vrednost signala u okolini vremenskog trenutka t , a istovremeno potiskuje vrednosti koji su daleko od tog vremenskog trenutka. Tako se deo govornog signala u trenutku t može prikazati kao proizvod

)()( ττ −twf (ispravno je i )()( ττ −tfw ). Pojedini delovi, na ovakav način izdvojenog signala, prikazani su na slici 4.1.3. za tri uzastopna vremenska trenutka.

Dužinu prozora T treba tako birati da se željeni parametri mogu pouzdano, tačno meriti, ali i da

se sa dovoljnom tačnošću mogu smatrati konstantnim, vremenski nepromenljivim na tom vremenskom intervalu. Međutim, ova dva zahteva su međusobno suprotna, pa su samim tim i merenja u neku ruku, neprecizna.

Slika 4.1.2. Izdvojeni delovi govornog signala u tri uzastopna vremenska trenutka (sa slike 4.1.1)

Slika 4.1.1. Princip

kratkovremenske analize


45

45

Kod obrade govornog signala uobičajeno je da se parametri govora računaju na intervalu od 5 do

25 ms, a da je dužina prozora T od 20 do 50 ms. Od jednog do drugog prozora možemo da primenimo preklapanje.

U zavisnosti od toga kako se posmatraju vrednosti van prozora, razlikuju se različiti postupci

obrade signala:

• signal koji se množi prozorskom funkcijom posmatra se kao poseban signal. Podrazumeva se da su vrednosti govornog signala van prozora nula. Tako se na ovom signalu mogu primeniti svi postupci koji se i inače primenjuju na stacionarnim signalima.

• signal se u okviru prozora posmatra kao periodičan signal koji se van prozora periodično

ponavlja sa periodom T . Ako se želi veća perioda onda se signal popunjava nulama. Na takav signal se mogu sada primeniti svi postupci koji se primenjuju na periodičnim signalima.

• signal se u okviru prozora posmatra kao isečak jednog vremenski promenljivog signala. Za takav signal je potrebno definisati posebne postupke za vremenski ograničene signale. Vrednosti izvan prozora se ne koriste. Postupci koji se sada primenjuju se nazivaju nestacionarni postupci.

Poseban slučaj nastaje onda kada je perioda T jednaka osnovnoj periodi 0T . U tom slučaju se može iskoristiti prirodna periodičnost govornog signala što je prednost ovakvih metoda i one se nazivaju metode sinhrone sa osnovnom frekvencijom.

4.2. Analiza u vremenskom domenu Jedan od važnijih parametara je energija govornog signala. Energija E signala )(τf se definiše

kao u (4.2.1).

∫=+∞

∞−ττ )d(fЕ 2

(4.2.1)

Slika 4.1.3. Princip prozorovanja bez i sa preklapanjem


46

46

Ako primenimo kratkovremensku analizu, energiju računamo unutar prozora, tako da je i ona funkcija vremena:

][∫=+∞

∞−τττ d-w(t)f(tЕ 2))( (4.2.2)

Kao što se vidi iz izraza (4.2.2), kratkovremenska energija je integral kvadriranog, prozorovanog

govornog signala. Za jedan prozor konačne širine T , granice integrala su od Tt − do t . U praksi se pokazalo da zbog kvadriranja, dobijena vrednost energije pojačava razliku između jako glasnih i jako tihih delova govornog signala. Taj nedostatak se može izbeći, a samim tim i smanjiti potrebna izračunavanja ako se koristi usrednjena amplituda koja se računa kao:

∫=+∞

∞−τττ d-w(t)f(tА ))( (4.2.3)

pri čemu se koristi pravougaoni prozor )(τw , definisan kao:

⎩⎨⎧ =

=,0

,...,0,1)(

Тw

ττ (4.2.4)

Ovde nije potrebno primenjivati komplikovanije prozorske funkcije. Složenije prozorske funkcije se

koriste pri spektralnoj analizi. Na slici 4.2.1. je prikazan a) deo govornog signala u vremenu, b) njegova energija i c) logaritam energije signala.

4.2.1. Broj preseka sa nulom Energija E ne pruža podatke o tome koje frekvencije postoje u signalu. Na osnovu slike 4.2.1b

mogu se videti mesta u govornom signalu koja imaju veću energiju. To su mesta gde postoje zvučni

Slika 4.2.1. a) segment govornog

signala b) njegova energija, c) logaritam energije

signala


47

47

segmenti govora – vokali. Jednu određeniju informaciju o prisustvu pojedinih frekvencija u spektru pruža parametar koji nazivamo broj preseka sa nulom (u engleskoj terminologiji: zero crossing rate).

Ako imamo, na primer, samo jednu sinusoidu, znači, samo jednu frekvenciju, onda postoji

jednostavna veza između broja preseka sa nulom i frekvencije sinusoide. Broj preseka sa nulom je jednak dvostrukoj frekvenciji sinusoide. Za govorni signal, broj preseka sa nulom nije u jednostavnoj vezi sa prisutnim frekventnim komponentama. Broj preseka sa nulom dobija na značaju prilikom utvrđivanja da li je neki segment govornog signala zvučan ili bezvučan. Poznato je da su bezvučne komponente govora na frekvencijama iznad 3 kHz, za razliku od zvučnih delova čije su frekvencije niže. Kada je broj preseka sa nulom veći, radi o bezvučnom segmentu govora i obrnuto, ako je broj preseka sa nulom manji, u pitanju je zvučni segment govora. Za vrednosti između ovih, kaže se da se ne može sa sigurnošću reći da li je segment zvučni ili bezvučni. Zajedno sa energijom signala, broj preseka sa nulom se može iskoristiti kao indikator prelaza govor-pauza.

4.2.2. Autokorelacija, stacionarni i nestacionarni postupci

Jedna od značajnijih veličina govornog signala je svakako autokorelaciona funkcija. Ovde ćemo

posmatrati kratkovremensku autokorelaciju. Autokorelaciona funkcija )(dR je za vremenski neograničene signale definisana kao:

∫ +=∞

∞-d)d)f(f(R(d) τττ (4.2.2.1)

gde je d parametar autokorelacione funkcije. Autokorelaciona funkcija je parna funkcija jer za nju

važi da je )()( dRdR =− . Za vremenski promenljive signale, može se definisati kratkovremenska autokorelaciona funkcija na jedan od dva načina:

1. kratkovremenska autokorelaciona funkcija sa stacionarnim pristupom. Autokorelaciona

funkcija se računa kao:

∫ +=∞

∞-d)d--d)w(tf(-)w(tf(d)R(t, τττττ ) (4.2.2.2)

Ovakva definicija kratkovremenske autokorelacione funkcije odgovara u potpunosti definiciji

autokorelacione funkcije vremenski neograničenih signala. Granice integrala mogu ostati kao u izrazu (4.2.2.2) jer su vrednosti signala van prozora, nula. Kako je autokorelaciona funkcija parna funkcija, potrebno ju je računati samo za pozitivne vrednosti parametra d . Nedostatak ovako definisane funkcije je u tome što, kada parametar d raste sve manji broj vrednosti funkcije utiče na izraz pa kada t teži T (dužini prozora), funkcija teži nuli.

2. kratkovremenska autokorelaciona funkcija sa nestacionarnim pristupom. Autokorelaciona

funkcija se sada definiše na sledeći način:

∫ +=∞

∞-d-d)w(t)f(f(d)R(t, ττττ ) (4.2.2.3)


48

48

Na ovakav način definisana funkcija se može računati za bilo koji parametar d . Ovako definisana ona i nije autokorelaciona funkcija u klasičnom smislu, već više kroskorelaciona funkcija koja povezuje prozorovane sa neprozorovanim delovima signala. U ovom slučaju i ne važi osobina parnosti jer se sada za pozitivne i negativne vrednosti parametra d dobijaju različiti rezultati, odnosno važi:

)()( dRdR −=− . U literaturi se primenjuje uglavnom definicija 1, mada se ponekad sreće i definicija 2. Kako se

dobijaju potpuno različiti rezultati, mora se uvek imati u vidu koja se definicija primenjuje. Autokorelaciona funkcija sa stacionarnim pristupom poseduje neka zanimljiva svojstva. To su:

• autokorelaciona funkcija dostiže svoj maksimum za 0=d . )0(R je isto što i energija posmatranog signala (ili dela signala),

• svakim skaliranjem amplitude, na rezultat se utiče na kvadrat,

• zbog periodične strukture govornog signala, autokorelaciona funkcija se menja samo zbog pomeranja prozora odnosno, autokorelaciona funkcija je relativno neosetljiva na tačni fazni stav prozora,

• autokorelaciona funkcija sadrži u sebi periodičnu strukturu govornog signala pa je za periodične signale i sama autokorelaciona funkcija periodična,

• autokorelaciona funkcija za zvučne glasove pokazuje značajan maksimum na frekvencijama koje odgovaraju umnošcima osnovne frekvencije govora pa se može iskoristiti za određivanje osnovne frekvencije, kao i za utvrđivanje koji su segmenti zvučni a koji bezvučni,

• autokorelaciona funkcija se može iskoristititi i za računanje spektra snage govornog signala.

Slika 4.2.2.1. a) stacionarni segment

govora b) autokorelaciona

funkcija (formula 4.2.2.2) c) autokorelaciona

funkcija (formula 4.2.2.3).


49

49

Na slici 4.2.2.1. su prikazani: a) stacionarni segment govora, b) njegova autokorelaciona funkcija izračunata prema (4.2.2.2) i c) njegova autokorelaciona funkcija izračunata prema (4.2.2.3).

Sa slika 4.2.2.1 i 4.2.2.2 mogu se uočiti različite autokorelacione funkcije u zavisnosti od toga koja

se definicija koristi, što treba imati u vidu pri računanju parametara koji se računaju iz autokorelacione funkcije.

Sa slike 4.2.2.3 se vidi koliko se razlikuju autokorelacione funkcije zvučnog i bezvučnog

segmenta. Kako je zvučni segment 1s periodična funkcija i njegova autokorelaciona funkcija 1r je

Slika 4.2.2.3 Autokorelaciona funkcija zvučnog i bezvučnog segmenta

Slika 4.2.2.2. a) nestacionarni

segment govora b) autokorelaciona

funkcija (formula 4.2.2.2) c) autokorelaciona

funkcija (formula 4.2.2.3)


50

50

periodična funkcija (njegova perioda je jednaka osnovnoj učestanosti govora). Za razliku od toga,

bezvučni segment 2s ima autokorelacionu funkciju 2r koja nije periodična.

4.3. Analiza govora u frekventnom domenu Govorni signal nije stacionaran ali ga na kraćim vremenskim intervalima možemo smatrati

približno stacionarnim. Ako imamo vremenski signal )(τf i prozorsku funkciju )(τw , deo govornog signala izdvajamo tako što ga množimo prozorskom funkcijom i da na tom delu računamo kratkovremenski spektar. Kompleksna kratkovremenska spektralna gustina snage ),( tfF računa se kao u (4.3.1).

τττ τπ d)-w(t)f(t)F(f, f2

-

је−∞

∞∫= (4.3.1)

Kakva je veza kratkovremenskog spektra i ukupnog spektra signala? Ako obe strane izraza

(4.3.1) pomnožimo sa tfје π2, dobijamo:

τττ τππ dе)-w(t)f(еt)F(f, -(tfј

-

tfј )22 ∫=∞

∞ (4.3.2)

Na desnoj strani izraza (4.3.2) imamo konvolucioni integral što znači da se radi o linearnom

sistemu sa impulsnim odzivom tfјеtw π2)( na čijem je ulazu )(tf kao na slici 4.3.1.

)(tf tfјеtwth π2)()( =

tfјеF(f,t) π2

Slika 4.3.1. Linearni sistem

Može se zaključiti da kratkovremenski spektar predstavlja anvelopu kompleksnih oscilacija tfје π2. Za fiksnu frekvenciju f ovaj linearni sistem se ponaša kao filtar propusnik opsega čija je

centralna frekvencija f a anvelopa )(tw . Vremenska funkcija )(tw je impulsni odziv ekvivalentnih niskopropusnih filtara ovih filtara propusnika opsega.

Koja je veza između kratkovremenskog spektra ),( tfF i ukupnog spektra )(vF ? Ako je )(vF

Furijeova transformacija od )(tf a )(vW Furijeova transformacija od )(tw , može se pisati, primenjujući pravila za konvoluciju u vremenskom i frekventnom domenu:

)(tf * )(tw tfје π2

)(vF )( fvW −

odnosno,

),( tfF tfје π2= dvеf)-W(vF(v) tvј

-

π2∫∞

∞ (4.3.3)


51

51

Za fiksnu frekvenciju f , )( fvW − predstavlja prenosnu funkciju filtra propusnika opsega.

)( fvW − za svaku frekvenciju f predstavlja prozor u frekventnom opsegu koji je funkcija promenljive frekvencije v . Ako je )(vP spektar snage signala )(tf , onda za srednju vrednost

spektralne gustine snage 2t)(f,F dobijamo izraz (4.3.4).

2t)(f,F = dvf)-(vWP(v)

-∫∞

∞

2 (4.3.4)

Spektrogram - sonagram Ako spektar govornog signala posmatramo preko spektralne karakteristike vokalnog trakta, može

se primetiti talasalost u spektru koja nastaje usled pobudnih impulsa glasnih žica (zbog osnovne učestanosti). Zbog toga se može desiti da je otežano utvrđivanje položaja maksimuma spektralne karakteristike koji ukazuju na položaj formantnih učestanosti. Ta talasalost u spektru se može smanjiti ako se u analizi koriste filtri propusnici opsega čija je širina oko 300 Hz. Kako je u gornjem primeru širina

propusnog opsega mala, treba svaki diskretni spektar )(mSn malo uobličiti u frekventnom domenu da bi se postigla širina od 300 Hz. Proširenje propusnog opsega se može postići smanjenjem dužine prozorske funkcije u vremenskom domenu. To međutim nije poželjno jer se pri uobičajenom izračunavanju spektra u koraku od 10 ms javlja i određena talasalost u vremenskom domenu.

Na slici 4.3.2. je prikazan kratkovremenski spektar reči /sedam/. Sonagram (spektrogram)

predstavlja dvodimenzionalnu predstavu inteziteta spektra signala u koordinatnom sistemu čije su ose vreme i frekvencija. Na slici 4.3.3. je prikazan spektrogram reči /sedam/. Na slici 4.3.4. prikazan je vremenski oblik izdvojenog vokala /i/ i njegov spektrogram, dok je na slici 4.3.5. prikazano isto to ali za drugog govornika.

Slika 4.3.2. Dvodimenzionalni

prikaz kratkovremenskog spektra reči /sedam/


52

52

Slika 4.3.3. Spektrogram reči

/sedam/


oblik vokala /i/ i njegov spektrogram

(2. govornik)

Slika 4.3.5. Vremenski oblik vokala /i/ i njegov spektrogram (1. govornik)


53

53

4.4. Izbor prozorske funkcije Iz dosadašnjeg izlaganja se sigurno može naslutiti da izbor prozorske funkcije igra značajnu

ulogu. Koja svojstva treba da ima prozorska funkcija? U domenu učestanosti ona treba da bude jako uzana a u vremenskom domenu da brzo opada. Dobar kompromis za ove zahteve predstavljaju prozori čije ivice polako rastu i polako opadaju. Ako posmatramo spektralnu karakteristiku prozorskih funkcija, kao što je prikazano na slici 4.4.1, mogu se uočiti njeni lokalni maksimumi, kojih može da bude više. Od značaja su prvi ili glavni maksimum i druga maksimalna vrednost. Ova, druga maksimalna vrednost u spektru prozorske funkcije je karakteristična za svaku prozorsku funkciju. Pri izboru prozorske funkcije, važno je imati na umu za koje primene se prozor upotrebljava odnosno, da li ova maksimalna vrednost smeta glavnom maksimumu. Kod onih prozorskih funkcija kod kojih je ova vrednost manja, mora se uzeti u obzir da je osnovni maksimum malo razvučeniji, širi. Na slici 4.4.1. su prikazane najčešće korišćene prozorske funkcije i to:

• pravougaoni prozor je opisan analitičkim izrazom:

⎩⎨⎧ +−=

=0

2....2,1)(

ТТттw (4.4.1)

Kod ovog prozora, glavni maksimum zauzima najmanju širinu u odnosu na sve druge prozore.

Zato je međutim, druga maksimalna vrednost relativno velika (drugi maksimum iznosi –16 dB).

• 2cos prozor je opisan analitičkim izrazom:

2....2)(cos)( 2 ТТTw +−== τπττ (4.4.2)

Ovaj prozor se u literaturi još naziva Hanning-ov prozor.

• Hamming-ov prozor je opisan analitičkim izrazom:

2....2)2cos(46.054.0)( ТТw +−=Τ+= ττπτ (4.4.3) Kod ovog prozora se može smatrati da drugi maksimum ne zavisi od frekvencije i on iznosi oko –

42 dB. Ovaj prozor se najčešće primenjuje u obradi govornog signala.

• Blackman-ov prozor je opisan analitičkim izrazom:

2....2)/4cos(08.0)2cos(5.042.0)(

ТТTw

+−=+Τ−=

τπττπτ

(4.4.4)

Kod ovog prozora je drugi maksimum najmanji od svih prozora i iznosi oko –58 dB.

• Kaiser-ov prozor. Ovo je čitava familija prozorskih funkcija koja se izračunava iz Beselovih funkcija. Kod njih drugi

maksimum može još više da opada, ali je zbog toga i širi opseg prvog maksimuma. Pošto je proračun


54

54

ovih prozora dosta složen jer se radi o Beselovim funkcijama, Kaiser-ovi prozori se u praksi ređe koriste, mada imaju značajno potiskivanje drugog maksimuma.

Slika 4.4.1. Najčešće korišćene prozorske funkcije


55

55

POGLAVLJE 5

PRINCIP LINEARNE PREDIKCIJE (LPC)

Može se pokazati da pojedine vrednosti govornog signala nisu međusobno nezavisne, odnosno

da postoji izvesna međusobna korelacija, međusobna linearna zavisnost. To ukazuje na to da postoji način da se iz niza predhodnih vrednosti može predvideti sledeća vrednost signala.

Neka je dat digitalni govorni signal )(ns , n ide od ∞− do ∞ . Za razumevanje linearne zavisnosti

najčešće se koristi metoda linearne predikcije (LPC – Linear Predictive Coding). Kod ove metode se razmatra linearan sistem čiji se izlazni signal dobija kao otežnjena konačna suma predhodnih izlaznih signala:

∑ −−==

p

ii insans

1)()(ˆ (5.1)

Vrednost )(ˆ ns se predviđa na osnovu predhodnih vrednosti kao njihova linearna kombinacija. Znak minus je uzet zbog jednostavnijeg računanja u formulama koje slede.

Kako je vrednost )(ˆ ns samo procena, javlja se greška )(ne kao razlika stvarne )(ns i procenjene

vrednosti )(ˆ ns :

)(ˆ)()( nsnsne −= (5.2)

)()()(1

neinsansp

ii +∑ −−=

= (5.3)

Koeficijenti ia se nazivaju koeficijenti linearne predikcije i potpuno opisuju linearni sistem. Parametar p određuje red linearne predikcije.


56

56

Koeficijenti predikcije se podešavaju tako da se postigne što manja greška predikcije, odnosno da su predviđene vrednosti što bliže stvarnim vrednostima na nekom konačnom intervalu, intervalu analize. Na tom intervalu može se smatrati da je govorni signal približno stacionaran. Određivanje odnosno, podešavanje koeficijenata vrši se za svaki interval posebno. Kao optimalan kriterijum najčešće se koristi minimizacija kvadratne greške.

5.1. Prediktor kao digitalni filtar Prediktorski polinom je jedan linearni, digitalni filtar reda p . Filtar se može posmatrati na dva

načina:

• za generisanje govornog signala )(ns

• za generisanje signala greške )(ne . Kada je govorni signal ulazni signal u prediktor na njegovom izlazu se generiše signal greške.

Sistem je tada jedan transverzalni filtar i važi:

∑ −+==

p

ii insansne

1)()()( (5.1.1)

Ako na ovaj izraz primenimo Z-transformaciju dobijamo izraz (5.1.2) a prenosna funkcija sistema )(zHI je data izrazom (5.1.3).

)1)(()(1

∑+==

−p

i

ii zazSzE (5.1.2)

∑+===

−p

i

iiI za

zSzEzH

11

)()()( (5.1.3)

Ovaj digitalni filtar teži da spektar signala greške napravi da bude kao spektar belog šuma. Ovaj

filtar se naziva inverzni filtar i na slici 5.1.1. je prikazan šematski. Njegova prenosna funkcija je definisana u (5.1.3).

Ako se prediktor pobudi signalom greške na njegovom izlazu se dobija govorni signal. U ovom

slučaju sistem je rekurzivni, digitalni filtar sa prenosnom funkcijom:

∑+

==

=

−p

i

ii

RzazE

zSzH

11

1)()()( (5.1.4)

Slika 5.1.1 Inverzni filtar

s(n) e(n)+

−

1- HI(z)


57

57

Na slici 5.1.2. je prikazan rekurzivni filtar koji predstavlja model vokalnog trakta. Njegova prenosna funkcija je data u (5.1.4).

Na ovaj način dobijamo jednostavan model za generisanje govornog signala u kome se vokalni

trakt posmatra kao linearni filtar koji se pobuđuje impulsima koje generišu glasne žice. Pri bezvučnim glasovima pobudni signal je beli šum. Iz izraza za prenosnu funkcije se vidi da sistem ima samo polove a ne i nule.

5.2. Određivanje koeficijenata predikcije

Koeficijente predikcije ia treba odrediti tako da se postigne minimalno odstupanje predviđenog signala od stvarnog. Ako preuredimo izraz (5.1.1), dobijamo (5.2.1).

1)()( 00

=∑ −==

ainsanep

ii (5.2.1)

Posmatrajmo ukupnu kvadratnu grešku koja se pravi na intervalu analize:

∑=n

ne 2)(α (5.2.2)

Kako želimo da minimizujemo ovu grešku, tražimo parcijalni izvod po koeficijentima predikcije

(5.2.3) iz čega sledi izraz (5.2.4).

2

0)( ⎥⎦

⎤⎢⎣

⎡∑ −==

p

ii

iiinsa

dad

dadα

(5.2.3)

0)()(0

=∑ ∑ −−=

p

j nj jnsinsa (5.2.4)

Drugu sumu u ovom izrazu možemo zameniti korelacionim koeficijentima ijr , izraz (5.2.5), tako da se dobija sistem jednačina (5.2.6).

∑ −−=n

ij jnsinsr )()( (5.2.5)

pirap

jijj ...10

0==∑

= (5.2.6)

Slika 5.1.2. Model vokalnog trakta

– rekurzivni filtar

s(n)

e(n)

+

1- 1/HR(z)

+


58

58

Ako se iz (5.2.6) izostavi nulti koeficijent 10 =a , dobija se :

pirra ip

jijj ...10

1=−=∑

= (5.2.7)

Izraze možemo napisati i uz pomoć vektora i matrica. Neka je R korelaciona matrica [ ]ijrR = .

Ona je simetrična matrica. Neka je vektor koeficijenata predikcije: ),......,( 10 ′= paaaa , 10 =a . Tada izraz (5.2.1) postaje:

aRa′=α (5.2.8) Ako ponovimo diferenciranje dobija se:

01rRa −−= (5.2.9)

Sada imamo p linearnih jednačina za izračunavanje p koeficijenata linearne predikcije ia .

5.2.1. Autokorelaciona metoda Postupak izračunavanja zavisi od toga gde su postavljene granice intervala za analizu. Kod

autokorelacione metode za proračun signala greške, n ide od -∞ do +∞ , ali se uzima da govorni signal ima vrednost nula izvan intervala analize od 0 do 1−N . To se postiže primenom odgovarajućeg prozora (stacionarni pristup). Ispred prozora ( 0<n ) i posle prozora ( pNn +>= ), signal greške )(ne je nula. Na početku prozora i odmah posle njega signal greške ima jako veliku vrednost.

Postavljanje intervala analize je pre svega značajno za izračunavanje korelacione matrice.

Korelacioni koeficijenti se računaju kao u (5.2.1.1).

jiddnsns

jinsns

jnsinsr

dN

n

n

nij

−=∑ +=

∑ −+=

∑ −−=

−−

=

∞

−∞=

∞

−∞=

1

0)()(

)()(

)()(

(5.2.1.1)

odnosno,

jiddnsnsdrrN

dnij −=∑ −==

−

=

1)()()( (5.2.1.2)

Znači, korelacija zavisi samo od relativnog pomeraja d i prema tome ima sve osobine

autokorelacione funkcije. Zato se ova metoda zove autokorelaciona metoda.


59

59

Koeficijenti predikcije se mogu izračunati kao što je navedeno u (5.2.9), pri čemu je R simetrična matrica (poseduje tzv. Toplicovu strukturu). Poznati algoritam za izračunavanje koeficijenata predikcije je Durbinov algoritam, poznat još i kao Levinsonov rekurzivni algoritam.

Neka je 11a prvi koeficijent prediktora 1. reda ( 1=p ), 12a prvi koeficijent prediktora 2. reda

( 2=p ), pa1 prvi koeficijent prediktora reda p , odnosno rešenje za prvi koeficijent 1a . Isto važi i za

ostale koeficijente prediktora 2a ,…. pa . Greška predikcije se računa kao u (5.2.1.3).

∑==

p

ii ira

0)(α (5.2.1.3)

Ovaj sistem jednačina se rešava rekurzivnim algoritmom. Posmatrajmo prediktor 2. reda. Njegovi

koeficijenti su 2211, aa a greška je 2α . Izraz (5.2.1.4) predstavlja izraz za grešku predikcije ovog prediktora.

⎥⎥⎥

⎦

⎤

⎢⎢⎢

⎣

⎡=

⎥⎥⎥

⎦

⎤

⎢⎢⎢

⎣

⎡

⎥⎥⎥

⎦

⎤

⎢⎢⎢

⎣

⎡

00

1

)0()1()2()1()0()1()2()1()0( 2

22

12

α

aa

rrrrrrrrr

(5.2.1.4)

Ako se radi o prediktoru 3. reda, za njega važi:

⎥⎥⎥⎥

⎦

⎤

⎢⎢⎢⎢

⎣

⎡

=

⎥⎥⎥⎥⎥

⎦

⎤

⎢⎢⎢⎢⎢

⎣

⎡

⎥⎥⎥⎥

⎦

⎤

⎢⎢⎢⎢

⎣

⎡

000

1

)0()1()2()3()1()0()1()2()2()1()0()1()3()2()1()0( 3

33

23

13

α

aaa

rrrrrrrrrrrrrrrr

(5.2.1.5)

Ukoliko izrazimo prediktor 3. reda preko prediktrora 2. reda, uvodimo parametar 3k takav da važi:

⎥⎥⎥⎥

⎦

⎤

⎢⎢⎢⎢

⎣

⎡

+

⎥⎥⎥⎥

⎦

⎤

⎢⎢⎢⎢

⎣

⎡

=

⎥⎥⎥⎥

⎦

⎤

⎢⎢⎢⎢

⎣

⎡

1

0

0

11

12

223

22

12

33

23

13aa

kaa

aaa

(5.2.1.6)

Ako se izraz (5.2.1.6) uvede u (5.2.1.5), dobija se sledeća relacija:

⎥⎥⎥⎥

⎦

⎤

⎢⎢⎢⎢

⎣

⎡

=

⎥⎥⎥⎥

⎦

⎤

⎢⎢⎢⎢

⎣

⎡

+

⎥⎥⎥⎥

⎦

⎤

⎢⎢⎢⎢

⎣

⎡

=

⎟⎟⎟⎟⎟

⎠

⎞

⎜⎜⎜⎜⎜

⎝

⎛

⎥⎥⎥⎥

⎦

⎤

⎢⎢⎢⎢

⎣

⎡

+

⎥⎥⎥⎥

⎦

⎤

⎢⎢⎢⎢

⎣

⎡

⎥⎥⎥⎥

⎦

⎤

⎢⎢⎢⎢

⎣

⎡

000

00

00

1

0

0

1

)0()1()2()3()1()0()1()2()2()1()0()1()3()2()1()0( 3

2

3

2

12

223

22

12

α

α

α q

k

qaa

kaa

rrrrrrrrrrrrrrrr

(5.2.1.7)

Ovde se javlja veličina q koju još treba odrediti. Iz navedenih izraza, slede sledeće relacije:


60

60

)1( 2323 k−= αα (5.2.1.8)

∑ −−==

2

02

23 )3(1

ii irak

α (5.2.1.9)

333 ka = (5.2.1.10) Ovo je rekurzivni algoritam koji se može opisati određenim početnim uslovima i iterativnim

postupkom:

• početni uslovi:

1),0( 000 == arα

• iterativni postupak:

)1(

1....1

1

)(1

21

1,1,,

,0

,

1

01,

1

mmm

mimmmimi

m

mmm

m

imi

mm

k

mi

akaa

a

ka

imrak

−=

−=

+=

=

=

−∑−=

−

−−−

−

=−

−

αα

α

(5.2.1.11)

Suština ovog rekurzivnog algoritma je da se najpre izračuna jedan koeficijent prediktora 1. reda,

zatim se računaju dva koeficijenta prediktora 2. reda i sve tako do p - tog reda, kada se dobijaju konačni koeficijenti prediktora.

Koeficijenti mk se nazivaju parcijalni ili PARCOR koeficijenti. Nazivaju se i refleksioni koeficijenti. Zbog stabilnosti filtra oni moraju da budu manji od 1:

1≤mk (5.2.1.12)

Interesantno je posmatrati ponašanje pojedinih grešaka mα . Kako je modelovanje signala sve bolje kako se povećava red prediktora, greška je sve manja, pa važi (5.2.1.13).

1+≤ mm αα (5.2.1.13) Inverzni filtar se može realizovati i pomoću PARCOR koeficijenata. To je tzv. lattice struktura. Na

slici 5.2.1.1. prikazana je lattice-struktura inverznog filtra a na slici 5.2.1.2. modela vokalnog trakta [2].


61

61

Prednost lattice strukture je u tome što se može kontrolisati stabilnost filtra, što je posebno važno

kod izračunavanja filtra na digitalnim signal procesorima sa fiksnim zarezom. Stabilnost je obezbeđena ukoliko je stalno obezbeđen uslov (5.2.1.12). Moguće je vršiti skaliranje u toku izračunavanja

koeficijenata mk jer i skalirani koeficijentioni formiraju stabilan filtar što nije slučaj sa LPC koeficijentima ia . Ako bi se ove vrednosti skalirale dovele bi do nestabilnog filtra.

5.2.2. Kovarijansna metoda Granice intervala analize se mogu i drugačije postaviti. Kod tzv. kovarijansne metode, analiza

signala je na intervalu od 0 do 1−N . Određivanje koeficijenata predikcije se vrši iz jednačina (5.2.2.1), a greška predikcije je data izrazom (5.2.2.2).

picap

jijj ...10

0==∑

= (5.2.2.1)

∑==

p

iiica

00α (5.2.2.2)

Korelacioni koeficijenti ijc se računaju kao:

s(n)

z-1

z-1+

+

+

e(n)

k1

+

+

+

k2

+

z-1

+

+

+

+

+

.....

.....

+

+

+

kp

e(n)

z-1

s(n)

kp-1kp

++

+

.....

z-1

+

+

+

.....

k1

z-1

-- -

+

Slika 5.2.1.1. Lattice struktura inverznog filtra

Slika 5.2.1.2. Lattice struktura modela vokalnog trakta


62

62

∑ −−=−

=

1

0)()(

N

nij jnsinsc (5.2.2.3)

Ovaj postupak odgovara nestacionarnom pristupu kratkovremenske analize i za njega je potrebno

imati na raspolaganju pN + vrednosti ulaznog signala. Metoda se naziva kovarijansna metoda jer određivanje korelacionih koeficijenata na to podseća. Strogo uzevši ovde se ne radi o kovarijansama onako kako se uobičajeno misli jer se srednje vrednosti nigde ne razmatraju. Kod ove metode ne postoje skraćeni postupci već se do rešenja sistema jednačina dolazi uobičajenim metodama za rešavanje sistema jednačina o kojima ovde neće biti reči.

5.3. Karakteristike u frekventnom domenu Ako se osvrnemo na Parsevalovu teoremu koja kaže da su energije u vremenskom i frekventnom

domenu jednake, to mora onda da važi i za energiju signala greške kod linearne prediktivne metode. Možemo zato pisati da važi:

dweEne jwpN

n∫=∑

−

−=

=

π

ππ

21

0

2 )(21)( (5.3.1)

Kako za grešku predikcije važi (5.3.2), izraz (5.3.1) postaje (5.3.3):

)1()()(1

∑+==

−p

i

ii zazSzE (5.3.2)

∫ ΩΩ

Ω=∑

−

−=

=

π

ππd

H

Sne

pN

n 2

21

0

2

)(

)(21)( (5.3.3)

pri čemu je )(ΩH frekventna karakteristika inverznog filtra. Minimizaciji signala greške u

vremenskom domenu odgovara minimizacija u frekventnom domenu. Filtar ustvari teži da modeluje anvelopu spektra signala, dok spektar signala greške teži da postane spektar belog šuma.

5.3.1. Izračunavanje LPC spektra

Može se reći da je izračunavanje spektralne karakteristike LPC filtra, odnosno, LPC spektra,

jednostavno. Najpre ćemo izračunati LPC spektar inverznog filtra. Kako je u pitanju transverzalni filtar, njegov impulsni odziv predstavljaju koeficijenti predikcije:

{ }pinv aaanh ,...,,,1)( 21= (5.3.1.1)

Kompleksni, diskretni spektar se može dobiti pomoću diskretne Furijeove transformacije iz

diskretnog impulsnog odziva sistema, kao:


63

63

1,1,

))(()(

+==Δ

=ΔΔ=

=

pNN

ftN

ffmm

nhDFTmS

odm

invinv

∑==

−p

k

Nkmjinvinv ekhmS

0

2)()( π (5.3.1.2)

Dovoljno je izračunati kompleksni spektar za 1+p vrednost signala. Spektar tada ima 12

1+

+p

realnih i isto toliko imaginarnih vrednosti pomoću kojih se može naći spektar snage signala. Ukoliko se želi bolja rezolucija, može se impulsni odziv (5.3.1.1) produžiti popunjavanjem nula (do, npr. N vrednosti) i izračunavanjem kompleksnog spektra u N tačaka.

Za rekurzivni LPC filtar važi:

))(log())(log()(

1)(

)(1)(

mSmSmS

mS

zHzH

invrek

invrek

invrek

−=

=

=

(5.3.1.3)

Primer Neka su dati koeficijenti prediktora 2. reda: 85.02.1 21 =−= aa . Tada je prenosna funkcija

inverznog filtra: 21 85.02.11)( −− +−= zzzHinv , dok je prenosna funkcija rekurzivnog filtra:

21 85.02.111)(

−− +− zzzHrek .

Na slici 5.3.1.1 su date amplitudska i fazna karakteristika inverznog filtra (LPC spektar u N = 64

tačke), na slici 5.3.1.2 amplitudska i fazna karakteristika inverznog filtra (LPC spektar u N = 64 tačke) a na slici 5.3.1.3. impulsni odziv rekurzivnog filtra.

Slika 5.3.1.1. Amplitudska i fazna karakteristika inverznog filtra


64

64

5.4. Primena metode linearne predikcije na govornom signalu Metoda linearne predikcije se dosta koristi u obradi govornog signala. Rekurzivni filtar se koristi

kao model vokalnog trakta koji se pobuđuje ili Dirakovim impulsima ili odmercima belog šuma. Da bi se na adekvatan način uzela u obzir energija signala greške, uvodi se faktor pojačanja g tako da model vokalnog trakta izgleda kao na slici 5.4.1.

Slika 5.3.1.2 Amplitudska i fazna karakteristika rekurzivnog filtra (N=64)

Slika 5.3.1.3. Impulsni odziv

rekurzivnog filtra


65

65

Faktor pojačanja g se određuje iz relacije (5.4.1).

∑===

p

ii ira

NNg

0

2 )(1α (5.4.1)

Na slici 5.4.2 su prikazani spektri vokala /a/ i sintetisanog vokala /a/, kao ilustracija koliko dobro se

pomoću LPC analize može modelovati spektralna karakteristika.

+

1- 1/H(z)

+ s(n)gδ (n)

Slika 5.4.1 Model vokalnog trakta pobuđen jediničnim impulsima

Slika 5.4.2. Prava i modelovana spektralna karakteristika vokala /a/

Slika 5.4.3. Vremenski oblik vokala /a/ i njegov sonagram


66

66

Na slici 5.4.3 je prikazan vremenski oblik vokala /a/ i njegov sonagram. Pomoću LPC metode

izračunati su koeficijenti filtra, pa je sintetisan vokal /a/ pri čemu je za pobudni signal uzeta povorka Dirakovih impulsa na rastojanju koje odgovara osnovnoj učestanosti vokala. Na slici 5.4.4. je prikazan sintetisani vokal /a/ primenom modela sa slike 5.4.1 i njegov sonagram.

Kako LPC filtar ima samo polove, formantne frekvencije vokala se mogu dobro modelovati, što

nije slučaj i sa nulama u spektru koje su karakteristične za nazale: m, n ili nj i frikative: f, š i s. Osnovna prednost metode linearne predikcije je u tome što se pomoću nje dobija prilično gladak spektar, što nije slučaj, kako smo ranije istakli, kada se računa kratkovremenski spektar pomoću Furijeove transformacije, kada je vidljiva talasalost u spektru usled osnovne frekvencije. Kod metode linearne predikcije razdvojeni su pobudni signal i rezonantne frekvencije vokalnog trakta.

Koeficijenti predikcije se mogu transformisati u druge koeficijente koji opisuju vokalni trakt kao

akustičku cev. Vokalni trakt se može predstaviti kao niz nadovezanih akustičkih cevi, različitih poprečnih

preseka mA iste debljine. Uzima se da nema gubitaka pri prostiranju zvuka kroz ovu akustičku cev. Refleksija zvuka na granicama pojedinih delova cevi opisuje se pomoću PARCOR – koeficijenata, tj.

refleksionih koeficijenata - mk . Odnos dva uzastopna poprečna preseka se naziva AREA – koeficijent i može se izraziti preko PARCOR koeficijenata:

m

m

m

mkk

AA

−+

=+111

(5.4.2)

Idealni signal greške bi bio signal koji ima približno ravan spektar u celom frekventnom opsegu.

Kako spektar govornog signala opada oko 6dB po oktavi, efekat LPC analize će se poboljšati ako se spektar govornog signala najpre za ovaj iznos podigne ka višim frekvencijama. To se postiže korišćenjem visokofrekventnog digitalnog filtra prvog reda čija je prenosna karakteristika data izrazom (5.4.3). Ovaj postupak se naziva preemfaza, a μ koeficijent preemfaze . Obično μ ima vrednost od 0.9 do 1.

11)( −−= zzV μ (5.4.3)

Slika 5.4.4. Sintetisani vokal /a/ i njegov sonagram


67

67

Prenosna funkcija vokalnog trakta )(zH treba da što bolje modeluje formantne frekvencije. Kako je za modelovanje jednog formanta potrebno dva pola (jedan par), minimalan potreban red filtra je dvostruko veći od broja formanata. Obično se red filtra računa kao u (5.4.4) što na primer, za frekvenciju odmeravanja od 10 kHz iznosi 10. Da bi se svi formanti obuhvatili, najčešće se red filtra uzima da bude za dva ili tri veći od ovog broja.

1000minaodmeravanjfrekvenciap = (5.4.4)

Prava vrednost za p se može utvrditi ako se posmatra greška α koja je monotono opadajuća

funkcija reda p . Na slici 5.4.5 prikazana je zavisnost greške α od reda filtra p za vokal /i/, učestanost odmeravanja je 22.050 kHz. Sa slike se vidi da za male vrednosti p greška jako brzo opada da bi kasnije postala skoro konstantna. Određena greška uvek ostaje (zbog nelinearnosti, nula u spektru).

Kao što je već rečeno, koeficijenti predikcije se mogu izračunati pomoću:

• autokorelacione metode ili

• kovarijansne metode. Autokorelaciona metoda je robusnija jer garantuje stabilan filtar. Ona zahteva, prema

stacionarnom pristupu kratkovremenske analize, duži prozor za analizu. Suprotno njoj, kod kovarijansne metode, kraći je prozor za analizu signala. Njega treba ispravno postaviti, idealno je unutar osnovne periode signala, sinhrono sa osnovnom frekvencijom govora. Tako se postiže tačnija analiza fine strukture signala i eliminiše uticaj osnovne frekvencije. Kovarijansna metoda je pogodna za analizu nestacionarnih delova govornog signala ali je sa njom povezan problem stabilnosti, dok se autokorelaciona metoda dosta koristi u automatskom prepoznavanju govora i digitalnom prenosu govora.

Interesantno je uporediti dobijene spektralne karakteristike primenom linearne predikcije različitog

reda p. Za veći red p dobijaju se bolje modelovanje spektralne karakteristike, ali se onda i talasalost povećava, što nije poželjno pri utvrđivanju formanata. Na slici 5.4.6 prikazan je uticaj reda predikcije p na oblik spektralna karakteristike.

Slika 5.4.5. Zavisnost greške predikcije od reda p


68

68

Slika 5.4.6. Uticaj reda predikcije na oblik spektralne karakteristike


69

69

POGLAVLJE 6

ODREĐIVANJE OSNOVNIH PARAMETARA GOVORNOG SIGNALA

Najznačajniji parametri govornog signala su osnovna učestanost 0f , formantne frekvencije, antiformantne frekvencije i tip pobude: zvučno/bezvučno. Od značaja je i položaj pauza u govornom signalu. Postupci i problemi oko određivanja ovih parametara biće detaljnije izloženi u delu koji sledi.

6.1. Formantna analiza Za vokale kao i za suglasnike, osim nazala, prenosna funkcija vokalnog trakta )(zH , može se

posmatrati kao funkcija koja ima samo polove. U digitalnoj realizaciji njoj odgovara rekurzivni filtar. Polovi prenosne funkcije karakterišu formante govornog signala. Postupak određivanja formanata se naziva formantna analiza. Kod većine postupaka formantne analize, računaju se samo formantne frekvencije, dok su amplitude signala od manjeg značaja.

Jedna od najrasprostranjenijih metoda za određivanje formanata je LPC analiza. Kako je

informacija o formantima sadržana u anvelopi spektra, potrebno je naći spektar signala. Tu mogu da nastanu problemi. Dešava se da u spektru postoje neke izražene vrednosti (pikovi), koje smetaju pri analizi. Oni mogu da potiču ili od osnovne učestanosti ili od nekog šuma. Formantne frekvencije mogu


70

70

da budu jako bliske, što može da dovede do toga da se ne mogu jasno razdvojiti i prepoznati. Nekada je prvi formant vrlo blizu osnovnoj frekvenciji, pa to stvara dodatni problem. Svi ovi problemi se skoro potpuno rešivi primenom LPC analize.

6.1.1. Formantna analiza pomoću linearne predikcije

Kod metode linearne predikcije, rekurzivni filtar je prilagođen anvelopi kratkovremenskog spektra.

Spektralni maksimumi, odnosno frekventne komponente koje imaju najveću energiju, mogu se lako uočiti u spektru, dok su frekventne komponente sa manjom energijom lošije modelovane.

Ako pogledamo linearni model za generisanje govora (detaljnije u 3. poglavlju), njegova prenosna

funkcija je proizvod Z-transformacije generatora signala, koji je ili povorka Dirakovih impulsa ili beli šum, spektra pobudnog signala )(zS , prenosne funkcije vokalnog trakta )(zH i Z-transformacije procesa emitovanja govora. Ono što nije poznato je koja od komponenata stvara pojedine polove spektralne karakteristike. Zna se samo da se metodom linearne predikcije modeluju polovi tako da signal greške kod inverznog filtra bude što manji.

Prenosna karakteristika linearnog prediktora )(zH p ne može se koristiti kao procena prenosne funkcije vokalnog trakta )(zH . Zato se pri korišćenju linearne predikcije u određivanju formanata mora

utvrditi koji je od polova funkcije )(zH p , istovremeno i pol prenosne funkcije vokalnog trakta )(zH . Određivanje polova se svodi na nalaženje korena polinoma u imeniocu (npr. Njutn-Rasponovom

metodom). Metoda se sastoji u tome, kao što je poznato, da se procenom korena polinoma izračuna njegova vrednost, utvrdi kolika je greška, pa se onda procenjuje tačnija vrednost korena polinoma i tako sve dok greška ne postane manja od neke unapred definisane vrednosti. Tada se polinom deli tim korenom, pa se prelazi na određivanje sledećeg korena i tako redom, dok se ne dobiju svi koreni polinoma. Kako se svaki od korena računa sa određenom greškom, onda se i ostali koreni takođe računaju sa greškom. Ukupan broj iteracija zavisi od početnih vrednosti i željene tačnosti.

6.1.2. Glačanje kratkovremenskog spektra

Kako je proces izračunavanja korena polinoma prediktora dosta računarski intenzivan i skoro da

niije moguć u realnom vremenu, razvijeni su postupci koji polaze od kratkovremenskog spektra koji se lako računa pomoću DFT-a (odnosno, FFT-a).

Formanti se nalaze na mestima maksimuma anvelope spektralne karakteristike. Da bi se oni

odredili, potrebno je da se uglača spektralna karakteristika. Jedan od preduslova uspešne formantne analize je razdvojiti deo prenosne funkcije koji potiče od generatora signala i deo koji potiče od vokalnog trakta. Kao što smo već rekli, uticaj generatora signala u slučaju povorke Dirakovih impulsa, ogleda se u tome što je prisutna talasalost u spektru sa ekvidistantnim maksimumima koji se nalaze na rastojanju koje odgovara osnovnoj učestanosti govora. Na slici 6.1.2.1. su prikazani neotežnjeni (a) i otežnjeni (b) Dirakovi impulsi i njihove spektralne karakteristike.


71

71

Na slici 6.1.2.2. prikazan je uticaj različitih dužina prozorskih funkcija na glačanje spektralne

karakteristike. Glačanje se vrši konvolucijom spektra govornog signala i odgovarajuće prozorske funkcije. Sa slika se vidi da se upotrebom dužeg prozora, bolje glača spektralna karakteristika.

Slika 6.1.2.1 b Otežnjeni Dirakovi

impulsi i njihova spektralna karakteristika

Slika 6.1.2.1a. Neotežnjeni Dirakovi impulsi i njihova spektralna karakteristika


72

72

6.1.3 Homomorfna analiza (kepstrum) Suština linearnog modela za proizvođenje govora je da govor nastaje kao konvolucija pobudnog

signala i impulsnog odziva prenosne karakteristike vokalnog trakta. Ako želimo da eliminišemo uticaj pobudne funkcije, potrebno je izvršiti razdvajanje ova dva signala iz konvolucije. To je pogodno uraditi u frekventnom domenu.

Pođimo od linearnog modela za generisanje govora prikazanog na slici 3.3.1 za koji važi:

AzHzGzPzX )()()()( = (6.1.3.1) Ako želimo da eliminišemo uticaj pobudne funkcije )(zP , uvodimo novu veličinu kepstrum )(dx

(6.1.3.2). Veličina d ima dimenziju vremena i naziva se u engleskoj terminologiji, quefrency:

Slika 6.1.2.2. Uticaj različitih dužina prozora na efekat glačanja


73

73

adhdgdpdx

AHGPDFTdx

XDFTdx

+++=⎥⎦⎤

⎢⎣⎡ +Ω+Ω+Ω=

⎥⎦⎤

⎢⎣⎡ Ω=

−

−

)()()()(

log)(log)(log)(log)(

)(log)(

22221

21

(6.1.3.2)

Kepstrum je realna veličina. Na slici 6.1.3.1 je prikazan spektar vokala /a/ i njegov kepstrum.

a)

b)

Kepstralni koeficijenti ic se računaju iz LPC koeficijenata ia kao u (6.1.3.3).

,...1

,....,2

)0(

1

1

1

11

0

+=∑−

−=

=∑−

−−=

−==

=−

−

=−

piaci

kic

piaci

kiac

acrc

p

kkkii

i

kkkiii (6.1.3.3)

Slika 6.1.3.1. a) spektar vokala /a/ b) kepstrum vokala /a/


74

74

)0(r je autokorelacija, a p red LPC predikcije. Na slikama 6.1.3.2 a, b, c, prikazan je postupak glačanja kratkovremenskog spektra pomoću

kepstruma. To je istovremeno postupak razdvajanja prenosne funkcije vokalnog trakta i pobudne funkcije. Ako se kepstrum funkcija filtrira niskofrekventnim filtrom, odnosno ako se uzme određeni broj kepstralnih koeficijenata, eliminiše se uticaj osnovne učestanosti na talasalost u spektru, pa se na taj način dobija uglačanija spektralna karakteristika. Na slikama 6.1.3.2 a, b, c, prikazani su odgovarajući uglačani spektri. Na slici pod a) je spektar za slučaj ako se koristi 10 kepstralnih koeficijenata, pod b) 20, a pod c) 30 kepstralnih koeficijenata.

Može se zaključiti da sa povećanjem broja koeficijenata ostaje sve veća talasalost u spektru.

Homomorfna analiza se može koristiti i za utvrđivanje osnovne frekvencije govora.

Slika 6.1.3.2a. Glačanje

kratkovremenskog spektra pomoću kepstruma

(10 koeficijenata)

Slika 6.1.3.2b. Glačanje


(20 koeficijenata)


75

75

6.1.4. Formantna analiza u frekventnom domenu Postoji postupak, u literaturi poznat kao McCardless-ov algoritam, koji polazi od

kratkovremenskog spektra dobijenog u LPC analizi. Postupak ne određuje direktno polove prenosne

funkcije )(zH p dobijene LPC analizom već određuje maksimume na spektralnoj karakteristici. Ovde ga nećemo detaljnije razmatrati. I njegova karakteristika je, kao uostalom i drugih sličnih postupaka, da problem preciznog, automatskog određivanja formanata nije rešen. Osnovni razlozi za to leže u samoj prirodi govornog signala. Može se desiti da su susedne formantne frekvencije suviše blizu jedna drugoj i da je nedovoljna spektralna rezolucija da bi se obe mogle detektovati, jer jedna drugu maskiraju.

Formanti su precizno definisani samo za vokale. Stvar se komplikuje kada su u pitanju nazali gde

se ponašanje vokalnog trakta menja, kao i položaj formanata. Kod nazala se javljaju i antiformanti. Kod većine govornika kod nekih fonema, treći formant je jako slab, maskira ga šum, pa se i ne može izdvojiti. Konačno, kao i kod određivanja osnovne frekvencije, i ovde nije usvojen kriterijum za grešku koja se pravi. Prilikom određivanja položaja formanata, mi ne znamo prave vrednosti na osnovu kojih bi se moglo reći kolika je greška, da bi se izvršila korekcija.

6.1.5. Istovremeno određivanje formanata i antiformanata

Postupci koji samo određuju antiformante nisu od značaja. Od značaja su postupci pomoću kojih

možemo istovremeno da odredimo i formante i antiformante. Takvi postupci su u literaturi poznati kao ARMA postupci. Slova AR potiču od autoregresive (određivanje polova), a MA od moving average (određivanje nula), međutim ovde se nećemo detaljnije njima baviti.

Slika 5.1.3.2c. Glačanje


(30 koeficijenata)


76

76

6.2. Određivanje osnovne učestanosti govora

Jedan od najznačajnijih parametara govornog signala je osnovna učestanost 0f , zato što je ovaj parametar odgovoran za prozodijska svojstva govornog signala, odnosno za melodičnost govora. Čovečije uvo je osetljivije na promene ovog parametra nego na promene nekog drugog parametra govora. Kod digitalnog prenosa govora, jako je značajno koliko je dobro procenjena osnovna učestanost jer od nje jako zavisi kvalitet sintetisanog govora.

Na prvi pogled, problem određivanja osnovne učestanosti je lak. Potrebno je samo odrediti

frekvenciju jednog kvaziperiodičnog signala. Kada se radi o govornom signalu, stvari su komplikovaniije i problem određivanja osnovne učestanosti spada u najteže probleme obrade govora. Više je razloga za to. Nabrojaćemo neke od njih:

• govor je u principu nestacionaran signal. Oblik vokalnog trakta se može jako brzo menjati što dovodi do drastičnih promena u vremenskoj strukturi signala. Ta promena može biti već posle jedne osnovne periode.

• usled velikog broja različitih položaja u kojima se može naći vokalni trakt pri izgovoru, kao i velikog broja različitih izgovorenih glasova, postoji veliki broj mogućih vremenskih struktura govornog signala.

• kod različitih govornika osnovna frekvencija je različita, ona može da varira od 50 do 350 Hz. Posebno može da nastane problem kod ženskih govornika kada su osnovna frekvencija i prvi formant bliski.

• pobudni signal nije uvek regularan. Naime, govornik može da bude prehlađen, ali i da govori u uzbuđenom stanju, što sve doprinosi da se stvaraju dodatne otežavajuće okolnosti za precizno određivanje osnovne frekvencije.

• poseban problem nastaje kod prenosa govora, kada treba imati u vidu i osobine prenosnog kanala koji može da ograniči ili degradira govorni signal (npr. telefonski kanal, koji predstavlja filtar propusnik opsega, od 300 do 3400 Hz).

Postoji čitav niz različitih metoda za utvrđivanje osnovne učestanosti govora. Različite metode se

primenjuju za različite oblasti primene.

6.2.1. Podela algoritama za određivanje osnovne učestanosti Do sada smo se bavili postupcima koji razmatraju anvelopu spektra, odnosno grubu strukturu

spektra. Sa druge strane imamo finu strukturu spektra u kojoj je sadržana informacija o osnovnoj učestanosti. Kod zvučnih glasova imamo harmonijsku, finu strukturu u spektru, dok su bezvučni glasovi karakteristični po tome što kod njih nema te fine strukture u spektru. U principu, kod određivanja osnovne učestanosti cilj je sve ono što nije bio cilj predhodnih metoda kod određivanja formanata. Problem je međutim, da i kod zvučnih glasova ponekad nije tako izražena fina, harmonijska struktura u spektru jer se oni ne ponašaju strogo kao periodični signali.

U svakom slučaju, svaki algoritam za određivanje osnovne učestanosti sastoji se iz tri koraka:

• predobrada signala

• proces ekstrakcije obeležja signala

• dodatna obrada


77

77

Zadatak predobrade signala je redukcija podataka. Od govornog signala se pravi manja količina podataka sa kojima se dalje radi. U procesu ekstrakcije obeležja vrši se merenje odnosno, pretvaranje ulaznog signala u odgovarajuće vrednosti koje treba da posluže za konkretnu procenu osnovne učestanosti. Dodatna obrada je različita u zavisnosti od primene a svodi se na korekciju grešaka, odnosno, glačanje dobijene krive koja predstavlja promenu osnovne učestanosti u vremenu ili se odnosi na njenu grafičku predstavu.

Različiti algoritmi za određivanje osnovne učestanosti se grubo mogu podeliti u dve grupe u

zavisnosti od ulaznog signala u procesu ekstrakcije obeležja signala. To su:

• algoritmi koji rade u vremenskom domenu

• algoritmi koji rade na principu kratkovremenske analize.

6.2.2. Algoritmi u vremenskom domenu Ovi algoritmi se mogu dalje podeliti u zavisnosti od toga koji deo u analizi vrši redukciju podataka,

predobrada ili proces ekstrakcije obeležja. Kod prve grupe algoritama, ukupna redukcija podataka je u predobradi signala, dok je kod druge grupe, redukcija podataka samo u fazi ekstrakcije obeležja.

U principu, algoritmi u vremenskom domenu mogu da analiziraju signal periodu po periodu pa na

izlazu iz dela za ekstrakciju obeležja imamo niz markera koji pokazuju granice za osnovnu periodu. Ovi algoritmi su osetljiviji na lokalne smetnje i samim tim su i manje pouzdani, nego algoritmi koji rade na principu kratkovremenske analize.

Neki od algoritama koji rade u vremenskom domenu su:

• analiza vremenske strukture i

• određivanje prve periode oscilovanja.

Analiza vremenske strukture Osnovna perioda je odgovor vokalnog trakta na jedan impuls pobudne funkcije. Kako vokalni trakt

odgovara jednom linearnom, pasivnom sistemu, njegov impulsni odziv predstavlja sumu eksponencijalnih, prigušenih oscilacija. Može se zato očekivati da su amplitude značajnih maksimima i minimuma signala na početku svake periode veće nego na njenom kraju. Utvrđivanje položaja tih maksimalnih i/ili minimalnih vrednosti bi moglo da posluži za određivanje osnovne učestanosti. Međutim, tu se javlja problem jer su frekvencije tih oscilacija određene formantnim učestanostima koje se mogu jako brzo menjati. Prvi formant je jako izražen pri nižim frekvencijama. Svi ovi problemi vode ka jako komplikovanim algoritmima koji moraju više puta da proučavaju vremensku strukturu signala. Najčešće se ovakva analiza sprovodi tako da se uticaj viših formanata eliminiše korišćenjem niskofrekventnog filtra, pa se onda utvrđuju svi maksimumi i minimumi. Oni se ispituju jedan po jedan, odbacuju se oni koji nisu značajni, sve dok na kraju ne ostane samo jedan maksimum po periodi. Na kraju preostaje još da se uradi korekcija na mestima gde je ona očigledno potrebna.

Određivanje prve periode oscilovanja

Osnovna perioda govora se može odrediti iz prve periode oscilacija koja se može izdvojiti iz

signala u predobradi pomoću strmijeg niskofrekventnog filtra. Proces ekstrakcije koji sledi je tada jednostavan. Najjednostavnija metoda ekstrakcije je određivanje broja preseka sa nulom (zero


78

78

crossing rate). Suština postupka je postavljanje markera uvek kada signal menja znak, odnosno prolazi kroz nulu.

Činjenica da je potreban strmiji niskofrekventni filtar predstavlja i glavni nedostatak ove brze i ne

tako intezivne metode. Takav filtar je potreban zato što treba obezbediti slabljenje visokih frekvencija od 18 dB po oktavi u okviru područja merenja osnovne učestanosti. Pored toga, poznato je da se i amplituda ulaznog signala menja u delu za ekstrakciju za više od 50 dB zbog promene osnovne učestanosti. Ovakva dinamika signala, zajedno sa inherentnom dinamikom signala koja iznosi oko 30 dB, je za ovaj algoritam previše.

Još jedan nedostatak ovog algoritma je da se za određene primene ne može koristiti. To je slučaj

kada se radi o telefonskom kanalu koji odseca niže frekvencije, ispod 300 Hz.

6.2.3. Algoritmi na principu kratkovremenske analize Kod ovih algoritama je u predobradi potrebno uraditi kratkovremensku analizu signala. Iz tog

razloga najpre treba podeliti signal na frame-ove čiju dužinu treba tako birati da bude dovoljno mala da bi se mereni parametar signala na tom intervalu mogao smatrati konstantnim, a sa druge strane, ovaj interval treba da bude dovoljno veliki da bi se taj parametar mogao uopšte meriti. Kod algoritama koji se baziraju na kratkovremenskoj analizi obično se uzima da je taj interval dve do tri osnovne periode. Interval merenja parametara signala treba uzeti da bude takav da se sve njegove promene na njemu mogu izmeriti.

Kao što imamo odmereni govorni signal, tako sada imamo i niz odmerenih vrednosti nekog od

parametara (važi teorema o odabiranju), s tim da je učestanost odmeravanja parametara dosta manja nego učestanost odmeravanja govornog signala (od 5 do 20 ms u poređenju sa 50 do 125 sμ ). Kada želimo da merimo neki parametar, onda je učestanost odmeravanja konstantna. Za neke primene, kao što je prenos ili memorisanje govora, nekada je pogodno da ova učestanost ne bude konstantna, nego da se podešava shodno ponašanju parametra koji se posmatra.

Svi algoritmi koji rade u frekventnom domenu mogu se podeliti na dve grupe. Direktno određivanje

osnovne učestanosti govora na osnovu položaju prvog maksimuma spektralne karakteristike, pokazalo se nepouzdano. Zato se posmatra fina struktura spektra. To se postiže pomoću kompresije spektra, pri čemu se osnovna frekvencija nalazi kao najveći zajednički delilac svih harmonika signala. Spektar signala se komprimuje duž frekventne ose u odnosu 1:2, 1:3... i sumira. Na frekvenciji koja odgovara osnovnoj frekvenciji javlja se izražena maksimalna vrednost.

Kod druge grupe algoritama koji rade u frekventnom domenu, spektralna karakteristika se

transformiše, vraća u vremenski domen, ali ne spektar nego njegova logaritamska vrednost. Tako nastaje kepstrum. Položaj izraženog maksimima ukazuje na osnovnu frekvenciju. Na slici 6.2.3.1. je prikazan a) vremenski oblik vokala /a/, b) njegova spektralna karakteristika, c) logaritam spektralne karakteristike i d) njegov kepstrum.

0 100 200 300 400 500 600-0.6

-0.4

-0.2

0

0.2

0.4

Am

plitu

da

Slika 6.2.3.1a. Vremenski oblik vokala /a/.


79

79

Na slikama b) i c) može se primetiti talasalost u spektru koja je posledica osnovne učestanosti.

Maksimalna vrednost na kepstralnoj karakteristici oko 125. odmerka na slici d), ukazuje na osnovnu

0 50 100 150 200 250 300-40

-20

0

20

4020*log10(|H(jf)|)

0 50 100 150 200 250 3000

5

10

15

20

|H(jf)|

Slika 6.2.3.1b. Spektralna karakteristika vokala /a/.

Slika 6.2.3.1d. Kepstrum vokala /a/.

Slika 6.2.3.1c. Logaritam spektralne

karakteristike vokala /a/:

0 50 100 150 200 2500

1

2

3

4

Kepstrum za odsecak vokala "a"


80

80

učestanost, dok se, za niže vrednosti quefrency-a, na slici vidi položaj formanata. Treba napomenuti da nižim vrednostima quefrency-a odgovaraju više frekvencije. Određivanje osnovne frekvencije se postiže utvrđivanjem položaja maksimuma, koji je u ovom slučaju negde oko 125. odmerka. Kako je učestanost odmeravanja 22.05 kHz, osnovna učestanost je negde oko 178 Hz (radi se o ženskom govorniku).

Kod bezvučnih glasova nema maksimuma u kepstrumu, pobuda nije periodičan signal. Bezvučni

glasovi imaju karakteristike belog šuma i njihova ukupna energija je manja. Korišćenjem odgovarajućeg praga za energiju, može se utvrditi kada postoji zvučni a kada bezvučni segment u govoru. Da bi ova klasifikacija bila pouzdanija, koristi se i dodatni kriterijum, računa se broj preseka sa nulom, koji ima malu vrednost kada se radi o zvučnom segmentu i veliku, kada se radi o bezvučnom segmentu. Korišćenje kepstruma za određivanje osnovne učestanosti je pouzdana metoda. Sa druge strane, računarski je dosta zahtevna.

Na kraju treba pomenuti još i metodu minimalnog kvadrata greške. U početku se ova metoda

koristila samo u matematici kada je od jednog periodičnog vremenskog signala bilo potrebno razdvojiti periodični signal nepoznate periode i beli Gausov šum, koji mu je pridodat. Kasnije se ova metoda malo modifikovala jer, niti je govorni signal idealno periodičan, niti je onaj drugi signal sa idealnom Gausovom raspodelom.

Zajedničko za sve ove algoritme koji rade u frekventnom domenu je:

• algoritmi koji vrše kratkovremensku analizu daju niz vrednosti za osnovnu učestanost za svaki od intervala u kome se merenje vrši,

• svi ovi algoritmi su neosetljivi na fazne pomeraje, šum ili na odsecanja na nižim učestanostima, pa se mogu koristiti za primene u kojima se radi o prenosu govora preko telefonskog kanala,

• računarski su prilično intezivni.

Primena LPC analize pri određivanju osnovne učestanosti Najjednostavnija metoda za određivanje osnovne frekvencije je primenom autokorelacione

funkcije. Poznato je da je kod periodičnih signala, položaj maksimuma autokorelacione funkcije ukazuje na osnovnu frekvenciju. Kako je autokorelaciona funkcija povezana sa spektralnom karakteristikom, ova metoda određivanja osnovne učestanosti se ubraja u spektralne metode. Osnovni problem kod primene autokorelacione funkcije je što prvi formant može da zasmeta određivanju osnovne frekvencije. Zato je neophodno da se najpre eliminiše uticaj prvog formanta, pa da se zatim pristupi određivanju osnovne učestanosti. To se postiže primenom LPC analize. Na slici 6.2.3.2. je šematski prikazan postupak određivanja osnovne učestanosti pomoću LPC analize.

NF filtar fg = 800 Hz

govornisignal

odmeravanjefT = 1600 Hz

inverzni filtar LPC

interpolacija zvu / bezvuf0

autokorelacija

Slika 6.2.3.2. Postupak određivanja

osnovne učestanosti pomoću LPC analize


81

81

Govorni signal se najpre filtrira niskofrekventnim filtrom čija je granična frekvencije 800 Hz. Zatim se vrši LPC analiza 4. reda (p = 4). Koristi se inverzni filtar, pa se zbog njega ova metoda naziva SIFT metoda (Simplified Inverse Filtering Technique) [4]. Signal greške kod LPC analize sadrži u sebi informaciju o osnovnoj učestanosti. Nad signalom greške se računa autokorelaciona funkcija, pa se na osnovu maksimuma autokorelacione funkcije određuje osnovna učestanost. Potrebna je i dodatna obrada da bi se korigovale eventualne greške i izvršila interpolacija, odnosno da bi se premostile one periode signala za koje je pogrešno utvrđena vrednost osnovne učestanosti.

Istraživanje signala greške

Potrebno razdvajanje informacija između filtra predikcije )(zH p i signala greške )(ne , treba da bude takvo da filtar sadrži informacije koje se tiču prenosne funkcije vokalnog trakta, a signal greške informacije o pobudnom signalu. To međutim, nije u potpunosti zadovoljeno. Ipak, posmatranje signala greške nudi idealan model za određivanje osnovne učestanosti, sve dok je govorni signal bez šuma i dobrog je kvaliteta.

AMDF - postupak

Postupak koji se može posmatrati kao nešto što je suprotno računanju autokorelacije, nešto kao

antikorelacija, je ADMF – postupak (average magnitude difference function). AMDF se definiše kao:

∑ +−=n

dnxnxdAMDF )()()( (6.2.3.1)

Za takvo d jednako osnovnoj periodi 0T , ova funkcija dostiže svoj izraženi minimum. Kako se za njeno računanje ne koristi operacija množenja, ovaj postupak nije računarski intezivan. Može se pokazati da se ova funkcija ponaša kao filtar čiji se propusni opseg podešava izborom odgovarajućeg d . Postupak određivanja osnovne učestanosti se tako svodi na postupak određivanja filtra koji najbolje odgovara signalu, što odgovara utvrđivanju minimuma za AMDF.

AMDF se kod brojnih algoritama primenjuje direktno na govornom signalu, a često se primenjuje i

na signalu greške kod LPC analize.

6.3. Određivanje tipa pobude: zvučno/bezvučno Najjednostavnija metoda za određivanje tipa pobude je analiza vrednosti amplitude signala i njeno

poređenje sa fiksnim pragovima. Jedan takav algoritam radi u dva koraka. Najpre se vrši klasifikacija govor-pauza. Najčešće se uzima za prag vrednost koja je 20 dB ispod maksimalne vrednosti amplitude signala. U drugom koraku se vrši klasifikacija segmenata govora na zvučne i bezvučne. Koristi se broj preseka sa nulom sa dva praga (S1 < S2). Svaki segment čiji je broj preseka sa nulom manji od S1 klasifikuje se kao zvučni. Svaki segment govora čiji je broj preseka sa nulom veći od S2 sigurno je bezvučan. Za opseg vrednosti između ova dva praga, uzima se da je signal takođe bezvučan, mada se može uvesti i neki detaljniji algoritam i preciznije razmatranje.

Ovaj algoritam je detaljnije razmatrao i proširio Hess (1972). On je razvio adaptivni algoritam za

klasifikaciju govor-pauza koji posmatra vrednost amplitude signala kao i promenu vrednosti amplitude. Hess polazi od toga da pozadinski šum ima mada nepoznatu, ali sporo promenljivu i ne tako veliku amplitudu, što važi za slučaj kada imamo signal dobrog kvaliteta. Suprotno ovako posmatranom


82

82

signalu šuma, nivo govornog signala opada mnogo brže i u mnogo je širim granicama. Ako se posmatra histogram amplituda signala (raspodela amplituda), za pozadinski šum tj. mesta gde nema govora, ova raspodela dostiže svoj maksimum. Tako se vrši klasifikacija govor-pauza s tim da se prag postavlja da bude par dB viši od ove vrednosti.


83

83

POGLAVLJE 7

DIGITALNI PRENOS GOVORA Postoji čitav niz slučajeva kada je potrebno da se govorni signal prenese u digitalnom obliku.

Jedan od glavnih razloga za takav prenos je da su digitalni signali otporniji na greške i smetnje od analognih signala. Oni se mogu uvek ponovo regenerisati bez greški. U postojećim sistemima za prenos govora jako je značajno da se različiti signali (podaci, govor i slika) prenesu zajedno kroz prenosni kanal. Prednost digitalnih signala je i ta da se mogu relativno lako uvesti različiti postupci zaštite što obezbeđuje tajnost i sigurnost informacija koje se prenose. Jedan od nedostataka digitalnog predstavljanja signala je što su veći zahtevi za kapacitetom kanala za prenos nego kod prenosa analognih signala. U tabeli 7.1. prikazan je potreban kapacitet kanala za prenos digitalnog govora. U praksi se primenjuju različiti postupci redukcije podataka, kako bi se omogućilo da se digitalni signali prenesu preko frekvencijski - ograničenih kanala. Svi ti postupci mogu se grubo podeliti u dve grupe [1]. U prvoj grupi su oni postupci koji teže da zadrže oblik signala. Takvi postupci se nazivaju talasno kodovanje - waveform encoding. U drugoj grupi postupaka su oni postupci koji teže da se na prijemu čuje govor što sličniji onom na predaji, pri čemu talasni oblik signala nije od značaja. Takvi postupci se nazivaju voice encoding (vokoderi). Ovakvi postupci se nazivaju i parametarski jer se kod njih mere i prenose određeni parametrui govora. Jedini kriterijum koji je ovde od značaja je kvalitet govora na prijemu.

Najveći protok od 240 kbit/s je kod prenosa visoko kvalitetnog govora (frekvencija odmeravanja

20 kHz, kvantizacija 12 bita po odmerku). Često se govori o PCM prenosu preko telefonskog kanala (učestanost odmeravanja 8 kHz, kvantizacija 8 bita po odmerku). Značajna redukcija količine podataka uz prihvatljivi kvalitet govora, postiže se primenom poluparametarskih i parametarskih postupaka (vokoderi). Najveća redukcija se može ostvariti kod fonetskog vokodera koji najpre prepoznaje pojedine foneme a na prijemu se sintetiše govor koji ne nosi ni jednu informaciju o samom govorniku. Neki od ovih postupaka biće objašnjeni u delu koji sledi.


84

84

TABELA 7.1. Potreban kapacitet kanala za prenos digitalnog govora

način prenosa kbit/s postupak

neparametarski 240 visoko kvalitetan prenos govora

64 standardni PCM

56 DPCM sa fiksnim prediktorom

32 ADPCM u telefonskom kanalu

8 donja granica neparametarskih

postupaka

poluparametarski 9.6 Adaptivna predikcija

RELP vokoder dobrog kvaliteta

4.8 poluparametarski prenos umerenog

kvaliteta

2.4 donja granica poluparametarskih

postupaka

parametarski 9.6 vokoder odličnog kvaliteta

2.4 vokoder prihvatljivog kvaliteta

0.6 donja granica parametarskih postupaka

fonetsko kodovanje 0.6 –0.2 fonetski vokoder

7.1. PCM Za diskretnu predstavu nekog vremenskog signala, mora se najpre izvršiti odmeravanje (A/D

konvertor). Vrednosti odmerenih amplituda mogu u principu da ostanu kontinualne vrednosti. Jednostavan postupak kodovanja bi se sastojao u tome da se ove kontinualne vrednosti pretvore u impulse odgovarajuće dužine i da se oni prenose. Takav postupak se zove impulsno kodovana modulacija - PCM (Pulse Code Modulation) (standard G.711 [12]).

Kod digitalnih sistema mora se i odmerena amplituda predstaviti diskretno. Ovde imamo i

diskretizaciju po vremenu (odmeravanje) i diskretizaciju po amplitudi (kvantizacija). Amplituda signala se predstavlja kao digitalna reč - niz brojeva, kao kodna reč.

7.1.1. Diferencijalna PCM (DPCM)

Poznato je da govorni signal ima u sebi dosta redundantnosti. Zato se nametnulo kao ideja da se

iskoristi korelacija između uzastopnih vrednosti odmerenog signala i da se na taj način smanji bitski protok. Najjednostavnija mogućnost za to je da se računa razlika dva uzastopna odmerka i da se ona


85

85

prenosi jer ova razlika ima manju varijansu nego sam govorni signal, pa samim tim je potrebno manje bita za njen prenos. Ovakav postupak se naziva diferencijalna PCM (DPCM). Na slici 7.1.1.1. je prikazan osnovni princip diferencijalne PCM.

Na predaji se računa signal razlike uzastopnih odmeraka govornog signala )(ne . Ova vrednost se kvantizuje, koduje i prenosi. Na prijemu se ova razlika dekoduje i služi za rekonstrukciju originalnog signala govora.

U praksi je jako važna greška kvantizacije koju treba imati u vidu na prijemu. Ovaj problem se

može izbeći ako se na predaji prilikom računanja ove razlike, takođe i greška kvantizacije uzme u obzir.

Očigledno je da je izračunavanje razlike dva uzastopna odmerka predstavlja prediktor 1. reda. Značajnije poboljšanje se dobija ako se uzme prediktor p - tog reda. Tada govorimo o DPCM-u sa fiksnim prediktorom. Naravno, isti prediktor se nalazi i na predaji i na prijemu. Na slici 7.1.1.2. prikazan je DPCM postupak sa fiksnim prediktorom.

Jako je važno da se izbegne akumuliranje greške kvantizacije. To se postiže ako se na predaji

lokalno generiše signal koji bi prijemnik rekonstruisao, pa se pomoću njega utiče na predaji na grešku kvantizacije. Na slici 7.1.1.3. je prikazan takav postupak.

s(n)++

Δ

s(n) + e(n)...

Δ tt

s(n)...

P(z)

e(n) ~e(n)Q

+

koder

~s(n)s*(n) +

+−

dekoder

~e(n)

+

~s(n)

+

P(z)

~s(n)

++

s(n)...

P(z)

+

-Q

e(n) ~e(n)

P(z)

Slika 7.1.1.1. Osnovni princip diferencijalne PCM

Slika 7.1.1.2 DPCM postupak sa

fiksnim prediktorom

Slika 7.1.1.3. Princip DPCM-a sa fiksnim prediktorom sa osvrtom na grešku kvantizacije


86

86

Koeficijenti prediktora se dobijaju na osnovu jedne veće baze govornih uzoraka. Pokazalo se u praksi da se za red prediktora p od 4 do 10, smanjuje odnos signal-šum za oko 9 dB, što znači da se signal razlike može kodovati jednim bitom manje nego da se prenosi originalni govorni signal.

7.1.2. Adaptivna diferencijalna PCM (ADPCM)

Ukoliko se uzme da je filtar-prediktor adaptivan, radi se o adaptivnoj diferencijalnoj PCM

modulaciji (ADPCM). Postupak je isti kao kod DPCM-a, s tim što je sada potrebno stalno računati koeficijente prediktora, sinhrono i na predaji i na prijemu. Kako se kod LPC predikcije, predikcija zasniva na predhodnim vrednostima, često se ovaj postupak naziva adaptacija unazad. Nedostatak ovog postupka je što prediktor ne može brzo da reaguje na promene. Ovaj postupak je usvojen kao ITU standard za prenos 32 kbit/s govora preko telefonskog kanala (standard G.721). Jedan od zahteva ADPCM-a je da se računa brzo, zbog stalnog računanja koeficijenata i signala greške, što može da bude problem, ukoliko se ne koriste neki od brzih signal procesora.

7.2. Poluparametarski vokoderi Svaki vokoderski sistem sastoji se iz dela u kome se vrši analiza signala (predajnik), prenosnog

kanala i dela gde se vrši sinteza govora (prijemnik). U predajniku se određuju značajni parametri govornog signala, kao što su spektralni parametri i tip pobude: zvučno/bezvučno, kao i osnovna učestanost. Ovi parametri ili signali, zatim se koduju i prenose. Na prijemu se dekoduju i pretvaraju u parametre ili signale. U prijemniku se od sintetizatora i pobudnog generatora sintetiše govor.

7.2.1. APC vokoder

Vokodere možemo podeliti po prirodi spektralnih parametara koji se koriste. Kod LPC vokodera

radi se o koeficijentima prediktora prenosne funkcije vokalnog trakta )(zH p . Takvo kodovanje se naziva adaptivno prediktivno kodovanje (APC vokoderi [11]) i šematski je prikazano na slici 7.2.1.1.

+

+

e(n) ~e(n)

P(z)

s(n)

−

koder

+

~s(n)s*(n)

Q...

...

dekoder

koder

segmenti20 - 30 ms

LPCkoef.

~s(n)~e(n)

+

P(z)

dekoder

+

Q

s(n)

Slika 7.2.1.1. Adaptivno prediktivno

kodovanje (APC vokoder)


87

87

Za prenos signala greške primenjuju se razni postupci. Kako je bitna informacija sadržana u LPC koeficijentima, sam signal greške se može jako redukovati. Takvi vokoderi se nazivaju RELP vokoderi (residual excited LPC vocoder). Kako nije lako odrediti tip pobude: zvučno/bezvučno, kao i osnovnu učestanost govora, ovaj tip vokodera koristi redukovan signal greške, pa se ovakav postupak naziva poluparametarski. Ako se signal greške propusti kroz niskofrekventni filtar, on treba da zadrži informaciju o osnovnoj frekvenciji i tipu pobude. Ako se pored LPC koeficijenata prenosi i osnovna učestanost, onda se govori o parametarskim vokoderima.

7.2.2. Kanalni vokoder

Kanalni vokoder se bazira na principu kratkovremenske spektralne analize. Spektralna analiza se

obavlja uz pomoć banke filtara, najčešće od 20 do 30, koji pokrivaju frekventni opseg govornog signala. Svakih 10 do 30 ms mere se i prenose izlazi iz ovih filtara. Ako se filtri realizuju kao digitalni, spektralna karakteristika se dobija pomoću diskretne Furijeove transformacije (odnosno FFT-a) digitalnog govornog signala. Pored toga, određuje se i niskofrekventni osnovni opseg koji sadrži informaciju o pobudnom signalu. Ovakav vokoder se naziva kanalni vokoder. Na prijemu se koristi ista banka filtara. Kvalitet poluparametarskih vokodera koji rade na 4.8 do 16 kbit/s je dobar, ali ne tako kao kod neparametarskih postupaka na 32 i 64 kbit/s.

7.3. Parametarski postupci Kod ovih postupaka analizira se pobudni signal, tip pobude: zvučno/bezvučno i osnovna

učestanost. Pauze u govoru se tretiraju kao bezvučni delovi male amplitude. Vokalni trakt se opisuje ili LPC koeficijentima ili spektralnim parametrima (kanalni vokoder). U prijemniku se vrši generisanje pobudnog signala, najčešće korišćenjem pojednostavljenog modela za generisanje govora koji se sastoji iz generatora šuma, generatora impulsa i prekidača koji uključuje odgovarajući generator u zavisnosti od tipa pobude, kao na slici 7.3.1. Kako se pobudni signal generiše na osnovu pojednostavljenog modela za generisanje govora, sintetisani govor zvuči metalizirano, neprirodno. Pobuđivanje samo jednim impulsom po periodi za slučaj zvučne pobude sigurno nije dovoljno i predstavlja veliko pojednostavljivanje.

k o d o v a nj e

. . .

p r e n o ss i n t e z aa n a l i z a

odredjivanjeosnovnefrekvencije

odredjivanjeparametaravokalnogtrakta

odredjivanjetipa pobude:zvu/bezvu

ulazni govornisignal

zvu/bezvu

d e k o d o v a nj e

parametri govora

impulsnigenerator

generator suma

sintetizator govora

pobudni signal

izlaznisignal

Slika 7.3.1 Princip rada parametarskih vokodera


88

88

7.3.1. Formantni vokoderi Od svih parametarskih vokodera, formantni vokoder ima svakako najniži bitski protok, ispod 1

kbit/s. Kod njih se u analizi utvrđuju formantne frekvencije i njihove amplitude i/ili frekventni opsezi i to za prva tri ili četiri formanta [3]. Pored toga još se prenose osnovna frekvencija i tip pobude, kao što pokazuje slika 7.3.1.1. Međutim, kao što je rečeno u poglavlju o formantnoj analizi, problem određivanja formanata nije lak, pa se skoro ovaj vokoder i ne koristi u praksi.

Ovaj vokoder ima veliki značaj kod sinteze govora pomoću pravila. Najpre se jedna manja količina

govornog materijala analizira i memoriše, i pomoću nje se može izaći na kraj sa eventualnim greškama u određivanju formanata, ili se primenjuje postupak generisanja formantnih trajektorija pomoću pravila bez predhodnog memorisanja govornog materijala. Za generisanje formantnih trajektorija se koriste znanja eksperimentalne fonetike.

7.3.2. Fonetski vokoder

Korišćenjem prepoznavanja govora najpre se pojedini glasovi prepoznaju i prenose se kao

simboli. Bitski protok je tada manji od 100 bit/s. Na prijemnoj strani veštački se generiše govor. Ovaj vokoder je još uvek na nivou laboratorijske primene i još uvek ne postoji njegova realizacija u realnom vremenu.

7.3.3. Standardi

ITU – International Telecommunications Union, bivši CCITT, uveo je 1972. god. standard za 64

kbit/s PCM koder. U USA i Japanu koristio se tada PCM format po μ -zakonu, dok se u ostalom delu svetu koristio PCM po A-zakonu. Kod ovih kodera svaki odmerak se predstavlja sa 8 bita, dok je učestanost odmeravanja 8 kHz. Standard je poznat kao G.711 (64 kbit/s). 1984. god. usvojen je standard G.721. To je ADPCM na 32 kbit/s. Proširenje ovog standarda je standard G.723 za 24 kbit/s i 40 kbit/s, kao i standard G.726 za 16 kbit/s.

CELP koder sa malim kašnjenjem (LD (low delay CELP) je usvojen kao standard 1992. i 1994.

god. za 16 kbit/s. Kasnije su usvojeni standard G.729 (za 8 kbit/s) i standard G.723 (za 5.3 i 6.3

govor

odredjivanje osnovnefrekvencije i tipapobude: zvu/bezvu

F1

F2

F3F3

F2

F1

B3

B2

B1

F2

F3

F1

pobudni generator

++

+

govor

Slika 7.3.1.1. Formantni vokoder


89

89

kbit/s). Ovi koderi se zasnivaju na postupku analiza pomoću sinteze (AbS). Za širokopojasni govor širine 7 kHz, usvojen je standard G.722, 1988. god. za 48, 56 i 64 kbit/s. Za digitalne celularne aplikacije, CEPT je usvojio standard na 13 kbit/s baziran na RPE-LTP algoritmu. 1994. god. ETSI je usvojila standard za 5.6 kbit/s (VSELP algoritam). Nedavno je IS-641 predložila za TDMA celularne sisteme koder na 8 kbit/s. Konačno, DoD je usvojio standarde za kodere bazirane na metodi linearne predikcije: standard FS1015 za 2.4 kbit/s i standard FS1016, CELP koder na 4.8 kbit/s. 1996. god. usvojen je novi standard na 2.4 kbit/s, MELP koder.

Za postizanje FM kvaliteta frekventnog opsega do 15 kHz i CD kvaliteta do 20 kHz, koristi se

standard ISO-MPEG1 Layer-2. Protok može biti od 32 do 384 kbit/s, koduje se jedan ili dva audio kanala mono, dual, stereo ili u joint-stereo modu. Koristi se i standard ISO-MPEG1 Layer-3, koji se bazira na perceptivnom modelu. Pored ovih, postoje i drugi komercijalni koderi, poznati su APTX koderi.


90

90


91

91

POGLAVLJE 8

AUTOMATSKO PREPOZNAVANJE GOVORA

Prepoznavanje govora ima za cilj da prepozna ono što je izgovoreno i to pretvori u niz simbola, u

niz slova, u tekst. Kod prepoznavanja govora se nepoznati signal pridružuje jednoj od K klasa. Klase mogu biti slova ili redni broj reči u nekom rečniku. Ovde se bavimo najjednostavnijim slučajem kada imamo deo govornog signala (jedan interval analize) i kada treba da ga pridružimo jednoj od K klasa. To je moguće ako se radi o prepoznavanju stacionarnih delova govornog signala, kao što su vokali.

Prvi od problema kod prepoznavanja govora je pogodno predstavljanje govornog signala.

Vremenski oblik signala sigurno nije pogodan za klasifikaciju jer oblici signala mogu biti jako različiti zbog faznog stava, a da pripadaju istom glasu. Pogodnija je zato amplitudska spektralna karakteristika, koja ne zavisi od faze. Zato se pre klasifikacije, najpre vrši predobrada signala i izdvajanje obeležja, odnosno određenih parametara govora pomoću kojih se vrši klasifikacija. Na slici 8.1. prikazan je osnovni princip sistema za prepoznavanje govora.

Postupak predobrade ima još za cilj da potisne razne smetnje kako bi se istakle one informacije

koje su od značaja za prepoznavanje. Vektor obeležja xr ili vektor parametara predstavlja vektor onih parametara govornog sgnala koji su dobijeni kao rezultat predobrade i ekstrakcije obeležja. Jednu klasu tada predstavlja jedan vektor u prostoru vektora, odnosno jedna tačka u prostoru dimenzije N.

signalodmeravanje signala

predobrada, izdvajanjeparametara

brojne vrednosti

klasifikatorvektori klasa k

Slika 8.1. Osnovni princip sistema za prepoznavanje


92

92

Predobrada signala kao postupak određivanja parametara govornog signala, može biti određivanje kratkovremenskog spektra (DFT), LPC koeficijenata, formanata, itd. Ovi parametri sadrže u sebi dosta informacija o govornom signalu koje su potrebne za prepoznavanje.

8.1.1. Prepoznavanje izolovano izgovorenih reči

Kada se radi o prepoznavanju manjih rečnika, onda se cele reči prepoznaju i tada govorimo o

sistemima za prepoznavanje izolovano izgovorenih reči. Na slici 8.1. prikazan je blok dijagram jednog sistema za prepoznavanje izolovano izgovorenih reči [13],[14],[15].

Danas su razvijeni sistemi za prepoznavanje do nekoliko stotina izolovano izgovorenih reči sa

veoma malom greškom prepoznavanja. Njihova primena je od velikog praktičnog značaja za sva ona zanimanja gde je potrebno da obe ruke budu slobodne, kao i za zadavanje govornih komandi koje olakšavaju život hendikepiranim osobama.

Sistemi za prepoznavanje izolovano izgovorenih reči su pogodni jedino za manje rečnike. Ukoliko

se drastično poveća broj reči koje treba prepoznati, nastaje problem oko dobrog modelovanja parametara svih modela za sve klase. Tada je potrebna jako velika baza govornih uzoraka. Zato, sistemi za prepoznavanje izolovano izgovorenih reči nisu pogodni za prepoznavanje kontinualnog govora. Za prepoznavanje kontinualnog govora je potrebno izvršiti segmentaciju govora na manje elementarne celine koje se prepoznaju.

predobrada

izgovorena rec

mikrofon

utvrdjivanje granica reci

normalizacija vektora

klasifikacija

izbor najslicnije mustre

ne

ucenje?da

pronalazenjenove mustrefaza ucenja

Slika 8.1. Blok dijagram sistema za prepoznavanje

izolovano izgovorenih reči


93

93

8.1.2. Prepoznavanje fonema Jedna, svakako pogodna osnova za sistem za prepoznavanje govora bi bili fonemi. Međutim, jako

je teško izvršiti segmentaciju govora na pojedinačne foneme jer je pri izgovoru jak međusobni uticaj susednih fonema, odnosno koartikulacija. Kod vokala i onih suglasnika koji sadrže stacionarne delove, moguće je jedan fonem dovoljno dobro predstaviti pomoću spektra izračunatog na centralnom delu tog fonema. Ako se spekar sastoji iz N komponenata, klasifikator će raditi u N-dimenzionalnom prostoru.

8.1.3. Prepoznavanje poluslogova

Ako posmatramo strukturu govora, možemo zaključiti da bi podela na slogove bila dobro rešenje.

Odmah se nameće problem lokalizacije jezgara slogova, odnosno centralnog dela svakog sloga. U tu svrhu može da posluži funkcija glasnosti koja ima izražene maksimume na mestima gde se nalaze jezgra vokala. Dva uzastopna sloga se mogu razdvojiti na mestu gde se nalazi munimum funkcije glasnosti.

Broj svih slogova jednog jezika je jako veliki, pa bi i broj klasa bio isto toliki, što nije dobro. Zato se

koriste delovi sloga kao celina koja se prepoznaje. Te delove nazivamo poluslogovi. Svaki slog se sastoji iz jezgra tj. vokala (V), niza suglasnika pre vokala (PNS – početni niz suglasnika) i niza suglasnika posle vokala (KNS – krajnji niz suglasnika). U jednom jeziku nisu moguće sve kombinacije suglasnika na početku i kraju sloga, što značajno smanjuje broj elementarnih celina koje treba prepoznati.

8.1.4. Prepoznavanje trifona

Sledeći korak ka izboru pogodne celine za prepoznavanje je fonem u kontekstu – trifon. Kako se

zbog efekta koartikulacije menja spektar pojedinih fonema kada se one izgovaraju u kontekstu reči, polazi se od toga da se prepoznaje fonem u kontekstu.

8.2. Sistem za prepoznavanje govora Ako želimo da se sistem za prepoznavanje govora ponaša kao što se ponaša čovek, mora se

obezbediti da i sistem za prepoznavanje ima određena ugrađena znanja i povratne sprege koje će poboljšati njegove performanse i približiti ih čovekovim. Na slici 8.2.1. prikazan je jedan takav sistem za prepoznavanje govora.

Nakon akustičke analize, vrši se prepoznavanje izabranih elementarnih govornih celina. Zatim se

vrši poređenje nizova prepoznatih celina sa rečima u rečniku. Uz pomoć gramatičkih pravila (sintaksnih), proverava se da li je takav niz reči ispravan. Sledeći korak je provera na semantičkom nivou, kada se

sintaksna analiza

semanticka analiza

prepoznata recenica

identifikacija reci

akustickaanaliza

govorni signal

Slika 8.2.1. Sistem za prepoznavanje govora


94

94

proverava da li se dobijena rečenica uklapa po smislu u predviđeni zadatak. Očigledno je da je jedan ovakav sistem jako složen.

Na slici 8.2.2. prikazana je dimenzija aplikacija automatskog prepoznavanja govora. Na x-osi je

broj reči koji se prepoznaju a na y-osi način na koji se priča. Isprekidanom linijom je odvojeno šta je do danas urađeno u svetu.

neogranicen2000

dijalog vodjenod stranesistema

prepoznavanjekljucnih reci

spontanigovor

broj reci

200

citanjeteksta

diktiranje

tecni govor

povezane reci

20 000

prirodnakonverzacija

nacin izgovora

verifikacijagovornika

prevodjenje

dijalog

20

govorne komandeizolovane

reci

Slika 8.2.2. Dimenzija aplikacija automatskog prepoznavanja govora


95

95

LITERATURA

[1] A. M. Kondoz, “Digital speech”, John Wiley & Sons, 1994. [2] S. Furui, “Digital Speech, Processing, Synthesis and Recognition”, Marcel Dekker, Inc.1989. [3] J. L. Flanagan, “Speech Analysis, Synthesis and Perception”, Springer-Verlag, 1972. [4] J. D. Markel, A. H. Gray, “Linear Prediction of Speech”, Springer-Verlag, 1976. [5] T. P. Barnwell, K. Nayebi, C. H. Richardson, “Speech coding”, John Wiley & Sons, 1996. [6] S. Furui, M. M. Sandhi, “Advances in Speech Signal Proccessing”, Marcel Dekker, Inc., 1992. [7] A. J. Viterbi, “Error Bounds for Convolutional Codes and an Asymptotically Optimum Decoding

Algorithm”, IEEE Trans. on Information Theory, IT-13, April 67’ [8] L. R. Rabiner, B-H. Juang, “An Introduction to Hidden Markov Models”, IEEE ASSP Magazine, 3 (1), 4-

16, January 1986. [9] J. Picone, “Continuous Speech Recognition Using Hidden Markov Models”, IEEE ASSP Magazine, 7

(3), 26-41, July 1990. [10] W. R. Daumer, X. Maitre, P. Mermelstein, I. Tokizawa, “Overwiew of the 32 kb/s ADPCM algorithm”,

Proc. IEEE Global Telecomm. Conference, pp. 774-777, 1984. [11] B. Atal, M. R. Schroeder, “Predictive coding of speech signals”, Bell system Technical Journal, pages

1973-1986, October 1970. [12] Lj. Stanimirović, ”Optimalni vektor parametara govornog signala u sistemu za prepoznavanje govora

zasnovanom na skrivenim Markovljevim modelima”. Časopis TEHNIKA, br. 5, 1998. [13] Lj. Stanimirović, “Prepoznavanje izolovano izgovorenih reči iz ograničenog rečnika srpskog jezika”,

magistarski rad, ETF, Univerzitet u Beogradu, 1997. [14] Z. Ćirović. “Obučavanje skrivenih Markovljevih modela za prepoznavanje izolovano izgovorenih reči iz

ograničenog rečnika”, magistarski rad, ETF, Univerzitet u Beogradu, 1996.


96

96

[15] Lj. Stanimirović, Z. Ćirović, “Sistemi za prepoznavanje pojedinačno izgovorenih reči bazirani na skrivenim Markovljevim modelima”. Originalni naučni članak. Časopis NTP, Beograd, septembar 1996.

[16] Lj. Stanimirović, Z. Ćiroviić, “Keyword spotting system for Serbian language”, in Proceedings of

ICT’99, pp. 345 - 348, Korea, 1999. [17] Lj. Stanimirović, “Prepoznavanje ključnih reči u kontinualnom govoru srpskog jezika”. Originalni naučni

rad. Časopis NTP, Vol. XLIX, br. 4, str. 1-4, Beograd, 1999. [18] Lj. Stanimirović, M. Savić, “Serbian keyword spotting system”. Originalni naučni rad. Časopis

FACTAUniversitatis, series: Electronics and Energetics, vol. 12, No 3, pp. 1-7, Niš, 1999.


97

97

INDEX

A adaptivno prediktivno kodovanje, 86 ADMF – postupak, 80 ADPCM, 84, 86 akusti~ka cev, 39 alofoni., 28 analiza govora, 25, 43 antiformanti, 34, 36, 69 anvelopa, 50 AREA – koeficijent, 66 ARMA postupci, 75 autokorelaciona funkcija., 47 autokorelaciona metoda, 58, 59, 67

B baza govornih uzoraka, 92 bezvučna pobuda, 29 BIBO stabilnost, 14 broj preseka sa nulom, 46, 47, 79, 81

D diferencijalna PCM, 85, 86 diferencna jednačina, 13 digitalni filtar, 23, 56, 57 digitalni kratkovremesnki spektar, 22 digitalni sistem, 12, 14, 19, 23 Dirakovi impulsi, 9, 10, 70 direktna forma, 24 Diskretni spektar, 22 dužina prozora, 45 Durbinov algoritam, 59

E energija, 43, 45, 46, 48, 64, 79

F fazna karakteristika, 20, 63 FFT, 22, 70, 87 fina struktura spektra, 78 FIR, 15, 23 fon, 28 foneme, 25, 26, 28, 75, 83, 93 fonetski vokoder, 88 formantna analiza, 69 formantna karta, 35 formantne frekvencije, 34, 36, 65, 66, 69, 70, 75, 87 frame rate, 44 frekventna karakteristika, 20, 62 Furijeov red, 10 Furijeova transformacija, 21, 22, 50

G glačanje kratkovremenskog spektra, 70 glasne žice, 57 govor, 25, 28, 33 govorni signal, 25, 33, 43, 50, 80 greška kvantizacije, 11, 85 greška predikcije, 56, 61

H histogram, 81 histogram amplituda, 81 homomorfna analiza, 72, 74

I IIR, 15, 24 impulsni generator, 38 impulsni odziv, 14, 15, 23, 24, 50, 62, 63, 77 informacija, 25, 26, 27, 28, 69, 76, 80, 83, 86, 92 inverzna Z-transformacija, 19


98

98

inverzni filtar, 56, 80 izdvajanje obeležja, 91

J jedinični krug, 20

K kanalni vokoder, 87 kapacitet kanala, 83, 84 kauzalnost sistema, 13 kepstrum, 72, 73, 78 KNS – krajnji niz suglasnika, 93 koartikulacija, 93 kodovanje govora, 25, 26 koeficijent preemfaze, 66 koeficijenti linearne predikcije, 56 kompleksni spektar, 63 konvolucija, 19, 72 kovarijansna metoda, 62 kratkovremenska spektralna gustina snage, 50 kratkovremenski spektar, 22, 50, 51, 65

L Laplasova transformacija, 15 lattice struktura, 61 Levinsonov rekurzivni algoritam, 59 linearni model, 33, 38, 39 linijski spektar, 10, 22 LPC spektar, 62, 63

M McCardless-ov algoritam, 75 metoda linearne predikcije, 55, 64 model vokalnog trakta, 33, 36, 39, 57, 64

N nazali,, 75

O odmeravanje, 9, 10 određivanje osnovne učestanosti, 76, 77, 78, 79, 80 osnovna frekvencija, 29, 43, 51, 76, 78, 88 osnovna učestanost, 69, 75, 79, 80, 86, 87

P PARCOR koeficijenti, 60 PNS – početni niz suglasnika, 93

poluslogovi, 26, 93 pravougaoni prozor, 46, 53 predobrada, 76, 77, 91 prenos govora, 25, 26, 83, 84 prenosna funkcija sistema, 19 prepoznavanje govora, 26, 39, 91, 93 prepoznavanje govornika, 26 prepoznavanje izolovano izgovorenih reči., 92 prozor, 23, 44, 46, 51, 53, 67 prozorska funkcija, 23, 44

R rastojanje, 36, 39 red linearne predikcije, 56 refleksioni koeficijenti, 60 rekurzivni filtar, 24, 57, 64, 69 RELP vokoderi, 86

S SIFT metoda, 80 sinteza govora, 25, 26, 86 sonogram, 65 spektar belog šuma, 56, 62 spektar snage signala, 51, 63 stabilnost sistema, 15, 19, 20 stacionarni pristup, 58 suglasnici, 29

Š šum kvantizacije, 11

T talasno kodovanje, 83 teorema o odabiranju, 11 transverzalni filtar, 56, 62 trifon, 93

V vektor obeležja, 91 vokali, 29, 35, 46, 91 vokalni trakt, 29, 33, 34, 37, 57, 66, 76, 77 vokoder, 28, 83, 84, 86, 87, 88 vremenski invarijantni sistemi, 12

Z Z-transformacija, 15, 16, 17, 18, 19, 20, 23 zvučna pobuda, 29 zvučno / bezvučno, 43


99

99

Documents

Skripta o Digitalnoj Obradi Govornog Signala