Upload
elvir-colak-ope-pastuh
View
166
Download
5
Embed Size (px)
Citation preview
____________________________D i g i t a l n a o b r a d a g o v o r a
2
2
____________________________D i g i t a l n a o b r a d a g o v o r a
3
3
Predgovor
Posle više decenija provedenih u laboratorijama, digitalna obrada signala (DSP) je danas postala
sastavni deo raznih tehnologija koje susrećemo u svakodnevnom životu. Slobodno možemo reći da je danas digitalna obrada signala osnova elektrotehnike.
Verovatno zato što je govor najprirodniji način komunikacija između ljudi, obrada govora je
najzanimljivija i najuzbudljivija oblast obrade signala. Mada postoji dosta knjiga koje se bave teorijom i aplikacijama digitalne obrade signala na
srpskom, naša namera je bila da iskustvo, sakupljeno u toku višegodišnjeg rada autora ove knjige u Institutu Mihajlo Pupin u oblasti digitalne obrade govora, prikažemo u ovoj knjizi iz našeg ugla.
Želja autora je da knjiga pomogne studentima koji se prvi put susreću sa digitalnom obradom
govora, a imaju osnovna znanja iz digitalne obrade signala, da lakše i brže savladaju i razumeju teoriju kroz praktične primere. Knjiga je takođe namenjena i svima onima koji se bave digitalnom obradom govora.
Autori se ovom prilikom, posebno zahvaljuju prof. dr Milanu D. Saviću sa Elektrotehničkog
fakulteta u Beogradu na podršci, brojnim savetima i saradnji tokom niza godina.
Autori
____________________________D i g i t a l n a o b r a d a g o v o r a
4
4
____________________________D i g i t a l n a o b r a d a g o v o r a
5
5
SADRŽAJ POGLAVLJE 1 7
UVOD U DIGITALNU OBRADU GOVORA 7 1.1. Digitalizacija govornog signala 7 1.2. Osnovni principi sistema za digitalnu obradu govora 10
POGLAVLJE 2 25
OSNOVNE KARAKTERISTIKE GOVORA 25 2.1. Fonemi 28 2.2. Vokalni trakt 29 2.3. Suglasnici i vokali 29
POGLAVLJE 3 33
MODEL VOKALNOG TRAKTA 33 3.1. Formanti i antiformanti 34 3.2. Linearni model vokalnog trakta 36 3.3. Pojednostavljeni linearni model 39 3.4. Vokalni trakt kao akustička cev 40
POGLAVLJE 4 43
PARAMETRI GOVORNOG SIGNALA 43 4.1. Princip kratkovremenske analize 43 4.2. Analiza u vremenskom domenu 45 4.3. Analiza u frekventnom domenu 50 4.4. Izbor prozorske funkcije 53
POGLAVLJE 5 55
PRINCIP LINEARNE PREDIKCIJE (LPC) 55 5.1. Prediktor kao digitalni filtar 56 5.2. Određivanje koeficijenata predikcije 57 5.3. Karakteristike u frekventnom domenu 62 5.4. Primena metode linearne predikcije na govornom signalu 64
POGLAVLJE 6 69
ODREĐIVANJE OSNOVNIH PARAMETARA GOVORNOG SIGNALA 69 6.1. Formantna analiza 69 6.2. Određivanje osnovne učestanosti govora 76 6.3. Određivanje tipa pobude: zvučno/bezvučno 81
POGLAVLJE 7 83
DIGITALNI PRENOS GOVORA 83 7.1. PCM 84 7.2. Poluparametarski vokoderi 86
____________________________D i g i t a l n a o b r a d a g o v o r a
6
6
7.3. Parametarski postupci 87
POGLAVLJE 8 91
AUTOMATSKO PREPOZNAVANJE GOVORA 91 8.2. Sistem za prepoznavanje govora 93
LITERATURA 95
INDEX 97
____________________________D i g i t a l n a o b r a d a g o v o r a
7
7
POGLAVLJE 1
UVOD U DIGITALNU OBRADU GOVORA
Novi mediji i savremena digitalna tehnologija su doprineli da su govor, muzika, video, grafika i
kompjuterska animacija dostupni zajedno na računaru i da se njihovim kombinovaljem otvaraju najrazličitije mogućnosti. Interakcija različitih medija u jednom multimedijalnom projektu i stvaranje multimedijalnog korisničkog interfejsa je potreba savremene tehnologije i svakodnevnog života.
O prirodi govornog signala, kao i o različitim postupcima digitalne obrade govornog signala biće
reči u narednim poglavljima.
1.1. Digitalizacija govornog signala
Neka se govorni signal )(tf zameni nizom impulsa )( tnf Δ , koji su na jednakom međusobnom
rastojanju tnt Δ= , a čija je površina proporcionalna analognoj vrednosti signala. Takav postupak se naziva odmeravanje.
Ako je impuls )(ta površine 1, a trajanja τ , odmeravanje signala )(tf se može izraziti kao u
(1.1.1) iskazano u delićima vremena tΔ :
)()()( tntatnfttfn
T Δ−Δ∑ Δ=+∞
−∞= (1.1.1)
Ako važi (1.1.2), onda su )(ta Dirakovi impulsi.
____________________________D i g i t a l n a o b r a d a g o v o r a
8
8
)()(lim02,1
2,0)( tta
t
tta δ
τττ
τ=
→⎪⎩
⎪⎨⎧
≤
⟩= (1.1.2)
Možemo reći da Dirakovi impulsi 'uzimaju' vrednost signala )(tf u trenucima tnΔ . Zato izraz
(1.1.1) možemo da napišemo i kao:
)()(
)()()()()(
tntttg
tgtftntttftf
n
nT
Δ−∑ Δ=
=Δ−∑ Δ=
∞+
−∞=
+∞
−∞=
δ
δ
(1.1.3)
Znači, odmeravanje se može shvatiti kao proizvod signala )(tf i funkcije )(tg , pri čemu je
)(tg beskonačan red Dirakovih impulsa pomnožen konstantom tΔ . Funkcija )(tg je periodična sa
periodom 0
1f
tT =Δ= , gde je 0f učestanost odmeravanja. Ako se )(tg razvije u Furijeov red, njegov
kompleksni koeficijent nG se računa kao u (1.1.4).
1)(1
)(1
022
2
022
2
=Δ=∫ Δ=
∫=
−
−
−
−
Ttdtett
T
dtetgT
G
tnfjT
T
tnfjT
Tn
π
π
δ (1.1.4)
Pokazuje se naime, da je spektar signala )(tg , “beo” linijski spektar koji ne zavisi od frekventne
komponente 0nf . Furijeov red signala )(tg je dat u (1.1.5).
∑ ∑==∞
∞−=
∞
∞−=n n
tnfjtnfjn eeGtg 0202)( ππ
(1.1.5)
Može se postaviti pitanje, koliko dobro funkcija )(tfT predstavlja funkciju )(tf , odnosno, koliko dobro yamenjujemo analognu funkciju )(tf njenom diskretnom funkcijom )(tfT ?
Kako je:
tfetftfn
tnfjT Δ=∑=
+∞
−∞=1)()( 002π
(1.1.6)
njena Furijeova transformacija je:
dteetffF ftj
n
tnfjT
ππ 202)()( −+∞
−∞=
∞
∞−∑∫= (1.1.7)
Ako sada integral i suma zamene mesta, dobija se:
____________________________D i g i t a l n a o b r a d a g o v o r a
9
9
dtetffF tnffj
nT
)0(2)()( −−∞
−∞=
∞
∞−∑ ∫= π
(1.1.8)
odnosno:
tfnffFfFn
T Δ=∑ −=∞
−∞=1)()( 00 (1.1.9)
)( fFT predstavlja sumu pojedinih spektara koji su dobijeni pomeranjem originalnog spektra
)( fF u frekventnom domenu za celobrojni umnožak frekvencije 0f . Može se desiti da su pojedini spektri međusobno razdvojeni, a mogu biti i preklopljeni u zavisnosti
od odnosa frekvencije 0f i maksimalne frekvencije B spektra signala )(tf . Ako je Bf 20 > onda su
pojedinačni spektri razdvojeni a ako je Bf 20 < onda se pojedinačni spektri preklapaju, kao što je prikazano na slici 1.1.1. Ako je signal )(tf frekventno ograničen, odnosno ako važi BfB <<− , spektri
signala )(tf i odmeravanog signala )(tfT su identični u opsegu ),( BB− . Iz ovoga proizilazi teorema o
odabiranju (ili odmeravanju) koja kaže da frekvencija odmeravanja signala 0f mora biti bar dvostruko veća od najveće frekvencije u spektru tog signala B, odnosno, treba da važi:
2,2 00 fBfBf gr ≤=≥ grff 20 ≥ (1.1.11)
Posle diskretizacije po vremenu, potrebno je svaku odmerenu vrednost predstaviti digitalno u
obliku binarnog broja. Taj postupak se naziva kvantizacija. Znači, digitalni oblik signala je i vremenski i amplitudski diskretan. Kako je dužina reči binarnog broja ograničena, na primer na 16 bita, uvek je prisutna veća ili manja greška kvantizacije. Greška kvantizacije se javlja kao razlika između stvarne vrednosti i vrednosti koja joj je pridružena kvantizacijom. Greška kvantizacije se ponaša kao šum kvantizacije. Kod linearne kvantizacije se može proceniti koliki je šum kvantizacije, kao:
[ ]dBWPPr w
N
Sq 2log20log20log10 =≅=
gde je SP snaga signala a NP snaga šuma, što se za duže reči svodi na: bitupodBrq 6≅ .
a)
b) c)
Slika 1.1.1. a) spektar originalnog signala b) spektar odmeravanog signala za fo > 2B c) spektar odmeravanog signala za fo < 2B
B
FT(f)
ff0
B
F(f)
f
f0
FT(f)
f
____________________________D i g i t a l n a o b r a d a g o v o r a
10
10
1.2. Osnovni principi sistema za digitalnu obradu govora Sistem za digitalnu obradu govora a je takav sistem koji na osnovu izmerenih ulaznih signala,
prema nekom algoritmu, uz pomoć utvrđenih računskih operacija, daje odgovarajuće izlazne signale. U našem slučaju ulazni signal je govorni signal. Izlazni signal može biti ponovo govorni signal, kao kod filtriranja ili procesa prenosa, ili neki parametri govora. Analogni ulazni govorni signal )(tf se odmerava, kvantizuje i pretvara u brojne vrednosti )(nx :
)()( tnfnx Δ= (1.2.1)
kojih ima ograničeno mnogo. Uzeta je oznaka )(nx koja je uobičajena kao ulazna veličina za
filtre, mada se može koristiti i oznaka )(ns s obzirom da se radi o govornom signalu. Iz izračunatih vrednosti )(ny , kao izlaznih vrednosti iz sistema za digitalnu obradu govora, pomoću D/A konvertora i NF filtra može se ponovo dobiti vremenski signal )(ny kao što pokazuje slika 1.2.1.
Sistem za digitalnu obradu signala ima svoju prenosnu funkciju H, koja u potpunosti opisuje
postupak dobijanja izlaznih od ulaznih vrednosti. Na slici 1.2.2. je dat jedan digitalni sistem.
[ ] )()( nynxH = Posmatramo samo one sisteme koji su vremenski invarijantni i linearni. Vremenski invarijantni
sistemi su oni sistemi kod kojih funkcija prenosa H ne zavisi od vremena, odnosno važi:
• ako je [ ] )()( nynxH = onda je [ ] )()( snysnxH −=− Linearnost znači da važi:
• [ ] [ ] [ ])()()()( 2121 nxbHnxaHnxbnxaH +=+ (a i b su konstante). Linearni sistemi se mogu opisati linearnim sistemom diferencnih jednačina sa konstantnim
koeficijentima kao što je to slučaj u (1.2.2):
S&H A/D
D/ANF
x(t)
y(t)
x(n)
y(n)
digitalna obrada
Slika 1.2.1. Osnovni princip
digitalne obrade govora (S & H – odmeravanje
signala; A/D, D/A konverzija; NF – niskofrekventni
filtar)
Slika 1.2.2. Digitalni sistem sa prenosnom
f
Hx(n) y(n)
____________________________D i g i t a l n a o b r a d a g o v o r a
11
11
)(...)()(....)1()( 01 qnxbnxbpnyanyany qp −++=−++−+ (1.2.2)
faktor 10 =a . Podrazumeva se kauzalnost sistema, što znači da se izlazne veličine pojavljuju tek
kada se na ulazu pojave ulazne veličine, a ne pre toga. Diferencna jednačina se može rešiti kao u (1.2.3). Iz izraza se vidi da se radi samo o tri osnovne računske operacije. To su sabiranje, množenje konstantom i pomeranje u vremenu, što je šematski prikazano na slici 1.2.3.
∑ ∑ −−−== =
q
j
p
iij inyajnxbny
0 1)()()( (1.2.3)
Na sličan način se može predstaviti i diferencna jednačina iz izraza (1.2.2). Na slici 1.2.4. je
prikazana realizacija ove diferencne jednačine.
)()()( 21 nxnxny += )()( nxcny = )1()( −= nxny
Slika 1.2.3 Osnovne računske operacije kod digitalnih sistema
Slika 1.2.4. Realizacija diferencne
jednačine
Δ
Δ
Δ
b0
b1
bq
x(n)
x(n-1)
x(n-2)
x(n-q)
b2
+ +
++
+ +
+
Δ
Δ
Δ
−
++
+
+
y(n)
y(n-1)
y(n-2)
y(n-p)
x1(n)
x2(n)
+
+
y(n)
x(n) y(n)
c
Δx(n) y(n)
____________________________D i g i t a l n a o b r a d a g o v o r a
12
12
1.2.1 Impulsni odziv linearnog sistema Linearni sistemi se mogu dobro opisati pomoću svog impulsnog odziva. To isto važi i za digitalne
linearne sisteme. Kao što je poznato, impulsni odziv sistema )(nh je odziv sistema na Dirakov impuls )(nδ :
[ ])()( nHnh δ= (1.2.1.1)
Iz teorije odmeravanja je poznato da se odmeravani signal može predstaviti kao suma proizvoda
signala i pomerenih Dirakovih impulsa kao u izrazu (1.2.1.2).
∑ −=∞
−∞=kknkxnx )()()( δ (1.2.1.2)
Ako se u izraz za prenosnu funkciju sistema uvede izraz (1.2.1.2), izlazni signal postaje:
[ ]∑ −=⎥⎦
⎤⎢⎣
⎡∑ −=
∞
−∞=
∞
−∞= kkknHkxknkxHny )()()()()( δδ (1.2.1.3)
Zamenom izraza (1.2.1.1) u (1.2.1.3), izlazni signal postaje:
∑ −=∞
−∞=kknhkxny )()()( (1.2.1.4)
što predstavlja konvoluciju. Znači, izlazni signal predstavlja konvoluciju ulaznog signala i
impulsnog odziva sistema:
)(*)()( nhnxny = (1.2.1.5) Treba imati na umu da digitalni sistem treba da bude kauzalan, odnosno da za impulsni odziv
sistema važi:
0 nnh <= 0)( (1.2.1.6) Za digitalni sistem kažemo da je stabilan, ako za ulazni ograničeni niz vrednosti imamo ograničeni
izlazni niz. Potreban i dovoljan uslov za to je:
∑ ∞<−∞=n
nh )( (1.2.1.7)
Ovaj uslov se naziva i BIBO stabilnost (bounded-input-bounded-output).
Ako pogledamo izraz za diferencnu jednačinu (1.2.3) u slučaju da su svi koeficijenti ia nula, ona se redukuje samo na jednu sumu na desnoj strani znaka jednakosti, tako da važi:
nbnh =)( (1.2.1.8)
____________________________D i g i t a l n a o b r a d a g o v o r a
13
13
odnosno, impulsni odziv je identičan koeficijentima ib , pa je i dužina impulsnog odziva ograničena na q+1 vrednost. Tada kažemo da se radi o FIR sistemu (finite impulse response). Ako je bar jedan od koeficijenta ia
različit od nule, impulsni odziv sistema može trajati vrlo dugo (neograničeno) jer imamo povratnu spregu pa sistem može da osciluje. U tom slučaju govorimo o IIR sistemu (infinite impulse response).
1.2.2. Z - transformacija
Za analizu linearnih, vremenski invarijantnih sistema koristi se Laplasova transformacija:
∫=∞
∞−
− dtetxpX pt)()( (1.2.2.1)
pri čemu je: ωσ jp += . Ako je 0=σ , radi se o Furijeovoj transformaciji kao specijalnom slučaju
Laplasove transformacije. Laplasova transformacija je kompleksna funkcija koja položajem svojih polova i nula obezbeđuje odgovarajuću stabilnost sistema koji opisuje.
Za digitalne linearne sisteme se može primeniti slična transformacija. To je Z-transformacija, koja
se definiše na sledeći način:
∑=∞
−∞=
−
n
nznxzX )()( (1.2.2.2)
Z je kompleksna i kontinualna promenljiva, mada je )(nx diskretna. Z-transformacija se ne može
posmatrati jednostavno kao diskretna Laplasova transformacija. Ako se uzme da je tpez Δ= , dobija se
Laplasova transformacija za vremenski diskretne sisteme. Za kauzalne sisteme za koje važi (1.2.1.6), izraz (1.2.2.2) postaje jednostavniji i glasi:
∑=∞
=
−
0)()(
n
nznxzX (1.2.2.3)
Kao i kod Furijeove transformacije, Z-transformacija je definisana samo za one vrednosti z za
koje transformacija konvergira. Ako se uzme u obzir Košijev kriterijum koji kaže da jedan red ∑∞
=0nnu
konvergira ako je ispunjen uslov (1.2.2.4), onda za Z-transformaciju treba da važi (1.2.2.5).
∞→
<
n1u nn
1lim
(1.2.2.4)
∞→∞→
<⋅< −−
nn
1znx1znx nnn 111)(lim,)(lim
(1.2.2.5)
____________________________D i g i t a l n a o b r a d a g o v o r a
14
14
Da bi ovaj kriterijum bio zadovoljen, izraz (1.2.2.2) ćemo podeliti na dve sume od kojih obe treba
da budu ograničene (1.2.2.6). Uvodimo dve granice za svaku sumu, −R i +R kao u (1.2.2.7).
∑+∑=∞
=
−−
−∞=
−
0
1)()()(
n
n
n
n znxznxzX (1.2.2.6)
∞→∞→
−== +−
m nmxRnxR mn
11)(lim1)(lim
(1.2.2.7)
Prvi član u sumi konvergira za +< Rz a drugi za −> Rz . Kako obe granice treba da budu ispunjene za svako z, dobijamo uslov (1.2.2.8) koji treba da bude zadovoljen:
∞<<<< +RzR-0 (1.2.2.8)
Znači, ako imamo ispunjen uslov (1.2.2.8) za neko 0zz = , onda je on ispunjen i za ceo krug
poluprečnika 0z . Za kauzalne sisteme imamo samo granicu −R tako da je oblast konvergencije izvan
kruga poluprečnika −R . U tabeli 1.2.2.1. je dat pregled kriterijuma konvergencije za razne redove.
TABELA 1.2.2.1. Pregled kriterijuma konvergencije
Z-transformacija Oblast
konvergencije
Poluprečnik
konvergencije
Konačan
red
∑==
−2
1)()(
n
nn
nznxzX
∞<< z0
Neograničen
Red
ograničen
sa donje
strane
∑=∞
=
−
1)()(
nn
nznxzX
∞<< zR-
∞→
=−
nnxR n1)(lim
Red
ograničen
sa gornje
strane
∑=−∞=
−2)()(
n
n
nznxzX
+<< Rz0
nnxR
1)(lim1−=
+
Beskonačan
red
∑=∞
−∞=
−
n
nznxzX )()(
+<< RzR-
nnx
R1)(lim1
−=+
∞→
=−
nnxR n1)(lim
____________________________D i g i t a l n a o b r a d a g o v o r a
15
15
Primer 1. Posmatrajmo signal koji je definisan kao : 01)( >= nzanx . Kao što je poznato
za beskonačni geometrijski red važi: 1uu
un
n <−
=∑∞
= 11
0 . Ovaj red konvergira za 1u < . Ako to
primenimo na naš primer, Z-transformacija signala )(nx postaje:
111)(
)()(
1
0
−=
−=
∑=∑=
−
∞
=
−∞
−∞=
−
zz
zzX
zznxzXn
n
n
n
koja konvergira za 1z > . Ovde su poluprečnici konvergencije: 1=−R i ∞=+R .
____________________________D i g i t a l n a o b r a d a g o v o r a
16
16
Primer 2. Posmatrajmo niz 0nanx n >=)( . Njegova Z-transformacija je:
∑=∑=∞
=
−−∞
−∞= 0
1)()(n
nn
n
n zazanX ,
odnosno, azz
zza
zX >−
=−
=− 11
1)( 1
a poluprečnici konvergencije su: aR =− i ∞=+R . Kao što se iz dobijenog rezultata vidi, primer 1 je poseban slučaj primera 2.
Primer 3. Neka je dat niz nanx =)( . Poluprečnici konvergencije se mogu izračunati prema kao:
∞→
==−
n
aaR nn1
lim∞→
==−= −+
maamxR m 11
1)(lim1 (1.2.2.9)
Kako su obe granice iste, a kako treba da bude ispunjen uslov (1.2.2.8), može se zaključiti da
ovde nema konvergencije. Primer 4. Neka je dat niz )(nx koji predstavlja jedinični impuls tj. )()( nnx δ= . Njegova Z-
transformacije je 1)( =zX . Oblast konvergencije je celokupna z-ravan. U tabeli 1.2.2.2. su date Z-transformacije i oblast konvergencije za neke nizove.
TABELA 1.2.2.2. Elementarni nizovi i njihove Z-transformacije
kauzalni signal
(x(n)=0 za n<0)
X(z) Oblast
konvergencije
δ(n)=1 za n=0 1
x(n)=1 za n>=0 111
−− z
1z >
na
11
1−− za
az >
nan
21
1
)1( −
−
− zaza
az >
)2sin( tfnΔπ
21
1
)2cos(1)2sin(
−−
−
+Δ−
Δ
zztfztf
ππ
1z >
)2cos( tfnΔπ
21
1
)2cos(1)2cos(1
−−
−
+Δ−
Δ−
zztfztf
ππ
1z >
____________________________D i g i t a l n a o b r a d a g o v o r a
17
17
Kao i kod Furijeove transformacije i kod Z-transformacije postoje odgovarajuće relacije u odnosu na signal u vremenu. U tabeli 1.2.2.3. su date te relacije.
TABELA 1.2.2.3. Oslovne relacije između signala u vremenskom domenu i njegove Z-
transformacije
signal u vremenskom
domenu
Z-transformcija
)()( 21 nbxnax +
)()( 21 zbXzaX +
)( knx +
)(zXzk
)( nx −
)( 1−zX
∑ −=
N
kknhkx
0)()(
)()( zHzX
)(nxn dz
zdXz )(−
)(nxan
)( 1 zaX −
Za kauzalni sistem Z-transformacija konvergira, ako uopšte konvergira, u oblasti izvan kruga
poluprečnika −R u z-ravni. Od značaja su vremenski ograničeni, kauzalni signali kao u (1.2.2.10):
0,0)()( 212
1>>∑=
=
− nnznxzXn
nn
n (1.2.2.10)
čija Z-transformacija konvergira za svako z za 0,0 21 >> nn , ali ne i za z=0, ako važi :
21)( nnnnx ≤≤∞< . (za n>0, član nz−
za z=0 divergira) Od date Z-transformacije, H(z) može se dobiti odgovarajući niz x(n) pomoću inverzne Z-
transformacije. Ona se definiše preko integrala:
∫= −
C
n dzzzXj
nx 1)(21)(π (1.2.2.11)
pri čemu je C zatvorena kontura u z-ravni u oblasti konvergencije )(zX po kojoj se integrali u
smeru suprotnom kretanju kazaljke na satu. Kako Z-transformaciju koristimo za utvrđivanje ponašanja linearnog digitalnog sistema, inverzna Z-transformacija nam nije od nekog većeg značaja.
1.2.3. Prenosna funkcija sistema H(z)
Linearni, digitalni sistem je potpuno opisan diferencnom jednačinom koju ovde navodimo još
jednom:
∑ ∑ −−−== =
q
j
p
iij inyajnxbny
0 1)()()( (1.2.3.1)
____________________________D i g i t a l n a o b r a d a g o v o r a
18
18
Ako primenimo Z-transformaciju, dobijamo sledeću relaciju:
∑ ∑−== =
−−q
j
p
i
ii
jj zYzazXzbzY
0 1)()()( (1.2.3.2)
pri čemu je )(zX , Z-transformacija )(nx a )(zY , Z-transformacija )(ny . Ako se ovaj izraz sredi
po )(zY , dobija se:
)(1
)(
1
0 zXza
zbzY
ii
p
i
q
j
jj
−
=
=
−
∑+
∑= (1.2.3.3)
)()()( zXzHzY = (1.2.3.4) Z-transformacija izlaznog niza je proizvod Z-transformacije ulaznog niza i prenosne
funkcije sistema H(z). Prenosna funkcija sistema je funkcija od 1−z i opisuje ponašanje linearnog
sistema:
ii
p
i
q
j
jj
za
zbzH
−
=
=
−
∑+
∑=
1
0
1)( (1.2.3.5)
Treba se samo podsetiti da ako važi izraz (1.2.3.4) u frekventnom domenu, izraz (1.2.3.6) važi u
vremenskom domenu,
)(*)()( nxnhny = (1.2.3.6) odnosno, izlazni niz je konvolucija ulaznog niza i impulsnog odziva sistema, a prenosna
funkcija sistema je Z-transformacija impulsnog odziva sistema. Stabilnost sistema zavisi od položaja polova prenosne funkcije sistema, odnosno nula polinoma u
imeniocu izraza za prenosnu funkciju sistema (1.2.3.5). Kažemo da je sistem stabilan kada se svi polovi prenosne funkcije sistema nalaze unutar jediničnog kruga u z-ravni. Za kauzalan sistem prenosna
funkcija )(zH treba da konvergira u celoj oblasti 1≥z . Kako )(zH ne konvergira u tačkama gde se nalaze polovi, oni moraju da leže unutar jediničnog kruga da bi se garantovala stabilnost sistema. Kako
su koeficijenti ii ba , realni brojevi, polovi i nule prenosne funkcije sistema su ili realni brojevi ili su konjugovano kompleksni parovi.
Ako linearni sistem pobudimo signalom sinusoidalnog oblika, na izlazu imamo odziv sistema koji
je takođe sinusoida iste učestanosti, ali druge amplitude i faze. Posmatrajmo kompleksni ulazni signal )(nx :
____________________________D i g i t a l n a o b r a d a g o v o r a
19
19
tnnenx nj Δ== Ω)( (1.2.3.7)
čija je frekvencija Ω a perioda π2 . Izlazni signal dobijamo kao konvoluciju ulaznog signala i
impulsnog odziva sistema:
njj
nj
k
kj
knj
k
eezH
eekh
ekhny
ΩΩ
Ω∞
−∞=
Ω−
−Ω∞
−∞=
==
∑=
∑=
)(
)(
)()()(
(1.2.3.8)
Iz izraza (1.2.3.8) se vidi da je i izlazni signal sinusoidalan. Njegova kompleksna amplituda zavisi
od Z-transformacije prenosne funkcije sistema. Kada se uzme da je Ω= jez , izraz (1.2.3.9) predstavlja
frekventnu karakteristiku prenosne funkciije sistema:
)( Ω= jezH (1.2.3.9) Drugim rečima, frekventna karakteristika prenosne funkcije sistema se dobija kada se
izračuna njegova Z-transformacija duž jediničnog kruga 1=z . Naravno, jedinični krug mora da pripada oblasti konvergencije. Izraz (1.2.3.9) se često skraćeno piše )(ΩH . Tako da važi:
∑=Ω∞
−∞=
Ω
n
njenhH )()( (1.2.3.10)
Amplitudska i fazna karakteristika se računaju respektivno kao:
)(Re())(Im(arctan)(
)(
ΩΩ
=Ω
Ω
HH
H
φ
(1.2.3.11)
gde je Ω bezdimenzionalna veličina. To je normirana frekvencija periode π2 koja definiše
kretanje po jediničnom krugu. )(ΩH predstavlja (kompleksnu) Furijeovu transformaciju za vremenski diskretne signale, kontinualna je funkcija i periodična sa periodom π2 . Impulsni odziv se dobija inveznom transformacijom, kao u (1.2.3.12).
Ω∫ Ω= Ω
−deHnh njπ
ππ)(
21)( (1.2.3.12)
Posebno je značajna diskretna Furijeova transformacija. Ako frekventnu karakteristiku računamo
na diskretnim frekvencijama tfkk Δ=Ω π2 , dobijamo diskretnu Furijeovu transformaciju. Ako je
____________________________D i g i t a l n a o b r a d a g o v o r a
20
20
tf
Δ=
10 , nalazimo se na jediničnom krugu u tački 1=z koja odgovara i svim celobrojnim umnožcima
frekvencije odmeravanja 0f . Tački 1−=z na jediničnom krugu, odgovara frekvencija 20f što predstavlja i maksimalnu frekvenciju koja postoji u signalu (po teoremi o odmeravanju). Deo jediničnog
kruga od 0 do π , odgovara pozitivnim frekvencijama od 0 do 20f , dok deo jediničnog kruga od 0 do π− , odgovara negativnim frekvencijama od 0 do - 20f .
Na osnovu svega navedenog može se zaključiti da je Furijeova transformacija vremenski
diskretnih signala poseban slučaj Z-transformacije. Ako Z-transformaciju posmatramo na jediničnom krugu, dobijamo spektralnu karakteristiku.
Primer
Neka je data prenosna funkcija sistema: 21
21
85.02.1165.08.12)(
−−
−−
+−
++=
zzzzzH . Njoj odgovara sledeća
diferencna jednačina:
)2(65.0)1(8.1)(2)2(85.0)1(2.1)( −+−+=−+−− nxnxnxnynyny . Polove i nule ove prenosne funkcije dobijamo ako izjednačimo imenilac i brojilac sa nulom tj.
065.08.12,085.02.11 2121 =++=+− −−−− zzzz .
Rešenja ovih kvadratnih jednačina su konjugovano kompleksni par polova 7.06.02,1 jz p ±= i
konjugovano kompleksni par nula 35.045.02,01 jz ±−= . Polovi i nule leže unutar jediničnog kruga, pa se može zaključiti da je sistem stabilan. Na slici 1.2.3.1.1. su date amplitudska i fazna karakteristika ovog sistema. Može se zaključiti da se radi o sistemu koji ima karakteristike filtra propusnika opsega.
1.2.4. Diskretna Furijeova transformacija (DFT)
Slika 1.2.3.1. Amplitudska i
fazna karakteristika prenosne funkcije sistema
____________________________D i g i t a l n a o b r a d a g o v o r a
21
21
Diskretnu Furijeovu transformaciju možemo posmatrati kao poseban slučaj Z-transformacije. Neka je dat vremenski ograničeni, konačan signal:
)1....(0),( −= Nnnx (1.2.4.1)
Njegova frekventna karakteristika se računa kao:
∑=Ω−
=
Ω−1
0)()(
N
n
njenxX (1.2.4.2)
Kako je signal ograničen u vremenu, može se odmeravati u frekventnom domenu. Neka je broj
odmeravanih vrednosti M (pri čemu važi NM ≥ ). Spektar računamo u tačkama fmΔ :
)1....(0,)()(1
0
2 −=∑=−
=
− MmenxmXN
n
Mnmj π (1.2.4.3)
Poseban slučaj nastaje kada je NM = . Tada dobijamo izraz za diskretnu Furijeovu
transformaciju::
)1....(0)()(1
0
2 −=∑=−
=
− NmenxmXN
n
Nnmj π (1.2.4.4)
Ako Z-transformaciju vremenski ograničenog (ili periodičnog) signala računamo u ekvidistantnim
tačkama Nmjez π2= na jediničnom krugu, dobijamo diskretnu Furijeovu transformaciju signala. Znači,
u vremenskom domenu posmatramo signal u trenucima tnΔ , a u frekventnom domenu na
frekvencijama fmΔ , pri čemu važi relacija: Nf
tNf 01
=Δ
=Δ .
Inverzna diskretna Furijeova transformacija (IDFT) se računa kao:
∑=−
=
1
0
2)(1)(N
m
NnmjemXN
nx π (1.2.4.5)
Diskretnom spektru odgovara periodičan vremenski signal i obrnuto, diskretnom vremenskom
signalu odgovara periodičan spektar. Najčešće se u praksi uzima da je N stepen broja 2 i koristi se optimalan, brzi algoritam za
računanje diskretne Furijeove transformacije (FFT- Fast Fourier Transform). Digitalni kratkovremenski spektar ),( nmS govornog signala )(ns je funkcija diskretne frekvencije
( fmΔ ) i diskretnog vremena ( tnΔ ). Neka se signal )(ks množi funkcijom )(kw koja je ograničena na N vrednosti i simetrično je postavljena u odnosu na tačku n . Takvu funkciju nazivamo prozorska funkcija. O njenoj ulozi biće više reči kasnije.
Kao i kod analognog kratkovremenskog spektra i digitalni kratkovremesnki spektar računamo za
svaki trenutak n , kao:
____________________________D i g i t a l n a o b r a d a g o v o r a
22
22
∑ −−=−=
−=
−12
2
2)1()(),(Nn
Nnk
NkmjeknwksnmS π (1.2.4.6)
U praksi se deo vremenskog signala dužine N i prozorska funkcija memorišu kao vektor, tako da indeks k ide od 0 do 1−N . Kao prozorsku funkciju koristimo pomereni Hamming-ov prozor, pomeren
za 2N vrednosti. Za njega važi:
10)2cos(46.054.0)( −≤≤−= NkNkkw π (1.2.4.7)
Kratkovremenski spektar za vremenski trenutak n označavamo sa )(mSn , pa se izraz (1.2.4.6) može jednostavnije pisati kao:
∑=−
=
−1
0
2)()()(N
k
Nkmjn ekwksmS π
(1.2.4.8)
Primer Neka se vremenski signal odmerava sa 20 kHz (Δt = 50 υs). Neka je prozorska funkcija dužine N
= 256, što odgovara vremenskom intervalu od 12.8 ms. Rezolucija diskretne Furijeove transformacije je:
HztN
f 781=
Δ=Δ . Strogo matematički gledano širina opsega prozorske funkcije mB je:
HztN
Bm 15621
≅Δ
= , dok je stvarna širina: HzBB m 782 == .
1.2.5. Digitalni filtri Linearni, digitalni sistem koji od ulaznog niza )(nx pravi izlazni niz )(ny , naziva se linearni,
digitalni filtar. Digitalni filtar se može realizovati hardverski i softverski. Jedan digitalni filtar je potpuno određen svojom prenosnom funkcijom )(zH . Kao što smo već rekli, prenosna funkcija je definisana kao:
∏ −
∏ −
=∑+
∑=
=
=
−
=
=
−
p
ipi
q
jj
ii
p
i
q
j
jj
zz
zzH
za
zbzH
1
10
0
1
0
)(
)(
1)( (1.2.5.1)
gde je 0H konstanta, a pioj zz , su nule i polovi. Kao što se može videti, koriste se samo tri računske operacije: sabiranje, množenje i pomeranje. Pomeraju u vremenu za jedan vremenski interval
tΔ odgovara množenje sa 1−z kod Z-transformacije. Ako u vremenskom domenu imamo )1( −nx ,
njegova Z-transformacija je 1−z )(zH pri čemu je )(zH Z-transformacija od )(nx . Umesto bloka za
pomeranje u vremenskom domenu koristimo blok sa oznakom 1−z i tako dobijamo tzv. direktnu formu
digitalnog filtra, kao što pokazuje slika 1.2.5.1.
____________________________D i g i t a l n a o b r a d a g o v o r a
23
23
Ako prenosna funkcija filtra ima samo koeficijente jb ( piai ...1,0 == ), tada govorimo o transverzalnom filtru. Njegov impulsni odziv je uvek vremenski ograničen (FIR filtar). Prenosna funkcija ima q realnih ili konjugovano kompleksnih nula u z-ravni. Ovakav filtar je uvek stabilan.
Ako prenosna funkcija filtra ima i koeficijente ja ( qjbj ...1,0 == ), tada govorimo o rekurzivnom filtru. Njegov impulsni odziv je uvek vremenski neograničen (IIR filtar) a prenosna funkcija ima oblik kao u (1.2.5.2). Ovakav rekurzivni filtar p-tog reda ima p realnih ili konjugovano kompleksnih polova u z-ravni. Osim tačke 0=z gde funkcija ima nulu p-tog reda, ona nema drugih nula. Da bi ovakav filtar bio stabilan njegovi polovi moraju da leže unutar jediničnog kruga.
1)( 0
0
0
0
0 =∑
=∑
=
=−
=
−a
za
zb
za
bzH p
i
iip
p
p
i
ii
(1.2.5.2)
Ako filtar ima i jedne i druge koeficijente, radi se o mešovito-rekurzivnom filtru koji ima i nule i
polove a stabilan je ako mu polovi leže unutar jediničnog kruga u z-ravni. Direktna forma digitalnog filtra
se može malo preurediti tako da sadrži minimalan broj članova 1−z . Tako dobijamo kanonsku formu
filtra, prikazanu na slici 1.2.5.2.
x(n)
b1
b2
bq-1
bq
y(n)+
++
+b0
. . .
-ap-1
. . .
++
++
z-1
z-1
z-1
-a2
-a1
z-1
z-1
. . .
z-1
-ap
. . .
z-1
b2
-a1
++
-ap-1
b0
+
z-1
bq
bq-1
-ap
. . .
++
x(n)
. . .
. . .
+
-a2
b1
+
y(n)
z-1
+
Slika 1.2.5.1. Direktna forma digitalnog filtra
Slika 1.2.5.2. Kanonska forma
digitalnog filtra
____________________________D i g i t a l n a o b r a d a g o v o r a
24
24
Ovakva forma nam olakšava da se softverski proračuna ovakav filtar jer sadrži minimalan broj pomeranja i sabirače sa dva člana. Moguće su i druge varijante kod kojih imamo smanjeni broj sabirača ali oni sabiraju po tri člana.
____________________________D i g i t a l n a o b r a d a g o v o r a
25
25
POGLAVLJE 2
OSNOVNE KARAKTERISTIKE GOVORA
Govor sigurno predstavlja najznačajnije sredstvo komunikacija između ljudi. Govorni signal nosi
informaciju koja se prenosi od onoga ko priča ka onome ko sluša, preko različitih nivoa. Tabela 2.1. prikazuje te nivoe informacija.
Kada govorimo o obradi govornog signala, podrazumevamo sve nivoe informacija govornog
signala, a akustičko-fonetski nivo smatramo najvišim. Za razliku od pisanog teksta, gde imamo niz slova, znači precizno poređanih diskretnih elemenata azbuke, kod izgovorenih reči to nije slučaj jer pri izgovoru susedne elementarne celine – fonemi, utiču jedan na drugog i najčešće je veoma teško naći granicu gde se jedan završava a gde drugi počinje. Glavna informacija je sadržana u prelazima sa jednog na drugi fonem, tako da su ovi prelazi jako značajni sa stanovišta akustičkog prenosa informacija. Tu ustvari i leži glavni problem kod prepoznavanja govora - kako pridružiti niz akustičkih događaja, koji se javljaju pri izgovoru, nizu fonema. Jedna od značajnih karakteristika akustičkog signala je veliki protok informacija, koji je prikazan u tabeli 2.2.
Kada govorimo o obradi govornog signala tada podrazumevamo sve postupke koji kao ulazni ili
kao izlazni parametar imaju govorni signal. U zavisnosti od toga koji se sve nivoi informacija, prikazani u tabeli 2.1, obuhvataju primenjenim postupcima obrade, govorimo o analizi, sintezi ili prenosu govora. Svaki nivo informacija se može predstaviti određenim skupom parametara. Ako idemo sa nižeg ka višem nivou informacija uvek imamo redukciju podataka koji se obrađuju. Svi oni postupci nad govornim signalom, takvi da se ide ka višim nivoima informacija, pripadaju oblasti koja se zove analiza govora. Ako su postupci takvi da se sa viših nivoa informacija ide ka samom govornom signalu, onda govorimo o oblasti koja se zove sinteza govora. Ako je govorni signal i početak i kraj postupaka obrade, radi se o oblasti koju nazivamo prenos govora.
____________________________D i g i t a l n a o b r a d a g o v o r a
26
26
TABELA 2.1. Nivoi informacija govornog signala
nivo informacija predstavnik
akustički govorni signal
parametarski parametri vokalnog trakta
akustičko-fonetski foni i druge fonetske jedinice
fonetski fonemi, slogovi, poluslogovi…
leksički morfeme ili reči
sintaksni grupe reči, rečenice
semantički sadržaj ili značenje iskaza
pragmatički tematika nekog iskaza (kontekst)
prozodijski naglasak, promena osnovne učestanosti
pojedinačna
obeležja
boja glasa, dijalekt, stil govora pojedinog
govornika… Najznačajnije primene digitalne obrade govornog signala su:
• prenos govora. Postupci se sastoje u tome da se njima obezbedi neoštećeni prenos govora od predajnika do prijemnika. Jedan od značajnijih postupaka, koji se primenjuju pri prenosu je kodovanje govora. Cilj kodovanja je da se govor prenese sa što je moguće nižim bitskim protokom, pogodnim izborom parametara govornog signala i njihovim kodovanjem, i što boljim ostvarenim kvalitetom govora. Ta dva zahteva su međusobno suprotna. Za bolji kvalitet govora koristi se kvantizacija sa više nivoa (kodovanje sa više bita). Za ograničeni propusni opseg kanala potrebno je kodovati sa što je moguće manje bita.
• skladištenje - memorisanje govornog signala. Ukoliko je potrebno da se što više govora smesti na disk računara, potrebno je voditi računa o tome da on zauzme što je moguće manje memorijskog prostora. To se postiže korišćenjem parametara govora i različitim postupcima kodovanja, odnosno kompresije.
• prepoznavanje govora. Postupci se sastoje u tome da računar prepozna šta je izgovoreno odnosno, da prepozna akustičku informaciju koju nosi govorni signal. Ovde je od značaja prepoznati i pretvoriti ono što je izgovoreno u niz reči.
• prepoznavanje i verifikacija govornika. Postupci se sastoje u tome da se pronađe govornik iz baze govornika, koji je izgovorio tekst (prepoznavanje govornika) odnosno, da se utvrdi da je određeni govornik izgovorio tekst (verifikacija govornika). Potrebno je raspolagati specifičnim informacijama karakterističnim za pojedine govornike. Ova oblast je značajna za pristup specifičnim sistemima pomoću tzv. govornog potpisa.
____________________________D i g i t a l n a o b r a d a g o v o r a
27
27
• sinteza govora. Pod sintezom govora se podrazumeva generisanje govornog signala iz teksta (TtS – text-to-speech). Sintetizovan govor treba da zvuči što prirodnije. Suština postupaka je da se govor sintetiše iz manjih govornih celina odnosno, nije potrebno da se memoriše ceo govorni signal. Sinteza govora je značajna za one aplikacije gde je potrebno da se, kao odgovor na neko pitanje na primer, preko telefonske linije, generiše govorna poruka u sistemima za pružanje informacija (govorni automati).
Pod analizom govornog signala i pod sintezom govora podrazumevamo u užem smislu, sisteme i
algoritme koji prave prelaz sa akustičkog na parametarski nivo i obrnuto. U okviru ovog razmatranja zadržaćemo se na akustičkom, parametarskom i akustičko-fonetskom
nivou. Svaki prelaz sa nižeg na viši nivo informacija, povezan je sa izvesnim gubitkom informacija. Tako je i jedan od osnovnih problema razdvojiti korisne informacije od nebitnih.
____________________________D i g i t a l n a o b r a d a g o v o r a
28
28
TABELA 2.2. Protok informacija za različite vidove predstavljanja govornog signala
Nivo
protok
(bit / s)
Način predstavljanja
240 000
HiFi – govorni signal
(odmeravanje 20 kHz, 12 bita po odmerku)
64 000 govor telefonskog PCM kvaliteta
(odmeravanje 8 kHz, 8 bita po odmerku)
akustički
8 000 najniža granica za predstavljanje na akustičkom nivou
(sa primenjenim postupcima kodovanja)
parametarski 9 000 parametarska predstava signala dobrog kvalitetom
4 800 parametarska predstava signala dobriog kvaliteta (sa
primenjenim postupcima kodovanja)
2 400 parametarska predstava signala srednjeg kvaliteta
600 donja granica za parametarsku predstavu signala
akustičko-
fonetski
200 -
600
parametarsko-fonetska predstava signala
(fonetski vokoder)
fonetski 20 predstavljanje signala kao niza fonema (30 fonema, 5
bita po fonemu, brzina: 10 glasova u sekundi), bez
ograničenja lingvističke prirode
fonetski i viši
nivoi
10-20 ugrađena informacija koja je potrebna za razumevanje
sa ograničenjima tipa sintaksa, semantika, fonetika
2.1. Fonemi Govor se sastoji iz manjih jezičkih celina koje omogućavaju da se dva različita izraza razlikuju po
značenju. Te celine se nazivaju fonemi. Za jedan jezik, fonem možemo definisati kao celinu koja prilikom zamene nekim drugim fonemom menja značenje izraza u kome se on nalazi. Svaki jezik ima određeni broj sebi specifičnih fonema. Pri izgovoru fonema, govornik ima u neku ruku slobodu da ih izgovori kako hoće. Svaki od mogućih izgovora jednog fonema predstavlja fon, a svi mogući izgovori jednog fonema se nazivaju alofoni.
____________________________D i g i t a l n a o b r a d a g o v o r a
29
29
2.2. Vokalni trakt Podelu glasova ćemo bolje razumeti ako posmatramo strukturu čovekovog vokalnog trakta. Kao
što je poznato, vazdušni talas proizveden iz pluća se kreće kroz dušnik, grlo i kroz usnu duplju, a za neke glasove paralelno i kroz nosnu šupljinu. U grkljanu se stvara pobuda za deo koji sledi i koji nazivamo vokalni trakt. Tu se kažemo, formira govorni signal.
Razlikujemo tri različite pobude za nastanak govornog signala:
• zvučna pobuda. Glasne žice periodično trepere. Frekvencija treperenja se naziva osnovna frekvencija. Zvučni glasovi su vokali i pojedini suglasnici.
• bezvučna pobuda. Vazduh struji i u usnoj šupljini nastaje pobudni signal koji podseća na šum. Javlja se turbulentno strujanje vazduha. Bezvučni glasovi su suglasnici, kao na primer: š, s, h, f.
• prelazna pobuda. Vazduh u usnoj duplji nailazi na prepreku koja nastaje naglim otvaranjem usta, kao što je slučaj pri izgovoru ploziva: p ili b.
2.3. Suglasnici i vokali Fonemi se dele na vokale (samoglasnike) i suglasnike. Vokali su zvučni glasovi i izgovaraju se sa
manje ili više otvorenim vokalnim traktom. U srpskom jeziku imamo pet vokala: a, e, i, o, u. Pojedini delovi vokalnog trakta su odgovorni za izgovor određenih suglasnika. Suglasnik može nastati pobudom glasnih žica, ali i ne mora. U zavisnosti od toga, sve suglasnike delimo na zvučne i bezvučne. Suglasnici se mogu podeliti po načinu i mestu izgovora. Način izgovora pokazuje kako se ponaša vazdušni talas pri izgovoru tog suglasnika. Mesto izgovora pokazuje koji su organi, odnosno delovi vokalnog trakta odgovorni za nastanak suglasnika. U tabeli 2.3.1. je dat pregled suglasnika srpskog jezika po vrsti pobude. U tabeli 2.3.2 je dat pregled suglasnika po mestu izgovora. U srpskom jeziku ima 25 suglasnika.
TABELA 2.3.1. Podela suglasnika po vrsti pobude
Zvučni bezvučni
eksplozivni, praskavi ili
plozivi
b, d, g p. t, k
frikativi ili strujni z, ž s, š, f, h
afrikate ili sliveni dž, đ č, ć, c
sonanti j, r, l, lj, v, m, n , nj
____________________________D i g i t a l n a o b r a d a g o v o r a
30
30
TABELA 2.3.2. Podela suglasnika po mestu izgovora
p o m e s t u n a s t a n k a
bilabijalni – usneni p, b, m
labiodentalni - usnenozubni f, v
dentalni – zubni c, d, t, s, z
alveolarni – nadzubni r, l, n
palatalni – prednjenepčani č, dž, ć, đ, j, lj, nj, š, ž
velarni – zadnjenepčani k, g, h
nazalni – nosni n, m, nj Na slikama koje slede dati su vremenski oblici govornog signla jednog govornika. Na slici 2.3.1 je
prikazan vremenski oblik vokal /a/ u vremenu. Na x-osi je redni broj odmerka, a na y-osi je relativni nivo u odnosu na maksimalnu amplitudu u celoj rečenici iz koje je izdvojen deo prikazan na slici. Sa slike se može uočiti periodičnost signala, koja je karakteristična za zvučne glasove. Na slici 2.3.2 je prikazan vremenski oblik ploziva /p/ u reči. Plozivi ili praskavi glasovi su i dobili ime po vremenskom obliku signala, nastaju kao prasak, odjednom. Na slici 2.3.3 je prikazan vremenski oblik govornog signala pri prelazu sa suglasnika /p/ na vokal /e/. Sa slike se može uočiti prelaz na stacionarni deo koji predstavlja vokal. Slika 2.3.4 prikazuje prelaz bezvučno /s/ - zvučno /a/. Na slici 2.3.5 je prikazan vremenski oblik govornog signala pri izgovoru reči /pobedio/.
Slika 2.3.1. Vremenski oblik vokala /a/
Slika 2.3.2. Vremenski oblik ploziva /p/
____________________________D i g i t a l n a o b r a d a g o v o r a
31
31
Slika 2.3.3. Vremenski
oblik signala pri prelazu sa ploziva /p/ na vokal /e/
Slika 2.3.5. Vremenski oblik govornog signala (reč /pobedio/)
Slika 2.3.4. Vremenski
oblik govornog signala pri prelazu sa suglasnika /s/ na vokal /a/
____________________________D i g i t a l n a o b r a d a g o v o r a
32
32
Postoji velika varijabilnost (promenljivost) istih fonema u govoru različitih, ali i istih govornika (ili
kažemo, subjekata). To je i najveći problem u prepoznavanju govora. Kao ilustraciju pomenute varijabilnosti, posmatrajmo vremenski oblik govornog signala dva subjekta (muškog i ženskog) koji su izgovorili vokal /i/. Na slikama 2.3.6 i 2.3.7 su prikazani vremenski oblici izdvojenog vokala /i/ u reči muškog i ženskog govornika respektivno, kao i njihove spektralne karakteristike (sonagrami) o kojima će biti više reči kasnije. Sa gornjih slika se vidi da su oba signala periodična sa različitim periodama koje odgovaraju različitim osnovnim učestanostima muškog i ženskog govornika. Na donjim slikama, gde su prikazani sonagrami, mesta koja su više zatamnjena ukazuju na one frekvencije sa većom spektralnom energijom.
Slika 2.3.6. Vremenski
oblik izdvojenog vokala /i/ muškog govornika (gornja slika)
• Sonagram signala sa gornje slike (donja slika)
Slika 2.3.7. Vremenski oblik
izdvojenog vokala /i/ ženskog govornika (gornja slika)
• Sonagram signala sa gornje slike (donja slika)
____________________________D i g i t a l n a o b r a d a g o v o r a
33
33
POGLAVLJE 3
MODEL VOKALNOG TRAKTA Govorni signal je nosilac akustičke informacije odnosno, onoga šta je izgovoreno i šta se prenosi
od govornika do slušaoca. Teško je napraviti jednostavan, a sveobuhvatan model vokalnog trakta jer bi on bio veoma složen. Ipak, u praksi se koriste različiti modeli koji samo u određenoj meri opisuju vokalni trakt. Oni služe da, uglavnom, pojasne mehanizam nastanka govora. Svojim kvalitetom i jednostavnošću, izdvojili su se linearni modeli.
Kako govor nastaje možemo sebi predstaviti koristeći sliku 3.1. Vazdušna struja koja nastaje iz
pluća transformiše se uz pomoć glasnih žica u vazdušne impulse. Takav signal služi kao pobuda za vokalni trakt se sastoji iz grla i usne duplje kojoj je paraleno postavljena nosna šupljina, odgovorna za izgovor nazala (m, n ili nj). Vokalni trakt i nosna šupljina se mogu posmatrati kao jedan selektivan prenosni sistem. Govor se emituje sa usana, otvaranjem usta, ili preko nosne šupljine.
Za početak možemo posmatrati vokalni trakt samo kao provodnik vazdušne struje. Može se reći
da je on pasivan sistem jer osim na jednom mestu gde je koncentrisana pobuda (treperenje glasnih žica ili turbulencija vazdušne struje na jednom mestu), ni jedno drugo mesto ne generiše govorni signal. Takođe se može smatrati da su zanemarljivi gubici usled trenja, toplote ili turbulencije vazdušnog talasa. Talasna dužina akustičkog signala je velika u odnosu na poprečni presek vokalnog trakta tako da su od značaja samo oscilacije u pravcu kretanja vazdušne struje, uzdužno. Takođe se može reći da su promene oblika vokalnog trakta spore u poređenju sa frekvencijom treperenja glasnih žica. Smatra se da se vokalni trakt ne menja brzo u toku vremena, što sigurno i važi za kraće vremenske intervale. Šta više, može se smatrati da se u toku vrlo kratkih vremenskih intervala ne menjaju parametri vokalnog trakta u opšte.
Ako posmatramo vokalni trakt kao jedan linearni model, zadovoljene su predpostavke:
• pobuda se generiše preko glasnih žica čiji je poprečni presek manji od poprečnog preseka vokalnog trakta,
• emitovanje govora se vrši prostiranjem vazdušne struje kroz otvor između usana u slobodan prostor,
____________________________D i g i t a l n a o b r a d a g o v o r a
34
34
• posmatrano preko analogija sa elektromehaničkim sistemima, može se reći da je vokalni trakt linearan sistem koji ima veliku ulaznu impedansu, a na izlazu je kratko spojen.
3.1. Formanti i antiformanti
U neutralnom položaju, vokalni trakt se može aproksimirati jednom akustičkom cevi kao što je
prikazano na slici 3.1.1. U gornjem delu slike je označena nosna šupljina, levo je glotis a desno su usni otvor i nos. Za početak ćemo zanemariti nosnu šupljinu. Ako posmatramo cev dužine L, koja je na jednom kraju zatvorena, onda su rezonantne frekvencije ove akustičke cevi date sledećim izrazom (c=340m/s):
...3,2,14
)12(=
−= n
Lcnfn
nosna šupljina
jezik
glasne žice
pluća
Slika 3.1. Kako nastaje govor
____________________________D i g i t a l n a o b r a d a g o v o r a
35
35
Vokalni trakt se može i aproksimirati ovakvom cevi dužine L. Obično je kod muškaraca u proseku L=17cm, pa se za rezonantne frekvencije dobija sledeći izraz:
[ ] ...3,2,1500)12( =−= nHznfn (3.1.1)
odnosno, rezonantne frekvencije su neparni umnošci učestanosti od 500 Hz, tj. nalaze se na 500
Hz, 1500 Hz, 2500 Hz itd. Ove frekvencije se zovu formanti ili formantne frekvencije. Pri izgovoru se menja položaj vokalnog trakta, tako da se i formantne frekvencije u izvesnoj meri pomeraju i karakteristične su za svaki vokal.
Obično se posmatraju samo prva tri formanta. Veoma retko se posmatraju i viši formanti. Smatra se da glasne žice ne trepere višom učestanošću od 5 kHz, pa je energija pobudnog signala u oblasti viših učestanosti zanemarljiva.
Uobičajeno je da se vokali predstavljaju preko svoje formantne karte čije su ose prva dva
formanta. Na slici 3.1.2. je prikazana formantna karta za vokale srpskog jezika.
Slika 3.1.1. Pojednostavljeni model vokalnog
trakta u neutralnom položaju
Slika 3.1.2 Formantna karta vokala srpskog jezika
F2[kHz]
F1[kHz]
1.00.5
0.5
1.0
1.5
2.0
:o:
:a:
2.5
:i: :e:
:u:
17 cm
8.5 cm
13 cm
____________________________D i g i t a l n a o b r a d a g o v o r a
36
36
Pri izgovoru nazala /n/, /m/ ili /nj/, vazdušna struje se kreće kroz nosnu šupljinu. Kako se na oblik nosne šupljine pri izgovoru ne može uticati, može se smatrati da usna duplja utiče na izgovor ovih suglasnika načinom na koji se vrši njeno otvaranje. Tada govorimo o nulama prenosne funkcije vokalnog trakta, odnosno o pojavi antiformanata. U tabeli 3.1. je dat pregled antiformantnih učestanosti nazala.
TABELA 3.1. Položaj antiformantnih učestanosti nazala
nazal antiformant (Hz)
m 750… 1250
n 1450 … 2200
nj > 3000 Slična je situacija pri izgovoru frikativa. Kako se smatra da je kod njih pobuda negde na sredini
vokalnog trakta jer jezik pravi suženje u odgovarajućem delu usne duplje, vazdušna struja se kreće od tog mesta ili napred, ka usnama, ili nazad, ka glotisu. Tada nastaju takođe antiformanti, tj. nule prenosne funkcije vokalnog trakta.
Pošli smo od predpostavke da nema gubitaka u vokalnom traktu. Međutim, treba navesti da gubici
postoje i to: pri pobudi glotisa, pri oscilovanju zidova vokalnog trakta, kao i pri emitovanju onoga što se izgovara, zbog toga što se izvesna količina energije gubi, mada se podrazumeva da se emitovanje obavlja trenutno. Svi ovi gubici se mogu analizirati i posmatranjem učestanosti formanata jer dolazi do njihovog pomeranja. Na učestanosti nižih formanata utiče trenje, oscilovanje zidova vokalnog trakta, zagrevanje, dok na učestanosti viših formanata utiče emitovanje onog što se izgovara.
3.2. Linearni model vokalnog trakta Prvo ćemo posmatrati proces nastanka zvučnih glasova. Pobudni signal koji potiče od glasnih
žica možemo posmatrati kao povorku trougaonih, periodičnih impulsa koji su prikazani na slika 3.2.1 (gore). Na slici 3.2.1 (dole) prikazana je njena spektralna karakteristika. Kako je govorni signal periodičan signal, njegov spektar je linijski a rastojanje spektralnih linija odgovara osnovnoj frekvenciji govora :
00
1T
f = (3.2.1)
pri čemu je 0T osnovna perioda govora, odnosno rastojanje pobudnih trougaonih impulsa u vremenskom domenu. Na slici 3.2.1 osnovna perioda je 5 ms.
Osnovna frekvencija je specifična za svakog govornika i nalazi se u opsegu od 80 do 350 Hz. Kod
muških govornika ona je niža. Može da bude i niža od 80 Hz kod onih koji puše i imaju hrapav glas, dok je kod ženskih govornika viša i približava se gornjoj navedenoj granici. Sa slike 3.2.1 se može potvrditi relacija (3.2.1), ako se posmatra rastojanje impulsa u vremenskom domenu (slika gore) i rastojanje maksimuma u spektru na spektralnoj karakteristici (slika dole). Sa slike (dole) se može odrediti osnovna frekvencija, koja iznosi 200 Hz.
____________________________D i g i t a l n a o b r a d a g o v o r a
37
37
Spektralna karakteristika govora opada sa 12 dB po oktavi zbog trougaonog oblika vremenskog
pobudnog signala. Kako se ceo vokalni trakt može posmatrati kao sistem koji ima jako veliku ulaznu impedansu, a izlaznu impedansu nula, odnosno, kratko je spojen, može se reći da u sistemu nema povratne sprege. To znači da se ceo sistem može predstaviti kao kaskadna veza pojedinih delova sistema, što takođe znači da pojedinačne prenosne funkcije treba pomnožiti da bi se dobila ukupna prenosna karakteristika.
Slika 3.2.1. Oblik ppobudnog signala za zzvučnu pobudu i njegov sspektar
Slika 3.2.2. Prenosna funkcija vokalnog trakta (gore) i spektralna karakteristika signala na izlazu
____________________________D i g i t a l n a o b r a d a g o v o r a
38
38
Da se vokalni trakt može posmatrati kao linearni sistem pokazuju slike koje slede. Ako podrazumevamo da pobudni signal i njegov spektar izgledaju kao na slici 3.2.1, a da je na slici 3.2.2 (gornja slika) prikazana prenosna funkcija vokalnog trakta, onda spektar izlaznog signala izgleda kao na slici 3.2.2 (donja slika).
Možda je još uočljivija ta linearnost sa slike 3.2.3. Na gornjoj slici je pobudni signal, na slici u
sredini je prenosna funkcija vokalnog trakta, dok je na slici na dnu prikazana spektralna karakteristika signala na izlazu.
Poželjno je, ako je moguće, razdvojiti vremenski promenljive od vremenski nepromenljivih delova
sistema. Proces emitovanja onog što je izgovoreno možemo da prikažemo preko vremenski
nepromenljivog člana )( fR pri čemu imamo povećanje energije emitovanja od 6 dB po oktavi ka višim frekvencijama. Vokalni trakt je vremenski promenljiv i njegovu prenosnu karakteristiku predstavlja
)( fH . Izvor zvučnih glasova možemo predstaviti kao impulsni generator )( fP koji generiše (Dirakove) impulse na rastojanju koje odgovara osnovnoj frekvenciji govora, što je vremenski promenljivo. Tu imamo i nešto što je približno vremenski nepromenljivo ali je zavisno od govornika a to
je korektivni član )( fSz koji predstavlja korigovanu spektralnu karakeristiku pobudnog signala. Ukupno gledano, prenosna karakteristika vokalnog trakta unosi slabljenje od 6 dB po oktavi.
Na slici 3.2.4. je prikazan linearni model vokalnog trakta za zvučne glasove.
emitovanje R(f)
amplituda
vokalni trakt H(f)
Sz(f)P(f)
Slika 3.2.4. Linearni model
za generisanje zvučnih glasova
Slika 3.2.3. Pobudni signal (zvučna pobuda), prenosna funkcija vokalnog trakta i spektar izlaznog signala
____________________________D i g i t a l n a o b r a d a g o v o r a
39
39
Ovaj model se može proširiti i za slučaj generisanja bezvučnih i prelaznih glasova. Pobuda za
bezvučne glasove se može aproksimirati jednim standardnim izvorom belog šuma )( fN sa korektivnim
faktorom )( fSbz određene amplitude. Tada dobijamo uopšteni linearni model za generisanje govora, kao na slici 3.2.5.
3.3. Pojednostavljeni linearni model Neke od komponenata sa slike 3.2.5. se mogu združiti. Slika 3.3.1. prikazuje pojednostavljeni
model kod koga su sjedinjeni blokovi koji predstavljaju faktor korekcije za zvučnu pobudu )( fSz i faktor )( fR koji se odnosi na proces emitovanja pri izgovoru, u zajednički faktor )( fG .
Množenje amplitudom A je ostavljeno na kraju. Tip pobude, da li je zvučna ili bezvučna se bira
pomoću prekidača. Tri parametra se ovde mogu podešavati. To su rastojanje između impulsa zvučne
pobude 0T , koje definiše osnovnu frekvenciju govora, prenosna funkcija vokalnog trakta )( fH i amplituda A .
P(f)
+
sumN(f)
vokalni trakt H(f)
amplituda A
G(f)
p o b u d a v o k a l n i t r a k t
Slika 3.2.5. Uopšteni model za generisanje govora
amplituda
Sz(f)P(f)
+
sumN(f) Sbz(f)
amplituda
vokalni trakt H(f)
emitovanje R(f)
Slika 3.3.1 Pojednostavljeni linearni model za generisanje govora
____________________________D i g i t a l n a o b r a d a g o v o r a
40
40
S obzirom na to da je u faktoru )( fG sadržan i faktor korekcije za zvučnu pobudu )( fSz i faktor )( fR koji se odnosi na proces emitovanja pri izgovoru, treba razmotriti odnos )(/)( fSfS zbz za
određenu prenosnu funkciju vokalnog trakta )( fH . To je utoliko potrebnije jer se pri bezvučnim glasovima pobuda i prenosna funkcija vokalnog trakta fizički ne mogu razdvojiti. Ovakav model je samo pojednostavljeni model i za neku detaljniju analizu on ne bi bio pogodan. Međutim, sasvim je dobar za postupke ekstrakcije parametara govora u sistemima za prenos i prepoznavanje govora.
3.4. Vokalni trakt kao akustička cev Kao model vokalnog trakta često se uzima akustička cev koja na pojedinim svojim mestima ima
različite poprečne preseke u zavisnosti od toga koji se glas trenutno izgovora [4]. Možemo da zamislimo prstenove istih debljina, različitih poluprečnika koji su nalepljeni jedan na drugi tako da formiraju akustičku cev čija dužina odgovara prosečnoj dužini vokalnog trakta. Na slici 3.4.1. je prikazan presek kroz akustičku cev normalan na osnovnu osu.
Ako se sistem, čija je prenosna karakeristika opisana ovakvim rasporedom različitih poprečnih
preseka, pobudi Dirakovim impulsima dobija se spektralna karakteristika pojedinih vokala. Na slici 3.4.2. je prikazan izgled poprečnog preseka vokalnog trakta pri izgovoru vokala /a/. Na
slici 3.4.3. je prikazana spektralna karakteristika proizvedenog vokala. Na slici 3.4.4. prikazani su spektri vokala /o/ i /i/. Sa slike se mogu videti, pažljivim posmatranjem
obvojnice spektralne karakteristike, položaji formanata (to su maksimumi spektralne karakteristike). Formanti bi bili uočljiviji ako bi se ova spektralna karakteristika uglačala. U narednim poglavljima koristićemo model vokalnog trakta prethodno opisan.
osnovna osa
poluprecnmik
prstena
duzina vokalnog trakta
Slika 3.4.1. Vokalni trakt kao akustička cev
Slika 3.4.2. Poprečni presek
vokalnog trakta pri izgovoru vokala /a/
____________________________D i g i t a l n a o b r a d a g o v o r a
41
41
Slika 3.4.3. Spektar vokala /a/
Slika 3.4.4. Spektri vokala /i/ i /o/
____________________________D i g i t a l n a o b r a d a g o v o r a
42
42
____________________________D i g i t a l n a o b r a d a g o v o r a
43
43
POGLAVLJE 4
PARAMETRI GOVORNOG SIGNALA Kao što smo rekli, određivanje parametara govora spada u oblast koja se naziva analiza govora.
Određeni parametri govornog signala opisuju neka od njegovih karakterističnih svojstava. Najznačajniji su:
• energija govornog signala
• spektralni parametri koji opisuju strukturu spektra govornog signala, odnosno i osobine vokalnog trakta
• osnovna frekvencija govornog signala
• tip pobude: zvučno / bezvučno.
4.1. Princip kratkovremenske analize Govorni signal spada u grupu signala koji se menjaju u vremenu. Zato i parametre govornog
signala koje želimo da koristimo, moramo da posmatramo kao vremenski promenljive. Analiza govora je zato analiza jednog vremenski promenljivog signala. Međutim, u analizi govornog signala obično kažemo da, iako je govorni signal promenljiv u vremenu, njegovi relevantni parametri se menjaju sporije u poređenju sa samim signalom. Vremenski tok nekog od parametara govornog signala posmatramo kao jedan novi signal koji se takođe odmeravati i posmatrati. Frekvencija kojom odmeravamo ovaj signal se naziva frekvencija odmeravanja parametara govornog signala (u engleskoj terminologiji: frame rate), za razliku od frekvencije odmeravanja signala (govornog signala) koja se naziva frekvencija odmeravanja.
Kako se merenje parametara govornog signala vrši u vremenskom trenutku t , potrebno je uvesti i
tekuću promenljivu za vreme τ signala )(τf . Kao što je prikazano na slici 4.1.1 pri kratkovremenskoj
____________________________D i g i t a l n a o b r a d a g o v o r a
44
44
analizi se govorni signal deli na manje delove. Na tom manjem delu, parametri govorni signal se mogu smatrati stacionarnim, tj. približno vremenski nepromenljivim. To se postiže tako što se govorni signal u vremenskom domenu množi težinskom funkcijom )(τw koja se naziva prozorska funkcija ili prozor. Na slici 4.1.2. je prikazan princip prozorovanja bez i sa preklapanjem. Prozorska funkcija naglašava vrednost signala u okolini vremenskog trenutka t , a istovremeno potiskuje vrednosti koji su daleko od tog vremenskog trenutka. Tako se deo govornog signala u trenutku t može prikazati kao proizvod
)()( ττ −twf (ispravno je i )()( ττ −tfw ). Pojedini delovi, na ovakav način izdvojenog signala, prikazani su na slici 4.1.3. za tri uzastopna vremenska trenutka.
Dužinu prozora T treba tako birati da se željeni parametri mogu pouzdano, tačno meriti, ali i da
se sa dovoljnom tačnošću mogu smatrati konstantnim, vremenski nepromenljivim na tom vremenskom intervalu. Međutim, ova dva zahteva su međusobno suprotna, pa su samim tim i merenja u neku ruku, neprecizna.
Slika 4.1.2. Izdvojeni delovi govornog signala u tri uzastopna vremenska trenutka (sa slike 4.1.1)
Slika 4.1.1. Princip
kratkovremenske analize
____________________________D i g i t a l n a o b r a d a g o v o r a
45
45
Kod obrade govornog signala uobičajeno je da se parametri govora računaju na intervalu od 5 do
25 ms, a da je dužina prozora T od 20 do 50 ms. Od jednog do drugog prozora možemo da primenimo preklapanje.
U zavisnosti od toga kako se posmatraju vrednosti van prozora, razlikuju se različiti postupci
obrade signala:
• signal koji se množi prozorskom funkcijom posmatra se kao poseban signal. Podrazumeva se da su vrednosti govornog signala van prozora nula. Tako se na ovom signalu mogu primeniti svi postupci koji se i inače primenjuju na stacionarnim signalima.
• signal se u okviru prozora posmatra kao periodičan signal koji se van prozora periodično
ponavlja sa periodom T . Ako se želi veća perioda onda se signal popunjava nulama. Na takav signal se mogu sada primeniti svi postupci koji se primenjuju na periodičnim signalima.
• signal se u okviru prozora posmatra kao isečak jednog vremenski promenljivog signala. Za takav signal je potrebno definisati posebne postupke za vremenski ograničene signale. Vrednosti izvan prozora se ne koriste. Postupci koji se sada primenjuju se nazivaju nestacionarni postupci.
Poseban slučaj nastaje onda kada je perioda T jednaka osnovnoj periodi 0T . U tom slučaju se može iskoristiti prirodna periodičnost govornog signala što je prednost ovakvih metoda i one se nazivaju metode sinhrone sa osnovnom frekvencijom.
4.2. Analiza u vremenskom domenu Jedan od važnijih parametara je energija govornog signala. Energija E signala )(τf se definiše
kao u (4.2.1).
∫=+∞
∞−ττ )d(fЕ 2
(4.2.1)
Slika 4.1.3. Princip prozorovanja bez i sa preklapanjem
____________________________D i g i t a l n a o b r a d a g o v o r a
46
46
Ako primenimo kratkovremensku analizu, energiju računamo unutar prozora, tako da je i ona funkcija vremena:
][∫=+∞
∞−τττ d-w(t)f(tЕ 2))( (4.2.2)
Kao što se vidi iz izraza (4.2.2), kratkovremenska energija je integral kvadriranog, prozorovanog
govornog signala. Za jedan prozor konačne širine T , granice integrala su od Tt − do t . U praksi se pokazalo da zbog kvadriranja, dobijena vrednost energije pojačava razliku između jako glasnih i jako tihih delova govornog signala. Taj nedostatak se može izbeći, a samim tim i smanjiti potrebna izračunavanja ako se koristi usrednjena amplituda koja se računa kao:
∫=+∞
∞−τττ d-w(t)f(tА ))( (4.2.3)
pri čemu se koristi pravougaoni prozor )(τw , definisan kao:
⎩⎨⎧ =
=,0
,...,0,1)(
Тw
ττ (4.2.4)
Ovde nije potrebno primenjivati komplikovanije prozorske funkcije. Složenije prozorske funkcije se
koriste pri spektralnoj analizi. Na slici 4.2.1. je prikazan a) deo govornog signala u vremenu, b) njegova energija i c) logaritam energije signala.
4.2.1. Broj preseka sa nulom Energija E ne pruža podatke o tome koje frekvencije postoje u signalu. Na osnovu slike 4.2.1b
mogu se videti mesta u govornom signalu koja imaju veću energiju. To su mesta gde postoje zvučni
Slika 4.2.1. a) segment govornog
signala b) njegova energija, c) logaritam energije
signala
____________________________D i g i t a l n a o b r a d a g o v o r a
47
47
segmenti govora – vokali. Jednu određeniju informaciju o prisustvu pojedinih frekvencija u spektru pruža parametar koji nazivamo broj preseka sa nulom (u engleskoj terminologiji: zero crossing rate).
Ako imamo, na primer, samo jednu sinusoidu, znači, samo jednu frekvenciju, onda postoji
jednostavna veza između broja preseka sa nulom i frekvencije sinusoide. Broj preseka sa nulom je jednak dvostrukoj frekvenciji sinusoide. Za govorni signal, broj preseka sa nulom nije u jednostavnoj vezi sa prisutnim frekventnim komponentama. Broj preseka sa nulom dobija na značaju prilikom utvrđivanja da li je neki segment govornog signala zvučan ili bezvučan. Poznato je da su bezvučne komponente govora na frekvencijama iznad 3 kHz, za razliku od zvučnih delova čije su frekvencije niže. Kada je broj preseka sa nulom veći, radi o bezvučnom segmentu govora i obrnuto, ako je broj preseka sa nulom manji, u pitanju je zvučni segment govora. Za vrednosti između ovih, kaže se da se ne može sa sigurnošću reći da li je segment zvučni ili bezvučni. Zajedno sa energijom signala, broj preseka sa nulom se može iskoristiti kao indikator prelaza govor-pauza.
4.2.2. Autokorelacija, stacionarni i nestacionarni postupci
Jedna od značajnijih veličina govornog signala je svakako autokorelaciona funkcija. Ovde ćemo
posmatrati kratkovremensku autokorelaciju. Autokorelaciona funkcija )(dR je za vremenski neograničene signale definisana kao:
∫ +=∞
∞-d)d)f(f(R(d) τττ (4.2.2.1)
gde je d parametar autokorelacione funkcije. Autokorelaciona funkcija je parna funkcija jer za nju
važi da je )()( dRdR =− . Za vremenski promenljive signale, može se definisati kratkovremenska autokorelaciona funkcija na jedan od dva načina:
1. kratkovremenska autokorelaciona funkcija sa stacionarnim pristupom. Autokorelaciona
funkcija se računa kao:
∫ +=∞
∞-d)d--d)w(tf(-)w(tf(d)R(t, τττττ ) (4.2.2.2)
Ovakva definicija kratkovremenske autokorelacione funkcije odgovara u potpunosti definiciji
autokorelacione funkcije vremenski neograničenih signala. Granice integrala mogu ostati kao u izrazu (4.2.2.2) jer su vrednosti signala van prozora, nula. Kako je autokorelaciona funkcija parna funkcija, potrebno ju je računati samo za pozitivne vrednosti parametra d . Nedostatak ovako definisane funkcije je u tome što, kada parametar d raste sve manji broj vrednosti funkcije utiče na izraz pa kada t teži T (dužini prozora), funkcija teži nuli.
2. kratkovremenska autokorelaciona funkcija sa nestacionarnim pristupom. Autokorelaciona
funkcija se sada definiše na sledeći način:
∫ +=∞
∞-d-d)w(t)f(f(d)R(t, ττττ ) (4.2.2.3)
____________________________D i g i t a l n a o b r a d a g o v o r a
48
48
Na ovakav način definisana funkcija se može računati za bilo koji parametar d . Ovako definisana ona i nije autokorelaciona funkcija u klasičnom smislu, već više kroskorelaciona funkcija koja povezuje prozorovane sa neprozorovanim delovima signala. U ovom slučaju i ne važi osobina parnosti jer se sada za pozitivne i negativne vrednosti parametra d dobijaju različiti rezultati, odnosno važi:
)()( dRdR −=− . U literaturi se primenjuje uglavnom definicija 1, mada se ponekad sreće i definicija 2. Kako se
dobijaju potpuno različiti rezultati, mora se uvek imati u vidu koja se definicija primenjuje. Autokorelaciona funkcija sa stacionarnim pristupom poseduje neka zanimljiva svojstva. To su:
• autokorelaciona funkcija dostiže svoj maksimum za 0=d . )0(R je isto što i energija posmatranog signala (ili dela signala),
• svakim skaliranjem amplitude, na rezultat se utiče na kvadrat,
• zbog periodične strukture govornog signala, autokorelaciona funkcija se menja samo zbog pomeranja prozora odnosno, autokorelaciona funkcija je relativno neosetljiva na tačni fazni stav prozora,
• autokorelaciona funkcija sadrži u sebi periodičnu strukturu govornog signala pa je za periodične signale i sama autokorelaciona funkcija periodična,
• autokorelaciona funkcija za zvučne glasove pokazuje značajan maksimum na frekvencijama koje odgovaraju umnošcima osnovne frekvencije govora pa se može iskoristiti za određivanje osnovne frekvencije, kao i za utvrđivanje koji su segmenti zvučni a koji bezvučni,
• autokorelaciona funkcija se može iskoristititi i za računanje spektra snage govornog signala.
Slika 4.2.2.1. a) stacionarni segment
govora b) autokorelaciona
funkcija (formula 4.2.2.2) c) autokorelaciona
funkcija (formula 4.2.2.3).
____________________________D i g i t a l n a o b r a d a g o v o r a
49
49
Na slici 4.2.2.1. su prikazani: a) stacionarni segment govora, b) njegova autokorelaciona funkcija izračunata prema (4.2.2.2) i c) njegova autokorelaciona funkcija izračunata prema (4.2.2.3).
Sa slika 4.2.2.1 i 4.2.2.2 mogu se uočiti različite autokorelacione funkcije u zavisnosti od toga koja
se definicija koristi, što treba imati u vidu pri računanju parametara koji se računaju iz autokorelacione funkcije.
Sa slike 4.2.2.3 se vidi koliko se razlikuju autokorelacione funkcije zvučnog i bezvučnog
segmenta. Kako je zvučni segment 1s periodična funkcija i njegova autokorelaciona funkcija 1r je
Slika 4.2.2.3 Autokorelaciona funkcija zvučnog i bezvučnog segmenta
Slika 4.2.2.2. a) nestacionarni
segment govora b) autokorelaciona
funkcija (formula 4.2.2.2) c) autokorelaciona
funkcija (formula 4.2.2.3)
____________________________D i g i t a l n a o b r a d a g o v o r a
50
50
periodična funkcija (njegova perioda je jednaka osnovnoj učestanosti govora). Za razliku od toga,
bezvučni segment 2s ima autokorelacionu funkciju 2r koja nije periodična.
4.3. Analiza govora u frekventnom domenu Govorni signal nije stacionaran ali ga na kraćim vremenskim intervalima možemo smatrati
približno stacionarnim. Ako imamo vremenski signal )(τf i prozorsku funkciju )(τw , deo govornog signala izdvajamo tako što ga množimo prozorskom funkcijom i da na tom delu računamo kratkovremenski spektar. Kompleksna kratkovremenska spektralna gustina snage ),( tfF računa se kao u (4.3.1).
τττ τπ d)-w(t)f(t)F(f, f2
-
је−∞
∞∫= (4.3.1)
Kakva je veza kratkovremenskog spektra i ukupnog spektra signala? Ako obe strane izraza
(4.3.1) pomnožimo sa tfје π2, dobijamo:
τττ τππ dе)-w(t)f(еt)F(f, -(tfј
-
tfј )22 ∫=∞
∞ (4.3.2)
Na desnoj strani izraza (4.3.2) imamo konvolucioni integral što znači da se radi o linearnom
sistemu sa impulsnim odzivom tfјеtw π2)( na čijem je ulazu )(tf kao na slici 4.3.1.
)(tf tfјеtwth π2)()( =
tfјеF(f,t) π2
Slika 4.3.1. Linearni sistem
Može se zaključiti da kratkovremenski spektar predstavlja anvelopu kompleksnih oscilacija tfје π2. Za fiksnu frekvenciju f ovaj linearni sistem se ponaša kao filtar propusnik opsega čija je
centralna frekvencija f a anvelopa )(tw . Vremenska funkcija )(tw je impulsni odziv ekvivalentnih niskopropusnih filtara ovih filtara propusnika opsega.
Koja je veza između kratkovremenskog spektra ),( tfF i ukupnog spektra )(vF ? Ako je )(vF
Furijeova transformacija od )(tf a )(vW Furijeova transformacija od )(tw , može se pisati, primenjujući pravila za konvoluciju u vremenskom i frekventnom domenu:
)(tf * )(tw tfје π2
)(vF )( fvW −
odnosno,
),( tfF tfје π2= dvеf)-W(vF(v) tvј
-
π2∫∞
∞ (4.3.3)
____________________________D i g i t a l n a o b r a d a g o v o r a
51
51
Za fiksnu frekvenciju f , )( fvW − predstavlja prenosnu funkciju filtra propusnika opsega.
)( fvW − za svaku frekvenciju f predstavlja prozor u frekventnom opsegu koji je funkcija promenljive frekvencije v . Ako je )(vP spektar snage signala )(tf , onda za srednju vrednost
spektralne gustine snage 2t)(f,F dobijamo izraz (4.3.4).
2t)(f,F = dvf)-(vWP(v)
-∫∞
∞
2 (4.3.4)
Spektrogram - sonagram Ako spektar govornog signala posmatramo preko spektralne karakteristike vokalnog trakta, može
se primetiti talasalost u spektru koja nastaje usled pobudnih impulsa glasnih žica (zbog osnovne učestanosti). Zbog toga se može desiti da je otežano utvrđivanje položaja maksimuma spektralne karakteristike koji ukazuju na položaj formantnih učestanosti. Ta talasalost u spektru se može smanjiti ako se u analizi koriste filtri propusnici opsega čija je širina oko 300 Hz. Kako je u gornjem primeru širina
propusnog opsega mala, treba svaki diskretni spektar )(mSn malo uobličiti u frekventnom domenu da bi se postigla širina od 300 Hz. Proširenje propusnog opsega se može postići smanjenjem dužine prozorske funkcije u vremenskom domenu. To međutim nije poželjno jer se pri uobičajenom izračunavanju spektra u koraku od 10 ms javlja i određena talasalost u vremenskom domenu.
Na slici 4.3.2. je prikazan kratkovremenski spektar reči /sedam/. Sonagram (spektrogram)
predstavlja dvodimenzionalnu predstavu inteziteta spektra signala u koordinatnom sistemu čije su ose vreme i frekvencija. Na slici 4.3.3. je prikazan spektrogram reči /sedam/. Na slici 4.3.4. prikazan je vremenski oblik izdvojenog vokala /i/ i njegov spektrogram, dok je na slici 4.3.5. prikazano isto to ali za drugog govornika.
Slika 4.3.2. Dvodimenzionalni
prikaz kratkovremenskog spektra reči /sedam/
____________________________D i g i t a l n a o b r a d a g o v o r a
52
52
Slika 4.3.3. Spektrogram reči
/sedam/
Slika 4.3.4. Vremenski
oblik vokala /i/ i njegov spektrogram
(2. govornik)
Slika 4.3.5. Vremenski oblik vokala /i/ i njegov spektrogram (1. govornik)
____________________________D i g i t a l n a o b r a d a g o v o r a
53
53
4.4. Izbor prozorske funkcije Iz dosadašnjeg izlaganja se sigurno može naslutiti da izbor prozorske funkcije igra značajnu
ulogu. Koja svojstva treba da ima prozorska funkcija? U domenu učestanosti ona treba da bude jako uzana a u vremenskom domenu da brzo opada. Dobar kompromis za ove zahteve predstavljaju prozori čije ivice polako rastu i polako opadaju. Ako posmatramo spektralnu karakteristiku prozorskih funkcija, kao što je prikazano na slici 4.4.1, mogu se uočiti njeni lokalni maksimumi, kojih može da bude više. Od značaja su prvi ili glavni maksimum i druga maksimalna vrednost. Ova, druga maksimalna vrednost u spektru prozorske funkcije je karakteristična za svaku prozorsku funkciju. Pri izboru prozorske funkcije, važno je imati na umu za koje primene se prozor upotrebljava odnosno, da li ova maksimalna vrednost smeta glavnom maksimumu. Kod onih prozorskih funkcija kod kojih je ova vrednost manja, mora se uzeti u obzir da je osnovni maksimum malo razvučeniji, širi. Na slici 4.4.1. su prikazane najčešće korišćene prozorske funkcije i to:
• pravougaoni prozor je opisan analitičkim izrazom:
⎩⎨⎧ +−=
=0
2....2,1)(
ТТттw (4.4.1)
Kod ovog prozora, glavni maksimum zauzima najmanju širinu u odnosu na sve druge prozore.
Zato je međutim, druga maksimalna vrednost relativno velika (drugi maksimum iznosi –16 dB).
• 2cos prozor je opisan analitičkim izrazom:
2....2)(cos)( 2 ТТTw +−== τπττ (4.4.2)
Ovaj prozor se u literaturi još naziva Hanning-ov prozor.
• Hamming-ov prozor je opisan analitičkim izrazom:
2....2)2cos(46.054.0)( ТТw +−=Τ+= ττπτ (4.4.3) Kod ovog prozora se može smatrati da drugi maksimum ne zavisi od frekvencije i on iznosi oko –
42 dB. Ovaj prozor se najčešće primenjuje u obradi govornog signala.
• Blackman-ov prozor je opisan analitičkim izrazom:
2....2)/4cos(08.0)2cos(5.042.0)(
ТТTw
+−=+Τ−=
τπττπτ
(4.4.4)
Kod ovog prozora je drugi maksimum najmanji od svih prozora i iznosi oko –58 dB.
• Kaiser-ov prozor. Ovo je čitava familija prozorskih funkcija koja se izračunava iz Beselovih funkcija. Kod njih drugi
maksimum može još više da opada, ali je zbog toga i širi opseg prvog maksimuma. Pošto je proračun
____________________________D i g i t a l n a o b r a d a g o v o r a
54
54
ovih prozora dosta složen jer se radi o Beselovim funkcijama, Kaiser-ovi prozori se u praksi ređe koriste, mada imaju značajno potiskivanje drugog maksimuma.
Slika 4.4.1. Najčešće korišćene prozorske funkcije
____________________________D i g i t a l n a o b r a d a g o v o r a
55
55
POGLAVLJE 5
PRINCIP LINEARNE PREDIKCIJE (LPC)
Može se pokazati da pojedine vrednosti govornog signala nisu međusobno nezavisne, odnosno
da postoji izvesna međusobna korelacija, međusobna linearna zavisnost. To ukazuje na to da postoji način da se iz niza predhodnih vrednosti može predvideti sledeća vrednost signala.
Neka je dat digitalni govorni signal )(ns , n ide od ∞− do ∞ . Za razumevanje linearne zavisnosti
najčešće se koristi metoda linearne predikcije (LPC – Linear Predictive Coding). Kod ove metode se razmatra linearan sistem čiji se izlazni signal dobija kao otežnjena konačna suma predhodnih izlaznih signala:
∑ −−==
p
ii insans
1)()(ˆ (5.1)
Vrednost )(ˆ ns se predviđa na osnovu predhodnih vrednosti kao njihova linearna kombinacija. Znak minus je uzet zbog jednostavnijeg računanja u formulama koje slede.
Kako je vrednost )(ˆ ns samo procena, javlja se greška )(ne kao razlika stvarne )(ns i procenjene
vrednosti )(ˆ ns :
)(ˆ)()( nsnsne −= (5.2)
)()()(1
neinsansp
ii +∑ −−=
= (5.3)
Koeficijenti ia se nazivaju koeficijenti linearne predikcije i potpuno opisuju linearni sistem. Parametar p određuje red linearne predikcije.
____________________________D i g i t a l n a o b r a d a g o v o r a
56
56
Koeficijenti predikcije se podešavaju tako da se postigne što manja greška predikcije, odnosno da su predviđene vrednosti što bliže stvarnim vrednostima na nekom konačnom intervalu, intervalu analize. Na tom intervalu može se smatrati da je govorni signal približno stacionaran. Određivanje odnosno, podešavanje koeficijenata vrši se za svaki interval posebno. Kao optimalan kriterijum najčešće se koristi minimizacija kvadratne greške.
5.1. Prediktor kao digitalni filtar Prediktorski polinom je jedan linearni, digitalni filtar reda p . Filtar se može posmatrati na dva
načina:
• za generisanje govornog signala )(ns
• za generisanje signala greške )(ne . Kada je govorni signal ulazni signal u prediktor na njegovom izlazu se generiše signal greške.
Sistem je tada jedan transverzalni filtar i važi:
∑ −+==
p
ii insansne
1)()()( (5.1.1)
Ako na ovaj izraz primenimo Z-transformaciju dobijamo izraz (5.1.2) a prenosna funkcija sistema )(zHI je data izrazom (5.1.3).
)1)(()(1
∑+==
−p
i
ii zazSzE (5.1.2)
∑+===
−p
i
iiI za
zSzEzH
11
)()()( (5.1.3)
Ovaj digitalni filtar teži da spektar signala greške napravi da bude kao spektar belog šuma. Ovaj
filtar se naziva inverzni filtar i na slici 5.1.1. je prikazan šematski. Njegova prenosna funkcija je definisana u (5.1.3).
Ako se prediktor pobudi signalom greške na njegovom izlazu se dobija govorni signal. U ovom
slučaju sistem je rekurzivni, digitalni filtar sa prenosnom funkcijom:
∑+
==
=
−p
i
ii
RzazE
zSzH
11
1)()()( (5.1.4)
Slika 5.1.1 Inverzni filtar
s(n) e(n)+
−
1- HI(z)
____________________________D i g i t a l n a o b r a d a g o v o r a
57
57
Na slici 5.1.2. je prikazan rekurzivni filtar koji predstavlja model vokalnog trakta. Njegova prenosna funkcija je data u (5.1.4).
Na ovaj način dobijamo jednostavan model za generisanje govornog signala u kome se vokalni
trakt posmatra kao linearni filtar koji se pobuđuje impulsima koje generišu glasne žice. Pri bezvučnim glasovima pobudni signal je beli šum. Iz izraza za prenosnu funkcije se vidi da sistem ima samo polove a ne i nule.
5.2. Određivanje koeficijenata predikcije
Koeficijente predikcije ia treba odrediti tako da se postigne minimalno odstupanje predviđenog signala od stvarnog. Ako preuredimo izraz (5.1.1), dobijamo (5.2.1).
1)()( 00
=∑ −==
ainsanep
ii (5.2.1)
Posmatrajmo ukupnu kvadratnu grešku koja se pravi na intervalu analize:
∑=n
ne 2)(α (5.2.2)
Kako želimo da minimizujemo ovu grešku, tražimo parcijalni izvod po koeficijentima predikcije
(5.2.3) iz čega sledi izraz (5.2.4).
2
0)( ⎥⎦
⎤⎢⎣
⎡∑ −==
p
ii
iiinsa
dad
dadα
(5.2.3)
0)()(0
=∑ ∑ −−=
p
j nj jnsinsa (5.2.4)
Drugu sumu u ovom izrazu možemo zameniti korelacionim koeficijentima ijr , izraz (5.2.5), tako da se dobija sistem jednačina (5.2.6).
∑ −−=n
ij jnsinsr )()( (5.2.5)
pirap
jijj ...10
0==∑
= (5.2.6)
Slika 5.1.2. Model vokalnog trakta
– rekurzivni filtar
s(n)
e(n)
+
1- 1/HR(z)
+
____________________________D i g i t a l n a o b r a d a g o v o r a
58
58
Ako se iz (5.2.6) izostavi nulti koeficijent 10 =a , dobija se :
pirra ip
jijj ...10
1=−=∑
= (5.2.7)
Izraze možemo napisati i uz pomoć vektora i matrica. Neka je R korelaciona matrica [ ]ijrR = .
Ona je simetrična matrica. Neka je vektor koeficijenata predikcije: ),......,( 10 ′= paaaa , 10 =a . Tada izraz (5.2.1) postaje:
aRa′=α (5.2.8) Ako ponovimo diferenciranje dobija se:
01rRa −−= (5.2.9)
Sada imamo p linearnih jednačina za izračunavanje p koeficijenata linearne predikcije ia .
5.2.1. Autokorelaciona metoda Postupak izračunavanja zavisi od toga gde su postavljene granice intervala za analizu. Kod
autokorelacione metode za proračun signala greške, n ide od -∞ do +∞ , ali se uzima da govorni signal ima vrednost nula izvan intervala analize od 0 do 1−N . To se postiže primenom odgovarajućeg prozora (stacionarni pristup). Ispred prozora ( 0<n ) i posle prozora ( pNn +>= ), signal greške )(ne je nula. Na početku prozora i odmah posle njega signal greške ima jako veliku vrednost.
Postavljanje intervala analize je pre svega značajno za izračunavanje korelacione matrice.
Korelacioni koeficijenti se računaju kao u (5.2.1.1).
jiddnsns
jinsns
jnsinsr
dN
n
n
nij
−=∑ +=
∑ −+=
∑ −−=
−−
=
∞
−∞=
∞
−∞=
1
0)()(
)()(
)()(
(5.2.1.1)
odnosno,
jiddnsnsdrrN
dnij −=∑ −==
−
=
1)()()( (5.2.1.2)
Znači, korelacija zavisi samo od relativnog pomeraja d i prema tome ima sve osobine
autokorelacione funkcije. Zato se ova metoda zove autokorelaciona metoda.
____________________________D i g i t a l n a o b r a d a g o v o r a
59
59
Koeficijenti predikcije se mogu izračunati kao što je navedeno u (5.2.9), pri čemu je R simetrična matrica (poseduje tzv. Toplicovu strukturu). Poznati algoritam za izračunavanje koeficijenata predikcije je Durbinov algoritam, poznat još i kao Levinsonov rekurzivni algoritam.
Neka je 11a prvi koeficijent prediktora 1. reda ( 1=p ), 12a prvi koeficijent prediktora 2. reda
( 2=p ), pa1 prvi koeficijent prediktora reda p , odnosno rešenje za prvi koeficijent 1a . Isto važi i za
ostale koeficijente prediktora 2a ,…. pa . Greška predikcije se računa kao u (5.2.1.3).
∑==
p
ii ira
0)(α (5.2.1.3)
Ovaj sistem jednačina se rešava rekurzivnim algoritmom. Posmatrajmo prediktor 2. reda. Njegovi
koeficijenti su 2211, aa a greška je 2α . Izraz (5.2.1.4) predstavlja izraz za grešku predikcije ovog prediktora.
⎥⎥⎥
⎦
⎤
⎢⎢⎢
⎣
⎡=
⎥⎥⎥
⎦
⎤
⎢⎢⎢
⎣
⎡
⎥⎥⎥
⎦
⎤
⎢⎢⎢
⎣
⎡
00
1
)0()1()2()1()0()1()2()1()0( 2
22
12
α
aa
rrrrrrrrr
(5.2.1.4)
Ako se radi o prediktoru 3. reda, za njega važi:
⎥⎥⎥⎥
⎦
⎤
⎢⎢⎢⎢
⎣
⎡
=
⎥⎥⎥⎥⎥
⎦
⎤
⎢⎢⎢⎢⎢
⎣
⎡
⎥⎥⎥⎥
⎦
⎤
⎢⎢⎢⎢
⎣
⎡
000
1
)0()1()2()3()1()0()1()2()2()1()0()1()3()2()1()0( 3
33
23
13
α
aaa
rrrrrrrrrrrrrrrr
(5.2.1.5)
Ukoliko izrazimo prediktor 3. reda preko prediktrora 2. reda, uvodimo parametar 3k takav da važi:
⎥⎥⎥⎥
⎦
⎤
⎢⎢⎢⎢
⎣
⎡
+
⎥⎥⎥⎥
⎦
⎤
⎢⎢⎢⎢
⎣
⎡
=
⎥⎥⎥⎥
⎦
⎤
⎢⎢⎢⎢
⎣
⎡
1
0
0
11
12
223
22
12
33
23
13aa
kaa
aaa
(5.2.1.6)
Ako se izraz (5.2.1.6) uvede u (5.2.1.5), dobija se sledeća relacija:
⎥⎥⎥⎥
⎦
⎤
⎢⎢⎢⎢
⎣
⎡
=
⎥⎥⎥⎥
⎦
⎤
⎢⎢⎢⎢
⎣
⎡
+
⎥⎥⎥⎥
⎦
⎤
⎢⎢⎢⎢
⎣
⎡
=
⎟⎟⎟⎟⎟
⎠
⎞
⎜⎜⎜⎜⎜
⎝
⎛
⎥⎥⎥⎥
⎦
⎤
⎢⎢⎢⎢
⎣
⎡
+
⎥⎥⎥⎥
⎦
⎤
⎢⎢⎢⎢
⎣
⎡
⎥⎥⎥⎥
⎦
⎤
⎢⎢⎢⎢
⎣
⎡
000
00
00
1
0
0
1
)0()1()2()3()1()0()1()2()2()1()0()1()3()2()1()0( 3
2
3
2
12
223
22
12
α
α
α q
k
qaa
kaa
rrrrrrrrrrrrrrrr
(5.2.1.7)
Ovde se javlja veličina q koju još treba odrediti. Iz navedenih izraza, slede sledeće relacije:
____________________________D i g i t a l n a o b r a d a g o v o r a
60
60
)1( 2323 k−= αα (5.2.1.8)
∑ −−==
2
02
23 )3(1
ii irak
α (5.2.1.9)
333 ka = (5.2.1.10) Ovo je rekurzivni algoritam koji se može opisati određenim početnim uslovima i iterativnim
postupkom:
• početni uslovi:
1),0( 000 == arα
• iterativni postupak:
)1(
1....1
1
)(1
21
1,1,,
,0
,
1
01,
1
mmm
mimmmimi
m
mmm
m
imi
mm
k
mi
akaa
a
ka
imrak
−=
−=
+=
=
=
−∑−=
−
−−−
−
=−
−
αα
α
(5.2.1.11)
Suština ovog rekurzivnog algoritma je da se najpre izračuna jedan koeficijent prediktora 1. reda,
zatim se računaju dva koeficijenta prediktora 2. reda i sve tako do p - tog reda, kada se dobijaju konačni koeficijenti prediktora.
Koeficijenti mk se nazivaju parcijalni ili PARCOR koeficijenti. Nazivaju se i refleksioni koeficijenti. Zbog stabilnosti filtra oni moraju da budu manji od 1:
1≤mk (5.2.1.12)
Interesantno je posmatrati ponašanje pojedinih grešaka mα . Kako je modelovanje signala sve bolje kako se povećava red prediktora, greška je sve manja, pa važi (5.2.1.13).
1+≤ mm αα (5.2.1.13) Inverzni filtar se može realizovati i pomoću PARCOR koeficijenata. To je tzv. lattice struktura. Na
slici 5.2.1.1. prikazana je lattice-struktura inverznog filtra a na slici 5.2.1.2. modela vokalnog trakta [2].
____________________________D i g i t a l n a o b r a d a g o v o r a
61
61
Prednost lattice strukture je u tome što se može kontrolisati stabilnost filtra, što je posebno važno
kod izračunavanja filtra na digitalnim signal procesorima sa fiksnim zarezom. Stabilnost je obezbeđena ukoliko je stalno obezbeđen uslov (5.2.1.12). Moguće je vršiti skaliranje u toku izračunavanja
koeficijenata mk jer i skalirani koeficijentioni formiraju stabilan filtar što nije slučaj sa LPC koeficijentima ia . Ako bi se ove vrednosti skalirale dovele bi do nestabilnog filtra.
5.2.2. Kovarijansna metoda Granice intervala analize se mogu i drugačije postaviti. Kod tzv. kovarijansne metode, analiza
signala je na intervalu od 0 do 1−N . Određivanje koeficijenata predikcije se vrši iz jednačina (5.2.2.1), a greška predikcije je data izrazom (5.2.2.2).
picap
jijj ...10
0==∑
= (5.2.2.1)
∑==
p
iiica
00α (5.2.2.2)
Korelacioni koeficijenti ijc se računaju kao:
s(n)
z-1
z-1+
+
+
e(n)
k1
+
+
+
k2
+
z-1
+
+
+
+
+
.....
.....
+
+
+
kp
e(n)
z-1
s(n)
kp-1kp
++
+
.....
z-1
+
+
+
.....
k1
z-1
-- -
+
Slika 5.2.1.1. Lattice struktura inverznog filtra
Slika 5.2.1.2. Lattice struktura modela vokalnog trakta
____________________________D i g i t a l n a o b r a d a g o v o r a
62
62
∑ −−=−
=
1
0)()(
N
nij jnsinsc (5.2.2.3)
Ovaj postupak odgovara nestacionarnom pristupu kratkovremenske analize i za njega je potrebno
imati na raspolaganju pN + vrednosti ulaznog signala. Metoda se naziva kovarijansna metoda jer određivanje korelacionih koeficijenata na to podseća. Strogo uzevši ovde se ne radi o kovarijansama onako kako se uobičajeno misli jer se srednje vrednosti nigde ne razmatraju. Kod ove metode ne postoje skraćeni postupci već se do rešenja sistema jednačina dolazi uobičajenim metodama za rešavanje sistema jednačina o kojima ovde neće biti reči.
5.3. Karakteristike u frekventnom domenu Ako se osvrnemo na Parsevalovu teoremu koja kaže da su energije u vremenskom i frekventnom
domenu jednake, to mora onda da važi i za energiju signala greške kod linearne prediktivne metode. Možemo zato pisati da važi:
dweEne jwpN
n∫=∑
−
−=
=
π
ππ
21
0
2 )(21)( (5.3.1)
Kako za grešku predikcije važi (5.3.2), izraz (5.3.1) postaje (5.3.3):
)1()()(1
∑+==
−p
i
ii zazSzE (5.3.2)
∫ ΩΩ
Ω=∑
−
−=
=
π
ππd
H
Sne
pN
n 2
21
0
2
)(
)(21)( (5.3.3)
pri čemu je )(ΩH frekventna karakteristika inverznog filtra. Minimizaciji signala greške u
vremenskom domenu odgovara minimizacija u frekventnom domenu. Filtar ustvari teži da modeluje anvelopu spektra signala, dok spektar signala greške teži da postane spektar belog šuma.
5.3.1. Izračunavanje LPC spektra
Može se reći da je izračunavanje spektralne karakteristike LPC filtra, odnosno, LPC spektra,
jednostavno. Najpre ćemo izračunati LPC spektar inverznog filtra. Kako je u pitanju transverzalni filtar, njegov impulsni odziv predstavljaju koeficijenti predikcije:
{ }pinv aaanh ,...,,,1)( 21= (5.3.1.1)
Kompleksni, diskretni spektar se može dobiti pomoću diskretne Furijeove transformacije iz
diskretnog impulsnog odziva sistema, kao:
____________________________D i g i t a l n a o b r a d a g o v o r a
63
63
1,1,
))(()(
+==Δ
=ΔΔ=
=
pNN
ftN
ffmm
nhDFTmS
odm
invinv
∑==
−p
k
Nkmjinvinv ekhmS
0
2)()( π (5.3.1.2)
Dovoljno je izračunati kompleksni spektar za 1+p vrednost signala. Spektar tada ima 12
1+
+p
realnih i isto toliko imaginarnih vrednosti pomoću kojih se može naći spektar snage signala. Ukoliko se želi bolja rezolucija, može se impulsni odziv (5.3.1.1) produžiti popunjavanjem nula (do, npr. N vrednosti) i izračunavanjem kompleksnog spektra u N tačaka.
Za rekurzivni LPC filtar važi:
))(log())(log()(
1)(
)(1)(
mSmSmS
mS
zHzH
invrek
invrek
invrek
−=
=
=
(5.3.1.3)
Primer Neka su dati koeficijenti prediktora 2. reda: 85.02.1 21 =−= aa . Tada je prenosna funkcija
inverznog filtra: 21 85.02.11)( −− +−= zzzHinv , dok je prenosna funkcija rekurzivnog filtra:
21 85.02.111)(
−− +− zzzHrek .
Na slici 5.3.1.1 su date amplitudska i fazna karakteristika inverznog filtra (LPC spektar u N = 64
tačke), na slici 5.3.1.2 amplitudska i fazna karakteristika inverznog filtra (LPC spektar u N = 64 tačke) a na slici 5.3.1.3. impulsni odziv rekurzivnog filtra.
Slika 5.3.1.1. Amplitudska i fazna karakteristika inverznog filtra
____________________________D i g i t a l n a o b r a d a g o v o r a
64
64
5.4. Primena metode linearne predikcije na govornom signalu Metoda linearne predikcije se dosta koristi u obradi govornog signala. Rekurzivni filtar se koristi
kao model vokalnog trakta koji se pobuđuje ili Dirakovim impulsima ili odmercima belog šuma. Da bi se na adekvatan način uzela u obzir energija signala greške, uvodi se faktor pojačanja g tako da model vokalnog trakta izgleda kao na slici 5.4.1.
Slika 5.3.1.2 Amplitudska i fazna karakteristika rekurzivnog filtra (N=64)
Slika 5.3.1.3. Impulsni odziv
rekurzivnog filtra
____________________________D i g i t a l n a o b r a d a g o v o r a
65
65
Faktor pojačanja g se određuje iz relacije (5.4.1).
∑===
p
ii ira
NNg
0
2 )(1α (5.4.1)
Na slici 5.4.2 su prikazani spektri vokala /a/ i sintetisanog vokala /a/, kao ilustracija koliko dobro se
pomoću LPC analize može modelovati spektralna karakteristika.
+
1- 1/H(z)
+ s(n)gδ (n)
Slika 5.4.1 Model vokalnog trakta pobuđen jediničnim impulsima
Slika 5.4.2. Prava i modelovana spektralna karakteristika vokala /a/
Slika 5.4.3. Vremenski oblik vokala /a/ i njegov sonagram
____________________________D i g i t a l n a o b r a d a g o v o r a
66
66
Na slici 5.4.3 je prikazan vremenski oblik vokala /a/ i njegov sonagram. Pomoću LPC metode
izračunati su koeficijenti filtra, pa je sintetisan vokal /a/ pri čemu je za pobudni signal uzeta povorka Dirakovih impulsa na rastojanju koje odgovara osnovnoj učestanosti vokala. Na slici 5.4.4. je prikazan sintetisani vokal /a/ primenom modela sa slike 5.4.1 i njegov sonagram.
Kako LPC filtar ima samo polove, formantne frekvencije vokala se mogu dobro modelovati, što
nije slučaj i sa nulama u spektru koje su karakteristične za nazale: m, n ili nj i frikative: f, š i s. Osnovna prednost metode linearne predikcije je u tome što se pomoću nje dobija prilično gladak spektar, što nije slučaj, kako smo ranije istakli, kada se računa kratkovremenski spektar pomoću Furijeove transformacije, kada je vidljiva talasalost u spektru usled osnovne frekvencije. Kod metode linearne predikcije razdvojeni su pobudni signal i rezonantne frekvencije vokalnog trakta.
Koeficijenti predikcije se mogu transformisati u druge koeficijente koji opisuju vokalni trakt kao
akustičku cev. Vokalni trakt se može predstaviti kao niz nadovezanih akustičkih cevi, različitih poprečnih
preseka mA iste debljine. Uzima se da nema gubitaka pri prostiranju zvuka kroz ovu akustičku cev. Refleksija zvuka na granicama pojedinih delova cevi opisuje se pomoću PARCOR – koeficijenata, tj.
refleksionih koeficijenata - mk . Odnos dva uzastopna poprečna preseka se naziva AREA – koeficijent i može se izraziti preko PARCOR koeficijenata:
m
m
m
mkk
AA
−+
=+111
(5.4.2)
Idealni signal greške bi bio signal koji ima približno ravan spektar u celom frekventnom opsegu.
Kako spektar govornog signala opada oko 6dB po oktavi, efekat LPC analize će se poboljšati ako se spektar govornog signala najpre za ovaj iznos podigne ka višim frekvencijama. To se postiže korišćenjem visokofrekventnog digitalnog filtra prvog reda čija je prenosna karakteristika data izrazom (5.4.3). Ovaj postupak se naziva preemfaza, a μ koeficijent preemfaze . Obično μ ima vrednost od 0.9 do 1.
11)( −−= zzV μ (5.4.3)
Slika 5.4.4. Sintetisani vokal /a/ i njegov sonagram
____________________________D i g i t a l n a o b r a d a g o v o r a
67
67
Prenosna funkcija vokalnog trakta )(zH treba da što bolje modeluje formantne frekvencije. Kako je za modelovanje jednog formanta potrebno dva pola (jedan par), minimalan potreban red filtra je dvostruko veći od broja formanata. Obično se red filtra računa kao u (5.4.4) što na primer, za frekvenciju odmeravanja od 10 kHz iznosi 10. Da bi se svi formanti obuhvatili, najčešće se red filtra uzima da bude za dva ili tri veći od ovog broja.
1000minaodmeravanjfrekvenciap = (5.4.4)
Prava vrednost za p se može utvrditi ako se posmatra greška α koja je monotono opadajuća
funkcija reda p . Na slici 5.4.5 prikazana je zavisnost greške α od reda filtra p za vokal /i/, učestanost odmeravanja je 22.050 kHz. Sa slike se vidi da za male vrednosti p greška jako brzo opada da bi kasnije postala skoro konstantna. Određena greška uvek ostaje (zbog nelinearnosti, nula u spektru).
Kao što je već rečeno, koeficijenti predikcije se mogu izračunati pomoću:
• autokorelacione metode ili
• kovarijansne metode. Autokorelaciona metoda je robusnija jer garantuje stabilan filtar. Ona zahteva, prema
stacionarnom pristupu kratkovremenske analize, duži prozor za analizu. Suprotno njoj, kod kovarijansne metode, kraći je prozor za analizu signala. Njega treba ispravno postaviti, idealno je unutar osnovne periode signala, sinhrono sa osnovnom frekvencijom govora. Tako se postiže tačnija analiza fine strukture signala i eliminiše uticaj osnovne frekvencije. Kovarijansna metoda je pogodna za analizu nestacionarnih delova govornog signala ali je sa njom povezan problem stabilnosti, dok se autokorelaciona metoda dosta koristi u automatskom prepoznavanju govora i digitalnom prenosu govora.
Interesantno je uporediti dobijene spektralne karakteristike primenom linearne predikcije različitog
reda p. Za veći red p dobijaju se bolje modelovanje spektralne karakteristike, ali se onda i talasalost povećava, što nije poželjno pri utvrđivanju formanata. Na slici 5.4.6 prikazan je uticaj reda predikcije p na oblik spektralna karakteristike.
Slika 5.4.5. Zavisnost greške predikcije od reda p
____________________________D i g i t a l n a o b r a d a g o v o r a
68
68
Slika 5.4.6. Uticaj reda predikcije na oblik spektralne karakteristike
____________________________D i g i t a l n a o b r a d a g o v o r a
69
69
POGLAVLJE 6
ODREĐIVANJE OSNOVNIH PARAMETARA GOVORNOG SIGNALA
Najznačajniji parametri govornog signala su osnovna učestanost 0f , formantne frekvencije, antiformantne frekvencije i tip pobude: zvučno/bezvučno. Od značaja je i položaj pauza u govornom signalu. Postupci i problemi oko određivanja ovih parametara biće detaljnije izloženi u delu koji sledi.
6.1. Formantna analiza Za vokale kao i za suglasnike, osim nazala, prenosna funkcija vokalnog trakta )(zH , može se
posmatrati kao funkcija koja ima samo polove. U digitalnoj realizaciji njoj odgovara rekurzivni filtar. Polovi prenosne funkcije karakterišu formante govornog signala. Postupak određivanja formanata se naziva formantna analiza. Kod većine postupaka formantne analize, računaju se samo formantne frekvencije, dok su amplitude signala od manjeg značaja.
Jedna od najrasprostranjenijih metoda za određivanje formanata je LPC analiza. Kako je
informacija o formantima sadržana u anvelopi spektra, potrebno je naći spektar signala. Tu mogu da nastanu problemi. Dešava se da u spektru postoje neke izražene vrednosti (pikovi), koje smetaju pri analizi. Oni mogu da potiču ili od osnovne učestanosti ili od nekog šuma. Formantne frekvencije mogu
____________________________D i g i t a l n a o b r a d a g o v o r a
70
70
da budu jako bliske, što može da dovede do toga da se ne mogu jasno razdvojiti i prepoznati. Nekada je prvi formant vrlo blizu osnovnoj frekvenciji, pa to stvara dodatni problem. Svi ovi problemi se skoro potpuno rešivi primenom LPC analize.
6.1.1. Formantna analiza pomoću linearne predikcije
Kod metode linearne predikcije, rekurzivni filtar je prilagođen anvelopi kratkovremenskog spektra.
Spektralni maksimumi, odnosno frekventne komponente koje imaju najveću energiju, mogu se lako uočiti u spektru, dok su frekventne komponente sa manjom energijom lošije modelovane.
Ako pogledamo linearni model za generisanje govora (detaljnije u 3. poglavlju), njegova prenosna
funkcija je proizvod Z-transformacije generatora signala, koji je ili povorka Dirakovih impulsa ili beli šum, spektra pobudnog signala )(zS , prenosne funkcije vokalnog trakta )(zH i Z-transformacije procesa emitovanja govora. Ono što nije poznato je koja od komponenata stvara pojedine polove spektralne karakteristike. Zna se samo da se metodom linearne predikcije modeluju polovi tako da signal greške kod inverznog filtra bude što manji.
Prenosna karakteristika linearnog prediktora )(zH p ne može se koristiti kao procena prenosne funkcije vokalnog trakta )(zH . Zato se pri korišćenju linearne predikcije u određivanju formanata mora
utvrditi koji je od polova funkcije )(zH p , istovremeno i pol prenosne funkcije vokalnog trakta )(zH . Određivanje polova se svodi na nalaženje korena polinoma u imeniocu (npr. Njutn-Rasponovom
metodom). Metoda se sastoji u tome, kao što je poznato, da se procenom korena polinoma izračuna njegova vrednost, utvrdi kolika je greška, pa se onda procenjuje tačnija vrednost korena polinoma i tako sve dok greška ne postane manja od neke unapred definisane vrednosti. Tada se polinom deli tim korenom, pa se prelazi na određivanje sledećeg korena i tako redom, dok se ne dobiju svi koreni polinoma. Kako se svaki od korena računa sa određenom greškom, onda se i ostali koreni takođe računaju sa greškom. Ukupan broj iteracija zavisi od početnih vrednosti i željene tačnosti.
6.1.2. Glačanje kratkovremenskog spektra
Kako je proces izračunavanja korena polinoma prediktora dosta računarski intenzivan i skoro da
niije moguć u realnom vremenu, razvijeni su postupci koji polaze od kratkovremenskog spektra koji se lako računa pomoću DFT-a (odnosno, FFT-a).
Formanti se nalaze na mestima maksimuma anvelope spektralne karakteristike. Da bi se oni
odredili, potrebno je da se uglača spektralna karakteristika. Jedan od preduslova uspešne formantne analize je razdvojiti deo prenosne funkcije koji potiče od generatora signala i deo koji potiče od vokalnog trakta. Kao što smo već rekli, uticaj generatora signala u slučaju povorke Dirakovih impulsa, ogleda se u tome što je prisutna talasalost u spektru sa ekvidistantnim maksimumima koji se nalaze na rastojanju koje odgovara osnovnoj učestanosti govora. Na slici 6.1.2.1. su prikazani neotežnjeni (a) i otežnjeni (b) Dirakovi impulsi i njihove spektralne karakteristike.
____________________________D i g i t a l n a o b r a d a g o v o r a
71
71
Na slici 6.1.2.2. prikazan je uticaj različitih dužina prozorskih funkcija na glačanje spektralne
karakteristike. Glačanje se vrši konvolucijom spektra govornog signala i odgovarajuće prozorske funkcije. Sa slika se vidi da se upotrebom dužeg prozora, bolje glača spektralna karakteristika.
Slika 6.1.2.1 b Otežnjeni Dirakovi
impulsi i njihova spektralna karakteristika
Slika 6.1.2.1a. Neotežnjeni Dirakovi impulsi i njihova spektralna karakteristika
____________________________D i g i t a l n a o b r a d a g o v o r a
72
72
6.1.3 Homomorfna analiza (kepstrum) Suština linearnog modela za proizvođenje govora je da govor nastaje kao konvolucija pobudnog
signala i impulsnog odziva prenosne karakteristike vokalnog trakta. Ako želimo da eliminišemo uticaj pobudne funkcije, potrebno je izvršiti razdvajanje ova dva signala iz konvolucije. To je pogodno uraditi u frekventnom domenu.
Pođimo od linearnog modela za generisanje govora prikazanog na slici 3.3.1 za koji važi:
AzHzGzPzX )()()()( = (6.1.3.1) Ako želimo da eliminišemo uticaj pobudne funkcije )(zP , uvodimo novu veličinu kepstrum )(dx
(6.1.3.2). Veličina d ima dimenziju vremena i naziva se u engleskoj terminologiji, quefrency:
Slika 6.1.2.2. Uticaj različitih dužina prozora na efekat glačanja
____________________________D i g i t a l n a o b r a d a g o v o r a
73
73
adhdgdpdx
AHGPDFTdx
XDFTdx
+++=⎥⎦⎤
⎢⎣⎡ +Ω+Ω+Ω=
⎥⎦⎤
⎢⎣⎡ Ω=
−
−
)()()()(
log)(log)(log)(log)(
)(log)(
22221
21
(6.1.3.2)
Kepstrum je realna veličina. Na slici 6.1.3.1 je prikazan spektar vokala /a/ i njegov kepstrum.
a)
b)
Kepstralni koeficijenti ic se računaju iz LPC koeficijenata ia kao u (6.1.3.3).
,...1
,....,2
)0(
1
1
1
11
0
+=∑−
−=
=∑−
−−=
−==
=−
−
=−
piaci
kic
piaci
kiac
acrc
p
kkkii
i
kkkiii (6.1.3.3)
Slika 6.1.3.1. a) spektar vokala /a/ b) kepstrum vokala /a/
____________________________D i g i t a l n a o b r a d a g o v o r a
74
74
)0(r je autokorelacija, a p red LPC predikcije. Na slikama 6.1.3.2 a, b, c, prikazan je postupak glačanja kratkovremenskog spektra pomoću
kepstruma. To je istovremeno postupak razdvajanja prenosne funkcije vokalnog trakta i pobudne funkcije. Ako se kepstrum funkcija filtrira niskofrekventnim filtrom, odnosno ako se uzme određeni broj kepstralnih koeficijenata, eliminiše se uticaj osnovne učestanosti na talasalost u spektru, pa se na taj način dobija uglačanija spektralna karakteristika. Na slikama 6.1.3.2 a, b, c, prikazani su odgovarajući uglačani spektri. Na slici pod a) je spektar za slučaj ako se koristi 10 kepstralnih koeficijenata, pod b) 20, a pod c) 30 kepstralnih koeficijenata.
Može se zaključiti da sa povećanjem broja koeficijenata ostaje sve veća talasalost u spektru.
Homomorfna analiza se može koristiti i za utvrđivanje osnovne frekvencije govora.
Slika 6.1.3.2a. Glačanje
kratkovremenskog spektra pomoću kepstruma
(10 koeficijenata)
Slika 6.1.3.2b. Glačanje
kratkovremenskog spektra pomoću kepstruma
(20 koeficijenata)
____________________________D i g i t a l n a o b r a d a g o v o r a
75
75
6.1.4. Formantna analiza u frekventnom domenu Postoji postupak, u literaturi poznat kao McCardless-ov algoritam, koji polazi od
kratkovremenskog spektra dobijenog u LPC analizi. Postupak ne određuje direktno polove prenosne
funkcije )(zH p dobijene LPC analizom već određuje maksimume na spektralnoj karakteristici. Ovde ga nećemo detaljnije razmatrati. I njegova karakteristika je, kao uostalom i drugih sličnih postupaka, da problem preciznog, automatskog određivanja formanata nije rešen. Osnovni razlozi za to leže u samoj prirodi govornog signala. Može se desiti da su susedne formantne frekvencije suviše blizu jedna drugoj i da je nedovoljna spektralna rezolucija da bi se obe mogle detektovati, jer jedna drugu maskiraju.
Formanti su precizno definisani samo za vokale. Stvar se komplikuje kada su u pitanju nazali gde
se ponašanje vokalnog trakta menja, kao i položaj formanata. Kod nazala se javljaju i antiformanti. Kod većine govornika kod nekih fonema, treći formant je jako slab, maskira ga šum, pa se i ne može izdvojiti. Konačno, kao i kod određivanja osnovne frekvencije, i ovde nije usvojen kriterijum za grešku koja se pravi. Prilikom određivanja položaja formanata, mi ne znamo prave vrednosti na osnovu kojih bi se moglo reći kolika je greška, da bi se izvršila korekcija.
6.1.5. Istovremeno određivanje formanata i antiformanata
Postupci koji samo određuju antiformante nisu od značaja. Od značaja su postupci pomoću kojih
možemo istovremeno da odredimo i formante i antiformante. Takvi postupci su u literaturi poznati kao ARMA postupci. Slova AR potiču od autoregresive (određivanje polova), a MA od moving average (određivanje nula), međutim ovde se nećemo detaljnije njima baviti.
Slika 5.1.3.2c. Glačanje
kratkovremenskog spektra pomoću kepstruma
(30 koeficijenata)
____________________________D i g i t a l n a o b r a d a g o v o r a
76
76
6.2. Određivanje osnovne učestanosti govora
Jedan od najznačajnijih parametara govornog signala je osnovna učestanost 0f , zato što je ovaj parametar odgovoran za prozodijska svojstva govornog signala, odnosno za melodičnost govora. Čovečije uvo je osetljivije na promene ovog parametra nego na promene nekog drugog parametra govora. Kod digitalnog prenosa govora, jako je značajno koliko je dobro procenjena osnovna učestanost jer od nje jako zavisi kvalitet sintetisanog govora.
Na prvi pogled, problem određivanja osnovne učestanosti je lak. Potrebno je samo odrediti
frekvenciju jednog kvaziperiodičnog signala. Kada se radi o govornom signalu, stvari su komplikovaniije i problem određivanja osnovne učestanosti spada u najteže probleme obrade govora. Više je razloga za to. Nabrojaćemo neke od njih:
• govor je u principu nestacionaran signal. Oblik vokalnog trakta se može jako brzo menjati što dovodi do drastičnih promena u vremenskoj strukturi signala. Ta promena može biti već posle jedne osnovne periode.
• usled velikog broja različitih položaja u kojima se može naći vokalni trakt pri izgovoru, kao i velikog broja različitih izgovorenih glasova, postoji veliki broj mogućih vremenskih struktura govornog signala.
• kod različitih govornika osnovna frekvencija je različita, ona može da varira od 50 do 350 Hz. Posebno može da nastane problem kod ženskih govornika kada su osnovna frekvencija i prvi formant bliski.
• pobudni signal nije uvek regularan. Naime, govornik može da bude prehlađen, ali i da govori u uzbuđenom stanju, što sve doprinosi da se stvaraju dodatne otežavajuće okolnosti za precizno određivanje osnovne frekvencije.
• poseban problem nastaje kod prenosa govora, kada treba imati u vidu i osobine prenosnog kanala koji može da ograniči ili degradira govorni signal (npr. telefonski kanal, koji predstavlja filtar propusnik opsega, od 300 do 3400 Hz).
Postoji čitav niz različitih metoda za utvrđivanje osnovne učestanosti govora. Različite metode se
primenjuju za različite oblasti primene.
6.2.1. Podela algoritama za određivanje osnovne učestanosti Do sada smo se bavili postupcima koji razmatraju anvelopu spektra, odnosno grubu strukturu
spektra. Sa druge strane imamo finu strukturu spektra u kojoj je sadržana informacija o osnovnoj učestanosti. Kod zvučnih glasova imamo harmonijsku, finu strukturu u spektru, dok su bezvučni glasovi karakteristični po tome što kod njih nema te fine strukture u spektru. U principu, kod određivanja osnovne učestanosti cilj je sve ono što nije bio cilj predhodnih metoda kod određivanja formanata. Problem je međutim, da i kod zvučnih glasova ponekad nije tako izražena fina, harmonijska struktura u spektru jer se oni ne ponašaju strogo kao periodični signali.
U svakom slučaju, svaki algoritam za određivanje osnovne učestanosti sastoji se iz tri koraka:
• predobrada signala
• proces ekstrakcije obeležja signala
• dodatna obrada
____________________________D i g i t a l n a o b r a d a g o v o r a
77
77
Zadatak predobrade signala je redukcija podataka. Od govornog signala se pravi manja količina podataka sa kojima se dalje radi. U procesu ekstrakcije obeležja vrši se merenje odnosno, pretvaranje ulaznog signala u odgovarajuće vrednosti koje treba da posluže za konkretnu procenu osnovne učestanosti. Dodatna obrada je različita u zavisnosti od primene a svodi se na korekciju grešaka, odnosno, glačanje dobijene krive koja predstavlja promenu osnovne učestanosti u vremenu ili se odnosi na njenu grafičku predstavu.
Različiti algoritmi za određivanje osnovne učestanosti se grubo mogu podeliti u dve grupe u
zavisnosti od ulaznog signala u procesu ekstrakcije obeležja signala. To su:
• algoritmi koji rade u vremenskom domenu
• algoritmi koji rade na principu kratkovremenske analize.
6.2.2. Algoritmi u vremenskom domenu Ovi algoritmi se mogu dalje podeliti u zavisnosti od toga koji deo u analizi vrši redukciju podataka,
predobrada ili proces ekstrakcije obeležja. Kod prve grupe algoritama, ukupna redukcija podataka je u predobradi signala, dok je kod druge grupe, redukcija podataka samo u fazi ekstrakcije obeležja.
U principu, algoritmi u vremenskom domenu mogu da analiziraju signal periodu po periodu pa na
izlazu iz dela za ekstrakciju obeležja imamo niz markera koji pokazuju granice za osnovnu periodu. Ovi algoritmi su osetljiviji na lokalne smetnje i samim tim su i manje pouzdani, nego algoritmi koji rade na principu kratkovremenske analize.
Neki od algoritama koji rade u vremenskom domenu su:
• analiza vremenske strukture i
• određivanje prve periode oscilovanja.
Analiza vremenske strukture Osnovna perioda je odgovor vokalnog trakta na jedan impuls pobudne funkcije. Kako vokalni trakt
odgovara jednom linearnom, pasivnom sistemu, njegov impulsni odziv predstavlja sumu eksponencijalnih, prigušenih oscilacija. Može se zato očekivati da su amplitude značajnih maksimima i minimuma signala na početku svake periode veće nego na njenom kraju. Utvrđivanje položaja tih maksimalnih i/ili minimalnih vrednosti bi moglo da posluži za određivanje osnovne učestanosti. Međutim, tu se javlja problem jer su frekvencije tih oscilacija određene formantnim učestanostima koje se mogu jako brzo menjati. Prvi formant je jako izražen pri nižim frekvencijama. Svi ovi problemi vode ka jako komplikovanim algoritmima koji moraju više puta da proučavaju vremensku strukturu signala. Najčešće se ovakva analiza sprovodi tako da se uticaj viših formanata eliminiše korišćenjem niskofrekventnog filtra, pa se onda utvrđuju svi maksimumi i minimumi. Oni se ispituju jedan po jedan, odbacuju se oni koji nisu značajni, sve dok na kraju ne ostane samo jedan maksimum po periodi. Na kraju preostaje još da se uradi korekcija na mestima gde je ona očigledno potrebna.
Određivanje prve periode oscilovanja
Osnovna perioda govora se može odrediti iz prve periode oscilacija koja se može izdvojiti iz
signala u predobradi pomoću strmijeg niskofrekventnog filtra. Proces ekstrakcije koji sledi je tada jednostavan. Najjednostavnija metoda ekstrakcije je određivanje broja preseka sa nulom (zero
____________________________D i g i t a l n a o b r a d a g o v o r a
78
78
crossing rate). Suština postupka je postavljanje markera uvek kada signal menja znak, odnosno prolazi kroz nulu.
Činjenica da je potreban strmiji niskofrekventni filtar predstavlja i glavni nedostatak ove brze i ne
tako intezivne metode. Takav filtar je potreban zato što treba obezbediti slabljenje visokih frekvencija od 18 dB po oktavi u okviru područja merenja osnovne učestanosti. Pored toga, poznato je da se i amplituda ulaznog signala menja u delu za ekstrakciju za više od 50 dB zbog promene osnovne učestanosti. Ovakva dinamika signala, zajedno sa inherentnom dinamikom signala koja iznosi oko 30 dB, je za ovaj algoritam previše.
Još jedan nedostatak ovog algoritma je da se za određene primene ne može koristiti. To je slučaj
kada se radi o telefonskom kanalu koji odseca niže frekvencije, ispod 300 Hz.
6.2.3. Algoritmi na principu kratkovremenske analize Kod ovih algoritama je u predobradi potrebno uraditi kratkovremensku analizu signala. Iz tog
razloga najpre treba podeliti signal na frame-ove čiju dužinu treba tako birati da bude dovoljno mala da bi se mereni parametar signala na tom intervalu mogao smatrati konstantnim, a sa druge strane, ovaj interval treba da bude dovoljno veliki da bi se taj parametar mogao uopšte meriti. Kod algoritama koji se baziraju na kratkovremenskoj analizi obično se uzima da je taj interval dve do tri osnovne periode. Interval merenja parametara signala treba uzeti da bude takav da se sve njegove promene na njemu mogu izmeriti.
Kao što imamo odmereni govorni signal, tako sada imamo i niz odmerenih vrednosti nekog od
parametara (važi teorema o odabiranju), s tim da je učestanost odmeravanja parametara dosta manja nego učestanost odmeravanja govornog signala (od 5 do 20 ms u poređenju sa 50 do 125 sμ ). Kada želimo da merimo neki parametar, onda je učestanost odmeravanja konstantna. Za neke primene, kao što je prenos ili memorisanje govora, nekada je pogodno da ova učestanost ne bude konstantna, nego da se podešava shodno ponašanju parametra koji se posmatra.
Svi algoritmi koji rade u frekventnom domenu mogu se podeliti na dve grupe. Direktno određivanje
osnovne učestanosti govora na osnovu položaju prvog maksimuma spektralne karakteristike, pokazalo se nepouzdano. Zato se posmatra fina struktura spektra. To se postiže pomoću kompresije spektra, pri čemu se osnovna frekvencija nalazi kao najveći zajednički delilac svih harmonika signala. Spektar signala se komprimuje duž frekventne ose u odnosu 1:2, 1:3... i sumira. Na frekvenciji koja odgovara osnovnoj frekvenciji javlja se izražena maksimalna vrednost.
Kod druge grupe algoritama koji rade u frekventnom domenu, spektralna karakteristika se
transformiše, vraća u vremenski domen, ali ne spektar nego njegova logaritamska vrednost. Tako nastaje kepstrum. Položaj izraženog maksimima ukazuje na osnovnu frekvenciju. Na slici 6.2.3.1. je prikazan a) vremenski oblik vokala /a/, b) njegova spektralna karakteristika, c) logaritam spektralne karakteristike i d) njegov kepstrum.
0 100 200 300 400 500 600-0.6
-0.4
-0.2
0
0.2
0.4
Am
plitu
da
Slika 6.2.3.1a. Vremenski oblik vokala /a/.
____________________________D i g i t a l n a o b r a d a g o v o r a
79
79
Na slikama b) i c) može se primetiti talasalost u spektru koja je posledica osnovne učestanosti.
Maksimalna vrednost na kepstralnoj karakteristici oko 125. odmerka na slici d), ukazuje na osnovnu
0 50 100 150 200 250 300-40
-20
0
20
4020*log10(|H(jf)|)
0 50 100 150 200 250 3000
5
10
15
20
|H(jf)|
Slika 6.2.3.1b. Spektralna karakteristika vokala /a/.
Slika 6.2.3.1d. Kepstrum vokala /a/.
Slika 6.2.3.1c. Logaritam spektralne
karakteristike vokala /a/:
0 50 100 150 200 2500
1
2
3
4
Kepstrum za odsecak vokala "a"
____________________________D i g i t a l n a o b r a d a g o v o r a
80
80
učestanost, dok se, za niže vrednosti quefrency-a, na slici vidi položaj formanata. Treba napomenuti da nižim vrednostima quefrency-a odgovaraju više frekvencije. Određivanje osnovne frekvencije se postiže utvrđivanjem položaja maksimuma, koji je u ovom slučaju negde oko 125. odmerka. Kako je učestanost odmeravanja 22.05 kHz, osnovna učestanost je negde oko 178 Hz (radi se o ženskom govorniku).
Kod bezvučnih glasova nema maksimuma u kepstrumu, pobuda nije periodičan signal. Bezvučni
glasovi imaju karakteristike belog šuma i njihova ukupna energija je manja. Korišćenjem odgovarajućeg praga za energiju, može se utvrditi kada postoji zvučni a kada bezvučni segment u govoru. Da bi ova klasifikacija bila pouzdanija, koristi se i dodatni kriterijum, računa se broj preseka sa nulom, koji ima malu vrednost kada se radi o zvučnom segmentu i veliku, kada se radi o bezvučnom segmentu. Korišćenje kepstruma za određivanje osnovne učestanosti je pouzdana metoda. Sa druge strane, računarski je dosta zahtevna.
Na kraju treba pomenuti još i metodu minimalnog kvadrata greške. U početku se ova metoda
koristila samo u matematici kada je od jednog periodičnog vremenskog signala bilo potrebno razdvojiti periodični signal nepoznate periode i beli Gausov šum, koji mu je pridodat. Kasnije se ova metoda malo modifikovala jer, niti je govorni signal idealno periodičan, niti je onaj drugi signal sa idealnom Gausovom raspodelom.
Zajedničko za sve ove algoritme koji rade u frekventnom domenu je:
• algoritmi koji vrše kratkovremensku analizu daju niz vrednosti za osnovnu učestanost za svaki od intervala u kome se merenje vrši,
• svi ovi algoritmi su neosetljivi na fazne pomeraje, šum ili na odsecanja na nižim učestanostima, pa se mogu koristiti za primene u kojima se radi o prenosu govora preko telefonskog kanala,
• računarski su prilično intezivni.
Primena LPC analize pri određivanju osnovne učestanosti Najjednostavnija metoda za određivanje osnovne frekvencije je primenom autokorelacione
funkcije. Poznato je da je kod periodičnih signala, položaj maksimuma autokorelacione funkcije ukazuje na osnovnu frekvenciju. Kako je autokorelaciona funkcija povezana sa spektralnom karakteristikom, ova metoda određivanja osnovne učestanosti se ubraja u spektralne metode. Osnovni problem kod primene autokorelacione funkcije je što prvi formant može da zasmeta određivanju osnovne frekvencije. Zato je neophodno da se najpre eliminiše uticaj prvog formanta, pa da se zatim pristupi određivanju osnovne učestanosti. To se postiže primenom LPC analize. Na slici 6.2.3.2. je šematski prikazan postupak određivanja osnovne učestanosti pomoću LPC analize.
NF filtar fg = 800 Hz
govornisignal
odmeravanjefT = 1600 Hz
inverzni filtar LPC
interpolacija zvu / bezvuf0
autokorelacija
Slika 6.2.3.2. Postupak određivanja
osnovne učestanosti pomoću LPC analize
____________________________D i g i t a l n a o b r a d a g o v o r a
81
81
Govorni signal se najpre filtrira niskofrekventnim filtrom čija je granična frekvencije 800 Hz. Zatim se vrši LPC analiza 4. reda (p = 4). Koristi se inverzni filtar, pa se zbog njega ova metoda naziva SIFT metoda (Simplified Inverse Filtering Technique) [4]. Signal greške kod LPC analize sadrži u sebi informaciju o osnovnoj učestanosti. Nad signalom greške se računa autokorelaciona funkcija, pa se na osnovu maksimuma autokorelacione funkcije određuje osnovna učestanost. Potrebna je i dodatna obrada da bi se korigovale eventualne greške i izvršila interpolacija, odnosno da bi se premostile one periode signala za koje je pogrešno utvrđena vrednost osnovne učestanosti.
Istraživanje signala greške
Potrebno razdvajanje informacija između filtra predikcije )(zH p i signala greške )(ne , treba da bude takvo da filtar sadrži informacije koje se tiču prenosne funkcije vokalnog trakta, a signal greške informacije o pobudnom signalu. To međutim, nije u potpunosti zadovoljeno. Ipak, posmatranje signala greške nudi idealan model za određivanje osnovne učestanosti, sve dok je govorni signal bez šuma i dobrog je kvaliteta.
AMDF - postupak
Postupak koji se može posmatrati kao nešto što je suprotno računanju autokorelacije, nešto kao
antikorelacija, je ADMF – postupak (average magnitude difference function). AMDF se definiše kao:
∑ +−=n
dnxnxdAMDF )()()( (6.2.3.1)
Za takvo d jednako osnovnoj periodi 0T , ova funkcija dostiže svoj izraženi minimum. Kako se za njeno računanje ne koristi operacija množenja, ovaj postupak nije računarski intezivan. Može se pokazati da se ova funkcija ponaša kao filtar čiji se propusni opseg podešava izborom odgovarajućeg d . Postupak određivanja osnovne učestanosti se tako svodi na postupak određivanja filtra koji najbolje odgovara signalu, što odgovara utvrđivanju minimuma za AMDF.
AMDF se kod brojnih algoritama primenjuje direktno na govornom signalu, a često se primenjuje i
na signalu greške kod LPC analize.
6.3. Određivanje tipa pobude: zvučno/bezvučno Najjednostavnija metoda za određivanje tipa pobude je analiza vrednosti amplitude signala i njeno
poređenje sa fiksnim pragovima. Jedan takav algoritam radi u dva koraka. Najpre se vrši klasifikacija govor-pauza. Najčešće se uzima za prag vrednost koja je 20 dB ispod maksimalne vrednosti amplitude signala. U drugom koraku se vrši klasifikacija segmenata govora na zvučne i bezvučne. Koristi se broj preseka sa nulom sa dva praga (S1 < S2). Svaki segment čiji je broj preseka sa nulom manji od S1 klasifikuje se kao zvučni. Svaki segment govora čiji je broj preseka sa nulom veći od S2 sigurno je bezvučan. Za opseg vrednosti između ova dva praga, uzima se da je signal takođe bezvučan, mada se može uvesti i neki detaljniji algoritam i preciznije razmatranje.
Ovaj algoritam je detaljnije razmatrao i proširio Hess (1972). On je razvio adaptivni algoritam za
klasifikaciju govor-pauza koji posmatra vrednost amplitude signala kao i promenu vrednosti amplitude. Hess polazi od toga da pozadinski šum ima mada nepoznatu, ali sporo promenljivu i ne tako veliku amplitudu, što važi za slučaj kada imamo signal dobrog kvaliteta. Suprotno ovako posmatranom
____________________________D i g i t a l n a o b r a d a g o v o r a
82
82
signalu šuma, nivo govornog signala opada mnogo brže i u mnogo je širim granicama. Ako se posmatra histogram amplituda signala (raspodela amplituda), za pozadinski šum tj. mesta gde nema govora, ova raspodela dostiže svoj maksimum. Tako se vrši klasifikacija govor-pauza s tim da se prag postavlja da bude par dB viši od ove vrednosti.
____________________________D i g i t a l n a o b r a d a g o v o r a
83
83
POGLAVLJE 7
DIGITALNI PRENOS GOVORA Postoji čitav niz slučajeva kada je potrebno da se govorni signal prenese u digitalnom obliku.
Jedan od glavnih razloga za takav prenos je da su digitalni signali otporniji na greške i smetnje od analognih signala. Oni se mogu uvek ponovo regenerisati bez greški. U postojećim sistemima za prenos govora jako je značajno da se različiti signali (podaci, govor i slika) prenesu zajedno kroz prenosni kanal. Prednost digitalnih signala je i ta da se mogu relativno lako uvesti različiti postupci zaštite što obezbeđuje tajnost i sigurnost informacija koje se prenose. Jedan od nedostataka digitalnog predstavljanja signala je što su veći zahtevi za kapacitetom kanala za prenos nego kod prenosa analognih signala. U tabeli 7.1. prikazan je potreban kapacitet kanala za prenos digitalnog govora. U praksi se primenjuju različiti postupci redukcije podataka, kako bi se omogućilo da se digitalni signali prenesu preko frekvencijski - ograničenih kanala. Svi ti postupci mogu se grubo podeliti u dve grupe [1]. U prvoj grupi su oni postupci koji teže da zadrže oblik signala. Takvi postupci se nazivaju talasno kodovanje - waveform encoding. U drugoj grupi postupaka su oni postupci koji teže da se na prijemu čuje govor što sličniji onom na predaji, pri čemu talasni oblik signala nije od značaja. Takvi postupci se nazivaju voice encoding (vokoderi). Ovakvi postupci se nazivaju i parametarski jer se kod njih mere i prenose određeni parametrui govora. Jedini kriterijum koji je ovde od značaja je kvalitet govora na prijemu.
Najveći protok od 240 kbit/s je kod prenosa visoko kvalitetnog govora (frekvencija odmeravanja
20 kHz, kvantizacija 12 bita po odmerku). Često se govori o PCM prenosu preko telefonskog kanala (učestanost odmeravanja 8 kHz, kvantizacija 8 bita po odmerku). Značajna redukcija količine podataka uz prihvatljivi kvalitet govora, postiže se primenom poluparametarskih i parametarskih postupaka (vokoderi). Najveća redukcija se može ostvariti kod fonetskog vokodera koji najpre prepoznaje pojedine foneme a na prijemu se sintetiše govor koji ne nosi ni jednu informaciju o samom govorniku. Neki od ovih postupaka biće objašnjeni u delu koji sledi.
____________________________D i g i t a l n a o b r a d a g o v o r a
84
84
TABELA 7.1. Potreban kapacitet kanala za prenos digitalnog govora
način prenosa kbit/s postupak
neparametarski 240 visoko kvalitetan prenos govora
64 standardni PCM
56 DPCM sa fiksnim prediktorom
32 ADPCM u telefonskom kanalu
8 donja granica neparametarskih
postupaka
poluparametarski 9.6 Adaptivna predikcija
RELP vokoder dobrog kvaliteta
4.8 poluparametarski prenos umerenog
kvaliteta
2.4 donja granica poluparametarskih
postupaka
parametarski 9.6 vokoder odličnog kvaliteta
2.4 vokoder prihvatljivog kvaliteta
0.6 donja granica parametarskih postupaka
fonetsko kodovanje 0.6 –0.2 fonetski vokoder
7.1. PCM Za diskretnu predstavu nekog vremenskog signala, mora se najpre izvršiti odmeravanje (A/D
konvertor). Vrednosti odmerenih amplituda mogu u principu da ostanu kontinualne vrednosti. Jednostavan postupak kodovanja bi se sastojao u tome da se ove kontinualne vrednosti pretvore u impulse odgovarajuće dužine i da se oni prenose. Takav postupak se zove impulsno kodovana modulacija - PCM (Pulse Code Modulation) (standard G.711 [12]).
Kod digitalnih sistema mora se i odmerena amplituda predstaviti diskretno. Ovde imamo i
diskretizaciju po vremenu (odmeravanje) i diskretizaciju po amplitudi (kvantizacija). Amplituda signala se predstavlja kao digitalna reč - niz brojeva, kao kodna reč.
7.1.1. Diferencijalna PCM (DPCM)
Poznato je da govorni signal ima u sebi dosta redundantnosti. Zato se nametnulo kao ideja da se
iskoristi korelacija između uzastopnih vrednosti odmerenog signala i da se na taj način smanji bitski protok. Najjednostavnija mogućnost za to je da se računa razlika dva uzastopna odmerka i da se ona
____________________________D i g i t a l n a o b r a d a g o v o r a
85
85
prenosi jer ova razlika ima manju varijansu nego sam govorni signal, pa samim tim je potrebno manje bita za njen prenos. Ovakav postupak se naziva diferencijalna PCM (DPCM). Na slici 7.1.1.1. je prikazan osnovni princip diferencijalne PCM.
Na predaji se računa signal razlike uzastopnih odmeraka govornog signala )(ne . Ova vrednost se kvantizuje, koduje i prenosi. Na prijemu se ova razlika dekoduje i služi za rekonstrukciju originalnog signala govora.
U praksi je jako važna greška kvantizacije koju treba imati u vidu na prijemu. Ovaj problem se
može izbeći ako se na predaji prilikom računanja ove razlike, takođe i greška kvantizacije uzme u obzir.
Očigledno je da je izračunavanje razlike dva uzastopna odmerka predstavlja prediktor 1. reda. Značajnije poboljšanje se dobija ako se uzme prediktor p - tog reda. Tada govorimo o DPCM-u sa fiksnim prediktorom. Naravno, isti prediktor se nalazi i na predaji i na prijemu. Na slici 7.1.1.2. prikazan je DPCM postupak sa fiksnim prediktorom.
Jako je važno da se izbegne akumuliranje greške kvantizacije. To se postiže ako se na predaji
lokalno generiše signal koji bi prijemnik rekonstruisao, pa se pomoću njega utiče na predaji na grešku kvantizacije. Na slici 7.1.1.3. je prikazan takav postupak.
s(n)++
Δ
s(n) + e(n)...
Δ tt
s(n)...
P(z)
e(n) ~e(n)Q
+
koder
~s(n)s*(n) +
+−
dekoder
~e(n)
+
~s(n)
+
P(z)
~s(n)
++
s(n)...
P(z)
+
-Q
e(n) ~e(n)
P(z)
Slika 7.1.1.1. Osnovni princip diferencijalne PCM
Slika 7.1.1.2 DPCM postupak sa
fiksnim prediktorom
Slika 7.1.1.3. Princip DPCM-a sa fiksnim prediktorom sa osvrtom na grešku kvantizacije
____________________________D i g i t a l n a o b r a d a g o v o r a
86
86
Koeficijenti prediktora se dobijaju na osnovu jedne veće baze govornih uzoraka. Pokazalo se u praksi da se za red prediktora p od 4 do 10, smanjuje odnos signal-šum za oko 9 dB, što znači da se signal razlike može kodovati jednim bitom manje nego da se prenosi originalni govorni signal.
7.1.2. Adaptivna diferencijalna PCM (ADPCM)
Ukoliko se uzme da je filtar-prediktor adaptivan, radi se o adaptivnoj diferencijalnoj PCM
modulaciji (ADPCM). Postupak je isti kao kod DPCM-a, s tim što je sada potrebno stalno računati koeficijente prediktora, sinhrono i na predaji i na prijemu. Kako se kod LPC predikcije, predikcija zasniva na predhodnim vrednostima, često se ovaj postupak naziva adaptacija unazad. Nedostatak ovog postupka je što prediktor ne može brzo da reaguje na promene. Ovaj postupak je usvojen kao ITU standard za prenos 32 kbit/s govora preko telefonskog kanala (standard G.721). Jedan od zahteva ADPCM-a je da se računa brzo, zbog stalnog računanja koeficijenata i signala greške, što može da bude problem, ukoliko se ne koriste neki od brzih signal procesora.
7.2. Poluparametarski vokoderi Svaki vokoderski sistem sastoji se iz dela u kome se vrši analiza signala (predajnik), prenosnog
kanala i dela gde se vrši sinteza govora (prijemnik). U predajniku se određuju značajni parametri govornog signala, kao što su spektralni parametri i tip pobude: zvučno/bezvučno, kao i osnovna učestanost. Ovi parametri ili signali, zatim se koduju i prenose. Na prijemu se dekoduju i pretvaraju u parametre ili signale. U prijemniku se od sintetizatora i pobudnog generatora sintetiše govor.
7.2.1. APC vokoder
Vokodere možemo podeliti po prirodi spektralnih parametara koji se koriste. Kod LPC vokodera
radi se o koeficijentima prediktora prenosne funkcije vokalnog trakta )(zH p . Takvo kodovanje se naziva adaptivno prediktivno kodovanje (APC vokoderi [11]) i šematski je prikazano na slici 7.2.1.1.
+
+
e(n) ~e(n)
P(z)
s(n)
−
koder
+
~s(n)s*(n)
Q...
...
dekoder
koder
segmenti20 - 30 ms
LPCkoef.
~s(n)~e(n)
+
P(z)
dekoder
+
Q
s(n)
Slika 7.2.1.1. Adaptivno prediktivno
kodovanje (APC vokoder)
____________________________D i g i t a l n a o b r a d a g o v o r a
87
87
Za prenos signala greške primenjuju se razni postupci. Kako je bitna informacija sadržana u LPC koeficijentima, sam signal greške se može jako redukovati. Takvi vokoderi se nazivaju RELP vokoderi (residual excited LPC vocoder). Kako nije lako odrediti tip pobude: zvučno/bezvučno, kao i osnovnu učestanost govora, ovaj tip vokodera koristi redukovan signal greške, pa se ovakav postupak naziva poluparametarski. Ako se signal greške propusti kroz niskofrekventni filtar, on treba da zadrži informaciju o osnovnoj frekvenciji i tipu pobude. Ako se pored LPC koeficijenata prenosi i osnovna učestanost, onda se govori o parametarskim vokoderima.
7.2.2. Kanalni vokoder
Kanalni vokoder se bazira na principu kratkovremenske spektralne analize. Spektralna analiza se
obavlja uz pomoć banke filtara, najčešće od 20 do 30, koji pokrivaju frekventni opseg govornog signala. Svakih 10 do 30 ms mere se i prenose izlazi iz ovih filtara. Ako se filtri realizuju kao digitalni, spektralna karakteristika se dobija pomoću diskretne Furijeove transformacije (odnosno FFT-a) digitalnog govornog signala. Pored toga, određuje se i niskofrekventni osnovni opseg koji sadrži informaciju o pobudnom signalu. Ovakav vokoder se naziva kanalni vokoder. Na prijemu se koristi ista banka filtara. Kvalitet poluparametarskih vokodera koji rade na 4.8 do 16 kbit/s je dobar, ali ne tako kao kod neparametarskih postupaka na 32 i 64 kbit/s.
7.3. Parametarski postupci Kod ovih postupaka analizira se pobudni signal, tip pobude: zvučno/bezvučno i osnovna
učestanost. Pauze u govoru se tretiraju kao bezvučni delovi male amplitude. Vokalni trakt se opisuje ili LPC koeficijentima ili spektralnim parametrima (kanalni vokoder). U prijemniku se vrši generisanje pobudnog signala, najčešće korišćenjem pojednostavljenog modela za generisanje govora koji se sastoji iz generatora šuma, generatora impulsa i prekidača koji uključuje odgovarajući generator u zavisnosti od tipa pobude, kao na slici 7.3.1. Kako se pobudni signal generiše na osnovu pojednostavljenog modela za generisanje govora, sintetisani govor zvuči metalizirano, neprirodno. Pobuđivanje samo jednim impulsom po periodi za slučaj zvučne pobude sigurno nije dovoljno i predstavlja veliko pojednostavljivanje.
k o d o v a nj e
. . .
p r e n o ss i n t e z aa n a l i z a
odredjivanjeosnovnefrekvencije
odredjivanjeparametaravokalnogtrakta
odredjivanjetipa pobude:zvu/bezvu
ulazni govornisignal
zvu/bezvu
d e k o d o v a nj e
parametri govora
impulsnigenerator
generator suma
sintetizator govora
pobudni signal
izlaznisignal
Slika 7.3.1 Princip rada parametarskih vokodera
____________________________D i g i t a l n a o b r a d a g o v o r a
88
88
7.3.1. Formantni vokoderi Od svih parametarskih vokodera, formantni vokoder ima svakako najniži bitski protok, ispod 1
kbit/s. Kod njih se u analizi utvrđuju formantne frekvencije i njihove amplitude i/ili frekventni opsezi i to za prva tri ili četiri formanta [3]. Pored toga još se prenose osnovna frekvencija i tip pobude, kao što pokazuje slika 7.3.1.1. Međutim, kao što je rečeno u poglavlju o formantnoj analizi, problem određivanja formanata nije lak, pa se skoro ovaj vokoder i ne koristi u praksi.
Ovaj vokoder ima veliki značaj kod sinteze govora pomoću pravila. Najpre se jedna manja količina
govornog materijala analizira i memoriše, i pomoću nje se može izaći na kraj sa eventualnim greškama u određivanju formanata, ili se primenjuje postupak generisanja formantnih trajektorija pomoću pravila bez predhodnog memorisanja govornog materijala. Za generisanje formantnih trajektorija se koriste znanja eksperimentalne fonetike.
7.3.2. Fonetski vokoder
Korišćenjem prepoznavanja govora najpre se pojedini glasovi prepoznaju i prenose se kao
simboli. Bitski protok je tada manji od 100 bit/s. Na prijemnoj strani veštački se generiše govor. Ovaj vokoder je još uvek na nivou laboratorijske primene i još uvek ne postoji njegova realizacija u realnom vremenu.
7.3.3. Standardi
ITU – International Telecommunications Union, bivši CCITT, uveo je 1972. god. standard za 64
kbit/s PCM koder. U USA i Japanu koristio se tada PCM format po μ -zakonu, dok se u ostalom delu svetu koristio PCM po A-zakonu. Kod ovih kodera svaki odmerak se predstavlja sa 8 bita, dok je učestanost odmeravanja 8 kHz. Standard je poznat kao G.711 (64 kbit/s). 1984. god. usvojen je standard G.721. To je ADPCM na 32 kbit/s. Proširenje ovog standarda je standard G.723 za 24 kbit/s i 40 kbit/s, kao i standard G.726 za 16 kbit/s.
CELP koder sa malim kašnjenjem (LD (low delay CELP) je usvojen kao standard 1992. i 1994.
god. za 16 kbit/s. Kasnije su usvojeni standard G.729 (za 8 kbit/s) i standard G.723 (za 5.3 i 6.3
govor
odredjivanje osnovnefrekvencije i tipapobude: zvu/bezvu
F1
F2
F3F3
F2
F1
B3
B2
B1
F2
F3
F1
pobudni generator
++
+
govor
Slika 7.3.1.1. Formantni vokoder
____________________________D i g i t a l n a o b r a d a g o v o r a
89
89
kbit/s). Ovi koderi se zasnivaju na postupku analiza pomoću sinteze (AbS). Za širokopojasni govor širine 7 kHz, usvojen je standard G.722, 1988. god. za 48, 56 i 64 kbit/s. Za digitalne celularne aplikacije, CEPT je usvojio standard na 13 kbit/s baziran na RPE-LTP algoritmu. 1994. god. ETSI je usvojila standard za 5.6 kbit/s (VSELP algoritam). Nedavno je IS-641 predložila za TDMA celularne sisteme koder na 8 kbit/s. Konačno, DoD je usvojio standarde za kodere bazirane na metodi linearne predikcije: standard FS1015 za 2.4 kbit/s i standard FS1016, CELP koder na 4.8 kbit/s. 1996. god. usvojen je novi standard na 2.4 kbit/s, MELP koder.
Za postizanje FM kvaliteta frekventnog opsega do 15 kHz i CD kvaliteta do 20 kHz, koristi se
standard ISO-MPEG1 Layer-2. Protok može biti od 32 do 384 kbit/s, koduje se jedan ili dva audio kanala mono, dual, stereo ili u joint-stereo modu. Koristi se i standard ISO-MPEG1 Layer-3, koji se bazira na perceptivnom modelu. Pored ovih, postoje i drugi komercijalni koderi, poznati su APTX koderi.
____________________________D i g i t a l n a o b r a d a g o v o r a
90
90
____________________________D i g i t a l n a o b r a d a g o v o r a
91
91
POGLAVLJE 8
AUTOMATSKO PREPOZNAVANJE GOVORA
Prepoznavanje govora ima za cilj da prepozna ono što je izgovoreno i to pretvori u niz simbola, u
niz slova, u tekst. Kod prepoznavanja govora se nepoznati signal pridružuje jednoj od K klasa. Klase mogu biti slova ili redni broj reči u nekom rečniku. Ovde se bavimo najjednostavnijim slučajem kada imamo deo govornog signala (jedan interval analize) i kada treba da ga pridružimo jednoj od K klasa. To je moguće ako se radi o prepoznavanju stacionarnih delova govornog signala, kao što su vokali.
Prvi od problema kod prepoznavanja govora je pogodno predstavljanje govornog signala.
Vremenski oblik signala sigurno nije pogodan za klasifikaciju jer oblici signala mogu biti jako različiti zbog faznog stava, a da pripadaju istom glasu. Pogodnija je zato amplitudska spektralna karakteristika, koja ne zavisi od faze. Zato se pre klasifikacije, najpre vrši predobrada signala i izdvajanje obeležja, odnosno određenih parametara govora pomoću kojih se vrši klasifikacija. Na slici 8.1. prikazan je osnovni princip sistema za prepoznavanje govora.
Postupak predobrade ima još za cilj da potisne razne smetnje kako bi se istakle one informacije
koje su od značaja za prepoznavanje. Vektor obeležja xr ili vektor parametara predstavlja vektor onih parametara govornog sgnala koji su dobijeni kao rezultat predobrade i ekstrakcije obeležja. Jednu klasu tada predstavlja jedan vektor u prostoru vektora, odnosno jedna tačka u prostoru dimenzije N.
signalodmeravanje signala
predobrada, izdvajanjeparametara
brojne vrednosti
klasifikatorvektori klasa k
Slika 8.1. Osnovni princip sistema za prepoznavanje
____________________________D i g i t a l n a o b r a d a g o v o r a
92
92
Predobrada signala kao postupak određivanja parametara govornog signala, može biti određivanje kratkovremenskog spektra (DFT), LPC koeficijenata, formanata, itd. Ovi parametri sadrže u sebi dosta informacija o govornom signalu koje su potrebne za prepoznavanje.
8.1.1. Prepoznavanje izolovano izgovorenih reči
Kada se radi o prepoznavanju manjih rečnika, onda se cele reči prepoznaju i tada govorimo o
sistemima za prepoznavanje izolovano izgovorenih reči. Na slici 8.1. prikazan je blok dijagram jednog sistema za prepoznavanje izolovano izgovorenih reči [13],[14],[15].
Danas su razvijeni sistemi za prepoznavanje do nekoliko stotina izolovano izgovorenih reči sa
veoma malom greškom prepoznavanja. Njihova primena je od velikog praktičnog značaja za sva ona zanimanja gde je potrebno da obe ruke budu slobodne, kao i za zadavanje govornih komandi koje olakšavaju život hendikepiranim osobama.
Sistemi za prepoznavanje izolovano izgovorenih reči su pogodni jedino za manje rečnike. Ukoliko
se drastično poveća broj reči koje treba prepoznati, nastaje problem oko dobrog modelovanja parametara svih modela za sve klase. Tada je potrebna jako velika baza govornih uzoraka. Zato, sistemi za prepoznavanje izolovano izgovorenih reči nisu pogodni za prepoznavanje kontinualnog govora. Za prepoznavanje kontinualnog govora je potrebno izvršiti segmentaciju govora na manje elementarne celine koje se prepoznaju.
predobrada
izgovorena rec
mikrofon
utvrdjivanje granica reci
normalizacija vektora
klasifikacija
izbor najslicnije mustre
ne
ucenje?da
pronalazenjenove mustrefaza ucenja
Slika 8.1. Blok dijagram sistema za prepoznavanje
izolovano izgovorenih reči
____________________________D i g i t a l n a o b r a d a g o v o r a
93
93
8.1.2. Prepoznavanje fonema Jedna, svakako pogodna osnova za sistem za prepoznavanje govora bi bili fonemi. Međutim, jako
je teško izvršiti segmentaciju govora na pojedinačne foneme jer je pri izgovoru jak međusobni uticaj susednih fonema, odnosno koartikulacija. Kod vokala i onih suglasnika koji sadrže stacionarne delove, moguće je jedan fonem dovoljno dobro predstaviti pomoću spektra izračunatog na centralnom delu tog fonema. Ako se spekar sastoji iz N komponenata, klasifikator će raditi u N-dimenzionalnom prostoru.
8.1.3. Prepoznavanje poluslogova
Ako posmatramo strukturu govora, možemo zaključiti da bi podela na slogove bila dobro rešenje.
Odmah se nameće problem lokalizacije jezgara slogova, odnosno centralnog dela svakog sloga. U tu svrhu može da posluži funkcija glasnosti koja ima izražene maksimume na mestima gde se nalaze jezgra vokala. Dva uzastopna sloga se mogu razdvojiti na mestu gde se nalazi munimum funkcije glasnosti.
Broj svih slogova jednog jezika je jako veliki, pa bi i broj klasa bio isto toliki, što nije dobro. Zato se
koriste delovi sloga kao celina koja se prepoznaje. Te delove nazivamo poluslogovi. Svaki slog se sastoji iz jezgra tj. vokala (V), niza suglasnika pre vokala (PNS – početni niz suglasnika) i niza suglasnika posle vokala (KNS – krajnji niz suglasnika). U jednom jeziku nisu moguće sve kombinacije suglasnika na početku i kraju sloga, što značajno smanjuje broj elementarnih celina koje treba prepoznati.
8.1.4. Prepoznavanje trifona
Sledeći korak ka izboru pogodne celine za prepoznavanje je fonem u kontekstu – trifon. Kako se
zbog efekta koartikulacije menja spektar pojedinih fonema kada se one izgovaraju u kontekstu reči, polazi se od toga da se prepoznaje fonem u kontekstu.
8.2. Sistem za prepoznavanje govora Ako želimo da se sistem za prepoznavanje govora ponaša kao što se ponaša čovek, mora se
obezbediti da i sistem za prepoznavanje ima određena ugrađena znanja i povratne sprege koje će poboljšati njegove performanse i približiti ih čovekovim. Na slici 8.2.1. prikazan je jedan takav sistem za prepoznavanje govora.
Nakon akustičke analize, vrši se prepoznavanje izabranih elementarnih govornih celina. Zatim se
vrši poređenje nizova prepoznatih celina sa rečima u rečniku. Uz pomoć gramatičkih pravila (sintaksnih), proverava se da li je takav niz reči ispravan. Sledeći korak je provera na semantičkom nivou, kada se
sintaksna analiza
semanticka analiza
prepoznata recenica
identifikacija reci
akustickaanaliza
govorni signal
Slika 8.2.1. Sistem za prepoznavanje govora
____________________________D i g i t a l n a o b r a d a g o v o r a
94
94
proverava da li se dobijena rečenica uklapa po smislu u predviđeni zadatak. Očigledno je da je jedan ovakav sistem jako složen.
Na slici 8.2.2. prikazana je dimenzija aplikacija automatskog prepoznavanja govora. Na x-osi je
broj reči koji se prepoznaju a na y-osi način na koji se priča. Isprekidanom linijom je odvojeno šta je do danas urađeno u svetu.
neogranicen2000
dijalog vodjenod stranesistema
prepoznavanjekljucnih reci
spontanigovor
broj reci
200
citanjeteksta
diktiranje
tecni govor
povezane reci
20 000
prirodnakonverzacija
nacin izgovora
verifikacijagovornika
prevodjenje
dijalog
20
govorne komandeizolovane
reci
Slika 8.2.2. Dimenzija aplikacija automatskog prepoznavanja govora
____________________________D i g i t a l n a o b r a d a g o v o r a
95
95
LITERATURA
[1] A. M. Kondoz, “Digital speech”, John Wiley & Sons, 1994. [2] S. Furui, “Digital Speech, Processing, Synthesis and Recognition”, Marcel Dekker, Inc.1989. [3] J. L. Flanagan, “Speech Analysis, Synthesis and Perception”, Springer-Verlag, 1972. [4] J. D. Markel, A. H. Gray, “Linear Prediction of Speech”, Springer-Verlag, 1976. [5] T. P. Barnwell, K. Nayebi, C. H. Richardson, “Speech coding”, John Wiley & Sons, 1996. [6] S. Furui, M. M. Sandhi, “Advances in Speech Signal Proccessing”, Marcel Dekker, Inc., 1992. [7] A. J. Viterbi, “Error Bounds for Convolutional Codes and an Asymptotically Optimum Decoding
Algorithm”, IEEE Trans. on Information Theory, IT-13, April 67’ [8] L. R. Rabiner, B-H. Juang, “An Introduction to Hidden Markov Models”, IEEE ASSP Magazine, 3 (1), 4-
16, January 1986. [9] J. Picone, “Continuous Speech Recognition Using Hidden Markov Models”, IEEE ASSP Magazine, 7
(3), 26-41, July 1990. [10] W. R. Daumer, X. Maitre, P. Mermelstein, I. Tokizawa, “Overwiew of the 32 kb/s ADPCM algorithm”,
Proc. IEEE Global Telecomm. Conference, pp. 774-777, 1984. [11] B. Atal, M. R. Schroeder, “Predictive coding of speech signals”, Bell system Technical Journal, pages
1973-1986, October 1970. [12] Lj. Stanimirović, ”Optimalni vektor parametara govornog signala u sistemu za prepoznavanje govora
zasnovanom na skrivenim Markovljevim modelima”. Časopis TEHNIKA, br. 5, 1998. [13] Lj. Stanimirović, “Prepoznavanje izolovano izgovorenih reči iz ograničenog rečnika srpskog jezika”,
magistarski rad, ETF, Univerzitet u Beogradu, 1997. [14] Z. Ćirović. “Obučavanje skrivenih Markovljevih modela za prepoznavanje izolovano izgovorenih reči iz
ograničenog rečnika”, magistarski rad, ETF, Univerzitet u Beogradu, 1996.
____________________________D i g i t a l n a o b r a d a g o v o r a
96
96
[15] Lj. Stanimirović, Z. Ćirović, “Sistemi za prepoznavanje pojedinačno izgovorenih reči bazirani na skrivenim Markovljevim modelima”. Originalni naučni članak. Časopis NTP, Beograd, septembar 1996.
[16] Lj. Stanimirović, Z. Ćiroviić, “Keyword spotting system for Serbian language”, in Proceedings of
ICT’99, pp. 345 - 348, Korea, 1999. [17] Lj. Stanimirović, “Prepoznavanje ključnih reči u kontinualnom govoru srpskog jezika”. Originalni naučni
rad. Časopis NTP, Vol. XLIX, br. 4, str. 1-4, Beograd, 1999. [18] Lj. Stanimirović, M. Savić, “Serbian keyword spotting system”. Originalni naučni rad. Časopis
FACTAUniversitatis, series: Electronics and Energetics, vol. 12, No 3, pp. 1-7, Niš, 1999.
____________________________D i g i t a l n a o b r a d a g o v o r a
97
97
INDEX
A adaptivno prediktivno kodovanje, 86 ADMF – postupak, 80 ADPCM, 84, 86 akusti~ka cev, 39 alofoni., 28 analiza govora, 25, 43 antiformanti, 34, 36, 69 anvelopa, 50 AREA – koeficijent, 66 ARMA postupci, 75 autokorelaciona funkcija., 47 autokorelaciona metoda, 58, 59, 67
B baza govornih uzoraka, 92 bezvučna pobuda, 29 BIBO stabilnost, 14 broj preseka sa nulom, 46, 47, 79, 81
D diferencijalna PCM, 85, 86 diferencna jednačina, 13 digitalni filtar, 23, 56, 57 digitalni kratkovremesnki spektar, 22 digitalni sistem, 12, 14, 19, 23 Dirakovi impulsi, 9, 10, 70 direktna forma, 24 Diskretni spektar, 22 dužina prozora, 45 Durbinov algoritam, 59
E energija, 43, 45, 46, 48, 64, 79
F fazna karakteristika, 20, 63 FFT, 22, 70, 87 fina struktura spektra, 78 FIR, 15, 23 fon, 28 foneme, 25, 26, 28, 75, 83, 93 fonetski vokoder, 88 formantna analiza, 69 formantna karta, 35 formantne frekvencije, 34, 36, 65, 66, 69, 70, 75, 87 frame rate, 44 frekventna karakteristika, 20, 62 Furijeov red, 10 Furijeova transformacija, 21, 22, 50
G glačanje kratkovremenskog spektra, 70 glasne žice, 57 govor, 25, 28, 33 govorni signal, 25, 33, 43, 50, 80 greška kvantizacije, 11, 85 greška predikcije, 56, 61
H histogram, 81 histogram amplituda, 81 homomorfna analiza, 72, 74
I IIR, 15, 24 impulsni generator, 38 impulsni odziv, 14, 15, 23, 24, 50, 62, 63, 77 informacija, 25, 26, 27, 28, 69, 76, 80, 83, 86, 92 inverzna Z-transformacija, 19
____________________________D i g i t a l n a o b r a d a g o v o r a
98
98
inverzni filtar, 56, 80 izdvajanje obeležja, 91
J jedinični krug, 20
K kanalni vokoder, 87 kapacitet kanala, 83, 84 kauzalnost sistema, 13 kepstrum, 72, 73, 78 KNS – krajnji niz suglasnika, 93 koartikulacija, 93 kodovanje govora, 25, 26 koeficijent preemfaze, 66 koeficijenti linearne predikcije, 56 kompleksni spektar, 63 konvolucija, 19, 72 kovarijansna metoda, 62 kratkovremenska spektralna gustina snage, 50 kratkovremenski spektar, 22, 50, 51, 65
L Laplasova transformacija, 15 lattice struktura, 61 Levinsonov rekurzivni algoritam, 59 linearni model, 33, 38, 39 linijski spektar, 10, 22 LPC spektar, 62, 63
M McCardless-ov algoritam, 75 metoda linearne predikcije, 55, 64 model vokalnog trakta, 33, 36, 39, 57, 64
N nazali,, 75
O odmeravanje, 9, 10 određivanje osnovne učestanosti, 76, 77, 78, 79, 80 osnovna frekvencija, 29, 43, 51, 76, 78, 88 osnovna učestanost, 69, 75, 79, 80, 86, 87
P PARCOR koeficijenti, 60 PNS – početni niz suglasnika, 93
poluslogovi, 26, 93 pravougaoni prozor, 46, 53 predobrada, 76, 77, 91 prenos govora, 25, 26, 83, 84 prenosna funkcija sistema, 19 prepoznavanje govora, 26, 39, 91, 93 prepoznavanje govornika, 26 prepoznavanje izolovano izgovorenih reči., 92 prozor, 23, 44, 46, 51, 53, 67 prozorska funkcija, 23, 44
R rastojanje, 36, 39 red linearne predikcije, 56 refleksioni koeficijenti, 60 rekurzivni filtar, 24, 57, 64, 69 RELP vokoderi, 86
S SIFT metoda, 80 sinteza govora, 25, 26, 86 sonogram, 65 spektar belog šuma, 56, 62 spektar snage signala, 51, 63 stabilnost sistema, 15, 19, 20 stacionarni pristup, 58 suglasnici, 29
Š šum kvantizacije, 11
T talasno kodovanje, 83 teorema o odabiranju, 11 transverzalni filtar, 56, 62 trifon, 93
V vektor obeležja, 91 vokali, 29, 35, 46, 91 vokalni trakt, 29, 33, 34, 37, 57, 66, 76, 77 vokoder, 28, 83, 84, 86, 87, 88 vremenski invarijantni sistemi, 12
Z Z-transformacija, 15, 16, 17, 18, 19, 20, 23 zvučna pobuda, 29 zvučno / bezvučno, 43
____________________________D i g i t a l n a o b r a d a g o v o r a
99
99