86
Procesarea semnalelor vorbirii Introducere Recunoaşterea vorbirii şi identificarea vocală devin din ce în ce mai mult tehnologii populare în societatea de astăzi. Pe lângă faptul că are un cost ridicat şi aduce un venit considerabil în toate cazurile în care este folosit, sistemul de recunoaştere a vorbirii se adresează unei mari varietăţi de utilizări şi implementări. Aceste implementări se întind de la domeniul securităţii până la tendinţa sigură de creştere a productivităţii. Prin fixarea atenţiei asupra tehnologiei şi a companiilor care manevrează sistemele actuale de recunoaştere vocală şi de identificare, putem învăţa din implementările actuale şi să stabilim tendinţele viitoare. De cele mai multe ori recunoaşterea şi verificarea vorbirii sunt procese de antiteză, prima etapă în acest traseu fiind recunoaşterea. Recunoaşterea vorbirii a fost mult timp unul dintre scopurile diferiţilor proiectanţi de software. Mulţi au încercat să scrie programe care să fie capabile să înlocuiască tastatura cu microfonul. Au existat mai multe aplicaţii de acest tip, dar Office XP este prima suită importantă care oferă această facilitate. Principala dificultate cu care se confruntă programele de recunoaştere vocală o reprezintă faptul că vocile a doi oameni nu sunt deloc asemănătoare şi chiar vocea aceleiaşi persoane poate varia în anumite situaţii. Office XP încearcă să rezolve această problemă prin crearea de profiluri corespunzătoare fiecărui utilizator. Astfel, vor putea fi cunoscute caracteristicile vocilor diferitelor persoane. La fel ca şi celelalte programe de recunoaştere 3

Procesarea Semnalelor Vorbirii

Embed Size (px)

DESCRIPTION

disertatie

Citation preview

Page 1: Procesarea Semnalelor Vorbirii

Procesarea semnalelor vorbirii

Introducere

Recunoaşterea vorbirii şi identificarea vocală devin din ce în ce mai mult tehnologii populare în societatea de astăzi. Pe lângă faptul că are un cost ridicat şi aduce un venit considerabil în toate cazurile în care este folosit, sistemul de recunoaştere a vorbirii se adresează unei mari varietăţi de utilizări şi implementări. Aceste implementări se întind de la domeniul securităţii până la tendinţa sigură de creştere a productivităţii. Prin fixarea atenţiei asupra tehnologiei şi a companiilor care manevrează sistemele actuale de recunoaştere vocală şi de identificare, putem învăţa dinimplementările actuale şi să stabilim tendinţele viitoare.De cele mai multe ori recunoaşterea şi verificarea vorbirii sunt procese deantiteză, prima etapă în acest traseu fiind recunoaşterea. Recunoaşterea vorbirii a fost mult timp unul dintre scopurile diferiţilor proiectanţi de software. Mulţi au încercat să scrie programe care să fie capabile să înlocuiască tastatura cu microfonul. Au existat mai multe aplicaţii de acest tip, dar Office XP este prima suită importantă care oferă această facilitate.     Principala dificultate cu care se confruntă programele de recunoaştere vocală o reprezintă faptul că vocile a doi oameni nu sunt deloc asemănătoare şi chiar vocea aceleiaşi persoane poate varia în anumite situaţii.     Office XP încearcă să rezolve această problemă prin crearea de profiluri corespunzătoare fiecărui utilizator. Astfel, vor putea fi cunoscute caracteristicile vocilor diferitelor persoane.     La fel ca şi celelalte programe de recunoaştere vocală şi Office XP comite uneori greşeli. Microsoft susţine că 95% dintre cuvinte sunt recunoscute corect, adică doar un cuvânt din douăzeci este greşit. Există unele aplicaţii cu performanţe mai bune, dar nici una nu depăşeşte o rată de 97%. Totuşi, este un prim pas pe drumul care va duce la eliminarea tastaturii.  

3

Page 2: Procesarea Semnalelor Vorbirii

Capitolul I

Generarea vorbirii. Scheme echivalente

1.1 Caracteristici generale

Sistemele actuale de recunoastere a vorbirii se situeaza deocamdata în limite restrânse ale parametrilor caracteristici si dedicate unor aplicatii specifice. Din punct de vedere a dimensiunii vocabularului si al modului de vorbire, sistemele de recunoastere cu performante acceptabile, se împart în trei categorii principale.

•  sisteme cu vocabular mic (10 – 100 cuvinte) ;•  sisteme cu vocabular mediu si mare si vorbire izolata (10 000 – 20 000

cuvinte) ;•  sisteme cu vocabular mediu si vorbire conectata sau continua, restrictiva la un

domeniu de aplicabilitate (1 000 - 5 000 cuvinte) .Cele mai multe sisteme realizate, apartin claselor sistemelor mici si mijlocii cu

recunoasterea vorbirii izolate. Sistemele de recunoastere a vorbirii continue, în marea lor majoritate, exista doar în forma experimentala, în conditii de laborator. Chiar si sistemele utilizate în practica, cele pentru vorbirea izolata sau conectata, nu sunt destul de robuste la zgomotul mediului în care functioneaza si la variabilitatea vorbirii. Toate sistemele dau performante mai bune, daca numarul de utilizatori este mai redus si daca cei care folosesc sistemul sunt cei cu a caror voce s-a folosit pentru învatarea sistemului. Performantele se degradeaza semnificativ, daca vorbitorii se schimba sau daca sistemul este folosit cu alte cuvinte decât cu cele pentru care a fost antrenat.

Caracteristicile principale ale uni sistem de recunoastere automate a vorbirii, fara a aminti parametrii si metodele specifice prin care s-a implementat, sunt urmatoarele:

•  dimensiunea vocabularului, adica numarul de cuvinte capabil sa le recunoasca;

•  monolocutor sau multilocutor (aici se poate preciza si sexul vorbitorilor) ;•  vorbirea izolata sau continua; •  conditi de zgomot si robustetea sistemului; •  domeniul de aplicabilitate ;•  timpul de operare, care poate fi în timp real, cu întîrziere sau off-line ;•  procentajul de recunoastere;•  costul .

Pentru o mai bună înţelegere a procesului de recunoaştere a vorbirii, voi exemplifica fiecare din componentele acestui proces, astfel: - analiza acustică este metoda prin care se extrag parametrii auditivi;

4

Page 3: Procesarea Semnalelor Vorbirii

- analiza fonetică este metoda prin care ies în evidenţă caracteristicile sunetelor; - analiza sintactică este metoda prin care se analizează conţinutul sintactic al unui cuvânt pe baza cuvintelor exprimate în prealabil; - analiza semantică este metoda prin care se verifică înţelesul cuvântului ales; - analiza pragmatică este metoda prin care se face o estimare a cuvintelor care ar putea fi rostite.

1.2 Analiza vocii si a vorbirii  Vocea este rezultatul energiei respiratorii folosită pentru a mişca corzile vocale, care generează sunetele, această manifestare fiind principala metodă a comunicării prin coduri comune, respectiv prin limbaj. Producerea vorbirii este compusă din două funcţii mecanice de bază: fonetică şi articulaţie. Fonetica reprezintă producerea unui semnal acustic. Articulaţia include modularea semnalului acustic, în special de către buze, limbă şi de palatul moale, precum şi de rezonanţa în cavitatea supraglotică, oral şi/ sau nazal. Percepţia vocii este general descrisă ca o transformare în cinci etape a semnalului audio în mesaj: analiza auditivă periferică, analiza auditivă centrală, analiza fonetico- acustică, analiza fonologică şi analiza de ordin înalt (lexicală, sintactică şi semantică). Urechea umană este special adaptată să perceapă vocea umană, spectrul de percepţie fiind între 16-20000 Hz, cu o sensibilitate ridicată între 500-4000 Hz. Printre primii specialişti care au dezvoltat o reprezentare vizuală a unui cuvânt rostit s-a aflat Melville Bell, acesta dezvoltând un sistem de simboluri scrise. În anul 1940 Potter, Kropp şi Green, care lucrau pentru “Bell Laboratories”, au dezvoltat un proiect ce implica reprezentarea vizuală a vocii cu ajutorul unui spectrograf de sunet, acesta analizând trei parametri: frecvenţă, intensitate şi timp. Astfel, au fost trasate liniile de bază pentru admisibilitatea identificării vocii ca probă, susţinătorii pretinzând existenţa unui proces valid şi pertinent de identificare, iar oponenţii cerând efectuarea mai multor cercetări ştiinţifice care să susţină admisibilitatea acestei probe în instanţă. De-a lungul timpului au existat trei metode de identificare: - recunoaşterea vorbitorului prin ascultare; - recunoaşterea vorbitorului prin compararea vizuală a spectrogramelor; - recunoaşterea automată a vorbitorului.

1. Recunoaşterea vorbitorului prin ascultare are ca fundament principiul conform căruia procesul de percepţie auditivă şi procesul de identificare sunt esenţialmente subiective, în sensul că o voce particulară este asociată unui individ sau grup.

2. Recunoaşterea vorbitorului prin compararea vizuală a spectrogramelor are în vedere capacitatea de a decide asupra identităţii sau nonidentităţii unei voci, bazată pe examinarea vizuală a spectrogramelor. O spectrogramă este reprezentarea vizuală a unui set de sunete, în parametrii timpului, frecvenţei şi amplitudinii.

5

Page 4: Procesarea Semnalelor Vorbirii

  3. Recunoaşterea automată a vorbitorului foloseşte metode computerizate bazate pe teorii informatice, pe recunoaşterea după modele şi pe sisteme de inteligenţă artificială. Până în prezent, metoda nu a cunoscut decât o aplicaţie limitată. Tendinţa curentă este de a integra rezultatele recunoaşterii vorbitorului prin ascultare cu cele ale recunoaşterii automate a vorbitorului şi folosirea rezultatelor spectrogramelor doar pentru vizualizare.

1.3 Modelarea mecanismului de producere a vorbirii

Prelucrarea semnalului vocal este unul dintre domeniile în care tehnicile de prelucrare numerică sunt foarte eficiente. Aplicarea algoritmilor de prelucrare a semnalelor digitale s-a dovedit a fi deosebit de utilă în problemele de bază ale prelucrării vorbirii : analiza şi sinteza vorbirii, codarea vorbirii, recunoaşterea vorbirii, ş.a.

Primele modele de producere a vorbirii sintetice au fost cele mecanice realizate încă din anii1779.Ulterior au fost realizate ăi modele electrice (1876-Graham Bell, 1939-Dudley, Riesz, Watkins). Un model electric liniar a fost propus de Fant în 1960.

Sunetele generate în timpul vorbirii sunt sonore sau nesonore, de trei tipuri: Sunetele sonore( vocalizate) cum sunt a,e, i, o,u, ă, î care sunt constituite din

impulsuri cvasi-periodice Sunetele fricative (v, z, f, s, ş, ..), echivalente cu un zgomot de bandă largă

uniform distribuit Sunetele plozive sonore (b, d, g) şi sunetele plozive nesonore (p, t, k).Sunetele sunt caracterizate prin intensitate, înălţime şi timbru. Înălţimea

intensităţii sunetului este fixată de frecvenţa fundamentală. Inversul acesteia, T0 = 1/F0 se numeşte perioadă fundamentală (pitch-P). Frecvenţa fundamentală poate varia între limitele:

80-100 Hz pentru o voce masculină 150-450 Hz pentru o voce feminină

200-600 Hz pentru o voce de copil

6

Page 5: Procesarea Semnalelor Vorbirii

Fig.1. Modelul mecano-acustic de producere a vorbirii.

Timbrul unui sunet sonor este determinat de amplitudinile relative ale armonicelor fundamentalei.

S-au realizat diferite modelari ale procesului de generare a semnalului vocal, acusto-mecanice, electrice analogice sau digitale. În fig.1. este prezentat modelul acusto-mecanic pentru producerea vorbirii.

În cadrul modelării acusto-mecanice este necesar să se tină seama de următoarele aspecte:

- variaţia temporală a parametrilor traseului vocal ;- pierderile prin viscozitate şi conducţie termică;- cuplarea cu traseul nazal;- modul de excitare.În privinţa modului de excitare a traseului vocal, procesul poate avea loc în două

moduri esenţiale:a. Pentru fonemele sonore impulsul glotal are forma unei succesiuni de

impulsuri periodice cu perioadaa T0, aşa cum se arată în fig.2. O aproximare analitică a expresiei presiunii emisă de glotă este de forma:

b. Pentru fonemele insonore, presiunea generală este de tip zgomot alb.

Fig 2. Forma semnalului echivalent fonemelor sonore.

Relativ la traseul vocal, o abordare posibilă constă în reprezentarea acestuia ca o înlănţuire (concatenare) de tuburi sonore de secţiuni diferite, adică un tub sonor global neunuform, dar pe secţiuni (local) uniform. În fig. 3.a. este arătată o asemenea structură, iar în fig.3.b. este reprezentată schema electrică echivalentă, indicându-se localizarea elementelor specifice.

Astfel:1. masa acustică a aerului;2. elasticitatea aerului ;3. rezistenţa de vâscozitate;4. conductanţa asociată pierderilor calorice;

7

t

3T02T0T0

x

Page 6: Procesarea Semnalelor Vorbirii

5. admitanţa acustică transversală.Linia electrică echivalentă din fig.3.b este terminată pe impedanţa acustucă

echivalentă a gurii.

Zat = Zc/ (1+1/jβr)

În care Zc este impedanţa caracteristică a aerului , iar β constanta de fază în aer la frecvenţa considerată. Presiunea creată în aer se poate calcula utilizând relaţia:

P( r ) = (j β Zc / 4πr ) Qvt. exp.( - jβr)

unde Qvt reprezintă debitul aerului care parcurge impedanţa terminală.

Fig.3 Schema echivalentă a traseului vocala. Structura cu tuburi sonore

b. Schema electrică echivalentă a unui tub sonor

Procesarea numerică a semnalelor permite realizarea modelului discret de generare a sunetelor.

Pentru foneme sonore semnalul primar de excitaţie este δTo , semnalul delta discret periodic cu perioada T0 corespunzând înălţimii F0 = 1/ T0. Pentru generarea

8

15cm

0 distanţa de glotă

arie transversalăcm2

glotă

artificii de radiaţie

a)

Page 7: Procesarea Semnalelor Vorbirii

semnalului glotal discretizat, semnalul periodic este trecut printr-un sistem cu funcţia de pondere care rezultă din următoarele considerente.

Frecvenţa F0 este impusă de fonemul care trebuie sintetizat, valoarea fiind de ordinul sutelor de Hz. Frecvenţa de eşantionare este de ordinul 8-10 KHz, astfel că între două eşantioane de T0 secunde se găsesc circa 50-100 de eşantioane. Lungimea impulsului glotal trebuie să fie de ordinul zecilor de intervale de eşantionare. Perioada de eşantionare s-a notat cu Te. Funcţia de pondere a sistemului care furnizează impulsul glotal se exprimă în unităţide Te.

Notăm : T0 = N0 Te

Este evident că are loc inegalitatea : N1 + N2 << N0.

Semnalul g fiind mărginit , imaginea sa este de forma unui polinom în z –1.

Trebuie făcute câteva precizări privind funcţiile de transfer în z utilizate la modelarea discretă a semnalului vocal.

Filtrul numeric este descris de o ecuaţie recurentă de forma:

În care: a0 = 1, y reprezintă semnalul de ieşire iar x este semnalul de la intrare.

Funcţia de transfer operaţională H asociată ecuaţiei anterioare este: Z[y] = Y, Z[x] = X, Y = H. X.

9

Page 8: Procesarea Semnalelor Vorbirii

Dacă procesul descris de relaţia are tactul Te ( echivalent frecvenţei de eşantionare ) sau frecvenţa de tact fe = 1/Te , atunci el realizează o funcţie de transfer frecvenţială Hp (ω ), a cărei expresie este:

Domeniul util de filtrare este :

0≤ ω ≤ π/ Te sau 0≤ f ≤ fe/2

De regulă se scrie :

ωTe = 2 πλ , λ = f/ fe

astfel că domeniul de filtrare devine: λ є [ 0, 1/2].

Dacă se consideră un filtru trece jos cu λ ( frecvenţa digitală de tăiere ) egală cu 0,1, atunci lucrând cu tactul fe se realizează un filtru trece jos cu frecvenţa de tăiere fc = 0,1 fe.

Un al doilea aspect particular care trebuie menţionat se referă la o anumită clasificare.

Dacă în relaţia anterioara are loc:

b0 ≠0 ; bm = 0, m є [1,m]

atunci devine :

Operaţia realizată este de tipul AR ( Auto Regresiv) sau all- poles ( numai cu poli).Dacă în relaţie se face inlocuirea:

a0 = 1 ; ak = 0, k є [ 1, N ]……

atunci relaţia devine:

10

Page 9: Procesarea Semnalelor Vorbirii

Operaţia astfel realizată este de tip MA ( Moving Average- medie alunecătoare). Deci, cu aceste denumiri forma generală este de tip ARMA. De regulă, se preferă forma AR.

Relaţia descrie o structură MA. În aplicaţii şi pentru această structură se preferă o realizare AR cu doi poli :

La o frecvenţă de tact de 10 KHz, G(z) reprezintă un filtru trece jos cu o frecvenţă de tăiere de aproximativ 100 Hz.

Pentru foneme insonore, semnalul primar de excitaţie este de tip zgomot ( semnal discret) alb cu densitatea spectrală de putere constantă egală cu 1. Legea de repartiţie nu este importantă în acest caz şi se poate considera un zgomot cu repartiţie gaussiană.

În ceea ce priveşte tractul vocal, modelul acusto- mecanic , indică prezenţa unor rezonanţe care generează formanţii. Modelarea tractului vocal se face cu o structură AR de forma:

Dată fiind caracteristica de tip trece bandă a filtrului real, polii apar în perechi complex conjugate.

In privinţa funcţiei de transfer care este asociată orificiului bucal, caracteristica sa de tip trece sus poate fi modelată într-o primă aproximaţie printr-o secţiune MA de forma:

valorile de la capetele domeniului spectral considerat (λ = 0, şi λ = 0,5) sunt respectiv:

B(1) = 0; B(-1) = 1

Pentru a înlocui structura MA printr-una AR ( avantajoasă ca algoritmi de calcul), se consideră următoarea formă:

11

Page 10: Procesarea Semnalelor Vorbirii

cu 0 < a < l, apropiat de unitate. Valorile la capete sunt:

ceea ce arată că dacă a≈l atunci structura este apropiată de , dezvoltarea ei în serie :

arată că structura,

cu valorile de la capete.

reprezintă un filtru trece sus.

În concluzie se poate spune că :

pentru foneme sonore funcţia de transfer operaţională este:

cu semnalul de la intrare δTo iar

pentru foneme insonore:

Este necesar să se introducă şi un factor multiplicativ ( de scalare), Av pentru foneme sonore şi Ac pentru foneme insonore.

Din cele analizate mai sus, rezultă un model discret de producere a vorbirii, cu un singur tract (oral) , prezentat în fig. 4.

12AC

AV

fonemeinsonore

P

0Tδ

f0

parametrii traseului vocal

efectulbuzelor

efectulglotei

Generator

(z)G~

Generator de

zgomot

(z)B~

fonemesonore

p –presiunea din câmp

Page 11: Procesarea Semnalelor Vorbirii

Fig..4.Modelul electric de producere a vorbirii.

Modelarea prezentată în fig.4. este de tip AR, funcţia de transfer asociată fiind de forma:

în care A este o constantă ( diferită la cazul sonor şi la cel insonor), iar T(z) este un polinom în z-1 , ( diferit la cazul sonor sau insonor). Structura MA de forma:

se numeşte filtrul invers sau ” filtrul de albire”, deoarece filtrul în cascadă cu filtrul formează un sistem global cu funcţia de transfer operaţională egală cu o constantă.

Prin schema din fig.4. însă nu pot fi modelate fonemele nazale , schema trebuind completată şi cu elementele corespunzătoare tactului nazal.

Astfel relaţia se va completa:

indicele 1 referindu-se la tractul oral iar indicele 2 la tractul nazal.Relaţia nu poate fi redusă la o structură AR şi deci pentru fonemele nazale se foloseşte o structură ARMA. În procesarea semnalului vocal se folosesc valorile tipice prezentate în continuare.

Frecvenţa de eşantionare se alege între 8 sau 10 KHz, rezultând o bandă utilă de 4 sau de 5 KHz.

13

Page 12: Procesarea Semnalelor Vorbirii

Pentru recunoaşterea sau sinteza fonemelor fricative frecvenţa de eşantionare se măreşte la 20 KHz., considerând fs =10KHz, Ts = 0,1 ms.

Pe durata a 20-30ms, parametrii tractului vocal se pot considera ca fiind constanţi (proces staţionar). Alegând o secvenţă de 30ms, rezultă că intervalul de consatanţă cuprinde N= 300 eşantioane.

Pentru a nu se produce efecte de margine , ferestrele de 30ms se prelevează din 10 în 10ms.

Se constata că pentru decelarea sau constituirea formanţilor, tractul vocal trebuie să fie reprezentat cu cel puţin doi poli pe 1 KHz , ceea ce conduce la 10 poli. Pentru impulsul glotic şi pentru radiaţia orală mai sunt necesari 2-3 poli. În final deci funcţia de transfer trebuie să aibă T(z) de gradul13-14.

Pentru determinarea lui T(z) de gradul p , sunt necesare p eşantioane pentru care se evaluează funcţia de autocorelaţie.

Această prelucrare numerică a semnalului vocal se face în următoarele scopuri:

codarea eficientă a semnalului vocal;

sinteza semnalului vocal;

recunoaşterea vocii;

studii de fonetică;

anatomia normală şi patologică a organului formator.

14

x(n)

Coeficienţii filtrului

Nesonor

Sonor σ

Generator de

impulsuri

Generator de

zgomot

H(z)

Page 13: Procesarea Semnalelor Vorbirii

Fig.5.Modelul în timp discret pentru producerea semnalului vocal.

1.4 Reprezentarea digitala a semnalelor vorbirii

Pentru procesarea semnalului vocal, fie ca vorbim despre stocare, sau despre prelucrare este necesara captarea si transformarea semnalului sonor într-o reprezentare într-un alt domeniu, în domeniul electric. Reprezentarea electrica a unui semnal vocal se poate face fie în modalitate pur electrica, în care semnalul elextric este analogul semnalului vocal, fie o reprezentare codata sau digitala în care informatia digitala stocheaza semnalul vocal într-o maniera independenta.

Din aceste doua metode cea mai utilizata în ultima vreme este reprezentarea digitala, la baza acestei alegeri stau o multime de avantaje pe care aceasta le ofera: multitudinea de operatii care se pot efectua si usurinta mare cu care acestea se aplica fata de cazul reprezentarii electrice.

Prin urmare în continuare ma voi ocupa doar de reprezentarea digitala a semnalului vocal. În cadrul acestei reprezentari semnalul vocal este caracterizat de niste parametrii care sunt extrasi din acest semnal. Modelul simplificat al extragerii acestor parametrii este reprezentat în figura urmatoare :

Fig 6. Modelul extragerii parametrilor numerici

Dupa cum se poate vedea din figura precedenta semnalul analogic este preluat de blocul de prepocesare. Semnalul analogic este apoi pregatit pentru a fi supus procesului de extragere a parametrilor. Aceste blocuri pot fi analogice, de exemplu filtre, amplificatoare, sau numerice. Majoritatea operatiilor de acest gen se fac în numeric, în analogic ramânând doar amplificatoarele si convertorul analogic-numeric. Iesirea din acest bloc este un semnal digital.

15

Page 14: Procesarea Semnalelor Vorbirii

Dupa ce are loc transformarea semnalului analogic în digital, si aplicarea catorva operatii asupra semnalului, acesta este preluat de blocul de extragere a parametrilor. În cadrul acestui bloc se extrag tipurile de parametrii necesare în continuare. Putem avea parametrii temporali, spectrali etc.

Activitatea acestor doua blocuri este supervizata de catre blocul de Modelare a vorbirii care realizeaza o analogie între componente fiziologice si componente matematice. Asadar se realizeaza o emulare a componentelor reale prin elemente matematice ce tin de domeniul digital. Parametrii elementelor matematice sunt determinati în blocul de extragere a parametrilor.

Iata în continuare o detaliere a acestor blocuri.

Blocul de preprocesare

Blocul de preprocesare realizeaza legatura între semnalul audio real si blocul de extragere a parametrilor, în cadrul acestui bloc având loc pregatirea semnalului pentru intrarea blocului de extragere a parametrilor. În lumea reala din momentul emiterii sunetului pana cand acesta este captat de blocul de preprocesare, asupra undei sonore intervin o serie de factori datorati canalului/mediului de transmisie, factori ce induc o deformare care poate perturba partial sau total o prelucrare corecta a undei sonore.

Exista o serie de operatii tipice ce se efectueaza aspura undei sonore în cadrul blocului de preprocesare. Aceste operatii sunt urmatoarele :

a)Digitizarea semnalului vocal.

Cea mai mare parte a energiei semnalului vocal este continuta în banda de frecvente 50-60Hz si 4-5kHz, ceea ce impune folosirea unor filtre trece jos sau a unor filtre trece banda care vor selecta din unda sonora exact acest interval. Prin aplicarea acestor filtre se vor elimina componenetele de frecventa joasa reprezentând componenta continua, preturbatii induse de sistemele de alimentare, prin urmare componenete fara informatie utila, iar prin eliminarea componenetelor de frecventa înalta se doreste eliminarea spectrului inutil precum si a efectului de alyasing, efect ce apare la esantionare si despre care vom vorbi mai incolo. Dupa filtrare urmeaza pasul prin care se efectueaza transformarea din analogic în digital. Teorema esantionarii a lui Shanon impune o frecventa de esantionare de cel putin dublul frecventei celei mai înalte din semnalul analizat. Dupa cum am aratat mai sus frecventa utila cea mai înalta este în jurul 4-5kHz ceea ce impune necesitatea unei frecvente de esantionare mai mare de 8kHz. Convertorul analog-numeric poate avea o rezolutie de 8-16 biti. Codarea cea mai utilizata în domeniul digital este PCM offset binar sau complement fata de 2.

16

Page 15: Procesarea Semnalelor Vorbirii

Fig 7. Procesul de digitizare.

b) Preaccentuarea semnalului vocal.

Dupa cum aminteam la punctul anterior este necesara o anumita filtrare aplicata asupra semnalului audio. Aceste filtre se pot aplica atât asupra semnalului analog, despre acestea discutând anterior, cât si asupra semnalului digital, în acest caz având de-a face cu filtre numerice. Un astfel de filtru este si urmatorul , rolul sau fiind acela de a anula efectul atenuarii exercitate de canalul de transmisie asupra undei sonore.

Dupa cum demonstreaza practica, aplicarea unui asemenea filtru este benefica doar în cazul sunetelor vocalice, nefiind utila în cazul sunetelor nesonore, consoane. O valoare de compromis pentru care aplicarea filtrului este utila în ambele cazuri este valoarea de 0.95 pentru µ .

c) Segmentarea semnalului vocal.

Una din problemele prelucrarii unui semnal vocal este modificarea tractului vocal în timp, element ce influenteaza negativ orice operatiune. Aceasta implica necesitatea analizarii semnalului vocal pe perioade scurte de timp, perioade în care unda sonora este cvasistationara dat fiind faptul ca forma tractului vocal nu se modifica semnificativ. O astfel de perioada este estimata la 10-40 ms. Aceasta segmentare a semnalului vocal digitizat se realizaeaza prin operatiunea de ferestruire. Aceasta operatie înseamna aplicarea unei ferestre cu anume proprietati de-a lungul semnalului, iar prelucrarea efectuându-se asupra fiecarui segment astfel obtinut prin ferestruire.. Fie semnalul sursa s unde s(k) reprezinta al k-lea esantion din cadrul semnalului. Se observa ca semnalul nu este analizat functie de timp ci functie de numarul esantionului. Aplicarea asupra acestui semnal a unei ferestre w va duce la obtinerea unui semnal si având forma :

k reprezinta în aceasta formula numarul de ordine al segmentului în timp ce n reprezinta numarul de ordine al esantionului în cadrul segmentului, unde fiecare segment

17

Page 16: Procesarea Semnalelor Vorbirii

contine N esantioane. În literatura de specialitate termenul de esantion este întâlnit si ca sample .

Fereastra ce se aplica asupra semnalului poate fi de mai multe tipuri. Cel mai utilizat tip de fereastra este cea dreptughiulara având forma:

Desi foarte frecvent utilizata aceasta fereastra are o mare problema determinata de limitarea brusca la capatul segmentului a esantioanelor. Aceasta problema se rezolva printr-o atenuare treptata a esantioanelor la capetele segmentului, prin aplicarea ferestrei Hamming. Aceasta fereastra este de forma:

Fereastra Hamming se aplica de obicei aspura unui numar de esantioane putere a lui 2: 128, 256, 512. Pentru obtinerea unor rezultate si mai relevante, printr-o urmarire mai fina a variatiei parametrilor semnalului vocal, în cadrul prelucrarii de multe ori se alege o ferestruire prin acoperire, overlapping în literatura de specialitate. Aceasta acoperire înseamna o suprapunere a doua segmente, suprapunere ce poate varia între 40% si 80%.

Folosirea acestei ferestre duce la cresterea importantei esantioanelor din centrul ferestrei, iar aplicarea si a unei suprapuneri a ferestrelor asigura calcurearea netezita a parametrilor semnalului vocal. Parametrii se vor calcula cadru cu cadru în întreg semnalul vocal de analizat.

18

Page 17: Procesarea Semnalelor Vorbirii

Fig. 8. Fereastra Hamming

Alte ferestre folosite adesea în domeniul prelucrarii semnalelor vocale sunt :

Fereastra Hamming:

Fereastra Barlett:

Fereastra Blackman:

Durata unui cadru, adica lungimea în sample-uri a acestuia este direct proportionala cu viteza de articulare a sistemului de producere a vorbirii. Astfel lungimea cadrelor trebuie sa îndeplineasca urmatoarele doua cerinte: sa nu aiba o lungime mai mica decât cea necesara cuprinderii unei perioade de semnal dar nici una prea mare încât sa compromita caracteristica de cvasistationaritate a semnalului. De aici dimensiunea de care vobeam anterior, anume de 10ms-40ms pentru fiecare cadru în parte.

d)Eliminarea componentei de curent continuu

Numarul de treceri prin zero este afectat de componenta continua a semnalului, adica de media aritmetica a celor N esantioane ale cadrului de analiza. Datorita acestui fapt, eliminarea componentei de curent continuu este unul din primii pasi efectuati la procesarea unui semnal vocal.

Se defineste:

19

Page 18: Procesarea Semnalelor Vorbirii

Primul pas este calcularea începutului cadrului curent dupa care din valoarea fiecarui esantion se scade valoarea lui DC. Operatia se repeta pentru fiecare cadru în parte.

O alta metoda este prin calcularea mediei aritmetice în tot semnalul si apoi aceasta valoare sa se scada din fiecare esantion în parte. În acest caz valoare lui DC este exprimata sub forma:

unde L reprezinta lungimea întregului semnal.

O optimizare a celor doua metode, în vederea reducerii timpului de executie, este aceea prin care DC se calculeaza doar la al n-lea cadru si aceasta valoare se mentine valabila pe o perioada de n cadre pana la calcularea unei noi valori.

O alta alternativa mai usor de aplicat este folosirea unui filtru trece sus, util prin faptul ca pe lânga eliminarea componentei continue, va elimina si variatiile lente datorate tot lantului de prelucrare si mai ales canalului de transmisie. Un astfel de filtru poate fi urmatorul:

1.5 Perceptia semnalelor vorbirii

Dimensiunea vocabularului . În mod normal, dificultatea recunoasterii vorbirii continue creste cu dimensiunea vocabularului. Cercetarile în domeniu au estimat, ca dificultatea de recunoastere creste logaritmic cu dimensiunea vocabularului. Memoria necesara si timpul de calcul, cresc si ele de obicei dupa aceasi regula. Cresterea memoriei necesare este cauzata si de complexitatea sistemului, care creste si ea, fiind necesara si memorarea mai multor parametri. Sistemele de recunoastere a vorbiri, din punct de vedere al dimensiunii vocabularului, se împart în trei categorii: sisteme cu vocabular mic, mediu si mare . Astfel sistemele cu vocabular mic se încadreaza în intervalul 10-99 cuvinte, cele de dimensiune medie în 100-999 cuvinte, iar cele mari cu dimensiune peste 1000 de cuvinte. Însa, aceste limite pot varia în functie de alte caracteristici ale sistemului, crescând în cazul vorbirii izolate. În cazul unui vocabular mic, sistemul poate fi foarte simplu, cu metode de recunoastere bazate numai pe informatie acustica, compararea rostirii putîndu-se face cu fiecare cuvînt din baza de date. Cu cît dimensiunea creste, sunt necesare metode mai complexe care sa tina caracteristicile sistemului în limite rezonabile. Aceste metode includ informatii si cunostinte lingvistice, constrîngeri ce elimina o parte a cuvintelor posibile candidate, nefiind necesara analiza acestora.

20

Page 19: Procesarea Semnalelor Vorbirii

Totodata, eficientizarea sitemului se poate face si la nivel acustic, prin trecerea la unitati de recunoastere mai mici, de la cuvinte la silabe sau la foneme.

Monolocutor sau multilocutor . În cazul sistemelor monolocutor, o singura persoana este folosita pentru a antrena, testa si utiliza sistemul. Daca acelasi sistem însa, este antrenat de catre mai multi vorbitori, plaja de variabilitate a vocii se extinde, însa numarul de unitati de referinta ramînînd constant, performantele de recunoastere se degradeaza fata de cazul monolocutor. De asemenea performantele sistemului vor scadea daca utilizatorii sistemului nu fac parte din cei ce au fost folositi la antrenarea sistemului. Important este si sexul persoanelor care au antreneaza respectiv utilizeaza sistemul datorita diferentelor de caracteristici între cele doua sexe în ce priveste vorbirea.

Vorbire izolata sau continua . Sistemele de recunoastere a vorbirii izolate (RVI) recunosc rostiri discrete ale cuvintelor, adica cu pauze semnificative dintre cuvinte, dupa fiecare rostire avînd loc o determinare a extremitatilor cuvântului, dupa care are loc procesul de recunoastere. Precizia determinarii limitelelor cuvîntului are o influenta importanta asupra reusitei de recunoastere. Daca dimensiunea vocabularului creste, pentru eficientizarea sistemului, se poate trece la recunoasterea unitatilor sub-cuvinte, introducînd în structura sistemului nivele de recunoastere suplimentare, bazate pe lexica limbajului. În cazul sistemelor de recunoastere a vorbirii continue (RVC), acesta trebuie sa recunoasca cuvintele rostite în mod natural, fluent, fara nici o constrîngere. Sistemul trebuie sa fie capabil sa treaca peste problema necunoasterii frontierelor cuvintelor, a coarticulatiilor si a întrepatrunderii cuvintelor, fara pauze între ele. În acest caz, este aproape inevitabila folosirea unitatilor sub-cuvînt ca si unitati primare de recunoscut, si introducerea de cunostinte lingvistice în structura sistemului de recunoastere. Un astfel de sistem depinde de limba în care se utilizeaza, deoarece constrîngerile lingvistice difera de la o limba la alta, pe cînd la sisteme de recunoastere a cuvintelor izolate, fara nivele lingvistice, limba nu are nici o influenta asupra structurii si regulilor sistemului.

Exista o alta metoda de recunoastere a vorbirii, numita recunoasterea vorbirii conectate . Aceasta este o metoda între cele doua metode amintite, cea izolata si cea continua, din punctul de vedere a metodelor de recunoastere necesare a fi implementate. Si în acest caz, cuvintele sunt rostite în mod fluent, însa este nevoie de o cooperare mai buna din partea vorbitorului. Cuvintele sunt recunoscute ca unitati de baza, dupa care se folosesc reguli de succesiune a cuvintelor, pentru a discerne între succesiuni valide sau invalide de cuvinte recunoscute, asemanator unui sistem de RVC.

Conditii de mediu si zgomot . Robustetea sistemului de recunoastere depinde si de capaciatea de a recunoaste cuvintele în conditii mai severe. Prezenta zgomotului în semnalul achizitionat degradeaza performantele sistemului, introducînd perturbatii nedorite în caracteristica spectrala a semnalului vocal. Protectia sistemului la zgomot se face prin filtrare sau alte metode mai complexe. Cînd se prezinta performantele unui sistem de recunoastere a vorbirii, se precizeaza si conditiile de mediu în care s-au determinat performantele prezentate, care de obicei sunt: conditii de laborator, conditii de oficiu cu zgomot de fond uman sau de alta natura, conditii de semnal telefonic sau zgomot de trafic urban.

21

Page 20: Procesarea Semnalelor Vorbirii

1.6 Structura generala si functionarea unui sistem de recunoastere a vorbirii

Recunoasterea vorbirii este un proces foarte complex, continând diverse blocuri constructive complexe.

Fig. 9. Structura generala a unui sistem de recunoastere a vorbirii

Sistemul este compus din doua parti componente principale. Prima componenta este una fizica, echipament electronic, care are rolul de a transforma sunetul (vibratiile acustice) în semnal electric si adaptarea acestuia la intrarea blocului urmator. Traductorul acustico-electric reprezinta microfonul, a carei iesire este conectata la intrarea unui amplificator cu o caracteristica spectrala de tip filtru trece jos. Aceasta caracteristica are rolul de a elimina perturbatiilor de înalta frecventa si a efectului de alyazing ce ar putea aparea la conversia analog-numerica. Cerintele esentiale ale acestui bloc sunt: microfon de calitate mediu-buna, amplificare cu zgomot redus si la nivel optim pentru intrarea în convertorul analog-numeric, amplificare liniara, fara deformarea formei de semnal original, caracteristica cît mai uniforma în banda de trecere. Limitarea spectrului semnalului vocal se poate face la 4-8 kHz. Conversia analog-numerica poate fi între 8-16 biti, frecventa de esantionare putând varia între 8-16 kHz, codare PCM.

A doua componenta principala a sistemului este o componenta logica, reprezentata de un sistem numeric de calcul. Un exemplu de un astfel de sistem este un calculator personal, echipat cu o placa de sunet. Placa de sunet reprezinta prima componenta, care este fixa si nemodificabila. A doua componenta reprezinta un program care se executa pe calculator, implementând toate prelucrarile necesare.

La iesirea blocului de conversie analog-numerica, exista un flux de date constant, reprezentând semnalul vocal codat digital, prin esantioanele sale, exprimate ca si numere binare. Daca consideram frecventa de esantionare de 10 kHz, si rezolutia de 16 biti, atunci avem un flux de date de 20 000 de octeti/secunda, secvential. Recunoasterea vorbirii nu se poate face pe baza formei de unda a semnalului vocal, deoarece aceasta este o combinatie liniara si neliniara de diverse efecte, utile si redundante, inseparabile în domeniul temporal, cum ar fi zgomotul, variatia amplitudini, a fazei, componente armonice nedorite, etc. Parametrii ce reprezinta mai bine vorbirea sunt cei spectrali,

22

Page 21: Procesarea Semnalelor Vorbirii

deoarece ei contin informatii relative la sistemul fonator al vorbitorului si dinamica acestuia si sunt separabili. Din acest motiv, majoritatea metodelor de extragere a parametrilor, analizeaza semnalul vocal din punct de vedere a spectrului de amplitudine al acestuia.

Pentru atenuarea componentelor spectrale de frecventa înalta de origine vocalica, datorita mediului de propagare a semnalului acustic, în primul rînd, semnalul vocal se trece printr-un filtru cu caracteristica trece-sus implementat digital, proces numit preaccentuare .

Cadrul de semnal vocal se prezinta la intrarea blocului de extragere a parametrilor. În acest bloc se determina parametrii cât mai reprezentativi ai semnalului vocal, pe baza esantioanelor. Astfel de parametrii sunt:

Energia – da informatii asupra amplitudinii medii a semnalului vocal. Poate fi utilizata pentru determinarea originii vocalice sau nevocalice ale sunetelor, determinarea extremitatilor unitatilor acustice, variatia energiei da informatii relative la momentul variatiilor fonetice.

Numarul trecerilor prin zero – se utilizeaza pentru masurarea grosiera a continutului în frecventa a semnalului vocal. Da informatii suplimentare, lânga energie despre extremitatile unitatilor acustice.

Frecventa fundamentala – reprezinta frecventa de rezonanta a corzilor vocale. Din punct de vedere a recunoasterii vorbirii, se poate neglija acest parametru, deoarece ea varieaza de la o persoana la alta, dar ramâne constanta pentru aceeasi persoana.

Spectrul de energie sau de amplitudine – reprezinta imaginea în frecventa a semnalului vocal. Forma spectrului este rezultatul combinarii efectului semnalului vocal excitatie si a functiei de transfer a semnalului vocal. Ea prezinta maxime ale anvelopei spectrale în jurul componentelor formantilor, si o variatie rapida, datorita semnalului de excitatie. Deoarece memorarea fiecarei componente de frecventa, în numar de N/2 , este ineficienta, se pot determina niste benzi reprezentative repartizate pe domeniul spectral si calcularea amplitudinii medii pe banda respectiva. Numarul de P benzi se poate alege între 10-16, ele fiind mai aglomerate si de latime mai mica la frecvente joase si mai rasfirate si mai largi, la frecvente înalte. Metoda utilizata de determinare a spectrului de amplitudine este Transformata Fourier Rapida (FFT).

Analiza liniar predictiva – urmareste determinarea parametrilor unui filtru care modeleaza efectul de atenuare selectiva si dinamica de catre tractul vocal al semnalului excitatie. Prin aceasta metoda se face abstractie de semnalul excitatie, astfel spectrul filtrului rezultat va fi fara variatii bruste prezente în spectrul de amplitudine a semnalului vocal. Parametrii determinati, în numar de P , pot fi furnizati direct la iesire, sau se pot determina amplitudinea sau energia spectrala medie din P benzi reprezentative.

23

Page 22: Procesarea Semnalelor Vorbirii

Analiza cepstrala – este o analiza speciala, prin care efectul compus al excitatiei si al functiei de transfer a tractului vocal se separa cu o eficienta mai buna, ca în cazul analizei spectrale sau liniar predictive.

Blocul final al sistemului este blocul de recunoastere. Structura acestuia variaza foarte mult, în functie de metoda de recunoastere utilizata. Exista doua categorii principale de metode de recunoastere: recunoasterea bazata pe referinte si recunoasterea bazata pe modele .

a) Prima metoda este folosita exclusiv la recunoasterea cuvintelor pronuntate izolat sau conectate. În acest caz, pentru fiecare cuvînt ce se doreste a fi recunoscut, se alege un sir de vectori reprezentanti rezultati dintr-o rostire de referinta a cuvintelor respective, si se memoreaza în dictionar sub aceasta forma. Pentru a nu include în aceste reprezentari, vectori rezultati din semnal vocal din afara cuvîntului, extremitatile cuvintelor referinta trebuiesc determinate cu precizie, care se poate face manual sau automat, prin determinarea primului si a ultimului cadru a fiecarui cuvînt. Recunoasterea se face prin achizitionarea cuvîntului de recunoscut, aplicarea acelorasi prelucrari ca la cuvintele referinta, rezultând sirul de vectori reprezentanti. În continuare, se ia fiecare referinta din biblioteca, si se calculeaza distanta dintre acestea si cuvîntul de intrare. Distanta se obtine prin acumularea distantei dintre vectorii celor doua cuvinte de-a lungul axei temporale, comparatia facându-se între vectorii corespunzatori acelorasi foneme presupuse ale cuvintelor. Aceasta metoda de comparatie se numeste metoda de aliniere temporala sau Dinamic Time Wrapping ( DTW ). Distanta de cautare a cadrelor asemanatoare se limiteaza, pentru ca alinierea sa nu poata fi deviata pe o cale gresita. Daca cuvântul de referinta si cel de intrare reprezinta acelasi cuvânt, având o variatie de lungime rezonabila, alinierea temporala se face cu succes. Decizia de recunoastere se face pe baza distantei minime dintre cuvântul de intrare si toate cuvintele referinta. Daca distanta minima este mai mare decât o valoare limita, se ia decizia de cuvânt necunoscut. Deoarece parametrii cuvintelor sunt memorate sub forma “cruda”, astfel de sisteme de obicei sunt monolocutor. Daca se doreste recunoasterea mai multor locutori, este necesara introducerea în dictionar a unei referinte pentru fiecare cuvânt de la fiecare locutor.

b) O alta metoda de recunoastere, mai evoluata si cu performante superioare, este recunoasterea pe baza de modele. În aceasta abordare, fenomenul de producere a vorbirii este asociat cu evolutia în timp a unui automat cu stari finite, care trece în stari succesive, sincronizat de tactul de simbol, si la fiecare tranzitie emitând un simbol, care se observa si se înregistreaza. O astfel de modelare a vorbirii se poate face la fiecare nivel de recunoastere, prin stabilirea corespondentei starilor, a tranzitiilor si a simbolurilor corespunzatoare procesului modelat. Astfel de modele pot fi definite pentru foneme, cuvinte sau propozitii. Un model de acest tip este Modelul Markov Ascuns (MMA) sau Hidden Markov Model (HMM) . Numarul de stari si a simbolurilor unui astfel de model sunt limitate. Numarul de stari ai modelului se determina prin corespondenta dintre numarul de “evenimente stationare” din fenomenul modelat. Astfel, daca se modeleaza un cuvânt, numarul de stari al modelului va fi identic cu numarul de foneme si al pauzelor dintre acestea. Numarul de simboluri se alege în functie de numarul de

24

Page 23: Procesarea Semnalelor Vorbirii

simboluri posibile a fi observate la fiecare tact de simbol. În cazul fonemelor, se alege cel putin numarul fonemelor existente în limba respectiva.

Capitolul II

Parametrii semnalelor vorbirii

2.1 Compresia şi codarea semnalelor audio

Compresia şi codarea semnalelor audio constituie o parte importantă a procesării semnalelor audio şi video. Codarea , sinteza şi recunoaşterea sunt trei domenii cheie în procesarea semnalelor. În cadrul codării, scopul este de a se obţine o reprezentare digitală compactă a semnalului pentru economia transmisiei sau a stocării, pentru reducerea ratei de bit.

Cei patru parametri fundamentali ai codării semnalelor sunt calitatea semnalului, rata de bit, întârzierea de procesare şi complexitatea implementării.

Rata de bit exprimată în biţi pe secundă (bps) sau în biti pe esantion este esenţială în codarea semnalelor. În tabelul 6.1 sunt prezentate ratele de eşantionare şi

25

Page 24: Procesarea Semnalelor Vorbirii

benzile de frecvenţe tipice, conform normelor internaţionale, utilizate în comunicaţiile audiovizuale.

Tabel 1.

Format audio

Rata de eşantionare

Banda de frecvenţă

Telefonie 8 KHz

200-3400 Hz

Teleconferinţe 16 KHz

50-7.000 Hz

Compact disc (CD)

44,1 KHz

20-20.000 Hz

Bandă magnetică digitală

48 KHz

20-20.000 Hz

Calitatea semnalului audio-video este descrisă pe baza unor criterii subiective. Este larg acceptată o scară cu cinci trepte a calităţii semnalelor la care se adaugă şi măsurători de inteligibilitate.

Întârziereap cesării este suma întârzierilor care apar în procesele de codare-decodare, în procesele de digitalizare a semnalelor la trnsmiterea în reţea s.a.

Complexitatea este măsurată atât prin procesele aritmetice necesare algoritmului( măsurate în mips-milioane de instrucţiuni pe secundă) cât şi prin cerinţele de memorie( kiloocteţi de ROM sau RAM) În aplicaţii de tipul transmisiilor de radio şi TV este în mod special importantă minimizarea complexităţii decoderului. Calitatea este un parametru important de performanţă în special pentru nevoia de a minimiza puterea disipată şi costul echipamentelor.

Pentru asigurarea acestor cerinţe s-a conceput o varietate de sisteme de codare.Pentru toate acestea există numai două principii fundamentale de compresie:

a. eliminarea redundanţei de ordin statistic sau determinist din sursa de semnal b. adaptarea sistemului de cuantizare la proprietăţile sistemului de percepţie

uman. În cazul semnalelor de date, compresia se bazează în întregime pe eliminarea redundanţei.

Semnalele vorbirii au un model universal bine cunoscut de a se produce, ceea ce face posibilă o tehnică de reducere a redundanţe, în primul rând prin codarea cu predicţie liniară în domeniul timp.

Sistemul de cuantizare poate fi avantajat în realizarea unei reduceri a ratei de bit, de un fenomen fiziologic, numit mascarea zgomotului. Mascarea este fenomenul prin care un stimul puternic (semnalul util) acoperă complet un semnal mai slab ( zgomotul de cuantizare) în vecinătatea lui spectrală sau spaţio-temporală. Forma cea mai comună de codare adaptată la percepţie este cea în care anumite componente selectate dintr-o transformare în domeniul frecvenţă ( specrele semnalelor cu durată mică) sunt fie cuantizate grosier, fie complet ignorate fără micşorarea calităţii semnalului.

Tehnicile de compresie au condus la reducerea semnificativă a ratei de bit. Aplicaţii cu o rată de bit sub 10 kbps, cum sunt vorbirea protejată ( criptată), radio

26

Page 25: Procesarea Semnalelor Vorbirii

celular, transmisia prin poşta electronică a vocii şi a imaginii, sunt acum uşor de realizat practic. Între 10 şi 20 kbps aplicaţiile ajung în aria telefoniei şi ale teleconferinţei. Între 20 şi 100 kbps se plasează câteva aplicaţii audio-vizuale incluzând grafica, video Internet, voce prin Internet, muzică la nivel de radiodifuziune. Codoarele cu analiză-prin-sinteză şi predicţie liniară sunt cele mai utilizate şi stau la baza celor mai multe standarde de codare a vorbirii de înaltă calitate. Progrese remarcabile în compresia şi codarea vorbirii, în adoptarea algoritmilor de codare s-au realizat pe baza modelelor de producere a vorbirii şi pe modelele perceptuale ale auzului uman.

2.2 Extragerea parametrilor semnalului vocal

Dupa cum am spus anterior pentru o analiza corecta a semnalului vocal extragerea parametrilor se va face utilizând ferestruirea si suprapunerea ferestrelor. Parametrii obtinuti sunt fie statici si atunci caracterizeaza cadrul curent, fie dinamici si atunci caracterizeaza mai multe cadre succesive.

Proprietăţile statistice ale semnalului vocal.

Semnalul vocal este o realizare particulară a unui proces aleatoriu nestaţionar, care se supune legilor satatisticii. Se poate vorbi de statistică pe termen lung şi statistică pe termen scurt în funcţie de intervalele de timp considerate.Semnalul vocal fiind eşantionat, estimarea statistică se realizează pe eşantioane.

Alegerea frecvenţei de eşantionare se face în funcţie de tipul semnalului, vocal ( semnalul telefonic) sau semnal audio( vorbire plus muzică). Astfel în cazul semnalului telefonic, prin limitarea benzii la 3400Hz. frecvenţa de eşantionare se alege Fe = 8 kHz. În cazul semnalului audio pentru o reprezentare fidelă a semnalului până la 20 kHz, se alege o frecvenţă de eşantionare fe = 58 kHz. Debitul binar( BR-bit rate= fe x N biti/secunda) necesar pentru transmisii va fi şi el difert. Astfel, pentru semnalul telefonic cu 8 biţi pe eşantion, debitul este de 8000x 8 = 64 kbiţi/s, iar pentru transmisia sau înregistrarea semnalului audio necesită un debit de 48000x 16 = 768 kbiţi/s.

Trebuie subliniat faptul că semnalul vocal sub forma sa iniţială ( analogică) este un semnal aleatoriu, iar prelucrarea digitală se efectuează asupra semnalului eşantionat. Parametrii statistici sunt evaluaţi pe baza eşantioanelor semnalului analogic iniţial.. Semnalul transmis sau stocat este supus în prealabil la o discretizare a valorilor prin cuantizare.

Statistica semnalului vocal.

Pe baza a numeroase experimente s-a stabilit că semnalul vocal reprezintă o realizare a unui proces aleatoriu nestaţionar. Deci, evoluţia sa în timp se supune unor legi statistice. În funcţie de condiţiile în care se fac observaţiile se pot defini două regimuri statistice care depind în principal de durata segmentelor de vorbire. Astfel există :

27

Page 26: Procesarea Semnalelor Vorbirii

statistica pe termen lung ( STL), în care caz proprietăţile statistice medii ale semnalului vocal sunt estimate pe intervale de timp importante ( câteva zeci de secunde) şi mediate pe mai mulţi vorbitori;

statistica pe termen scurt (STS), constând în evaluarea proprietăţilor statistice pe fragmente temporale de numai 10-30 de milisecunde, în decursul cărora semnalul poate fi considerat cvasistaţionar.

În primul caz segmentele de semnal de durată relativ mare( 30-50) secunde sunt realizări ale unui semnal aleatoriu nestaţionar, pe când cele pe termen scurt por fi considerate realizări ale unui semnal aleatoriu staţionar şi ergodic. În ambele cazuri semnalul fiind eşantionat cu o frecvenţă de eşantionare compatibilă cu teorema lui Shannon, estimarea statistică se efectuează pe eşantioane.

În cazul STL în care numărul de eşantioane este de ordinul sutelor de mii , pentru prelucrarea numerică se poate folosi tehnica convoluţiei secţionate, iar în cazul STS unde numărul de eşantioane este de cel mult 300 se poate folosi transformarea Fourier rapidă.

P rincipalii parametri statistici ai semnalului vocal sunt:

1. Densitatea de probabilitate sau densitatea de repartiţie ( legea de repartiţie a semnalului vocal)

Dacă Nξ reprezintă numărul de eşantioane ale semnalului x[n],ale căror amplitudini sunt cuprinse în intervalul [ξ-Δξ/2, ξ+Δξ/2], Δξ fiind o abatere relativ mică, iar n є [-N, N], densitatea de probabilitate a semnalului x presupus ergodic şi staţionar este:

px(ξ) = lim ( Nξ / 2N+1) Δξ→0

N→∞

Estimări experimentale ale acestei densităţi, realizate pe segmente de vorbire de ordinul a 50 de secunde şi mediate pe câteva zeci de vorbitori, au arătat că densitatea de probabilitate pe termen lung este apropiată de distribuţia Gamma de ordinul ½ şi de distribuţia Laplace, distribuţii cu legi de repartiţie simetrice şi cu valoare medie nulă.

2.Valoarea medie,notată cu mx este definită prin relaţia: N

mx = lim[1/( 2N+1)] ∑ x[n] N→∞ n = -N

Pentru semnalul vocal această medie este presupusă nulă.

3. Varianţa. Pentru semnale discrete cu mx = 0, relaţia de definiţie este: N

σ2 x = lim[1/( 2N+1)] ∑ x2 [n]

N→∞ n = - N

Varianţa reprezintă energia medie a semnalului discret.

28

Page 27: Procesarea Semnalelor Vorbirii

4. Energia semnalului vocal

Prin determinarea energiei unui cadru se poate stabili caracterul sonor sau nesonor al respectivului segment din semnal. Astfel energia alaturi de “numarul de treceri prin zero” este folosita pentru detectia liniste-vorbire. [Balázs 1998] Formula de calcul a energiei este urmatoarea :

unde N reprezinta numarul de esantioane din cadrul curent iar n reprezinta indicele esantionului curent.

Energia din formula anterioara este un parametru static. Dar de asemenea se defineste si o delta-energie care ne da informatii despre dinamica amplitudinii semnalului. Formula de calcul a acesteia este:

unde l reprezinta cadrul curent, si 2K-1 lungimea intervalului de regresiune, cadrul curent fiind exclus. Valorile practice folosite pentru K sunt 1 si 2.

5. Numarul trecerilor prin zero al semnalului vocal.

Numarul trecerilor prin zero este folosit pentru determinarea grosiera a continutului în frecventa a semnalului vocal. Astfel pentru o sinusoida de frecventa f, NTZ va fi 2f. Dupa cum am spus si anterior NTZ impreuna cu energia semnalului vocal se folosesc la detectia liniste vorbire. Caracaterul sonor al unui cadru va fi caracterizat prin NTZ mic si energie mare, iar cel nesonor prin NTZ mare, energie mica.

Formula de calcul a NTZ este:

unde n reprezinta indicele esantionului, iar N reprezinta numarul de esantioane din cadrul curent de analizat.

29

Page 28: Procesarea Semnalelor Vorbirii

6. Determinarea frecventei fundamentale.

Acest parametru se defineste doar pentru cadrele vocalice si reprezinta frecventa de rezonanta a corzilor vocale. Determinarea ei este destul de dificila dar o aproximare mai buna se poate face prin mediere aplicata asupra mai multor cadre succesive.

În continuare voi prezenta cele mai utilizate metode de determinare a frecventei fundamentale.

6.1 Metoda autocorelatiei

Asupra fiecarui cadru se aplica o functie de autocorelatie definita dupa formula:

unde n este indicele curent al sample-ului, iar k indicele functiei de autocorelatie având valori cuprinse între 1 si N-1.

Daca în cadrul segmentului vocal analizat, semnalul prezinta o anumita periodicitate atunci functia de autocorelatie va prezenta maxime locale la anumita distanta exprimata în numar de sample-uri. Distanta intre doua astfel de maxime va defini frecventa fundamentala.

6.2 Metoda diferentei de amplitudine medie

Aceasta metoda reprezinta o varianta a metodei autocorelatiei, varianta corespunzatoare a functiei nde autocorelatie purtând denumirea de functie de diferenta de amplitudine medie fiind definita de formula:

unde n si k au aceeasi semnificatie ca în cazul functiei de autocorelatie.

Se observa ca daca semnalul este periodic de perioada p atunci S(ip) = 0, unde i = 0, 1, 2.... În cazul în care semnalul este unul nestationar, S are valori minime în punctele ip. În acest caz frecventa fundamentala este definita de distanta de la 0 la primul minim local al functiei de diferenta de amplitudine medie.

30

Page 29: Procesarea Semnalelor Vorbirii

6.3 Spectrul de amplitudine si de faza al semnalului vocal

Spectrul de amplitudine reprezinta imaginea în frecventa a semnalului electric. Trecerea din domeniul timp în domeniul frecventa se face cu Transformata Fourier Directa (TFD). Trecerea din domeniul frecventa în cel temporal se face cu ajutorul Transformatei Fourier Inverse (TFI).

Forma discreta a TFD este:

iar forma discreta a TFI este

Mai multe despre Tranformata Fourier vor fi prezentate în continuare. Deocamdata trebuie spus ca în functie de scopul urmarit se pot folosi diferite tipuri de spectre. Astfel daca se urmareste recunoasterea vorbirii se foloseste doar spectrul de amplitudine, faza semnalului neprezentând interes datorita faptului ca aceasta nu contine informatie lingvistica. Drept explicatie pentru cele afirmate e situatia în care vorbitorul isi schimba distanta fata de ascultator, atunci faza semnalului vocal se schimba, însa ascultatorul primeste în continuare aceeasi informatie vocala.

Capitolul III

Metode de analiza

3.1 Modele pentru productia vocala

Modelele de productie vocala prezentate în literatura de specialitate, urmaresc doua aspecte:modelarea tractului vocal, modelerea variabilitatii în timp a caracteristicilor sunetelor. - Modelarea tractului vocal Cel mai cunoscut model al productiei vocale este cel numit “modelul sursa-filtru”, descris de Fant în 1960. Conform acestui model, componentele ansamblului de productie vocala este compus din trei parti: sursa de excitatie, echivalenta generatorului undei

31

Page 30: Procesarea Semnalelor Vorbirii

vocale, un tub cu cavitati de rezonanta, echivalent unui filtru, în procesarea de semnal, si tractului vocal superior,în mecanismul de productie vocala, si un filtru care simuleaza fenomenul radiatiei bucale.Parametrii referitori la rezonantele tubului (în principal polii filtrului) pot fi folositi pentru a caracteriza din punct de vedere spectral portiuni ale fluxului sonor vocal. Pentru modelarea tuturor sunetelor vorbirii, se folosesc doua tipuri de surse de excitatie: - Generator de impulsuri; forma implusurilor este asemanatoare celor glotale naturale, cu o panta de crestere mai mica decât cea de scadere, si se desfasoara pe durata deschiderii glotale. Acestea sunt separate de portiuni pe care semnalul ramâne la zero si corespund intervalelor de închidere glotala. Acest tip de excitatie se produce în cazul vocalelor, consoanelor sonante (nazale, lichide) si a celorlalte consoane sonore. Trenurile de impulsuri au o panta spectrala de -12 dB/octava. - Generator de zgomot aleator echivalent celui de fricatie produs la trecerea aerului prin portiunile constrictive, în cazul consoanelor fricative sau a celor cu portiuni fricative. Identitatea fiecarui sunet este data de pozitiile particulare ale articulatorilor mobili careformeaza cavitatile rezonante ale tractului vocal superior. Acesta actioneaza ca un filtru asupra semnalului de excitatie. În stadiul final al modelarii sursa-filtru, se simuleaza fenomenul radiatieibucale, care se concretizeaza în cresterea pantei spectrale cu +6 dB/octava. În sinteza formantica a sunetelor sonore se combina efectul radiatiei bucale cu cel produs de spectrul de excitatie si sefoloseste un filtru care realizeaza, pe ansamblu, o panta spectrala de –6 dB/octava.

- Modelarea semanlului vocal în domeniul timpPrin modelerea variabilitatii caracteristicilor sunetelor, se urmareste reprezentarea în timp a urmatoarelor trasaturi: durata si co-articularea sunetelor, evolutia în timp a principalilor parametrii ai modelului.

a. Modele pentru durata sunetelor La nivel vorbitorului, durata sunetelor este în corelatie cu rapiditatea vorbirii. Rapiditatea vorbirii este limitata de inertia articulatorilor iar durata sunetelor variaza functie de mobilitatea articulatorilor implicati în producerea lor (miscarea buzelor si a limbii). Duratele medii ale fonemelor variaza între 20 msec pentru consoanele plosive sonore pâna la 150 msec pentru diftongi, cu o durata medie a fonemelor de 70 msec. La vocale, durata variaza, functie de context, între valori aflate într-un raport de 1/8 si depinde de silaba în care se afla. Kanedera si Hermansky în studiul lor au pus în evidenta faptul ca modulatia perceptuala cea mai importanta a vorbirii (modificarile cele mai importante în semnalul vocal) este realizata în jurul valori de 4-5 Hz, sau 200-250 msec cât este aproximativ durata unei silabe . Klatt face remarca ca în recunoasterea vorbirii informatia de durata este folosita de fiintele umane pentru a distinge: - vocalele lungi de cele scurte, - consoanele sonore de perechile lor surde,

32

Page 31: Procesarea Semnalelor Vorbirii

- silaba de final fraza de cea neaflata în pozitie final fraza, - vocala din silaba accentuata de cea din silaba neaccentuata.Daca se iau în considerare multitudinea factorilor care influienteaza duratele fonemelor si perceptia, rezulta modele relativ complexe. Modelul propus de Klatt stabileste 7 factori care influenteaza structura duratelor dintr-o propozitie, si 8 reguli care tin cont de acesti factori. Un model mai simplu propus de van Santen este capabil sa modeleze 86% din situatiile de variatie a duratelor vocalelor cuprinse într-un corpus segmentat manual. Acest model necesita urmatorii parametrii pentru controlul duratei vocalelor: - durata intrinseca a vocalei, - prezenta accentului de propozitie - prezenta accentului de cuvânt, - consoana dinaintea vocalei, - consoana dupa vocala, - pozitia în cadrul cuvântului - pozitia în cadrul rostirii. In modelul statistic dezvoltat de Chung, pentru modelarea duratei la nivel de fonem si cuvânt este folosita o structura cu arbori (ANGIE framework). Antrenarea arborelui este facuta be baza unui corpus de date. Informatia de durata cuprinsa în arbore poate fi folosita pentru a testadiferite ipoteze asupra unor posibile cuvinte si a favoriza pe acelea care au o mai buna apropiere cu modelul . Folosirea acestui model, în cadrul unui proces de recunoastere a condus la o scadere cu 8% a erorilor de recunoastere în vorbirea continua si cu 22% a erorilor de recunoastere a cuvintelor. b. Modele pentru co-articularea sunetelor În ceea ce priveste co-articularea sunetelor vecine, aceasta se evidentiaza prin tranzitii formantice lente de la unul la celalalt care fac dificila stabilirea granitelor acestora.În modelul dezvoltat de Öhman , modificarea formei tractului vocal la tranzitiile de tipul vocala-consoana-vocala a fost descrisa prin relatia : s(x,t)=v(x)+k(t) * [c(x) - v(x)] * wc(x) unde: s(x,t) este forma tractului vocal în pozitia x si la momentul de timp t,v(x) este forma tractului vocal corespunzatore vocalei respective,c(x) este forma tractului vocal corespunzatoare consoanei,k(t) este un termen de interpolare între 0 si 1wc(x) este un terman care descrie marimea extrinderii co-articulatiei. Autorul recunoaste ca e greu de descris cu acest model co-articularea între consoane, cum ar fi în cazul tranzitiei CVC, consoana-vocala-consoana. În modelul bazat pe teoria punctului de articulare , consoanele au asignate valori fixe pentru formanti, corespunzatoare punctului de articulare, care pot sa nu fie vizibili în semnalul vocal. Acesti formanti virtuali sunt interpolati cu formantii propriu-zisi care apar lavocale, pentru a genera modificari formantice dependente de context. Klatt a modificat teoria punctului de articulare pentru ca valorile “formantilor” la consoane sa depinda si de tipul vocalei . Folosind aceasta metoda el a atins o inteligibilitate a consoanelor de 95% în sinteza

33

Page 32: Procesarea Semnalelor Vorbirii

silabelor CVC, comparabila cu inteligibilitatea de 99% pentru silabele CVC rostite natural. Klatt nu a evaluat modelul pe extensii ale co-articulatei mai mari de 6 foneme. În modelul propus de Löfqvist, raportat de Cohen si Massaro , segmentele de speech îsi suprapun functiile de dominanta care controleaza articulatorii, existând câte o functie de dominanta pe câte un articulator. Acestea pot diferi în ceea ce priveste offset-ul de timp,durata si marime, dând o mai mare sau mai mica pondere articulatorilor asociati cu segmentul devorbire dat. Desi aceste modele pentru co-articulatii sunt folosite cu succes în modelarea reprezentarii miscarii articulatorilor în timpul vorbirii, ele nu pot fi folosite în sistemele de recunoastere a vorbirii.

Analiza scenelor auditive

Analiza scenelor auditive (ASA) este un model teoretic al perceptiei umane în care se foloseste o procesare bottom-up si top-down pentru a determina ce parti din semnalul de vorbire apartin unui singur eveniment acustic . Modelul este construit pornind de la analiza mediilor sonore complexe ce implica existenta mai multor sunete simultan. De asemenea, dupa izolarea unor componente de interes din fiecare portiune de semnal vocal, pentru integrarea lor într-un ‘streams’, se foloseste criteriul similaritatii în ceea ce priveste frecventa de ‘pitch’, sau alte aspecte . Cu ajutorul acestui model Cooke si Brown au fost capabili sa detecteze si sa extraga anumite sunete ‘acoperite’, cum ar fi cele acoperite de sunetul unei sirene.

- Modelul Fletcher-Allen Harvey Fletcher si colegii sai a studiat mecanismul perceptii umane la Bell. Labs. Un rezultat al cercetarilor sale a fost masurarea recunoasterii corecte a silabelor de forma CVC calculând o rata de recunoastere a fonemelor componente : S=c1 * v * c2 unde: S este probabilitatea de recunoastere a silabei;c1, v, c2 probabilitatile de recunoastere corecta a consoanelor si a vocalei dintre acestea. Aceasta formula are o implicatii importante deoarece oameni percep fiecare fonemindividual, mai degraba ca unitate de intrare într-o silaba. În plus, Fletcher a observat ca fiintele umane proceseaza benzile de frecventa independent si ca eroarea globala de recunoastere în mai multe benzi este data de multiplicarea erorilor în fiecare din acestea.Allen a interpretat aceste rezultate astfel: fiintele umane efectueaza recunoasteri partiale în benzi de frecventa individuale si aceste rezultate partiale fuzioneaza pentru a produce o estimare a fonemului. Numarul benzilor de frecventa trebuie sa fie între 10 si 30. Allen noteaza,de asemenea, ca “reprezentarea neurala la nivelul creierului, a intensitatii sunetului este transformata într-o masura a recunoasterii partiale ... noi nu trebuie sa consideram ca aceste transformari sunt triviale”.

34

Page 33: Procesarea Semnalelor Vorbirii

Bazat pe descoperirile lui Fletcher, Allen propune un model cascada al mecanismului de perceptie, în care energia semnalul acustic este mai întâi împartita într-un numar de benzi de frecventa intens suprapuse cu ajutorul unui bank de filtre cochlear. Iesirile acestor benzi sunt folosite pentru a extrage trasaturile sunetului pentru al clasifica la nivel de fonem. Dupa clasificarea la nivelul fonemului se face recunoastere silabei, pe care se bazeaza apoi recunoasterea la nivel de cuvânt. Allen noteaza ca în acest model simplificat nu existafeedback între diferitele nivele de recunoastere.

Fig. 10.Model cascada al mecanismului de perceptie propus de Allen

3.2 Teoria motorie a perceptiei vorbirii

Teoria motorie a perceptiei vorbirii este una din cele mai cunoscute si mai des folosite. Într-o versiune noua stabileste drept obiective ale perceptiei vorbirii, gesturilor fonetice intentionate ale vorbitorului necesare pentru articularea sunetelor. La nivelul creierului, acestora le corespund comenzile motoare pentru miscarea articulatorilor, care constituie comenzi invariante în raport cu un anumit sunet.Cu alte cuvinte, ceea ce percepem sunt gesture care corespund miscari articulatorilor efectuate de un vorbitor. Tot în aceasta teorie se sustine idea existentei în creier a unui “modul specializat” care transforma semnalul acustic în gesturi fonetice intentionate ale articulatorilor

35

Page 34: Procesarea Semnalelor Vorbirii

Fig. 11. Modelul lui Liberman de perceptie a vorbirii

Dupa Liberman, acest modul poate lucra dupa metoda de analiza prin sinteza, în care modelul mental al sintetizatorului este folosi pentru a genera diferite proprietati acustice. Parametrii gesturilor acustice de la intrare sintetizatorului sunt modificate pâna când eroarea dintreproprietatile acustice sintetizate si proprietatile observate sunt minimizate. Iesirea acestui modul este reprezentata prin gesturile articulatorilor. Liberman si Mattingly afirma ca acest model al perceptiei este computational si indirect (usor invesabil). Una din criticile aduse modelului este formulata de Cole care arata, în urma unui studiu , ca recunoasterea sunetelor se poate face si de pe spectrograma, prin ‘citirea’ unei forme vizuale a vorbirii fara implicarea unui modul biologic specializat. Persoanele care efectueaza citirea spectrogramelor nu fac referiri la miscarile articulatorii. Acest studiu combate afirmatiile conform carora semnalul acustic este prea complex pentru a fi mapat în categorii fonetice si aparatul perceptiei auditive necesita un stadiu intermediar, de transformare a informatiei în gesturi articulatorii. Un alt studiu, cel al lui Lane, combate ideea transformarii semnalului acustic în parametri de miscare a articulatorilor. S-au folosit stimuli de tip CV carora li s-au inversat frecventele formantice pe axa frecventelor, obtinându-se sunete nonverbale. Auditorii au fost antrenati sa învete sa le recunoasa si acest lucru a reusit, desi sunetele neprovenind din rostiri verbale nu pot fi puse în legatura cu acei presupusi parametri interni referitori la comanda miscarii articulatorilor . Un alt argument îl aduce Ladefoged prin ideea ca aceleasi sunete, pronuntate diferit din punct de vedere al articularii, sunt percepute ca reprezentând acelasi sunet, desi conform teoriei motoare ar trebui sa fie reprezentate intern diferit .

36

Page 35: Procesarea Semnalelor Vorbirii

3.3 Arhitectura unui sistem de înţelegere a vorbirii

Există mai multe căi de integrare a surselor de cunostinţe într-un sistem de recunoaştere a formelor pentru ca acesta să devină un sistem de "înţelegere " a vorbirii. Cea mai folosită arhitectură este cea de « jos în sus»  reprezentată în fig. 12:

Surse decunostinte

Prelucrari semnale

Extrage trasaturi

Segmentare„unitati fonetice”

Etichetare

Verificare cuvinte

Verificare fraze

Intrare acustica

Secventarecunoscuta

Sonor/Nesonor/Liniste

Dictionar unitati fonetice

Acces lexical

Gramatica. Semantica

Fig.12.Sistem de înţelegere a vorbirii cu arhitectură de « jos în sus » pentru integrarea surselor de cunoştinţe. 

In această arhitectură, procesele de la nivelul mai jos (de exemplu determinarea parametrilor ca trăsaturi esenţiale, decodajul acustico-fonetic) preced procesele de la nivelurile superioare (decodaj lexical adică formare de cuvinte după modelul limbii) într-o manieră secvenţială, astfel încât etajele succesive să se constrângă reciproc cât mai puţin.

O altă variantă întâlnită în construcţia sistemelor de înţelegere a vorbirii este arhitectura de "sus în jos" în care, folosind un model al limbii se generează ipotezele cu privire la cuvintele care se potrivesc cel mai bine cu secvenţa de semnal vorbit care trebuie recunoscută .Pe baza scorurilor de potrivire se construiesc fraze corecte, cu sens pentru aplicaţia respectivă.. O asemenea arhitectura este prezentată în fig.13:

37

Page 36: Procesarea Semnalelor Vorbirii

Dictionar deunitati fonetice

Generatoripoteze

Verificareipoteze

Intrare acustica Secventa

recunoscuta

Dictionarcuvinte

Ipotezelexicale

Gramatici

Analiza trasaturilor

Ipotezesintactice

Pragmatica

Ipotezesemantice

Fig.13. Sistem de înţelegere a vorbirii cu arhitectură de « sus în jos » pentru integrarea surselor de cunoştinţe. 

O altă posibilitate de integrare a surselor de cunoştinţe în sistemele de inţelegere a vorbirii, este cunoscută sub numele de arhitectura "blackboard". În acest caz sursele de cunoştinţe sunt considerate independente. Ele comunică printr-un mediu constituit de o succesiune de operaţii ipotetizare-test; fiecare din sursele de cunoştiţe este activată de date, pe baza apariţiei unor forme pe "blackboard" care se potrivesc cu modelele specificate de fiecare din sursele de cunoştinţe; sistemul lucreaza asincron şi se dovedeşte a fi foarte flexibil în folosirea "economică" a surselor de cunoştinţe apelate numai atunci când acestea sunt necesare .

Rezultă că în sistemele de recunoaştere a vorbirii este necesară integrarea unui mare număr de surse de cunoştinţe pentru a obţine performanţe acceptabile. În realizarea acestor sisteme două categorii de procese joacă un rol deosebit: procesul de învăţare şi procesul de adaptare, care sunt adesea cuplate pentru realizarea recunoaşterii.

Numeroase modele sunt aplicate în vederea implementării acestor procese: modelul statistic Markov, modelul cu reţele neuronale, modelul fuzzy al mulţimilor vagi precum şi combinaţiile acestor modele.

In recunoaşterea vorbirii, un procedeu adesea folosit pentru "standardizarea în timp" a unor secvenţe rostite cu rate diferite de vorbire, este alinierea temporală dinamică (ATD).

38

Page 37: Procesarea Semnalelor Vorbirii

„Blackboard”

Procese sintactice

Proceselexicale

Intrare acustica

Secventarecunoscuta

Procesesemantice

Proceseambientale

Proceseacustice

Fig.14. Arhitectura “blackboard” pentru integrarea surselor de cunoştinţe într-un sistem de înţelegere a vorbiri

3.4 Modele Markov ascunse

Modelele Markov sunt o încercare de "fixare" a proprietaţilor statistice ale vorbirii, în structura unui automat secvenţial.

Modelele Markov ascunse sunt automate finite, cu un numar distinct de stări , trecerea dintr-o stare în altă stare făcându-se instantaneu la intervale de timp care corespund unei ferestre de semnal din a cărei analiză rezultă un cadru de "trăsături esenţiale" numit şi vector de parametri. La fiecare trecere dintr-o stare în altă stare sistemul generează observaţii, în automat derulându-se concomitent două procese aleatoare: unul reprezentat de succesiunea stărilor, care este inobservabil, ascuns şi un altul perfect transparent şi observabil, reprezentat de succesiunea observaţiilor, respectiv a vectorilor de parametri.

Un model Markov ascuns simulează succesiunea vectorilor din fiecare cadru de parametrii observaţi ca pe un proces staţionar pe porţiuni, deci o rostire este modelată ca o succesiune de stări ale modelului.

Dacă notăm cu O observaţiile şi cu λ un model Markov al acestor observaţii, conform regulii lui Bayes reformulată, se pote scrie:

• P(λ/O) este probabilitatea aposteriori a modelului asociată cu "unitatea

fonetica" (fonem, semisilabă, silabă, cuvânt) care determină succesiunea de observaţii O .• P(O/A.) este probabilitatea observaţiei în condijiile modelului şi ar putea fi

interpretată ca o măsură a probabilităţii cu care modelul poate genera observaţia O, respectiv ca o probabilitate de emisie a unui anumit vector de trăsături.

39

Page 38: Procesarea Semnalelor Vorbirii

• P(λ) este o probabilitate apriori a modelului determinată de „structura” limbii şi care este determinantă pentru fiecare limbă

• P(O) este probabilitatea observaţiei O pe care o presupunem independentă de parametrii modelului

Ecuaţia poate fi privită ca ecuaţia de antrenare a modelului, parametrii acestuia fiind reestimaţi dupa criteriul maximei plauzibilitaţi a secventei O în condiţiile modelului λ. O asemenea antrenare în care este maximizată numai probabilitatea modelului corect ipotetizat corespunzator secventei O, conduce la lipsa de discriminare între modele. Pe langă acest dezavantaj o altă limitare a modelelor Markov ascunse este legată de presupunerea că procesul aleator cu care se aproximează segmentul de semnal vorbit are cadrele succesive decorelate, rcstricţie care nu se potriveşte foarte bine vorbirii în care coarticulaţia, contextul sunt foarte importante.

Modelele Markov se bucură de un suport matematic bine pus la punct în forma unor algoritmi eftcienţi de antrenare şi de calcul pentru probabilităţile aposteriori. Cu o bună capacitate de învăţare, se pot adapta cu uşurinţă dinamicii temporale a semnalului şi nu necesită proceduri de aliniere speciale.

Modelele Markov ascunse pot fi folosite pentru recunoaşterea vorbirii atât în sisteme construite pe principiul recunoaşterii formelor cât şi în sisteme expert.

In sistemele de recunoaştere a formelor, învăţarea are loc din experienţă, prin antrenarea modelului cu cazuri particulare, rezultatul antrenării fiind un model cu anumiţi parametri care se utilizează în recunoaştere.

In sistemele expert utilizarea modelelor Markov ascunse este foarte indicată dacă diferitele niveluri de constrangere (lingvistic, sintactic) pot fi formalizate statistic.

Pentru limba româna de exemplu, există date statistice în legatură cu frecvenţa de apariţie pentru litere, grupuri de litere, tipuri de silabe ,ş.a. pe baza cărora se pot alcătui modele statistice ale limbii.

3.5 Modele cu reţele neuronale

Un punct de vedere acceptat în ceea ce priveşte reţelele neuronale este capacitatea lor de a modela într-o anumită măsură procese din sistemul nervos uman .

Schema bloc bazată pe modelul perceperii vorbirii de către orn, este prezentată în figura 15 .

În această schemă semnalul acustic de intrare este analizat de un "model al urechii" care furnizează o reprezentare spectrală a semnalului în funcţie de timp. Aceasta este stocată într-o memorie informaţionalo-senzorială, la care mai au acces şi alte informaţii senzoriale, ca cele provenite de exemplu de la văz şi pipăit. In această memorie se găseşte o descriere a semnalului la nivelul "trăsăturilor" sale relevante, al parametrilor care îl caracterizează. Memoria pe termen lung, cu caracter static si memoria pe termen scurt, cu caracter dinamic sunt utilizate în procesul de detecţie a diferitelor "trăsături". După câteva stadii de rafinare a detecţiei de trăsături, ieşirea finală a sistemului reprezintă o interpretare a informaţiei conţinute în semnalul acustic de intrare.

40

Page 39: Procesarea Semnalelor Vorbirii

Sistemul din figura 15. este un model uman de înţelegere a vorbirii la nivelul cunoştinţelor actuale cu privire la mecanismele implicate în acest proces.

Intrareacustica

Intrarealte simturi

An

aliza

acu

sticapre

limin

ara

Stru

ctura

info

rmatie

i aud

itive

Dispozitiv de recunoastere a vorbirii

Analiza de„trasaturi”auditive

Analiza„trasaturi’fonetice

Buffer de„trasaturi”

Combinarea„trasaturilor”

fonetice

Memorie pe termen scurt

Memorie pe termen lung

Intelegere umana a intrariloracustice

Fig.15. Schema bloc conceptuală a perceperii vorbirii de către om.

In acest model, diferitele trăsături obţinute prin analiză, reprezintă rezultatul unor prelucrări care au loc pe nivelele succesive parcurse de informaţia culeasă cu senzori până la creier, memoria pe termen scurt şi memoria pe termen lung asigurând controlul acestor procese. Interconectarea elementelor acestei scheme sugerează structuri asemanatoare celor din reţelele neuronale, cu care se pot modela procesele de învăţare şi adaptare.

În momentul de faţă, cu reţele neuronale se construiesc sisteme mult mai simple decât creierul uman şi care rezolvă probleme cu mult mai simple decât cele pe care le rezolvă creierul uman. Ele constituie o alternativeă la metodele convenţionale în recunoaşterea vorbirii datorită unor calităţi de necontestat.

Calităţile pe care le prezintă reţelele neuronale şi care le fac potrivite în recunoaşterea vorbirii sunt urmatoarele:

1. Prin structura lor, rezultată din punerea în paralel a unui mare numar de elemente de calcul identice, reţelele neuronale sunt procesoare tipice pentru calcul paralel, ele putând prelua setul de trăsături care caracterizează formele de recunoscut.

2. Prin "diseminarea" informaţiei dar şi a perturbaţiei la toate elementele de calcul din reţea, reţelele neuronale au o mare toleranţă la erori, fiind structuri foarte robuste din acest punct de vedere

Ponderile conexiunilor din reţea nu sunt constrânse să fie fixe, ele pot fi adaptate în timp real, pentru îmbunătăţirea performanţelor; retelele neuronale sunt structuri care pot fi folositepentru învăţarea adaptivă.

4. Din cauza neliniarităţii înglobate în fiecare element, reţelele neuronale pot aproxima cu o eroare mică orice comportare neliniară a sistemelor dinamice.

41

Page 40: Procesarea Semnalelor Vorbirii

Se poate afirma că dacă proprietatea 3 este cea care asigură adaptabilitatea reţelei, proprietatea 1 determină viteza acestei adaptari, proprietatea 2 detennină "stabilitatea" iar proprietatea 4 permie optimizarea strategiei de adaptare.

In recunoaşterea vorbirii reţelele neuronale îşi găsesc utilizările cele mai diferite, de la aplicaţiile legate de modelarea şi de clasificarea sistemelor de recunoaştere a formelor până la testarea ipotezelor în sistemele expert. Reţelele neuronale se utilizează în acelaşi mod în ambele cazuri.

În cazul recunoaşterii formelor în faza de antrenare reţeaua îşi schimbă structura pentru a se adapta setului de date de antrenare, învăţând deci din experienţă; faza de antrenare terminată, reţeaua s-a structurat şi a devenit model, iar modelul poate fi folosit pentru recunoaştere prin determinarea unor măsuri de potrivire a datelor cu modelul.

În cazul sistemelor expert toate informaţiile materializate într-un ansamblu de reguli sau de cunoştinţe sunt memorate în structura sistemului, reţeaua constituind de exemplu un model de limbă sau de gramalică.Din semnalul acustic, prin decodare fonetico-acustică se extrage, de exemplu, o succesiune de litere: modelul de limbă stabileşte care sunt cuvintele care pot fi construite cu aceste litere; aceste cuvinte devin ipoteze care sunt testate în vederea alegerii cuvântului cel mai probabil, iar decizia luată constituie o dată pentru nivelul superior. Pentru nivelul urmator deci, datele sunt constituite dintr-o succesiune de cuvinte din care, cu un model de gramatică putem construi fraze-ipoteze, alegând ca soluţie finală pe cea mai probabilă dintre acestea ; procesul poate astfel continua până la ultimul nivel, pe care selecţionăm fraza cea mai potrivită cu scopul propus, corectă din punct de vedere gramatical şi semantic.

Reţele neuronale cu auto-organizare.

Dezvoltarea hărţilor cu auto-organizare ca modele neuronale a fost motivată de o caracteristică distinctă a creierului uman şi anume aceea de a avea în cortexul cerebral arii corespunzatoare centrilor nervoşi specializaţi pentru diverse activităţi: vorbitul, auzul, văzul, funcţiile motorii etc. Aceste arii sunt localizate în aceeaşi zonă şi, mai mult, ariile individuale arată o ordonare logică a functionalităţii lor.

Aceste reţele sunt bazate pe învăţarea competitivă; neuronii de ieşire ai reţelei concurează între ei pentru a deveni activi, rezultatul fiind acela că numai unul dintre ei are această şansă la un moment dat. Un neuron de ieşire care învinge în această competiţie este numit neuron învingător.

Un mod de a induce o competiţie de acest tip între neuroni este folosirea conexiunilor laterale inhibitorii între aceştia.

Intr-o hartă cu auto-organizare, neuronii sunt plasaţi în nodurile unei matrice, care de regulă este uni sau bidimensională. In timpul procesului de învăţare, neuronii devin selectivi la diferite forme de intrare sau clase ale acestora. Localizarea neuronilor învingători în raport cu ceilalţi neuroni se face în aşa fel încât se păstrează relaţiile topologice, de poziţionare, existente între vectorii de intrare în spaţiul lor multidimensional. De aceea, stratul de ieşire al reţelei este similar unei hărţi topografice a formelor de intrare în care coordonatele spaţiale ale neuronilor din matrice sunt

42

Page 41: Procesarea Semnalelor Vorbirii

indicatori ai caracteristicilor statistice conţinute în formele de| intrare, şi de aceea se numesc "hărţi cu auto-organizare".

In spaţiul de ieşire aşezarea neuronilor se poate face sub formă liniară, circulară, pătratică, cubică, în general m-dimensională.

Există două modele de structurare a reţelelor neuronale cu auto-organizare, prezentate în fig.16. În ambele cazuri neuronii sunt aranjaţi într-o matrice bidimensională. Acest tip de topologie asigură fiecărui neuron un set de vecini. Modelele diferă între ele prin modul în care sunt specificate formele de intrare.

y

x

ξ1 ξ2

y

x

j

ia) b)

Fig.16.Tipuri de hărţi de caracteristici.a)modelul Kohonen; b) modelul Willshaw-von der Malsburg.

Realizarea hărţilor fonetice cu ajutorul reţelelor neuronale.

Prin harta fonetică se înţelege reprezentarea într-un plan a informaţiei conţinute în semnalul vocal. Această reprezentare trebuie astfel făcută încât să se consrve relaţiile de vecinătate existente între părţile componente ale semnalului vocal în spaţiul de reprezentare primar. Cum iniţial semnalul este caracterizat prin intermediul a 40 de coeficienţi cepstrali şi delta-cepstrali, problema care trebuie rezolvată constă în realizarea unei translătari din hiperspatiul iniţial 40-dimensional în spaţiul hărţii fonetice bidimensional. In literatura de specialitate o astfel de abordare se întâlneşte sub denumirea de selecţie a caracteristicilor ( features selection).

Metoda optimă de selecţie a caracteristicilor constă în aplicarea transformatei Karhunen-Loeve.

Această transformare depinde de statistica semnalului de intrare, ea conduce la obţinerea unor rezultate mai slabe (sub-optimale) în cazul semnalelor vocale a căror statistică nu este staţionară.

Pentru obţinerea unor rezultate mai bune în selecţia caracteristicilor se utilizează reţele neuronale de tip Kohonen cu un strat de ieşire bidimensional.

43

Page 42: Procesarea Semnalelor Vorbirii

La alegerea acestei soluţii contribuie două idei majore:-utilizarea unei reţele neuronale, care prin structura sa paralelă conduce la o

prelucrare rapidă a datelor;-folosirea unei reţele de tip Kohonen care datorită caracterului său topologic

oferă posibilitatea conservării relaţiilor de poziţionare din spaţiul iniţial în cel transformat.

Pentru realizarea hărţilor fonetice se poate utiliza o reţea Kohonen cu un strat de ieşire de formă plană, aşa cum este prezentată în fig. 17. În fig. 16 sunt prezentate două hărţi fonetice obţinute folosind reţeaua Kohonen.

1 2 3Strat de intrare

Wij

Fig.17.Structura reţelei neuronale Kohonen cu strat de ieşire bidimensional.

3.6 Modele cu logica fuzzy

Studiile arată că în articulaţia vorbirii umane nu există delimitări nete, binare. Acest fapt îşi are cauza în principal în variabilitatea ca pronunţie a vorbitorilor si în diversitatea coarticulaţiilor (contextelor) posibile. Totuşi când vrem să stabilim care este „unitatea fonetica" emisă, dacă nu pot fi luate decizii clare putem să ne adaptăm la variabilitatea datelor de intrare printr-o decizie fuzzy, o decizie vagă, nuanţată.

Logica fuzzy a fost propusa in 1965 de catre iranianul Lotfi Zadeh şi şi-a găsit numeroase aplicaţii, în special în teoria recunoaşterii şi a reglării automate.

Logica propusă lucrează cu variabile "vagi", nebinare. Dacă se consideră dependenţa α(x), pentru definirea variabilei α în logica binară sunt valabile relaţiile:

α = 1 x > xpα = 0 x ≤ xp

44

Page 43: Procesarea Semnalelor Vorbirii

care în logica fuzzy devin: α = 1 ; x > xp

0 < α < 1 ; x ≤ xp

v

1

0DpX 1D X

Fig.18. Variabila fuzzy αv

Se vede că se poate defini astfel o măsură variabilă, α cuprinsă între 0 şi 1 a apartenenţei lui x la domeniul x ≤ xp.

Un exemplu din domeniul vorbirii ar putea prezenta interes. In testele de recunoaştere a vocalelor "o" şi "u" una din trăsăturile esenţiale preferate în clasificare este diferenţa F3 – F1 unde F1, este frecvenţa formantului de ordin 1. Pentru "o"', F3 – F1< 2,05 kHz, există însă cazuri când F3 –F1 ajunge până la 2,1 kHz. Pentru "u" F3-F1> 2,25kHz dar sunt cazuri când aceasta diferenţă poate scădea până la 2,1 kHz. O reprezentare fuzzy a acestei situaţii este prezentată în Fig.19.

F3-F1 [kHz]2,05 2,25

„o” „u”

Fig. 19. Decizie fuzzy în recunoaşterea vocalelor « o » şi « u ».

45

Page 44: Procesarea Semnalelor Vorbirii

În domeniul de incertitudine, cu 2,05< F3 - Fi<2,25 decizia se ia în favoarea vocalei la care gradul de apartenenţă α este mai mare, construindu-se astfel o punte către soluţionarea comodă a unei probleme care nu părea uşor de rezolvat.

Pe lângă faptul că se acomodează bine datelor acustice, care reprezentate parametric nu acoperă un domeniu delimitat de reguli binare, punctul de vedere fuzzy se potriveşte şi reacţiei umane, care este diferită de cea a unei masini, a unui aparat.

Putem spune deci că logica fuzzy se adaptează bine datelor acustice şi că într- un anume fel "umanizează" , decizia luată într-un sistem de recunoaştere, efectele pozitive concretizându-se în rate de recunoaştere crescute .

3.7 Alinierea temporală dinamică (ATD)

Problema compărării secvenţelor spectrale pentru vorbire apare din faptul că diferite realizări acustice ale aceleiaşi rostiri (cuvânt, frază, propoziţie) au foarte rar aceeasi rată a vorbirii. Deci fluctuatiile ratei vorbirii trebuie mai întâi normalizate înainte să fie luată decizia recunoaşterii, pentru a avea sens comparaţia rostirilor.

Considerăm două forme de rostire X si Y reprezentate de secvenţele spectrale (x1, x2, ...,xTx ) şi (y1, y2, .... yTy) unde x, si y, sunt vectorii de parametri ai caracteristicilor acustice pe timp scurt. Folosim ix si iy pentru a reprezenta indicii temporali ai celor două forme X si Y.

Duratele celor două rostiri Tx si Ty nu sunt neaparat identice. Nesimilaritatea între X si Y este definită considerând o funcţie a distorsiunilor spectrale pe timp scurt d (xix, x;iy), care va fi notată pentru simplitate cu d (ix, iy), unde ix = l, 2, ..., Tx, iar iy_=l, 2,..., Tv. . Deoarece ordinea secvenţială a sunetelor este critică în definirea unei rostiri, este necesar ca indicii perechilor spectrale care urmează să fie comparate să satisfacă anumite condiţii. Interacţiunea între aceste constrângeri secvenţiale şi variaţiile naturale ale ratei vorbii constituie una dintre problemele centrale ale recunoaşterii vorbirii şi anume, problema alinirii temporale şi normalizării.

Rezolvarea acestei probleme presupune folosirea a două funcţii de deformare φx, φy,, care asociază indicii celor două rostiri, ix si iy cu o axă k a timpului comună.

i x = φx (k ) k=1,2,…. T

i y = φy (k)

O masură globală a nesimilarităţii formelor dφ, (X, Y) poate fi definită pe baza funcţiei de deformare φ=( φx,, φy) astfel :

T dφ, (X, Y) = ∑ [d (φx (k ), φy (k) ] n (k) / M φ

k = 1

46

Page 45: Procesarea Semnalelor Vorbirii

unde d [(φx (k ), φy (k)] este o distorsiune spectrala pe timp scurt definită pentru xφx (k) şi yφy (k) ; m(k) este un coeficient de ponderare a căii, iar M φ este un factor de normalizare a căii.

Găsirea celui mai bun aliniament între o pereche de forme este echivalentă cu găsirea celei mai bune “căi" într-o matrice a caracteristicilor acustice, în care cele două forme au duratele Tx, respectiv Ty . Găsirea celei mai bune căi necesită rezolvarea unei probleme de minimizare pentru care de cele mai multe ori se apelează la tehnici de programare dinamică.

Capitolul IV

Metode de sinteza ( recunoasterea vorbirii )

47

Page 46: Procesarea Semnalelor Vorbirii

4.1 Arhitectura sistemelor de recunoaştere a vorbirii

Sistemele de recunoaştere a vorbirii realizate până în momentul de faţă, din punct de vedere al recunoaşterii sunt relativ modeste situându-se în următoarele categorii:

° Sisteme cu vocabular redus (10-100 cuvinte)° Sisteme în care cuvintele sunt pronunţate izolat ( 10.000 cuvinte)° Sisteme care acceptă vorbire naturală (continuă) dar în domenii specializate

(1.000- 5.000 cuvinte)De cele mai multe ori recunoaşterea vorbirii este tratată ca o problemă de

recunoaştere a formelor, comparându-se „formele vocale” cu anumite modele. Structura unui sistem de recunoaştere a vorbirii pe baza recunoaşterii formelor este prezentat în fig. 20, iar procesul de recunoaştere a vorbirii în fig. 21.

Analizor

semnal vorbit

s(n)

1

2

k

Antrenare Model

Clasificare Decizie

antrenarerecunoastere

vorbirerecunoscuta

Fig.20. Structura unui sistem de recunoaştere a vorbiriik-1 antrenare ; k-2 recunoaştere.

48

Page 47: Procesarea Semnalelor Vorbirii

NT User System Policies

Parametrizare

Recunoastere

Semnal vorbit

Vectori de parametrii

w1w2

w3

w1 w2 w3 Fig.21. Procesul de recunoaştere automată a vorbirii.

Sistemul poate fi folosit pentru recunoaşterea vorbirii fie prin metoda globală, în care vorbirea este tratată ca un semnal global wi făcându-se abstracţie de aspectele fonetice, sau prin metoda analitică în care vorbirea este tratată ca o succesiune de unităţi fonetice de bază wi, din care se compune secvenţa rostită. Aceste unităţi pot fi : cuvânt, silabă sau fonemă.

Sistemul realizează următoarele prelucrări esenţiale :1. În prima etapă se face “parametrizarea semnalului” prin măsurarea

trăsăturilor esenţiale ale semnalului vocal, respectiv prin determinarea parametrilor spectrali, fonetici, LPC relevanţi pentru diferite cadre ale semnalului. Această operaţie este urmată de o segmentare a semnalului care urmăreşte despărţirea fluxului vorbit în “ unităţi fonetice” ca foneme, semisilabe, silabe. Prin etichetare acestor unităţi se realizează de fapt decodarea acusto-fonetică, primul pas în procesul de recunoaştere a vorbirii prin metode analitice. În sistemele globale de recunoaştere operaţia de decodare acusto-fonetică nu există, recunoaşterea făcându-se la nivel de cuvinte sau chiar fraze.

2. In a doua etapă se face antrenarea sistemului în vederea formării modelului fiecăreia din clase. Dacă pentru sistemele fonetice modelul corespunde unei unităţi "fonetice", pentru sistemele globale modelul se constitute pentru întreaga rostire. In această etapă formele de recunoscut suficient de variate sunt folosite pentru crearea modelelor fie utilizând o tehnică de mediere a trăsăturilor esenţiale fie o caracterizare acustică a acestora; în ultimul timp tehnici de clustering realizate prin cuantizare vectorială sau "mapare"cu ajutorul unor reţele neuronale încep să joace un rol din ce în ce mai important.

3. Etapa de antrenare se efectuează cu un lot de antrenare,în scopul obţinerii modelelor

4. A treia etapă este cea de clasificare a formelor. In această etapă forma necunoscută este comparată cu toate modelele elaborate în decursul antrenării şi sunt evaluate distanţele dintre formele necunoscute şi modelele disponibile fie chiar în forma unor distanţe în diferite metrici, fie în forma unor scoruri de "potrivire",

49

Page 48: Procesarea Semnalelor Vorbirii

5. In ultima etapă se ia o decizie fie pe baza unui criteriu de distanţă minimă, fie pe baza unui criteriu de plauzibilitate maximă (sau probabilitate maximă); forma necunoscută se atribuie modelului cu care se aseamană, se potriveşte cel mai bine.

Etapele de clasificare şi decizie constituie procesul propriu-zis de recunoaştere, care se face on- line şi în urma căruia se stabileşte succesiunea wi de clase recunoscute.

Există o mare varietate de sisteme pentru recunoaşterea formelor vocale, care se pot deosebi în raport cu alegerea modurilor de reprezentare a tipului de model de referinţă, a parametrilor pentru formarea modelului, a metodei de clasificare pentru formele necunoscute.

Chiar cu aceste criterii de diferenţiere a sistemelor de recunoaştere a formelor, o clasificare riguroasă nu este posibilă din cauza diversităţii abordărilor practice.

Performanţele sistemului depind de cantitatea de date disponibile pentru faza de antrenare, în vederea formării modelului; în general loturi mari de antrenament îmbunătăţesc performanţele recunoaşterii.

1.Modelele formate sunt sensibile la mediul în care se vorbeşte şi la caracteristicile de transmisie ale acestui mediu, căci aceste elemente afectează caracterizarea spectrală a vorbirii, efectele lor regăsindu-se în diversificarea trăsăturilor esenţiale ale modelului.

2. Complcxitatea de calcul atât pentru antrenarea modelelor cât şi pentru recunoaşterea formelor necunoscute este practic proporţională cu numărul modelelor.

3 Sistemul nu înglobează explicit cunostinţe despre vorbire, fiind insensibil la clasele de sunete de recunoscut ca şi la alegerea vocabularului.

4. Sistemul fiind insensibil la clasele de sunete de recunoscut, aceleaşi tehnici sunt aplcaibile unei largi categorii de secvenţe vorbite, cu alte cuvinte un sistem care recunoaşte cuvinte poate fi adaptat să recunoască fraze dar şi unităţi fonetice mai mici decât cuvântul, ca silabele, semisilabele, fonemele. Astfel de sisteme îşi pot găsi deci cu uşurinţă locul în structurile ierarhice.

5. Este avantajoasă înglobarea unor constrângeri sintactice şi semantice pentru îmbunătăţirea performanţelor de recunoaştere.

Caracteristicile enumerate mai sus se pot oricând constitui în criterii după care să se aleagă un sistem de recunoaştere potrivit unei anumite aplicaţii.

Dacă sistemul lucrează după metoda globală, în urma deciziei se stabileşte care este rostirea cea mai probabilă din cele posibile şi eventual sunt întreprinse acţiuni în sensul secvenţei recunoscute.

Dacă sistemul lucrează după metoda analitică, decizia se ia în favoarea unei anumite "unităţi fonetice" şi trebuie văzut cum pot fi obţinute prin concatenarea acestor unitaţi cuvinte şi cum se pot forma din cuvinte fraze cu sens pentru aplicaţia respectivă.. Dacă pentru vocabulare limitate aceste probleme se pot soluţiona cu constrangeri interne, pentru vocabulare mari se apelază la o serie de surse de cunostinţe care să conţină regulile de urmat pentru ca sistemul să depăşească simplul stadiu al recunoaşterii "unităţilor fonetice". Vor trebui înglobate cunostinţe de lexic, eventual într-un model al limbii pentru a forma cuvinte valide, reguli de sintaxa cuprinse intr-o gramatica pentru a forma construcţii gramatical corecte, cunostinţe de semantică pentru a găsi succesiuni de cuvinte care să aibă un sens , pentru a alege din formulările corecte gramatical şi cu sens

50

Page 49: Procesarea Semnalelor Vorbirii

pe cele potrivite aplicaţiei respective. Rezultă în felul acesta un sistem capabil să "înţeleagă" vorbirea bazat pe cunostinţe, numit şi sistem expert.

4.2 Modele computationale pentru recunoasterea vorbirii

Exista un numar mare de modele pentru sisteme de recunoastere a vorbirii, fiecare cu diferite perspective de abordare. Cele mai multe modele pot fi, în general, clasificate în doua categorii:bazate pe segment – extragerea trasaturilor se face pe segmente de rostire mai mari de 20msec;bazate pe cadru – extragerea trasaturilor se face pe segmente de rostire mai mici de 20msec.În continuare vom face referiri la cele mai importante dintre aceste sisteme.

Sisteme de recunoastere a vorbirii bazate pe segment.Sistemul SUMMIT

Sistemul SUMMIT a fost dezvoltat de Victor Zue de la MIT în 1980 iar în variante ulterioare îmbunatatite, de catre Jim Glass. Caracteristic acestui sistem este faptul ca mai întâi împarte semnalul în segmente si apoi clasifica din punt de vedere fonetic fiecare segment. Proceduragenerala de recunoastere în sistemul SUMMIT este urmatoarea:1. Granitele acustice sunt determinate pe baza unei multimi de modificari spectrale. Într-o implementare mai particulara a sistemului SUMMIT granitele sunt plasate automat la fiecare 10msec, transformându-l efectiv dintr-un sistem bazat pe segment întrunul bazat pe cadru, dar aceasta implementare nu este folosita în mod curent deoarece necesita un timp mare de calcul.2. O retea de segmente (dendrograma) este creata prin una din urmatoarele metode:Unind segmentele mici în segmente mai mari în acord cu similaritatile lor spectrale.Aceasta este o metoda traditionala folosita în SUMMIT , care necesita putine resurse computationale.Segmentarea prin recunoastere, folosind o procedura de recunoastere prin care sunt clasificate fiecare segment sau zona, marcate fie ca foneme, fie ca portiuni tranzitorii (co-articultii). Dupa aceasta clasificare, este facuta o cautare Viterbi “forword-pass”, care este urmata de o cautare înapoi de tip A*. Cautarea A* produce un numar de alternative de segmentare fonetica care reprezinta rezultatul într-o dendograma. Aceasta metoda are un cost computational mai mare dar are performante de recunoastere mai bune.3. Pe baza dendogramelor create în pasul 2, se efectueaza clasificarea fonetica a tuturor segmentelor, folosind urmatoarele doua metode:Prima metoda efectueaza recunoasterea independent de context a fiecarui segment din dendodrama. În aceasta metoda sunt între N+1 si 2*N categorii, dintre care un numar de N categorii corespund celor N foneme posibile, iar restul de N categorii sunt folosite pentru a modela segmentele neincluse în segmentarea cu ipoteze numite “ne-modelabile” sau “aproape de a fi modelate” .

51

Page 50: Procesarea Semnalelor Vorbirii

A doua metoda efectueaza recunoasterea dependenta de context a fiecarei granite de segment din dendograma . Categoriile dependente de context pot fi granite fonetice sau granite interne unui fonem, si ar putea fi în numar de (N + N2). În practica, numai 750 de categorii sunt folosite. Aceste clasificatoare sunt antrenate cu aceleasi trasaturi spectrale care sunt comune si sistemelor bazate pe HMM-uri, iar clasificarea este facuta folosind o combinatie de gaussiene.4. Cautarea continua cu un “bigram” Viterbi forward si, pentru cele mai bune N ipoteze, o cautare de tip n-gram A* cu trecere înapoi. Daca ambele recunoasteri (cea independenta de context si cea a zonelor de granita) sunt efectuate în pasul 3, atunci probabilitatea finala a secventei de cuvinte este calculata prin înmultirea probabilitatilor fiecarui segment si azonelor de granita dintre acestea. Performantele celor mai recente sisteme SUMMIT sunt de 72% pe clasificarea fonemelor din baza TIMIT. Rezultatele la nivel de fonem sunt printre cele mai bune raportate. Un sistem bazat pe HMM raporteza 69.1% procent de recunoastere iar unul bazat pe retele neurale 73.4% .

52

Page 51: Procesarea Semnalelor Vorbirii

Capitolul V

Aplicatia “Wave to text”. Metoda de lucru folosind coeficientii LPC

5.1 Reprezentarea digitală a sunetului. Formatul de compresie audio Wav.

 Comprimarea unui wav folosind un algoritm lossless clasic este o operaţie

destul de ineficientă. Prin wav ne referim la un fişier cu extensia .wav, ce conţine muzică, o copie fidelă a unui CD audio.      Un fişier wav conţine un număr imens de eşantioane (sample-uri), fiecare fiind codificat pe 2 bytes (16 biţi). Între aceste sample-uri se poate trasa o funcţie sinusoidală, care reprezintă unda sonoră, cu o aproximare destul de bună faţă de sunetul analogic (real); pe axa verticală este reprezentată amplitudinea sonoră iar pe axa orizontală timpul. Datorită naturii sale digitale, sunetul nu poate fi reprezentat pe calculator în forma sa perfect naturală, dar cu cât sunt mai dese aceste sample-uri în unitatea de timp, cu atât se poate trasa între ele o funcţie mai apropiată de sunetul real. Metoda este numită PCM (Pulse Code Modulation). Un sunet cu mai puţine eşantioane este lipsit de frecvenţe înalte, aceste frecvenţe rezultând tocmai prin alăturarea unui număr mare de sample-uri. O rată de eşantionare (sampling rate) bună şi utilizată în cazul CD-urilor audio este cea de 44.1 KHz (44100 de eşantioane pe secundă); pentru Hi-Fi e necesară o rată de până la 96 KHz, iar pentru voce este suficient un număr de cel puţin patru ori mai mic decât standardul, şi anume 11025 sau chiar 8000.     Explicaţia pentru cele 44100 de eşantioane pe secundă stă în faptul că omul poate percepe, în cel mai bun caz, frecvenţe de până la 22 KHz. Pentru funcţia sinusoidală necesară formării sunetului trebuie să avem un număr suficient de puncte descriptive, care reprezintă nişte maxime şi minime locale. Strictul necesar (dar nu şi suficient) pentru ca funcţia să poată fi reconstituită este un număr de sample-uri egal cu dublul frecvenţei dorite (câte un sample pentru minim şi câte unul pentru maxim). Să luăm exemplul unui ton perfect, care este redat grafic printr-o funcţie sinus perfectă, ca in figura de mai jos :

Fig. 22. Functia sinus Imaginea reprezintă un ton cu frecvenţa de 22050 Hz la o rată de eşantionare de

44100 Hz. Scăderea cu 1 Hz a eşantionării duce la imposibilitatea păstrării sunetului la

53

Page 52: Procesarea Semnalelor Vorbirii

frecvenţa dorită, fiind redate doar cele inferioare (inexistente în acest exemplu). Regula descrisă anterior poartă numele de Legea lui Nyquist.

44 kHz                                                       6 kHzFig. 23. Esantionarea unei secventa audio la 44kHz, respectiv la 6kHz     Am exemplificat în imaginile de mai sus o secvenţă audio complexă,

reprezentată în 44 KHz şi respectiv 6 KHz. Numărul de eşantioane fiind mult mai mic în cel de-al doilea caz, sunetul este puternic denaturat, fiind păstrate doar frecvenţele joase. Prin upsampling (creşterea forţată a ratei de eşantionare) se poate obţine, prin interpolare, un sunet mai bun, dar totuşi departe de original deoarece o mare parte din informaţia audio este pierdută iremediabil. Aceasta întrucât curba rezultată este foarte aproximativă, cu mai puţine „urcuşuri” şi „coborâşuri”, mai aproape de reprezentarea unei funcţii trigonometrice simple.

44 kHz -> 6 kHz -> 44 kHz  Fig. 24. Esantionarea pe 44kHz  

Putem face o analogie între rezoluţia unei imagini şi rata de eşantionare a unui sunet: la o rezoluţie mare, există un număr mai mare de pixeli care descriu imaginea, deci nivelul de detaliere este mai ridicat.          Altă caracteristică a unui fişier wav este rezoluţia sa. Ca şi în cazul adâncimii de culoare a imaginilor, unde mai multe culori înseamnă o imagine mai aproape de realitate, mai mulţi biţi alocaţi unui sample înseamnă un sunet mai „precis”. În cazul uzual, sunt folosiţi 16 biţi (2 bytes); pentru domeniul Hi-Fi este folosită rata de 24 sau chiar şi 32 de biţi (3, respecitiv 4 bytes). În trecut era utilizată rezoluţia de 8 biţi, deci fiecărui eşantion îi era alocat un singur byte.     Dacă în cazul trecerii de la 16 la 24 sau 32 de biţi diferenţele nu se observă aşa de uşor, odată cu scăderea la 8 biţi va apărea un zgomot de fond supărător. Cu alte cuvinte, un sample poate lua 65536 de valori (2 la puterea 16) în cazul rezoluţiei de 16 biţi şi doar 256 de valori în cazul al doilea. O metodă de a îmbunătăţi calitatea slabă datorată acestei scăderi de rezoluţie este dithering-ul, adică generarea unui alt zgomot de fond, care să „niveleze” sunetul; chiar dacă zgomotul final va fi mai puternic, el va fi constant, oferind senzaţia că există două surse sonore: sunetul propriu zis şi generatorul de zgomot.

54

Page 53: Procesarea Semnalelor Vorbirii

În primul caz, fără dithering, apare des senzaţia unui sunet neclar, fenomen de multe ori mai supărător decât dithering-ul.     Nivelul de dithering poate fi ales după necesităţi, un nivel prea mare crescând zgomotul de fond, ceea ce evident că nu este de dorit. Putem afirma că, din anumite puncte de vedere, scăderea ratei de eşantionare sau a rezoluţiei reprezintă o compresie a sunetului cu pierdere de calitate pentru că sunt eliminate o serie de aspecte ale sunetului astfel încât rezultatul final nu diferă în mod fundamental de original. Cine doreşte să păstreze doar informaţia redată de vocea umană, poate seta fără grijă 8 KHz cu 8 biţi şi mesajul transmis va fi înţeles fără probleme.     Spaţiul ocupat de un fisier wav necomprimat într-o secundă este calculat astfel (în paranteză am trecut valorile standard în cazul unui CD audio): sampling rate (44100) * numărul de biţi (16) * număr de canale (2 = stereo). Avem, astfel, 1.411.200 biţi (sau 176.400 bytes) pentru muzica de pe un CD audio, ceea ce înseamnă 1378,125 kilobiţi/s. Am ajuns aici pentru a defini unitatea de măsură acceptată în compresia audio: numărul de kilobiţi pe secundă (kbps), numit şi bitrate.

5.2 Aplicatia “Wave to text”

Programul permite realizarea conversiei de voce in text, aceasta facandu-se in timp real. Pentru aceasta avem nevoie de instrumente performante pentru a-l putea utiliza.Wave-to-text este o aplicatie complexa de sinteza vocala. Se pot inregistra fisiere wav, care apoi sa fie transformate in fisiere txt prin recunoastere vocala.

Aplicatia contine si o sectiune de dictare care permite convertirea vocii in text in timp real, aceasta dictare este probabil cea mai rapida cale de afisare in format text a cuvintelor rostite,care depinde mult de zgomotul ambiental si de viteza de rostire.

55

Page 54: Procesarea Semnalelor Vorbirii

Pe langa utilitatea uneltelor deja implementate în cadrul aplicatiei aceasta îsi demonstreaza viabilitatea si prin usurinta unei dezvoltari ulterioare, datorita faptului ca modularitatea ridicata a aplicatiei permite utilizatorului adaugarea cu usurinta a propriilor unelte în oricare din modulele de prelucrare.

Ne vom opri însa asupra algoritmilor proprii în ce priveste localizarea vorbirii folosind spectru de frecvente, asupra performantei algoritmilor de recunoastere a cuvintelor folosind coeficienti LPC si cepstrali, si respectiv a algoritmilor de recunoastere a vorbitorului.

În ce priveste algoritmul de localizare a vorbirii singura limitare este data de posibilitatea utilizatorului de a determina pe baza unor semnale vocale anterioare apartinând aceluiasi vorbitor a limitelor intervalului în care este localizata vorbirea respectivului în domeniul frecventa. În ce priveste algoritmul de recunoastere a vorbitorului bazat pe frecventa fundamentala si N-1 formanti performantele au fost foarte bune megandu-se pâna la 95 % în conditii de relativa lipsa a perturbatiilor si o rostire normala în toate cazurile a cuvintelor.

5.2.1 Formatul intern al semnalului audio

Formatul intern al semnalului audio are o componenta comuna pentru formatul Microsoft Wave PCM , componenta în care se specifica elemente ca numarul de esantioane pe secunda, numarul de bytes pe secunda etc. Dupa aceste caracteristici urmeaza esantioanele propri-zise care în functie de caracteristicile semnalului vocal sunt memorate pe 8 sau 16 biti. Aplicatia “Wave to text “ lucreaza cu semnale vocale memorate pe 16biti, ceea ce este de altfel suficient pentru scopurile propuse ale aplicatiei.

Stocarea interna în cadrul aplicatiei a unui semnal vocal respecta în mare parte structura interna a fisierelor în format Microsoft Wave PCM.

56

Page 55: Procesarea Semnalelor Vorbirii

Toate informatiile legate de un semnal vocal, fie înregistrat cu prezenta aplicatie, fie deschis dintr-un fisier de pe disc sunt incarcate in aplicatie si apoi convertite in text cu ajutorul Microsoft Speech Recognition Engine.

Atributele asupra carora ma voi opri , sunt matricile de coeficienti cepstrali si LPC. Matricile sunt implementate în cadrul clasei CMatrix. Cele doua atribute ce stocheaza coeficientii respectivi sunt mtxLPCCoefs si mtxCepsCoefs , atribute ce apar atât în clasa CFrameArray cât si în CFrame . Calcularea coeficientilor are loc în metodele Cepstral si LPC din CFrame, în metodele omonime din CFrameArray având loc doar o combinare a rezultatelor.

O metoda asemanatoare ca structura si functionalitate este metoda de determinare a spectrului de frecventa prin aplicarea Transformatei Fourier Rapide, DoFFT.

Aplicarea transformatei FFT asupra unui semnal da un rezultat continuu, dar se poate aplica aceasta functie si discret în n puncte fara o pierdere de informatie. În acest caz transformata ar avea urmatoarea forma:

57

Page 56: Procesarea Semnalelor Vorbirii

iar transformata inversa:

În aplicatiea “Wave to text”, calculul transformatei Fourier se face utilizând algoritmul butterfly de calcul al FFT. Caracteristica principala a acestui algoritm este ca lucreaza cu operatii pe biti ceea ce ii asigura o viteza ridicata dar si îi determina câteva limitari. Printre acestea cele mai importante ar fi faptul ca numarul de frecvente determinate trebuie sa fie de forma “2 la puterea x”, iar domeniul în care sunt calculate frecventele nu este cel real. Oricum aceste doua limitari nu reprezinta niste inconveniente în cadrul aplicatiei noastre, primul deoarece oricum numai primele frecvente prezinta interes iar al doilea pentru ca acest spectru este calculat în vedea comparatiei cu spectre de acelasi fel, în acest caz contând diferenta între doua spectre si nu valorile absolute ale frecventelor.

Determinarea spectrului se face în fiecare cadru de semnal în metoda DoFFT din CFrame , pentru ca mai apoi aceste spectre sa fie combinate în cadrul metodei DoFFT din CFrameArray . Combinarea spectrelor consta de fapt în adunarea valorilor de pe indici corespunzatori din vectorii ce contin spectrul frecventelor în fiecare frame.

Spectrul de frecvente este memorat tot în cadrul unei matrici numita mtxFFTFreqs .

5.2.2 Implementarea metodei de lucru cu coeficientii LPC

Pentru asigurarea unei omogenitati în lucrul cu diferitele tipuri de coeficienti s-a ales implementarea unei singure clase care sa fie fie folosita indiferent de tipul de coeficienti. Acceasi structura este folosita si pentru lucrul cu spectrele de frecvente.

Daca e sa vorbim despre coeficientii LPC sau cepstrali se stie ca pentru fiecare cadru dintr-un semnal se determina câte un set de coeficienti. Asfel pentru o mai usoara abordare a problemei s-a ales o reprezentare asemanatoare celei de la CFrameArray si CFrame. În mod similar aici vom avea o clasa cu setul de coeficienti pentru un frame, numita CCoefs, si o clasa care va reuni toate aceste seturi de coeficienti, numita CCoefsArray.

58

Page 57: Procesarea Semnalelor Vorbirii

Fig. 25. Structura claselor de coeficienti cepstrali

Chiar daca nu este o asemanare între aceste multimi de seturi de coeficienti si un spectru de frecvente reprezentat de un vector uni-dimensional, pentru consistenta s-a ales solutia stocarii acestui vector folosind aceleasi clase sub urmatoarea forma: fiecare element de frecventa este stocat într-un obiect CCoefs în atributul dFreq .

Coeficientii cepstrali si LPC sunt memorati în cadrul matricei mtxCoefs . Totusi în cazul coeficientilor LPC, pe langa acestia în cadrul obiectului CCoefs se memoreaza si matricea R ,într-o structura CMatrix, numita mtxR.

Pentru a se putea face diferenta între atâtea tipuri de date stocate în cadrul acestor structuri, clasa CCoefsArray contine un atribut numit uElementsType care în functie de valoarea sa va stabili tipul de date stocate: coeficienti LPC, coeficienti cepstrali, spectru de frecvente.

Legatura între CCoefs si CCoefsArray este realizata prin intermediul atributului ccElements care reprezinta un pointer din CCoefsArray spre CCoefs.

Incarcarea continutului obiectelor CCoefs se face din fisiere într-un format specific ce în prealabil au fost salvate pe disc dupa prelucrari cu unelte standard din aplicatia “Wave to text”. Dat fiind acest fapt clasa CCoefsArray dispune de o interfata de lucru cu fisierele “Wave to text” bine pusa la punct.

Prin intermediul metodelor acestei interfete se vor citi diferitele tipuri de coeficienti. Metodele sunt: ReadCoefs (metoda “parinte” din care se cheama celalalte în functie de tipul fisierului deschis), ReadCEPCoefs, ReadLPCCoefs, ReadFreqs .

În cazul în care clasa CCoefs este folosita pentru coeficienti LPC, pe lânga coeficientii propriu-zisi, mai sunt stocate si câstigul filtrului, în atributul d_Gap si eroarea medie patratica în dEMP .

59

Page 58: Procesarea Semnalelor Vorbirii

În fiecare obiect CCoefs va exista un index ce memoreaza pozitia în CCoefsArray.

Motivatia pentru care s-a ales memorarea coeficientilor în cadrul acestor structuri este în calculul distantei între doua seturi de coeficienti sau respectiv doua spectre de frecvente. Aceste operatii pentru calculul diferentei sunt implementate la nivelul claselor prin metode specifice fiecarui tip de coeficienti. La fel ca în cazul claselor CFrame si CFrameArray si aici avem o corespondenta între metodele-operatii din CCoefs si CCoefsArray. Diferenta semnificativa fiind ca în acest din urma caz operatiile sunt implementate în metode <<friend>>.

60

Page 59: Procesarea Semnalelor Vorbirii

Capitolul VI

Concluzii

Recunoaşterea automată a vorbirii în condiţii ambientale care degradează semnalul vocal este o problemă deosebit de dificilă chiar şi pentru sistemele care beneficiază de celemai performante tehnologii din domeniu. Un sistem de recunoaştere antrenat cu vorbire„curată” (înregistrarea formelor de undă a fost realizată în condiţii de laborator – cameră anecoică, zgomot ambiental redus şi aparatură de înaltă fidelitate) poate avea performanţe excelente la testele efectuate în aceleaşi condiţii, dar mult mai slabe în condiţii ambientale diferite (camere cu ecou, zgomote provenite de la ventilatoarele calculatoarelor, aer condiţionat, etc.).

În consecinţă, aplicaţiile de recunoaştere a vorbirii trebuie să ţină cont de distorsiunile suferite de semnalul vocal în practică şi să menţină performanţele sistemului la nivelul cerut de beneficiar .

Sistemele de recunoaştere a vorbirii a căror rată de recunoaştere nu este sensibilă la schimbările ambientale se numesc sisteme robuste. Performanţele lor (rata de recunoaştere, costul de calcul, etc.) rămân între anumite limite în condiţii ambientale variate. Prin influenţa mediului ambiental acustic se înţelege totalitatea transformărilor care afectează semnalul vocal din momentul în care părăseşte tractul vocal până când acesta ajunge în format numeric. În practică, timpul de recunoaştere şi memoria necesare sunt indicatori de performanţă la fel de importanţi ca şi rata de recunoaştere.

61

Page 60: Procesarea Semnalelor Vorbirii

BIBLIOGRAFIE

* Mariana Jurian - Note de curs

* Bahl, L.R., F. Jelinek, and R. Mercer - A Maximum Likelihood Approach to Continuous Speech Recognition, IEEE Trans. on Pattern Analysis and Machine Intelligence

* Dumitru, O., Munteanu, D., Mihai, C. - Embedded Baum-Welch Procedure Used forTraining HMMs with Unlabeled Training Data, IEEE

* Hermansky, H. and N. Morgan - RASTA Processing of Speech, IEEE Trans. on Speech and Audio Processing

* Hon, H.-W., Wang, K. - Unified Frame and Segment Based Models for Automatic Speech Recognition, IEEE Int. Conf. on Acoustic, Signal and Speech Processing * Munteanu, D. - Speech User Interface for Romanian Language, ECAI 2005 –Electronics, Computers and Artificial Intelligence

* SAMPA – The machine-readable phonetic alphabet by SAMPA (Speech AssessmentMethods Phonetic Alphabet) lahttp://www.phon.ucl.ac.uk/home/sampa/romanian.htm

* Young SJ - The HTK Hidden Markov Model Toolkit: Design and Philosophy

* Guyon I, Vapnik V, Boser B - Structural risk minimization forcharacter recognition Advances in Neural Information Processing Systems

* Speech Recognition Using Neural Networks.htm

* Ostendorf, M., Digalakis, V.V., Kimball, O.A. - From HMM's to Segment Models: aUnified View of Stochastic Modeling for Speech Recognition, IEEE Trans. on Speech and Audio Processing

* Gavăt, I. - Elemente de Sinteza şi Recunoaşterea Vorbirii, Ed. Printech, Bucureşti,2000.

62