Primena Neuronskih Mreza u Prepoznavanju Zvuka

  • Upload
    ljuba

  • View
    153

  • Download
    3

Embed Size (px)

Citation preview

Univerzitet u Beogradu Fakultet Organizacionih Nauka

Domai zadatak iz Inteligentnih sistema

Primena neuronskih mrea za prepoznavanje zvuka

Studenti: Jovan Zivlak 171/06 Neboja Vitomirov 263/04

Beograd, Maj, 2010.

UVOD Oblast koju danas poznajemo kao neuronske mree nastala je kao rezultat spoja nekoliko veoma razliitih pravaca istraivanja: obrade signala, neurobiologije i fizike. Neuronske mree predstavljaju tipian primer interdisciplinarne oblasti. S jedne strane, to je pokuaj da se razume rad ljudskog mozga, a sa druge da se to steeno znanje primeni u obradi sloenih informacija. Opti je utisak da su neuronske mree za sada najzrelija i najprimenljivija tehnologija. Neuronske mree spadaju u kategoriju paralelnog asinhronog distribuiranog procesiranja. Mrea je tolerantna na oteenje ili ispadanje iz rada relativno malog broja neurona. Takoe, mrea je tolerantna i na prisustvo uma u ulaznom signalu. Svaki memorijski element je delokalizovan smeten je u celoj mrei i ne moemo identifikovati deo u kome se on uva. Klasino adresiranje ne postoji, jer se memoriji pristupa preko sadraja, a ne preko adrese. Neuronska mrea je jedan oblik implementacije sistema vetake inteligencije, koji predstavlja sistem koji se sastoji od odreenog broja meusobno povezanih procesora ili vorova, ili procesnih elemenata koje nazivamo vetakim neuronima. Telo neurona naziva se vor ili jedinica. Svaki od neurona ima lokalnu memoriju u kojoj pamti podatke koje obrauje. Podaci koji se obrauju su lokalni podaci kao i oni koji se primaju preko veze. Podaci koji se ovim kanalima razmenjuju su obino numeriki. Arhitektura neuronske mree predstavlja specifino povezivanje neurona u jednu celinu. Struktura neuronske mree se razlikuje po broju slojeva. Prvi sloj se naziva ulazni, a poslednji izlazni, dok se slojevi izmeu nazivaju skriveni slojevi. Najee ih ima tri. Prvi sloj, tj. ulazni je jedini sloj koji prima podatke iz spoljanje sredine, sledei (skriveni) prosleuje relevantne podatke do treeg (izlaznog) sloja. Na izlazu treeg sloja dobijamo konaan rezultat. Sloenije neuronske mree imaju vie skrivenih slojeva. Slojevi su meusobno potpuno povezani. Slojevi komuniciraju tako to se izlaz svakog neurona iz prethodnog sloja povezuje sa ulazima svih neurona narednog sloja. Znai, svaki vor ima nekoliko ulaza i jedan izlaz. Jaina veza kojom su neuroni povezani naziva se teinski factor.

Prepoznavanje govora pomou neuronskih mrea (tip-2 fuzzy logika i genetski algoritmi)Prepoznavanje govornika, koje se moe klasifikovati kao identifikacija i verifikacija, je proces automatskog prepoznavanja onog ko govori na osnovu individualne informacije ukljuene u govorni talas. Ova tehnika omoguava da se uz pomo glasa govornika proveri njegov identitet kao i da se pristupi raznim servisima kao to su: govorno pozivanje, bankarske usluge putem telefona, kupovina putem telefona, usluge pristupa bazi podataka, informacione usluge, govorna pota, kontrola bezbednosti za poverljive informacione oblasti, kao i za pristup udaljenim raunarima i verifikacionim sistemima. Identifikacija govornika je proces odreivanja koji registrovani govornik prua dati ulaz. Verifikacija govornika, sa druge strane, je proces prihvatanja ili odbijanja identifikovane tvrdnje govornika. Veina aplikacija u kojima se glas koristi kao klju za potvrdu identiteta govornika su klasifikovane kao govorniko verifikacione. Metode prepoznavanja govornika se takoe mogu podeliti na tekstualno zavisne i tekstualno nezavisne metode. Tekstualno zavisne metode zahtevaju od govornika da upotrebi neke kljune rei ili reenice u toku registracije a i kasnije u toku identifikacije da bi bio identifikovan, dok se tekstualno nezavisne ne oslanjaju na tekst koji se upotrebljava.

Slika br.1 Identifikacija govornika.

Slika br.2 Verifikacija govornika. Slike br. 1 i 2 predstavljaju osnovnu strukturu sistema prepoznavanja govornika. Meutim obe metode, tekstualno zavisna i tekstualno nezavisna metoda, imaju odreene probleme. Ovi sistemi lako mogu biti obmanuti tako to im se moe pristupiti uz pomo nasnimljenog glasa registrovanog govornika koji izgovara kljune rei ili reenice. Da bi se izborili sa ovim problemom, konstruisane su metode u kojima se mali skup rei, kao to su cifre, koriste kao kljune rei i svaki korisnik je primoran da izgovori odreeni broj kljunih rei koje se prilikom svake nove identifikacije nasumice biraju. Ipak ovaj metod jo nije potpuno pouzdan, poto moe biti prevaren uz pomo napredne elektronske opreme za snimanje koja moe da reprodukuje kljune rei u eljenom redu.

Opte metode za prepoznavanje glasa govornikaNajea kratkorona spektralna merenja koja se trenutno koriste su linearna predvidljiva kodiranja (LPC- linear predictive coding) izvedeni cepstral koeficijenti i njihovi regresioni koeficijenti. Spektralni omota rekonstruisan iz skraene grupe cepstral koeficijenata je mnogo bolji nego onaj rekonstruisan iz LPC koeficijenata. Zbog toga prua stabilniju reprezentaciju iz jednog u drugo ponavljanje odreene reenice govornika. to se tie koeficijenata regresije, tipino prvi i drugi koeficijent se izdvajaju u svakom periodu vremena da bi predstavili dinamiku spektra. Ovi koeficijenti su derivati vremenske funkcije cepstral koeficijenata i respektativno se nazivaju delta i delta cepstral koeficijenti. Tehnike normalizacije Najznaajniji faktor koji utiena na automatsko prepoznavanje govornika je varijacija u signalu od sluaja do sluaja. Varijacije nastaju od samih zvunika, iz razlika u uslovima snimanja i prenosa, i od buke u pozadini. Govornik ne moe ponoviti istu reenicu precizno na isti nain tokom dva razliita snimanja. Dobro je poznato da uzorci iste reenice snimljene tokom jedne sesije vie odgovaraju jedni drugima, nego uzorci napravljeni tokom dve razliite sesije. Takoe postoje i dugorone promene u glasu govornika. Vano je da se sistem prepoznavanja govornika prilagodi ovim varijacijama. Postoje dva tipa normalizacije: jedan se odnosi na parametre domena, a drugi na daljinu/slinost domena. Normalizacija parametara domena Spektralno izjednaavanje, takozvani metod slepog izjednaavanja, je tipina tehnika normalizacije parametara domena koja je potvrena kao efikasna pri smanjenju linearnih kanalnih efekata i dugoronih spektralnih varijacija. Ova metoda je specijalno efektivna za tekstualno zavisne aplikacije prepoznavanja glasa koje koriste prilino duge reenice. Cepstral

koeficijenti su proseni tokom trajanja cele reenice i prosene vrednosti se oduzimaju od cepstral koeficijenata svakog frejma. Dodatne varijacije u dnevniku spektralnog domena se mogu nadoknaditi vrlo dobro upotrebom ove metode. Meutim, to neminovno uklanja neke tekstualno zavisne i specifine karakteristike govornika, zato je primena ove metode neprikladna za kratke reenice u aplikacijama za prepoznavanje govornika. Normalizacija udaljenosti/slinosti domena Metoda normalizacije za udaljene vrednosti koristi odnos verovatnoa. Odnos verovatnoa se definie kao odnos dve uslovne verovatnoe posmatranih merenja ulazne reenice: prva verovatnoa predstavlja verovatnou akustinih podataka datih od strane govornika koja su potrebna za identifikovanje govornika, a druga je verovatnoa predstavlja mogunost da je govornik uljez. Metoda normalizacije zasnovana na posteriori verovatnoi se razlikuje od metode koja se zasniva na odnosu verovatnoa. Razlika je u tome da li je govornik neophodan pri vrenju normalizacije. Kod metode koja se zasniva na odnosu verovatnoa nije neophodan govornik, dok se kod metode zasnovane na posteriori verovatnoi izraunavanja vre koristei sve referentne govornke, ukljuujui i govornika koji se ispituje. Eksperimentalni rezultati pokazuju da su ove dve metode skoro podjednako efektivne. Obe metode unapreuju odvojenost govornika i smanjuju potrebu za govornicima i tekstualno zavisnim metodama. Novi metod u kome je termin normalizacije gotovo jednak verovatnoi jedno meovitog modela predstavlja parametar distribucije za sve referentne govornike. Prednost ovog modela je da su kompjuterski trokovi raunanja normalizacije veoma mali i ova metoda je potvrdila da daje mnogo bolje rezultate nego sve prethodno pomenute metode. Tekstualno zavisne metode prepoznavanja govornika Tekstualno zavisne metode se uobiajno zasnivaju na tehnikama slaganja ablona. U ovom pristupu ulazni iskaz se predstavlja kao niz vektorskih funkcija, generalno kao kratkorone spektralne vektorske funkcije. Vremenska osa ulazne reenice i svakog referentnog ablona ili referentnog modela registrovanog govornika je usklaena korienjem dynamic time warping (DTW) algoritmom i stepen slinosti izmeu njih, akumuliran od poetka pa do kraja izgovaranja reenice, se izraunava. Skriveni Markov model (Hidden Markov model - HMM) moe efikasno da modeluje statistike varijacije u spektralnim funkcijama. Zbog toga su metode koje se zasnivaju na HMM-u predstavljena kao dodaci metoda koje se zasnivaju na DTW-u i postigli su znaajno bolju tanost u prepoznavanju. Metode za prepoznavanje govornika potpuno nezavisne od teksta Jedan od najuspenijh metoda za prepoznavanje nezavisne od teksta su zasnovane na vektorskoj kvantizaciji (bector quantization ili VQ). U ovoj metodi, knjige sa VQ kodom koje se sastoje od malog broja reprezentativnih predstavnika vektora su korieni kao efikasni znaci koji karakterizuju specifine govornikove osobine. Govorniki specifinu kjnigu kodova se generie klasterovanjem osobne vektore treninga svakog govornika. U fazi prepoznavanja, ulazna fraza je vektorski kvantifikovana korienjem knjige kodova svake reference zvuka i VQ distorzija akumulirana preko celog ulaznog iskaza se koristi da se doe do odluke u prepoznavanju.

Privremena varijacija u govornim signalnim parametrima na dui period moebiti reprezentovana stohastinim Makovianovim tranzicijama izmeu reenica. Zbog toga, metode koje koriste ergodini HMM, gde su sve mogue tranzicije izmeu reenica koje su dozvoljene, su i predloene. Segmenti govora su klasifikovani u jedan od velikog broja fonetikih kategorija koje odgovaraju HMM reenicama. Posle klasifikacije, odabiraju se odgovarajue osobine. U fazi treninga se generiu referentni uzorci i izraunavaju se verifikacione norme za svaku fonetiku kategoriju. U fazi verifikacije posle fonetike kategorizacije, komparacije sa referentnim uzorcima za svaku partikularnu kategoriju obezbeuje veriikacioni broj bodova za tu kategoriju. Krajnji rezultat je linearna kombinacija rezultata svih kategorija. Metoda je nadograena bogatijom klasom sastavljenom od miksa autoregresivnih (AR) HMM-ova. U ovim modelima, reenice su opisane kao linearna kombinacija AR izvora. Moe se dokazati da su meavine modela ekvivalentne veim HMM sa jednostavnim reenicama, sa dodatnim preprekama na moguim prelazima izmeu reenica. Dokazano je da je kontinualna ergodina HMM metoda mnogo superiornija od diskretne ergodine HMM metode i da je kontinualna HMM metoda robustna kao i VQ zasnovana metoda kada je dostupno dovoljno treninga. Ipak, kad je dostupno malo podataka, metode zasnovane na VQ su mnogo vee od kontinualnih HMM metoda. Otkrivena je i metoda koja koristi statistike dinamike osobine. U ovoj metodi, multivariacioni autoregresioni (MAR)model je povezan sa vremenskom serijom cepstralnih vektora i koriena da karakterizuje govornike. Zabeleeno je da su identifikacione i verifikacione ocene skoro iste kao i one koje su posmatrane HMM zasnovanim metodama. Tekstom podpomognute metode za prepoznavanje glasa U tekstom podpomognutim metodama za prepoznavanje glasa, sistem prepoznavanja zadaje korisniku novu kljunu reenicu svaki put kad s esistem koristi i prihvata ulazne sintakse samo kada shvati da je to bio registrovani korisnik koji je ponovio predloene reenice. Reenica moe da bude prikazana preko slova ili izgovorena elektronskim glasom. Zbog toga to je renik neogranien, mogui uljezi ne mogu unapred znati koja reenica se trai. Ne samo to ova metoda moe precizno da prepozna govornika, ve moe da odbije zahteve iji se tekst razlikuje od ponuenog teksta, ak iako ga izgovara registrovani korisnik. Snimljeni glas tako moe biti nepogreivo odbijen. Ova metoda je potpomognuta korienjem govornikovih specifinih phonetskih modela, kao osnovne akustine jedinice. Jedno od glavnih problema u primeni ove metode je kako pravilno stvoriti ove govornikove specifine fonetkse modele od treniranja reenicama ograniene veliine. Fonetski modeli su reprezentovani Gausijanovim mepavinama kontinualnih HMM-a ili meavine vorova HMM-a,i oni se prave tako to se prilagoavaju govorniki nezavisni fonemski modeli glasu svakog govornika. U cilju da se pravilno prilagode modeli fonema koji nisu ukljueni u reenice iz treninga, predstavljena je nova metoda prilagoavanja zasnovana na meavini vorova HMM-a.

U fazi prepoznavanja, sistem spaja fonemske modele svakog registrovanog govornika da bi stvorio HMM reenice, prema zadatom tekstu. Onda se verovatnoa da se ulazni govor slae sa modelom kalkulie i korsiti za odlulu prepoznavanja govornika. Ako je slaganje dovoljno dobro, govornik se prihvata kao potvren sagovornik. Iako su postignuti mnogi skoranje napredci i dostignua u prepoznavanju govornika, jo uvek postoje mnogi problemi za koje dobre solucije ostaju jo da se otkriju. Veina ovih problema proistiu iz variabilnosti, ukljuujui govornikovu generatsku variabilnost i variabilnost u kanalu i uslovima u kojima se snima. Veoma je bitno istraiti odlike parametara koje su stabilne tokom vremena, nesenzitivne na varijacije naina izgovora, ukljuujui brzinu prianja i nivo, ai robustne ka varijacijama u kvalitetu glasa prioistekle iz smetnji kao to su prikrivanje glasa ili prehlada. Takoe je vano da se razvije metoda da se uklopi sa problemom izobliavanja zbog telefonskih aparata i kanala, i pozadinskih ili kanalnih umova. Iz ugla korisnikog interfejsa, vano je razmotriti kako korisnik treba podstai, i kako greke u prepoznavanju treba otkloniti. Studije o nainima kako automatski ekstraktovati govorne periode od svake osobe, pojedinano iz dijaloga u kojem su ukljuene vie od dve osobe, su se pojavile kao nastavak tehnologije za prepoznavanje govornika. Verifikacija govornika Specifine karakteristike govora razliitih govornika pojavljuju se zahvaljujui razliitim psiholokim i bihevijoristikim aspektima ljudskog govornog sistema. Glavni psiholoki aspekt ljudskog govornog sisitema predstavlja oblik ljudskog vokalnog trakta. Vokalni trakt modifikuje spektralni sadraj akustinog talasa koji prolazi kroz njega, i tako proizvodi govor. Dakle, uobiajno je da sistem verifikacije govornika iskoristi funkcije izvedene samo iz vokalnog trakta. Akustini talas se proizvodi kada vazduh iz plua proe kroz dunika, a potom i preko glasnih ica. Ovaj izvor stimulansa se moe okarakterisati kao zvuanje, aputanje, frikcija, kompresija, vibracija ili kombinacija svega navedenog. Stimulans govora nastaje kada se vazduh uoblii prelaskom preko glasnih ica. Koristei cepstral analize koje smo prethodno opisali, reenica koja se analizira moe biti predstavljena kao niz vektorskih funkcija. Reenica izgovorena od strane iste osobe ali u razliitim vremenima rezultuje slinim ali ipak razliitim sekvencama vektorskih funkcija. Svrha modelovanja glasa je da bi se izgradio model koji moe da razdvoji ove varijacije u vidu izdvojenog skupa funkcija. Postoje dva tipa modela koja su koriena intenzivno za verifikaciju govornika i u sistemima za prepoznavanje glasa. Stohastiki model tretira proces proizvodnje glasa kao parametarski sluajni proces i pretpostavlja da parametri osnovnog stohastikog procesa mogu biti procenjeni na precizan i dobro definisan nain. ablonski model pokuava da modeluje proces proizvodnje glasa na ne parametarski nain, zadravajui odreeni broj sekvenci vektorskih funkcija dobijenih iz vie ponavljanja iste rei od strane iste osobe. U ranijim istraivanjima ablonski model je dominirao na poljima verifikacije govornika i u prepoznavanju glasa zato to je intuitivno smatran razumnijim. Meutim, skorija istraivanja stoastikih modela su pokazala da su ovi modeli fleksibilniji i samim tim omoguuju bolje modelovanje procesa proizvodnje glasa. Veoma popularan stohastiki model za modelovanje procesa proizvodnje glasa je skriveni Markov model (HMM). HMM predstavlja nastavak konvencionalnih Markov modela, u kom se posmatraju verovatnoe funkcija, odnosno, u model je ugraen dupli stohastiki proces u kojem osnovni stohastiki

proces nije direktno vidljiv pa se zato naziva skriveni. HMM moe jedino da se posmatra kroz grupu drugih stohastikih procesa koji proizvode niz zapaanja. Patern uporeujui proces ukljuuje poreenje date grupe ulaznih vektorskih funkcija sa modelom govornika odreenog identiteta i kompjuterski nam prikazuje rezultat. Za skriveni Markov model prethodno pomenuti, rezultat poreenja predstavlja verovatnou da je data grupa vektorskih funkcija generisana od strane odreenog modela. Na sedeoj slici prikazan je ematski dijagram tipinog sistema za prepoznavanje govornika.

Slika br.3 Blok dijagram tipinog sistema za prepoznavanje govornik.

Snimanje i obrada glasaPrvi korak ka postizanju prepoznavanja glasa je snimanje zvunog signala glasa. Za to se koristi standardni mikrofon. Posle ovoga, koristimo standardni program za snimanje glasa da bi smo glas snimili i ubacili ga u bazu koja sadri glasove razliitih osoba. Potrebno je da ustanovimo fiksno vreme snimanja glasa da bi se uspostavila homogenost signala. Nakon nasnimavanja zvunih signala, vri se njihova digitalizacija na frekvenciji od 8 Khz, i kao posledica dobijamo signal sa 8008 bodovnih uzoraka. To je informacija koja se koristi za analizu zvuka. Takoe koristimo kompjuterski program Sound Forge za obradu zvunog signala. Ovaj program nam omoguava da otklonimo um u signalu, koji moe da nastane od osetljivosti mikrofona ili od neke druge buke iz pozadine. Posle upotrebe ovog kompjuterskog programa dobijamo ist zvuni signal. Program takoe moe da koristi brzu Furijevu transformaciju koja slui za filtriranje zvuka. Na sledeoj slici prikazana je upotreba programa za odreeni zvuni signal.

Slika br.4 Glavni prozor kompjuterskog programa za obradu signala. Na sledeoj slici prikazuje se upotreba brze Furijeve transformacije (FFT) za dobijanje spektralne analize rei put na panskom.

Slika br.5 Spektralna analiza specifine rei korienjem FFT-a.

Neuronske mree za prepoznavanje zvukaU naem primeru korieno je dvadeset razliitih zvunih signala kao podaci za treniranje neuronske mree sa jednim sakrivenim slojem. Trenani algoritam koji je korien je Resilient Backpropagation (trainrp), koji je pokazao dobre rezultate u ranijim korienjima. U tabeli se vide rezultati eksperimenta sa ovim tipom neuronske mree. U tabeli su prikazani rezultati za Resilient Backpropagation trenani algoritam. Ovaj algoritam je izaabran iz razloga to se sa njim za najkrae vreme postie treniranje neuronske mree (zahteva samo 7% ukupnog vremena eksperimenta). Poreenje vremenskih performansi algoritama se vidi na slici br.6.

Tabela br.1 Rezultat neuronske mree za 20 rei.

Slika br.6 Poreenje vremenskih performanski nekoliko trenanih algoritama. U tabeli 2 moemo da vidimo rezultate treninga neuronskih mrea koji su postignuti sa razliitim trenanim algoritmima. Prikazane su prosene vrednosti uspenosti eksperimenata svih trenanih algoritama. Iz tabele se moe videti da resilient backpropagation algoritam predstavlja najprecizniju metodu, sa 92% uspenosti pri prepoznavanju.

Tabela br.2 Poreenje stopa prepoznavanja etiri trenana algoritma. Na sledeim slikama opisuju se neki prosti primeri rezultata simulacija prepoznavanja govornika korienjem neuronskih mrea. Prvo na slici br.7 prikazan je zvuni signal rei primer na panskom sa smetnjama. Sledee, na slici br.8, je prikazana identifikacija rei primer bez smetnji.

Slika br.7 Ulazni signal rei primer na panskom sa smetnjama.

Slika br.8 Identifikacija rei primer.

Iz slika 7 i 8 je jasno da jednostavna monolitna neuronska mrea moe biti korisna za prepoznavanje zvuka kad je u pitanju mali broj rei. Oigledno je da ak i rei koje poseduju smetnje mogu biti identifikovane, sa minimalnom stopom od 92%. Naravno, za veu grupu rei stopa prepoznavanja opada, a vreme obrade se poveava. Iz ovih razloga neophodno je uzeti u obzir bolje metode za prepoznavanje glasa.

Prepoznavanje zvuka uz pomo Modularnih neuronskih mrea i Type-2 Fuzzy logikeUpotrebom modularnih neuronskih mrea moemo da unapredimo ranije dobijene rezultate zato to nam modularnost omoguava da podelimo problem prepoznavanja na jednostavnije pod probleme, koji se mogu lake reavati. Takoe koristimo type-2 fuzzy logiku da modelujemo neodreenost rezultata dobijenih iz neuronskih mrea iz istih trenanih podataka. Na sledeem primeru pokazujemo upotrebu hibridnog pristupa. Koristimo dva modula sa po jednom neuronskom mreom u svakoj modularnoj arhitekturi. Oba modula su trenirana sa istim podacima, ali rezultati su donekle razliiti zahvaljujui neodreenosti ukljuenoj u procesu uenja. U oba sluaja koristimo neuronske mree sa jednim skrivenim slojem sa po 50 vorova i koristimo trainrp kao logaritam za treniranje. Razlika u rezultatima se onda koristi za kreiranje type-2 fuzzy skupa koji predstavlja neodreenost u klasifikaciji rei. Prvi primer je re primer na panskom jeziku. Zvuni signal rei primer se nalazi na slici br. 8. Uzimajui u obzir sada samo deset rei za trenani proces, rezultati prve neuronske mree e biti: SSE = 4.17649e-005 (Sum of squared errors) Output = [0.0023, 0.0001, 0.0000, 0.0020, 0.0113, 0.0053, 0.0065, 0.9901, 0.0007, 0.0001] Output se moe tumaiti kao vrednost lansta svakog zvunog signala za svaku od deset razliitih rei u bazi podataka. U ovom sluaju, moemo da procenimo da je vrednost od 0.9901, vrednost lanstva rei primer, veoma blizu vrednosti 1. Ali, ako sada stavimo u trenani proces drugu neuronsku mreu sa istom arhitekturom, zbog razliitih nasuminih inicijalizacija vrednosti, rezultati e biti drugaiji. Rezultat druge nuronske mree: SSE = 0.0124899 Output = [0.0002, 0.0041, 0.0037, 0.0013, 0.0091, 0.0009, 0.0004, 0.9821, 0.0007, 0.0007] Primeujemo da je vrednost lanstva rei primer sada 0.9821. Sa dve razliite vrednosti lanstva, moemo da definiemo interval [0.9821, 0.9901], koji nam daje neodreenost lanstva zvunog signal rei primer u bazi podataka. Moramo da upotrebimo centroid deffuzification da bismo dobili jedau vrednost lansva. Ako sada ponovimo itavu proceduru za celu bazu podataka, dobijamo rezultate prikazane u tabeli ispod. U ovoj tabeli moemo da vidimo rezultate za est razliitih rei.

Tabela br.3 Sumarni rezultati za dva modula (M1 i M2) Isti modularni neuronsko mreni pristup je primenjen na prethodnih dvadeset rei (spomenutih u prethodnom odeljku) i stopa prepoznavanja se poboljala do 100%, to pokazuje prednost modularnosti kao i prednost upotrebe type-2 fuzzy logike. Takoe je dolo i do smanjenja vremena obrauna upotrebom modularnosti. Na sledeoj slici je prikazana kompletna arhitektura modularne neuronske mree za prepoznavanje glasa u kojoj se koriste tri neuronske mree u svakom modulu. Takoe, svaki modul obrauje samo deo rei, koja je podeljena na tri dela, po jedan za svaki modul.

Slika br.9 Arhitektura modularne neuronske mree za prepoznavanje glasa. Takoe su vreni eksperimenti sa upotrebom genetskih algoritama za optimizaciju broja slojeva i vorova neuronskih mrea modula sa veoma dobrim rezultatima. Ovaj pristup je veoma slian prethodno opisanom. Na slici br. 10 je prikazan primer upotrebe genetskog algoritma za optimizaciju broja slojeva i vorova jedne od neuronskih mrea u modularnoj arhitekturi. Na ovoj slici proceniti minimizaciju fitnes sunkcije, koja uzima u obzir dva cilja: zbir kvadrata greaka i kompleksnost neuronske mree.

Slika br.10 Genetski algoritam prikazuje optimizaciju neuronske mree.