Upload
aleksandar-lilic
View
97
Download
9
Embed Size (px)
DESCRIPTION
Primena Neuronskih Mreza u Prepoznavanju Zvuka, neuronske mreze, speech recognition, zvuk, vestacka inteligencija
Citation preview
Univerzitet u Beogradu
Fakultet Organizacionih Nauka
Domaći zadatak iz Inteligentnih sistema
Primena neuronskih mreža za
prepoznavanje zvuka
Studenti:
Jovan Zivlak 171/06
Nebojša Vitomirov 263/04
Beograd, Maj, 2010.
UVOD
Oblast koju danas poznajemo kao neuronske mreže nastala je kao rezultat spoja
nekoliko veoma različitih pravaca istraživanja: obrade signala, neurobiologije i fizike.
Neuronske mreže predstavljaju tipičan primer interdisciplinarne oblasti. S jedne strane, to je
pokušaj da se razume rad ljudskog mozga, a sa druge da se to stečeno znanje primeni u obradi
složenih informacija. Opšti je utisak da su neuronske mreže za sada najzrelija i
najprimenljivija tehnologija. Neuronske mreže spadaju u kategoriju paralelnog asinhronog
distribuiranog procesiranja. Mreža je tolerantna na oštećenje ili ispadanje iz rada relativno
malog broja neurona. Takođe, mreža je tolerantna i na prisustvo šuma u ulaznom signalu.
Svaki memorijski element je delokalizovan – smešten je u celoj mreži i ne možemo
identifikovati deo u kome se on čuva. Klasično adresiranje ne postoji, jer se memoriji pristupa
preko sadržaja, a ne preko adrese. Neuronska mreža je jedan oblik implementacije sistema
veštačke inteligencije, koji predstavlja sistem koji se sastoji od određenog broja međusobno
povezanih procesora ili čvorova, ili procesnih elemenata koje nazivamo veštačkim neuronima.
Telo neurona naziva se čvor ili jedinica. Svaki od neurona ima lokalnu memoriju u kojoj
pamti podatke koje obrađuje. Podaci koji se obrađuju su lokalni podaci kao i oni koji se
primaju preko veze. Podaci koji se ovim kanalima razmenjuju su obično numerički.
Arhitektura neuronske mreže predstavlja specifično povezivanje neurona u jednu celinu.
Struktura neuronske mreže se razlikuje po broju slojeva. Prvi sloj se naziva ulazni, a poslednji
izlazni, dok se slojevi između nazivaju skriveni slojevi. Najčešće ih ima tri. Prvi sloj, tj. ulazni
je jedini sloj koji prima podatke iz spoljašnje sredine, sledeći (skriveni) prosleđuje relevantne
podatke do trećeg (izlaznog) sloja. Na izlazu trećeg sloja dobijamo konačan rezultat. Složenije
neuronske mreže imaju više skrivenih slojeva. Slojevi su međusobno potpuno povezani.
Slojevi komuniciraju tako što se izlaz svakog neurona iz prethodnog sloja povezuje sa
ulazima svih neurona narednog sloja. Znači, svaki čvor ima nekoliko ulaza i jedan izlaz.
Jačina veza kojom su neuroni povezani naziva se težinski factor.
Prepoznavanje govora pomoću neuronskih mreža (tip-2 fuzzy logika i
genetski algoritmi)
Prepoznavanje govornika, koje se može klasifikovati kao identifikacija i verifikacija,
je proces automatskog prepoznavanja onog ko govori na osnovu individualne informacije
uključene u govorni talas. Ova tehnika omogućava da se uz pomoć glasa govornika proveri
njegov identitet kao i da se pristupi raznim servisima kao što su: govorno pozivanje,
bankarske usluge putem telefona, kupovina putem telefona, usluge pristupa bazi podataka,
informacione usluge, govorna pošta, kontrola bezbednosti za poverljive informacione oblasti,
kao i za pristup udaljenim računarima i verifikacionim sistemima. Identifikacija govornika je
proces određivanja koji registrovani govornik pruža dati ulaz. Verifikacija govornika, sa
druge strane, je proces prihvatanja ili odbijanja identifikovane tvrdnje govornika. Većina
aplikacija u kojima se glas koristi kao ključ za potvrdu identiteta govornika su klasifikovane
kao govorničko verifikacione.
Metode prepoznavanja govornika se takođe mogu podeliti na tekstualno zavisne i
tekstualno nezavisne metode. Tekstualno zavisne metode zahtevaju od govornika da upotrebi
neke ključne reči ili rečenice u toku registracije a i kasnije u toku identifikacije da bi bio
identifikovan, dok se tekstualno nezavisne ne oslanjaju na tekst koji se upotrebljava.
Slika br.1 Identifikacija govornika.
Slika br.2 Verifikacija govornika.
Slike br. 1 i 2 predstavljaju osnovnu strukturu sistema prepoznavanja govornika.
Međutim obe metode, tekstualno zavisna i tekstualno nezavisna metoda, imaju
određene probleme. Ovi sistemi lako mogu biti obmanuti tako što im se može pristupiti uz
pomoć nasnimljenog glasa registrovanog govornika koji izgovara ključne reči ili rečenice. Da
bi se izborili sa ovim problemom, konstruisane su metode u kojima se mali skup reči, kao što
su cifre, koriste kao ključne reči i svaki korisnik je primoran da izgovori određeni broj
ključnih reči koje se prilikom svake nove identifikacije nasumice biraju. Ipak ovaj metod još
nije potpuno pouzdan, pošto može biti prevaren uz pomoć napredne elektronske opreme za
snimanje koja može da reprodukuje ključne reči u željenom redu.
Opšte metode za prepoznavanje glasa govornika
Najčešća kratkoročna spektralna merenja koja se trenutno koriste su linearna
predvidljiva kodiranja (LPC- linear predictive coding) – izvedeni cepstral koeficijenti i
njihovi regresioni koeficijenti. Spektralni omotač rekonstruisan iz skraćene grupe cepstral
koeficijenata je mnogo bolji nego onaj rekonstruisan iz LPC koeficijenata. Zbog toga pruža
stabilniju reprezentaciju iz jednog u drugo ponavljanje određene rečenice govornika. Što se
tiče koeficijenata regresije, tipično prvi i drugi koeficijent se izdvajaju u svakom periodu
vremena da bi predstavili dinamiku spektra. Ovi koeficijenti su derivati vremenske funkcije
cepstral koeficijenata i respektativno se nazivaju delta i delta cepstral koeficijenti.
Tehnike normalizacije
Najznačajniji faktor koji utičena na automatsko prepoznavanje govornika je varijacija
u signalu od slučaja do slučaja. Varijacije nastaju od samih zvučnika, iz razlika u uslovima
snimanja i prenosa, i od buke u pozadini. Govornik ne može ponoviti istu rečenicu precizno
na isti način tokom dva različita snimanja. Dobro je poznato da uzorci iste rečenice snimljene
tokom jedne sesije više odgovaraju jedni drugima, nego uzorci napravljeni tokom dve različite
sesije. Takođe postoje i dugoročne promene u glasu govornika. Važno je da se sistem
prepoznavanja govornika prilagodi ovim varijacijama. Postoje dva tipa normalizacije: jedan
se odnosi na parametre domena, a drugi na daljinu/sličnost domena.
Normalizacija parametara domena
Spektralno izjednačavanje, takozvani metod slepog izjednačavanja, je tipična tehnika
normalizacije parametara domena koja je potvrđena kao efikasna pri smanjenju linearnih
kanalnih efekata i dugoročnih spektralnih varijacija. Ova metoda je specijalno efektivna za
tekstualno zavisne aplikacije prepoznavanja glasa koje koriste prilično duge rečenice. Cepstral
koeficijenti su prosečni tokom trajanja cele rečenice i prosečne vrednosti se oduzimaju od
cepstral koeficijenata svakog frejma. Dodatne varijacije u dnevniku spektralnog domena se
mogu nadoknaditi vrlo dobro upotrebom ove metode. Međutim, to neminovno uklanja neke
tekstualno zavisne i specifične karakteristike govornika, zato je primena ove metode
neprikladna za kratke rečenice u aplikacijama za prepoznavanje govornika.
Normalizacija udaljenosti/sličnosti domena
Metoda normalizacije za udaljene vrednosti koristi odnos verovatnoća. Odnos
verovatnoća se definiše kao odnos dve uslovne verovatnoće posmatranih merenja ulazne
rečenice: prva verovatnoća predstavlja verovatnoću akustičnih podataka datih od strane
govornika koja su potrebna za identifikovanje govornika, a druga je verovatnoća predstavlja
mogućnost da je govornik uljez.
Metoda normalizacije zasnovana na posteriori verovatnoći se razlikuje od metode koja
se zasniva na odnosu verovatnoća. Razlika je u tome da li je govornik neophodan pri vršenju
normalizacije. Kod metode koja se zasniva na odnosu verovatnoća nije neophodan govornik,
dok se kod metode zasnovane na posteriori verovatnoći izračunavanja vrše koristeči sve
referentne govornke, uključujući i govornika koji se ispituje.
Eksperimentalni rezultati pokazuju da su ove dve metode skoro podjednako efektivne.
Obe metode unapređuju odvojenost govornika i smanjuju potrebu za govornicima i tekstualno
zavisnim metodama.
Novi metod u kome je termin normalizacije gotovo jednak verovatnoći jedno
mešovitog modela predstavlja parametar distribucije za sve referentne govornike. Prednost
ovog modela je da su kompjuterski troškovi računanja normalizacije veoma mali i ova metoda
je potvrdila da daje mnogo bolje rezultate nego sve prethodno pomenute metode.
Tekstualno zavisne metode prepoznavanja govornika
Tekstualno zavisne metode se uobičajno zasnivaju na tehnikama slaganja šablona. U
ovom pristupu ulazni iskaz se predstavlja kao niz vektorskih funkcija, generalno kao
kratkoročne spektralne vektorske funkcije. Vremenska osa ulazne rečenice i svakog
referentnog šablona ili referentnog modela registrovanog govornika je usklađena korišćenjem
dynamic time warping (DTW) algoritmom i stepen sličnosti između njih, akumuliran od
početka pa do kraja izgovaranja rečenice, se izračunava.
Skriveni Markov model (Hidden Markov model - HMM) može efikasno da modeluje
statističke varijacije u spektralnim funkcijama. Zbog toga su metode koje se zasnivaju na
HMM-u predstavljena kao dodaci metoda koje se zasnivaju na DTW-u i postigli su značajno
bolju tačnost u prepoznavanju.
Metode za prepoznavanje govornika potpuno nezavisne od teksta
Jedan od najuspešnijh metoda za prepoznavanje nezavisne od teksta su zasnovane na
vektorskoj kvantizaciji (bector quantization ili VQ). U ovoj metodi, knjige sa VQ kodom
koje se sastoje od malog broja reprezentativnih predstavnika vektora su korišćeni kao efikasni
znaci koji karakterizuju specifične govornikove osobine. Govornički specifičnu kjnigu
kodova se generiše klasterovanjem osobne vektore treninga svakog govornika. U fazi
prepoznavanja, ulazna fraza je vektorski kvantifikovana korišćenjem knjige kodova svake
reference zvuka i VQ distorzija akumulirana preko celog ulaznog iskaza se koristi da se dođe
do odluke u prepoznavanju.
Privremena varijacija u govornim signalnim parametrima na duži period možebiti
reprezentovana stohastičnim Makovianovim tranzicijama između rečenica. Zbog toga, metode
koje koriste ergodični HMM, gde su sve moguće tranzicije između rečenica koje su
dozvoljene, su i predložene. Segmenti govora su klasifikovani u jedan od velikog broja
fonetičkih kategorija koje odgovaraju HMM rečenicama. Posle klasifikacije, odabiraju se
odgovarajuće osobine.
U fazi treninga se generišu referentni uzorci i izračunavaju se verifikacione norme za
svaku fonetičku kategoriju. U fazi verifikacije posle fonetičke kategorizacije, komparacije sa
referentnim uzorcima za svaku partikularnu kategoriju obezbeđuje verišikacioni broj bodova
za tu kategoriju. Krajnji rezultat je linearna kombinacija rezultata svih kategorija.
Metoda je nadograđena bogatijom klasom sastavljenom od miksa autoregresivnih
(AR) HMM-ova. U ovim modelima, rečenice su opisane kao linearna kombinacija AR izvora.
Može se dokazati da su mešavine modela ekvivalentne većim HMM sa jednostavnim
rečenicama, sa dodatnim preprekama na mogućim prelazima između rečenica.
Dokazano je da je kontinualna ergodična HMM metoda mnogo superiornija od
diskretne ergodične HMM metode i da je kontinualna HMM metoda robustna kao i VQ
zasnovana metoda kada je dostupno dovoljno treninga. Ipak, kad je dostupno malo podataka,
metode zasnovane na VQ su mnogo veće od kontinualnih HMM metoda. Otkrivena je i
metoda koja koristi statističke dinamičke osobine. U ovoj metodi, multivariacioni auto-
regresioni (MAR)model je povezan sa vremenskom serijom cepstralnih vektora i korišćena da
karakterizuje govornike. Zabeleženo je da su identifikacione i verifikacione ocene skoro iste
kao i one koje su posmatrane HMM zasnovanim metodama.
Tekstom podpomognute metode za prepoznavanje glasa
U tekstom podpomognutim metodama za prepoznavanje glasa, sistem prepoznavanja
zadaje korisniku novu ključnu rečenicu svaki put kad s esistem koristi i prihvata ulazne
sintakse samo kada shvati da je to bio registrovani korisnik koji je ponovio predložene
rečenice. Rečenica može da bude prikazana preko slova ili izgovorena elektronskim glasom.
Zbog toga što je rečnik neograničen, mogući uljezi ne mogu unapred znati koja rečenica se
traži. Ne samo što ova metoda može precizno da prepozna govornika, već može da odbije
zahteve čiji se tekst razlikuje od ponuđenog teksta, čak iako ga izgovara registrovani korisnik.
Snimljeni glas tako može biti nepogrešivo odbijen.
Ova metoda je potpomognuta korišćenjem govornikovih specifičnih phonetskih
modela, kao osnovne akustične jedinice. Jedno od glavnih problema u primeni ove metode je
kako pravilno stvoriti ove govornikove specifične fonetkse modele od treniranja rečenicama
ograničene veličine. Fonetski modeli su reprezentovani Gausijanovim mepšavinama
kontinualnih HMM-a ili mešavine čvorova HMM-a,i oni se prave tako što se prilagođavaju
govornički nezavisni fonemski modeli glasu svakog govornika. U cilju da se pravilno
prilagode modeli fonema koji nisu uključeni u rečenice iz treninga, predstavljena je nova
metoda prilagođavanja zasnovana na mešavini čvorova HMM-a.
U fazi prepoznavanja, sistem spaja fonemske modele svakog registrovanog govornika
da bi stvorio HMM rečenice, prema zadatom tekstu. Onda se verovatnoća da se ulazni govor
slaže sa modelom kalkuliše i korsiti za odlulu prepoznavanja govornika. Ako je slaganje
dovoljno dobro, govornik se prihvata kao potvrđen sagovornik.
Iako su postignuti mnogi skorašnje napredci i dostignuća u prepoznavanju govornika,
još uvek postoje mnogi problemi za koje dobre solucije ostaju još da se otkriju. Većina ovih
problema proističu iz variabilnosti, uključujući govornikovu generatsku variabilnost i
variabilnost u kanalu i uslovima u kojima se snima. Veoma je bitno istražiti odlike parametara
koje su stabilne tokom vremena, nesenzitivne na varijacije načina izgovora, uključujući brzinu
pričanja i nivo, ai robustne ka varijacijama u kvalitetu glasa prioistekle iz smetnji kao što su
prikrivanje glasa ili prehlada. Takođe je važno da se razvije metoda da se uklopi sa
problemom izobličavanja zbog telefonskih aparata i kanala, i pozadinskih ili kanalnih
šumova.
Iz ugla korisničkog interfejsa, važno je razmotriti kako korisnik treba podstaći, i kako
greške u prepoznavanju treba otkloniti. Studije o načinima kako automatski ekstraktovati
govorne periode od svake osobe, pojedinačno iz dijaloga u kojem su uključene više od dve
osobe, su se pojavile kao nastavak tehnologije za prepoznavanje govornika.
Verifikacija govornika
Specifične karakteristike govora različitih govornika pojavljuju se zahvaljujući
različitim psihološkim i bihevijorističkim aspektima ljudskog govornog sistema. Glavni
psihološki aspekt ljudskog govornog sisitema predstavlja oblik ljudskog vokalnog trakta.
Vokalni trakt modifikuje spektralni sadržaj akustičnog talasa koji prolazi kroz njega, i tako
proizvodi govor. Dakle, uobičajno je da sistem verifikacije govornika iskoristi funkcije
izvedene samo iz vokalnog trakta.
Akustični talas se proizvodi kada vazduh iz pluća prođe kroz dušnika, a potom i preko
glasnih žica. Ovaj izvor stimulansa se može okarakterisati kao zvučanje, šaputanje, frikcija,
kompresija, vibracija ili kombinacija svega navedenog. Stimulans govora nastaje kada se
vazduh uobliči prelaskom preko glasnih žica.
Koristeći cepstral analize koje smo prethodno opisali, rečenica koja se analizira može
biti predstavljena kao niz vektorskih funkcija. Rečenica izgovorena od strane iste osobe ali u
različitim vremenima rezultuje sličnim ali ipak različitim sekvencama vektorskih funkcija.
Svrha modelovanja glasa je da bi se izgradio model koji može da razdvoji ove varijacije u
vidu izdvojenog skupa funkcija. Postoje dva tipa modela koja su korišćena intenzivno za
verifikaciju govornika i u sistemima za prepoznavanje glasa. Stohastički model tretira proces
proizvodnje glasa kao parametarski slučajni proces i pretpostavlja da parametri osnovnog
stohastičkog procesa mogu biti procenjeni na precizan i dobro definisan način. Šablonski
model pokušava da modeluje proces proizvodnje glasa na ne parametarski način, zadržavajući
određeni broj sekvenci vektorskih funkcija dobijenih iz više ponavljanja iste reči od strane iste
osobe. U ranijim istraživanjima šablonski model je dominirao na poljima verifikacije
govornika i u prepoznavanju glasa zato što je intuitivno smatran razumnijim. Međutim,
skorija istraživanja stošastičkih modela su pokazala da su ovi modeli fleksibilniji i samim tim
omogućuju bolje modelovanje procesa proizvodnje glasa. Veoma popularan stohastički model
za modelovanje procesa proizvodnje glasa je skriveni Markov model (HMM). HMM
predstavlja nastavak konvencionalnih Markov modela, u kom se posmatraju verovatnoće
funkcija, odnosno, u model je ugrađen dupli stohastički proces u kojem osnovni stohastički
proces nije direktno vidljiv pa se zato naziva skriveni. HMM može jedino da se posmatra kroz
grupu drugih stohastičkih procesa koji proizvode niz zapažanja.
Patern upoređujući proces uključuje poređenje date grupe ulaznih vektorskih funkcija
sa modelom govornika određenog identiteta i kompjuterski nam prikazuje rezultat. Za
skriveni Markov model prethodno pomenuti, rezultat poređenja predstavlja verovatnoću da je
data grupa vektorskih funkcija generisana od strane određenog modela. Na sedećoj slici
prikazan je šematski dijagram tipičnog sistema za prepoznavanje govornika.
Slika br.3 Blok dijagram tipičnog sistema za prepoznavanje govornik.
Snimanje i obrada glasa
Prvi korak ka postizanju prepoznavanja glasa je snimanje zvučnog signala glasa. Za to
se koristi standardni mikrofon. Posle ovoga, koristimo standardni program za snimanje glasa
da bi smo glas snimili i ubacili ga u bazu koja sadrži glasove različitih osoba. Potrebno je da
ustanovimo fiksno vreme snimanja glasa da bi se uspostavila homogenost signala.
Nakon nasnimavanja zvučnih signala, vrši se njihova digitalizacija na frekvenciji od 8
Khz, i kao posledica dobijamo signal sa 8008 bodovnih uzoraka. To je informacija koja se
koristi za analizu zvuka. Takođe koristimo kompjuterski program Sound Forge za obradu
zvučnog signala. Ovaj program nam omogućava da otklonimo šum u signalu, koji može da
nastane od osetljivosti mikrofona ili od neke druge buke iz pozadine. Posle upotrebe ovog
kompjuterskog programa dobijamo čist zvučni signal. Program takođe može da koristi brzu
Furijevu transformaciju koja služi za filtriranje zvuka. Na sledećoj slici prikazana je upotreba
programa za određeni zvučni signal.
Slika br.4 Glavni prozor kompjuterskog programa za obradu signala.
Na sledećoj slici prikazuje se upotreba brze Furijeve transformacije (FFT) za dobijanje
spektralne analize reči put na Španskom.
Slika br.5 Spektralna analiza specifične reči korišćenjem FFT-a.
Neuronske mreže za prepoznavanje zvuka
U našem primeru korišćeno je dvadeset različitih zvučnih signala kao podaci za
treniranje neuronske mreže sa jednim sakrivenim slojem. Trenažni algoritam koji je korišćen
je Resilient Backpropagation (trainrp), koji je pokazao dobre rezultate u ranijim korišćenjima.
U tabeli se vide rezultati eksperimenta sa ovim tipom neuronske mreže.
U tabeli su prikazani rezultati za Resilient Backpropagation trenažni algoritam. Ovaj
algoritam je izaabran iz razloga što se sa njim za najkraće vreme postiže treniranje neuronske
mreže (zahteva samo 7% ukupnog vremena eksperimenta). Poređenje vremenskih
performansi algoritama se vidi na slici br.6.
Tabela br.1 Rezultat neuronske mreže za 20 reči.
Slika br.6 Poređenje vremenskih performanski nekoliko trenažnih algoritama.
U tabeli 2 možemo da vidimo rezultate treninga neuronskih mreža koji su postignuti sa
različitim trenažnim algoritmima. Prikazane su prosečne vrednosti uspešnosti eksperimenata
svih trenažnih algoritama. Iz tabele se može videti da resilient backpropagation algoritam
predstavlja najprecizniju metodu, sa 92% uspešnosti pri prepoznavanju.
Tabela br.2 Poređenje stopa prepoznavanja četiri trenažna algoritma.
Na sledećim slikama opisuju se neki prosti primeri rezultata simulacija prepoznavanja
govornika korišćenjem neuronskih mreža. Prvo na slici br.7 prikazan je zvučni signal reči
„primer“ na španskom sa smetnjama. Sledeće, na slici br.8, je prikazana identifikacija reči
„primer“ bez smetnji.
Slika br.7 Ulazni signal reči „primer“ na španskom sa smetnjama.
Slika br.8 Identifikacija reči „primer“.
Iz slika 7 i 8 je jasno da jednostavna monolitna neuronska mreža može biti korisna za
prepoznavanje zvuka kad je u pitanju mali broj reči. Očigledno je da čak i reči koje poseduju
smetnje mogu biti identifikovane, sa minimalnom stopom od 92%. Naravno, za veću grupu
reči stopa prepoznavanja opada, a vreme obrade se povećava. Iz ovih razloga neophodno je
uzeti u obzir bolje metode za prepoznavanje glasa.
Prepoznavanje zvuka uz pomoć Modularnih neuronskih mreža i Type-2 Fuzzy
logike
Upotrebom modularnih neuronskih mreža možemo da unapredimo ranije dobijene
rezultate zato što nam modularnost omogućava da podelimo problem prepoznavanja na
jednostavnije pod probleme, koji se mogu lakše rešavati. Takođe koristimo type-2 fuzzy
logiku da modelujemo neodređenost rezultata dobijenih iz neuronskih mreža iz istih trenažnih
podataka.
Na sledećem primeru pokazujemo upotrebu hibridnog pristupa. Koristimo dva modula
sa po jednom neuronskom mrežom u svakoj modularnoj arhitekturi. Oba modula su trenirana
sa istim podacima, ali rezultati su donekle različiti zahvaljujući neodređenosti uključenoj u
procesu učenja. U oba slučaja koristimo neuronske mreže sa jednim skrivenim slojem sa po
50 čvorova i koristimo „trainrp“ kao logaritam za treniranje. Razlika u rezultatima se onda
koristi za kreiranje type-2 fuzzy skupa koji predstavlja neodređenost u klasifikaciji reči. Prvi
primer je reč „primer“ na španskom jeziku. Zvučni signal reči „primer“ se nalazi na slici br. 8.
Uzimajući u obzir sada samo deset reči za trenažni proces, rezultati prve neuronske
mreže će biti:
SSE = 4.17649e-005 (Sum of squared errors)
Output = [0.0023, 0.0001, 0.0000, 0.0020, 0.0113, 0.0053, 0.0065, 0.9901, 0.0007, 0.0001]
Output se može tumačiti kao vrednost člansta svakog zvučnog signala za svaku od
deset različitih reči u bazi podataka. U ovom slučaju, možemo da procenimo da je vrednost od
0.9901, vrednost članstva reči „primer“, veoma blizu vrednosti 1. Ali, ako sada stavimo u
trenažni proces drugu neuronsku mrežu sa istom arhitekturom, zbog različitih nasumičnih
inicijalizacija vrednosti, rezultati će biti drugačiji. Rezultat druge nuronske mreže:
SSE = 0.0124899
Output = [0.0002, 0.0041, 0.0037, 0.0013, 0.0091, 0.0009, 0.0004, 0.9821, 0.0007, 0.0007]
Primećujemo da je vrednost članstva reči „primer“ sada 0.9821. Sa dve različite
vrednosti članstva, možemo da definišemo interval [0.9821, 0.9901], koji nam daje
neodređenost članstva zvučnog signal reči „primer“ u bazi podataka. Moramo da upotrebimo
centroid deffuzification da bismo dobili jedau vrednost člansva. Ako sada ponovimo čitavu
proceduru za celu bazu podataka, dobijamo rezultate prikazane u tabeli ispod. U ovoj tabeli
možemo da vidimo rezultate za šest različitih reči.
Tabela br.3 Sumarni rezultati za dva modula (M1 i M2)
Isti modularni neuronsko mrežni pristup je primenjen na prethodnih dvadeset reči
(spomenutih u prethodnom odeljku) i stopa prepoznavanja se poboljšala do 100%, što
pokazuje prednost modularnosti kao i prednost upotrebe type-2 fuzzy logike. Takođe je došlo
i do smanjenja vremena obračuna upotrebom modularnosti.
Na sledećoj slici je prikazana kompletna arhitektura modularne neuronske mreže za
prepoznavanje glasa u kojoj se koriste tri neuronske mreže u svakom modulu. Takođe, svaki
modul obrađuje samo deo reči, koja je podeljena na tri dela, po jedan za svaki modul.
Slika br.9 Arhitektura modularne neuronske mreže za prepoznavanje glasa.
Takođe su vršeni eksperimenti sa upotrebom genetskih algoritama za optimizaciju
broja slojeva i čvorova neuronskih mreža modula sa veoma dobrim rezultatima. Ovaj pristup
je veoma sličan prethodno opisanom. Na slici br. 10 je prikazan primer upotrebe genetskog
algoritma za optimizaciju broja slojeva i čvorova jedne od neuronskih mreža u modularnoj
arhitekturi. Na ovoj slici proceniti minimizaciju fitnes sunkcije, koja uzima u obzir dva cilja:
zbir kvadrata grešaka i kompleksnost neuronske mreže.
Slika br.10 Genetski algoritam prikazuje optimizaciju neuronske mreže.