Primena Neuronskih Mreza u Prepoznavanju Zvuka

Univerzitet u Beogradu

Fakultet Organizacionih Nauka

Domaći zadatak iz Inteligentnih sistema

Primena neuronskih mreža za

prepoznavanje zvuka

Studenti:

Jovan Zivlak 171/06

Nebojša Vitomirov 263/04

Beograd, Maj, 2010.

UVOD

Oblast koju danas poznajemo kao neuronske mreže nastala je kao rezultat spoja

nekoliko veoma različitih pravaca istraživanja: obrade signala, neurobiologije i fizike.

Neuronske mreže predstavljaju tipičan primer interdisciplinarne oblasti. S jedne strane, to je

pokušaj da se razume rad ljudskog mozga, a sa druge da se to stečeno znanje primeni u obradi

složenih informacija. Opšti je utisak da su neuronske mreže za sada najzrelija i

najprimenljivija tehnologija. Neuronske mreže spadaju u kategoriju paralelnog asinhronog

distribuiranog procesiranja. Mreža je tolerantna na oštećenje ili ispadanje iz rada relativno

malog broja neurona. Takođe, mreža je tolerantna i na prisustvo šuma u ulaznom signalu.

Svaki memorijski element je delokalizovan – smešten je u celoj mreži i ne možemo

identifikovati deo u kome se on čuva. Klasično adresiranje ne postoji, jer se memoriji pristupa

preko sadržaja, a ne preko adrese. Neuronska mreža je jedan oblik implementacije sistema

veštačke inteligencije, koji predstavlja sistem koji se sastoji od određenog broja međusobno

povezanih procesora ili čvorova, ili procesnih elemenata koje nazivamo veštačkim neuronima.

Telo neurona naziva se čvor ili jedinica. Svaki od neurona ima lokalnu memoriju u kojoj

pamti podatke koje obrađuje. Podaci koji se obrađuju su lokalni podaci kao i oni koji se

primaju preko veze. Podaci koji se ovim kanalima razmenjuju su obično numerički.

Arhitektura neuronske mreže predstavlja specifično povezivanje neurona u jednu celinu.

Struktura neuronske mreže se razlikuje po broju slojeva. Prvi sloj se naziva ulazni, a poslednji

izlazni, dok se slojevi između nazivaju skriveni slojevi. Najčešće ih ima tri. Prvi sloj, tj. ulazni

je jedini sloj koji prima podatke iz spoljašnje sredine, sledeći (skriveni) prosleđuje relevantne

podatke do trećeg (izlaznog) sloja. Na izlazu trećeg sloja dobijamo konačan rezultat. Složenije

neuronske mreže imaju više skrivenih slojeva. Slojevi su međusobno potpuno povezani.

Slojevi komuniciraju tako što se izlaz svakog neurona iz prethodnog sloja povezuje sa

ulazima svih neurona narednog sloja. Znači, svaki čvor ima nekoliko ulaza i jedan izlaz.

Jačina veza kojom su neuroni povezani naziva se težinski factor.

http://sr.wikipedia.org/w/index.php?title=%D0%9D%D0%B5%D1%83%D1%80%D0%BE%D0%BD%D1%81%D0%BA%D0%B0_%D0%BC%D1%80%D0%B5%D0%B6%D0%B0&action=edit&redlink=1

http://sr.wikipedia.org/sr-el/%D0%92%D0%B5%D1%88%D1%82%D0%B0%D1%87%D0%BA%D0%B0_%D0%B8%D0%BD%D1%82%D0%B5%D0%BB%D0%B8%D0%B3%D0%B5%D0%BD%D1%86%D0%B8%D1%98%D0%B0

http://sr.wikipedia.org/sr-el/%D0%9D%D0%B5%D1%83%D1%80%D0%BE%D0%BD

http://sr.wikipedia.org/sr-el/%D0%9C%D0%B5%D0%BC%D0%BE%D1%80%D0%B8%D1%98%D0%B0

Prepoznavanje govora pomoću neuronskih mreža (tip-2 fuzzy logika i

genetski algoritmi)

Prepoznavanje govornika, koje se može klasifikovati kao identifikacija i verifikacija,

je proces automatskog prepoznavanja onog ko govori na osnovu individualne informacije

uključene u govorni talas. Ova tehnika omogućava da se uz pomoć glasa govornika proveri

njegov identitet kao i da se pristupi raznim servisima kao što su: govorno pozivanje,

bankarske usluge putem telefona, kupovina putem telefona, usluge pristupa bazi podataka,

informacione usluge, govorna pošta, kontrola bezbednosti za poverljive informacione oblasti,

kao i za pristup udaljenim računarima i verifikacionim sistemima. Identifikacija govornika je

proces određivanja koji registrovani govornik pruža dati ulaz. Verifikacija govornika, sa

druge strane, je proces prihvatanja ili odbijanja identifikovane tvrdnje govornika. Većina

aplikacija u kojima se glas koristi kao ključ za potvrdu identiteta govornika su klasifikovane

kao govorničko verifikacione.

Metode prepoznavanja govornika se takođe mogu podeliti na tekstualno zavisne i

tekstualno nezavisne metode. Tekstualno zavisne metode zahtevaju od govornika da upotrebi

neke ključne reči ili rečenice u toku registracije a i kasnije u toku identifikacije da bi bio

identifikovan, dok se tekstualno nezavisne ne oslanjaju na tekst koji se upotrebljava.

Slika br.1 Identifikacija govornika.

Slika br.2 Verifikacija govornika.

Slike br. 1 i 2 predstavljaju osnovnu strukturu sistema prepoznavanja govornika.

Međutim obe metode, tekstualno zavisna i tekstualno nezavisna metoda, imaju

određene probleme. Ovi sistemi lako mogu biti obmanuti tako što im se može pristupiti uz

pomoć nasnimljenog glasa registrovanog govornika koji izgovara ključne reči ili rečenice. Da

bi se izborili sa ovim problemom, konstruisane su metode u kojima se mali skup reči, kao što

su cifre, koriste kao ključne reči i svaki korisnik je primoran da izgovori određeni broj

ključnih reči koje se prilikom svake nove identifikacije nasumice biraju. Ipak ovaj metod još

nije potpuno pouzdan, pošto može biti prevaren uz pomoć napredne elektronske opreme za

snimanje koja može da reprodukuje ključne reči u željenom redu.

Opšte metode za prepoznavanje glasa govornika

Najčešća kratkoročna spektralna merenja koja se trenutno koriste su linearna

predvidljiva kodiranja (LPC- linear predictive coding) – izvedeni cepstral koeficijenti i

njihovi regresioni koeficijenti. Spektralni omotač rekonstruisan iz skraćene grupe cepstral

koeficijenata je mnogo bolji nego onaj rekonstruisan iz LPC koeficijenata. Zbog toga pruža

stabilniju reprezentaciju iz jednog u drugo ponavljanje određene rečenice govornika. Što se

tiče koeficijenata regresije, tipično prvi i drugi koeficijent se izdvajaju u svakom periodu

vremena da bi predstavili dinamiku spektra. Ovi koeficijenti su derivati vremenske funkcije

cepstral koeficijenata i respektativno se nazivaju delta i delta cepstral koeficijenti.

Tehnike normalizacije

Najznačajniji faktor koji utičena na automatsko prepoznavanje govornika je varijacija

u signalu od slučaja do slučaja. Varijacije nastaju od samih zvučnika, iz razlika u uslovima

snimanja i prenosa, i od buke u pozadini. Govornik ne može ponoviti istu rečenicu precizno

na isti način tokom dva različita snimanja. Dobro je poznato da uzorci iste rečenice snimljene

tokom jedne sesije više odgovaraju jedni drugima, nego uzorci napravljeni tokom dve različite

sesije. Takođe postoje i dugoročne promene u glasu govornika. Važno je da se sistem

prepoznavanja govornika prilagodi ovim varijacijama. Postoje dva tipa normalizacije: jedan

se odnosi na parametre domena, a drugi na daljinu/sličnost domena.

Normalizacija parametara domena

Spektralno izjednačavanje, takozvani metod slepog izjednačavanja, je tipična tehnika

normalizacije parametara domena koja je potvrđena kao efikasna pri smanjenju linearnih

kanalnih efekata i dugoročnih spektralnih varijacija. Ova metoda je specijalno efektivna za

tekstualno zavisne aplikacije prepoznavanja glasa koje koriste prilično duge rečenice. Cepstral

koeficijenti su prosečni tokom trajanja cele rečenice i prosečne vrednosti se oduzimaju od

cepstral koeficijenata svakog frejma. Dodatne varijacije u dnevniku spektralnog domena se

mogu nadoknaditi vrlo dobro upotrebom ove metode. Međutim, to neminovno uklanja neke

tekstualno zavisne i specifične karakteristike govornika, zato je primena ove metode

neprikladna za kratke rečenice u aplikacijama za prepoznavanje govornika.

Normalizacija udaljenosti/sličnosti domena

Metoda normalizacije za udaljene vrednosti koristi odnos verovatnoća. Odnos

verovatnoća se definiše kao odnos dve uslovne verovatnoće posmatranih merenja ulazne

rečenice: prva verovatnoća predstavlja verovatnoću akustičnih podataka datih od strane

govornika koja su potrebna za identifikovanje govornika, a druga je verovatnoća predstavlja

mogućnost da je govornik uljez.

Metoda normalizacije zasnovana na posteriori verovatnoći se razlikuje od metode koja

se zasniva na odnosu verovatnoća. Razlika je u tome da li je govornik neophodan pri vršenju

normalizacije. Kod metode koja se zasniva na odnosu verovatnoća nije neophodan govornik,

dok se kod metode zasnovane na posteriori verovatnoći izračunavanja vrše koristeči sve

referentne govornke, uključujući i govornika koji se ispituje.

Eksperimentalni rezultati pokazuju da su ove dve metode skoro podjednako efektivne.

Obe metode unapređuju odvojenost govornika i smanjuju potrebu za govornicima i tekstualno

zavisnim metodama.

Novi metod u kome je termin normalizacije gotovo jednak verovatnoći jedno

mešovitog modela predstavlja parametar distribucije za sve referentne govornike. Prednost

ovog modela je da su kompjuterski troškovi računanja normalizacije veoma mali i ova metoda

je potvrdila da daje mnogo bolje rezultate nego sve prethodno pomenute metode.

Tekstualno zavisne metode prepoznavanja govornika

Tekstualno zavisne metode se uobičajno zasnivaju na tehnikama slaganja šablona. U

ovom pristupu ulazni iskaz se predstavlja kao niz vektorskih funkcija, generalno kao

kratkoročne spektralne vektorske funkcije. Vremenska osa ulazne rečenice i svakog

referentnog šablona ili referentnog modela registrovanog govornika je usklađena korišćenjem

dynamic time warping (DTW) algoritmom i stepen sličnosti između njih, akumuliran od

početka pa do kraja izgovaranja rečenice, se izračunava.

Skriveni Markov model (Hidden Markov model - HMM) može efikasno da modeluje

statističke varijacije u spektralnim funkcijama. Zbog toga su metode koje se zasnivaju na

HMM-u predstavljena kao dodaci metoda koje se zasnivaju na DTW-u i postigli su značajno

bolju tačnost u prepoznavanju.

Metode za prepoznavanje govornika potpuno nezavisne od teksta

Jedan od najuspešnijh metoda za prepoznavanje nezavisne od teksta su zasnovane na

vektorskoj kvantizaciji (bector quantization ili VQ). U ovoj metodi, knjige sa VQ kodom

koje se sastoje od malog broja reprezentativnih predstavnika vektora su korišćeni kao efikasni

znaci koji karakterizuju specifične govornikove osobine. Govornički specifičnu kjnigu

kodova se generiše klasterovanjem osobne vektore treninga svakog govornika. U fazi

prepoznavanja, ulazna fraza je vektorski kvantifikovana korišćenjem knjige kodova svake

reference zvuka i VQ distorzija akumulirana preko celog ulaznog iskaza se koristi da se dođe

do odluke u prepoznavanju.

Privremena varijacija u govornim signalnim parametrima na duži period možebiti

reprezentovana stohastičnim Makovianovim tranzicijama između rečenica. Zbog toga, metode

koje koriste ergodični HMM, gde su sve moguće tranzicije između rečenica koje su

dozvoljene, su i predložene. Segmenti govora su klasifikovani u jedan od velikog broja

fonetičkih kategorija koje odgovaraju HMM rečenicama. Posle klasifikacije, odabiraju se

odgovarajuće osobine.

U fazi treninga se generišu referentni uzorci i izračunavaju se verifikacione norme za

svaku fonetičku kategoriju. U fazi verifikacije posle fonetičke kategorizacije, komparacije sa

referentnim uzorcima za svaku partikularnu kategoriju obezbeđuje verišikacioni broj bodova

za tu kategoriju. Krajnji rezultat je linearna kombinacija rezultata svih kategorija.

Metoda je nadograđena bogatijom klasom sastavljenom od miksa autoregresivnih

(AR) HMM-ova. U ovim modelima, rečenice su opisane kao linearna kombinacija AR izvora.

Može se dokazati da su mešavine modela ekvivalentne većim HMM sa jednostavnim

rečenicama, sa dodatnim preprekama na mogućim prelazima između rečenica.

Dokazano je da je kontinualna ergodična HMM metoda mnogo superiornija od

diskretne ergodične HMM metode i da je kontinualna HMM metoda robustna kao i VQ

zasnovana metoda kada je dostupno dovoljno treninga. Ipak, kad je dostupno malo podataka,

metode zasnovane na VQ su mnogo veće od kontinualnih HMM metoda. Otkrivena je i

metoda koja koristi statističke dinamičke osobine. U ovoj metodi, multivariacioni auto-

regresioni (MAR)model je povezan sa vremenskom serijom cepstralnih vektora i korišćena da

karakterizuje govornike. Zabeleženo je da su identifikacione i verifikacione ocene skoro iste

kao i one koje su posmatrane HMM zasnovanim metodama.

Tekstom podpomognute metode za prepoznavanje glasa

U tekstom podpomognutim metodama za prepoznavanje glasa, sistem prepoznavanja

zadaje korisniku novu ključnu rečenicu svaki put kad s esistem koristi i prihvata ulazne

sintakse samo kada shvati da je to bio registrovani korisnik koji je ponovio predložene

rečenice. Rečenica može da bude prikazana preko slova ili izgovorena elektronskim glasom.

Zbog toga što je rečnik neograničen, mogući uljezi ne mogu unapred znati koja rečenica se

traži. Ne samo što ova metoda može precizno da prepozna govornika, već može da odbije

zahteve čiji se tekst razlikuje od ponuđenog teksta, čak iako ga izgovara registrovani korisnik.

Snimljeni glas tako može biti nepogrešivo odbijen.

Ova metoda je potpomognuta korišćenjem govornikovih specifičnih phonetskih

modela, kao osnovne akustične jedinice. Jedno od glavnih problema u primeni ove metode je

kako pravilno stvoriti ove govornikove specifične fonetkse modele od treniranja rečenicama

ograničene veličine. Fonetski modeli su reprezentovani Gausijanovim mepšavinama

kontinualnih HMM-a ili mešavine čvorova HMM-a,i oni se prave tako što se prilagođavaju

govornički nezavisni fonemski modeli glasu svakog govornika. U cilju da se pravilno

prilagode modeli fonema koji nisu uključeni u rečenice iz treninga, predstavljena je nova

metoda prilagođavanja zasnovana na mešavini čvorova HMM-a.

U fazi prepoznavanja, sistem spaja fonemske modele svakog registrovanog govornika

da bi stvorio HMM rečenice, prema zadatom tekstu. Onda se verovatnoća da se ulazni govor

slaže sa modelom kalkuliše i korsiti za odlulu prepoznavanja govornika. Ako je slaganje

dovoljno dobro, govornik se prihvata kao potvrđen sagovornik.

Iako su postignuti mnogi skorašnje napredci i dostignuća u prepoznavanju govornika,

još uvek postoje mnogi problemi za koje dobre solucije ostaju još da se otkriju. Većina ovih

problema proističu iz variabilnosti, uključujući govornikovu generatsku variabilnost i

variabilnost u kanalu i uslovima u kojima se snima. Veoma je bitno istražiti odlike parametara

koje su stabilne tokom vremena, nesenzitivne na varijacije načina izgovora, uključujući brzinu

pričanja i nivo, ai robustne ka varijacijama u kvalitetu glasa prioistekle iz smetnji kao što su

prikrivanje glasa ili prehlada. Takođe je važno da se razvije metoda da se uklopi sa

problemom izobličavanja zbog telefonskih aparata i kanala, i pozadinskih ili kanalnih

šumova.

Iz ugla korisničkog interfejsa, važno je razmotriti kako korisnik treba podstaći, i kako

greške u prepoznavanju treba otkloniti. Studije o načinima kako automatski ekstraktovati

govorne periode od svake osobe, pojedinačno iz dijaloga u kojem su uključene više od dve

osobe, su se pojavile kao nastavak tehnologije za prepoznavanje govornika.

Verifikacija govornika

Specifične karakteristike govora različitih govornika pojavljuju se zahvaljujući

različitim psihološkim i bihevijorističkim aspektima ljudskog govornog sistema. Glavni

psihološki aspekt ljudskog govornog sisitema predstavlja oblik ljudskog vokalnog trakta.

Vokalni trakt modifikuje spektralni sadržaj akustičnog talasa koji prolazi kroz njega, i tako

proizvodi govor. Dakle, uobičajno je da sistem verifikacije govornika iskoristi funkcije

izvedene samo iz vokalnog trakta.

Akustični talas se proizvodi kada vazduh iz pluća prođe kroz dušnika, a potom i preko

glasnih žica. Ovaj izvor stimulansa se može okarakterisati kao zvučanje, šaputanje, frikcija,

kompresija, vibracija ili kombinacija svega navedenog. Stimulans govora nastaje kada se

vazduh uobliči prelaskom preko glasnih žica.

Koristeći cepstral analize koje smo prethodno opisali, rečenica koja se analizira može

biti predstavljena kao niz vektorskih funkcija. Rečenica izgovorena od strane iste osobe ali u

različitim vremenima rezultuje sličnim ali ipak različitim sekvencama vektorskih funkcija.

Svrha modelovanja glasa je da bi se izgradio model koji može da razdvoji ove varijacije u

vidu izdvojenog skupa funkcija. Postoje dva tipa modela koja su korišćena intenzivno za

verifikaciju govornika i u sistemima za prepoznavanje glasa. Stohastički model tretira proces

proizvodnje glasa kao parametarski slučajni proces i pretpostavlja da parametri osnovnog

stohastičkog procesa mogu biti procenjeni na precizan i dobro definisan način. Šablonski

model pokušava da modeluje proces proizvodnje glasa na ne parametarski način, zadržavajući

određeni broj sekvenci vektorskih funkcija dobijenih iz više ponavljanja iste reči od strane iste

osobe. U ranijim istraživanjima šablonski model je dominirao na poljima verifikacije

govornika i u prepoznavanju glasa zato što je intuitivno smatran razumnijim. Međutim,

skorija istraživanja stošastičkih modela su pokazala da su ovi modeli fleksibilniji i samim tim

omogućuju bolje modelovanje procesa proizvodnje glasa. Veoma popularan stohastički model

za modelovanje procesa proizvodnje glasa je skriveni Markov model (HMM). HMM

predstavlja nastavak konvencionalnih Markov modela, u kom se posmatraju verovatnoće

funkcija, odnosno, u model je ugrađen dupli stohastički proces u kojem osnovni stohastički

proces nije direktno vidljiv pa se zato naziva skriveni. HMM može jedino da se posmatra kroz

grupu drugih stohastičkih procesa koji proizvode niz zapažanja.

Patern upoređujući proces uključuje poređenje date grupe ulaznih vektorskih funkcija

sa modelom govornika određenog identiteta i kompjuterski nam prikazuje rezultat. Za

skriveni Markov model prethodno pomenuti, rezultat poređenja predstavlja verovatnoću da je

data grupa vektorskih funkcija generisana od strane određenog modela. Na sedećoj slici

prikazan je šematski dijagram tipičnog sistema za prepoznavanje govornika.

Slika br.3 Blok dijagram tipičnog sistema za prepoznavanje govornik.

Snimanje i obrada glasa

Prvi korak ka postizanju prepoznavanja glasa je snimanje zvučnog signala glasa. Za to

se koristi standardni mikrofon. Posle ovoga, koristimo standardni program za snimanje glasa

da bi smo glas snimili i ubacili ga u bazu koja sadrži glasove različitih osoba. Potrebno je da

ustanovimo fiksno vreme snimanja glasa da bi se uspostavila homogenost signala.

Nakon nasnimavanja zvučnih signala, vrši se njihova digitalizacija na frekvenciji od 8

Khz, i kao posledica dobijamo signal sa 8008 bodovnih uzoraka. To je informacija koja se

koristi za analizu zvuka. Takođe koristimo kompjuterski program Sound Forge za obradu

zvučnog signala. Ovaj program nam omogućava da otklonimo šum u signalu, koji može da

nastane od osetljivosti mikrofona ili od neke druge buke iz pozadine. Posle upotrebe ovog

kompjuterskog programa dobijamo čist zvučni signal. Program takođe može da koristi brzu

Furijevu transformaciju koja služi za filtriranje zvuka. Na sledećoj slici prikazana je upotreba

programa za određeni zvučni signal.

Slika br.4 Glavni prozor kompjuterskog programa za obradu signala.

Na sledećoj slici prikazuje se upotreba brze Furijeve transformacije (FFT) za dobijanje

spektralne analize reči put na Španskom.

Slika br.5 Spektralna analiza specifične reči korišćenjem FFT-a.

Neuronske mreže za prepoznavanje zvuka

U našem primeru korišćeno je dvadeset različitih zvučnih signala kao podaci za

treniranje neuronske mreže sa jednim sakrivenim slojem. Trenažni algoritam koji je korišćen

je Resilient Backpropagation (trainrp), koji je pokazao dobre rezultate u ranijim korišćenjima.

U tabeli se vide rezultati eksperimenta sa ovim tipom neuronske mreže.

U tabeli su prikazani rezultati za Resilient Backpropagation trenažni algoritam. Ovaj

algoritam je izaabran iz razloga što se sa njim za najkraće vreme postiže treniranje neuronske

mreže (zahteva samo 7% ukupnog vremena eksperimenta). Poređenje vremenskih

performansi algoritama se vidi na slici br.6.

Tabela br.1 Rezultat neuronske mreže za 20 reči.

Slika br.6 Poređenje vremenskih performanski nekoliko trenažnih algoritama.

U tabeli 2 možemo da vidimo rezultate treninga neuronskih mreža koji su postignuti sa

različitim trenažnim algoritmima. Prikazane su prosečne vrednosti uspešnosti eksperimenata

svih trenažnih algoritama. Iz tabele se može videti da resilient backpropagation algoritam

predstavlja najprecizniju metodu, sa 92% uspešnosti pri prepoznavanju.

Tabela br.2 Poređenje stopa prepoznavanja četiri trenažna algoritma.

Na sledećim slikama opisuju se neki prosti primeri rezultata simulacija prepoznavanja

govornika korišćenjem neuronskih mreža. Prvo na slici br.7 prikazan je zvučni signal reči

„primer“ na španskom sa smetnjama. Sledeće, na slici br.8, je prikazana identifikacija reči

„primer“ bez smetnji.

Slika br.7 Ulazni signal reči „primer“ na španskom sa smetnjama.

Slika br.8 Identifikacija reči „primer“.

Iz slika 7 i 8 je jasno da jednostavna monolitna neuronska mreža može biti korisna za

prepoznavanje zvuka kad je u pitanju mali broj reči. Očigledno je da čak i reči koje poseduju

smetnje mogu biti identifikovane, sa minimalnom stopom od 92%. Naravno, za veću grupu

reči stopa prepoznavanja opada, a vreme obrade se povećava. Iz ovih razloga neophodno je

uzeti u obzir bolje metode za prepoznavanje glasa.

Prepoznavanje zvuka uz pomoć Modularnih neuronskih mreža i Type-2 Fuzzy

logike

Upotrebom modularnih neuronskih mreža možemo da unapredimo ranije dobijene

rezultate zato što nam modularnost omogućava da podelimo problem prepoznavanja na

jednostavnije pod probleme, koji se mogu lakše rešavati. Takođe koristimo type-2 fuzzy

logiku da modelujemo neodređenost rezultata dobijenih iz neuronskih mreža iz istih trenažnih

podataka.

Na sledećem primeru pokazujemo upotrebu hibridnog pristupa. Koristimo dva modula

sa po jednom neuronskom mrežom u svakoj modularnoj arhitekturi. Oba modula su trenirana

sa istim podacima, ali rezultati su donekle različiti zahvaljujući neodređenosti uključenoj u

procesu učenja. U oba slučaja koristimo neuronske mreže sa jednim skrivenim slojem sa po

50 čvorova i koristimo „trainrp“ kao logaritam za treniranje. Razlika u rezultatima se onda

koristi za kreiranje type-2 fuzzy skupa koji predstavlja neodređenost u klasifikaciji reči. Prvi

primer je reč „primer“ na španskom jeziku. Zvučni signal reči „primer“ se nalazi na slici br. 8.

Uzimajući u obzir sada samo deset reči za trenažni proces, rezultati prve neuronske

mreže će biti:

SSE = 4.17649e-005 (Sum of squared errors)

Output = [0.0023, 0.0001, 0.0000, 0.0020, 0.0113, 0.0053, 0.0065, 0.9901, 0.0007, 0.0001]

Output se može tumačiti kao vrednost člansta svakog zvučnog signala za svaku od

deset različitih reči u bazi podataka. U ovom slučaju, možemo da procenimo da je vrednost od

0.9901, vrednost članstva reči „primer“, veoma blizu vrednosti 1. Ali, ako sada stavimo u

trenažni proces drugu neuronsku mrežu sa istom arhitekturom, zbog različitih nasumičnih

inicijalizacija vrednosti, rezultati će biti drugačiji. Rezultat druge nuronske mreže:

SSE = 0.0124899

Output = [0.0002, 0.0041, 0.0037, 0.0013, 0.0091, 0.0009, 0.0004, 0.9821, 0.0007, 0.0007]

Primećujemo da je vrednost članstva reči „primer“ sada 0.9821. Sa dve različite

vrednosti članstva, možemo da definišemo interval [0.9821, 0.9901], koji nam daje

neodređenost članstva zvučnog signal reči „primer“ u bazi podataka. Moramo da upotrebimo

centroid deffuzification da bismo dobili jedau vrednost člansva. Ako sada ponovimo čitavu

proceduru za celu bazu podataka, dobijamo rezultate prikazane u tabeli ispod. U ovoj tabeli

možemo da vidimo rezultate za šest različitih reči.

Tabela br.3 Sumarni rezultati za dva modula (M1 i M2)

Isti modularni neuronsko mrežni pristup je primenjen na prethodnih dvadeset reči

(spomenutih u prethodnom odeljku) i stopa prepoznavanja se poboljšala do 100%, što

pokazuje prednost modularnosti kao i prednost upotrebe type-2 fuzzy logike. Takođe je došlo

i do smanjenja vremena obračuna upotrebom modularnosti.

Na sledećoj slici je prikazana kompletna arhitektura modularne neuronske mreže za

prepoznavanje glasa u kojoj se koriste tri neuronske mreže u svakom modulu. Takođe, svaki

modul obrađuje samo deo reči, koja je podeljena na tri dela, po jedan za svaki modul.

Slika br.9 Arhitektura modularne neuronske mreže za prepoznavanje glasa.

Takođe su vršeni eksperimenti sa upotrebom genetskih algoritama za optimizaciju

broja slojeva i čvorova neuronskih mreža modula sa veoma dobrim rezultatima. Ovaj pristup

je veoma sličan prethodno opisanom. Na slici br. 10 je prikazan primer upotrebe genetskog

algoritma za optimizaciju broja slojeva i čvorova jedne od neuronskih mreža u modularnoj

arhitekturi. Na ovoj slici proceniti minimizaciju fitnes sunkcije, koja uzima u obzir dva cilja:

zbir kvadrata grešaka i kompleksnost neuronske mreže.

Slika br.10 Genetski algoritam prikazuje optimizaciju neuronske mreže.

Documents

Primena Neuronskih Mreza u Prepoznavanju Zvuka