27
Aplikazioak III Testu hizketa bihurketa Inma Hernáez [email protected] 2003-2004 ikasturtea otsailaren 9 0,5 kreditu

Aplikazioak III Testu hizketa bihurketa - aholab.ehu.es · entzumen-pertzepzioa eta ulermen-ahalmena antolatzeko, burmuinak prozesatzen dituen datuen konplexutasuna eta kopurua hain

  • Upload
    others

  • View
    10

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Aplikazioak III Testu hizketa bihurketa - aholab.ehu.es · entzumen-pertzepzioa eta ulermen-ahalmena antolatzeko, burmuinak prozesatzen dituen datuen konplexutasuna eta kopurua hain

Aplikazioak III Testu hizketa bihurketa

Inma Hernáez [email protected] 2003-2004 ikasturtea

otsailaren 9

0,5 kreditu

Page 2: Aplikazioak III Testu hizketa bihurketa - aholab.ehu.es · entzumen-pertzepzioa eta ulermen-ahalmena antolatzeko, burmuinak prozesatzen dituen datuen konplexutasuna eta kopurua hain

Aplikazioak III : Testu Hizketa Bihurketa 2

Aplikazioak III Testu hizketa bihurketa ........................................................................... 1 1 Sarrera....................................................................................................................... 3

1.1 Motibazioa........................................................................................................ 3 1.2 Helburuak ......................................................................................................... 3 1.3 Metodologia...................................................................................................... 3 1.4 Ebaluazioa ........................................................................................................ 4

2 Testu-ahots bihurketa ............................................................................................... 5 2.1 Historia ............................................................................................................. 5 2.2 Erabilerak ......................................................................................................... 7 2.3 TAB sistemen osagaiak .................................................................................... 9

2.3.1 Sarrera....................................................................................................... 9 2.4 Prozesadore linguistikoa................................................................................. 10

2.4.1 Sarrera..................................................................................................... 10 2.4.2 Testuaren analisia ................................................................................... 11

2.4.2.1 Testuaren normalizazioa..................................................................... 11 2.4.2.2 Analisi linguistikoa............................................................................. 12

2.4.3 Transkripzio fonetikoa............................................................................ 13 2.4.4 Modulu prosodikoa................................................................................. 14 2.4.5 THBerako markatze-lengoaiak............................................................... 16 2.4.6 Iruzkinak................................................................................................. 16

2.5 Ahotsaren sintesia........................................................................................... 17 2.5.1 Formakin sintetizagailuak ...................................................................... 17 2.5.2 Kateatze-teknikak ................................................................................... 18

2.5.2.1 Ahots-bidezko erantzun-sistemak ...................................................... 18 2.5.2.2 PSOLA teknikak................................................................................. 19 2.5.2.3 MBROLA ........................................................................................... 20 2.5.2.4 Corpus bidezko sintesia ...................................................................... 21

3 Ariketak .................................................................................................................. 22 4 Lan praktikoa.......................................................................................................... 23 5 Glosategia ............................................................................................................... 24 6 Bibliografia............................................................................................................. 25

6.1 Oinarrizko bibliografia ................................................................................... 25 6.2 Bestelako bibliografia..................................................................................... 25

Page 3: Aplikazioak III Testu hizketa bihurketa - aholab.ehu.es · entzumen-pertzepzioa eta ulermen-ahalmena antolatzeko, burmuinak prozesatzen dituen datuen konplexutasuna eta kopurua hain

Aplikazioak III : Testu Hizketa Bihurketa 3

1 Sarrera

1.1 Motibazioa

Sistema automatikoak eta konputagailuak gure eguneroko bizitzaren tresna arruntak

bihurtzen ari dira, gizartean automatizazioa gero eta handiagoa izanik. Konputagailuak

erabilpen arrunteko tresnak dira eta teknikariak ez ezik erabiltzaile arruntak ere asko

dira. Hori dela eta, saiatzen ari dira komunikabide naturalagoak bilatzen, makina eta

gizakien arteko komunikazioa errazago izan dadin. Hots, makina erabiltzeko ezagumen

espezifikoa ez litzateke beharrezkoa izango eta ikasmen-prozesua gero eta motzagoa eta

errazagoa bihurtuko litzateke. Gizakientzat komunikatzeko bide naturalena hizketa

denez, makinaren eta erabiltzailearen arteko ahozko komunikazioa lortzea helburu

garrantzitsua da arlo teknikoan, eta aurrerapen nabariak egon dira azken urteotan.

Dagoeneko gero eta prestazio gehiago dituzte garatzen diren ahots-sistemek.

Makina-erabiltzailearen ahozko komunikazioan bi prozesu desberdin daude: alde batetik

ahots-sintesia deritzona, hau da konputagailuak ahotsa sortzea, eta bestetik ahots-

ezagutza deritzona, konputagailuak ahotsak duen mezua ulertzea. Apunte hauetan,

ahots-sintesiari ekingo diegu, hizketa-tratamenduaren oinarrizko kontzeptuak jorratuz.

1.2 Helburuak

Ikastaro honen helburuak honako hauek dira:

• Hizketaren tratamenduaren aplikazio-arloak ezagutzea.

• Testu Hizketa bihurketaren oinarrizko kontzeptuak ikastea.

• Ahots-sintesirako oinarrizko teknikak ezagutzea.

• Sistema hauen osagaiak eta aplikazioak ezagutzea.

• Sistema hauen mugak aztertzea.

1.3 Metodologia

Modulu gehienetan bezala klase presentzialak eta lan praktikoa konbinatzea

proposatzen da. Dokumentazio honetan oinarrituta zenbait ariketa proposatuko dira eta

bukaeran lan praktiko bat burutu beharko da bakarrik edo taldean (gehienez 2 pertsona

Page 4: Aplikazioak III Testu hizketa bihurketa - aholab.ehu.es · entzumen-pertzepzioa eta ulermen-ahalmena antolatzeko, burmuinak prozesatzen dituen datuen konplexutasuna eta kopurua hain

Aplikazioak III : Testu Hizketa Bihurketa 4

talde bakoitzeko). Ariketak edo lan praktikoa egitean sortzen diren zalantzak e-postaz

kontsultatu daitezke irakaslearekin.

1.4 Ebaluazioa

Modulua gainditzeko asistentzia eta proposatutako lan praktikoetako bat modu egokian

aurkeztea (e-postaz bidaltzea gomendatzen da) eskatzen da. Klaseetara etortzerik ez

duenak proposatutako ariketak ebatzita ere bidali beharko ditu modulua gainditu ahal

izateko. Klaseetara datozenak ariketak egitean aurkitu dituzten arazoak kontsulta

ditzakete e-postaz.

Page 5: Aplikazioak III Testu hizketa bihurketa - aholab.ehu.es · entzumen-pertzepzioa eta ulermen-ahalmena antolatzeko, burmuinak prozesatzen dituen datuen konplexutasuna eta kopurua hain

Aplikazioak III : Testu Hizketa Bihurketa 5

2 Testu hizketa bihurketa

2.1 Historia

Ahotsaren sintesiaren historian emandako lehen urratsen ikusketa bikaina aurki daiteke

(Lingaard, 85) (Flanagan, 72) edota (Klatt, 87) erreferentzietan.

Sintetizagailu guztiek, batzuek besteek baino hobeto, gizakion ahalmen fonadorea

irudikatzen dute, garaian eskuragarriak diren baliabideez eta teknikez baliatuz. Honela,

lehenengo sintetizagailuak tramankulu mekanikoak ziren, ondoren zirkuitu elektrikoak

eta, gaur egun, sintetizagailuak teknika digitalen bidez garatzen dira, hau da, algoritmo

eta ordenadoreen bidez.

Historiako lehen sintetizagailua duela 200 urte baino gehiago eraiki zuen von

Kempelen-ek -(Flanagan, 72)-en jakinarazia- eta gizakion aparatu fonadorea irudikatzen

zuen gailu mekanikoa zen. Hauspo batez (“birikiak”), mintz bibrakor batez (“ahots-

kordak”) eta mintzak sortutako soinua modulatzen zuen azal malguko hodi batez

(“ahoa”) osatuta zegoen. Horretaz gain, txilibitu batzuk ere bazituen soinu frikariak

sortu ahal izateko, tresna hau 5 bokale eta 19 kontsonante gauzatzeko gai zelarik.

Tramankulu hauen ikerketa eta erabilerak ia XX. mendearen bigarren herenerarte iraun

zuen, 1930.ean giza aparatu fonadorearen eredu elektrikoak garatzen hasi ziren arte.

Bestalde, giza aparatu fonadore aztertu eta bere parametroak ateratzeko gai ziren

tresneria elektrikoak ere agertu ziren. Lehenengo sintetizagailu elektrikoa Bell

laborategietakoa zen (1939), eta Dudley-ren voder-a modura ezagutzen da (Dudley et

al, 1939). Ahots-seinalearen sintesia lortzeko seinale batekin paraleloan konektatuta

zeuden erresonadoreak kitzikatzen ziren; seinale hori seinale periodikoa zenean, soinu

ahostunak ekoizten ziren, eta seinalea zaratatsua zenean, soinu ahoskabeak. Seinale

periodikoaren frekuentzia pedal baten bidez doi zitekeen eta eszitazio-seinalearen

aukeraketa eskuz egin zitekeen barra bat erabiliz. Gainera, voder-ari erantsita teklatua,

eta iragazkien irabaziak kontrolatzeko zein leherkarien ekoizpenerako kontrolatzaileak

zeuden. Sistemaren erabiltzailea, beraz, trebea eta esperientziaduna izan behar zen ahots

ulergarria erdiesteko.

1952.ean, Dudley-ren voder-ean berrikuntza aipagarria egin zen, teklatua,

espektrograma batean erakutsitako anplitudeen proportzionala zen eran argiztatzen ziren

Page 6: Aplikazioak III Testu hizketa bihurketa - aholab.ehu.es · entzumen-pertzepzioa eta ulermen-ahalmena antolatzeko, burmuinak prozesatzen dituen datuen konplexutasuna eta kopurua hain

Aplikazioak III : Testu Hizketa Bihurketa 6

zelula fotoelektrikoez ordezkatzean. Makina osagarri hau patroiak entzuteko makina 1

(Cooper et al, 52) modura ezagutarazi zen. Makina honen bidez, voder-aren sarrerako

kontrolak automatikoki doitzen ziren, ahots gora irakur dezakeen lehen makina

dugularik, nahiz eta makinak irakurtzen duena ez den karaktere ortografikoz idatzitako

testua baizik eta aurretik kalkulatutako espektrograma.

60. hamarkadan, ahotsaren sintesirako sistema mota bi hasi ziren garatzen aldi berean.

Alde batetik ahots-seinalearen eredua lortzera zuzendutako sistemak garatu ziren

bukaera analogoko sintetizagailu2 modura ezagutzen direnak, eta ahots-seinalearen

bukaerako karakteristikak dituen seinalea ekoiztea dutenak helburu, seinalea lortzeko

jarraitutako prozesuak eta ahotsa ekoizteko prozesuak zerikusirik duten ala ez kontutan

hartu gabe. Beste lan-ildo batean, giza aparatu fonadorearen fisiologia modelatzera

bideratutako sistemak landu ziren (sintesi artikulatorioa). Azken teknikak

proposatutako eredua askoz malguagoa eta zientifikoki erakargarriagoa da, ahotsaren

ekoizpenaren benetako prozesuaren modelatzea ahalbidetzen baitu, baina, beste alde

batetik, datxekion zailtasuna ere askoz handiagoa da. Sintesi koartikulatorioaren

ereduak gaur egun ere aztertzen dira eta ezarpen-eremu oso interesgarria aurkitu dute

‘aurpegi hiztunen’ sintesian, non ekoiztu beharreko soinuen eta artikulatzaileen

(masailezurra, ezpainak, mihia, lepoko muskuluak...) arteko harremana ezagutzea

ezinbestekoa den irudi errealistak sortzeko. Hala ere, hain konplexuak diren prozesu

hauek modelatzeko beharrezkoa den kalkulu-ahalmena hain da handia ezen sintesi

artikulatorioko sistemetatik abiatuz ez da sistema komertzialik agertu.

Ordenadore lan-tresna modura erabiltzeak, hardware inplementazioa egin orduko,

sintetizagailuak simulatzea ahalbidetu zuen, edota baita ere hardware inplementazioaren

ordezkapena (gaur egungo sistema komertzial ugari software dira), 70. hamarkadan

sistema ugari agertu zirelarik, gehienak bukaera analogoko sintetizagailuetan

oinarrituta. Hauen artean oinarrizko mota bi azpimarratuko ditugu: formakin

sintetizagailuak, eta iragarpen linealeko tekniketan oinarritutakoak, azken teknika

hauek oso erabiliak dira seinaleen konpresioan eta kodifikazioan.

Ahotsaren ekoizpen artifizialaren modeloen garapenarekin eta ahots-seinalearen analisi

eta sintesi-tekniken hobekuntzarekin batera, 60. hamarkadan Testu-Hizketa Bihurketa

1Pattern playback machine

2 Terminal-analogue synthesizer

Page 7: Aplikazioak III Testu hizketa bihurketa - aholab.ehu.es · entzumen-pertzepzioa eta ulermen-ahalmena antolatzeko, burmuinak prozesatzen dituen datuen konplexutasuna eta kopurua hain

Aplikazioak III : Testu Hizketa Bihurketa 7

(THB) sistemek sortutako interesa handitu egin zen: hau da, ahots artifiziala lortuz

konformatu beharrean, orain helburua idatzitako mezuaren erreprodukzioa da. Une

honetan ahots-seinaleen ezaguera ez ezik, hizkuntzarena eta hautemate-prozesuena ere

kontutan hartzen hasten dira diseinu tekniketan.

80. eta 90. hamarkadetan sistema hauek bilakaera azkarra pairatu zuten, eta kalitate

handiko ahotsaren sintesiaz hitz egin daiteke, batez ere eskuragarriak diren teknika

digitalei eta kalkulu-ahalmen izugarri handiari esker. Horrela, garapen komertzial

batzuk agertu ziren, mezuak era guztiz ulergarrian irakurtzeko gai zirenak, baina

naturaltasun aldetik gabezia handiak zituztenak. Gabezia honek, sintetizatutako

ahotsaren naturaltasun edo adierazkortasun ezak, ikaragarri oztopatu du sistema hauen

hedatzea jendartean, eta erabiltzailea sistema hauekin batez ere aplikazio telefonikoen

bidez jartzen da harremanetan, non ulergarritasuna den ezaugarri garrantzitsuena eta

naturaltasuna ez den faktore erabakigarria.

Azken urteotan, konputagailuen kalkulu-ahalmena oso bizkor handitu da eta berarekin

batera, baita hizkuntzaren ereduak sortzeko aukera eta ahotsen datu-base handiak

sortzekoa ere; guzti honi esker, naturaltasuna lortu dela esan daiteke, gutxienez hitz

egiteko era neutralean. Sistema hauen erabilerak aurrera egiten duen heinean, THB

sistemek hitz egiteko era zabalagoak jazartzera joko dute halabeharrez, sintetizagailua

emozioen bidez hitz egiteko ahalmenaz hornituz.

2.2 Erabilerak

Testu-hizketa bihurketa sistemek potentzialki erabilera ugari dituzte. Hemen baztuk

aipatuko ditugu, bakoitzaren mugak adieraziz:

• Minusbaliotasunak dituzten pertsonei laguntza-ematea. Ahozko minusbaliotasun

motorea duten pertsonentzako oso handiko laguntza izan daitezke makinak:

espresuki diseinatutako teklatuaren laguntzaz eta aurretik zehaztutako zenbait

esaldiren erabilera ahalmentzen duen komando multzo batekin, THB sistemak

pertsona horrentzako ahots sintetikoa sor dezake. Adibide ezagunena Stephen

Hawking astrofisikari ospetsuarena da, era honetaz baliatzen dena bere klaseak

emateko. Pertsona itsuei ere mesede egin diezaiekete sistema hauek: THBaren

sarrera karaktereen antzemate optikoko sistema batekin akopla daiteke. OCR3ak

3 OCR: Optical Character Recognizer

Page 8: Aplikazioak III Testu hizketa bihurketa - aholab.ehu.es · entzumen-pertzepzioa eta ulermen-ahalmena antolatzeko, burmuinak prozesatzen dituen datuen konplexutasuna eta kopurua hain

Aplikazioak III : Testu Hizketa Bihurketa 8

THBak behar duen sarrera testua emango du. Pertsona itsuek THB teknologiaren

onura har dezakete ordenagailuak erabiltzeko orduan ere: pantailan irakurtzen

dugun guztia erreproduzitzea posible da. Adibidea Microsoft-ek merkaturatutako

Microsoft Reader programa da.

• Telekomunikazio-zerbitzuak. THB sistemen erabilera interesgarrienetarikoa

urrutiko testu informazio sistemak, sistema telefonikoaren bidez eskura jartzen

dituela da. Kontuan izan behar da gaur egun mundu “garatuko” populazioaren ia

%100-ak duela telefonoa. Sistema hauen erabilgarritasuna agerian jartzen da

testua ez dagoenean aurretik zehaztuta edota eman beharreko testu desberdinen

kopuruak mezu guztien grabaketa ezinezkoa egiten duenean. Adibide

esanguratsuak dira hiri bateko jazoera kulturalei buruzko (zinemak, antzokiak,

museoak) argibide-zerbitzariak, argindar edo telefono-konpainiek emandako

fakturazio-datuei buruzko argibidea, norberaren banku-kontuaren argibidea,

etab. Azken urteotan, posta elektronikoaren zabaltzea ondoren, telefono-

operadoreek posta elektronikoa irakurtzeko sistemak eskaintzen dituzte.

• Ahozko monitorizazioa. Zenbait egoeratan ahozko informazioa jasotzeak eta ez

ikusmenaren bidezkoa, arreta, beste ikus-informazio iturri batzuetan jartzea

ahalbidetzen du. Hortik, altimetro, termometro, bira-zenbatzaile eta beste

kontrol-tresna batzuei, emandako balioak ahots goran irakurtzeko

sintetizagailuak eransteko ideia.

• Hezkuntza linguistikoa. THB oso lagungarria izan daiteke hizkuntza berri bat

ikasteko orduan, ordenadore batez lagundutako hezkuntza-sistema bati akoplatuz

gero. Halere, gaur egungo sintetizagailuek ez dute oraindik mota honetako

lanetarako beharrezkoa den kalitatea eskaintzen.

• Ikerketa oinarrizkoa eta aplikatua. Testu-ahots bihurketa sistemek aparteko

tresna osatzen dute linguistentzako: hizkuntz-eredu desberdinak probatzeko

aukera ematen diete, gainontzeko parametroak kontrolpean mantenduz.

Fonetistek bereziki formakin sintetizagailuak erabili dituzte ahots-ekoizpenaren

arau akustikoak ikertzeko. Bestalde, THB sistema osatzen duen modulu

bakoitzak badu bere erabilgarritasun propioa, eta sistema beraren garapen eta

hobekuntzarako erabiltzeaz gain, itxuraz zerikusirik ez duten beste aplikazio

batzuetan ere erabiltzen dira, hala nola testuen etiketatze automatikoan,

transkripzio fonetikoan zein beste batzuetan.

Page 9: Aplikazioak III Testu hizketa bihurketa - aholab.ehu.es · entzumen-pertzepzioa eta ulermen-ahalmena antolatzeko, burmuinak prozesatzen dituen datuen konplexutasuna eta kopurua hain

Aplikazioak III : Testu Hizketa Bihurketa 9

2.3 TAB sistemen osagaiak

2.3.1 Sarrera

2.1. irudia. Ahozko irakurketa prozesuaren diagrama sinplea

2.1. irudian agertzen den diagramak testu baten irakurketan parte hartzen duten ekintzak

(ikusi, pentsatu, hitz egin eta entzun) erakusten ditu era eskematikoan. Prozesu

hauetariko batzuk besteak baino hobeto ezagutzen dira, irakurketan parte hartzen duten

kanpoko organoekin lotutako prozesuak mekanismo neurobiologikoak baino askoz

hobeto ezagutzen direlarik. Har dezagun adibidez ekoiztutako seinale akustikoaren

atzeranzko berrelikadura. Jakina da berrelikadura honek ahozko ekoizpenean eragiten

duela, eragina handia delarik haurrek hitz egiten ikasten duteneko garaian, baina baita

ekoizpen prozesu arruntetan (saia zaitez zure burua entzun barik hitz egiten). Halere,

entzumen-pertzepzioa eta ulermen-ahalmena antolatzeko, burmuinak prozesatzen dituen

datuen konplexutasuna eta kopurua hain dira handiak ezen prozesu honen ikerketa

izugarri konplexua bihurtzen duten.

Oro har, ahots-seinalea, konpentsazio eta doitze prozesu etengabearen emaitza da,

prozesuan muskuluak eta artikulatzaileak neuronen kinadei erantzuteko prestatzen dira,

neuronek bere aldetik belarriek hauteman eta burmuinera bidalitako estimuluei

erantzuten dietelarik. Prozesua hain konplexua izanik, ezinbestekoa da nolabait

sinplifikatzea.

Prozesu hauen konplexutasuna dela eta, gaur egungo testu-hizketa bihurketa sistemak ez

daude funtzionamendu eskema honen menpe, baizik eta testu mezuaren lokuzioa

lortzearen bukaerako helburura zuzenduta daude.

Page 10: Aplikazioak III Testu hizketa bihurketa - aholab.ehu.es · entzumen-pertzepzioa eta ulermen-ahalmena antolatzeko, burmuinak prozesatzen dituen datuen konplexutasuna eta kopurua hain

Aplikazioak III : Testu Hizketa Bihurketa 10

Gaur egungo testu-ahots bihurketa sistema gehienak 2.2. irudian aurkezten den bi

modulutako eskeman oinarrituta daude. Teorian, bi moduluek ez dute

elkar-menpekotasunik, guztiz independenteak dira. Lehenengo moduluak testuaren

tratamendua egiten du, hizketa osatzen duen soinu-katearen irudikapen egokia lortuz.

Orokorrean hizkuntzaren menpe dago erabat, eta arkitektura eleaniztunaz diseinatutako

sistemak dauden arren, beti izan beharko da kontutan hizkuntzaren berariazkoa den

aurretik zehaztutako arau, eredu eta hiztegien multzoa.

Tratamendu linguistikoa

AhotsaTestua

Formalismo linguistikoak

Eredu matematikoak

Sintesiaren robota

Testu ahots bihurgailua

Fonemak eta prosodia

Tratamendu linguistikoa

AhotsaTestua

Formalismo linguistikoak

Eredu matematikoak

Sintesiaren robota

Testu ahots bihurgailua

Fonemak eta prosodia

2.2. irudia. Testu hizketa bihurgailuaren moduluak

Bigarren moduluak, lortutako irudikapenetik abiatuz, dagokion seinale akustikoa

sortzen du, seinalearen prozesatze teknikak eta ezagutzen diren ahots-ekoizpenaren

ereduak erabiliz. Modulu honetan ahotsari izaera emango zaio (gizon -edo emakume-

ahotsa izango da, soinuak ahoskatzeko era propioa izango du...), eta datu-basean soinu

guztien irudikapen osoak baditu, mezuak edozein hizkuntzatan erreproduzitzeko gai

izan beharko litzateke.

Hurrengo ataletan modulu bi hauen funtzionamendua aztertuko da.

2.4 Prozesadore linguistikoa

2.4.1 Sarrera

Orokorrean, norbaitek testu-ahots bihurketa sistema batez pentsatzen duenean, berehala

etortzen zaio burura ahots sintetikoa sortzeko zailtasuna, zailtasun hori seinalearen

Page 11: Aplikazioak III Testu hizketa bihurketa - aholab.ehu.es · entzumen-pertzepzioa eta ulermen-ahalmena antolatzeko, burmuinak prozesatzen dituen datuen konplexutasuna eta kopurua hain

Aplikazioak III : Testu Hizketa Bihurketa 11

prozesatzeak dakartzan algoritmoekin lotuz, eta tratamendu linguistikoaren garrantzia

gutxietsiz. Haatik, tratamenduak bukaerako produktuaren kalitateari eta

erabilgarritasunari egindako ekarpena, ahots-sintesirako moduluak lortzen duen soinuen

ulergarritasunak egindakoaren mailakoa da, eta izan ere, tratamenduaren hutsegiteak

orokorrean deigarriagoak eta desatseginagoak dira (norbaitek soinu zehatz bat

zailtasunez ahoskatuz gero-adibidez errea-, azkar ohituko gara akats honetara, baina

pertsona horrek “bi zero zero bat gidoia zero bi gidoia zero zazpi” irakurtzen badu

“2001-02-07” jartzen duenean, lortuko dugu ulertzea?).

Atal honetan modulu honetan garatutako zeregin nagusiak aztertuko ditugu, horretarako

hiru multzo handitan banatuko ditugularik:

• Testuaren analisia: esaldiaren hitz edo bestelako elementu bakoitzari dagozkion

hainbat ezaugarri linguistikoaren lorpena.

• Transkripzio fonetikoa: mezuaren adierazpenari dagokion soinu-katearen

irudikapen sinbolikoaren lorpena.

• Modulu prosodikoa: ekoiztutako soinu-kateari erritmo jakin batez eta intonazio

egokiaz hornitzea.

2.4.2 Testuaren analisia

Sintetizagailuaren lehen modulua da eta beraz erabiltzaileari interfazea ematen dio.

Jarraian deskribatzen diren prozesuak segidan eta linealki egiten ohi dira gehienetan,

baina ez beti.

2.4.2.1 Testuaren normalizazioa

Testu-ahots bihurketa sistema oro zailtasun hauei aurre egiteko gai izan beharko da:

• Digitu-sekuentziak hitzetan hedatzea, konplexutasun-gradu desberdinekin

(telefono-zenbaki, agiri-zenbaki, PIN kode eta abarren interpretazioa). Era

berean, ordu, data, denbora-tarte, kirol-emaitza eta abarren interpretazioa.

• Laburdura, sigla eta bestelako esamolde arrunten hedapena.

• Karaktere berezien eta puntuazio-zeinuen (portzentai-, moneta-, parentesi-,

gidoi-zeinuak eta ohiko puntu, puntu ta koma, bi puntu...) funtzioen

interpretazioa eta anbiguotasunaren ezabapena.

• Sarrerako testua esaldi edota esaeratan segmentatzea.

Page 12: Aplikazioak III Testu hizketa bihurketa - aholab.ehu.es · entzumen-pertzepzioa eta ulermen-ahalmena antolatzeko, burmuinak prozesatzen dituen datuen konplexutasuna eta kopurua hain

Aplikazioak III : Testu Hizketa Bihurketa 12

Aipatutako lehenengo hiru funtzioak “testuaren normalizazioa” izenpean batu ohi dira

tradizionalki. Oro har, eginkizun hauek soilik forma-aspektuak hartzen dituzte kontutan

(formak ingurune ortografiko hurbilean bilatuz), egitura sintaktikoa edo morfologia

moduko beste mailako aspektuak alde batera utziz. Honek ez du beti behar bezalako

emaitzarik ematen. Esate baterako, ingelesez, “$5” adierazpena “five dollars” modura

hedatuko litzateke normalean, baina izen baten aldagai lana egiten badu: “$5 bill”,

orduan hedapen zuzena “five dollar bill” da. Zentzu horretan, euskaran anbiguotasunen

ezabapen gehienak informazio sintaktikorik gabe egin daitezke, baina atzizkiak

gehitzeko eta hitz konposatuak eratzeko gidoien erabilera zabala dela eta, gutxienez

atzizki posibleak ezagutu behar dira.

Normalizazio-modulu honen emaitza zuzenean ahoska daitezkeen karaktereen katea da,

karaktereak esaldiak edo esaerak eratuz batuta agertuko direlarik. Gainera, esaldiak edo

esaerak sailkatuta egongo dira adierazpen-perpaus, galderazko, jarraitasun-perpaus edo

bestelako modura.

2.4.2.2 Analisi linguistikoa

Modulu honen helburua behar adinako informazio linguistikoa ematea da ondorengo

transkripzio fonetikoko eta prosodikoko moduluei. Modulu honen sofistikazio-maila

oso aldakorra da: testuaren silabifikazioa egin eta azentuen esleipena soilik informazio

horretaz baliatuz egitea bezain sinplea izan daiteke, edo etiketatze morfologiko eta

sintaktiko osoa egitea bezain konplexua, sintagmak eta talde prosodikoak eratuz eta

ondoren azentuazioa eginez eta enfasia esleituz, etab... Sistema gehienak analisia

egiteko orduan bai hitzen bai lemen hiztegietaz baliatzen dira.

THB sistemetan analisia era honetan gauzatzen da:

• Lehengo eta behin, testuaren etiketatze morfologikoa egiten da. Erabiltzen diren

etiketak ez dute zertan etiketa linguistiko klasikoekin zehatz-mehatz bat egin

behar. Etiketa hau Part Of Speech (POS) modura ezagutzen da, eta hitz

bakoitzerako emaitza bat baino gehiago ematen ditu orokorrean.

• Ondoren hitz bakoitzaren etiketatzearen anbiguotasuna ezabatzen da hitza

dagoen testuinguruaren laguntzaz. Oraindik etiketatze anbiguo batzuk gera

daitezke.

• Bukatzeko, analisi sintaktikoa gauzatzen da, zeinak anbiguotasunak ezabatzen

bukatzeaz gain, hitzak sintagma eta esaeretan batuko dituen.

Page 13: Aplikazioak III Testu hizketa bihurketa - aholab.ehu.es · entzumen-pertzepzioa eta ulermen-ahalmena antolatzeko, burmuinak prozesatzen dituen datuen konplexutasuna eta kopurua hain

Aplikazioak III : Testu Hizketa Bihurketa 13

Euskararako egindako arlo honetako lan aipagarrienak IXA taldearenak dira (Ezeiza et

al., 1998). Honela, talde honen analizatzaileen bidez lortutako emaitzak euskaran etenen

topatzearen analisirako erabili dira (Navas et al., 2002).

2.4.3 Transkripzio fonetikoa

Modulu hau “hizkietatik soinuetara” modura ezagutzen da edo baita “grafemetatik

fonemetara” modura. Bere funtzionamendua ez da izenek aditzera ematen duten bezain

zuzena: ez da “hizki bat-soinu bat” prozesu bat ezta “grafema bat-fonema bat” prozesua

ere, baizik eta prozesu korapilatsu samarra da normalean.

Ahoskatzearen irudikapen sinbolikoa egiteko lehen urratsa irudikapen bakarra

aukeratzea izan da, eta honela, azken urteotan SAMPA4 alfabetoaren erabilera hedatu

da.

Azaltzen den lehen arazoa ahoskatze-arau multzoaren definizioa da. Hizkuntza guztiek

dialekto desberdinak eta intonazio-desberdintasun handiak dituzten hizkuntzaren

barietateak dituzten arren, hizkuntza gehienetan ahoskatzeko era normalizatuaren

gainean adostasuna dago. Euskara batuan, aldiz, puntu hau oraindik ez dago gaindituta,

ahoskatze-arauak zehazteko eta finkatzeko adostasunik ez delarik lortu.

Behin hizkuntza baten hitzen ahoskatzea ezagutzen edo definitzen denean, lanari

ekiteko bi era daude:

• Hiztegian oinarritutako transkripzioa: hiztegiak hitzen ahoskatzeak gordetzen

ditu. Hiztegiaren tamaina zentzuzko mugen artean mantendu ahal izateko, soilik

morfemak gordetzen dira, eta hitzen transkripzioa eratzeko eratorpenaren,

inflexioaren eta konposaketa morfofonemikoaren arauak aplikatzen dira.

MITALK sistemak (Allen et al., 87) metodo honetan datza, sarrera-hitzen %95a

betetzen duten 12000 morfema dituen hiztegia duelarik. Bell laborategietako

sistemak ere ikuspegi honi darraio (Coker et al.,90).

• Arauetan oinarritutako transkripzioa: “hizkietatik soinuetara” pasatzea

ahalbidetzen duen arau-multzoa definitzen da eta arau berezi propioak dituzten

hitzen kasurako salbuespenen hiztegia eraikiz.

Ikuspuntu biek dituzte abantaila eta desabantailak, hizkuntzaren erabat menpekoak.

Euskararen kasuan arauetan oinarritutako transkripzioa egin da AhoTTS bihurgailua

Page 14: Aplikazioak III Testu hizketa bihurketa - aholab.ehu.es · entzumen-pertzepzioa eta ulermen-ahalmena antolatzeko, burmuinak prozesatzen dituen datuen konplexutasuna eta kopurua hain

Aplikazioak III : Testu Hizketa Bihurketa 14

garatzeko. Batua ahoskatzeko araurik ez badago ere, (Oñederra 1994) eta (Alvarez

1982, 1992) erabili dira aipatutako sisteman.

2.4.4 Modulu prosodikoa

Modulu prosodikoa, ahotsa ingurune melodiko batez eta erritmo egoki batez

hornitzearen erantzulea da. Ingurune melodikoa intonazioaren kontrolaren bidez lortzen

da (zeinaren korrelatu akustikoa oinarrizko maiztasuna edo ahotsaren pitch-a den), eta

erritmoa, soinuen iraupenen esleipenaren bidez eta hitzak elkartuz eta hauetariko

batzuen artean etenak kokatuz, hitz batzuk besteen aurrean eta silaba batzuk besteen

aurrean nabarmenduz gainera.

Gertaera prosodikoak batez ere silaba mailan edo silaba-multzo eta hitzetan jazotzen

dira, gertakari prosodikoei gertakari suprasegmentalak ere deritze (segmentu-

ezaugarriak deitzen diren eta segmentu akustiko mailan ematen diren gertakariekin

kontrajarriz).

Prosodia irudikapen maila desberdinetatik azter daiteke, 2.I taulak erakusten duen

modura (Dutoit, 97):

Maila akustikoa Pertzepzio-maila Maila linguistikoa

Oinarrizko maiztasuna (F0) Pitch Tonua, intonazioa, azentuaren

aspektua

Anplitudea, energia, intentsitatea Bolumena Azentuaren aspektua

Iraupena Luzera Azentuaren aspektua

Maila dinamikoa Indarra Azentuaren aspektua

2.I. Taula: Prosodia irudikapen mailak

I taulan agertzen diren mailei jarraituz, intonazio-ereduak, erabiltzen duten irudikapen-

mailaren arabera sailka ditzakegu: eredu akustikoak (Fujisaki et al, 84)(Taylor,

2000)(Hirst et. al 94), pertzepzio-ereduak (‘t Hart et al 91)(Collier, 91) eta eredu

linguistikoak (Crystal, 69), (Delattre, 66) (Martin, 82) (Pierrehumbert, 81). Modelatze

honen emaitza, metodo bat edo beste erabilita ere, intonazioaren irudikapen sinbolikoa

da.

4 http://www.phon.ucl.ac.uk/home/sampa. IPA alfabetoa ez dago oso zabaldua informatikaren munduan, irudikapen

sinbolikoa egiteko duen zailtasuna dela eta.

Page 15: Aplikazioak III Testu hizketa bihurketa - aholab.ehu.es · entzumen-pertzepzioa eta ulermen-ahalmena antolatzeko, burmuinak prozesatzen dituen datuen konplexutasuna eta kopurua hain

Aplikazioak III : Testu Hizketa Bihurketa 15

Prosodia, hizketaren beste alde batzuekin erlazionatuta dago, hala nola sintaxiarekin,

semantikarekin eta pragmatikarekin, eta lotura hauek dira, hain zuzen, sarrera-testu

jakin batentzako, prosodia automatikoki ekoizten duten sistemak diseinatzea

baimentzen dutenak. Sintaxiaren analisia, semantikarenarekin edota

pragmatikarenarekin alderatuta, erraz samarra denez, prosodia eta sintaxiaren arteko

harremana izan da gehien aztertu dena alde handiarekin, eta THB sistemek kontutan

hartzen duten bakarra da. Zehazki, ahalegin handienak sarrera-testua intonazio-

taldeetan era zuzenean segmentatzera bideratuta daude. Talde hauen eraketa aurretiko

urratsa dela onartzen da.

Harreman hauek aurkitzeko ikuspuntu desberdinak daude: metodo heuristikoak

(Liberman et al. 92), gramatiken erabilera (Traber, 93) edo teknika estatistikoak

(Hirschberg, 91). Euskararen kasuan, azken teknika hauek probatu dira arrakastaz

(Navas et al. 00)(Navas et al. 02).

Aipatutako talde prosodikoak garatzeko, eta ondoren, aplikatzeko, intonazio-taldeetan

batzeaz gain, talde bakoitzari azentua kokatzea eta taldeen prominentzia erlatiboa

jakitea beharrezkoa izango da.

Silaba azentudunak kokatzea euskararen kasuan ez da lan erreza, euskalkien azentuaren

konplexutasunagatik alde batetik, eta euskara batuan erregela finkoen gabeziarengatik

bestetik. Zentzu honetan, Hualde-k eta Txilladergi-k eginiko proposamenak (Hualde,

1994) (Alvarez, 1986, 1987a, 1987b) zehazteko beharra dago.

Talde prosodiko bakoitzari dagokion enfasi ezartzea, esaldiaren galdegaia

ezagutzearekin lotuta dago. Euskaran oso adibide adierazgarria da galdegaiaren

posizioaren detekzioaren arazoa. Demagun honako galderazko esaldi biak ditugula:

- Nork egin du lana?

- Lana gizonak egin du?

Esaldi bakoitzari dagokion intonazioa nabariki desberdina da galdegaiaren posizio

desberdina dela eta. Honela, intonazioaren modelatzea errealitatetik hurbilago egongo

da esaldiaren galdegaiari intonazio jakin bat egokitzea lortuz gero.

Galdegaiaren posizioa beste funtzio baterako erabilgarria da baita ere, esate baterako

etenen arteko talde fonikoen edo hitz-taldeen eraketan.

Page 16: Aplikazioak III Testu hizketa bihurketa - aholab.ehu.es · entzumen-pertzepzioa eta ulermen-ahalmena antolatzeko, burmuinak prozesatzen dituen datuen konplexutasuna eta kopurua hain

Aplikazioak III : Testu Hizketa Bihurketa 16

2.4.5 THBerako markatze-lengoaiak

Testu bat tonu neutral batean irakurtzeaz gain, THB sistemak asmo handiagoko

erabilpenetan ere aplika daitezke, hala nola erabiltzailearekin elkarrizketa bat sortzeko,

edo panpina bat ahotsez hornitzeko aplikazio multimedia batean. Baina honetarako ez

da nahikoa esaldi koherenteak egiteko gai izateak enuntziatuz, galdetuz, baieztatuz...

Beharrezkoa izango da ahotsari adierazkortasuna eta emozio-ahalmena ematea: poza,

tristura, amorrua, haserrea, gogaitasuna... ahotsean nabari daitezkeen emozioak dira eta

beraz sortzeko gai izan beharko ginateke.

Sarrera-testua bada erabiltzen dugun datu-iturri bakarra, oso zaila da emozio horiek

detektatzea, beraz testuaren etiketatze sistema bat erabiltzen da, testuaren segmentu

bakoitza sistemak ze motako ahotsez edo emozioz irakurri behar duen adierazten

delarik. Gainera, etiketa hauek, sistemak automatikoki ezin edo zailki detekta ditzakeen

ezaugarriak esplizituki adierazteko erabil daitezke. Adibidez, ortografian agertzen ez

diren etenak adieraz daitezke, edo esatari-aldaketak, irakurketa-abiaduraren aldaketak...

2.4.6 Iruzkinak

Prozesadore linguistikoa osatzen duten eginkizun bakoitzaren konplexutasun-maila,

testu-hizketa bihurketa sistemari eman nahi zaion funtzionaltasunaren menpe dago

neurri handi batean. Esate baterako, hornitzaile jakin baten bezeroen posta elektronikoa

irakurri behar duen sistemak, testuan “smily”ak moduko karaktere bereziak edo

internet-eko helbideak edo posta elektronikoko helbideak agertzeko probabilitatea hartu

beharko du kontutan, eta baita berariazko esamoldeak (“salu2”-“2ba!” moduko

laburdurak) eta idazteko era tipiko eta bereizgarria – baina ez halabeharrez mundu

guztiarena- (soilik minuskulen erabilera, sinadurak, ezaugarriak...). Are gehiago,

sistema, mezuaren hizkuntza igartzeko prestatuta egon behar da, edo behintzat THB

sistemaren diseinuan parte hartu duten hizkuntzaren batean idatzita dagoen ala ez

identifikatzeko. Garbi dago eginkizun hauek ardura handiaz hartu beharko direla

kontutan modulu normalizatzailean, ez badugu bezeroa gogogabetu nahi, berez nekosoa

den eginkizunean THBa erabiltzeko orduan (gure postaren ze mezu-portzentai da gure

interesekoa?, mezu bakoitza, ingelesez idatzita dagoela eta interesatzen ez zaigun

publizitatea dela ondorioztatzeko, bi aldiz edo gehiagotan irakurtzera behartuko gintuen

sistema, jasango al genuke?).

Page 17: Aplikazioak III Testu hizketa bihurketa - aholab.ehu.es · entzumen-pertzepzioa eta ulermen-ahalmena antolatzeko, burmuinak prozesatzen dituen datuen konplexutasuna eta kopurua hain

Aplikazioak III : Testu Hizketa Bihurketa 17

Beste alde batetik, ikusmen-arazoak dituzten pertsonei liburuak irakurtzeko laguntza

ematea helburu duen sistema pertsona berak erabiliko du denbora luzez eta, nahiz eta

pertsona itsuak bezero bereziki laguntzaileak diren orokorrean, makinak intonazio

aldakorra eta adierazkorra eman beharko luke, entzulea ez aspertzeko asmotan, eta bere

arreta ez galtzeko asmotan.

Edozein kasutan ere, prozesadore linguistikoaren garapenak, dagokion hizkuntzaren

analisi- eta hizkuntzaren modelatze-tresneriak eskuragarri izatea eskatzen du. Zehatz-

mehatz, beharrezkoa da honako hauek eskura izatea:

- Analisi morfosintaktiko automatikoaren mekanismoak, zenbat eta garatuagoak

eta azkarragoak izan, hobe.

- Azentuaziorako eta hitzen ahoskerarako arau definituak.

- Landutako eredu prosodikoak.

Eredu eta tresna hauek garatzeko ahalmena, neurri handian, eskuragarriak diren

hizkuntzaren baliabide linguistiko idatzi zein ahozkoen menpe dago.

2.5 Ahotsaren sintesia

2.5.1 Formakin sintetizagailuak

Sintesi-teknika hau bai ahotsaren kalitatearen aldetik bai naturaltasun-aldetik arras

gaindituta dagoen arren, oraindik guztiz bizirik dagoen teknika-mota da eta oso erabilia.

Merkatuan, hardware sistema independente gisa dauden sintesi-sistema gehienak

formakin sintetizagailuak dira (ingeleserako MITALK (Allen et al., 87) eta JSRU

(Holmes et al., 1964), gaztelaniarako (Santos et al 1982), INFOVOX sistema

eleaniztuna (Carlson et al., 82), eta frantseserako I.N.R.S. sistema (O’Shaughnessy, 84)

edo (Bailly, et al., 88)).

Formakinen bidezko sintesi-sistema batek ahots-seinalearen sintesi osoa egiten du,

soilik ahots-ekoizpenaren sistemaren eredu bat eta ekoizpen-arau multzo bat erabiliz

(ikus (Holmes, 83) edo (Klatt, 1980) sintesi-sistemaren deskribapen osorako),

horregatik arau bidezko sintesi-sistemak modura ezagutzen dira baita ere. Kontrola

daitezkeen 60 bat parametro dago, parametroek, formakinekin eta dagozkien banda-

zabalerekin, eta iturriaren ezaugarriekin (pultsu glotala) bat egiten dute. Sintesia egiteko

orduan, arau-multzo batek, denbora-tarte laburretarako (5-10 ms), testuinguru

Page 18: Aplikazioak III Testu hizketa bihurketa - aholab.ehu.es · entzumen-pertzepzioa eta ulermen-ahalmena antolatzeko, burmuinak prozesatzen dituen datuen konplexutasuna eta kopurua hain

Aplikazioak III : Testu Hizketa Bihurketa 18

artikulatorio batean kokatutako fonema bakoitzarentzat sintetizagailuko kontroleko

parametroen balioak lortzea ahalbidetzen du.

Hain zuzen ere, formakin sintetizagailu baten diseinuaren zatirik nekosoena, sintetizatu

beharreko soinuaren ezaugarrien arabera, dagokien parametroen aldaketa egokiak

eragiten dituzten arauen lorpena da. Arauak ondorioztatu aurretik, parametroen balioen

portaera benetako ahotsaren kantitate handiaren gainean analizatzen da, benetako

ahotsak Kontsonante-Bokal-Kontsonante trantsizio ugari dituelarik. Behin sisteman

sartuta, arauak, ulergarritasuna hobetzeko eran doitzen dira, saiakuntza ta hutsegiteko

prozedura nekosoa erabiliz.

Sistemaren abantailetariko bat, iturriaren menpe dauden ahotsaren ezaugarriak

aldatzeko orduan eskeintzen duen malgutasuna da: esatari-mota, ‘ahotsaren kalitatea’

(ahots hasperendua, zakarra...), parametro gutxi batzuk aldatuz. Malgutasun honek, eta

sintetizagailuak ahots-ekoizpen eredu bati zuzenean erantzuteak, sistema hauek

hizkuntzalarien gustukoen bihurtzen dituzte ahots naturalaren ezaugarriak aztertzean eta

ezaugarriek aparatu fonadorea parametro desberdinekin dituzten harremanak ikertzean.

2.5.2 Kateatze-teknikak

Kateatze-teknika izen generikoaren barruan, seinale sintetikoa, aurretik grabatutako

seinale-segmentuak kateatuz (eta normalean seinalearen tratamendu-mota bat edo beste

aplikatuz) sortzen duen teknika oro sartzen da.

2.5.2.1 Ahots-bidezko erantzun-sistemak

Mezu berriak sortzeko mezuen segmentuak kateatzea, teknika oso erabilia da nahi diren

lokuzioak gutxi direnean, edo beraien arteko desberdintasuna soilik zati batean

dagoenean (adibidez aireportu bateko hegaldiei buruzko argibidea, edo telefono-

zenbakiak ematen duen audiotext sistema). Ez da, egiatan, ahots-sintesi teknika bat,

beste barik mezu bateko zatiak “ebaki” eta beste batean “itsastean” datza eta. Esate

baterako, demagun informazio telefonikoko sistema bat. Sistema, 10 digituen 9 zifrako

edozein konbinazio esateko prestatuta egon behar da. Kalitatezko sistema izateko, ez da

nahikoa digituak grabatu eta bata bestearen ondoren erreproduzitzea: kateko posizio

jakin batekin lotutako intonazioa beste posizio batekoaren desberdina da, digitu berak

guztiz intonazio desberdina duelarik ertaineko posizioan eta bukaerakoan. Idealena,

Page 19: Aplikazioak III Testu hizketa bihurketa - aholab.ehu.es · entzumen-pertzepzioa eta ulermen-ahalmena antolatzeko, burmuinak prozesatzen dituen datuen konplexutasuna eta kopurua hain

Aplikazioak III : Testu Hizketa Bihurketa 19

digitu bakoitza posizio posible guztietan grabatzea izango litzateke, erreprodukzioan

egokia den posiziokoa erabili ahal izateko.

2.5.2.2 PSOLA teknikak

“PSOLA” (“Pitch-Synchronous-Overlap-and-add”) (Moulines et al., 90) modura

ezagutzen diren teknikek, seinale baten aldaketa prosodikoak egitea ahalbidetzen dute

(hau da, oinarrizko maiztasuna eta iraupena), gainontzeko ezaugarrien gainean aldaketa

esanguratsurik eragin gabe. Horretarako, seinalea, pultsu glotalarekin era sinkronoan

ateratako segmentu oso txikietan deskonposatzen da; ondoren, segmentuak berriro

lotzen dira beste periodikotasun batez bere oinarrizko maiztasuna aldatu nahi izanez

gero. Aldatu nahi duguna iraupena bada, oinarrizko segmentu horiek errepikatu

(luzatzeko) edo ezabatu (laburtzeko) egingo ditugu. (3.3 irudia).

3.3. Irudia: PSOLA Teknika. pitch eta iraupenaren aldaketak.

Ezaugarri hauetako tresna baten lehenbiziko erabilera bat mezuen kateatzearen bidezko

audiotext sistema batek lortutako kalitatearen hobekuntza da: digitua dagoen

posizioaren araberako intonazioa eta iraupena ezar diezazkiokegu seinaleari.

Page 20: Aplikazioak III Testu hizketa bihurketa - aholab.ehu.es · entzumen-pertzepzioa eta ulermen-ahalmena antolatzeko, burmuinak prozesatzen dituen datuen konplexutasuna eta kopurua hain

Aplikazioak III : Testu Hizketa Bihurketa 20

Digituak kateatzen ditugun era berean, segmentu laburragoak kateatzea bururatu ahal

zaigu, edozein hitz sortzeko malgutasun handiagoa izateko asmotan. Soinu-katea

sortzeko kateatutako segmentuen tamaina hitzarena baino laburragoa bada, unitateen

kateatzearen bidezko sintesiaz hitz egiten da eta kateatzen diren segmentuei sintesi-

unitateak deritze. Unitate hauek silabak izan daitezke, baina ez dago horretarako arrazoi

berezirik (unitate ezagunak direla salbu). Berez, hobe da sintesirako bereziki

diseinatutako unitateak erabiltzea: ertzetako aldeetan egonkortasuna eskaini behar dute,

koartikulazio-efektuak barneratuta izan behar dituzte, eta ahalik eta inbentario

murriztuena osatu behar dute. Unitate oso hedatuak dira difonemak, ondoz ondoko bi

fonemen ondoz ondoko bi erdiez eratuak, unitatearen mugak (bi unitateen juntura

egingo deneko puntuak) egonkortasun handieneko zonaldeetan kokatzen direlarik

(soinuaren erdiko aldea), eta trantsizioak dituzten zonaldeak unitatearen barruan

gelditzen direlarik (beti da askoz errazagoa zonalde egonkor batean itsastea trantsizioko

zonalde batean baino). Orokorrean, sintesi-sistema hauetan ez dira soilik difonemak

erabiltzen, baizik eta baita trifonemak (bi erdifonemez inguratutako fonema),

koartikulazio handia sortzen denean, edota tamaina handiagoko unitateak ere. Era

berean, batzuetan fonema baino unitate txikiagoak ere erabiltzen dira koartikulazioa oso

txikia denan, adibidez frikarien alde egonkorren kasuan.

Esate baterako, euskararako AhoTTS sintesi-sistemak 900 bat azpifonema, difonema,

trifonema eta tetrafonemen inbentarioa erabiltzen du, eta 17 Mbyte inguru betetzen ditu

(8kHz-etan lagindutako seinaleak).

2.5.2.3 MBROLA

PSOLA sistemek lortutako kalitatea handia den arren, muga garrantzitsuak ditu:

- Sintesi-unitate bakoitza kontu handiz markatu behar da seinalearen periodo

bakoitzean. Hau lan nekosoa da, eta ohikoa da hutsegite ugari egitea gainera.

- Oso zaila da pitch markak unitate guztietan sinkronoak mantentzea, pultsu

glotala ematen duten laringografoak erabili arren. Sinkronia gabeziak kateatze-

zarata sortzen du ondoren, sintesian.

- Distortsio esanguratsua eragin gabe egin daitezkeen aldaketa prosodikoak

mugatuak dira.

Page 21: Aplikazioak III Testu hizketa bihurketa - aholab.ehu.es · entzumen-pertzepzioa eta ulermen-ahalmena antolatzeko, burmuinak prozesatzen dituen datuen konplexutasuna eta kopurua hain

Aplikazioak III : Testu Hizketa Bihurketa 21

Muga hauek gainditzeko, MBR-PSOLA modura jadanik ezagunak diren teknikek

(Dutoit et al., 93) sintesi-unitateak kodifikatu egiten dituzte, ondoren guztiak

bersintetizatzeko pitch konstantean, eta, aurretik aipatu den pitch marken sinkronismo

arazoa ezabatzen duen prozesatzea erabiliz. PSOLA sistemetan ohikoak diren zarata eta

karraskak deuseztatu egiten dira, seinale sintetiko askoz homogeneoagoa lortuz.

Sistema hau oso hedatua dago internet-eko proiektuari esker: MBROLA proiektua,

http://tcts.fpms.ac.be/synthesis/mbrola.html, MBROLA sintesi sistema doanik

eskeintzen duena, ikerkuntzan erabiltzeko.

2.5.2.4 Corpus bidezko sintesia

Aurretik aztertutako sintesi-sistema guztietan, ardura nagusienetarikoa unitateen

inbentarioaren tamaina da. Unitateen gainean egindako manipulazio guztiek distortsioa

sortzen dute, eta beraz ez dira desiragarriak, baina beharrezkoak dira, unitate baten

gauzatze posible guztiak biltzeko tokirik ez dugulako, hain zuzen ere. Zer gertatuko

litzateke toki-arazorik ez bagenu?

Hauxe da, hain justu, corpus bidezko sintesiko sistemen abiapuntua. Funtsean, nahi dena

zera da: unitate beraren gauzatze ugari, eta ez bakarra, duen unitate-inbentarioa

erabiltzea. Izan ere, ez dira unitateak bere testuingurutik kanpo bilduko, baizik eta

unitatearen erauzketa (corpus erabilgarri osoaren artetik aukeratuz), sintesiaren unean

egingo da (Campbell et al. 95, Hunt et al. 96). Datu-basea, corpus oso bat izango da,

arreta handiz diseinatuta, unitate guztiek aldakortasun fonetiko eta prosodiko handiak

(aldakortasuna, benetako ahotsaren seinale batean isladatuz) eskain ditzaten, eta sintesi-

algoritmoek unitate bat edo beste aukeratzeko irizpideak ezarriko dituzte, desiratutako

testuingurua (fonetikoa eta prosodikoa) eta eskuragarriak diren testuinguruak (hauek ere

fonetikoak eta prosodikoak) kontutan hartuz. Era honetan, datu-basea zenbat eta

handiagoa izan eta hobeto diseinatuta egon, sintesian kalitate hobea lortuko dugu.

Page 22: Aplikazioak III Testu hizketa bihurketa - aholab.ehu.es · entzumen-pertzepzioa eta ulermen-ahalmena antolatzeko, burmuinak prozesatzen dituen datuen konplexutasuna eta kopurua hain

Aplikazioak III : Testu Hizketa Bihurketa 22

3 Ariketak 1) Zenbat THB aplikazio komertzial ezagutzen dituzu? Deskriba itzazu behintzat

bi.

Page 23: Aplikazioak III Testu hizketa bihurketa - aholab.ehu.es · entzumen-pertzepzioa eta ulermen-ahalmena antolatzeko, burmuinak prozesatzen dituen datuen konplexutasuna eta kopurua hain

Aplikazioak III : Testu Hizketa Bihurketa 23

4 Lan praktikoa 1. Aurki itzazu hiru testu-ahots bihurketarako sistema edozein hizkuntzarako. Ebalua

itzazu (1 oso txarra – 5 oso ona) sistema hauetan ondoko taula betetzen sistema bakoitzeko, esaldi hauek (dagokion hizkuntzara itzuliz) erabiliz:

1. Kaixo mundua. (Hello world)

2. Ez duzu behar bezain sakonki ulertu zerbait, amamari esplikatzeko gauza ez zaren bitartean. (You do not really understand something unless you can explain it to your grandmother)

3. Garaikideok edukirik gabeko fantasiatzat dituzten eta gerora guztiz natural gertatzen diren ideien multzoari dagokio herri desberdinen artean hizkuntza komun bat sartzearena (Those ideas that seem an empty fantasy to contemporaries and obvious to posterity also include the introduction of a common language between different peoples)

X SISTEMA 1.esaldia 2. esaldia 3. esaldia

Adigarritasuna

Naturaltasuna

Ahal baduzu, gorde itzazu seinale sintetikoak eta ariketarekin batera bidali.

Komenta itzazu emaitzak.

Page 24: Aplikazioak III Testu hizketa bihurketa - aholab.ehu.es · entzumen-pertzepzioa eta ulermen-ahalmena antolatzeko, burmuinak prozesatzen dituen datuen konplexutasuna eta kopurua hain

Aplikazioak III : Testu Hizketa Bihurketa 24

5 Glosategia ahots-sintesia konputagailuak ahotsa sortzeko prozesua.

ahots-ezagutza konputagailuak ahotsak duen mezua ulertzeko prozesua.

bukaera analogoko sintetizagailua ahots-seinalearen bukaerako karakteristikak dituen seinalea ekoiztea helburu duen sintesi sistema.

espektrograma soinuen ezaugarrien adierazpen grafikoa. Ardatz horizontalak denbora adierazten du, eta ardatz bertikalak maiztasuna (Hz). Gris mailak (batzutan koloreak erabiltzen dira) maiztasun baterako soinuak duen energia erakusten du.

formakinak bokal-traktuaren erresonantziako maiztasunak

frikariak bi organo artikulatzaile hainbeste hurbiltzen direnean euren arteko airearen mugimenduak igurtzi entzungarria sortzen du. Soinu honi frikaria deitzen zaio.

pitch-aldaera esaldi osoaren doinua, galdera, baiezpen edo beste ideiak adierazteko.

prosodia ahotsaren pitch, bolumena, iraupena eta erritmoaren aldaketak.

sintesi artikulatorioa giza aparatu fonadorearen fisiologia modelatzera bideratutako sintesi sistema

soinua airearen aldaera-seriea da.

soinu ahostunak ahots korden dardararekin igortzen diren soinuak.

soinu ahoskabeak ahots korden dardararik gabe igortzen diren soinuak.

soinuaren espektroak uhin konplexuaren osagaiak adierazten ditu eta aldi berean soinu-iturriaren bibrazio-maiztasun naturalak

suprasegmental soinu bat baino gehiagotan zabaltzen den ezaugarria.

TAB Testu Ahots Bihurketa THB Testu Hizketa Bihurketa

zarata ahots-seinalearekin egoten diren gainerako soinuak.

Page 25: Aplikazioak III Testu hizketa bihurketa - aholab.ehu.es · entzumen-pertzepzioa eta ulermen-ahalmena antolatzeko, burmuinak prozesatzen dituen datuen konplexutasuna eta kopurua hain

Aplikazioak III : Testu Hizketa Bihurketa 25

6 Bibliografia Gogoratu gai hauetaz bibliografia asko Internet-en bertan dagoela. Bilatzaile arruntak

erabiliz aurkitu dezakezu (adib. www.google.com), baina badago bat horretarako propio

eraikita: Citeseer izeneko bilatzailea http://citeseer.nj.nec.com. Bertan idazlea,

izenburua edo gako-hitzen bitartez aurkituko duzu hainbat eta hainbat artikulu.

Liburuak aldiz, ezin ohi dira hemengo liburu-dendetan aurkitu, dena den irakasleari

eskatuz edo teledenda batean erosiz lor ditzakezu (www.megadenda.com,

www.amazon.com, ...).

6.1 Oinarrizko bibliografia Dutoit, T. An Introduction to Text to Speech Synthesis. Kluwer Academic Publishers. 1997

Faúndez Zanuy M. Tratamiento digital de voz e imagen y aplicación a la multimendia. Marcombo. 2000

Quilis A. Fonética Acústica de la lengua castellana. Biblioteca románica hispánica. Editorial Gredos. 1981.

Internet-en:

Thierry Dutoit, A Short Introduction to Text-to-Speech Synthesis "http://tcts.fpms.ac.be/synthesis/introtts.html", TTS Research Team, TCTS Lab.

“http://directory.google.com/Top/Computers/Speech_Technology/”, Hizketa teknologien katalogo orokorra. Produktuak, tresnak, erreferentziak.

http://cslu.cse.ogi.edu/HLTsurvey/, Survey of the State of the Art in Human Language Technology (1996)

6.2 Bestelako bibliografia Allen, J., Hunnicut, S., Klatt, D. (1987). From Text To Speech, The MITALK System. Cambridge

University Press, Cambridge.

Alvarez, J.L. (Txillardegi)(1986), Proposamen bat azentuari buruz, Euskera XXXI, 341-348.

Alvarez, J.L, (Txillardegi) (1987) Azentuari buruzko proposamen bat, ELE-2, AEK, Bilbo.

Alvarez, J.L. (Txillardegi) (1987) Euskara batua. Iruñeko proposamena azentuari buruz. Linguistika saila, UEU, Iruñea.

Bailly, G., Murllo, G., Al Dakkak, O., Guerin, B. (1988) A Text-to-Speech System for French Using Formant Synthesis. Proc. of SPEECH’88, 7th FASE Symposium, Edinburgh, pp. 255-260

Campbell, N., Black, A. (1995): Prosody and the selectrion of Source Units for Concatenative Synthesis in Progress in Speech Suynthesis, J. van Santen, R. Sproat, J. Olive and J. Hirshberg, des., Springer Verlag.

Carlson, R., Granström, B., Hunnicut, S. (1982) A Multi-Language Texto-toSpeech Module”. Proc. Fo the Int. Conf. On Acoustics, Speech, and Signal Processing, 82, Paris, vol. 3, pp. 1604-1607

Page 26: Aplikazioak III Testu hizketa bihurketa - aholab.ehu.es · entzumen-pertzepzioa eta ulermen-ahalmena antolatzeko, burmuinak prozesatzen dituen datuen konplexutasuna eta kopurua hain

Aplikazioak III : Testu Hizketa Bihurketa 26

Coker, C., Church, K., Liberman, M. (1990) Morphology and rhyming: Two powerful alternatives to letter-to-sound rules for speech synthesis. En Gérard Billy and Chirstian Benoit, editors, Proc. Of the ESCA Workshop on Speech síntesis, pp. 83-86, Autrans, France. ESCA.

Cooper, F.S., Delattre, P.C.,Liberman, A.M., Borst, J.M., Gerstman, L.J. (1952). Some Experiments on the Perception of syntheitc Speech Sounds”, Journal of the Acoustical Society of America, 24, pp.597-606

Collier, R. (1991) Multi-Language Intonation Síntesis. Journal of Phonetics, vol10, pp. 61-73.

Crystal, D. (1969) Prosodic Systems and Intonation in English. Cambridge University Press, Cambridge

Delattre, P. (1966) Les dix intonations de base du Français. French Review, nº15, pp. 1-14.

Dudley, H., Riesz, R. R., Watkins, S. A. (1939). A Synthetic Speaker, Journal of the Franklin Institute, 227, 1939, pp. 739-764.

Dutoit, T., Leich, H. (1993) : MBR-PSOLA: Text-to-Speech Syuntheiss Based on an BME Rsynthesis of the Segments Database. Speech Communications, nº13, pp. 435-440

Ezeiza N.; Aduriz I.; Alegria I.; Arriola J.M.; Urizar R., (1998). Combining Stochastic and Rule-Based Methods for Disambiguation in Agglutinative Languages. COLING-ACL'98, Montreal.

Flanagan, J.L.(1972). Speech Analysis, Synthesis, and Perception. Springer Verlag, Berlin. pp.204-210.

Fujisaki, H, Hirose, K. (1984) Analysis of voice fundamental frequency contours for declarative sentences of Japanese. Journal of Acoustic Society of Japan. vol. 5 4 pp. 233-242, 1984.

‘t Hart, J., Collier, R., Cohen, A. (1991) A perceptual Study of Intonation: an Experimental Phonetic Approach to Speech Melody. Cambridge University Press. Cambridge

Hirschberg, J. (1991). Using Text Analysis to Predict Intonational Boundaries . Proc. Of Eurospeech 91, Genoa, pp. 1275-1278.

Hirst, D.J., Ide N., Veronis, J. (1994) Coding Fundamental Frequency Patterns for Multilingual Síntesis with INTSINT in the MULTEXT Project. Proc. Of the 2nd ESCA/IEEE Workshop on Speech Síntesis, New-Paltz, NY, pp. 77-80.

Holmes, J., Mattingly, I., Shearme, J. (1964) Speech Synthesis by Rule. Language an Speech, vol. 7, pp. 127-143

Holmes, J. (1983), Formant Synthesizer- Cascade or Parallel? Speech Communication, vol 2, pp.251-273

Hualde, J.I: (1994), Euskal azentuak eta euskara batua, Euskera XXXIX, 1549-1568

Hunt, A.J., Black, A. (1996) Unit Selectrion in a Concatantive Speech syuntesis System Using a large Speech Database” Proc. Of the ICASSP 96, Atlanta.

Klatt, D. (1987). Review of Text-to-Speech Conversion for English, Journal Acoustical Society of America`, 1987, pp. 737-793.

Klatt, D., (1980) Software for a Cascade/Parallel Formant Synthesizer. Journal of the Acoustical Society of America, vol.67, pp.971-995

Liberman, M.J., Church, K.W. (1992) Text Analysis and Word Pronunciation in Text-To-Speech synthesis. En “Advances in Speech Signal Processing. S. Furui, M.M. Sondhi, des, Dedder, New Yourk, pp. 791-831.

Lingaard, R. (1985). Electronic Synthesis of Speech, Cambridge University Press, 1985, pp.1-17.

Martín, P. (1982) Phonetic Realization of Prosodic Contours in French. Speech Communications, nº1, pp.284-294.

Moulines, E., Charpentier, F. (1990): Pitch Synchronous waveform processing techniques for text to speech synthesis using diphones. Speech Communication, Vol. 9, nº4, 453-467g

Navas, E., Hernáez, I., Armenta, A., Etxebarria, B., Salaberria, J. (2000) Modelling Basque Intonation using Fujisaki and CARTs. State of the art on Speech Synthesis digest. 3/1-3/6, London 2000.

Navas, E., Hernaez, I., Ezeiza, N. (2002) Assigning Phrase Breaks Using CARTs for Basque TTS (presented to) Speech Prosody 2002, Aix-en-Provence, France.

Page 27: Aplikazioak III Testu hizketa bihurketa - aholab.ehu.es · entzumen-pertzepzioa eta ulermen-ahalmena antolatzeko, burmuinak prozesatzen dituen datuen konplexutasuna eta kopurua hain

Aplikazioak III : Testu Hizketa Bihurketa 27

O’Shaughnessy, D. (1984). Design of a Real-Time French Text-to-Speech System. Speech Communication, vol.3, pp.233-243

Oñederra, M.L.(1994), Ahoskera araupetzeaz: III.Abiaburu zehatz batzuk, Euskera XXXIX, 1533-1542

Pierrehumbert, J. (1981) Synthesizing Intonation. Journal of the Acoustical society of America. 70(4),pp. 985-995.

Santos, J.M., Nombela, J.R: (1982) Text-to-Speech Conversion in Spanish: a Complete Rule-Based System. Proc. Of the Int. Conf. On Acoustecs, Speech sand Signal Processing, 82, Paris, pp.1593-1596

Taylor, P. (2000) Analysis and Synthesis of intonation using the Tilt model. Journal of the Acoustical Society of America. vol. 107 3, pp. 1697-1714, 2000.

Traber, C. (1993) Syntactic Processing and Prosody Control in the SVOX TTS System for German. Proc. Of the Eurospeech 93, Berlin, vol.3, pp. 2099-2102.