Download ppt - A beszéd-technológia jövője – kihívások és stratégiák

A beszéd-technológia jövője – kihívások és stratégiák

Nyelvi áttörés

A nyelv- és beszédtechnológia mint

húzóágazat Mihajlik Péter

BME-TMIT

Áttekintés

• Bevezetés • Helyzetkép• Mitől, hogyan működik?• Kihívások és válaszlehetőségek • A közeljövő alkalmazásai• Összegzés

Bevezetés

A beszédtechnológia két fő ága:• Gépi beszédfelismerés (ASR: Automatic Speech Recognition)

• Beszéd (hangnyomás-időfüggvény) szöveg (írott szósorozat)

• Gépi beszédkeltés (TTS: Text To Speech)

• Az előző megfordítása

Mellékágak:Beszélő-felismerés, -azonosítás, érzelem-felismerés, beszédminősítés, beszédterápia, beszéd-zene-zaj szétválasztás, beszédtisztítás, multimodális beszéd- felismerés, stb.

Bevezetés

A beszédtechnológia két fő ága:• Gépi beszédfelismerés (ASR: Automatic Speech Recognition)

• Beszéd (hangnyomás-időfüggvény) szöveg (írott szósorozat)

• Gépi beszédkeltés (TTS: Text To Speech)

• Az előző megfordítása

Mellékágak:Beszélő-felismerés, -azonosítás, érzelem-felismerés, beszédminősítés, beszédterápia, beszéd-zene-zaj szétválasztás, beszédtisztítás, multimodális beszéd- felismerés, stb.

Bevezetés II.A beszéd-szöveg átalakítás kiemelt jelentőségű, mert

• Ami igazán fontos, élőszóban hangzik el• Gyorsabban és könnyebben beszélünk, mint írunk •„Kaputechnológia”, szűkkeresztmetszet. E nélkül nincs:

• beszédinformáció-kivonatolás, -visszakeresés, -strukturálás • beszédértés (szűk értelemben se)• beszédfordítás• hanggal-, hangból keresés

• Nagyszámú alkalmazás épít(ene) rá• A korszerű beszédkeltési technológiák is erre alapoznak

Helyzetkép: az áttörés megtörtént – a beszédtechnológia használható!

A áttörés


A gépi beszédfelismerés is!!!


A gépi beszédfelismerés is!!!

Noha a beszédfelismerési technológia messze nem tökéletes,

a használhatósága ma már nem kétséges!

Az áttörés megtörtént – a beszédtechnológia használható!

• Használható: kisebb költséggel, többet tud a gép, mint az ember?!• Igen!

• Ki tudja 200 óra hangzó híranyagban megtalálni a megadott 1000 kulcsszó ~50%-át 24 óra alatt?

• 2 db (4 magos) CPU képes rá! (RTF<1 /mag)• 2 ember, > 2 hét – csak lehallgatás (RTF>1 /fő)• 12 ember, > 2 hét – teljes lejegyzés (RTF>6 /fő)

Áramdíj < 2 eFt Munkadíj > 200 eFt / 1.2 MFt


• Használható: többet tud a gép, mint az ember?!• Igen!

• Ki képes egy nagyváros összes lakosának (~250.000) fő nevét és lakcímét első hallásra 10 esetből min. 9-szer hibátlanul leírni?

• 1 db CPU képes rá (+ beszédtechnológia)! • ~0 sec válaszidő!!

Áramdíj, válaszidő: ~ 0 visszakérdezések, hibák


• Használható: kisebb költséggel, többet tud a gép, mint az ember?!• Igen, igen!

• A beszédszintetizátor bármit kimond• Nem fárad el, nem reked be• Ha kérik, gyorsabban beszél, ha kérik, lassabban • Nem sértődik meg, ha a felmenőit emlegetik• …


• Mitől?• Új kutatási eredmények? – Alapjait tekintve nem igazán, több éve kiforrott a technológia…• Meg van oldva a probléma? – Határozottan nincs

• Inkább:• A beszédtechnológia megtalálta az alkalmazásait!• A számítástechnika fejlődése egyre inkább lehetővé teszi a megfelelő (jórészt már ismert) algoritmusok alkalmazását

Mitől, hogyan működik?

• „Megérti a gép, amit mondok?”• Neeeemm!

(A gép nem „ért meg” semmit, a gépi szövegértésnek az emberi kognícióhoz, gondolkodáshoz egyelőre nem sok köze van…)

• „Leírja, amit mondok?”• Ez a cél, de általánosságban ez sem teljesül…

Mitől, hogyan működik? A gépi beszédfelismerés alapelve:I. Lényegkiemelés (jelfeldolgozás, normalizálások)

II. Mintaillesztés (tárolt modellekhez történő összehasonlítás)

• Összetett beszédmodell• Nyelvi, akusztikai információk

• Összehasonlítások!!!• Órási keresési tér (akár > 1050 szósorozat)

Mindig a legjobban illeszkedő modellekre-útvonalra döntünk!„eredmények a beszédtechnológiában”

Mitől, hogyan működik? Honnan vesszük a beszédfelismerési modelleket?• Szinte minden statisztikai alapú!

• Lejegyzett beszédadatra van szükség a modelltanításhoz• Mivel (nagyon) sok a modellparaméter, (nagyon) sok adatra

van szükség a megfelelő becsléshez• Nincs általános modell, minden feladatra külön kell gyűjteni• Mindig számolni kell jelentős beszédfelismerési hibával• A beszédfelismerési hiba főként attól függ, hogy

akusztikailag, nyelvileg mennyire különböző lehetőségek közül választhatunk a mintaillesztés során

• Nem egyszerű feladat eldönteni, hogy az optimális felismerési eredmény (szósorozat) helyes is egyben

Kihívások és válaszlehetőségek Az ideális beszédfelismerő rendszer…• … zajban sem rosszabb, az embernél• … távoli mikrofonnal működik• … témafüggetlen• … beszélőfüggetlen (a beszédhibákat is kiküszöböli)• … stílus-független (spontán beszédre is működik)• … minden nyelvre könnyen adaptálható

• (…kis fogyasztású, olcsó eszközön fut)• (…kézi átirat nélkül tanítható)

…talán sosem fog működni… de azért….

Kihívások és válaszlehetőségek Zajtűrő beszédfelismerés• A zaj elmossa az akusztikai különb- ségeket• Nem mindegy milyen (fehérzaj vs. háttérzene, -beszélgetés)• Válasz: nemlineáris, idővariáns, nem- stacionárius megközelí- tések, fizikusok, agy- és halláskutatókkal közös kutatások, stb.

Wall Street Journal – Olvasott hírek

Humán vs Cambridge HTK LVCSR beszédfelismerő

Szó

felis

mer

ési h

iba

%

Jel-zaj viszony dBZajos Tiszta

Kihívások és válaszlehetőségek Távoli mikrofon (distant speech recognition)• Probléma: a jelenlegi módszerek a közeli mikrofonokra, és/vagy csendes körülményekre használhatóak• Távoli mikrofon: rossz jel-zaj viszony

• Válasz: a zajtűrő módszereken felül, mikrofon tömbök, adaptív karakterisztika szabályozás, önirányító mikrofonok

Kihívások és válaszlehetőségek Témafüggetlenség• Probléma: a jelenlegi módszerek adott témakörökre igényelnek nagy mennyiségű tanítóanyagot, eltérő témára lényegesen nő a felismerési hiba

Beszélőfüggetlenség• Probléma: a jelenlegi módszerek a standard nyelvet kezelik, tájszólásra, beszédhibára kevésbé felkészültek

Válaszok• Minden eddiginél nagyobb mennyiségű tanítóadat

használata• Akusztikus/nyelvi modell adaptáció, felügyelet nélküli vagy

félig felügyelt módszerek kutatása

Kihívások és válaszlehetőségek Beszédstílus-függetlenség

• Probléma: a jelenlegi módszerek a spontán (lazán artikulált, bennfentes, stb.) nyelvet kevéssé kezelik, jóval nagyobb a felismerési hiba• Nagy a jelentősége, hiszen a hétköznapi beszéd alapvetően spontán

Nyelvi adaptálhatóság – morfológiailag gazdag nyelvek (!)• Arab, észt, finn, magyar, török: a szóalaki változatosság jóval nagyobb, mint az angol, spanyol, német, stb. nyelvekre• Probléma: ritka szóalakok nagy száma, (nagyon) nagy szótár, rosszul becsülhető nyelvi modell paraméterek, szótáron kívüli szavak nagy száma alacsonyabb szófelismerési pontosság

Szóalaki változatosság – beszédstílus, nyelvek –

kutatási eredmények

Magyar (tervezett)Magyar (tervezett)

Magyar (fMagyar (félig tervezettélig tervezett))

Magyar (Magyar (spontánspontán))


kutatási eredmények •Angol szavak ~ magyar morf(émák)

• Illusztráció: look at it ~ néz + d

• Építsük a nyelvi és kiejtési modelleket szó helyett morféma (szótő, rag, stb.) alapon

• Szó morféma leképezés?• Nyelvi szabály alapon?• Statisztikai felügyelet nélküli módszerrel?• Kombináció?• Szóhatár visszaállítás?

Szóalaki változatosság – beszédstílus, nyelvek

Morféma alapú rendszerek

Szó

felis

mer

ési p

onto

sság

%H

ibac

sökk

enés

%

Spontán Sajtótájékoztató Hírműsor

Tisztán statisztikai (MB) morf-alapú rendszerek javulása

Akusztikus adaptáció hatása Sp. St. Hír

Magyar nyelvű beszédfelismerési eredmények

Szótárméret: 20K-285K szó 2k – 80K morf


kutatási eredmények• Morféma-alapú megközelítések általi felismerési hibacsökkenés nemzetközi összehasonlításban

Javu

lás

stat

iszt

ikai

mor

f m

odel

lezé

s ál

tal [

%]

Különböző szóalakok száma 160 ezer szavas korpuszban [x1000]

R=0,937

Kihívások és válaszlehetőségek Beszédstílus-függetlenségNyelvi adaptálhatóság – morfológiailag gazdag nyelvek• A nyelvfüggetlen statisztikai módszer hatékonysága nem elősorban nyelvfüggő és stílusfüggő, hanem a szóalaki változatosságtól függ• Minél nagyobb a szóalak-változatossági probléma, annál jobban segít• Mégsem ettől lesz kicsi a felismerési hibaVálasz?• minden eddiginél több tanítóadat?• minden eddiginél nagyobb memória?

Kihívások és válaszlehetőségek Tanítóadatbázis-méret növelés• Kulcsfontosságú mind a kutatás, mind a fejlesztés szempontjából• Ahol az adat, ott fejlődik(-het) a technológia…• 3 éves gyerek 5M-20M szót hallott!Probléma: drága az előállítás (beszélt nyelvi korpuszokról

van szó!), a kutatás-fejlesztési eszköztár is az…• Google: akusztikus és nyelvi modell tanítás 35 CPU év! (áramköltség

>1.5 MFt) – és ez csak a „voice search” alkalmazás…

Válasz: könnyítsük, gyorsítsuk a kézi munkát, félig felügyelt módszerek kutatása, felügyelet nélküli módszerek kutatása

A közeljövő alkalmazásai

• Jó – közepes akusztikai viszonyokra készülnek• Felismerési hiba tűrőek• Az embert nem „lecserélni”, segíteni akarják

Ezeknek megfelelő gyakorlati feladatok:• audio indexálás, keresés hang (video)tárakban, • információ kivonatolás hanganyagból, • kategorizálás, • infobányászat,• audio minőségbiztosítás, • ügyfélszolgálat részbeni automatizálása, …

A közeljövő alkalmazásai• A folyamatos nagyszótáras beszédfelismerési technológia potenciális felhasználói

• általános beszédinformációs tárak: rádió, TV, mozi • vállalati szféra: mindenféle szintű megbeszélések hanganyaga, ügyfélszolgálatok, sajtótájékoztatók• állami szféra: felügyelő szervek, biztonsági szervek• oktatás-kutatás: konferencia-, tanrendi előadások• internetezők…

• Nem az a kérdés, hogy a beszédtechnológia alkalmazásérett-e, hanem, hogy ki kerül versenyhátrányba, mert későn ébredt….

Összefoglalás

• Az áttörés megtörtént – a beszédtechnológia használható! • Az általános probléma még nincs megoldva • A kutatás-fejlesztés számára létfontosságú az eddigieknél sokkal komolyabb adatbázis-infrastruktúra kialakítása • Vannak olyan kutatási területek, melyek illeszkednek a hazai adottságokhoz és jól exportálhatóak

Köszönöm a figyelmet!

„Az áttörés megtörtént – a beszédtechnológia használható!”