A beszéd-technológia jövője – kihívások és stratégiák
Nyelvi áttörés
A nyelv- és beszédtechnológia mint
húzóágazat Mihajlik Péter
BME-TMIT
Áttekintés
• Bevezetés • Helyzetkép• Mitől, hogyan működik?• Kihívások és válaszlehetőségek • A közeljövő alkalmazásai• Összegzés
Bevezetés
A beszédtechnológia két fő ága:• Gépi beszédfelismerés (ASR: Automatic Speech Recognition)
• Beszéd (hangnyomás-időfüggvény) szöveg (írott szósorozat)
• Gépi beszédkeltés (TTS: Text To Speech)
• Az előző megfordítása
Mellékágak:Beszélő-felismerés, -azonosítás, érzelem-felismerés, beszédminősítés, beszédterápia, beszéd-zene-zaj szétválasztás, beszédtisztítás, multimodális beszéd- felismerés, stb.
Bevezetés
A beszédtechnológia két fő ága:• Gépi beszédfelismerés (ASR: Automatic Speech Recognition)
• Beszéd (hangnyomás-időfüggvény) szöveg (írott szósorozat)
• Gépi beszédkeltés (TTS: Text To Speech)
• Az előző megfordítása
Mellékágak:Beszélő-felismerés, -azonosítás, érzelem-felismerés, beszédminősítés, beszédterápia, beszéd-zene-zaj szétválasztás, beszédtisztítás, multimodális beszéd- felismerés, stb.
Bevezetés II.A beszéd-szöveg átalakítás kiemelt jelentőségű, mert
• Ami igazán fontos, élőszóban hangzik el• Gyorsabban és könnyebben beszélünk, mint írunk •„Kaputechnológia”, szűkkeresztmetszet. E nélkül nincs:
• beszédinformáció-kivonatolás, -visszakeresés, -strukturálás • beszédértés (szűk értelemben se)• beszédfordítás• hanggal-, hangból keresés
• Nagyszámú alkalmazás épít(ene) rá• A korszerű beszédkeltési technológiák is erre alapoznak
Helyzetkép: az áttörés megtörtént – a beszédtechnológia használható!
A áttörés
Helyzetkép: az áttörés megtörtént – a beszédtechnológia használható!
A gépi beszédfelismerés is!!!
Helyzetkép: az áttörés megtörtént – a beszédtechnológia használható!
A gépi beszédfelismerés is!!!
Noha a beszédfelismerési technológia messze nem tökéletes,
a használhatósága ma már nem kétséges!
Az áttörés megtörtént – a beszédtechnológia használható!
• Használható: kisebb költséggel, többet tud a gép, mint az ember?!• Igen!
• Ki tudja 200 óra hangzó híranyagban megtalálni a megadott 1000 kulcsszó ~50%-át 24 óra alatt?
• 2 db (4 magos) CPU képes rá! (RTF<1 /mag)• 2 ember, > 2 hét – csak lehallgatás (RTF>1 /fő)• 12 ember, > 2 hét – teljes lejegyzés (RTF>6 /fő)
Áramdíj < 2 eFt Munkadíj > 200 eFt / 1.2 MFt
Az áttörés megtörtént – a beszédtechnológia használható!
• Használható: többet tud a gép, mint az ember?!• Igen!
• Ki képes egy nagyváros összes lakosának (~250.000) fő nevét és lakcímét első hallásra 10 esetből min. 9-szer hibátlanul leírni?
• 1 db CPU képes rá (+ beszédtechnológia)! • ~0 sec válaszidő!!
Áramdíj, válaszidő: ~ 0 visszakérdezések, hibák
Az áttörés megtörtént – a beszédtechnológia használható!
• Használható: kisebb költséggel, többet tud a gép, mint az ember?!• Igen, igen!
• A beszédszintetizátor bármit kimond• Nem fárad el, nem reked be• Ha kérik, gyorsabban beszél, ha kérik, lassabban • Nem sértődik meg, ha a felmenőit emlegetik• …
Az áttörés megtörtént – a beszédtechnológia használható!
• Mitől?• Új kutatási eredmények? – Alapjait tekintve nem igazán, több éve kiforrott a technológia…• Meg van oldva a probléma? – Határozottan nincs
• Inkább:• A beszédtechnológia megtalálta az alkalmazásait!• A számítástechnika fejlődése egyre inkább lehetővé teszi a megfelelő (jórészt már ismert) algoritmusok alkalmazását
Mitől, hogyan működik?
• „Megérti a gép, amit mondok?”• Neeeemm!
(A gép nem „ért meg” semmit, a gépi szövegértésnek az emberi kognícióhoz, gondolkodáshoz egyelőre nem sok köze van…)
• „Leírja, amit mondok?”• Ez a cél, de általánosságban ez sem teljesül…
Mitől, hogyan működik? A gépi beszédfelismerés alapelve:I. Lényegkiemelés (jelfeldolgozás, normalizálások)
II. Mintaillesztés (tárolt modellekhez történő összehasonlítás)
• Összetett beszédmodell• Nyelvi, akusztikai információk
• Összehasonlítások!!!• Órási keresési tér (akár > 1050 szósorozat)
Mindig a legjobban illeszkedő modellekre-útvonalra döntünk!„eredmények a beszédtechnológiában”
Mitől, hogyan működik? Honnan vesszük a beszédfelismerési modelleket?• Szinte minden statisztikai alapú!
• Lejegyzett beszédadatra van szükség a modelltanításhoz• Mivel (nagyon) sok a modellparaméter, (nagyon) sok adatra
van szükség a megfelelő becsléshez• Nincs általános modell, minden feladatra külön kell gyűjteni• Mindig számolni kell jelentős beszédfelismerési hibával• A beszédfelismerési hiba főként attól függ, hogy
akusztikailag, nyelvileg mennyire különböző lehetőségek közül választhatunk a mintaillesztés során
• Nem egyszerű feladat eldönteni, hogy az optimális felismerési eredmény (szósorozat) helyes is egyben
Kihívások és válaszlehetőségek Az ideális beszédfelismerő rendszer…• … zajban sem rosszabb, az embernél• … távoli mikrofonnal működik• … témafüggetlen• … beszélőfüggetlen (a beszédhibákat is kiküszöböli)• … stílus-független (spontán beszédre is működik)• … minden nyelvre könnyen adaptálható
• (…kis fogyasztású, olcsó eszközön fut)• (…kézi átirat nélkül tanítható)
…talán sosem fog működni… de azért….
Kihívások és válaszlehetőségek Zajtűrő beszédfelismerés• A zaj elmossa az akusztikai különb- ségeket• Nem mindegy milyen (fehérzaj vs. háttérzene, -beszélgetés)• Válasz: nemlineáris, idővariáns, nem- stacionárius megközelí- tések, fizikusok, agy- és halláskutatókkal közös kutatások, stb.
Wall Street Journal – Olvasott hírek
Humán vs Cambridge HTK LVCSR beszédfelismerő
Szó
felis
mer
ési h
iba
%
Jel-zaj viszony dBZajos Tiszta
Kihívások és válaszlehetőségek Távoli mikrofon (distant speech recognition)• Probléma: a jelenlegi módszerek a közeli mikrofonokra, és/vagy csendes körülményekre használhatóak• Távoli mikrofon: rossz jel-zaj viszony
• Válasz: a zajtűrő módszereken felül, mikrofon tömbök, adaptív karakterisztika szabályozás, önirányító mikrofonok
Kihívások és válaszlehetőségek Témafüggetlenség• Probléma: a jelenlegi módszerek adott témakörökre igényelnek nagy mennyiségű tanítóanyagot, eltérő témára lényegesen nő a felismerési hiba
Beszélőfüggetlenség• Probléma: a jelenlegi módszerek a standard nyelvet kezelik, tájszólásra, beszédhibára kevésbé felkészültek
Válaszok• Minden eddiginél nagyobb mennyiségű tanítóadat
használata• Akusztikus/nyelvi modell adaptáció, felügyelet nélküli vagy
félig felügyelt módszerek kutatása
Kihívások és válaszlehetőségek Beszédstílus-függetlenség
• Probléma: a jelenlegi módszerek a spontán (lazán artikulált, bennfentes, stb.) nyelvet kevéssé kezelik, jóval nagyobb a felismerési hiba• Nagy a jelentősége, hiszen a hétköznapi beszéd alapvetően spontán
Nyelvi adaptálhatóság – morfológiailag gazdag nyelvek (!)• Arab, észt, finn, magyar, török: a szóalaki változatosság jóval nagyobb, mint az angol, spanyol, német, stb. nyelvekre• Probléma: ritka szóalakok nagy száma, (nagyon) nagy szótár, rosszul becsülhető nyelvi modell paraméterek, szótáron kívüli szavak nagy száma alacsonyabb szófelismerési pontosság
Szóalaki változatosság – beszédstílus, nyelvek –
kutatási eredmények
Magyar (tervezett)Magyar (tervezett)
Magyar (fMagyar (félig tervezettélig tervezett))
Magyar (Magyar (spontánspontán))
Szóalaki változatosság – beszédstílus, nyelvek –
kutatási eredmények •Angol szavak ~ magyar morf(émák)
• Illusztráció: look at it ~ néz + d
• Építsük a nyelvi és kiejtési modelleket szó helyett morféma (szótő, rag, stb.) alapon
• Szó morféma leképezés?• Nyelvi szabály alapon?• Statisztikai felügyelet nélküli módszerrel?• Kombináció?• Szóhatár visszaállítás?
Szóalaki változatosság – beszédstílus, nyelvek
Morféma alapú rendszerek
Szó
felis
mer
ési p
onto
sság
%H
ibac
sökk
enés
%
Spontán Sajtótájékoztató Hírműsor
Tisztán statisztikai (MB) morf-alapú rendszerek javulása
Akusztikus adaptáció hatása Sp. St. Hír
Magyar nyelvű beszédfelismerési eredmények
Szótárméret: 20K-285K szó 2k – 80K morf
Szóalaki változatosság – beszédstílus, nyelvek –
kutatási eredmények• Morféma-alapú megközelítések általi felismerési hibacsökkenés nemzetközi összehasonlításban
Javu
lás
stat
iszt
ikai
mor
f m
odel
lezé
s ál
tal [
%]
Különböző szóalakok száma 160 ezer szavas korpuszban [x1000]
R=0,937
Kihívások és válaszlehetőségek Beszédstílus-függetlenségNyelvi adaptálhatóság – morfológiailag gazdag nyelvek• A nyelvfüggetlen statisztikai módszer hatékonysága nem elősorban nyelvfüggő és stílusfüggő, hanem a szóalaki változatosságtól függ• Minél nagyobb a szóalak-változatossági probléma, annál jobban segít• Mégsem ettől lesz kicsi a felismerési hibaVálasz?• minden eddiginél több tanítóadat?• minden eddiginél nagyobb memória?
Kihívások és válaszlehetőségek Tanítóadatbázis-méret növelés• Kulcsfontosságú mind a kutatás, mind a fejlesztés szempontjából• Ahol az adat, ott fejlődik(-het) a technológia…• 3 éves gyerek 5M-20M szót hallott!Probléma: drága az előállítás (beszélt nyelvi korpuszokról
van szó!), a kutatás-fejlesztési eszköztár is az…• Google: akusztikus és nyelvi modell tanítás 35 CPU év! (áramköltség
>1.5 MFt) – és ez csak a „voice search” alkalmazás…
Válasz: könnyítsük, gyorsítsuk a kézi munkát, félig felügyelt módszerek kutatása, felügyelet nélküli módszerek kutatása
A közeljövő alkalmazásai
• Jó – közepes akusztikai viszonyokra készülnek• Felismerési hiba tűrőek• Az embert nem „lecserélni”, segíteni akarják
Ezeknek megfelelő gyakorlati feladatok:• audio indexálás, keresés hang (video)tárakban, • információ kivonatolás hanganyagból, • kategorizálás, • infobányászat,• audio minőségbiztosítás, • ügyfélszolgálat részbeni automatizálása, …
A közeljövő alkalmazásai• A folyamatos nagyszótáras beszédfelismerési technológia potenciális felhasználói
• általános beszédinformációs tárak: rádió, TV, mozi • vállalati szféra: mindenféle szintű megbeszélések hanganyaga, ügyfélszolgálatok, sajtótájékoztatók• állami szféra: felügyelő szervek, biztonsági szervek• oktatás-kutatás: konferencia-, tanrendi előadások• internetezők…
• Nem az a kérdés, hogy a beszédtechnológia alkalmazásérett-e, hanem, hogy ki kerül versenyhátrányba, mert későn ébredt….
Összefoglalás
• Az áttörés megtörtént – a beszédtechnológia használható! • Az általános probléma még nincs megoldva • A kutatás-fejlesztés számára létfontosságú az eddigieknél sokkal komolyabb adatbázis-infrastruktúra kialakítása • Vannak olyan kutatási területek, melyek illeszkednek a hazai adottságokhoz és jól exportálhatóak
Köszönöm a figyelmet!
„Az áttörés megtörtént – a beszédtechnológia használható!”
Recommended