Upload
darius
View
48
Download
2
Embed Size (px)
DESCRIPTION
Zpracování digitalizovaného signálu. Metody krátkodobé analýzy . - v časové oblasti - ve frekvenční oblasti Modelování funkce Cortiho ústrojí. krátkodobá analýza. zpracování signálu na časovém intervalu, o němž se předpokládá, že na něm nedochází k výraznějším dynamickým změnám. - PowerPoint PPT Presentation
Citation preview
Zpracování digitalizovaného signálu
Metody krátkodobé analýzy.
- v časové oblasti
- ve frekvenční oblasti
Modelování funkce Cortiho ústrojí.
krátkodobá analýza
• zpracování signálu na časovém intervalu, o němž se předpokládá, že na něm nedochází k výraznějším dynamickým změnám.
• Tento interval se nazývá mikrosegment (někdy také stručneji segment) a jeho velikost se obvykle od 10 do 40 ms.
Váhové okénko
• Tím, že se rozhodneme pro určitou velikost mikrosegmentu, implicitně předpokládáme, že zvukový signál je v okolí okénka periodický s periodou okénka. Chyba, která vzniká nesouladem s tímto předpokladem, může být do jisté míry kompenzována použitím tzv. okénka. Okénko je posloupnost vah pro prvky mikrosegmentu.
Hammingovo okénko
• w(n) = 0.54 - 0.46cos(2n/(N-1))
• pro n = 0,...,N-1
• w(n) = 0 pro ostatní n (mimo mikrosegment)
Hammingovo okénko - graf
Pravoúhlé okénko
• přiřadí každému prvku mikrosegmentu jednotkovou váhu, tj. je definováno vztahem
• w(n) = 1 pro n = 0,...,N-1
• w(n) = 0 pro ostatní n (mimo mikrosegment)
Analýza digitalizovaného signálu v časové oblasti
- vychází se přímo z hodnot vzorku,
nikoliv z hodnot spektra
Funkce krátkodobé energie
E(n) = (s(k)w(n-k))2
k = -
Krátkodobá intenzita
I(n) = |s(k)|w(n - k)
k = -
použití - např. detekce ticha
Krátkodobá funkce středního počtu průchodu
nulou
• se dostane jako součet všech průchodů digitalizovaného signálu nulou
Počet lokálních extrémů
• Je v podstatě modifikací krátkodobé funkce středního počtu průchodů nulou.
• Jak funkce středního počtu průchodů nulou, tak funkce počtu lokálních extrémů mohou být při analýze řečového signálu negativně ovlivněny šumem zvukového pozadí.
Diferenčí klasifikátory
D = |s(k)-s(k-1)|w(n-k)
k = -
(diference prvního řádu)
Krátkodobá autokorelační funkce
R(n,m) = (s(k)w(n-k))(s(k+m)w(n-k+m))
k = -
Krátkodobá autokorelační funkce
• Této funkce se používá často při zjišťování periodicity signálu a základního tónu řeči.
• Je-li vstupní signál periodický s periodou P, nabývá tato funkce maximálních hodnot pro
m = 0, P, 2P, ... .
• Předpokládá se, že mikrosegment je dlouhý aspoň dvě periody signálu.
Zpracování signálu ve frekvenční oblasti
– Krátkodobá Fourierova transformace
• Kepstrální analýza
• Lineární predikce
Krátkodobá Fourierova transformace
S(, n) = s(k)w(n-k)e-ik ,
k = - Fixujeme-li čas n, pak S(, n) představuje
obyčejnou Fourierovu transformaci posloupnosti {s(k)w(n-k)} a |S(, n)| vyjadřuje amplitudu složky akustického spektra odpovídající frekvenci
Krátkodobá Fourierova transformace
• Výpočet se provádí obvykle pomocí algoritmu rychlé Fourierivy transformace (FFT = Fast Fourier Transform) (FFT je speciálním případem diskrétní Fourierovy transformace (DFT) aplikovatelným pro případy, kdy délka mikrosegmentu je mocninou 2.)
FFT - vliv okénka pravoúhlé okénko Hammingovo okénko
Kepstrální analýza• Vychází z modelu činnosti hlasového ústrojí,
který předpokládá vznik řečového signálu konvolucí budicí funkce rezonančních dutin hlasového ústrojí. Kepstrum je definováno jako zpětná Fourierova transformace logaritmu Fourierova obrazu vstupního signálu x(k) Kepstrum se často používá při stanovení základního hlasivkového tónu a pro klasifikaci řeči na znělé a neznělé segmenty.
Lineární predikce
• Lineární predikce je metoda analýzy akustického signálu, založená na předpokladu, že k-tý vzorek signálu lze popsat lineání kombinací n předchozích vzorků a buzení u(k).
Lineární predikce
n
s(k) = - ai s(k - i) + Gu(k) ,
i=1
• n je řád modelu a G koeficient zesílení. Při určování ai a G se používá metody nejmenších čtverců.
Lineární predikce
• Lineární predikce bývá zařazována mezi metody zpracování signálu ve frekvenční oblasti. Používá se pro určení základního hlasivkového tónu, frekvence formantů apod.. Řád modelu n se volí obvykle v rozmezí 6 - 14.
Rozpoznávání izolovaných slov
• povely, nebo uživatel musí po vyřčení slova udělat pausu
• odpadá problém stanovení rozhraní dvou slov v souvislé promluvě
• obvykle jde o systémy závislé na uživateli (nutné natrénování) s omezenou kapacitou rozpoznávaných slov
Akustický vektor
• Vektor příznaků, vztahující se obvykle k mikrosegmentu, který se typicky obdrží některou z metod krátkodobé analýzy,
Typy klasifikátorů Klasifikátory využívající porovnání slov
metodou DTW Klasifikátory založené na statistických metodách
(modelování pomocí skrytých Markovových modelů)
Klasifikátory zpracovávající rozpoznávané slovo na dvou úrovních; v první úrovni se provede segmentace a fonetické dekódování jednotlivých segmentů, ve druhé úrovni probíhá rozpoznávání slova na základě dekódovaných segmentů.
SW pro analýzu signálu
• Např.:
• ESPS• Entropic Cambridge Research Laboratory
Metoda DTW (Dynamic Time Warping)
• Metoda DTW (česky: metoda borcení časové osy) se používá pro porovnání dvou úseků promluv (v našem případě dvou slov), vyjádřených posloupností akustických vektorů, vzniklých rozdělením slov do mikrosegmentů a jejich klasifikací souborem krátkodobých charakteristik.
Postup:• Pro množinu rozpoznávaných slov vytvoříme soubor
referenčních posloupností akustických vektorů (obvykle pro každé slovo několik posloupností odpovídajících několika způsobům vyřčení slova).
• Vytvoříme posloupnost akustických vektorů pro rozpoznávané slovo.
• Metodou DTW porovnáváme postupně tuto posloupnost s referenčními, a za rozpoznané slovo vezmeme to, které odpovídá největší shodě.
• A-rozpoznávané, B-referenční slovo
A = {a(1), a(2), ... , a(n)}
B = {b(1), b(2), ... , b(m)}.
a(1), a(2), ... , a(n),
b(1), b(2), ... , b(m), - posloupnosti akustických vektorů pro A, B
DTW-formalizace
• Algoritmus DTW hledá parametrizaci f, g: i = f(k), j=g(k), k=1 ,…, K
• minimalizující výraz KD(A, B) = d(a(f(k)), b(g( k))),
k=1• kde d je vzdálenost mezi akustickými
vektory (např. Eukl. metrika)
DTW-omezující podmínky
• Možnosti:
• f(1)=1; f(K)=n;g(1)=1; g(K)=m;
• K m
• K n
• K max(m, n)
• K min(m, n)
DTW-omezující podmínky
• f, g - neklesající funkce
• omezení na lokální souvislost:
• 0 f(k) - f(k-1) konst_1
• 0 g(k) - g(k-1) konst_2
• Globální omezení
DTW-realizace
• Heuristické metody
• Metody lineárního a dynamického programování
• O(N3V )
Vektorová kvantizace
• Akustický vektor = vektor příznaků
• použití kvantizace:
- komprese
- vokodéry
- předzpracování pro HMM
- urychlení DTW
Kódová kniha• Podprostor X n-dimensionálního vektorového
prostoru rozdělíme na L disjunktních podmnožin X(i) pokrývajících podprostor X. V každé podmnožině X(i) vybereme reprezentanta v(i).
• Vektorový kvantizér přiřazuje vektoru x X(i) vektor v(i).
• Množina všech vektorů v(i) tvoří kódovou knihu.
Kvantizace
• Kvantizační chyba
• optimalita kvantizéru
• centroid - minimalizuje d(x,v)dx
X(i)
vyhledávání v kódové knize
• Dělení na shluky a subshluky
• prohledávací stromy
• binární, ternární
• (MacQuennův algoritmus pro dělení shluku na dva subshluky)
Skryté Markovovy modely
• Model představy: hlasové ústrojí je během krátkého časového intervalu (např. odpovídající době trvání mikrosegmentu) v jednom z konečně mnoha stavů artikulačních konfigurací, generuje hlasový signál, a přejde do následujícího stavu hlasového ústrojí.
• Tato činnost je chápána statisticky.
HMM
• Kvantizací akustických vektorů (vytvořením kódové knihy) lze dosáhnout konečnosti všech parametrů odpovídajícího modelu.
• HMM = Hidden Markov Model
• Vintsyuk, Jelinek
• IBM - Tangora
Markovův proces se skrytým Markovovým modelem je pětice
• G = (Q, V, N, M, ) kde:
• Q = {qi, ,..., qk} je množina stavù
• V = {v1, ... , vm}je abeceda výst. symbolů
• N = {nij} je matice přechodu, jejíž prvky určují, s jakou pravděpodobností přechází systém ze stavu qi (v čase t) do stavu qj (v čase t+1),
• M = {mij} je matice přechodu, jejíž
prvky určují, s jakou pravděpodobností je v kterémkoliv čase t ve stavu qi generován akustický vektor vj,
= {i} je vektor pravděpodobností počátečního stavu (i-tá složka vektoru udává pravděpodobnost, že i-tý stav bude stavem počátečním).
Parametry HMM
• Soubor parametrů Markovova modelu je trojice = (N, M, ).
• Soubor parametrů vytváří model řečového segmentu, např. slova.
• Př. - původní Vintsjukův Model pro slovo
• počet stavů 40-50, - odvozeno od průměrného počtu mikrosegmentů ve slově (při délce mikrosegmentu 10 msec).
Určení pravděpodobnosti promluvy (P(O | ))
• O = {o1, ... , on}
t(i) pravděpodobnost toho, že při generování posloupnosti {o1, ... , ot} se dostaneme do stavu qi
• výpočet t(i) lze provést rekurzivně:
1(i) = i mi(o1) (kde mi(o1) znamená prvek M určující pravděpodobnost generování o1 za stavu qi )
nt+1(j) = (t(i)nij ) mi(ot+1).
i=1
• Konečné vyčíslení P(O | ):
N
P(O | ) = T(i)
i=1
(Forward-backward algorithm)
Alternativa výpočtu P(O | ) :
• Výpočet maximálně pravděpodobné posl.
Q(1), q(2), … , q(T) (za předp. O, )
Lze určit použitím Viterbiova algoritmu
(používá dynamické programování).
Trénování parametrů modelu = (N, M, ).
• O = {O(1), O(2), …, O(S)}
• máme najít maximalizující
P(O | ) = P(O(1), O(2), …, O(S)| )
Nejužívanější postup je Baumův-Welchův algoritmus.
Rozhodovací pravidlo - rozpoznávání slova
• Princip maximální věrohodnosti:
• Pro neznámé slovo O jsou určeny pravděpodobnosti P(O | ) pro všechna ,
maximální odpovídá třídě které slovo přiřazujeme.
Implementace• Modelování povelů - nejčastěji modely se
4-7 stavy.
• HTK = Hidden Markov Model ToolKit
spec. SW pro HMM
http://www-white.media.mit.edu/~nuria/HTKV2.0/htk.
Html
Entropic Cambridge Research Laboratory
HMM modelování fonémů
• Obvykle 4-7 stavů
• Modely slov se vytváří zřetězením modelů fonémů
• problémy s výpočtem v reálném čase
• speciální algoritmy na vyhledávání
Př. HMM struktur fonémů
Určení začátku a konce promluvy
Obtíže:
• šum pozadí kontra sykavky
• detekování nahodilého zvukového vzruchu kontra detekce neznělých okluziv (p, t, k), a (c, č), vekterých jsou obsaženy pauzy
• možná přítomnost zvuku o nízkých frekvencích mimo oblast slyšitelnosti
Př. 1. (začátek slova “táta”)
Př.2: “táta”, jiný vzorek, stejný mluvčí
Př.3 - pozadí, nízké frekvence
Př.4 - pozadí
Rozpoznávání souvislé řeči
Hlaví rozdíly oproti rozpoznávání slov:
• nelze vytvořit analogii databáze vzorů
• prozodické faktory
• nutnost určování hranice mezi slovy
• výplňkové zvuky a chyby řeči
Statistický přístup - jazykové modely
• Elementární příklad, ilustrující ideu:
• jestliže analyzovaná promluva má vzhledem k HMM modelům stejnou pravděpodobnost pro slova “máma“ i “nána”, je rozumné se rozhodnout pro “máma“, neboť se vyskytuje častěji.
jazykové modely
• W = (w(1)w(2)…w(n)) - posloupnost slov
• O = (o(1)o(2)…o(t)) - posl. akust. vektorů
• Chceme nalézt W* maximalizující P(W| O).
jazykové modely
Dle Bayesova pravidla platí
P(W*|O) = max P(W|O) =
W
= max (P(W)P(O|W))/P(O)
W
jazykové modely
Pro nalezení tohoto maxima tedy potřebujeme znát
• model řečníka, tj. pravděpodobnosti
P(O|W)
• jazykový model, tj. pravděpodobnosti
P(W)
jazykové modely
• model řečníka, tj. pravděpodobnosti
P(O|W)
nahrazujeme pravděpodobností generování W
odpovídajícím Markovovým modelem.
jazykové modely
jazykový model, tj. pravděpodobnosti
P(W)
řešíme z přibližného vztahu
P(W) =P(w(1)).P(w(2)|w(1)).
.P(w(3)|w(1)w(2))… P(w(n)|w(1)…w(a-1))
P(w(n)|w(1)…w(n-1))
P(w(n)|w(n-2)w(n-1))
jazykové modely
Trigramový jazykový model:
P(w(n)|w(1)…w(n-1))
P(w(n)|w(n-2)w(n-1))
Rozpoznávání tématu - topic recognition
• Př. Rozpoznávání burzovních zpráv je daleko přesnější, je-li známo, že se jedná o burzovní zprávy
• mění se stavový prostor a pravděpodobnost trigramů
• (honey - money)
Syntax a sémantika jazyka
• Uplatnění syntaktické struktury
• rozdíly text/řeč - inkrementální modely syntaxe kontra klasické modely (N. Chomsky)
• úzká souvislost prozodie a syntaxe, sémantiky
Korpusy psané a mluvené řečiTextové korpusy
• British National Corpus (Oxford)
• Český národní korpus
• Textový korpus na FI
Korpusy mluvené řeči
• Korpus mluvené řeči na FI
ELRA - European Language Resources Association
Implementace - rozpoznávání slov, ukázka
•