Zpracování digitalizovaného signálu

Zpracování digitalizovaného signálu

Metody krátkodobé analýzy.

- v časové oblasti

- ve frekvenční oblasti

Modelování funkce Cortiho ústrojí.

krátkodobá analýza

• zpracování signálu na časovém intervalu, o němž se předpokládá, že na něm nedochází k výraznějším dynamickým změnám.

• Tento interval se nazývá mikrosegment (někdy také stručneji segment) a jeho velikost se obvykle od 10 do 40 ms.

Váhové okénko

• Tím, že se rozhodneme pro určitou velikost mikrosegmentu, implicitně předpokládáme, že zvukový signál je v okolí okénka periodický s periodou okénka. Chyba, která vzniká nesouladem s tímto předpokladem, může být do jisté míry kompenzována použitím tzv. okénka. Okénko je posloupnost vah pro prvky mikrosegmentu.

Hammingovo okénko

• w(n) = 0.54 - 0.46cos(2n/(N-1))

• pro n = 0,...,N-1

• w(n) = 0 pro ostatní n (mimo mikrosegment)

Hammingovo okénko - graf

Pravoúhlé okénko

• přiřadí každému prvku mikrosegmentu jednotkovou váhu, tj. je definováno vztahem

• w(n) = 1 pro n = 0,...,N-1

• w(n) = 0 pro ostatní n (mimo mikrosegment)

Analýza digitalizovaného signálu v časové oblasti

- vychází se přímo z hodnot vzorku,

nikoliv z hodnot spektra

Funkce krátkodobé energie

E(n) = (s(k)w(n-k))2

k = -

Krátkodobá intenzita

I(n) = |s(k)|w(n - k)

k = -

použití - např. detekce ticha

Krátkodobá funkce středního počtu průchodu

nulou

• se dostane jako součet všech průchodů digitalizovaného signálu nulou

Počet lokálních extrémů

• Je v podstatě modifikací krátkodobé funkce středního počtu průchodů nulou.

• Jak funkce středního počtu průchodů nulou, tak funkce počtu lokálních extrémů mohou být při analýze řečového signálu negativně ovlivněny šumem zvukového pozadí.

Diferenčí klasifikátory

D = |s(k)-s(k-1)|w(n-k)

k = -

(diference prvního řádu)

Krátkodobá autokorelační funkce

R(n,m) = (s(k)w(n-k))(s(k+m)w(n-k+m))

k = -

Krátkodobá autokorelační funkce

• Této funkce se používá často při zjišťování periodicity signálu a základního tónu řeči.

• Je-li vstupní signál periodický s periodou P, nabývá tato funkce maximálních hodnot pro

m = 0, P, 2P, ... .

• Předpokládá se, že mikrosegment je dlouhý aspoň dvě periody signálu.

Zpracování signálu ve frekvenční oblasti

– Krátkodobá Fourierova transformace

• Kepstrální analýza

• Lineární predikce

Krátkodobá Fourierova transformace

S(, n) = s(k)w(n-k)e-ik ,

k = - Fixujeme-li čas n, pak S(, n) představuje

obyčejnou Fourierovu transformaci posloupnosti {s(k)w(n-k)} a |S(, n)| vyjadřuje amplitudu složky akustického spektra odpovídající frekvenci

Krátkodobá Fourierova transformace

• Výpočet se provádí obvykle pomocí algoritmu rychlé Fourierivy transformace (FFT = Fast Fourier Transform) (FFT je speciálním případem diskrétní Fourierovy transformace (DFT) aplikovatelným pro případy, kdy délka mikrosegmentu je mocninou 2.)

FFT - vliv okénka pravoúhlé okénko Hammingovo okénko

Kepstrální analýza• Vychází z modelu činnosti hlasového ústrojí,

který předpokládá vznik řečového signálu konvolucí budicí funkce rezonančních dutin hlasového ústrojí. Kepstrum je definováno jako zpětná Fourierova transformace logaritmu Fourierova obrazu vstupního signálu x(k) Kepstrum se často používá při stanovení základního hlasivkového tónu a pro klasifikaci řeči na znělé a neznělé segmenty.

Lineární predikce

• Lineární predikce je metoda analýzy akustického signálu, založená na předpokladu, že k-tý vzorek signálu lze popsat lineání kombinací n předchozích vzorků a buzení u(k).

Lineární predikce

n

s(k) = - ai s(k - i) + Gu(k) ,

i=1

• n je řád modelu a G koeficient zesílení. Při určování ai a G se používá metody nejmenších čtverců.

Lineární predikce

• Lineární predikce bývá zařazována mezi metody zpracování signálu ve frekvenční oblasti. Používá se pro určení základního hlasivkového tónu, frekvence formantů apod.. Řád modelu n se volí obvykle v rozmezí 6 - 14.

Rozpoznávání izolovaných slov

• povely, nebo uživatel musí po vyřčení slova udělat pausu

• odpadá problém stanovení rozhraní dvou slov v souvislé promluvě

• obvykle jde o systémy závislé na uživateli (nutné natrénování) s omezenou kapacitou rozpoznávaných slov

Akustický vektor

• Vektor příznaků, vztahující se obvykle k mikrosegmentu, který se typicky obdrží některou z metod krátkodobé analýzy,

Typy klasifikátorů Klasifikátory využívající porovnání slov

metodou DTW Klasifikátory založené na statistických metodách

(modelování pomocí skrytých Markovových modelů)

Klasifikátory zpracovávající rozpoznávané slovo na dvou úrovních; v první úrovni se provede segmentace a fonetické dekódování jednotlivých segmentů, ve druhé úrovni probíhá rozpoznávání slova na základě dekódovaných segmentů.

SW pro analýzu signálu

• Např.:

• ESPS• Entropic Cambridge Research Laboratory

Metoda DTW (Dynamic Time Warping)

• Metoda DTW (česky: metoda borcení časové osy) se používá pro porovnání dvou úseků promluv (v našem případě dvou slov), vyjádřených posloupností akustických vektorů, vzniklých rozdělením slov do mikrosegmentů a jejich klasifikací souborem krátkodobých charakteristik.

Postup:• Pro množinu rozpoznávaných slov vytvoříme soubor

referenčních posloupností akustických vektorů (obvykle pro každé slovo několik posloupností odpovídajících několika způsobům vyřčení slova).

• Vytvoříme posloupnost akustických vektorů pro rozpoznávané slovo.

• Metodou DTW porovnáváme postupně tuto posloupnost s referenčními, a za rozpoznané slovo vezmeme to, které odpovídá největší shodě.

• A-rozpoznávané, B-referenční slovo

A = {a(1), a(2), ... , a(n)}

B = {b(1), b(2), ... , b(m)}.

a(1), a(2), ... , a(n),

b(1), b(2), ... , b(m), - posloupnosti akustických vektorů pro A, B

DTW-formalizace

• Algoritmus DTW hledá parametrizaci f, g: i = f(k), j=g(k), k=1 ,…, K

• minimalizující výraz KD(A, B) = d(a(f(k)), b(g( k))),

k=1• kde d je vzdálenost mezi akustickými

vektory (např. Eukl. metrika)

DTW-omezující podmínky

• Možnosti:

• f(1)=1; f(K)=n;g(1)=1; g(K)=m;

• K m

• K n

• K max(m, n)

• K min(m, n)

DTW-omezující podmínky

• f, g - neklesající funkce

• omezení na lokální souvislost:

• 0 f(k) - f(k-1) konst_1

• 0 g(k) - g(k-1) konst_2

• Globální omezení

DTW-realizace

• Heuristické metody

• Metody lineárního a dynamického programování

• O(N3V )

Vektorová kvantizace

• Akustický vektor = vektor příznaků

• použití kvantizace:

- komprese

- vokodéry

- předzpracování pro HMM

- urychlení DTW

Kódová kniha• Podprostor X n-dimensionálního vektorového

prostoru rozdělíme na L disjunktních podmnožin X(i) pokrývajících podprostor X. V každé podmnožině X(i) vybereme reprezentanta v(i).

• Vektorový kvantizér přiřazuje vektoru x X(i) vektor v(i).

• Množina všech vektorů v(i) tvoří kódovou knihu.

Kvantizace

• Kvantizační chyba

• optimalita kvantizéru

• centroid - minimalizuje d(x,v)dx

X(i)

vyhledávání v kódové knize

• Dělení na shluky a subshluky

• prohledávací stromy

• binární, ternární

• (MacQuennův algoritmus pro dělení shluku na dva subshluky)

Skryté Markovovy modely

• Model představy: hlasové ústrojí je během krátkého časového intervalu (např. odpovídající době trvání mikrosegmentu) v jednom z konečně mnoha stavů artikulačních konfigurací, generuje hlasový signál, a přejde do následujícího stavu hlasového ústrojí.

• Tato činnost je chápána statisticky.

HMM

• Kvantizací akustických vektorů (vytvořením kódové knihy) lze dosáhnout konečnosti všech parametrů odpovídajícího modelu.

• HMM = Hidden Markov Model

• Vintsyuk, Jelinek

• IBM - Tangora

Markovův proces se skrytým Markovovým modelem je pětice

• G = (Q, V, N, M, ) kde:

• Q = {qi, ,..., qk} je množina stavù

• V = {v1, ... , vm}je abeceda výst. symbolů

• N = {nij} je matice přechodu, jejíž prvky určují, s jakou pravděpodobností přechází systém ze stavu qi (v čase t) do stavu qj (v čase t+1),

• M = {mij} je matice přechodu, jejíž

prvky určují, s jakou pravděpodobností je v kterémkoliv čase t ve stavu qi generován akustický vektor vj,

= {i} je vektor pravděpodobností počátečního stavu (i-tá složka vektoru udává pravděpodobnost, že i-tý stav bude stavem počátečním).

Parametry HMM

• Soubor parametrů Markovova modelu je trojice = (N, M, ).

• Soubor parametrů vytváří model řečového segmentu, např. slova.

• Př. - původní Vintsjukův Model pro slovo

• počet stavů 40-50, - odvozeno od průměrného počtu mikrosegmentů ve slově (při délce mikrosegmentu 10 msec).

Určení pravděpodobnosti promluvy (P(O | ))

• O = {o1, ... , on}

t(i) pravděpodobnost toho, že při generování posloupnosti {o1, ... , ot} se dostaneme do stavu qi

• výpočet t(i) lze provést rekurzivně:

1(i) = i mi(o1) (kde mi(o1) znamená prvek M určující pravděpodobnost generování o1 za stavu qi )

nt+1(j) = (t(i)nij ) mi(ot+1).

i=1

• Konečné vyčíslení P(O | ):

N

P(O | ) = T(i)

i=1

(Forward-backward algorithm)

Alternativa výpočtu P(O | ) :

• Výpočet maximálně pravděpodobné posl.

Q(1), q(2), … , q(T) (za předp. O, )

Lze určit použitím Viterbiova algoritmu

(používá dynamické programování).

Trénování parametrů modelu = (N, M, ).

• O = {O(1), O(2), …, O(S)}

• máme najít maximalizující

P(O | ) = P(O(1), O(2), …, O(S)| )

Nejužívanější postup je Baumův-Welchův algoritmus.

Rozhodovací pravidlo - rozpoznávání slova

• Princip maximální věrohodnosti:

• Pro neznámé slovo O jsou určeny pravděpodobnosti P(O | ) pro všechna ,

maximální odpovídá třídě které slovo přiřazujeme.

Implementace• Modelování povelů - nejčastěji modely se

4-7 stavy.

• HTK = Hidden Markov Model ToolKit

spec. SW pro HMM

http://www-white.media.mit.edu/~nuria/HTKV2.0/htk.

Html

Entropic Cambridge Research Laboratory

HMM modelování fonémů

• Obvykle 4-7 stavů

• Modely slov se vytváří zřetězením modelů fonémů

• problémy s výpočtem v reálném čase

• speciální algoritmy na vyhledávání

Př. HMM struktur fonémů

Určení začátku a konce promluvy

Obtíže:

• šum pozadí kontra sykavky

• detekování nahodilého zvukového vzruchu kontra detekce neznělých okluziv (p, t, k), a (c, č), vekterých jsou obsaženy pauzy

• možná přítomnost zvuku o nízkých frekvencích mimo oblast slyšitelnosti

Př. 1. (začátek slova “táta”)

Př.2: “táta”, jiný vzorek, stejný mluvčí

Př.3 - pozadí, nízké frekvence

Př.4 - pozadí

Rozpoznávání souvislé řeči

Hlaví rozdíly oproti rozpoznávání slov:

• nelze vytvořit analogii databáze vzorů

• prozodické faktory

• nutnost určování hranice mezi slovy

• výplňkové zvuky a chyby řeči

Statistický přístup - jazykové modely

• Elementární příklad, ilustrující ideu:

• jestliže analyzovaná promluva má vzhledem k HMM modelům stejnou pravděpodobnost pro slova “máma“ i “nána”, je rozumné se rozhodnout pro “máma“, neboť se vyskytuje častěji.

jazykové modely

• W = (w(1)w(2)…w(n)) - posloupnost slov

• O = (o(1)o(2)…o(t)) - posl. akust. vektorů

• Chceme nalézt W* maximalizující P(W| O).

jazykové modely

Dle Bayesova pravidla platí

P(W*|O) = max P(W|O) =

W

= max (P(W)P(O|W))/P(O)

W

jazykové modely

Pro nalezení tohoto maxima tedy potřebujeme znát

• model řečníka, tj. pravděpodobnosti

P(O|W)

• jazykový model, tj. pravděpodobnosti

P(W)

jazykové modely

• model řečníka, tj. pravděpodobnosti

P(O|W)

nahrazujeme pravděpodobností generování W

odpovídajícím Markovovým modelem.

jazykové modely

jazykový model, tj. pravděpodobnosti

P(W)

řešíme z přibližného vztahu

P(W) =P(w(1)).P(w(2)|w(1)).

.P(w(3)|w(1)w(2))… P(w(n)|w(1)…w(a-1))

P(w(n)|w(1)…w(n-1))

P(w(n)|w(n-2)w(n-1))

jazykové modely

Trigramový jazykový model:

P(w(n)|w(1)…w(n-1))

P(w(n)|w(n-2)w(n-1))

Rozpoznávání tématu - topic recognition

• Př. Rozpoznávání burzovních zpráv je daleko přesnější, je-li známo, že se jedná o burzovní zprávy

• mění se stavový prostor a pravděpodobnost trigramů

• (honey - money)

Syntax a sémantika jazyka

• Uplatnění syntaktické struktury

• rozdíly text/řeč - inkrementální modely syntaxe kontra klasické modely (N. Chomsky)

• úzká souvislost prozodie a syntaxe, sémantiky

Korpusy psané a mluvené řečiTextové korpusy

• British National Corpus (Oxford)

• Český národní korpus

• Textový korpus na FI

Korpusy mluvené řeči

• Korpus mluvené řeči na FI

ELRA - European Language Resources Association

Implementace - rozpoznávání slov, ukázka

•

Documents

Zpracování digitalizovaného signálu