Upload
others
View
2
Download
0
Embed Size (px)
Citation preview
THE audio feature:
MFCC Mel Frequency
Cepstral Coefficients
Ihmiskuulo
• MFCC-’kertoimien’ tarkoituksena on mallintaa ihmiskorvan toimintaa yleisellä tasolla.
• Näin on todettu myös tapahtuvan, sillä MFCC:t ovat yleisimmin käytetty audio-piirre, niin puhujan, puheen kuin ympäristöääntenkin automaattisessa tunnistuksessa.
• MFCC-piirteet ottavat (ainakin jollakin tavalla) huomioon ihmiskorvan – epälineaarisen korkeusaistimuksen – taipumuksen yhdistää taajuustasossa lähellä toisiaan
olevat äänikomponentit – epälineaarisen äänenvoimakkuusaistimuksen
Ihmiskuulon ominaisuuksia -epälineaarinen äänenkorkeusaistimus
• Ihminen mieltää (suurinpiirtein) saman suuruisiksi taajuuden muutokset:
f0 ⇝ 2*f0 ⇝ 4*f0
• eli kuulon taajuusaistimus toimii jokseenkin logaritmisesti:
log(f0) + log(f0) = log(2*f0)
log(2*f0) + log(2*f0) = log(4*f0)
Spektrogrammi pianon äänistä C1 – c5
Huomaa miten aina matalin taajuus eli perustaajuus kaksinkertaistuu, ja sen harmoniset äänekset siirtyvät vastaavasti kaksi kertaa korkeammille taajuuksille.
f0
f0
f0
Ihmiskuulon ominaisuuksia - kriittinen kaista (taajuusintegrointi)
• Ihmiskorva yhdistää aistimukset lähellä toisiaan olevista taajuuksista. Voimakkaampi ääni peittää toisen äänen kuulumattomiin, jos taajuudet ovat lähellä toisiaan. Samalla äänten teho yhdistyy yhdeksi havainnoksi.
Äänenkorkeusaistimuksen mallinnus
• Puheenkäsittelyssä käytetään yleisesti kahta ihmiskuuloa mukailevaa taajuusmuunnosta, joilla mallinnetaan sekä epälineaarista taajuusaistimusta että kriittisen kaistan taajuuksien yhteensulautumista:
1) Mel-taajuusasteikko, joka on muodostettu puhtaiden siniäänten äänenkorkeusaistimuskokeiden perusteella mallintamaan korvan simpukan epälineaarista taajuuden havainnointia.
2) Bark-taajuusasteikko, joka on määritelty lähellä toisiaan olevien taajuuskomponenttien peitto-ominaisuuden mukaan mallintamaan korvan taajuusintegrointiominaisuutta. Bark asteikko on muodostettu täyttämällä kuuloalue vierekkäisillä kriittisillä kaistoilla, ja numeroimalla ne 1:stä 26:een.
Mel - taajuusasteikko
1 Mel yksikkö on määritelty yhdeksi tuhannesosaksi 1000 Hz:n taajuisen äänen subjektiivisesta äänenkorkeudesta.
eli 1000 Hz = 1000 Mel
)700
1(log2595 10Hz
Mel
ff
Bark-taajuusasteikko
2
7500arctan5.3
)00076.0arctan(13
Hz
HzBark
f
ff
Bark-skaalan kriittiset kaistat on määritelty viereisen kuvan mukaisesti, vaikka todellisuudessa korvan taajuusintegrointi toimii millä tahansa keskitaajuudella.
Pianon äänistä C1 – c5
Mel-taajuuksinen spektrogrammi
Ja
Bark-taajuuksinen spektrogrammi
Ihmiskuulon ominaisuuksia - äänekkyys eri äänenkorkeuksilla
Ihmisen kuulo on herkimmillään taajuuksilla 500 – 6000Hz. Äänipainetaso ei kerro täsmällisesti sitä, miltä ääni ihmisen korvaan kuulostaa.
Kuulon herkkyyden mallinnus eri taajuuksilla Tätä ihmiskorvan ominaisuutta mallinnetaan äänisignaalinkäsittelyssä yleensä suotimella, joka laskee matalien taajuuksien energian ihmisen kuulon mukaiselle tasolle. Esimerkiksi:
* jo aiemmin mainitulla esikorostus-suotimella:
* tai esimerkiksi äänitasomittauksissa käytetään useimmiten IEC-standardin määrittelemää A-suodinta ennen energian laskemista äänisignaalista: 11)( bzzH
Ihmiskuulon ominaisuuksia – äänenvoimakkuuden muutoksen havaitseminen
• Weberin sääntö sanoo, että fysikaalisen suureen muutos havaitaan sen suuruisena kuin se muuttuu suhteellisesti:
• Tämän perusteella on päädytty ilmaisemaan ääneen liittyviä suureita desiBeleinä: 𝐿𝐼 = 10𝑙𝑜𝑔10 (𝐼) .
Joko päästään asiaan? Mikä se asia taas olikaan?
- THE audiopiirre, joka
useimmissa äänen tunnistus-systeemeissä lasketaan kustakin
puhe/äänikehyksestä, eli:
MFCC – Mel Frequency Cepstral coefficients
MFCC:iden laskeminen
– määritetään Mel-asteikolla haluttu määrä (yleensä reilu 20 välillä 0…8000Hz) tasalevyisiä ’kaistanpäästösuotimia’.
MFCC:iden laskeminen
– määritetään Mel-asteikolla haluttu määrä (yleensä reilu 20 välillä 0…8000Hz) tasalevyisiä ’kaistanpäästösuotimia’.
– Kunkin suotimen kohdalle osuvien fft-binien energiat lasketaan yhteen:
bin
binb
zSkEmax
min
2)()(
MFCC:iden laskeminen
– määritetään Mel-asteikolla haluttu määrä (yleensä reilu 20 välillä 0…8000Hz) tasalevyisiä ’kaistanpäästösuotimia’.
– Kunkin suotimen kohdalle osuvien fft-binien energiat lasketaan yhteen:
– Otetaan logaritmi jokaisesta E(k):sta k=1…K
bin
binb
zSkEmax
min
2)()(
MFCC:iden laskeminen
– määritetään Mel-asteikolla haluttu määrä (yleensä reilu 20 välillä 0…8000Hz) tasalevyisiä ’kaistanpäästösuotimia’.
– Kunkin suotimen kohdalle osuvien fft-binien energiat lasketaan yhteen:
– Otetaan logaritmi jokaisesta E(k):sta k=1…K
– Lasketaan diskreetti kosinimuunnos (II) vektorista log(E)
bin
binb
zSkEmax
min
2)()(
MFCC:iden laskeminen
– määritetään Mel-asteikolla haluttu määrä (yleensä reilu 20 välillä 0…8000Hz) tasalevyisiä ’kaistanpäästösuotimia’.
– Kunkin suotimen kohdalle osuvien fft-binien energiat lasketaan yhteen:
– Otetaan logaritmi jokaisesta E(k):sta k=1…K
– Lasketaan diskreetti kosinimuunnos (II) vektorista log(E)
– Eli MFCC:t ovat yhtä kuin DCT-kertoimet vektorista log(E)
bin
binb
zSkEmax
min
2)()(