29
Using phonetic feature extraction to determine optimal speech regions for maximising the effectiveness of glottal source analysis John Kane, Irena Yanushevskaya, John Dalton, Christer Gobl, Ailbhe N´ ı Chasaide Monday August 26th, 2013 Interspeech Lyon, France Phonetic feature extraction for glottal processing 1

Using phonetic feature extraction to determine optimal ... fileUsing phonetic feature extraction to determine optimal speech regions for maximising the e ectiveness of glottal source

  • Upload
    haxuyen

  • View
    224

  • Download
    1

Embed Size (px)

Citation preview

Using phonetic feature extraction to determineoptimal speech regions for maximising the

effectiveness of glottal source analysis

John Kane, Irena Yanushevskaya, John Dalton, Christer Gobl,Ailbhe Nı Chasaide

Monday August 26th, 2013Interspeech

Lyon, France

Phonetic feature extraction for glottal processing 1

Glottal source analysis

Phonetic feature extraction for glottal processing 2

Speech production / Glottal inverse filtering

Phonetic feature extraction for glottal processing 3

Glottal source in speech technology

Speech synthesisSpeech recognition

Speaker verification

Phonetic feature extraction for glottal processing 4

Previous work - Centres of reliability (Mokhtari et al.)

�������

� ��

��������9����:�������������������������������������1����������������������������������������������������������������� ������� ������� ������� ������ ���� � ���� ������������������ �������� !������� �� �� �����"� �������������� ���� ��������� ����� ��������������������������� �������������������� �������������G������$����������� ���� ����� �� ������� ���� ��� �� ������� ��������������������������������������G� ��������������������������������������� �������� ������������������������� ���������������1��������$�K����������� ������������4>��������� �� �������@��� ��� �������������� �������.��������� ���� ���� ����� ��� ����� �������������� ����� ��������������������� ����������������������� ����������������������� �� ��� ����$������� ����0����������� �� ���������� �������� ���� �� ����� �� ����� � ������ � ��������������� �������������������� �������!���� ���� ������������ ������������G>������"��� �������������������������������� ��� ����� �� ����� ��� ���� ������ � �� ������� �� ���� ���� �� �� ���� ���� ���������� ������� � �� ���� ���� ��� ����$����� �� ���� ����������������K�������A������ ������������ ����� ��������� ����� ����� �� ������ �������� �������������� ���� ����� ��������� �� ������ � ���� ���������� ��� ��� 6�M�������6� ���� ���� ������ ��������� 6�����6��7���������� �����.�� �������������������������������<���C������$���<��� �� ������������� ��������������������������\(�������� ���� ������� ������ ��� ����� ���� �� ������ ������� � �� �� �������� ����� ����� ��������� � ���� � ������ �� ��� ����������� ��� ����� ���� ������� �������

������ ������� ��������� ����� ��� � !�� ���"� ����� ������������������� ���������� �������������������������������������������@�������������� �� ������������������ ����9����:������������ ������ ����������������������� ��������������������������������������G$�����G<��������

+�� ��� ��,� ������� ���� ��

�������������������������������������������������������� ���������� ���� � ��� � ��� ������ ������� !� "1� ���������������������� �� �������������������������������� ���� ������� ����� �������� �������������� ��������� ������������ ����� ������� ������ ��� ����� ���������� ������������������ ����������������������

<�4�=���������

�����������������������$������������������ ������������������ �� ����� ������ ��� ������������ ��� ������������������� ���������������������� ��� ����������������������� ������ � ��� ����������� ������� �� ���� ���������� ���� ���������������������������������������������5������������������� ����������������� ���� ������������������������������������������������������������������������� � �������� ��� ���� ������� ���� � ��� � ������������ ������������������������������������������������������������������ ������������� ���������������������������� �� ���� ����� ���� � ���� �������� ����� ������

������������

�����������������

������������

��������

���������

���������

������

�������

����

��������

��������

������

����

�������� �

��!

������

��������������

�� " ��

��������

����������

#�������$��

�������

����� ��������%�����������

������������

����� ��

������

\)�*�(� �)������������������� ������������������� �����������*� 6*������� ��������������� ������ ���������������������\)�������������#$4&��\)��������������������������������� ��

Phonetic feature extraction for glottal processing 5

Previous work - Phonetic feature extraction

Speech synthesis

Speech recognition

Phonetic feature extraction for glottal processing 6

Introduction - Research aims

1 Implement a method for detecting binary phonetic features

2 Quantitatively evaluate phonetic-sensitive glottal sourceprocessing

Phonetic feature extraction for glottal processing 7

Phonetic feature extraction

Phonetic feature extraction for glottal processing 8

Phonetic feature extraction - Speech data & target labels

ARCTIC: 9 English speakers, 1000+ sentences each

IIIT: 6 speakers of different Indic languages, 1000 sentenceseach

Binary phonetic classes: {Voiced, fricative, nasal, high vowel}

Target labelling: e.g., FRICATION

/a/ => 0

/f/ => 1

/t/ => 0

Phonetic feature extraction for glottal processing 9

Phonetic feature extraction - Features & learning

Audio Waveform

MFCC +�/��

Neural NetworkFeature Extraction

VOICING

Features: 13 MFCCs with ∆ and ∆∆

ANN: Multi-layer perceptron, one hidden layer, 100 neurons

Phonetic feature extraction for glottal processing 10

Phonetic feature extraction - Speaker independent results

Voiced Fricative Nasal High vowel0

5

10

15

20

Err

or (

%)

Voiced Fricative Nasal High vowel0

0.2

0.4

0.6

0.8

1

F1

scor

e

Interspeech

Post−Interspeech

Phonetic feature extraction for glottal processing 11

Phonetic feature extraction - Illustration

“Not at this particular case Tom ...”

Phonetic feature extraction for glottal processing 12

Phonetic feature extraction - Illustration

“Not at this particular case Tom ...”

Phonetic feature extraction for glottal processing 13

Glottal source processing

Phonetic feature extraction for glottal processing 14

Glottal source processing

Glottal source analysis difficult to quantitatively evaluate

Assessed implicitly here through voice quality classificationexperiments

Phonetic feature extraction for glottal processing 15

Glottal source processing - Speech data

6 speakers, 17 TIMIT utterances in 3 phonation types(breathy, modal, tense)

Phonetic feature extraction for glottal processing 16

Glottal source processing - Features

Model parameters: Liljencrants-Fant (LF) model fit usingdyProg-LF algorithm => {Ra, Rk, Rg}

0 0.002 0.004 0.006 0.008 0.01 0.012 0.014 0.016−0.1

−0.05

0

0.05

0.1

Time [s]

Am

plitu

de

Diff. glottal flowLF model

Direct parameters:NAQ: Normalised Amplitude QuotientQOQ: Quasi-Open QuotientH1-H2: Difference in amplitude of first two glottal harmonics

Phonetic feature extraction for glottal processing 17

Glottal source processing - Classification

Support Vector Machines (SVMs):One-against-one multi-class architectureRadial Basis Function (RBF) kernel10-fold cross-validation experiments (incrementally removingfeature data from certain phonetic regions)

Phonetic feature extraction for glottal processing 18

Glottal source processing - Results

Baseline Sys 1 Sys 2 Sys 3 Sys 4 Sys 520

22

24

26

28

30

32

34

36C

lass

ifica

tion

erro

r(%

)

Phonetic feature extraction for glottal processing 19

Glottal source processing - Results

Baseline Sys 1 Sys 2 Sys 3 Sys 4 Sys 520

22

24

26

28

30

32

34

36

Cla

ssifi

catio

ner

ror(

%)

BASELINE: Using all glottal feature data

Phonetic feature extraction for glottal processing 20

Glottal source processing - Results

Baseline Sys 1 Sys 2 Sys 3 Sys 4 Sys 520

22

24

26

28

30

32

34

36

Cla

ssifi

catio

ner

ror(

%)

... excluding high vowel regions => :(

Phonetic feature extraction for glottal processing 21

Glottal source processing - Results

Baseline Sys 1 Sys 2 Sys 3 Sys 4 Sys 520

22

24

26

28

30

32

34

36

Cla

ssifi

catio

ner

ror(

%)

... additionally excluding fricative regions∗∗∗ => :)

Phonetic feature extraction for glottal processing 22

Glottal source processing - Results

Baseline Sys 1 Sys 2 Sys 3 Sys 4 Sys 520

22

24

26

28

30

32

34

36

Cla

ssifi

catio

ner

ror(

%)

... additionally excluding nasal regions

Phonetic feature extraction for glottal processing 23

Glottal source processing - Results

Baseline Sys 1 Sys 2 Sys 3 Sys 4 Sys 520

22

24

26

28

30

32

34

36

Cla

ssifi

catio

ner

ror(

%)

JUST excluding nasal regions∗ => :)

Phonetic feature extraction for glottal processing 24

Glottal source processing - Results

Baseline Sys 1 Sys 2 Sys 3 Sys 4 Sys 520

22

24

26

28

30

32

34

36C

lass

ifica

tion

erro

r(%

)

Using phonetic features as input features in the classifier => :(

Phonetic feature extraction for glottal processing 25

What did we find?

Implementation of phonetic feature extraction based on ANNs

Using information from this (i.e. removing feature data fromfricative and nasal regions) significantly improved voice qualityclassification

Phonetic feature extraction for glottal processing 26

Future ...

Optimise phonetic feature extraction

Increase set of phonetic features

Investigate other context-sensitive glottal source processingmethods (e.g., adaptive vocal tract model)

Application in other areas of speech processing

Phonetic feature extraction for glottal processing 27

Website: http://covarep.github.io/covarep

GitHub: https://github.com/covarep/covarep

Phonetic feature extraction for glottal processing 28

Thank you!Website: http://covarep.github.io/covarep

GitHub: https://github.com/covarep/covarep

Phonetic feature extraction for glottal processing 29