若干資料選取方法以改善鑑別式聲學模型訓練

若干資料選取方法以改善鑑別式聲學模型訓練

指導教授：陳柏琳博士研究生：朱芳輝

中華民國九十七年一月二十五日

2

大綱• 研究內容與貢獻• AdaBoost 演算法• 最小化音素錯誤訓練• 資料選取方法

– 基於 AdaBoost 演算法的資料選取方法– 基於詞圖期望音素正確率的資料選取方法

• 實驗與討論• 結論與未來展望

3

訓練資料選取方法

統計式語音辨識基本架構圖

語音特徵向量

特徵擷取聲學比對

語言解碼

聲學模型

語言模型

辨識文字

聲學模型訓練

語言模型訓練

發音詞典語音訊號

4

研究內容與貢獻• 基於 AdaBoost 演算法之資料選取方法• 基於詞圖期望音素正確率 (Expected Phone Accuracy) 定義域之資料選取方法

– 訓練語句層次的資料選取方法– 音素段落層次的資料選取方法– 多重資料選取方法之結合

5

緣由• 在 No Free Lunch Theorem 中明確地指出：

– 不存在任何單一個學習演算法可以推導出一個非常精確的學習器(Learner) ，使其適用於所有的領域之中

• 解決辦法：– 找出多個具有不同能力的學習器，透過將這些學習器予以結合而得到一個單一個擁有全方位能力的學習器

• 但，該如何結合這些學習器？– 多重階段結合法 (Multistage Combination)– 多重專家結合法 (Multi-Expert Combination)

• 投票 (Voting) 演算法

[Wolpert and Macready 1997]“No Free Lunch Theorems for Optimization,” IEEE Trans. Evolutionary Computation, Vol. 1, No. 1, pp. 67-82, 1997.

6

Voting 演算法• 針對一待側樣本，若存在多個學習器，則：

• 將定義為線性組合：

1M 2M 3M

x

+ f

y

1w 2w 3w

1d 2d 3d

x ),...,1( LiM i

)(),...,(),( 11 xdxdxdfxy L

f

, )()(1

L

iii xdwxy

1 and ,01

L

iii wiw

集成 (Ensemble)

7

Boosting 演算法• Boosting 演算法的精神在於

– 循序的訓練求得多個學習器，每一個學習器的能力可以彌補前一學習器的不足– 透過結合多個弱勢學習器 ( 錯誤小於 0.5) ，最終所得之集成可為一個強勢學習器 ( 錯誤為任意小 )

– 幾個缺點：• 只能應付二元分類任務• 最多三個分類器• 訓練樣本集要夠大

X

1x 2x 3x

1M 2M

3M

1M 2M 3M

x

1d 2d 3d

21 ? dd

Yes No

1dy 3dy

訓練階段辨識階段

8

AdaBoost.M2 演算法輸入：訓練序列，其中包含資料樣本與其對應的標記。初始：定義，其中為集合的元素個數。重覆： 1. 利用事前機率分布來訓練得到弱勢分類器。 2. 得到其對應的候選假設並且計算擬似損失：

3. 設定 4. 更新事前機率分布：輸出：最後的候選假設為：

),(),...,,( 11 NN yxyx Xxi },...,1{ KYyi

},},,...,1{:),{( YyyyNiyx ii B0 else ,),( 1),(1 BB yxyxD ii

B B

tD 1,0: YXht

N

i yy itiititti

yxhyxhyxD1 )(

)),(),(1)(,(21

tt

t

1

tD ),(),(1

121),(),( yxhyxh

tt

itit

itiit

Z

yD xyxD

t ttYy yxhxH ),()(lnmaxarg)( 1

tZ其中為正規化常數

9

最小化音素錯誤鑑別式聲學模型訓練 (1/3)

• 最小化音素錯誤鑑別式聲學模型訓練的目標函數– 旨在最大化語音辨識器對所有訓練語句之可能辨識出候選詞序列 ( ) 的期望音素正確率

其中可用語音辨識器產生的詞圖來近似：

zOiW ,,, 321 WWWW zi W

Z

zzi

W z

iiz

Z

zzi

WziMPE

WWAOp

WPWOp

WWAOWpF

zi

zi

1

1

),()(

)()|(

),()|()(

W

W

)( zOp latticez ,W

Z

zzi

WW

kkz

iizMPE WWA

WPWOpWPWOp

Flattice zi

lattice zk

1

),()()|(

)()|()(

,

,

WW

10


• 對於詞圖上候選詞序列之正確率為：

• 候選詞序列中一個音素段落之正確率為：

latticez ,W

q

quque

ququeqA

zWu ),,(1),,(21

max)(

iWq

zi qAWWA )(),(

iW

0 5 10 15 20 25 30

cba 正確轉寫音素序列a c 辨識之音素序列

A( ) = A(a) + A(c) = 2

e(a,a)=10/10

-1+2e(a,a)=1.0

e(a,b)=5/10

-1+e(a,b)=-0.5

A(a)=1.0

e(c,b)=5/10

-1+e(b,c)=-0.5

e(c,c)=10/10

-1+2e(c,c)=1.0

A(c)=1.0

ca

11


• 其目標函數可透過延伸波式 (Extended Baum-Welch) 演算法得到聲學模型參數估測之更新公式

22222

2

}{)()}()({

}{)}()({

qmdqmd

denqm

numqm

qmdqmdqmddenqmd

numqmd

qmd

qmddenqm

numqm

qmdqmddenqmd

numqmd

qmd

DDOO

DDOO

Z

z q

e

st

zq

zqm

numqm

latticez

q

q

MPE

t1 ,

),0max()(W

Z

z q

e

st

zq

zqm

denqmd

latticez

q

q

MPE

t1 ,

),0max()(W

Z

z q

e

stz

zq

zqm

numqmd

latticez

q

q

MPE

totO1 ,

)(),0max()()(W

Z

z q

e

stz

zq

zqm

denqmd

latticez

q

q

MPE

totO1 ,

)(),0max()()(W

Z

z q

e

stz

zq

zqm

numqmd

latticez

q

q

MPE

totO1

22

,

)(),0max()()(W

Z

z q

e

stz

zq

zqm

denqmd

latticez

q

q

MPE

totO1

22

,

)(),0max()()(W

zavgz

zq

MPEzq cqc

12

基於 AdaBoost 演算法的資料選取方法 (1/3)

• 本論文將 AdaBoost 演算法中的分類錯誤定義於訓練語句層次上：

• 對於通過時間音框上所有的候選音素段落給定不同的權重：

toqPtoqPN zz

tz

etsq

T

tzz

qqlatticez

z

12

1

,1 W

t

,

||121 toqPtoqP

ztz

ztztzqD

z

zz

1

bc正確轉寫音素序列

候選音素序列 1


序列1之事後機率為0.9序列2之事後機率為0.1 ,

badc

5.1 , 6.0

1t 2t

22.15.1)(

04.15.1)(5.0

1.0

1

1

cD

aDt

t

44.15.1)(

22.15.1)(9.0

5.0

2

2

dD

bDt

t

13


• 則最小化音素錯誤訓練的目標函數可以表示為：

• 對於的訓練語句而言，其權重會介於到 1之間；對於的訓練語句而言，其權重會介於 1 到之間。• 亦對 I-Smoothing 之統計值給予權重

5.0 5.0

),);((log)(),(ˆ ,

qmqmzzqm

m

tz

et

st

MPEzq

qzMPE toNtqDH

q

qlatticez

W

AdaBoost-FL-MPE

14


• 另一種權重設計：

• 而最小化音素錯誤訓練的目標函數又可表示為： toqPtoqP

ztz

ztztzqInvD

||121

),);((log)(),(ˆ ,

qmqmzzqm

m

tz

et

st

MPEzq

qzMPE toNtqInvDH

q

qlatticez

W

AdaBoost-IFL-MPE

正確轉寫音素序列



序列1之事後機率為0.9序列2之事後機率為0.1 , 67.0 , 4.0

1t 2t

96.067.0)(

82.067.0)(1.0

5.0

1

1

cInvD

aInvDt

t

82.067.0)(

70.067.0)(5.0

9.0

2

2

dInvD

bInvDt

t

da

badc

bc正確轉寫音素序列



序列1之事後機率為0.9序列2之事後機率為0.1 ,

badc

5.1 , 6.0

1t 2t

22.15.1)(

44.15.1)(5.0

9.0

1

1

cInvD

aInvDt

t

04.15.1)(

22.15.1)(1.0

5.0

2

2

dInvD

bInvDt

t

15

訓練語句選取方法• 在鑑別式聲學模型訓練中，詞圖可以被視為一訓練語句能夠帶來多少鑑別資訊的重要憑據• 在最小化音素錯誤訓練中，一訓練語句中所有候選詞序列的期望正確率可以視為其詞圖在混淆程度上的基準• 一訓練語句擁有過高或過低的，所能提供的鑑別資訊便為有限• 因此，訓練語句選取方法可定義為：

zavgc

zavgc

zlc

czavgz

avg ˆ

Zz

ziW

ziMPE WWAOWpFzi

),()|()(W

avgzavgavg ccczZ ˆˆˆ|

zavg

Z

zavg c

Zc ˆ1ˆ

1

MPE+US

16

音素段落選取方法 (1/2)

• 在最小化音素錯誤訓練中，在音素段落上所收集的統計值會根據區分為正貢獻或是負貢獻兩類• 因此，可將視為音素段落在期望正確率上的一個決定邊界• 音素段落選取藉由定義一個邊際範圍來選取富含鑑別資訊的音素段落：

qzavgc

zavgc

),);((log)(),(ˆ ,

qmqmzzqm

zz

zavgz

zq

m

et

stqzMPE toNtAqcIcqcH

q

qlatticez

W

zavgzz

z cqcqcA )()(

MPE+PS

17

音素段落選取方法 (2/2)

• 另一種柔性的音素段落選取方法，可使每一音素段落對於訓練過程皆有貢獻：

)1,( , )()()(

kaxC

eaxxSoftWgtbax

k

z

q

et

st mqmqmz

zqm

zavgz

zavgz

zq

MPE

latticez

q

q

toNtcqcSoftWgtcqc

H

,

),);((log)())(()(

),(ˆ

W

zavgz cqc )(

SoftW

gt(q

)

MPE+sPS

18

實驗設定• 實驗語料 (公視電視新聞語料 MATBN)

– 訓練語料 (24.5hrs): 外場記者男女各 46,000s (12.25 hrs)– 測試語料 (1.45hrs): 外場記者男 1300s ，女 :3900s

• 大詞彙連續語音辨識 (72,000 詞 )– 詞彙樹複製搜尋 : 使用雙連語言模型– 詞圖搜尋 : 使用三連語言模型

• 特徵抽取– 39維 HLDA+MLLT+CN

• 最小化音素錯誤訓練– I-Smoothing 中的參數皆設為 10

19

本論文之實驗方法• 基於 AdaBoost 演算法之資料選取方法

– 結合 AdaBoost 演算法於鑑別式聲學模型訓練• 基於詞圖期望音素正確率 (Expected Phone Accuracy) 定義域之資料選取方法

– 訓練語句層次的資料選取方法– 音素段落層次的資料選取方法– 多重資料選取方法之結合

20

AdaBoost 演算法結合鑑別式聲學模型訓練之實驗 (1/2)

CER(%) MMI AdaBoost-UL-MMI MPE AdaBoost

-UL-MPE

ML_Itr10 23.64

Itr01 23.28 23.25 22.88 22.87

Itr02 22.89 22.92 22.44 22.48

Itr03 22.58 22.63 22.12 22.16

Itr04 22.28 22.28 21.77 21.77

Itr05 22.16 22.05 21.50 21.50

Itr06 22.10 22.15 21.20 21.19

Itr07 22.08 21.95 21.06 21.04

Itr08 21.88 21.82 20.87 20.92

Itr09 21.81 21.72 20.77 20.76

Itr10 21.77 21.72 20.73 20.72

)()()()(

),(WPWxp

yPyxpyxh

zW

zi

zNBest

W

),()(,

WzDzwz

zNBest WWW

W

Z

zzi

W z

iizMPE WWA

OpWPWOp

zwFzi1

),()(

)()|()()(

W

21

AdaBoost 演算法結合鑑別式聲學模型訓練之實驗 (2/2)

• 在各種不同層次上，進行聲學模型之結合– 以 ROVER進行兩 N-最佳詞序列間的結合– 以候選詞段落的聲學分數在詞彙樹複製搜尋階段進行結合– 以候選詞段落的事後機率進行兩詞圖間的重新搜尋– 以候選詞段落的音框錯誤率進行兩詞圖間的重新搜尋

CER(%)MMI_Itr10 AdaBoost-UL-

MMI_Itr10 MPE_Itr10 AdaBoost-UL-MPE_Itr10

21.77 21.72 20.73 20.72

ROVER-Top1 21.71 20.72

ROVER-Top10 21.74 20.74

ROVER-Top20 21.75 20.75

TC-ASCombine 21.81 20.51

WG-PPCombine 21.49 20.56

WG-TFECombine 21.43 20.40

22

基於 AdaBoost 演算法的資料選取方法之實驗 (1/2)

• 在每個迭代訓練上所得之字錯誤率皆與最小化音素錯誤訓練之結果不相上下CER(%) MPE AdaBoost

-FL-MPEAdaBoost-FL-iMPE

AdaBoost-IFL-MPE

AdaBoost-IFL-iMPE

ML_Itr10 23.64

Itr01 22.88 22.83 22.84 22.82 22.83

Itr02 22.44 22.39 22.42 22.50 22.46

Itr03 22.12 21.99 21.95 22.12 22.09

Itr04 21.77 21.55 21.59 21.82 21.79

Itr05 21.50 21.52 21.46 21.39 21.42

Itr06 21.20 21.25 21.32 21.22 21.16

Itr07 21.06 21.12 21.10 21.06 21.15

Itr08 20.87 21.00 21.05 20.90 20.92

Itr09 20.77 20.97 20.94 20.86 20.89

Itr10 20.73 20.89 20.72 20.74 20.82

20.0020.5021.0021.5022.0022.5023.0023.5024.00

0 1 2 3 4 5 6 7 8 9 10Iteration

CER(%) MPE

AdaBoost-UL-MPE

AdaBoost-FL-MPE

AdaBoost-FL-iMPE

AdaBoost-IFL-MPE

AdaBoost-IFL-iMPE

23

基於 AdaBoost 演算法的資料選取方法之實驗 (2/2)

• 與最小化音素錯誤所估測之模型結合，最多有 2.7% 的相對字錯誤率下降CER(%)

AdaBoost-UL-MPE

AdaBoost-FL-MPE

AdaBoost-FL-iMPE

AdaBoost-IFL-MPE

AdaBoost-IFL-iMPE

20.72 20.89 20.72 20.74 20.82

MPE_Itr10 20.73

ROVER-Top1 20.72 20.69 20.66 20.68 20.78

ROVER-Top10 20.74 20.58 20.51 20.58 20.65

ROVER-Top20 20.75 20.54 20.51 20.58 20.67

TC-ASCombine 20.51 20.61 20.59 20.61 20.59

WG-PPCombine 20.56 20.40 20.34 20.40 20.45

WG-TFECombine 20.40 20.25 20.23 20.17 20.20

20.1020.2020.3020.4020.5020.6020.7020.8020.90

AdaBoost-UL-MPE

AdaBoost-FL-MPE

AdaBoost-FL-iMPE

AdaBoost-IFL-MPE

AdaBoost-IFL-iMPE

CER(%)

ROVER-Top1 ROVER-Top10 ROVER-Top20

TC-ASCombine WG-PPCombine WG-TFECombine

24

基於詞圖期望音素正確率的資料選取方法之實驗 (1/6)

• 訓練語句層次的資料選取方法

avgc

訓練

語句

總數MPE+US--I :

MPE+US--II: 9.0ˆ5.0

9.0ˆ2.0

avg

avg

c

c

CER(%) MPE MPE+US--I

MPE+US--II

ML_Itr10 23.64

Itr01 22.88 22.91 22.94

Itr02 22.44 22.46 22.48

Itr03 22.12 22.27 21.94

Itr04 21.77 21.69 21.70

Itr05 21.50 21.30 21.37

Itr06 21.20 21.06 21.24

Itr07 21.06 20.91 21.14

Itr08 20.87 20.90 21.02

Itr09 20.77 20.92 21.02

Itr10 20.73 20.64 20.94

20.50

21.00

21.50

22.00

22.50

23.00

23.50

24.00

0 1 2 3 4 5 6 7 8 9 10Iteration

CER(%)

MPE

MPE+US -- I

MPE+US -- II

746.0ˆ avgc

25


• 遞增式的訓練語句選取方法CER(%) MPE MPE+USv

--IMPE+USv

--II

ML_Itr10 23.64

Itr01 22.88 22.91 22.94

Itr02 22.44 22.46 22.48

Itr03 22.12 22.27 21.94

Itr04 21.77 21.69 21.70

Itr05 21.50 21.30 21.40

Itr06 21.20 21.06 21.14

Itr07 21.06 20.92 21.00

Itr08 20.87 20.91 21.00

Itr09 20.77 20.82 20.74

Itr10 20.73 20.68 20.58

20.50

21.00

21.50

22.00

22.50

23.00

23.50

24.00

0 1 2 3 4 5 6 7 8 9 10Iteration

CER(%)

MPE

MPE+USv -- I

MPE+USv -- II

隨著迭代訓練而放寬選取範圍，能有效抑止過度訓練的問題！

26


• 訓練語句選取方法以改善最大化 S 型音框音素正確率訓練

CER(%) MSFA MSFA+US--I

MSFA+US--II

MSFA+USv--I

MSFA+USv--II

ML_Itr10 23.64

Itr01 22.87 22.85 22.74 22.85 22.74

Itr02 22.29 22.31 22.41 22.31 22.41

Itr03 21.89 21.92 22.00 21.92 22.00

Itr04 21.54 21.45 21.51 21.45 21.51

Itr05 21.12 21.11 21.20 21.11 21.25

Itr06 20.98 20.89 21.09 20.89 20.98

Itr07 20.68 20.68 21.00 20.76 20.92

Itr08 20.55 20.56 20.80 20.60 20.54

Itr09 20.48 20.52 20.55 20.58 20.45

Itr10 20.61 20.57 20.69 20.57 20.62

20.0020.5021.0021.5022.0022.5023.0023.5024.00

0 1 2 3 4 5 6 7 8 9 10Iteration

CER(%)

MPEMSFAMSFA+US -- IMSFA+US -- II

20.0020.5021.0021.5022.0022.5023.0023.5024.00

0 1 2 3 4 5 6 7 8 9 10Iteration

CER(%)

MSFA

MSFA+USv -- I

MSFA+USv -- II

與最小化音素比較，皆有一致地進步。但與最大化 S 型音框音素正確率訓練比較，其辨識效果乃是不相上下的！

27


• 音素段落層次的資料選取方法

音素

段落

總數

avgcqc )(CER(%) MPE MPE+PS MPE+PSv

ML_Itr10 23.64

Itr01 22.88 22.73 22.73

Itr02 22.44 22.23 22.23

Itr03 22.12 21.70 21.64

Itr04 21.77 21.29 21.38

Itr05 21.50 21.05 21.16

Itr06 21.20 21.10 20.92

Itr07 21.06 21.17 20.87

Itr08 20.87 21.36 20.70

Itr09 20.77 21.89 20.53

Itr10 20.73 22.22 20.41

MPE+PS--I : 03.0))((0.1 avgcqc

009.0))(( avgcqcofmean

20.0020.5021.0021.5022.0022.5023.0023.5024.00

0 1 2 3 4 5 6 7 8 9 10Iteration

CER(%)

MPE

MPE+PS

MPE+PSv

28


• 柔性的音素段落選取方法So

ftWgt

(q)

avgcqc )( CER(%) MPE MPE+sPS--I

MPE+sPS--II

ML_Itr10 23.64

Itr01 22.88 22.85 22.84

Itr02 22.44 22.38 22.37

Itr03 22.12 21.95 21.98

Itr04 21.77 21.53 21.48

Itr05 21.50 21.37 21.21

Itr06 21.20 21.14 20.96

Itr07 21.06 20.99 20.82

Itr08 20.87 20.71 20.68

Itr09 20.77 20.66 20.66

Itr10 20.73 20.52 20.42

20.0020.5021.0021.5022.0022.5023.0023.5024.00

0 1 2 3 4 5 6 7 8 9 10Iteration

CER(%)

MPE

MPE+sPS -- I

MPE+sPS -- II

MPE+sPS--I MPE+sPS--II 相較之下，不會有過度訓練之問題發生，然而卻需要進行額外的參數設定。

29


• 音素段落選取方法以改善最大化 S 型音框音素正確率訓練CER(%) MSFA MSFA+

PSMSFA+

PSvMSFA+sPS

--IMSFA+sPS

--II

ML_Itr10 23.64

Itr01 22.87 22.71 22.71 22.81 22.80

Itr02 22.29 22.06 22.06 22.28 22.33

Itr03 21.89 21.51 21.51 21.77 21.76

Itr04 21.54 21.00 21.00 21.23 21.21

Itr05 21.12 20.99 20.60 20.94 20.92

Itr06 20.98 20.87 20.36 20.63 20.69

Itr07 20.68 21.60 20.41 20.51 20.58

Itr08 20.55 21.98 20.57 20.51 20.47

Itr09 20.48 23.47 20.39 20.41 20.49

Itr10 20.61 25.52 20.57 20.64 20.70

20.0020.5021.0021.5022.0022.5023.0023.5024.00

0 1 2 3 4 5 6 7 8 9 10Iteration

CER(%)

MSFA

MSFA+PS

MSFA+PSv

20.0020.5021.0021.5022.0022.5023.0023.5024.00

0 1 2 3 4 5 6 7 8 9 10Iteration

CER(%)

MSFA

MSFA+sPS -- I

MSFA+sPS -- II可些許改善最大化 S 型音框音素正確率訓練，同時訓練過程中的收斂速度明顯得以提升。

30

結合資料選取方法所求聲學模型之實驗 (1/2)

CER(%)MPE+US

--IIMPE+USv

--II MPE+PS MPE+PSv MPE+sPS--I

MPE+sPS--II

20.94 20.58 22.22 20.41 20.52 20.42

MPE_Itr10 20.73

ROVER-Top1 20.86 20.66 21.10 20.60 20.66 20.56

ROVER-Top10 20.80 20.65 21.08 20.56 20.55 20.48

ROVER-Top20 20.79 20.66 20.99 20.52 20.62 20.46

TC-ASCombine 20.56 20.47 20.42 20.44 20.50 20.47

WG-PPCombine 20.52 20.45 20.30 20.29 20.33 20.20

WG-TFECombine 20.44 20.30 20.07 20.24 20.33 20.26

20.00

20.20

20.40

20.60

20.80

21.00

21.20

MPE+US--II MPE+USv--II MPE+PS MPE+PSv MPE+sPS--I MPE+sPS--II

CER(%)ROVER-Top1 ROVER-Top10 ROVER-Top20

TC-ASCombine WG-PPCombine WG-TFECombine在 MPE+PS 這組實驗中，儘管其所得聲學模型的辨識率不佳，但與原始最小化音素錯誤之模型結合後，其辨識率獲得很大的改善！可見兩個模型的辨識能力已達到互補的效果！

31

結合資料選取方法所求聲學模型之實驗 (2/2)

CER(%)MSFA+US

--IIMSFA+USv

--II MSFA+PS MSFA+PSv MSFA+sPS--I

MSFA+sPS--II

20.69 20.62 25.52 20.57 20.64 20.70

MSFA_Itr10 20.61

ROVER-Top1 20.61 20.55 22.08 20.41 20.66 20.71

ROVER-Top10 20.54 20.51 22.02 20.32 20.54 20.58

ROVER-Top20 20.58 20.55 21.87 20.33 20.52 20.60

TC-ASCombine 20.45 20.35 20.15 20.27 20.48 20.52

WG-PPCombine 20.30 20.32 20.70 20.07 20.33 20.34

WG-TFECombine 20.12 20.25 20.58 19.92 20.17 20.15

19.70

19.90

20.10

20.30

20.50

20.70

20.90

MSFA+US--II

MSFA+USv--II

MSFA+PS MSFA+PSv MSFA+sPS--I MSFA+sPS--II

CER(%)

ROVER-Top1 ROVER-Top10 ROVER-Top20

TC-ASCombine WG-PPCombine WG-TFECombine相較之下，與最大化 S 型音框音素正確率訓練的結合，其改善效果更為一致。但由於 MSFA+PS嚴重地過度訓練，導致其效果並不明顯！

32

結合多重資料選取方法之實驗• 與以正規化熵值為基礎的音框層次資料選取方法結合

CER(%) MPE MPE+USv+PSv

MPE+PSv+FSv

MPE+USv+FSv

MPE+USv+PSv+FSv

ML_Itr10 23.64

Itr01 22.88 22.86 22.48 22.60 22.50

Itr02 22.44 22.40 21.53 21.87 21.80

Itr03 22.12 21.88 21.18 21.34 21.21

Itr04 21.77 21.58 20.83 21.12 20.93

Itr05 21.50 21.31 20.58 21.05 20.82

Itr06 21.20 20.98 20.64 20.80 20.79

Itr07 21.06 20.91 20.72 20.87 20.80

Itr08 20.87 20.83 20.59 20.80 20.67

Itr09 20.77 20.76 20.49 20.60 20.60

Itr10 20.73 20.57 20.46 20.63 20.46

20.0020.5021.0021.5022.0022.5023.0023.5024.00

0 1 2 3 4 5 6 7 8 9 10Iteration

CER(%)

MPE

MPE+USv+PSv

MPE+PSv+FSv

MPE+USv+FSv

MPE+USv+PSv+FSv

最小化音素錯誤訓練的收斂速度明顯獲得提升，其中以 MPE+PSv+FSv這組實驗的效果最好！故可觀察得知：訓練語句選取方法顯得過於粗糙。

33

結合多重資料選取方法之實驗• 結合多重資料選取方法以改善最大化 S 型音框音素正確率訓練

CER(%) MSFA MSFA+USv+PSv

MSFA+PSv+FSv

MSFA+USv+FSv

MSFA+USv+PSv+FSv

ML_Itr10 23.64

Itr01 22.87 22.69 22.33 22.37 22.33

Itr02 22.29 22.11 21.39 21.83 21.50

Itr03 21.89 21.94 21.01 21.37 20.85

Itr04 21.54 21.35 20.61 21.13 20.73

Itr05 21.12 21.16 20.49 20.99 20.64

Itr06 20.98 20.84 20.34 20.84 20.60

Itr07 20.68 20.56 20.49 20.63 20.57

Itr08 20.55 20.40 20.52 20.55 20.53

Itr09 20.48 20.47 20.50 20.62 20.59

Itr10 20.61 20.57 20.72 20.43 20.48

20.0020.5021.0021.5022.0022.5023.0023.5024.00

0 1 2 3 4 5 6 7 8 9 10Iteration

CER(%)

MSFA

MSFA+USv+PSv

MSFA+PSv+FSv

MSFA+USv+FSv

MSFA+USv+PSv+FSv

依然以 MSFA+PSv+FSv 這組實驗的效果最好！但在後面的迭代訓練上會發生稍微過度訓練的情況。

34

結論• 本論文旨在探討使用各種資料選取方法來改善以最小化音素錯誤為基礎的鑑別式聲學模型訓練

– 基於 AdaBoost 演算法之精神的資料選取方法– 基於詞圖期望音素正確率的資料選取方法

• 訓練語句層次• 音素段落層次

35

未來展望• 未來仍有幾個方向需要繼續努力：

– 以最小化音素錯誤訓練中的期望正確率來定義 AdaBoost 演算法中的分類錯誤– 由下往上的進行多重資料選取方法之結合

36

謝謝敬請口試委員指導

37

音框音素正確率函數• 用以取代原始音素正確率函數以改進最小化音素錯誤訓練之缺點：

– 其原始音素正確率函數並沒有給予刪除錯誤適當的懲罰

– 稱之為音框音素正確率函數 (Frame Phone Accuracy, 記作 FA)

– 而詞圖中一候選詞序列的音框音素正確率為：

1

))(,()(

qq

e

st

se

tuqqacyFrameAccur

q

q

10 ),( ,

)( ,1))(,(

tuqiftuqif

tuq

iWq

zi qacyFrameAccurWWFrameAcc )(),(

iW

為刪除錯誤的懲罰權重

38

S型音框音素正確率函數• 為了能使音框音素正確率函數之值域與原始音素正確率同為介於 -1 到 +1 之間：

– 使用 S型函數 (Sigmoid Function) 來正規化音框音素正確率函數的分子項

– 稱之為 S型音框音素正確率函數 (Sigmoid Frame Phone Accuracy, 記作SFA)

– 而詞圖中一候選詞序列的 S型音框音素正確率為：

1)exp(1

2)(

net

qcuracySigFrameAc

q

q

e

sttuqnet ),(

iW

iWq

zi qcuracySigFrameAcWWcSigFrameAc )(),(

及為 S型函數中可調整的參數

39

最大化 S型音框音素正確率訓練• 以 S 型音框音素正確率函數取代正確率函數，則最大化 S型音框音素正確率的目標函數可表示為：

(Maximum Sigmoid Frame Phone Accuracy, 記作 MSFA)

• 本論文中最大化 S 型音框音素正確率訓練的參數設定為：

Z

zzi

WziMSFA WWcSigFrameAcOWpF

latticezi1

),()|()(,W

5.0 ; 1.0

40

以熵值為基礎的音框層次資料選取方法 (1/3)

• 以熵值 (Entropy) 為基礎的時間音框資料選取方法– 鑑於傳統熵值之值域會隨著樣本數多寡而不同，在此我們使用正規化熵值

– 因此的值域會介於 0 到 1 之間• 假如其值接近於 0 ：

– 代表於時間 t 的音框層次事後機率被某一個高斯模型 m給支配• 假如其值接近於 1 ：

– 代表於時間 t 的音框層次事後機率幾乎是平均分配 (uniformly distributed)給所有的高斯模型 m

)(1log)(

log1)( 2

12 tt

NtE z

qm

Q

q qm

zqmz

為在時間時所有的音素段落個數為在時間中所有事後機率不為零的高斯模型的個數

Q

N

tt m

)(tEz

41


• 以二元分類器的觀點來探討：– 假如其正規化熵值接近於 0

• 此時間音框其實座落於遠離決定邊界 (Decision Boundary) 的位置上– 假如其正規化熵值接近於 1

• 此時間音框座落於決定邊界附近的位置上

• 總言之，以正規化熵值為基礎的資料選取方法可視為在事後機率定義域中選取資料– 旨在找出那些不容易被分類正確的時間音框並只利用其統計值來調整模型參數，以利鑑別式模型訓練

0 1正規化熵值

決定邊界

混淆的樣本

事後機率定義域

42


• 直接在正規化熵值之值域上設定一門檻值– 把其值低於此門檻值的時間音框捨棄，只累加被選取到之時間音框的統計值– 則其數學式可表示為 ( 以 num 類為例 ) ：

• 本論文中的參數設定為：

Z

z q

e

stzz

zq

zqm

numqmd

Z

z qz

e

stz

zq

zqm

numqmd

z

Z

z q

e

st

zq

zqm

numqm

lattice z

q

q

MPE

lattice z

q

q

MPE

lattice z

q

q

MPE

tEItotO

tEItotO

tEIt

1

22

1

1

,

,

,

))(()(),0max()()(

))(()(),0max()()(

))((),0max()(

W

W

W

)(,0)(,1

))((tE if tE if

tEIz

zz

05.0

Documents

若干資料選取方法 以改善鑑別式聲學模型訓練

若干資料選取方法以改善鑑別式聲學模型訓練