Upload
diamond
View
73
Download
11
Embed Size (px)
DESCRIPTION
若干資料選取方法 以改善鑑別式聲學模型訓練. 指導教授:陳柏琳 博士 研究生:朱芳輝. 中華民國九十七年一月二十五日. 大綱. 研究內容與貢獻 AdaBoost 演算法 最小化音素錯誤訓練 資料選取方法 基於 AdaBoost 演算法的資料選取方法 基於詞圖期望音素正確率的資料選取方法 實驗與討論 結論與未來展望. 統計式語音辨識基本架構圖. 語言模型. 語言模型訓練. 語音 特徵向量. 語言解碼. 特徵擷取. 辨識文字. 發音詞典. 語音訊號. 聲學比對. 聲學模型訓練. 聲學模型. 訓練資料 選取方法. 研究內容與貢獻. - PowerPoint PPT Presentation
Citation preview
若干資料選取方法 以改善鑑別式聲學模型訓練
指導教授:陳柏琳 博士 研究生:朱芳輝
中華民國九十七年一月二十五日
2
大綱• 研究內容與貢獻• AdaBoost 演算法• 最小化音素錯誤訓練• 資料選取方法
– 基於 AdaBoost 演算法的資料選取方法– 基於詞圖期望音素正確率的資料選取方法
• 實驗與討論• 結論與未來展望
3
訓練資料選取方法
統計式語音辨識基本架構圖
語音特徵向量
特徵擷取聲學比對
語言解碼
聲學模型
語言模型
辨識文字
聲學模型訓練
語言模型訓練
發音詞典語音訊號
4
研究內容與貢獻• 基於 AdaBoost 演算法之資料選取方法• 基於詞圖期望音素正確率 (Expected Phone Accuracy) 定義域之資料選取方法
– 訓練語句層次的資料選取方法– 音素段落層次的資料選取方法– 多重資料選取方法之結合
5
緣由• 在 No Free Lunch Theorem 中明確地指出:
– 不存在任何單一個學習演算法可以推導出一個非常精確的學習器(Learner) ,使其適用於所有的領域之中
• 解決辦法:– 找出多個具有不同能力的學習器,透過將這些學習器予以結合而得到一個單一個擁有全方位能力的學習器
• 但,該如何結合這些學習器?– 多重階段結合法 (Multistage Combination)– 多重專家結合法 (Multi-Expert Combination)
• 投票 (Voting) 演算法
[Wolpert and Macready 1997]“No Free Lunch Theorems for Optimization,” IEEE Trans. Evolutionary Computation, Vol. 1, No. 1, pp. 67-82, 1997.
6
Voting 演算法• 針對一待側樣本 ,若存在多個學習器 ,則:
• 將 定義為線性組合:
1M 2M 3M
x
+ f
y
1w 2w 3w
1d 2d 3d
x ),...,1( LiM i
)(),...,(),( 11 xdxdxdfxy L
f
, )()(1
L
iii xdwxy
1 and ,01
L
iii wiw
集成 (Ensemble)
7
Boosting 演算法• Boosting 演算法的精神在於
– 循序的訓練求得多個學習器,每一個學習器的能力可以彌補前一學習器的不足– 透過結合多個弱勢學習器 ( 錯誤小於 0.5) ,最終所得之集成可為一個強勢學習器 ( 錯誤為任意小 )
– 幾個缺點:• 只能應付二元分類任務• 最多三個分類器• 訓練樣本集要夠大
X
1x 2x 3x
1M 2M
3M
1M 2M 3M
x
1d 2d 3d
21 ? dd
Yes No
1dy 3dy
訓練階段 辨識階段
8
AdaBoost.M2 演算法輸 入:訓練序列 ,其中包含資料樣本 與其對應 的標記 。初 始:定義 , 其中 為集合 的元素個數。重 覆: 1. 利用事前機率分布 來訓練得到弱勢分類器。 2. 得到其對應的候選假設 並且計算擬似損失:
3. 設定 4. 更新事前機率分布 : 輸 出:最後的候選假設為:
),(),...,,( 11 NN yxyx Xxi },...,1{ KYyi
},},,...,1{:),{( YyyyNiyx ii B0 else ,),( 1),(1 BB yxyxD ii
B B
tD 1,0: YXht
N
i yy itiititti
yxhyxhyxD1 )(
)),(),(1)(,(21
tt
t
1
tD ),(),(1
121),(),( yxhyxh
tt
itit
itiit
Z
yD xyxD
t ttYy yxhxH ),()(lnmaxarg)( 1
tZ其中 為正規化常數
9
最小化音素錯誤鑑別式聲學模型訓練 (1/3)
• 最小化音素錯誤鑑別式聲學模型訓練的目標函數– 旨在最大化語音辨識器對所有訓練語句 之可能辨識出候選詞序列 ( ) 的期望音素正確率
其中 可用語音辨識器產生的詞圖 來近似:
zOiW ,,, 321 WWWW zi W
Z
zzi
W z
iiz
Z
zzi
WziMPE
WWAOp
WPWOp
WWAOWpF
zi
zi
1
1
),()(
)()|(
),()|()(
W
W
)( zOp latticez ,W
Z
zzi
WW
kkz
iizMPE WWA
WPWOpWPWOp
Flattice zi
lattice zk
1
),()()|(
)()|()(
,
,
WW
10
最小化音素錯誤鑑別式聲學模型訓練 (2/3)
• 對於詞圖 上候選詞序列 之正確率為:
• 候選詞序列中一個音素段落 之正確率為:
latticez ,W
q
quque
ququeqA
zWu ),,(1),,(21
max)(
iWq
zi qAWWA )(),(
iW
0 5 10 15 20 25 30
cba 正確轉寫音素序列a c 辨識之音素序列
A( ) = A(a) + A(c) = 2
e(a,a)=10/10
-1+2e(a,a)=1.0
e(a,b)=5/10
-1+e(a,b)=-0.5
A(a)=1.0
e(c,b)=5/10
-1+e(b,c)=-0.5
e(c,c)=10/10
-1+2e(c,c)=1.0
A(c)=1.0
ca
11
最小化音素錯誤鑑別式聲學模型訓練 (3/3)
• 其目標函數可透過延伸波式 (Extended Baum-Welch) 演算法得到聲學模型參數估測之更新公式
22222
2
}{)()}()({
}{)}()({
qmdqmd
denqm
numqm
qmdqmdqmddenqmd
numqmd
qmd
qmddenqm
numqm
qmdqmddenqmd
numqmd
qmd
DDOO
DDOO
Z
z q
e
st
zq
zqm
numqm
latticez
q
q
MPE
t1 ,
),0max()(W
Z
z q
e
st
zq
zqm
denqmd
latticez
q
q
MPE
t1 ,
),0max()(W
Z
z q
e
stz
zq
zqm
numqmd
latticez
q
q
MPE
totO1 ,
)(),0max()()(W
Z
z q
e
stz
zq
zqm
denqmd
latticez
q
q
MPE
totO1 ,
)(),0max()()(W
Z
z q
e
stz
zq
zqm
numqmd
latticez
q
q
MPE
totO1
22
,
)(),0max()()(W
Z
z q
e
stz
zq
zqm
denqmd
latticez
q
q
MPE
totO1
22
,
)(),0max()()(W
zavgz
zq
MPEzq cqc
12
基於 AdaBoost 演算法的資料選取方法 (1/3)
• 本論文將 AdaBoost 演算法中的分類錯誤定義於訓練語句層次上:
• 對於通過時間音框 上所有的候選音素段落給定不同的權重:
toqPtoqPN zz
tz
etsq
T
tzz
qqlatticez
z
12
1
,1 W
t
,
||121 toqPtoqP
ztz
ztztzqD
z
zz
1
bc正確轉寫音素序列
候選音素序列 1
候選音素序列 2
序列1之事後機率為0.9序列2之事後機率為0.1 ,
badc
5.1 , 6.0
1t 2t
22.15.1)(
04.15.1)(5.0
1.0
1
1
cD
aDt
t
44.15.1)(
22.15.1)(9.0
5.0
2
2
dD
bDt
t
13
基於 AdaBoost 演算法的資料選取方法 (2/3)
• 則最小化音素錯誤訓練的目標函數可以表示為:
• 對於 的訓練語句而言,其權重會介於 到 1之間;對於 的訓練語句而言,其權重會介於 1 到 之間。• 亦對 I-Smoothing 之統計值給予權重
5.0 5.0
),);((log)(),(ˆ ,
qmqmzzqm
m
tz
et
st
MPEzq
qzMPE toNtqDH
q
qlatticez
W
AdaBoost-FL-MPE
14
基於 AdaBoost 演算法的資料選取方法 (3/3)
• 另一種權重設計:
• 而最小化音素錯誤訓練的目標函數又可表示為: toqPtoqP
ztz
ztztzqInvD
||121
),);((log)(),(ˆ ,
qmqmzzqm
m
tz
et
st
MPEzq
qzMPE toNtqInvDH
q
qlatticez
W
AdaBoost-IFL-MPE
正確轉寫音素序列
候選音素序列 1
候選音素序列 2
序列1之事後機率為0.9序列2之事後機率為0.1 , 67.0 , 4.0
1t 2t
96.067.0)(
82.067.0)(1.0
5.0
1
1
cInvD
aInvDt
t
82.067.0)(
70.067.0)(5.0
9.0
2
2
dInvD
bInvDt
t
da
badc
bc正確轉寫音素序列
候選音素序列 1
候選音素序列 2
序列1之事後機率為0.9序列2之事後機率為0.1 ,
badc
5.1 , 6.0
1t 2t
22.15.1)(
44.15.1)(5.0
9.0
1
1
cInvD
aInvDt
t
04.15.1)(
22.15.1)(1.0
5.0
2
2
dInvD
bInvDt
t
15
訓練語句選取方法• 在鑑別式聲學模型訓練中,詞圖可以被視為一訓練語句能夠帶來多少鑑別資訊的重要憑據• 在最小化音素錯誤訓練中,一訓練語句中所有候選詞序列的期望正確率 可以視為其詞圖在混淆程度上的基準• 一訓練語句擁有過高或過低的 ,所能提供的鑑別資訊便為有限• 因此,訓練語句選取方法可定義為:
zavgc
zavgc
zlc
czavgz
avg ˆ
Zz
ziW
ziMPE WWAOWpFzi
),()|()(W
avgzavgavg ccczZ ˆˆˆ|
zavg
Z
zavg c
Zc ˆ1ˆ
1
MPE+US
16
音素段落選取方法 (1/2)
• 在最小化音素錯誤訓練中,在音素段落 上所收集的統計值會根據 區分為正貢獻或是負貢獻兩類• 因此,可將 視為音素段落在期望正確率上的一個決定邊界• 音素段落選取藉由定義一個邊際範圍來選取富含鑑別資訊的音素段落:
qzavgc
zavgc
),);((log)(),(ˆ ,
qmqmzzqm
zz
zavgz
zq
m
et
stqzMPE toNtAqcIcqcH
q
qlatticez
W
zavgzz
z cqcqcA )()(
MPE+PS
17
音素段落選取方法 (2/2)
• 另一種柔性的音素段落選取方法,可使每一音素段落對於訓練過程皆有貢獻:
)1,( , )()()(
kaxC
eaxxSoftWgtbax
k
z
q
et
st mqmqmz
zqm
zavgz
zavgz
zq
MPE
latticez
q
q
toNtcqcSoftWgtcqc
H
,
),);((log)())(()(
),(ˆ
W
zavgz cqc )(
SoftW
gt(q
)
MPE+sPS
18
實驗設定• 實驗語料 (公視電視新聞語料 MATBN)
– 訓練語料 (24.5hrs): 外場記者男女各 46,000s (12.25 hrs)– 測試語料 (1.45hrs): 外場記者男 1300s ,女 :3900s
• 大詞彙連續語音辨識 (72,000 詞 )– 詞彙樹複製搜尋 : 使用雙連語言模型– 詞圖搜尋 : 使用三連語言模型
• 特徵抽取– 39維 HLDA+MLLT+CN
• 最小化音素錯誤訓練– I-Smoothing 中的參數 皆設為 10
19
本論文之實驗方法• 基於 AdaBoost 演算法之資料選取方法
– 結合 AdaBoost 演算法於鑑別式聲學模型訓練• 基於詞圖期望音素正確率 (Expected Phone Accuracy) 定義域之資料選取方法
– 訓練語句層次的資料選取方法– 音素段落層次的資料選取方法– 多重資料選取方法之結合
20
AdaBoost 演算法結合鑑別式聲學模型訓練之實驗 (1/2)
CER(%) MMI AdaBoost-UL-MMI MPE AdaBoost
-UL-MPE
ML_Itr10 23.64
Itr01 23.28 23.25 22.88 22.87
Itr02 22.89 22.92 22.44 22.48
Itr03 22.58 22.63 22.12 22.16
Itr04 22.28 22.28 21.77 21.77
Itr05 22.16 22.05 21.50 21.50
Itr06 22.10 22.15 21.20 21.19
Itr07 22.08 21.95 21.06 21.04
Itr08 21.88 21.82 20.87 20.92
Itr09 21.81 21.72 20.77 20.76
Itr10 21.77 21.72 20.73 20.72
)()()()(
),(WPWxp
yPyxpyxh
zW
zi
zNBest
W
),()(,
WzDzwz
zNBest WWW
W
Z
zzi
W z
iizMPE WWA
OpWPWOp
zwFzi1
),()(
)()|()()(
W
21
AdaBoost 演算法結合鑑別式聲學模型訓練之實驗 (2/2)
• 在各種不同層次上,進行聲學模型之結合– 以 ROVER進行兩 N-最佳詞序列間的結合– 以候選詞段落的聲學分數在詞彙樹複製搜尋階段進行結合– 以候選詞段落的事後機率進行兩詞圖間的重新搜尋– 以候選詞段落的音框錯誤率進行兩詞圖間的重新搜尋
CER(%)MMI_Itr10 AdaBoost-UL-
MMI_Itr10 MPE_Itr10 AdaBoost-UL-MPE_Itr10
21.77 21.72 20.73 20.72
ROVER-Top1 21.71 20.72
ROVER-Top10 21.74 20.74
ROVER-Top20 21.75 20.75
TC-ASCombine 21.81 20.51
WG-PPCombine 21.49 20.56
WG-TFECombine 21.43 20.40
22
基於 AdaBoost 演算法的資料選取方法之實驗 (1/2)
• 在每個迭代訓練上所得之字錯誤率皆與最小化音素錯誤訓練之結果不相上下CER(%) MPE AdaBoost
-FL-MPEAdaBoost-FL-iMPE
AdaBoost-IFL-MPE
AdaBoost-IFL-iMPE
ML_Itr10 23.64
Itr01 22.88 22.83 22.84 22.82 22.83
Itr02 22.44 22.39 22.42 22.50 22.46
Itr03 22.12 21.99 21.95 22.12 22.09
Itr04 21.77 21.55 21.59 21.82 21.79
Itr05 21.50 21.52 21.46 21.39 21.42
Itr06 21.20 21.25 21.32 21.22 21.16
Itr07 21.06 21.12 21.10 21.06 21.15
Itr08 20.87 21.00 21.05 20.90 20.92
Itr09 20.77 20.97 20.94 20.86 20.89
Itr10 20.73 20.89 20.72 20.74 20.82
20.0020.5021.0021.5022.0022.5023.0023.5024.00
0 1 2 3 4 5 6 7 8 9 10Iteration
CER(%) MPE
AdaBoost-UL-MPE
AdaBoost-FL-MPE
AdaBoost-FL-iMPE
AdaBoost-IFL-MPE
AdaBoost-IFL-iMPE
23
基於 AdaBoost 演算法的資料選取方法之實驗 (2/2)
• 與最小化音素錯誤所估測之模型結合,最多有 2.7% 的相對字錯誤率下降CER(%)
AdaBoost-UL-MPE
AdaBoost-FL-MPE
AdaBoost-FL-iMPE
AdaBoost-IFL-MPE
AdaBoost-IFL-iMPE
20.72 20.89 20.72 20.74 20.82
MPE_Itr10 20.73
ROVER-Top1 20.72 20.69 20.66 20.68 20.78
ROVER-Top10 20.74 20.58 20.51 20.58 20.65
ROVER-Top20 20.75 20.54 20.51 20.58 20.67
TC-ASCombine 20.51 20.61 20.59 20.61 20.59
WG-PPCombine 20.56 20.40 20.34 20.40 20.45
WG-TFECombine 20.40 20.25 20.23 20.17 20.20
20.1020.2020.3020.4020.5020.6020.7020.8020.90
AdaBoost-UL-MPE
AdaBoost-FL-MPE
AdaBoost-FL-iMPE
AdaBoost-IFL-MPE
AdaBoost-IFL-iMPE
CER(%)
ROVER-Top1 ROVER-Top10 ROVER-Top20
TC-ASCombine WG-PPCombine WG-TFECombine
24
基於詞圖期望音素正確率的資料選取方法之實驗 (1/6)
• 訓練語句層次的資料選取方法
avgc
訓練
語句
總數MPE+US--I :
MPE+US--II: 9.0ˆ5.0
9.0ˆ2.0
avg
avg
c
c
CER(%) MPE MPE+US--I
MPE+US--II
ML_Itr10 23.64
Itr01 22.88 22.91 22.94
Itr02 22.44 22.46 22.48
Itr03 22.12 22.27 21.94
Itr04 21.77 21.69 21.70
Itr05 21.50 21.30 21.37
Itr06 21.20 21.06 21.24
Itr07 21.06 20.91 21.14
Itr08 20.87 20.90 21.02
Itr09 20.77 20.92 21.02
Itr10 20.73 20.64 20.94
20.50
21.00
21.50
22.00
22.50
23.00
23.50
24.00
0 1 2 3 4 5 6 7 8 9 10Iteration
CER(%)
MPE
MPE+US -- I
MPE+US -- II
746.0ˆ avgc
25
基於詞圖期望音素正確率的資料選取方法之實驗 (2/6)
• 遞增式的訓練語句選取方法CER(%) MPE MPE+USv
--IMPE+USv
--II
ML_Itr10 23.64
Itr01 22.88 22.91 22.94
Itr02 22.44 22.46 22.48
Itr03 22.12 22.27 21.94
Itr04 21.77 21.69 21.70
Itr05 21.50 21.30 21.40
Itr06 21.20 21.06 21.14
Itr07 21.06 20.92 21.00
Itr08 20.87 20.91 21.00
Itr09 20.77 20.82 20.74
Itr10 20.73 20.68 20.58
20.50
21.00
21.50
22.00
22.50
23.00
23.50
24.00
0 1 2 3 4 5 6 7 8 9 10Iteration
CER(%)
MPE
MPE+USv -- I
MPE+USv -- II
隨著迭代訓練而放寬選取範圍,能有效抑止過度訓練的問題!
26
基於詞圖期望音素正確率的資料選取方法之實驗 (3/6)
• 訓練語句選取方法以改善最大化 S 型音框音素正確率訓練
CER(%) MSFA MSFA+US--I
MSFA+US--II
MSFA+USv--I
MSFA+USv--II
ML_Itr10 23.64
Itr01 22.87 22.85 22.74 22.85 22.74
Itr02 22.29 22.31 22.41 22.31 22.41
Itr03 21.89 21.92 22.00 21.92 22.00
Itr04 21.54 21.45 21.51 21.45 21.51
Itr05 21.12 21.11 21.20 21.11 21.25
Itr06 20.98 20.89 21.09 20.89 20.98
Itr07 20.68 20.68 21.00 20.76 20.92
Itr08 20.55 20.56 20.80 20.60 20.54
Itr09 20.48 20.52 20.55 20.58 20.45
Itr10 20.61 20.57 20.69 20.57 20.62
20.0020.5021.0021.5022.0022.5023.0023.5024.00
0 1 2 3 4 5 6 7 8 9 10Iteration
CER(%)
MPEMSFAMSFA+US -- IMSFA+US -- II
20.0020.5021.0021.5022.0022.5023.0023.5024.00
0 1 2 3 4 5 6 7 8 9 10Iteration
CER(%)
MSFA
MSFA+USv -- I
MSFA+USv -- II
與最小化音素比較,皆有一致地進步。但與最大化 S 型音框音素正確率訓練比較,其辨識效果乃是不相上下的!
27
基於詞圖期望音素正確率的資料選取方法之實驗 (4/6)
• 音素段落層次的資料選取方法
音素
段落
總數
avgcqc )(CER(%) MPE MPE+PS MPE+PSv
ML_Itr10 23.64
Itr01 22.88 22.73 22.73
Itr02 22.44 22.23 22.23
Itr03 22.12 21.70 21.64
Itr04 21.77 21.29 21.38
Itr05 21.50 21.05 21.16
Itr06 21.20 21.10 20.92
Itr07 21.06 21.17 20.87
Itr08 20.87 21.36 20.70
Itr09 20.77 21.89 20.53
Itr10 20.73 22.22 20.41
MPE+PS--I : 03.0))((0.1 avgcqc
009.0))(( avgcqcofmean
20.0020.5021.0021.5022.0022.5023.0023.5024.00
0 1 2 3 4 5 6 7 8 9 10Iteration
CER(%)
MPE
MPE+PS
MPE+PSv
28
基於詞圖期望音素正確率的資料選取方法之實驗 (5/6)
• 柔性的音素段落選取方法So
ftWgt
(q)
avgcqc )( CER(%) MPE MPE+sPS--I
MPE+sPS--II
ML_Itr10 23.64
Itr01 22.88 22.85 22.84
Itr02 22.44 22.38 22.37
Itr03 22.12 21.95 21.98
Itr04 21.77 21.53 21.48
Itr05 21.50 21.37 21.21
Itr06 21.20 21.14 20.96
Itr07 21.06 20.99 20.82
Itr08 20.87 20.71 20.68
Itr09 20.77 20.66 20.66
Itr10 20.73 20.52 20.42
20.0020.5021.0021.5022.0022.5023.0023.5024.00
0 1 2 3 4 5 6 7 8 9 10Iteration
CER(%)
MPE
MPE+sPS -- I
MPE+sPS -- II
MPE+sPS--I MPE+sPS--II 相較之下,不會有過度訓練之問題發生,然而卻需要進行額外的參數設定。
29
基於詞圖期望音素正確率的資料選取方法之實驗 (6/6)
• 音素段落選取方法以改善最大化 S 型音框音素正確率訓練CER(%) MSFA MSFA+
PSMSFA+
PSvMSFA+sPS
--IMSFA+sPS
--II
ML_Itr10 23.64
Itr01 22.87 22.71 22.71 22.81 22.80
Itr02 22.29 22.06 22.06 22.28 22.33
Itr03 21.89 21.51 21.51 21.77 21.76
Itr04 21.54 21.00 21.00 21.23 21.21
Itr05 21.12 20.99 20.60 20.94 20.92
Itr06 20.98 20.87 20.36 20.63 20.69
Itr07 20.68 21.60 20.41 20.51 20.58
Itr08 20.55 21.98 20.57 20.51 20.47
Itr09 20.48 23.47 20.39 20.41 20.49
Itr10 20.61 25.52 20.57 20.64 20.70
20.0020.5021.0021.5022.0022.5023.0023.5024.00
0 1 2 3 4 5 6 7 8 9 10Iteration
CER(%)
MSFA
MSFA+PS
MSFA+PSv
20.0020.5021.0021.5022.0022.5023.0023.5024.00
0 1 2 3 4 5 6 7 8 9 10Iteration
CER(%)
MSFA
MSFA+sPS -- I
MSFA+sPS -- II可些許改善最大化 S 型音框音素正確率訓練,同時訓練過程中的收斂速度明顯得以提升。
30
結合資料選取方法所求聲學模型之實驗 (1/2)
CER(%)MPE+US
--IIMPE+USv
--II MPE+PS MPE+PSv MPE+sPS--I
MPE+sPS--II
20.94 20.58 22.22 20.41 20.52 20.42
MPE_Itr10 20.73
ROVER-Top1 20.86 20.66 21.10 20.60 20.66 20.56
ROVER-Top10 20.80 20.65 21.08 20.56 20.55 20.48
ROVER-Top20 20.79 20.66 20.99 20.52 20.62 20.46
TC-ASCombine 20.56 20.47 20.42 20.44 20.50 20.47
WG-PPCombine 20.52 20.45 20.30 20.29 20.33 20.20
WG-TFECombine 20.44 20.30 20.07 20.24 20.33 20.26
20.00
20.20
20.40
20.60
20.80
21.00
21.20
MPE+US--II MPE+USv--II MPE+PS MPE+PSv MPE+sPS--I MPE+sPS--II
CER(%)ROVER-Top1 ROVER-Top10 ROVER-Top20
TC-ASCombine WG-PPCombine WG-TFECombine在 MPE+PS 這組實驗中,儘管其所得聲學模型的辨識率不佳,但與原始最小化音素錯誤之模型結合後,其辨識率獲得很大的改善!可見兩個模型的辨識能力已達到互補的效果!
31
結合資料選取方法所求聲學模型之實驗 (2/2)
CER(%)MSFA+US
--IIMSFA+USv
--II MSFA+PS MSFA+PSv MSFA+sPS--I
MSFA+sPS--II
20.69 20.62 25.52 20.57 20.64 20.70
MSFA_Itr10 20.61
ROVER-Top1 20.61 20.55 22.08 20.41 20.66 20.71
ROVER-Top10 20.54 20.51 22.02 20.32 20.54 20.58
ROVER-Top20 20.58 20.55 21.87 20.33 20.52 20.60
TC-ASCombine 20.45 20.35 20.15 20.27 20.48 20.52
WG-PPCombine 20.30 20.32 20.70 20.07 20.33 20.34
WG-TFECombine 20.12 20.25 20.58 19.92 20.17 20.15
19.70
19.90
20.10
20.30
20.50
20.70
20.90
MSFA+US--II
MSFA+USv--II
MSFA+PS MSFA+PSv MSFA+sPS--I MSFA+sPS--II
CER(%)
ROVER-Top1 ROVER-Top10 ROVER-Top20
TC-ASCombine WG-PPCombine WG-TFECombine相較之下,與最大化 S 型音框音素正確率訓練的結合,其改善效果更為一致。但由於 MSFA+PS嚴重地過度訓練,導致其效果並不明顯!
32
結合多重資料選取方法之實驗• 與以正規化熵值為基礎的音框層次資料選取方法結合
CER(%) MPE MPE+USv+PSv
MPE+PSv+FSv
MPE+USv+FSv
MPE+USv+PSv+FSv
ML_Itr10 23.64
Itr01 22.88 22.86 22.48 22.60 22.50
Itr02 22.44 22.40 21.53 21.87 21.80
Itr03 22.12 21.88 21.18 21.34 21.21
Itr04 21.77 21.58 20.83 21.12 20.93
Itr05 21.50 21.31 20.58 21.05 20.82
Itr06 21.20 20.98 20.64 20.80 20.79
Itr07 21.06 20.91 20.72 20.87 20.80
Itr08 20.87 20.83 20.59 20.80 20.67
Itr09 20.77 20.76 20.49 20.60 20.60
Itr10 20.73 20.57 20.46 20.63 20.46
20.0020.5021.0021.5022.0022.5023.0023.5024.00
0 1 2 3 4 5 6 7 8 9 10Iteration
CER(%)
MPE
MPE+USv+PSv
MPE+PSv+FSv
MPE+USv+FSv
MPE+USv+PSv+FSv
最小化音素錯誤訓練的收斂速度明顯獲得提升,其中以 MPE+PSv+FSv這組實驗的效果最好!故可觀察得知:訓練語句選取方法顯得過於粗糙。
33
結合多重資料選取方法之實驗• 結合多重資料選取方法以改善最大化 S 型音框音素正確率訓練
CER(%) MSFA MSFA+USv+PSv
MSFA+PSv+FSv
MSFA+USv+FSv
MSFA+USv+PSv+FSv
ML_Itr10 23.64
Itr01 22.87 22.69 22.33 22.37 22.33
Itr02 22.29 22.11 21.39 21.83 21.50
Itr03 21.89 21.94 21.01 21.37 20.85
Itr04 21.54 21.35 20.61 21.13 20.73
Itr05 21.12 21.16 20.49 20.99 20.64
Itr06 20.98 20.84 20.34 20.84 20.60
Itr07 20.68 20.56 20.49 20.63 20.57
Itr08 20.55 20.40 20.52 20.55 20.53
Itr09 20.48 20.47 20.50 20.62 20.59
Itr10 20.61 20.57 20.72 20.43 20.48
20.0020.5021.0021.5022.0022.5023.0023.5024.00
0 1 2 3 4 5 6 7 8 9 10Iteration
CER(%)
MSFA
MSFA+USv+PSv
MSFA+PSv+FSv
MSFA+USv+FSv
MSFA+USv+PSv+FSv
依然以 MSFA+PSv+FSv 這組實驗的效果最好!但在後面的迭代訓練上會發生稍微過度訓練的情況。
34
結論• 本論文旨在探討使用各種資料選取方法來改善以最小化音素錯誤為基礎的鑑別式聲學模型訓練
– 基於 AdaBoost 演算法之精神的資料選取方法– 基於詞圖期望音素正確率的資料選取方法
• 訓練語句層次• 音素段落層次
35
未來展望• 未來仍有幾個方向需要繼續努力:
– 以最小化音素錯誤訓練中的期望正確率來定義 AdaBoost 演算法中的分類錯誤– 由下往上的進行多重資料選取方法之結合
36
謝謝敬請口試委員指導
37
音框音素正確率函數• 用以取代原始音素正確率函數以改進最小化音素錯誤訓練之缺點:
– 其原始音素正確率函數並沒有給予刪除錯誤適當的懲罰
– 稱之為音框音素正確率函數 (Frame Phone Accuracy, 記作 FA)
– 而詞圖中一候選詞序列 的音框音素正確率為:
1
))(,()(
e
st
se
tuqqacyFrameAccur
q
q
10 ),( ,
)( ,1))(,(
tuqiftuqif
tuq
iWq
zi qacyFrameAccurWWFrameAcc )(),(
iW
為刪除錯誤的懲罰權重
38
S型音框音素正確率函數• 為了能使音框音素正確率函數之值域與原始音素正確率同為介於 -1 到 +1 之間:
– 使用 S型函數 (Sigmoid Function) 來正規化音框音素正確率函數的分子項
– 稱之為 S型音框音素正確率函數 (Sigmoid Frame Phone Accuracy, 記作SFA)
– 而詞圖中一候選詞序列 的 S型音框音素正確率為:
1)exp(1
2)(
net
qcuracySigFrameAc
q
q
e
sttuqnet ),(
iW
iWq
zi qcuracySigFrameAcWWcSigFrameAc )(),(
及 為 S型函數中可調整的參數
39
最大化 S型音框音素正確率訓練• 以 S 型音框音素正確率函數取代正確率函數,則最大化 S型音框音素正確率的目標函數可表示為:
(Maximum Sigmoid Frame Phone Accuracy, 記作 MSFA)
• 本論文中最大化 S 型音框音素正確率訓練的參數設定為:
Z
zzi
WziMSFA WWcSigFrameAcOWpF
latticezi1
),()|()(,W
5.0 ; 1.0
40
以熵值為基礎的音框層次資料選取方法 (1/3)
• 以熵值 (Entropy) 為基礎的時間音框資料選取方法– 鑑於傳統熵值之值域會隨著樣本數多寡而不同,在此我們使用正規化熵值
– 因此 的值域會介於 0 到 1 之間• 假如其值接近於 0 :
– 代表於時間 t 的音框層次事後機率被某一個高斯模型 m給支配• 假如其值接近於 1 :
– 代表於時間 t 的音框層次事後機率幾乎是平均分配 (uniformly distributed)給所有的高斯模型 m
)(1log)(
log1)( 2
12 tt
NtE z
qm
Q
q qm
zqmz
為在時間 時所有的音素段落個數 為在時間 中所有事後機率不為零的高斯模型 的個數
Q
N
tt m
)(tEz
41
以熵值為基礎的音框層次資料選取方法 (2/3)
• 以二元分類器的觀點來探討:– 假如其正規化熵值接近於 0
• 此時間音框其實座落於遠離決定邊界 (Decision Boundary) 的位置上– 假如其正規化熵值接近於 1
• 此時間音框座落於決定邊界附近的位置上
• 總言之,以正規化熵值為基礎的資料選取方法可視為在事後機率定義域中選取資料– 旨在找出那些不容易被分類正確的時間音框並只利用其統計值來調整模型參數,以利鑑別式模型訓練
0 1正規化熵值
決定邊界
混淆的樣本
事後機率定義域
42
以熵值為基礎的音框層次資料選取方法 (3/3)
• 直接在正規化熵值之值域上設定一門檻值– 把其值低於此門檻值的時間音框捨棄,只累加被選取到之時間音框的統計值– 則其數學式可表示為 ( 以 num 類為例 ) :
• 本論文中的參數設定為:
Z
z q
e
stzz
zq
zqm
numqmd
Z
z qz
e
stz
zq
zqm
numqmd
z
Z
z q
e
st
zq
zqm
numqm
lattice z
q
q
MPE
lattice z
q
q
MPE
lattice z
q
q
MPE
tEItotO
tEItotO
tEIt
1
22
1
1
,
,
,
))(()(),0max()()(
))(()(),0max()()(
))((),0max()(
W
W
W
)(,0)(,1
))((tE if tE if
tEIz
zz
05.0