160
工學博士學位論文 고속 화자 적응을 위한 알고리즘의 MLLR 연산량 감소에 관한 연구 A Study on Computational Complexity Reduction of MLLR Algorithm for High Speed Speaker Adaptation 2004 2 仁荷大學校大學院 ( ) 電子工學科 電子通信專攻 金志雲

dspace.inha.ac.kr · 요약문 본논문은적은양의적응데이터에대해기존의MLLR(Maximum LikelihoodLinearRegression)화자적응방법의개선에대해제안하였 다

  • Upload
    others

  • View
    1

  • Download
    0

Embed Size (px)

Citation preview

  • 工學博士學位論文

    고속 화자 적응을 위한 알고리즘의MLLR

    연산량 감소에 관한 연구

    A Study on Computational Complexity

    Reduction of MLLR Algorithm for High Speed

    Speaker Adaptation

    2004 2年 月

    仁 荷 大 學 校 大 學 院

    ( )電子工學科 電子通信專攻

    金 志 雲

  • 工學博士學位論文

    고속 화자 적응을 위한 알고리즘의MLLR

    연산량 감소에 관한 연구

    A Study on Computational Complexity

    Reduction of MLLR Algorithm for High Speed

    Speaker Adaptation

    2004 2年 月

    指導敎授 鄭在皓

    이 을 으로 함論文 工學博士學位 論文 提出

    仁 荷 大 學 校 大 學 院

    ( )電子工學科 電子通信專攻

    金 志 雲

  • 이 을 의 으로 함論文 金志雲 工學博士 論文 認定

    2004 2年 月

    主審

    副審

    委員

    委員

    委員

  • 요 약 문

    본 논문은 적은 양의 적응 데이터에 대해 기존의 MLLR (Maximum

    화자 적응 방법의 개선에 대해 제안하였Likelihood Linear Regression)

    다. 화자 적응 알고리즘은 적은 적응 데이터에 대해MLLR HMM (Hidden

    파라메타가 과도하게 적응 데이터에 편중되는 현상을 막기Markov Model)

    위해 블록 대각 행렬 형태의 변환 행렬을 이용하여 적응 파라메타 수를 감소

    시키거나 미리 정해진 점유 문턱값 을 이용하여 변(occupation threshold)

    환 함수의 수를 결정한다 그러나 각 블럭들은 서로 독립이라는 가정이 요구. ,

    되므로 블록 대각 행렬의 이용이 제한적이고 점유 문턱값의 설정에 따른 인, ,

    식율의 변화가 심한 단점이 있다 또한 알고리즘은 적응 파라메타를. , MLLR

    구하기 위해 많은 양의 역행렬 연산을 수행해야 한다 따라서 본 논문은 화. ,

    자 적응의 속도를 증가시키고 적응 변환 함수의 수의 변화에 둔감하고 화자, ,

    적응시 요구되는 연산량을 줄이기 위해 주성분 분석법이나 독립성분 분석법

    과 같은 선형 변환 방법을 이용하여 파라메타의 수를 효율적으로 감소HMM

    시켰다 또한 효율적인 선형 변환을 위해 새로운 회귀 나무를 생성하였다. , .

    깨끗한 음성과 자동차 잡음 배블 잡음 백색 잡음을 혼합한 잡음 음성에 대, ,

    한 실험 결과를 제시하였다 화자 적응 속도 측면에서 고찰하면. ,

    × 크기의 적응 변환 행렬을 사용하는 기존의 알고MLLR

    리즘의 인식성능이 화자 독립 모델의 인식 성능 보다 높은 인식률을 나타내

    기 위해서는 초 이상의 적응데이터가 필요한 반면 제안한 알고리30 , MLLR

    즘은 × 크기의 적응 변환 행렬을 사용할 경우 약 초, 10

    이상의 적응 데이터에 대해 화자 독립 모델의 인식 성능 보다 높게 나타났다.

    점유 문턱값의 영향에 대해 고찰하면 기존의 을 이용한 화자 종속 모, MLLR

    델이 화자 독립 모델 보다 낮은 인식율을 보였던 점유 문턱값에 대해서 제안

  • 한 알고리즘을 이용한 화자 종속 모델이 화자 독립 모델 보다 높은 인식율을

    나타내었다 기존의 알고리즘에 비해 최대 이상 인식율이 향상되. MLLR 6%

    었고 기존의 화자 적응 보다 점유 문턱값에 영향을 적게 받는 것으로, MLLR

    나타났다 잡음 환경에서는 제안한 알고리즘이 기존의 알고리. MLLR MLLR

    즘 보다 높은 인식율을 나타내었고 기존의 알고리즘에서는 문턱값에, MLLR

    따라 최대값과 최소값의 차이가 약 로 나타난 반면 제안한 알고20% , MLLR

    리즘에서는 약 로 나타났다 연산량 측면에서 고찰하면 기존의 화5% . , MLLR

    자 적응과 유사한 성능을 나타내도록 파라메타 차수를 차로 감소하HMM 10

    였을 때 제안한 알고리즘의 역행렬에서 요구하는 연산량은 기존의, MLLR

    알고리즘에 비해 만큼 감소하였다 잡음 환경에서는 기존의 화1/167 . MLLR

    자 적응과 유사한 성능을 나타내기 위해서는 차 이상의 주성분과 독립성12

    분이 요구되므로 제안한 알고리즘에서 요구하는 연산량은 기존의 알, MLLR

    고리즘에 비해 만큼 감소하였다1/81 .

  • Abstract

    This dissertation adresses improvement of Maximum Likelihood

    Linear Regression (MLLR) speaker adaptation when adaptation data

    are small. In MLLR framework, the number of adaptation parameters

    can be decreased using a block diagonal transformation matrix, or the

    number of transformation is reduced using pre-determined occupation

    thresholds. However, the block diagonal transformation matrix is

    restrictively used since each block is assumed to be statistically

    independent, and the performance of speaker adaptation is dependent

    on the occupation threshold if the adaptation data is not sufficient.

    And a number of matrix inversion is required in order to obtain a

    transformation function. So, we effectively reduces the orders of

    hidden Markov model (HMM) parameters using a linear transformation

    like principal component analysis (PCA) or independent component

    analysis (ICA) in order to reduce the amount of computation, be

    insensitive to the number of transformation function, and improve the

    speed of adaptation. And, for more effective linear transformation, we

    generate a new regression tree.

    We execute experiments using clean speech and noisy speech

    generated by mixing clean speech with car, babble, or white noise. In

    the view of rapid speaker adaptation, in ordinary MLLR framework

    with × dimensional transformation matrix, the

    speaker dependent (SD) model adapted with more than 30 seconds

    adaptation data represents higher word recognition rate than speaker

  • independent (SI) model , whereas in proposed algorithm with

    × dimensional transformation matrix, the SD model

    adapted with just more than 10 seconds adaptation data represents

    higher word recognition rate than SI model. Considering the effect of

    occupation threshold, for the occupation threshold where SD model

    using the ordinary MLLR represent lower recognition rate than SI

    model, SD model using proposed MLLR represents higher recognition

    rate than SI model. For noisy environment, the proposed MLLR

    algorithm represents higher recognition rate than the ordinary MLLR

    algorithm, and the difference between maximum recognition rate and

    minimum recognition rate according to occupation threshold is about

    20% in the ordinary MLLR framework, whereas 5% in the proposed

    MLLR frame work. In the point of the amount of computation, we

    reduce HMM parameters to 10 components for ICA and PCA represent

    similar performance with 36 components for ordinary MLLR

    framework in clean experiments, and the amount of computation is

    reduced to about 1/167. In noisy environment, since 12 components

    for ICA and PCA represent similar performance with 36 components

    for ordinary MLLR framework, the amount of computation in proposed

    MLLR framwork compared with ordinary MLLR algorithm is reduced

    to 1/81.

  • 목 차

    요약문.........................................................................................................i

    Abstract...................................................................................................iii

    목차............................................................................................................v

    그림 목차.................................................................................................vii

    표 목차......................................................................................................x

    약어 목록..................................................................................................xi

    제 장 서 론1 ............................................................................................. 1

    제 장 화자 적응 알고리즘 개요2 ............................................................ 10

    화자 정규화2.1 ................................................................................. 11

    화자 적응2.2 .....................................................................................12

    화자 분류 기법2.2.1 .................................................................... 15

    스팩트럼 변환 기법2.2.2 ............................................................. 16

    모델 파라메타 재추정 기법2.2.3 ................................................. 23

    결합된 적응 기법2.2.4 .................................................................28

    제 장 화자 적응3 MLLR .........................................................................33

    표기법3.1 HMM .............................................................................. 34

    평균 벡터의 적응3.2 .........................................................................38

    변환 행렬 추정3.3 ............................................................................ 41

    보조 함수의 정의3.3.1 .................................................................41

  • 보조 함수의 최대화3.3.2 ............................................................. 42

    회귀 파라메타 개수의 감소3.3.3 ................................................. 45

    오프셋 항목을 삭제한 경우3.3.3.1 ......................................... 46

    대각 형태의 행렬 이용3.3.3.2 ................................................48

    블록 대각 행렬의 이용3.3.3.3 ................................................51

    회귀 클래스3.3.4 ......................................................................... 53

    알고리즘의 문제점3.4 MLLR ............................................................56

    제 장 선형 변환을 이용한 화자 적응4 MLLR ........................................ 59

    적응 변환 행렬의 추정4.1 ................................................................ 60

    평균 벡터의 선형 변환4.1.1 ........................................................ 60

    보조 함수의 최대화4.1.2 ............................................................. 64

    혼합 성분 확장4.1.3 .................................................................... 68

    선형 변환에 의한 차수 감소4.2 ....................................................... 71

    주성분 분석법4.2.1 ......................................................................71

    독립성분 분석법4.2.2 .................................................................. 78

    선형 변환을 이용한 회귀 나무 생성4.3 ............................................85

    제 장 실험 및 고찰5 ............................................................................... 88

    실험의 구성5.1 ................................................................................. 88

    조용한 환경에서 화자 적응5.2 ......................................................... 91

    잡음 환경에서 화자 적응5.3 ...........................................................110

    5.4 고찰............................................................................................125

    제 장 결론6 ........................................................................................ 127

    참 고 문 헌.......................................................................................... 132

  • 그림 목차

    그림 음성 인식 시스템의 블록 다이어그램1.1 ........................................3

    그림 대용량 어휘 음성 인식 시스템의 블록 다이어그램1.2 ...................6

    그림 배치 모드 화자 적응2.1 ...............................................................13

    그림 증가 모드 화자 적응2.2 ...............................................................14

    그림 즉시 모드 화자 적응2.3 ...............................................................15

    그림 스팩트럼 변환을 이용한 특징 벡터 공간에서 화자 적응2.4 ........18

    그림 새로운 화자와 참조 화자의 공통 벡터 영역으로 변환2.5 ............19

    그림 스팩트럼 편향 벡터를 이용한 화자 적응2.6 ................................21

    그림 서로 다른 양의 적응 데이터를 이용한 가우시안 평균 벡터의2.7

    추정의 예MAP .......................................................................................26

    그림 화자 적응의 예2.8 MAPLR ..........................................................28

    그림 상태 의 예3.1 3 HMM .....................................................................34

    그림 적응 변환 행렬3.2 에 의한 평균 벡터의 변환........................38

    그림 회귀 나무의 형성3.3 .....................................................................54

    그림 화자 적응에서 점유 문턱값에 따른 인식율 변화3.4 MLLR ..............57

    그림 두 개의 주성분4.1 와 ............................................................72

    그림 초기 회귀 나무 구성 방법4.2 ...........................................................85

    그림 주성분 분석 방법을 이용한 회귀 나무 갱신 방법4.3 .........................86

    그림 슈퍼벡터 행렬4.4 형성................................................................87

    그림 기존의 과 차의 또는 를 적용한5.1 MLLR 8 PCA, ICA_kurt ICA_neg

    의 단어 인식률 비교MLLR ........................................................................93

    그림 기존의 과 차의 또는 를 적용한5.2 MLLR 10 PCA, ICA_kurt ICA_neg

  • 의 단어 인식률 비교MLLR ......................................................................94

    그림 기존의 과 차의 또는 를 적용한5.3 MLLR 12 PCA, ICA_kurt ICA_neg

    의 단어 인식률 비교MLLR ......................................................................95

    그림 기존의 과 차의 또는 를 적용한5.4 MLLR 14 PCA, ICA_kurt ICA_neg

    의 단어 인식률 비교MLLR ......................................................................96

    그림 기존의 화자 적응에서 점유 문턱값에 따른 인식율 변화5.5 MLLR ...97

    그림 차의 를 적용한 화자 적응에서 점유 문턱값에 따른 인5.6 8 PCA MLLR

    식율 변화...............................................................................................99

    그림 차의 를 적용한 화자 적응에서 점유 문턱값에 따5.7 8 ICA_kurt MLLR

    른 인식율 변화......................................................................................99

    그림 차의 를 적용한 화자 적응에서 점유 문턱값에 따5.8 8 ICA_neg MLLR

    른 인식율 변화......................................................................................100

    그림 차의 를 적용한 화자 적응에서 점유 문턱값에 따른5.9 10 PCA MLLR

    인식율 변화............................................................................................101

    그림 차의 를 적용한 화자 적응에서 점유 문턱값에5.10 10 ICA_kurt MLLR

    따른 인식율 변화....................................................................................102

    그림 차의 를 적용한 화자 적응에서 점유 문턱값에5.11 10 ICA_neg MLLR

    따른 인식율 변화....................................................................................102

    그림 차의 를 적용한 화자 적응에서 점유 문턱값에 따른5.12 12 PCA MLLR

    인식율 변화............................................................................................104

    그림 차의 를 적용한 화자 적응에서 점유 문턱값에5.13 12 ICA_kurt MLLR

    따른 인식율 변화....................................................................................104

    그림 차의 를 적용한 화자 적응에서 점유 문턱값에5.14 12 ICA_neg MLLR

    따른 인식율 변화....................................................................................105

    그림 차의 를 적용한 화자 적응에서 점유 문턱값에 따른5.15 14 PCA MLLR

  • 인식율 변화............................................................................................106

    그림 차의 를 적용한 화자 적응에서 점유 문턱값에5.16 14 ICA_kurt MLLR

    따른 인식율 변화....................................................................................107

    그림 차의 를 적용한 화자 적응에서 점유 문턱값에5.17 14 ICA_neg MLLR

    따른 인식율 변화....................................................................................107

    그림 자동차 환경에서 기존의 과 를 적용한5.18 20dB MLLR PCA, ICA_kurt

    의 단어 인식률 비교 차 차MLLR : (a)14 , (b)12 ........................................111

    그림 자동차 환경에서 기존의 과 를 적용5.19 15dB MLLR PCA, ICA_kurt

    한 의 단어 인식률 비교 차 차MLLR : (a)14 , (b)12 ...................................112

    그림 배블 잡음 환경에서 기존의 과 차의5.20 20dB MLLR 14 PCA,

    를 적용한 의 단어 인식률 비교 차 차ICA_kurt MLLR : (a)14 , (b)12 .........113

    그림 배블 잡음 환경에서 기존의 과 를 적5.21 15dB MLLR PCA, ICA_kurt

    용한 의 단어 인식률 비교 차 차MLLR : (a)14 , (b)12 ................................114

    그림 백색 잡음 환경에서 기존의 과 차의5.22 20dB MLLR 14 PCA,

    를 적용한 의 단어 인식률 비교 차 차ICA_kurt MLLR : (a)14 , (b)12 .........115

    그림 백색 잡음 환경에서 기존의 과 를 적5.23 15dB MLLR PCA, ICA_kurt

    용한 의 단어 인식률 비교 차 차MLLR : (a)14 , (b)12 ................................116

    그림 의 자동차 잡음 환경에서 점유 문턱값에 따른 단어 인식률5.24 20DB :

    차 차(a)14 , (b)12 ....................................................................................119

    그림 의 자동차 잡음 환경에서 점유 문턱값에 따른 단어 인식률5.25 15DB

    비교 차 차: (a)14 (b)12 ............................................................................120

    그림 의 배블 잡음 환경에서 점유 문턱값에 따른 단어 인식률5.26 20DB :

    차 차(a)14 , (b)12 ....................................................................................121

    그림 의 배블 잡음 환경에서 점유 문턱값에 따른 단어 인식률 비5.27 15DB

    교 차 차: (a)14 (b)12 ...............................................................................122

  • 그림 의 백색 잡음 환경에서 점유 문턱값에 따른 단어 인식률5.28 20DB :

    차 차(a)14 , (b)12 ....................................................................................123

    그림 의 백색 잡음 환경에서 점유 문턱값에 따른 단어 인식률 비5.29 15DB

    교 차 차: (a)14 (b)12 ...............................................................................124

  • 표 목 차

    표 오프셋 항목을 제외한 알고리즘의 의사코드3.1 MLLR ....................47

    표 대각 변환 행렬을 이용한 알고리즘의 의사코드3.2 MLLR ...............50

    표 블록 대각 변환 행렬을 이용한 알고리즘의 의사코드3.3 MLLR ......52

    표 회귀 나무 깊이를 결정하기 위한 의사코드3.4 .................................55

    표 연산량 감소를 위한 주성분 분석 방법4.1 ............................................77

    표 를 이용한 독립성분 분석 방법4.2 FastICA ..........................................84

    표 단어 인식 실험을 위한 음소 표기법5.1 ............................................90

    표 차수에 따른 단어 인식률5.2 ..............................................................109

    표 잡음 환경에서 화자 독립 모델의 단어 인식률5.3 ...............................110

    표 점유 문턱값과 적응 데이터의 길이에 대한 단어 인식률5.4 ...........125

  • 약어 목록

    DTW Dynamic Time Warping

    EMAP Extended Maximum A Posteriori

    HMM Hidden Markov Model

    ICA Independent Component Analysis

    LPCC Linear Predictive Cepstral Component

    MAP Maximum A Posteriori

    MAPLR Maximum A Posteriori Linear Regression

    MFCC Mel Frequency Cepstral Component

    MLE Maximum Likelihood Estimation

    MLED Maximum Likelihood Eigenvoice Decomposition

    MLLR Maximum Likelihood Linear Regression

    MSE Mean Square Estimation

    PCA Principal Component Analysis

    PPCA Probabilistic Principal Component Analysis

    QBLR Quasi-Bayes Linear Regression

    RMP Regression-based Model Prediction

    SD Speaker Dependent

    SI Speaker Independent

    SM Stochastic Matching

    SMAP Structural Maximum A Posteriori

    VQ Vector Quantization

  • 제 장 서 론1

    년 동안 음성 인식 분야에서는 컴퓨터의 빠른 성능 향상과 함께 다20

    양한 연구가 진행되어 왔다 비록 완벽한 음성 인식기의 구현은 아직 이.

    르지만 오늘날 음성 인식 기술은 다양한 응용, 분야에 적용될 수 있는 수

    준에 이르렀다 그러나 아직도 인식 시스템의 성능을 향상시키기 위해. ,

    여러 분야에서 무수한 연구가 진행되고 있다 현재 대부분의 시스템들은.

    통제 가능한 환경에서 매우 제한된 일들을 하도록 구성되어 있고 좀 더,

    일반적인 환경으로 확장될 경우 매우 낮은 성능을 나타낸다 이러한 강인.

    성의 문제는 일반적인 실제 환경의 응용 분야에 적용되기 전에 반드시 연

    구되어야 한다.

    음성 인식기는 음성을 받아들이고 음성에서 언어 정보를 얻어내기 위해

    음성을 처리하는 장치이다 그러나 다양한 처리 과정에서 나타나는 많은. ,

    변화 때문에 실제 처리가 매우 어렵다 음성에는 다양한 변화가 존재한.

    다 어떠한 화자도 동일한 음운 환경에서 동일한 음성을 물리적으로 발성.

    할 수 없고 다른 화자에게 채취한 동일한 어휘의 음성은 완벽히 다른 형,

    태를 나타낸다 음성 인식 시스템이 사용되는 환경은 마이크의 종류나. ,

    배경 잡음과 같은 채널 상태 때문에 음운 형태에 영향을 줄 수 있다 또.

    한 시스템을 사용하는 사람의 수 발성하는 스타일 그리고 사용되는 단, , ,

    어와 문법 등에 의해 다양한 변이가 나타난다.

    이러한 변이를 보완할 수 있는 음성 인식기를 구현하는 것은 매우 어려

    운 문제이고 결과적으로 대부분의 연구는 이러한 문제점들 중 중요한, ,

    몇 가지만을 해결하는데 초점을 두고 있다 음성에 가장 큰 영향을 미치.

    는 요소 중 하나인 채널 상태의 문제는 동일한 훈련 환경과 인식 환경을

  • 사용함으로써 극복될 수 있다.

    초기 몇 년간의 음성 인식 분야의 연구는 특정 화자를 위한 고립 단어

    만을 다루는데 제한되었다 이러한 고립 단어 인식 시스템은 어법이 사용.

    되지 않았고 사용되는 단어 사전은 매우 작다 점차적으로 특정 화자에, .

    국한되지 않는 화자 독립 인식 시스템으로 발전하였고 고립단어 대신 연

    속 음성으로 발전하였다[1].

    최근 여러 알고리즘들은 충분히 큰 단어 사전으로부터 만들어진 연속

    음성의 문장을 다룰 수 있도록 연구되고 있다 실재로 무제한 어휘를 사. ,

    용하는 응용 분야의 인식 성능은 매우 우수하게 나타났다 그러나 이러. ,

    한 응용 분야는 여전히 동일한 훈련 환경과 인식 환경 배경 잡음이 없는,

    깨끗한 음성 그리고 모든 화자에 대해 동일한 표준 악센트 등을 가정하,

    고 있다 따라서 제약이 적은 환경에서 인식 성능을 향상시킬 수 있도록. ,

    다양한 연구가 진행되고 있다.

    음성 인식 시스템의 기본적인 목표는 음향학적인 정보로부터 일련의 단

    어 정보를 찾아내는데 있다 음성 인식 시스템은 전형적으로 그림 과. 1.1

    같이 몇 가지 주된 부분으로 구성된다 마이크 앰프 변환기 그리고. , , A/D ,

    샘플링 회로 등과 같은 변환 장치와 음향학적 배경으로 구성되는 첫 번째

    블록은 발성된 음성에 큰 영향을 미칠 수 있다 예를 들면 부가 잡음 실. , ,

    내 반향 마이크의 위치와 종류 앰프의 오프셋 그리고 장치에서 발생, , dc ,

    하는 그라운드루프 등이 이 처리 과정과 관련된다 두 번째(groundloop) .

    블록인 특징 추출 시스템은 음성을 서로 다른 클래스로 분류하고 부적절

    한 변이를 억제하는데 효과적인 음향학적 표현을 유도할 뿐 아니라 음성

    에 추가된 변이에 대한 문제점들을 다룬다 이들 두 블록은 본 논문에서.

    는 언급하지 않지만 매우 중요한 연구 분야이다.

    그림 에서 다음 두 블록은 음성 인식의 패턴 매칭 기능을 나타낸다1.1 .

  • 거의 모든 음성 인식 시스템에서는 매 초마다 수백번 이상의 연속적인 시

    간 간격으로 특징이 추출된다 이러한 음성 프레임 은 유사도나. (frame)

    거리등을 이용하여 훈련에 사용된 음성 특징과 비교된다 이러한 비교는.

    지역적 정합으로 볼 수 있다 전역적 정합은 최상의 일련의 단어들을 검.

    색하고 여러 개의 지역적 정합을 집합시킴으로써 결정된다, .

    +

    음성 특징 벡터 추출

    하위 단위 패턴 매칭

    모델열 검색 및 시간할당

    문장 비교

    음성 잡음

    단어열 또는 문장

    언어 모델

    음성 모델

    그림 음성 인식 시스템의 블록 다이어그램1.1 .

    Fig. 1.1 Block diagram of speech recognition system.

  • 지역적 정합의 목적은 가장 가까운 하나의 음성 모델을 선택하는 것이 아

    니라 가능한 모든 음성 모델에 부합되는 확률이나 거리를 계산하는데 있,

    다 이들은 일련의 음성 모델이나 단어를 검색하는데 이용된다 전역적. .

    정합 블록의 다른 기능은 음성에서 발생할 수 있는 시간적 왜곡의 보상이

    다 예를 들면 모음은 빠른 음성에서는 짧아질 수 있는 반면 몇몇 자음. , ,

    은 거의 같은 길이를 유지한다.

    그림 의 마지막 블록은 언어 모델로 구성된다 이 블록은 전역적 처1.1 .

    리과정의 일부분을 이용한다 예를 들면 만일 인식기가 가장 유사한. ,

    개의 문장을 생성한다면 언어 모델은 문법이나 어법에 따라 문장의 거리,

    나 확률을 다시 계산한다 가장 일반적인 지역적 정합의 계산은 확률적으.

    로 구현된다 관측된 음성의 확률은 음성 모델에 대해 계산된다 이러한. .

    확률은 일반적으로 가우시안 분포의 혼합 성분과 이들의 연결 네트워크를

    이용하여 측정된다.

    음성 인식 시스템의 핵심은 인식의 기본 단위로 선택된 음성 신호를 정

    확하게 모델링하는 것이다 만일 음향학적 모델링이 정확치 않다면 언어. ,

    모델링이나 단어 사전 등으로부터 얻어지는 부가적 정보는 제한된다 은.

    닉 마르코프 모델 이 음성 인식에 처음(Hidden Markov Model; HMM)

    제안된 이후로 음향학적 모델링을 향상시키기 위한 연구는 꾸준히 진행되

    어왔다 음향학적 모델링 문제는 크게 두 가지로 분류된다 첫째로 올바. . ,

    른 모델에 해당하는 음성을 정확히 식별하는 유사도의 최대화이고 둘째,

    로 음성을 다른 모델에 할당했을 때 다른 모델로 오인식할 확률의 최소화

    이다 모델을 추정하는 전형적인 접근 방법은 전자에 집중되어왔다 한. .

    모델의 인식률을 높이는 것은 또한 다른 모델에 해당하는 음성을 한 모델

    로 오인식할 확률을 높이기 때문에 전체적인 음성 인식 성능은 향상되지,

  • 않을 수 있다 음성의 발성학적 관점에서 은 제약이 있는 모델이고. HMM ,

    실제와는 다른 몇 가지 가정이 필요하기 때문에 이들의 주된 목적은 음,

    성인식에 을 사용할 때 만들어지는 이러한 가정을 향상시키는데 있HMM

    다 그러나 몇몇 이론의 결과는 좁은 응용 분야에서 성공적이었지만 일. , ,

    반적인 경우로 확장하였을 경우 그 성능이 보장되지 못한다.

    은 가장 널리 사용되고 있는 음성 인식 기술이다 은 소용량HMM . HMM

    어휘에 제한된 응용분야에 매우 효과적인 기술이다 예를 들면 연속 숫. ,

    자 인식에서 이상의 단어 인식률을 나타내었다고 할지라도 대용량99%

    어휘로의 확장은 쉬운 일이 아니다 인식해야할 단어의 수의 증가는 다양.

    한 음운 현상을 동반한다 음성에서 더욱 다양한 변이가 발생하고 이는. ,

    음성 인식 성능의 저하를 야기한다 이러한 문제를 해결하기 위해서는 음.

    향학적 모델링 방법이 향상되어야 한다 문법적인 제한과 같은 문장 검색.

    을 제한하는 정보들은 고려해야할 가능성의 수를 감소시킴으로 음성 인식

    성능을 향상시킬 수 있다[2].

    그림 는 발음에 대한 사전적 제한이나 가능한 단어의 수를 제한하는1.2

    언어 모델 그리고 음향학적 모델링을 포함하고 있는 대용량 어휘 인식시,

    스템에 대한 블록도이다 대용량 어휘 시스템을 고려할 때 모델 파라메타.

    의 훈련은 매우 중요하다 다른 패턴인식 시스템과 마찬가지로 의. HMM

    추정은 훈련과정에 제공되는 데이터의 양에 의존적이다 제공되는 훈련.

    음성 데이터가 많을수록 음향학적 모델링은 더욱 정교해진다 화자 독립.

    시스템에 대해 음성 데이터는 다양한 화자로부터 채취가 가능하고 한 명

    의 화자에게 다량의 데이터를 채취해야하는 부담이 없다 최종적인 화자.

    독립 모델은 한 화자 내의 변이와 다른 화자들 사이의 변이를 모두 모델

    링 해야 하기 때문에 대용량 어휘 시스템의 음향학적 모델링은 매우 정,

    교해야 한다.

  • 음성 인식 알고리즘

    음향학적 모델

    문법언어 모델

    기타 정보

    음성 단어열

    그림 대용량 어휘 음성 인식 시스템의 블록 다이어그램1.2 .

    Fig. 1.2 Block diagram of a large vocabulary speech recognition

    system.

    만일 한 화자만의 음성을 인식해야 하는 음성 인식 시스템이 요구된다,

    면 화자 독립 시스템과 데이터를 채취해야 하는 상황이 달라진다 대용, .

    량 어휘 시스템에서 충분한 모델링의 정확도를 위한 모델을 훈련하기 위

    해 다량의 음성 데이터가 요구되지만 요구되는 음성 데이터는 한 명의,

    화자에 의해 제공되어야 한다 비록 화자 종속 시스템이 일반적으로 화. ,

    자 독립 시스템 보다 우수한 성능을 나타낸다고 할지라도 이러한 상황은,

    한 화자에 대해 매우 부담스러운 일이다.

    다양한 응용 분야에서 한 명의 화자가 충분한 양의 데이터를 제공하는

    것은 실용성이 떨어지므로 화자 독립 시스템이 사용되어야 한다 화자, .

    독립 시스템이 사용되지만 한 명의 화자가 지속적인 시간동안 인식기를

    사용하는 응용 분야에서는 화자 종속 시스템의 성능이 바람직하다 이러.

  • 한 문제점을 모두 해결하는 하나의 방법이 화자 적응이다 즉 새로운 한. ,

    화자로부터 채취한 적은 양의 음성 데이터를 이용해 한 명의 화자에 대해

    인식 성능을 향상시키도록 모델을 적응하는 방법이다 몇 가지 적응 방법.

    들이 제안되어 왔지만 여전히 많은 양의 음성 데이터를 요구한다, .

    의 변별력을 향상시키기 위한 음향학적 표현 공간의 변환에 기반HMM

    한 방법들이 연구되고 있다 유사한 음성 특징의 분포를 나타내는. HMM

    의 한 상태에 대해 고려하여 특징 벡터 공간을 변환함으로써 한 상태와,

    그 외 상태 사이의 변별력을 최대화하는 음향학적 정보를 선택한다 이와.

    같은 변별력 있는 특징의 선택은 개개의 음성을 분류할 때의 오류를 식별

    하고 혼돈 분석 이러한 혼돈을 최소화하는 공간을( ; confusion analysis),

    선택함으로써 음향학적 모델링을 향상시킬 수 있다 화자 적응 기술은 음.

    향학적 모델링 기법을 향상시키기 위한 접근방법으로 볼 수 있다 화자.

    적응의 목표는 변별력을 향상시키는 것이 아니라 새로운 화자에 더욱 적

    합한 클래스 분포를 만드는데 있다[6,7].

    에 기반한 음성 인식 시스템에 적용되는 화자 적응 방법은 크게 몇 가HMM

    지로 분류된다 그 중 하나는 적응 방법[76]. MAP (Maximum A Posteriori)

    에 기반한 재추정 방법이다 적응 방법은 사전 통계로서 잘 훈[8-16]. MAP

    련된 화자 독립 파라메타를 제공함으로써 평균 공분산 혼합가중치HMM , ,

    등이 방법에 의해 적응된다 또 다른 분류는 변환에(mixture weight) MAP .

    기초한 적응방법으로서 파라메타를 변환 함수에 의해 변환시키는 방HMM

    법이다. MLLR (Maximum Likelihood Linear Regression)[6,7,17-21],

    스팩트럴 보간법 비선형 통계 정합SM (Stochastic Maching )[22], [23],

    혹은 강제 변환 등이 해당된다 이런 방[24] (constrained transform)[25] .

    법들은 유사한 성능을 갖는 파라메타를 군집화한 후HMM , ML (Maximum

    을 이용하여 얻어진 변환 파라메타를 이용하여 파라메타Likelihood) HMM

  • 를 적응시킨다 일반적으로 적응 데이터가 제한된다면 변환에 기반한 적응이.

    군집에 의존적인 변환 함수에 의해 모든 파라메타를 효과적으로 변환HMM

    시킬 수 있다 반면 만일 충분한 데이터가 제공되면 방법이. , MAP SI HMM

    파라메타를 변환 함수에 기반한 적응 방법 보다 효과적으로 적응시킬 수 있

    다 또는 위의 두 가지 부류의 방법을 결합한. , MAPLR (Maximum A

    Posteriori Linear Regression)[26-32], SMAP (Structural Maximum A

    Posteriori)[33-35], QBLR (Quasi-Bayes Linear Regression)[36,37],

    과 같은 방법들이 연구되었다TSM (Transformation Space Model)[38] .

    본 논문은 적은 양의 적응 데이터가 제공되는 적응 환경을 목표로 MLLR

    화자 적응 알고리즘을 개선한다 화자 적응 알고리즘은 의 각. MLLR HMM

    혼합 성분 들을 몇 개의 클래스로 군집화 시킨 진 회(mixture component) 2

    귀 나무 를 형성하고 적응 데이터를 각 기저 클래스에 할(regression tree) ,

    당한다 적은 적응 데이터에 대해 파라메타가 과도하게 적응 데이터에. HMM

    편중되는 현상을 막기 위해 블록 대각 행렬 형태의 변환 행렬을 이용하여 적

    응 파라메타 수를 감소시키거나 미리 정해진 점유 문턱값 (occupation

    를 이용하여 변환 함수의 수를 결정한다 그러나 일반적으로 각threshold) . ,

    블럭들은 서로 독립이라는 가정이 필요하기 때문에 음성의 특징 벡터가 델타

    나 델타 델타를 포함한 경우에 사용이 되므로 블록 대각 행렬의 이용이 제- ,

    한적이고 적은 적응 데이터가 제공될 경우 점유 문턱값의 설정에 따른 인식,

    률의 변화가 심한 단점이 있다 또한 알고리즘은 적응 파라메타를 구. , MLLR

    하기 위해 많은 양의 역행렬 연산을 수행해야 한다 예를 들어. , 차의 특징

    파라메타를 사용하고 방법에서 회귀 나무의 기저 클래스가MLLR 개라고

    가정하면, × 차원의 행렬의 역행렬 연산을 × 회 행해야

    한다 일반적으로 역행렬에 요구되는 연산량은. 에 비례하므로, MLLR

    에 요구되는 연산량은 에 비례한다 즉 음성 특징 파라메타의 차수가. ,

  • 커질수록 모델의 개수가 증가할수록 기하 급수적으로 많은 연산량을, HMM

    수행해야 한다 따라서 본 논문은 화자 적응의 속도를 증가시키고 적응 변. , ,

    환 함수의 수에 둔감하고 화자 적응시 요구되는 연산량을 줄이기 위해,

    파라메타의 수를 효율적으로 감소시킨다 또한 다양한 잡음 환경에서HMM . ,

    제안한 알고리즘의 성능을 평가하고 이에 대한 개선 방안을 논한다.

    본 논문의 구성은 다음과 같다 장에서 화자 적응에 대한 개요와 여러 가. 2

    지 화자 적응 기법에 대해 설명한다 장에서 본 논문에서 개선하고자 하는. 3

    기법과 이의 문제점들을 설명하고 장에서 기법의 문제점에MLLR , 4 MLLR

    대한 개선 방향에 대해 기술한다 장에서 실험을 통해 제안한 기법의 유용. 5

    성을 증명한다 마지막으로 결론을 맺고 향후 연구 방향에 대해 기술한다. .

  • 제 장 화자 적응 알고리즘 개요2

    화자 독립 시스템을 훈련시키기 위해서는 다수의 화자로부터 데이터를

    채취해야하기 때문에 모델의 훈련은 한 화자에서 발생하는 변이와 화자,

    들 간의 변이를 고려해야한다 이는 모델 내부의 분산을 크게 하고 개인.

    에 대한 모델의 정확도를 감소시킬 수 있다 이는 동일한 화자에 대해 화.

    자 독립 시스템과 화자 종속 시스템의 성능을 비교함으로써 증명 될 수

    있다 충분한 데이터가 제공된다면 화자 종속 시스템이 일반적으로 화자.

    독립 시스템에 비해 성능이 우수한 것으로 보고 되었다 화자 종속[38].

    시스템에 훈련 데이터의 양이 제한된다면 화자 독립 시스템 보다 우수한,

    화자 종속 시스템의 성능은 보장되지 못한다 제한된 조건에서 성능을 향.

    상시키기 위한 한 가지 방법은 다수의 화자로부터 충분한 데이터가 포함

    된 화자 독립 모델의 정보를 이용함으로써 적은 양의 데이터를 이용하여

    새로운 화자에 대한 모델을 훈련시키는 것이다.

    이와 같이 특정 화자의 모델을 생성하기 위해 화자 독립 데이터가 이용

    되는 훈련 방법을 화자 적응이라고 한다 화자 적응 시스템은 몇 가지 방.

    법으로 분류할 수 있다 첫째로 기존에 존재하는 화자 독립 모델을[8]. ,

    새로운 화자 독립 모델로 갱신하는 방법이다 둘째로 화자의 변환으로서. ,

    화자 종속 모델을 새로운 화자 종속 모델로 변환하는 시스템이다 셋째.

    로 좁은 의미의 화자 적응으로서 화자 독립 모델을 새로운 화자로부터,

    수집된 데이터를 이용해 화자 종속 모델로 변환하는 시스템이다 입력으.

    로 화자 독립 모델과 화자 종속용 적응 데이터가 제공된다 본 논문에서.

    는 세 번째와 같은 좁은 의미의 화자 적응 시스템을 다룬다.

  • 화자 정규화2.1

    화자 적응의 성능에 큰 영향을 미치는 요인인 화자간의 차이는 주로 각

    화자의 개별 특성 때문에 발생한다 이러한 화자의 개별 특성은 음성의.

    길이나 생리학적 요인에 의한 음향학적 특성과 강세나 어휘에 의한 음운

    론적 특성으로 분류될 수 있다 음향학적 변이는 음성 인식 시스[40,41].

    템의 음향학적 모델링 기법에 의해 다루어져야하는 반면 음운론적 변이,

    는 문법이나 발음 모델에 의해 다루어질 수 있다 음운론적 변이는 강세.

    의 변이가 주 원인이고 이는 화자간 변이 언어학적 원인 음소의 분포나, ,

    문법 등에 의해 발생한다 특히 방언에 의한 강세의 차이나 발음의 차이. ,

    는 모음에 큰 영향을 미친다 생리학적 차이는 동일한 강세를 나타내는.

    화자들 사이의 변이를 나타내는 주요 원인이다 음성의 포먼트 주파수는.

    입이나 비강의 크기 등과 같은 성도의 물리학적 모양에 의해 결정된다.

    여성 화자는 짧은 성도의 길이 때문에 남성 화자 보다 더욱 높은 기본 주

    파수와 넓게 분포된 포먼트 주파수를 나타낸다 또한 육체적 혹은 정신. , ,

    적 상태에 의해 생리학적 변이가 발생한다 피곤한 상태일 경우 음성은. ,

    더욱 느려지고 크기가 작아지는 반면 화난 상태일 때는 음성이 커지고,

    빨라진다 감기는 비강으로 공기의 흐름을 방해하므로 비음은 발성되기.

    어렵다 여러 변이들 중 화자간의 변이는 화자 정규화를 통해 최소화될.

    수 있다 그러나 화자간의 변이가 심할 경우 정규화된 공간을 찾는 것은. , ,

    매우 어렵고 인식 성능은 저하된다 가장 대표적인 정규화 방법은 성문, .

    길이를 추정하고 주파수를 이동시키는데 기반한 정규화이다.

    화자 정규화 기법은 매우 복잡한 변환 함수를 요구하고 모든 음향학적,

    정보가 언어학적 정보에 관계없이 동일한 방법으로 다루어지기 때문에 비

    효율적이다 만일 화자 정규화가 언어학적 관점이나 발성학적 관점에서. ,

    접근된다면 더욱 효율적일 것으로 사료된다.

  • 화자 적응2.2

    화자 적응 기법은 모든 화자들에게 동일하게 적용되는 일반적인 변환

    함수를 사용하는 대신 각 화자마다 따로 구해진 변환 함수를 사용한다는

    점에서 정규화 기법과 다르다 새로운 화자로부터 채취한 음성 데이터를.

    이용하여 변환 함수를 구하고 이 변환 함수를 이용하여 입력음성 모델, ,

    또는 두 가지 모두를 변환하고 한 화자에 대한 인식 성능을 향상시킨다.

    즉 화자 적응의 목표는 화자 독립 인식기를 화자 종속 인식기로 변환하,

    는데 있다.

    음성 인식 시스템을 적응하는 과정은 적응이 행해지는 때와 방법에 따

    라 혹은 한 화자에 의해 제공되는 적응 데이터가 이용되는 방법에 따라,

    다른 모드로 수행될 수 있다 먼저 한 화자로부터 음성 데이터의 언어. ,

    정보가 함께 제공되는 지시 모드와 제공되지 않은 비지시(supervised)

    모드가 있다 만일 적응 데이터에 올바른 언어 정보가 제(unsupervised) .

    공된다면 지시 모드에서는 적응 데이터에 적합한 변환 함수를 구할 수,

    있는 반면 비지시 모드는 변환 함수에 오류를 포함 시킬 수 있다, .

    만일 음성 인식기의 사용자가 짧은 시간동안 사용하고 사용자가 자주, ,

    바뀌는 환경에서는 다량의 적응 데이터를 요구하는 것은 비현실적이고,

    반면 한 사용자가 오랜 기간 동안 사용하는 음성 인식기에서는 높은 인식

    성능을 위해 충분한 양의 적응 데이터를 요구하는 것이 가능하다 화자.

    적응 기법은 그림들 과 같이 제공되는 적응 데이터의 양과2.1, 2.2, 2.3

    적응 데이터의 사용 방법에 따라 배치 모드 증가 모(batch) , (incremental)

    드 즉시 모드로 분류된다 그림 의 배치 모드는 가장, (instantaneous) . 2.2

    일반적인 적응 방법으로서 다량의 적응 데이터가 한번에 적응 시스템에,

    적용되는 방식이다 그림 의 증가 모드는 지속적으로 사용자에게 적은. 2.3

    양의 적응 데이터를 요구하고 사용자로부터 얻어진 적응 데이터는 다음,

  • 적응 데이터가 입력되기 전에 적응 시스템에 적용된다 그림 의 즉시. 2.3

    모드는 사용자에게 적응 데이터를 특별히 요구하지 않고 음성 인식 시스,

    템을 사용할 때 인식과 동시에 적응을 행하는 방식이다.

    현재 화자 적응 기법은 크게 가지로 분류될 수 있다 첫째는 미리 훈, 3 .

    련된 적당한 모델을 선택하는 화자 분류에 기반한 방법들이고 둘째는 특,

    징 벡터 공간을 변환하는 스펙트럼 변환에 기반한 기법들이고 셋째는 모,

    델 파라메타의 재추정에 기반한 방법들이다.

    SIModels

    AdatptationAdaptaition

    Data SD Models

    그림 배치 모드 화자 적응2.1 .

    Fig. 2.1 Speaker adaptation mode : batch.

  • SIModels

    AdatptationAdaptaition

    Data #1

    SD Models #1

    AdatptationAdaptaition

    Data #2

    SD Models #2

    AdatptationAdaptaitionData #N

    SD Models #N

    .

    .

    .

    .

    .

    .

    그림 증가 모드 화자 적응2.2 .

    Fig. 2.2 Speaker adaptation mode : incremental.

  • TestData

    Recognition Recognition

    Adaptation

    SIModel

    SDModel

    RecognitionResult

    RecogintionResult

    그림 즉시 모드 화자 적응2.3 .

    Fig. 2.3 Speaker adaptation mode : instantaneous.

    화자 분류 기법2.2.1

    화자 적응의 가장 간단한 기법 중의 하나는 화자 분류와 확인 기법이

    다 서로 다른 화자들로부터 추정된 다수의 모델이 존재한다고 가정하면. ,

    적응 방법은 단순히 새로운 화자가 어떤 모델과 가장 유사한지를 선택한

    다 실제로 잘 훈련된 다수의 모델을 추정하는 것은 각각의 모델을 훈련. ,

    하기 위해 오랜 시간과 노력이 요구되고 각각의 화자에게 다량의 훈련,

    데이터를 요구해야 하므로 비현실적이다 따라서 각각의 화자에게 적은. ,

    양의 훈련 데이터를 채취한 후 분류 기법을 이용해 유사한 특징을 나타,

    내는 화자들의 데이터를 한 집단에 분류하고 각 집단에 속한 화자들의,

    훈련 데이터를 이용하여 적은 수의 모델을 훈련시킨다 적응과정에서 새.

    로운 화자의 음성이 어느 집단의 모델과 가장 유사한가를 선택하고 선택

    된 모델을 이용하여 인식을 행한다 그러나 한 집단 내의 화자들[42,43]. ,

    간의 변이가 매우 심할 수 있고 훈련을 위한 화자의 수가 제한적이기 때,

  • 문에 가장 유사한 집단의 모델일지라도 새로운 화자의 특징과 부합되지

    않을 수 있다.

    스펙트럼 변환 기법2.2.2

    화자 적응에서 스펙트럼 변환에 기반한 기법은 새로운 화자로부터의 음

    성을 변환시킴으로써 인식 성능을 높이는 방법이다 변환은 새로운 화자.

    의 스펙트럼과 참조 화자의 스펙트럼의 차이를 최소화한다 이러한 차이.

    를 정의하고 차이를 최소화하는 다양한 방법이 연구되었다 그러나 이러. ,

    한 방법은 모두 화자간의 변이는 음성 신호의 스펙트럼에서 차이를 나타

    내고 이는 음성의 특징 벡터에 반영된다는 가정에 기초를 두고 있다 새.

    로운 화자에 대한 스펙트럼 변이를 참조 화자의 특징 공간으로 사상시키

    기 위해 새로운 화자의 특징 벡터를 변환시키는 방법과 참조 화자의 특징

    공간과 새로운 화자의 특징 공간 모두를 공통의 새로운 공간으로 변환시

    키는 방법이 연구되었다.

    화자 적응 기술로서 스펙트럼 변환을 이용하는 초기의 방법은 DTW

    를 이용한 음성 인식기를 위해 적용되었다(Dynamic Time Warping) .

    는 을 이용한 음성 인식 시스템과 를 이용한 음성 인식Class HMM DTW

    시스템에 스펙트럼 변환을 이용한 화자 적응 기법들을 비교한 연구 결과

    를 기술하였다 은 식 과 같이 간단한 형태의 변환 기법[44]. Jaschul (2.1)

    을 제안하였다[45].

    (2.1)

    여기서 는 새로운 화자의 특징 벡터 에 적용되는 변환 함수이고,

    는 변환 행렬이고, 는 변환된 특징 벡터이다 은 모든 음성을. Jaschul

  • 동일한 변환 함수를 이용하여 변환하는 전역 변환과 음소에 따라 다른 변

    환 함수를 이용하는 지역 변환을 병행하였다 비록 지역 변환 방법이 요. ,

    구되는 연산량이 많고 다량의 데이터를 요구하지만 전역적인 방법에 비,

    해 더욱 우수한 성능을 나타내었다 요구되는 데이터의 수를 줄이기 위해.

    변환 행렬 는 띠 형태의 대각 행렬이 사용되었다 변환 행렬은 적응된.

    특징 벡터 와 참조 화자의 특징 벡터 사이의 식 와 같이(2.2) MSE

    가 최소가 되도록 추정된다(Mean-Squared Error) .

    (2.2)

    위의 식을 에 대해 미분을 행하면

    (2.3)

    인MSE 를 최소화하기 위해 위의 미분 방정식을 을 만족시키는0 를

    구하면 다음과 같다.

    (2.4)

    새로운 화자의 특징 벡터 공간을 참조 화자의 특징 벡터 공간으로 변환시

    키는 원리를 그림 에 나타내었다2.4 .

    는 의 변환방법을 확장하였다 는 를 이용Hewett Jaschul . Hewett DTW

    하여 적응 데이터를 참조 화자의 음성에 정렬시키고 최소 정방 회귀

    공식을 이용한 주파수 이동과 스케일링(least squares regression)

  • 을 함께 적용한 변환 행렬을 사용하였다 는(scaling) [46]. Class VQ

    의 코드북에 전역적 변환을 적용하였다(Vector Quantization) [47].

    의 변환 방법 은 에 의해 제안된 방법 을 기초로Class [44] Choukri [48]

    발전되었는데 그림 와 같이 새로운 화자의 특징 공간과 참조 화자의, 2.5

    특징 공간을 공통의 공간으로 변환시키기 위한 두개의 다른 변환 함수가

    추정하는 방법이다.

    변환 함수 는 새로운 화자의 특징 벡터 을 으로 변환시키고,

    는 참조 화자의 특징 벡터 을 으로 변환 시키는 변환 함수이다.

    즉,

    (2.5)

    (2.6)

    이다.

    New speaker

    Reference speaker

    fea 1

    fea 2 )( nxP

    그림 스펙트럼 변환을 이용한 특징 벡터 공간에서의 화자 적응2.4 .

    Fig. 2.4 Speaker adaptation on feature vector space using spectral

    transformation.

  • 여기서 는 새로운 화자의 특징 벡터 를 으로 변환시키기 위한 행

    렬이고, 는 참조 화자의 특징 벡터 을 로 변환시키기 위한 행렬이

    다.

    변환 행렬을 구하기 위한 적응된 특징 벡터 와 참조 화자의 특징 벡

    터 사이의 는 다음과 같다MSE .

    (2.7)

    New speaker Reference speaker

    fea 1

    fea 2

    )( na xP)( rb xP

    Common vector space

    그림 새로운 화자와 참조 화자의 공통 벡터 영역으로 변환2.5 .

    Fig. 2.5 Transformation of new speaker and reference speaker into

    common vector space.

  • 변환 와 의 열벡터에 대한 정규화를 행하면 벡터의 분산은 이1

    므로 식 의 는 다음과 같이 정리된다, (2.7) MSE .

    (2.8)

    따라서, MSE 를 최소화하기 위해서는 와 의 상관관계가 최대화되

    어야 한다 이를 만족하는 변환 행렬은 다음의 식을 통해 구해진다. .

    (2.9)

    (2.10)

    (2.11)

    (2.12)

    두 벡터 와 의 거리는 MSE 를 이용하여 계산된다.

    와 은 화자 독립 모델의 정보를 이용하고 모델의 평균을 변Cox Bridle

    환하는 방법을 제시하였다 비록 의 평균 벡터를 변환하는 방[49]. , HMM

    법이지만 음성 인식 성능을 향상시키기 위해 모델의 정확도를 높이는 것

    이 아닌 새로운 화자의 음성과 참조 화자의 음성의 차이를 줄이는데 목적

    이 있으므로 스펙트럼 변환의 한 기법으로 분류된다 와 의 방. Cox Bridle

    법에서 적응된 화자 종속 클래스의 평균은 그림 과 같이 화자 독립 클2.6

    래스의 분포와 편향 벡터의 합으로 계산된다.

  • δ

    µ

    µ̂

    δµµ ⋅+= pˆ

    fea 2

    fea 1

    SpeakerDependent

    SpeakerIndependent

    그림 스펙트럼 편향 벡터를 이용한 화자 적응2.6 .

    Fig. 2.6 Speaker adaptation using spectrum-bias vector.

    편향 벡터는 관측 벡터와 화자 독립 클래스의 평균의 거리를 이용하여 계

    산된다 즉 적응된 모델의 평균은 식 과 같이 구한다. , (2.13) .

    ⋅ ≤ ≤ (2.13)

    식 에서(2.13) 는 적응된 모델의 새로운 평균 벡터이고, 는 화자 독립

    모델의 평균 벡터이다. 는 편향 벡터를 새로운 평균 벡터에 반영하는 정

    도를 나타내는 가중치이고, 는 편향 벡터로서 식 의 거리로 계산(2.14)

    된다.

    (2.14)

    식 에서(2.14) 는 주어진 클래스에 해당되는 데이터의 프레임 수이고,

  • 는 새로운 화자의 관측 벡터이다.

    는 매우 제한된 형태이지만 연속 밀도 에 변환 함수를 적Kenny HMM

    용하였다 가우시안 분포의 평균 벡터는 다음의 평행 이[50]. (Gaussian)

    동에 의해 갱신된다.

    (2.15)

    평행 이동 벡터 는 알고리즘을 통해 추정된다 따라Baum-Welch .

    서 의 보조함수, HMM 은 식 으로 정의된다(2.16) .

    (2.16)

    즉 위 식을 최대화하는, 를 구하면,

    ∊ (2.17)

    여기서, 는 상태천이 의 발생 빈도수이고, 은 음소에 해당하는 프

    래임의 수이다 즉. , ∊ 이다 의 결과에 의하면 평균. Kenny ,

    벡터의 평행 이동의 결과는 동일한 데이터를 이용한 평균 벡터의 재추정

    결과보다 나쁜 것으로 나타났다 이는 음소 레벨에서 평균 벡터의 평행.

    이동은 의 다른 상태에서 화자 사이의 변이를 나타내는데 불충분하HMM

    기 때문이다.

  • 는 화자간 변이를 음향학적 요인과 음소적 요인으로 간주하여Zaho

    에서 스펙트럼 변환 기법을 이용하였다 음향학적 요인은 물리HMM [13].

    적인 화자의 차이로서 음소 단위와 독립적으로 스펙트럼 변이의 원인이

    된다 음소적 요인은 화자의 개인적인 조음 의 차이에 의한 요인을. (tone)

    의미한다 이들 요인은 각각의 변환 함수에 의해 모델링된다 따라서 스. . ,

    펙트럼 변환은 다음과 같이 행해진다.

    (2.18)

    여기서 는 전역적인 음향학적 변환이고, 는 특정 음소에 대한 변환이

    다. 는 새로운 화자와 참조 화자의 평균 스펙트럼으로부터 추정된다.

    그리고 각각의 음소에 대한 변환은, 가 먼저 적용된 후에 각각의 음소

    의 스펙트럼으로부터 추정된다.

    모델 파라메타 재추정 기법2.2.3

    모델 파라메타 재추정에 기반한 방법은 화자 적응에서 최근에 가장 많

    이 연구되고 있는 접근 방법이다 모델 선택 기법과 입력 음성의 스펙트.

    럼 변환 기법의 제약 조건은 화자 독립 시스템의 성능 향상으로 인해 더

    욱 두드러지게 되었다.

    연속 밀도 을 위한 모델 파라메타 재추정에 기반한 다양한 방법들HMM

    은 모델 파라메타 재추정을 위해 를 이용하고 있다Bayesian MAP .

    이 먼저 연속 밀도 을 이용한 숫자음 인식기에 적응과정Brown[51] HMM

    으로 알고리즘을 제안하였고 와 은 그 이론을Bayesian , Lee Gauvain[9]

    더욱 발전시켰다 일반적으로 음성 모델 훈련 과정에서 사용되는 와. MLE

    학습 방법의 차이점은 파라메타들의 적당한 사전 분포가 유추Bayesian

  • 되어야 한다는데 있다. 는 확률 분포 함수 를 갖

    는 관측 벡터이고, 는 확률 분포를 정의하는 파라메타이다 주어진 적응.

    데이터 를 이용해 를 추정할 때, 가 고정되어 있고 감춰진 랜덤 변

    수라고 가정하면 에 대한 는 식 과 같은 우도 함수를 이용해MLE (2.19)

    얻을 수 있다.

    (2.19)

    만일, 를 사전 확률 분포 를 갖는 랜덤 벡터이므로 를 이용하MAP

    여 식 와 같이(2.20) 를 구할 수 있다.

    (2.20)

    이론을 적용하면Bayes , 는 다음과 같다.

    (2.21)

    즉 식 의 최적화 기준은 랜덤 벡터, (2.21) 에 대한 사전 확률 분포

    를 포함하고 있다 대부분의 경우에 식 을 만족하는 추. (2.20) MAP

    정, 는 최소의 위험 을 제공한다Bayes (risk) .

    이론에 의해 상태Bayes 와 모델 의 결합 확률 (joint probability)

    은 다음과 같다.

  • (2.22)

    여기서 는 파라메타 의 사전 확률 분포이다 위의 식에서. 와 를

    갱신하는 방법은 먼저 주어진 모델 ˆ를 이용해 반복적으로 입력 벡터

    의 최적의 상태열을 구하고 상태열, ˆ를 이용해 ˆ를 구한다.

    (2.23)ˆ ˆ ˆ

    (2.24)ˆ ˆ

    파라메타 에 대한 사전 확률 분포 는 위의 식 과 식(2.23) (2.24)

    에 동일하게 사용된다 추정은 일반적으로 관측 벡터. MAP 뿐만 아니

    라 사전 확률 분포 에 의존적이다 는 사전 확률 분포로서 켤레. Lee

    사전 분포 를 사용한다(conjugate prior distribution) .

    는 의 가우시안 분포의 평균과 분산을 추정을 이용하여Lee HMM MAP

    재추정하였다 의 평균. HMM 가 사전분포 를 가지고 분산, 은 고

    정되어 있다고 가정하면 평균, 에 대한 켤레 사전 분포는 평균 과 분산

    를 갖는 분포를 갖는다 따라서 평균Gaussian . , 에 대한 추정은MAP

    식 와 같다(2.25) .

    (2.25)

    여기서 은 의 상태에서 관측된 훈련 데이터의 수이고HMM , 는 관측된

  • 훈련 데이터의 샘플 평균이다 그림 에 의 동작을 나타내었다. 2.7 MAP .

    분산에 대한 적응은 평균 파라메타 가 고정되어 있고 분산 파라메타

    의 사전 분포 가 존재한다는 가정 하에 행해진다 입력 음성의.

    샘플 분산을 으로 정의하면 식 를 최대화하는(2.25) 의 추정은MAP

    다음과 같다.

    (2.26)

    1ν2ν

    1x 2x

    3x4x

    MAP,1µ̂MAP,2µ̂

    MAP,3µ̂MAP,4µ̂

    그림 서로 다른 양의 적응 데이터를 이용한 가우시안 평균 벡터의2.7

    추정의 예MAP .

    Fig 2.7 An example of MAP estimates of Gaussian mean vectors

    with different amount of adaptation data.

  • 적응의 가장 큰 문제점은 사전 확률 분포의 추정과 재추정 공식MAP ,

    은 각각의 적응 데이터가 관측된 모델 파라메타에만 적용된다는 것에 있

    다 즉 만일 의 혼합 성분이 적응 데이터에 관측되지 않는다면 혼. , HMM ,

    합 성분은 갱신되지 않는다.

    와 는 적응 데이터에 관측되지 않은 혼합 성분에 대Cox[52] Ahadi[53]

    한 예측을 이용하여 이런 문제점을 개선하였다 이러한 기술은 모음의 선.

    형 회귀의 관계에 대한 의 초기 연구로 비롯되었다 서로 다른 모음Cox .

    의 회귀 계수는 모든 훈련 화자로부터 구해지고 테스트 화자로부터 얻어,

    진 개의 모음을 이용하여 모든 모음들이 구해진 회귀 계수에 기초하여5

    갱신된다 분포들 사이의 선형 회귀 관계를 이용한 적응 기법은 적. MAP

    응 데이터에 관측되지 않은 분포들을 갱신할 수 있다 혼합 성분의 분포.

    사이 회귀 계수는 이미 훈련된 화자 종속 모델들로부터 추정된다 이 방.

    법은 으로 불린다 결과로RMP (Regression-based Model Prediction) .

    서 예측된 평균, 은 위에서 설명된 추정 방법을 이용하여 다음MAP

    과 같이 구해진다.

    (2.27)

    여기서, 와 은 회귀 예측 평균과 분산을 의미하고, 와

    추정 방법을 이용한 평균과 분산을 의미한다MAP .

    와 는 와 방법을 비교하였고 적응 데이Ahadi Woodland RMP MAP [53],

    터의 양을 증가시키며 인식성능을 비교한 결과 방법이 방법 보RMP MAP

    다 우수함을 보였다 또한 적응 데이터의 증가에 따라 두 방법 모두 충. ,

    분한 양의 데이터로 훈련된 화자 종속 시스템의 성능에 접근함을 보였다.

  • 결합된 적응 기법2.2.4

    최근의 화자 적응에는 스펙트럼 변환 기법과 모델 추정 기법이 결합된

    방법들이 연구되고 있다 는 적응 데이터가 할당되는 모델 파라. Leggetter

    메타 뿐만 아니라 모든 모델 파라메타를 적응시키기 위해 스펙트럼 변환

    방법과 추정 기법을 결합한MAP MLLR (Maximum Likelihood Linear

    적응 기법을 제안하였다 알고리즘에 대해서는 장에Regression) . MLLR 3

    서 자세히 설명한다.

    과 는 그림 과 같이 화자 적응과 화자Siohan Chesta 2.8 MLLR MAP

    적응을 결합한 을MAPLR (Maximum A Posteriori Linear Regression)

    제안하였다 화자 적응과 마찬가지로 의 평균[26,28,31-32]. MLLR , HMM

    파라메타 는 새로운 화자의 적응 데이터를 이용해 다음과 같이 적응된

    다.

    (2.28)

    여기서, 는 적응 변환 행렬이고, 는 편중 벡터이다 변환 행렬과 편중.

    벡터를 로 정의하여 단순화하고, 를 와 같이 정의

    하면 위의 식은 다음과 같다.

    (2.29)

  • Mixture Component of SI HMM

    MAPLR transformation

    MAP estimation

    Adapted mixture components

    그림 화자 적응의 예2.8 MAPLR .

    Fig. 2.8 An example of MAPLR speaker adaptation.

    과 는 변환 행렬Siohan Chesta 를 구하기 위해 를 이용하였다 즉MAP . ,

    사전 확률 과 사후 확률 의 보조 함수 를 다음

    과 같이 정의한다.

    (2.30)

    (2.31)

  • 여기서, 는 화자 독립 모델을 나타내고, 는 상태열을 나타내고,

    는 혼합 성분을 나타낸다 보조 함수. 를 최대화하는

    를 구하고 이를 이용하여 적응 데이터에 관측되지 않은 의 평균 파, HMM

    라메타를 변환한다.

    과 는 그림 과 같이 화자 적응을 이용하여Siohan Cristina 2.8 MAPLR

    적응 데이터에 관측됨과 관계없이 화자 독립 모델을 변환한 후 다시,

    화자 적응을 이용하여 차로 적응 데이터에 의해 관측되는 모델 파MAP 2

    라메타만을 변환함으로써 적응 속도를 향상시켰다.

    와 는 파라메타 공간에서 계층 구조를 형성하고 계층 구조의Shinoda Lee

    각 레벨에서 변환 파라메타를 추정하는 SMAP (Structural Maximum A

    를 제안하였다 입력 음성을 정규화하면 다음과 같다Posteriori) [33-35]. .

    (2.32)

    여기서, 은 평균 벡터이고, 은 공분산 행렬이다.

    이를 이용하여 훈련 데이터와 적응 데이터 사이의 음향학적 특징의 차이

    를 나타내는 부정합 분포 를 정의한다 정규화 전의 확률 밀도.

    함수와 부정합 분포의 확률 밀도 함수의 관계는 다음과 같다.

    (2.33)

    여기서, 는 정규화 과정에 대한 행렬이다 위의 관계를Jacobian .

  • 이용하여 의 보조함수를 재정의하고 에 의해 파라메타를 추정하HMM , ML

    면 다음과 같다.

    (2.41)

    (2.42)

    위의 재추정된 부정합 확률 밀도 함수의 파라메타를 이용하여 파HMM

    라메타를 재추정하면 다음과 같다.

    (2.43)

    (2.44)

    파라메타를 재추정한 후 계층 구조의 각 노드에서 알고리즘HMM , MAP

    을 이용하여 추정한다 이때 각 노드의 사전 확률 분포 함수는 부모 노. ,

    드의 확률 분포 함수가 사용된다.

    은 미리 훈련된 참조 화자들의 고유 공간에서 화자 적R. Kuhn[54-57]

    응을 행하는 를 제MLED (Maximum Likelihood Eigen-Decomposition)

    안하였고 과 는 의 알고리즘을, P. Nguyen[58] R. Westwood[59] Kuhn

    발전시켰다. 개의 화자 종속 모델을 훈련시키고 각 화자 종속 모델의

    가우시안 평균 벡터들을 연결하여 슈퍼벡터 를 형성한다(super-vector) .

  • 이 슈퍼벡터로 이루어진 행렬을 이용하여 개의 고유값 벡터 와 고유

    벡터 행렬 를 구한다 과 는 고유값 벡터. Kuhn Junqua 를 고유 음성

    으로 정의했다 새로운 화자의 적응 데이터를 이용하여(eigen-voice) .

    개의 고유 음성 가중치를 추정하고 고유 음성의 가중치 합으로 새로운,

    화자의 슈퍼벡터를 구한 후 새로운 화자의 적응 모델을 추정한다, . MLED

    는 잘 훈련된 개의 화자 종속 모델이 필요하고 화자 적응 시 요구되는

    연산량이 매우 많다는 단점이 있다 가중치 분포 특성을 이용한. MLED

    방법이 연구되었고 동적 화자 선택 및 결합 방법을 변화시킨[60,61],

    방법이 연구되었다MLED [62].

    는 에 의한 화자 적응 파라메타 추정에 혼합Zabaliagkos[10-11] MAP

    성분의 묶음 을 이용한(tying) EMAP (Extended Maximum A

    화자 적응을 제안하였다 이는 묶음을 통해 서로 다른 모델의Posteriori) .

    혼합 성분들은 동일한 적응 파라메타를 공유하고 모델들 사이의 상호관,

    계를 고려하여 재추정 과정을 행한다 은MAP . D.K. Kim[63] PPCA

    를 이용하여 방법(Probabilistic Principal Component Analysis) EMAP

    을 개선하였다 또한 독립성분 분석법을 이용하여 음성의 특징을 추출하. ,

    고 이를 이용하여 훈련과 적응 및 인식을 수행한 방법 이 연구되었다[78] .

  • 제 장 화자 적응3 MLLR

    화자 적응의 목적은 이미 훈련된 모델의 성능을 향상시키기 위해 새로

    운 화자에 의해 제공되는 적응 데이터를 이용하는데 있다 이때 제공되. ,

    는 적응 데이터의 양은 적은 것으로 가정된다 따라서 화자 독립 모델의. ,

    파라메타를 모두 개별적으로 적응시키는 것은 불가능하다 대부분HMM .

    의 모델은 적응 데이터를 가지지 못하고 혹은 적응 데이터가 할당되는,

    모델 파라메타도 충분하지 않은 데이터를 가진다 이러한 경우 개개의 파.

    라메타 적응은 화자 독립 모델의 성능을 저하 시킬 수 있다.

    화자 적응은 초기의 화자 독립 모델이 연속 밀도 임을 가MLLR HMM

    정한다 화자 적응은 적응 데이터의 유사도를 최대화함으로써 연. MLLR

    속 밀도 파라메타의 혼합 성분에 대한 선형 변환 함수를 추정한다HMM .

    다수의 혼합 성분이 동일한 변환 함수를 공유함으로써 적은 적응 데이터

    로 음성 인식 시스템의 모든 혼합 성분을 적응시키는 것이 가능하다 본.

    논문에서는 혼합 성분의 평균을 새로운 화자의 모델링을 향상시키HMM

    기 위해 적응시킨다 따라서 천이 확률 혼합 성분 가중치 혼합 성분의. , , ,

    공분산 등의 적응은 수행되지 않고 이러한 파라메타는 화자 독립 모델의,

    값을 변경하지 않고 이용한다.

  • 3.1. HMM

    은 정적 프로세스 로서 일련의 특징 벡터를HMM (stationary process)

    모델링한다 발성. , 는 상태 사이의 천이과정을 포함

    하는 일련의 정적 상태, 로 모델링된다 간단.

    한 의 예를 그림 에 나타내었다 이는 두개의 확률적 과정을 포함HMM 3.1 .

    하고 있다 첫째는 음성의 시간적 구조를 나타내는 상태의 연속이. HMM

    고 둘째는 음성 신호의 정적 특징을 모델링하는 상태 출력 과정이다,

    [3,4].

    )|( 11 qqp )|( 22 qqp )|( 33 qqp

    )|( 12 qqp )|( 23 qqp

    1q 2q 3q

    )|( 1qop n )|( 2qop n )|( 3qop n

    no no no

    그림 상태 의 예3.1 3 HMM .

    Fig. 3.1 The example of a three state HMM.

  • 의 모델의 수를 줄이고 새로운 단어가 추가될 때마다 새로이 훈련HMM ,

    시키는 것을 피하기 위해 단어는 연결된 하위단어 단위로 구(sub-word)

    성된다 가장 일반적으로 사용되는 단위는 음소 단위이다 하나 또는 그. .

    이상의 상태가 음소에 해당하는 음성의 일부분을 모델링하는데 이HMM

    용된다 단어 모델은 음소 모델의 연결로 구성되고 문장은 어법에 따라. ,

    단어 모델의 연결로 이루어진다 이러한 을 훈련시키고 유사도를 최. HMM

    대화하기 위한 이론과 방법론들이 제안되었다 이론은 법칙. HMM Bayes

    에 근간을 두고 있다 즉. ,

    (3.1)

    여기서, 는 음향학적 벡터 가 주어진 마르코프 모델 의 사후

    확률이다 직접적으로. 를 구할 수 없으므로 음향학적 모델의 분포,

    를 나타내는 유사도인 와 언어 모델의 분포를 나타내는 사전 확

    률 로 분리한다 일반적으로. 와 는 분리되어 독립적으

    로 훈련된다. 는 모델 파라메타와 독립적이라고 가정하고 식, (3.1)

    은 를 이용하여 음향학적 모델MLE (Maximum Likelihood Estimation)

    을 훈련한다 음향학적 유사도는 모델. 에서 가능한 모든 상태의 경로로

    확장하여 계산된다 즉. ,

    ∀ (3.2)

    이 유사도는 다음과 같이 근사화 될 수 있다.

  • (3.3)

    연속 확률 밀도 은 다음의 파라메타들로 정의 된다HMM .

    에 속한 상태의 수: HMM

    : ×크기의 천이 행렬. 는 상태 에서 상태 로 천이하는 확

    률을 나타낸다.

    상태:  와 관계되는 관측 벡터의 분포 혹은 상태 의 출력 분포

    .

    한 상태의 출력 분포는 몇 개의 성분의 분포의 결합으로 만들어진다.

    즉 각 성분들은 각각의 가중값을 가지고 이 가중 값을 이용해 각 성분, ,

    들은 가중 결합으로 상태의 출력 분포를 형성한다 각 상태의 출력 분포.

    는 다음의 요소들로 형성된다.

    상태: 가 가지는 성분의 개수

    상태: 의 번째 성분의 가중값

    상태: 의 번째 성분의 평균 벡터

    상태: 의 번째 성분의 공분산 행렬

    여기서, 이다 위의 요소들을 이용하여 한 상태의 출력 분포.

    를 정의하면 다음과 같다.

  • (3.4)

    식 에서(3.4) 는

    이고,

    은 음성의 특징 벡터의 차수이다.

  • 평균 벡터의 적응3.2

    화자 적응은 파라메타를 새로운 화자의 모델로 바꾸는 회MLLR HMM

    귀에 기반한 변환을 이용한다 많은 수의 파라메타는 동일한 변환. HMM

    함수와 적응 데이터를 공유하므로 적은 데이터에 대해 변환 함수의 추정

    이 가능하다 알고리즘의 목적은 원래의 화자 독립 시스템을 새로. MLLR

    운 화자의 종속 시스템으로 바꾸기 위해 각 혼합 성분의 평균 벡터에 대

    한 적당한 변환 함수를 추정하는데 있다 가우시안 분포의 평균 벡터는.

    함수를 최적화하는 선형 변환ML ( × 행렬 를 이용하여 적응)

    된다 그림 에 평균 벡터의 변환에 의한 영향을 음향학적 공간에 나타. 3.2

    내었다.

    Mix3

    Mix 1

    Mix2

    fea 1

    fea 2

    Regression class 1

    Regression class 2

    그림 적응 변환 행렬3.2 에 의한 평균 벡터의 변환.

    Fig. 3.2 Transformation of the mean vectors by transformation

    matrix .

  • 가 각 혼합 성분HMM 의 평균 벡터라고 하면 확장된 평균, 는 다

    음과 같이 정의한다.

    (3.5)

    여기서, 는 회귀에 대한 오프셋 항목이다 일반적으로. 는 이다 각1 .

    혼합 성분HMM 의 변환 함수 에 의해 변환된 평균 벡터 는 다음

    과 같이 정의한다.

    (3.6)

    그리고 화자 적응 시스템에서 혼합 성분의 가우시안 분포에 대한 확률,

    밀도 함수는 다음과 같다.

    (3.7)

    추정에 의한ML 행렬은 적응 데이터와 화자 독립 모델의 유사도를 최

    대화함으로써 얻어진다 적응 데이터에 의해 구해지는 변환 행렬. 의

    수는 적응 데이터의 양에 의해 결정된다 적은 양의 적응 데이터에 대해.

  • 서는 적은 수의 변환 행렬 를 사용한다 즉 다수의 파라메타가. , HMM

    동일한 를 공유한다.

  • 변환 행렬3.3 추정

    알고리즘은 적응 데이터를 이용하여 적응된 모델의 유사도를 최MLLR

    대화하는 회귀 변환 행렬 를 추정한다 각 의 상태는 단일 가우. HMM

    시안 분포를 갖는다고 가정하면 추정을 유도하는 과정은 다음과MLLR

    같다.

    보조 함수의 정의3.3.1

    적응 데이터가 확률 과정 에 의해 생성되는 개의 관측 벡터를 포함

    한다고 가정한다 즉. ,

    (3.8)

    이다. 는 화자 독립 모델의 파라메타이고, 는 재추정된 모델 파라메타

    라고 정의한다 관측 확률 과정. 에 할당되는 의 상태열은 다음과HMM

    같이 정의한다.

    (3.9)

    일반적으로 음성 인식에서는 왼쪽에서 오른쪽으로 진행하는 마르코프 상,

    태열을 사용하므로 이다 관측 확률 과정. 와 상태열 에 의한 유

    사도는 다음과 같이 정의된다.

    (3.10)

  • 만일 길이, 를 갖는 모든 가능한 상태열을 라고 정의하면 관측 확률,

    과정에 의한 모델의 전체 유사도는 다음과 같다.

    (3.11)

    모델 파라메타를 재추정하기 위해 이용되는 보조 함수는 다음과HMM

    같이 정의된다.

    (3.12)

    보조 함수를 최대화하는 모델 파라메타의 선택은 모델 전체 유사도

    를 향상시킨다 따라서 향상된 모델 파라메타를 사용한 새로운. ,

    보조 함수를 정의하는 것은 반복적 재추정을 통해 의 최대값에

    접근한다.

    보조 함수의 최대화3.3.2

    보조 함수에서  ⋅부분을 다시 나타내면,

    (3.13)

    따라서 보조 함수, 는 서로 다른 파라메타에 기반해 두 가지 항

  • 목으로 분리될 수 있다.

    (3.14)

    (3.15)

    (3.16)

    적응 변환 함수 는 에 의해서만 영향을 받으므로 보조 함수

    는 다음과 같이 단순화 할 수 있다.

    (3.17)

    관측 확률 과정 가 시간 에서 상태 를 점유하는 사후 확률을 로

    정의하면,

    ∊ (3.18)

    이를 이용해 식 의 보조 함수를 수정하면(3.17) ,

  • (3.19)

    여기서, 는 에 포함되는 모든 상태의 수이고HMM , 는 상수이다.

    를 확장하면,

    (3.20)

    이다 이를 이용하여 식 의 보조 함수를 정리하면. (3.19) ,

    (3.21)

    이다. 에 대해 보조 함수 를 최대화하기 위해 에 대해 보조

    함수 의 미분이 요구되고 미분 방정식은 이 되어야 한다, 0 .

    (3.22)

  • (3.23)

    위의 식을 정리하면,

    (3.24)

    이 된다 위의 식은. 를 최적화하는 일반적인 형태이다 식 에서. (3.24)

    를 구하는 방법은 의 방법 을 이용하였다Leggetter [6] .

    회귀 파라메타 개수의 감소3.3.3

    × 크기의 적응 변환 행렬 는 가지 방법으로 혼합 성분의2

    평균 벡터를 변화시킨다 적응 변환 행렬. 의 첫 번째 열벡터는 오프셋

    을 제공하고 나머지, × 부분은 현재 파라메타의 평균값의 스케HMM

    일 을 제공한다 즉(scale) . ,

    (3.25)

    적은 적응 데이터에 대해 화자 적응 시스템의 성능을 향상시키기 위해

    추정되는 적응 변환 행렬 의 파라메타의 수를 감소시킨다 적은 양의.

  • 적응 데이터에 대해 화자 적응의 정확도를 높이고 화자 적응의 연산량을,

    줄이기 위해 추정해야 할 파라메타의 수를 감소시킬 수 있는 세 가지 접

    근 방법이 있다 첫째는 오프셋 항목을 제외한 적응 변환 행렬.

    ( 를 이용하는 방법이 있고 둘째는 대각 형태의 스케일 부분을 갖) ,

    는 적응 변환 행렬 를 이용하는 방법이 있다 마지막으로 블록 대각 형.

    태의 적응 변환 행렬 를 이용하는 방법이 있다.

    오프셋 항목을 삭제한 경우3.3.3.1

    적응 변환 행렬의 오프셋 열벡터는 적응 전의 평균 벡터에서 적응 후의

    새로운 평균 벡터로 단순한 평행 이동을 제공한다 확장된 평균 벡터에서.

    오프셋 항목을 으로 함으로써 오프셋의 영향은 무시될 수 있다0 .

    (3.26)

    의 크기가 ×으로 바뀐 것을 제외하고 동일한 방정식이 적용된다.

    따라서 한 열에 해당하는 연산이 감소된다 만일 외부 환경의 변화나 적, .

    응 데이터의 음운 환경의 변화가 적은 경우 오프셋의 영향은 매우 적다, .

    이를 이용한 화자 적응의 의사코드는 표 과 같다MLLR 3.1 .

  • 표 오프셋 항목을 제외한 알고리즘의 의사코드3.1 MLLR .

    Table 3.1 Pseudo-code of MLLR algorithm without offset term.

    for all regression classes

    for all mixture components,

    for all observation sequence,

    for all frames,

    Calculate the state occupancy probability,

    end

    end

    Calculate

    and

    end

    for all feature,

    Calculate

    and its inversion

    end

    Calculate

    Calculate

    for all mixture components

    Adapt the means of the mixture components

    end

    end

  • 대각 형태의 행렬 이용3.3.3.2

    적응 변환 행렬의 스케일 부분이 대각 형태를 가진다면 연산량은 급격,

    히 감소한다 이는 특징 벡터의 각 성분들이 서로 독립이라는 가정이 요.

    구된다 스케일 부분이 대각 행렬 형태를 갖는 적응 변환 행렬은 벡터.

    형태로 나타낼 수 있다.

    ⋮ ⋮

    ⋮⋮

    (3.27)

    대각 형태의 적응 변환 행렬을 갖는 보조 함수 의 차 항목2

    만을 고려하면,

    (3.28)

    이다 여기서. , 는 식 과 같이 확장된 평균 벡터(3.29) 의 각 성분을

    × 크기로 형성한 행렬이다.

    ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋮ ⋮ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯

    (3.29)

  • 식 를(3.27) 에 대해 미분하면,

    (3.30)

    이다 위의 식 을 식 에 대입하면. (3.30) (3.23) ,

    (3.31)

    이다 식 을. (3.31) 에 대해 해를 구하기 위해 × 크기의 행렬 와

    × 크기의 행렬 를 정의하면 다음과 같다.

    (3.32)

    (3.33)

    따라서 적응 변환 행렬, 는 다음과 같이 구해진다.

    (3.34)

    (3.35)

    에서 오프셋 부분은 항이므로 한번의 역행렬 연산이 요구되고 오,

    프셋을 삭제하여 사용할 경우 모든 행렬은 대각 행렬로 감소되므로 적응,

  • 변환 행렬 를 추정하는데 요구되는 연산량은 매우 적다 대각 행렬 형.

    태의 적응 변환 행렬을 갖는 화자 적응의 의사코드는 표 와 같MLLR 3.2

    다.

    표 대각 변환 행렬을 이용한 알고리즘의 의사코드3.2 MLLR .

    Table 3.2 Pseudo-code of MLLR algorithm using a diagonal

    transformation matrix.

    for all regression classes

    for all mixture components,

    for all observation sequences,

    Calculate the state occupancy probability,

    end

    end

    Calculate and its inversion

    Calculate

    Calculate

    for all mixture components

    Adapt the means of the mixture components

    end

    end

  • 블록 대각 행렬의 이용3.3.3.3

    대각 행렬 형태의 적응 변환 행렬은 연산량이 매우 적은 반면 파라메,

    타 수의 과도한 감소와 특징 벡터의 각 성분들은 서로 독립이라는 가정은

    화자 적응의 정확도에 좋지 않은 영향을 미친다 따라서 특징 벡터를 서. ,

    로 독립인 몇 개의 블록으로 나누어 적응 변환 행렬을 구한다 예를 들.

    면 음성의 특징 벡터가 델타, ( 와 델타 델타) - ( 를 포함하는 경우 적응) ,

    변환 행렬은 다음과 같이 개의 블록 대각 행렬을 사용한다3 .

    (3.36)

    이때 각 블록의 적응 변환 행렬은 독립적으로 추정될 수 있다 적응 변환.

    행렬로서 블록 대각 행렬의 사용은 연산량 감소뿐만 아니라 추정해야 하,

    는 파라메타의 수를 감소함으로써 적은 양의 적응 데이터에 대해 빠른 화

    자 적응을 구현할 수 있다 블록 대각 행렬 형태의 적응 변환 행렬을 추.

    정하는 방법은 이론적으로 대각 행렬 형태의 적응 변환 행렬을 추정하는

    방법과 유사하지만 구현에 있어서는 각 블록에 대해 적응 변환 행렬을 구

    해야하므로 매우 복잡하다 블록 대각 행렬 형태의 적응 변환 행렬을 갖.

    는 화자 적응의 의사코드는 표 과 같다MLLR 3.3 .

  • 표 블록 대각 변환 행렬을 이용한 알고리즘의 의사코드3.3 MLLR .

    Table 3.3 Pseudo-code of MLLR algorithm using a block diagonal

    transformation matrix.

    for all regression classes

    for all mixture components,

    for all observation sequences,

    for all frames,

    Calculate the state occupancy probability,

    end

    end

    for all blocks,

    Calculate

    and

    end

    end

    for all feature,

    for all blocks,

    Calculate

    and its inversion

    end

    end

    for all blocks, b

    Calculate

  • 회귀 클래스3.3.4

    한 회귀클래스에 포함되는 모든 혼합 성분들은 동일한 적응 변환 행렬

    를 공유한다 이러한 회귀 클래스는 적응 변환 행렬을 추정하기 전에.

    미리 결정되고 적응 변환 행렬의 수는 적응 데이터의 양과 관계없이 고정

    된다 이를 고정 회귀 클래스라 칭한다 다른 방법으로 회귀 클래스 나무. . ,

    를 이용하여 제공되는 적응 데이터의 양에 따라 동적으로 회귀 클래스가

    결정할 수 있다.

    개의 기저 클래스를 갖는 진 회귀 클래스 나무를 그림 에 나타내4 2 3.3

    었다 회귀 클래스 나무는 계층 구조의 회귀 클래스. 와 기저

    클래스 을 가지고 있다 이들 기저 클래스는 또한 회귀클래스.

    가 될 수 있다 회귀 클래스 나무를 형성할 때 회귀 클래스에 기저 클래.

    스를 적당히 할당할 수 있는 기준이 필요하다 현재 회귀 클래스 나무는.

    다음의 두 가지 방법