Upload
others
View
1
Download
0
Embed Size (px)
Citation preview
音声言語処理:基礎から音声翻訳まで
奈良先端科学技術大学院大学
データ駆動型サイエンス創造センター長
先端科学技術研究科 教授
中村 哲
2019年3月3日 情報処理学会 NL研 Copyright@2019 中村 哲@NAIST AHC-Lab. 1
内容
1. 音声認識の仕組みと最近の進歩
2. 音声翻訳システム
3. 同時通訳にむけた研究
4. 課題と今後の展開とまとめ
2019年3月3日 情報処理学会 NL研 Copyright@2019 中村 哲@NAIST AHC-Lab. 2
音声認識の概要 難しさ
音声認識技術
特徴抽出:Feature Extraction
音響モデル:Acoustic Modeling
言語モデル:Language Modeling
辞書:Lexicon Dictionary
認識:Decoding Search 音声認識システムの構築:Development of ASR System
現在の音声認識の性能:Current Performance of ASR System
OUTLINE
2019/6/30 ©Prof. Satoshi Nakamura, NARA INSTITTE OF SCIENCE AND TECHNOLOGY 3
音声認識のイメージ:Communication between human and machine
What is ASR?
Recognized words
“GOOD AFTERNOON”
Multi-speaker
Multi-lingual
Multi-environment
Natural dialog
ゴール:Ultimate Goal:正確に音響信号 Xを単語列 Wに書き起こす。
2019/6/30 ©Prof. Satoshi Nakamura, NARA INSTITTE OF SCIENCE AND TECHNOLOGY 4
音声認識の課題
Challenges to Recognize a Speech
2019/6/30 ©Prof. Satoshi Nakamura, NARA INSTITTE OF SCIENCE AND TECHNOLOGY 5
異なる音素:Different Phonemes
異なる音素は異なる音響特徴を持つ:Different phonemes have different spectral characteristic
言語的な要因
Frequency f
2019/6/30 ©Prof. Satoshi Nakamura, NARA INSTITTE OF SCIENCE AND TECHNOLOGY 6
調音結合:Co-articulation
同じ音素でも周りの音素で音響的に変化する
単語内、単語間で影響を受ける。
コンテキストの影響:Contextual Variability
Vowels
/s/ /a/ /S/
Consonants
/a/Frequency f
2019/6/30 ©Prof. Satoshi Nakamura, NARA INSTITTE OF SCIENCE AND TECHNOLOGY 7
異なる話者は異なる音響特徴
個人性: 話し方、速度、イントネーション
アクセントの違い: 地域性、母語
声質の差: 男性、女性、子供、高齢者
話者の要因
2019/6/30 ©Prof. Satoshi Nakamura, NARA INSTITTE OF SCIENCE AND TECHNOLOGY 8
異なる環境による差
背景雑音: cars, trains, fans
残響: echo
マイク/伝送路: close microphone, telephone
環境の要因
2019/6/30 ©Prof. Satoshi Nakamura, NARA INSTITTE OF SCIENCE AND TECHNOLOGY 9
統計的音声認識の現状
State-of-the-art Statistical ASR
2019/6/30 ©Prof. Satoshi Nakamura, NARA INSTITTE OF SCIENCE AND TECHNOLOGY 10
統計的音声認識の構造
X1X2X3X4… …XT-1XT
/m/ /a/ /i/ /s/ /p/ /ee/ /t/ /sh/
/my speech/
“MY SPEECH”
/my/ /speech/
Speech
signals
単語:Words
音素Phonemes
フレーム:Frames
Most probable sequence of words
文:Sentences
音響モデルAcoustic
model
音素辞書Pronunciation
lexicon
言語モデル:Language
model
HMM
state
HMM
2019/6/30 ©Prof. Satoshi Nakamura, NARA INSTITTE OF SCIENCE AND TECHNOLOGY 11
Phone-Level Matcher
Word-Level
Matcher
Sentence-
Level MatcherAcoustic Model
P(Xs|)LexiconP( | W)
LanguageModel P(W)
Feature Extraction
SearchAlgorithm
Xs ŴRecognized
Words
Hypothesis
Text Corpus
SpeechCorpus
TrainTrain
Statistical Learning
Speech Waveform
音声認識システム
単語列の最尤復号:The most probable string of words:
)|()|()(maxarg
)|()(maxarg)|(maxarg
sw
sw
sw
XPWPWP
WXPWPXWPW
o 5つの要素 特徴抽出:Feature extraction
音響モデル:Acoustic model
発音辞書:Pronunciation lexicon
言語モデル:Language model
探索:Search algorithm
2019/6/30 ©Prof. Satoshi Nakamura, NARA INSTITTE OF SCIENCE AND TECHNOLOGY 12
特徴抽出
Feature Extraction
2019/6/30 ©Prof. Satoshi Nakamura, NARA INSTITTE OF SCIENCE AND TECHNOLOGY 13
特徴抽出
Analysis Unit / FrameFrame Transition
特徴抽出の例MFCC : メルケプストラム
x1 x2 x3
特徴ベクトル:Feature Vector
Feature Space
c1 X1X2
X3X4
X16
X5
X6X7
X13
X10
X12
X9
X11 X15
X17
X14
X18
X19
c2
2019/6/30 ©Prof. Satoshi Nakamura, NARA INSTITTE OF SCIENCE AND TECHNOLOGY 14
音響モデル
Acoustic Model
2019/6/30 ©Prof. Satoshi Nakamura, NARA INSTITTE OF SCIENCE AND TECHNOLOGY 15
統計的音声認識の構成
X1X2X3X4… …XT-1XT
/m/ /a/ /i/ /s/ /p/ /ee/ /t/ /sh/
2019/6/30 ©Prof. Satoshi Nakamura, NARA INSTITTE OF SCIENCE AND TECHNOLOGY 16
Speech
signals
単語:Words
音素Phonemes
フレーム:Frames
Most probable sequence of words
文:Sentences
音響モデルAcoustic
model
音素辞書Pronunciation
lexicon
言語モデル:Language
model
HMM
state
HMM
音響モデル
Feature Space
c1 X1X2
X3X4
X16
X5
X6X7
X13
X10
X12
X9
X11 X15
X17
X14
X18
X19
c2
Gaussian Mixture
Model (GMM)
Mixture coefficients ”bjk”
(B-matrix)
321 HMM (N=3)
1フレームの音声信号 (every 10 ms)は特徴ベクトル:feature vector、 Xt で表現される。この時、10 msec毎にHMMの状態を遷移する
2019/6/30 ©Prof. Satoshi Nakamura, NARA INSTITTE OF SCIENCE AND TECHNOLOGY 17
HMMとは
Left-to-Right (Bakis Model)
2019/6/30 ©Prof. Satoshi Nakamura, NARA INSTITTE OF SCIENCE AND TECHNOLOGY 18
離散HMMと連続HMMDiscrete vs Continuous HMM
2019/6/30 ©Prof. Satoshi Nakamura, NARA INSTITTE OF SCIENCE AND TECHNOLOGY 19
HMMの構成要素
HMMの要素
状態系列:State sequence of time length T
観測系列:The observed output sequence of time length T
遷移確率:Transition probabilities from state i to state j
シンボル出力確率:Observation symbol probability distribution in state j
初期確率:Initial state distribution
HMM
2019/6/30 ©Prof. Satoshi Nakamura, NARA INSTITTE OF SCIENCE AND TECHNOLOGY 20
HMM 復号
HMMの最適状態系列を求める
Given:
最適状態系列Qを求める
2019/6/30 ©Prof. Satoshi Nakamura, NARA INSTITTE OF SCIENCE AND TECHNOLOGY 21
音響モデルとしてのHMM
HMMはどんな音声の特徴にも関連づけられる 単語、音節、音素:words, syllables or phonemes
より、長い系列:the wider unit model, the better capturing linguistic and contextual
variability
大語彙音声認識のためには単語より小さな単位が適切
音素モデルなら 50のHMM
で足りる
2019/6/30 ©Prof. Satoshi Nakamura, NARA INSTITTE OF SCIENCE AND TECHNOLOGY 22
コンテキスト依存トライフォンContext-Dependent Triphone
モノフォンHMMだとコンテキストが表現できない 調音結合をコンテキストとして考慮するモデルにする
2019/6/30 ©Prof. Satoshi Nakamura, NARA INSTITTE OF SCIENCE AND TECHNOLOGY 23
発音辞書
Pronunciation Lexicon
2019/6/30 ©Prof. Satoshi Nakamura, NARA INSTITTE OF SCIENCE AND TECHNOLOGY 24
Structure of Statistical ASR
X1X2X3X4… …XT-1XT
/m/ /a/ /i/ /s/ /p/ /ee/ /t/ /sh/
/my/ /speech/
2019/6/30 ©Prof. Satoshi Nakamura, NARA INSTITTE OF SCIENCE AND TECHNOLOGY 25
Speech
signals
単語:Words
音素Phonemes
フレーム:Frames
Most probable sequence of words
文:Sentences
音響モデルAcoustic
model
音素辞書Pronunciation
lexicon
言語モデル:Language
model
HMM
state
HMM
発音辞書
発音辞書:Pronunciation Lexicon 辞書中の単語に発音を付与
マージした形にして、探索を高速化
2019/6/30 ©Prof. Satoshi Nakamura, NARA INSTITTE OF SCIENCE AND TECHNOLOGY 26
言語モデル
Language Model
2019/6/30 ©Prof. Satoshi Nakamura, NARA INSTITTE OF SCIENCE AND TECHNOLOGY 27
Structure of Statistical ASR
X1X2X3X4… …XT-1XT
/m/ /a/ /i/ /s/ /p/ /ee/ /t/ /sh/
/my speech/
“MY SPEECH”
/my/ /speech/
2019/6/30 ©Prof. Satoshi Nakamura, NARA INSTITTE OF SCIENCE AND TECHNOLOGY 28
Speech
signals
単語:Words
音素Phonemes
フレーム:Frames
Most probable sequence of words
文:Sentences
音響モデルAcoustic
model
音素辞書Pronunciation
lexicon
言語モデル:Language
model
HMM
state
HMM
言語モデル:Language Model
言語モデル:Language Model 単語系列の確率:Provide a priori probability of hypothesized word sequences
有限状態オートマトン:Finite State Automata (FSA):
1
1
0 8
9
Good
Morning
Afternoon
Evening
単純なタスクだと動くが、大語彙音声認識だと無理
2019/6/30 ©Prof. Satoshi Nakamura, NARA INSTITTE OF SCIENCE AND TECHNOLOGY 29
Word1 Word0 Prob
Boy Bad 0.75Boy Pad 0.02
N-gram 言語モデルの例
バイグラムLM:Bigram LM:
N-gram 言語モデル
2019/6/30 ©Prof. Satoshi Nakamura, NARA INSTITTE OF SCIENCE AND TECHNOLOGY 30
探索アルゴリズム
Decoding Search Algorithm
2019/6/30 ©Prof. Satoshi Nakamura, NARA INSTITTE OF SCIENCE AND TECHNOLOGY 31
最終ゴール:
特徴系列Xsが与えられたとき、最も確率の高い単語列W 探索する問題。事後確率最大化法とも呼ばれる(MAP)。
音声認識における候補列探索
ベイズ則:
2019/6/30 ©Prof. Satoshi Nakamura, NARA INSTITTE OF SCIENCE AND TECHNOLOGY 32
最近の音声認識の進歩
o これまでの経緯o テンプレートマッチング、動的計画法 [Sakoe 71]
o 隠れマルコフモデル、N-Gramモデル [Mercer 83, etc]
o ニューラルネットワーク、TDNN[Waibel 89], LSTM [Hochreiter 97]
o Weighted Finite State Transducer [Mohri 2006]
o 大量のデータの収集、試行サービスによるデータ収集
o 深層学習による最近の進化o DNN-HMM [Hinton 2012]
o DNN により状態の事後確率を直接推定する
o Connectionist Temporal Classification [Graves 2013]
o フレーム毎に音素ラベルを出力する
o Listen, Attend, and Spell [Chan 2016]
o CTCにAttentionメカニズムを加え高精度化
2019年3月3日 情報処理学会 NL研 Copyright@2019 中村 哲@NAIST AHC-Lab. 33
DNNによるハイブリッドHMM/DNN
34Sakriani Sakti @ AHC Labs, NAIST, Japan |音声言語処理| November 14th, 2018
状態確率をDNNでフレームごとに推定
Sequence-to-Sequence (Seq2Seq)
35
Sakriani Sakti @ AHC Labs, NAIST, Japan |音声言語処理| November 14th, 2018
[Source: karpathy.github.io]
End-to-End ASR: 波形から文字出力 CTC
36Sakriani Sakti @ AHC Labs, NAIST, Japan |音声言語処理| November 14th, 2018
Listen, Attend, and Spell (LAS)
37Sakriani Sakti @ AHC Labs, NAIST, Japan |音声言語処理| November 14th, 2018
o LAS 2つのコンポーネント (Two components)
リスナー (Listener):
フィルタバンクスペクトルを入力として受け
入れるピラミッド型RNNエンコーダ
RNN encoder that accepts filter bank spectra as inputsスペルラー (Speller):
出力として文字を出力するRNNデコーダ
RNN decoder that emits characters as outputs
[Chan et. al 2016]
最近の音声合成の進歩
o フォルマント合成、素片合成
o 確率モデルベース音声合成:HTSo HMMフレームワークによる音声合成o Tokuda, et al., “Speech parameter generation algorithms for HMM-based speech synthesis”, ICASSP
2000
o WaveNeto 時系列信号に対し、畳み込みを行うNNにより波形生成o van den Oord et al., “WAVENET: A GENERATIVE MODEL FOR RAW AUDIO”,
arXiv:1609.03499v2 [cs.SD] 19 Sep 2016
o Tacotrono 文字入力でスペクトログラムを生成、その後、Griffin-Lim法で波形生成o Wang, et al., “TACOTRON: TOWARDS END-TO-END SPEECH SYNTHESIS”,
arXiv:1703.10135v2 [cs.CL] 6 Apr 2017
2019年3月3日 情報処理学会 NL研 Copyright@2019 中村 哲@NAIST AHC-Lab. 38
①Human vs Machine Speech Chain
2019年3月3日 情報処理学会 NL研 Copyright@2019 中村 哲@NAIST AHC-Lab. 39
①Machine speech chain の構成
2019年3月3日 情報処理学会 NL研 Copyright@2019 中村 哲@NAIST AHC-Lab. 40
a. Machine speech chain の構成b. ASR から TTSc. TTSからASR
A.Tjandra,et al., “Listening while Speaking: Speech Chain by Deep Learning“ , arXiv:1707.04879, 2017Accepted for IEEE ASRU 2017
ASRの基本構造
2019年3月3日 情報処理学会 NL研 Copyright@2019 中村 哲@NAIST AHC-Lab. 41
TTSの基本構造
Reference : Chan et al (2015), Listen Attend Spell Reference : Wang et al (2017), Tacotron
Encoder with BiLSTM & sequence subsamplingDecoder with LSTM & attention module
Modified Tacotron with additional speaker embedding + frame ending binary prediction
①Machine speech chain の構成
①Speech Chain のアルゴリズム
o Speech とTextのペアデータと、Speech only, Text onlyのペアでないデータを用意
o Supervised training :
o それぞれ、ASRとTTSの生成誤差をペアデータで計算
o Unsupervised training :
o ペアでないデータに対し、ASRに関してはTTSを用いて音声を生成、TTSに対してはASRを用いてテキストを生成
o 生成誤差(音声の誤差、テキストの誤差)を計算
o 2種類の生成誤差を組み合わせ、ASRとTTSのパラメータの勾配計算
2019年3月3日 情報処理学会 NL研 Copyright@2019 中村 哲@NAIST AHC-Lab. 42
A.Tjandra,et al., “Listening while Speaking: Speech Chain by Deep Learning“ , arXiv:1707.04879, 2017 Accepted for IEEE ASRU 2017
内容
1. 音声認識の仕組みと最近の進歩
2. 音声翻訳システム
3. 同時通訳にむけた研究
4. 課題と今後の展開とまとめ
2019年3月3日 情報処理学会 NL研 Copyright@2019 中村 哲@NAIST AHC-Lab. 43
話し言葉とコミュニケーション
o 書き言葉o 記録、保存、時代を超えた伝承が目的
o 時間をかけて推敲し文を作成
o 高圧縮、文法的
o 時間をかけて読解
o わかるまで読み返す
o 話し言葉o その場でのコミュニケーション、意図伝達が目的
o リアルタイムで発話を生成
o 低圧縮、非文法的、文脈依存、冗長語、不完全
o マルチモーダル、パラ言語(韻律、個人性、強調、感情)
o リアルタイムに発話を理解
o 文脈、パラ言語、マルチモーダル情報の利用
o Mutual Grounding の構築と利用
2019年3月3日 情報処理学会 NL研 Copyright@2019 中村 哲@NAIST AHC-Lab. 44
大規模コーパス
多言語音声認識
多数話者の大量の
音声データ日本語と英語
の大量の対訳文
長時間英語音声データ
話し言葉翻訳
多言語音声合成
日本語 英語I go to school
「私は学校に行く」w a t a sh iw a g a xtuk o o n i…..
私は学校に行く
日本語の大量の文章
I to school go
和英辞書により日本語の単語列を英語に変換
「私は」⇒ “I” 「学校に」⇒ “to school” 「行く」⇒“go”
日本語の辞書と文法により
かな漢字列に変換
日本語の発音列に変換“a”,”I”,”u”,…
テキストに合った音声波形を
データベースから探し出す
英語の文法に合わせて語順を変更
“I” “I” “to school” “go”“go” “to school”
I go to school
コーパス
英語の大量の文章
音声翻訳のメカニズム
2018/09/09 日本通訳翻訳学会 2018年 基調講演 中村 哲 45
フレーズベース機械翻訳
文を短いフレーズのような短い単位に分割して翻訳
2018/09/09 日本通訳翻訳学会 2018年 基調講演 中村 哲 46
Today I will give a lecture on machine translation .
Today今日は、
I will giveを行います
a lecture onの講義
machine translation機械翻訳
.。
Today今日は、
I will giveを行います
a lecture onの講義
machine translation機械翻訳
.。
今日は、機械翻訳の講義を行います。
翻訳モデル: (TM: Translation Model) 並べ替えモデル: (RM: Reordering Model) 言語モデル: (LM: Language Model)
統計的機械翻訳
2018/09/09 日本通訳翻訳学会 2018年 基調講演 中村 哲 47
• 統計モデル、言語モデル、デコーダーから構成される。
原言語と目的言語のパラレルテキスト
コーパス
目的言語のテキストコーパス
統計解析 統計解析
翻訳モデル 言語モデル
スコアを考慮して翻訳処理入力文(原言語) 翻訳文(目的言語)
並び替えモデル
フレーズの置換置換フレーズの文法整合性判定
デコーダ
パラレルコーパス
Japanese: “窓をあけてもいいですか”
2018/09/09 日本通訳翻訳学会 2018年 基調講演 中村 哲 48
English:1. may i open the window2. ok if i open the window3. can i open the window4. could we crack the window5. is it okay if i open the window6. would you mind if i opened the
window7. is it okay to open the window8. do you mind if i open the window9. would it be all right to open the
window10. i’d like to open the window
Japanese English Chinese Korean New lang.
機械翻訳と音声翻訳の性能
2019年3月3日 情報処理学会 NL研 Copyright@2019 中村 哲@NAIST AHC-Lab. 49
松田繁樹, 林輝昭, 葦苅豊, 志賀芳則, 柏岡秀紀, 安田圭志, 大熊英男, 内山将夫, 隅田英一郎, 河井恒, 中村 哲“多言語音声翻訳システム“VoiceTra” の構築と実運用による大規模実験"電子情報通信学会論文誌, J96-D, 10, Oct. 2013
内容
1. 音声認識の仕組み
2. 音声翻訳の仕組み
3. 音声翻訳技術の現状
4. 同時通訳にむけた研究
5. 課題と今後の展開とまとめ
2019年3月3日 情報処理学会 NL研 Copyright@2019 中村 哲@NAIST AHC-Lab. 50
コミュニケーションとしての音声翻訳を考えよう
情報処理学会 NL研 Copyright@2019 中村 哲@NAIST AHC-Lab. 51
入力テキスト音声画像
ジェスチャ
音声⇒テキスト音声認識
同時翻訳変換
対話制御
言語情報
非言語情報感情・スタイル声質・韻律ジェスチャ
言語情報
非言語情報感情・スタイル声質・韻律ジェスチャ
出力テキスト音声画像
ジェスチャ
原言語 目的言語
音声信号“to o kyo e i ku”
機械翻訳結果/I/go/to/Tokyo/
音声合成結果“ai go tu tokyo/
声質、韻律 声質、韻律
談話構造文脈
ドメイン知識オントロジ
テキスト
画像⇒テキスト画像認識
テキスト
テキスト⇒音声音声合成
テキスト⇒画像画像合成
電子情報通信学会誌2015,改End-to-end で学習
コミュニケーションにおける① 逐次性,同時性② パラ言語情報
2019年3月3日
フレーズベース統計的機械翻訳(SMT)
o文を翻訳可能な小さい塊(フレーズ)に分けて並べ替える
2019年3月3日 情報処理学会 NL研 Copyright@2019 中村 哲@NAIST AHC-Lab. 52
Today I will give a lecture on machine translation .
Today今日は、
I will giveを行います
a lecture onの講義
machine translation機械翻訳
.。
Today今日は、
I will giveを行います
a lecture onの講義
machine translation機械翻訳
.。
今日は、機械翻訳の講義を行います。
翻訳モデル(フレーズテーブル)・並べ替えモデル・言語モデルをテキストから統計的に学習
並べ替えモデル
フレーズの並べ替え方を確率的に表し精度向上
現在のフレーズと次のフレーズの順番を4種類に分類:
「順」と「不連続(右)」の確率の和は「右確率」
2019年3月3日 情報処理学会 NL研 Copyright@2019 中村 哲@NAIST AHC-Lab. 53
背 の 高い 男
the tall man
順:順番は同じ
太郎 を 訪問 した
visited Taro
逆順:順番は逆
私 は 太郎 を 訪問した
I visited Taro
不連続(右): 不連続(左):
背 の 高い 男 を 訪問 した
visited the tall man
右確率を用いた訳出タイミングの調整
まず、手法1を用いて訳出タイミングを仮確定
フレーズの右確率が閾値を上回った場合のみ本確定
閾値が1.0の場合は文ごと、0.0の場合はフレーズごと
2019年3月3日 情報処理学会 NL研 Copyright@2019 中村 哲@NAIST AHC-Lab. 54
例(閾値= 0.8):
hello where is the station
“hello”モデルに存在
↓保留
“hello where”存在しない
↓“hello”を選択
↓右確率 0.9 > 0.8
↓出力 “hello”
“where is”モデルに存在
↓保留
“where is the”存在しない
↓“where is”を選択
↓右確率0.6 < 0.8
↓出力しない
“the station”発話終了
↓出力
“where is the station”
本確定
仮確定
本確定
仮確定
結果1:各設定の精度・遅延
全ての設定において遅延が減少
長い文、語順が類似している言語対で特に顕著
2019年3月3日 情報処理学会 NL研 Copyright@2019 中村 哲@NAIST AHC-Lab. 55
機械翻訳の進歩
o コーパスベース:
o 統計ベース翻訳 (Statistical Machine Translation) さらに、ルールが頻出するかの確率を学習。Noisy Channel Model [P.F.Brown, et al. 93]
o Phrase-base SMT単語レベルでなくフレーズという単位を導入。
o Tree-to-string
o 構文構造の関係を学習する統計的機械翻訳
o 深層学習に基づく機械翻訳o Neural Machine Translation
o LSTMによるEncoder と Decoderを組み合わせ、翻訳文を生成する
o Attention NMT
o 原言語の単語列のEncoder出力に重みを加えてDecoderにいれることでアライメントをImplicitに学習する
o Transformer: Self attention だけの利用で高速化
2019年3月3日 情報処理学会 NL研 Copyright@2019 中村 哲@NAIST AHC-Lab. 56
Statistical Translation Frameworks
2018/09/09 日本通訳翻訳学会 2018年 基調講演 中村 哲 57
Symbolic Models
Phrase-based MT [Koehn+ 03]
he has a cold
彼 は 風邪 を 引いている
he
彼 はhas
引いているa cold
風邪 を
he
彼 はhas
引いているa cold
風邪 を
Tree-to-String MT [Liu+ 06]
彼 は 風邪
he has a cold
PRP VBZ DET NN
VP
NP
S
引いているを
Continuous-space (Neural) Models
Encoder-Decoder [Sutskever+ 14]
he has a cold <s>
彼
彼
は
は
風邪
風邪
を
引いているを
<s>引いている
Attentional [Bahdanau+ 15]he has a cold
g1,...,g
4
a1
a2
a3
a4
hi-1
hi
ri-1
P(ei|F,e
1,...,e
i-1)
Intelligent and Invisible Computing 57
注視(attention)機構の導入
o 記憶を分散させ局所的に利用
o 記憶の途中過程を保持
o 注視による記憶の加重和で訳語選択
これ は 機械 翻訳 です
This is a machine trans-lation
入力単語のベクトル表現
出力単語候補のベクトル表現
2019/7/22 音学シンポジウム 招待講演 Copyright @ 中村 哲 NAIST 58
復号化(デコーダ)
This is a machine/EOS
入力単語候補のベクトル表現
入力文全体の記憶(高々数百次元)
ブッシュ 大統領 は プーチン と 会談 する
President Bush meets with Putin
Wait K tokensControllable!
Prediction!
原文 ブッシュ 大統領 は プーチン と 会談 する
従来法 President Bush meets with Putin
提案法 President Bush meets with PutinPrediction!
delaydelay
delay
Controllable!
予測と遅延制御による翻訳制御
Mingbo Ma, et al., “STACL: Simultaneous Translation with Integrated Anticipation and Controllable Latency”, arXiv:1810.08398v3 [cs.CL] 3 Nov 2018 2019年3月3日 情報処理学会 NL研 Copyright@2019 中村 哲@NAIST AHC-Lab. 59
帖佐克己, 須藤克仁, 中村哲,英日同時通訳におけるニューラル機械翻訳の検討, 言語処理学会第25回年次大会(ANLP2019), 2019年3月
英日同時通訳実験結果
o Data: ASPEC J->E
2019/7/22 音学シンポジウム 招待講演 Copyright @ 中村 哲 NAIST 60
内容
1. 音声認識の仕組み
2. 音声翻訳の仕組み
3. 同時通訳にむけた研究
4. 課題と今後の展開とまとめ
2019年3月3日 情報処理学会 NL研 Copyright@2019 中村 哲@NAIST AHC-Lab. 61
課題と研究課題
o 同時音声翻訳、パラ言語情報の取り扱い、全体最適化
o 高速化、高精度化、大語彙化、多言語化、未知言語対応
o 持続的なデータ自動収集と教師無し学習
o 方言・アクセント対応
o 雑音・残響対応、遠隔認識
o 韻律利用、パラ言語・非言語制御
o 対話構造・談話構造の考慮
o 主語省略への対応、照応への対応
o 知識表現、意味表現とその利用
o クロスカルチャー対応
2019年3月3日 情報処理学会 NL研 Copyright@2019 中村 哲@NAIST AHC-Lab. 62
音声言語の自動翻訳 コロナ社
2019年3月3日 情報処理学会 NL研 Copyright@2019 中村 哲@NAIST AHC-Lab. 63
まとめと今後
o 音声言語処理の方向o 音素単位のEnd-to-end 型へ進化。
o 音声認識と合成を一つのフレームワークで学習。
o 言語モデルも含める
o 音声翻訳の方向o End-to-end型への進化
o 通訳へ向けた研究
o 強調、抑揚、顔、ジェスチャーなどを入れた音声翻訳
o 今後の方向o パラ言語、文構造、会話の流れを考慮した翻訳
o 文脈や状況を考慮した翻訳
o 背景知識や対象領域の知識の獲得と活用
o 意味の解析や構造の利用
o コミュニケーションできるとは?
2019/7/22 音学シンポジウム 招待講演 Copyright @ 中村 哲 NAIST 64
2019/7/22 音学シンポジウム 招待講演 Copyright @ 中村 哲 NAIST 65
2019年3月3日 情報処理学会 NL研 Copyright@2019 中村 哲@NAIST AHC-Lab. 66
音声認識性能の向上
o Saon, et al. “English Conversational Telephone Speech Recognition by Humans and Machines”, INTERSPEECH 2017
[1] R. P. Lippmann, “Speech recognition by machines and humans,”Speech communication, vol. 22, no. 1, pp. 1–15, 1997.
日本通訳翻訳学会 2018年 基調講演 中村 哲 672018/09/09
大規模コーパス
多言語音声認識
多数話者の大量の
音声データ日本語と英語
の大量の対訳文
長時間英語音声データ
話し言葉翻訳
多言語音声合成
日本語 英語I go to school
「私は学校に行く」w a t a sh iw a g a xtuk o o n i…..
私は学校に行く
日本語の大量の文章
I to school go
和英辞書により日本語の単語列を英語に変換
「私は」⇒ “I” 「学校に」⇒ “to school” 「行く」⇒“go”
日本語の辞書と文法により
かな漢字列に変換
日本語の発音列に変換“a”,”I”,”u”,…
テキストに合った音声波形を
データベースから探し出す
英語の文法に合わせて語順を変更
“I” “I” “to school” “go”“go” “to school”
I go to school
コーパス
英語の大量の文章
音声翻訳のメカニズム
2018/09/09 日本通訳翻訳学会 2018年 基調講演 中村 哲 68
音声認識用日英中国語音声コーパス
2018/09/09 日本通訳翻訳学会 2018年 基調講演 中村 哲 69
•英語音声コーパス: 500 話者•北米: 400 話者東海岸(150), 西海岸(50),北部(50), 南部(50)
•英国 (100)•オーストラリア(100)
•合計 200 時間
•中国語音声コーパス: 500 話者•北京 200 話者•広東: 100 話者•上海i: 100 話者•台湾: 100 話者
•合計 200時間
•日本語音声コーパス: • 4000 話者•日本の主要都市
•合計 200時間
Spoken Language Communication
Research Laboratories
我が国の音声翻訳プロジェクトの流れ
2018/09/09 日本通訳翻訳学会 2018年 基調講演 中村 哲 70
読み上げ文を音声翻訳
•文法的な表現
•明瞭な発声
国際会議申込み」
日常の話し言葉を音声翻訳
•標準的な表現
•明瞭な発声
•限定された話題
「ホテル予約」
広い話題に適応
•広い話題での表現
(日常旅行会話)
•雑音を含む音声
•日英+日中
1986 1992 2000 2006
要素技術
ルールベース人手作業
大規模コーパス+ 機械学習
2008
A-STAR
内閣府社会還元加速PJ
• 8アジア言語
•ネットワーク型音声翻訳
2010
C-STAR
• 音声翻訳国際共同研究コンソーシアム
IWSLT
• 音声翻訳性能評価ワークショップ
2011VoiceTraNAIST
2014
U-STAR
NICTGC PJ
NICTATR
・2007年11月開始
コーパスに含まれる話題
2018/09/09 日本通訳翻訳学会 2018年 基調講演 中村 哲 71
観光 Sightseeing 7.7% (11) 留学 Study Overseas 1.6% (14)
レストラン Restaurant 7.3% (11) 飲物 Drink 1.3% (4)
コミュニケーションCommunication 6.4% (6) 両替 Exchange 1.2% (5)
空港 Airport 5.5% (14) 軽食 Snack 1.2% (4)
ビジネス Business 5.3% (26) 美容 Beauty 0.8% (5)
連絡 Contact 4.0% (6) 帰国 Go Home 0.6% (4)
飛行機 Airplane 3.6% (11) 研究 Research 0.1% (12)
ホームステイ Homestay 2.3% (11)
宿泊Stay
8.2% (11)
• make/changea reservation
• check-in• trouble• …
移動Move8.4% (8)
• transportation• buy a ticket• rental car• trouble• …
買物Shopping
10.0% (13)
• buy something• gather information• price• wrapping• …
基本Basic12.2% (7)
• greet someone• ask a question• state one’s
purpose• …
トラブルTrouble12.1% (20)
• luggage• emergency• medicine• assistance• …
日英100万文日中50万文
Spoken Language Communication
Research Laboratories
技術的なブレークスルーo コーパスベース
o 大規模なコーパスと統計的手法により学習とデコードが同一の枠組みで
o 機械翻訳o ルールベース:
言語学者、言語学の知識のある作業者がルールを注意して作成
o コーパスベース:
o 用例ベース (Example-Based)ルールを自動的にコーパスから抽出 [M.Nagao 1984, など]
o 統計ベース翻訳 (Statistical Machine Translation)さらに、ルールが頻出するかの確率を学習。Noisy Channel Model[P.F.Brown, et.al., 1993]
o 音声認識o テンプレートマッチング [Sakoe, 1971]
o 隠れマルコフモデル、N-Gramモデル [Mercer, Jelinek, Bahl,1983]
o 大量のデータの収集、試行サービスによるデータ収集
2018/09/09 日本通訳翻訳学会 2018年 基調講演 中村 哲 72
翻訳モデルの学習
同じ意味をもつ対訳文を整合させる
対応するフレーズを抽出する
2018/09/09 日本通訳翻訳学会 2018年 基調講演 中村 哲 73
thehotelfrontdesk
ホテ 受ルの付 ホテル の → hotel
ホテル の → the hotel受付 → front deskホテルの受付 → hotel front deskホテルの受付 → the hotel front desk
実験 (IWSLT2013)
o 対象データ: TED Talk(英語⇒日本語)- 翻訳(キャプション)
vs. 通訳
o 異なるスキルの通訳者
2019年3月3日 情報処理学会 NL研 Copyright@2019 中村 哲@NAIST AHC-Lab. 74
スキルのレベル # 経験年数
S 15 年
A 4 年
B 1 年
結果
2019年3月3日 情報処理学会 NL研 Copyright@2019 中村 哲@NAIST AHC-Lab. 75
38
40
42
44
46
48
50
0 1 2 3 4 5 6
RIB
ES
Dealy (Sec)
LM+Tu
A rank
B rank
A ランク:4 年経験B ランク:1 年経験
Fast
Accu
rate
フレーズ終了時翻訳
発話終了時翻訳
B ランク(経験 1 年)
A ランク(経験 4 年)
≒ 経験年数1年のB ランク通訳者と同等
音声認識性能
2019年3月3日 情報処理学会 NL研 Copyright@2019 中村 哲@NAIST AHC-Lab. 76
松田繁樹, 林輝昭, 葦苅豊, 志賀芳則, 柏岡秀紀, 安田圭志, 大熊英男, 内山将夫, 隅田英一郎, 河井恒, 中村 哲“多言語音声翻訳システム“VoiceTra” の構築と実運用による大規模実験"電子情報通信学会論文誌, J96-D, 10, Oct. 2013