76
音声言語処理:基礎から音声翻訳まで 奈良先端科学技術大学院大学 データ駆動型サイエンス創造センター長 先端科学技術研究科 教授 中村 2019年3月3日 情報処理学会 NL研 Copyright@2019 中村 哲@NAIST AHC-Lab. 1

音声言語処理:基礎から音声翻訳まで.../s/ /a/ /S/ Consonants /a/ Frequency f 2019/6/30 ©Prof. Satoshi Nakamura, NARA INSTITTE OF SCIENCE AND TECHNOLOGY 7 異なる話者は異なる音響特徴

  • Upload
    others

  • View
    1

  • Download
    0

Embed Size (px)

Citation preview

Page 1: 音声言語処理:基礎から音声翻訳まで.../s/ /a/ /S/ Consonants /a/ Frequency f 2019/6/30 ©Prof. Satoshi Nakamura, NARA INSTITTE OF SCIENCE AND TECHNOLOGY 7 異なる話者は異なる音響特徴

音声言語処理:基礎から音声翻訳まで

奈良先端科学技術大学院大学

データ駆動型サイエンス創造センター長

先端科学技術研究科 教授

中村 哲

2019年3月3日 情報処理学会 NL研 Copyright@2019 中村 哲@NAIST AHC-Lab. 1

Page 2: 音声言語処理:基礎から音声翻訳まで.../s/ /a/ /S/ Consonants /a/ Frequency f 2019/6/30 ©Prof. Satoshi Nakamura, NARA INSTITTE OF SCIENCE AND TECHNOLOGY 7 異なる話者は異なる音響特徴

内容

1. 音声認識の仕組みと最近の進歩

2. 音声翻訳システム

3. 同時通訳にむけた研究

4. 課題と今後の展開とまとめ

2019年3月3日 情報処理学会 NL研 Copyright@2019 中村 哲@NAIST AHC-Lab. 2

Page 3: 音声言語処理:基礎から音声翻訳まで.../s/ /a/ /S/ Consonants /a/ Frequency f 2019/6/30 ©Prof. Satoshi Nakamura, NARA INSTITTE OF SCIENCE AND TECHNOLOGY 7 異なる話者は異なる音響特徴

音声認識の概要 難しさ

音声認識技術

特徴抽出:Feature Extraction

音響モデル:Acoustic Modeling

言語モデル:Language Modeling

辞書:Lexicon Dictionary

認識:Decoding Search 音声認識システムの構築:Development of ASR System

現在の音声認識の性能:Current Performance of ASR System

OUTLINE

2019/6/30 ©Prof. Satoshi Nakamura, NARA INSTITTE OF SCIENCE AND TECHNOLOGY 3

Page 4: 音声言語処理:基礎から音声翻訳まで.../s/ /a/ /S/ Consonants /a/ Frequency f 2019/6/30 ©Prof. Satoshi Nakamura, NARA INSTITTE OF SCIENCE AND TECHNOLOGY 7 異なる話者は異なる音響特徴

音声認識のイメージ:Communication between human and machine

What is ASR?

Recognized words

“GOOD AFTERNOON”

Multi-speaker

Multi-lingual

Multi-environment

Natural dialog

ゴール:Ultimate Goal:正確に音響信号 Xを単語列 Wに書き起こす。

2019/6/30 ©Prof. Satoshi Nakamura, NARA INSTITTE OF SCIENCE AND TECHNOLOGY 4

Page 5: 音声言語処理:基礎から音声翻訳まで.../s/ /a/ /S/ Consonants /a/ Frequency f 2019/6/30 ©Prof. Satoshi Nakamura, NARA INSTITTE OF SCIENCE AND TECHNOLOGY 7 異なる話者は異なる音響特徴

音声認識の課題

Challenges to Recognize a Speech

2019/6/30 ©Prof. Satoshi Nakamura, NARA INSTITTE OF SCIENCE AND TECHNOLOGY 5

Page 6: 音声言語処理:基礎から音声翻訳まで.../s/ /a/ /S/ Consonants /a/ Frequency f 2019/6/30 ©Prof. Satoshi Nakamura, NARA INSTITTE OF SCIENCE AND TECHNOLOGY 7 異なる話者は異なる音響特徴

異なる音素:Different Phonemes

異なる音素は異なる音響特徴を持つ:Different phonemes have different spectral characteristic

言語的な要因

Frequency f

2019/6/30 ©Prof. Satoshi Nakamura, NARA INSTITTE OF SCIENCE AND TECHNOLOGY 6

Page 7: 音声言語処理:基礎から音声翻訳まで.../s/ /a/ /S/ Consonants /a/ Frequency f 2019/6/30 ©Prof. Satoshi Nakamura, NARA INSTITTE OF SCIENCE AND TECHNOLOGY 7 異なる話者は異なる音響特徴

調音結合:Co-articulation

同じ音素でも周りの音素で音響的に変化する

単語内、単語間で影響を受ける。

コンテキストの影響:Contextual Variability

Vowels

/s/ /a/ /S/

Consonants

/a/Frequency f

2019/6/30 ©Prof. Satoshi Nakamura, NARA INSTITTE OF SCIENCE AND TECHNOLOGY 7

Page 8: 音声言語処理:基礎から音声翻訳まで.../s/ /a/ /S/ Consonants /a/ Frequency f 2019/6/30 ©Prof. Satoshi Nakamura, NARA INSTITTE OF SCIENCE AND TECHNOLOGY 7 異なる話者は異なる音響特徴

異なる話者は異なる音響特徴

個人性: 話し方、速度、イントネーション

アクセントの違い: 地域性、母語

声質の差: 男性、女性、子供、高齢者

話者の要因

2019/6/30 ©Prof. Satoshi Nakamura, NARA INSTITTE OF SCIENCE AND TECHNOLOGY 8

Page 9: 音声言語処理:基礎から音声翻訳まで.../s/ /a/ /S/ Consonants /a/ Frequency f 2019/6/30 ©Prof. Satoshi Nakamura, NARA INSTITTE OF SCIENCE AND TECHNOLOGY 7 異なる話者は異なる音響特徴

異なる環境による差

背景雑音: cars, trains, fans

残響: echo

マイク/伝送路: close microphone, telephone

環境の要因

2019/6/30 ©Prof. Satoshi Nakamura, NARA INSTITTE OF SCIENCE AND TECHNOLOGY 9

Page 10: 音声言語処理:基礎から音声翻訳まで.../s/ /a/ /S/ Consonants /a/ Frequency f 2019/6/30 ©Prof. Satoshi Nakamura, NARA INSTITTE OF SCIENCE AND TECHNOLOGY 7 異なる話者は異なる音響特徴

統計的音声認識の現状

State-of-the-art Statistical ASR

2019/6/30 ©Prof. Satoshi Nakamura, NARA INSTITTE OF SCIENCE AND TECHNOLOGY 10

Page 11: 音声言語処理:基礎から音声翻訳まで.../s/ /a/ /S/ Consonants /a/ Frequency f 2019/6/30 ©Prof. Satoshi Nakamura, NARA INSTITTE OF SCIENCE AND TECHNOLOGY 7 異なる話者は異なる音響特徴

統計的音声認識の構造

X1X2X3X4… …XT-1XT

/m/ /a/ /i/ /s/ /p/ /ee/ /t/ /sh/

/my speech/

“MY SPEECH”

/my/ /speech/

Speech

signals

単語:Words

音素Phonemes

フレーム:Frames

Most probable sequence of words

文:Sentences

音響モデルAcoustic

model

音素辞書Pronunciation

lexicon

言語モデル:Language

model

HMM

state

HMM

2019/6/30 ©Prof. Satoshi Nakamura, NARA INSTITTE OF SCIENCE AND TECHNOLOGY 11

Page 12: 音声言語処理:基礎から音声翻訳まで.../s/ /a/ /S/ Consonants /a/ Frequency f 2019/6/30 ©Prof. Satoshi Nakamura, NARA INSTITTE OF SCIENCE AND TECHNOLOGY 7 異なる話者は異なる音響特徴

Phone-Level Matcher

Word-Level

Matcher

Sentence-

Level MatcherAcoustic Model

P(Xs|)LexiconP( | W)

LanguageModel P(W)

Feature Extraction

SearchAlgorithm

Xs ŴRecognized

Words

Hypothesis

Text Corpus

SpeechCorpus

TrainTrain

Statistical Learning

Speech Waveform

音声認識システム

単語列の最尤復号:The most probable string of words:

)|()|()(maxarg

)|()(maxarg)|(maxarg

sw

sw

sw

XPWPWP

WXPWPXWPW

o 5つの要素 特徴抽出:Feature extraction

音響モデル:Acoustic model

発音辞書:Pronunciation lexicon

言語モデル:Language model

探索:Search algorithm

2019/6/30 ©Prof. Satoshi Nakamura, NARA INSTITTE OF SCIENCE AND TECHNOLOGY 12

Page 13: 音声言語処理:基礎から音声翻訳まで.../s/ /a/ /S/ Consonants /a/ Frequency f 2019/6/30 ©Prof. Satoshi Nakamura, NARA INSTITTE OF SCIENCE AND TECHNOLOGY 7 異なる話者は異なる音響特徴

特徴抽出

Feature Extraction

2019/6/30 ©Prof. Satoshi Nakamura, NARA INSTITTE OF SCIENCE AND TECHNOLOGY 13

Page 14: 音声言語処理:基礎から音声翻訳まで.../s/ /a/ /S/ Consonants /a/ Frequency f 2019/6/30 ©Prof. Satoshi Nakamura, NARA INSTITTE OF SCIENCE AND TECHNOLOGY 7 異なる話者は異なる音響特徴

特徴抽出

Analysis Unit / FrameFrame Transition

特徴抽出の例MFCC : メルケプストラム

x1 x2 x3

特徴ベクトル:Feature Vector

Feature Space

c1 X1X2

X3X4

X16

X5

X6X7

X13

X10

X12

X9

X11 X15

X17

X14

X18

X19

c2

2019/6/30 ©Prof. Satoshi Nakamura, NARA INSTITTE OF SCIENCE AND TECHNOLOGY 14

Page 15: 音声言語処理:基礎から音声翻訳まで.../s/ /a/ /S/ Consonants /a/ Frequency f 2019/6/30 ©Prof. Satoshi Nakamura, NARA INSTITTE OF SCIENCE AND TECHNOLOGY 7 異なる話者は異なる音響特徴

音響モデル

Acoustic Model

2019/6/30 ©Prof. Satoshi Nakamura, NARA INSTITTE OF SCIENCE AND TECHNOLOGY 15

Page 16: 音声言語処理:基礎から音声翻訳まで.../s/ /a/ /S/ Consonants /a/ Frequency f 2019/6/30 ©Prof. Satoshi Nakamura, NARA INSTITTE OF SCIENCE AND TECHNOLOGY 7 異なる話者は異なる音響特徴

統計的音声認識の構成

X1X2X3X4… …XT-1XT

/m/ /a/ /i/ /s/ /p/ /ee/ /t/ /sh/

2019/6/30 ©Prof. Satoshi Nakamura, NARA INSTITTE OF SCIENCE AND TECHNOLOGY 16

Speech

signals

単語:Words

音素Phonemes

フレーム:Frames

Most probable sequence of words

文:Sentences

音響モデルAcoustic

model

音素辞書Pronunciation

lexicon

言語モデル:Language

model

HMM

state

HMM

Page 17: 音声言語処理:基礎から音声翻訳まで.../s/ /a/ /S/ Consonants /a/ Frequency f 2019/6/30 ©Prof. Satoshi Nakamura, NARA INSTITTE OF SCIENCE AND TECHNOLOGY 7 異なる話者は異なる音響特徴

音響モデル

Feature Space

c1 X1X2

X3X4

X16

X5

X6X7

X13

X10

X12

X9

X11 X15

X17

X14

X18

X19

c2

Gaussian Mixture

Model (GMM)

Mixture coefficients ”bjk”

(B-matrix)

321 HMM (N=3)

1フレームの音声信号 (every 10 ms)は特徴ベクトル:feature vector、 Xt で表現される。この時、10 msec毎にHMMの状態を遷移する

2019/6/30 ©Prof. Satoshi Nakamura, NARA INSTITTE OF SCIENCE AND TECHNOLOGY 17

Page 18: 音声言語処理:基礎から音声翻訳まで.../s/ /a/ /S/ Consonants /a/ Frequency f 2019/6/30 ©Prof. Satoshi Nakamura, NARA INSTITTE OF SCIENCE AND TECHNOLOGY 7 異なる話者は異なる音響特徴

HMMとは

Left-to-Right (Bakis Model)

2019/6/30 ©Prof. Satoshi Nakamura, NARA INSTITTE OF SCIENCE AND TECHNOLOGY 18

Page 19: 音声言語処理:基礎から音声翻訳まで.../s/ /a/ /S/ Consonants /a/ Frequency f 2019/6/30 ©Prof. Satoshi Nakamura, NARA INSTITTE OF SCIENCE AND TECHNOLOGY 7 異なる話者は異なる音響特徴

離散HMMと連続HMMDiscrete vs Continuous HMM

2019/6/30 ©Prof. Satoshi Nakamura, NARA INSTITTE OF SCIENCE AND TECHNOLOGY 19

Page 20: 音声言語処理:基礎から音声翻訳まで.../s/ /a/ /S/ Consonants /a/ Frequency f 2019/6/30 ©Prof. Satoshi Nakamura, NARA INSTITTE OF SCIENCE AND TECHNOLOGY 7 異なる話者は異なる音響特徴

HMMの構成要素

HMMの要素

状態系列:State sequence of time length T

観測系列:The observed output sequence of time length T

遷移確率:Transition probabilities from state i to state j

シンボル出力確率:Observation symbol probability distribution in state j

初期確率:Initial state distribution

HMM

2019/6/30 ©Prof. Satoshi Nakamura, NARA INSTITTE OF SCIENCE AND TECHNOLOGY 20

Page 21: 音声言語処理:基礎から音声翻訳まで.../s/ /a/ /S/ Consonants /a/ Frequency f 2019/6/30 ©Prof. Satoshi Nakamura, NARA INSTITTE OF SCIENCE AND TECHNOLOGY 7 異なる話者は異なる音響特徴

HMM 復号

HMMの最適状態系列を求める

Given:

最適状態系列Qを求める

2019/6/30 ©Prof. Satoshi Nakamura, NARA INSTITTE OF SCIENCE AND TECHNOLOGY 21

Page 22: 音声言語処理:基礎から音声翻訳まで.../s/ /a/ /S/ Consonants /a/ Frequency f 2019/6/30 ©Prof. Satoshi Nakamura, NARA INSTITTE OF SCIENCE AND TECHNOLOGY 7 異なる話者は異なる音響特徴

音響モデルとしてのHMM

HMMはどんな音声の特徴にも関連づけられる 単語、音節、音素:words, syllables or phonemes

より、長い系列:the wider unit model, the better capturing linguistic and contextual

variability

大語彙音声認識のためには単語より小さな単位が適切

音素モデルなら 50のHMM

で足りる

2019/6/30 ©Prof. Satoshi Nakamura, NARA INSTITTE OF SCIENCE AND TECHNOLOGY 22

Page 23: 音声言語処理:基礎から音声翻訳まで.../s/ /a/ /S/ Consonants /a/ Frequency f 2019/6/30 ©Prof. Satoshi Nakamura, NARA INSTITTE OF SCIENCE AND TECHNOLOGY 7 異なる話者は異なる音響特徴

コンテキスト依存トライフォンContext-Dependent Triphone

モノフォンHMMだとコンテキストが表現できない 調音結合をコンテキストとして考慮するモデルにする

2019/6/30 ©Prof. Satoshi Nakamura, NARA INSTITTE OF SCIENCE AND TECHNOLOGY 23

Page 24: 音声言語処理:基礎から音声翻訳まで.../s/ /a/ /S/ Consonants /a/ Frequency f 2019/6/30 ©Prof. Satoshi Nakamura, NARA INSTITTE OF SCIENCE AND TECHNOLOGY 7 異なる話者は異なる音響特徴

発音辞書

Pronunciation Lexicon

2019/6/30 ©Prof. Satoshi Nakamura, NARA INSTITTE OF SCIENCE AND TECHNOLOGY 24

Page 25: 音声言語処理:基礎から音声翻訳まで.../s/ /a/ /S/ Consonants /a/ Frequency f 2019/6/30 ©Prof. Satoshi Nakamura, NARA INSTITTE OF SCIENCE AND TECHNOLOGY 7 異なる話者は異なる音響特徴

Structure of Statistical ASR

X1X2X3X4… …XT-1XT

/m/ /a/ /i/ /s/ /p/ /ee/ /t/ /sh/

/my/ /speech/

2019/6/30 ©Prof. Satoshi Nakamura, NARA INSTITTE OF SCIENCE AND TECHNOLOGY 25

Speech

signals

単語:Words

音素Phonemes

フレーム:Frames

Most probable sequence of words

文:Sentences

音響モデルAcoustic

model

音素辞書Pronunciation

lexicon

言語モデル:Language

model

HMM

state

HMM

Page 26: 音声言語処理:基礎から音声翻訳まで.../s/ /a/ /S/ Consonants /a/ Frequency f 2019/6/30 ©Prof. Satoshi Nakamura, NARA INSTITTE OF SCIENCE AND TECHNOLOGY 7 異なる話者は異なる音響特徴

発音辞書

発音辞書:Pronunciation Lexicon 辞書中の単語に発音を付与

マージした形にして、探索を高速化

2019/6/30 ©Prof. Satoshi Nakamura, NARA INSTITTE OF SCIENCE AND TECHNOLOGY 26

Page 27: 音声言語処理:基礎から音声翻訳まで.../s/ /a/ /S/ Consonants /a/ Frequency f 2019/6/30 ©Prof. Satoshi Nakamura, NARA INSTITTE OF SCIENCE AND TECHNOLOGY 7 異なる話者は異なる音響特徴

言語モデル

Language Model

2019/6/30 ©Prof. Satoshi Nakamura, NARA INSTITTE OF SCIENCE AND TECHNOLOGY 27

Page 28: 音声言語処理:基礎から音声翻訳まで.../s/ /a/ /S/ Consonants /a/ Frequency f 2019/6/30 ©Prof. Satoshi Nakamura, NARA INSTITTE OF SCIENCE AND TECHNOLOGY 7 異なる話者は異なる音響特徴

Structure of Statistical ASR

X1X2X3X4… …XT-1XT

/m/ /a/ /i/ /s/ /p/ /ee/ /t/ /sh/

/my speech/

“MY SPEECH”

/my/ /speech/

2019/6/30 ©Prof. Satoshi Nakamura, NARA INSTITTE OF SCIENCE AND TECHNOLOGY 28

Speech

signals

単語:Words

音素Phonemes

フレーム:Frames

Most probable sequence of words

文:Sentences

音響モデルAcoustic

model

音素辞書Pronunciation

lexicon

言語モデル:Language

model

HMM

state

HMM

Page 29: 音声言語処理:基礎から音声翻訳まで.../s/ /a/ /S/ Consonants /a/ Frequency f 2019/6/30 ©Prof. Satoshi Nakamura, NARA INSTITTE OF SCIENCE AND TECHNOLOGY 7 異なる話者は異なる音響特徴

言語モデル:Language Model

言語モデル:Language Model 単語系列の確率:Provide a priori probability of hypothesized word sequences

有限状態オートマトン:Finite State Automata (FSA):

1

1

0 8

9

Good

Morning

Afternoon

Evening

単純なタスクだと動くが、大語彙音声認識だと無理

2019/6/30 ©Prof. Satoshi Nakamura, NARA INSTITTE OF SCIENCE AND TECHNOLOGY 29

Page 30: 音声言語処理:基礎から音声翻訳まで.../s/ /a/ /S/ Consonants /a/ Frequency f 2019/6/30 ©Prof. Satoshi Nakamura, NARA INSTITTE OF SCIENCE AND TECHNOLOGY 7 異なる話者は異なる音響特徴

Word1 Word0 Prob

Boy Bad 0.75Boy Pad 0.02

N-gram 言語モデルの例

バイグラムLM:Bigram LM:

N-gram 言語モデル

2019/6/30 ©Prof. Satoshi Nakamura, NARA INSTITTE OF SCIENCE AND TECHNOLOGY 30

Page 31: 音声言語処理:基礎から音声翻訳まで.../s/ /a/ /S/ Consonants /a/ Frequency f 2019/6/30 ©Prof. Satoshi Nakamura, NARA INSTITTE OF SCIENCE AND TECHNOLOGY 7 異なる話者は異なる音響特徴

探索アルゴリズム

Decoding Search Algorithm

2019/6/30 ©Prof. Satoshi Nakamura, NARA INSTITTE OF SCIENCE AND TECHNOLOGY 31

Page 32: 音声言語処理:基礎から音声翻訳まで.../s/ /a/ /S/ Consonants /a/ Frequency f 2019/6/30 ©Prof. Satoshi Nakamura, NARA INSTITTE OF SCIENCE AND TECHNOLOGY 7 異なる話者は異なる音響特徴

最終ゴール:

特徴系列Xsが与えられたとき、最も確率の高い単語列W 探索する問題。事後確率最大化法とも呼ばれる(MAP)。

音声認識における候補列探索

ベイズ則:

2019/6/30 ©Prof. Satoshi Nakamura, NARA INSTITTE OF SCIENCE AND TECHNOLOGY 32

Page 33: 音声言語処理:基礎から音声翻訳まで.../s/ /a/ /S/ Consonants /a/ Frequency f 2019/6/30 ©Prof. Satoshi Nakamura, NARA INSTITTE OF SCIENCE AND TECHNOLOGY 7 異なる話者は異なる音響特徴

最近の音声認識の進歩

o これまでの経緯o テンプレートマッチング、動的計画法 [Sakoe 71]

o 隠れマルコフモデル、N-Gramモデル [Mercer 83, etc]

o ニューラルネットワーク、TDNN[Waibel 89], LSTM [Hochreiter 97]

o Weighted Finite State Transducer [Mohri 2006]

o 大量のデータの収集、試行サービスによるデータ収集

o 深層学習による最近の進化o DNN-HMM [Hinton 2012]

o DNN により状態の事後確率を直接推定する

o Connectionist Temporal Classification [Graves 2013]

o フレーム毎に音素ラベルを出力する

o Listen, Attend, and Spell [Chan 2016]

o CTCにAttentionメカニズムを加え高精度化

2019年3月3日 情報処理学会 NL研 Copyright@2019 中村 哲@NAIST AHC-Lab. 33

Page 34: 音声言語処理:基礎から音声翻訳まで.../s/ /a/ /S/ Consonants /a/ Frequency f 2019/6/30 ©Prof. Satoshi Nakamura, NARA INSTITTE OF SCIENCE AND TECHNOLOGY 7 異なる話者は異なる音響特徴

DNNによるハイブリッドHMM/DNN

34Sakriani Sakti @ AHC Labs, NAIST, Japan |音声言語処理| November 14th, 2018

状態確率をDNNでフレームごとに推定

Page 35: 音声言語処理:基礎から音声翻訳まで.../s/ /a/ /S/ Consonants /a/ Frequency f 2019/6/30 ©Prof. Satoshi Nakamura, NARA INSTITTE OF SCIENCE AND TECHNOLOGY 7 異なる話者は異なる音響特徴

Sequence-to-Sequence (Seq2Seq)

35

Sakriani Sakti @ AHC Labs, NAIST, Japan |音声言語処理| November 14th, 2018

[Source: karpathy.github.io]

Page 36: 音声言語処理:基礎から音声翻訳まで.../s/ /a/ /S/ Consonants /a/ Frequency f 2019/6/30 ©Prof. Satoshi Nakamura, NARA INSTITTE OF SCIENCE AND TECHNOLOGY 7 異なる話者は異なる音響特徴

End-to-End ASR: 波形から文字出力 CTC

36Sakriani Sakti @ AHC Labs, NAIST, Japan |音声言語処理| November 14th, 2018

Page 37: 音声言語処理:基礎から音声翻訳まで.../s/ /a/ /S/ Consonants /a/ Frequency f 2019/6/30 ©Prof. Satoshi Nakamura, NARA INSTITTE OF SCIENCE AND TECHNOLOGY 7 異なる話者は異なる音響特徴

Listen, Attend, and Spell (LAS)

37Sakriani Sakti @ AHC Labs, NAIST, Japan |音声言語処理| November 14th, 2018

o LAS 2つのコンポーネント (Two components)

リスナー (Listener):

フィルタバンクスペクトルを入力として受け

入れるピラミッド型RNNエンコーダ

RNN encoder that accepts filter bank spectra as inputsスペルラー (Speller):

出力として文字を出力するRNNデコーダ

RNN decoder that emits characters as outputs

[Chan et. al 2016]

Page 38: 音声言語処理:基礎から音声翻訳まで.../s/ /a/ /S/ Consonants /a/ Frequency f 2019/6/30 ©Prof. Satoshi Nakamura, NARA INSTITTE OF SCIENCE AND TECHNOLOGY 7 異なる話者は異なる音響特徴

最近の音声合成の進歩

o フォルマント合成、素片合成

o 確率モデルベース音声合成:HTSo HMMフレームワークによる音声合成o Tokuda, et al., “Speech parameter generation algorithms for HMM-based speech synthesis”, ICASSP

2000

o WaveNeto 時系列信号に対し、畳み込みを行うNNにより波形生成o van den Oord et al., “WAVENET: A GENERATIVE MODEL FOR RAW AUDIO”,

arXiv:1609.03499v2 [cs.SD] 19 Sep 2016

o Tacotrono 文字入力でスペクトログラムを生成、その後、Griffin-Lim法で波形生成o Wang, et al., “TACOTRON: TOWARDS END-TO-END SPEECH SYNTHESIS”,

arXiv:1703.10135v2 [cs.CL] 6 Apr 2017

2019年3月3日 情報処理学会 NL研 Copyright@2019 中村 哲@NAIST AHC-Lab. 38

Page 39: 音声言語処理:基礎から音声翻訳まで.../s/ /a/ /S/ Consonants /a/ Frequency f 2019/6/30 ©Prof. Satoshi Nakamura, NARA INSTITTE OF SCIENCE AND TECHNOLOGY 7 異なる話者は異なる音響特徴

①Human vs Machine Speech Chain

2019年3月3日 情報処理学会 NL研 Copyright@2019 中村 哲@NAIST AHC-Lab. 39

Page 40: 音声言語処理:基礎から音声翻訳まで.../s/ /a/ /S/ Consonants /a/ Frequency f 2019/6/30 ©Prof. Satoshi Nakamura, NARA INSTITTE OF SCIENCE AND TECHNOLOGY 7 異なる話者は異なる音響特徴

①Machine speech chain の構成

2019年3月3日 情報処理学会 NL研 Copyright@2019 中村 哲@NAIST AHC-Lab. 40

a. Machine speech chain の構成b. ASR から TTSc. TTSからASR

A.Tjandra,et al., “Listening while Speaking: Speech Chain by Deep Learning“ , arXiv:1707.04879, 2017Accepted for IEEE ASRU 2017

Page 41: 音声言語処理:基礎から音声翻訳まで.../s/ /a/ /S/ Consonants /a/ Frequency f 2019/6/30 ©Prof. Satoshi Nakamura, NARA INSTITTE OF SCIENCE AND TECHNOLOGY 7 異なる話者は異なる音響特徴

ASRの基本構造

2019年3月3日 情報処理学会 NL研 Copyright@2019 中村 哲@NAIST AHC-Lab. 41

TTSの基本構造

Reference : Chan et al (2015), Listen Attend Spell Reference : Wang et al (2017), Tacotron

Encoder with BiLSTM & sequence subsamplingDecoder with LSTM & attention module

Modified Tacotron with additional speaker embedding + frame ending binary prediction

①Machine speech chain の構成

Page 42: 音声言語処理:基礎から音声翻訳まで.../s/ /a/ /S/ Consonants /a/ Frequency f 2019/6/30 ©Prof. Satoshi Nakamura, NARA INSTITTE OF SCIENCE AND TECHNOLOGY 7 異なる話者は異なる音響特徴

①Speech Chain のアルゴリズム

o Speech とTextのペアデータと、Speech only, Text onlyのペアでないデータを用意

o Supervised training :

o それぞれ、ASRとTTSの生成誤差をペアデータで計算

o Unsupervised training :

o ペアでないデータに対し、ASRに関してはTTSを用いて音声を生成、TTSに対してはASRを用いてテキストを生成

o 生成誤差(音声の誤差、テキストの誤差)を計算

o 2種類の生成誤差を組み合わせ、ASRとTTSのパラメータの勾配計算

2019年3月3日 情報処理学会 NL研 Copyright@2019 中村 哲@NAIST AHC-Lab. 42

A.Tjandra,et al., “Listening while Speaking: Speech Chain by Deep Learning“ , arXiv:1707.04879, 2017 Accepted for IEEE ASRU 2017

Page 43: 音声言語処理:基礎から音声翻訳まで.../s/ /a/ /S/ Consonants /a/ Frequency f 2019/6/30 ©Prof. Satoshi Nakamura, NARA INSTITTE OF SCIENCE AND TECHNOLOGY 7 異なる話者は異なる音響特徴

内容

1. 音声認識の仕組みと最近の進歩

2. 音声翻訳システム

3. 同時通訳にむけた研究

4. 課題と今後の展開とまとめ

2019年3月3日 情報処理学会 NL研 Copyright@2019 中村 哲@NAIST AHC-Lab. 43

Page 44: 音声言語処理:基礎から音声翻訳まで.../s/ /a/ /S/ Consonants /a/ Frequency f 2019/6/30 ©Prof. Satoshi Nakamura, NARA INSTITTE OF SCIENCE AND TECHNOLOGY 7 異なる話者は異なる音響特徴

話し言葉とコミュニケーション

o 書き言葉o 記録、保存、時代を超えた伝承が目的

o 時間をかけて推敲し文を作成

o 高圧縮、文法的

o 時間をかけて読解

o わかるまで読み返す

o 話し言葉o その場でのコミュニケーション、意図伝達が目的

o リアルタイムで発話を生成

o 低圧縮、非文法的、文脈依存、冗長語、不完全

o マルチモーダル、パラ言語(韻律、個人性、強調、感情)

o リアルタイムに発話を理解

o 文脈、パラ言語、マルチモーダル情報の利用

o Mutual Grounding の構築と利用

2019年3月3日 情報処理学会 NL研 Copyright@2019 中村 哲@NAIST AHC-Lab. 44

Page 45: 音声言語処理:基礎から音声翻訳まで.../s/ /a/ /S/ Consonants /a/ Frequency f 2019/6/30 ©Prof. Satoshi Nakamura, NARA INSTITTE OF SCIENCE AND TECHNOLOGY 7 異なる話者は異なる音響特徴

大規模コーパス

多言語音声認識

多数話者の大量の

音声データ日本語と英語

の大量の対訳文

長時間英語音声データ

話し言葉翻訳

多言語音声合成

日本語 英語I go to school

「私は学校に行く」w a t a sh iw a g a xtuk o o n i…..

私は学校に行く

日本語の大量の文章

I to school go

和英辞書により日本語の単語列を英語に変換

「私は」⇒ “I” 「学校に」⇒ “to school” 「行く」⇒“go”

日本語の辞書と文法により

かな漢字列に変換

日本語の発音列に変換“a”,”I”,”u”,…

テキストに合った音声波形を

データベースから探し出す

英語の文法に合わせて語順を変更

“I” “I” “to school” “go”“go” “to school”

I go to school

コーパス

英語の大量の文章

音声翻訳のメカニズム

2018/09/09 日本通訳翻訳学会 2018年 基調講演 中村 哲 45

Page 46: 音声言語処理:基礎から音声翻訳まで.../s/ /a/ /S/ Consonants /a/ Frequency f 2019/6/30 ©Prof. Satoshi Nakamura, NARA INSTITTE OF SCIENCE AND TECHNOLOGY 7 異なる話者は異なる音響特徴

フレーズベース機械翻訳

文を短いフレーズのような短い単位に分割して翻訳

2018/09/09 日本通訳翻訳学会 2018年 基調講演 中村 哲 46

Today I will give a lecture on machine translation .

Today今日は、

I will giveを行います

a lecture onの講義

machine translation機械翻訳

.。

Today今日は、

I will giveを行います

a lecture onの講義

machine translation機械翻訳

.。

今日は、機械翻訳の講義を行います。

翻訳モデル: (TM: Translation Model) 並べ替えモデル: (RM: Reordering Model) 言語モデル: (LM: Language Model)

Page 47: 音声言語処理:基礎から音声翻訳まで.../s/ /a/ /S/ Consonants /a/ Frequency f 2019/6/30 ©Prof. Satoshi Nakamura, NARA INSTITTE OF SCIENCE AND TECHNOLOGY 7 異なる話者は異なる音響特徴

統計的機械翻訳

2018/09/09 日本通訳翻訳学会 2018年 基調講演 中村 哲 47

• 統計モデル、言語モデル、デコーダーから構成される。

原言語と目的言語のパラレルテキスト

コーパス

目的言語のテキストコーパス

統計解析 統計解析

翻訳モデル 言語モデル

スコアを考慮して翻訳処理入力文(原言語) 翻訳文(目的言語)

並び替えモデル

フレーズの置換置換フレーズの文法整合性判定

デコーダ

Page 48: 音声言語処理:基礎から音声翻訳まで.../s/ /a/ /S/ Consonants /a/ Frequency f 2019/6/30 ©Prof. Satoshi Nakamura, NARA INSTITTE OF SCIENCE AND TECHNOLOGY 7 異なる話者は異なる音響特徴

パラレルコーパス

Japanese: “窓をあけてもいいですか”

2018/09/09 日本通訳翻訳学会 2018年 基調講演 中村 哲 48

English:1. may i open the window2. ok if i open the window3. can i open the window4. could we crack the window5. is it okay if i open the window6. would you mind if i opened the

window7. is it okay to open the window8. do you mind if i open the window9. would it be all right to open the

window10. i’d like to open the window

Japanese English Chinese Korean New lang.

Page 49: 音声言語処理:基礎から音声翻訳まで.../s/ /a/ /S/ Consonants /a/ Frequency f 2019/6/30 ©Prof. Satoshi Nakamura, NARA INSTITTE OF SCIENCE AND TECHNOLOGY 7 異なる話者は異なる音響特徴

機械翻訳と音声翻訳の性能

2019年3月3日 情報処理学会 NL研 Copyright@2019 中村 哲@NAIST AHC-Lab. 49

松田繁樹, 林輝昭, 葦苅豊, 志賀芳則, 柏岡秀紀, 安田圭志, 大熊英男, 内山将夫, 隅田英一郎, 河井恒, 中村 哲“多言語音声翻訳システム“VoiceTra” の構築と実運用による大規模実験"電子情報通信学会論文誌, J96-D, 10, Oct. 2013

Page 50: 音声言語処理:基礎から音声翻訳まで.../s/ /a/ /S/ Consonants /a/ Frequency f 2019/6/30 ©Prof. Satoshi Nakamura, NARA INSTITTE OF SCIENCE AND TECHNOLOGY 7 異なる話者は異なる音響特徴

内容

1. 音声認識の仕組み

2. 音声翻訳の仕組み

3. 音声翻訳技術の現状

4. 同時通訳にむけた研究

5. 課題と今後の展開とまとめ

2019年3月3日 情報処理学会 NL研 Copyright@2019 中村 哲@NAIST AHC-Lab. 50

Page 51: 音声言語処理:基礎から音声翻訳まで.../s/ /a/ /S/ Consonants /a/ Frequency f 2019/6/30 ©Prof. Satoshi Nakamura, NARA INSTITTE OF SCIENCE AND TECHNOLOGY 7 異なる話者は異なる音響特徴

コミュニケーションとしての音声翻訳を考えよう

情報処理学会 NL研 Copyright@2019 中村 哲@NAIST AHC-Lab. 51

入力テキスト音声画像

ジェスチャ

音声⇒テキスト音声認識

同時翻訳変換

対話制御

言語情報

非言語情報感情・スタイル声質・韻律ジェスチャ

言語情報

非言語情報感情・スタイル声質・韻律ジェスチャ

出力テキスト音声画像

ジェスチャ

原言語 目的言語

音声信号“to o kyo e i ku”

機械翻訳結果/I/go/to/Tokyo/

音声合成結果“ai go tu tokyo/

声質、韻律 声質、韻律

談話構造文脈

ドメイン知識オントロジ

テキスト

画像⇒テキスト画像認識

テキスト

テキスト⇒音声音声合成

テキスト⇒画像画像合成

電子情報通信学会誌2015,改End-to-end で学習

コミュニケーションにおける① 逐次性,同時性② パラ言語情報

2019年3月3日

Page 52: 音声言語処理:基礎から音声翻訳まで.../s/ /a/ /S/ Consonants /a/ Frequency f 2019/6/30 ©Prof. Satoshi Nakamura, NARA INSTITTE OF SCIENCE AND TECHNOLOGY 7 異なる話者は異なる音響特徴

フレーズベース統計的機械翻訳(SMT)

o文を翻訳可能な小さい塊(フレーズ)に分けて並べ替える

2019年3月3日 情報処理学会 NL研 Copyright@2019 中村 哲@NAIST AHC-Lab. 52

Today I will give a lecture on machine translation .

Today今日は、

I will giveを行います

a lecture onの講義

machine translation機械翻訳

.。

Today今日は、

I will giveを行います

a lecture onの講義

machine translation機械翻訳

.。

今日は、機械翻訳の講義を行います。

翻訳モデル(フレーズテーブル)・並べ替えモデル・言語モデルをテキストから統計的に学習

Page 53: 音声言語処理:基礎から音声翻訳まで.../s/ /a/ /S/ Consonants /a/ Frequency f 2019/6/30 ©Prof. Satoshi Nakamura, NARA INSTITTE OF SCIENCE AND TECHNOLOGY 7 異なる話者は異なる音響特徴

並べ替えモデル

フレーズの並べ替え方を確率的に表し精度向上

現在のフレーズと次のフレーズの順番を4種類に分類:

「順」と「不連続(右)」の確率の和は「右確率」

2019年3月3日 情報処理学会 NL研 Copyright@2019 中村 哲@NAIST AHC-Lab. 53

背 の 高い 男

the tall man

順:順番は同じ

太郎 を 訪問 した

visited Taro

逆順:順番は逆

私 は 太郎 を 訪問した

I visited Taro

不連続(右): 不連続(左):

背 の 高い 男 を 訪問 した

visited the tall man

Page 54: 音声言語処理:基礎から音声翻訳まで.../s/ /a/ /S/ Consonants /a/ Frequency f 2019/6/30 ©Prof. Satoshi Nakamura, NARA INSTITTE OF SCIENCE AND TECHNOLOGY 7 異なる話者は異なる音響特徴

右確率を用いた訳出タイミングの調整

まず、手法1を用いて訳出タイミングを仮確定

フレーズの右確率が閾値を上回った場合のみ本確定

閾値が1.0の場合は文ごと、0.0の場合はフレーズごと

2019年3月3日 情報処理学会 NL研 Copyright@2019 中村 哲@NAIST AHC-Lab. 54

例(閾値= 0.8):

hello where is the station

“hello”モデルに存在

↓保留

“hello where”存在しない

↓“hello”を選択

↓右確率 0.9 > 0.8

↓出力 “hello”

“where is”モデルに存在

↓保留

“where is the”存在しない

↓“where is”を選択

↓右確率0.6 < 0.8

↓出力しない

“the station”発話終了

↓出力

“where is the station”

本確定

仮確定

本確定

仮確定

Page 55: 音声言語処理:基礎から音声翻訳まで.../s/ /a/ /S/ Consonants /a/ Frequency f 2019/6/30 ©Prof. Satoshi Nakamura, NARA INSTITTE OF SCIENCE AND TECHNOLOGY 7 異なる話者は異なる音響特徴

結果1:各設定の精度・遅延

全ての設定において遅延が減少

長い文、語順が類似している言語対で特に顕著

2019年3月3日 情報処理学会 NL研 Copyright@2019 中村 哲@NAIST AHC-Lab. 55

Page 56: 音声言語処理:基礎から音声翻訳まで.../s/ /a/ /S/ Consonants /a/ Frequency f 2019/6/30 ©Prof. Satoshi Nakamura, NARA INSTITTE OF SCIENCE AND TECHNOLOGY 7 異なる話者は異なる音響特徴

機械翻訳の進歩

o コーパスベース:

o 統計ベース翻訳 (Statistical Machine Translation) さらに、ルールが頻出するかの確率を学習。Noisy Channel Model [P.F.Brown, et al. 93]

o Phrase-base SMT単語レベルでなくフレーズという単位を導入。

o Tree-to-string

o 構文構造の関係を学習する統計的機械翻訳

o 深層学習に基づく機械翻訳o Neural Machine Translation

o LSTMによるEncoder と Decoderを組み合わせ、翻訳文を生成する

o Attention NMT

o 原言語の単語列のEncoder出力に重みを加えてDecoderにいれることでアライメントをImplicitに学習する

o Transformer: Self attention だけの利用で高速化

2019年3月3日 情報処理学会 NL研 Copyright@2019 中村 哲@NAIST AHC-Lab. 56

Page 57: 音声言語処理:基礎から音声翻訳まで.../s/ /a/ /S/ Consonants /a/ Frequency f 2019/6/30 ©Prof. Satoshi Nakamura, NARA INSTITTE OF SCIENCE AND TECHNOLOGY 7 異なる話者は異なる音響特徴

Statistical Translation Frameworks

2018/09/09 日本通訳翻訳学会 2018年 基調講演 中村 哲 57

Symbolic Models

Phrase-based MT [Koehn+ 03]

he has a cold

彼 は 風邪 を 引いている

he

彼 はhas

引いているa cold

風邪 を

he

彼 はhas

引いているa cold

風邪 を

Tree-to-String MT [Liu+ 06]

彼 は 風邪

he has a cold

PRP VBZ DET NN

VP

NP

S

引いているを

Continuous-space (Neural) Models

Encoder-Decoder [Sutskever+ 14]

he has a cold <s>

風邪

風邪

引いているを

<s>引いている

Attentional [Bahdanau+ 15]he has a cold

g1,...,g

4

a1

a2

a3

a4

hi-1

hi

ri-1

P(ei|F,e

1,...,e

i-1)

Intelligent and Invisible Computing 57

Page 58: 音声言語処理:基礎から音声翻訳まで.../s/ /a/ /S/ Consonants /a/ Frequency f 2019/6/30 ©Prof. Satoshi Nakamura, NARA INSTITTE OF SCIENCE AND TECHNOLOGY 7 異なる話者は異なる音響特徴

注視(attention)機構の導入

o 記憶を分散させ局所的に利用

o 記憶の途中過程を保持

o 注視による記憶の加重和で訳語選択

これ は 機械 翻訳 です

This is a machine trans-lation

入力単語のベクトル表現

出力単語候補のベクトル表現

2019/7/22 音学シンポジウム 招待講演 Copyright @ 中村 哲 NAIST 58

復号化(デコーダ)

This is a machine/EOS

入力単語候補のベクトル表現

入力文全体の記憶(高々数百次元)

Page 59: 音声言語処理:基礎から音声翻訳まで.../s/ /a/ /S/ Consonants /a/ Frequency f 2019/6/30 ©Prof. Satoshi Nakamura, NARA INSTITTE OF SCIENCE AND TECHNOLOGY 7 異なる話者は異なる音響特徴

ブッシュ 大統領 は プーチン と 会談 する

President Bush meets with Putin

Wait K tokensControllable!

Prediction!

原文 ブッシュ 大統領 は プーチン と 会談 する

従来法 President Bush meets with Putin

提案法 President Bush meets with PutinPrediction!

delaydelay

delay

Controllable!

予測と遅延制御による翻訳制御

Mingbo Ma, et al., “STACL: Simultaneous Translation with Integrated Anticipation and Controllable Latency”, arXiv:1810.08398v3 [cs.CL] 3 Nov 2018 2019年3月3日 情報処理学会 NL研 Copyright@2019 中村 哲@NAIST AHC-Lab. 59

帖佐克己, 須藤克仁, 中村哲,英日同時通訳におけるニューラル機械翻訳の検討, 言語処理学会第25回年次大会(ANLP2019), 2019年3月

Page 60: 音声言語処理:基礎から音声翻訳まで.../s/ /a/ /S/ Consonants /a/ Frequency f 2019/6/30 ©Prof. Satoshi Nakamura, NARA INSTITTE OF SCIENCE AND TECHNOLOGY 7 異なる話者は異なる音響特徴

英日同時通訳実験結果

o Data: ASPEC J->E

2019/7/22 音学シンポジウム 招待講演 Copyright @ 中村 哲 NAIST 60

Page 61: 音声言語処理:基礎から音声翻訳まで.../s/ /a/ /S/ Consonants /a/ Frequency f 2019/6/30 ©Prof. Satoshi Nakamura, NARA INSTITTE OF SCIENCE AND TECHNOLOGY 7 異なる話者は異なる音響特徴

内容

1. 音声認識の仕組み

2. 音声翻訳の仕組み

3. 同時通訳にむけた研究

4. 課題と今後の展開とまとめ

2019年3月3日 情報処理学会 NL研 Copyright@2019 中村 哲@NAIST AHC-Lab. 61

Page 62: 音声言語処理:基礎から音声翻訳まで.../s/ /a/ /S/ Consonants /a/ Frequency f 2019/6/30 ©Prof. Satoshi Nakamura, NARA INSTITTE OF SCIENCE AND TECHNOLOGY 7 異なる話者は異なる音響特徴

課題と研究課題

o 同時音声翻訳、パラ言語情報の取り扱い、全体最適化

o 高速化、高精度化、大語彙化、多言語化、未知言語対応

o 持続的なデータ自動収集と教師無し学習

o 方言・アクセント対応

o 雑音・残響対応、遠隔認識

o 韻律利用、パラ言語・非言語制御

o 対話構造・談話構造の考慮

o 主語省略への対応、照応への対応

o 知識表現、意味表現とその利用

o クロスカルチャー対応

2019年3月3日 情報処理学会 NL研 Copyright@2019 中村 哲@NAIST AHC-Lab. 62

Page 63: 音声言語処理:基礎から音声翻訳まで.../s/ /a/ /S/ Consonants /a/ Frequency f 2019/6/30 ©Prof. Satoshi Nakamura, NARA INSTITTE OF SCIENCE AND TECHNOLOGY 7 異なる話者は異なる音響特徴

音声言語の自動翻訳 コロナ社

2019年3月3日 情報処理学会 NL研 Copyright@2019 中村 哲@NAIST AHC-Lab. 63

Page 64: 音声言語処理:基礎から音声翻訳まで.../s/ /a/ /S/ Consonants /a/ Frequency f 2019/6/30 ©Prof. Satoshi Nakamura, NARA INSTITTE OF SCIENCE AND TECHNOLOGY 7 異なる話者は異なる音響特徴

まとめと今後

o 音声言語処理の方向o 音素単位のEnd-to-end 型へ進化。

o 音声認識と合成を一つのフレームワークで学習。

o 言語モデルも含める

o 音声翻訳の方向o End-to-end型への進化

o 通訳へ向けた研究

o 強調、抑揚、顔、ジェスチャーなどを入れた音声翻訳

o 今後の方向o パラ言語、文構造、会話の流れを考慮した翻訳

o 文脈や状況を考慮した翻訳

o 背景知識や対象領域の知識の獲得と活用

o 意味の解析や構造の利用

o コミュニケーションできるとは?

2019/7/22 音学シンポジウム 招待講演 Copyright @ 中村 哲 NAIST 64

Page 65: 音声言語処理:基礎から音声翻訳まで.../s/ /a/ /S/ Consonants /a/ Frequency f 2019/6/30 ©Prof. Satoshi Nakamura, NARA INSTITTE OF SCIENCE AND TECHNOLOGY 7 異なる話者は異なる音響特徴

2019/7/22 音学シンポジウム 招待講演 Copyright @ 中村 哲 NAIST 65

Page 66: 音声言語処理:基礎から音声翻訳まで.../s/ /a/ /S/ Consonants /a/ Frequency f 2019/6/30 ©Prof. Satoshi Nakamura, NARA INSTITTE OF SCIENCE AND TECHNOLOGY 7 異なる話者は異なる音響特徴

2019年3月3日 情報処理学会 NL研 Copyright@2019 中村 哲@NAIST AHC-Lab. 66

Page 67: 音声言語処理:基礎から音声翻訳まで.../s/ /a/ /S/ Consonants /a/ Frequency f 2019/6/30 ©Prof. Satoshi Nakamura, NARA INSTITTE OF SCIENCE AND TECHNOLOGY 7 異なる話者は異なる音響特徴

音声認識性能の向上

o Saon, et al. “English Conversational Telephone Speech Recognition by Humans and Machines”, INTERSPEECH 2017

[1] R. P. Lippmann, “Speech recognition by machines and humans,”Speech communication, vol. 22, no. 1, pp. 1–15, 1997.

日本通訳翻訳学会 2018年 基調講演 中村 哲 672018/09/09

Page 68: 音声言語処理:基礎から音声翻訳まで.../s/ /a/ /S/ Consonants /a/ Frequency f 2019/6/30 ©Prof. Satoshi Nakamura, NARA INSTITTE OF SCIENCE AND TECHNOLOGY 7 異なる話者は異なる音響特徴

大規模コーパス

多言語音声認識

多数話者の大量の

音声データ日本語と英語

の大量の対訳文

長時間英語音声データ

話し言葉翻訳

多言語音声合成

日本語 英語I go to school

「私は学校に行く」w a t a sh iw a g a xtuk o o n i…..

私は学校に行く

日本語の大量の文章

I to school go

和英辞書により日本語の単語列を英語に変換

「私は」⇒ “I” 「学校に」⇒ “to school” 「行く」⇒“go”

日本語の辞書と文法により

かな漢字列に変換

日本語の発音列に変換“a”,”I”,”u”,…

テキストに合った音声波形を

データベースから探し出す

英語の文法に合わせて語順を変更

“I” “I” “to school” “go”“go” “to school”

I go to school

コーパス

英語の大量の文章

音声翻訳のメカニズム

2018/09/09 日本通訳翻訳学会 2018年 基調講演 中村 哲 68

Page 69: 音声言語処理:基礎から音声翻訳まで.../s/ /a/ /S/ Consonants /a/ Frequency f 2019/6/30 ©Prof. Satoshi Nakamura, NARA INSTITTE OF SCIENCE AND TECHNOLOGY 7 異なる話者は異なる音響特徴

音声認識用日英中国語音声コーパス

2018/09/09 日本通訳翻訳学会 2018年 基調講演 中村 哲 69

•英語音声コーパス: 500 話者•北米: 400 話者東海岸(150), 西海岸(50),北部(50), 南部(50)

•英国 (100)•オーストラリア(100)

•合計 200 時間

•中国語音声コーパス: 500 話者•北京 200 話者•広東: 100 話者•上海i: 100 話者•台湾: 100 話者

•合計 200時間

•日本語音声コーパス: • 4000 話者•日本の主要都市

•合計 200時間

Spoken Language Communication

Research Laboratories

Page 70: 音声言語処理:基礎から音声翻訳まで.../s/ /a/ /S/ Consonants /a/ Frequency f 2019/6/30 ©Prof. Satoshi Nakamura, NARA INSTITTE OF SCIENCE AND TECHNOLOGY 7 異なる話者は異なる音響特徴

我が国の音声翻訳プロジェクトの流れ

2018/09/09 日本通訳翻訳学会 2018年 基調講演 中村 哲 70

読み上げ文を音声翻訳

•文法的な表現

•明瞭な発声

国際会議申込み」

日常の話し言葉を音声翻訳

•標準的な表現

•明瞭な発声

•限定された話題

「ホテル予約」

広い話題に適応

•広い話題での表現

(日常旅行会話)

•雑音を含む音声

•日英+日中

1986 1992 2000 2006

要素技術

ルールベース人手作業

大規模コーパス+ 機械学習

2008

A-STAR

内閣府社会還元加速PJ

• 8アジア言語

•ネットワーク型音声翻訳

2010

C-STAR

• 音声翻訳国際共同研究コンソーシアム

IWSLT

• 音声翻訳性能評価ワークショップ

2011VoiceTraNAIST

2014

U-STAR

NICTGC PJ

NICTATR

・2007年11月開始

Page 71: 音声言語処理:基礎から音声翻訳まで.../s/ /a/ /S/ Consonants /a/ Frequency f 2019/6/30 ©Prof. Satoshi Nakamura, NARA INSTITTE OF SCIENCE AND TECHNOLOGY 7 異なる話者は異なる音響特徴

コーパスに含まれる話題

2018/09/09 日本通訳翻訳学会 2018年 基調講演 中村 哲 71

観光 Sightseeing 7.7% (11) 留学 Study Overseas 1.6% (14)

レストラン Restaurant 7.3% (11) 飲物 Drink 1.3% (4)

コミュニケーションCommunication 6.4% (6) 両替 Exchange 1.2% (5)

空港 Airport 5.5% (14) 軽食 Snack 1.2% (4)

ビジネス Business 5.3% (26) 美容 Beauty 0.8% (5)

連絡 Contact 4.0% (6) 帰国 Go Home 0.6% (4)

飛行機 Airplane 3.6% (11) 研究 Research 0.1% (12)

ホームステイ Homestay 2.3% (11)

宿泊Stay

8.2% (11)

• make/changea reservation

• check-in• trouble• …

移動Move8.4% (8)

• transportation• buy a ticket• rental car• trouble• …

買物Shopping

10.0% (13)

• buy something• gather information• price• wrapping• …

基本Basic12.2% (7)

• greet someone• ask a question• state one’s

purpose• …

トラブルTrouble12.1% (20)

• luggage• emergency• medicine• assistance• …

日英100万文日中50万文

Spoken Language Communication

Research Laboratories

Page 72: 音声言語処理:基礎から音声翻訳まで.../s/ /a/ /S/ Consonants /a/ Frequency f 2019/6/30 ©Prof. Satoshi Nakamura, NARA INSTITTE OF SCIENCE AND TECHNOLOGY 7 異なる話者は異なる音響特徴

技術的なブレークスルーo コーパスベース

o 大規模なコーパスと統計的手法により学習とデコードが同一の枠組みで

o 機械翻訳o ルールベース:

言語学者、言語学の知識のある作業者がルールを注意して作成

o コーパスベース:

o 用例ベース (Example-Based)ルールを自動的にコーパスから抽出 [M.Nagao 1984, など]

o 統計ベース翻訳 (Statistical Machine Translation)さらに、ルールが頻出するかの確率を学習。Noisy Channel Model[P.F.Brown, et.al., 1993]

o 音声認識o テンプレートマッチング [Sakoe, 1971]

o 隠れマルコフモデル、N-Gramモデル [Mercer, Jelinek, Bahl,1983]

o 大量のデータの収集、試行サービスによるデータ収集

2018/09/09 日本通訳翻訳学会 2018年 基調講演 中村 哲 72

Page 73: 音声言語処理:基礎から音声翻訳まで.../s/ /a/ /S/ Consonants /a/ Frequency f 2019/6/30 ©Prof. Satoshi Nakamura, NARA INSTITTE OF SCIENCE AND TECHNOLOGY 7 異なる話者は異なる音響特徴

翻訳モデルの学習

同じ意味をもつ対訳文を整合させる

対応するフレーズを抽出する

2018/09/09 日本通訳翻訳学会 2018年 基調講演 中村 哲 73

thehotelfrontdesk

ホテ 受ルの付 ホテル の → hotel

ホテル の → the hotel受付 → front deskホテルの受付 → hotel front deskホテルの受付 → the hotel front desk

Page 74: 音声言語処理:基礎から音声翻訳まで.../s/ /a/ /S/ Consonants /a/ Frequency f 2019/6/30 ©Prof. Satoshi Nakamura, NARA INSTITTE OF SCIENCE AND TECHNOLOGY 7 異なる話者は異なる音響特徴

実験 (IWSLT2013)

o 対象データ: TED Talk(英語⇒日本語)- 翻訳(キャプション)

vs. 通訳

o 異なるスキルの通訳者

2019年3月3日 情報処理学会 NL研 Copyright@2019 中村 哲@NAIST AHC-Lab. 74

スキルのレベル # 経験年数

S 15 年

A 4 年

B 1 年

Page 75: 音声言語処理:基礎から音声翻訳まで.../s/ /a/ /S/ Consonants /a/ Frequency f 2019/6/30 ©Prof. Satoshi Nakamura, NARA INSTITTE OF SCIENCE AND TECHNOLOGY 7 異なる話者は異なる音響特徴

結果

2019年3月3日 情報処理学会 NL研 Copyright@2019 中村 哲@NAIST AHC-Lab. 75

38

40

42

44

46

48

50

0 1 2 3 4 5 6

RIB

ES

Dealy (Sec)

LM+Tu

A rank

B rank

A ランク:4 年経験B ランク:1 年経験

Fast

Accu

rate

フレーズ終了時翻訳

発話終了時翻訳

B ランク(経験 1 年)

A ランク(経験 4 年)

≒ 経験年数1年のB ランク通訳者と同等

Page 76: 音声言語処理:基礎から音声翻訳まで.../s/ /a/ /S/ Consonants /a/ Frequency f 2019/6/30 ©Prof. Satoshi Nakamura, NARA INSTITTE OF SCIENCE AND TECHNOLOGY 7 異なる話者は異なる音響特徴

音声認識性能

2019年3月3日 情報処理学会 NL研 Copyright@2019 中村 哲@NAIST AHC-Lab. 76

松田繁樹, 林輝昭, 葦苅豊, 志賀芳則, 柏岡秀紀, 安田圭志, 大熊英男, 内山将夫, 隅田英一郎, 河井恒, 中村 哲“多言語音声翻訳システム“VoiceTra” の構築と実運用による大規模実験"電子情報通信学会論文誌, J96-D, 10, Oct. 2013