音声言語処理：基礎から音声翻訳まで.../s/ /a/ /S/ Consonants /a/ Frequency f 2019/6/30 ©Prof. Satoshi Nakamura, NARA INSTITTE OF SCIENCE AND TECHNOLOGY 7 異なる話者は異なる音響特徴

音声言語処理：基礎から音声翻訳まで

奈良先端科学技術大学院大学

データ駆動型サイエンス創造センター長

先端科学技術研究科教授

中村哲

2019年3月3日情報処理学会 NL研 Copyright@2019 中村哲＠NAIST AHC-Lab. 1

内容

1. 音声認識の仕組みと最近の進歩

2. 音声翻訳システム

3. 同時通訳にむけた研究

4. 課題と今後の展開とまとめ


音声認識の概要難しさ

音声認識技術

特徴抽出：Feature Extraction

音響モデル：Acoustic Modeling

言語モデル：Language Modeling

辞書：Lexicon Dictionary

認識：Decoding Search 音声認識システムの構築：Development of ASR System

現在の音声認識の性能：Current Performance of ASR System

OUTLINE

2019/6/30 ©Prof. Satoshi Nakamura, NARA INSTITTE OF SCIENCE AND TECHNOLOGY 3

音声認識のイメージ：Communication between human and machine

What is ASR?

Recognized words

“GOOD AFTERNOON”

Multi-speaker

Multi-lingual

Multi-environment

Natural dialog

ゴール：Ultimate Goal:正確に音響信号 Xを単語列 Wに書き起こす。


音声認識の課題

Challenges to Recognize a Speech


異なる音素：Different Phonemes

異なる音素は異なる音響特徴を持つ：Different phonemes have different spectral characteristic

言語的な要因

Frequency f


調音結合：Co-articulation

同じ音素でも周りの音素で音響的に変化する

単語内、単語間で影響を受ける。

コンテキストの影響：Contextual Variability

Vowels

/s/ /a/ /S/

Consonants

/a/Frequency f


異なる話者は異なる音響特徴

個人性: 話し方、速度、イントネーション

アクセントの違い: 地域性、母語

声質の差: 男性、女性、子供、高齢者

話者の要因


異なる環境による差

背景雑音: cars, trains, fans

残響: echo

マイク/伝送路: close microphone, telephone

環境の要因


統計的音声認識の現状

State-of-the-art Statistical ASR


統計的音声認識の構造

X1X2X3X4… …XT-1XT

/m/ /a/ /i/ /s/ /p/ /ee/ /t/ /sh/

/my speech/

“MY SPEECH”

/my/ /speech/

Speech

signals

単語：Words

音素Phonemes

フレーム：Frames

Most probable sequence of words

文：Sentences

音響モデルAcoustic

model

音素辞書Pronunciation

lexicon

言語モデル：Language

model

HMM

state

HMM


Phone-Level Matcher

Word-Level

Matcher

Sentence-

Level MatcherAcoustic Model

P(Xs|)LexiconP( | W)

LanguageModel P(W)

Feature Extraction

SearchAlgorithm

Xs ŴRecognized

Words

Hypothesis

Text Corpus

SpeechCorpus

TrainTrain

Statistical Learning

Speech Waveform

音声認識システム

単語列の最尤復号：The most probable string of words:

)|()|()(maxarg

)|()(maxarg)|(maxarg

sw

sw

sw

XPWPWP

WXPWPXWPW

o ５つの要素特徴抽出：Feature extraction

音響モデル：Acoustic model

発音辞書：Pronunciation lexicon

言語モデル：Language model

探索：Search algorithm


特徴抽出

Feature Extraction


特徴抽出

Analysis Unit / FrameFrame Transition

特徴抽出の例MFCC : メルケプストラム

x1 x2 x3

特徴ベクトル：Feature Vector

Feature Space

c1 X1X2

X3X4

X16

X5

X6X7

X13

X10

X12

X9

X11 X15

X17

X14

X18

X19

c2


音響モデル

Acoustic Model


統計的音声認識の構成


/m/ /a/ /i/ /s/ /p/ /ee/ /t/ /sh/


Speech

signals

単語：Words

音素Phonemes



文：Sentences


model


lexicon


model

HMM

state

HMM

音響モデル

Feature Space

c1 X1X2

X3X4

X16

X5

X6X7

X13

X10

X12

X9

X11 X15

X17

X14

X18

X19

c2

Gaussian Mixture

Model (GMM)

Mixture coefficients ”bjk”

(B-matrix)

321 HMM (N=3)

1フレームの音声信号 (every 10 ms)は特徴ベクトル：feature vector、 Xt で表現される。この時、10 msec毎にHMMの状態を遷移する


HMMとは

Left-to-Right (Bakis Model)


離散HMMと連続HMMDiscrete vs Continuous HMM


HMMの構成要素

HMMの要素

状態系列：State sequence of time length T

観測系列：The observed output sequence of time length T

遷移確率：Transition probabilities from state i to state j

シンボル出力確率：Observation symbol probability distribution in state j

初期確率：Initial state distribution

HMM


HMM 復号

HMMの最適状態系列を求める

Given:

最適状態系列Qを求める


音響モデルとしてのHMM

HMMはどんな音声の特徴にも関連づけられる単語、音節、音素：words, syllables or phonemes

より、長い系列：the wider unit model, the better capturing linguistic and contextual

variability

大語彙音声認識のためには単語より小さな単位が適切

音素モデルなら 50のHMM

で足りる


コンテキスト依存トライフォンContext-Dependent Triphone

モノフォンHMMだとコンテキストが表現できない調音結合をコンテキストとして考慮するモデルにする


発音辞書

Pronunciation Lexicon


Structure of Statistical ASR


/m/ /a/ /i/ /s/ /p/ /ee/ /t/ /sh/

/my/ /speech/


Speech

signals

単語：Words

音素Phonemes



文：Sentences


model


lexicon


model

HMM

state

HMM

発音辞書

発音辞書：Pronunciation Lexicon 辞書中の単語に発音を付与

マージした形にして、探索を高速化


言語モデル

Language Model


Structure of Statistical ASR


/m/ /a/ /i/ /s/ /p/ /ee/ /t/ /sh/

/my speech/

“MY SPEECH”

/my/ /speech/


Speech

signals

単語：Words

音素Phonemes



文：Sentences


model


lexicon


model

HMM

state

HMM

言語モデル：Language Model

言語モデル：Language Model 単語系列の確率：Provide a priori probability of hypothesized word sequences

有限状態オートマトン：Finite State Automata (FSA):

1

1

0 8

9

Good

Morning

Afternoon

Evening

単純なタスクだと動くが、大語彙音声認識だと無理


Word1 Word0 Prob

Boy Bad 0.75Boy Pad 0.02

N-gram 言語モデルの例

バイグラムLM:Bigram LM:

N-gram 言語モデル


探索アルゴリズム

Decoding Search Algorithm


最終ゴール:

特徴系列Xsが与えられたとき、最も確率の高い単語列W 探索する問題。事後確率最大化法とも呼ばれる（MAP)。

音声認識における候補列探索

ベイズ則:


最近の音声認識の進歩

o これまでの経緯o テンプレートマッチング、動的計画法 [Sakoe 71]

o 隠れマルコフモデル、N-Gramモデル [Mercer 83, etc]

o ニューラルネットワーク、TDNN[Waibel 89], LSTM [Hochreiter 97]

o Weighted Finite State Transducer [Mohri 2006]

o 大量のデータの収集、試行サービスによるデータ収集

o 深層学習による最近の進化o DNN-HMM [Hinton 2012]

o DNN により状態の事後確率を直接推定する

o Connectionist Temporal Classification [Graves 2013]

o フレーム毎に音素ラベルを出力する

o Listen, Attend, and Spell [Chan 2016]

o CTCにAttentionメカニズムを加え高精度化


DNNによるハイブリッドHMM/DNN

34Sakriani Sakti @ AHC Labs, NAIST, Japan |音声言語処理| November 14th, 2018

状態確率をDNNでフレームごとに推定

Sequence-to-Sequence (Seq2Seq)

35

Sakriani Sakti @ AHC Labs, NAIST, Japan |音声言語処理| November 14th, 2018

[Source: karpathy.github.io]

End-to-End ASR：波形から文字出力 CTC


Listen, Attend, and Spell (LAS)


o LAS 2つのコンポーネント (Two components)

リスナー (Listener)：

フィルタバンクスペクトルを入力として受け

入れるピラミッド型RNNエンコーダ

RNN encoder that accepts filter bank spectra as inputsスペルラー (Speller)：

出力として文字を出力するRNNデコーダ

RNN decoder that emits characters as outputs

[Chan et. al 2016]

最近の音声合成の進歩

o フォルマント合成、素片合成

o 確率モデルベース音声合成：HTSo HMMフレームワークによる音声合成o Tokuda, et al., “Speech parameter generation algorithms for HMM-based speech synthesis”, ICASSP

2000

o WaveNeto 時系列信号に対し、畳み込みを行うNNにより波形生成o van den Oord et al., “WAVENET: A GENERATIVE MODEL FOR RAW AUDIO”,

arXiv:1609.03499v2 [cs.SD] 19 Sep 2016

o Tacotrono 文字入力でスペクトログラムを生成、その後、Griffin-Lim法で波形生成o Wang, et al., “TACOTRON: TOWARDS END-TO-END SPEECH SYNTHESIS”,

arXiv:1703.10135v2 [cs.CL] 6 Apr 2017


①Human vs Machine Speech Chain


①Machine speech chain の構成


a. Machine speech chain の構成b. ASR から TTSc. TTSからASR

A.Tjandra,et al., “Listening while Speaking: Speech Chain by Deep Learning“ , arXiv:1707.04879, 2017Accepted for IEEE ASRU 2017

ASRの基本構造


TTSの基本構造

Reference : Chan et al (2015), Listen Attend Spell Reference : Wang et al (2017), Tacotron

Encoder with BiLSTM & sequence subsamplingDecoder with LSTM & attention module

Modified Tacotron with additional speaker embedding + frame ending binary prediction

①Machine speech chain の構成

①Speech Chain のアルゴリズム

o Speech とTextのペアデータと、Speech only, Text onlyのペアでないデータを用意

o Supervised training :

o それぞれ、ASRとTTSの生成誤差をペアデータで計算

o Unsupervised training :

o ペアでないデータに対し、ASRに関してはTTSを用いて音声を生成、TTSに対してはASRを用いてテキストを生成

o 生成誤差（音声の誤差、テキストの誤差）を計算

o 2種類の生成誤差を組み合わせ、ASRとTTSのパラメータの勾配計算


A.Tjandra,et al., “Listening while Speaking: Speech Chain by Deep Learning“ , arXiv:1707.04879, 2017 Accepted for IEEE ASRU 2017

内容

1. 音声認識の仕組みと最近の進歩

2. 音声翻訳システム




話し言葉とコミュニケーション

o 書き言葉o 記録、保存、時代を超えた伝承が目的

o 時間をかけて推敲し文を作成

o 高圧縮、文法的

o 時間をかけて読解

o わかるまで読み返す

o 話し言葉o その場でのコミュニケーション、意図伝達が目的

o リアルタイムで発話を生成

o 低圧縮、非文法的、文脈依存、冗長語、不完全

o マルチモーダル、パラ言語（韻律、個人性、強調、感情）

o リアルタイムに発話を理解

o 文脈、パラ言語、マルチモーダル情報の利用

o Mutual Grounding の構築と利用


大規模コーパス

多言語音声認識

多数話者の大量の

音声データ日本語と英語

の大量の対訳文

長時間英語音声データ

話し言葉翻訳

多言語音声合成

日本語英語I go to school

「私は学校に行く」w a t a sh iw a g a xtuk o o n i…..

私は学校に行く

日本語の大量の文章

I to school go

和英辞書により日本語の単語列を英語に変換

「私は」⇒ “I” 「学校に」⇒ “to school” 「行く」⇒“go”

日本語の辞書と文法により

かな漢字列に変換

日本語の発音列に変換“a”,”I”,”u”,…

テキストに合った音声波形を

データベースから探し出す

英語の文法に合わせて語順を変更

“I” “I” “to school” “go”“go” “to school”

I go to school

コーパス

英語の大量の文章

音声翻訳のメカニズム

2018/09/09 日本通訳翻訳学会 2018年基調講演中村哲 45

フレーズベース機械翻訳

文を短いフレーズのような短い単位に分割して翻訳


Today I will give a lecture on machine translation .

Today今日は、

I will giveを行います

a lecture onの講義

machine translation機械翻訳

.。

Today今日は、




.。

今日は、機械翻訳の講義を行います。

翻訳モデル: (TM: Translation Model) 並べ替えモデル： (RM: Reordering Model) 言語モデル: (LM: Language Model)

統計的機械翻訳


• 統計モデル、言語モデル、デコーダーから構成される。

原言語と目的言語のパラレルテキスト

コーパス

目的言語のテキストコーパス

統計解析統計解析

翻訳モデル言語モデル

スコアを考慮して翻訳処理入力文（原言語）翻訳文（目的言語）

並び替えモデル

フレーズの置換置換フレーズの文法整合性判定

デコーダ

パラレルコーパス

Japanese: “窓をあけてもいいですか”


English:1. may i open the window2. ok if i open the window3. can i open the window4. could we crack the window5. is it okay if i open the window6. would you mind if i opened the

window7. is it okay to open the window8. do you mind if i open the window9. would it be all right to open the

window10. i’d like to open the window

Japanese English Chinese Korean New lang.

機械翻訳と音声翻訳の性能


松田繁樹, 林輝昭, 葦苅豊, 志賀芳則, 柏岡秀紀, 安田圭志, 大熊英男, 内山将夫, 隅田英一郎, 河井恒, 中村哲“多言語音声翻訳システム“VoiceTra” の構築と実運用による大規模実験"電子情報通信学会論文誌, J96-D, 10, Oct. 2013

http://www.nict.go.jp/index.html


内容

1. 音声認識の仕組み

2. 音声翻訳の仕組み

3. 音声翻訳技術の現状




コミュニケーションとしての音声翻訳を考えよう

情報処理学会 NL研 Copyright@2019 中村哲＠NAIST AHC-Lab. 51

入力テキスト音声画像

ジェスチャ

音声⇒テキスト音声認識

同時翻訳変換

対話制御

言語情報

非言語情報感情・スタイル声質・韻律ジェスチャ

言語情報

非言語情報感情・スタイル声質・韻律ジェスチャ

出力テキスト音声画像

ジェスチャ

原言語目的言語

音声信号“to o kyo e i ku”

機械翻訳結果/I/go/to/Tokyo/

音声合成結果“ai go tu tokyo/

声質、韻律声質、韻律

談話構造文脈

ドメイン知識オントロジ

テキスト

画像⇒テキスト画像認識

テキスト

テキスト⇒音声音声合成

テキスト⇒画像画像合成

電子情報通信学会誌2015，改End-to-end で学習

コミュニケーションにおける① 逐次性，同時性② パラ言語情報

2019年3月3日

フレーズベース統計的機械翻訳（SMT）

o文を翻訳可能な小さい塊（フレーズ）に分けて並べ替える


Today I will give a lecture on machine translation .

Today今日は、




.。

Today今日は、




.。

今日は、機械翻訳の講義を行います。

翻訳モデル（フレーズテーブル）・並べ替えモデル・言語モデルをテキストから統計的に学習

並べ替えモデル

フレーズの並べ替え方を確率的に表し精度向上

現在のフレーズと次のフレーズの順番を4種類に分類：

「順」と「不連続(右)」の確率の和は「右確率」


背の高い男

the tall man

順：順番は同じ

太郎を訪問した

visited Taro

逆順：順番は逆

私は太郎を訪問した

I visited Taro

不連続（右）：不連続（左）：

背の高い男を訪問した

visited the tall man

右確率を用いた訳出タイミングの調整

まず、手法1を用いて訳出タイミングを仮確定

フレーズの右確率が閾値を上回った場合のみ本確定

閾値が1.0の場合は文ごと、0.0の場合はフレーズごと


例(閾値= 0.8):

hello where is the station

“hello”モデルに存在

↓保留

“hello where”存在しない

↓“hello”を選択

↓右確率 0.9 > 0.8

↓出力 “hello”

“where is”モデルに存在

↓保留

“where is the”存在しない

↓“where is”を選択

↓右確率0.6 < 0.8

↓出力しない

“the station”発話終了

↓出力

“where is the station”

本確定

仮確定

本確定

仮確定

結果1：各設定の精度・遅延

全ての設定において遅延が減少

長い文、語順が類似している言語対で特に顕著


機械翻訳の進歩

o コーパスベース：

o 統計ベース翻訳（Statistical Machine Translation) さらに、ルールが頻出するかの確率を学習。Noisy Channel Model [P.F.Brown, et al. 93]

o Phrase-base SMT単語レベルでなくフレーズという単位を導入。

o Tree-to-string

o 構文構造の関係を学習する統計的機械翻訳

o 深層学習に基づく機械翻訳o Neural Machine Translation

o LSTMによるEncoder と Decoderを組み合わせ、翻訳文を生成する

o Attention NMT

o 原言語の単語列のEncoder出力に重みを加えてDecoderにいれることでアライメントをImplicitに学習する

o Transformer: Self attention だけの利用で高速化


Statistical Translation Frameworks


Symbolic Models

Phrase-based MT [Koehn+ 03]

he has a cold

彼は風邪を引いている

he

彼はhas

引いているa cold

風邪を

he

彼はhas

引いているa cold

風邪を

Tree-to-String MT [Liu+ 06]

彼は風邪

he has a cold

PRP VBZ DET NN

VP

NP

S

引いているを

Continuous-space (Neural) Models

Encoder-Decoder [Sutskever+ 14]

he has a cold <s>

彼

彼

は

は

風邪

風邪

を

引いているを

<s>引いている

Attentional [Bahdanau+ 15]he has a cold

g1,...,g

4

a1

a2

a3

a4

hi-1

hi

ri-1

P(ei|F,e

1,...,e

i-1)

Intelligent and Invisible Computing 57

注視(attention)機構の導入

o 記憶を分散させ局所的に利用

o 記憶の途中過程を保持

o 注視による記憶の加重和で訳語選択

これは機械翻訳です

This is a machine trans-lation

入力単語のベクトル表現

出力単語候補のベクトル表現

2019/7/22 音学シンポジウム招待講演 Copyright @ 中村哲 NAIST 58

復号化（デコーダ）

This is a machine/EOS

入力単語候補のベクトル表現

入力文全体の記憶（高々数百次元）

ブッシュ大統領はプーチンと会談する

President Bush meets with Putin

Wait K tokensControllable!

Prediction!

原文ブッシュ大統領はプーチンと会談する

従来法 President Bush meets with Putin

提案法 President Bush meets with PutinPrediction!

delaydelay

delay

Controllable!

予測と遅延制御による翻訳制御

Mingbo Ma, et al., “STACL: Simultaneous Translation with Integrated Anticipation and Controllable Latency”, arXiv:1810.08398v3 [cs.CL] 3 Nov 2018 2019年3月3日情報処理学会 NL研 Copyright@2019 中村哲＠NAIST AHC-Lab. 59

帖佐克己, 須藤克仁, 中村哲,英日同時通訳におけるニューラル機械翻訳の検討, 言語処理学会第25回年次大会(ANLP2019), 2019年3月

英日同時通訳実験結果

o Data: ASPEC J->E


内容

1. 音声認識の仕組み

2. 音声翻訳の仕組み




課題と研究課題

o 同時音声翻訳、パラ言語情報の取り扱い、全体最適化

o 高速化、高精度化、大語彙化、多言語化、未知言語対応

o 持続的なデータ自動収集と教師無し学習

o 方言・アクセント対応

o 雑音・残響対応、遠隔認識

o 韻律利用、パラ言語・非言語制御

o 対話構造・談話構造の考慮

o 主語省略への対応、照応への対応

o 知識表現、意味表現とその利用

o クロスカルチャー対応


音声言語の自動翻訳コロナ社


まとめと今後

o 音声言語処理の方向o 音素単位のEnd-to-end 型へ進化。

o 音声認識と合成を一つのフレームワークで学習。

o 言語モデルも含める

o 音声翻訳の方向o End-to-end型への進化

o 通訳へ向けた研究

o 強調、抑揚、顔、ジェスチャーなどを入れた音声翻訳

o 今後の方向o パラ言語、文構造、会話の流れを考慮した翻訳

o 文脈や状況を考慮した翻訳

o 背景知識や対象領域の知識の獲得と活用

o 意味の解析や構造の利用

o コミュニケーションできるとは？




音声認識性能の向上

o Saon, et al. “English Conversational Telephone Speech Recognition by Humans and Machines”, INTERSPEECH 2017

[1] R. P. Lippmann, “Speech recognition by machines and humans,”Speech communication, vol. 22, no. 1, pp. 1–15, 1997.

日本通訳翻訳学会 2018年基調講演中村哲 672018/09/09

大規模コーパス

多言語音声認識

多数話者の大量の

音声データ日本語と英語

の大量の対訳文

長時間英語音声データ

話し言葉翻訳

多言語音声合成

日本語英語I go to school

「私は学校に行く」w a t a sh iw a g a xtuk o o n i…..

私は学校に行く

日本語の大量の文章

I to school go

和英辞書により日本語の単語列を英語に変換

「私は」⇒ “I” 「学校に」⇒ “to school” 「行く」⇒“go”

日本語の辞書と文法により

かな漢字列に変換

日本語の発音列に変換“a”,”I”,”u”,…

テキストに合った音声波形を

データベースから探し出す

英語の文法に合わせて語順を変更

“I” “I” “to school” “go”“go” “to school”

I go to school

コーパス

英語の大量の文章

音声翻訳のメカニズム


音声認識用日英中国語音声コーパス


•英語音声コーパス: 500 話者•北米: 400 話者東海岸(150), 西海岸(50),北部(50), 南部(50)

•英国 (100)•オーストラリア(100)

•合計 200 時間

•中国語音声コーパス: 500 話者•北京 200 話者•広東: 100 話者•上海i: 100 話者•台湾: 100 話者

•合計 200時間

•日本語音声コーパス: • 4000 話者•日本の主要都市

•合計 200時間

Spoken Language Communication

Research Laboratories

我が国の音声翻訳プロジェクトの流れ


読み上げ文を音声翻訳

•文法的な表現

•明瞭な発声

国際会議申込み」

日常の話し言葉を音声翻訳

•標準的な表現

•明瞭な発声

•限定された話題

「ホテル予約」

広い話題に適応

•広い話題での表現

（日常旅行会話）

•雑音を含む音声

•日英＋日中

1986 1992 2000 2006

要素技術

ルールベース人手作業

大規模コーパス+ 機械学習

2008

A-STAR

内閣府社会還元加速PJ

• 8アジア言語

•ネットワーク型音声翻訳

2010

C-STAR

• 音声翻訳国際共同研究コンソーシアム

IWSLT

• 音声翻訳性能評価ワークショップ

2011VoiceTraNAIST

2014

U-STAR

NICTGC PJ

NICTATR

・2007年11月開始

コーパスに含まれる話題


観光 Sightseeing 7.7% (11) 留学 Study Overseas 1.6% (14)

レストラン Restaurant 7.3% (11) 飲物 Drink 1.3% (4)

コミュニケーションCommunication 6.4% (6) 両替 Exchange 1.2% (5)

空港 Airport 5.5% (14) 軽食 Snack 1.2% (4)

ビジネス Business 5.3% (26) 美容 Beauty 0.8% (5)

連絡 Contact 4.0% (6) 帰国 Go Home 0.6% (4)

飛行機 Airplane 3.6% (11) 研究 Research 0.1% (12)

ホームステイ Homestay 2.3% (11)

宿泊Stay

8.2% (11)

• make/changea reservation

• check-in• trouble• …

移動Move8.4% (8)

• transportation• buy a ticket• rental car• trouble• …

買物Shopping

10.0% (13)

• buy something• gather information• price• wrapping• …

基本Basic12.2% (7)

• greet someone• ask a question• state one’s

purpose• …

トラブルTrouble12.1% (20)

• luggage• emergency• medicine• assistance• …

日英１００万文日中５０万文

Spoken Language Communication

Research Laboratories

技術的なブレークスルーo コーパスベース

o 大規模なコーパスと統計的手法により学習とデコードが同一の枠組みで

o 機械翻訳o ルールベース：

言語学者、言語学の知識のある作業者がルールを注意して作成

o コーパスベース：

o 用例ベース（Example-Based）ルールを自動的にコーパスから抽出 [M.Nagao 1984, など]

o 統計ベース翻訳（Statistical Machine Translation)さらに、ルールが頻出するかの確率を学習。Noisy Channel Model[P.F.Brown, et.al., 1993]

o 音声認識o テンプレートマッチング [Sakoe, 1971]

o 隠れマルコフモデル、N-Gramモデル [Mercer, Jelinek, Bahl,1983]

o 大量のデータの収集、試行サービスによるデータ収集


翻訳モデルの学習

同じ意味をもつ対訳文を整合させる

対応するフレーズを抽出する


thehotelfrontdesk

ホテ受ルの付ホテルの → hotel

ホテルの → the hotel受付 → front deskホテルの受付 → hotel front deskホテルの受付 → the hotel front desk

実験 (IWSLT2013)

o 対象データ: TED Talk（英語⇒日本語）－翻訳(キャプション)

vs. 通訳

o 異なるスキルの通訳者


スキルのレベル # 経験年数

Ｓ 15 年

Ａ 4 年

Ｂ 1 年

結果


38

40

42

44

46

48

50

0 1 2 3 4 5 6

RIB

ES

Dealy (Sec)

LM+Tu

A rank

B rank

Ａランク：4 年経験Ｂランク：1 年経験

Fast

Accu

rate

フレーズ終了時翻訳

発話終了時翻訳

B ランク（経験 1 年）

A ランク（経験 4 年）

≒ 経験年数1年のB ランク通訳者と同等

../../++プレゼンテーション資料/Video-photo-etc/2013 0926 同時通訳/Demonstration-movie/Demonstration-movie.wmv

../../++プレゼンテーション資料/Video-photo-etc/2013 0926 同時通訳/Demonstration-movie/Demonstration-movie.wmv

音声認識性能


松田繁樹, 林輝昭, 葦苅豊, 志賀芳則, 柏岡秀紀, 安田圭志, 大熊英男, 内山将夫, 隅田英一郎, 河井恒, 中村哲“多言語音声翻訳システム“VoiceTra” の構築と実運用による大規模実験"電子情報通信学会論文誌, J96-D, 10, Oct. 2013



Documents

音声言語処理：基礎から音声翻訳まで.../s/ /a/ /S/ Consonants /a/ Frequency f 2019/6/30 ©Prof. Satoshi Nakamura, NARA INSTITTE OF SCIENCE AND TECHNOLOGY 7 異なる話者は異なる音響特徴