12
Agreement on Target- bidirectional Neural Machine Translation Lemao Liu, Masao Utiyama, Andrew Finch, Eiichiro Sumita

Agreement for rnn

Embed Size (px)

Citation preview

Page 1: Agreement for rnn

Agreement on Target-bidirectional Neural Machine Translation

Lemao Liu, Masao Utiyama, Andrew Finch, Eiichiro Sumita

Page 2: Agreement for rnn

Introduction• リカレントニューラルネットワークを用いたニューラル機械翻訳は、

end-to-end 機械翻訳のための有効な手法• RNN の利点: time ステップでの予測において、無制限な history をコンテキストを豊かにするために使うことが出来る• RNN の欠点:文頭に比べて文末の精度が低い(アンバランスな出力)• ニューラル機械翻訳のための agreement モデルを提案する→日本語・英語、中国語・英語の機械翻訳• 我々のモデルは、最大 1.4 BLEU の改善を達成した• アンサンブル技術をもちいて、モデルは最大で 5.6 BLEU で baselineを上回った

Page 3: Agreement for rnn

Introduction (Liu ら , 2016) が提案した sequence-to-sequence 学習タスクの agreement モデルを機械翻訳のタスクに拡張するキーアイデア:• よりバランスのとれた翻訳を生成するためにターゲットで両方向(左から右、右から左へ)のペアを使った NMT モデルを使う

私たちの貢献 :1) このメソッドは余分なハイパーパラメータのチューニングすることなく、堅牢で、実装が容易2) 大規模な日本語・英語と中国語・英語翻訳タスクで技術の実証評価を行った

Page 4: Agreement for rnn

Overview of Neural Machine Translation

• x = ⟨x1, x2, · · · , xm⟩ - ソースセンテンス• y = ⟨y1, y2, · · · , yn⟩ - ターゲットセンテンス• x<t = ⟨x1, x2, · · · , xt−1⟩ - x の接頭辞

• θ – モデルパラメータのセット• ht - タイムステップ t で、 y の隠れ状態• g - 隠れ状態からターゲット側の語彙サイズの次元のベクトルへの変換関数• ht = f (ht−1 , c(x, y<t ))

• c(x, y<t ) – コンテキスト• [yt] - ボキャブラリーの単語のインデクス

Page 5: Agreement for rnn

Agreement on Target-bidirectional NMT (Training)

• agreement モデル(または joint )のトレーニングの目的関数 :

• yr = ⟨yn,yn−1 ··· ,y1⟩ - シーケンス y の反転 • p(y|x;θ1) - パラメータが θ1 である左から右へのモデル• p(yr|x;θ2) - パラメータが θ2 である右から左へモデル We

employ AdaDelta (Zeiler, 2012) to minimize the loss l • loss を最小化するために AdaDelta ( Zeiler 、 2012 )を採用します

Page 6: Agreement for rnn

Agreement on Target-bidirectional NMT (Training)• Cheng ら (2016) の agreement のアイデアはソース側とターゲット側の間の agreement を行う• 我々は、ターゲット側の左右方向の間の

agreement に焦点を当てる• 我々のモデルの利点:• ハイパーパラメータのチューニングにコストがかかるので、追加のハイパーパラメータなどに依存していない

Page 7: Agreement for rnn

Approximate Joint Search

• ソースセンテンス x とモデルパラメータ⟨ θ1, θ2⟩ が与えられたときのデコーディングは:

• 基本的な考え方は、 2 つのステップで構成される : 1) ビームサーチをフォワードで実行し、 2 つの k-best リストを取得するためにモデルを独立的に逆転する2) 最適な候補を見つけるための共同モデルを用いて、 2 つの

k-best リストの和集合に対して再スコアを行う

Page 8: Agreement for rnn

Experiments JP-EN CH-EN

Database NTCIR- 9 (Goto et al., 2011)

NIST2008 Open Machine Translation Campaign

Training data (sentence pairs) 2.0M 1.8M

Development set 2K nist02 (878 sentences)

Test set 2K nist05 (1082 sentences)nist06 (1664 sentences) nist08 (1357 sentences)

Baselines:• Moses• Moses-hier• Left-to-right NMT (NMT-

l2r)• Right-to- left NMT (NMT-

r2l) Quality of 5-word prefixes and

suffices of translations in the JP-EN test set, evaluated using

partial BLEU

Page 9: Agreement for rnn

Experiments すべての NMT ベースのシステムに (Bahdanau ら、 2014 )で示されたデフォルト設定を使用した:• ワード埋め込みの次元 : 620• 隠れユニットの次元 :1000• バッチサイズ : 80• ソースとターゲット側の語彙サイズ : 30000• デコーディングのビームサイズ : 12

大規模データ上で:• トレーニングは1つの Tesla K80 GPU 上で実施• それぞせの NMT システムをトレーニングするには約 6 日がかかった

Page 10: Agreement for rnn

Results and Analysis on the JP-EN Task

• 部分的な翻訳の精度を評価するための指標として部分 4-gramを使用• NMT-J-5 - 5つの L2R と5つの

R2L NMT モデルのアンサンブル• NMT-r2l-5 - 5つの R2L NMTモデルのアンサンブルこれは、 JP-EN 翻訳の end-to-end ニューラル機械翻訳システム で、このような改善を達成したのは今回が初めてです

JP-EN 翻訳タスクでの提案されたNMT-Joint モデルと他のベースラインの BLEU の比較

Page 11: Agreement for rnn

Results on the CH-EN Task

CH-EN 翻訳タスクでの提案された NMT-Joint モデルと他のベースラインの BLEU の比較

Page 12: Agreement for rnn

Conclusion • 我々は (Liu ら , 2016) の単純な sequence-to-

sequence 学習タスクから機械翻訳へ拡張された実装が容易である agreement モデルを提案した• バランスのとれた出力を生成することで、最大 1.4

BLEU の改善が行え、一貫してすべてのテスト・セットで NMT のベースラインを上回ることができた• 我々のアプローチは(未知語の特別な処理なしに)アンサンブル技術を用いて、強力なフレーズベースおよび階層的なフレーズベースの Moses のベースラインを最大 BLEU 5.6 で超えることができた