Upload
kanji-takahashi
View
115
Download
6
Embed Size (px)
Citation preview
Neural Machine Translation of Rare Words with Subword UnitsRico Sennrich and Barry Haddow and Alexandra Birch, Proceedings of the 59th ACL, pp.1715-1725, 2016図や表は論⽂より引⽤
⽂献紹介
2016.12.15⾃然⾔語処理研究室 修⼠2年 髙橋寛治
概要ニューラル機械翻訳(NMT)で単純かつ効果的に語彙を扱う⽅法を提案
低頻度語や未知語を部分語の系列として取り扱う
WMT15翻訳タスクでBLEUが1.1ポイント向上
Neural Machine Translation of Rare Words with Subword Units
はじめに低頻度語の翻訳は問題NMTでは⼊⼒の語彙制限がある
辞書による対応やコピーなどBack-off辞書の検索(Jean et al.,2015, Luong et al.,2015)
語彙の制限をしないNMTを⽬指すByte Pair Encodingによる単語分割により実現
Neural Machine Translation of Rare Words with Subword Units
NMT(ニューラル機械翻訳)Bahdanauら2015の注意型RNN Encoder-Decoderモデルを実装
Neural Machine Translation of Rare Words with Subword Units
RNNEncoder-Decoderモデルのイメージ図
部分語翻訳のアイデア固有表現Barack Obamaバラク・オバマ借⽤語や語源が同じ語ClaustophobiaKlaustrophobie(German)形態論が複雑Solar systemSonnensystem(German)
Neural Machine Translation of Rare Words with Subword Units
部分語の関連研究未知語の翻訳は統計翻訳の⼀つの課題未知語の多くは名詞
形態素解析による対処複合語を分割する
部分語の単位はタスク依存NMT向けの語彙の固定に⽂字ベースや形態素ベースなど
Neural Machine Translation of Rare Words with Subword Units
Byte Pair Encodingデータ圧縮⼿法のバイト対符号化(可逆圧縮)頻度の⾼いバイトのペアを⼀つの未使⽤バイトへ置換する
(ʻA ,̓ ʻBʼ)という組み合わせの頻度が⾼い場合ʻABʼという新しいシンボルが作られる頻出する⽂字n-gramが結合されていく
Neural Machine Translation of Rare Words with Subword Units
Neural Machine Translation of Rare Words with Subword Units
・は、語の終わりを表す
未知語「lower」→ʼlow er・ʼ
ソースとターゲットで独⽴してBPE
2つの語彙の集合をエンコード(joint BPE)
評価評価したいこと低頻度語または未知語の翻訳が向上したかどの分割が良いか
コーパス(WMT2015)英語→ドイツ語(420万⽂)英語→ロシア語(260万分)
Neural Machine Translation of Rare Words with Subword Units
部分語の統計
Neural Machine Translation of Rare Words with Subword Units
英語→ドイツ語翻訳の評価
Neural Machine Translation of Rare Words with Subword Units
Wdictは単語レベルのモデル(辞書あり)WUnkは辞書なし
Neural Machine Translation of Rare Words with Subword Units
定量的な分析
低頻度語にBPEなど⽂字ベースのものが強い
低頻度すぎると辞書が良い
Neural Machine Translation of Rare Words with Subword Units
定性的な分析
うまくいった例
BPEがうまく翻訳
まとめBPEによりNMTの語彙数問題を軽減
BPEによる分割はベースラインより良い
未知語、低頻度語はベースラインでは翻訳しがたい語彙数の削減が翻訳しやすさに影響
Neural Machine Translation of Rare Words with Subword Units