統計的機械翻訳入門その3 〜デコーダ編〜 #TokyoNLP

統計的機械翻訳入門その3 ～デコーダ編～

@nokuno

#tokyonlp

参考文献

•  機械翻訳の教科書

•  6章を中心に

•  http://amzn.to/hIvoo6

自己紹介

•  @nokuno / id:nokuno

•  #TokyoNLP主催

•  Social IME / StaKK開発者

•  Web系ソフトウェアエンジニア

•  統計的機械翻訳入門中

デコードとは？

•  モデル：P(e|f) ∝ P(f|e) P(e)

•  デコード：入力文に対し最適解を返す

•  全探索：指数的に増えてしまい計算困難

•  →最適解を諦めて高速に探索

翻訳エラー

•  翻訳エラーの種類

– サーチエラー：最適な解ではない

– モデルエラー：最適解が正解ではない

– 幸運なエラー：最適解ではないが正解

•  今回はサーチエラーの削減を主眼に置く

翻訳プロセス •  タスク：ドイツ語から英語に翻訳する

p(e|f) =I�

φ(fi|ei)d(si − ei−1 − 1)p(ei|ei−11 )

翻訳モデル •  以下の確率を最大化するeを求めたい

フレーズ翻訳並べ替え言語モデル

→Πの中身はフレーズを追加するごとに増えていく

探索問題としてのデコード

•  フレーズごとに複数の翻訳候補がありうる

•  翻訳候補は左から順番に生成する

•  入力文はどの順番で消費してもいい

•  「仮説」：途中までの翻訳結果

翻訳候補

•  フレーズごとに翻訳候補を列挙する

翻訳ステップ１

•  空の仮説からはじめる

翻訳ステップ２

•  入力文を消費しながら仮説を展開していく

翻訳ステップ３

•  出力文が終わるまで続ける

翻訳ステップ４

•  最良の解を見つける

計算量の問題

•  入力をどの順に消費してもよいため，指数時間になってしまう！

•  計算量を減らす方法

– 動的計画法

– ヒューリスティックな枝刈り

動的計画法

•  同じ単語に到達するパスを結合する

（trigramを仮定）

不要なパスを切り捨て

結合のための制限事項 •  翻訳モデル：フレーズ翻訳はそれぞれ独立

– 特に制約は必要ない

•  言語モデル：n-‐1単語の履歴に依存

– n-‐1単語が一致したときのみ結合可能

•  並べ替えモデル：一つ前の終了位置に依存

– 終了位置が同じパスのみ結合可能

枝刈り

•  動的計画法では十分に計算量が減らない

•  枝刈り：探索中に不要な仮説を取り除く

– 仮説をスタックに格納する

– 各スタック中の仮説の数を制限する

– 並べ替えの距離を制限する

スタックデコーダ

•  翻訳済み単語数毎にスタックを用意する

アルゴリズム

枝刈りの方法

•  枝刈りの戦略

– スタックのサイズを制限する

– 最大スコアのα倍(0.1とか)以上の仮説を保持

– 2つの組合せ

•  計算量：O(入力長^2)

並べ替えの制限

•  並べ替えの最大距離を制限する

•  典型的には5-‐8単語で十分な精度が出る

•  計算量：O(入力長)

枝刈りの問題点

•  珍しい単語の翻訳が先送りされてしまう！

Future Cost Estimation •  未翻訳の文の翻訳コストはどれくらいか？

– ※コスト＝負の対数確率

•  翻訳モデルの要素ごとに考える

– フレーズコスト：翻訳テーブルから取得

– 言語モデル：1-‐gramで近似

– 並べ替えコスト：ここでは無視する

フレーズコストの推定 •  最もコストの小さいフレーズを採用

コストの合成

•  翻訳済みと未翻訳のコストを合成

まとめ

•  翻訳プロセス：出力を左から順に生成

•  翻訳候補：翻訳テーブルから検索

•  探索問題としてのデコーディング

•  探索空間の削減：動的計画法と枝刈り

統計的機械翻訳入門その3 〜デコーダ編〜 #TokyoNLP

Business

Orcastras 翻轉教育

手動翻頁 Hand play

翻訳におけるポライトネスと異質化翻訳ストラテジー ―日英・ … · － 235 －翻訳におけるポライトネスと異質化翻訳ストラテジー ―日英・日中の翻訳をめぐって―

寶寶翻翻書鳥類圖鑑【革新版】

寶寶翻翻書認識水果【革新版】

通訳翻訳論翻訳と通訳の歴史

Traductor/Translator/翻訳者 CAJM Revisión/Edición: CAJM/Ero Manga Sensei...Traductor/Translator/翻訳者: CAJM Revisión/Edición: CAJM . Traductor/Translator/翻訳者: CAJM

G磯e伽㈱翻0歪9醐一窺醜翻樋y一舳囎gste盟睡醜e聡且置z翻艦

寶寶翻翻書海洋世界【革新版】

一、一、中文、、英文翻翻看英文翻翻看loveread.lins.fju.edu.tw/sites/default/files/upload/0718-worksheeta.pdf · 故事中彼得把可怕的大野狼抓起來給獵人

寶寶翻翻書ㄅㄆㄇ【革新版】

翻訳クィックスタートガイドビュータ用ドキュメン …docs.fedoraproject.org/ja-JP/Fedora_Contributor...Fedora コントリビュータ用ドキュメント翻訳クィックスタートガイド

ABC2011W 翻訳プロジェクト@muo_jp

16 進表示用 7 セグメント LED デコーダの作製...16 進表示用7 セグメントLED デコーダの作製中山勝筑波大学システム情報系技術室〒305-8573

エンコーダ・デコーダ型敵対的生成ネットワークを用いた時 ...DEIM Forum 2020 I4-1 エンコーダ・デコーダ型敵対的生成ネットワークを用いた時系列データ

A Report of IJCNLP 2011 #TokyoNLP

S-25C128A E2PROM - ABLIC Inc. (formerly SII ... シリアルE2PROM Rev.4.2_03_H S-25C128A 3 ブロック図モードデコーダアドレスレジスタステータスレジスタ

通訳翻訳論　　 2008.06.11 日本の翻訳通訳史（２）

8B10B エンコーダデコーダ - Intel...Altera Corporation MegaCore Version 7.1 vii 8B10B エンコーダ/ デコーダMegaCore ファンクション・ユーザガイドこのユーザガイドについて

寶寶翻翻書ａｂｃ【革新版】