Upload
sekizawayuuki
View
33
Download
4
Embed Size (px)
Citation preview
Learning to simplify sentences using Wikipedia.
William Coster, David Kauchak. In Proceedings of the Workshop on
Monolingual Text-‐ToText GeneraDon, pp.1–9, 2011.
プレゼンテーション 関沢祐樹
2015/06/09 1
概要
• 本論文が行ったこと – 英語の文を、簡単な英語に翻訳する – English Wikipedia と Simple English Wikipedia を
対応づけて抽出した137,000文からなるコーパスを用いて簡単化
– テキスト簡単化への新たな翻訳モデルの紹介 • BLEU,word-‐F1,SSAという3つの評価手法を用いると、 T3や句に基づく翻訳システムよりも良い成果
2015/06/09 2
はじめに
• 目標 – 普通の英語(normal)を簡単な英語(simple)に 翻訳するシステムの学習
• 必要な作業 – 削除 : 主要でない部分を削除、この作業が多い – 語の言い換え – 場所の移動 : 語や句の位置を変える – 挿入 *要約:単語削除に重点
2015/06/09 3
はじめに
• 必要な変換に用いるもの – 句に基づく統計翻訳モデルを拡張したもの
• 確率翻訳モデルに、句の削除を追加したもの • ベースモデルは、1つの句の中でしか削除できない
• 簡単化の利点 – 子ども、お年寄り、聴覚障害者、失語症などの人
にも理解しやすい – NLPの、意味役割付与、関係抽出の成果の向上
2015/06/09 4
先行研究
• 最初の文の簡単化 – データに基づいた考え方ではなかった – 商業的なアプローチ、プロセスの前処理扱い
• 2010年の実験 – データに基づいたが、評価値は悪かった
• 今回のアプローチ – 3つの評価手法で十分な向上を獲得
2015/06/09 5
テキスト簡単化のコーパス
• テキスト簡単化のデータ数は少ない • テキスト要約のデータセットも少ない – わずか1,000の文アラインメント
• Wikipediaから得た文アラインメント – 137,000 組を獲得 – これを文アラインメントコーパスとして使用
2015/06/09 6
モデルの問題点
• 句の削除が一般的におこる(文単位で47%)
• このままだと削除に対応できない • 制約を緩くする – normalをsimpleにする際、 simpleの部分を空っぽにする
2015/06/09 8
NULLに対応させる方法1
• normal文の語が、simpleの文の語に非対応 – simpleの文の適切な場所にNULLを挿入 – 対応先をNULLとする Sergio Rodriguez Garcia , aka Rodri , is a spanish footballer ... Sergio Rodriguez Garcia is a spanish football player ... Sergio Rodriguez Garcia NULL is a spanish football player ...
2015/06/09 9
NULLに対応させる方法2
• normalの単語集合が全て、simpleの1語に 対応し、normalのある1語が、simpleと同じ – 残りのnormalの単語全てをNULLに対応させる – 句読点や機能語がNULLに対応することが多い
president Obama Obama NULL Obama
2015/06/09 10
実験
• 5つのアプローチでテキスト簡単化の比較 – none:何もしない (ベースライン) – K&M:文の要約をする – T3:誤りのある構文木を誤りのない構文木へ変換 – Moses:句に基づく機械翻訳 – Moses+Del:Mosesに削除の機能を追加
– 後半3つの手法のパラメータはデフォルト値 – none以外は、simpleに対してn-‐gram言語モデルで訓練
2015/06/09 11
詳細設定
• 使われたデータ:全137,000文 – 訓練:124,000文、開発:12,000文、テスト1,300文
– Mosesの使用には、ハイパーパラメータを設定 • 訓練データの終わり500文を用いて最適化
• T3に全てのデータを使うことができなかった – 時間とメモリの問題によるもの – 訓練データの最初の30,000文を使用
2015/06/09 12
実験結果
• Moses+Delを30,000文で実験 – 訓練:最初の29,700文、残り300文でチューニング – BLEU値:0.5952 > 0.2437 (T3のBLEU値)
• Oracle:各文翻訳確率上位1000で構成
2015/06/09 14