View
83
Download
0
Category
Preview:
Citation preview
輪読:MULTILINGUALIMAGEDESCRIPTIONWITH
NEURALSEQUENCEMODELS
h6p://arxiv.org/abs/1510.04709
書誌情報
• Title:MULTILINGUALIMAGEDESCRIPTIONWITHNEURALSEQUENCEMODELS
• Author:DesmondEllio6,StellaFrank,EvaHasler• AffiliaTon:UniversityofAmsterdam,Cambridge• URL:h6p://arxiv.org/abs/1510.04709
• ICLR’16不採録
• 概要:MulTlingualImageDescripTon– ある画像に対して言語Aのキャプションを生成するとき,言語Bの情報も使う
MoTvaTon
• 関連研究:キャプション生成– 入力画像に対して,その画像の説明文を生成する– 画像とその画像に対するキャプションのデータを利用して学習
• この論文の主題– ある画像に対して,言語Bでキャプションを生成するとき,言語Aでのキャプションを生か
すことができるか?– MulTlingualImageDescripTon
Approach
• MulTlingualmulTmodallanguagemodel
• ターゲットのキャプションを生成するのに,以下の2つの特徴量を使う– monolingualsource-languageimagedescripTonmodel– visualfeaturesfromanobjectrecogniTonmodel
モデル:RecurrentLanguageModel(LM)
• RNNである単語を入力したとき,次の単語を予測するように訓練– 入力 w_i(あるステップiにおいて)
モデル:MulTmodalLanguageModel(MLM)
• 画像の情報をLMに組み込む– 画像特徴量で条件付ければ良い– 一つの方法:h_0の計算をする際に画像特徴量を入れる
• 各タイムステップで画像特徴量を入れると,overfidngするという研究報告が複数ある
モデル:TranslaTonModel(Source-LM→Target-LM)
• 画像の情報をの代わりに,sourcelanguagemodelで条件付
モデル:MulTlingualMulTmodalModel(Source-MLM→Target-MLM)
• 画像とsourcelanguagemodel両方使う
NMT(NeuralMachineTranslaTon)モデルとの違い
• NMT– (翻訳元言語,翻訳先言語)のペアで学習
• このモデル– データセットの扱いがより柔軟(言語のペアを用意しなくても良い)– source-languagemodelとtarget-languagemodelは別々のものでも良い
• e.g.sequense-to-sequense,encoder-decode,…
実験 : 使用したデータ
• データ:IAPR-TC12– 画像数:20000– 英語のキャプションと,対応するドイツ語訳
– 17,665枚を訓練に利用– 英語:272,172トークン(語彙数1763)(出現頻度3以下は除去)– ドイツ語:223,147トークン(語彙数2374)
– 画像特徴量はVGG-16を利用して抽出
実験:結果
• Baselin MLM:MonolingualLanguageModel(MulTmodalLanguageModelwithoutsourcelanguagefeatures)LM→LM:noimageMLMよりもLM→LMの方が良い
ドイツ語のキャプション生成結果(全体的に英語より難しい)sourceに画像特徴量を入れた方(sourceでMLMを使う)が効果的
t-SNEによる隠れ層初期値の可視化
(左)MLM(右)DeMLM→EnMLM
ドイツ語のキャプション生成結果(全体的に英語より難しい)sourceに画像特徴量を入れた方(sourceでMLMを使う)が効果的
sourcelanguagemodelを加えたことによるスコアの変動
元々スコアが高かったものは,sourcelanguagemodelを入れるとスコアが下がる傾向にある
まとめ
• 画像キャプショニングをする際に,別の言語のキャプションを利用する方法の提案
• マルチモーダルな翻訳の一つ
• 単純に画像と言語を組み合わせるだけだと,なかなかスコアが上がらない
• (ドイツ語のキャプション生成の実施)– 英語より難しい
ACL’16でのMulTmodalMachineTranslaTon
• h6p://www.statmt.org/wmt16/mulTmodal-task.html• 今回の著者らがオーガナイザー• データセット:flickr30k
– 英語のキャプションと,それに対応するドイツ語訳
• タスク1. MulTmodalMachineTranslaTon2. MulilingualImageDescripTon
• 結論を言うと,あんまり良いのは無かった
Result結果:タスク1(下線がベースライン;灰色は外部データの利用)
結果:タスク2(下線がベースライン;灰色は外部データの利用)
優勝チームの手法
Recommended