[輪読会]Multilingual Image Description with Neural Sequence Models

輪読:MULTILINGUALIMAGEDESCRIPTIONWITH

NEURALSEQUENCEMODELS

h6p://arxiv.org/abs/1510.04709

書誌情報

•  Title:MULTILINGUALIMAGEDESCRIPTIONWITHNEURALSEQUENCEMODELS

•  Author:DesmondEllio6,StellaFrank,EvaHasler•  AffiliaTon:UniversityofAmsterdam,Cambridge•  URL:h6p://arxiv.org/abs/1510.04709

•  ICLR’16不採録

•  概要:MulTlingualImageDescripTon–  ある画像に対して言語Aのキャプションを生成するとき，言語Bの情報も使う

MoTvaTon

•  関連研究:キャプション生成–  入力画像に対して，その画像の説明文を生成する–  画像とその画像に対するキャプションのデータを利用して学習

•  この論文の主題–  ある画像に対して，言語Bでキャプションを生成するとき，言語Aでのキャプションを生か

すことができるか?–  MulTlingualImageDescripTon

Approach

•  MulTlingualmulTmodallanguagemodel

•  ターゲットのキャプションを生成するのに，以下の2つの特徴量を使う–  monolingualsource-languageimagedescripTonmodel–  visualfeaturesfromanobjectrecogniTonmodel

モデル:RecurrentLanguageModel(LM)

•  RNNである単語を入力したとき，次の単語を予測するように訓練–  入力 w_i(あるステップiにおいて)

モデル:MulTmodalLanguageModel(MLM)

•  画像の情報をLMに組み込む–  画像特徴量で条件付ければ良い–  一つの方法:h_0の計算をする際に画像特徴量を入れる

•  各タイムステップで画像特徴量を入れると，overfidngするという研究報告が複数ある

モデル:TranslaTonModel(Source-LM→Target-LM)

•  画像の情報をの代わりに，sourcelanguagemodelで条件付

モデル:MulTlingualMulTmodalModel(Source-MLM→Target-MLM)

•  画像とsourcelanguagemodel両方使う

NMT(NeuralMachineTranslaTon)モデルとの違い

•  NMT–  (翻訳元言語,翻訳先言語)のペアで学習

•  このモデル–  データセットの扱いがより柔軟(言語のペアを用意しなくても良い)–  source-languagemodelとtarget-languagemodelは別々のものでも良い

•  e.g.sequense-to-sequense,encoder-decode,…

実験 : 使用したデータ

•  データ:IAPR-TC12–  画像数:20000–  英語のキャプションと，対応するドイツ語訳

–  17,665枚を訓練に利用–  英語:272,172トークン(語彙数1763)(出現頻度3以下は除去)–  ドイツ語:223,147トークン(語彙数2374)

–  画像特徴量はVGG-16を利用して抽出

実験:結果

•  Baselin MLM:MonolingualLanguageModel(MulTmodalLanguageModelwithoutsourcelanguagefeatures)LM→LM:noimageMLMよりもLM→LMの方が良い

ドイツ語のキャプション生成結果(全体的に英語より難しい)sourceに画像特徴量を入れた方(sourceでMLMを使う)が効果的

t-SNEによる隠れ層初期値の可視化

(左)MLM(右)DeMLM→EnMLM

ドイツ語のキャプション生成結果(全体的に英語より難しい)sourceに画像特徴量を入れた方(sourceでMLMを使う)が効果的

sourcelanguagemodelを加えたことによるスコアの変動

元々スコアが高かったものは，sourcelanguagemodelを入れるとスコアが下がる傾向にある

まとめ

•  画像キャプショニングをする際に，別の言語のキャプションを利用する方法の提案

•  マルチモーダルな翻訳の一つ

•  単純に画像と言語を組み合わせるだけだと，なかなかスコアが上がらない

•  (ドイツ語のキャプション生成の実施)–  英語より難しい

ACL’16でのMulTmodalMachineTranslaTon

•  h6p://www.statmt.org/wmt16/mulTmodal-task.html•  今回の著者らがオーガナイザー•  データセット:flickr30k

–  英語のキャプションと，それに対応するドイツ語訳

•  タスク1.  MulTmodalMachineTranslaTon2.  MulilingualImageDescripTon

•  結論を言うと，あんまり良いのは無かった

Result結果:タスク1(下線がベースライン;灰色は外部データの利用)

結果:タスク2(下線がベースライン;灰色は外部データの利用)

優勝チームの手法

[輪読会]Multilingual Image Description with Neural Sequence Models

Technology

輪読第８章当日課題

Probabilistic Graphical Models 輪読会 #1

(DL hacks輪読) Variational Inference with Rényi Divergence

輪読会2012 0605 kitazawa

第２回 Hadoop 輪読会

第 9 章　輪読課題 ■ ■ ■ ■ ■ ■ ■

Effective java 輪読会項目57-59

[DL輪読会]Hindsight Experience Replay

[Dl輪読会]bayesian dark knowledge

Probabilistic Graphical Models 輪読会 Chapter5

Decoupled Neural Interfaces輪読資料

NIPS 2016 輪読: Supervised Word Movers Distance

[DL輪読会]QUASI-RECURRENT NEURAL NETWORKS

（DL輪読）Matching Networks for One Shot Learning

Effective Java 輪読会項目45-48

論文輪読: Instance-sensitive Fully Convolutional Networks

[DL輪読会]Unsupervised Cross-Domain Image Generation

(DL hacks輪読) Deep Kernel Learning

（DL輪読）Variational Dropout Sparsifies Deep Neural Networks

PRML輪読ゼミ - Behavior in Networksbin.t.u-tokyo.ac.jp/summercamp2015/document/prml8_shibahara.pdf · PRML輪読ゼミ第8章：グラフィカルモデル M2 芝原 . ... 14