Upload
-
View
332
Download
2
Embed Size (px)
Citation preview
ECCV 2016読み会 Leveraging Visual Question Answering
for Image-Caption Ranking
牛久 祥孝losnuevetoros
お前は誰だ?~ 2014.3 博士 ( 情報理工学 ) 、東京大学• 画像説明文の自動生成
• 大規模画像分類
2014.4 ~ 2016.3NTT コミュニケーション科学基礎研究所
2016.4 ~ 東京大学 大学院情報理工学系研究科知能機械情報学専攻 講師 ( 原田・牛久研究室 )
転職して 9 か月教員であることにも慣れました
牛久学生B
学生A
学生に慕われる教員の図
転職して 9 か月教員であることにも慣れました
牛久学生B
学生A
学生に慕われる教員の図牛久さん今日の服装チャラいっすねwww(※ユニクロです)
学生B
転職して 9 か月教員であることにも慣れました
牛久学生A
学生に弄ばれる教員の図牛久さん今日の服装チャラいっすねwww(※ユニクロです)
なんか今日は先生の服、メンナクっぽさがないですね。(※身に覚えがない)
関東 CV 勉強会の幹事です国際会議読み会はこの 2 年皆勤賞• 2015 年 6 月 CVPR 読み会• 2016 年 2 月 ICCV 読み会
• 2016 年 7 月 CVPR 読み会• 2016 年 12 月 ECCV 読み会 ←いまここ
関東 CV 勉強会の幹事です国際会議読み会はこの 2 年皆勤賞• 2015 年 6 月 CVPR 読み会 弱教師あり物体検出の研究• 2016 年 2 月 ICCV 読み会 カフェラテいれる際に、スチームミルクを 作り忘れていたらアラートだす研究• 2016 年 7 月 CVPR 読み会 飲んだくれの画像を生成する研究• 2016 年 12 月 ECCV 読み会 ←いまここ
危惧される批判:あいつ変な論文しか読めないんじゃね?• 論文に数式出てこないし• 専門分野もってなさそうだし• 服装チャラいらしいし
本日の論文• 自分の専門分野(視覚 × 言語の融合)から• しっかりした研究を
本日の論文• 自分の専門分野(視覚 × 言語の融合)から• しっかりした研究を
Visual Question Answering をImage-Caption Ranking に活用する…?
本日の流れ• Image-Caption Ranking とは• Visual Question Answering とは• 本研究の着想と手法• 実験結果
本日の流れ• Image-Caption Ranking とは• Visual Question Answering とは• 本研究の着想と手法• 実験結果
Every Picture Tells a Story [Farhadi+, ECCV 2010]
世界初の画像入力→キャプション出力論文1. 画像の <object, action, scene> を MRF で推定
2. <object, action, scene> が同じキャプションを検索して、まるごと再利用
<Horse, Ride, Field>
Every Picture Tells a Story [Farhadi+, ECCV 2010]
再利用?新規生成?
• 再利用• 新規生成– テンプレート主語+動詞の文を生成しよう– 非テンプレート
A small gray dogon a leash.
A black dogstanding in grassy area.
A small white dogwearing a flannelwarmer.
入力 データセット
再利用?新規生成?
• 再利用– A small gray dog on a leash.
• 新規生成– テンプレート主語+動詞の文を生成しよう– 非テンプレート
A small gray dogon a leash.
A black dogstanding in grassy area.
A small white dogwearing a flannelwarmer.
入力 データセット
再利用?新規生成?
• 再利用– A small gray dog on a leash.
• 新規生成– テンプレート
dog + stand A dog stands.⇒– 非テンプレート
A small gray dogon a leash.
A black dogstanding in grassy area.
A small white dogwearing a flannelwarmer.
入力 データセット
再利用?新規生成?
• 再利用– A small gray dog on a leash.
• 新規生成– テンプレート
dog + stand A dog stands.⇒– 非テンプレート
A small white dog standing on a leash.
A small gray dogon a leash.
A black dogstanding in grassy area.
A small white dogwearing a flannelwarmer.
入力 データセット
cf. 非テンプレート型新規キャプション生成画像の内容を表す少数の単語列(フレーズ)の推定+単語列を文法モデルによって連結→キャプション
[Ushiku+, ACM MM 2012]
最近の Neural Image Captioning との比較[Wu+, CVPR 2016][You+, CVPR 2016]
1. 単語 / 単語列を推定する部分 FV+SVM か CNN かの違い2. 文法モデルを含めて連結する部分 対数線形モデルか RNN かの違い
Image-Caption Ranking
画像キャプション再利用アプローチの別名全部での画像 or キャプションが存在するとする
• 画像クエリによるキャプション検索– 画像にキャプションが再利用される確率を定義
• 逆:キャプションによる画像検索
ある画像とキャプションの関連の強さ
今日紹介する論文では…Multimodal Neural Language Models [Kiros+, TACL 2015] を採用
: 画像特徴量19 層 VGGNet の出力 4096 次元
: キャプション特徴量隠れ層 1024 次元の GRU による RNN の出力 1024 次元: 学習する線形変換画像特徴からキャプション特徴への変換に相当
本日の流れ• Image-Caption Ranking とは• Visual Question Answering とは• 本研究の着想と手法• 実験結果
Visual Question Answering (VQA)画像に関する質問に答える QA システム• Visual Turing Challenge [MalinowskiL+Fritz, 2014]
• VQA ChallengeCVPR 2016 併設のコンペティション(弊研究室: Abstract Image 部門で世界 1 位)
[Malinowski+, ICCV 2015]
よくある手口: VQA= 多クラス分類問題
質問文What objects arefound on the bed?
応答bed sheets, pillow
画像 画像特徴量
質問特徴量
統合された表現ベクトル
表現ベクトル通常のクラス識別
今日紹介する論文では…VQA 原著論文のモデル [Antol+, ICCV 2015] を採用VQA モデル
(は要素積)
:19 層 VGGNet の出力 4096 次元: 隠れ層 512 次元の LSTM による RNN2 層の出力 2048 次元: 表現ベクトル 1024 次元: 学習する線形変換とバイアス
キャプション + 質問に答える VQA-Caption
言語データのみ用いる質問応答 (QA) システム
質問文What kind of foodIs in the picture?
応答pizza
キャプションA couple of pieces ofpizza with vegetableslices on them.
キャプション特徴量
質問特徴量
統合された表現ベクトル
今日紹介する論文では…VQA 原著論文のモデル [Antol+, ICCV 2015] を採用VQA-Caption モデル
(は要素積)
: 最頻 1000 単語による bag-of-words モデル 1000 次元: 隠れ層 512 次元の LSTM による RNN2 層の出力 2048 次元: 表現ベクトル 1024 次元: 学習する線形変換とバイアス
本日の流れ• Image-Caption Ranking とは• Visual Question Answering とは• 本研究の着想と手法• 実験結果
着眼
多くの VQA 事例を学習したシステム→画像キャプション生成も得意なのでは?
What is the colourof the comforter? blue, white
What is on therefrigerator? magnet, paper
What objectsare found onthe bed?
bed sheets, pillow
本日の論文• 自分の専門分野(視覚 × 言語の融合)から• しっかりした研究を
Visual Question Answering をImage-Caption Ranking に活用する…?
本日の論文の概要• VQA を中間表現(後述)に用いることを提案– VQA モデル→画像の中間表現– VQA-Caption モデル→キャプションの中間表現
• Image-Caption Ranking で用いる特徴量に追加→検索精度が向上した– 入力画像に対するキャプション検索– 入力キャプションに対する画像検索
関連研究:中間表現• Semantic Mid-Level Visual Representations
Attributes, Parts, Poselets, Objects, Actions, Contextual information
• 中間表現を用いるメリット–既存タスクの高精度化– Zero-shot learning (↓ は [Elhoseiny+, ICCV 2013])
本論文が提案する中間表現画像側の VQA アクティべーション番目の成分𝑢𝐼
が ならの値は 0 に近い
が ならの値は負の値
𝑢𝐼(3)=log 𝑃 𝐼(Yes∨Is it clean ? , 𝐼)
本論文が提案する中間表現画像側の VQA アクティべーション番目の成分𝑢𝐼
が ならの値は…?
が ならの値は負の値
𝑢𝐼(9)=log 𝑃 𝐼(Helmets∨What are the men wearing on their heads? , 𝐼 )
本論文が提案する中間表現画像側の VQA アクティべーション番目の成分𝑢𝐼
が なら値は 0 に近い(シーンとして、もし men がいたら どうなるかということで決まる)
が ならの値は負の値
𝑢𝐼(9)=log 𝑃 𝐼(Helmets∨What are the men wearing on their heads? , 𝐼 )
本論文が提案する中間表現キャプション側の VQA-Caption アクティべーション番目の成分𝑢𝐶
が なら値は 0 に近い
が ならの値は負の値
𝑢𝐶(5)=log 𝑃𝐶 (Pizza∨What kind of food is in the picture ? ,𝐶)
A couple of pieces of pizza with vegetable slices on them.
Two boats on shore near an ocean.
中間表現を元の特徴と統合したい• (再掲)
最後に統合: Score-level fusion
• (再掲)
少し先に統合: Representation-level fusion
本日の流れ• Image-Caption Ranking とは• Visual Question Answering とは• 本研究の着想と手法• 実験結果
実験設定• MS COCO データセット– 8万強のキャプション付き画像で学習– 5000枚のテストデータ
• VQA データセット–実は MS COCO の画像を利用したデータセット– VQA中間表現: 1000枚の訓練用画像から 3つずつ QA例をサンプリング→ 3000 次元の表現ベクトル
• 評価方法– Image-Caption Ranking としての評価– Recall@(1,5,10)
State-of-the-art の成績一覧
本論文が Baseline として採用しているMultimodal Neural Language Models [Kiros+, TACL 2015]
State-of-the-art との比較 Score-level fusion 2 パターン• VQA-grounded only: 中間表現のみ利用• VQA-aware: Score-level fusion そのもの
State-of-the-art との比較 Representation-level fusion 2 パターン• VQA-agnostic: もとの特徴量のみ利用• VQA-aware: Representation-level fusion そのもの
… あれ?
2 つの手法の差は何?• どっちも「もとの特徴量のみ使用」のはず• でも下の方が精度が高い
2つの VQA-agnostic• Multimodal Neural Language Models [Kiros+, TACL 2015]
• Representation-level fusion VQA-agnosticさらに 1回の線形変換と活性化関数を経ている→より deep になり、精度が向上している
定性的な比較(画像検索)提案手法がうまくいった例
提案手法で失敗するようになった例
定性的な比較(画像検索)提案手法がうまくいった例
提案手法で失敗するようになった例
論文による考察「提案手法の VQA中間表現によって、 bat と言われると helmet も写った画像を探すようになった。」
どちらの中間表現も寄与しているの?• Deeper VQA-agnostic
• xxx-only representation-level fusion– どちらかの中間表現のみを用いた場合
• Full representation-level fusion
VQA で学習したなら Caption の学習は不要?• 画像当たりのキャプションの数と精度
• キャプションが多いほうが精度が高い– VQA で学習しても多くのキャプションが必要– VQA とキャプションで持つ情報が異なる
中間表現はどれくらいの次元にすればいい?
まとめと所感• VQA を中間表現(後述)に用いることを提案• Image-Caption Ranking で用いる特徴量に追加– 検索精度が向上した–ほかのタスクにも有用である可能性はある
• 「我々の知る限り最高精度」 by 著者– 画像検索は [Wang+, CVPR 2016] のほうが上
• 危惧は解消できたか– 専門分野もってなさそうだし– 論文に数式出てこないし