20110904cvsaisentan(shirasy) 3 4_3

1

CV勉強会＠関東（第15回）

3．局所特徴量とbag-of-features

shirasy

2011.09.04第3巻第4章 Bag-of-Featuresに基づく物体認識(2)

2

3.1 局所特徴量登場以前の物体認識

3.2 局所特徴量

3.3 Bag-of-features

3.4 Spatial Pyramid Matching

3.5 Bag-of-Featuresの拡張

第3巻第4章 Bag-of-Featuresに基づく物体認識(2)

3


1960196019601960年代年代年代年代

• 対象：線画

• 内容：線画解釈

1970197019701970年代年代年代年代

• 対象：航空画像、風景画像

• 内容：各領域の形状、色、模様、領域間の関係などを手がかりにラベリングにより認識

1980198019801980年代年代年代年代

• 内容：エキスパートシステム（複雑なルールに基づく認識システム）

画像認識研究の流れ

4



1980198019801980年代後半年代後半年代後半年代後半

• 対象：3次元の実世界

• 内容：モデルベース

人手によるルールや幾何形状モデルを認識モデルとして利用

⇒認識対象を増やすことが困難

1990199019901990年代年代年代年代

•内容：学習画像を用意、それから自動的に特徴量を抽出し認識（例：固有顔法）

5

CBIR（content-based image retrieval）

アピアランスベース

3次元物体を3次元情報に復元せずに2次元（アピアランス）のみで認識

見た目が類似している画像を画像データベース中から検索する、内容に基づく画像検索


現在の物体認識の方法の基本的な考え方


6

3.2 局所特徴量

一般物体認識

2000年前後まで、一般物体認識は極めて困難な問題として考えられていた。

• 常に何らかの前提条件が必要

• 制約のない一般的な画像に適用することは困難

ブレークスルーブレークスルーブレークスルーブレークスルー（（（（2000200020002000年代前半年代前半年代前半年代前半））））

1. 局所特徴の組み合わせによる画像の表現

2. 局所特徴の表現法

3. 局所特徴のヒスグラム表現であるbag-of-features

7

• 内容：局所特徴の複数の組み合わせによって画像認識を行う特定物体認識法が提案[49]

3.2 局所特徴量

ブレイクスルー前夜

1990199019901990年代後半年代後半年代後半年代後半：：：：

• 3次元物体復元のための対応点抽出に使われていた特徴点抽出アルゴリズムを物体認識に応用

• 多数の特徴点周辺の局所パターンの組み合わせで物体認識が可能

• オルクージョンや変形の影響を受けにくい

8

SIFT(Scale Invariant Feature Transform）[33]

3.2 局所特徴量

局所パターンの組み合わせによる認識のための特徴点検出と特徴ベクトルの抽出法がセット

以下の2処理を含むアルゴリズム：

(1)特徴点とその点の最適スケールの検出

(2)特徴点の輝度勾配ヒストグラムによる128次元ベクトルによる記述

• 回転、スケールの変化に不変な特徴量

• 明るさの変化やアフィン変換（視点の移動）に頑強

特徴：

9

3.3 Bag-of-features

1枚の画像から数百～数千個抽出

そのままでは、データ量が多すぎて扱いにくい

局所特徴量の問題点

• 局所特徴量をベクトル量子化し、1枚の画像から抽出された局所特徴量の集合を単一のヒストグラムで表現

BagBagBagBag----ofofofof----featuresfeaturesfeaturesfeatures

• 局所特徴量のデータ量圧縮のためのアプローチ

データ量を少なくし扱いやすくする

10

3.3 Bag-of-features

学習用画像データの各画像から抽出した多数の局所特徴量（濃淡変化に着目）から代表的な局所パターンをvisual wordとして選出

ヒストグラム

• ヒストグラムを作成することにより画像を表現

• 局所パターンは物体のカテゴリーと関係深い

11

3.3 Bag-of-features

•一般物体認識

• visual words数：数百～数千

• 一般物体認識においては同じカテゴリーに属する物体の細かな差異の吸収されることが望ましい

•特定物体認識

• visual words数：数万～百万

• 全く同じ局所パターンのみが1つのvisual wordに割り当てられることが望ましい

一般物体認識と特定物体認識のアプローチの差分

12

3.3 Bag-of-features

統計的言語処理と画像認識処理の差分

•統計的言語処理：bag-of-words

• 文章をベクトル表現する方法として使用

• 語順を無視して文章を単語の出現頻度で表現

•画像認識処理：bag-of-features

• 画像分類が文書分類と同じ問題として取り扱うことが可能

bag-of-features提案直後、言語処理の分野で提案された手法が画像認識に応用されるということが起こった

・サポートベクターマシンによるテキスト分類手法・文書分類のための確率的トピック抽出手法

13

3.3 Bag-of-features

bag-of-featuresによる特徴表現への変換手順

1. 特徴点抽出

• 画像1枚に付き、数百～数千個程度

• 最近では、決められたピクセルごとの格子点やランダムに選ばれた点を機械的に特徴点とする方法も活用（dense sampling）

2. BoFベクトルの計算

• SIFT記述子などを利用

3. 全学習画像の全局所特徴ベクトルのk-meansによるクラスタリングによるvisual wordsの選出（図4.3）

4. visual wordsに基づいて各画像についてSIFT記述子ベクトルのヒストグラムを作成（図4.4）

14

3.3 Bag-of-features

図4.3

図4.4引用元：八木、斎藤編：コンピュータビジョン最先端ガイド3

15

3.3 Bag-of-features

sparse sampling / dense sampling

• sparse sampling

• 特徴点抽出法（SIFTやSURFを含む）を用いて特徴点を抽出する方法

• dense sampling

• 格子点やランダム点を特徴点として選択する方法

dense samplingでは、特徴点の数を任意に設定可能であるため、sparse samplingよりも多くの局所特徴を抽出可能

認識・・・テクスチャのない均一な局所特徴も重要な情報

画像の内容に関わらず機械的に特徴点の位置およびスケールを選択する方法も有効[16]

16

3.3 Bag-of-features

sparse sampling / dense sampling

図4.5

引用元：八木、斎藤編：コンピュータビジョン最先端ガイド3

17

BoFベクトルの生成

3.3 Bag-of-features

一般的には方法 C)を選択することが多い

A) TF-IFD(※)で重み付け

⇒bag-of-wordsでよく用いられる方法

B) 各要素を1か0の2値にしてヒストグラムを構成

C)visual wordsの出現回数をカウントしてヒストグラムを構成

画像間でvisual wordsの合計頻度に差がある場合、以下を行うことが多い

• L1正規化：BoFベクトルの要素の絶対値の和を1とする

• L2正規化：BoFベクトルの要素の2乗和を1とする

(※) TF-IFD：索引語の重み付け方法のひとつex.一文書中に同じ索引語が多く出現すれば、TF-IDFの値は大きく

また、多くの文書に索引語が出現すれば、値は小さくなる

引用元： http://nlp.nagaokaut.ac.jp/TF%E3%83%BBIDF

18


画像中での位置も物体認識のための重要な手がかりになることが多い

Bag-of-features表現・・・元の特徴点の位置を無視

• タイヤ：画像中の下方に写っていることが多い

⇒タイヤ特有のvisual wordが存在

• ルーフ：

自動車の場合

画像中の上方に写っていることが多い

⇒ルーフ特有のvisual wordが存在

19図4.6

引用元：八木、斎藤編：コンピュータビジョン最先端ガイド3


Spaitial Pyramid Matching法[30]

大まかな位置情報を考慮した画像間の類似度計算法

画像を4分割および16分割し画像ピラミッドを構築して、それぞれからBoFを構築し、ピラミッドのレベルに応じ重みを付けて類似度を計算

20

3.5 Bag-of-featuresの拡張

• コードブック作成法

• オンラインクラスタリングとmean-shift[24]

• 階層的クラスタリング[41]

• ガウス混合分布およびEMアルゴリズムによる確率的クラスタリング[43]

• Information Bottleneck法[58]

• sparse coding[58]

• BoFベクトル生成法[74]

• 色情報の追加[69]

• Bag-of-featuresとは異なる特徴との混合

アプローチ分類

21

動作認識

静止画像の局所特徴を時間軸方向に拡張

例：人間の動作の分類（歩く、走るなど） [15]

3.5 Bag-of-featuresの拡張

bag-of-featuresを用いない一般物体認識

NBNN(Native Bayes Nearest Neighbor)[6]

visual wordsを用いずに、特徴点マッチングのみで一般物体認識

1. 未知画像の各特徴点と最も類似した学習データの特徴点までの距離をクラスごとに別々に総和

2. 最も和が小さいクラスに分類

アイデア

近年急速に拡大

Documents

20110904cvsaisentan(shirasy) 3 4_3