23
「コンピュータビジョン最先端ガイド 2」勉強会 第一章 2.3 SIFTの拡張 坪坂 正志

20101023 cvsaisentan tsubosaka

Embed Size (px)

Citation preview

Page 1: 20101023 cvsaisentan tsubosaka

「コンピュータビジョン最先端ガイド 2」勉強会 第一章 2.3 SIFTの拡張

坪坂 正志

Page 2: 20101023 cvsaisentan tsubosaka

SIFTの拡張

• 2.3.1 PCA-SIFT – SIFTで検出したキーポイントの勾配情報をPCAを用い低次元に射影する

– 高速なマッチング、高いマッチング精度

• 2.3.2 GLOH – Gradient Location and Orientation Histogram – SIFTの特徴量記述を拡張 – よりロバストな特徴量が得られる

• 2.3.3 SURF – Speeded Up Robust Features – キーポイント検出、スケール検出の部分を近似 – 高速に特徴量を記述することができる

Page 3: 20101023 cvsaisentan tsubosaka

PCA-SIFT

• キーポイントの検出はSIFTと同じ

1. キーポイントのスケールに対応した領域を41×41の画像にリサンプリングする

2. リサンプリングした画像の水平・垂直方向の勾配を算出し、39×39×2=3042次元の特徴量を得る

3. 3042次元の特徴量をPCAを適用し、36次元に圧縮する – 射影行列はあらかじめ学習画像を用いて算出しておく

Page 4: 20101023 cvsaisentan tsubosaka

SIFTとの比較

• PCA-SIFTの方が特徴量の次元が低いため高速にマッチングが行える

• また画像の変化に対してロバスト

特徴量記述[秒] マッチング[秒] マッチング精度[秒]

SIFT 1.59 2.20 43

PCA-SIFT 1.64 0.58 68

Page 5: 20101023 cvsaisentan tsubosaka

GLOH [Mikolajczyk and Schmid 2005]

• SIFTをよりロバスト性を高めるように拡張

• キーポイントの検出はSIFTと同じ

• 特徴量の記述が異なる

Page 6: 20101023 cvsaisentan tsubosaka

GLOHのグリッド領域 • キーポイントの周辺を対数極座標に変換 • 半径方向に3分割、角度方向に最近領域を除き

8分割の17のグリッド領域に分割

Page 7: 20101023 cvsaisentan tsubosaka

特徴量の記述

• 各領域に対して16方向の勾配ヒストグラムを求め16*17=272次元の特徴量を得る

• 272次元の特徴量を主成分分析を行い、128次元に次元圧縮する

Page 8: 20101023 cvsaisentan tsubosaka

SURF

• Speeded Up Robust Features

• キーポイントとスケールの検出を高速化 • SIFTでは𝜎の異なるDoG(Difference-of-Gaussian)画像を計算していた

• Hessian-Laplace検出器を近似したBoxフィルタを用いることで高速化

Page 9: 20101023 cvsaisentan tsubosaka

SURFのフロー

1. キーポイントの 位置とスケールの検出

2. キーポイントの オリエンテーションの決定

回転不変性が必要

YES

3. キーポイントから 特徴量(64次元ベクトル)の作成

NO(U-SURF)

Page 10: 20101023 cvsaisentan tsubosaka

Hessian-Laplace検出器

• 𝐿𝑥𝑥(𝐱, 𝜎)は画像𝑰中の点𝐱におけるガウシアン二

次微分𝜕2

𝜕𝑥2𝑔(𝜎)の畳み込み結果,他も同様

• 上のヘッセ行列の行列式

を各スケールの画像に対して求め、極大値を検出

𝐇 𝐱, 𝜎 =𝐿𝑥𝑥(𝐱, 𝜎) 𝐿𝑥𝑦(𝐱, 𝜎)

𝐿𝑥𝑦(𝐱, 𝜎) 𝐿𝑦𝑦(𝐱, 𝜎)

Det 𝐇 = 𝐿𝑥𝑥 𝐱, 𝜎 ⋅ 𝐿𝑦𝑦 𝐱, 𝜎 − 𝐿𝑥𝑦 𝐱, 𝜎 2

Page 11: 20101023 cvsaisentan tsubosaka

極大値の検出

• SIFTと同じ

[Evans 2009]より

Page 12: 20101023 cvsaisentan tsubosaka

Boxフィルタによる近似

• ガウシアンフィルタと二次微分フィルタをかけた結果をBoxフィルタによって近似 – Boxフィルタによる出力の値は積分画像を使って高速に計算可能

• 近似値を𝐷𝑥𝑥 , 𝐷𝑥𝑦 , 𝐷𝑦𝑦としたとき近似Hessian-Laplace検出器の出力は以下の式で定義される

[Bay+ 2008]より

𝐿𝑦𝑦 𝐿𝑥𝑦 𝐷𝑦𝑦 𝐷𝑥𝑦

Det 𝐇𝐚𝐩𝐩𝐫𝐨𝐱 = 𝐷𝑥𝑥 𝐱, 𝜎 ⋅ 𝐷𝑦𝑦 𝐱, 𝜎 − (𝐷𝑥𝑦 𝐱, 𝜎 ⋅ 0.9)2

Page 13: 20101023 cvsaisentan tsubosaka

積分画像(1/2)

• 指定された矩形領域の輝度の合計を高速に求めたい

• 画像の左上(原点)から画像中のすべての点に対し、その点を右下とした矩形領域の輝度の合計を計算しておく – これは画像サイズに比例する計算量でできる

– 前処理として一回だけ行えばよい

(0,0)

(0,y)

(x,0)

(x,y)

∑輝度値

Page 14: 20101023 cvsaisentan tsubosaka

積分画像(2/2)

(0,0)

(0,y)

(x,0)

(x,y)

C

B A

D

• 下のDの部分の領域の輝度値の合計を計算するのはO(1)でできる – D = (A + B + C + D) – (A + B) – (A + C) + A

• 領域のサイズによらない

Page 15: 20101023 cvsaisentan tsubosaka

サブピクセル推定

• キーポイント𝐱 = (𝑥, 𝑦, 𝜎)に対して、そのサブピクセルを推定

• 𝒙と𝒙 のいずれかの要素の差が0.5を超える場合は候補から除外

𝒙 = −𝜕2𝐻−1

𝜕𝒙2𝜕𝐻

𝜕𝒙

Page 16: 20101023 cvsaisentan tsubosaka

キーポイントのオリエンテーション

• キーポイントを中心とした半径6s (s : スケール)の領域に対して、x,y方向それぞれのHaar-like(サイズ4s×4s)を計算

– Haar-likeの値はキーポイントを中心としたσ=2sのガウシアンフィルタを用い重みをかける

x,y方向のHaar-like特徴量を ガウス重みづけしてプロット

dy

dx

Page 17: 20101023 cvsaisentan tsubosaka

キーポイントのオリエンテーション

• 大きさ𝜋/3の窓の中にある点を加算して、ノルムが最も大きくなるベクトルの方向をキーポイントのオリエンテーションとして採用

[Evans 2009]より

Page 18: 20101023 cvsaisentan tsubosaka

キーポイントのオリエンテーション

• 回転に対する不変性を犠牲にしてよいならばオリエンテーションを決定する部分はスキップしてもよい

–実験によると±15°までの回転に対してはロバスト[Bay+ 2008]

Page 19: 20101023 cvsaisentan tsubosaka

Haar-like特徴量

• 2つの領域の輝度差

– (矩形の黒領域の輝度の合計) – (白領域の輝度の合計)

– これは積分画像を使って高速に計算できる

Page 20: 20101023 cvsaisentan tsubosaka

特徴量記述

• キーポイントを中心に20s×20sの領域を4×4のグリッド領域に分割する

–各領域ごとに4次元ベクトルを求め、合計で4 * 4 * 4 = 64次元の特徴ベクトルを得る

キーポイント

オリエンテーション

Page 21: 20101023 cvsaisentan tsubosaka

領域ごとの特徴量

• 各グリッド領域ごとに、Haar-like(2s×2s)を計算し、輝度勾配を求める

• 𝑣 = (∑𝑑𝑥, ∑𝑑𝑦, ∑ 𝑑𝑥 , ∑ 𝑑𝑦 )を計算

Page 22: 20101023 cvsaisentan tsubosaka

SIFTとの比較

処理時間[ms] マッチング精度[%]

SIFT 1036 78.1

SURF 354 82.6

U-SURF 255 83.8

• U-SURF,SURF,SIFTの順に高速

• U-SURF,SURF,SIFTの順に精度が高かった

– (藤吉先生コメント) SURFについてはアルゴリズム的に SURFが高精度である理由はないので別の実験結果では違う結果が出得る

Page 23: 20101023 cvsaisentan tsubosaka

参考文献

• PCA-SIFT – [Ke and Sukthankar 2004] Y. Ke and R. Sukthankar. PCA-SIFT : A more

distinctive representation for local image descriptors, In IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pp. 506—513

• GLOH – [Mikolajczyk and Schmid 2005] K. Mikolajczyk and C. Schmid. A

performance evaluation of local descriptors, IEEE Transactions on Pattern Analysis and Machine Intelligence,27,10,pp. 1615--1630

• SURF – [Bay+ 2008] H. Bay, T. Tuytelaars, and L. V. Gool. SURF: speeded up

robust features, Computer Vision and Image Understanding(CVIU), 110, 3, pp. 346—359

– [Evans 2009] C. Evans : Notes on the OpenSURF Library, CSTR-09-001, University of Bristol