Upload
hironobu-fujiyoshi
View
5.325
Download
4
Embed Size (px)
DESCRIPTION
統計的学習手法による物体検出の高精度化と効率化 -人検出の実用化に向けて- 情報処理学会CVIM研究会 2013年3月15日
Citation preview
統計的学習手法による物体認識の高精度化と効率化 / 中部大学工学部情報工学科 藤吉弘亘
統計的学習手法による物体検出の高精度化と効率化- 人検出の実用化に向けて -
2013年3月15日情報処理学会CVIM研究会
藤吉弘亘 (Hironobu Fujiyoshi)中部大学工学部情報工学科E-mail : [email protected]:http://www.vision.cs.chubu.ac.jp/Facebook: facebook.com/hironobu.fujiyoshi Twitter: @hf149
統計的学習手法による物体認識の高精度化と効率化 / 中部大学工学部情報工学科 藤吉弘亘
• 統計的学習手法を用いた物体検出– 公開画像データベースによる評価
→必ずしも高い性能を獲得した手法が実用化に適しているとはいえない
• 実用化という観点から最適な手法(1) 検出失敗の理由を明確に把握することが可能
(2) 少ない学習サンプルでシステムをチューニング可能
(3) 省メモリで高速な計算アルゴリズム
人検出の実用化に向けて
統計的学習手法による物体認識の高精度化と効率化 / 中部大学工学部情報工学科 藤吉弘亘
物体検出の高精度化:Joint特徴量による高精度化- 人検出の実用化に向けて -
統計的学習手法による物体認識の高精度化と効率化 / 中部大学工学部情報工学科 藤吉弘亘
人の形状特徴
• 頭部から肩にかけてのΩ形状や下半身の連続的なエッジ形状
• 頭, 肩, 胴体, 足などの左右対称性
→単一のHOG特徴量だけでは人の形状を捉えきれない
第2世代のアプローチ 第3世代のアプローチ
統計的学習手法による物体認識の高精度化と効率化 / 中部大学工学部情報工学科 藤吉弘亘
• どのように特徴量間の共起を表現するか?
– Joint Haar-like [Mita et al., PAMI ’08]
– 共起確率特徴 [山内, 山下, 藤吉 MIRU ’08]
• どのように特徴量間の関連性を捉えるか?– Shapelet [G.Mori CVPR ’07]
– Joint-HOG [三井, 山内, 藤吉 SSII ’08]
特徴量間の共起を捉える特徴量の生成
Joint Haar-like Joint HOGShapelet
顔 顔/人/車人
統計的学習手法による物体認識の高精度化と効率化 / 中部大学工学部情報工学科 藤吉弘亘
Joint-HOG特徴による人検出 [三井, 山内, 藤吉 SSII ’08]
AdaBoost
h1( , ) × α1
h2( , ) × α2
hT( , ) × αT
弱識別器h 重みα
未知入力パターン
H (x) = Σ ht(x)・αt
HOG特徴量 x
+・・・+
+
人 : H (x) > λ非人: otherwise
判定結果
• 異なる二つの領域のHOG特徴量をAdaBoostにより組み合わせる
統計的学習手法による物体認識の高精度化と効率化 / 中部大学工学部情報工学科 藤吉弘亘
2段階AdaBoostによるJoint-HOG特徴の自動生成
セルの全組み合わせ
Low-level:HOG特徴POOL
1段階目のAdaBoostで生成した特徴量
Mid-level:Joint HOG特徴POOL
AdaBoost
h1( , )
最終識別器
h2( , )
hT( , )
弱識別器h
・・・
AdaBoost
C1とC2のHOG
C1[v1, v2, ...v9]C2[v1, v2, ...v9]
H1,2(C1, C2)C1:
C2:・・・
AdaBoost
C7とC11のHOG
C7[v1, v2, ...v9]C11[v1, v2, ...v9]
H7,11(C7, C11)C7:
C11:・・・
AdaBoost
CiとCjのHOG
Cj[v1, v2, ...v9]Cj[v1, v2, ...v9]
Hi,j(Ci, Cj)Ci:
Cj:・・・
→ 局所領域間での勾配方向の対称性、連続性を自動的に捉える
・・・
・・・
・・・
・・・
統計的学習手法による物体認識の高精度化と効率化 / 中部大学工学部情報工学科 藤吉弘亘
• 最終識別器による判定
2段階AdaBoostによる最終識別器
情報処理学会研究報告IPSJ SIG Technical Report
図 1 人検出における特徴量の捉え方.
識別器から構成される.強識別器は,複数の弱識別器の結果を組み合わせて最終的な識別結果を出力する.人の形状には,大きく分けて下記に示す 2つの特徴があると考えられ,より高精度な人検出を実現するためには,これらを捉えるような特徴量を統計的学習手法により設計する必要がある.(1) 頭から肩にかけての !に似た形状や上半身から下半身にかけての連続的な形状(2) 頭や肩,胴,足などの左右対称的な形状
(1) に対しては,局所領域内の 4 方向のエッジ特徴をAdaBoostにより組み合わせる Shapelet特徴量 [5]が提案されている.(2)に対しては,AdaBoostの弱識別器が複数の特徴量を同時に観測することにより,共起性を表現する Joint Haar-like特徴量 [6]が提案されている.両手法は,複数の low-levelな特徴量をブースティングにより組み合わせることで特徴量間の関連性を捉えることができ,高精度な検出を実現している.我々は,2段階のReal AdaBoostを用いて図 1(b)に示すような物体形状の対称性や連続性を自動的に捉える Joint特徴量による物体検出法を提案している.本章では,Joint特徴量 [7]による人検出法とその効果について述べる.
2.1 Joint特徴量と 2段階ブースティングJoint特徴量の生成と最終識別器の構築の流れを図 2に示す.Joint特徴量は,2段階の Real AdaBoostによる学習により生成される.2.1.1 1段階目のReal AdaBoostによる Joint特徴量
の生成Joint特徴量を生成するために,2つの異なる局所領域
(セル)から Low-levelな特徴量としてHOG特徴量を求め,共起表現法 [8]により異なるセルの HOG特徴量間の共起を表現する.まず,入力画像から HOG特徴量 vを算出する.以降では,low-levelな特徴量として HOG特徴量を用いることを前提として述べるが,より高い表現能力を持つ
図 2 Joint 特徴量による 2 段階 Real AdaBoost.
多重解像度の HOG特徴量も利用できる [9].次に,2つのセル {m,n}の HOG 特徴量から共起確率特徴量を生成する.その際に,共起確率特徴量は HOG特徴量の全ての組み合わせに対して求め,Real AdaBoostにより最も良い組み合わせを弱識別器として自動的に選択する.この処理をT 回繰り返し,1段階目の Real AdaBoostにより次式で表される 2 つのセル {m,n} の Joint 特徴量である強識別器H1st(v, {m,n})を学習する.
H1st(v, {m,n}) =T!
t=1
h1stt (v, {m, n}) (1)
上記の処理を全てのセルの組み合わせに対して行い,組み合わせ数と同数の Joint特徴量を生成する.例えば,入力画像が 30 ! 60 ピクセル,セルサイズを 5 ! 5 ピクセルとした場合,72個のセルに分割され,組み合わせ数は72C2 = 2, 556となるため,2,556個の Joint特徴量 H1st()を生成する.生成した全ての Joint特徴量を特徴プール Fとし,後述する 2段階目の Real AdaBoostの入力とする.2.1.2 2段階目の Real AdaBoostによる最終識別器の
構築2 段階目の Real AdaBoost では,1 段階目の Real Ad-
aBoostにより生成した Joint特徴量H1st()のプール F を入力として次式で示す強識別器 H2nd()を構築する.
c! 2012 Information Processing Society of Japan 2
情報処理学会研究報告IPSJ SIG Technical Report
図 3 DET カーブ.
図 4 Joint 特徴量による物体検出例.
H2nd(v) =!
{m,n}!F
h2nd
"H1st
t (v, {m, n})#
(2)
=!
{m,n}!F
h2nd
" T!
t=1
h1stt (v, {m,n})
#(3)
2段階目の弱識別器 h2nd()は,2つのセルの関係を捉えた1段階目のH1st()の出力となっていることから,異なるセルの low-levelの特徴量からmid-levelの特徴量を生成していることになる.これにより,識別に有効な Joint特徴量を自動的に選択することが可能となる.
2.2 Joint特徴量の効果2.2.1 検出性能
Joint特徴量による評価実験結果を図 3に示す.提案するJoint特徴量は,従来法である HOG特徴量 [4]や Shapelet特徴量 [5]と比較して高い検出性能であることから,位置の異なる 2つのセル内の HOG特徴量を組み合わせることの有効性を確認した.図 4に Joint特徴量による人検出例を示す.部分的なオクルージョンに対して頑健な検出が可能であることがわかる.2.2.2 Joint特徴量の効果図 5(a)に 1段階目の Real AdaBoost,図 5(b)に 2段階目のReal AdaBoostにより選択されたHOG特徴量の可視
図 5 選択された Joint 特徴量の可視化.
化結果を示す.また,図 5(c)に 2段階目のReal AdaBoostにより選択された学習ラウンド毎の 2つのセルと Joint特徴量を示す.また,HOG特徴量の勾配方向を人は 9方向で表現しており,輝度が高いほどReal AdaBoostにおける弱識別器の評価値が高く,識別に有効な特徴量であることを表す.図 5(b)では,図 5(a)で選択された HOG特徴量であっても人の輪郭以外は選択されにくい傾向がある.これは,2段階目の Real AdaBoostの特徴選択において,識別に有効ではないと判断されたためである.次に図 5(c)に注目する.2段階目の Real AdaBoostにより選択された Joint特徴量は,人の輪郭に沿ったセルが選択されていることがわかる.
HOG特徴量と Real AdaBoost では,図 1(a)に示すように 1個の弱識別器が 1個の HOG特徴量を用いて識別するのに対し,Joint特徴では,図 1(b)に示すように 1個の弱識別器が位置の異なる 2 つの領域内に含まれる複数のHOG特徴量を用いて識別を行う.これにより,従来の単一の HOG特徴量のみでは捉えることができない物体形状の対称性や連続的なエッジを自動的に捉えることができるため,高精度な人検出が可能となる.2.2.3 解析の容易さ図 6は,未検出画像と誤検出画像に対する各弱識別器の応答を示したものである.図 6(a)の未検出例では,人の特徴は頭部や体の右側面のエッジが重要であるが,入力画像では抽出されなかったため,その弱識別器の出力はマイナス方向に大きく出力され未検出と判定されたことがわか
c! 2012 Information Processing Society of Japan 3
1段階目のAdaBoostの出力:
2段階目のAdaBoostの出力:
統計的学習手法による物体認識の高精度化と効率化 / 中部大学工学部情報工学科 藤吉弘亘
評価用データベース
• 人検出用画像データベース- 学習用画像データ Positive : 2,053枚 Negative : 6,253枚
- 評価用画像データ Positive : 1,023枚 Negative : 1,233枚
• 車両検出用画像データベース- 学習用画像データ Positive : 2,464枚 Negative : 2,415枚
- 評価用画像データ Positive : 1,899枚 Negative : 2,413枚
統計的学習手法による物体認識の高精度化と効率化 / 中部大学工学部情報工学科 藤吉弘亘
• 人検出と車両検出におけるJoint-HOGの効果
Joint-HOG特徴による検出性能
DET(Detection Error Tradeoff)による評価
(a) 人検出 (b) 車両検出
統計的学習手法による物体認識の高精度化と効率化 / 中部大学工学部情報工学科 藤吉弘亘
ラスタスキャンによるJoint-HOGによる検出例
(a) 人検出 (b) 車両検出
統計的学習手法による物体認識の高精度化と効率化 / 中部大学工学部情報工学科 藤吉弘亘
最終識別器
自動生成されたJoint HOG特徴 (人検出)
全学習用サンプルの平均勾配画像
1段目のAdaBoostにより選択されたHOG特徴
2段目のAdaBoostにより選択されたHOG特徴
• 人の輪郭に沿った勾配方向の特徴量を自動選択‒ 識別に有効なmid-levelな特徴量を自動生成
統計的学習手法による物体認識の高精度化と効率化 / 中部大学工学部情報工学科 藤吉弘亘
自動生成されたJoint HOG特徴(車両検出)
1ラウンド 2ラウンド 3ラウンド 15ラウンド
全学習用サンプルの平均勾配画像
1段目のAdaBoostにより選択されたHOG特徴
2段目のAdaBoostにより選択されたHOG特徴
物体形状の対称性, 連続性, 異なる領域間の関係性を自動生成
統計的学習手法による物体認識の高精度化と効率化 / 中部大学工学部情報工学科 藤吉弘亘
誤検出の解析
• 検出失敗例における各弱識別器の応答
弱識別器1 10 20 30 40 50
0
1.0
2.0
-2.0
-1.0弱識別器の応答
ネガティブサンプルの分布ポジティブサンプルの分布
ポジティブサンプルの頻度が高い
特徴量の限界
ネガティブサンプルの分布が不自然
学習サンプルの分布を再構築
弱識別器の応答:
入力画像
統計的学習手法による物体認識の高精度化と効率化 / 中部大学工学部情報工学科 藤吉弘亘
ピクセル差分特徴を利用した車両検出器を構築した際の弱識別器により選択された特徴
解析の容易さ
統計的学習手法による物体認識の高精度化と効率化 / 中部大学工学部情報工学科 藤吉弘亘
FPGAによるJoint-HOGのハードウェア化- 人検出の実用化に向けて -
統計的学習手法による物体認識の高精度化と効率化 / 中部大学工学部情報工学科 藤吉弘亘
ハードウェア化における着目点
17
• Joint-HOGの高速化– パイプライン処理により低コストなFPGAで高速化を実現
• 検出対象の柔軟性– 学習ソフトウェアを連携することで、検出対象を変更可能
USB2.0カメラ入力
Cyclone III EP3C120F780-8Logic cells:119,088 Memory bit:3,981,312 bit
USBポート
Cyclone III FPGA
カメラリンクコネクタ
RAM画像処理ボードPCアプリ
統計的学習手法による物体認識の高精度化と効率化 / 中部大学工学部情報工学科 藤吉弘亘
• 学習ソフトウェアとFPGAハードウェアの連動– Joint-HOGによる物体検出
検出対象をリコンフィグ可能な汎用物体検出ビジョンセンサ [矢澤, 藤吉 SSII ‘11]
学習データ
物体検出ハードウェアソフトウェアAPI
ODEN-API ver.2による学習
学習結果特徴量パラメータ
人検出を実現
連携検出対象:人
統計的学習手法による物体認識の高精度化と効率化 / 中部大学工学部情報工学科 藤吉弘亘
• 学習ソフトウェアとFPGAハードウェアの連動– Joint-HOGによる物体検出
物体検出ハードウェアソフトウェアAPI
ODEN-API ver.2による学習
学習結果特徴量パラメータ
→汎用性の高い物体検出ハードウェアを実現
学習データ
検出対象:車両
検出対象をリコンフィグ可能な汎用物体検出ビジョンセンサ [矢澤, 藤吉 SSII ‘11]
連携
車両検出を実現
統計的学習手法による物体認識の高精度化と効率化 / 中部大学工学部情報工学科 藤吉弘亘
検出対象をリコンフィグ可能な物体検出ハードウェア
Cyclone III EP3C120F780-8Logic cells:119,088 Memory bit:3,981,312 bit
• リアルタイムに任意の物体を検出(20FPS VGA画像)
統計的学習手法による物体認識の高精度化と効率化 / 中部大学工学部情報工学科 藤吉弘亘
物体検出の効率化:CGによる学習サンプルの自動生成- 人検出の実用化に向けて -
統計的学習手法による物体認識の高精度化と効率化 / 中部大学工学部情報工学科 藤吉弘亘
• 統計的学習手法による高精度な物体検出を実現するには– 大量の学習サンプル:10,000枚以上(人の場合)
– 良質な学習サンプル:位置ずれ・誤ラベルなし
大量の良質な学習サンプルを必要
平均勾配画像人画像(約3,000枚)
統計的学習手法による物体認識の高精度化と効率化 / 中部大学工学部情報工学科 藤吉弘亘
学習サンプルの作成
10 hours later...
統計的学習手法による物体認識の高精度化と効率化 / 中部大学工学部情報工学科 藤吉弘亘
• 学習サンプルと異なるカメラ位置の環境では– 見えが異なるため検出能力が低下
– 現場での再学習は不可能...
学習サンプルと異なる環境での問題
INRIA評価画像 特定シーン画像未検出
統計的学習手法による物体認識の高精度化と効率化 / 中部大学工学部情報工学科 藤吉弘亘
学習サンプルの自動生成:生成型学習 [草富, 山内, 藤吉 SSII ‘11]
• 特定シーンを考慮した生成型学習– 学習サンプルを自動生成
– ポジティブサンプル:三次元人体モデルより生成
– ネガティブサンプル:ランダムに切り出して生成
撮影した映像
生成モデル
各フレームからランダムに選択
ポジティブサンプル
ネガティブサンプル
統計的学習手法による物体認識の高精度化と効率化 / 中部大学工学部情報工学科 藤吉弘亘
• 人体シルエットの生成モデル
ポジティブサンプルの生成
・カメラ位置 x = 0.0m y = 6.2m z = 0.0m・カメラ角度 θ = 21.0°
カメラパラメータ
人クラスの画像生成
・・
統計的学習手法による物体認識の高精度化と効率化 / 中部大学工学部情報工学科 藤吉弘亘
背景クラスの画像生成
ネガティブサンプルの生成
• 背景画像からランダムで収集- メリット:特定のシーンを背景として学習
- デメリット:人画像に背景ラベルを与える
→誤ラベルを含んだ状態で学習すると識別器の性能低下を招く
統計的学習手法による物体認識の高精度化と効率化 / 中部大学工学部情報工学科 藤吉弘亘
• Multiple Instance LearningをBoostingに導入した学習アルゴリズム- 誤って付与されたラベルを持つ学習サンプルの影響を抑制
MILBoostの導入 [Viola et al., NIPS’06]
Neg-‐Bag1
Neg-‐Bag2 Neg-‐BagM
ネガティブクラス
ポジティブクラス
・・
Pos-‐Bag1 Pos-‐Bag2 Pos-‐Bag3 Pos-‐BagN
改良型MILBoost
統計的学習手法による物体認識の高精度化と効率化 / 中部大学工学部情報工学科 藤吉弘亘
実験:学習データセットの組み合わせ
ポジティブサンプル ネガティブサンプル
INRIA-Pos実環境-Neg
実環境-Pos実環境-Neg
生成-PosINRIA-Neg
INRIA-Pos(手動) 実環境-Neg(ランダム)
実環境-Pos(手動) 実環境-Neg(ランダム)
CG生成-Pos(自動) 実環境-Neg(ランダム)
統計的学習手法による物体認識の高精度化と効率化 / 中部大学工学部情報工学科 藤吉弘亘
実験結果:学習サンプルの自動生成の効果
→CG生成によるポジティブサンプルは実環境の画像サンプルと同等以上
実環境-Pos+実環境-Neg
CG生成-Pos+実環境-Neg
INRIA-Pos+実環境-Neg
統計的学習手法による物体認識の高精度化と効率化 / 中部大学工学部情報工学科 藤吉弘亘
実験:誤サンプルの影響の評価
• ネガティブサンプルにおける誤ラベルの影響を調査- Real AdaBoostとMILBoostの比較
誤ラベルの割合:0%
誤ラベルの割合:20%
誤ラベルの割合:40%
・・
ネガティブクラス
ネガティブクラス
ネガティブクラス
統計的学習手法による物体認識の高精度化と効率化 / 中部大学工学部情報工学科 藤吉弘亘
誤サンプルの影響の評価
→ネガティブサンプル中に人画像が含まれていても、識別器の学習に及ぼす悪影響を低減
ポジティブサンプルの含有率 [%]
改良型 MILBoostReal Adaboost
含有率0%時においても少数の外れ値の影響を除去
統計的学習手法による物体認識の高精度化と効率化 / 中部大学工学部情報工学科 藤吉弘亘
学習サンプルの自動生成とMILBoostを用いた学習
従来手法
提案手法(自動生成+MILBoost)
統計的学習手法による物体認識の高精度化と効率化 / 中部大学工学部情報工学科 藤吉弘亘
物体検出の効率化:ハイブリッド型転移学習による学習の効率化- 人検出の実用化に向けて -
統計的学習手法による物体認識の高精度化と効率化 / 中部大学工学部情報工学科 藤吉弘亘
• カメラの設置位置,人の姿勢,見えが変化
– サンプル採取:CGにより自動生成
– 再学習コスト:自動生成した学習サンプル(2,400枚)をその場で学習
現場における再学習のコスト
再学習すると約10時間
CG学習サンプル
統計的学習手法による物体認識の高精度化と効率化 / 中部大学工学部情報工学科 藤吉弘亘
転移学習(Transfer Learning)
• ある問題を効果的かつ、効率的に解くために、別の関連した問題のデータや学習結果を再利用すること
• CovBoost(共変量シフト) [Pang et al., IP’11]
– 事前学習で得た情報を活かしたBoostingベースの追加学習法
– 高速な学習:事前学習で既選択の特徴量のみを転移して使用
– 少量のサンプル:共変量を用いて事前シーンのサンプルも利用
統計的学習手法による物体認識の高精度化と効率化 / 中部大学工学部情報工学科 藤吉弘亘
• 事前学習の特徴を転移してBoostingにより識別器を構築
CovBoostによる転移学習
選択された特徴量
事前シーン
強識別器
Ha
汎用データベース
事前学習結果
強識別器
Ht
転移学習結果
共変量
元データ
目標データ
CGにより自動生成
特定シーン
CovBoost
転移された特徴量
Feature Shift
統計的学習手法による物体認識の高精度化と効率化 / 中部大学工学部情報工学科 藤吉弘亘
Feature Shift:特徴の転移
• 事前学習で選択された特徴量の目標シーンへの転移1. 転移候補特徴の元データにおける確率密度関数と、目標データの周辺における確率密度関数を作成
2. 確率密度関数間のBhattacharyya距離を算出し、最大のものを転移特徴とする
3. 事前学習で選択された全ての特徴について、1. 2.より転移特徴プールを作成
目標データ
転移候補
尤度
勾配強度 0.7
Bhattacharyya距離
0.9
0.6
元データ
MAX転移特徴
尤度
勾配強度尤度
勾配強度
尤度
勾配強度
統計的学習手法による物体認識の高精度化と効率化 / 中部大学工学部情報工学科 藤吉弘亘
共変量
共変量
共変量
共変量
CovBoostの学習
元データ
目標データ
評価 ε評価値
転移特徴量pool・
評価 ε
評価 ε
評価 ε
・・・
CovBoost
h1( ), α1
h2( ), α2
hT( ), αT
弱識別器h 重みα
・・・
MIN
学習ラウンド:1
統計的学習手法による物体認識の高精度化と効率化 / 中部大学工学部情報工学科 藤吉弘亘
転移特徴量pool
共変量
共変量
共変量
共変量
CovBoostの学習
元データ
目標データ
評価 ε評価値
・
評価 ε
評価 ε
評価 ε
・・・
CovBoost
h1( ), α1
h2( ), α2
hT( ), αT
弱識別器h 重みα
・・・
MIN
学習ラウンド:2
統計的学習手法による物体認識の高精度化と効率化 / 中部大学工学部情報工学科 藤吉弘亘
転移特徴量pool
共変量
共変量
共変量
共変量
CovBoostの学習
元データ
目標データ
評価 ε評価値
・
評価 ε
評価 ε
評価 ε
・・・
CovBoost
h1( ), α1
h2( ), α2
hT( ), αT
弱識別器h 重みα
・・・
MIN
学習ラウンド:T
統計的学習手法による物体認識の高精度化と効率化 / 中部大学工学部情報工学科 藤吉弘亘
• 学習誤差εが最小となるよう弱識別器を選択
CovBoost:共変量を用いたBoosting学習
目標ドメインにおける誤差評価 元ドメインの誤差評価
元ドメインの識別器
目標ドメインの識別器
共変量:
✏t =nX
i=1
e�yiHt(xi) +mX
j=1
rje�yjHt(xj)
→目標ドメインと適合しない事前サンプルをスポイル
統計的学習手法による物体認識の高精度化と効率化 / 中部大学工学部情報工学科 藤吉弘亘
実験:転移学習の効果
学習手法 学習サンプル数 ポジティブサンプル例
事前学習 AdaBoost 2014枚
再学習 AdaBoost 2014枚
転移学習 CovBoost 800枚
INRIA Person Dataset(俯角0度)
CG生成-Pos(俯角20度)
CG生成-Pos(俯角20度)
統計的学習手法による物体認識の高精度化と効率化 / 中部大学工学部情報工学科 藤吉弘亘
実験結果:転移学習の効果
学習時間の比較 再学習 :60分 転移学習: 6分
誤検出率 [%]
未検出率 [%]
再学習 (AdaBoost)事前学習(AdaBoost)
転移学習(CovBoost)
→約1/10の時間で同等性能の識別器を構築
統計的学習手法による物体認識の高精度化と効率化 / 中部大学工学部情報工学科 藤吉弘亘
元データと目標データの見えの変化が大きくなると…
俯角20度
• 特徴の転移が不可能なのでは?
俯角40度
元データ
目標データ
統計的学習手法による物体認識の高精度化と効率化 / 中部大学工学部情報工学科 藤吉弘亘
見えの変化が大きくなっても転移可能か?
誤検出率 [%]
未検出率 [%]
再学習 (AdaBoost)事前学習(AdaBoost)
転移学習(CovBoost)30度40度
20度
50度
誤検出率 [%]
未検出率 [%]
目標ドメインの俯角:
元データ 目標データ
0度 20度 30度 40度 50度
転移学習だけでは適応できない!新たな特徴を探索する必要あり!
統計的学習手法による物体認識の高精度化と効率化 / 中部大学工学部情報工学科 藤吉弘亘
h2( )
h3( )
ht( )
h1( )
• 転移学習と全探索学習を切り替えながら識別器を構築
ハイブリッド型転移学習
事前シーン
強識別器Ht
特定シーン
共変量
元データ
目標データ
Ha
事前学習結果
強識別器
Feature Shift
スイッチング
学習効率
・
転移特徴pool
ハイブリッド型転移学習結果
全探索共変量
特徴pool
統計的学習手法による物体認識の高精度化と効率化 / 中部大学工学部情報工学科 藤吉弘亘
全探索転移学習
学習誤差の推移
再学習 (AdaBoost)転移学習(CovBoost)
ハイブリッド転移学習
学習ラウンド [回]
学習誤差
→転移学習で上昇する逐次学習誤差を全探索で抑制
• 学習効率による転移学習と全探索を効果的に切り替える
統計的学習手法による物体認識の高精度化と効率化 / 中部大学工学部情報工学科 藤吉弘亘
実験結果:ハイブリッド型転移学習の効果
Equal Error Rate(EER):誤検出率と未検出率が同値になった際の値
誤検出率 [%]
未検出率 [%]
再学習 (AdaBoost)事前学習(AdaBoost)
転移学習(CovBoost)
0 2 4 6 8 10 12 14 16 18
20° 30° 40° 50°
学習時間[分]
EER[%]
0
90
1020304050607080転移学習
再学習ハイブリッド型転移学習
統計的学習手法による物体認識の高精度化と効率化 / 中部大学工学部情報工学科 藤吉弘亘
ハイブリッド型転移学習により選択された特徴量
• 再学習と同等の特徴がハイブリッド型転移学習により獲得
全探索
再学習により選択された特徴
ハイブリッド型転移学習
平均勾配画像(俯角50°)
転移特徴
統計的学習手法による物体認識の高精度化と効率化 / 中部大学工学部情報工学科 藤吉弘亘
• 物体検出の高精度化– 特徴量を自動生成する生成型学習
– Joint特徴量:識別に有効な特徴量を自動生成 →新しい生成型学習のアプローチ
• 物体検出の効率化– 学習サンプルを自動生成する生成型学習
– 人体三次元モデルからの学習サンプルの自動生成– MILBoostによる誤ラベルの影響を抑制
→特定シーンに特化した生成型学習による高精度化と効率化を実現– ハイブリッド型転移学習
– 特徴の転移と全探索のハイブリッドによる学習の高速化 →現場環境へ適応するための時間的コストを1/4に削減
統計的学習手法による物体検出の高精度化と効率化
統計的学習手法による物体認識の高精度化と効率化 / 中部大学工学部情報工学科 藤吉弘亘
• 実用化という観点から最適な手法
(1) 検出失敗の理由を明確に把握することが可能
→弱識別器の応答と選択したJoint特徴量を解析することで可能
(2) 少ない学習サンプルでシステムをチューニング可能
→CGにより自動生成したサンプルと転移学習の利用
(3) 省メモリで高速な計算アルゴリズム
→Joint-HOGを安価なFPGAで実現
人検出の実用化に向けて
統計的学習手法による物体認識の高精度化と効率化 / 中部大学工学部情報工学科 藤吉弘亘
今後の課題
Fig. 6. Qualitative detection results on the Caltech testset. The first and second row shows correct pedestrian detections in various scenarios. The thirdrow shows typical false positives.
laborative Research Lab.
REFERENCES
[1] A. Bar-Hillel, D. Levi, E. Krupka, and C. Goldberg. Part-based featuresynthesis for human detection. In ECCV, 2010.
[2] H. Cho, P. Rybski, and W. Zhang. Vision-based bicycle detection andtracking using a deformable part model and an ekf algorithm. In ITSC,2010.
[3] H. Cho, P. Rybski, and W. Zhang. Vision-based 3d bicycle trackingusing deformable part model and interacting multiple model filter. InICRA, 2011.
[4] N. Dalal and B. Triggs. Histograms of oriented gradients for humandetection. In CVPR, 2005.
[5] P. Dollar, S. Belongie, and P. Perona. The fastest pedestrian detectorin the west. In BMVC, 2010.
[6] P. Dollar, Z. Tu, P. Perona, and S. Belongie. Integral channel features.In BMVC, 2009.
[7] P. Dollar, C. Wojek, B. Schiele, and P. Perona. Pedestrian detection:An evaluation of the state of the art. PAMI, 99(PrePrints), 2011.
[8] M. Enzweiler and D. Gavrila. Monocular pedestrian detection: Surveyand experiments. IEEE Transaction on Pattern Analysis and MachineIntelligence, 31:2179–2195, 2008.
[9] C. U. et al. Autonomous driving in urban environments: Boss and theurban challenge. Journal of Field Robotics, Special Issue on the 2007DARPA Urban Challenge, Part I, 25(8):425–466, 2008.
[10] P. Felzenszwalb, R. Girshick, and D. McAllester. Cascade objectdetection with deformable part models. In CVPR, 2010.
[11] P. Felzenszwalb, R. Girshick, D. McAllester, and D. Ramanan. Objectdetection with discriminatively trained part based models. IEEETransactions on Pattern Analysis and Machine Intelligence, 99, 2010.
[12] P. Felzenszwalb and D. Huttenlocher. Distance transforms of sampledfunctions. Cornell Computing and Information Science TechnicalReport TR2004-1963, 2004.
[13] P. F. Felzenszwalb, R. B. Girshick, and D. McAllester.Discriminatively trained deformable part models, release 4.http://people.cs.uchicago.edu/⇠pff/latent-release4/.
[14] D. M. Gavrila and S. Munder. Multi-cue pedestrian detection andtracking from a moving vehicle. International Journal of ComputerVision, 73:41–59, 2007.
[15] D. Geronimo, A. Lopez, and T. G. A. Sappa. Survey of pedestriandetection for advanced driver assistance systems. IEEE Transactionon Pattern Analysis and Machine Intelligence, 32, 2010.
[16] K. Mikolajczyk, C. Schmid, and A. Zisserman. Human detection basedon a probabilistic assembly of robust part detectors. In ECCV, 2004.
[17] C. Papageorgiou and T. Poggio. A trainable system for objectdetection. International Journal of Computer Vision, 38(1):15–33,2000.
[18] A. Shashua, Y. Gdalyahu, and G. Hayun. Pedestrian detection fordriving assistance systems: Single-frame classification and systemlevel performance. In IEEE IV, pages 13–18, 2004.
[19] P. Viola and M. Jones. Rapid object detection using a boosted cascadeof simple features. In CVPR, 2001.
[20] P. Viola, M. J. Jones, and D. Snow. Detecting pedestrians usingpatterns of motion and appearance. International Journal of ComputerVision, 63(2):153–161, 2005.
[21] S. Walk, N. Majer, K. Schindler, and B. Schiele. New features andinsights for pedestrian detection. In CVPR, 2010.
[22] X. Wang, T. X. Han, and S. Yan. An hog-lbp human detector withpartial occlusion handling. In ICCV, 2009.
[23] C. Wojek and B. Schiele. A performance evaluation of singleand multi-feature people detection. In DAGM Symposium PatternRecognition, 2008.
[24] C. Wojek, S. Walk, and B. Schiele. Multi-cue onboard pedestriandetection. In CVPR, 2009.
Fig. 6. Qualitative detection results on the Caltech testset. The first and second row shows correct pedestrian detections in various scenarios. The thirdrow shows typical false positives.
laborative Research Lab.
REFERENCES
[1] A. Bar-Hillel, D. Levi, E. Krupka, and C. Goldberg. Part-based featuresynthesis for human detection. In ECCV, 2010.
[2] H. Cho, P. Rybski, and W. Zhang. Vision-based bicycle detection andtracking using a deformable part model and an ekf algorithm. In ITSC,2010.
[3] H. Cho, P. Rybski, and W. Zhang. Vision-based 3d bicycle trackingusing deformable part model and interacting multiple model filter. InICRA, 2011.
[4] N. Dalal and B. Triggs. Histograms of oriented gradients for humandetection. In CVPR, 2005.
[5] P. Dollar, S. Belongie, and P. Perona. The fastest pedestrian detectorin the west. In BMVC, 2010.
[6] P. Dollar, Z. Tu, P. Perona, and S. Belongie. Integral channel features.In BMVC, 2009.
[7] P. Dollar, C. Wojek, B. Schiele, and P. Perona. Pedestrian detection:An evaluation of the state of the art. PAMI, 99(PrePrints), 2011.
[8] M. Enzweiler and D. Gavrila. Monocular pedestrian detection: Surveyand experiments. IEEE Transaction on Pattern Analysis and MachineIntelligence, 31:2179–2195, 2008.
[9] C. U. et al. Autonomous driving in urban environments: Boss and theurban challenge. Journal of Field Robotics, Special Issue on the 2007DARPA Urban Challenge, Part I, 25(8):425–466, 2008.
[10] P. Felzenszwalb, R. Girshick, and D. McAllester. Cascade objectdetection with deformable part models. In CVPR, 2010.
[11] P. Felzenszwalb, R. Girshick, D. McAllester, and D. Ramanan. Objectdetection with discriminatively trained part based models. IEEETransactions on Pattern Analysis and Machine Intelligence, 99, 2010.
[12] P. Felzenszwalb and D. Huttenlocher. Distance transforms of sampledfunctions. Cornell Computing and Information Science TechnicalReport TR2004-1963, 2004.
[13] P. F. Felzenszwalb, R. B. Girshick, and D. McAllester.Discriminatively trained deformable part models, release 4.http://people.cs.uchicago.edu/⇠pff/latent-release4/.
[14] D. M. Gavrila and S. Munder. Multi-cue pedestrian detection andtracking from a moving vehicle. International Journal of ComputerVision, 73:41–59, 2007.
[15] D. Geronimo, A. Lopez, and T. G. A. Sappa. Survey of pedestriandetection for advanced driver assistance systems. IEEE Transactionon Pattern Analysis and Machine Intelligence, 32, 2010.
[16] K. Mikolajczyk, C. Schmid, and A. Zisserman. Human detection basedon a probabilistic assembly of robust part detectors. In ECCV, 2004.
[17] C. Papageorgiou and T. Poggio. A trainable system for objectdetection. International Journal of Computer Vision, 38(1):15–33,2000.
[18] A. Shashua, Y. Gdalyahu, and G. Hayun. Pedestrian detection fordriving assistance systems: Single-frame classification and systemlevel performance. In IEEE IV, pages 13–18, 2004.
[19] P. Viola and M. Jones. Rapid object detection using a boosted cascadeof simple features. In CVPR, 2001.
[20] P. Viola, M. J. Jones, and D. Snow. Detecting pedestrians usingpatterns of motion and appearance. International Journal of ComputerVision, 63(2):153–161, 2005.
[21] S. Walk, N. Majer, K. Schindler, and B. Schiele. New features andinsights for pedestrian detection. In CVPR, 2010.
[22] X. Wang, T. X. Han, and S. Yan. An hog-lbp human detector withpartial occlusion handling. In ICCV, 2009.
[23] C. Wojek and B. Schiele. A performance evaluation of singleand multi-feature people detection. In DAGM Symposium PatternRecognition, 2008.
[24] C. Wojek, S. Walk, and B. Schiele. Multi-cue onboard pedestriandetection. In CVPR, 2009.
Fig. 6. Qualitative detection results on the Caltech testset. The first and second row shows correct pedestrian detections in various scenarios. The thirdrow shows typical false positives.
laborative Research Lab.
REFERENCES
[1] A. Bar-Hillel, D. Levi, E. Krupka, and C. Goldberg. Part-based featuresynthesis for human detection. In ECCV, 2010.
[2] H. Cho, P. Rybski, and W. Zhang. Vision-based bicycle detection andtracking using a deformable part model and an ekf algorithm. In ITSC,2010.
[3] H. Cho, P. Rybski, and W. Zhang. Vision-based 3d bicycle trackingusing deformable part model and interacting multiple model filter. InICRA, 2011.
[4] N. Dalal and B. Triggs. Histograms of oriented gradients for humandetection. In CVPR, 2005.
[5] P. Dollar, S. Belongie, and P. Perona. The fastest pedestrian detectorin the west. In BMVC, 2010.
[6] P. Dollar, Z. Tu, P. Perona, and S. Belongie. Integral channel features.In BMVC, 2009.
[7] P. Dollar, C. Wojek, B. Schiele, and P. Perona. Pedestrian detection:An evaluation of the state of the art. PAMI, 99(PrePrints), 2011.
[8] M. Enzweiler and D. Gavrila. Monocular pedestrian detection: Surveyand experiments. IEEE Transaction on Pattern Analysis and MachineIntelligence, 31:2179–2195, 2008.
[9] C. U. et al. Autonomous driving in urban environments: Boss and theurban challenge. Journal of Field Robotics, Special Issue on the 2007DARPA Urban Challenge, Part I, 25(8):425–466, 2008.
[10] P. Felzenszwalb, R. Girshick, and D. McAllester. Cascade objectdetection with deformable part models. In CVPR, 2010.
[11] P. Felzenszwalb, R. Girshick, D. McAllester, and D. Ramanan. Objectdetection with discriminatively trained part based models. IEEETransactions on Pattern Analysis and Machine Intelligence, 99, 2010.
[12] P. Felzenszwalb and D. Huttenlocher. Distance transforms of sampledfunctions. Cornell Computing and Information Science TechnicalReport TR2004-1963, 2004.
[13] P. F. Felzenszwalb, R. B. Girshick, and D. McAllester.Discriminatively trained deformable part models, release 4.http://people.cs.uchicago.edu/⇠pff/latent-release4/.
[14] D. M. Gavrila and S. Munder. Multi-cue pedestrian detection andtracking from a moving vehicle. International Journal of ComputerVision, 73:41–59, 2007.
[15] D. Geronimo, A. Lopez, and T. G. A. Sappa. Survey of pedestriandetection for advanced driver assistance systems. IEEE Transactionon Pattern Analysis and Machine Intelligence, 32, 2010.
[16] K. Mikolajczyk, C. Schmid, and A. Zisserman. Human detection basedon a probabilistic assembly of robust part detectors. In ECCV, 2004.
[17] C. Papageorgiou and T. Poggio. A trainable system for objectdetection. International Journal of Computer Vision, 38(1):15–33,2000.
[18] A. Shashua, Y. Gdalyahu, and G. Hayun. Pedestrian detection fordriving assistance systems: Single-frame classification and systemlevel performance. In IEEE IV, pages 13–18, 2004.
[19] P. Viola and M. Jones. Rapid object detection using a boosted cascadeof simple features. In CVPR, 2001.
[20] P. Viola, M. J. Jones, and D. Snow. Detecting pedestrians usingpatterns of motion and appearance. International Journal of ComputerVision, 63(2):153–161, 2005.
[21] S. Walk, N. Majer, K. Schindler, and B. Schiele. New features andinsights for pedestrian detection. In CVPR, 2010.
[22] X. Wang, T. X. Han, and S. Yan. An hog-lbp human detector withpartial occlusion handling. In ICCV, 2009.
[23] C. Wojek and B. Schiele. A performance evaluation of singleand multi-feature people detection. In DAGM Symposium PatternRecognition, 2008.
[24] C. Wojek, S. Walk, and B. Schiele. Multi-cue onboard pedestriandetection. In CVPR, 2009.
DPM (state-of-the-art)による誤検出例
• HOG(特徴抽出過程)の限界– 能動学習によるオンラインチューニング– Deep Learningの結果を用いた特徴量の再設計
(Real-time Pedestrian Detection with Deformable Part Models, IV2012)
統計的学習手法による物体認識の高精度化と効率化 / 中部大学工学部情報工学科 藤吉弘亘
• [Mita et al., PAMI ’08] T. Mita, T. Kaneko, B. Stenger, and O. Hori: "Discriminative Feature Co-occurrence Selection for Object Detection", Pattern Analysis and Machine Intelligence, Vol.30, no.7, pp.1257-1269(2008)
• [山内, 藤吉, 山下 MIRU ’08] 山内悠嗣, 藤吉弘亘, 山下隆義: "Boostingに基づく共起表現による人検出", 画像の認識・理解シンポジウム(MIRU), pp.180-187(2008)
• [G.Mori, CVPR ’07] P. Sabzmeydani, and G. Mori: "Detecting Pedestrians by Learning Shapelet Features",' Computer Vision and Pattern Recognition, pp.1-8(2007)
• [三井, 山内, 藤吉 SSII ’08] 三井相和, 山内悠嗣, 藤吉弘亘: "Joint HOG特徴を用いた2段階AdaBoostによる人検出", 画像センシングシンポジウム(SSII)(2008)
• [矢澤, 藤吉 SSII ’11] 矢澤芳文, 吉見勤, 都筑輝泰, 土肥智美, 藤吉弘亘: "検出対象をリコンフィグ可能なJoint-HOGによるFPGAハードウェア検出器", 画像センシングシンポジウム(SSII)(2011)
• [草富, 山内, 藤吉 SSII ’11] 草富省吾, 山内悠嗣, 藤吉弘亘: "人検出のための学習サンプルの自動生成とMILBoostを用いた人検出", 画像センシングシンポジウム(SSII)(2011)
• [Viola et al., NIPS ’06] P. Viola, J. Platt, C. Zhang: "Multiple instance boosting for object detection", Neural Information Processing Systems(2006)
• [Pang et al., IP’11] J. Pang, Q. Huang, S. Yan, S. Jiang, L. Qin: "Transferring Boosted Detectors Towards Viewpoint and Scene Adaptiveness". Image Processing 20(5): pp.1388 -1400 (2011)
• [土屋, 藤吉 PRMU ’13] 土屋成光, 山内悠嗣, 下隆義, 藤吉弘亘: "ハイブリッド型転移学習による物体検出における学習の効率化", 電子情報通信学会PRMU研究会技報(2013)
参考文献
統計的学習手法による物体認識の高精度化と効率化 / 中部大学工学部情報工学科 藤吉弘亘
藤吉研究室 Fujiyoshi Laboratory藤吉弘亘(Hironobu Fujiyoshi)中部大学工学部情報工学科E-Mail: [email protected]: http://www.vision.cs.chubu.ac.jp/TEL:0568-51-9096FAX:0568-51-1540〒487-8501 愛知県春日井市松本町1200
お問い合わせ先