9
報告 要約 映像に映るオブジェクトを画像解析に基づいて識別する技術を提案する。提案手法では,フレー ム画像をさまざまなサイズの領域に分割し,領域ごとに特徴量を算出することによって,オブ ジェクトの出現位置や撮影サイズの変動に対して頑健な識別ができるようにする。また,半教師 付き学習によって,誤りの少ない学習データを効率的に生成する手法を提案する。オブジェクト の識別に利用する画像特徴については,従来の局所領域における輝度の勾配特徴に加え,より大 域的な領域における色特徴やテクスチャー特徴も考慮することで識別精度の向上を図る。映像 データセットを用いた比較実験により,提案手法の有効性を確認する。 ABSTRACT Analyzing video object is very important for finding the desired video among huge amounts of video data. We propose a method that improves on the detection accuracy of traditional methods by dividing video frames into overlapping sub-regions of various sizes. The method computes global features in addition to the conventional local features for each of these sub-regions to reflect spatial positioning in the feature vectors. These changes ensure that the method is resistant to variations in the size and position of objects appearing in the video. We also propose a semi-supervised learning method that uses a small number of labeled data points as a starting point and generates additional labeled training data efficiently, with few errors. Experiments using a video data set verify improved detection accuracy over that of earlier methods. 映像からのオブジェクト識別技術 河合吉彦 藤井真人 An Object Recognition Technique from Video Stream Yoshihiko KAWAI and Mahito FUJII NHK技研 R&D/No.142/2013.11 43

映像からのオブジェクト識別技術 - NHK · *7 特徴点を抽出し,特徴点周辺の局所領域から勾配ヒストグラムを算 出するアルゴリズム。

  • Upload
    others

  • View
    1

  • Download
    0

Embed Size (px)

Citation preview

Page 1: 映像からのオブジェクト識別技術 - NHK · *7 特徴点を抽出し,特徴点周辺の局所領域から勾配ヒストグラムを算 出するアルゴリズム。

報告

要約 映像に映るオブジェクトを画像解析に基づいて識別する技術を提案する。提案手法では,フレーム画像をさまざまなサイズの領域に分割し,領域ごとに特徴量を算出することによって,オブジェクトの出現位置や撮影サイズの変動に対して頑健な識別ができるようにする。また,半教師付き学習によって,誤りの少ない学習データを効率的に生成する手法を提案する。オブジェクトの識別に利用する画像特徴については,従来の局所領域における輝度の勾配特徴に加え,より大域的な領域における色特徴やテクスチャー特徴も考慮することで識別精度の向上を図る。映像データセットを用いた比較実験により,提案手法の有効性を確認する。

ABSTRACT Analyzing video object is very important for finding the desired video among huge amounts ofvideo data. We propose a method that improves on the detection accuracy of traditional methodsby dividing video frames into overlapping sub-regions of various sizes. The method computesglobal features in addition to the conventional local features for each of these sub-regions toreflect spatial positioning in the feature vectors. These changes ensure that the method isresistant to variations in the size and position of objects appearing in the video. We also proposea semi-supervised learning method that uses a small number of labeled data points as a startingpoint and generates additional labeled training data efficiently, with few errors. Experiments usinga video data set verify improved detection accuracy over that of earlier methods.

映像からのオブジェクト識別技術

河合吉彦 藤井真人

An Object Recognition Technique from Video Stream

Yoshihiko KAWAI and Mahito FUJII

NHK技研 R&D/No.142/2013.11 43

Page 2: 映像からのオブジェクト識別技術 - NHK · *7 特徴点を抽出し,特徴点周辺の局所領域から勾配ヒストグラムを算 出するアルゴリズム。

局所特徴ベクトル(BoVW法)

大域特徴ベクトル

特徴ベクトル

代表フレーム抽出

SIFT

SURF

重み付き特徴ベクトル

重み付き特徴ベクトル

色モーメント特徴

ハールウェーブレット特徴

ローカルバイナリーパターン特徴

矩形領域ごとに集計

ランダムフォレスト識別器

ショット分割

1.まえがき大量の映像データを効率的に検索・ハンドリングするためには,色やテクスチャー*1などの物理的な特徴よりも,映像に何が映っているのかといった映像意味内容の解析が重要となる。一般物体認識とは,機械学習によって生成した識別器を利用して,映像に特定のオブジェクトが映っているかどうかを判別する技術である。学習データの変更によって,さまざまな種類のオブジェクトに対応できるという特徴がある。代表的な従来手法には,BoVW(Bag-of-Visual-Words)法1)がある。BoVW法は,エッジやコーナーなどの特徴点の周辺領域から輝度の勾配ヒストグラム*2を算出し,それらの出現頻度に基づいて局所的な特徴ベクトルを求める手法である。特徴ベクトルの識別にはサポートベクターマシン*3などが利用される。BoVW法は非常に有効なアプローチであるが,いくつかの課題が残されている。1つは,映像フレーム内における空間的な位置情報が特徴ベクトルに反映されないという点である。もう1つは,学習データの作成にかかるコストが大きいという点である。精度の高い識別器を得るには,数百時間から数千時間規模の学習データが必要となるが,オブジェクトが映っている(正例),映っていない(負例)といったラベルを人手で付与するには多大な労力が必要となる。そこで本稿では,フレーム画像をさまざまなサイズの部分領域に分割し,各部分領域ごとに画像特徴を算出することによって,オブジェクトの空間情報を特徴ベクトルに反映できる手法を提案する2)。また,一部のデータにのみラベルを付与するだけで,エラーの少ない学習データを効率的に作成できる半教師付き学習*4を提案する3)。更に,画像特徴の算出においては,BoVW法による局所特徴ベクト

ルに加え,より広い領域も考慮できる大域的な特徴ベクトル(大域特徴ベクトルと呼ぶ)も考慮することで,オブジェクトの特徴をより正確に捉えられるようにする4)。実験では,約800時間のTRECVID*5データセット5)を用いて,提案手法の有効性を検証する。また,約10,000本のテレビ番組映像に対する実験により,提案手法による学習手法の有効性を検証する。

2.提案手法提案手法の概要を1図に示す。まず,入力映像をショット*6に分割した後6),各ショットの冒頭部分からフレーム画像を抽出する。これを,ショットを代表するフレーム画像(代表フレームと呼ぶ)とする。次に,代表フレームから局所特徴ベクトルと大域特徴ベクトルを算出する。局所特徴ベクトルについては,SIFT(Scale-InvariantFeature Transform)7)*7とSURF(Speeded Up RobustFeatures)8)*8の2種類の手法に基づくBoVW法を利用する(2.1節参照)。また,大域特徴ベクトルについては,色モーメント特徴,ハールウェーブレット特徴,ローカル

*1 オブジェクトの表面の模様。*2 横軸に勾配方向,縦軸に勾配強度をとった度数分布図。*3 ラベルが付与されたデータをラベルごとに分類する識別器を求める

機械学習手法の1つ。*4 ラベルが付与されているデータと,ラベルが付与されていないデー

タの両方が混在するような不完全な学習データから識別器を生成する機械学習手法。

*5 米国のNIST(National Institute of Standard and Technology)が主催している映像解析に関わる競争型のワークショップ。

*6 映像の編集点から編集点までの区間。カットと呼ばれることもある。*7 特徴点を抽出し,特徴点周辺の局所領域から勾配ヒストグラムを算

出するアルゴリズム。*8 SIFTのアルゴリズムを改良して高速化した手法。

1図 提案手法の概要

報告

NHK技研 R&D/No.142/2013.1144

Page 3: 映像からのオブジェクト識別技術 - NHK · *7 特徴点を抽出し,特徴点周辺の局所領域から勾配ヒストグラムを算 出するアルゴリズム。

勾配ヒストグラム空間(多次元空間)学習データ

視覚語彙の作成

入力画像 局所特徴ベクトル

局所特徴ベクトルの算出

出現頻度

特徴点抽出および勾配ヒストグラム算出

視覚語彙に置き換え

特徴点抽出および勾配ヒストグラム算出 (各クラスターの重心ベクトル)

視覚語彙

視覚語彙

クラスタリング

バイナリーパターン特徴9)を利用する(2.2節参照)。算出した局所特徴ベクトルと大域特徴ベクトルは,さまざまな

くけい

サイズの矩形領域ごとに集計し,それらを連結することでフレーム全体の特徴ベクトルとする(2.3節参照)。最後に,特徴ベクトルをランダムフォレスト法で学習した識別器11)で分類することにより,ショットに目的とするオブジェクトが映っているかどうかを判定する(2.4節参照)。以下で,各処理の詳細を説明する。2.1 局所特徴ベクトルの算出手順2図に,BoVW法による局所特徴ベクトルの算出手順

ご い

を示す。まず,視覚語彙の作成においては,学習データから特徴点を抽出した後,特徴点周辺の局所領域から輝度の勾配ヒストグラムを算出する。次に,それらを k平均法*9でクラスタリングし,各クラスターの重心ベクトルを求める。求めた重心ベクトルを視覚語彙と呼ぶ。一方,局所特徴ベクトルの算出においては,入力画像から求めた各特徴点の勾配ヒストグラムを,最も類似度の高い視覚語彙に置き換え,各視覚語彙の出現頻度を集計することで,局所特徴ベクトルとする。勾配ヒストグラムを視覚語彙に置き換える際には,類似度に基づいて重み付けする手法10)を用いる。具体的には,視覚語彙の総数が K個の場合,K次元の局所特徴ベクトル(t1, .., tk, .., tK)を算出するものとし,要素 tkは,(1)式で定義する。

(1)

ここで,sim( hj , wk)は勾配ヒストグラム hjと視覚語彙 wkとの類似度を表す。類似度は,ベクトル間のユークリッド距離などで定義する。また,Viは,類似度の大きさが i番目となる視覚語彙が wkとなるような勾配ヒストグラムhjの総数を表す。Sは,類似度の大きさが何番目までの視覚語彙を考慮するかを表す定数であり,提案手法ではS=4とした。Kは予備実験に基づき500に設定した。2.2 大域特徴大域特徴としては以下の3種類を利用する。(1)色モーメント特徴色モーメント特徴2)は,画像領域における色分布を反映

した特徴量である。入力画像をHSV色空間*10およびL*a*b*

色空間*11に変換し,色コンポーネントわいど

ごとに,画素値の平均 μc,標準偏差 σc,歪度の立方根scを(2)~(4)式で算出する。なお歪度は,データ分布の非対称性を表す指標である。

(2)

(3)

*9 データをk 個の集合(クラスター)に分類する手法。*10 色相(Hue),彩度(Saturation),明度(Value)の3成分から成る

色空間。*11 明度を表す成分(L*)と,色情報を表す2つの成分(a*,b*)か

ら成る色空間。

2図 BoVW(Bag-of-Visual-Words)法による局所特徴ベクトルの算出手順

NHK技研 R&D/No.142/2013.11 45

Page 4: 映像からのオブジェクト識別技術 - NHK · *7 特徴点を抽出し,特徴点周辺の局所領域から勾配ヒストグラムを算 出するアルゴリズム。

(a)第1段階 (b)第2段階 (c)第3段階

HH1

LL1 HL1

LH1

LL2

HH1

HL1

LH1

HL2

LH2 HH2

HH1

HL1

LH1

HL2

HH2LH2

HL3 HH3LH3

LL3

L:低周波成分 H:高周波成分

(4)

ここで,( x , y)は座標( x , y)におけるコンポーネントcの画素値を表し,H,Wは画像領域の高さと幅を表す。(2)ハールウェ―ブレット特徴ハールウェーブレット特徴2)は,画像のテクスチャーを反 映 し た 特 徴 量 で あ る。1次 元 の デ ー タ 列

に対する第 n 段階のハールウェーブレット変換は,(5)式で定義する。

(5)

ここで,ak(n)は低周波成分を表し,bk(n)は高周波成分を表す。2次元の画像については,1次元の変換式を水平方向および垂直方向に適用することで変換できる。第1段階の変換結果を3図(a)に示す。3図において,Hは高周波成分,Lは低周波成分を表し,第1段階のハールウェーブレット変換によって,2次元の画像は LL1,LH1,HL1,HH1の4つのサブバンドに分解される。ここで,例えば HLは水平方向が高周波成分,垂直方向が低周波成分から成るサブバンドを表す。提案手法では,まず,画像領域に対してハールウェーブレット変換を3段階適用する。多段階の変換は,前段階の LL サブバンドに対して,ハールウェーブレット変換を適用することで実施する。3段階の変換を適用した結果を3図(c)に示す。3図(c)におけるそれぞれのサブバンド領域の画素値の分散を算出し,それらを連結して特徴量とする。本特徴量は,画像の水平方向および垂直方向の周波数特性を解像度ごとに算出したものであり,画像の

テクスチャーの特性を反映した特徴量と言える。(3)ローカルバイナリーパターン特徴ローカルバイナリーパターン特徴9)は,画像のテクスチャーを反映した特徴量である。半径 Rの円周上の P個の画素から算出されるローカルバイナリーパターンLP, Rの算出式を(6)式に示す。

(6)

ここで,δP, Rは注目画素( x , y)と周囲の画素( x+xp,y+yp)との輝度値の大小関係を表し,(7)式,(8)式で定義する。

(7)

(8)

また,(6)式におけるUP, Rは,δP, Rの並びにおいて0と1が変化する箇所の総数を表し,具体的には(9)式のように算出される。

(9)

3図 画像に対するハールウェーブレット変換

報告

NHK技研 R&D/No.142/2013.1146

Page 5: 映像からのオブジェクト識別技術 - NHK · *7 特徴点を抽出し,特徴点周辺の局所領域から勾配ヒストグラムを算 出するアルゴリズム。

代表フレームH

W

1×1 2×2 3×3 1×3 4×43×1

色は?

大きさは? 形は?

緑 黄

丸い 細い

レモン バナナ

大きい 小さい

スイカ リンゴ

提案手法では,画像領域内の全ての画素に対してを算出し,その出現頻度のヒスト

グラムを求めて特徴量とする。本特徴量は,注目画素とその周辺画素との輝度差に基づいて算出されるテクスチャー特徴の分布を表す。実際には,解像度変化に耐性を持たせるため,(P, R)=(8, 1),(16, 2),(24, 3)に対して,それぞれ LP, Rの頻度ヒストグラムを算出し,それらを連結して特徴量とする。なお,Rの単位はピクセルである。2.3 特徴ベクトルの算出フレーム画像を複数の矩形領域に分割し,矩形領域ごとに求めた局所特徴ベクトルと大域特徴ベクトルのそれぞれの平均ベクトルを連結することでフレーム画像全体の特徴ベクトルを求める。平均ベクトルは,領域内のベクトルをすべて足し合わせ,ベクトルの総数で割ることで算出できる。提案手法では,フレーム内におけるオブジェクトの出現位置や,サイズの変化に対して,より頑健な特徴ベクトルを算出するため,矩形領域のサイズをさまざまに変化させる。また,矩形領域の境界をまたぐオブジェクトに対応するため,隣接する矩形領域同士が重なりを持つようにする。矩形領域の具体的なサイズとしては,フレーム画像を横縦1×1,2×2,3×3,3×1,1×3および4×4の領域に分割したサイズとする。4図に,提案手法で用いる矩形領域のサイズを示す。隣接する矩形領域の重なり量については,計算コストと精度のバランスを考慮して,垂直方向が矩形領域の高さの50%,水平方向が矩形領域の幅の50%とした。2.4 ランダムフォレスト識別器算出した特徴ベクトルを,ランダムフォレスト法11)を利用して分類することで,フレーム画像に特定のオブジェクトが映っているかどうかを判定する12)。ランダムフォレストは,複数の決定木を組み合わせた手法である。5図に決定木の例を示す。決定木では,条件に従ってノードを分岐することで入力データのラベルを推定する。ランダム

フォレストでは,分岐条件の異なる多数の決定木を用いてデータのラベルを並列に推定し,すべての決定木の推定結果の中で,最も頻度の高いラベルをランダムフォレストの推定結果とする。また,そのラベルを出力した決定木の割合を求めることで,推定結果に対するスコア(0から1の範囲の実数)を算出することができる。ランダムフォレストは,特徴ベクトルの次元数が高い場合や,学習データ数が多い場合でも,短時間で学習処理を終えることができるという特徴がある。2.5 半教師付き学習による識別器の生成精度の高い識別器を構築するためには,学習データの質が重要となる。具体的には,学習データには,少ないノイズと,バリエーション豊かな*12正例データが含まれていることが望ましい。これによって未知のデータを精度よく識別することが可能となる。しかし,学習データは,基本的に人手で映像内容を確認しながら作成する必要があるので,大量の映像データに対して正例と負例のラベルを付与するには,非常に高い作業コストが必要となる。そこで,提案手法では半教師付き学習を利用して,誤ったラベルを徐々に修正しながら,学習と識別処理を反復することによって,質の高い学習データを効率的に生成する。

*12 例えば,自動車の場合,さまざまなアングル,撮影サイズ,ボディカラー,車種など。

4図 矩形領域のサイズ

5図 決定木の例(果物の判別)

NHK技研 R&D/No.142/2013.11 47

Page 6: 映像からのオブジェクト識別技術 - NHK · *7 特徴点を抽出し,特徴点周辺の局所領域から勾配ヒストグラムを算 出するアルゴリズム。

×

識別器繰り返し

2.人手で修正3.識別基準を生成

4.識別処理

映像

クローズドキャプション(CC) 夕日は… 夕焼けが… 夕方から… …夕日です

・・・ ・・・ ・・・

正例

1.CC検索などにより初期集合を生成

・・・

5.識別結果(上位 N 件)+ランダムデータ( M 件)

学習データ

正例の候補

学習の手順を6図に示す。まず始めに,クローズドキャプション*13に対するテキスト検索などによって初期の正例の候補の集合を作成する。次に,候補の集合の内容を人手で確認し,誤っているラベルを修正する。続いて,修正した結果を学習データとして,識別器において正例候補集合とそれ以外のデータを分類する識別基準を生成し,それを用いて元の学習データを識別する。識別処理の結果は,0から1までの数値で表される。その数値が大きい順にデータを並べることによって得られた順位付きリストの上位 N件に,ランダムに選択したM件のデータを加えて,次の正例候補とする。再び,これらの候補に対して人手でラベルを修正した後,識別基準を生成し,元の学習データに対して識別処理を適用する。このような処理を,

しきいち

識別器の精度が収束するか,正例の増加数が閾値以下となるまで繰り返す。なお,正例の候補集合を作成する際に,ランダムデータを混入しているのは,局所解に収束しないようにするための措置である。

3.評価実験3.1 TRECVIDデータセットによる評価実験(1)実験の設定提案手法の有効性を検証するために評価実験を実施した。実験には,TRECVID 2012データセット5)を利用した。データセットに含まれる映像クリップは約27,000本で,それぞれ10秒から4分ほどの長さを持つ。映像内容はホームビデオやテレビ映像を切り出したものなどさまざまである。映像の合計は約800時間であり,そのうち600時間を学習データ,残りの200時間をテストデータとして

利用した。評価指標には,識別結果の上位2,000件に対する平均適合率13)を利用した。上位 r 件に対する平均適合率 A( r )の算出式を(10)式に示す。また,上位 i 件に対する適合率 P( i )の算出式を(11)式に示す。

(10)

(11)

ここで di は,第 i 位の推定結果が正解なら1,不正解なら0を表すものとする。また,識別対象のオブジェクトとしては,データセットで定義されている46種類を利用した。1表にオブジェクト名の一覧を示す。比較実験のために,2表に示す4種類の手法を用いた。各手法の違いは,特徴ベクトルの算出方法と,識別器の学習手法である。特徴ベクトルの算出方法については,手法1と3では本稿で提案した画像特徴ベクトルを利用し,手法2と4ではChangらの手法14)で算出した特徴ベクトルを利用した。Changらの手法は,SIFTによるBoVW法を利用して,重なりのない固定サイズの矩形領域ごとに特徴量を集計するものである。学習方法については,手法1と2では,本稿で提案した半教師付き学習のランダムフォレスト(RF:Random Forest)を利用し,手法3と

*13 番組音声を書き起こしたテキストデータ。

6図 半教師付き学習による識別器の生成(識別対象のオブジェクトを「夕日」とした例)

報告

NHK技研 R&D/No.142/2013.1148

Page 7: 映像からのオブジェクト識別技術 - NHK · *7 特徴点を抽出し,特徴点周辺の局所領域から勾配ヒストグラムを算 出するアルゴリズム。

4ではBreimanら11)のランダムフォレストを利用した。手法1と2における半教師付き学習の正例候補の初期集合としては,TRECVID 2012のアノテーションデータ5)*14を利用した。また,パラメーターは,予備実験の結果から N=2,000,M=200に設定した。手法3と4では,TRECVID 2012のアノテーションデータをそのまま利用した。(2)実験結果実験結果を2表に示す。最も精度が低くなったのはベースラインの手法4であった。平均適合率は 0.099という結果となった。ベースラインに対して,提案手法の特徴量を利用した手法3は,平均適合率が 0.102まで向上した。提案手法の特徴量を利用することによって,より正確にオブジェクトを識別できるようになった。また,半教師付き学習を利用した手法2は,平均適合率が 0.101に向上した。手法3と同程度の精度となり,提案手法の特徴量による精度向上と,半教師付き学習による精度向上は同程度であることが分かった。半教師付き学習の利用によって,学習データの質が向上し,精度向上につながったものと思われる。最も精度が高くなったのは手法1で,平均適合率は0.106であった。提案手法の特徴量と半教師付き学習の両

方を組み合わせることで,より検出精度が向上することが確認できた。なお,全体的に検出精度の数値が低くなっているのは,TRECVIDでは厳しい基準で手法を比較できるように,データセットの内容(映像内容および検出オブジェクトの種類),評価方法ともに他のデータセットに比べて厳しい設定となっているためである。学習に要した作業時間について述べる。TRECVID2012のアノテーションデータは,46の大学および研究機関が約40日をかけて作成したものである5)。ラベル付けされたオブジェクトは346種類である。作業時間は公表されていないが,各機関が1日に平均2時間ずつ作業したと仮定すると,1オブジェクト当たりの作業時間は約11時間と推定される。それに対して提案手法では,初期集合の生成後の作業時間は,1オブジェクト当たり約1時間であった。初期集合をクローズドキャプションの解析などによって高速に生成することができれば,作業時間を大幅に短縮することが可能となる。

*14 代表フレームの画像と,各画像に対するラベルがセットになったデータ。

1 Airplane 16 Kitchen 31 Apartments

2 Airplane_Flying 17 Landscape 32 Baby

3 Basketball 18 Meeting 33 Civilian_Person

4 Bicycling 19 Motorcycle 34 Clearing

5 Boat_Ship 20 Nighttime 35 Fields

6 Boy 21 Office 36 Forest

7 Bridges 22 Press_Conference 37 George_Bush

8 Chair 23 Roadway_Junction 38 Glasses

9 Computers 24 Scene_Text 39 Hill

10 Female_Person 25 Singing 40 Lakes

11 Girl 26 Sitting_Down 41 Man_Wearing_A_Suit

12 Government-Leader 27 Stadium 42 Military_Airplane

13 Greeting 28 Teenagers 43 Oceans

14 Highway 29 Throwing 44 Skier

15 Instrumental_Musician 30 Walking_Running 45 Soldiers

手法 特徴量 学習手法 平均適合率13)

1 提案手法 半教師付きRF 0.106

2 Changらの手法 半教師付きRF 0.101

3 提案手法 RF 0.102

4(ベースライン) Changらの手法 RF 0.099

1表 評価実験に用いたオブジェクト

2表 評価実験の結果

NHK技研 R&D/No.142/2013.11 49

Page 8: 映像からのオブジェクト識別技術 - NHK · *7 特徴点を抽出し,特徴点周辺の局所領域から勾配ヒストグラムを算 出するアルゴリズム。

0

50

100

150

200

250

300

350

0.0

0.2

0.4

0.6

0.8

1.0

1 2 3 4 5 6

正例数

生成された

正例候補の平均適合率※

反復回数※ ランダムデータ混入前の適合率

適合率正例数

3.2 半教師付き学習の評価次に,本稿で提案した半教師付き学習手法の評価実験を実施した。実験には,NHK総合およびEテレで放送された約1万番組を利用した。番組のジャンルは,ニュースやドキュメンタリー,ドラマなどさまざまである。半分の5,000番組を学習データ,残りの半分をテストデータとして利用した。ショットの総数は約200万である。検出対象のオブジェクトとしては,LSCOM15)*15で定義されたものから14種類を選択した。半教師付き学習における初期の正例候補の集合は,番組のクローズドキャプションに対するテキスト検索によって作成した。具体的には,クローズドキャプションから,検出対象のオブジェクトの名称およびその関連語,類義語を検索し,キーワードが出現するショットと,その直前,直後のショットに正例のラベルを付与した。それ以外のショットには負例のラベルを付与した。直前,直後のショットにも正例ラベルを与えているが,これは時間的に近いショットには同じオブジェクトが出現する可能性が高いという経験的知識に基づいている。半教師付き学習のパラメーターについては,予備実験の結果から N=2,000,M=200に設定した。7図に,半教師付き学習処理の反復回数と,生成された正例候補の平均適合率との関係を示す。反復処理では学習データとテストデータが同一であるため,平均適合率が向上していくことは当然と言えるが,約4回の反復で平均適合率が大きく向上し,その後,収束するというような結果が得られた。正例データの数については,反復処理によって,初期集合の約3倍まで増加することが確認できた。学習データの作成に要した作業時間については,1オブジェクト当たり約1時間であった。前節の実験と比較して,学習データが約600時間から約5,000時間に増加したにもかかわらず,作業時間にはほとんど差がなかった。これは,提案手法では,学習データのサイズによらず,識別

結果の上位 N件とランダムデータM件だけのラベルを確認すれば良いからである(6図の手順2)。パラメーターN や M を大きくした場合は作業時間が増加するものと考えられる。半教師付き学習によって生成した識別器の精度について述べる。評価指標には,上位2,000件の平均適合率を用いた。テストデータに対する評価実験の結果,14種類のオブジェクトに対する平均適合率の平均は0.218となり,5,000番組規模の映像検索においても,提案手法が有用であることが確認できた。

4.あとがき本稿では,さまざまなサイズの領域に対して算出した特徴量を組み合わせることにより,被写体サイズや出現位置の変化に対して頑健なオブジェクト識別手法を提案した。また,半教師付き学習を利用して効率的に識別器を構築する手法を提案した。データセットを用いた評価実験の結果,従来手法に比べて,識別精度が向上することが確認された。今後は,更なる精度向上のため,画像特徴量の改良を進めたい。また,半教師付き学習における初期集合の有効な生成方法についても検討を進めたい。

本稿は,ITE Transactions on Media Technology and Appli-cationsに掲載された以下の論文を元に加筆・修正したものである。Y. Kawai and M. Fujii:“Semantic Concept Detection Basedon Spatial Pyramid Matching and Semi - supervisedLearning,”ITE Transactions on Media Technology andApplications,Vol.1, No.2, pp.190-198(2013)

*15 映像検索やラベル付与におけるオブジェクトなどの標準セットを定義する目的で設立されたプロジェクト。

7図 正例候補集合における平均適合率の変化

報告

NHK技研 R&D/No.142/2013.1150

Page 9: 映像からのオブジェクト識別技術 - NHK · *7 特徴点を抽出し,特徴点周辺の局所領域から勾配ヒストグラムを算 出するアルゴリズム。

参考文献 1) G. Csurka, C. Bray, C. Dance and L. Fan:“Visual Categorization with Bags of Keypoints,”Proc.ECCV Workshop on Statistical Learning in Computer Vision, pp.59-74(2004)

2) Y. Kawai and M. Fujii:“NHK STRL at TRECVID 2012:Semantic Indexing,”Proc. TRECVIDWorkshop(2012)

3) 河合,藤井:“クローズドキャプションと画像特徴を考慮した反復的学習に基づく映像検索システム,”映情学年次大,23-7(2012)

4) 河合,藤井:“大量の蓄積映像を対象とした映像意味内容の解析手法,”信学技報,Vol.110, No.414, pp.37-42(2011)

5) TRECVID:TREC Video Retrieval Evaluation, http://trecvid.nist.gov/

6) 河合,住吉,八木:“逐次的な特徴算出によるディゾルブ,フェードを含むショット境界の高速検出手法,”信学論,D, Vol.J91-D, No.10, pp.2529-2539(2008)

7) D.G. Lowe:“Object Recognition from Local Scale-Invariant Features,”Proc. ICCV’99, Vol.2, pp.1150-1157(1999)

8) H. Bay, A. Ess, T. Tuytelaars and L. V. Gool:“SURF:Speeded Up Robust Features,”ComputerVision and Image Understanding, Vol.10, No.3, pp.346-359(2008)

9) T. Ojala, M. Pietikaninen and T. Maenpaa:“Multiresolution Gray-Scale and Rotation Invariant TextureClassification With Local Binary Patterns,”IEEE Trans. Pattern Analysis and Machine Intelligence,Vol.24, No.7, pp.971-987(2002)

10)Y.-G. Jiang, C.-W. Hgo and J. Yang:“Towards Optimal Bag-Of-Features for Object CategorizationAnd Semantic Video Retrieval,”Proc. ACM CIVR’07(2007)

11)L. Breiman:“Random Forests,”Machine Learning, Vol.45, pp.5-32(2001)

12)河合,住吉,藤井,柴田,馬場口:“不均衡データからのランダムフォレストを利用した高速高次特徴抽出,”映情学誌,Vol.64, No.12, pp.1951-1955(2010)

13)E. Yilmaz, E. Kanoulas and J.A. Aslam:“A Simple and Efficient Sampling Method for Estimating APand NDCG,”Proc. ACM SIGIR conf. on Research and Development in Information Retrieval, pp.603-610(2008)

14)S.-F. Chang, J. He, Y.-G. Jiang, E.E. Khoury, C.-W. Ngo, A. Yanagawa and E. Zavesky:“ColumbiaUniversity/VIREO-City/IRIT TRECVID2008 High-level Feature Extraction and Interactive VideoSearch,”Proc. TRECVID Workshop(2008)

15)LSCOM:“Large-Scale Concept Ontology for Multimedia,”http://www.lscom.org/

か わ いよしひこ

河合吉彦ふ じ い ま ひ と

藤井真人

2001年入局。放送技術局を経て,2005年から放送技術研究所において,マルチメディア処理の研究に従事。現在,放送技術研究所ハイブリッド放送システム研究部専任研究員。博士(工学)。

1983年入局。札幌放送局を経て,1987年から放送技術研究所において,神経回路モデル,視覚情報処理,画像認識,映像検索などの研究開発に従事。この間,CMUに半年間滞在,およびATR人間情報通信研究所に出向。現在,放送技術研究所ヒューマンインターフェース研究部部長。博士(情報科学)。

NHK技研 R&D/No.142/2013.11 51