【新規性喪失の例外の表示】特許法第30条第2項適用 2012年11月26日頒布 TRECVID 2012 Workshop Volume 1:Notebook Papers(2012年 国際競争型映像検索・評価ワークショップ論文集 第一巻)にて公開
【文献】
村田 眞哉,画像をクエリとしたインスタンス映像検索,電子情報通信学会技術研究報告,日本,一般社団法人電子情報通信学会,2013年 2月14日,Vol.112 No.441,215−219ページ
(58)【調査した分野】(Int.Cl.,DB名)
クエリとなるインスタンスを含むインスタンス画像、前記インスタンス画像内の前記インスタンスを示す領域、及び検索対象となる複数のフレーム画像からなる画像群の各フレーム画像から複数の特徴を抽出する特徴抽出手段と、
前記特徴抽出手段によりインスタンス画像から抽出された複数の特徴から、重複する特徴を集約した集約特徴の各々の前記複数のインスタンス画像における前記インスタンス毎の第1出現頻度を集計する特徴集約集計手段と、
前記集約特徴の各々と前記インスタンスを示す領域から抽出された複数の特徴とを照合し、前記集約特徴の各々の前記インスタンスを示す領域における第2出現頻度を集計する第1特徴照合集計手段と、
前記集約特徴の各々と前記フレーム画像から抽出された複数の特徴とを照合し、前記集約特徴の各々の前記画像群における第3出現頻度を集計する第2特徴照合集計手段と、
前記第3出現頻度に基づいて、前記画像群における該集約特徴の出現頻度が低いほど高くなる識別性度合を、前記集約特徴の各々について計算する識別性度合計算手段と、
前記集約特徴の各々の前記識別性度合、前記第1出現頻度、前記第2出現頻度、及び前記第3出現頻度、前記画像群に含まれる集約特徴の数に関する画像群長、並びに前記インスタンスを示す領域に含まれる集約特徴の数に関する画像長に基づいて定まる各集約特徴の重要度の和で表される検索対象のインスタンスに対する各画像群の評価値を求め、前記評価値に基づく検索結果を作成する検索結果作成手段と、
を含む画像検索装置。
前記特徴集約集計手段は、検索対象として新たに追加されたインスタンスを含むインスタンス画像から抽出された特徴のうち、前記集約特徴に含まれない追加特徴に基づいて、前記第1出現頻度の集計結果を更新し、
前記第1特徴照合集計手段は、前記追加特徴と前記インスタンス領域から抽出された複数の特徴とを照合し、前記第2出現頻度を更新し、
前記第2特徴照合集計手段は、前記追加特徴と前記フレーム画像から抽出された複数の特徴とを照合し、前記第3出現頻度を更新し、
前記識別性度合計算手段は、更新された前記第3出現頻度に基づいて、前記識別性度合を再計算し、
前記検索結果作成手段は、再計算された識別性度合、更新された前記第1出現頻度、更新された前記第2出現頻度、及び更新された前記第3出現頻度に基づいて、前記新たに追加されたインスタンスに対する検索結果を作成する
請求項1記載の画像検索装置。
前記インスタンス画像に含まれるインスタンスを示す領域に対応したマスク画像を用いて、前記インスタンス画像をマスキングすることにより、前記インスタンスを示す領域を表す画像を作成するマスキング処理手段を含む請求項1または請求項2記載の画像検索装置。
前記検索結果作成手段は、前記検索結果に前記画像群のファイル名、または前記画像群のファイル名と該画像群の評価値とを含める請求項1〜請求項3のいずれか1項記載の画像検索装置。
特徴抽出手段と、特徴集約集計手段と、第1特徴照合集計手段と、第2特徴照合集計手段と、識別性度合計算手段と、検索結果作成手段とを含む画像検索装置における画像検索方法であって、
前記特徴抽出手段が、クエリとなるインスタンスを含むインスタンス画像、前記インスタンス画像内の前記インスタンスを示す領域、及び検索対象となる複数のフレーム画像からなる画像群の各フレーム画像から複数の特徴を抽出し、
前記特徴集約集計手段が、前記特徴抽出手段によりインスタンス画像から抽出された複数の特徴から、重複する特徴を集約した集約特徴の各々の前記インスタンス画像における前記インスタンス毎の第1出現頻度を集計し、
前記第1特徴照合集計手段が、前記集約特徴の各々と前記インスタンスを示す領域から抽出された複数の特徴とを照合し、前記集約特徴の各々の前記インスタンスを示す領域における第2出現頻度を集計し、
前記第2特徴照合集計手段が、前記集約特徴の各々と前記フレーム画像から抽出された複数の特徴とを照合し、前記集約特徴の各々の前記画像群における第3出現頻度を集計し、
前記識別性度合計算手段が、前記第3出現頻度に基づいて、前記画像群における該集約特徴の出現頻度が低いほど高くなる識別性度合を、前記集約特徴の各々について計算し、
前記検索結果作成手段が、前記集約特徴の各々の前記識別性度合、前記第1出現頻度、前記第2出現頻度、及び前記第3出現頻度、前記画像群に含まれる集約特徴の数に関する画像群長、並びに前記インスタンスを示す領域に含まれる集約特徴の数に関する画像長に基づいて定まる各集約特徴の重要度の和で表される検索対象のインスタンスに対する各画像群の評価値を求め、前記評価値に基づく検索結果を作成する
画像検索方法。
【発明を実施するための形態】
【0017】
以下、図面を参照して本発明の実施の形態を詳細に説明する。
【0019】
各実施の形態では、インスタンス(実例)を示す画像(以下、「インスタンス画像」という)を入力とし、大規模映像データベースからインスタンスを含む映像を検索し、検索結果を出力する映像検索装置に、本発明の画像検索装置を適用した場合について説明する。各実施の形態に係る映像検索装置は、インスタンス画像またはインスタンス画像群の局所特徴、及び各インスタンス画像内におけるインスタンスを示す領域(以下、「インスタンス領域」という)の局所特徴に基づいて、インスタンスを含む映像の検索(以下、「インスタンス検索」ともいう)を高精度に行うインスタンス検索システムを実現するものである。
【0020】
各実施の形態では、Webページのキーワード検索でよく用いられる確率的検索手法であるBM25(Best Match 25)と呼ばれるランキング手法を、インスタンス検索に応用する。BM25を応用する際、インスタンス領域の局所特徴の効果をBM25に考慮することで、インスタンス検索の検索精度を向上させる。各実施の形態では、インスタンス領域を示す画像として、マスキング処理によりマスクされたインスタンス画像を作成することに由来して、インスタンス領域の局所特徴の効果を考慮したBM25を、「BM25M(BM25 with Masked query)」と呼ぶ。
【0021】
また、各実施の形態では、局所特徴の識別性を表す指標に注目し、識別性を表す指標の低い局所特徴を枝刈り(ステミング)することで、BM25本来の検索性能を引き出す。
【0022】
<第1の実施の形態>
第1の実施の形態に係る映像検索装置10は、CPUと、RAMと、後述する映像検索処理ルーチンを実行するためのプログラムを記憶したROMとを備えたコンピュータで構成されている。このコンピュータは、機能的には、
図1に示すように、インスタンス画像特徴抽出部11、特徴集約集計部12、マスキング処理部13、インスタンス領域特徴抽出部14、第1特徴照合集計部15、フレーム画像抽出部16、フレーム画像特徴抽出部17、第2特徴照合集計部18、識別性度合計算部19、検索ランキング部20、及び検索結果出力部21を含んだ構成で表すことができる。また、映像検索装置10には、集約特徴データベース(DB)31、インスタンス特徴DB32、インスタンス領域特徴DB33、映像特徴DB34、及び識別性度合DB35を記憶する所定の記憶領域が設けられている。
【0023】
映像検索装置10には、インスタンス検索のクエリとして、インスタンス画像が入力される。第1の実施の形態では、インスタンス特徴DB32を作成するため、複数のインスタンスを対象とし、インスタンスのそれぞれについて、複数のインスタンス画像からなるインスタンス画像群が入力される。例えば、インスタンスの数がq個で、各インスタンスについてh枚のインスタンス画像が用意されている場合には、q個のインスタンス画像群、総数q×h枚のインスタンス画像が入力されることとなる。ただし、入力されるインスタンス画像は、1つのインスタンスについて1枚以上であればよい。また、インスタンスを示す映像を入力とし、その映像の各フレームをインスタンス画像群として入力してもよい。なお、1つのインスタンスに対するインスタンス画像群に含まれるインスタンス画像の数が多いほど、インスタンス検索の検索精度が向上する。
【0024】
図2に、インスタンス画像のデータ構造の一例を示す。
図2は、インスタンス画像がn×m画素で構成され、各画素の画素値としてRGB値を有する場合の例であり、画素毎の位置(x
n,y
m)とRGB値(r
nm,g
nm,b
nm)とが対応付けられたデータ構造となっている。
【0025】
また、映像検索装置10には、各インスタンス画像からインスタンス領域を抽出するためのマスク画像が入力される。マスク画像は、例えば、各インスタンス画像内のインスタンス領域の画素の画素値を“1”、インスタンス領域以外の画素の画素値を“0”とした2値化画像とすることができる。また、映像検索装置10には、複数のフレーム画像で構成された映像を複数含む映像群が入力される。
【0026】
インスタンス画像特徴抽出部11は、映像検索装置10に入力されたインスタンス画像群を受け付け、各インスタンス画像から特徴点を検出し、検出した特徴点の特徴量を記述した特徴ベクトルを局所特徴として抽出する。インスタンス画像特徴抽出部11は、例えば、インスタンス画像において輝度値の変化が激しい箇所をHarris-Laplace法(「C. Harris et al., “A combined corner and edge detector.”, 4th Alvey Vision Conf., 1988.」参照)により特徴点として検出する。そして、検出した各特徴点の特徴量をCompact Color SIFT(「K. Mikolajczyk et al., “Scale and affine invariant interest point detectors.”, IJCV, 2004.」参照)により記述する。Compact Color SIFTは輝度に関する128次元のSIFT特徴量に色度を表す64次元のベクトルを追加した局所特徴量である。
【0027】
図3に局所特徴のデータ構造の一例を示す。
図3は、上記のCompact Color SIFTを用いた例であり、抽出された各局所特徴の識別番号(特徴1,特徴2,・・・,特徴i)と192次元のCompact Color SIFT特徴量(特徴ベクトル)とが対応付けられたデータ構造となっている。インスタンス画像特徴抽出部11は、インスタンス画像から抽出した局所特徴を、特徴集約集計部12に受け渡す。
【0028】
特徴集約集計部12は、インスタンス画像特徴抽出部11から受け渡されたインスタンス画像の局所特徴のうち、重複している局所特徴を一つに集約する。「重複している局所特徴」とは、インスタンス画像群として映像の各フレームを用いた場合などのように、ほぼ同一のインスタンス画像から同一の局所特徴が抽出された場合に、その同一の局所特徴を「重複」とみなすものである。一枚のインスタンス画像を入力とする場合、「重複している局所特徴」とは、一枚のインスタンス画像から同一の局所特徴が複数個抽出された場合に、その同一の局所特徴を「重複」とみなすものである。特徴集約集計部12は、集約した局所特徴を集約特徴とした集約特徴DB31を作成し、所定の記憶領域に記憶する。
図4に、集約特徴DB31のデータ構造の一例を示す。
図4の例では、各集約特徴の識別番号(特徴1,特徴2,・・・,特徴j)と192次元のCompact Color SIFT特徴量(特徴ベクトル)とが対応付けられたデータ構造となっている。このデータ構造は、インスタンス画像特徴抽出部11により抽出された局所特徴(例えば、
図3)のデータ構造と同様であるが、特徴集約集計部12により局所特徴の数がiからjに集約されたことを示している。
【0029】
また、特徴集約集計部12は、各インスタンスを示すインスタンス画像群における各集約特徴の出現回数を、インスタンスの特徴としてインスタンス毎に集計し、インスタンス特徴DB32として作成し、所定の記憶領域に記憶する。
図5に、インスタンス特徴DB32のデータ構造の一例を示す。
図5は、インスタンスの数がq個、集約特徴の総数がj個の例であり、各インスタンスの識別番号(インスタンス1,・・・,インスタンスq)と、各集約特徴の出現回数kf(keypoint frequency)とが対応付けられたデータ構造となっている。
【0030】
なお、特徴集約集計部12は、集約された局所特徴を、例えばk-means法等によりクラスタリングして次元数を下げることにより、さらに集約してもよい。
【0031】
マスキング処理部13は、映像検索装置10に入力されたインスタンス画像群及びマスク画像群を受け付け、インスタンス画像の各々に、対応するマスク画像を適用して、マスク画像が示すインスタンス領域に対応した領域に含まれる画素の画素値を抽出した画像を作成する。以下では、マスキング処理部13により作成された画像を「マスクされたインスタンス画像」という。マスキング処理部13は、作成したマスクされたインスタンス画像群を、インスタンス領域特徴抽出部14に受け渡す。
【0032】
図6にマスクされたインスタンス画像の作成の一例を示す。
図6(A)は、インスタンス画像の一例であり、インスタンスであるタワーを含む風景の画像である。
図6(B)は、マスク画像の一例であり、インスタンスであるタワーを示す領域を白の画素、それ以外の領域を色付きの画素とした画像である。
図6(B)に示すマスク画像の白の画素に対応する
図6(A)に示すインスタンス画像の画素の画素値を抽出することにより、
図6(C)に示すようなマスクされたインスタンス画像を作成することができる。
【0033】
インスタンス領域特徴抽出部14は、局所特徴を抽出する対象がインスタンス画像ではなく、マスキング処理部13から受け渡されたマスクされたインスタンス画像であるという点が、インスタンス画像特徴抽出部11と異なるだけである。また、抽出される局所特徴のデータ構造も、インスタンス画像特徴抽出部11で抽出される局所特徴のデータ構造(例えば、
図3)と同様である。そのため、詳細な説明は省略する。なお、マスクされたインスタンス画像は、インスタンス領域に対応する画素の画素値のみを有する画像であるため、マスクされたインスタンス画像から抽出された局所特徴は、インスタンス領域から抽出した局所特徴ということができる。インスタンス領域特徴抽出部14は、インスタンス領域から抽出した局所特徴を第1特徴照合集計部15に受け渡す。
【0034】
第1特徴照合集計部15は、インスタンス領域特徴抽出部14から受け渡されたインスタンス領域から抽出された局所特徴と、集約特徴DB31に記憶されている各集約特徴との照合を行う。上記のCompact Color SIFTの場合、例えば、192次元の特徴ベクトル間のコサイン類似度(0〜1の範囲の値を取り、同一の特徴ベクトルの場合は1)を用いて、コサイン類似度が所定値以上(例えば、0.95)の局所特徴と集約特徴とを一致する特徴と判定する。局所特徴に対して、コサイン類似度が所定値以上となる集約特徴が集約特徴DB31に複数存在する場合には、コサイン類似度が最も大きい集約特徴をその局所特徴に一致する集約特徴と判定する。
【0035】
なお、局所特徴と集約特徴との間の照合は、コサイン類似度を用いる場合に限定されず、各特徴ベクトル間の距離や類似度を測る尺度であれば、どのようなものを用いてもよい。また、特徴集約集計部12によりクラスタリングにより局所特徴が集約されている場合には、第1特徴照合集計部15は、集約特徴DB31における各クラスタの重心を用いて、インスタンス領域から抽出した局所特徴との照合を行うことができる。
【0036】
第1特徴照合集計部15は、インスタンス領域から抽出された局所特徴と集約特徴DB31に記憶されている集約特徴との照合結果に基づいて、マスクされたインスタンス画像における各集約特徴の出現回数を、インスタンスごとに集計し、インスタンス領域特徴DB33として作成し、所定の記憶領域に記憶する。
図7に、インスタンス領域特徴DB33のデータ構造の一例を示す。
図7の例では、各インスタンスの識別番号(インスタンス1,・・・,インスタンスq)と、マスクされたインスタンス画像における各集約特徴の出現回数mkfとが対応付けられたデータ構造になっている。
【0037】
フレーム画像抽出部16は、映像検索装置10に入力された映像群を受け付け、例えば1fps(1秒間に1フレーム)のレートで各映像からフレーム画像を抽出する。フレーム画像のデータ構造は、インスタンス画像のデータ構造(例えば、
図2)と同様であるため、詳細な説明は省略する。
【0038】
フレーム画像特徴抽出部17は、局所特徴を抽出する対象がインスタンス画像ではなくフレーム画像抽出部16で抽出されたフレーム画像であるという点が、インスタンス画像特徴抽出部11と異なるだけである。また、抽出される局所特徴のデータ構造も、インスタンス画像特徴抽出部11で抽出される局所特徴のデータ構造(例えば、
図3)と同様である。そのため、詳細な説明は省略する。
【0039】
第2特徴照合集計部18は、フレーム画像特徴抽出部17で抽出された各局所特徴と、集約特徴DB31に記憶されている各集約特徴との照合を行う。局所特徴と集約特徴との照合方法は、集約特徴と照合する対象が、インスタンス領域の局所特徴ではなく、フレーム画像の局所特徴であるという点が、第1特徴照合集計部15と異なるだけであるため、詳細な説明は省略する。
【0040】
また、第2特徴照合集計部18は、フレーム画像から抽出された局所特徴と集約特徴DB31に記憶されている集約特徴との照合結果に基づいて、各映像における各集約特徴の出現回数を集計し、映像特徴DB34として作成し、所定の記憶領域に記憶する。
図8に、映像特徴DB34のデータ構造の一例を示す。
図8の例では、映像の識別番号(映像1,・・・,映像v)と、各映像における各集約特徴の出現回数KFとが対応付けられたデータ構造となっている。
【0041】
識別性度合計算部19は、映像特徴DB34を参照し、各集約特徴jの映像の識別性度合を示す指標IDF
j(γ)(Inverse Document Frequency)を、下記(1)式に基づいて計算する。
【0043】
ここで、Nは映像特徴DB34内の全映像数、n
jは映像特徴DB34内の全映像の中で集約特徴jを含む映像数であり、映像特徴DB34において、集約特徴jの出現回数KF
jが1以上となっている映像をカウントすることにより求めることができる。集約特徴jが映像特徴DB34において高い頻度で出現している場合には、集約特徴jはインスタンスに対する識別能力が低い集約特徴であるとみなせるため、IDF
j(γ)は小さくなる。逆に、集約特徴jの映像特徴DB34における出現頻度が低い場合には、集約特徴jはインスタンスに対する識別能力が高い集約特徴であるとみなせるため、IDF
j(γ)は大きくなる。
【0044】
γは正の整数値のパラメータで、γが大きいほど識別性の評価が厳しくなる。γ≧2の場合、(1)式内のlogの中が負になる可能性があるが、その場合のIDF
j(γ)は0とする。また、IDF
j(γ)が負になる場合もIDF
j(γ)=0とする。理論的観点から言うと、識別性の低い集約特徴(局所特徴)は確率的検索モデルの背後にある仮定に反する性質を持つ事が多い。また実験からこの様な集約特徴(局所特徴)を排除する事が検索精度の向上に不可欠である事がわかっている。そこで、例えばγ=3とすることにより、インスタンスに対する識別性の低い集約特徴を排除する。このように、識別性の低い集約特徴を排除することを、集約特徴の枝刈り(ステミング)と呼ぶ。
【0045】
識別性度合計算部19は、集約特徴DB31に記憶されている集約特徴(特徴1,・・・,特徴j)の全てについてIDF
j(γ)を計算し、計算結果を識別性度合DB35として作成し、所定の記憶領域に記憶する。
図9に、識別性度合DB35のデータ構造の一例を示す。
図9の例では、集約特徴の識別番号(特徴1,・・・,特徴j)と、計算されたとIDF
j(γ)とが対応付けられたデータ構造になっている。
【0046】
検索ランキング部20は、各インスタンスに対してそのインスタンスが含まれている可能性のある映像候補を、入力された映像群の中から検索し、映像候補をランキングする。具体的には、まず、検索ランキング部20は、インスタンス特徴DB32からインスタンスqのインスタンス画像における各集約特徴の出現回数kf
1,・・・,kf
jを取得する。また、検索ランキング部20は、インスタンス領域特徴DB33からインスタンスqのマスクされたインスタンス画像mにおける各集約特徴の出現回数mkf
1,・・・,mkf
jを取得する。また、検索ランキング部20は、映像特徴DB34から映像vにおける各集約特徴の出現回数KF
1,・・・,KF
jを取得する。さらに、検索ランキング部20は、識別性度合DB35から各集約特徴の識別性度合IDF
1(γ),・・・,IDF
j(γ)を取得する。そして、検索ランキング部20は、下記(2)式に示すような、マスクされたインスタンス画像mの効果を考慮したインスタンスqに対する映像vの評価値BM25M(q,m,v)を計算する。
【0048】
ここで、k
1、k
2、b
1、b
2、及びαは設定パラメータで、例えば、k
1=2、k
2=0.5、b
1=b
2=0.75、α=2とすることができる。またvlは映像長(video length)、avvlは平均映像長(average video length)を意味し、vlは映像vに対応付けられた各集約特徴の出現回数KFの和、avvlは映像特徴DB34内における各映像のvlの平均である。またmlはマスクされたインスタンス画像長(masked length)、avmlはその平均長(average masked length)を意味し、mlはマスクされたインスタンス画像m内における各集約特徴の出現回数mkfの和、avmlはインスタンス領域特徴DB33内のマスクされたインスタンス画像全てにおけるmlの平均である。また、Σ
qj,KFj>0はインスタンスqの集約特徴(kf>0の集約特徴)の内、映像vに出現している集約特徴に関する和を意味する。
【0049】
(2)式に示す評価値BM25Mは、テキスト検索分野でよく用いられるBM25(「S. E. Robertson et al., “Some Simple Effective Approximations to the 2-Poisson Model for Probabilistic Weighted Retrieval.”, In Proc. of SIGIR'04, 1994.」参照)に、マスクされたインスタンス画像の効果を考慮したランキング手法であり、クエリを構成する特徴のある部分を強調し、その重みを検索に反映している。BM25MはBM25の効果に加え、目的のインスタンスに対する重要度が高い集約特徴として、インスタンス領域から抽出された局所特徴を多く含む映像にハイスコアを与える。
【0050】
検索ランキング部20は、マスクされたインスタンス画像mの効果を考慮したインスタンスqに対する各映像(映像1,・・・,映像v)の評価値BM25Mをそれぞれ計算し、評価値BM25Mの降順で映像をランキングした検索結果を作成する。検索結果は、インスタンスの各々(インスタンス1,・・・,インスタンスq)について作成する。
図10に、検索結果のデータ構造の一例を示す。
図10では、各インスタンスの識別番号(インスタンス1,・・・,インスタンスq)と、評価値BM25Mの降順で並べられた映像とが対応付けられたデータ構造となっている。
【0051】
なお、検索結果は、上記のようにランキング形式にする場合に限定されず、評価値が最大となる映像のみを検索結果としてもよいし、評価値が所定値以上となる映像をランダムに並べた検索結果としてもよい。また、検索結果を、映像のファイル名としてもよいし、映像のファイル名とBM25Mの値としてもよい。検索結果は、BM25Mの値に基づくものであれば、様々な形態をとることが可能である。
【0052】
検索結果出力部21は、検索ランキング部20で作成された検索結果を出力する。
【0053】
次に、第1の実施の形態に係る映像検索装置10の作用について説明する。映像検索装置10に、複数のインスタンスを示す複数のインスタンス画像群が入力されると、映像検索装置10において、
図11に示す映像検索処理ルーチンが実行される。
【0054】
ステップ100で、インスタンス画像特徴抽出部11が、映像検索装置10に入力されたインスタンス画像群を受け付け、各インスタンス画像から特徴点を検出し、検出した特徴点の特徴量を記述した特徴ベクトルを局所特徴として抽出する。
【0055】
次に、ステップ102で、特徴集約集計部12が、上記ステップ100で抽出された局所特徴から、重複している局所特徴を一つに集約し、集約した局所特徴を集約特徴とした集約特徴DB31を作成し、所定の記憶領域に記憶する。また、特徴集約集計部12が、集約特徴に基づいて、各インスタンスの特徴として、各インスタンス画像群における各集約特徴の出現回数kfを示すインスタンス特徴DB32を作成し、所定の記憶領域に記憶する。
【0056】
次に、ステップ104で、マスキング処理部13が、映像検索装置10に入力されたマスク画像群を受け付け、上記ステップ100で受け付けたインスタンス画像の各々に、対応するマスク画像を適用して、マスクされたインスタンス画像を作成する。次に、ステップ106で、インスタンス領域特徴抽出部14が、上記ステップ104で作成された各マスクされたインスタンス画像から局所特徴を抽出する。
【0057】
次に、ステップ108で、第1特徴照合集計部15が、上記ステップ106でマスクされたインスタンス画像から抽出された各局所特徴と、上記ステップ102で記憶された集約特徴DB31内の各集約特徴とを、特徴ベクトル間の類似度に基づいて照合する。そして、第1特徴照合集計部15が、照合結果に基づいて、マスクされたインスタンス画像における各集約特徴の出現回数mkfを示すインスタンス領域特徴DB33を作成し、所定の記憶領域に記憶する。
【0058】
次に、ステップ110で、フレーム画像抽出部16が、映像検索装置10に入力された映像群を受け付け、各映像からフレーム画像を抽出する。次に、ステップ112で、フレーム画像特徴抽出部17が、上記ステップ110で抽出された各フレーム画像から局所特徴を抽出する。
【0059】
次に、ステップ114で、第2特徴照合集計部18が、上記ステップ112でフレーム画像から抽出された各局所特徴と、上記ステップ102で記憶された集約特徴DB31内の各集約特徴とを、特徴ベクトル間の類似度に基づいて照合する。そして、第2特徴照合集計部18が、照合結果に基づいて、各映像における各集約特徴の出現回数KFを示す映像特徴DB34を作成し、所定の記憶領域に記憶する。
【0060】
次に、ステップ116で、識別性度合計算部19が、映像特徴DB34を参照し、集約特徴jの識別性度合IDF
j(γ)を、集約特徴DB31に記憶されている集約特徴(特徴1,・・・,特徴j)の全てについて計算し、各集約特徴の識別性度合を示す識別性度合DB35を作成し、所定の記憶領域に記憶する。
【0061】
次に、ステップ118で、検索ランキング部20が、インスタンス特徴DB32からインスタンスqのインスタンス画像における各集約特徴の出現回数kf
1,・・・,kf
jを取得し、インスタンス領域特徴DB33からインスタンスqのマスクされたインスタンス画像mにおける各集約特徴の出現回数mkf
1,・・・,mkf
jを取得し、映像特徴DB34から映像vにおける各集約特徴の出現回数KF
1,・・・,KF
jを取得し、識別性度合DB35から各集約特徴の識別性度合IDF
1(γ),・・・,IDF
j(γ)を取得する。そして、検索ランキング部20が、マスクされたインスタンス画像mの効果を考慮したインスタンスqに対する各映像の評価値BM25Mを計算し、評価値BM25Mの降順で映像をランキングした検索結果を作成する。検索結果は、各インスタンスについて作成する。
【0062】
次に、ステップ120で、検索結果出力部21が、上記ステップ118で作成された検索結果を出力して、映像検索処理ルーチンを終了する。
【0063】
以上説明したように、第1の実施の形態に係る映像検索装置によれば、マスクされたインスタンス画像、すなわちインスタンス領域から抽出された特徴を、目的のインスタンスに対する重要度が高い特徴としたBM25Mを評価値として用いることにより、より高精度にインスタンスを示す映像を検索することができる。
【0064】
<第2の実施の形態>
第2の実施の形態では、既にインスタンス特徴DB32に所定数のデータが蓄積されている状態で、新しく追加されたインスタンス画像をクエリとして映像を検索する場合について説明する。なお、第2の実施の形態に係る映像検索装置について、第1の実施の形態に係る映像検索装置10と同一の構成については、同一符号を付して詳細な説明を省略する。
【0065】
第2の実施の形態に係る映像検索装置210は、CPUと、RAMと、後述する映像検索処理ルーチンを実行するためのプログラムを記憶したROMとを備えたコンピュータで構成されている。このコンピュータは、機能的には、
図12に示すように、インスタンス画像特徴抽出部11、特徴集約集計部212、マスキング処理部13、インスタンス領域特徴抽出部14、第1特徴照合集計部215、フレーム画像抽出部16、フレーム画像特徴抽出部17、第2特徴照合集計部218、識別性度合計算部219、検索ランキング部20、及び検索結果出力部21を含んだ構成で表すことができる。また、映像検索装置210には、集約特徴DB31、インスタンス特徴DB32、インスタンス領域特徴DB33、映像特徴DB34、識別性度合DB35、及び追加特徴DB36を記憶する所定の記憶領域が設けられている。
【0066】
特徴集約集計部212は、インスタンス画像特徴抽出部11で抽出された新しいインスタンス画像の局所特徴を受け取り、集約特徴DB31を参照して、重複している局所特徴を排除し、新たに追加された追加特徴を抽出する。ここでは、インスタンスq+1を示すインスタンス画像群が新たに入力され、追加特徴j+1が追加された場合について説明する。特徴集約集計部212は、追加特徴j+1を、集約特徴DB31と同じデータ構造の追加特徴DB36に記憶すると共に、集約特徴DB31を追加特徴j+1の追加分だけ更新する。
図13に、追加特徴DB36の一例を、
図14に、更新された集約特徴DB31の一例を示す。
【0067】
また、特徴集約集計部212は、追加されたインスタンスq+1及び追加特徴j+1により、インスタンス特徴DB32を更新する。
図15に、更新されたインスタンス特徴DB32の一例を示す。
図15の例では、更新前のインスタンス特徴DB32(
図5)に、追加特徴j+1の列及びインスタンスq+1の行が追加されている。なお、追加特徴j+1は新たに追加された集約特徴であるため、インスタンス1,・・・,インスタンスqについての出現回数kf
j+1は0である。
【0068】
第1特徴照合集計部215は、マスクされたインスタンス画像から抽出された局所特徴と追加特徴DB36に記憶されている追加特徴との照合結果に基づいて、インスタンス領域特徴DB33を更新する。局所特徴と追加特徴との照合方法は、第1の実施の形態の第1特徴照合集計部15における局所特徴と集約特徴との照合方法と同様である。インスタンス領域特徴DB33の更新では、各マスクされたインスタンス画像における追加特徴j+1の出現回数mkf
j+1を集計し、追加特徴j+1の列をインスタンス領域特徴DB33に追加する。
【0069】
第2特徴照合集計部218は、フレーム画像から抽出された局所特徴と追加特徴DB36に記憶されている追加特徴との照合結果に基づいて、映像特徴DB34を更新する。局所特徴と追加特徴との照合方法は、第1の実施の形態の第2特徴照合集計部18における局所特徴と集約特徴との照合方法と同様である。映像特徴DB34の更新では、各映像における追加特徴j+1の出現回数KF
j+1を集計し、追加特徴j+1の列を映像特徴DB34に追加する。
【0070】
識別性度合計算部219は、映像特徴DB34に追加された追加特徴j+1の出現回数KF
j+1を用いて、追加特徴j+1の識別性度合IDF
j+1(γ)を計算し、追加特徴j+1の列を識別性度合DB35に追加する。
【0071】
次に、第2の実施の形態に係る映像検索装置210の作用について、第1の実施の形態と異なる点について説明する。
【0072】
図11の映像検索処理ルーチンのステップ102では、特徴集約集計部212が、ステップ100で抽出された新しいインスタンス画像の局所特徴から、集約特徴DB31を参照して追加特徴を抽出し、追加特徴DB36に記憶すると共に、集約特徴DB31を新たな追加特徴の追加分だけ更新する。また、特徴集約集計部212が、新たなインスタンス及び追加特徴の追加分だけ、インスタンス特徴DB32を更新する。
【0073】
ステップ108では、第1特徴照合集計部215が、ステップ106でマスクされたインスタンス画像から抽出された局所特徴と、上記ステップ102で追加特徴DB36に記憶された追加特徴との照合結果に基づいて、追加特徴の追加分だけ、インスタンス領域特徴DB33を更新する。
【0074】
ステップ114では、第2特徴照合集計部218が、ステップ112でフレーム画像から抽出された局所特徴と、上記ステップ102で追加特徴DB36に記憶された追加特徴との照合結果に基づいて、追加特徴の追加分だけ、映像特徴DB34を更新する。
【0075】
ステップ116では、識別性度合計算部219が、ステップ114で映像特徴DB34に追加された追加特徴の識別性度合を計算し、追加特徴の追加分だけ、識別性度合DB35を更新する。
【0076】
後段の処理では、上記のように更新された各データベースを参照して、第1の実施の形態と同様に評価値BM25Mを計算して、検索結果を作成すればよい。
【0077】
以上説明したように、第2の実施の形態に係る映像検索装置によれば、インスタンス特徴DBに所定数以上のデータが蓄積されている場合には、新たに追加されたインスタンス画像について処理するだけで、第1の実施の形態と同様に、より高精度にインスタンスを示す映像を検索することができる。
【0079】
ここで、TRECVID2012のインスタンス検索タスクのデータセットを使用した検索精度の評価結果について説明する。TRECVIDは毎年行われている映像検索分野のコンペティションで、アメリカのNIST(National Institute of Standards and Technology)が主催している。TRECVID2012のインスタンス検索タスクでは21個のインスタンスが用意され、それぞれに平均約5枚のインスタンス画像及びマスク画像が付与されている。そして約7万7千本の映像データベース(Web上のConsumer Generated Media(CGM))が検索対象になる。検索結果ランキングの精度は、Precision@10,20,100及びMean Average Precision(MAP)という指標で評価した。MAPは下記(3)式で定義される。
【0081】
ここで|Q|は全インスタンス数、|R
q|はインスタンスqの正解映像数、jは映像の検索結果ランク、rel(q,j)はランクjの映像がqに対して正解であれば1を、不正解であれば0を返す関数である。c(q,j)はランク1からランクjまでに存在した正解映像の数である。全てのインスタンスに対する検索結果において、ランク1から順に正解映像が並んでいる場合、そのシステムの検索精度はMAP=1(最高値)である。
【0082】
図16に検索精度の評価結果を示す。KF−IDFは識別性が高い集約特徴が多く含まれている映像を正解とする手法(テキスト検索におけるTF−IDFによるランキング手法に対応)、VSMは集約特徴のKF−IDFを重みとする、qとvとの特徴ベクトル間のコサイン類似度の降順で映像をランキングする手法(テキスト検索におけるTF−IDFで重み付けされたベクトル空間法に対応)である。BM25はマスクされたインスタンス画像の局所特徴、すなわちインスタンス領域の局所特徴を考慮しない確率的検索手法であり、BM25Mが本実施の形態の手法である。マスクされたインスタンス画像の局所特徴を考慮することで、ランキングの精度が改善されることがわかる。BM25とBM25MとのMAPの差は危険度5%水準で有意であることを確認している。
【0083】
今後、映像メディアは録画や記録デバイス、ソーシャルネットワーキングサービス等の発達により爆発的に増加することが予想され、その様な状況に対処しうるロバストな映像検索技術が求められているが、本実施の形態の手法を使用することで、大規模映像データベースからの高精度なインスタンス検索を実現することが可能になる。
【0084】
例えば、旅先で目にした、名前がわからない物体を検索したい場合、従来のテキスト検索ではそもそも名前がわからないためユーザの検索要求を満たすことができなかった。しかしながら、デジタルカメラやスマートフォンでその物体の写真を取り、物体の場所を指し示す情報と共にインスタンス検索システムに投入すれば、そのインスタンスが映る様々なシチュエーション下での映像を検索することが可能になる。
【0085】
なお、本発明は、上述した実施形態に限定されるものではなく、この発明の要旨を逸脱しない範囲内で様々な変形や応用が可能である。
【0086】
例えば、上記各実施の形態では、インスタンスの検索対象の画像を映像とする場合について説明したが、検索対象の画像を静止画像とした場合にも、本発明を適用可能である。この場合、例えば10000枚の静止画像を検索対象として入力した場合、映像中の集約特徴の出現回数KFを静止画像中の集約特徴の出現回数KF’に、映像中のKFの総和であるvlを静止画像中の集約特徴の出現回数の総和であるvl’に、vlの平均値であるavdlをvl’の平均値であるavdl’に置き換え、上記のBM25Mを適用すればよい。IDF
j(γ)は10000枚の静止画像集合の中で(1)式により計算される。
【0087】
また、検索対象を静止画像とした場合には、検索結果として、静止画像のファイル名や、静止画像のファイル名とBM25Mの値など、BM25Mの値に基づく様々な形態の検索結果を出力することができる。さらに、検索対象を映像及び静止画像の両方とした場合、検索結果として、映像と静止画像とが混在したものを出力してもよい。
【0088】
また、本願明細書中において、プログラムが予めインストールされている実施形態として説明したが、当該プログラムを、コンピュータ読み取り可能な記録媒体に格納して提供することも可能である。