特許第5959446号(P5959446)IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ KDDI株式会社の特許一覧

特許5959446コンテンツをバイナリ特徴ベクトルの集合で表現することによって高速に検索する検索装置、プログラム及び方法
<>
  • 特許5959446-コンテンツをバイナリ特徴ベクトルの集合で表現することによって高速に検索する検索装置、プログラム及び方法 図000011
  • 特許5959446-コンテンツをバイナリ特徴ベクトルの集合で表現することによって高速に検索する検索装置、プログラム及び方法 図000012
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】5959446
(24)【登録日】2016年7月1日
(45)【発行日】2016年8月2日
(54)【発明の名称】コンテンツをバイナリ特徴ベクトルの集合で表現することによって高速に検索する検索装置、プログラム及び方法
(51)【国際特許分類】
   G06F 17/30 20060101AFI20160719BHJP
【FI】
   G06F17/30 170B
   G06F17/30 210A
【請求項の数】9
【全頁数】17
(21)【出願番号】特願2013-14891(P2013-14891)
(22)【出願日】2013年1月30日
(65)【公開番号】特開2014-146207(P2014-146207A)
(43)【公開日】2014年8月14日
【審査請求日】2015年8月4日
(73)【特許権者】
【識別番号】000208891
【氏名又は名称】KDDI株式会社
(74)【代理人】
【識別番号】100135068
【弁理士】
【氏名又は名称】早原 茂樹
(72)【発明者】
【氏名】内田 祐介
(72)【発明者】
【氏名】酒澤 茂之
【審査官】 田中 秀樹
(56)【参考文献】
【文献】 特開2013−012076(JP,A)
【文献】 米国特許出願公開第2007/0179949(US,A1)
【文献】 特開平11−096176(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G06F 17/30
G06T 7/00
(57)【特許請求の範囲】
【請求項1】
装置に搭載されたコンピュータを、訓練コンテンツから抽出されたモデルパラメータを用いて、リファレンスコンテンツの集合から、クエリコンテンツに類似したリファレンスコンテンツを検索するように機能させる検索プログラムであって、
訓練コンテンツ、リファレンスコンテンツ及びクエリコンテンツそれぞれについて、D次元のバイナリ特徴ベクトルの集合x1〜xTを抽出する特徴ベクトル抽出手段と、
訓練コンテンツのバイナリ特徴ベクトルの集合から、i(1≦i≦N)番目の多変量ベルヌーイ分布に関する混合比wiと、i番目の多変量ベルヌーイ分布のd(1≦d≦D)番目のパラメータμidと、パラメータμidに関するフィッシャー情報量fidとを算出するモデル推定手段と、
混合比wiとパラメータμidとフィッシャー情報量fidとを蓄積するモデルパラメータ蓄積手段と、
リファレンスコンテンツ又はクエリコンテンツのバイナリ特徴ベクトルの集合から、前記モデルパラメータ蓄積手段に蓄積された混合比wiとパラメータμidとフィッシャー情報量fidとを用いて、リファレンスコンテンツ又はクエリコンテンツに対応する1つのフィッシャーベクトルを算出する特徴ベクトル変換手段と、
クエリコンテンツのフィッシャーベクトルに最も類似する、リファレンスコンテンツのフィッシャーベクトルを検索する特徴ベクトル検索手段と
してコンピュータを機能させることを特徴とする検索プログラム。
【請求項2】
前記特徴ベクトル抽出手段は、ORB(Oriented FAST and Rotated BRIEF)又はFREAK(Fast Retina Keypoint)を用いてバイナリ特徴ベクトルの集合を抽出するようにコンピュータを機能させることを特徴とする請求項1に記載の検索プログラム。
【請求項3】
前記モデル推定手段は、訓練コンテンツのバイナリ特徴ベクトルの集合x1〜xTから、
E(Expectation)ステップについて、バイナリ特徴ベクトルxi毎に潜在変数iの期待値γt (i)を推定し、
M(Maximization)ステップについて、前記期待値γt (i)を用いて、混合比wi及びパラメータμiを更新し、
これらEステップ及びMステップを、収束するまで繰り返すことによって、混合比wi及びパラメータμiのパラメータ群λを算出する
λ(w1、・・・、wN及びμ11、・・・、μND
ようにコンピュータを機能させることを特徴とする請求項1又は2に記載の検索プログラム。
【請求項4】
前記モデル推定手段は、
前記パラメータμidの対数尤度関数を偏微分で定義したフィッシャースコアsidを算出し、
前記フィッシャースコアsidの分散としてフィッシャー情報量fidを算出する
ようにコンピュータを機能させることを特徴とする請求項1から3のいずれか1項に記載の検索プログラム。
【請求項5】
前記特徴ベクトル変換手段は、前記バイナリ特徴ベクトルの集合毎に、前記パラメータμidを用いてフィッシャースコアsidを算出し、これらをid毎に累積した累積フィッシャースコアs'idを算出し、
各累積フィッシャースコアs'idを、対応するフィッシャー情報量fidの平方根√fidで除算したフィッシャーベクトルvidを算出する
ようにコンピュータを機能させることを特徴とする請求項4に記載の検索プログラム。
【請求項6】
前記モデル推定手段は、
前記パラメータμidの対数尤度関数を偏微分で定義したフィッシャースコアsidを算出し、
前記フィッシャースコアsidの混合要素i毎のベクトル(si1〜siD)に対して主成分分析を実行し、
前記主成分分析の結果、固有値の大きいものからK個を、前記フィッシャー情報量fidとして出力し、
前記固有値に対応するK個の固有ベクトルgiKを更に出力し、
前記モデルパラメータ蓄積手段は、前記固有ベクトルgiKを更に蓄積する
ようにコンピュータを機能させることを特徴とする請求項1から3のいずれか1項に記載の検索プログラム。
【請求項7】
前記特徴ベクトル変換手段は、前記バイナリ特徴ベクトルの集合毎に、前記パラメータμidを用いてフィッシャースコアsidを算出し、これらをid毎に累積した累積フィッシャースコアs'idを算出し、
混合要素i毎に、各累積フィッシャースコアs'idのベクトル(s'i1〜siD)を、対応する固有ベクトルgik(gi1〜giK)を用いて正規化(射影)した正規化ベクトルv'ikを算出し、
正規化ベクトルv'ikを、対応する固有ベクトルgikの平方根√gikで除算したフィッシャーベクトルvikを算出する
ようにコンピュータを機能させることを特徴とする請求項6に記載の検索プログラム。
【請求項8】
訓練コンテンツから抽出されたモデルパラメータを用いて、リファレンスコンテンツの集合から、クエリコンテンツに類似したリファレンスコンテンツを検索する検索装置であって、
訓練コンテンツ、リファレンスコンテンツ及びクエリコンテンツそれぞれについて、D次元のバイナリ特徴ベクトルの集合x1〜xTを抽出する特徴ベクトル抽出手段と、
訓練コンテンツのバイナリ特徴ベクトルの集合から、i(1≦i≦N)番目の多変量ベルヌーイ分布に関する混合比wiと、i番目の多変量ベルヌーイ分布のd(1≦d≦D)番目のパラメータμidと、パラメータμidに関するフィッシャー情報量fidとを算出するモデル推定手段と、
混合比wiとパラメータμidとフィッシャー情報量fidとを蓄積するモデルパラメータ蓄積手段と、
リファレンスコンテンツ又はクエリコンテンツのバイナリ特徴ベクトルの集合から、前記モデルパラメータ蓄積手段の混合比wiとパラメータμidとフィッシャー情報量fidとを用いて、リファレンスコンテンツ又はクエリコンテンツに対応する1つのフィッシャーベクトルを算出する特徴ベクトル変換手段と、
クエリコンテンツのフィッシャーベクトルに最も類似する、リファレンスコンテンツのフィッシャーベクトルを検索する特徴ベクトル検索手段と
を有することを特徴とする検索装置。
【請求項9】
装置を用いて、訓練コンテンツから抽出されたモデルパラメータを用いて、リファレンスコンテンツの集合から、クエリコンテンツに類似したリファレンスコンテンツを検索する検索方法であって、
モデルパラメータを蓄積する第1のステップとして、
訓練コンテンツそれぞれについて、D次元のバイナリ特徴ベクトルの集合x1〜xTを抽出し、
訓練コンテンツのバイナリ特徴ベクトルの集合から、i(1≦i≦N)番目の多変量ベルヌーイ分布に関する混合比wiと、i番目の多変量ベルヌーイ分布のd(1≦d≦D)番目のパラメータμidと、パラメータμidに関するフィッシャー情報量fidとを算出し、
混合比wiとパラメータμidとフィッシャー情報量fidとを蓄積し、
リファレンス情報を蓄積する第2のステップとして、
リファレンスコンテンツそれぞれについて、D次元のバイナリ特徴ベクトルの集合を抽出し、
リファレンスコンテンツそれぞれのバイナリ特徴ベクトルの集合から、モデルパラメータとして蓄積された混合比wiとパラメータμidとフィッシャー情報量fidとを用いて、1つのフィッシャーベクトルを算出し、
前記フィッシャーベクトルを蓄積し、
クエリコンテンツからリファレンスコンテンツを検索する第3のステップとして、
クエリコンテンツそれぞれのバイナリ特徴ベクトルの集合から、モデルパラメータとして蓄積された混合比wiとパラメータμidとフィッシャー情報量fidとを用いて、1つのフィッシャーベクトルを算出し、
クエリコンテンツのフィッシャーベクトルに最も類似する、リファレンスコンテンツのフィッシャーベクトルを検索する
を有することを特徴とする検索方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、特徴ベクトルの集合で表されるリファレンスコンテンツ(検索対象のコンテンツ)の集合から、同じく特徴ベクトルの集合で表されるクエリコンテンツ(検索キーとなるコンテンツ)に類似したリファレンスコンテンツを検索する技術に関する。特に、特徴ベクトルの集合で表されるマルチメディアコンテンツ(例えば画像)の検索に適する。
【背景技術】
【0002】
近年、オンライン/オフラインに限られず、ストレージの大容量化に伴って、大量のコンテンツを蓄積することが可能となっている。また、携帯電話機やスマートフォンに代表される情報端末機器の普及によって、ユーザ自ら取得した写真データのようなデジタルコンテンツも、データベースに大量かつ容易に蓄積することができる。オフラインデータベースとして、HDD(Hard Disk Drive)、DVD(Digital Versatile Disk)、Blu-ray disc等の記憶装置がある。また、オンラインデータベースとしては、Flickr(登録商標)やMySpace(登録商標)のようなソーシャルネットワークサービスがある。これら記憶装置及びサービスによれば、データベースに蓄積された個人の大量且つ多様なマルチメディアコンテンツを検索するする技術が重要となる。
【0003】
マルチメディアコンテンツを検索するために、これらコンテンツから多数の特徴ベクトルを抽出し、この特徴ベクトルの集合同士の間の類似度が高いコンテンツを検索結果として出力する技術がある。この技術によれば、マルチメディアコンテンツの特徴ベクトルを量子化し、量子化された特徴ベクトルの頻度からヒストグラムを作成する。そのヒストグラム同士の間のL1ノルム又はL2ノルムの距離によって類似度(距離)を算出する。ノルムとは、2つの点の間の距離を表す。L1ノルムとは、2つの点の各次元の値の絶対値の和を意味し、L2ノルムとは、2つの点の各次元の値を二乗した和を意味する。
【0004】
また、画像コンテンツから大量の局所特徴ベクトルを抽出し、それらをベクトル量子化し、同一の代表ベクトルにベクトル量子化された局所特徴ベクトルの数で類似度を算出する技術もある(例えば非特許文献1参照)。
【0005】
更に、画像から複数の局所不変特徴量を抽出し、特徴ベクトルの頻度のヒストグラム化し、そのヒストグラムの重なり率によって画像とカテゴリとの間の類似度を算出する技術もある(例えば特許文献1参照)。この技術によれば、ヒストグラムに基づいて被写体のパターン認識に不要となる特徴(例えば背景の特徴)を除くことができる。これによって、画像中から物体と物体以外とを予め分離することなく、当該物体の特徴を抽出することができる。
【0006】
従来、局所特徴量を用いた類似画像検索の枠組みは、「Bag-of-Visual Words」(又はBag-of-Features、Bag-of-Keypoints)と称される(例えば非特許文献1参照)。この技術によれば、Bag-of-Wordsモデル及び転置インデックスを用いた文章の検索方法を、類似画像の検索に適用したものである。Bag-of-Wordsは、文章を1つの単語の頻度により定義される特徴ベクトルで表現し、文章集合に基づいて予め導出されたIDF(Inverse Document Frequency)を単語の重みとして文章間の類似度を導出する枠組みである。これに対し、Bag-of-Visual Wordsは、画像の局所特徴量を量子化し、量子化後の局所特徴量を単語と見立て、同様に頻度により定義される1つの特徴ベクトルとして表現し、IDFを用いた重み付けを利用して同一の類推方法を適用することができる。
【0007】
更に、近年は、「Bag-of-Visual Words」の枠組みを発展させたフィッシャーベクトルに基づく技術が注目されている(例えば非特許文献3参照)。フィッシャーベクトルを用いた技術によれば、特徴ベクトルを混合ガウス分布でモデル化し、混合ガウス分布のパラメータに関するフィッシャーカーネルを、明示的に特徴ベクトルへマッピングしたものを画像を表現する特徴ベクトルとして利用することができる。この技術によれば、特徴ベクトルの集合を1つの固定長の特徴ベクトルで記述することができ、更にユークリッド距離を特徴ベクトル間の距離尺度として用いることができる。
【0008】
図1は、従来技術におけるコンテンツの検索装置の機能構成図である。
【0009】
図1の検索装置1によれば、モデルパラメータを生成するために、多数の訓練コンテンツを予め入力し、モデルパラメータを予め蓄積しておく。また、検索装置1は、多数のリファレンスコンテンツ(検索対象のコンテンツ)を予め入力し、モデルパラメータを用いて正規化に変換したリファレンス特徴ベクトルを予め蓄積しておく。その上で、検索装置1は、クエリコンテンツ(検索キーのコンテンツ)について、モデルパラメータを用いてクエリ特徴ベクトルを正規化し、そのクエリ特徴ベクトルに最も類似するリファレンス特徴ベクトルを検索し、リファレンスコンテンツを特定する。
【0010】
図1によれば、検索装置1は、特徴ベクトル抽出部11と、モデル推定部12と、モデルパラメータ蓄積部13と、特徴ベクトル変換部14と、リファレンス情報蓄積部15と、特徴ベクトル検索部16とを有する。これら機能構成部は、装置に搭載されたコンピュータを機能させるプログラムを実行することによって実現される。
【0011】
特徴ベクトル抽出部11は、各マルチメディアコンテンツから、特徴ベクトルの集合を抽出する。例えばマルチメディアコンテンツが画像である場合、その特徴ベクトルは、画像の局所特徴領域から抽出された局所特徴ベクトルである。訓練コンテンツは、特徴ベクトルの集合に変換され、モデル推定部12へ出力される。また、リファレンスコンテンツ及びクエリコンテンツもそれぞれ、特徴ベクトルの集合に変換され、特徴ベクトル変換部14へ出力される。これら全てのコンテンツについて、同一次元数(D次元)の特徴ベクトルが抽出される。
【0012】
物体認識に用いる特徴ベクトルの抽出アルゴリズムとしては、回転やスケールの変化にロバストな、例えばSIFT(Scale-Invariant Feature Transform)やSURF(Speeded
Up Robust Features)が用いられる。例えば、SIFTの場合、1枚の画像からは128次元の特徴ベクトルの集合が抽出される。SIFTとは、スケールスペースを用いて特徴的な局所領域を解析し、そのスケール変化及び回転に不変となる特徴ベクトルを記述する技術である。一方で、SURFの場合、SIFTよりも高速処理が可能であって、1枚の画像から64次元の特徴ベクトルの集合が抽出される。SIFTは、処理コストが高く且つリアルタイムマッチングが困難であるのに対し、SURFは、積分画像を利用することによって処理を高速化している。
【0013】
モデル推定部12は、特徴ベクトル抽出部11から出力された訓練コンテンツの特徴ベクトルの集合用いて混合ガウス分布(Gaussian Mixture Model)のモデルパラメータを推定し、そのモデルパラメータを出力する。Bag-of-Featuresの識別性能は、確率密度分布のモデル化の精度に依存する。混合ガウス分布は混合数とパラメータを調整することで、任意の連続な密度関数を表現できるため、混合ガウス分布を用いる。
【0014】
モデルパラメータ蓄積部13は、モデル推定部12から出力されたモデルパラメータを蓄積する。
【0015】
特徴ベクトル変換部14は、リファレンスコンテンツ及びクエリコンテンツそれぞれの特徴ベクトルの集合を、1つの固定長の特徴ベクトルへ明示的にマッピングする。このマッピングには、モデルパラメータ蓄積部13のモデルパラメータに基づくフィッシャーカーネルが用いられる。具体的には、特徴ベクトル集合からモデルの対数尤度関数の勾配ベクトルを求め、モデルパラメータに関するフィッシャー情報行列により正規化をすることで、特徴ベクトルへマッピングする。非特許文献3に記載された技術によれば、フィッシャー情報行列が対角行列と仮定されている。変換された1つの特徴ベクトルは、フィッシャーベクトルと称される。特徴ベクトル変換部14は、リファレンスコンテンツの特徴ベクトルの集合からマッピングしたフィッシャーベクトルを、リファレンス蓄積部15へ出力し、クエリコンテンツの特徴ベクトルの集合からマッピングしたフィッシャーベクトルを、特徴ベクトル検索部16へ出力する。
【0016】
リファレンス情報蓄積部15は、特徴ベクトル変換部14から出力された、リファレンスコンテンツの正規化されたフィッシャーベクトルを蓄積する。
【0017】
特徴ベクトル検索部16は、リファレンス情報蓄積部15を用いて、クエリコンテンツのフィッシャーベクトルに最も類似する、リファレンスコンテンツのフィッシャーベクトルを検索する。ここでは、ユークリッド距離を用いることができ、クエリコンテンツのフィッシャーベクトルとの間の距離が短い、リファレンスコンテンツのフィッシャーベクトルが検索され、そのリファレンスコンテンツが特定される。
【先行技術文献】
【特許文献】
【0018】
【特許文献1】特開2010−282581号公報
【非特許文献】
【0019】
【非特許文献1】J. Sivic et al., "Video Google: A Text Retrieval Approach toObject Matching in Videos," in Proc. ICCV, 2003.
【非特許文献2】D. G. Lowe, "Distinctive Image Features from Scale-InvariantKeypoints," International Journal of Computer Vision, vol. 60, no. 2, pp.91-110, 2004.
【非特許文献3】F. Perronnin, J. Sanchez, and T. Mensink, "Improving the FisherKernel for Large-Scale Image Classification," in Proc. ECCV, 2010.
【非特許文献4】E. Rublee, V. Rabaud, K. Konolige, and G. Bradski, "ORB: Anefficient alternative to SIFT or SURF," in Proc. ICCV, 2011.
【非特許文献5】A. Alahi, R. Ortiz, and P. Vandergheynst, "FREAK: Fast RetinaKeypoint," in Proc. CVPR, 2012.
【非特許文献6】H. Jegou, M. Douze, and C. Schmid, "Product quantization fornearest neighbor search," in IEEE Trans. on PAMI, vol. 33, no. 1, pp117-128, 2011.
【非特許文献7】三品陽平、「CVReadiing、ORB: an efficient alternative toSIFT or SURF」、[online]、[平成24年12月5日検索]、インターネット<URL:http://www.vision.cs.chubu.ac.jp/CV-R/jpdf/Rublee_iccv2011.pdf>
【非特許文献8】原田達也、「大規模データを用いた一般物体・シーン認識の潮流と理論」、[online]、[平成24年12月5日検索]、インターネット<URL:https://ipsj.ixsq.nii.ac.jp/ej/index.php?active_action=repository_view_main_item_detail&item_id=81096&item_no=1&page_id=13&block_id=8>
【発明の概要】
【発明が解決しようとする課題】
【0020】
しかしながら、スマートフォンやタブレット端末のようなモバイル端末が普及する中で、コンテンツ検索処理に対して、更なる省メモリ化及び高速マッチング化が要求されてきている。特に、拡張現実感(Augmented Reality, AR)の用途における画像認識の技術分野によれば、リアルタイムに処理するべく、SIFTやSURFよりも更に高速にコンテンツを検索することが要求される。
【0021】
そこで、本発明によれば、SIFTやSURFよりも更に高速にコンテンツを検索することができる検索装置、プログラム及び方法を提供することを目的とする。
【課題を解決するための手段】
【0022】
本発明によれば、装置に搭載されたコンピュータを、訓練コンテンツから抽出されたモデルパラメータを用いて、リファレンスコンテンツの集合から、クエリコンテンツに類似したリファレンスコンテンツを検索するように機能させる検索プログラムであって、
訓練コンテンツ、リファレンスコンテンツ及びクエリコンテンツそれぞれについて、D次元のバイナリ特徴ベクトルの集合x1〜xTを抽出する特徴ベクトル抽出手段と、
訓練コンテンツのバイナリ特徴ベクトルの集合から、i(1≦i≦N)番目の多変量ベルヌーイ分布に関する混合比wiと、i番目の多変量ベルヌーイ分布のd(1≦d≦D)番目のパラメータμidと、パラメータμidに関するフィッシャー情報量fidとを算出するモデル推定手段と、
混合比wiとパラメータμidとフィッシャー情報量fidとを蓄積するモデルパラメータ蓄積手段と、
リファレンスコンテンツ又はクエリコンテンツのバイナリ特徴ベクトルの集合から、モデルパラメータ蓄積手段に蓄積された混合比wiとパラメータμidとフィッシャー情報量fidとを用いて、リファレンスコンテンツ又はクエリコンテンツに対応する1つのフィッシャーベクトルを算出する特徴ベクトル変換手段と、
クエリコンテンツのフィッシャーベクトルに最も類似する、リファレンスコンテンツのフィッシャーベクトルを検索する特徴ベクトル検索手段と
してコンピュータを機能させることを特徴とする。
【0023】
本発明の検索プログラムにおける他の実施形態によれば、
特徴ベクトル抽出手段は、ORB(Oriented FAST and Rotated BRIEF)又はFREAK(Fast Retina Keypoint)を用いてバイナリ特徴ベクトルの集合を抽出するようにコンピュータを機能させることも好ましい。
【0024】
本発明の検索プログラムにおける他の実施形態によれば、
モデル推定手段は、訓練コンテンツのバイナリ特徴ベクトルの集合x1〜xTから、
E(Expectation)ステップについて、バイナリ特徴ベクトルxi毎に潜在変数iの期待値γt (i)を推定し、
M(Maximization)ステップについて、期待値γt (i)を用いて、混合比wi及びパラメータμiを更新し、
これらEステップ及びMステップを、収束するまで繰り返すことによって、混合比wi及びパラメータμiのパラメータ群λを算出する
λ(w1、・・・、wN及びμ11、・・・、μND
ようにコンピュータを機能させることも好ましい。
【0025】
本発明の検索プログラムにおける他の実施形態によれば、
モデル推定手段は、
パラメータμidの対数尤度関数を偏微分で定義したフィッシャースコアsidを算出し、
フィッシャースコアsidの分散としてフィッシャー情報量fidを算出する
ようにコンピュータを機能させることも好ましい。
【0026】
本発明の検索プログラムにおける他の実施形態によれば、
特徴ベクトル変換手段は、バイナリ特徴ベクトルの集合毎に、パラメータμidを用いてフィッシャースコアsidを算出し、これらをid毎に累積した累積フィッシャースコアs'idを算出し、
各累積フィッシャースコアs'idを、対応するフィッシャー情報量fidの平方根√fidで除算したフィッシャーベクトルvidを算出する
ようにコンピュータを機能させることも好ましい。
【0027】
本発明の検索プログラムにおける他の実施形態によれば、
モデル推定手段は、
パラメータμidの対数尤度関数を偏微分で定義したフィッシャースコアsidを算出し、
フィッシャースコアsidの混合要素i毎のベクトル(si1〜siD)に対して主成分分析を実行し、
主成分分析の結果、固有値の大きいものからK個を、フィッシャー情報量fidとして出力し、
固有値に対応するK個の固有ベクトルgiKを更に出力し、
モデルパラメータ蓄積手段は、固有ベクトルgiKを更に蓄積する
ようにコンピュータを機能させることも好ましい。
【0028】
本発明の検索プログラムにおける他の実施形態によれば、
特徴ベクトル変換手段は、バイナリ特徴ベクトルの集合毎に、パラメータμidを用いてフィッシャースコアsidを算出し、これらをid毎に累積した累積フィッシャースコアs'idを算出し、
混合要素i毎に、各累積フィッシャースコアs'idのベクトル(s'i1〜siD)を、対応する固有ベクトルgik(gi1〜giK)を用いて正規化(射影)した正規化ベクトルv'ikを算出し、
正規化ベクトルv'ikを、対応する固有ベクトルgikの平方根√gikで除算したフィッシャーベクトルvikを算出する
ようにコンピュータを機能させることも好ましい。
【0029】
本発明によれば、訓練コンテンツから抽出されたモデルパラメータを用いて、リファレンスコンテンツの集合から、クエリコンテンツに類似したリファレンスコンテンツを検索する検索装置であって、
訓練コンテンツ、リファレンスコンテンツ及びクエリコンテンツそれぞれについて、D次元のバイナリ特徴ベクトルの集合x1〜xTを抽出する特徴ベクトル抽出手段と、
訓練コンテンツのバイナリ特徴ベクトルの集合から、i(1≦i≦N)番目の多変量ベルヌーイ分布に関する混合比wiと、i番目の多変量ベルヌーイ分布のd(1≦d≦D)番目のパラメータμidと、パラメータμidに関するフィッシャー情報量fidとを算出するモデル推定手段と、
混合比wiとパラメータμidとフィッシャー情報量fidとを蓄積するモデルパラメータ蓄積手段と、
リファレンスコンテンツ又はクエリコンテンツのバイナリ特徴ベクトルの集合から、モデルパラメータ蓄積手段の混合比wiとパラメータμidとフィッシャー情報量fidとを用いて、リファレンスコンテンツ又はクエリコンテンツに対応する1つのフィッシャーベクトルを算出する特徴ベクトル変換手段と、
クエリコンテンツのフィッシャーベクトルに最も類似する、リファレンスコンテンツのフィッシャーベクトルを検索する特徴ベクトル検索手段と
を有することを特徴とする。
【0030】
本発明によれば、装置を用いて、訓練コンテンツから抽出されたモデルパラメータを用いて、リファレンスコンテンツの集合から、クエリコンテンツに類似したリファレンスコンテンツを検索する検索方法であって、
モデルパラメータを蓄積する第1のステップとして、
訓練コンテンツそれぞれについて、D次元のバイナリ特徴ベクトルの集合x1〜xTを抽出し、
訓練コンテンツのバイナリ特徴ベクトルの集合から、i(1≦i≦N)番目の多変量ベルヌーイ分布に関する混合比wiと、i番目の多変量ベルヌーイ分布のd(1≦d≦D)番目のパラメータμidと、パラメータμidに関するフィッシャー情報量fidとを算出し、
混合比wiとパラメータμidとフィッシャー情報量fidとを蓄積し、
リファレンス情報を蓄積する第2のステップとして、
リファレンスコンテンツそれぞれについて、D次元のバイナリ特徴ベクトルの集合を抽出し、
リファレンスコンテンツそれぞれのバイナリ特徴ベクトルの集合から、モデルパラメータとして蓄積された混合比wiとパラメータμidとフィッシャー情報量fidとを用いて、1つのフィッシャーベクトルを算出し、
フィッシャーベクトルを蓄積し、
クエリコンテンツからリファレンスコンテンツを検索する第3のステップとして、
クエリコンテンツそれぞれのバイナリ特徴ベクトルの集合から、モデルパラメータとして蓄積された混合比wiとパラメータμidとフィッシャー情報量fidとを用いて、1つのフィッシャーベクトルを算出し、
クエリコンテンツのフィッシャーベクトルに最も類似する、リファレンスコンテンツのフィッシャーベクトルを検索する
を有することを特徴とする。
【発明の効果】
【0031】
本発明の検索装置、プログラム及び方法によれば、SIFTやSURFよりも更に高速にコンテンツを検索することができる。
【図面の簡単な説明】
【0032】
図1】従来技術におけるコンテンツの検索装置の機能構成図である。
図2】本発明におけるコンテンツの検索装置の機能構成図である。
【発明を実施するための形態】
【0033】
以下、本発明の実施の形態について、図面を用いて詳細に説明する。
【0034】
本発明の検索装置、プログラム及び方法によれば、訓練コンテンツから抽出されたモデルパラメータを用いて、リファレンスコンテンツの集合から、クエリコンテンツに類似したリファレンスコンテンツを検索する。ここで、本発明によれば、コンテンツから抽出される特徴ベクトルについて、バイナリ特徴ベクトルを抽出することを第1の特徴としている。また、これらのバイナリ特徴ベクトルを多変量混合ベルヌーイ分布でモデル化し、それらのモデルパラメータからフィッシャーベクトルを抽出することを第2の特徴としている。
【0035】
図2は、本発明におけるコンテンツの検索装置の機能構成図である。
【0036】
図2の検索装置における機能構成は、図1の機能構成と同じものである。しかしながら、各機能構成部における処理内容が異なる。以下では、検索装置1における特徴ベクトル抽出部11と、モデル推定部12と、モデルパラメータ蓄積部13と、特徴ベクトル変換部14と、リファレンス情報蓄積部15と、特徴ベクトル検索部16とについて、順に説明する。
【0037】
[特徴ベクトル抽出部11]
本発明における特徴ベクトル抽出部11は、訓練コンテンツ、リファレンスコンテンツ及びクエリコンテンツそれぞれについて、D次元のバイナリ特徴ベクトルの集合X={x1〜xT}を抽出する。例えばマルチメディアコンテンツが画像である場合、その特徴ベクトルは、画像の局所特徴領域から抽出された局所バイナリ特徴ベクトルである。訓練コンテンツから抽出されたバイナリ特徴ベクトルの集合は、モデル推定部12へ出力される。リファレンスコンテンツ及びクエリコンテンツから抽出されたバイナリ特徴ベクトルの集合はそれぞれ、特徴ベクトル変換部14へ出力される。
【0038】
本発明によれば、バイナリ特徴ベクトルの抽出アルゴリズムとして、ORB(Oriented FAST and Rotated BRIEF)(例えば非特許文献4及び非特許文献7参照)又はFREAK(Fast Retina Keypoint)(例えば非特許文献5)を用いる。ORBの場合、1つのコンテンツから256ビットのバイナリ特徴ベクトルの集合が抽出される。例えば、高速にマッチングを実行するべく、バイナリコードによる特徴記述としてBRIEF(Binary Robust Independent Elementary Features)がある。本発明によれば、BRIEFに回転不変性を導入した特徴記述をすることができる「ORB」を用いる。特に、ORBによれば、SIFTやSURFと比較して、同等以上の精度を保持すると共に、数百倍の高速化を実現することができる。
【0039】
<ORBについて>
ORBは、「特徴点検出処理」と「特徴ベクトル記述処理」との2つのステップから構成される。
【0040】
(特徴点検出処理)
ORBにおける特徴点検出処理によれば、高速にキーポイントを検出するためにFAST(Features from Accelerated Segment Test)を用いる。また、FASTでは、スケール変化に対してロバストではないため、画像を複数のサイズに変換し、それぞれのサイズの画像から特徴点を抽出する。
【0041】
また、既存のFASTには、回転不変性を得るためのキーポイントのオリエンテーション算出のアルゴリズムがない。そのために、ORBでは、回転不変性を得るべくOriented FASTを採用している。オリエンテーションを基準として特徴記述をすることによって、入力画像が回転していても、同一なキーポイントは同一な特徴量となって検出することができる。そのために、キーポイントの中心とパッチの輝度の重心の方向ベクトルを用いる。
【0042】
(特徴ベクトル記述処理)
次に、ORBにおける特徴ベクトル記述処理によれば、検出された特徴点毎に、BRIEF特徴ベクトル記述子によってバイナリ特徴ベクトルが抽出される。これらは、特徴点周辺の2箇所のピクセルの輝度の大小関係から求められる。
【0043】
BRIEFは、バイナリコードによってキーポイントの特徴量記述を実行することができる。SIFTやSURFによれば、特徴量記述に高次元の実数を用いていた。しかしながら、高次元の実数を用いた場合、メモリ容量の増加と類似度計算の増加と問題となる。そこで、ORBに基づくBRIEFを用いることによって、バイナリコードによって特徴記述することで省メモリ化し、類似度計算にハミング距離を用いることで処理コストの抑制を実現する。
【0044】
BRIEFによれば、パッチ内においてランダムに選択された2点の輝度差の符号からバイナリコードを生成する。選択するピクセルは、キーポイント位置を中心としたガウス分布に従ってランダムに選択する。ここで、ORBは、更に高精度にマッチングをさせるために、学習を用いてピクセルを選択している。選択するピクセル位置は、ペアのビット分散が大きく且つN組のペアの相関が低い場合に、特徴記述能力が高いバイナリコードとして、特徴記述に使用する。N組のペアは、Greedyアルゴリズムを用いて絞り込む。
【0045】
[モデル推定部12]
モデル推定部12は、訓練コンテンツのバイナリ特徴ベクトルの集合から、i番目の多変量ベルヌーイ分布に関する混合比wiと、i番目の多変量ベルヌーイ分布のd番目のパラメータμidとを算出する。これらは、モデルパラメータλとして算出される。
λ(w1、・・・、wN及びμ11、・・・、μND
また、本発明におけるモデル推定部12は、パラメータμidに関するフィッシャー情報量fidも更に算出する。
f11、・・・、fND(N×D個):フィッシャー情報量
【0046】
<多変量混合ベルヌーイ分布に基づくパラメータwi及びμidの算出>
本発明によれば、バイナリ特徴ベクトルの集合を「多変量混合ベルヌーイ分布」でモデル化したモデルパラメータλを推定する。ベルヌーイ分布とは、確率pで1を、確率q=1-pで0をとる離散確率分布という。Xをベルヌーイ分布に従う確率変数とすれば、確率変数Xの平均はp、分散はpq=p(1-p)となる。「多変量混合ベルヌーイ分布」は、バイナリ特徴ベクトルxtが生成される確率p(xt|λ)を表現する。
【数1】
N:混合数
【0047】
混合分布であるため、p1からpNまでの異なる多変量ベルヌーイ分布が、それぞれ混合比wiで選択され、xtが生成される。i番目の多変量ベルヌーイ分布から、バイナリ特徴ベクトルxtが生成される確率は、以下の式で表現される。
【数2】
μid:i番目の多変量ベルヌーイ分布のd番目のパラメータ
xt,d:バイナリ特徴ベクトルxtのd番目のビット
D:バイナリ特徴ベクトルのビット長
pi(xt|λ):バイナリ特徴ベクトルxtがi番目の多変量ベルヌーイ分布から生成
された際に、d番目のビットが1となる確率
【0048】
これらのパラメータは、具体的には、訓練コンテンツのバイナリ特徴ベクトルの集合x1〜xTから、EM(Expectation-Maximization)アルゴリズムの繰り返し処理によって推定する。EMアルゴリズムとは、統計学について、確率モデルのパラメータを最尤法に基づいて推定方法であって、観測不可能な潜在変数に確率モデルが依存する場合に用いられるものである。
【0049】
E(Expectation、期待値)ステップでは、バイナリ特徴ベクトルxi毎に、潜在変数ztiの分布に基づいて、モデルの尤度の期待値γt(i)を推定する。
【数3】
γt(i):t番目の訓練ベクトルがi番目の多変量ベルヌーイ分布から生成された確率
【0050】
M(Maximization、最大化)ステップでは、Eステップで算出された尤度の期待値γt(i)を最大化するべく、混合比wi及びパラメータμiを更新する。Mステップで算出されたパラメータは、次のEステップにおける潜在変数の分布を決定するために用いられる。
【数4】
【0051】
これらEステップ及びMステップを、収束するまで繰り返すことによって、対数尤度を最大化する混合比wi及びパラメータμiのパラメータ群λを算出する
λ(w1、・・・、wN及びμ11、・・・、μND
【0052】
<フィッシャー情報量fidの算出>
また、モデル推定部12は、多変量混合ベルヌーイ分布のパラメータμidに関する「フィッシャー情報量fid」を算出する。フィッシャーカーネル(Fisher kernel)は、生成的アプローチ(generative
approach)と判別的アプローチ(discriminative approach)とを結合させる枠組みである(例えば非特許文献8参照)。フィッシャーカーネルでは、最初に、局所記述子を生成する確率密度分布から導出される勾配ベクトルを計算し、この勾配ベクトルをフィッシャー情報行列で正規化したものを、画像を表現する1つの特徴ベクトルとする。フィッシャー情報行列を対角行列と仮定した場合、正規化は各パラメータに関する勾配を、フィッシャー情報量で正規化することと同値である。フィッシャーカーネルによれば、Bag of Featuresと比較して、同一サイズのコードブックであっても、要素数のより多い特徴ベクトルを得ることができる。即ち、特徴ベクトルの表現する情報が多いため、計算コストの高いカーネル法を利用して高次元空間へ射影する必要がなく、線形的な識別であっても十分な性能を引き出すことができる。
【0053】
(フィッシャー情報行列を対角行列とした第1の実施形態)
モデル推定部12は、
(S11)パラメータμidの対数尤度関数を偏微分で定義したフィッシャースコアsidを算出し、
(S12)フィッシャースコアsidの分散としてフィッシャー情報量fidを算出する。
【0054】
フィッシャー情報量は、フィッシャースコアの2次モーメントで定義される。μidに関するフィッシャースコアは、多変量混合ベルヌーイ分布に関して、バイナリ特徴ベクトル集合X={x1、・・・、xT}を観測した際の対数尤度関数L(λ|X)=log P(X|λ)のμidに関する偏微分で定義される。
【0055】
μidに関するフィッシャースコアsidは、以下の式で定義される。
【数5】
【0056】
また、前述のγt(i)を用いると、以下の式となる。
【数6】
【0057】
μidに関するフィッシャー情報量fidは、以下の式によって定義される。
【数7】
【0058】
従来(非特許文献3)では、フィッシャー情報量を、パラメータλから近似的に計算している。本発明では、以下に示すようにフィッシャー情報量をサンプルから直接計算することで、近似ではない正確なフィッシャー情報量を計算し、精度を担保する。
数7は、xtの独立性と、
【数8】
とによって、フィッシャー情報量fidは、以下のようになる。
【数9】
【0059】
(主成分分析を用いた第2の実施形態)
モデル推定部12は、
(S21)対数尤度関数のパラメータμidに関する偏微分で定義されるフィッシャースコアsidを算出し、
(S22)フィッシャースコアsidに対して主成分分析を実行し、
(S23)主成分分析の結果、固有値の大きいものからK個を、正規化パラメータfidとして出力し、
(S24)固有値に対応するK個の固有ベクトルgiKを更に出力する。
【0060】
特に画像の場合、バイナリ特徴ベクトルのビット間には相関がある。そのために、第1の実施形態のような対角行列の仮定は必ずしも成立しない。そのため、第2の実施形態によれば、以下のように主成分分析を用いて無相関化と正規化を実行する。主成分分析とは、直交回転を用いて変数間に相関がある元の観測値を、相関の無い主成分とよばれる値に変換することをいう。
【0061】
多変量混合ベルヌーイ分布のi番目の多変量ベルヌーイ分布について、フィッシャースコアsi1、・・・、siDを、バイナリ特徴ベクトル集合x1、・・・、xTに対して算出し、主成分分析を実行する。主成分分析の結果の固有値の大きいものからK個を、fi1、・・・、fiKとし、対応する固有ベクトルをgi1、・・・、giKとし、モデルパラメータとしてモデルパラメータ蓄積部13へ出力する。
【0062】
[モデルパラメータ蓄積部13]
モデルパラメータ蓄積部13は、モデル推定部12から出力されたモデルパラメータとして、混合比wi(i=1〜N)パラメータμid(i=1〜N, d=1〜D)とフィッシャー情報量fid(i=1〜N, d=1〜D)とを蓄積する。また、第2の実施形態によれば、モデルパラメータ蓄積部13は、固有ベクトルgik(i=1〜N, k=1〜K個)も更に蓄積する。
【0063】
[特徴ベクトル変換部14]
特徴ベクトル変換部14は、リファレンスコンテンツ又はクエリコンテンツのバイナリ特徴ベクトルの集合x1〜xTから、モデルパラメータ蓄積部13の混合比wiとパラメータμidとフィッシャー情報量fidとを用いて、リファレンスコンテンツ又はクエリコンテンツに対応する1つのフィッシャーベクトルvを算出する。
【0064】
(モデル推定部12の第1の実施形態に対して)
特徴ベクトル変換部14は、
(S13)バイナリ特徴ベクトルの集合x1〜xT毎に、パラメータwi及びμidを用いてフィッシャースコアsid(s11〜sND)を算出し、これらをid毎に累積した累積フィッシャースコアs'id(s'11〜s'ND)算出し、
(S14)各累積フィッシャースコアs'idを、対応するフィッシャー情報量fidの平方根√fidで除算したフィッシャーベクトルvidを算出する。
vid=sid/√fid
f11、・・・、fND(N×D個):フィッシャー情報量
【0065】
(モデル推定部12の第2の実施形態に対して)
特徴ベクトル変換部14は、
(S25)バイナリ特徴ベクトルの集合毎に、パラメータwi及びμidを用いてフィッシャースコアsid(s11〜sND)を算出し、これらをid毎に累積した累積フィッシャースコアs'id(s'11〜s'ND)を算出し、
(S26)混合要素i毎に、各累積フィッシャースコアs'id(s'i1〜s’iD)、対応する固有ベクトルgiKを用いて正規化(射影)した正規化ベクトルv'idを算出し、
(S27)正規化ベクトルv'idを、対応する固有ベクトルgidの平方根√gidで除算したフィッシャーベクトルvidを算出する。
vid=v’id/√gid
【0066】
特徴ベクトル変換部14は、リファレンスコンテンツについて変換されたフィッシャーベクトルは、リファレンス情報蓄積部15へ出力し、クエリコンテンツについて変換されたフィッシャーベクトルは、特徴ベクトル変換部16へ出力される。
【0067】
[特徴ベクトル検索部16]
特徴ベクトル検索部16は、従来技術の図1と同様に、リファレンス情報蓄積部15を用いて、クエリコンテンツのフィッシャーベクトルvQに最も類似する、リファレンスコンテンツのフィッシャーベクトルvRを検索する。ここでは、ユークリッド距離を用いることができ、vQ及びvRの間の距離が短いほど、クエリコンテンツに対してそのリファレンスコンテンツの類似度が高いことを意味する。具体的には、最近傍探索(Approximate Nearest Neighbor)アルゴリズムの1つである直積量子化を用いた方法(例えば非特許文献6参照)やLSH(Locality-Sensitive Hashing)を用いることも好ましい。
【0068】
以上、詳細に説明したように、本発明の検索装置、プログラム及び方法によれば、SIFTやSURFよりも更に高速にコンテンツを検索することができる。
【0069】
前述した本発明の種々の実施形態について、本発明の技術思想及び見地の範囲の種々の変更、修正及び省略は、当業者によれば容易に行うことができる。前述の説明はあくまで例であって、何ら制約しようとするものではない。本発明は、特許請求の範囲及びその均等物として限定するものにのみ制約される。
【符号の説明】
【0070】
1 検索装置
11 特徴ベクトル抽出部
12 モデル推定部
13 モデルパラメータ蓄積部
14 特徴ベクトル変換部
15 リファレンス情報蓄積部
16 特徴ベクトル検索部
図1
図2