特許第5791666号(P5791666)IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ ヤフー株式会社の特許一覧

<>
  • 特許5791666-ビジュアルキーワードの動的生成装置 図000002
  • 特許5791666-ビジュアルキーワードの動的生成装置 図000003
  • 特許5791666-ビジュアルキーワードの動的生成装置 図000004
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】5791666
(24)【登録日】2015年8月14日
(45)【発行日】2015年10月7日
(54)【発明の名称】ビジュアルキーワードの動的生成装置
(51)【国際特許分類】
   G06F 17/30 20060101AFI20150917BHJP
   G06T 7/00 20060101ALI20150917BHJP
   G06T 1/00 20060101ALI20150917BHJP
【FI】
   G06F17/30 210A
   G06F17/30 170B
   G06T7/00 350B
   G06T1/00 200A
【請求項の数】7
【全頁数】14
(21)【出願番号】特願2013-149362(P2013-149362)
(22)【出願日】2013年7月18日
(65)【公開番号】特開2015-22466(P2015-22466A)
(43)【公開日】2015年2月2日
【審査請求日】2014年3月17日
(73)【特許権者】
【識別番号】500257300
【氏名又は名称】ヤフー株式会社
(74)【代理人】
【識別番号】100091904
【弁理士】
【氏名又は名称】成瀬 重雄
(72)【発明者】
【氏名】岩崎 雅二郎
【審査官】 田中 秀樹
(56)【参考文献】
【文献】 特開平09−016627(JP,A)
【文献】 永橋 知行 TOMOYUKI NAGAHASHI,画像分類におけるBag−of−featuresによる識別に有効な特徴量の傾向 Tendency of Image Local Features that are Effective for Discrimination by using Bag-of-Features in Object Category Recognition,電子情報通信学会技術研究報告 Vol.109 No.306 IEICE Technical Report,日本,社団法人電子情報通信学会 The Institute of Electronics,Information and Communication Engineers,2009年11月19日,第109巻
(58)【調査した分野】(Int.Cl.,DB名)
G06F 17/30
(57)【特許請求の範囲】
【請求項1】
学習画像におけるBoF表現生成用のビジュアルキーワードを、前記学習画像自体の学習過程において動的に生成するための装置であって、
ここで、前記ビジュアルキーワードは、前記学習画像から生成された局所特徴量であるベクトルデータで構成されており、
さらに、
前記学習画像における局所特徴量を取得する局所特徴量取得部と、
ビジュアルキーワードと当該ビジュアルキーワードに対応するIDとを登録するための語彙DBと、
前記学習画像における前記局所特徴量に基づいて、前記語彙DBに登録されているビジュアルキーワードを、ベクトル空間上での距離に基づいて検索するための、ビジュアルキーワード検索部と、
前記ビジュアルキーワード検索部により、前記ベクトル空間上において前記取得された局所特徴量の近傍にある前記ビジュアルキーワードを検索できなかった場合に、前記局所特徴量を、BoF表現生成用の新たなビジュアルキーワードとして、対応して生成した新たなIDを付して前記語彙DBに登録する、ビジュアルキーワード登録部と
を備えており、
さらに、前記ビジュアルキーワード登録部は、前記学習画像を用いた前記学習過程において、前記新たなビジュアルキーワードに対応するIDを、前記学習画像自体に対応するBoF表現を生成するためのBoF表現生成部に送る構成となってい
ことを特徴とする、ビジュアルキーワードの動的生成装置。
【請求項2】
前記ビジュアルキーワード検索部は、前記ビジュアルキーワードの検索を、前記局所特徴量と、前記語彙DBに登録されているビジュアルキーワードとの距離が既定値以下であることを基準として行う構成となっている
請求項1に記載のビジュアルキーワードの動的生成装置。
【請求項3】
前記ビジュアルキーワード登録部は、前記語彙DBに既に登録されている前記ビジュアルキーワードの数が既定値以上である場合には、前記新たなビジュアルキーワードの登録を実行しない構成となっている
請求項1又は2に記載のビジュアルキーワードの動的生成装置。
【請求項4】
請求項1〜3のいずれか1項の動的生成装置を用いた、BoF表現生成用の学習装置であって、前記BoF表現生成部を備えており
前記ビジュアルキーワード検索部は、前記語彙DBから前記ビジュアルキーワードを検索できた場合には、前記ビジュアルキーワードに対応するIDを特定して、前記BoF表現部に送る構成となっており、
前記BoF表現生成部は、前記ビジュアルキーワード登録部又は前記ビジュアルキーワード検索部により送られた前記IDを用いて、学習画像に対応するBoF表現を生成する構成となっている
BoF表現生成用の学習装置。
【請求項5】
請求項4に記載の学習装置と、対象画像の認識を行うための認識部とを備えており、
前記認識部は、
前記対象画像に対応するBoF表現を、前記学習画像に対応するBoF表現から検索することによって、前記対象画像の認識を行う構成となっている
画像認識装置。
【請求項6】
局所特徴量取得部と、語彙DBと、ビジュアルキーワード検索部と、ビジュアルキーワード登録部とを備えたビジュアルキーワードの動的生成装置を用いて、学習画像におけるBoF表現生成用のビジュアルキーワードを、前記学習画像自体の学習過程において動的に生成するための方法であって、
ここで、前記ビジュアルキーワードは、前記学習画像から生成された局所特徴量であるベクトルデータで構成されており、
さらに、
前記局所特徴量取得部が、前記学習画像における局所特徴量を取得するステップと、
前記ビジュアルキーワード検索部が、前記学習画像における前記局所特徴量に基づいて、前記語彙DBにIDと対応して登録されているビジュアルキーワードを、ベクトル空間上での距離に基づいて検索するステップと、
前記ビジュアルキーワード検索部により、前記ベクトル空間上において前記取得された局所特徴量の近傍にある前記ビジュアルキーワードを検索できなかった場合に、前記ビジュアルキーワード登録部が、前記局所特徴量を、BoF表現生成用の新たなビジュアルキーワードとして、対応して生成した新たなIDを付して前記語彙DBに登録するステップと
前記ビジュアルキーワード登録部が、前記学習画像を用いた前記学習過程において、前記新たなビジュアルキーワードに対応するIDを、前記学習画像自体に対応するBoF表現を生成するためのBoF表現生成部に送るステップと
を備えることを特徴とする方法。
【請求項7】
請求項6に記載の各ステップをコンピュータに実行させるためのコンピュータプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、画像検索に用いられるビジュアルキーワードを動的に生成するための技術に関するものである。
【背景技術】
【0002】
下記特許文献1に示されるように、局所特徴量を用いた画像照合手法が知られている。なお、画像照合は画像認識と呼ばれることがある。この文献の手法では、画像を複数の部分に分割し、各部分に対応して局所特徴量を抽出し、この局所特徴量を用いて類似画像検索を行うことができる。これらの局所特徴量は、画像の特徴を精度良く表すために、通常、多次元のベクトルデータとされている。
【0003】
ところで、下記特許文献1にも示されているように、局所特徴量を用いた類似画像検索では、計算量が膨大となる傾向がある。
【0004】
そこで、局所特徴量を高速に検索するために、ビジュアルキーワードあるいはBoF(Bag of Features)という手法が提案されている(下記特許文献2参照)。この手法では、実際の学習段階の前に、多数の局所特徴量をクラスタリングすることにより、クラスタを代表する局所特徴量(つまりビジュアルキーワード)を算出する。さらに、各クラスタにIDを付す。これにより、各局所特徴量を、それが属するクラスタのIDに紐付けることができる。
【0005】
ついで、実際の学習段階では、学習画像における各局所特徴量について、各ビジュアルキーワードとの距離を計算し、既定値以内のビジュアルキーワードを特定する。これにより、各局所特徴量と、それに近いビジュアルキーワードのIDとを紐づけることができる。すると、1枚の学習画像における局所特徴量の集合は、クラスタIDのヒストグラム(集合ということもできる)により置き換えることができる。このクラスタIDのヒストグラムを、BoF表現あるいは単にBoFと呼ぶ。一枚の画像に対応して、一つのBoF表現を得ることができる。この作業を、必要枚数の学習画像について行う。
【0006】
ついで、認識段階では、認識対象の画像(対象画像)における各局所特徴量について、前記と同様にビジュアルキーワードを検索することにより、対象画像に対応するBoF表現を生成する。対象画像のBoF表現と学習画像のBoF表現との距離に基づいて、対象画像に近いと推定される学習画像を特定することができる。
【0007】
ここで、BoF表現は、多次元データではあるが極めて疎なデータ(つまりほとんどの次元における値が0)なので、転置ファイルによって検索できる。なお、BoF表現を「特徴ベクトル」と称することがあるが、本明細書では、画像の特徴量を示す特徴ベクトルとの混同を避けるため、BoF表現という用語を用いる。
【0008】
BoF表現を用いることにより、局所特徴量を量子化して、データ量を減らすことができる。しかも、BoF表現の検索には転置ファイルを利用できるので、局所特徴量自体を用いるよりも高速な類似画像検索(つまり画像認識)が可能となる。
【0009】
ところで、BoF表現を用いた画像検索(このような検索を以下「BoF検索」と称することがある)を実施する場合には、実際の学習段階の前に、多数の局所特徴量をクラスタリングすることにより、ビジュアルキーワードを生成しておく必要がある。つまり、この手法では、認識工程の前の学習段階として、ビジュアルキーワードの生成と実際の学習という二つの処理を実施しなければならず、煩雑であるという問題がある。
【0010】
また、前記したBoF検索における検索精度は、ビジュアルキーワードの生成精度に依存する。ここで、クラスタリングにおけるクラスタ半径を狭くすると、同一対象物についての局所特徴量であっても、撮影条件が異なるだけで、異なるクラスタに属する可能性が高くなる。一方で、クラスタ半径を大きくすれば、異質な(画像的に類似性の低い対象物についての)局所特徴量が同じクラスタに属する可能性が高くなる。このため、適切なクラスタリング手法を決定することが難しいという問題もある。
【先行技術文献】
【特許文献】
【0011】
【特許文献1】特開2011−128773号公報(0003〜0005段落)
【特許文献2】特開2012−22419号公報
【発明の概要】
【発明が解決しようとする課題】
【0012】
本発明は、前記した状況に鑑みてなされたものである。本発明の主な目的は、学習段階の実施と並行して、ビジュアルキーワードを動的に生成できる技術を提供することである。本発明の他の目的は、ビジュアルキーワードの生成の際に、局所特徴量のクラスタリングを省略することが可能な技術を提供することである。
【課題を解決するための手段】
【0013】
本発明は、以下のいずれかの項目に記載の構成とされている。
【0014】
(項目1)
学習画像におけるビジュアルキーワードを、前記学習画像自体の学習過程において動的に生成するための装置であって、
前記学習画像における局所特徴量を取得する局所特徴量取得部と、
ビジュアルキーワードを登録するための語彙DBと、
取得された前記局所特徴量に基づいて、前記語彙DBに登録されているビジュアルキーワードを検索する、ビジュアルキーワード検索部と、
前記ビジュアルキーワード検索部により前記ビジュアルキーワードを検索できなかった場合に、前記局所特徴量を新たなビジュアルキーワードとして前記語彙DBに登録する、ビジュアルキーワード登録部と
を備えることを特徴とする、ビジュアルキーワードの動的生成装置。
【0015】
本発明では、学習画像についてのBoF表現を生成するためにビジュアルキーワードを検索しながら、並行して、ビジュアルキーワードを生成することができる。ビジュアルキーワードに付されたIDを用いてBoF表現を生成することができる。
【0016】
(項目2)
前記ビジュアルキーワード検索部は、前記ビジュアルキーワードの検索を、前記局所特徴量と、前記語彙DBに登録されているビジュアルキーワードとの距離が既定値以下であることを基準として行う構成となっている
項目1に記載のビジュアルキーワードの動的生成装置。
【0017】
(項目3)
前記ビジュアルキーワード登録部は、前記語彙DBに既に登録されている前記ビジュアルキーワードの数が既定値以上である場合には、前記新たなビジュアルキーワードの登録を実行しない構成となっている
項目1又は2に記載のビジュアルキーワードの動的生成装置。
【0018】
(項目4)
項目1〜3のいずれか1項の動的生成装置を用いた、BoF表現生成用の学習装置であって、さらにBoF表現生成部を備えており、
前記ビジュアルキーワード登録部は、前記新たなビジュアルキーワードを登録する場合に、前記ビジュアルキーワードに対応するIDを生成して、前記BoF表現部に送る構成となっており、
前記語彙DBは、前記ビジュアルキーワードと前記IDとを対応して登録できる構成となっており、
前記ビジュアルキーワード検索部は、前記語彙DBから前記ビジュアルキーワードを検索できた場合には、前記ビジュアルキーワードに対応するIDを特定して、前記BoF表現部に送る構成となっており、
前記BoF表現生成部は、前記ビジュアルキーワード登録部又は前記ビジュアルキーワード検索部により送られた前記IDを用いて、学習画像に対応するBoF表現を生成する構成となっている
BoF表現生成用の学習装置。
【0019】
(項目5)
項目4に記載の学習装置と、対象画像の認識を行うための認識部とを備えており、
前記認識部は、
前記対象画像に対応するBoF表現を、前記学習画像に対応するBoF表現から検索することによって、前記対象画像の認識を行う構成となっている
画像認識装置。
【0020】
(項目6)
局所特徴量取得部と、語彙DBと、ビジュアルキーワード検索部と、ビジュアルキーワード登録部とを備えたビジュアルキーワードの動的生成装置を用いて、学習画像におけるビジュアルキーワードを、前記学習画像自体の学習過程において動的に生成するための方法であって、
前記局所特徴量取得部が、前記学習画像における局所特徴量を取得するステップと、
前記ビジュアルキーワード検索部が、取得された前記局所特徴量に基づいて、前記語彙DBに登録されているビジュアルキーワードを検索するステップと、
前記ビジュアルキーワード検索部により前記ビジュアルキーワードを検索できなかった場合に、前記ビジュアルキーワード登録部が、前記局所特徴量を新たなビジュアルキーワードとして前記語彙DBに登録するステップと
を備えることを特徴とする方法。
【0021】
(項目7)
項目6に記載の各ステップをコンピュータに実行させるためのコンピュータプログラム。
【0022】
このコンピュータプログラムは、適宜な記録媒体(例えばCD−ROMやDVDディスクのような光学的な記録媒体、ハードディスクやフレキシブルディスクのような磁気的記録媒体、あるいはMOディスクのような光磁気記録媒体)に格納することができる。このコンピュータプログラムは、インターネットなどの通信回線を介して伝送されることができる。
【発明の効果】
【0023】
本発明によれば、BoF検索のための学習段階の実施と並行して、ビジュアルキーワードを動的に生成することが可能となる。さらに、本発明によれば、ビジュアルキーワードの生成の際に、局所特徴量のクラスタリングを省略して、学習段階での処理を簡略化することが可能となる。
【図面の簡単な説明】
【0024】
図1】本発明の一実施形態に係る画像認識装置の全体的な構成を示す概略的なブロック図である。
図2図1の装置を用いた学習工程の一例を説明するためのフローチャートである。
図3図1の装置を用いた認識工程の一例を説明するためのフローチャートである。
【発明を実施するための形態】
【0025】
本発明の一実施形態に係る画像認識装置を、図1を参照しながら説明する。図1の画像認識装置は、本発明に係るビジュアルキーワードの動的生成装置及びBoF表現生成用の学習装置の実装例を含むものである。
【0026】
(本実施形態の構成)
本実施形態の画像認識装置は、学習部1と認識部2とを備えている。さらに、この装置は、語彙DB3と、転置インデックスDB4と、特徴点座標DB5とを備えている。
【0027】
(学習部の構成)
学習部1は、局所特徴量取得部11と、ビジュアルキーワード検索部12と、ビジュアルキーワード登録部13と、BoF表現生成部14とを備えている。さらに追加的に、本例の学習部1は、転置インデックス登録部15と、特徴点座標登録部16とを備えている。
【0028】
局所特徴量取得部11は、学習画像10における局所特徴量を取得する構成となっている。学習画像とは、通常、何らかのオブジェクト(例えば商品や人物や風景)を含む画像である。ただし、学習画像に含まれるオブジェクトの種類や個数についての制約はない。画像から局所特徴量を取得する手順は、通常、以下の通りである:
・画像における特徴領域を特定する;
・特徴領域における特徴量を算出し、これを局所特徴量とする。
【0029】
これらの処理の手法としては、例えば前記特許文献2に記載されたものを用いることができるので、これ以上詳しい説明は省略する。
【0030】
ビジュアルキーワード検索部12は、取得された局所特徴量に基づいて、語彙DB3に登録されているビジュアルキーワードを検索する構成となっている。本例のビジュアルキーワード検索部12は、ビジュアルキーワードの検索を、局所特徴量と、語彙DBに登録されているビジュアルキーワードとの距離が既定値以下であることを基準として行う構成となっている。既定値は、実験的に決定することが可能である。規定値≒0とすれば、ほぼ同一のビジュアルキーワードがない限り、局所特徴量が新規のビジュアルキーワードとして登録されることになる。また、本実施形態の説明において「既定値以上」「既定値以下」「既定値より大」「既定値より小」という記載がある場合、既定値を含むかどうかに本質的な意味はなく、何らかの閾値との大小関係が判定できればよいものとする。
【0031】
さらに、本例のビジュアルキーワード検索部12は、語彙DB3からビジュアルキーワードを検索できた場合には、当該ビジュアルキーワードに対応するIDを特定して、BoF表現生成部14に送る構成となっている。詳しい検索手法は後述する。
【0032】
ビジュアルキーワード登録部13は、ビジュアルキーワード検索部12によりビジュアルキーワードを検索できなかった場合に、当該局所特徴量を新たなビジュアルキーワードとして語彙DB3に登録する構成となっている。本例のビジュアルキーワード登録部13は、語彙DB3に既に登録されているビジュアルキーワードの数が既定値以上である場合には、新たなビジュアルキーワードの登録を実行しない構成となっている。さらに、本例のビジュアルキーワード登録部13は、新たなビジュアルキーワードを登録する場合に、ビジュアルキーワードに対応するIDを生成して、BoF表現生成部14に送る構成となっている。ここでIDは、一意に識別可能な何らかの記号、符号あるいは数字である。詳しい登録手法についても後述する。
【0033】
BoF表現生成部14は、ビジュアルキーワード検索部12又はビジュアルキーワード登録部13により送られたIDを用いて、学習画像10に対応するBoF表現を生成する構成となっている。
【0034】
転置インデックス登録部15は、生成されたBoF表現を検索するための転置インデックスを生成して、転置インデックスDB4に登録する構成となっている。
【0035】
特徴点座標登録部16は、各学習画像における特徴点(局所特徴量の、画像空間中における位置)の座標を、特徴点座標DB5に登録する構成となっている。特徴点の座標としては、局所特徴量取得部11で取得した局所特徴量についての座標情報を用いることができる。
【0036】
(認識部の構成)
認識部2は、認識対象の画像(対象画像)20に対応するBoF表現を、学習画像10に対応するBoF表現から検索することによって、対象画像20の認識(照合)を行うものである。具体的には、本実施形態の認識部2は、対象画像用の局所特徴量取得部21と、ビジュアルキーワード検索部22と、BoF表現生成部23と、転置インデックス検索部24と、特徴点座標照合部25とを備えている。
【0037】
認識部2における局所特徴量取得部21は、対象画像20における局所特徴量を取得する構成となっている。この局所特徴量取得部21の構成は、学習部1の局所特徴量取得部11と同様とすることができるので、これについての詳しい説明は省略する。また、局所特徴量取得部11を実装するためのモジュールを、局所特徴量取得部21の実装のために兼用することも可能である。
【0038】
認識部2におけるビジュアルキーワード検索部22は、対象画像20における局所特徴量に対応するビジュアルキーワードを語彙DB3から検索する構成となっている。このビジュアルキーワード検索部22についても、学習部1のビジュアルキーワード検索部12と同様に構成することができるので、これについての詳しい説明は省略する。二つのビジュアルキーワード検索部の実装のために一つのモジュールを兼用することも可能である。もちろん、ビジュアルキーワード検索部22を、ビジュアルキーワード検索部12と異なる構成とすることも可能である。例えば、「検索において取得すべきビジュアルキーワードとの距離の既定値」や、「検索で取得するビジュアルキーワードの個数の上限値」について、両検索部において異なる条件を採用することができる。
【0039】
認識部2におけるBoF表現生成部23は、検索されたビジュアルキーワードのIDに基づいて、対象画像20に対応するBoF表現を生成する構成となっている。このBoF表現生成部23についても、学習部1のBoF表現生成部14と同様に構成することができる。
【0040】
転置インデックス検索部24は、対象画像20に対応して生成されたBoF表現を用いて、転置インデックスDB4を検索し、所定距離内のBoF表現を特定する構成となっている。
【0041】
特徴点座標照合部25は、検索によって転置インデックスDB4から取得されたBoF表現に対応する学習画像における特徴点の座標を、特徴点座標DB5から取得する構成とされている。さらに、特徴点座標照合部25は、対象画像20の特徴点座標も局所特徴量取得部21から取得するようになっている。
【0042】
さらに、特徴点座標照合部25は、座標点照合を行い、それに合格した学習画像を、認識結果30として出力できるようになっている。座標点照合については後述する。
【0043】
認識部2における前記以外の構成は、既存のBoF検索の場合と同様とすることができるので、これ以上詳しい説明は省略する。
【0044】
語彙DB3は、ビジュアルキーワードとIDとを対応して登録できる構成となっている。
【0045】
転置インデックスDB4は、生成されたBoF表現についての転置インデックスを登録できる構成となっている。
【0046】
特徴点座標DB5は、学習画像の特徴点についての、画像空間中での座標を登録できる構成となっている。
【0047】
本実施形態では、局所特徴量取得部11と、語彙DB3と、ビジュアルキーワード検索部12と、ビジュアルキーワード登録部13とが、本発明におけるビジュアルキーワードの動的生成装置の具体例に対応している。さらに、本実施形態では、このビジュアルキーワードの動的生成装置とBoF表現生成部14とが、本発明におけるBoF表現生成用の学習装置の具体例に対応している。
【0048】
(本実施形態の動作)
つぎに、前記した本実施形態の画像認識装置を用いた画像認識方法を、図2及び図3をさらに参照しながら説明する。ここで、図2は学習段階、図3は認識段階を示している。
【0049】
(学習段階)
図2のステップSA−1)
以下の説明の前提として、本実施形態では、複数枚の学習画像を、適宜な手法により取得して用いるものとする。学習画像は、例えば予め学習画像DB(図示せず)に格納されたもの、実物(例えば商品)をスキャンして取得されたもの、あるいは、ネットワーク上から取得されたものであるが、その入手経路や内容に特に制約はない。学習において用いる学習画像の枚数は、必要に応じて適宜に変更可能である。また、以下の説明では、1枚の学習画像ごとに処理を進めることを仮定するが、複数枚の学習画像について並行して学習工程を進めることは可能である。本実施形態の学習段階では、まず、局所特徴量取得部11が、学習画像10における局所特徴量と、この局所特徴量についての画像空間中での座標を取得する。前記した通り、局所特徴量の取得方法としては、既存の技術を利用できるので、これについての詳しい説明は省略する。
【0050】
図2のステップSA−2〜SA−4)
ついで、ビジュアルキーワード検索部12が、取得された局所特徴量に基づいて、語彙DB3に登録されているビジュアルキーワードを検索する(ステップSA−2)。この検索においては、一般的な多次元空間インデックスを利用することができる。検索によりビジュアルキーワードを得られた場合(つまり既定距離内のビジュアルキーワードを見つけられた場合)には、得られたビジュアルキーワードを特定するIDを、ビジュアルキーワード検索部12がBoF表現生成部14に送る(ステップSA−3)。もし複数のIDが検索された場合(つまり既定距離内に複数のビジュアルキーワードがあった場合)は、これら複数のIDを送ることもできる。もちろん、検索するIDの数を、例えば距離に基づいて一つに制限することもできる。
【0051】
ビジュアルキーワード検索部12は、当該学習画像について、他に処理すべき局所特徴量があるかを確認する(ステップSA−4)。あればステップSA−2に戻り、なければ、後述のステップSA−7に進む。なお、ステップSA−1において、学習画像における全ての局所特徴量を取得していない場合は、ステップSA−4からステップSA−1に戻ってもよい。
【0052】
図2のステップSA−5〜SA−6)
ステップSA−2において、既定距離内のビジュアルキーワードを取得できなかった場合(つまりステップSA−3での判定がNoのとき)は、語彙DB3に登録されているビジュアルキーワードの数が既定数以内かどうかを、ビジュアルキーワード登録部13が確認する(ステップSA−5)。既定数以内であれば、ビジュアルキーワード登録部13は、当該の局所特徴量を新たなビジュアルキーワードとして語彙DB3に登録する(ステップSA−6)。この処理により、本実施形態では、新たなビジュアルキーワードを生成して登録することができる。もし、語彙DB3に格納されているビジュアルキーワードが存在しない場合(例えば最初の局所特徴量に基づいて検索するとき)は、基本的に、取得した局所特徴量をビジュアルキーワードとして特定して登録することができる。なお、本例では、初期状態において語彙DB3に登録されているビジュアルキーワードが存在しないと仮定しているが、存在していても特に問題はない。
【0053】
ビジュアルキーワード登録部13は、新たなビジュアルキーワードを登録する際には、そのビジュアルキーワードに対応する一意のIDも生成して、語彙DB3に登録し、さらに、当該IDをBoF表現生成部14に送る。
【0054】
ステップSA−6の処理が完了した場合、あるいはステップSA−5での判断がNo(つまり語彙数が既定値を超えた場合)である場合は、既に述べたステップSA−4に進む。
【0055】
従来のBoF表現生成においては、学習に先立って、多数の局所特徴量をクラスタリングし、ビジュアルキーワードを生成しておく必要があった。このため、BoF表現生成のために、ビジュアルキーワードの生成作業と実際の学習作業という二工程が必要となっていたという問題があった。
【0056】
これに対して、本実施形態の手法によれば、学習過程を実施しながら、つまり学習と同時にビジュアルキーワードを動的に生成できるので、事前準備としてのビジュアルキーワード生成作業を省略できる。このため、本例の手法によれば、BoF表現生成処理を簡略化できるという利点がある。
【0057】
また、本実施形態では、クラスタを生成せずにビジュアルキーワードを生成できるので、煩雑なクラスタ生成処理を省略することができるという実際上の利点もある。
【0058】
前記したステップSA−4は、原則として、一枚の学習画像10に属する全ての局所特徴量が処理されたかどうかに基づいて判断される。ただし、何らかの規則により、一部の局所特徴量についてのみ、前記した処理を行う構成とすることは可能である。
【0059】
前記のように、本実施形態では、語彙DB3に登録されたビジュアルキーワードが既定数を超えた場合には、新たなビジュアルキーワードの登録処理を行わないものとしている(ステップSA−5参照)。ここで、ビジュアルキーワードの登録個数の上限は、実験的に決定することができる。ビジュアルキーワードの個数が多すぎると、主観的には類似する局所特徴量が、別のビジュアルキーワードにそれぞれ紐づいてしまうことがある。つまり、ビジュアルキーワードの登録個数が多すぎても、BoF表現を用いた画像照合においては、照合精度の向上に寄与しない場合がある。本実施形態では、ビジュアルキーワードの登録個数の上限を設定することにより、ビジュアルキーワード検索におけるシステム上の負担を軽減することができる。しかも、前記したように、上限値を実験的に適切に決定することによって、照合精度の低下も防止できるという利点がある。
【0060】
図2のステップSA−7)
ついで、BoF表現生成部14は、ビジュアルキーワード登録部13又はビジュアルキーワード検索部12により送られたIDを用いて、学習画像10に対応するBoF表現を生成する。
【0061】
図2のステップSA−8)
ついで、転置インデックス登録部15は、生成されたBoF表現を検索するための転置インデックスを生成して、転置インデックスDB4に登録する。
【0062】
図2のステップSA−9)
ついで、特徴点座標登録部16は、前記処理が行われた学習画像についての局所特徴量の位置(つまり特徴点)を示す座標を、特徴点座標DB5に登録する。
【0063】
全ての学習画像について前記の処理が終われば、学習段階を終了させることができる。もちろん、認識と並行して学習段階を実施することは可能であるし、対象画像20を学習画像とみなして学習処理を実行してもよい。なお、本実施形態において、予め準備した全ての学習画像について学習処理を行うことは必須ではなく、適宜な条件を満たしたとき(例えば語彙DB3に登録されたビジュアルキーワードの数が既定値を超えたとき)に、以降の学習画像についての学習処理を省略することも可能である。
【0064】
(認識段階)
次に、対象画像20を認識する手法を、図3をさらに参照しながら説明する。
【0065】
図3のステップSB−1)
まず、局所特徴量取得部21は、対象画像20における局所特徴量を取得する。局所特徴量を取得する手法としては、前記した学習画像についての局所特徴量の取得手法と同様に、既存手法を利用できるので、詳しい説明は省略する。
【0066】
図3のステップSB−2)
ついで、ビジュアルキーワード検索部22は、前記のステップSB−1で取得された各局所特徴量にもっとも近い一つのビジュアルキーワードを、語彙DB3から検索し、当該ビジュアルキーワードのIDを取得する。ここで、ビジュアルキーワードの検索においては、局所特徴量からの距離が既定値より遠いビジュアルキーワードを除外する(つまり、類似度が既定値より大きいビジュアルキーワードのみを検索する)ことができる。また、ビジュアルキーワードの検索においては、ある局所特徴量からの距離が既定値以内の複数のビジュアルキーワードを取得する構成とすることもできる。このようにすれば、一つの局所特徴量に複数のIDを紐づけることができる。ここで、ビジュアルキーワードの検索は、語彙DB3に登録されたビジュアルキーワードが既定数を越える前であっても行うことができる。つまり、本実施形態での認識は、語彙DB3の完成を待たずに実行可能である。このことは、実際の画像照合における運用の簡素化や効率化を図る上で重要である。
【0067】
図3のステップSB−3)
処理すべき全ての局所特徴量に対応するビジュアルキーワードのIDを、前記ステップSB−2において特定した後、BoF表現生成部23は、そのIDを用いてBoF表現を生成することができる。このBoF表現は、1枚の対象画像を量子化して表現するものとなる。
【0068】
図3のステップSB−4)
ついで、転置インデックス検索部24は、前記のステップSB−3で得られたBoF表現(つまり対象画像のBoF表現)に最も近いBoF表現を、転置インデックスDB4に格納された転置インデックスを用いて検索する。対象画像のBoF表現と、検索で得られたBoF表現(つまり学習画像のBoF表現)との距離が既定値以上であった場合には、その時点で照合失敗と判定することもできる。
【0069】
図3のステップSB−5)
ついで、特徴点座標照合部25は、検索で得られたBoF表現に対応する学習画像の特徴点の座標を、特徴点座標DB5から取得する。ついで、特徴点座標照合部25は、取得された学習画像の特徴点座標と、認識画像の特徴点座標との照合を行う。以下、特徴点座標を照合する手法の一例について説明する。
【0070】
(特徴点座標照合の具体例)
以下において説明する特徴点座標の照合とは、BoF表現の検索で得られた候補画像(学習画像)と認識対象画像との間における類似性あるいは同一性の確信度を検証するための手法である。
【0071】
既に述べたように、学習画像と認識対象画像とは、いずれも、複数の局所特徴量を含んでいる。これらの局所特徴量は、同じビジュアルキーワードに紐づいている場合、類似性が高いと推定することができる。例えば、候補として得られた学習画像Aの局所特徴量aiと対象画像Bの局所特徴量bjとが同じビジュアルキーワードvkに紐づいている場合、これらの特徴量aiとbjとは類似性が高いと考えることができる。つまり、これらの特徴量aiとbjとは、特徴量の類似性(距離)により対応付けられた特徴点ペアと把握できる。そこで、この類似性による対応関係を用いて各特徴点の座標位置の照合を行う。
【0072】
この照合においては、特徴量の類似性(距離)により対応付けられた特徴点ペア(前記の例であればaiとbj)を2組選択する。ついで、画像の座標系において、一方の画像(例えば画像A)上の点(つまりaiの位置)から他方の画像(例えば画像B)上の点(つまりbjの位置)に座標変換するためのアフィン変換の係数を求める。求めたアフィン変換係数を用いて、一方の画像(例えば画像A)における、その他の点(例えばai'の位置)を座標変換する。変換して得られた点と、画像B上における対応点(例えばbj'の位置)との距離を比較し、既定範囲内であれば一致数(適合数)をカウントアップする。得られた一致数の合計を一致確信度とする。この一致確信度と既定値とを比較し、一致確信度が既定値よりも高い場合、照合成功とすることができる。なお、特徴点座標照合手段としては、他の既存の手法を用いることも可能であり、前記の手法には制約されない。
【0073】
照合が成功した場合、当該学習画像、あるいはこの画像を特定するための情報を、認識結果30として出力することができる。
【0074】
画像認識における前記以外の手法は、既存のものと同様でよいので、これ以上の説明は省略する。
【0075】
ここで、従来のBoF検索手法では、ビジュアルキーワードをクラスタリングにより生成しているので、採用するクラスタリング手法によって、BoF検索における照合精度が左右されやすいという問題があった。これに対して、本例の手法では、前記したように、ビジュアルキーワード生成のためのクラスタリングを省略しているので、ビジュアルキーワード生成が、クラスタリング手法に影響されない。したがって、本例の手法によれば、BoF検索における照合精度の安定化あるいは向上を期待することができる。
【0076】
なお、本発明の内容は、前記実施形態に限定されるものではない。本発明は、特許請求の範囲に記載された範囲内において、具体的な構成に対して種々の変更を加えうるものである。
【0077】
例えば、前記した各構成要素は、機能ブロックとして存在していればよく、独立したハードウエアとして存在しなくても良い。また、実装方法としては、ハードウエアを用いてもコンピュータソフトウエアを用いても良い。さらに、本発明における一つの機能要素が複数の機能要素の集合によって実現されても良く、本発明における複数の機能要素が一つの機能要素により実現されても良い。
【0078】
また、機能要素は、物理的に離間した位置に配置されていてもよい。この場合、機能要素どうしがネットワークにより接続されていても良い。グリッドコンピューティング又はクラウドコンピューティングにより機能を実現し、あるいは機能要素を構成することも可能である。
【符号の説明】
【0079】
1 学習部
11 局所特徴量取得部
12 ビジュアルキーワード検索部
13 ビジュアルキーワード登録部
14 BoF表現生成部
15 転置インデックス登録部
16 特徴点座標登録部
2 認識部
21 局所特徴量取得部
22 ビジュアルキーワード検索部
23 BoF表現生成部
24 転置インデックス検索部
25 特徴点座標照合部
3 語彙DB
4 転置インデックスDB
5 特徴点座標DB
10 学習画像
20 対象画像
30 認識結果
図1
図2
図3