IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 日本電信電話株式会社の特許一覧 ▶ 国立大学法人 東京大学の特許一覧

<>
  • 特許-検証装置、方法、及びプログラム 図1
  • 特許-検証装置、方法、及びプログラム 図2
  • 特許-検証装置、方法、及びプログラム 図3
  • 特許-検証装置、方法、及びプログラム 図4
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2022-01-27
(45)【発行日】2022-02-04
(54)【発明の名称】検証装置、方法、及びプログラム
(51)【国際特許分類】
   G06T 7/00 20170101AFI20220128BHJP
【FI】
G06T7/00 300F
【請求項の数】 4
(21)【出願番号】P 2020167625
(22)【出願日】2020-10-02
(62)【分割の表示】P 2017147068の分割
【原出願日】2017-07-28
(65)【公開番号】P2021005417
(43)【公開日】2021-01-14
【審査請求日】2020-10-02
(73)【特許権者】
【識別番号】000004226
【氏名又は名称】日本電信電話株式会社
(73)【特許権者】
【識別番号】504137912
【氏名又は名称】国立大学法人 東京大学
(74)【代理人】
【識別番号】110001519
【氏名又は名称】特許業務法人太陽国際特許事務所
(72)【発明者】
【氏名】入江 豪
(72)【発明者】
【氏名】柏野 邦夫
(72)【発明者】
【氏名】平松 薫
(72)【発明者】
【氏名】黒住 隆行
(72)【発明者】
【氏名】相澤 清晴
【審査官】佐田 宏史
(56)【参考文献】
【文献】特開2016-025625(JP,A)
【文献】特開2017-062781(JP,A)
【文献】特開2017-059144(JP,A)
【文献】特開平04-299474(JP,A)
【文献】特開2003-323618(JP,A)
【文献】特開2016-099835(JP,A)
【文献】特開2014-229063(JP,A)
【文献】特開2008-134791(JP,A)
【文献】柴山 祐輝、外4名,“大規模なデータセットの構築のための画像のフィルタリング手法”,情報処理学会 研究報告 コンピュータビジョンとイメージメディア(CVIM),Vol.2017-CVIM-207, No.30,日本,情報処理学会,2017年05月03日,pp.1-5
(58)【調査した分野】(Int.Cl.,DB名)
G06T 1/00,7/00-7/90
(57)【特許請求の範囲】
【請求項1】
第一の画像と第二の画像との対応を検証する検証装置であって、
前記第一の画像と前記第二の画像の各々について、少なくとも一つ以上の畳み込み層を含む畳み込みニューラルネットワークを適用し、画像の複数の部分領域ごとに前記畳み込み層の出力を求める特徴抽出部と、
前記第一の画像と第二の画像の各々について前記部分領域ごとに求められた前記畳み込み層の出力に基づいて、前記第一の画像の前記部分領域のそれぞれと、前記第二の画像の前記部分領域のそれぞれとの各組み合わせについて、前記畳み込み層の出力のコサイン類似度を求め、
前記第一の画像の部分領域Aiと前記第二の画像の部分領域Bjとの組み合わせについて前記コサイン類似度が所定の閾値よりも高い値となり、かつ、前記部分領域Aiに対して最大のコサイン類似度となる前記第二の画像の部分領域が前記部分領域Bjと一致し、かつ、前記部分領域Bjに対して最大のコサイン類似度となる前記第一の画像の部分領域が前記部分領域Aiと一致する場合に、前記第一の画像の部分領域Aiと前記第二の画像の部分領域Bjとの組み合わせを対応候補として各々選定し、
前記部分領域Aiに対して最大のコサイン類似度となる前記第二の画像の部分領域が前記部分領域Bjでない場合には、前記第一の画像の部分領域Aiと前記第二の画像の部分領域Bjとの組み合わせを前記対応候補として選定しないようにし、
前記部分領域Bjに対して最大のコサイン類似度となる前記第一の画像の部分領域が前記部分領域Aiでない場合には、前記第一の画像の部分領域Aiと前記第二の画像の部分領域Bjとの組み合わせを前記対応候補として選定しないようにする対応候補計算部と、
前記対応候補の各々についての部分領域の画像中の位置座標に基づいて、前記対応候補の適否を判定し、前記対応候補が適当である場合には前記対応候補を対応として出力する検証部と、
を備えることを特徴とする検証装置。
【請求項2】
前記検証部は、前記対応候補の各々についての部分領域の画像中の位置座標に基づいて、他の対応候補についての部分領域の組み合わせにおける相対的な位置関係との一貫性に応じて、前記対応候補の適否を判定する請求項1記載の検証装置。
【請求項3】
第一の画像と第二の画像との対応を検証する検証装置における検証方法であって、
特徴抽出部が、前記第一の画像と前記第二の画像の各々について、少なくとも一つ以上の畳み込み層を含む畳み込みニューラルネットワークを適用し、画像の複数の部分領域ごとに前記畳み込み層の出力を求め、
対応候補計算部が、前記第一の画像と第二の画像の各々について前記部分領域ごとに求められた前記畳み込み層の出力に基づいて、前記第一の画像の前記部分領域のそれぞれと、前記第二の画像の前記部分領域のそれぞれとの各組み合わせについて、前記畳み込み層の出力のコサイン類似度を求め、
前記第一の画像の部分領域Aiと前記第二の画像の部分領域Bjとの組み合わせについて前記コサイン類似度が所定の閾値よりも高い値となり、かつ、前記部分領域Aiに対して最大のコサイン類似度となる前記第二の画像の部分領域が前記部分領域Bjと一致し、かつ、前記部分領域Bjに対して最大のコサイン類似度となる前記第一の画像の部分領域が前記部分領域Aiと一致する場合に、前記第一の画像の部分領域Aiと前記第二の画像の部分領域Bjとの組み合わせを対応候補として各々選定し、
前記部分領域Aiに対して最大のコサイン類似度となる前記第二の画像の部分領域が前記部分領域Bjでない場合には、前記第一の画像の部分領域Aiと前記第二の画像の部分領域Bjとの組み合わせを前記対応候補として選定しないようにし、
前記部分領域Bjに対して最大のコサイン類似度となる前記第一の画像の部分領域が前記部分領域Aiでない場合には、前記第一の画像の部分領域Aiと前記第二の画像の部分領域Bjとの組み合わせを前記対応候補として選定しないようにし、
検証部が、前記対応候補の各々についての部分領域の画像中の位置座標に基づいて、前記対応候補の適否を判定し、前記対応候補が適当である場合には前記対応候補を対応として出力する
ことを特徴とする検証方法。
【請求項4】
コンピュータを、請求項1又は2に記載の検証装置の各部として機能させるためのプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、検証装置、方法、及びプログラムに係り、特に、二枚の画像の対応を検証する検証装置、方法、及びプログラムに関する。
【背景技術】
【0002】
画像認識技術の進展が目覚ましい。従来、顔・指紋認証やファクトリーオートメーション等、認識する対象や環境が限定されている利用領域が中心的であった。最近はスマートフォン等の小型な撮像デバイスの普及に伴い、一般利用者が自由な場所や環境で、任意の対象を撮影したような自由撮影画像の認識に対する産業上の要請も増えてきている。実世界とウェブ世界の商品を相互につなぐO2Oサービスや、実環境に存在する様々なランドマークを認識して情報を提供する情報案内/ナビゲーションサービス、ロボットエージェントなどへの期待は特に高い。
【0003】
このような新たな用途に供される画像認識技術にはいくつかの形態がありうるが、代表的なものの一つが画像検索に基づく認識技術である。すなわち、事前に認識したい物体を撮影した画像(これを参照画像と呼ぶ)のデータベースを構築しておき、当該参照データベース内の参照画像の中から、撮影したクエリ画像に類似したものを検索することによって、クエリ画像中に存在する物体を特定するのである。
【0004】
上記目的を達成するためには、単に画像として類似したものを検索するだけでは不十分であり、同一の物体が写った画像を正確に検索できる機能を備えている必要がある。通常、同一の物体であっても、どの画像にも同じ位置や姿勢(部分領域の角度)、大きさで写っているわけではなく、画像によってさまざまな撮影視点から撮影されているのが普通である。特に、一般利用者が自由撮影したような画像においては、事前に物体がどのような視点から撮影されているかを知ることは多くの場合ほぼ不可能であり、画像としては見え方が大きく変化する場合が多い。したがって、単純に画像同士の類似度を測って検索を行っても、所望の画像認識を実現することができないという問題がある。
【0005】
このような問題を鑑み、撮影視点によらずに、同一の物体が存在するかを検証して有効な検索を実現するための検証技術が発明・開示されてきている。
【0006】
非特許文献1には、Scale Invariant Feature Transform (SIFT)特徴と一般化ハフ変換に基づく検証方法が開示されている。まず、各々の画像の輝度値を解析することで、顕著な輝度変化を持つような部分領域を多数抽出し、それら各部分領域の輝度変化を、大きさ・回転に対して不変性を持つ特徴量ベクトルとして表現する(SIFT特徴)。次に、互いに異なる二つの画像に含まれる部分領域について、SIFT特徴同士のユークリッド距離を測り、これが小さい値を持つような異なる画像間の部分領域同士を対応候補として求める。さらに、同一の物体から得られた部分領域であれば、物体上の対応する部分領域間の位置・姿勢・大きさの変化が、撮影視点に依らず一貫性を持つという仮定に基づき、対応候補となった部分領域間の位置・姿勢・大きさの「ずれ」を求める。同一の物体から得られた対応する部分領域の集合は、このずれに一貫性があるという仮定の下、ずれのヒストグラムを構成したとすると、これらはごく少数のビンに集中して分布することが想定される。したがって、頻度の高いビンに分布している対応候補のみを真に有効な対応であると見做し、それら以外を有効な対応ではないとして削除する。結果として、有効な対応の数の多かったものを同一の物体が存在する画像として検索する。
【0007】
特許文献1には、非特許文献1を改良した技術が開示されている。SIFT特徴に基づき部分領域の対応候補を求め、これらの位置・姿勢・大きさのずれを計算して対応の適否を判定することは同様であるが、ずれを評価する際に3次元回転角度を考えている。結果として、非特許文献1の技術よりもさらに精細な検証を可能にしている。
【0008】
非特許文献2に開示の技術では、やはりSIFT特徴を用いて異なる画像間で部分領域同士の対応候補を得るまでは同様であるが、複数の対応候補を集合として見たときの部分領域の位置のずれが、特定の線形変換に拘束されているような対応候補のみを有効な対応であるとみなすことにより、有効ではない対応候補を削除する方法となっている。
【先行技術文献】
【特許文献】
【0009】
【文献】特開2015-95156号公報
【非特許文献】
【0010】
【文献】D.G. Lowe, “Distinctive Image Features from Scale-Invariant Keypoints ”, International Journal of Computer Vision, pp.91-110, 2004
【文献】J. Philbin, O. Chum, M. Isard, Josef Sivic and Andrew Zisserman. Object retrieval with large vocabularies and fast spatial matching1470-1477, Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2007.
【発明の概要】
【発明が解決しようとする課題】
【0011】
大局的にみれば、既存の発明は、まずSIFT特徴同士の距離に基づいて対応候補を得たのち、部分領域の位置のずれを解析することによって、対応候補の適否を検証している。
【0012】
しかしながら、このようなSIFT特徴に基づく検証は、多様な物体に対して高精度な検証ができないという問題点があった。すなわち、上記先行技術による検証は、特徴量ベクトルの対応候補を基に行うことを前提としているため、その精度はSIFT特徴の表現能力に依存する。SIFT特徴(あるいは、その他これに類する局所特徴と呼ばれるもの)は、顕著な輝度変化を記述するという特性があり、例えば、判別しやすい模様(テクスチャ)があるなど、顕著な輝度変化が起こりやすいような物体に対しては非常に高精度な検証が可能ではあるものの、特徴的な模様が無い、あるいは、平坦な部分の多い物体に対しては精度のよい対応を得ることができず、結果として高精度な検証を実現することができなかった。
【0013】
すなわち、現在に至るまで、多様な物体に対して高精度に同一物体の有無を検証できるような検証技術は発明されていなかった。
【0014】
本発明は、上記問題点を解決するために成されたものであり、より多様な物体に対する高精度な検証を可能にする検証装置、方法、及びプログラムを提供することを目的とする。
【課題を解決するための手段】
【0015】
上記目的を達成するために、本発明に係る検証装置は、第一の画像と第二の画像との対応を検証する検証装置であって、前記第一の画像と前記第二の画像の各々について、少なくとも一つ以上の畳み込み層を含む畳み込みニューラルネットワークを適用し、画像の部分領域ごとに前記畳み込み層の出力を求める特徴抽出部と、前記第一の画像と第二の画像の各々について前記部分領域ごとに求められた前記畳み込み層の出力に基づいて、前記第一の画像の前記部分領域のそれぞれと、前記第二の画像の前記部分領域のそれぞれとの各組み合わせについて、前記畳み込み層の出力のコサイン類似度を求め、前記第一の画像の部分領域Aと前記第二の画像の部分領域Bとの組み合わせについて前記コサイン類似度が所定の閾値よりも高い値となり、かつ、前記部分領域Aに対して最大のコサイン類似度となる前記第二の画像の部分領域が前記部分領域Bと一致し、かつ、前記部分領域Bに対して最大のコサイン類似度となる前記第一の画像の部分領域が前記部分領域Aと一致する場合に、前記第一の画像の部分領域Aと前記第二の画像の部分領域Bとの組み合わせを対応候補として各々選定する対応候補計算部と、前記対応候補の各々についての部分領域の画像中の位置座標に基づいて、前記対応候補の適否を判定し、前記対応候補が適当である場合には前記対応候補を対応として出力する検証部と、を含んで構成されている。
【0016】
また、本発明に係る検証方法は、第一の画像と第二の画像との対応を検証する検証装置における検証方法であって、特徴抽出部が、前記第一の画像と前記第二の画像の各々について、少なくとも一つ以上の畳み込み層を含む畳み込みニューラルネットワークを適用し、画像の部分領域ごとに前記畳み込み層の出力を求め、対応候補計算部が、前記第一の画像と第二の画像の各々について前記部分領域ごとに求められた前記畳み込み層の出力に基づいて、前記第一の画像の前記部分領域のそれぞれと、前記第二の画像の前記部分領域のそれぞれとの各組み合わせについて、前記畳み込み層の出力のコサイン類似度を求め、前記第一の画像の部分領域Aと前記第二の画像の部分領域Bとの組み合わせについて前記コサイン類似度が所定の閾値よりも高い値となり、かつ、前記部分領域Aに対して最大のコサイン類似度となる前記第二の画像の部分領域が前記部分領域Bと一致し、かつ、前記部分領域Bに対して最大のコサイン類似度となる前記第一の画像の部分領域が前記部分領域Aと一致する場合に、前記第一の画像の部分領域Aと前記第二の画像の部分領域Bとの組み合わせを対応候補として各々選定し、検証部が、前記対応候補の各々についての部分領域の画像中の位置座標に基づいて、前記対応候補の適否を判定し、前記対応候補が適当である場合には前記対応候補を対応として出力することを特徴とする。
【0017】
また、本発明に係るプログラムは、コンピュータを、上記の発明に係る検証装置の各部として機能させるためのプログラムである。
【発明の効果】
【0018】
本発明の検証装置、方法、及びプログラムによれば、前記第一の画像と前記第二の画像の各々について、畳み込みニューラルネットワークを適用し、部分領域ごとに前記畳み込み層の出力を求め、前記第一の画像の前記部分領域のそれぞれと、前記第二の画像の前記部分領域のそれぞれとの各組み合わせについて、前記畳み込み層の出力のコサイン類似度を求め、前記コサイン類似度が所定の閾値よりも高い値となり、かつ、前記部分領域Aに対して最大のコサイン類似度となる前記第二の画像の部分領域が前記部分領域Bと一致し、かつ、前記部分領域Bに対して最大のコサイン類似度となる前記第一の画像の部分領域が前記部分領域Aと一致する場合に、前記第一の画像の部分領域Aと前記第二の画像の部分領域Bとの組み合わせを対応候補として各々選定し、前記対応候補の各々についての部分領域の画像中の位置座標に基づいて、前記対応候補の適否を判定し、前記対応候補が適当である場合には前記対応候補を対応として出力することにより、より多様な物体に対する高精度な検証を可能にする、という効果が得られる。
【図面の簡単な説明】
【0019】
図1】本発明の実施の形態に係る検証装置の構成を示すブロック図である。
図2】本発明の実施の形態に係る検証装置における検証処理ルーチンを示すフローチャートである。
図3】畳み込み層の出力を示す図である。
図4】2枚の画像の部分領域の幾何情報の幾何的関係を示す図である。
【発明を実施するための形態】
【0020】
以下、図面を参照して本発明の実施の形態を詳細に説明する。
【0021】
<本発明の実施の形態に係る原理>
まず、本発明の実施の形態における原理について説明する。
【0022】
本発明の実施の形態では、畳み込みニューラルネットワークの畳み込み層の出力を用いることによって、画像中の部分領域ごとの特徴を表現する。通常、畳み込みニューラルネットワークは、複数の複雑な畳み込みフィルタによって構成されていることにより、高い表現能力を実現することができる。結果、従来のSIFT特徴等の局所特徴では対象にできなかったような、顕著な輝度変化が無いような物体であっても、正確な対応候補を得ることができるようになる。
【0023】
さらに、本発明の実施の形態では、この対応候補を求める上で、2枚の画像間で部分領域ごとの畳み込み層の出力(すなわち、畳み込み層を構成する一つ以上の畳み込みフィルタの応答)のコサイン類似度を求め、この類似度が閾値以上となり、かつ2枚の画像で比較した際に互いに最大のコサイン類似度となっているような部分領域の組み合わせを対応候補とする。コサイン類似度は、他の様々な距離尺度に比して、より正確に畳み込みニューラルネットワークのフィルタ応答の類似度を求めることができ、特にこれが一定以上の値(例えば0.5以上)を超えるようなものは、精度のよい対応候補を与えることができる。さらに、同一の物体(またはその一部)を写した部分領域であれば、相互に最大のコサイン類似度となっているはずであるから、これを満たすようなものを対応候補として選択することで、より信頼性の高い対応候補を得ることができる。さらに、本発明の実施の形態では、対応候補の幾何的な整合性を判定して最終的な対応を求めることで、結果的に、高精度な検証を実行することが可能になる。
【0024】
なお、本発明の実施の形態は、一般的な畳み込みニューラルネットワークと従来の検証方法の単純な組み合わせによって実現されるものではない。まず、従来の畳み込みニューラルネットワークでは、例えば参考文献1や参考文献2、参考文献3に記載されているように、入力画像に対して、一つ以上の畳み込みフィルタからなる畳み込み層を数層適用して畳み込み層の出力を求めた後、その出力を空間方向に集約し、固定次元のベクトルとして表現する。例えば参考文献1では、畳み込み層の出力の全ての要素に対して線形結合を取ることによって、参考文献2では、空間方向に対して平均を取ることによって、また、参考文献3では、特定の空間の領域に対して最大値や和を取ることによって、空間方向への集約を行う。
【0025】
[参考文献1]Alex Krizhevsky, Ilya Sutskever, Geoffrey E. Hinton: ImageNet Classification with Deep Convolutional Neural Networks. In Proceedings of the Neural Information Processing Systems, pp. 1106-1114, 2012.
【0026】
[参考文献2]Kaiming He, Xiangyu Zhang, Shaoqing Ren, Jian Sun: Deep Residual Learning for Image Recognition. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pp. 770-778., 2016.
【0027】
[参考文献3]Giorgos Tolias, Ronan Sicre, Herve Jegou: Particular Object Retrieval with Integral Max-Pooling of CNN Activations, arXiv:1511.05879. 2015.
【0028】
このような空間方向への集約を行う方法では、最終的な表現のサイズ(ベクトルの次元)を小さく抑えることができる一方で、畳み込み層の出力が備える空間表現性能を損なうことになるため、本技術の要件に対して適当な表現とはならない。そこで、本発明の実施の形態では、畳み込み層の出力に対する集約処理を廃し、そのまま利用する。このような手続きは、先の参考文献1~3のいずれにも開示されていない。
【0029】
また、畳み込み層の出力は、画像内一様な大きさ・間隔で抽出され、また、高次元かつ疎な非負値ベクトルである点においてSIFT特徴とは性質が異なっているため、精度の高い検証を実現するには、畳み込み層の出力の特性に適した手続きが必要である。本発明の実施の形態では、畳み込み層の出力が疎な高次元ベクトルであり、対応候補を得る上ではそのベクトルのノルムが有益でないことを鑑み、コサイン類似度を用いて畳み込み層間の対応を求め、これが一定値を超え、かつ2枚の画像間で互いが最大の類似度になっているような場合のみを対応候補として残す。このような手続きにより、精度の高い対応候補を得ることができる。
【0030】
さらに、一様な大きさ・間隔で抽出される畳み込み層の出力は、画像全体に対して均質で網羅的な表現を与える一方で、特徴的でないような部分領域(背景にある空や道路など、物体を見分ける上で重要ではないような部分領域)からも出力が得られてしまうことから、しばしば誤対応を招く原因となる。そこで、本発明の実施の形態では、特徴的でないような部分領域から計算された代表的な畳み込み層の出力を予め求めておき、これと対応するような部分領域を予め除く処理を適用することにより、誤対応を抑制する。このような発想は、参考文献1~3、および、先行技術文献のいずれにも記載されていない。
【0031】
以上の通り、本発明の実施の形態により、多様な物体に対して高精度な検証が可能となる。
【0032】
以下、図面を参照して本発明の実施の一形態を詳細に説明する。
【0033】
<<全体構成>>
図1は、本発明の実施の形態に係る検証装置100の構成の一例を示すブロック図である。図1に示す検証装置100は、入力部110、特徴抽出部120、対応候補計算部130、検証部140、出力部150を備える。
【0034】
検証装置100は、入力部110を介して参照データベース160と通信手段を介して接続されて相互に情報通信し、当該データベースに任意の画像情報を登録したり、また画像情報を読み出したりすることができる構成を採る。
【0035】
ここでいう画像情報には、画像そのもの(画像ファイル)と、画像の部分領域の幾何情報、そして特徴量ベクトルを含むものとし、同一の画像に関するものであればこれらは相互に関連づけられているものとする。特に参照データベース160には、クエリ画像に対して検索の対象となる参照画像に関する画像情報が含まれているものとする。画像の部分領域は、画像の一部領域であればどのように定められても構わないが、好ましくは畳み込みニューラルネットワークの畳み込み層の畳み込みフィルタにより規定される部分領域を用いる(詳細は後述する)。
【0036】
また、部分領域の幾何情報としては、部分領域の位置と大きさを含むものとするが、本発明の実施形態の一例にあたっては少なくとも位置が含まれていればよい。
【0037】
参照データベース160は、例えば、一般的な汎用コンピュータに実装されているファイルシステムによって構成できる。各参照画像ファイルそれぞれを一意に識別可能な識別子(例えば、通し番号によるIDやユニークなファイル名等)を与えるものとし、さらに、当該画像に規定された部分領域、並びに、特徴量ベクトルを記述したファイルも、当該画像の識別子と関連づけて記憶しているものとする。あるいは、同様にRDBMS (Relational Database Management System)などで実装・構成されていても構わない。その他、メタデータとして、例えば画像の内容を表現するもの(画像のタイトル、概要文、又はキーワード等)、画像のフォーマットに関するもの(画像のデータ量、サムネイル等のサイズ)などを含んでいても構わないが、本発明の実施においては必須ではない。
【0038】
参照データベース160は、検証装置100の内部にあっても外部にあっても構わず、通信手段は任意の公知ものを用いることができるが、本実施の形態においては、外部にあるものとして、通信手段は、インターネット、TCP/IPにより通信するよう接続されているものとする。
【0039】
また、検証装置100が備える各部及び参照データベース160は、演算処理装置、記憶装置等を備えたコンピュータやサーバ等により構成して、各部の処理がプログラムによって実行されるものとしてもよい。このプログラムは検証装置100あるいは参照データベース160が備える記憶装置に記憶されており、磁気ディスク、光ディスク、半導体メモリ等の記録媒体に記録することも、ネットワークを通して提供することも可能である。もちろん、その他いかなる構成要素についても、単一のコンピュータやサーバによって実現しなければならないものではなく、ネットワークによって接続された複数のコンピュータに分散して実現しても構わない。
【0040】
なお、画像情報自体は必ずしも参照データベース160に格納されている必要はなく、たとえば適宜外部から入力部110を介して直接入力されるような構成をとっても構わない。このような構成は、例えば物体検索のために本発明を利用するような場合、参照画像については事前に必要な処理を実施した上でその画像情報が参照データベース160に格納されており、クエリ画像170については適宜問い合わせのタイミングで外部からクエリ画像の入力を受け付けて画像情報を得るような処理を行う用途に向く。具体例を挙げると、図1に記載の検証装置100の構成の一例においては、参照データベース160に予め一枚以上の参照画像に関する画像情報が格納されており、これらは上記説明した通り検証装置100と相互に読み出し/登録可能な形態で接続されている。この他、問い合わせとして入力されるクエリ画像170を外部から受け付けられるような構成を採っている。
【0041】
以降、本発明の実施形態の一例においては、2枚の画像の対応を検証する場合、特に物体検索における用途を見据えて、参照データベース160に登録されている参照画像のうちの1枚と、クエリ画像170として入力されたクエリ画像の1枚との対応を検証する場合を例に説明していく。複数組の参照画像とクエリ画像の対応を検証するような場合には、以降説明する処理を、検証したい組の数分だけ必要な処理を繰り返せばよい。なお、参照画像とクエリ画像とが、第一の画像と第二の画像との一例である。
【0042】
<<処理部>>
本実施の形態における検証装置100の各処理部について説明する。
【0043】
入力部110は、検証装置100に対して外部からの入力を受け付けるインタフェースであり、参照データベース160から参照画像あるいは特徴量ファイルを読み出したり、クエリ画像170のような画像を外部から受け付けて各処理部へと伝達する。
【0044】
特徴抽出部120は、入力部110を介して参照画像又はクエリ画像を受け取った下で、当該画像に対して畳み込みニューラルネットワークを適用し、部分領域ごとの特徴量ベクトルを抽出する。抽出した部分領域および特徴量ベクトルは、対応候補計算部130又は出力部150へと伝達される。
【0045】
対応候補計算部130は、入力部110又は特徴抽出部120から受け取った2枚の画像(例えば、参照画像とクエリ画像)の画像情報(少なくとも部分領域ごとの特徴量ベクトル)に基づき、一方の画像の部分領域のそれぞれと、他方の画像の部分領域のそれぞれとの各組み合わせについて、特徴量ベクトルのコサイン類似度を求め、このコサイン類似度に基づいて、当該2枚の画像間の対応候補を求める。
【0046】
検証部140は、2枚の画像について対応候補となった部分領域の幾何情報の組の各々について、その幾何的関係を求め、これに基づいてこの対応候補が適当であるか否かを判定し、適当である場合にはこれを対応とする判定結果を出力する。
【0047】
<<処理概要>>
次に、本実施の形態における検証装置100の処理について説明する。本発明の実施形態における処理は、大きくオフライン処理とオンライン処理に分かれている。前者は参照データベース160に格納されている各参照画像について、少なくとも一度実施されていればよい処理であり、後者は実際に検索を行う際に、クエリ画像が入力されたことをトリガとして実施する処理である。以降、順に説明する。
【0048】
オフライン処理は単純であり、参照データベース160に登録されている参照画像の各々に対して畳み込みニューラルネットワークを適用して部分領域ごとの特徴量ベクトルを抽出し、参照データベース160に格納する。
【0049】
オンライン処理は、オフライン処理に比べてステップ数が多いため、図2を用いて説明する。
【0050】
まず、ステップS201では、クエリ画像を受け付けると、クエリ画像に対して畳み込みニューラルネットワークを適用して部分領域ごとの特徴量ベクトルを抽出する。
【0051】
続いてステップS202では、クエリ画像の各部分領域の特徴量ベクトルと、参照データベース160に格納された参照画像の各部分領域の特徴量ベクトルとのコサイン類似度を求め、このコサイン類似度に基づいて、クエリ画像と参照画像との間の部分領域の組み合わせである対応候補を各々求める。
【0052】
続いてステップS203では、各対応候補に対し、当該対応候補となった参照画像側の部分領域の幾何情報と、クエリ画像側の部分領域の幾何情報との組み合わせについて、その幾何的関係を求め、各対応候補に対して求められた幾何的関係に基づいて、各対応候補が適当であるか否かを判定し、適当である場合には当該対応候補を対応として判定した判定結果を、認証結果180として出力部150により出力する。
【0053】
以上の処理により、入力されたクエリ画像と参照画像の部分領域間の対応を検証することができる。
【0054】
<<各処理の処理詳細>>
以降、各処理の詳細処理について、本実施の形態における一例を説明する。
【0055】
[特徴抽出処理]
まず、入力された画像に対して、部分領域と特徴量ベクトルを抽出する方法について説明する。
【0056】
本発明の実施の形態においては、画像に対して畳み込みニューラルネットワークを適用し、各部分領域の特徴量ベクトルを抽出する。畳み込みニューラルネットワークには様々な公知のバリエーションが提案されているが、少なくとも1つの畳み込み層(同一のサイズとスキップ幅を持つような畳み込みフィルタの集合により規定されるニューラルネットワークの層)を用いて構成されているものであればどのようなものを用いてもよく、例えば参考文献1や参考文献2などに記載のものを用いればよい。
【0057】
ここで、どのような畳み込みニューラルネットワークを用いる場合であっても、本発明の実施の形態においては畳み込み層の出力を終端出力として求める。例えば、参考文献1に記載のものを始め、多くの畳み込みニューラルネットワークは、複数の畳み込み層の後に、プーリング層や全結合層を含んでいるため、畳み込みニューラルネットワークの最終出力は全結合層の出力であることになる。しかしながら、このような空間方向への集約を行う方法では、最終的な表現のサイズ(ベクトルの次元)を小さく抑えることができる一方で、畳み込み層の出力が備える空間表現性能を損なうことになるという問題がある。そこで、本発明の実施の形態では、畳み込み層の出力に対する集約処理を廃し、そのまま利用する。より具体的には、畳み込みニューラルネットワークを構成するある畳み込み層の出力を求め、これを特徴量ベクトルとして利用する。好ましくは、畳み込みニューラルネットワークの最終出力層に近い畳み込み層の出力を利用する。
【0058】
図3に、形式的な畳み込み層の出力を図示する。畳み込み層の出力は、通常、高さ(h)・幅(w)・深さ(d)を持つ3階のテンソルとして表現される。すなわち、h×w×dの要素を持つ3次元配列である。見方を変えると、これは入力された画像に対して、高さh×幅wの部分領域を取り、各部分領域にd次元のベクトルを出力していると言い換えることができる。本発明の実施の形態ではまさにこれを部分領域ごとの特徴量ベクトルとして求めるのである。
【0059】
なお、厳密には、畳み込み層の各出力要素の位置(図3のグリッドに区切られたマスの一つ一つ)が、元の入力画像のどの部分領域に対応しているかについては、畳み込みニューラルネットワークの畳み込み層の構成に依存して決定される。本発明の実施の形態においては近似的に、元の入力画像をh×wに分割した上で、各部分領域に対応する位置にある出力要素を取っても構わない。
【0060】
好ましくは、d次元の各特徴量ベクトルについてL2正規化を施しておく。こうすることによって、後のコサイン類似度が内積演算と等価になるため、好適である。
【0061】
以上のように、入力された画像に対して部分領域ごとの特徴量ベクトルを求めることができる。
【0062】
[対応候補計算処理]
次に、異なる2枚の画像間に規定された部分領域同士の対応候補を求める処理について説明する。本発明の実施の形態の一例においては、クエリ画像とそれぞれの参照画像との間で、対応する部分領域を決定するために用いる処理である。
【0063】
クエリ画像から抽出されたある部分領域(すなわち、先の畳み込み層の出力要素)をQi、参照画像から抽出されたある部分領域をRjと表すことにする。以下では、部分領域QiとRjを例にとり、これらが対応候補であるか否かを判断する処理を説明する。
【0064】
各部分領域には、畳み込みニューラルネットワークにより抽出された、その部分領域を表現する特徴量ベクトルが関連づけられている。部分領域Qiを記述する特徴量ベクトルをq、Rjを記述する特徴量ベクトルをrと表すとする。このとき、部分領域同士のコサイン類似度をsim(Qi, Rj)を次式により求める。
【0065】
【数1】


・・・(1)
【0066】
ここで、||q||はqのL2ノルムを表す。もし仮に、特徴抽出処理において、各特徴量ベクトルがL2正規化されているとすると、||q||=||r||=1であるため、上記式(1)は次式と等価である。
【0067】
【数2】

【0068】
通常、SIFT特徴等による検証では、ユークリッド距離比を用いて対応候補を得ることが多かった(例えば非特許文献1)。しかし、畳み込み層の出力はSIFT特徴などに比べて非常に疎な高次元ベクトルとなることが多く、対応候補を得る上ではそのベクトルのノルムを含めて評価することが有益でないような場合が多い。そこで、本発明の実施の形態ではより正確な類似度を求めるべく、コサイン類似度を用いることとし、さらに次の2つの条件双方を満たす部分領域の組み合わせがあった場合に、それらを対応候補とする。
【0069】
<<<条件1:高類似度>>>
コサイン類似度sim(Qi, Rj)は、-1から1までの値を取り、値が大きいほど特徴量ベクトル間が近いことを表す。本発明の実施の形態においては、特徴量ベクトルの近い部分領域の組み合わせを発見することを目的としているため、この値が高いものだけを考慮すればよい。この観点から、コサイン類似度sim(Qi, Rj)が一定の閾値以上の値を持つことを条件とする。この閾値は、例えば0.5などとするのが好適である。
【0070】
<<<条件2:双方向性>>>
参照画像の部分領域Rjに着目したとき、これに最も近い(最も類似度の高い)クエリ画像の部分領域がQiであったとする。このとき、反対に、クエリ画像の部分領域Qiに着目したとき、これに最も近い参照画像の部分領域もやはりRjであることを条件とする。
【0071】
以上の計算を、クエリと参照画像のそれぞれとの間で、全ての部分領域の組み合わせに対して実施することで、対応候補となる部分領域を求めることが可能である。
【0072】
なお、畳み込みニューラルネットワークにより特徴抽出した場合、部分領域は通常画像内均等一様に抽出される。この結果、後の対応候補計算処理の際、画像中の特に物体の存在しないような特徴的でない領域同士、例えば空などが対応してしまい、認識精度に悪影響を及ぼす場合がある。このような望ましくない対応を防ぐため、「タブー部分領域」を構成してもよい。
【0073】
このタブー部分領域は、予め対応候補となるべきではない領域から抽出された特徴量ベクトルによって構成する。例えば、空に現れやすい特徴量ベクトルを、対応候補とならないように除外したいとする。このとき、予め空に対応する部分領域から抽出された部分領域の特徴量ベクトルをタブー部分領域として記憶する。もし抽出されるタブー部分領域が非常に多数になる場合には、必要に応じてクラスタリング法(k-means等)を用いて代表特徴量ベクトルを選択し、選択された代表特徴量ベクトルのみをタブー部分領域として記憶してもよい。
【0074】
その後、参照画像やクエリ画像から部分領域および特徴量ベクトルを抽出した際に、抽出した部分領域とタブー部分領域との組み合わせについての特徴量ベクトルのコサイン類似度を求め、このコサイン類似度が先の条件1、条件2を満たした場合には、その部分領域を含む対応候補を除去する。
【0075】
すなわち、参照画像やクエリ画像の部分領域Cとタブー部分領域Dとの組み合わせについてコサイン類似度が所定の閾値よりも高い値となり、かつ、部分領域Cに対して最大のコサイン類似度となるタブー部分領域が、タブー部分領域Dと一致し、かつ、タブー部分領域Dに対して最大のコサイン類似度となる参照画像やクエリ画像の部分領域が部分領域Cと一致する場合に、部分領域Cを含む対応候補を除去する。
【0076】
タブー部分領域を選ぶ際には、先の空のように、カテゴリとして表現できるものであればなお好適である。この理由は、例えば参考文献4などの公知のセマンティックセグメンテーションなどと呼ばれる画像認識法により、あるカテゴリにあてはまる領域を自動検知することができるため、人手でタブー部分領域を選ぶ労力を削減できるからである。
【0077】
[参考文献4]Jonathan Long, Evan Shelhamer, Trevor Darrell: Fully Convolutional Networks for Semantic Segmentation. In Proc. Conference on Computer Vision Pattern Recognition, pp. 3431-3440, 2015.
【0078】
[検証処理]
続いて、部分領域の幾何情報に基づいて、求めた部分領域の対応候補の対応の適否を判定する。すなわち、対応候補計算部130で求めた対応候補のうち、有効な対応ではない(つまり、物体から抽出された部分領域同士の対応ではない)と考えられる部分領域の組み合わせである対応候補を削除する。
【0079】
仮に、クエリ画像と参照画像が同一の物体を含んでいるとする。物体がおよそ同一の形状を持つならば、クエリ画像中の物体と参照画像中の物体は異なる視点から撮影されているにすぎず、現実的な仮定の下、この視点変動は部分領域の見え方に一貫性を与える。言い換えれば、仮に対応候補となっている部分領域同士が、正しく同一物体上に存在する部分領域の組み合わせである場合には、クエリ画像側の部分領域の幾何情報と、対応候補となっている参照画像側の部分領域の幾何情報との幾何的関係(ずれ方)には、他の適当な対応候補と一貫性があることになる。したがって、このずれ方に一貫性がある対応候補のみを有効な対応であると見做し、そうでない対応候補を棄却すればよい。
【0080】
図4を用いてわかりやすく説明する。図4に、同一の物体を含む2枚の画像Aおよび画像Bを示す。それぞれ、破線で囲った2種類の模様41A、41B、42A、42Bが部分領域として規定されており、また互いに同一の番号により表される部分領域の組み合わせ(例えば41Aと41B)が、対応候補として判定されているとする。目的は、同一の物体上に存在する部分領域の組み合わせ(この場合は41Aと41Bおよび42Aと42B)だけを有効な対応と判定することである。
【0081】
図4を見ればわかるように、同一の物体上にある41Aと41Bおよび42Aと42Bは、視点のみに依存して同じようにその位置が変化しているため、相対的な位置関係はおよそ同様であることがわかる。したがって、対応候補である部分領域の組み合わせの相対的な位置関係が、他の適当な対応である部分領域の組み合わせの相対的な位置関係と一貫性があるかを判定することで、対応候補の適否を判定することが可能である。
【0082】
そこで、本発明の実施の形態では、幾何的関係性の検証法を用いて実現する。例えば、同一物体上の部分領域の幾何的関係は、適当な条件の下で線形変換に拘束されることが知られている。このような線形変換と、これに従う幾何的関係を持つ対応候補を求める手法として参考文献5に記載のRANSACアルゴリズムや参考文献6に記載のLO-RANSACアルゴリズムなど、公知の有効な方法が存在するため、これらを用いても構わない。
【0083】
[参考文献5] M. A. Fischler and R. C. Bolles, “Random sample consensus: a paradigm for model fitting with applications to image analysis and automated cartography,” Comm. ACM, vol. 24, no. 6, pp. 381-395, 1981.
【0084】
[参考文献6] O. Chum, J. Matas, and S. Obdrzalek, “Enhancing RANSAC by generalized model optimization,” Proceedings of Asian Conference on Computer Vision, pp. 812-817, 2004.
【0085】
以上の手続きにより、クエリ画像と参照画像との間で、対応候補の各々について対応候補の適否を判定し、対応候補が適当である場合には対応候補を対応として出力することができ、同一の物体を含むか否かを判定することができる。
【0086】
以上説明したように、本発明の実施の形態に係る検証装置によれば、クエリ画像と参照画像の各々について、畳み込みニューラルネットワークを適用し、部分領域ごとに畳み込み層の出力を求め、クエリ画像の部分領域のそれぞれと、参照画像の部分領域のそれぞれとの各組み合わせについて、畳み込み層の出力のコサイン類似度を求め、コサイン類似度が所定の閾値よりも高い値となり、かつ、部分領域Aに対して最大のコサイン類似度となる参照画像の部分領域が部分領域Bと一致し、かつ、部分領域Bに対して最大のコサイン類似度となるクエリ画像の部分領域が部分領域Aと一致する場合に、クエリ画像の部分領域Aと参照画像の部分領域Bとの組み合わせを対応候補として各々選定し、対応候補の各々についての部分領域の画像中の位置座標に基づいて、対応候補の適否を判定し、対応候補が適当である場合には対応候補を対応として出力することにより、より多様な物体に対する高精度な検証を可能にする。
【0087】
また、通常の特徴量ベクトルに比して高い表現能力を持つ畳み込みニューラルネットワークを用い、畳み込み層の出力の幾何的整合性を検証することにより、より多様な物体に対する高精度な検証を可能にする。
【0088】
以上、本発明の実施形態の一例における検証装置の構成の一例について詳細に説明した。なお、本発明は、上述した実施の形態に限定されるものではなく、この発明の要旨を逸脱しない範囲内で様々な変形や応用が可能である。
【符号の説明】
【0089】
100 検証装置
110 入力部
120 特徴抽出部
130 対応候補計算部
140 検証部
150 出力部
160 参照データベース
170 クエリ画像
図1
図2
図3
図4