(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2023170845
(43)【公開日】2023-12-01
(54)【発明の名称】目標の点群を利用した検索前処理プログラム、装置及び方法、並びに画像検索プログラム
(51)【国際特許分類】
G06T 7/00 20170101AFI20231124BHJP
G06F 16/55 20190101ALI20231124BHJP
【FI】
G06T7/00 Z
G06F16/55
【審査請求】未請求
【請求項の数】9
【出願形態】OL
(21)【出願番号】P 2022082909
(22)【出願日】2022-05-20
(71)【出願人】
【識別番号】000208891
【氏名又は名称】KDDI株式会社
(74)【代理人】
【識別番号】100135068
【弁理士】
【氏名又は名称】早原 茂樹
(74)【代理人】
【識別番号】100141313
【弁理士】
【氏名又は名称】辰巳 富彦
(72)【発明者】
【氏名】スワンウィモンクン スウィーチャヤ
(72)【発明者】
【氏名】小森田 賢史
【テーマコード(参考)】
5B175
5L096
【Fターム(参考)】
5B175DA02
5B175FA03
5B175GB05
5B175HB03
5L096AA06
5L096FA09
5L096FA32
5L096FA52
5L096FA66
5L096FA67
5L096FA69
5L096GA51
5L096HA11
5L096JA03
5L096MA07
(57)【要約】 (修正有)
【課題】複数の目標の1つを含む目的画像に近い画像をその中から検索する画像群に対し、画像の単なる見た目だけに依存しない、検索のための前処理を実施可能な検索前処理プログラムを提供する。
【解決手段】画像検索装置において、プログラムは、画像群に含まれる画像の特徴点に基づき生成された、画像群に含まれる目標に係る点群を、点間の近さに基づいて、各々が目標の1つに係るものとみなされる複数の点群グループに分類する点群分類部と、各点群グループについて、当該点群グループに対応する画像の集合である画像グループ候補を決定する分類前処理部と、画像群に含まれる各画像を、画像の特徴量と画像グループ候補に係る特徴量の代表値とに基づき、夫々目標の1つに係るものとみなされる複数の画像グループに再分類する画像分類部として、コンピュータを機能させる。点群は、各画像の特徴点及びカメラ情報に基づき生成されたものであることも好ましい。
【選択図】
図1
【特許請求の範囲】
【請求項1】
複数の目標の1つを含む目的画像に近い画像をその中から検索する画像群に対し、当該検索のための前処理を実施する検索前処理プログラムであって、
当該画像群に含まれる各画像の特徴点に基づき生成された、当該画像群に含まれる当該目標に係る点群を、当該点群の点間の近さに基づいて、各々が当該目標の1つに係るものとみなされる複数の点群グループに分類する点群分類手段と、
当該点群グループの各々について、当該点群グループに対応する当該画像の集合である画像グループ候補を決定する分類前処理手段と、
当該画像群に含まれる各画像を、当該画像の特徴量と当該画像グループ候補に係る特徴量の代表値とに基づき、それぞれ当該目標の1つに係るものとみなされる複数の画像グループに再分類する画像分類手段と
してコンピュータを機能させることを特徴とする検索前処理プログラム。
【請求項2】
当該画像群に含まれる当該目標に係る点群は、当該各画像の特徴点と、当該特徴点から決定された各画像に係るカメラ情報とに基づき生成されたものであることを特徴とする請求項1に記載の検索前処理プログラム。
【請求項3】
前記分類前処理手段は、決定した当該画像グループ候補の各々において、当該目標に係る点群の基となった当該特徴点の数に基づき当該目標に対応する中心画像を決定して、それ以外の画像を周辺画像とし、画像のスケール(scale)及び/又はオリエンテーション(orientation)について当該中心画像とは所定以上異なっている当該周辺画像を抽出して当該画像グループ候補から外し、抽出された周辺画像を含む新たな画像グループ候補を決定することを特徴とする請求項1に記載の検索前処理プログラム。
【請求項4】
前記分類前処理手段は、自身のスケールと当該中心画像のスケールとの比が所定範囲外であるとの条件、及び自身のオリエンテーションと当該中心画像のオリエンテーションとの差が所定以上であるとの条件のうちの少なくとも一方を満たす当該周辺画像を抽出して新たな画像グループ候補を決定することを特徴とする請求項3に記載の検索前処理プログラム。
【請求項5】
複数の目標の1つを含む目的画像に近い画像を画像群から検索する画像検索プログラムであって、
当該画像群に含まれる各画像の特徴点に基づき生成された、当該画像群に含まれる当該目標に係る点群を、当該点群の点間の近さに基づいて、各々が当該目標の1つに係るものとみなされる複数の点群グループに分類する点群分類手段と、
当該点群グループの各々について、当該点群グループに対応する当該画像の集合である画像グループ候補を決定する分類前処理手段と、
当該画像群に含まれる各画像を、当該画像の特徴量と当該画像グループ候補に係る特徴量の代表値とに基づき、それぞれ当該目標の1つに係るものとみなされる複数の画像グループに再分類する画像分類手段と、
当該複数の画像グループの中から、当該画像グループに属する各画像の特徴量と、当該目的画像の特徴量とに基づき、当該目的画像に近い当該画像グループを検索する画像グループ検索手段と
してコンピュータを機能させることを特徴とする画像検索プログラム。
【請求項6】
前記画像グループ検索手段は、当該画像グループの特徴量全体を表現する特徴量行列に係数ベクトルが掛けられた量と、当該目的画像の特徴量との差を小さくするような当該係数ベクトルを決定し、決定した当該係数ベクトルと、当該画像グループに属する各画像の特徴量と、当該目的画像の特徴量とに基づき、当該目的画像に近い当該画像グループを検索することを特徴とする請求項5に記載の画像検索プログラム。
【請求項7】
検索された画像グループに含まれる各画像の特徴量と、当該目的画像の特徴量とに基づき、当該画像グループに含まれる当該画像の中から当該目的画像に最も近い画像を決定する、又は当該画像グループに含まれる当該画像に対し当該目的画像に近い順のランキング情報を付与する画像順位付け手段としてコンピュータを更に機能させることを特徴とする請求項5又は6に記載の画像検索プログラム。
【請求項8】
複数の目標の1つを含む目的画像に近い画像をその中から検索する画像群に対し、当該検索のための前処理を実施する検索前処理装置であって、
当該画像群に含まれる各画像の特徴点に基づき生成された、当該画像群に含まれる当該目標に係る点群を、当該点群の点間の近さに基づいて、各々が当該目標の1つに係るものとみなされる複数の点群グループに分類する点群分類手段と、
当該点群グループの各々について、当該点群グループに対応する当該画像の集合である画像グループ候補を決定する分類前処理手段と、
当該画像群に含まれる各画像を、当該画像の特徴量と当該画像グループ候補に係る特徴量の代表値とに基づき、それぞれ当該目標の1つに係るものとみなされる複数の画像グループに再分類する画像分類手段と
を有することを特徴とする検索前処理装置。
【請求項9】
複数の目標の1つを含む目的画像に近い画像をその中から検索する画像群に対し、当該検索のための前処理を実施する検索前処理方法であって、
当該画像群に含まれる各画像の特徴点に基づき生成された、当該画像群に含まれる当該目標に係る点群を、当該点群の点間の近さに基づいて、各々が当該目標の1つに係るものとみなされる複数の点群グループに分類するステップと、
当該点群グループの各々について、当該点群グループに対応する当該画像の集合である画像グループ候補を決定するステップと、
当該画像群に含まれる各画像を、当該画像の特徴量と当該画像グループ候補に係る特徴量の代表値とに基づき、それぞれ当該目標の1つに係るものとみなされる複数の画像グループに再分類するステップと
を有することを特徴とする、コンピュータによって実施される検索前処理方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、画像データベースから画像を検索する画像検索技術に関する。
【背景技術】
【0002】
近年、画像データベースから、検索目的であるクエリ(query)画像に近い画像を検索する画像検索技術の需要が高まっている。この技術の初期においては、人手を介して生成したテクスチャや色に係る画像特徴量を用いて、画像の類似度を決定する手法がとられていた。しかしながら、このような手法は、大量の画像を必要とし、また演算コストも膨大となり、さらに汎化能力に欠ける嫌いがあった。
【0003】
このような問題に対処する技術として、例えば特許文献1には、演算コストの増大に対処すべく、テストシグニチャ(test signature)を用いて画像データベースの各グループにおける特徴量を生成する技術が開示されている。また、例えば特許文献2には、汎化能力の向上を図るべく、統計的に際立った特徴(statistically salient features)を抽出する技術が開示されている。
【0004】
さらに、例えば非特許文献1では、深層学習ベースの画像特徴量が提案されている。この特徴量は、画像の局所的な特徴を反映させたローカル特徴量(local feature)ではなく、画像全体の情報を反映させたグルーバル特徴量(global feature)となっている。
【0005】
このようなグローバル特徴量を採用することによって、特徴量の汎化能力と演算時間との調整を図ることができる。また、例えば非特許文献2及び4に開示されているように、画像検索結果に対しリランキング(re-ranking)を実施することも可能となる。さらに、例えば非特許文献5及び6に開示されているように、協調表現(collaborative representation)を用いて画像検索結果をリランキングすることによって、画像検索のロバスト性を向上させることも可能となっている。
【0006】
一方、これらの手法とは異なり、元の画像データベースに対しクラスタリング法を適用して前処理(クリーニング)を行い、より適切な画像検索の準備を行う技術も提案されている。例えば非特許文献3には、画像検索に用いる深層学習モデルの学習データを取得するべく、クラスタリング法を用いて画像データベース内の画像へのラベリングを実施している。
【先行技術文献】
【特許文献】
【0007】
【特許文献1】米国特許第5819288号明細書
【特許文献2】米国特許出願公開第2002/0178149号明細書
【非特許文献】
【0008】
【非特許文献1】Jerome Revaud, Jon Almazan, Rafael S. Rezende, and Cesar de Souza, “Learning with Average Precision: Training Image Retrieval with a Listwise Loss”, Proceedings of 2019 IEEE/CVF International Conference on Computer Vision (ICCV), pp 5106-5115, 2019年
【非特許文献2】Bingyi Cao, Andre Araujo, and Jack Sim, “Unifying Deep Local and Global Features for Image Search”, Proceedings of European Conference on Computer Vision (ECCV), pp 726-743, 2020年
【非特許文献3】Ke Mei, Lei li, Jinchang Xu, Yanhua Cheng, and Yugeng Lin, “3rd Place Solution to “Google Landmark Retrieval 2020””, Instance-Level Recognition workshop in European Conference on Computer Vision (ECCV) 2020, <https://doi.org/10.48550/arXiv.2008.10480>, 2020年
【非特許文献4】Noura Bouhlel, Ghada Feki, Anis Ben Ammar, and Chokri Ben Amar, “Hypergraph learning with collaborative representation for image search reranking”, International Journal of Multimedia Information Retrieval vol. 9, pp 205-214, 2020年
【非特許文献5】Lei Zhang, Meng Yang and Xiangchu Feng, “Sparse representation or collaborative representation: Which helps face recognition?”, International Conference on Computer Vision (ICCV), <https://doi.org/10.1109/ICCV.2011.6126277>, 2011年
【非特許文献6】Sijia Cai, Lei Zhang; Wangmeng Zuo and Xiangchu Feng, “A Probabilistic Collaborative Representation Based Approach for Pattern Classification”, 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), <https://doi.org/10.1109/CVPR.2016.322>, 2016年
【発明の概要】
【発明が解決しようとする課題】
【0009】
一般に画像データベースには、ある目標を異なる位置から写し取っており、それ故見た目が似ている画像や、ある目標を同じ位置から写し取ってはいるが、見た目の異なる画像、例えば互いに反対称(左右反転)の関係にある画像も大量に保存されている。このような画像は特に、1つの市街地といったような近距離エリア内でのカメラ画像に多く見られるものとなっており、画像検索処理を行う上で大きな問題となるのである。
【0010】
このような画像検索上問題となる画像を多く含む画像データベースからの画像検索結果に対し、上述した例えば非特許文献2及び4に開示された技術では、リランキング処理を実施している。しかしながら、これらの技術は、クエリ画像と画像データベース内の画像との全てのペアに対しリランキング処理を実施するので、この処理を実施するための演算時間が膨大になってしまう。
【0011】
これに対し、例えば非特許文献3に開示された技術は上述したように、画像検索上問題となる画像を含む画像データベースの画像に対し、前処理としてクラスタリング処理を行っている。またこれにより、画像検索に用いる深層学習モデルの学習データを準備しているのである。
【0012】
しかしながら、従来のこのような画像データベースに対する前処理技術は、画像の見た目の視覚的情報のみに依存してクラスタリングを実施するものがほとんどである。その結果、画像検索に有効となるクラスタリング結果を確実に取得することが困難な場合も依然、生じてしまうのである。さらに、生成した各クラスタに対し、ラベリング処理を施すことも必要となっている。
【0013】
そこで、本発明は、クエリ画像(目的画像)に近い画像をその中から検索する画像群に対し、画像の単なる見た目だけに依存しない、当該検索のための前処理を実施可能な検索前処理プログラム、装置及び方法を提供することを目的とする。また、このような前処理を実施してより好適な画像検索を行うことができる画像検索プログラムを提供することを目的とする。
【課題を解決するための手段】
【0014】
本発明によれば、複数の目標の1つを含む目的画像に近い画像をその中から検索する画像群に対し、当該検索のための前処理を実施する検索前処理プログラムであって、
当該画像群に含まれる各画像の特徴点に基づき生成された、当該画像群に含まれる当該目標に係る点群を、当該点群の点間の近さに基づいて、各々が当該目標の1つに係るものとみなされる複数の点群グループに分類する点群分類手段と、
当該点群グループの各々について、当該点群グループに対応する当該画像の集合である画像グループ候補を決定する分類前処理手段と、
当該画像群に含まれる各画像を、当該画像の特徴量と当該画像グループ候補に係る特徴量の代表値とに基づき、それぞれ当該目標の1つに係るものとみなされる複数の画像グループに再分類する画像分類手段と
してコンピュータを機能させる検索前処理プログラムが提供される。
【0015】
この本発明による検索前処理プログラムの一実施形態として、当該画像群に含まれる当該目標に係る点群は、当該各画像の特徴点と、当該特徴点から決定された各画像に係るカメラ情報とに基づき生成されたものであることも好ましい。
【0016】
また、本発明による検索前処理プログラムの他の実施形態として、分類前処理手段は、決定した当該画像グループ候補の各々において、当該目標に係る点群の基となった当該特徴点の数に基づき当該目標に対応する中心画像を決定して、それ以外の画像を周辺画像とし、画像のスケール(scale)及び/又はオリエンテーション(orientation)について当該中心画像とは所定以上異なっている当該周辺画像を抽出して当該画像グループ候補から外し、抽出された周辺画像を含む新たな画像グループ候補を決定することも好ましい。
【0017】
さらに、画像グループ候補を決定する上記の実施形態において、分類前処理手段は、自身のスケールと当該中心画像のスケールとの比が所定範囲外であるとの条件、及び自身のオリエンテーションと当該中心画像のオリエンテーションとの差が所定以上であるとの条件のうちの少なくとも一方を満たす当該周辺画像を抽出して新たな画像グループ候補を決定することも好ましい。
【0018】
本発明によれば、また、複数の目標の1つを含む目的画像に近い画像を画像群から検索する画像検索プログラムであって、
当該画像群に含まれる各画像の特徴点に基づき生成された、当該画像群に含まれる当該目標に係る点群を、当該点群の点間の近さに基づいて、各々が当該目標の1つに係るものとみなされる複数の点群グループに分類する点群分類手段と、
当該点群グループの各々について、当該点群グループに対応する当該画像の集合である画像グループ候補を決定する分類前処理手段と、
当該画像群に含まれる各画像を、当該画像の特徴量と当該画像グループ候補に係る特徴量の代表値とに基づき、それぞれ当該目標の1つに係るものとみなされる複数の画像グループに再分類する画像分類手段と、
当該複数の画像グループの中から、当該画像グループに属する各画像の特徴量と、当該目的画像の特徴量とに基づき、当該目的画像に近い当該画像グループを検索する画像グループ検索手段と
してコンピュータを機能させる画像検索プログラムが提供される。
【0019】
この本発明による画像検索プログラムの一実施形態として、画像グループ検索手段は、当該画像グループの特徴量全体を表現する特徴量行列に係数ベクトルが掛けられた量と、当該目的画像の特徴量との差を小さくするような当該係数ベクトルを決定し、決定した当該係数ベクトルと、当該画像グループに属する各画像の特徴量と、当該目的画像の特徴量とに基づき、当該目的画像に近い当該画像グループを検索することも好ましい。
【0020】
また、本発明による画像検索プログラムの他の実施形態として、本画像検索プログラムは、検索された画像グループに含まれる各画像の特徴量と、当該目的画像の特徴量とに基づき、当該画像グループに含まれる当該画像の中から当該目的画像に最も近い画像を決定する、又は当該画像グループに含まれる当該画像に対し当該目的画像に近い順のランキング情報を付与する画像順位付け手段としてコンピュータを更に機能させることも好ましい。
【0021】
本発明によれば、さらに、複数の目標の1つを含む目的画像に近い画像をその中から検索する画像群に対し、当該検索のための前処理を実施する検索前処理装置であって、
当該画像群に含まれる各画像の特徴点に基づき生成された、当該画像群に含まれる当該目標に係る点群を、当該点群の点間の近さに基づいて、各々が当該目標の1つに係るものとみなされる複数の点群グループに分類する点群分類手段と、
当該点群グループの各々について、当該点群グループに対応する当該画像の集合である画像グループ候補を決定する分類前処理手段と、
当該画像群に含まれる各画像を、当該画像の特徴量と当該画像グループ候補に係る特徴量の代表値とに基づき、それぞれ当該目標の1つに係るものとみなされる複数の画像グループに再分類する画像分類手段と
を有する検索前処理装置が提供される。
【0022】
本発明によれば、またさらに、複数の目標の1つを含む目的画像に近い画像をその中から検索する画像群に対し、当該検索のための前処理を実施する検索前処理方法であって、
当該画像群に含まれる各画像の特徴点に基づき生成された、当該画像群に含まれる当該目標に係る点群を、当該点群の点間の近さに基づいて、各々が当該目標の1つに係るものとみなされる複数の点群グループに分類するステップと、
当該点群グループの各々について、当該点群グループに対応する当該画像の集合である画像グループ候補を決定するステップと、
当該画像群に含まれる各画像を、当該画像の特徴量と当該画像グループ候補に係る特徴量の代表値とに基づき、それぞれ当該目標の1つに係るものとみなされる複数の画像グループに再分類するステップと
を有することを特徴とする、コンピュータによって実施される検索前処理方法が提供される。
【発明の効果】
【0023】
本発明の検索前処理プログラム、装置及び方法によれば、クエリ画像(目的画像)に近い画像をその中から検索する画像群に対し、画像の単なる見た目だけに依存しない、当該検索のための前処理を実施することができる。また、本発明の画像検索プログラムによれば、このような前処理を実施してより好適な画像検索を行うことが可能となる。
【図面の簡単な説明】
【0024】
【
図1】本発明による検索前処理装置の一実施形態における機能構成を示す機能ブロック図である。
【
図2】本発明に係る画像データベースに保存・管理されている画像の具体例を示す模式図である。
【
図3】本発明に係る分類前処理部が目標(ランドマーク)に関係する画像を選択する具体例を示す模式図である。
【
図4】本発明に係る画像分類部による画像分類処理結果の具体例を示す模式図である。
【
図5】本発明に係る画像グループ検索部における画像グループ検索処理の具体例を説明するための模式図である。
【
図6】本発明に係る画像順位付け部における画像順位付け処理の具体例を説明するための模式図である。
【発明を実施するための形態】
【0025】
以下、本発明の実施形態について、図面を用いて詳細に説明する。
【0026】
[検索前処理装置,画像検索装置]
図1は、本発明による検索前処理装置の一実施形態における機能構成を示す機能ブロック図である。
【0027】
図1に示した本実施形態の画像検索装置1は、
(a)画像データベース(DB)2に保存・管理されている画像群から、複数の「目標」の1つを含む目的画像、本実施形態では例えばランドマーク(地理的目標)を含むクエリ画像に近い(類似する)画像を検索する画像検索処理
を実施する装置である。また、本発明による検索前処理装置の一実施形態として、
(b)上記の画像群に対し、当該検索をより適切に実施するための前処理(検索前処理)
を実施可能な装置にもなっている。なお
図1では、画像データベース2は画像検索装置1の外部に設置されているが、勿論、画像検索装置1の構成要素として装置1内に設けられていてもよい。
【0028】
ここで、上記(b)の検索前処理は後に詳しく説明するように、上記の画像群に対し予め、例えばオフラインで施しておくことができる。これにより、上記(a)のより適切な画像検索処理を、クエリ画像を得て適宜、例えばオンラインで実施することが可能となるのである。
【0029】
以上述べたような検索前処理を実現するべく、画像検索装置1は具体的に、
(A)上記の画像群に含まれる各画像の特徴点に基づき生成された、この画像群に含まれる「目標」(例えばランドマーク)に係る点群を、点群の点間の近さ(例えば3次元空間での距離)に基づいて、各々が「目標」の1つに係るものとみなされる複数の「点群グループ」に分類する点群分類部111と、
(B)「点群グループ」の各々について、当該点群グループに対応する画像の集合である「画像グループ候補」を決定する分類前処理部112と、
(C)上記の画像群に含まれる各画像を、当該画像の特徴量と「画像グループ候補」に係る特徴量の代表値とに基づき、それぞれ「目標」の1つに係るものとみなされる複数の「画像グループ」に再分類する画像分類部113と
を有している。
【0030】
以下これらの機能構成部の技術的意義を説明するべく、最初に、
図2を用いて画像データベース2に保存・管理されている画像の具体例を説明する。一般に画像データベース2には、例えば
図2(A)に示した2つの画像のように、互いに同じ「目標」を含むにもかかわらず、視点位置の違いから近い(類似する)画像として検索されない可能性のある画像が含まれ得る。また
図2(B)に示した2つの画像のように、互いに同じ「目標」を含むにもかかわらず、一方では「目標」の概ね全体が含まれているのに対し、他方ではその一部(
図2(B)ではその上部)が画像外となっていて、それ故近い(類似する)画像として検索されない可能性のある画像も含まれ得る。さらに、
図2(C)に示した2つの画像のように、互いに同じ「目標」を含んではいるが、画角内において互いに異なるものも相当に含んでおり、その結果、近い(類似する)画像として検索されない可能性のある画像も含まれ得るのである。
【0031】
さらに言えば、画像データベース2には、互いに反対称(左右反転)の関係にある画像も含まれ得る。従来このような画像は、例え同じ「目標」を含むものであっても、近い(類似する)画像として検索されない可能性が少なくなかった。また、互いに異なる「目標」を含むにもかかわらず、たまたま見た目が似ていることから、近い(類似する)画像として検索されてしまうような画像が含まれている可能性も十分に考えられる。さらに、互いに同じ「目標」を含むにもかかわらず、照度の違い(例えば昼夜の違い)から近い(類似する)画像として検索されないような画像が含まれている可能性も少なくないのである。
【0032】
このような画像検索上問題となるような画像を含んでいる可能性のある画像群に対し、画像検索装置1(
図1)は上記(A)に示したように、「目標」に係る点群を得た上で、当該点群から、各々が「目標」の1つに係るものとみなされる複数の「点群グループ」を生成する。ここで1つの「点群グループ」は、例えばランドマークとしての建造物Aを含む複数のカメラ画像から生成された点群(の点)を含むのであり、単なる見た目ではなく、例えばその3次元形状(点間の3次元空間での距離)における特徴を考慮した上で分類されたものとなっている。
【0033】
したがって、この1つの「点群グループ」はこの場合、まさに「建造物Aに係るグループである」と高い確度でみなすことができる。その結果、上記(C)で生成された、この点群グループに対応する「画像グループ」はまさしく、建造物Aを含む画像の集合として把握可能となるのである。以上、画像検索装置(検索前処理装置)1によれば、上記の画像群に対し、画像の単なる見た目だけに依存しない、目標毎の画像分類といった検索前処理を実施することができる。
【0034】
以下、本実施形態の画像検索装置(検索前処理装置)1における機能構成について、より詳細に説明を行う。
【0035】
[装置機能構成,検索前処理プログラム・方法,画像検索プログラム・方法]
図1の機能ブロック図によれば、本発明の一実施形態としての画像検索装置(検索前処理装置)1は、入出力インタフェース(IF)部101と、プロセッサ・メモリ(メモリ機能を備えた演算処理系)とを有する。このプロセッサ・メモリは、本発明による検索前処理プログラムを含む画像検索プログラムの一実施形態を保存しており、またコンピュータ機能を有していて、この画像検索プログラムを実行することによって、画像検索処理(検索前処理)を実施する。
【0036】
このことから、画像検索装置(検索前処理装置)1は、画像検索処理(検索前処理)専用の装置であってもよいが、本発明による画像検索プログラム(検索前処理プログラム)を搭載した、クラウドサーバ、非クラウドサーバ、パーソナル・コンピュータ(PC)、ノート型若しくはタブレット型コンピュータや、スマートフォン等の携帯端末、さらにはHMD(Head Mounted Display)等のウェアラブル端末とすることもできる。
【0037】
さらに、本プロセッサ・メモリは、
(ア)点群分類部111と、画像グループ候補決定部112a、中心・周辺画像決定部112b、スケール・オリエンテーション判定部112c及び新画像グループ候補決定部112dを含む分類前処理部112と、画像分類部113と、
(イ)画像グループ検索部121と、画像順位付け部122と
して機能する。すなわち、これらの機能構成部は、プロセッサ・メモリに保存された画像検索プログラム(検索前処理プログラム)の実行によって具現する機能と捉えることができる。また、
図1における画像検索装置(検索前処理装置)1の機能構成部間を矢印で接続して示した処理の流れは、本発明による画像検索方法(検索前処理方法)の一実施形態としても理解される。
【0038】
ちなみに、上記(ア)の機能構成部を具現させる検索前処理プログラムを搭載した装置は、上記(イ)の機能構成を含まなくとも、本発明による検索前処理装置とみなすことができる。この場合、この検索前処理装置は、上記(イ)の機能構成部を具現させるプログラムを搭載した装置と合わせて、画像検索システムを構成することになる。
【0039】
(点群生成・分類処理)
同じく
図1の機能ブロック図において、点群分類部111は本実施形態において、
(a)画像データベース2から入出力インタフェース部101を介して取り出した画像群に含まれる各画像の特徴点に基づき、この画像群に含まれる目標、本実施形態では複数のランドマーク(地理的目標)に係る3次元の点群(point cloud)データを生成し、
(b)生成した点群データ(の各点データ)を、各々がランドマークの1つに係るものとみなされる複数の点群グループ(点データのグループ)に分類する。
【0040】
最初に上記(a)について、点群分類部111は具体的に、取り出した画像群に含まれる各画像における特徴点を公知の手法により算出し、算出された各画像の特徴点から、SfM(Structure from Motion)を用いて、元の画像群に含まれるランドマークに係る点群を生成する。ここでSfMは、例えばドローンによる複数の空撮カメラ画像から3次元点群データを得るのに広く利用されている技術であり、例えば非特許文献:Johannes L. Schonberger, Jan-Michael Frahm, “Structure-from-Motion Revisited”, 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), <https://doi.org/10.1109/CVPR.2016.445>, 2016年 において詳細に説明されている。
【0041】
また、このSfMとしては様々な手法が提案されているが、本実施形態においては、画像間の特徴点の対応関係から各画像のカメラの位置姿勢を決定し、決定されたカメラの位置姿勢から三角測量に基づいてこれら特徴点の3次元位置を決定し、このような処理を、画像を追加する毎に繰り返して、最終的に決定された3次元位置に対応する点群データを生成する、といったSfMを採用することができる。
【0042】
すなわちこの場合、点群分類部111は、画像群に含まれる各画像の特徴点と、当該特徴点から決定された各画像に係るカメラ情報とに基づき、元の画像群に含まれるランドマークに係る点群データを生成するのである。ちなみに、このような点群データは、同様の処理を行った結果を保存している外部のデータベース、例えば画像データベース2から取得されるものであってもよい。
【0043】
次に上記(b)について、点群分類部111は、このようにして生成された点群データP(={p|p:=(x,y,z)∈R3})を、点群データPに含まれる点(3Dポイント)p間の近さに基づき、例えばK近傍(K-nearest neighbors)分類アルゴリズムやkd木(k-dimensional tree)空間分割アルゴリズムを用いて、各々がランドマークの1つに係るものとみなされるK_pred(≧2)個の点群グループ(P1, P2, ・・・, PK_pred,ここでP=P1∪P2∪・・・∪PK_pred)に分類する。
【0044】
ここで本実施形態において、K_pred個の点群グループはそれぞれ、画像群に係るエリアに存在するK_pred個のランドマークに対応するものとなっている。例えば、当該エリアに存在するK_pred個のランドマークを、(GPS等の測位手段をもって又は地図データから得られた)その位置とともに予め特定しておき、点群データPを分類した結果生成された点群グループの中から、ランドマークの位置を(例えば中心付近に)含むK_pred個の点群グループを選択してもよい。勿論、(K_pred個のランドマークを適切に特定することにより、又は元の画像群を適切に設定することによって)分類された結果としての点群グループがK_pred個だけ生成されるのであれば、このような選択は不要である。
【0045】
(分類前処理)
同じく
図1の機能ブロック図において、本実施形態の分類前処理部112は、各点群グループについて、当該点群グループに対応する画像の集合である画像グループ候補を決定し、さらに後述するように、この候補決定の更新を行う。最初に、分類前処理部112は、
(ア)(画像グループ候補決定部112aとして、)元の画像群Iを、K_pred個の点群グループ(P
1, P
2, ・・・, P
K_pred)のそれぞれに対応するK_pred個の画像グループ候補(I
1, I
2, ・・・, I
K_pred,ここでI=I
1∪I
2∪・・・∪I
K_pred)に区分けする。
なお各画像グループ候補(I
1, I
2, ・・・, I
K_pred)は、当該画像グループ候補に含まれる画像を特定するべく、後に述べる式(3)によって生成された画像fの特徴量x(=φ(f))のインデックスが紐づけられたものであってもよい。
【0046】
ここで1つのランドマークに係る点群グループに基づき、このランドマークに関係する画像を選択する具体例を示した
図3を用いて、上記の画像グループ候補への区分けの一方法を説明する。同図の具体例では最初に、
図3(A)に示された1つのランドマーク(建物)に係る点群グループP
iについて、この点群グループP
iの生成にかかわった複数(多数)のカメラ位置姿勢情報(カメラ位置及びカメラ前面の向きの情報)が、
図3(B)に示したように特定される。
【0047】
すなわち、その情報の内容(位置及び向き)からしてこのランドマークを含む画像に係るものとなっていると判断されるカメラ位置姿勢情報を特定することができる。次いで、特定された複数(多数)のカメラ位置姿勢情報に係る画像を、
図3(C)に示したように、1つの画像グループ候補I
iとするのである。
【0048】
図1の機能ブロック図に戻って、次に、分類前処理部112は
(イ)(中心・周辺画像決定部112bとして、)決定した各画像グループ候補I
iにおいて、対応するランドマークに係る点群グループP
iの基となった特徴点の数に基づき、このランドマークに対応する「中心画像」を決定して、それ以外の画像を「周辺画像」とし、
(ウ)(スケール・オリエンテーション判定部112cとして、)各画像グループ候補I
iにおいて、画像のスケール及び/又はオリエンテーションについて「中心画像」とは所定以上異なっている「周辺画像」を抽出して、抽出した「周辺画像」を当該画像グループ候補I
iから外し、
(エ)(新画像グループ候補決定部112dとして、)上記(ウ)で抽出された「周辺画像」を含む新たな画像グループ候補を決定し、
この後、上記(イ)~(エ)と同様の処理を、画像グループ候補の数(K)が一定するまで繰り返す。
【0049】
ここで具体的に、上記(イ)の中心・周辺画像決定部112bは、各画像グループ候補Ii(i=1, 2,・・・, K_pred)において、対応する点群グループPiの基となった特徴点の数を最も多く含む画像を中心画像ciとしてもよい。この場合、中心画像ciは、点群グループPiにおけるランドマークを構成する点(3Dポイント)を、最も多く包含する(最も多く対応先とする)画像となる。次いで、当該画像グループ候補Iiにおける中心画像ci以外の画像を、周辺画像ni(∈Ii\ci)とするのである。
【0050】
次いで、上記(ウ)のスケール・オリエンテーション判定部112cは、例えばSIFT(Scale-Invariant Feature Transform)を用いて、当該画像グループ候補Iiに含まれている画像の特徴点(keypoints)を求め、さらに求めた特徴点からスケール(scale)及びオリエンテーション(orientation)を算出する。次いで、自身のスケールと中心画像ciのスケールとの比が所定範囲外であるとの条件、及び自身のオリエンテーションと中心画像ciのオリエンテーションとの差が所定以上であるとの条件のうちの少なくとも一方、本実施形態では両方を満たす周辺画像niを抽出するのである。
【0051】
具体的には、中心画像ciのスケール及びオリエンテーションをそれぞれsci及びociとし、周辺画像niのスケール及びオリエンテーションをそれぞれsni及びoniとすると、例えば次の2つの条件式
(1) 1/θ < sci/sni < θ
(2) |oci-oni| < β
をともに満たす周辺画像niを決定し、ここで決定した周辺画像niをそのまま、画像グループ候補Iiに属するものとすることができる。一方、ここで決定された周辺画像ni以外の周辺画像niを、画像グループ候補Iiから抽出し、除外するのである。
【0052】
次に、上記(エ)の新画像グループ候補決定部112dは、このように抽出された周辺画像niの属するグループとして、新たな画像グループ候補を生成する。ここでこの生成が初回ならば、この新たな画像グループ候補は、(K_pred+1)番目のグループ、すなわちIK_pred+1となる。
【0053】
この後、上記(イ)の中心・周辺画像決定部112bは、生成された新たな画像グループ候補IK_pred+1について、そのスケール及びオリエンテーションが画像グループ候補IK_pred+1内での平均値に最も近い画像を中心画像cK_pred+1とし、また残りの画像を周辺画像K_pred+1とする。次いで、この画像グループ候補IK_pred+1について、上記(ウ)のスケール・オリエンテーション判定部112c及び上記(エ)の新画像グループ候補決定部112dは、上述したのと同様の処理を実施していく。
【0054】
またこれにより、(K_pred+2)番目の新たな画像グループ候補IK_pred+2が生成された場合、この画像グループ候補IK_pred+2について、上記(イ)~(エ)と同様の処理を繰り返し、新たな画像グループ候補の生成が止まるまで、このサイクルを実施するのである。ここで本実施形態においては、最終的に生成・決定された画像グループ候補のうち、含まれる画像の数が所定数NLに満たない画像グループ候補は削除される。また、含まれる画像の数が所定数NLを超える画像グループ候補については、カメラ位置に関しその中心画像に近い順にNL個の(中心画像を含む)画像を選択し、この画像グループ候補を、選択されたNL個の画像を含む画像グループ候補とする。
【0055】
以上のようにして、分類前処理部112は最終的に、K個の画像グループ候補(I1, I2, ・・・, IK)を決定するのである。ここで各画像グループ候補(I1, I2, ・・・, IK)は、照明変化等についてロバスト(頑健)であって、スケール及びオリエンテーションに関してともに所定閾値範囲内のものを要素(画像)として含んでいる。すなわち、以上に述べた分類前処理は、次に実施する画像グループ決定処理(画像分類処理)のための好適な下準備となっているのである。
【0056】
またさらに、以上に述べた分類前処理は本実施形態において、ランドマーク(目標)に係る3次元の幾何情報と画像特徴表現(スケール及びオリエンテーション)とに基づくクラスタリング処理(Geometry and Feature Representation-based Clustering)となっている。したがってその内容から分かるように、本実施形態の分類前処理では、従来とは異なり、分類前処理としてのクラスタリング処理の際、元の画像群にラベリング処理を行わずに済むのである。
【0057】
(画像分類処理)
同じく
図1の機能ブロック図において、画像分類部113は、(上記の分類前処理が施された)画像群I(=I
1∪I
2∪・・・∪I
K)に含まれる各画像を、当該画像の特徴量と画像グループ候補(I
1, I
2, ・・・, I
K)に係る特徴量の代表値とに基づき、それぞれランドマークの1つに係るものとみなされる複数の画像グループに「再」分類する。
【0058】
最初に、画像分類部113は、上記の画像群I(=I1∪I2∪・・・∪IK)に含まれる各画像fから、ニューラルネットワーク(Neural Network)φを用いて、次式
(3) x=φ(f)
により、ベクトル情報である特徴量xを抽出する。ここでニューラルネットワークφとしては、画像特徴量抽出用であれば種々のものが採用可能であるが、例えば、非特許文献1に開示されたものを使用することも好ましい。なお勿論、この段階で特徴量抽出を行うのではなく、画像データベース2から取り出した元の画像群に含まれる各画像から特徴量xを予め抽出しておき、それらを以後、適宜利用するものであってもよい。
【0059】
次いで、画像分類部113は本実施形態において、k平均法(k-means clustering)を用いて画像(の特徴量)のクラスタリング処理を行う。この処理については、例えば非特許文献:David MacKay, “Chapter 20. An Example Inference Task: Clustering”. Information Theory, Inference and Learning Algorithms. Cambridge University Press, pp. 284-292, 2003年に開示されている。なおこのクラスタリング処理は、他の手法、例えばDBSCAN(Density-Based Spatial Clustering of Applications with Noise)によっても実施可能である。
【0060】
具体的にはまず、クラスタリング処理の“種”として、次式
(4) Ck
(0)={x|x=φ(f),f∈Ik}
ここで、k=1, 2, ・・・, K(Kは上記の画像グループ候補の数)
によって、クラスタ(C1
(0), C2
(0), ・・・, CK
(0))を設定する。次いで、次式
(5) mk
(0)=(Σi∈Ck(0) xi)/|Ck
(0)|
を用いてクラスタ平均量(m1
(0), m2
(0), ・・・, mK
(0))を算出する。ここで、Σi∈Ck(0)xiは、クラスタCk
(0)に含まれる(ベクトル量である)特徴量xiの総和(合計)であり、|Ck
(0)|は、クラスタCk
(0)に含まれる特徴量xiの数である。
【0061】
次に、全てのクラスタのクラスタ平均量のうちで、あるクラスタのクラスタ平均量に最も近接している特徴量を、改めて当該あるクラスタに割り当てていく割り当て処理を(繰り返し)実施する。具体的には、次式
(6) mk
(t-1)=(Σi∈Ck(t-1) xi)/|Ck
(t-1)|として、
Ck
(t)={x| jが1からKまでの(ただしkを除く)どの整数であっても
|x-mk
(t-1)|2<|x-mj
(t-1)|2 が満たされる}
を用い、当初t=1として、その後tを1だけ増分させつつクラスタ(C1
(t), C2
(t), ・・・, CK
(t))を算出していく。すなわち、上式(6)の割り当て処理を、特徴量xの割り当て(x→Ck
(t))が安定するまで(変化しなくなるまで)T(≧1)回行っていくのである。
【0062】
ここでt(=1, 2, ・・・, T)は、当該割り当て処理の実施回数を示すパラメータとなっている。また、|x-m|2は、xとmとのユークリッド距離の二乗である。ちなみに上式(6)によれば、個々の特徴量xは、1回の割り当て処理において必ず1つのCk
(t)だけに割り当てられることになる。
【0063】
次いで画像分類部113は、最後に得られたクラスタ(C1
(T), C2
(T), ・・・, CK
(T))を用いて、各クラスタCk
(T)に含まれる画像の特徴量xが各特徴量行列Xk(k=1, 2, ・・・, K)に包含されるような特徴量行列グループX、すなわち
(7) X=[X1, X2, ・・・, XK]
を決定する。ここで特徴量行列Xk(∈RD×Nk,Dは特徴量xの次元数,NkはXkに含まれる特徴量の数)は、各列が特徴量x(∈Ck
(T))に対応する行列であり、すなわち対応する画像グループ(クラスタ)の特徴量全体を表現する行列となっている。
【0064】
このようにして決定された各特徴量行列Xkに対応する画像グループIk(k=1, 2, ・・・, K)が、画像データベース2から取り出された画像群に対する好適な検索前処理結果となる。すなわち、画像分類部113は、カメラ位置姿勢の違いや画像反転の有無、さらには照明の違いといったような画像の見た目にかかわらず、同じ「(ランドマーク等の)目標」を含む画像が概ね、同じ画像グループに所属しているような分類結果を、生成することが可能となっているのである。勿論、このような画像グループへの分類結果は、画像検索処理を行う上で非常に有用なものとなっている。
【0065】
ここで
図4に、以上に説明した画像分類処理結果の具体例を示す。本具体例では、画像群Iの画像が、クラスタ(画像グループ)1, 2, 3, 4,・・・に「再」分類されている。ちなみに、このような検索前処理結果、具体的には画像グループへの分類結果(自らの属する画像グループのインデックスkが紐づけられた画像データの集合)は、入出力インタフェース部101を介して画像データベース2へ戻され、別途(画像グループ検索部121や他の装置によって)利用されてもよく、また、この後説明する画像グループ検索部121へ直接出力されてもよい。
【0066】
(画像グループ検索処理)
図1の機能ブロック図に戻って、画像グループ検索部121は、上記のように決定された複数の特徴量行列(X
1, X
2, ・・・, X
K)のそれぞれに対応する複数の画像グループ(I
1, I
2, ・・・, I
K)の中から、当該画像グループに属する各画像fの特徴量x(=φ(f))と、(入出力インタフェース部101を介して入力された)クエリ画像(目的画像)fqの特徴量y(=φ(fq))とに基づき、クエリ画像fqに近い(類似する)画像グループI
k*を検索する。言い換えると、クエリ画像fqに係るクラスk*を決定するのである。
【0067】
具体的に、画像グループ検索部121は例えば、自らに対応する特徴量行列の各列と、クエリ画像fqの特徴量yとの差(平均距離)が最小となるような画像グループを、画像グループIk*に決定することができる。すなわち、次式
(8) k*=argmink ((Nk)-1×Σi|Xi
k-y|2
2)
を用いて、クエリ画像fqに近い画像グループIk*(のクラスk*)を決定することが可能となる。ここで、argmink(・)は、括弧の内容・を最小とするk値(k=1, 2, ・・・, K)を出力する関数である。また、Σiは、特徴量行列Xkの列Xi
kについての総和となっている。さらに、|・|2は、非特許文献5及び6に開示されているL2-ノルム(L2-norm)を表す。
【0068】
図5は、画像グループ検索部121における画像グループ検索処理の具体例を説明するための模式図である。
【0069】
図5(A)には、画像の特徴量空間における画像fの特徴量xの分布が示されている。画像グループ検索部121は、この特徴量空間における、各画像グループ(A,B,C)に含まれる各画像の特徴量(丸印,バツ印,菱形)と、クエリ画像の特徴量との(特徴量空間における)距離に基づき画像グループ検索を行う。具体的には、
図5(B)に示すように、各画像グループにおける当該距離の二乗の総和(Σ
i|X
i
k-y|
2
2)に基づき上式(8)によって、クエリ画像に係るクラスの決定を行うのである。
【0070】
図1の機能ブロック図に戻って、画像グループ検索部121は、このような画像グループ検索処理における演算時間を短縮するべく、次式
(9) k*=argmin
k(|av_X
k-y|
2
2)
を用いて、クエリ画像fqに近い画像グループI
k*を決定してもよい。ここで、av_X
i
kは、画像グループI
kに含まれる全ての画像fの特徴量xの平均値であり、すなわち画像グループI
kの平均特徴量となっている。
【0071】
また、画像グループ検索(クエリ画像に係るクラスの決定)についての更なる変更態様として、画像グループ検索部121は、(a)特徴量行列(X1, X2, ・・・, XK)に表現係数ベクトル(α1, α2, ・・・, αK)が掛けられた量と、クエリ画像fqの特徴量yとの差を小さくするような表現係数ベクトルα*を決定し、(b)決定した表現係数ベクトルα*と、画像グループ(I1, I2, ・・・, IK)に属する各画像fの特徴量xと、クエリ画像fqの特徴量yとに基づき、クエリ画像fqに近い(類似する)画像グループIk*を検索してもよい。ちなみに、以下具体的に説明するこのような画像グループ検索処理は、例えば非特許文献5及び6に開示されているように、顔認識(Facial Recognition)の分野で利用されてきた技術となっている。
【0072】
具体的には、表現係数ベクトルグループをα(=[α1, α2, ・・・, αK])として、次式
(10) α*=argminα(|Xα-y|2
2+λ×|α|2
2)
に基づき、クエリ画像fqの協調表現(collaborative representation)としての特徴量(行列)の線形結合、すなわちXα(≒fq)を選び出し、表現係数ベクトルα*を決定するのである。なお上式(10)におけるargminα内の第1項は、この線形結合がクエリ画像fqの表現となることを担保するための項であり、また第2項は、クエリ画像fqとはかけ離れている画像グループの寄与を抑制するための項となっている。
【0073】
ここで、上式(10)の実装可能な閉形式解として、次式
(11) α*=Qy
Q=(XTX+λI)-1XT
を用いることができる。上式(11)においてIは単位行列グループであり、また(・)-1は(・)-1(・)=Iを満たす行列グループである。さらにXTはXの転置となっている、次いで、上式(11)によって算出されたα*を用いることにより、クエリ画像fqに近い(類似する)画像グループIk*のクラスk*は、次式
(12) k*=argmink(|Xkα*k-y|2/|α*k|2)
によって決定されるのである。
【0074】
なお上式(12)は、最初に提示した上式(8)と比較すると、表現係数ベクトルグループα*をその重みとして、クラスkにわたり特徴量xと特徴量yとの距離を調整しており、それ故より高い精度でクラスk*を決定し得る形となっている。また、たしかにこの表現係数ベクトルグループα*の算出には、追加の演算処理が必要となる。しかしながら、これは基本的にベクトルと行列との乗算処理である。
【0075】
しかも上式(11)の係数行列グループQは、クエリ画像fqの特徴量yに依存しておらず、したがって特徴量行列グループX(=[X1, X2, ・・・, XK])のデータベースを生成した際に予め、例えばオフラインで算出しておくことが可能な量となっている。その結果、上式(12)によれば、クエリ画像fqが与えられた際、例えばオンラインでクエリ画像fqに近い画像グループIk*のクラスk*を、より高い精度で決定することも可能となるのである。
【0076】
また画像グループ検索処理のロバスト性を向上させる更なる変更態様として、画像グループ検索部121は、次式
(13) α*=argminα(|Xα-y|2
2+λ×|α|2
2+(γ/K)×Σk=1
K|Xα-Xkαk|2
2)
に基づき、表現係数ベクトルα*を決定することも好ましい。この式(13)は、上式(10)に比べて、さらに第3項(Σk=1
K|Xα-Xkαk|2
2)が付加された形となっている。この第3項は、最終的な線形結合Xαに極力近い(各画像グループIkに係る)特徴量行列Xkと表現係数ベクトルαkとの積が実現するように働くのである。
【0077】
ここで、上式(13)の実装可能な閉形式解として、次式
(14) α*=Q'y
Q'=(XTX+(γ/K)×Σk=1
K(X^k)TX^k+λI)-1XT
ここで、X^k=X-X'k,X'k=[0, ・・, Xk, ・・, 0]
を用いることができる。なお上式(14)において、0はゼロ行列である。次いで、上式(14)によって算出されたα*を用いることにより、クエリ画像fqに近い画像グループIk*のクラスk*は、次式
(15) k*=argmink(|Xkα*k-Xα|2
2)
によって決定されるのである。
【0078】
また、この係数行列グループQ'も上記のQと同様、クエリ画像fqの特徴量yに依存しておらず、したがって予め、例えばオフラインで算出しておくことが可能である。その結果、上式(15)によれば、クエリ画像fqが与えられた際、例えばオンラインでクエリ画像fqに近い画像グループIk*のクラスk*を、より高い精度で決定することも可能となるのである。
【0079】
(画像順位付け処理)
同じく
図1の機能ブロック図において、画像順位付け部122は、検索された画像グループI
k*に含まれる各画像fの特徴量xと、クエリ画像fqの特徴量yとに基づき、画像グループI
k*に含まれる画像fの中からクエリ画像fqに最も近い(類似する)画像を決定する、又は画像グループI
k*に含まれる画像fに対しクエリ画像fqに近い(類似する)順のランキング情報r(例えば画像のインデックスをランキングの昇順にソートした情報)を付与する。ここで例えば、各画像fに当該画像のランキング値(1, 2, ・・・)をラベルした情報をランキング情報としてもよく、各画像fのインデックスと当該画像のランキング値とを対応付けたテーブル情報をランキング情報としてもよい。また、このようにして生成されたランキング情報は、入出力インタフェース部101を介し、外部の情報処理装置、例えばクエリ画像fqを含むリクエストの送信元装置へ送信され、そこで利用されてもよい。
【0080】
具体的に、画像順位付け部122は本実施形態において、次式
(16) r=argsorti(|Xi
k*-y|2)
を用いて、ランキング情報rを生成することができる。ここでXi
k*(∈Xk*)はその定義から、画像グループIk*に含まれる各画像の特徴量となっている。またargsorti(・)は、特徴量インデックスiについて、括弧の内容・を最小にするi値から始めて、当該内容・をより小さくする順にi値をソートした結果を返す関数である。
【0081】
図6は、画像順位付け部122における画像順位付け処理の具体例を説明するための模式図である。
【0082】
図6によれば、画像順位付け部122は、検索された画像グループAに含まれている画像(Da, Db, Dc, Dd)について、クエリ画像fqに近い(類似している)順位を示すランキング情報rを、上式(16)を用いて生成している。また、生成したランキング情報rに基づき各画像(Da, Db, Dc, Dd)に対し、該当するランキング値(1, 2, 3, 4)を付与している。
【0083】
その結果、画像Daが、クエリ画像fqに最も近い(類似している)順位1の画像に決定さ、次いで、クエリ画像fqにより近い(類似している)順に、画像Dd、画像Dc、及び画像Dbが特定されるのである。
【0084】
以上詳細に説明したように、本発明によれば、画像検索上問題となるような画像を含んでいる可能性がある画像群から、目標(例えばランドマーク)に係る点群を得た上で、当該点群から、各々が目標の1つに係るものとみなされる複数の点群グループを生成することができる。ここで1つの点群グループは、単なる見た目ではなく、例えばその3次元形状(点間の3次元空間での距離)における特徴を考慮した上で分類されたものであり、まさに「対応する目標に係るグループである」と高い確度でみなされるものとなっている。
【0085】
その結果、この点群グループに対応する画像グループを、この目標を含む画像の集合としてみなすことが可能となるのである。以上、本発明によれば、上記の画像群に対し、画像の単なる見た目だけに依存しない、目標毎の画像分類といった検索前処理を実施することができる。
【0086】
また、本発明による検索前処理又はこの処理を用いた画像検索処理を、多数のユーザが都市内の様々なランドマークを撮影しそのカメラ画像をアップロードすることによって収集された膨大な数の画像データ、及び、多数の街頭カメラによって定期的に生成された膨大な数の画像データの解析に活かし、都市内の人流予測や、設置物・不審物の発見やその推移の確認、さらにはトラブル・犯罪発生の予測・検出等を促進することもできる。すなわち本発明によれば、国連が主導する持続可能な開発目標(SDGs)の目標11「都市を包摂的、安全、レジリエントかつ持続可能にする」に貢献することも可能となるのである。
【0087】
さらに、本発明による検索前処理又はこの処理を用いた画像検索処理を、多数のユーザが対象地域や対象海域を撮影しそのカメラ画像をアップロードすることによって収集された膨大な数の現場画像データの解析に活かし、そのような地域・海域における各種状態の調査、例えば作物の生育状況、生態系の現状や、気候変動の影響の調査を行うこともできる。すなわち本発明によれば、国連が主導する持続可能な開発目標(SDGs)における目標13「気候変動とその影響に立ち向かうため、緊急対策を取る」、目標14「海洋と海洋資源を保全し、持続可能な形で利用する」、及び目標15「森林の持続可能な管理、砂漠化への対処、土地劣化の阻止および逆転、ならびに生物多様性損失の阻止を図る」に貢献することも可能となるのである。
【0088】
上述した本発明の種々の実施形態について、本発明の技術思想及び見地の範囲の種々の変更、修正及び省略は、当業者によれば容易に行うことができる。以上に述べた説明はあくまで例であって、何ら制約しようとするものではない。本発明は、特許請求の範囲及びその均等物として限定するものにのみ制約される。
【符号の説明】
【0089】
1 画像検索装置(検索前処理装置)
101 入出力インタフェース(IF)部
111 点群分類部
112 分類前処理部
112a 画像グループ候補決定部
112b 中心・周辺画像決定部
112c スケール・オリエンテーション判定部
112d 新画像グループ候補決定部
113 画像分類部
121 画像グループ検索部
122 画像順位付け部
2 画像データベース(DB)