(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2025-01-31
(45)【発行日】2025-02-10
(54)【発明の名称】低解像度下での画像特徴量を利用した画像特徴量抽出モデル及び方法、並びに画像マッチング装置及びプログラム
(51)【国際特許分類】
G06T 7/33 20170101AFI20250203BHJP
【FI】
G06T7/33
(21)【出願番号】P 2021181724
(22)【出願日】2021-11-08
【審査請求日】2024-01-17
(73)【特許権者】
【識別番号】000208891
【氏名又は名称】KDDI株式会社
(74)【代理人】
【識別番号】100135068
【氏名又は名称】早原 茂樹
(74)【代理人】
【識別番号】100141313
【氏名又は名称】辰巳 富彦
(72)【発明者】
【氏名】スワンウィモンクン スウィーチャヤ
(72)【発明者】
【氏名】小森田 賢史
【審査官】小池 正彦
(56)【参考文献】
【文献】特開2013-190947(JP,A)
【文献】特表2013-534342(JP,A)
【文献】Axel Barroso-Laguna, et al.,Key.Net: Keypoint Detection by Handcrafted and Learned CNN Filters,2019 IEEE/CVF International Conference on Computer Vision (ICCV),米国,IEEE,2019年,p.5835-5843,DOI: 10.1109/ICCV.2019.00593
【文献】Paul-Edouard Sarlin, et al.,SuperGlue: Learning Feature Matching with Graph Neural Networks,arxiv.org,2020年,https://arxiv.org/pdf/1911.11763
(58)【調査した分野】(Int.Cl.,DB名)
G06T 7/33
(57)【特許請求の範囲】
【請求項1】
2つの元画像の各画像からキーポイント及び記述子(descriptor)を抽出するコンピュータを機能させる画像特徴量抽出モデルであって、
当該各画像について、抽出された画像全部の特徴量から、当該元画像の解像度である元解像度より低い少なくとも1つの低解像度段階の各々における低解像度キーポイント及び低解像度記述子を生成する低解像度特徴量生成手段と、
当該低解像度段階毎に、当該2つの
元画像の間で当該低解像度キーポイントのマッチング処理を実施し、マッチした当該低解像度キーポイントのペアを生成する低解像度キーポイントマッチング手段と、
当該各画像について、当該低解像度段階毎に、マッチした当該低解像度キーポイントに対しアップサンプリング(upsampling)処理を実施し、当該低解像度キーポイントよりも多い数の、当該元解像度に対応した元解像度対応キーポイントを生成し、抽出結果として出力する元解像度対応キーポイント抽出手段と、
当該各画像について、抽出された画像全体の特徴量から生成された、各低解像度段階における低解像度画像全体特徴量
を用いて、または当該低解像度画像全体特徴量に対しキーポイント検出処理を施すことによって生成された、各低解像度段階に
おける低解像度対応画像特徴量を用いて、当該元画像に対応する元画像対応画像特徴量を生成し、当該元画像対応画像特徴量から当該元解像度対応キーポイントに基づき、当該元解像度に対応した元解像度対応記述子を生成し、抽出結果として出力する元解像度対応記述子抽出手段と
してコンピュータを機能させることを特徴とする画像特徴量抽出モデル。
【請求項2】
前記低解像度キーポイントマッチング手段は、
当該各画像について、出力されて外部で更新された当該元解像度対応キーポイント及び当該元解像度対応記述子である更新された元解像度対応キーポイント及び更新された元解像度対応記述子を受け取り、
当該各画像について、当該低解像度段階毎に、当該低解像度段階へのリスケール(re-scale)処理の施された当該更新された元解像度対応キーポイントと、当該更新された元解像度対応記述子とに対しプーリング処理を実施して、当該低解像度段階に合わせた低解像度化キーポイント及び低解像度化記述子を生成し、
当該各画像について、当該低解像度段階毎に、当該低解像度段階における当該低解像度化記述子と、先に生成された当該画像全部
の特徴量から当該低解像度化キーポイントに基づき生成された記述子とをマージして、更新された低解像度化記述子を生成し、
当該各画像について、当該低解像度段階毎に、当該低解像度化キーポイントと先に生成された当該低解像度キーポイントとを合わせて新たな低解像度キーポイントとし、更新された当該低解像度化記述子と先に生成された当該低解像度記述子とを合わせて新たな低解像度記述子として、当該2つの
元画像の間で新たな当該低解像度キーポイントのマッチング処理を実施し、マッチした当該低解像度キーポイントのペアを生成する
ことを特徴とする請求項1に記載の画像特徴量抽出モデル。
【請求項3】
前記画像特徴量抽出モデルは、
前記低解像度キーポイントマッチング手段における、当該更新された元解像度対応キーポイント及び当該更新された元解像度対応記述子を受け取ってマッチした当該低解像度キーポイントのペアを生成する処理、
前記元解像度対応キーポイント抽出手段における、当該元解像度対応キーポイントを生成し抽出結果として出力する処理、及び
前記元解像度対応記述子抽出手段における、当該元解像度対応記述子を生成し抽出結果として出力する処理
のセットを複数回実施し、最後に生成された当該元解像度対応キーポイント及び当該元解像度対応記述子を抽出結果として出力するようにコンピュータを機能させることを特徴とする請求項2に記載の画像特徴量抽出モデル。
【請求項4】
前記低解像度特徴量生成手段は、当該各画像について、当該低解像度段階毎に、当該画像全部の特徴量から、当該低解像度段階における当該低解像度キーポイント及び低解像度画像全部特徴量を生成して、当該低解像度画像全部特徴量から当該低解像度キーポイントに基づき、当該低解像度記述子を生成することを特徴とする請求項1から3のいずれか1項に記載の画像特徴量抽出モデル。
【請求項5】
前記元解像度対応キーポイント抽出手段は、当該各画像について、当該低解像度段階毎に、マッチした当該低解像度キーポイントに対し当該元解像度へのリスケール処理を施した上で逆プーリング(unpooling)処理を実施し、当該低解像度段階において当該低解像度キーポイントよりも多い数の、当該元解像度に対応した元解像度対応化キーポイントを生成し、各低解像度段階における当該元解像度対応化キーポイントを取りまとめ、当該元解像度対応キーポイントとして出力することを特徴とする請求項1から4のいずれか1項に記載の画像特徴量抽出モデル。
【請求項6】
前記元解像度対応記述子抽出手段は、当該各画像について、当該画像全体の特徴量に対しパイプーリング(pypooling)処理を施して各低解像度段階における低解像度画像全体特徴量を生成し、各低解像度段階における畳み込み処理の施された当該低解像度画像全体特徴量に対しアップサンプリング処理を実施し、さらに当該画像全体の特徴量と合わせることによって当該元画像対応画像特徴量を生成し、当該元画像対応画像特徴量から当該元解像度対応キーポイントに基づき、当該元解像度に対応した元解像度対応記述子を生成することを特徴とする請求項1から5のいずれか1項に記載の画像特徴量抽出モデル。
【請求項7】
前記元解像度対応記述子抽出手段は、当該各画像について、当該低解像度対応画像特徴量に対しマージする処理であって、1つの当該低解像度段階における当該マージする処理の結果に対し逆畳み込み処理を施したものと当該低解像度対応画像特徴量とをマージする処理を、解像度の低い順をもって元解像度の段階に向けて順次進めることによって、当該元画像対応画像特徴量を生成し、当該元画像対応画像特徴量から当該元解像度対応キーポイントに基づき、当該元解像度に対応した元解像度対応記述子を生成することを特徴とする請求項1から5のいずれか1項に記載の画像特徴量抽出モデル。
【請求項8】
当該2つの元画像の各画像から、請求項1から7のいずれか1項に記載された画像特徴量抽出モデルを用いて、当該元画像の画像特徴量である当該元解像度対応キーポイント及び当該元解像度対応記述子を抽出する画像特徴量抽出手段と、
抽出された当該元解像度対応キーポイント及び当該元解像度対応記述子を用いて、当該2つの元画像のマッチングを実施する画像マッチング手段と
を有することを特徴とする画像マッチング装置。
【請求項9】
当該2つの元画像の各画像から、請求項1から7のいずれか1項に記載された画像特徴量抽出モデルを用いて、当該元画像の画像特徴量である当該元解像度対応キーポイント及び当該元解像度対応記述子を抽出する画像特徴量抽出手段と、
抽出された当該元解像度対応キーポイント及び当該元解像度対応記述子を用いて、当該2つの元画像のマッチングを実施する画像マッチング手段と
としてコンピュータを機能させることを特徴とする画像マッチングプログラム。
【請求項10】
画像マッチング手段は、
当該各画像について、当該元解像度対応キーポイントを用いて当該元画像を表現するグラフを生成するグラフ生成手段と、
当該各画像について、当該元解像度対応記述子に対し当該グラフを用いたグラフアテンション(graph attention)処理を施して、更新された元解像度対応記述子を生成するグラフアテンション手段と、
更新された当該元解像度対応記述子を用いて当該元解像度対応キーポイントのマッチング処理を実施するキーポイントマッチング手段と
を有することを特徴とする請求項9に記載の画像マッチングプログラム。
【請求項11】
2つの元画像の各画像からキーポイント及び記述子を抽出するコンピュータによって実施される画像特徴量抽出方法であって、
当該各画像について、抽出された画像全部の特徴量から、当該元画像の解像度である元解像度より低い少なくとも1つの低解像度段階の各々における低解像度キーポイント及び低解像度記述子を生成するステップと、
当該低解像度段階毎に、当該2つの
元画像の間で当該低解像度キーポイントのマッチング処理を実施し、マッチした当該低解像度キーポイントのペアを生成するステップと、
当該各画像について、当該低解像度段階毎に、マッチした当該低解像度キーポイントに対しアップサンプリング処理を実施し、当該低解像度キーポイントよりも多い数の、当該元解像度に対応した元解像度対応キーポイントを生成し、抽出結果として出力するステップと、
当該各画像について、抽出された画像全体の特徴量から生成された
、各低解像度段階における低解像度画像全体特徴量を用いて、または
当該低解像度画像全体特徴量に対しキーポイント検出処理を施すことによって生成された
、各低解像度段階における低解像度対応画像特徴量を用いて、当該元画像に対応する元画像対応画像特徴量を生成し、当該元画像対応画像特徴量から当該元解像度対応キーポイントに基づき、当該元解像度に対応した元解像度対応記述子を生成し、抽出結果として出力するステップと
を有することを特徴とする画像特徴量抽出方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、画像マッチング技術、及び当該技術の要となる画像特徴量抽出技術に関する。
【背景技術】
【0002】
画像特徴量抽出や画像マッチングは、画像検索、視覚的探索や、3次元(3D)画像構築といったような、画像から視覚にかかわる成果物を選択・生成するのに重要な技術となっている。ここで、従来多くの場合、最初にマッチング対象の画像から画像特徴量としてのキーポイント(keypoints)及び記述子(descriptors)を抽出し、次いで、抽出されたこれらの特徴量を用いてキーポイントマッチングを実施する方法が提案されてきた。
【0003】
このうち画像特徴量抽出について、例えば特許文献1には、ガウシアン画像ピラミッド(Gaussian Pyramid)をなす互いに異なる解像度の複数の画像(octaves)を用いて、キーポイントを抽出する技術が開示されている。また、特許文献2には、角領域からキーポイント候補を抽出した上でキーポイントと記述子とを決定する技術が開示されている。
【0004】
さらに、非特許文献1には、ニューラルネットワークのバックボーン(backbone)を用いて、ローレベルの特徴量である画像のラインに沿ったキーポイントを抽出してさらにライン検出を行い、次いでハイレベルの特徴量である、検出されたラインに対応する記述子を生成する技術が開示されている。またこの後、検出ライン及び生成された記述子を用いてラインマッチングが実施されるのである。
【0005】
また、非特許文献2には、人の知見に基づき設計されたハンドクラフテッド(handcrafted)特徴量用のCNN(Convolutional Neural Network)と、機械学習ベースの特徴量用のCNNとを結合させたマルチスケールピラミッド(multi-scale pyramid)のフィルタを用いて、互いに異なる解像度下でのキーポイントを抽出し、その後、最終的なキーポイントを決定する技術が開示されている。
【0006】
以上説明したように、従来多くの研究では、画像特徴量抽出と画像マッチングとは互いに独立した処理となっている。一方で、画像特徴量抽出及び画像マッチングを1つのタスクとして取り扱う技術も、いくつか提案されている。
【0007】
例えば非特許文献3には、入力されたクエリキーポイント(query keypoint)から低解像度下での画像特徴量としての信頼度ヒートマップ(confidence heatmap)を生成し、このヒートマップを用いて、高解像度下での対応キーポイント(correspondence keypoint)を決定している。ここで対応キーポイントは、クエリキーポイントに対応する(マッチング相手である)他方の画像におけるマッチしたキーポイントとなっているのである。
【0008】
また、非特許文献4には、画像間における画素毎のマッチングを行うセミデンス(semi-dense)マッチングによって、キーポイント検出を行うことなく、マッチした画素のペアを決定して画像マッチングを行う技術が開示されている。具体的には、最初にニューラルネットワーク・バックボーンを用いて画像から局所特徴量を抽出し、次いで、低解像度対応トランスフォーマ(coarse-level transformer)を用いてマルチヘッドアテンション(multi-heads attention)によるデンスマッチングを実施し、これにより低解像度下でのマッチした画素ペアを決定し、さらにこのマッチした画素ペアから、高解像度対応トランスフォーマ(fine-level transformer)によって、高精度のマッチしたキーポイントを決定している。
【0009】
さらに、非特許文献5には、マルチモダリティ画像(画像範囲や解像度等の多様な画像)を取り扱うことの可能な、低解像度から高解像度までの各段階における機械学習ベースの画像位置合わせ(image registration)アルゴリズムが開示されている。このアルゴリズムでは、最初に学習済みのBEL検出器を用いて、複数の低解像度段階におけるキーポイントを抽出し、次いで、各低解像度段階に対応したブースティングノード(boosting node)が連続して設けられた学習済みの分類器を用いて、これらのキーポイントマッチングを行っている。次いで、高解像度段階でのキーポイントと所与のランドマークポイント(landmark point)との一致具合いを学習した上で、RANSAC(RANdam SAmple Concensus)アルゴリズムを用いて学習パラメータの訓練が行われたアフィン変換器を用いて、高解像度下でのキーポイントマッチングを実施している。
【先行技術文献】
【特許文献】
【0010】
【文献】米国特許出願公開第2012/0027290号明細書
【文献】米国特許出願公開第2016/0292887号明細書
【非特許文献】
【0011】
【文献】Remi Pautrat, Juan-Ting Lin, Viktor Larsson, Martin R. Oswald, and Marc Pollefeys, “SOLD2: Self-supervised Occlusion-aware Line Description and Detection”, Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, <https://arxiv.org/pdf/2104.03362.pdf>, 2021年
【文献】Axel Barroso-Laguna, Edgar Riba, Daniel Ponsa, Krystian Mikolajczyk, “Key.Net: Keypoint Detection by Handcrafted and Learned CNN Filters”, International Conference on Computer Vision, <https://arxiv.org/pdf/1904.00889.pdf>, 2019年
【文献】Qianqian Wang, Xiaowei Zhou, Bharath Hariharan, Noah Snavely, “Learning Feature Descriptors using Camera Pose Supervision”, European Conference on Computer Vision, <https://arxiv.org/pdf/2004.13324.pdf>, 2020年
【文献】Jiaming Sun, Zehong Shen, Yu'ang Wang, Hujun Bao, and Xiaowei Zhou, “LoFTR: Detector-Free Local Feature Matching with Transformers”, Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, <https://arxiv.org/pdf/2104.00680.pdf>, 2021年
【文献】Jiayan Jiang, Songfeng Zheng, Arthur W. Toga, and Zhuowen Tu, “Learning based coarse-to-fine image registration”, Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, <https://doi.org/10.1109/CVPR.2008.4587396>, 2008年
【発明の概要】
【発明が解決しようとする課題】
【0012】
しかしながら、従来の画像特徴量抽出技術及び画像マッチング技術においては、例えば、マッチング対象画像のうちの一方がスマートフォン搭載カメラによる非常に高い解像度の画像であって、他方が、例えば国土交通省主導の3D(3次元)都市モデル・オープンデータ化プロジェクト(Plateau, <https://www.mlit.go.jp/plateau/>)等に係る3Dモデルからレンダリング(描画)された、比較的低い解像度の画像であるような場合に、十分な精度をもって画像マッチングを実施することが困難となることも少なくない。
【0013】
具体的に、上述したような2つの画像は通常、テクスチャ領域における解像度が互いに大きく異なっており、また、特に3Dモデルのレンダリング画像は、解像度が画像内においても一定せずにばらついている。 その結果、従来の画像特徴量抽出技術及び画像マッチング技術では、決定したマッチしたペアの多くが実際にはマッチしていないペアであるような精度の低い結果となってしまうことも少なくない。ちなみにこのような低精度の結果の従来例として、
図5(A)に、典型的な画像特徴量であるSIFT(Scale-Invariant Feature Transform)を用いた画像マッチング結果(従来例1)を示している。
【0014】
また一般に、キーポイントの探索は、画像に含まれるオブジェクトのラインや形状に対応した低解像度下での画像特徴に基づき行うことによって、より精度の高い画像マッチング結果の得られることが知られている。これは、このような低解像度下での画像特徴は、幾何学的な一致の度合いを反映しやすいことによる。しかしながら、低解像度下での画像特徴に基づくキーポイントの探索では、例えば
図5(B)に示した従来例2のように、画像マッチングに十分な数のキーポイントを取得することが困難となってしまう。
【0015】
さらに、例えば建造物の立ち並んだ市街の3Dモデルのレンダリング画像において、建造物の大まかな形状は通常、実際の形状と概ね一致するか、少なくとも類似したものとなる。しかしながら、建造物における細部の構造、例えば窓枠の形状は、実際のものと大きく相違することも少なくない。ちなみに、上述したような3D都市モデルにおいては、ある建造物にとって付帯的となる(例えば脇にある)建造物がデータ化されていない場合もあり得るのであり、このことも画像マッチング結果に大きな影響を及ぼしてしまう。
【0016】
ここで
図5(C)に、マッチング対象の画像間において上述したような細部の構造や付帯物が相違する従来例3を示している。
図5(C)によれば、両画像において対応するビルディングの細部の構造や、ビルディング群の足元の付帯的な建造物が大きく相違していることが分かる。ちなみにこれは、3Dレンダリング画像の元となる3Dモデルにそもそも、細部の構造や付帯的な建造物がキャプチャされていないことによるのである。
【0017】
以上説明したような従来技術の課題を鑑みると、画像間の解像度の乖離に対応したキーポイント抽出を行い、ラインや形状ベースのキーポイントとは別により多くのキーポイントを見出し、さらに、建造物の細部の構造や付帯的な建造物にも対応できるような画像特徴の抽出を行うことが非常に重要となることが理解される。
【0018】
しかしながら、上述したような従来の画像特徴量抽出技術及び画像マッチング技術、例えば特許文献1及び2、並びに非特許文献2、3及び4に開示された技術では、当初、低解像度下での画像特徴量を用いて処理を行うのみであり、上記のような課題を解決することは到底できない。
【0019】
ここで、このうち非特許文献4に開示された技術ではたしかに、低解像度下でのマッチした画素ペアを用いて高解像度下でのキーポイントを生成している。しかしながら、ここで使用されるデンスマッチングには膨大な計算コストがかかることもあって、あくまで1つの低解像度を扱うのみとなっており、さらに、このように低解像度下で生成した情報は何ら画像マッチングに用いられていない。
【0020】
一方、非特許文献1及び5に開示された技術ではたしかに、低解像度下でのラインベースの画像特徴量と、低解像度下で生成した情報とをともに用いて画像マッチングを行っている。ここで非特許文献1の技術では、キーポイントは結局、低解像度下でのライン及びエッジベースのものだけであり、その数は限定されてしまう。これに対し、非特許文献5の技術では、複数の低解像度段階においてキーポイントの検出及びマッチングを行っており、さらにこれらのキーポイントに対しアップサンプリング(upsampling)処理(補間により数を増やす処理)を施した上で、高解像度下でのキーポイントマッチングを実施している。
【0021】
しかしながら、非特許文献5に開示された技術においても、高解像度下での記述子を抽出することや、キーポイントを再度検出することは何ら行われていない。さらに、キーポイントマッチングも幾何学的な変換器を用いて実施されているだけであって、例えば視覚的な類似性を用いて高解像度下でのマッチング精度を高める、といったようなことは何ら行なわれていない。またその結果、例えば建造物の細部の構造や付帯的な(例えば脇にある)建造物にも対応できるような画像特徴を見出すことは到底できないのである。
【0022】
そこで、本発明は、画像間の解像度の乖離にも対応することができ、より多くのキーポイントを生成し、さらに画像内オブジェクトの細部や付帯的な情報もより多く考慮することの可能な画像マッチング処理を実施することができる画像マッチング装置及び画像マッチングプログラムを提供することを目的とする。また、そのような画像マッチング処理を実施可能にする画像特徴量を抽出することができる画像特徴量抽出モデル及び画像特徴量抽出方法を提供することを目的とする。
【課題を解決するための手段】
【0023】
本発明によれば、2つの元画像の各画像からキーポイント及び記述子(descriptor)を抽出するコンピュータを機能させる画像特徴量抽出モデルであって、
当該各画像について、抽出された画像全部の特徴量から、当該元画像の解像度である元解像度より低い少なくとも1つの低解像度段階の各々における低解像度キーポイント及び低解像度記述子を生成する低解像度特徴量生成手段と、
当該低解像度段階毎に、当該2つの元画像の間で当該低解像度キーポイントのマッチング処理を実施し、マッチした当該低解像度キーポイントのペアを生成する低解像度キーポイントマッチング手段と、
当該各画像について、当該低解像度段階毎に、マッチした当該低解像度キーポイントに対しアップサンプリング(upsampling)処理を実施し、当該低解像度キーポイントよりも多い数の、当該元解像度に対応した元解像度対応キーポイントを生成し、抽出結果として出力する元解像度対応キーポイント抽出手段と、
当該各画像について、抽出された画像全体の特徴量から生成された、各低解像度段階における低解像度画像全体特徴量を用いて、または当該低解像度画像全体特徴量に対しキーポイント検出処理を施すことによって生成された、各低解像度段階における低解像度対応画像特徴量を用いて、当該元画像に対応する元画像対応画像特徴量を生成し、当該元画像対応画像特徴量から当該元解像度対応キーポイントに基づき、当該元解像度に対応した元解像度対応記述子を生成し、抽出結果として出力する元解像度対応記述子抽出手段と
してコンピュータを機能させる画像特徴量抽出モデルが提供される。
【0024】
この本発明による画像特徴量抽出モデルの一実施形態として、低解像度キーポイントマッチング手段は、
当該各画像について、出力されて外部で更新された当該元解像度対応キーポイント及び当該元解像度対応記述子である更新された元解像度対応キーポイント及び更新された元解像度対応記述子を受け取り、
当該各画像について、当該低解像度段階毎に、当該低解像度段階へのリスケール(re-scale)処理の施された当該更新された元解像度対応キーポイントと、当該更新された元解像度対応記述子とに対しプーリング処理を実施して、当該低解像度段階に合わせた低解像度化キーポイント及び低解像度化記述子を生成し、
当該各画像について、当該低解像度段階毎に、当該低解像度段階における当該低解像度化記述子と、先に生成された当該画像全部の特徴量から当該低解像度化キーポイントに基づき生成された記述子とをマージして、更新された低解像度化記述子を生成し、
当該各画像について、当該低解像度段階毎に、当該低解像度化キーポイントと先に生成された当該低解像度キーポイントとを合わせて新たな低解像度キーポイントとし、更新された当該低解像度化記述子と先に生成された当該低解像度記述子とを合わせて新たな低解像度記述子として、当該2つの元画像の間で新たな当該低解像度キーポイントのマッチング処理を実施し、マッチした当該低解像度キーポイントのペアを生成する
ことも好ましい。
【0025】
また、本発明による画像特徴量抽出モデルは、
(a)低解像度キーポイントマッチング手段における、当該更新された元解像度対応キーポイント及び当該更新された元解像度対応記述子を受け取ってマッチした当該低解像度キーポイントのペアを生成する処理、
(b)元解像度対応キーポイント抽出手段における、当該元解像度対応キーポイントを生成し抽出結果として出力する処理、及び
(c)元解像度対応記述子抽出手段における、当該元解像度対応記述子を生成し抽出結果として出力する処理
のセットを複数回実施し、最後に生成された当該元解像度対応キーポイント及び当該元解像度対応記述子を抽出結果として出力するようにコンピュータを機能させることも好ましい。
【0026】
さらに、本発明による画像特徴量抽出モデルにおける他の実施形態として、低解像度特徴量生成手段は、当該各画像について、当該低解像度段階毎に、当該画像全部の特徴量から、当該低解像度段階における当該低解像度キーポイント及び低解像度画像全部特徴量を生成して、当該低解像度画像全部特徴量から当該低解像度キーポイントに基づき、当該低解像度記述子を生成することも好ましい。
【0027】
さらにまた、本発明による画像特徴量抽出モデルにおける更なる他の実施形態として、元解像度対応キーポイント抽出手段は、当該各画像について、当該低解像度段階毎に、マッチした当該低解像度キーポイントに対し当該元解像度へのリスケール処理を施した上で逆プーリング(unpooling)処理を実施し、当該低解像度段階において当該低解像度キーポイントよりも多い数の、当該元解像度に対応した元解像度対応化キーポイントを生成し、各低解像度段階における当該元解像度対応化キーポイントを取りまとめ、当該元解像度対応キーポイントとして出力することも好ましい。
【0028】
また、本発明に係る元解像度対応記述子抽出手段は、第1の実施形態として、当該各画像について、当該画像全体の特徴量に対しパイプーリング(pypooling)処理を施して各低解像度段階における低解像度画像全体特徴量を生成し、各低解像度段階における畳み込み処理の施された当該低解像度画像全体特徴量に対しアップサンプリング処理を実施し、さらに当該画像全体の特徴量と合わせることによって当該元画像対応画像特徴量を生成し、当該元画像対応画像特徴量から当該元解像度対応キーポイントに基づき、当該元解像度に対応した元解像度対応記述子を生成することも好ましい。
【0029】
さらに、本発明に係る元解像度対応記述子抽出手段は、第2の実施形態として、当該各画像について、当該低解像度対応画像特徴量に対しマージする処理であって、1つの当該低解像度段階における当該マージする処理の結果に対し逆畳み込み処理を施したものと当該低解像度対応画像特徴量とをマージする処理を、解像度の低い順をもって元解像度の段階に向けて順次進めることによって、当該元画像対応画像特徴量を生成し、当該元画像対応画像特徴量から当該元解像度対応キーポイントに基づき、当該元解像度に対応した元解像度対応記述子を生成することも好ましい。
【0030】
本発明によれば、また、当該2つの元画像の各画像から、以上に述べた画像特徴量抽出モデルを用いて、当該元画像の画像特徴量である当該元解像度対応キーポイント及び当該元解像度対応記述子を抽出する画像特徴量抽出手段と、
抽出された当該元解像度対応キーポイント及び当該元解像度対応記述子を用いて、当該2つの元画像のマッチングを実施する画像マッチング手段と
を有する画像マッチング装置が提供される。
【0031】
本発明によれば、さらに、当該2つの元画像の各画像から、以上に述べた画像特徴量抽出モデルを用いて、当該元画像の画像特徴量である当該元解像度対応キーポイント及び当該元解像度対応記述子を抽出する画像特徴量抽出手段と、
抽出された当該元解像度対応キーポイント及び当該元解像度対応記述子を用いて、当該2つの元画像のマッチングを実施する画像マッチング手段と
としてコンピュータを機能させる画像マッチングプログラムが提供される。
【0032】
この本発明による画像マッチングプログラムの一実施形態として、画像マッチング手段は、
当該各画像について、当該元解像度対応キーポイントを用いて当該元画像を表現するグラフを生成するグラフ生成手段と、
当該各画像について、当該元解像度対応記述子に対し当該グラフを用いたグラフアテンション(graph attention)処理を施して、更新された元解像度対応記述子を生成するグラフアテンション手段と、
更新された当該元解像度対応記述子を用いて当該元解像度対応キーポイントのマッチング処理を実施するキーポイントマッチング手段と
を有することも好ましい。
【0033】
本発明によれば、また、2つの元画像の各画像からキーポイント及び記述子を抽出するコンピュータによって実施される画像特徴量抽出方法であって、
当該各画像について、抽出された画像全部の特徴量から、当該元画像の解像度である元解像度より低い少なくとも1つの低解像度段階の各々における低解像度キーポイント及び低解像度記述子を生成するステップと、
当該低解像度段階毎に、当該2つの元画像の間で当該低解像度キーポイントのマッチング処理を実施し、マッチした当該低解像度キーポイントのペアを生成するステップと、
当該各画像について、当該低解像度段階毎に、マッチした当該低解像度キーポイントに対しアップサンプリング処理を実施し、当該低解像度キーポイントよりも多い数の、当該元解像度に対応した元解像度対応キーポイントを生成し、抽出結果として出力するステップと、
当該各画像について、抽出された画像全体の特徴量から生成された、各低解像度段階における低解像度画像全体特徴量を用いて、または当該低解像度画像全体特徴量に対しキーポイント検出処理を施すことによって生成された、各低解像度段階における低解像度対応画像特徴量を用いて、当該元画像に対応する元画像対応画像特徴量を生成し、当該元画像対応画像特徴量から当該元解像度対応キーポイントに基づき、当該元解像度に対応した元解像度対応記述子を生成し、抽出結果として出力するステップと
を有する画像特徴量抽出方法が提供される。
【発明の効果】
【0034】
本発明の画像マッチング装置及び画像マッチングプログラムによれば、画像間の解像度の乖離にも対応することができ、より多くのキーポイントを生成し、さらに画像内オブジェクトの細部や付帯的な情報もより多く考慮することが可能な画像マッチング処理を実施することができる。また、本発明の画像特徴量抽出モデル及び画像特徴量抽出方法によれば、そのような画像マッチング処理を実施可能にする画像特徴量を抽出することができる。
【図面の簡単な説明】
【0035】
【
図1】本発明による画像特徴量抽出モデルの一実施形態を示す模式図である。
【
図2】スマートフォンカメラ画像と3Dレンダリング画像とに対し、本発明に係る種々の処理を施した実施例を示す模式図である。
【
図3】本発明による画像特徴量抽出方法の一実施形態における概略を示すフローチャートである。
【
図4】本発明による画像マッチング装置9の一実施形態を示す機能ブロック図である。
【
図5】画像特徴量抽出技術及び画像マッチング技術の従来例を示す模式図である。
【発明を実施するための形態】
【0036】
以下、本発明の実施形態について、図面を用いて詳細に説明する。
【0037】
[画像特徴量抽出モデル]
図1は、本発明による画像特徴量抽出モデルの一実施形態を示す模式図である。
【0038】
図1に示した本実施形態の画像特徴量抽出モデル1は、
(a)画像マッチングの対象である元画像A及び元画像Bのそれぞれの画像データを入力とし、
(b)元画像Aのキーポイント群及び記述子(descriptor)群であって、元画像Aの解像度(元解像度)に対応したキーポイント群及び記述子群(K
Fin, F
Fin)
Aと、元画像Bのキーポイント群及び記述子群であって、元画像Bの解像度(元解像度)に対応したキーポイント群及び記述子群(K
Fin, F
Fin)
Bとを出力する
機械学習モデルとなっている。
【0039】
ここで、キーポイントは、設定された所定の観点から対象となる画像を見た場合に、画像中において特徴的と判断される部分(画像識別の際に重要となる部分)のことである。また、記述子は、キーポイントの周囲の画像領域から取り出された特徴量であって、具体的にはこのキーポイントの意味情報を記述する高次元ベクトルである。これらキーポイント及び記述子は、画像マッチングを行うための重要な画像特徴量となっている。
【0040】
以上述べたような画像特徴量処理を実現するべく、画像特徴量抽出モデル1は具体的に、
(A)元画像A及びBの各画像について、抽出された「画像全部の特徴量」D0から、当該元画像の解像度である元解像度より低い少なくとも1つ(L個)の低解像度段階の各々における「低解像度キーポイント」K1
C~KL
C及び「低解像度記述子」F1
C~FL
Cを生成する低解像度特徴量生成部11と、
(B)上記の低解像度段階毎に、元画像A及びBの間で「低解像度キーポイント」のマッチング処理を実施し、マッチした「低解像度キーポイント」のペアM1
C~ML
Cを生成する低解像度キーポイント(KP)マッチング部12と、
(C)元画像A及びBの各画像について、上記の低解像度段階毎に、マッチした「低解像度キーポイント」に対しアップサンプリング(upsampling)処理を実施し、「低解像度キーポイント」よりも多い数の、元解像度に対応した「元解像度対応キーポイント」KFinを生成し、抽出結果として出力する元解像度対応キーポイント(KP)抽出部13と、
(D)元画像A及びBの各画像について、(d1)抽出された「画像全体の特徴量」D0''から生成された各低解像度段階における「低解像度画像全体特徴量」Di''を用いて、または(d2)抽出された「画像全体の特徴量」D0''から生成された「低解像度対応画像特徴量」Di
C''を用いて、元画像(A,B)に対応する「元画像対応画像特徴量」DFinを生成し、「元画像対応画像特徴量」DFinから「元解像度対応キーポイント」KFinに基づき、元解像度に対応した「元解像度対応記述子」FFinを生成し、抽出結果として出力する元解像度対応記述子(DS)抽出部14と
してコンピュータを機能させる。
【0041】
このように画像特徴量抽出モデル1においては、上記(B)の低解像度KPマッチング部12が(一般に、より精度の高い画像マッチング結果が得られる)低解像度段階毎のキーポイントマッチングを行い、そのマッチング結果を用いて上記(C)の元解像度対応KP抽出部13が「元解像度対応キーポイント」KFinを生成している。その結果、例えば元画像Aの解像度と元画像Bの解像度とが大きく異なっている場合においても、後に精度の高い画像マッチング処理を実施可能にするキーポイント群を生成することができるのである。
【0042】
なお、上記の解像度が乖離している場合として、例えば、元画像Aがスマートフォン搭載カメラによる非常に高い解像度の画像であって、元画像Bが3Dモデルからレンダリング(描画)された、比較的低い解像度の画像である場合が挙げられる。実際、このような場合は、画像マッチング処理を実施する様々な分野において一般的にみられるものである。
【0043】
また、画像特徴量抽出モデル1においては、上記(C)の元解像度対応KP抽出部13が、上記(B)の低解像度KPマッチング部12から取得した、マッチした「低解像度キーポイント」に対しアップサンプリング処理を実施し、「低解像度キーポイント」よりも多い数の「元解像度対応キーポイント」KFinを生成している。その結果、より多い数のキーポイント群を用いてこの後、より精度の高い画像マッチングを行うことも可能となるのである。
【0044】
さらに、上記(D)の元解像度対応DS抽出部14においては、「画像全体の特徴量」D0''に基づき生成された「元画像対応画像特徴量」DFinから、(より適切な且つより多い数の)「元解像度対応キーポイント」KFinに基づき「元解像度対応記述子」FFinを生成している。この「元解像度対応記述子」FFinはそれ故、記述性(descriptiveness,画像の特徴を漏らすことなく的確に記述している程度)のより高い、例えば画像内オブジェクトの細部や付帯的な情報もより確実に記述可能な画像特徴量となっている。
【0045】
したがって、例えば元画像Aが、スマートフォン搭載カメラによって建造物の立ち並んだ市街を撮影することにより生成された非常に高い解像度の画像であって、元画像Bが、同じ市街の3Dモデルからレンダリング(描画)された、比較的低い解像度の画像である場合に、両画像において、建造物における細部の構造(例えば窓枠の形状)や、建造物にとって付帯的となる(例えば脇にある)建造物の有無等が大きく異なっていたとしても、この記述性の高い「元解像度対応記述子」FFinを用いることにより、より精度の高い画像マッチング処理を実施することも可能となるのである。
【0046】
以上、画像特徴量抽出モデル1によれば、画像間の解像度の乖離にも対応することができ、より多くのキーポイントを生成し、さらに画像内オブジェクトの細部や付帯的な情報もより多く考慮することができる画像マッチング処理を実施可能とする画像特徴量(KFin, FFin)を抽出することができるのである。
【0047】
なお、本明細書において使用されるキーポイントに係る添え字付きのK、及び記述子に係る添え字付きのFは、正確にはそれぞれ、キーポイントkの集合(K={k})及び記述子dの集合(F={d})を表している。しかしながら以下簡便な記載のため、いずれも単にキーポイントや記述子として述べる場合も少なくないことに留意すべきである。
【0048】
[モデル構成]
以下、本実施形態の画像特徴量抽出モデル1の構成について、より詳細に説明を行う。同じく
図1によれば、画像特徴量抽出モデル1は本実施形態において、
(ア)CNN部11a、並びに、低KP生成部(11-1a,・・,11-La)及び低DS生成部(11-1b,・・,11-Lb)を有する低解像度特徴量生成部11と、
(イ)ダウンサンプリング部12a、マージ部12b、及びKPマッチング部12cを有する低解像度KPマッチング部12と、
(ウ)アップサンプリング部13a及び集合部13bを有する元解像度対応KP抽出部13と、
(エ)ResNet部14a、低画像特徴生成部(14-1,・・,14-L)、及び元解像度対応DS生成部14bを有する元解像度対応DS抽出部14と
を、コンピュータに搭載されたプログラムによって具現される機能構成部として備えている。言い換えるとこれらの機能構成部としてコンピュータを機能させるモデルとなっているのである。以下、上述した各機能構成部について具体的に説明を行う。
【0049】
<低解像度特徴量生成手段>
同じく
図1に示したように、本実施形態の低解像度特徴量生成部11においては、
(ア1)CNN部11aが、元画像A及びBの各画像データIから、画像全部特徴量D
0を抽出し、
(ア2)低KP生成部(11-1a,・・,11-La)が、元画像A及びBの各々について、画像全部特徴量D
0から、元画像(A, B)の解像度である元解像度より低いL個(本実施形態ではL≧2)の低解像度段階の各々における低解像度キーポイント(K
1
C, ・・, K
L
C)及び低解像度画像全部特徴量(D
1
C, ・・, D
L
C)を生成し、
(ア3)低DS生成部(11-1b,・・,11-Lb)が、元画像A及びBの各々について、低解像度画像全部特徴量(D
1
C, ・・, D
L
C)から、低解像度キーポイント(K
1
C, ・・, K
L
C)に基づき各低解像度段階における低解像度記述子(F
1
C, ・・, F
L
C)を生成する。
【0050】
以下、上記(ア1)~(ア3)の処理をより具体的に説明する。最初に上記(ア1)のCNN部11aは本実施形態において、元画像(A, B)の画像データI(I(A)又はI(B))から、次式
(1) D0=CNNBB(I)
によって画像全部特徴量D0を算出する。
【0051】
ここで、CNNBB(・)は、公知のCNN(Convolutional Neural Network)バックボーン(Backbone)での処理を表す演算子であり、H(ピクセル)×W(ピクセル)の例えばRGB画像である画像データIの属する画像空間(RH×W×3)から、H0
C(<H)×W0
C(<W)×NF(記述子の次元数)の画像全部特徴量の属する特徴量空間(RH0C×W0C×NF)への写像を行う写像演算子である。ここで(キーポイントのピクセル)解像度H0
C×W0
Cは、解像度H×Wよりも小さい値(空間次元数)となっている。
【0052】
次に、上記(ア2)におけるi(1≦i≦L)番目の低解像度段階の低KP生成部11-(i)aは、元画像A及びBの各々の画像全部特徴量D0から、次式
(2) Ki
C, Di
C=Deti(D0)
を用いて、i番目の低解像度段階における低解像度キーポイントKi
C(1≦i≦L)及び低解像度画像全部特徴量Di
C(1≦i≦L)を算出する。ここで、Deti(・)は、(i番目の低解像度段階相当の解像度の)画像に対しキーポイント検出を行うキーポイント検出演算子である。このDeti(・)として、例えば非特許文献1に開示されたラインベースの検出器を使用してもよく、その他、形状ベースの検出器等、種々様々な公知のキーポイント検出演算子が採用可能となっている。
【0053】
また、上式(2)によって算出される低解像度画像全部特徴量Di
Cは、Hi
C×Wi
C×Ni
C(記述子の次元数)次元の低解像度画像空間(RHiC×WiC×NiC)に属しており、いわゆるデンス記述子(dense descriptors)となっている。さらに、同じく算出される低解像度キーポイントKi
Cは、画像座標系R2内の点の集合であり、すなわちKi
C={(x, y)∈R2}となっているのである。
【0054】
次に、上記(ア3)におけるi(1≦i≦L)番目の低解像度段階の低DS生成部11-(i)bは、元画像A及びBの各々の低解像度画像全部特徴量Di
Cから、低解像度キーポイントKi
Cに基づき、次式
(3) Fi
C=Di
C(x,y,:)(x,y)∈KiC
を用いて、i番目の低解像度段階における低解像度記述子Fi
C(1≦i≦L)を算出する。この上式(3)は、低解像度記述子Fi
Cが、低解像度画像全部特徴量Di
Cを構成する画像特徴量(記述子群)のうちの、低解像度キーポイントKi
Cに属する座標点(x,y)に相当するものであることを示している。言い換えると、低解像度記述子Fi
Cは、低解像度キーポイントKi
Cで規定される空間位置に基づき、低解像度画像全部特徴量Di
C(を構成する記述子群)から選択された記述子(群)であり、低解像度キーポイントKi
Cの画像内個数(濃度,cardinality)|Ki
C|をkiとすると、ki×Ni
C次元の低解像度記述子空間(Rki×NiC)に属する記述子(群)となっているのである。
【0055】
以上、低解像度特徴量生成部11は、上記(ア1)~(ア3)における処理によって、元画像A及びBの各々における、各低解像度段階(1, 2, ・・, L)での低解像度キーポイント及び低解像度記述子のペア、すなわち
(4) {(K1
C, F1
C), (K2
C, F2
C), ・・, (KL
C, FL
C)}
(Ki
C, Fi
C)={(k, d)|k∈Ki
C, d∈Fi
C}
を生成するのである。このように低解像度特徴量生成部11は、この後、低解像度KPマッチング処理を低解像度段階毎に独立して実施することができるように、各低解像度段階(i)でのペア(Ki
C, Fi
C)をそのまま出力することを特徴としている。
【0056】
この点、従来技術、例えば非特許文献1及び2や、非特許文献:Zixin Luo, et al., “ASLFeat: Learning Local Features of Accurate Shape and Localization”, Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, <https://arxiv.org/pdf/2003.10071.pdf>, 2020年 に開示された手法では、低解像度キーポイント及び低解像度記述子のペアを生成するが、この後、低解像度段階毎に低解像度キーポイントマッチング処理を実施することには何ら対応していないのである。
【0057】
ここで、上式(4)のペア(Ki
C, Fi
C)に係る解像度はHi
C×Wi
Cとなるが、この解像度は、上式(1)のCNNBB(・)としてどのようなバックボーンを採用するかによって、i=1の場合に最も高くなる(i=Lの場合に最も低くなる)のか、又はその逆であるのかが決定される。例えば、CNNBB(・)としてオートエンコーダ(autoencoder)を採用したならば、i=1の場合に最も低くなり、i=Lの場合に最も高くなる。
【0058】
以上、本実施形態の低解像度特徴量生成処理を説明したが、ここで
図2(A)に、スマートフォンカメラ画像と3Dレンダリング画像とに、本処理におけるキーポイント検出を行った実施例を示す。
【0059】
この実施例では、上式(2)のDeti(・)として、非特許文献1に開示されたラインベースの検出器を使用している。このように高精度の期待されるラインベース検出を低解像度下で行うことによって、より高い精度でマッチしたキーポイントの得られることが確認されている。すなわち、スマートフォンカメラ画像と3Dレンダリング画像との間の解像度の大きな相違を補償するキーポイント検出が実現しているのである。
【0060】
<低解像度KPマッチング手段>
同じく
図1に示したように、本実施形態の低解像度KPマッチング部12は、元画像A及びBの各々について、
(*)(後述する元解像度対応DS抽出部14から出力されて)モデル外部で更新された元解像度対応キーポイント及び元解像度対応記述子である、更新された元解像度対応キーポイントK
Fin及び更新された元解像度対応記述子F
Fin
を受け取り、以下に説明する(イ1)~(イ3)の処理を行って、マッチした低解像度キーポイントのペアM
1
C~M
L
Cを生成する。
【0061】
ここで、上記(*)の更新された元解像度対応キーポイントK
Fin及び更新された元解像度対応記述子F
Finは、本実施形態において、後に詳述する画像マッチング部93(
図4)におけるキーポイントマッチング処理の結果得られた画像特徴量となっている。したがって、元解像度対応DS抽出部14がまだ画像マッチング部93へ抽出結果を出力していない段階、すなわち低解像度KPマッチング処理の初回の段階では、以下の(イ1)及び(イ2)の処理は省略されて、低解像度KPマッチング処理は(イ3)の処理から実施されることになる。
【0062】
なお他の実施形態として、そもそも更新された元解像度対応キーポイントKFin及び更新された元解像度対応記述子FFinを利用しない低解像度KPマッチング処理を実施することも可能である。この場合、計算コストを低減することができるのである。
【0063】
同じく
図1に示したように、本実施形態の低解像度KPマッチング処理においては、具体的に、
(イ1)ダウンサンプリング部12aが、元画像A及びBの各々について、低解像度段階(1, 2, ・・, L)毎に、当該低解像度段階へのリスケール(re-scale)処理の施された更新された元解像度対応キーポイントK
Fin(以下ではK
i
F→C_LOCと表記)と、更新された元解像度対応記述子F
Finとに対しプーリング処理を実施して、当該低解像度段階に合わせた低解像度化キーポイントK
i
F→C及び低解像度化記述子F
i
F→Cを生成し、
(イ2)マージ部12bが、元画像A及びBの各々について、
(a)低解像度段階(1, 2, ・・, L)毎に、当該低解像度段階における低解像度化記述子F
i
F→Cと、先に生成された画像全部特徴量D
0(によって生成された低解像度画像全部特徴量D
i
C)から低解像度化キーポイントK
i
F→Cに基づき生成された記述子F
i
C_F→Cとをマージして、更新された低解像度化記述子F
i
F→C_Mを生成し、さらにこの更新された低解像度化記述子F
i
F→C_Mと先に生成された低解像度記述子F
i
Cとを合わせて新たな低解像度記述子F
i
C'とし、また、
(b)低解像度段階(1, 2, ・・, L)毎に、当該低解像度段階における低解像度化キーポイントK
i
F→Cと先に生成された低解像度キーポイントK
i
Cとを合わせて新たな低解像度キーポイントK
i
C'とし、
(イ3)KPマッチング部12cが、低解像度段階毎(1, 2, ・・, L)に、元画像A及びBの間で、新たな低解像度記述子F
i
C'を用いて新たな低解像度キーポイントK
i
C'のマッチング処理を実施し、マッチした低解像度キーポイントのペア{M
i
C}を生成するのである。
【0064】
以下、上記(イ1)~(イ3)の処理をより具体的に説明する。最初に上記(イ1)のダウンサンプリング部12aは本実施形態において、元画像A及びBの各々について、低解像度段階(1, 2, ・・, L)毎に、受け取った更新された元解像度対応キーポイントKFinと、更新された元解像度対応記述子FFinとから、次式
(5) Ki
F→C, Fi
F→C=Pooli(Ki
F→C_LOC, FFin) ここで、Ki
F→C_LOC=Rei
Down(KFin)
を用いて、低解像度化キーポイントKi
F→C、及び低解像度化記述子Fi
F→Cを生成する。
【0065】
ここで上式(5)において、Rei
Down(・)は、元解像度に対応したキーポイントの位置を低解像度段階(i)に対応した位置にリスケールする演算子である。また、Pooli(・,・)は、演算対象のキーポイントを(多数のキーポイントが概ね同一位置とみなされる場合に)スーパーノード(super node)へプーリングするプーリング演算子となっている。
【0066】
なお、以上説明したようにダウンサンプリングによって生成された低解像度化キーポイントKi
F→Cにおいて、その数(濃度,cardinality)|Ki
F→C|は、リスケール処理で生成されたKi
F→C_LOCの数(濃度,cardinality)|Ki
F→C_LOC|以下となっている(|Ki
F→C|≦|Ki
F→C_LOC|)。一方、同じく生成された低解像度化記述子Fi
F→C(∈RKi×NiF→C)において、その次元数Ni
F→Cは、低解像度記述子Fi
Cの次元数Ni
Cと同一値に設定してもよく、または、次のマージ処理で使用される演算子に応じ、次元数Ni
Cとは異なった値にすることも可能である。
【0067】
いずれにしても、このようなダウンサンプリングによって生成された低解像度化キーポイントKi
F→Cや低解像度化記述子Fi
F→Cは、この後、より適切なキーポイントを見出し、元解像度でのキーポイントの数を増加させる(アップサンプリングする)ために使用可能なものとなっているのである。
【0068】
次に、上記(イ2)のマージ部12bは本実施形態において、元画像A及びBの各々について、低解像度段階(1, 2, ・・, L)毎に、先に生成された画像全部特徴量D0によって生成された低解像度画像全部特徴量Di
Cから、低解像度化キーポイントKi
F→Cに基づき、次式
(6) Fi
C_F→C=Di
C(x,y,:)(x,y)∈KiF→C
を用いて、i番目の低解像度段階に係る記述子Fi
C_F→C(1≦i≦L)を算出する。この上式(6)は、この記述子Fi
C_F→Cが、低解像度画像全部特徴量Di
Cを構成する画像特徴量(記述子群)のうちの、低解像度化キーポイントKi
F→Cに属する座標点(x,y)に相当するものであることを示している。言い換えると、この記述子Fi
C_F→Cは、低解像度化キーポイントKi
F→Cで規定される空間位置に基づき、低解像度画像全部特徴量Di
C(を構成する記述子群)から選択された記述子(群)となっているのである。
【0069】
次いで、マージ部12bは、上式(6)の記述子Fi
C_F→Cと低解像度化記述子Fi
F→Cとを、次式
(7) Fi
F→C_M=Merge(Fi
F→C, Fi
C_F→C)
によってマージして、更新された低解像度化記述子Fi
F→C_Mを生成する。ここで、Merge(・,・)は、2つの記述子を結合させる(1つに合わせる)演算子であればよく、例えば(ベクトル)加算、ショートカット(短絡化, shortcut)、又は連結(concatenate)を行う演算子とすることができる。最後にマージ部12bは、低解像度段階(1, 2, ・・, L)毎に、次式
(8) (Ki
C', Fi
C')={(k,d)|k:=(x,y)∈Ki
C∪Ki
F→C, d∈Fi
C∪Fi
F→C_M}
で表される新たな低解像度キーポイントKi
C'と新たな低解像度記述子Fi
C'とのペア(Ki
C', Fi
C')を生成するのである。
【0070】
以上説明したように、マージ部12bは、ダウンサンプリング部12aにおいて更新された元解像度対応キーポイントKFin及び更新された元解像度対応記述子FFinから生成された低解像度化キーポイントKi
F→C及び低解像度化記述子Fi
F→Cを用い、各低解像度段階において、新たに生成されたキーポイント(Ki
C')に合わせ、より記述性の高い記述子(Fi
C')を生成するのである。
【0071】
ここで、低解像度KPマッチング部12が、更新された元解像度対応キーポイントKFin及び更新された元解像度対応記述子FFinを受け取らない場合(例えば低解像度KPマッチング処理が初回の場合)、上式(8)の(Ki
C', Fi
C')として、低解像度特徴量生成部11から受け取った(Ki
C, Fi
C)が、以下に説明するKPマッチング処理で用いられることになる。
【0072】
次に、上記(イ3)のKPマッチング部12cは本実施形態において、低解像度段階毎(1, 2, ・・, L)に、元画像A及びBの間で、新たな低解像度記述子Fi
C'を用いて新たな低解像度キーポイントKi
C'のマッチング処理を実施する。具体的には、次式
(9) Mi
C=Machingi
C{(Ki
C', Fi
C')A, (Ki
C', Fi
C')B}
をもって、マッチした低解像度キーポイントのペアMi
Cを生成し、KPマッチング処理結果として{M1
C,M2
C,・・,ML
C}を出力する。
【0073】
ここで上式(9)のMachingi
C(・,・)として、各低解像度段階(i)において互いに異なる公知のマッチング手法を適用し、互いに異なるタイプの低解像度に係るマッチングペアの情報を生成することも好ましい。各低解像度段階(i)において適切にマッチング手法の調整を行うことによって、最終的に、より精度の高い画像マッチング処理を実現可能な画像特徴量(KFin, FFin)を導出することも可能となるのである。または、いずれの解像度段階においても、軽量であって高速度のマッチング手法、例えば最近傍マッチング(nearest neighbor matching)法を用いて、計算コストをより低減させることも可能である。
【0074】
いずれにしても、上式(9)をもって生成されるペアMi
Cは、次式
(10) Mi
C:={(x,y)A-(x,y)B} ここで、(x,y)A∈Ki
C'(A),(x,y)B∈Ki
C'(B)
で規定されるものとなる。ここで“-”はマッチしたペアを表す記号であり、また上添え字A及び(A)(上添え字B及び(B))は、添え字対象量が、元画像A(元画像B)に係る量であることを示している。
【0075】
また本実施形態において、KPマッチング部12cは、更新された元解像度対応キーポイントK
Fin及び更新された元解像度対応記述子F
Finと同様、モデル外部(例えば、後述する画像マッチング部93(
図4))から、次式
(11) M
Fin={(x,y)
A-(x,y)
B} ここで、(x,y)
A∈K
Fin
(A),(x,y)
B∈K
Fin
(B)
で規定される、画像マッチング結果としてのマッチングペアM
Finを受け取った場合、これも合わせた結果、すなわち、
{M
1
C,M
2
C,・・,M
L
C}∪M
Fin
を、元解像度対応KP抽出部13へ出力する。
【0076】
<元解像度対応KP抽出手段>
同じく
図1に示したように、本実施形態の元解像度対応KP抽出部13は、元画像A及びBの各々について、
(ウ1)最初にアップサンプリング部13aとして、低解像度段階(1, 2, ・・, L)毎に、KPマッチング部12cから受け取ったマッチした低解像度キーポイントK
i
C_M(K
i
C_M
(A), K
i
C_M
(B))に対し、元解像度へのリスケール処理を施した上で逆プーリング(unpooling)処理を実施して(言い換えるとアップサンプリング処理を施して)、各低解像度段階において(アップサンプリング処理前の)低解像度キーポイントよりも多い数の、元解像度に対応した元解像度対応化キーポイントK
i
Fを生成し、
(ウ2)次いで集合部13bとして、各低解像度段階における元解像度対応化キーポイントK
i
Fを取りまとめ、元解像度対応キーポイントK
Finとして出力する。
【0077】
より具体的に、上記(ウ1)のアップサンプリング部13aは本実施形態において、元画像A及びBの各々について、低解像度段階(1, 2, ・・, L)毎に、KPマッチング部12cより受け取ったマッチした低解像度キーポイントKi
C_Mから、次式
(12) Ki
F=Unpooli(Ki
C_M→F) ここで、Ki
C_M→F=Rei
Up(Ki
C_M)
を用いて、当該低解像度段階(i)における元解像度対応化キーポイントKi
Fを生成する。
【0078】
ここで、上式(12)のRei
Up(・)は、当該低解像度段階(i)に対応したキーポイントの位置を元解像度に対応した位置にリスケールする演算子であり、位置のリスケールに関し、上式(5)のRei
Down(・)とは逆の演算子となっている。また、Unpooli(・)は、当該低解像度段階(i)に対応したキーポイントに対し、プーリング処理とは逆の処理(アンプーリング処理)を施して、元解像度に対応したキーポイントに変換する演算子である。
【0079】
このUnpooli(・)と上式(5)のPooli(・)とは、上記の位置にかかわるRei
Up(・)及びRei
Down(・)ほどには逆演算子性を要求されるものではないが、互いに演算処理において一貫性を有しかみ合った形となっていることが好ましい。具体的には、Unpooli(・)及びPooli(・)として、公知のグリッドサンプリング(grid-sampling)処理の演算子や、非特許文献:Jiahui Zhang et al., “Learning Two-View Correspondences and Geometry Using Order-Aware Network”, Published in 2019 IEEE/CVF International Conference on Computer Vision (ICCV), <https://doi.org/10.1109/ICCV.2019.00594>, 2019年、及び非特許文献:Jiatao Ying et al, “Hierarchical Graph Representation Learning with Differentiable Pooling”, Neural Information Processing Systems 31, <https://arxiv.org/pdf/1806.08804.pdf>, 2018年 に開示されたDIFFPOOL演算子及びDIFFUNPOOL演算子を採用することができる。
【0080】
次に、上記(ウ2)の集合部13bは本実施形態において、低解像度段階(1, 2, ・・, L)毎に生成された元解像度対応化キーポイントKi
Fを、次式
(13) KFin=∪i∈[1,2,・・,L]{(x,y)∈Ki
F}
で表すように取りまとめて元解像度対応キーポイントKFinを生成し、抽出結果として出力する。ここで、∪i∈[1,2,・・,L]は、iが1, 2, ・・, Lの各々である場合における後ろの集合の和集合を生成するユニオン演算子である。上式(13)によれば(次の式(14)でも同様であるが)、元解像度対応化キーポイント(Ki
F)の数は、L(設定された低解像度段階の数)をより大きく設定することによって、より増大させることが可能となる。
【0081】
また集合部13bは、KPマッチング部12cからKPマッチング処理結果として{M1
C,M2
C,・・,ML
C}∪MFinを受け取っている場合、KL+1
F=KFinとして、次式
(14) KFin=∪i∈[1,2,・・,L+1]{(x,y)∈Ki
F}
によって元解像度対応キーポイントKFinを生成することも好ましい。いずれにしても、元解像度対応KP抽出部13によれば、低解像度KPマッチング部12から受け取った低解像度KPマッチング処理結果を用いて、マッチしたキーポイントの位置を元解像度に投影した且つ数の増大した、それ故、最終的に高精度の画像マッチングをもたらし得る元解像度対応キーポイントKFin(KFin
(A), KFin
(B))を取得することができるのである。
【0082】
ここで、
図2(B)及び(C)にそれぞれ、本発明に係るKPマッチング処理、及び元解像度対応KP抽出処理の実施例を示す。
【0083】
最初に
図2(B)によれば、KPマッチング部12cにおけるKPマッチング処理により生成された(ある低解像度段階における)低解像度キーポイントのペアは、スマートフォンカメラ画像と3Dレンダリング画像との間で、良好にマッチしたキーポイントのペアとなっていることが分かる。しかしながら、その数は十分に多いとは言えないものとなっている。
【0084】
次いで
図2(C)によれば、
図2(B)に示されたマッチしたペアの各キーポイントに対し、元解像度対応KP抽出部13において元解像度対応KP抽出処理(アップサンプリング処理)を実施した結果、(このマッチしたペアの各キーポイントの周囲に)より数の多い元解像度対応化キーポイント(K
i
F)が生成されていることが分かる。このように生成された、各低解像度段階に係る多数の元解像度対応化キーポイント(K
i
F)が取りまとめられて、元解像度対応キーポイントK
Fin(K
Fin
(A), K
Fin
(B))が生成され、抽出結果として出力されるのである。
【0085】
以下、元解像度対応DS抽出部14の説明を行うが、ここで実施される元解像度対応DS抽出処理には、大きく分けて2つの実施形態(第1実施形態,第2実施形態)が存在する。
【0086】
<元解像度対応DS抽出手段:第1実施形態>
図1に戻って、第1実施形態の元解像度対応DS抽出部14においては、元画像A及びBの各々について、
(エ1)ResNet部14aが、元画像A及びBの各画像データIから、画像全体特徴量D
0''を抽出し、
(エ2)低画像特徴生成部(14-1,・・,14-L)が、元画像A及びBの各々について、画像全体特徴量D
0''に対しパイプーリング(pypooling)処理を施して各低解像度段階(1, 2, ・・, L)における低解像度画像全体特徴量D
i''を生成し、
(エ3)元解像度対応DS生成部14bが、生成された各低解像度段階(1, 2, ・・, L)における低解像度画像全体特徴量D
i''に対しアップサンプリング処理を実施し、さらに画像全体特徴量D
0''と合わせることによって、元画像(A,B)に対応する元画像対応画像特徴量D
Finを生成し、生成した元画像対応画像特徴量D
Finから(元解像度対応KP抽出部13より受け取った)元解像度対応キーポイントK
Finに基づき、元解像度に対応した元解像度対応記述子F
Finを生成し、抽出結果として出力する。
【0087】
以下、上記(エ1)~(エ3)の処理をより具体的に説明する。最初に上記(エ1)のResNet部14aはこの第1実施形態において、元画像(A, B)の画像データI(I(A)又はI(B))から、次式
(15) D0''=ResNetBB(I)
によって画像全体特徴量D0''を算出する。ここで、ResNetBB(・)は、画像内の全画素に(ラベルやカテゴリを紐づけて)意味付けを行うセマンティックセグメンテーション(Semantic Segmentation)を用いたバックボーンであるPSPNet(Pyramid Scene Parsing Network)の特徴マップ層(feature map layer)での処理を表す演算子である。
【0088】
またその結果、上式(15)で算出される画像全体特徴量D0''は、(例えば画像内オブジェクトの細部や付帯物の情報等も含み得る)画像内の意味情報も反映したハイレベルの特徴量となっているのである。ちなみに、このPSPNetの特徴マップ層は、ResNetにおける1つのバリエーションとなっている。
【0089】
ちなみに、PSPNetについては、非特許文献:Hengshuang Zhao et al., “Pyramid Scene Parsing Network”, Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, <https://arxiv.org/pdf/1612.01105.pdf>, 2017年 において詳細に説明されている。また、ResNetについては、非特許文献:Kaiming He et al., “Deep Residual Learning for Image Recognition”, Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, Volume 1, pp.770-778, <https://doi.org/10.1109/CVPR.2016.90>, 2016年 にその詳細が開示されている。
【0090】
また、ResNet部14aは、セマンティックセグメンテーションベースのバックボーンであるならば、PSPNetの特徴マップ層以外の他のバックボーンを用いて、画像全体特徴量D0''を生成してもよい。さらに、このResNet部14aと、(低解像度特徴量生成部11の)CNN部11aとを共通化し(1つの機能構成部にまとめ)、例えば、上式(1)(D0=CNNBB(I))のCNNBB(・)としてResNetBB(・)を採用することも可能である。この場合、画像全部特徴量D0と画像全体特徴量D0''とは同一の特徴量となる。またこの場合、低解像度特徴量生成部11と、元解像度対応DS抽出部14とは、同じバックボーンを共有する2つのCNNブランチとなるのである。
【0091】
次に、上記(エ2)の低画像特徴生成部(14-1,・・,14-L)はこの第1実施形態において、元画像A及びBの各々につき、画像全体特徴量D0''を用いて、次式
(16) Di''=PyPoolingi(D0'')
により、各低解像度段階(1, 2, ・・, L)における低解像度画像全体特徴量Di''を生成する。ここで、PyPoolingi(・)は、上述したPSPNetにおいて使用されているパイプーリング(pypooling)演算子である。
【0092】
次に、上記(エ3)の元解像度対応DS生成部14bはこの第1実施形態において、元画像A及びBの各々につき、生成された低解像度画像全体特徴量Di''を用いて、次式
(17) DFin=CONCAT(D0'', {UPSAMPLE(CONVi(Di''))}i∈[1,2,・・, L])
により、元画像対応画像特徴量DFinを生成する。
【0093】
ここで、CONVi(・)は、当該低解像度段階(i)の対象量に対し畳み込み処理を実施する畳み込み演算子である。またUPSAMPLE(・)は、対象量に対しアップサンプリング処理を施すアップサンプリング演算子となっている。さらにCONCAT(D0'', {UPSAMPLE(CONVi(Di''))}i∈[1,2,・・, L])は、D0''と、UPSAMPLE(CONV1(D1'')と、UPSAMPLE(CONV2(D2'')と、・・、UPSAMPLE(CONVL(DL'')との連結結果である。
【0094】
なお、上式(17)の形の処理は、上述したPSPNetにおいて通常、実施される処理であって、分類器の前段の層から取り出したCONVi(Di'')に基づき直接、デンス特徴量(元画像対応画像特徴量)DFinを抽出するものであるので、計算コストがより抑えられた処理となっている。
【0095】
次いで元解像度対応DS生成部14bは、生成した元画像対応画像特徴量DFinから(元解像度対応KP抽出部13より受け取った)元解像度対応キーポイントKFinに基づき、次式
(18) FFin=DFin(x,y,:)(x,y)∈KFin
を用いて、元解像度対応記述子FFinを生成し、抽出結果として出力するのである。ここで、上式(18)は、元解像度対応記述子FFinが、元画像対応画像特徴量DFinを構成する画像特徴量(記述子群)のうちの、元解像度対応キーポイントKFinに属する座標点(x,y)に相当するものであることを示している。言い換えると、元解像度対応記述子FFinは、元解像度対応キーポイントKFinで規定される空間位置に基づき、元画像対応画像特徴量DFin(を構成する記述子群)から選択された記述子(群)となっているのである。
【0096】
<元解像度対応DS抽出手段:第2実施形態>
同じく
図1に示したように、第2実施形態の元解像度対応DS抽出部14においては、元画像A及びBの各々について、
(エ1)ResNet部14aが、元画像A及びBの各画像データIから、画像全体特徴量D
0''を抽出し、
(エ2’)低画像特徴生成部(14-1,・・,14-L)が、元画像A及びBの各々について、低解像度段階(1, 2, ・・, L)毎に、画像全体特徴量D
0''から当該低解像度段階(i)における低解像度対応画像特徴量D
i
C''を生成し、
(エ3’)元解像度対応DS生成部14bが、当該低解像度段階(i)における低解像度対応画像特徴量D
i
C''に対しマージする処理であって、1つ前のマージする処理の結果に対し逆畳み込み処理を施したものと低解像度対応画像特徴量D
i
C''とをマージする処理を、解像度の低い順で始めて元解像度の段階に向けて順次進めることによって、元画像対応画像特徴量D
Finを生成し、この元画像対応画像特徴量D
Finから(元解像度対応KP抽出部13より受け取った)元解像度対応キーポイントK
Finに基づき、元解像度に対応した元解像度対応記述子F
Finを生成し、抽出結果として出力する。
【0097】
ここで、上記(エ1)のResNet部14aは、上述した第1実施形態と同様の処理を実施する。以下、上記(エ2’)及び(エ3’)の説明をより具体的に行う。
【0098】
最初に上記(エ2’)におけるi(1≦i≦L)番目の低解像度段階の低画像特徴生成部14-(i))は、この第2実施形態において、画像全体特徴量D0''から次式
(19) Ki
C'', Di
C''=Deti(PyPoolingi(D0''))
を用いて、i番目の低解像度段階に対応した低解像度対応キーポイントKi
C''(1≦i≦L)及び低解像度対応画像特徴量Di
C''(1≦i≦L)を算出する。ここで、Deti(・)は、上式(2)のDeti(・)と同様、(i番目の低解像度段階相当の解像度の)画像に対しキーポイント検出を行うキーポイント検出演算子である。また、PyPoolingi(・)は、上述したPSPNetにおいて使用されているパイプーリング(pypooling)演算子となっている。
【0099】
次に、上記(エ3’)における元解像度対応DS生成部14bはこの第2実施形態において、各低解像度段階(1, 2, ・・, L)の低解像度対応画像特徴量Di
C''を、i=1からi=Lまで順次用いて、次式
(20) Di+1
F=Merge(DECONVi
H(Di
F), Di
C'')
により、元画像対応画像特徴量DFin(=DL+1
F)を算出する。ここで、D1
FはD0''である(D1
F=D0'')。さらに、DECONVi
H(・)は、元解像度レベルへの逆畳み込み演算子であって、Merge(・,・)は、対象量をマージする演算子となっている。すなわち上式(20)は簡潔に言えば、画像全体特徴量D0''を、各低解像度段階の低解像度対応画像特徴量Di
C''を用いて元解像度にまでアップスケールするデコーダを表しているのである。
【0100】
次いで元解像度対応DS生成部14bは、生成した元画像対応画像特徴量DFinから(元解像度対応KP抽出部13より受け取った)元解像度対応キーポイントKFinに基づき、次式
(21) FFin=DFin(x,y,:)(x,y)∈KFin (上式(18)と同じ形の式)
を用いて、元解像度対応記述子FFinを生成し、抽出結果として出力するのである。
【0101】
以上、元解像度対応DS抽出部14について、2つの実施形態(第1実施形態,第2実施形態)の説明を行ったが、いずれにしても元解像度対応DS抽出部14は、元画像A及びBの各々について、(元解像度対応KP抽出部13より受け取った)元解像度対応キーポイントKFinと、それに対応する(自ら生成した)元解像度対応記述子FFinとのペア、すなわち、
(KFin, FFin)A, (KFin, FFin)B
を生成し、本画像特徴量抽出モデルの抽出結果(成果)として出力するのである。
【0102】
このうち、元解像度対応キーポイントKFinは、上述したように(後の高精度の画像マッチングを行うのに適した)より多くの数の、元解像度下でのキーポイント(群)となっている。また元解像度対応記述子FFinは、セマンティックセグメンテーションに基づく画像全体特徴量D0''から生成されており、(例えば画像内オブジェクトの細部や付帯物の情報等も含み得る)画像内の意味情報も反映したハイレベルの記述子となっているのである。
【0103】
[画像特徴量抽出方法]
図3は、本発明による画像特徴量抽出方法の一実施形態における概略を示すフローチャートである。以下、本方法のステップS101~S109における処理の流れを説明する。
【0104】
(S101)元画像A及びBの画像データを、外部から取得する。
(S102)取得されたこれらの画像データを用い、各画像について「低解像度キーポイント」及び「低解像度記述子」を生成する。
【0105】
次いで以下、ステップS103~S108を所定回数(N回)繰り返す元解像度対応KP・DS生成処理を実施する。ちなみに、この所定回数を、例えば4~8回(4≦N≦8)とすることによって、良好な結果の得られることが確認されている。
(S103)外部で生成された「更新された元解像度対応キーポイント」及び「更新された元解像度対応記述子」が存在するか否かを判定する。
このステップS103での判定は、本実施形態においては上述したように、今回の元解像度対応KP・DS生成処理が初回ではないか否かの判定と同じものとなっている。ここで、偽の(存在しないとの又は初回との)判定がなされた場合、ステップS106へ移行する。
【0106】
(S104)一方、ステップS103で真の(存在するとの)判定がなされた場合、「更新された元解像度対応キーポイント」及び「更新された元解像度対応記述子」に対しダウンサンプリング処理を実施する。
(S105)ステップS104におけるダウンサンプリング処理の結果と、ステップS102で生成された「低解像度キーポイント」及び「低解像度記述子」とを用いて、新たな「低解像度キーポイント」及び新たな「低解像度記述子」を生成する。
【0107】
(S106)(新たな)「低解像度キーポイント」及び(新たな)「低解像度記述子」を用いて、低解像度KPマッチング処理を実施する。
(S107)ステップS106の処理結果に対し、元解像度対応KP抽出処理を実施し、「元解像度対応キーポイント」を生成する。
(S108)取得された画像データから生成された画像全体特徴量に対し、「元解像度対応キーポイント」を用いた元解像度対応DS抽出処理を実施し、「元解像度対応記述子」を生成する。
【0108】
(S109)所定回数(N回)終了後のステップS107及びステップS108において生成された、元画像A及びBの各々における「元解像度対応キーポイント」及び「元解像度対応記述子」を、抽出結果として出力する。
【0109】
[画像マッチング装置・プログラム]
図4は、本発明による画像マッチング装置9の一実施形態を示す機能ブロック図である。
【0110】
図4によれば、本実施形態の画像マッチング装置9は、
(a)画像マッチング対象である元画像A及びBの各々の画像データを取り入れる入力部91と、
(b)以上に詳述した画像特徴量抽出モデル1を用いて、取り入れられた画像データから、元画像Aの画像特徴量(K
Fin, F
Fin)
A及び元画像Bの(K
Fin, F
Fin)
Bを生成する画像特徴量抽出部92と、
(c)生成された画像特徴量(K
Fin, F
Fin)
A及び(K
Fin, F
Fin)
Bを用いて、元画像A及びBの画像マッチング処理を実施する画像マッチング部93と、
(e)上記(c)の画像マッチング処理の結果である(マッチするキーポイントのペアである)マッチングペアM
Finを外部に提供する出力部94と
を有している。
【0111】
ここで、画像特徴量抽出部92及び画像マッチング部93は、本発明による(画像特徴量抽出方法も含む)画像マッチング方法の一実施形態を実施する主要機能構成部であり、さらに、本発明による(画像特徴量抽出プログラムも含む)画像マッチングプログラムの一実施形態を保存したプロセッサ・メモリの機能となっている。またこのことから、画像マッチング装置9は、画像マッチング処理の専用装置であってもよいが、本発明による画像マッチングプログラムを搭載した、例えばクラウドサーバ、非クラウドのサーバ装置、パーソナル・コンピュータ(PC)、ノート型若しくはタブレット型コンピュータ、又はスマートフォン等とすることも可能である。
【0112】
同じく
図4において、入力部91は、例えば通信機能を備えていて外部の情報処理装置、例えば画像管理サーバ等から元画像A及び元画像Bを受信するものであってもよく、または、ユーザが直接元画像A及び元画像Bを入力可能なUSB(Universal Serial Bus)等のインタフェースとすることもできる。さらに、出力部94も、例えば通信機能を備えていて外部の情報処理装置、例えば画像提供元の画像管理サーバ等へ画像マッチング結果を送信するものとすることができ、または、画像マッチング結果を表示可能なディスプレイであってもよい。
【0113】
また、画像マッチング部93は、種々様々な公知の画像マッチング手法、例えば最近傍マッチング法、を用いて画像マッチング処理を実施するものであってもよいが、本実施形態においては、よりマッチング精度を高めることの可能なグラフアテンション(GAT, Graph ATtntion)処理を用いた画像マッチングを行う。
【0114】
具体的には、画像マッチング部93における
(a)グラフ生成部931が、元画像A及びBの各々について、元解像度対応キーポイントKFinを用いて当該元画像を表現するグラフを生成し、
(b)グラフアテンション部932が、元画像A及びBの各々について、元解像度対応記述子FFinに対し、生成されたグラフを用いたGAT処理を施して、更新された元解像度対応記述子FFinを生成し、
(c)KPマッチング部933が、更新された元解像度対応記述子FFinを用いて元解像度対応キーポイントKFinのマッチング処理を実施し、マッチングペアMFinを生成するのである。
【0115】
ここで画像マッチング部93は本実施形態において、元画像A及びBの各々についての元解像度対応キーポイントKFinと元解像度対応記述子FFinとの更新されたペア(KFin, FFin)、及び上記(c)のマッチングペアMFinを、(画像特徴量抽出部92の)画像特徴量抽出モデル1に取り込ませ画像特徴量抽出に使用させて、そこから画像特徴量抽出結果を受け取る処理を、所定回数(N回)繰り返す。次いでその後、最終的に生成したマッチングペアMFinを出力部94へ出力するのである。
【0116】
これにより、画像マッチング部93は、元画像A及びB間の解像度の乖離により良く対応することができ、更により多くのキーポイントを生成し、また、画像内オブジェクトの細部や付帯的な情報も更により多く考慮することの可能な画像マッチング処理を実施することができるのである。
【0117】
ちなみに、上記(c)のKPマッチング部933における画像マッチング手法としては、非特許文献:Paul-Edouard Sarlin et al., “SuperGlue: Learning Feature Matching with Graph Neural Networks”, Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, <https://arxiv.org/pdf/1911.11763.pdf>, 2020年 に開示された手法を適用することができる。
【0118】
この非特許文献(Sarlin et al.)の画像マッチング手法では、異なる入力画像部分の影響を重み付けして考慮するアテンション機構を用いた深層学習モデルであるトランスフォーマ(Transformer)を採用している。このトランスフォ-マは、記述子とキーポイントの位置との両方に基づき画像マッチングを実施するように訓練されており、(a)キーポイントの位置を把握するキーポイントエンコーダと、(b)キーポイントと記述子における各画像内の若しくは画像間の特徴とに係るセルフ/クロスアテンション層(9層構成)と、(c)2つの埋め込み表現特徴量のマッチングをとるためのシンクホーン(Sinkhorn)アルゴリズムを含むマッチング層とを備えている。このようなトランスフォーマを利用することによって、非常に精度の高い画像マッチングを行うことができるのである。
【0119】
以上詳細に説明したように、本発明によれば、画像間の解像度の乖離にも対応することができ、より多くのキーポイントを生成し、さらに画像内オブジェクトの細部や付帯的な情報もより多く考慮することができる画像マッチング処理を実施することが可能となる。また、このような画像マッチング処理を実施することのできる画像特徴量を抽出することが可能となる。
【0120】
また、本発明による高精度の画像マッチング処理を、都市内に設置された多数の防犯カメラによる膨大な量のカメラ画像の解析に活かし、トラブル・犯罪発生の予測・検出や、さらには犯人の検挙等を促進することもできる。すなわち本発明によれば、国連が主導する持続可能な開発目標(SDGs)の目標11「都市を包摂的、安全、レジリエントかつ持続可能にする」に貢献することも可能となるのである。
【0121】
さらに、本発明による高精度の画像マッチング処理を、対象地域、特に農作地帯、森林地帯や、乾燥地帯の衛星写真や航空写真、さらには対象海域の衛星写真や航空写真の解析に活かし、そのような地域・海域における各種状態、例えば作物の生育状況、生態系の現状や、気候変動の影響の調査を行うこともできる。すなわち本発明によれば、国連が主導する持続可能な開発目標(SDGs)における目標13「気候変動とその影響に立ち向かうため、緊急対策を取る」、目標14「海洋と海洋資源を保全し、持続可能な形で利用する」、及び目標15「森林の持続可能な管理、砂漠化への対処、土地劣化の阻止および逆転、ならびに生物多様性損失の阻止を図る」に貢献することも可能となるのである。
【0122】
上述した本発明の種々の実施形態について、本発明の技術思想及び見地の範囲の種々の変更、修正及び省略は、当業者によれば容易に行うことができる。以上に述べた説明はあくまで例であって、何ら制約しようとするものではない。本発明は、特許請求の範囲及びその均等物として限定するものにのみ制約される。
【符号の説明】
【0123】
1 画像特徴量抽出モデル
11 低解像度特徴量生成部
11a CNN部
11-1a,11-2a,11-La 低キーポイント(KP)生成部
11-1b,11-2b,11-Lb 低記述子(DS)生成部
12 低解像度KPマッチング部
12a ダウンサンプリング部
12b マージ部
12c KPマッチング部
13 元解像度対応KP抽出部
13a アップサンプリング部
13b 集合部
14 元解像度対応DS抽出部
14a ResNet部
14-1,14-2,14-L 低画像特徴生成部
14b 元解像度対応DS生成部
9 画像マッチング装置
91 入力部
92 画像特徴量抽出部
93 画像マッチング部
931 グラフ生成部
932 グラフアテンション部
933 KPマッチング部
94 出力部