IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 日本電気株式会社の特許一覧

特表2024-533566画像マッチング装置、制御方法、及びプログラム
<>
  • 特表-画像マッチング装置、制御方法、及びプログラム 図1
  • 特表-画像マッチング装置、制御方法、及びプログラム 図2
  • 特表-画像マッチング装置、制御方法、及びプログラム 図3
  • 特表-画像マッチング装置、制御方法、及びプログラム 図4
  • 特表-画像マッチング装置、制御方法、及びプログラム 図5
  • 特表-画像マッチング装置、制御方法、及びプログラム 図6
  • 特表-画像マッチング装置、制御方法、及びプログラム 図7
  • 特表-画像マッチング装置、制御方法、及びプログラム 図8
  • 特表-画像マッチング装置、制御方法、及びプログラム 図9
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2024-09-12
(54)【発明の名称】画像マッチング装置、制御方法、及びプログラム
(51)【国際特許分類】
   G06T 7/55 20170101AFI20240905BHJP
【FI】
G06T7/55
【審査請求】有
【予備審査請求】未請求
(21)【出願番号】P 2024516837
(86)(22)【出願日】2021-09-30
(85)【翻訳文提出日】2024-03-15
(86)【国際出願番号】 JP2021036063
(87)【国際公開番号】W WO2023053317
(87)【国際公開日】2023-04-06
(81)【指定国・地域】
(71)【出願人】
【識別番号】000004237
【氏名又は名称】日本電気株式会社
(74)【代理人】
【識別番号】100103894
【弁理士】
【氏名又は名称】家入 健
(72)【発明者】
【氏名】ロドリゲス ロイストン
(72)【発明者】
【氏名】谷 真宏
【テーマコード(参考)】
5L096
【Fターム(参考)】
5L096AA09
5L096FA62
5L096FA66
5L096GA51
5L096JA03
5L096JA11
5L096KA04
(57)【要約】
画像マッチング装置(2000)は、地上画像(20)と、空撮画像(30)と、地上深度画像(40)と、空撮深度画像(50)とを取得する。地上深度画像(40)は、地上画像(20)に撮像されている各位置と地上カメラとの距離を示す。空撮深度画像(50)は、空撮画像に撮像されている中心位置から空撮画像(50)に撮像されている各位置までの距離を示す。画像マッチング装置(2000)は、地上画像と地上深度画像から特徴量を抽出して地上特徴量(60)を算出し、空撮画像と空撮深度画像から特徴量を抽出して空撮深度画像(70)を算出する。画像マッチング装置(2000)は、地上特徴量(60)と空撮特徴量(70)とを用いて、地上画像(20)と空撮画像(30)とが互いにマッチするか否かを判定する。
【選択図】図1
【特許請求の範囲】
【請求項1】
命令を格納するように構成される少なくとも1つの記憶要素と、
前記命令を実行することにより、
地上画像と、空撮画像と、地上深度画像と、空撮深度画像とを取得し、前記地上深度画像は、前記地上画像に撮像されている各位置と地上カメラとの距離を示す画像であり、前記空撮深度画像は、前記空撮画像に撮像されている中心位置から前記空撮画像に撮像されている各位置までの距離を示す画像であり、
前記地上画像と前記地上深度画像から特徴量を抽出して地上特徴量を算出し、
前記空撮画像と前記空撮深度画像から特徴量を抽出して空撮特徴量を算出し、
前記地上特徴量と前記空撮特徴量とに基づいて、前記地上画像と前記空撮画像とが互いにマッチするか否かを判定する、ように構成される少なくとも1つのプロセッサとを有する、画像マッチング装置。
【請求項2】
前記空撮深度画像の取得は、
前記空撮画像の中心と前記空撮画像の各ピクセルとの間の距離を算出し、前記空撮深度画像の各ピクセルに対して、そのピクセルと前記空撮深度画像の中心との間の前記算出された距離に比例する値を設定することにより、前記空撮深度画像を生成することと、
前記生成された空撮深度画像を取得することとを含む、請求項1に記載の画像マッチング装置。
【請求項3】
前記地上画像と前記空撮画像とが互いにマッチするか否かの判定は、
前記地上特徴量と前記空撮特徴量の類似度を算出することと、
前記算出された類似度が所定の閾値以上である場合に、前記地上画像と前記空撮画像とが互いに一致すると判定することとを含む、請求項1又は2に記載の画像マッチング装置。
【請求項4】
前記少なくとも1つの記憶要素は、第1モデルと第2モデルをさらに格納するように構成され、前記第1モデルは、前記地上画像と前記地上深度画像から特徴量を抽出して前記地上特徴量を出力するように訓練され、前記第2モデルは、前記空撮画像と前記空撮深度画像から特徴量を抽出して前記空撮特徴量を出力するように訓練され、
前記少なくとも1つのプロセッサは、前記命令を実行することにより、
前記地上画像と、前記地上深度画像と、正例の前記空撮画像と、負例の前記空撮画像と、前記空撮深度画像とが含まれる訓練データセットを取得し、
前記地上画像と前記地上深度画像とを前記第1モデルに入力して前記地上特徴量を取得し、
前記正例と前記空撮深度画像とを前記第2モデルに入力して前記正例の空撮特徴量を取得し、
前記負例と前記空撮深度画像とを前記第2モデルに入力して前記負例の空撮特徴量を取得し、
前記地上特徴量、前記正例の前記空撮特徴量、及び前記負例の前記空撮特徴量に基づいて、前記第1モデルと前記第2モデルの訓練可能なパラメータを更新する、ようにさらに構成される、請求項1から3いずれか一項に記載の画像マッチング装置。
【請求項5】
前記少なくとも1つの記憶要素は、第1モデルと第2モデルをさらに格納するように構成され、前記第1モデルは、前記地上画像と前記地上深度画像から特徴量を抽出して前記地上特徴量を出力するように訓練され、前記第2モデルは、前記空撮画像と前記空撮深度画像から特徴量を抽出して前記空撮特徴量を出力するように訓練され、
前記少なくとも1つのプロセッサは、前記命令を実行することにより、
前記空撮画像と、正例の前記地上画像と、負例の前記空撮画像と、前記空撮深度画像と、前記正例に対応する地上深度画像と、前記負例に対応する地上深度画像とが含まれる訓練データセットを取得し、
前記空撮画像と前記空撮深度画像とを前記第2モデルに入力して前記空撮特徴量を取得し、
前記正例と前記正例に対応する前記地上深度画像とを前記第1モデルに入力して前記正例の地上特徴量を取得し、
前記負例と前記負例に対応する前記地上深度画像とを前記第1モデルに入力して前記負例の地上特徴量を取得し、
前記空撮特徴量、前記正例の前記地上特徴量、及び前記負例の前記地上特徴量に基づいて、前記第1モデルと前記第2モデルの訓練可能なパラメータを更新する、ようにさらに構成される、請求項1から3いずれか一項に記載の画像マッチング装置。
【請求項6】
前記少なくとも1つのプロセッサは、前記命令を実行することにより、前記訓練データセットの前記地上深度画像において所定の閾値より大きい値を示すピクセルを特定し、前記地上深度画像の前記特定したピクセルに対応する前記地上画像のピクセルを変更することにより、前記訓練データセットの前記地上画像を変更するようにさらに構成される、請求項4又は5に記載の画像マッチング装置。
【請求項7】
前記少なくとも1つのプロセッサは、前記命令を実行することにより、前記空撮画像において前記空撮画像の中心からの距離が所定の閾値より大きいピクセルを変更することにより、前記訓練データセットの前記空撮画像を変更するようにさらに構成される、請求項4又は5に記載の画像マッチング装置。
【請求項8】
地上画像と、空撮画像と、地上深度画像と、空撮深度画像とを取得することと、前記地上深度画像は、前記地上画像に撮像されている各位置と地上カメラとの距離を示す画像であり、前記空撮深度画像は、前記空撮画像に撮像されている中心位置から前記空撮画像に撮像されている各位置までの距離を示す画像であり、
前記地上画像と前記地上深度画像から特徴量を抽出して地上特徴量を算出することと、
前記空撮画像と前記空撮深度画像から特徴量を抽出して空撮特徴量を算出することと、
前記地上特徴量と前記空撮特徴量とに基づいて、前記地上画像と前記空撮画像とが互いにマッチするか否かを判定することと、を含む、コンピュータによって実行される制御方法。
【請求項9】
前記空撮深度画像の取得は、
前記空撮画像の中心と前記空撮画像の各ピクセルとの間の距離を算出し、前記空撮深度画像の各ピクセルに対して、そのピクセルと前記空撮深度画像の中心との間の前記算出された距離に比例する値を設定することにより、前記空撮深度画像を生成することと、
前記生成された空撮深度画像を取得することとを含む、請求項8に記載の制御方法。
【請求項10】
前記地上画像と前記空撮画像とが互いにマッチするか否かの判定は、
前記地上特徴量と前記空撮特徴量の類似度を算出することと、
前記算出された類似度が所定の閾値以上である場合に、前記地上画像と前記空撮画像とが互いに一致すると判定することとを含む、請求項8又は9に記載の制御方法。
【請求項11】
前記コンピュータは、第1モデルと第2モデルを格納するように構成され、前記第1モデルは、前記地上画像と前記地上深度画像から特徴量を抽出して前記地上特徴量を出力するように訓練され、前記第2モデルは、前記空撮画像と前記空撮深度画像から特徴量を抽出して前記空撮特徴量を出力するように訓練され、
前記制御方法は、
前記地上画像と、前記地上深度画像と、正例の前記空撮画像と、負例の前記空撮画像と、前記空撮深度画像とが含まれる訓練データセットを取得することと、
前記地上画像と前記地上深度画像とを前記第1モデルに入力して前記地上特徴量を取得することと、
前記正例と前記空撮深度画像とを前記第2モデルに入力して前記正例の空撮特徴量を取得することと、
前記負例と前記空撮深度画像とを前記第2モデルに入力して前記負例の空撮特徴量を取得することと、
前記地上特徴量、前記正例の前記空撮特徴量、及び前記負例の前記空撮特徴量に基づいて、前記第1モデルと前記第2モデルの訓練可能なパラメータを更新することと、をさらに含む、請求項9から10いずれか一項に記載の制御方法。
【請求項12】
前記コンピュータは、第1モデルと第2モデルを格納するように構成され、前記第1モデルは、前記地上画像と前記地上深度画像から特徴量を抽出して前記地上特徴量を出力するように訓練され、前記第2モデルは、前記空撮画像と前記空撮深度画像から特徴量を抽出して前記空撮特徴量を出力するように訓練され、
前記制御方法は、
前記空撮画像と、正例の前記地上画像と、負例の前記空撮画像と、前記空撮深度画像と、前記正例に対応する地上深度画像と、前記負例に対応する地上深度画像とが含まれる訓練データセットを取得することと、
前記空撮画像と前記空撮深度画像とを前記第2モデルに入力して前記空撮特徴量を取得することと、
前記正例と前記正例に対応する前記地上深度画像とを前記第1モデルに入力して前記正例の地上特徴量を取得することと、
前記負例と前記負例に対応する前記地上深度画像とを前記第1モデルに入力して前記負例の地上特徴量を取得することと、
前記空撮特徴量、前記正例の前記地上特徴量、及び前記負例の前記地上特徴量に基づいて、前記第1モデルと前記第2モデルの訓練可能なパラメータを更新することと、をさらに含む、請求項9から10いずれか一項に記載の制御方法。
【請求項13】
前記訓練データセットの前記地上深度画像において所定の閾値より大きい値を示すピクセルを特定し、前記地上深度画像の前記特定したピクセルに対応する前記地上画像のピクセルを変更することにより、前記訓練データセットの前記地上画像を変更することをさらに含む、請求項11又は12に記載の制御方法。
【請求項14】
前記空撮画像において前記空撮画像の中心からの距離が所定の閾値より大きいピクセルを変更することにより、前記訓練データセットの前記空撮画像を変更することをさらに含む、請求項11又は12に記載の制御方法。
【請求項15】
地上画像と、空撮画像と、地上深度画像と、空撮深度画像とを取得することと、前記地上深度画像は、前記地上画像に撮像されている各位置と地上カメラとの距離を示す画像であり、前記空撮深度画像は、前記空撮画像に撮像されている中心位置から前記空撮画像に撮像されている各位置までの距離を示す画像であり、
前記地上画像と前記地上深度画像から特徴量を抽出して地上特徴量を算出することと、
前記空撮画像と前記空撮深度画像から特徴量を抽出して空撮特徴量を算出することと、
前記地上特徴量と前記空撮特徴量とに基づいて、前記地上画像と前記空撮画像とが互いにマッチするか否かを判定することと、をコンピュータに実行させるプログラムが格納されている、非一時的なコンピュータ可読記憶媒体。
【請求項16】
前記空撮深度画像の取得は、
前記空撮画像の中心と前記空撮画像の各ピクセルとの間の距離を算出し、前記空撮深度画像の各ピクセルに対して、そのピクセルと前記空撮深度画像の中心との間の前記算出された距離に比例する値を設定することにより、前記空撮深度画像を生成することと、
前記生成された空撮深度画像を取得することとを含む、請求項15に記載の記憶媒体。
【請求項17】
前記地上画像と前記空撮画像とが互いにマッチするか否かの判定は、
前記地上特徴量と前記空撮特徴量の類似度を算出することと、
前記算出された類似度が所定の閾値以上である場合に、前記地上画像と前記空撮画像とが互いに一致すると判定することとを含む、請求項15又は16に記載の記憶媒体。
【請求項18】
第1モデルと第2モデルがさらに格納されており、前記第1モデルは、前記地上画像と前記地上深度画像から特徴量を抽出して前記地上特徴量を出力するように訓練され、前記第2モデルは、前記空撮画像と前記空撮深度画像から特徴量を抽出して前記空撮特徴量を出力するように訓練され、
前記プログラムは、
前記地上画像と、前記地上深度画像と、正例の前記空撮画像と、負例の前記空撮画像と、前記空撮深度画像とが含まれる訓練データセットを取得することと、
前記地上画像と前記地上深度画像とを前記第1モデルに入力して前記地上特徴量を取得することと、
前記正例と前記空撮深度画像とを前記第2モデルに入力して前記正例の空撮特徴量を取得することと、
前記負例と前記空撮深度画像とを前記第2モデルに入力して前記負例の空撮特徴量を取得することと、
前記地上特徴量、前記正例の前記空撮特徴量、及び前記負例の前記空撮特徴量に基づいて、前記第1モデルと前記第2モデルの訓練可能なパラメータを更新することと、を前記コンピュータにさらに実行させる、請求項15から17いずれか一項に記載の記憶媒体。
【請求項19】
第1モデルと第2モデルがさらに格納されており、前記第1モデルは、前記地上画像と前記地上深度画像から特徴量を抽出して前記地上特徴量を出力するように訓練され、前記第2モデルは、前記空撮画像と前記空撮深度画像から特徴量を抽出して前記空撮特徴量を出力するように訓練され、
前記プログラムは、
前記空撮画像と、正例の前記地上画像と、負例の前記空撮画像と、前記空撮深度画像と、前記正例に対応する地上深度画像と、前記負例に対応する地上深度画像とが含まれる訓練データセットを取得することと、
前記空撮画像と前記空撮深度画像とを前記第2モデルに入力して前記空撮特徴量を取得することと、
前記正例と前記正例に対応する前記地上深度画像とを前記第1モデルに入力して前記正例の地上特徴量を取得することと、
前記負例と前記負例に対応する前記地上深度画像とを前記第1モデルに入力して前記負例の地上特徴量を取得することと、
前記空撮特徴量、前記正例の前記地上特徴量、及び前記負例の前記地上特徴量に基づいて、前記第1モデルと前記第2モデルの訓練可能なパラメータを更新することと、をさらに前記コンピュータに実行させる、請求項15から17いずれか一項に記載の記憶媒体。
【請求項20】
前記プログラムは、前記訓練データセットの前記地上深度画像において所定の閾値より大きい値を示すピクセルを特定し、前記地上深度画像の前記特定したピクセルに対応する前記地上画像のピクセルを変更することにより、前記訓練データセットの前記地上画像を変更することを、前記コンピュータにさらに実行させる、請求項18又は19に記載の記憶媒体。
【請求項21】
前記プログラムは、前記空撮画像において前記空撮画像の中心からの距離が所定の閾値より大きいピクセルを変更することにより、前記訓練データセットの前記空撮画像を変更することを、前記コンピュータにさらに実行させる、請求項18又は19に記載の制御方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、全体として、画像マッチング、特に、地上画像と空撮画像のマッチングに関する。
【背景技術】
【0002】
グラウンド・トゥー・エアリアル・クロスビューマッチング(地上画像と空撮画像のマッチング)を行うコンピュータシステムが開発されている。例えば、非特許文献1は、視野が360度未満の地上画像と空撮画像とをマッチングするために、一組の CNN(Convolutional Neural Network) が含まれるシステムを開示する。具体的には、CNN の1つが地上画像と、方地上画像に撮像されている各位置の方向(方位と高度)が示される方向マップとのセットを取得し、そこから特徴量を抽出する。もう1つの CNN は、空撮画像と、空撮画像に撮像されている各位置の方向(方位と高度)が示される方向マップとのセットを取得し、そこから特徴量を抽出する。そして、システムは、抽出された特徴量に基づいて、地上画像が空撮画像にマッチするかを判定する。
【先行技術文献】
【非特許文献】
【0003】
【非特許文献1】Liu Liu 及び Hongdong Li、「Lending Orientation to Neural Networks for Cross-view Geo-localization」、[online]、2019年3月29日、arXiv、[2021年9月24日検索]、<URL:https://arxiv.org/pdf/1903.12351>
【非特許文献2】Zhengqi Li 及び Noah Snavely、「MegaDepth: Learning Single-View Depth Prediction from Internet Photos」、[online]、2018年4月2日、arXiv、[2021年9月24日検索]、<URL:https://arxiv.org/pdf/1804.00607>
【発明の概要】
【発明が解決しようとする課題】
【0004】
非特許文献1では、RGB 画像と方向マップ以外から特徴量を抽出することが考えられていない。本開示の目的の一つは、地上画像と空撮画像が互いに一致するか否かを決定するための新たな技術を提供することである。
【課題を解決するための手段】
【0005】
本開示は、少なくとも一つのプロセッサと、命令を格納するように構成される少なくとも1つの記憶要素とを有する訓練装置を提供する。前記少なくとも一つのプロセッサは、前記命令を実行することにより、地上画像と、空撮画像と、地上深度画像と、空撮深度画像とを取得し、前記地上深度画像は、前記地上画像に撮像されている各位置と地上カメラとの距離を示す画像であり、前記空撮深度画像は、前記空撮画像に撮像されている中心位置から前記空撮画像に撮像されている各位置までの距離を示す画像であり、前記地上画像と前記地上深度画像から特徴量を抽出して地上特徴量を算出し、前記空撮画像と前記空撮深度画像から特徴量を抽出して空撮特徴量を算出し、前記地上特徴量と前記空撮特徴量とに基づいて、前記地上画像と前記空撮画像とが互いにマッチするか否かを判定する、ように構成される。
【0006】
本開示は、コンピュータによって実行される制御方法をさらに提供する。当該制御方法は、地上画像と、空撮画像と、地上深度画像と、空撮深度画像とを取得することと、前記地上深度画像は、前記地上画像に撮像されている各位置と地上カメラとの距離を示す画像であり、前記空撮深度画像は、前記空撮画像に撮像されている中心位置から前記空撮画像に撮像されている各位置までの距離を示す画像であり、前記地上画像と前記地上深度画像から特徴量を抽出して地上特徴量を算出することと、前記空撮画像と前記空撮深度画像から特徴量を抽出して空撮特徴量を算出することと、前記地上特徴量と前記空撮特徴量とに基づいて、前記地上画像と前記空撮画像とが互いにマッチするか否かを判定することと、を含む。
【0007】
本開示は、プログラムが格納されているコンピュータ可読媒体をさらに提供する。前記プログラムは、地上画像と、空撮画像と、地上深度画像と、空撮深度画像とを取得することと、前記地上深度画像は、前記地上画像に撮像されている各位置と地上カメラとの距離を示す画像であり、前記空撮深度画像は、前記空撮画像に撮像されている中心位置から前記空撮画像に撮像されている各位置までの距離を示す画像であり、前記地上画像と前記地上深度画像から特徴量を抽出して地上特徴量を算出することと、前記空撮画像と前記空撮深度画像から特徴量を抽出して空撮特徴量を算出することと、前記地上特徴量と前記空撮特徴量とに基づいて、前記地上画像と前記空撮画像とが互いにマッチするか否かを判定することと、をコンピュータに実行させる。
【発明の効果】
【0008】
本開示によれば、地上画像と空撮画像が互いに一致するか否かを決定するための新たな技術が提供される。
【図面の簡単な説明】
【0009】
図1図1は、実施形態1の画像マッチング装置2000の概要を表す。
図2図2は、地上画像20と空撮画像30の例を表す。
図3図3は、画像マッチング装置の機能構成の例を表すブロック図である。
図4図4は、画像マッチング装置のハードウエア構成の例を表すブロック図である。
図5図5は、画像マッチング装置によって実行される処理の流れの例を表すフローチャートである。
図6図6は、画像マッチング装置が含まれるジオローカライゼーションシステムを表す。
図7図7は、空撮深度画像を表す。
図8図8は、地上特徴量抽出部の構成例を表す。
図9図9は、空撮特徴量抽出部の構成例を表す。
【発明を実施するための形態】
【0010】
以下、本開示に係る実施形態の一例を図面を参照して説明する。なお、図中の同一の要素には同一の符号を付し、必要に応じて冗長な説明を省略している。また、所定の情報(例えば、所定の値又は所定の閾値)は、特に記載のない限り、その情報を使用するコンピュータがアクセスできる記憶装置に予め記憶されている。
【0011】
実施形態1
<概要>
図1は、実施形態1の画像マッチング装置2000の概要を示す図である。画像マッチング装置2000は、地上画像20と空撮画像30とのマッチング(いわゆるグラウンド・トゥー・エアリアル・クロスビューマッチング)を行う識別器として機能する。図2に地上画像20と空撮画像30の一例を示す。
【0012】
地上画像20は、或る場所のグラウンドビューを含むデジタル画像(例えば、地上の景色のRGB 画像)である。地上画像20は、例えば、歩行者によって保持されている、又は、車両に設置されている地上カメラによって生成される。地上画像は、パノラマ(視野角360度)であってもよいし、限られた視野角(360未満)であってもよい。
【0013】
空撮画像30は、或る場所の平面視を含む画像(例えば、上空からの景色の RGB 画像)である。例えば、空撮画像30は、ドローン、飛行機、又は人工衛星に設けられている空撮カメラによって生成される。
【0014】
画像マッチング装置2000は、地上画像20及び空撮画像30に加えて、地上画像20に対応する「地上深度画像40」と呼ばれる深度画像と、空撮画像30に対応する「空撮深度画像50」と呼ばれる深度画像とを用いる。地上深度画像40は、地上画像20に撮像された各位置に対する地上カメラからのおおよその距離を示す。一方、空撮深度画像50は、空撮画像30に撮像された中心位置から空撮画像30に撮像された各位置までのおおよその距離を示す。地上画像20と空撮画像30とが一致する場合、空撮画像30に撮像された中心位置は、平面視における地上カメラの位置とおおよそ一致しうる。そのため、地上深度画像30と空撮深度画像40はいずれも、地上カメラから撮像された各位置に対するおおよその距離を示す。
【0015】
なお、詳しくは後述するように、地上深度画像40、空撮深度画像50、又はそれらの双方は、画像マッチング装置2000の外部から取得される代わりに、画像マッチング装置2000の中で生成されてもよい。
【0016】
画像マッチング装置2000は、前述した画像(地上画像20、空撮画像30、地上深度画像40及び空撮深度画像50)から特徴量を抽出する。具体的には、画像マッチング装置2000は、地上画像20及び地上深度画像40から特徴量を抽出することで、地上画像20と地上深度画像40との結合された特徴量を表す「地上特徴量60」を得る。同様に、画像マッチング装置2000は、空撮画像30と空撮深度画像50から特徴量を抽出することで、空撮画像30と空撮深度画像50との結合された特徴量を表す「空撮特徴量70」を得る。
【0017】
特徴量の抽出後、画像マッチング装置2000は、地上特徴量60と空撮特徴量70とを比較して、地上画像20と空撮画像30とが一致するか否かを判定する。地上特徴量60と空撮特徴量70との類似度が高い場合、画像マッチング装置2000は、地上画像20と空撮画像30とが一致すると判定する。一方、地上特徴量60と空撮特徴量70との類似度が低い場合、画像マッチング装置2000は、地上画像20と空撮画像30とが一致しないと判定する。
【0018】
<作用効果の例>
実施形態1の画像マッチング装置2000によれば、地上画像20と地上深度画像40との結合された特徴量と、空撮画像30と空撮深度画像50との結合された特徴量とを比較することにより、地上画像20と空撮画像30とが一致するか否かを判定する。このように、深度画像を用いることにより、地上画像20に撮像された物体と空撮画像30に撮像された物体とを、外観の類似度だけでなく、空間内における位置の類似度に基づいて比較することができる。これにより、画像マッチング装置2000は、深度画像を用いない場合に比べて、より正確にグラウンド・トゥー・エアリアル・クロスビューマッチングを行うことができる。
【0019】
特に、地上視では見えるが平面視では見えない物体がある場合や、その逆の場合には、空間上の位置の類似性を考慮することが有効である。例えば、地上カメラと空撮カメラが、地上カメラから大きく離れた場所に高い建物がある景色を撮影したとする。この場合、この建物は地上カメラからは見えるが、上空カメラからは見えない可能性がある。このため、この建物は、地上画像20には含まれているが、空撮画像30には含まれていない可能性がある。これらの画像を視覚的な類似性のみに基づいて比較すると、これらの画像が一致するかどうかを判定することが難しい可能性がある。
【0020】
その他にも例えば、地上カメラと空撮カメラが、地上カメラから離れた場所に駐車場があり、駐車場と地上カメラとの間に木や建物などの高い物体がある場所の景色を撮影したとする。この場合、この駐車場は、地上視では木や建物に隠れている可能性があるため、この駐車場は、空撮カメラからは見えるが地上カメラからは見えない可能性がある。したがって、空撮画像30には駐車場が含まれているが、地上画像20には含まれていない可能性がある。これらの画像を視覚的な類似性のみに基づいて比較すると、これらの画像が一致しているかどうかを判定することが難しい可能性がある。
【0021】
前述した場合においても、画像マッチング装置2000は、空間的な類似性を考慮して地上画像20と空撮画像30とを比較するため、これらの画像がマッチすると正しく判定しうる。
【0022】
以下、画像マッチング装置2000についてより詳細な説明が記述される。
【0023】
<機能構成の例>
図3は、画像マッチング装置2000の機能構成の例を示す図である。画像マッチング装置2000は、取得部2020、地上特徴量抽出部2040、空撮特徴量抽出部2060、及び判定部2080を有する。
【0024】
取得部2020は、地上画像20、空撮画像30、地上深度画像40、及び地上深度画像50を取得する。地上特徴量抽出部2040は、地上画像20及び地上深度画像40から特徴量を抽出して、地上特徴量60を算出する。空撮特徴量抽出部2060は、空撮画像30及び空撮深度画像50から特徴量を抽出して、空撮特徴量70を算出する。判定部2080は、地上特徴量60と空撮特徴量70とを比較することにより、地上画像20と空撮画像30とが一致するか否かを判定する。
【0025】
<ハードウエア構成の例>
画像マッチング装置2000は、1つ以上のコンピュータで実現されうる。それら1つ以上のコンピュータのそれぞれは、画像マッチング装置2000を実現するために作成された専用のコンピュータであってもよいし、パーソナルコンピュータ(PC: Personal Computer)、サーバマシン又はモバイルデバイスなどの汎用のコンピュータであってもよい。
【0026】
画像マッチング装置2000は、コンピュータにアプリケーションをインストールすることで実現されうる。そのアプリケーションは、コンピュータを画像マッチング装置2000として機能させるプログラムで実現される。言い換えれば、そのプログラムは、画像マッチング装置2000の機能構成部を実装したものである。
【0027】
図4は、画像マッチング装置2000を実現するコンピュータ1000のハードウエア構成の例を示すブロック図である。図4において、コンピュータ1000は、バス1020、プロセッサ1040、メモリ1060、ストレージデバイス1080、入出力インタフェース1100、及びネットワークインタフェース1120を有する。
【0028】
バス1020は、プロセッサ1040、メモリ1060、ストレージデバイス1080、入出力インタフェース1100、及びネットワークインタフェース1120が相互にデータの送信及び受信をするためのデータ通信路である。プロセッサ1040は、CPU(Central Processing Unit)、GPU(Graphics Processing Unit)、又は FPGA(Field-Programmable Gate Array)などといったプロセッサである。メモリ1060は、RAM(Random Access Memory)又は ROM(Read Only Memory)などの主記憶要素である。ストレージデバイス1080は、ハードディスク、SSD(Solid State Drive)、又はメモリカードなどの補助記憶要素である。入出力インタフェース1100は、コンピュータ1000と周辺デバイス(キーボード、マウス、又はディスプレイデバイスなど)との間のインタフェースである。ネットワークインタフェース1120は、コンピュータ1000とネットワークとの間のインタフェースである。ネットワークは、LAN(Local Area Network)でもよいし、WAN(Wide Area Network)でもよい。ストレージデバイス1080は、前述したプログラムを格納しうる。プロセッサ1040は、画像マッチング装置2000の各機能構成部を実現するためにそのプログラムを実行する。
【0029】
コンピュータ1000のハードウエア構成は、図4に示される構成に限定されない。
例えば、前述したように、画像マッチング装置2000は複数のコンピュータで実現されうる。この場合、それらのコンピュータは、ネットワークを介して互いに接続されうる。
【0030】
<処理の流れ>
図5は、画像マッチング装置2000の処理の流れの一例を示すフローチャートである。取得部2020は、地上画像20、空撮画像30、地上深度画像40、及び空撮深度画像50を取得する(S102)。地上特徴量抽出部2040は、地上画像20及び地上深度画像40から特徴量を抽出し、地上特徴量60を算出する(S104)。空撮特徴量抽出部2060は、空撮画像30及び空撮深度画像50から特徴量を抽出し、空撮特徴量70を算出する(S106)。判定部2080は、地上特徴量60及び空撮特徴量70を用いて、地上画像20と空撮画像40とが一致するか否かを判定する(S108)。
【0031】
<画像マッチング装置2000の適用例>
画像マッチング装置2000のアプリケーションには様々なものがある。例えば画像マッチング装置2000は、画像ジオローカライゼーションを行うシステム(以下、ジオローカライゼーションシステム)の一部として利用することができる。画像ジオローカライゼーションは、入力された画像の撮像場所を特定する技術である。ジオローカライゼーションシステム200は、1つ以上の任意のコンピュータ(図4に示されたものなど)で実装されうる。ここで、ジオローカライゼーションシステムはあくまで、画像マッチング装置2000のアプリケーションの一例であり、画像マッチング装置2000のアプリケーションは、ジオローカライゼーションシステムの中で利用されるというものに限定されない。
【0032】
図6は、画像マッチング装置2000が含まれるジオローカライゼーションシステム200を示す。ジオローカライゼーションシステム200は、画像マッチング装置2000及び位置データベース300を含む。位置データベース300は、それぞれに位置情報が付加された複数の空撮画像を含む。位置情報の例は、対応する空撮画像の撮像場所の GPS(Global Positioning System)座標でありうる。
【0033】
ジオローカライゼーションシステム200は、クライアント(例えばユーザ端末)から、地上画像及び地上深度画像が含まれるクエリを受信し、受信したクエリに含まれる地上画像とマッチする空撮画像を位置データベース300から探索し、これによって地上画像の撮像場所を特定する。具体的には、クエリに含まれる地上画像にマッチする空撮画像が検出されるまで、ジオローカライゼーションシステム200は、「位置データベース300から空撮画像を1つ取得し、地上画像と地上深度画像のセット及び取得した空撮画像と空撮深度画像のセットを画像マッチング装置2000に入力し、画像マッチング装置2000からの出力が、地上画像と空撮画像とがマッチすることを示しているか否かを判定する。」という処理を繰り返す。こうすることで、ジオローカライゼーションシステム200は、地上画像の撮像場所が含まれる空撮画像を見つけることができる。検出された空撮画像が GPS 座標などの位置情報に対応づけられているため、ジオローカライゼーションシステム200は、地上画像の撮像場所が、地上画像にマッチする空撮画像に対応づけられている位置情報によって示されている場所であると把握できる。
【0034】
なお、詳しくは後述するように、空撮深度画像と地上深度画像を得る方法は様々である。ある実装では、空撮深度画像は予め生成され、空撮画像と対応づけて位置データベース300に格納されうる。他の実装では、ジオローカライゼーションシステム200は、位置データベース300から取得された空撮画像に基づいて空撮深度画像を生成しうる。同様に、ジオローカライゼーションシステム200は、クエリから地上深度画像を取得する代わりに、地上画像から地上深度画像を生成しうる。
【0035】
なお、ジオローカライゼーションシステム200において、地上画像と空撮画像は逆の立場で利用されうる。この場合、位置データベース300は、それぞれに位置情報が付加された複数の地上画像を格納する。ジオローカライゼーションシステム200は、空撮画像が含まれるクエリを取得し、クエリ内の空撮画像とマッチする地上画像を位置データベース300から探索することにより、空撮画像に撮像されている場所の位置を特定する。
【0036】
<地上深度画像について>
地上深度画像40は、地上カメラから地上画像20に撮影された各位置までのおおよその距離を示す。例えば、地上深度画像40の画素は、その画素に対応する位置と地上カメラとの間の距離が小さいほど大きな画素値を有する。なお、地上深度画像40の画素値は、予め定められた画素の範囲(例えば [0,1])となるように正規化されることが好ましい。
【0037】
地上深度画像40を生成する方法は様々である。ある実装では、地上深度画像40は、距離センサのセンシング範囲内の各位置までの距離を測定する距離センサ(例えば、深度カメラ、LiDAR(light detection and ranging)など)を用いて生成されうる。この場合、距離センサによって生成される地上深度画像が地上カメラから各位置までのおおよその距離を示すように、地上カメラと距離センサとを近接させることが好ましい。例えば、深度センサは、地上カメラの筐体内に組み込まれうる。
【0038】
他の実装において、地上深度画像40は地上画像20から生成される。例えば、NPL2 によって開示されるもののように、RGB 画像から深度を推定する CNN ベースの技術を使用して、地上画像20から地上深度画像40を生成することができる。地上画像20からの地上深度画像40のこの生成は、画像マッチング装置2000によって実行されてもよいし、他の装置によって実行されてもよい。
【0039】
<空撮深度画像について>
空撮深度画像50は、空撮画像30に撮像された中心位置から空撮画像30に撮像された各位置までのおおよその距離を示す。空撮深度画像50は、画像マッチング装置2000によって生成されてもよいし、他の装置によって生成されてもよい。地上深度画像40と同様に、空撮深度画像50の画素の画素値は、空撮画像30の中心位置から対応する位置までの距離が小さいほど大きくなる。空撮深度画像50の画素値は、画素の範囲が所定の範囲(例えば [0,1])となるように正規化されることが好ましい。
【0040】
理論的には、空撮画像30に撮像されている位置Lから空撮画像30に撮像されている中心位置Cまでの距離は、位置Lに対応する空撮画像30のピクセルから位置Cに対応する空撮画像30の中心までの距離が長くなるほど、長くなる。したがって、空撮深度画像50の各画素の画素値は、各画素から画像の中心までの距離に基づいて決定することができる。
【0041】
このアイディアに基づいて、空撮深度画像50の各画素がその画素と空撮深度画像50の中心との距離に比例した値を持つように、空撮深度画像50を生成することができる。具体的には、例えば、画像マッチング装置2000は、空撮深度画像50を空撮画像50と同じサイズで初期化し、初期化した空撮深度画像50の各画素について、その画像から空撮深度画像50の中心までの距離に比例した値を線形関数を用いて算出してもよい。空撮深度画像50の中心までの距離が小さい画素ほど大きな値を得るために、線形関数の比例定数は負の値に設定される。そして、画像マッチング装置2000は、線形関数から得られた値を正規化し、その正規化された値を、対応する画素の画素値として用いる。
【0042】
ここで、空撮深度画像50が空撮画像30と同じサイズで初期化されているが、空撮深度画像50のサイズは空撮画像30のサイズと同じである必要はない。地上深度画像40についても同じことが当てはまり、すなわち、地上深度画像40のサイズは地上画像20のサイズと同じである必要はない。
【0043】
図7は空撮深度画像50を表す図である。この図において、密度がより低いドットは、ピクセル値の大きいピクセルの領域を表す。加えて、ピクセルのピクセル値は、空撮深度画像50の中心からそのピクセルまでの距離が短いほど大きく設定される。そのため、領域内のドットの密度は、その領域が空撮深度画像50の中心に近いほど、低く描かれている。
【0044】
<画像の取得:S102>
取得部2020は、地上画像20、空撮画像30、地上深度画像40、及び空撮深度画像50を取得する(S102)。これらの画像を取得する方法は様々である。いくつかの実装では、取得部2020は、他のコンピュータからこれらの画像を受信しうる。他の実装では、取得部2020は、アクセス可能な記憶装置からこれらの画像を取得しうる。
【0045】
地上深度画像40及び空撮深度画像50について、画像マッチング装置2000は、地上画像20及び空撮画像30に基づいてこれらを生成でき、取得部2020は画像マッチング装置2000内で生成されたこれらの深度画像を取得する。地上深度画像40と空撮深度画像50を生成する具体的な方法は前述した通りである。
【0046】
なお、空撮深度画像50のピクセル値は空撮画像30のピクセル値に依存しないため、画像マッチング装置200は、異なる空撮画像30に共通の空撮深度画像50を利用しうる。例えば、空撮深度画像50は事前に用意され、画像マッチング装置2000からアクセス可能な記憶装置に格納される。画像マッチング装置2000は、空撮画像が取得されたことに応じて、その記憶装置から空撮深度画像50を読み出しうる。
【0047】
<地上特徴量60の抽出:S104>
地上特徴量抽出部2040は、地上画像20及び空撮深度画像50に基づいて地上特徴量60を算出する(S104)。地上特徴量60は、地上画像20から抽出された特徴量と地上深度画像50から抽出された特徴量との組み合わせである。画像から特徴量を抽出する様々な方法が存在し、これらの1つが地上特徴量抽出部2040において採用されうる。例えば地上特徴量抽出部2040は、ニューラルネットワークなどの機械学習ベースのモデルで実現されうる。より具体的には、CNN(Convolutional Neural Network)の特徴抽出層が、地上特徴量抽出部2040を構成するために採用されうる。
【0048】
図8は、地上特徴量抽出部2040の構成例を表す。上部の図の場合、地上特徴量抽出部2040は、1つのネットワーク100を有する。ネットワーク100は、地上画像20と地上深度画像50とのコンカチネーションを入力として扱い、このコンカチネーションデータから特徴量を抽出し、抽出された特徴量を地上特徴量60として出力する。
【0049】
一方、下部の図の場合、地上特徴量抽出部2040は、3つのネットワーク110、120、及び130を有する。ネットワーク110は、地上画像20を入力として扱い、それから特徴量を抽出し、抽出された特徴量を出力する。同様に、ネットワーク120は、地上深度画像50を入力として扱い、それから特徴量を抽出し、抽出された特徴量を出力する。ネットワーク130は、地上画像20から抽出された特徴量と地上深度画像50から抽出された特徴量とを入力として扱い、それらを結合し、結合された特徴量を地上特徴量60として出力する。
【0050】
<空撮特徴量70の抽出:S106>
空撮特徴量抽出部2060は、空撮画像30及び空撮深度画像60に基づいて空撮特徴量70を算出する(S106)。空撮特徴量70は、地上画像20から抽出される特徴量と地上深度画像50から抽出される特徴量との組み合わせである。
【0051】
図9は、空撮特徴量抽出部2060の構成例を表す。空撮特徴量抽出部2060は、地上画像20及び地上深度画像50の代わりに空撮画像30及び空撮深度画像60を入力として扱うこと以外は、判定部2080と同じように構成することができる。
【0052】
具体的には、上部の図において、空撮特徴量抽出部2060は、空撮画像30と空撮深度画像50のコンカチネーションを入力として扱い、空撮画像30と空撮深度画像50の結合された特徴量を出力するネットワーク140を有する。下部の図において、空撮特徴量抽出部2060は、ネットワーク150、160、及び170を有する。ネットワーク150は、空撮画像30を入力として扱い、その特徴量を出力する。ネットワーク160は、空撮深度画像50を入力として扱い、その特徴量を出力する。ネットワーク170は、空撮画像30の特徴量と空撮深度画像50の特徴量とを入力として扱い、それらの結合された特徴量を出力する。
【0053】
<地上画像20と空撮画像30とのマッチング:S108>
判定部2080は、地上特徴量60と空撮特徴量70を比較することにより、地上画像20と空撮画像30とがマッチするか否かを判定する(S108)。比較のために、判定部2080は、地上画像20と空撮画像30との類似度を表す類似度スコアを算出しうる。
【0054】
類似度スコアの算出には様々な尺度を利用しうる。例えば類似度は、地上特徴量60と空撮特徴量70との間について、様々な種類の距離(例えば L2 距離)のうちの一つ、相関、コサイン類似度、又は NN(Neural network:ニューラルネットワーク)ベースの類似度として算出されうる。NN ベースの類似度は、2つの入力データ(ここでの場合、地上特徴量60と空撮特徴量70)の間の類似度を算出するように訓練されたニューラルネットワークによって算出される類似度である。
【0055】
判定部2080は、地上画像20と空撮画像30とが互いにマッチするか否かを、それらについて算出された類似度に基づいて判定する。概念的には、地上画像20と空撮画像30との類似度が高いほど、地上画像20と空撮画像30とが互いにマッチする蓋然性が高い。そこで例えば、判定部2080は、類似度スコアが所定の閾値以上であるか否かを判定する。類似度スコアが所定の閾値以上である場合、判定部2080は、地上画像20と空撮画像30とが互いにマッチすると判定する。一方、類似度スコアが所定の閾値より小さい場合、判定部2080は、地上画像20と空撮画像30とが互いにマッチしないと判定する。
【0056】
ここで、前述したケースにおける類似度スコアは、地上特徴量60と空撮特徴量70との類似度が高くなるほど大きくなると仮定されている。そのため、地上特徴量60と空撮特徴量70の類似度が高くなるほど地上特徴量60と空撮特徴量70について算出される値が小さくなる尺度(例えば距離)が利用される場合、類似度スコアは、地上特徴量60と空撮特徴量70について算出される値の逆数として定められる。
【0057】
その他にも例えば、地上特徴量60と空撮特徴量70の類似度が高くなるほど類似度スコアが小さくなる場合、判定部2080は、類似度スコアが所定の閾値以下であるかを判定する。類似度スコアが所定の閾値以下である場合、判定部2080は、地上画像20と空撮画像30とが互いにマッチすると判定する。一方、類似度スコアが所定の閾値より大きい場合、判定部2080は、地上画像20と空撮画像30とが互いにマッチしないと判定する。
【0058】
<画像マッチング装置2000からの出力>
画像マッチング装置2000は、判定の結果を表す情報(以下、出力情報)を出力しうる。例えば出力情報は、地上画像20と空撮画像30とが互いにマッチするか否かを示しうる。
【0059】
出力情報を出力する方法は様々である。例えば、画像マッチング装置2000は、出力情報を記憶装置に格納しうる。その他にも例えば、画像マッチング装置2000は、ディスプレイ装置に出力情報の内容が表示されるように、出力情報をディスプレイ装置に出力しうる。その他にも例えば、画像マッチング装置2000は、図6に示されるジオローカライゼーションシステム200に含まれる装置のような他の装置に対して、出力情報を出力しうる。
【0060】
<モデルの訓練>
画像マッチング装置2000は、ニューラルネットワークなどの機械学習ベースのモデルを1つ以上含みうる。例えば前述したように、地上特徴量抽出部2040と空撮特徴量抽出部2060は、ニューラルネットワーク(CNN の特徴抽出層など)を含みうる。画像マッチング装置2000が機械学習ベースのモデルを用いて実装される場合、それらのモデルは訓練データセットを利用して事前に訓練される。
【0061】
いくつかの実装において、モデルを訓練するコンピュータ(以下、訓練装置)は、「訓練データセットを利用して損失(例えばトリプレット損失)を算出し、算出した損失に基づいてモデルの訓練可能なパラメータを更新する」ということを繰り返し行う。ここで、画像マッチング装置2000が実装されるコンピュータ500において実装されてもよいし、他のコンピュータにおいて実装されてもよい。前者の場合、画像マッチング装置2000は後述する訓練装置の機能も有する、と言うことができる。後者の場合、訓練装置は、画像マッチング装置2000と同様にハードウエア構成を図4で例示することができる1つ以上のコンピュータを用いて実装されうる。
【0062】
トリプレット損失が利用される場合、訓練データセットは、アンカー画像、正例画像、及び負例画像を含みうる。正例画像は、アンカー画像とは異なる種類の画像であって、アンカー画像とマッチする。負例画像は、アンカー画像とは異なる種類であるが正例画像とは同じ種類である画像であって、アンカー画像とマッチしない。訓練データセットは、アンカー画像として地上画像を含む場合、アンカー画像とマッチする空撮画像を正例画像として含み、アンカー画像とマッチしない空撮画像を負例画像として含む。一方、訓練データセットは、アンカー画像として空撮画像を含む場合、アンカー画像とマッチする地上画像を正例画像として含み、アンカー画像とマッチしない地上画像を負例画像として含む。
【0063】
訓練データセットは、地上深度画像と空撮深度画像をさらに含みうる。正例画像と負例画像が地上画像である場合、訓練データセットは、正例画像に対応する地上深度画像と、負例画像に対応する地上深度画像とを含みうる。しかしながら、前述したように、地上深度画像、空撮深度画像、又はその双方は、外部から取得する代わりに生成されてもよい。
【0064】
訓練装置は、地上特徴量抽出部2040と空撮特徴量抽出部2060とを利用して、訓練データセット内の各画像から特徴量を得る。訓練データセットがアンカー画像として地上画像を含むとする。この場合、訓練装置は、アンカー画像と地上深度画像とを地上特徴量抽出部2040に入力して、アンカー画像の地上特徴量を得る。加えて、訓練装置は、正例画像と空撮深度画像とを空撮特徴量抽出部2060に入力して、正例画像の空撮特徴量を得る。同様に、訓練装置は、負例画像と空撮深度画像とを空撮特徴量抽出部2060に入力して、負例画像の空撮特徴量を得る。
【0065】
特徴量を得た後、訓練装置は、地上特徴量、正例画像の空撮特徴量、及び負例画像の空撮特徴量に基づいて、トリプレット損失を算出する。そして、訓練装置は、得られたトリプレット損失に基づいて、モデルの訓練可能なパラメータを更新する。ここで、1つ以上の機械学習ベースのモデルの訓練可能なパラメータを、それらのモデルの出力に基づいて算出されたトリプレット損失に基づいて更新する様々な既知の手法があり、訓練装置ではこれらのうちの任意の1つを採用しうる。
【0066】
訓練データセットがアンカー画像として空撮画像を含む場合、訓練装置は、アンカー画像と空撮深度画像とを空撮特徴量抽出部2060に入力して、アンカー画像の空撮特徴量を得る。加えて、訓練装置は、正例画像と、正例画像に対応する地上深度画像とを地上特徴量抽出部2040に入力して、正例画像の地上特徴量を得る。同様に、訓練装置は、負例画像と、負例画像に対応する地上深度画像とを地上特徴量抽出部2040に入力して、負例画像の地上特徴量を得る。そして、訓練装置は、空撮特徴量、正例画像の地上特徴量、及び負例画像の地上特徴量に基づいて、トリプレット損失を算出し、算出されたトリプレット損失に基づいて、モデルの訓練可能なパラメータを更新する。
【0067】
なお、トリプレット損失は、モデルの訓練に利用可能な損失の単なる一例であり、モデルの訓練には任意の他の種類の損失が利用されうる。
【0068】
<訓練データセットの変更>
訓練装置は、画像マッチング装置2000のモデルの訓練により適するように、訓練データセットを変更してもよい。なお、変更された訓練データセットだけでなく、元の訓練データセットも、モデルの訓練に利用されうる。この場合、訓練データセットの数は、元の訓練データセットを変更することによって増加する。言い換えれば、元の訓練データセットを変更することにより、データ拡張が行われる。
【0069】
いくつかの実装において、訓練装置は、地上カメラから遠い位置を表すように地上画像のピクセルを変更しうる。具体的には、訓練装置は、地上深度画像において、閾値より小さいピクセル値を持つピクセル(すなわち、地上カメラからの距離が所定の距離より大きい位置に対応するピクセル)を特定する。そして、訓練装置は、地上深度画像において特定されたピクセルに対応する地上画像のピクセルのピクセル値を変更する。
【0070】
地上画像のピクセル値は、それらのピクセルによって表されるオブジェクトが、元のピクセルによって表されるオブジェクトと比較して不明瞭となるように変更される。そのようにする方法の例は、ブラーリング、ノイズの付加、又は黒塗り(すなわち、ピクセル値を0に変更する)である。
【0071】
グラウンド・トゥー・エアリアル・クロスビューマッチングの観点からは、地上画像に撮像されたオブジェクトが地上画像に近いほど、それらのオブジェクトの特徴量はマッチングにとってより有効である。そのため、特徴抽出器にとっては、地上カメラから比較的近いオブジェクトの特徴量が、地上カメラから比較的遠いオブジェクトの特徴量よりも支配的になるように、特徴量を抽出することが好適である。
【0072】
地上カメラから比較的遠いオブジェクトが不明瞭となるように地上画像を変更することにより、地上特徴量抽出部2040によって抽出される地上特徴量において、地上カメラから比較的近いオブジェクトを表すピクセルから抽出される特徴量が支配的になる。そのため、地上特徴量抽出部2040は、グラウンド・トゥー・エアリアル・クロスビューマッチングにとってより有効な地上画像の特徴量を抽出するように、訓練されることができる。
【0073】
同様にして、訓練装置は、空撮画像に撮像されている中心位置から遠いオブジェクトを表す空撮画像のピクセルを変更しうる。具体的には、訓練装置は、空撮画像の中心からの距離が所定の閾値より大きい、空撮画像のピクセルを特定する。そして、訓練装置は、特定された空撮画像のピクセルのピクセル値を変更する。地上画像の変更のように、空撮画像を変更する方法の例は、ブラーリング、ノイズの付加、又は黒塗りである。上述した方法で空撮画像を変更することにより、空撮特徴量抽出部2060は、グラウンド・トゥー・エアリアル・クロスビューマッチングにとってより有効な空撮画像の特徴量を抽出するように、訓練されることができる。
【0074】
ここで、訓練装置は、訓練データセットにおける地上画像、空撮画像、又はその双方を変更しうる。
【0075】
プログラムは、様々なタイプの非一時的なコンピュータ可読媒体(non-transitory computer readable medium)を用いて格納され、コンピュータに提供することができる。非一時的なコンピュータ可読媒体は、様々なタイプの実体のある記録媒体(tangible storage medium)を含む。非一時的なコンピュータ可読媒体の例は、磁気記録媒体(例えば、フレキシブルディスク、磁気テープ、ハードディスクドライブ)、光磁気記録媒体(例えば、光磁気ディスク)、CD-ROM、CD-R、CD-R/W、半導体メモリ(例えば、マスク ROM、PROM(Programmable ROM)、EPROM(Erasable PROM)、フラッシュROM、RAM)を含む。また、プログラムは、様々なタイプの一時的なコンピュータ可読媒体(transitory computer readable medium)によってコンピュータに提供されてもよい。一時的なコンピュータ可読媒体の例は、電気信号、光信号、及び電磁波を含む。一時的なコンピュータ可読媒体は、電線及び光ファイバ等の有線通信路、又は無線通信路を介して、プログラムをコンピュータに供給できる。
【0076】
本開示は実施形態を参照しながら上述のように説明されているが、本開示は前述した実施形態に限定されない。本開示の構成や詳細には、本開示のスコープ内で当業者が理解しうる様々な変更を加えることができる。
【0077】
上記の実施形態の一部又は全部は、以下の付記のようにも記載されうるが、以下には限られない。
<付記>
(付記1)
命令を格納するように構成される少なくとも1つの記憶要素と、
前記命令を実行することにより、
地上画像と、空撮画像と、地上深度画像と、空撮深度画像とを取得し、前記地上深度画像は、前記地上画像に撮像されている各位置と地上カメラとの距離を示す画像であり、前記空撮深度画像は、前記空撮画像に撮像されている中心位置から前記空撮画像に撮像されている各位置までの距離を示す画像であり、
前記地上画像と前記地上深度画像から特徴量を抽出して地上特徴量を算出し、
前記空撮画像と前記空撮深度画像から特徴量を抽出して空撮特徴量を算出し、
前記地上特徴量と前記空撮特徴量とに基づいて、前記地上画像と前記空撮画像とが互いにマッチするか否かを判定する、ように構成される少なくとも1つのプロセッサとを有する、画像マッチング装置。
(付記2)
前記空撮深度画像の取得は、
前記空撮画像の中心と前記空撮画像の各ピクセルとの間の距離を算出し、前記空撮深度画像の各ピクセルに対して、そのピクセルと前記空撮深度画像の中心との間の前記算出された距離に比例する値を設定することにより、前記空撮深度画像を生成することと、
前記生成された空撮深度画像を取得することとを含む、付記1に記載の画像マッチング装置。
(付記3)
前記地上画像と前記空撮画像とが互いにマッチするか否かの判定は、
前記地上特徴量と前記空撮特徴量の類似度を算出することと、
前記算出された類似度が所定の閾値以上である場合に、前記地上画像と前記空撮画像とが互いに一致すると判定することとを含む、付記1又は2に記載の画像マッチング装置。
(付記4)
前記少なくとも1つの記憶要素は、第1モデルと第2モデルをさらに格納するように構成され、前記第1モデルは、前記地上画像と前記地上深度画像から特徴量を抽出して前記地上特徴量を出力するように訓練され、前記第2モデルは、前記空撮画像と前記空撮深度画像から特徴量を抽出して前記空撮特徴量を出力するように訓練され、
前記少なくとも1つのプロセッサは、前記命令を実行することにより、
前記地上画像と、前記地上深度画像と、正例の前記空撮画像と、負例の前記空撮画像と、前記空撮深度画像とが含まれる訓練データセットを取得し、
前記地上画像と前記地上深度画像とを前記第1モデルに入力して前記地上特徴量を取得し、
前記正例と前記空撮深度画像とを前記第2モデルに入力して前記正例の空撮特徴量を取得し、
前記負例と前記空撮深度画像とを前記第2モデルに入力して前記負例の空撮特徴量を取得し、
前記地上特徴量、前記正例の前記空撮特徴量、及び前記負例の前記空撮特徴量に基づいて、前記第1モデルと前記第2モデルの訓練可能なパラメータを更新する、ようにさらに構成される、付記1から3いずれか一項に記載の画像マッチング装置。
(付記5)
前記少なくとも1つの記憶要素は、第1モデルと第2モデルをさらに格納するように構成され、前記第1モデルは、前記地上画像と前記地上深度画像から特徴量を抽出して前記地上特徴量を出力するように訓練され、前記第2モデルは、前記空撮画像と前記空撮深度画像から特徴量を抽出して前記空撮特徴量を出力するように訓練され、
前記少なくとも1つのプロセッサは、前記命令を実行することにより、
前記空撮画像と、正例の前記地上画像と、負例の前記空撮画像と、前記空撮深度画像と、前記正例に対応する地上深度画像と、前記負例に対応する地上深度画像とが含まれる訓練データセットを取得し、
前記空撮画像と前記空撮深度画像とを前記第2モデルに入力して前記空撮特徴量を取得し、
前記正例と前記正例に対応する前記地上深度画像とを前記第1モデルに入力して前記正例の地上特徴量を取得し、
前記負例と前記負例に対応する前記地上深度画像とを前記第1モデルに入力して前記負例の地上特徴量を取得し、
前記空撮特徴量、前記正例の前記地上特徴量、及び前記負例の前記地上特徴量に基づいて、前記第1モデルと前記第2モデルの訓練可能なパラメータを更新する、ようにさらに構成される、付記1から3いずれか一項に記載の画像マッチング装置。
(付記6)
前記少なくとも1つのプロセッサは、前記命令を実行することにより、前記訓練データセットの前記地上深度画像において所定の閾値より大きい値を示すピクセルを特定し、前記地上深度画像の前記特定したピクセルに対応する前記地上画像のピクセルを変更することにより、前記訓練データセットの前記地上画像を変更するようにさらに構成される、付記4又は5に記載の画像マッチング装置。
(付記7)
前記少なくとも1つのプロセッサは、前記命令を実行することにより、前記空撮画像において前記空撮画像の中心からの距離が所定の閾値より大きいピクセルを変更することにより、前記訓練データセットの前記空撮画像を変更するようにさらに構成される、付記4又は5に記載の画像マッチング装置。
(付記8)
地上画像と、空撮画像と、地上深度画像と、空撮深度画像とを取得することと、前記地上深度画像は、前記地上画像に撮像されている各位置と地上カメラとの距離を示す画像であり、前記空撮深度画像は、前記空撮画像に撮像されている中心位置から前記空撮画像に撮像されている各位置までの距離を示す画像であり、
前記地上画像と前記地上深度画像から特徴量を抽出して地上特徴量を算出することと、
前記空撮画像と前記空撮深度画像から特徴量を抽出して空撮特徴量を算出することと、
前記地上特徴量と前記空撮特徴量とに基づいて、前記地上画像と前記空撮画像とが互いにマッチするか否かを判定することと、を含む、コンピュータによって実行される制御方法。
(付記9)
前記空撮深度画像の取得は、
前記空撮画像の中心と前記空撮画像の各ピクセルとの間の距離を算出し、前記空撮深度画像の各ピクセルに対して、そのピクセルと前記空撮深度画像の中心との間の前記算出された距離に比例する値を設定することにより、前記空撮深度画像を生成することと、
前記生成された空撮深度画像を取得することとを含む、付記8に記載の制御方法。
(付記10)
前記地上画像と前記空撮画像とが互いにマッチするか否かの判定は、
前記地上特徴量と前記空撮特徴量の類似度を算出することと、
前記算出された類似度が所定の閾値以上である場合に、前記地上画像と前記空撮画像とが互いに一致すると判定することとを含む、付記8又は9に記載の制御方法。
(付記11)
前記コンピュータは、第1モデルと第2モデルを格納するように構成され、前記第1モデルは、前記地上画像と前記地上深度画像から特徴量を抽出して前記地上特徴量を出力するように訓練され、前記第2モデルは、前記空撮画像と前記空撮深度画像から特徴量を抽出して前記空撮特徴量を出力するように訓練され、
前記制御方法は、
前記地上画像と、前記地上深度画像と、正例の前記空撮画像と、負例の前記空撮画像と、前記空撮深度画像とが含まれる訓練データセットを取得することと、
前記地上画像と前記地上深度画像とを前記第1モデルに入力して前記地上特徴量を取得することと、
前記正例と前記空撮深度画像とを前記第2モデルに入力して前記正例の空撮特徴量を取得することと、
前記負例と前記空撮深度画像とを前記第2モデルに入力して前記負例の空撮特徴量を取得することと、
前記地上特徴量、前記正例の前記空撮特徴量、及び前記負例の前記空撮特徴量に基づいて、前記第1モデルと前記第2モデルの訓練可能なパラメータを更新することと、をさらに含む、付記9から10いずれか一項に記載の制御方法。
(付記12)
前記コンピュータは、第1モデルと第2モデルを格納するように構成され、前記第1モデルは、前記地上画像と前記地上深度画像から特徴量を抽出して前記地上特徴量を出力するように訓練され、前記第2モデルは、前記空撮画像と前記空撮深度画像から特徴量を抽出して前記空撮特徴量を出力するように訓練され、
前記制御方法は、
前記空撮画像と、正例の前記地上画像と、負例の前記空撮画像と、前記空撮深度画像と、前記正例に対応する地上深度画像と、前記負例に対応する地上深度画像とが含まれる訓練データセットを取得することと、
前記空撮画像と前記空撮深度画像とを前記第2モデルに入力して前記空撮特徴量を取得することと、
前記正例と前記正例に対応する前記地上深度画像とを前記第1モデルに入力して前記正例の地上特徴量を取得することと、
前記負例と前記負例に対応する前記地上深度画像とを前記第1モデルに入力して前記負例の地上特徴量を取得することと、
前記空撮特徴量、前記正例の前記地上特徴量、及び前記負例の前記地上特徴量に基づいて、前記第1モデルと前記第2モデルの訓練可能なパラメータを更新することと、をさらに含む、付記9から10いずれか一項に記載の制御方法。
(付記13)
前記訓練データセットの前記地上深度画像において所定の閾値より大きい値を示すピクセルを特定し、前記地上深度画像の前記特定したピクセルに対応する前記地上画像のピクセルを変更することにより、前記訓練データセットの前記地上画像を変更することをさらに含む、付記11又は12に記載の制御方法。
(付記14)
前記空撮画像において前記空撮画像の中心からの距離が所定の閾値より大きいピクセルを変更することにより、前記訓練データセットの前記空撮画像を変更することをさらに含む、付記11又は12に記載の制御方法。
(付記15)
地上画像と、空撮画像と、地上深度画像と、空撮深度画像とを取得することと、前記地上深度画像は、前記地上画像に撮像されている各位置と地上カメラとの距離を示す画像であり、前記空撮深度画像は、前記空撮画像に撮像されている中心位置から前記空撮画像に撮像されている各位置までの距離を示す画像であり、
前記地上画像と前記地上深度画像から特徴量を抽出して地上特徴量を算出することと、
前記空撮画像と前記空撮深度画像から特徴量を抽出して空撮特徴量を算出することと、
前記地上特徴量と前記空撮特徴量とに基づいて、前記地上画像と前記空撮画像とが互いにマッチするか否かを判定することと、をコンピュータに実行させるプログラムが格納されている、非一時的なコンピュータ可読記憶媒体。
(付記16)
前記空撮深度画像の取得は、
前記空撮画像の中心と前記空撮画像の各ピクセルとの間の距離を算出し、前記空撮深度画像の各ピクセルに対して、そのピクセルと前記空撮深度画像の中心との間の前記算出された距離に比例する値を設定することにより、前記空撮深度画像を生成することと、
前記生成された空撮深度画像を取得することとを含む、付記15に記載の記憶媒体。
(付記17)
前記地上画像と前記空撮画像とが互いにマッチするか否かの判定は、
前記地上特徴量と前記空撮特徴量の類似度を算出することと、
前記算出された類似度が所定の閾値以上である場合に、前記地上画像と前記空撮画像とが互いに一致すると判定することとを含む、付記15又は16に記載の記憶媒体。
(付記18)
第1モデルと第2モデルがさらに格納されており、前記第1モデルは、前記地上画像と前記地上深度画像から特徴量を抽出して前記地上特徴量を出力するように訓練され、前記第2モデルは、前記空撮画像と前記空撮深度画像から特徴量を抽出して前記空撮特徴量を出力するように訓練され、
前記プログラムは、
前記地上画像と、前記地上深度画像と、正例の前記空撮画像と、負例の前記空撮画像と、前記空撮深度画像とが含まれる訓練データセットを取得することと、
前記地上画像と前記地上深度画像とを前記第1モデルに入力して前記地上特徴量を取得することと、
前記正例と前記空撮深度画像とを前記第2モデルに入力して前記正例の空撮特徴量を取得することと、
前記負例と前記空撮深度画像とを前記第2モデルに入力して前記負例の空撮特徴量を取得することと、
前記地上特徴量、前記正例の前記空撮特徴量、及び前記負例の前記空撮特徴量に基づいて、前記第1モデルと前記第2モデルの訓練可能なパラメータを更新することと、を前記コンピュータにさらに実行させる、付記15から17いずれか一項に記載の記憶媒体。
(付記19)
第1モデルと第2モデルがさらに格納されており、前記第1モデルは、前記地上画像と前記地上深度画像から特徴量を抽出して前記地上特徴量を出力するように訓練され、前記第2モデルは、前記空撮画像と前記空撮深度画像から特徴量を抽出して前記空撮特徴量を出力するように訓練され、
前記プログラムは、
前記空撮画像と、正例の前記地上画像と、負例の前記空撮画像と、前記空撮深度画像と、前記正例に対応する地上深度画像と、前記負例に対応する地上深度画像とが含まれる訓練データセットを取得することと、
前記空撮画像と前記空撮深度画像とを前記第2モデルに入力して前記空撮特徴量を取得することと、
前記正例と前記正例に対応する前記地上深度画像とを前記第1モデルに入力して前記正例の地上特徴量を取得することと、
前記負例と前記負例に対応する前記地上深度画像とを前記第1モデルに入力して前記負例の地上特徴量を取得することと、
前記空撮特徴量、前記正例の前記地上特徴量、及び前記負例の前記地上特徴量に基づいて、前記第1モデルと前記第2モデルの訓練可能なパラメータを更新することと、をさらに前記コンピュータに実行させる、付記15から17いずれか一項に記載の記憶媒体。
(付記20)
前記プログラムは、前記訓練データセットの前記地上深度画像において所定の閾値より大きい値を示すピクセルを特定し、前記地上深度画像の前記特定したピクセルに対応する前記地上画像のピクセルを変更することにより、前記訓練データセットの前記地上画像を変更することを、前記コンピュータにさらに実行させる、付記18又は19に記載の記憶媒体。
(付記21)
前記プログラムは、前記空撮画像において前記空撮画像の中心からの距離が所定の閾値より大きいピクセルを変更することにより、前記訓練データセットの前記空撮画像を変更することを、前記コンピュータにさらに実行させる、付記18又は19に記載の制御方法。
【符号の説明】
【0078】
20 地上画像
30 空撮画像
40 地上深度画像
50 空撮深度画像
60 地上特徴量
70 空撮特徴量
100、110、120、130、140、150、160、170 ネットワーク
200 ジオローカライゼーションシステム
300 位置データベース
1000 コンピュータ
1020 バス
1040 プロセッサ
1060 メモリ
1080 ストレージデバイス
1100 入出力インタフェース
1120 ネットワークインタフェース
2000 画像マッチング装置
2020 取得部
2040 地上特徴量抽出部
2060 空撮特徴量抽出部
2080 判定部
図1
図2
図3
図4
図5
図6
図7
図8
図9
【手続補正書】
【提出日】2024-03-15
【手続補正1】
【補正対象書類名】特許請求の範囲
【補正対象項目名】全文
【補正方法】変更
【補正の内容】
【特許請求の範囲】
【請求項1】
地上画像と、空撮画像と、地上深度画像と、空撮深度画像とを取得する取得部を有し、
前記地上深度画像は、前記地上画像に撮像されている各位置と地上カメラとの距離を示す画像であり、
前記空撮深度画像は、前記空撮画像に撮像されている中心位置から前記空撮画像に撮像されている各位置までの距離を示す画像であり、
前記地上画像と前記地上深度画像から特徴量を抽出して地上特徴量を算出する地上特徴量抽出部と
前記空撮画像と前記空撮深度画像から特徴量を抽出して空撮特徴量を算出する空撮特徴量抽出部と
前記地上特徴量と前記空撮特徴量とに基づいて、前記地上画像と前記空撮画像とが互いにマッチするか否かを判定する判定部とを有する、画像マッチング装置。
【請求項2】
前記空撮深度画像の取得は、
前記空撮画像の中心と前記空撮画像の各ピクセルとの間の距離を算出し、前記空撮深度画像の各ピクセルに対して、そのピクセルと前記空撮画像の中心との間の前記算出された距離に比例する値を設定することにより、前記空撮深度画像を生成することと、
前記生成された空撮深度画像を取得することとを含む、請求項1に記載の画像マッチング装置。
【請求項3】
前記地上画像と前記空撮画像とが互いにマッチするか否かの判定は、
前記地上特徴量と前記空撮特徴量の類似度を算出することと、
前記算出された類似度が所定の閾値以上である場合に、前記地上画像と前記空撮画像とが互いに一致すると判定することとを含む、請求項1又は2に記載の画像マッチング装置。
【請求項4】
1モデルと第2モデルをさらに有し
前記第1モデルは、前記地上画像と前記地上深度画像から特徴量を抽出して前記地上特徴量を出力するように訓練され、
前記第2モデルは、前記空撮画像と前記空撮深度画像から特徴量を抽出して前記空撮特徴量を出力するように訓練され、
前記地上画像と、前記地上深度画像と、正例の前記空撮画像と、負例の前記空撮画像と、前記空撮深度画像とが含まれる訓練データセットを取得し、
前記地上画像と前記地上深度画像とを前記第1モデルに入力して前記地上特徴量を取得し、
前記正例と前記空撮深度画像とを前記第2モデルに入力して前記正例の空撮特徴量を取得し、
前記負例と前記空撮深度画像とを前記第2モデルに入力して前記負例の空撮特徴量を取得し、
前記地上特徴量、前記正例の前記空撮特徴量、及び前記負例の前記空撮特徴量に基づいて、前記第1モデルと前記第2モデルの訓練可能なパラメータを更新する、請求項1から3いずれか一項に記載の画像マッチング装置。
【請求項5】
1モデルと第2モデルをさらに有し
前記第1モデルは、前記地上画像と前記地上深度画像から特徴量を抽出して前記地上特徴量を出力するように訓練され、
前記第2モデルは、前記空撮画像と前記空撮深度画像から特徴量を抽出して前記空撮特徴量を出力するように訓練され、
前記空撮画像と、正例の前記地上画像と、負例の前記地上画像と、前記空撮深度画像と、前記正例に対応する地上深度画像と、前記負例に対応する地上深度画像とが含まれる訓練データセットを取得し、
前記空撮画像と前記空撮深度画像とを前記第2モデルに入力して前記空撮特徴量を取得し、
前記正例と前記正例に対応する前記地上深度画像とを前記第1モデルに入力して前記正例の地上特徴量を取得し、
前記負例と前記負例に対応する前記地上深度画像とを前記第1モデルに入力して前記負例の地上特徴量を取得し、
前記空撮特徴量、前記正例の前記地上特徴量、及び前記負例の前記地上特徴量に基づいて、前記第1モデルと前記第2モデルの訓練可能なパラメータを更新する、請求項1から3いずれか一項に記載の画像マッチング装置。
【請求項6】
記訓練データセットの前記地上深度画像において所定の閾値より大きい値を示すピクセルを特定し、前記地上深度画像の前記特定したピクセルに対応する前記地上画像のピクセルを変更することにより、前記訓練データセットの前記地上画像を変更する、請求項4又は5に記載の画像マッチング装置。
【請求項7】
記空撮画像において前記空撮画像の中心からの距離が所定の閾値より大きいピクセルを変更することにより、前記訓練データセットの前記空撮画像を変更する、請求項4又は5に記載の画像マッチング装置。
【請求項8】
地上画像と、空撮画像と、地上深度画像と、空撮深度画像とを取得することを含み
前記地上深度画像は、前記地上画像に撮像されている各位置と地上カメラとの距離を示す画像であり、
前記空撮深度画像は、前記空撮画像に撮像されている中心位置から前記空撮画像に撮像されている各位置までの距離を示す画像であり、
前記地上画像と前記地上深度画像から特徴量を抽出して地上特徴量を算出することと、
前記空撮画像と前記空撮深度画像から特徴量を抽出して空撮特徴量を算出することと、
前記地上特徴量と前記空撮特徴量とに基づいて、前記地上画像と前記空撮画像とが互いにマッチするか否かを判定することと、を含む、コンピュータによって実行される制御方法。
【請求項9】
前記空撮深度画像の取得は、
前記空撮画像の中心と前記空撮画像の各ピクセルとの間の距離を算出し、前記空撮深度画像の各ピクセルに対して、そのピクセルと前記空撮画像の中心との間の前記算出された距離に比例する値を設定することにより、前記空撮深度画像を生成することと、
前記生成された空撮深度画像を取得することとを含む、請求項8に記載の制御方法。
【請求項10】
地上画像と、空撮画像と、地上深度画像と、空撮深度画像とを取得することをコンピュータに実行させ
前記地上深度画像は、前記地上画像に撮像されている各位置と地上カメラとの距離を示す画像であり、
前記空撮深度画像は、前記空撮画像に撮像されている中心位置から前記空撮画像に撮像されている各位置までの距離を示す画像であり、
前記地上画像と前記地上深度画像から特徴量を抽出して地上特徴量を算出することと、
前記空撮画像と前記空撮深度画像から特徴量を抽出して空撮特徴量を算出することと、
前記地上特徴量と前記空撮特徴量とに基づいて、前記地上画像と前記空撮画像とが互いにマッチするか否かを判定することと、をコンピュータに実行させるプログラム。
【手続補正3】
【補正対象書類名】明細書
【補正対象項目名】0014
【補正方法】変更
【補正の内容】
【0014】
画像マッチング装置2000は、地上画像20及び空撮画像30に加えて、地上画像20に対応する「地上深度画像40」と呼ばれる深度画像と、空撮画像30に対応する「空撮深度画像50」と呼ばれる深度画像とを用いる。地上深度画像40は、地上画像20に撮像された各位置に対する地上カメラからのおおよその距離を示す。一方、空撮深度画像50は、空撮画像30に撮像された中心位置から空撮画像30に撮像された各位置までのおおよその距離を示す。地上画像20と空撮画像30とが一致する場合、空撮画像30に撮像された中心位置は、平面視における地上カメラの位置とおおよそ一致しうる。そのため、地上深度画像0と空撮深度画像0はいずれも、地上カメラから撮像された各位置に対するおおよその距離を示す。
【手続補正4】
【補正対象書類名】明細書
【補正対象項目名】0030
【補正方法】変更
【補正の内容】
【0030】
<処理の流れ>
図5は、画像マッチング装置2000の処理の流れの一例を示すフローチャートである。取得部2020は、地上画像20、空撮画像30、地上深度画像40、及び空撮深度画像50を取得する(S102)。地上特徴量抽出部2040は、地上画像20及び地上深度画像40から特徴量を抽出し、地上特徴量60を算出する(S104)。空撮特徴量抽出部2060は、空撮画像30及び空撮深度画像50から特徴量を抽出し、空撮特徴量70を算出する(S106)。判定部2080は、地上特徴量60及び空撮特徴量70を用いて、地上画像20と空撮画像0とが一致するか否かを判定する(S108)。
【手続補正5】
【補正対象書類名】明細書
【補正対象項目名】0041
【補正方法】変更
【補正の内容】
【0041】
このアイディアに基づいて、空撮深度画像50の各画素がその画素と空撮深度画像50の中心との距離に比例した値を持つように、空撮深度画像50を生成することができる。具体的には、例えば、画像マッチング装置2000は、空撮深度画像50を空撮画像0と同じサイズで初期化し、初期化した空撮深度画像50の各画素について、その画像から空撮深度画像50の中心までの距離に比例した値を線形関数を用いて算出してもよい。空撮深度画像50の中心までの距離が小さい画素ほど大きな値を得るために、線形関数の比例定数は負の値に設定される。そして、画像マッチング装置2000は、線形関数から得られた値を正規化し、その正規化された値を、対応する画素の画素値として用いる。
【手続補正6】
【補正対象書類名】明細書
【補正対象項目名】0046
【補正方法】変更
【補正の内容】
【0046】
なお、空撮深度画像50のピクセル値は空撮画像30のピクセル値に依存しないため、画像マッチング装置200は、異なる空撮画像30に共通の空撮深度画像50を利用しうる。例えば、空撮深度画像50は事前に用意され、画像マッチング装置2000からアクセス可能な記憶装置に格納される。画像マッチング装置2000は、空撮画像が取得されたことに応じて、その記憶装置から空撮深度画像50を読み出しうる。
【手続補正7】
【補正対象書類名】明細書
【補正対象項目名】0047
【補正方法】変更
【補正の内容】
【0047】
<地上特徴量60の抽出:S104>
地上特徴量抽出部2040は、地上画像20及び空撮深度画像50に基づいて地上特徴量60を算出する(S104)。地上特徴量60は、地上画像20から抽出された特徴量と地上深度画像0から抽出された特徴量との組み合わせである。画像から特徴量を抽出する様々な方法が存在し、これらの1つが地上特徴量抽出部2040において採用されうる。例えば地上特徴量抽出部2040は、ニューラルネットワークなどの機械学習ベースのモデルで実現されうる。より具体的には、CNN(Convolutional Neural Network)の特徴抽出層が、地上特徴量抽出部2040を構成するために採用されうる。
【手続補正8】
【補正対象書類名】明細書
【補正対象項目名】0048
【補正方法】変更
【補正の内容】
【0048】
図8は、地上特徴量抽出部2040の構成例を表す。上部の図の場合、地上特徴量抽出部2040は、1つのネットワーク100を有する。ネットワーク100は、地上画像20と地上深度画像0とのコンカチネーションを入力として扱い、このコンカチネーションデータから特徴量を抽出し、抽出された特徴量を地上特徴量60として出力する。
【手続補正9】
【補正対象書類名】明細書
【補正対象項目名】0049
【補正方法】変更
【補正の内容】
【0049】
一方、下部の図の場合、地上特徴量抽出部2040は、3つのネットワーク110。120、及び130を有する。ネットワーク110は、地上画像20を入力として扱い、それから特徴量を抽出し、抽出された特徴量を出力する。同様に、ネットワーク120は、地上深度画像0を入力として扱い、それから特徴量を抽出し、抽出された特徴量を出力する。ネットワーク130は、地上画像20から抽出された特徴量と地上深度画像50から抽出された特徴量とを入力として扱い、それらを結合し、結合された特徴量を地上特徴量60として出力する。
【手続補正10】
【補正対象書類名】明細書
【補正対象項目名】0050
【補正方法】変更
【補正の内容】
【0050】
<空撮特徴量70の抽出:S106>
空撮特徴量抽出部2060は、空撮画像30及び空撮深度画像0に基づいて空撮特徴量70を算出する(S106)。空撮特徴量70は、地上画像20から抽出される特徴量と地上深度画像50から抽出される特徴量との組み合わせである。
【手続補正11】
【補正対象書類名】明細書
【補正対象項目名】0061
【補正方法】変更
【補正の内容】
【0061】
いくつかの実装において、モデルを訓練するコンピュータ(以下、訓練装置)は、「訓練データセットを利用して損失(例えばトリプレット損失)を算出し、算出した損失に基づいてモデルの訓練可能なパラメータを更新する」ということを繰り返し行う。ここで、画像マッチング装置2000が実装されるコンピュータ1000において実装されてもよいし、他のコンピュータにおいて実装されてもよい。前者の場合、画像マッチング装置2000は後述する訓練装置の機能も有する、と言うことができる。後者の場合、訓練装置は、画像マッチング装置2000と同様にハードウエア構成を図4で例示することができる1つ以上のコンピュータを用いて実装されうる。
【手続補正12】
【補正対象書類名】明細書
【補正対象項目名】0077
【補正方法】変更
【補正の内容】
【0077】
上記の実施形態の一部又は全部は、以下の付記のようにも記載されうるが、以下には限られない。
<付記>
(付記1)
命令を格納するように構成される少なくとも1つの記憶要素と、
前記命令を実行することにより、
地上画像と、空撮画像と、地上深度画像と、空撮深度画像とを取得し、前記地上深度画像は、前記地上画像に撮像されている各位置と地上カメラとの距離を示す画像であり、前記空撮深度画像は、前記空撮画像に撮像されている中心位置から前記空撮画像に撮像されている各位置までの距離を示す画像であり、
前記地上画像と前記地上深度画像から特徴量を抽出して地上特徴量を算出し、
前記空撮画像と前記空撮深度画像から特徴量を抽出して空撮特徴量を算出し、
前記地上特徴量と前記空撮特徴量とに基づいて、前記地上画像と前記空撮画像とが互いにマッチするか否かを判定する、ように構成される少なくとも1つのプロセッサとを有する、画像マッチング装置。
(付記2)
前記空撮深度画像の取得は、
前記空撮画像の中心と前記空撮画像の各ピクセルとの間の距離を算出し、前記空撮深度画像の各ピクセルに対して、そのピクセルと前記空撮画像の中心との間の前記算出された距離に比例する値を設定することにより、前記空撮深度画像を生成することと、
前記生成された空撮深度画像を取得することとを含む、付記1に記載の画像マッチング装置。
(付記3)
前記地上画像と前記空撮画像とが互いにマッチするか否かの判定は、
前記地上特徴量と前記空撮特徴量の類似度を算出することと、
前記算出された類似度が所定の閾値以上である場合に、前記地上画像と前記空撮画像とが互いに一致すると判定することとを含む、付記1又は2に記載の画像マッチング装置。
(付記4)
前記少なくとも1つの記憶要素は、第1モデルと第2モデルをさらに格納するように構成され、前記第1モデルは、前記地上画像と前記地上深度画像から特徴量を抽出して前記地上特徴量を出力するように訓練され、前記第2モデルは、前記空撮画像と前記空撮深度画像から特徴量を抽出して前記空撮特徴量を出力するように訓練され、
前記少なくとも1つのプロセッサは、前記命令を実行することにより、
前記地上画像と、前記地上深度画像と、正例の前記空撮画像と、負例の前記空撮画像と、前記空撮深度画像とが含まれる訓練データセットを取得し、
前記地上画像と前記地上深度画像とを前記第1モデルに入力して前記地上特徴量を取得し、
前記正例と前記空撮深度画像とを前記第2モデルに入力して前記正例の空撮特徴量を取得し、
前記負例と前記空撮深度画像とを前記第2モデルに入力して前記負例の空撮特徴量を取得し、
前記地上特徴量、前記正例の前記空撮特徴量、及び前記負例の前記空撮特徴量に基づいて、前記第1モデルと前記第2モデルの訓練可能なパラメータを更新する、ようにさらに構成される、付記1から3いずれか一項に記載の画像マッチング装置。
(付記5)
前記少なくとも1つの記憶要素は、第1モデルと第2モデルをさらに格納するように構成され、前記第1モデルは、前記地上画像と前記地上深度画像から特徴量を抽出して前記地上特徴量を出力するように訓練され、前記第2モデルは、前記空撮画像と前記空撮深度画像から特徴量を抽出して前記空撮特徴量を出力するように訓練され、
前記少なくとも1つのプロセッサは、前記命令を実行することにより、
前記空撮画像と、正例の前記地上画像と、負例の前記地上画像と、前記空撮深度画像と、前記正例に対応する地上深度画像と、前記負例に対応する地上深度画像とが含まれる訓練データセットを取得し、
前記空撮画像と前記空撮深度画像とを前記第2モデルに入力して前記空撮特徴量を取得し、
前記正例と前記正例に対応する前記地上深度画像とを前記第1モデルに入力して前記正例の地上特徴量を取得し、
前記負例と前記負例に対応する前記地上深度画像とを前記第1モデルに入力して前記負例の地上特徴量を取得し、
前記空撮特徴量、前記正例の前記地上特徴量、及び前記負例の前記地上特徴量に基づいて、前記第1モデルと前記第2モデルの訓練可能なパラメータを更新する、ようにさらに構成される、付記1から3いずれか一項に記載の画像マッチング装置。
(付記6)
前記少なくとも1つのプロセッサは、前記命令を実行することにより、前記訓練データセットの前記地上深度画像において所定の閾値より大きい値を示すピクセルを特定し、前記地上深度画像の前記特定したピクセルに対応する前記地上画像のピクセルを変更することにより、前記訓練データセットの前記地上画像を変更するようにさらに構成される、付記4又は5に記載の画像マッチング装置。
(付記7)
前記少なくとも1つのプロセッサは、前記命令を実行することにより、前記空撮画像において前記空撮画像の中心からの距離が所定の閾値より大きいピクセルを変更することにより、前記訓練データセットの前記空撮画像を変更するようにさらに構成される、付記4又は5に記載の画像マッチング装置。
(付記8)
地上画像と、空撮画像と、地上深度画像と、空撮深度画像とを取得することと、前記地上深度画像は、前記地上画像に撮像されている各位置と地上カメラとの距離を示す画像であり、前記空撮深度画像は、前記空撮画像に撮像されている中心位置から前記空撮画像に撮像されている各位置までの距離を示す画像であり、
前記地上画像と前記地上深度画像から特徴量を抽出して地上特徴量を算出することと、
前記空撮画像と前記空撮深度画像から特徴量を抽出して空撮特徴量を算出することと、
前記地上特徴量と前記空撮特徴量とに基づいて、前記地上画像と前記空撮画像とが互いにマッチするか否かを判定することと、を含む、コンピュータによって実行される制御方法。
(付記9)
前記空撮深度画像の取得は、
前記空撮画像の中心と前記空撮画像の各ピクセルとの間の距離を算出し、前記空撮深度画像の各ピクセルに対して、そのピクセルと前記空撮画像の中心との間の前記算出された距離に比例する値を設定することにより、前記空撮深度画像を生成することと、
前記生成された空撮深度画像を取得することとを含む、付記8に記載の制御方法。
(付記10)
前記地上画像と前記空撮画像とが互いにマッチするか否かの判定は、
前記地上特徴量と前記空撮特徴量の類似度を算出することと、
前記算出された類似度が所定の閾値以上である場合に、前記地上画像と前記空撮画像とが互いに一致すると判定することとを含む、付記8又は9に記載の制御方法。
(付記11)
前記コンピュータは、第1モデルと第2モデルを格納するように構成され、前記第1モデルは、前記地上画像と前記地上深度画像から特徴量を抽出して前記地上特徴量を出力するように訓練され、前記第2モデルは、前記空撮画像と前記空撮深度画像から特徴量を抽出して前記空撮特徴量を出力するように訓練され、
前記制御方法は、
前記地上画像と、前記地上深度画像と、正例の前記空撮画像と、負例の前記空撮画像と、前記空撮深度画像とが含まれる訓練データセットを取得することと、
前記地上画像と前記地上深度画像とを前記第1モデルに入力して前記地上特徴量を取得することと、
前記正例と前記空撮深度画像とを前記第2モデルに入力して前記正例の空撮特徴量を取得することと、
前記負例と前記空撮深度画像とを前記第2モデルに入力して前記負例の空撮特徴量を取得することと、
前記地上特徴量、前記正例の前記空撮特徴量、及び前記負例の前記空撮特徴量に基づいて、前記第1モデルと前記第2モデルの訓練可能なパラメータを更新することと、をさらに含む、付記から10いずれか一項に記載の制御方法。
(付記12)
前記コンピュータは、第1モデルと第2モデルを格納するように構成され、前記第1モデルは、前記地上画像と前記地上深度画像から特徴量を抽出して前記地上特徴量を出力するように訓練され、前記第2モデルは、前記空撮画像と前記空撮深度画像から特徴量を抽出して前記空撮特徴量を出力するように訓練され、
前記制御方法は、
前記空撮画像と、正例の前記地上画像と、負例の前記地上画像と、前記空撮深度画像と、前記正例に対応する地上深度画像と、前記負例に対応する地上深度画像とが含まれる訓練データセットを取得することと、
前記空撮画像と前記空撮深度画像とを前記第2モデルに入力して前記空撮特徴量を取得することと、
前記正例と前記正例に対応する前記地上深度画像とを前記第1モデルに入力して前記正例の地上特徴量を取得することと、
前記負例と前記負例に対応する前記地上深度画像とを前記第1モデルに入力して前記負例の地上特徴量を取得することと、
前記空撮特徴量、前記正例の前記地上特徴量、及び前記負例の前記地上特徴量に基づいて、前記第1モデルと前記第2モデルの訓練可能なパラメータを更新することと、をさらに含む、付記から10いずれか一項に記載の制御方法。
(付記13)
前記訓練データセットの前記地上深度画像において所定の閾値より大きい値を示すピクセルを特定し、前記地上深度画像の前記特定したピクセルに対応する前記地上画像のピクセルを変更することにより、前記訓練データセットの前記地上画像を変更することをさらに含む、付記11又は12に記載の制御方法。
(付記14)
前記空撮画像において前記空撮画像の中心からの距離が所定の閾値より大きいピクセルを変更することにより、前記訓練データセットの前記空撮画像を変更することをさらに含む、付記11又は12に記載の制御方法。
(付記15)
地上画像と、空撮画像と、地上深度画像と、空撮深度画像とを取得することと、前記地上深度画像は、前記地上画像に撮像されている各位置と地上カメラとの距離を示す画像であり、前記空撮深度画像は、前記空撮画像に撮像されている中心位置から前記空撮画像に撮像されている各位置までの距離を示す画像であり、
前記地上画像と前記地上深度画像から特徴量を抽出して地上特徴量を算出することと、
前記空撮画像と前記空撮深度画像から特徴量を抽出して空撮特徴量を算出することと、
前記地上特徴量と前記空撮特徴量とに基づいて、前記地上画像と前記空撮画像とが互いにマッチするか否かを判定することと、をコンピュータに実行させるプログラムが格納されている、非一時的なコンピュータ可読記憶媒体。
(付記16)
前記空撮深度画像の取得は、
前記空撮画像の中心と前記空撮画像の各ピクセルとの間の距離を算出し、前記空撮深度画像の各ピクセルに対して、そのピクセルと前記空撮画像の中心との間の前記算出された距離に比例する値を設定することにより、前記空撮深度画像を生成することと、
前記生成された空撮深度画像を取得することとを含む、付記15に記載の記憶媒体。
(付記17)
前記地上画像と前記空撮画像とが互いにマッチするか否かの判定は、
前記地上特徴量と前記空撮特徴量の類似度を算出することと、
前記算出された類似度が所定の閾値以上である場合に、前記地上画像と前記空撮画像とが互いに一致すると判定することとを含む、付記15又は16に記載の記憶媒体。
(付記18)
第1モデルと第2モデルがさらに格納されており、前記第1モデルは、前記地上画像と前記地上深度画像から特徴量を抽出して前記地上特徴量を出力するように訓練され、前記第2モデルは、前記空撮画像と前記空撮深度画像から特徴量を抽出して前記空撮特徴量を出力するように訓練され、
前記プログラムは、
前記地上画像と、前記地上深度画像と、正例の前記空撮画像と、負例の前記空撮画像と、前記空撮深度画像とが含まれる訓練データセットを取得することと、
前記地上画像と前記地上深度画像とを前記第1モデルに入力して前記地上特徴量を取得することと、
前記正例と前記空撮深度画像とを前記第2モデルに入力して前記正例の空撮特徴量を取得することと、
前記負例と前記空撮深度画像とを前記第2モデルに入力して前記負例の空撮特徴量を取得することと、
前記地上特徴量、前記正例の前記空撮特徴量、及び前記負例の前記空撮特徴量に基づいて、前記第1モデルと前記第2モデルの訓練可能なパラメータを更新することと、を前記コンピュータにさらに実行させる、付記15から17いずれか一項に記載の記憶媒体。
(付記19)
第1モデルと第2モデルがさらに格納されており、前記第1モデルは、前記地上画像と前記地上深度画像から特徴量を抽出して前記地上特徴量を出力するように訓練され、前記第2モデルは、前記空撮画像と前記空撮深度画像から特徴量を抽出して前記空撮特徴量を出力するように訓練され、
前記プログラムは、
前記空撮画像と、正例の前記地上画像と、負例の前記地上画像と、前記空撮深度画像と、前記正例に対応する地上深度画像と、前記負例に対応する地上深度画像とが含まれる訓練データセットを取得することと、
前記空撮画像と前記空撮深度画像とを前記第2モデルに入力して前記空撮特徴量を取得することと、
前記正例と前記正例に対応する前記地上深度画像とを前記第1モデルに入力して前記正例の地上特徴量を取得することと、
前記負例と前記負例に対応する前記地上深度画像とを前記第1モデルに入力して前記負例の地上特徴量を取得することと、
前記空撮特徴量、前記正例の前記地上特徴量、及び前記負例の前記地上特徴量に基づいて、前記第1モデルと前記第2モデルの訓練可能なパラメータを更新することと、をさらに前記コンピュータに実行させる、付記15から17いずれか一項に記載の記憶媒体。
(付記20)
前記プログラムは、前記訓練データセットの前記地上深度画像において所定の閾値より大きい値を示すピクセルを特定し、前記地上深度画像の前記特定したピクセルに対応する前記地上画像のピクセルを変更することにより、前記訓練データセットの前記地上画像を変更することを、前記コンピュータにさらに実行させる、付記18又は19に記載の記憶媒体。
(付記21)
前記プログラムは、前記空撮画像において前記空撮画像の中心からの距離が所定の閾値より大きいピクセルを変更することにより、前記訓練データセットの前記空撮画像を変更することを、前記コンピュータにさらに実行させる、付記18又は19に記載の制御方法。
【国際調査報告】