(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-12-09
(45)【発行日】2024-12-17
(54)【発明の名称】訓練装置、制御方法、及びプログラム
(51)【国際特許分類】
G06T 7/00 20170101AFI20241210BHJP
G06N 20/00 20190101ALI20241210BHJP
【FI】
G06T7/00 350
G06N20/00
(21)【出願番号】P 2023561314
(86)(22)【出願日】2021-04-08
(86)【国際出願番号】 JP2021014936
(87)【国際公開番号】W WO2022215236
(87)【国際公開日】2022-10-13
【審査請求日】2023-10-05
(73)【特許権者】
【識別番号】000004237
【氏名又は名称】日本電気株式会社
(74)【代理人】
【識別番号】100103894
【氏名又は名称】家入 健
(72)【発明者】
【氏名】ロドリゲス ロイストン
(72)【発明者】
【氏名】谷 真宏
【審査官】豊田 好一
(56)【参考文献】
【文献】特開2018-092628(JP,A)
【文献】特開2019-028560(JP,A)
【文献】特開2011-002892(JP,A)
【文献】特開2019-078620(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G06T 7/00
G06N 20/00
(57)【特許請求の範囲】
【請求項1】
視野角が360度未満である地上画像と、空撮画像と、配置情報とを取得する取得手段と、
前記地上画像と前記空撮画像とがマッチするか否かを判定する識別器を訓練する訓練実行手段と、を有し、
前記識別器は、
前記空撮画像から複数の部分空撮領域を抽出し、
前記地上画像とマッチする前記部分空撮領域が存在する場合に、前記地上画像と前記空撮画像とがマッチすると判定し、
前記識別器の訓練は、
正配置部分空撮領域と誤配置部分空撮領域を前記空撮画像から抽出することと、
前記地上画像及び前記正配置部分空撮領域のセットと、前記地上画像と前記誤配置部分空撮領域のセットとを用いて、前記識別器を訓練することと、を含み、
前記正配置部分空撮領域は、前記配置情報によって示され、かつ、前記地上画像に対応する前記部分空撮領域であり、
前記誤配置部分空撮領域は、前記正配置部分空撮領域と一部が重複する前記部分空撮領域であり、
前記識別器の訓練において、前記正配置部分空撮領域と前記誤配置部分空撮領域の双方は、正例の前記部分空撮領域として利用され
、
前記配置情報は第1の放射状線と第2の放射状線を示し、
前記正配置部分空撮領域の抽出は、前記空撮画像において前記第1の放射状線と前記第2の放射状線との間にある領域を前記正配置部分空撮領域として抽出することを含み、
前記誤配置部分空撮領域の抽出は、
前記第1の放射状線と前記第2の放射状線を回転させることと、
前記空撮画像において前記回転された第1の放射状線と前記回転された第2の放射状線との間にある領域を前記誤配置部分空撮領域として抽出することとを含む、訓練装置。
【請求項2】
前記誤配置部分空撮領域の抽出は、確率分布から値をサンプリングすることを含み、
前記第1の放射状線と前記第2の放射状線は、前記サンプリングされた値によって定まる角度回転される、請求項
1に記載の訓練装置。
【請求項3】
前記確率分布はゼロ平均ガウス分布である、請求項
2に記載の訓練装置。
【請求項4】
前記訓練実行手段は、前記空撮画像から円形領域を抽出し、
前記正配置部分空撮領域と前記誤配置部分空撮領域は、前記円形領域から抽出される、請求項1から
3いずれか一項に記載の訓練装置。
【請求項5】
コンピュータによって実行される制御方法であって、
視野角が360度未満である地上画像と、空撮画像と、配置情報とを取得することと、
前記地上画像と前記空撮画像とがマッチするか否かを判定する識別器を訓練することと、を含み、
前記識別器は、
前記空撮画像から複数の部分空撮領域を抽出し、
前記地上画像とマッチする前記部分空撮領域が存在する場合に、前記地上画像と前記空撮画像とがマッチすると判定し、
前記識別器の訓練は、
正配置部分空撮領域と誤配置部分空撮領域を前記空撮画像から抽出することと、
前記地上画像及び前記正配置部分空撮領域のセットと、前記地上画像と前記誤配置部分空撮領域のセットとを用いて、前記識別器を訓練することと、を含み、
前記正配置部分空撮領域は、前記配置情報によって示され、かつ、前記地上画像に対応する前記部分空撮領域であり、
前記誤配置部分空撮領域は、前記正配置部分空撮領域と一部が重複する前記部分空撮領域であり、
前記識別器の訓練において、前記正配置部分空撮領域と前記誤配置部分空撮領域の双方は、正例の前記部分空撮領域として利用され
、
前記配置情報は第1の放射状線と第2の放射状線を示し、
前記正配置部分空撮領域の抽出は、前記空撮画像において前記第1の放射状線と前記第2の放射状線との間にある領域を前記正配置部分空撮領域として抽出することを含み、
前記誤配置部分空撮領域の抽出は、
前記第1の放射状線と前記第2の放射状線を回転させることと、
前記空撮画像において前記回転された第1の放射状線と前記回転された第2の放射状線との間にある領域を前記誤配置部分空撮領域として抽出することとを含む、制御方法。
【請求項6】
前記誤配置部分空撮領域の抽出は、確率分布から値をサンプリングすることを含み、
前記第1の放射状線と前記第2の放射状線は、前記サンプリングされた値によって定まる角度回転される、請求項
5に記載の制御方法。
【請求項7】
視野角が360度未満である地上画像と、空撮画像と、配置情報とを取得することと、
前記地上画像と前記空撮画像とがマッチするか否かを判定する識別器を訓練することと、をコンピュータに実行させ、
前記識別器は、
前記空撮画像から複数の部分空撮領域を抽出し、
前記地上画像とマッチする前記部分空撮領域が存在する場合に、前記地上画像と前記空撮画像とがマッチすると判定し、
前記識別器の訓練は、
正配置部分空撮領域と誤配置部分空撮領域を前記空撮画像から抽出することと、
前記地上画像及び前記正配置部分空撮領域のセットと、前記地上画像と前記誤配置部分空撮領域のセットとを用いて、前記識別器を訓練することと、を含み、
前記正配置部分空撮領域は、前記配置情報によって示され、かつ、前記地上画像に対応する前記部分空撮領域であり、
前記誤配置部分空撮領域は、前記正配置部分空撮領域と一部が重複する前記部分空撮領域であり、
前記識別器の訓練において、前記正配置部分空撮領域と前記誤配置部分空撮領域の双方は、正例の前記部分空撮領域として利用され
、
前記配置情報は第1の放射状線と第2の放射状線を示し、
前記正配置部分空撮領域の抽出は、前記空撮画像において前記第1の放射状線と前記第2の放射状線との間にある領域を前記正配置部分空撮領域として抽出することを含み、
前記誤配置部分空撮領域の抽出は、
前記第1の放射状線と前記第2の放射状線を回転させることと、
前記空撮画像において前記回転された第1の放射状線と前記回転された第2の放射状線との間にある領域を前記誤配置部分空撮領域として抽出することとを含む、プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、全体として、画像マッチング、特に、地上画像と空撮画像とのマッチングに関する。
【背景技術】
【0002】
グラウンド・トゥー・エアリアル・クロスビューマッチング(地上画像と空撮画像のマッチング)を行うコンピュータシステムが開発されている。例えば、非特許文献1は、視野が360度未満の地上画像と空撮画像とをマッチングするために、一組の CNN(Convolutional Neural Network) が含まれるシステムを開示する。
【0003】
具体的には、CNN の1つが地上画像を取得し、そこから特徴量を抽出する。もう1つは、極変換された空撮画像を取得し、そこから特徴量を抽出する。次に、システムは、地上画像から抽出された特徴量と空撮画像から抽出された特徴量との間の相関を計算することによって、空撮画像に対する地上画像の方向アライメントを推定する。方向アライメントに基づいて、システムは、地上画像に対応すると推定される空撮画像の特徴量の一部をシフトし、クロップする。次に、地上画像の特徴量を空撮画像のクロップされた特徴量と比較して、地上画像が空撮画像とマッチするかどうかを決定する。
【先行技術文献】
【非特許文献】
【0004】
【文献】Yujiao Shi、Xin Yu、Dylan Campbell、及びand Hongdong Li、「Where am I looking at? Joint Location and Orientation Estimation by Cross-View Matching」、Computer Research Repository、arXiv:2005.03860、2020年5月8日
【発明の概要】
【発明が解決しようとする課題】
【0005】
非特許文献1では、視野角が360度未満の地上画像と空撮画像とのマッチングを行うネットワーク群を訓練するために、全ての訓練データが事前に準備されていると仮定する。本開示の目的は、視野角が360度未満の地上画像と空撮画像とのマッチングを行う識別器を訓練する効果的な方法を提供することである。
【課題を解決するための手段】
【0006】
本開示が提供する訓練装置は、少なくとも1つのプロセッサと、命令列が格納されている記憶要素と、を含む。前記少なくとも1つのプロセッサは、前記命令列を実行することにより、視野角が360度未満である地上画像と、空撮画像と、配置情報とを取得し、前記地上画像と前記空撮画像とがマッチするか否かを判定する識別器を訓練し、前記識別器は前記空撮画像から複数の部分空撮領域を抽出し、前記地上画像とマッチする前記部分空撮領域が存在する場合に、前記地上画像と前記空撮画像とがマッチすると判定する。
前記識別器の訓練は、正配置部分空撮領域と誤配置部分空撮領域を前記空撮画像から抽出することを含み、前記正配置部分空撮領域は、前記配置情報によって示され、かつ、前記地上画像に対応する前記部分空撮領域であり、前記誤配置部分空撮領域は、前記正配置部分空撮領域と一部が重複する前記部分空撮領域であり、前記地上画像及び前記正配置部分空撮領域のセットと、前記地上画像と前記誤配置部分空撮領域のセットとを用いて、前記識別器を訓練することを含み、前記正配置部分空撮領域と前記誤配置部分空撮領域の双方は、正例の前記部分空撮領域として利用される。
【0007】
本開示がさらに提供する制御方法は、コンピュータによって実行される。当該制御方法は、視野角が360度未満である地上画像と、空撮画像と、配置情報とを取得することと、前記地上画像と前記空撮画像とがマッチするか否かを判定する識別器を訓練することと、を含み、前記識別器は前記空撮画像から複数の部分空撮領域を抽出し、前記地上画像とマッチする前記部分空撮領域が存在する場合に、前記地上画像と前記空撮画像とがマッチすると判定する。
前記識別器の訓練は、正配置部分空撮領域と誤配置部分空撮領域を前記空撮画像から抽出することを含み、前記正配置部分空撮領域は、前記配置情報によって示され、かつ、前記地上画像に対応する前記部分空撮領域であり、前記誤配置部分空撮領域は、前記正配置部分空撮領域と一部が重複する前記部分空撮領域であり、前記地上画像及び前記正配置部分空撮領域のセットと、前記地上画像と前記誤配置部分空撮領域のセットとを用いて、前記識別器を訓練することを含み、前記正配置部分空撮領域と前記誤配置部分空撮領域の双方は、正例の前記部分空撮領域として利用される。
【0008】
本開示がさらに提供する非一時的なコンピュータ可読記憶媒体は、プログラムを格納する。当該プログラムは、視野角が360度未満である地上画像と、空撮画像と、配置情報とを取得することと、前記地上画像と前記空撮画像とがマッチするか否かを判定する識別器を訓練することと、をコンピュータに実行させる。前記識別器は前記空撮画像から複数の部分空撮領域を抽出し、前記地上画像とマッチする前記部分空撮領域が存在する場合に、前記地上画像と前記空撮画像とがマッチすると判定する。
前記識別器の訓練は、正配置部分空撮領域と誤配置部分空撮領域を前記空撮画像から抽出することを含み、前記正配置部分空撮領域は、前記配置情報によって示され、かつ、前記地上画像に対応する前記部分空撮領域であり、前記誤配置部分空撮領域は、前記正配置部分空撮領域と一部が重複する前記部分空撮領域であり、前記地上画像及び前記正配置部分空撮領域のセットと、前記地上画像と前記誤配置部分空撮領域のセットとを用いて、前記識別器を訓練することを含み、前記正配置部分空撮領域と前記誤配置部分空撮領域の双方は、正例の前記部分空撮領域として利用される。
【発明の効果】
【0009】
本開示によれば、視野角が360度未満の地上画像と空撮画像とのマッチングを行う識別器を効果的に訓練する方法が提供される。
【図面の簡単な説明】
【0010】
【
図1】
図1は、実施形態1の訓練装置によって訓練される識別器を示す。
【
図2】
図2は、実施形態1の訓練装置の概要を示す。
【
図3】
図3は、正配置部分空撮領域と誤配置部分空撮領域の例を示す。
【
図4】
図4は、訓練装置の機能構成の例を示すブロック図である。
【
図5】
図5は、
訓練装置のハードウエア構成の例を示すブロック図である。
【
図6】
図6は、訓練装置によって実行される処理の流れを示すフローチャートである。
【
図7】
図7は、識別器が含まれるジオローカライゼーションシステムを示す。
【
図8】
図8は、放射状線を利用して得られる部分空撮領域を示す。
【
図9】
図9は、空撮画像内の円形領域から部分空撮領域が抽出されるケースを示す。
【発明を実施するための形態】
【0011】
以下、本開示に係る実施形態の一例を図面を参照して説明する。なお、図中の同一の要素には同一の符号を付し、必要に応じて冗長な説明を省略している。また、所定の情報(例えば、所定の値又は所定の閾値)は、特に記載のない限り、その情報を使用するコンピュータがアクセスできる記憶装置に予め記憶されている。
【0012】
実施形態1
<概要>
実施形態1の訓練装置は、地上画像と空撮画像とのマッチング(いわゆる、グラウンド・トゥー・エアリアル・クロスビューマッチング)を行う識別器の訓練を行う。
図1は、実施形態1の訓練装置によって訓練される識別器を示す図である。識別器10は、地上画像20と空撮画像30とを取得し、地上画像20と空撮画像30とがマッチするか否かを判定する。なお、「地上画像と空撮画像とがマッチする」とは、地上画像に撮像されている場所が、空撮画像に撮像されている場所と十分に重複することを意味する。
【0013】
地上画像20は、或る場所のグラウンドビューを含む画像である。地上画像20は、例えば、歩行者が持つカメラや、道路上の車両に設置されたカメラによって撮像される。識別器10によって扱われる地上画像20は、限られた(360度未満の)視野を有する。空撮画像30は、或る場所の平面視が含まれる画像である。空撮画像30は、例えば、ドローン、航空機、又は人工衛星に搭載されたカメラによって撮像される。
【0014】
地上画像20の画角が360度未満であるため、地上画像20に撮像された場所は、空撮画像30に撮像された場所の一部である。そこで、識別器10は、地上画像20と空撮画像30とを取得し、取得した空撮画像30が、取得した地上画像20とマッチする部分空撮領域40(すなわち、空撮画像30の一部)を含むか否かを判定する。取得した空撮画像30が、取得した地上画像20とマッチする部分空撮領域40を含む場合、地上画像20が空撮画像30とマッチすると判定される。一方、取得した空撮画像30が、取得した地上画像20とマッチする部分空撮領域40を含まない場合には、地上画像20が空撮画像30とマッチしないと判定される。なお、「部分空撮領域とマッチする地上画像」とは、地上画像に撮像されている場所が部分空撮領域に撮像されている場所と十分に重複することを意味する。
【0015】
図2は、実施形態1の訓練装置2000の概要を示す図である。前述したように動作する識別器10を訓練するために、訓練装置2000は以下のように動作する。訓練装置2000は、地上画像20と、地上画像20とマッチする部分空撮領域40が含まれる空撮画像30とを取得する。また、訓練装置2000は、空撮画像30のどの部分が地上画像20に対応しているかを示す配置情報50を取得する。言い換えれば、配置情報50は、地上画像20に対応する部分空撮領域40を示す。以下、配置情報50によって示される部分空撮領域40は、「正配置部分空撮領域42」と記述される。この用語を用いると、「配置情報50は、空撮画像30のどの部分が正配置部分空撮領域42として抽出されるべきか、を示している」と言い換えることができる。正配置部分空撮領域42は、識別器10によって抽出される部分空撮領域40のうち、地上画像20に最も類似している可能性がある。
【0016】
訓練装置2000は、配置情報50を使用して、空撮画像30から正配置部分空撮領域42を抽出する。また、訓練装置2000は、配置情報50を使用して、空撮画像30から、誤配置部分空撮領域4
4も抽出する。誤配置部分空撮領域44は、正配置部分空撮領域42と部分的に重なる部分空撮領域である。
図3は、正配置部分空撮領域42と誤配置部分空撮領域44の例を示す。
図3に示される誤配置部分空撮領域44は、正配置部分空撮領域42をわずかに回転させることによって得られる。
【0017】
概念的には、訓練装置2000は、正配置部分空撮領域42だけでなく、誤配置部分空撮領域44も地上画像20とマッチするように、識別器10を訓練する。この特徴を実現するために、訓練装置2000は、地上画像20と正配置部分空撮領域42のセットと、地上画像20と誤配置部分空撮領域44のセットの両方を、正例の部分空撮領域40を持つ訓練データセットとして使用して、識別器10を訓練する。つまり、訓練装置2000は、識別器10の訓練において、正配置部分空撮領域42と誤配置部分空撮領域44の両方を、部分空撮領域40の正例として使用する。なお、部分空撮領域40の正例は、識別器10によって地上画像20とマッチすると判定される部分空撮領域40である。
【0018】
<作用効果の例>
実施形態1の訓練装置2000によれば、訓練装置2000は、取得した空撮画像30から、正配置部分空撮領域42だけでなく、誤配置部分空撮領域44も抽出することにより、単一の空撮画像30から複数の訓練データセットを取得する。このデータ拡張により、識別器10を訓練するための訓練データセットの作成が容易になる。また、識別器が、正配置部分空撮領域42だけでなく、誤配置部分空撮領域44についても、地上画像20とマッチすると判定するように訓練されることにより、識別器10が部分空撮領域の配置ずれをある程度許容できるようにして、識別器10の計算負荷を小さくすることができる。この点については後述する。
【0019】
以下、訓練装置2000についてより詳細な説明を行う。
【0020】
<機能構成の例>
図4は、訓練装置2000の機能構成例を示すブロック図である。訓練装置2000は、取得部2020と、部分空撮領域抽出部2040と、訓練実行部2060とを有する。取得部2020は、地上画像20と、空撮画像30と、配置情報50とを取得する。部分空撮領域抽出部2040は、配置情報50に基づいて、正配置部分空撮領域42と、誤配置部分空撮領域44とを抽出する。訓練実行部20
60は、部分空撮領域40の正例を用いた訓練データセットとして、地上画像20及び正配置部分空撮領域42のセットと、地上画像20及び誤配置部分空撮領域44のセットとを用いて、識別器10の訓練を実行する。正配置部分空撮領域42と誤配置部分空撮領域44との両方が、部分空撮領域40の正例として用いられる。
【0021】
<ハードウエア構成の例>
訓練装置2000は、1つ以上のコンピュータで実現されうる。それら1つ以上のコンピュータのそれぞれは、訓練装置2000を実現するために作成された専用のコンピュータであってもよいし、パーソナルコンピュータ(PC: Personal Computer)、サーバマシン又はモバイルデバイスなどの汎用のコンピュータであってもよい。
【0022】
訓練装置2000は、コンピュータにアプリケーションをインストールすることで実現されうる。そのアプリケーションは、コンピュータを訓練装置2000として機能させるプログラムで実現される。言い換えれば、そのプログラムは、訓練装置2000の機能構成部を実装したものである。
【0023】
図5は、訓練装置2000を実現するコンピュータ1000のハードウエア構成の例を示すブロック図である。
図5において、コンピュータ1000は、バス1020、プロセッサ1040、メモリ1060、ストレージデバイス1080、入出力インタフェース1100、及びネットワークインタフェース1120を有する。
【0024】
バス1020は、プロセッサ1040、メモリ1060、ストレージデバイス1080、入出力インタフェース1100、及びネットワークインタフェース1120が相互にデータの送信及び受信をするためのデータ通信路である。プロセッサ1040は、CPU(Central Processing Unit)、GPU(Graphics Processing Unit)、又は FPGA(Field-Programmable Gate Array)などといったプロセッサである。メモリ1060は、RAM(Random Access Memory)又は ROM(Read Only Memory)などの主記憶要素である。ストレージデバイス1080は、ハードディスク、SSD(Solid State Drive)、又はメモリカードなどの補助記憶要素である。入出力インタフェース1100は、コンピュータ1000と周辺デバイス(キーボード、マウス、又はディスプレイデバイスなど)との間のインタフェースである。ネットワークインタフェース1120は、コンピュータ1000とネットワークとの間のインタフェースである。ネットワークは、LAN(Local Area Network)でもよいし、WAN(Wide Area Network)でもよい。ストレージデバイス1080は、前述したプログラムを格納しうる。プロセッサ1040は、訓練装置2000の各機能構成部を実現するためにそのプログラムを実行する。
【0025】
コンピュータ1000のハードウエア構成は、
図5に示される構成に限定されない。
例えば、前述したように、訓練装置2000は複数のコンピュータで実現されうる。この場合、それらのコンピュータは、ネットワークを介して互いに接続されうる。
【0026】
<処理の流れ>
図6は、訓練装置2000によって実行される処理の流れの一例を示すフローチャートである。取得部2020は、地上画像20、空撮画像、配置情報50を取得する(S102)。部分空撮領域抽出部2040は、空撮画像30から、正配置部分空撮領域42を抽出する(S104)。部分空撮領域抽出部2040は、空撮画像30から、誤配置部分空撮領域44を抽出する(S106)。訓練実行部2060は、地上画像20及び正配置部分空撮領域42を含む訓練データセットと、地上画像20及び誤配置部分空撮領域44を含む訓練データセットとを用いて、識別器10の訓練を実行する(S108)。
【0027】
図6に示す流れは、訓練装置2000が実行する動作の流れの一例であり、動作の流れは
図6に示すものに限定されるものではない。例えば、訓練装置2000は、正配置部分空撮領域42が含まれる訓練データセットを用いて、正配置部分空撮領域42の抽出と識別器10の訓練とを行い、その後に、誤配置部分空撮領域44が含まれる訓練データセットを用いて、誤配置部分空撮領域44の抽出と識別器10の訓練とを行うことができる。
【0028】
<識別器10のアプリケーションの例>
識別器10のアプリケーションには様々なものがある。例えば識別器10は、画像ジオローカライゼーションを行うシステム(以下、ジオローカライゼーションシステム)の一部として利用することができる。画像ジオローカライゼーションは、入力された画像の撮像場所を特定する技術である。ここで、ジオローカライゼーションシステムはあくまで、識別器10のアプリケーションの一例であり、識別器10のアプリケーションは、ジオローカライゼーションシステムの中で利用されるものに限定されない。
【0029】
図7は、識別器10が含まれるジオローカライゼーションシステム200を示す。ジオローカライゼーションシステム200は、識別器10及び位置データベース300を含む。位置データベース300は、それぞれに位置情報が付加された複数の空撮画像を含む。位置情報の例は、対応する空撮画像の撮像場所の GPS(Global Positioning System)座標でありうる。
【0030】
ジオローカライゼーションシステム200は、クライアント(例えばユーザ端末)から地上画像を含むクエリを受信し、受信したクエリに含まれる地上画像とマッチする空撮画像を位置データベース300から探索し、これによって地上画像の撮像場所を特定する。具体的には、クエリに含まれる地上画像にマッチする空撮画像が検出されるまで、ジオローカライゼーションシステム200は、「位置データベース300から空撮画像を1つ取得し、地上画像と取得した空撮画像を識別器10に入力し、識別器10からの出力が、地上画像と空撮画像とがマッチすることを示しているか否かを判定する。」という処理を繰り返す。こうすることで、ジオローカライゼーションシステム200は、地上画像の撮像場所が含まれる空撮画像を見つけることができる。検出された空撮画像が GPS 座標などの位置情報に対応づけられているため、ジオローカライゼーションシステム200は、地上画像の撮像場所が、地上画像にマッチする空撮画像に対応づけられている位置情報によって示されている場所であると把握できる。
【0031】
なお、ジオローカライゼーションシステム200は、
図5に示されているコンピュータなどのような任意の1つ以上のコンピュータで実現されうる。
【0032】
<識別器10の詳細な説明>
上述したように、識別器10は、地上画像20と空撮画像30とを取得し、地上画像20と空撮画像30とがマッチするか否かを判定する。具体的には、識別器10は、空撮画像30から複数の部分空撮領域40を抽出し、各部分空撮領域40と地上画像20とを比較する。
【0033】
比較のために、識別器10は、地上画像20および各部分空撮領域40から特徴量を抽出する。そして、識別器10は、部分空撮領域40ごとに、部分空撮領域40の特徴量が地上画像20の特徴量と十分に類似しているか否かを判定する。そのために、識別器10は、地上画像20の特徴量と部分空撮領域40の特徴量との類似度を示す指標(以下、類似スコア)を算出する。
【0034】
地上画像20の特徴量と十分に類似する特徴量を持つ部分空撮領域40が存在する(例えば、地上画像20の特徴量と部分空撮領域40の特徴量とについて算出された類似スコアが所定の閾値以上である)場合、識別器10は、地上画像20が空撮画像30とマッチすると判定する。一方、地上画像20の特徴量と十分に類似する特徴量を持つ部分空撮領域40が存在しない場合、識別器10は、地上画像20と空撮画像30とがマッチしないと判定する。
【0035】
識別器10が空撮画像30から部分空撮領域40を抽出するためには、様々な方法がある。例えば、識別器10は、放射状線を用いて、空撮画像30を複数の部分空撮領域40に分割する。
図8は、放射状線を用いて得られる部分空撮領域40を示す。
図8では、空撮画像30の中心を原点とし、その原点から複数の放射状線を描画する。また、隣接する二つの放射状線間の角度の大きさは45度である。その結果、空撮画像30から8つの部分空撮領域40-1~40-8が抽出される。
【0036】
隣接する2つの放射状線間の角度の大きさは、予め設定されていてもよいし、識別器10のユーザによって指定されていてもよいし、地上画像20の視野の大きさに基づいて決定されていてもよい。隣接する2つの放射状線間の角度の大きさは、地上画像20の視野の大きさと同じに設定されることが好ましい。例えば、地上画像20の視野の大きさが45度の場合、隣接する2つの放射状線間の角度の大きさは、45度に設定されることが好ましい。
【0037】
識別器10は、隣接する2つの放射状線間の角度に、複数の大きさを用いてもよい。隣接する2つの放射状線間の角度として45度と60度が用いられると仮定する。この場合、例えば識別器10は、隣接する2つの放射状線間の角度をまず45度とし、8つの部分空撮領域40を抽出する。次に、識別器10は、隣接する2つの放射状線間の角度を60度とし、6つの部分空撮領域40を抽出する。その結果、識別器10は、合計14個の部分空撮領域40を得る。これにより、識別器10は、地上画像20の視野を知らなくても、地上画像20にマッチする部分空撮領域40を見つけ出すことができる。
【0038】
識別器10は、部分空撮領域40の一部が、1つ以上の他の部分空撮領域40の一部と重なるように、部分空撮領域40を抽出することができる。この場合、例えば、識別器10は、スライドウィンドウ法を使用して、空撮画像30から部分空撮領域40を抽出するための放射状線を定義することができる。以下、空撮画像30から部分空撮領域40を抽出するための2つの放射状線は、それぞれ、「第1の放射状線」及び「第2の放射状線」と表記される。なお、第1の放射状線とx軸との角度は、第2の放射状線とx軸との角度よりも小さい。
【0039】
この場合、各部分空撮領域40について、識別器10は、第1の放射状線と第2の放射状線とを次のように定義することができる。
【数1】
式(1)において、α[i] は、i番目の部分空撮領域40を定義する第1の放射状線とx軸との間の角度を表す。βは、i番目の部分空撮領域40を定義する第2の放射状線とx軸との間の角度を表す。s は、スライディングウィンドウのストライドのサイズ、すなわち、隣接する2つの部分空撮領域40間の角度を表す。そして、w は、スライディングウィンドウのサイズ、すなわち、第1の放射状線と第2の放射状線との間の角度を表す。
【0040】
ストライドのサイズがより小さく設定されるほど、識別器10は、地上画像20と部分空撮領域40との間のマッチングをより細かく行うことができる。したがって、地上画像と空撮画像とのクロスビューマッチングの精度の観点からは、ストライドには非常に小さい値が設定されることが好ましい。しかしなが、ストライドのサイズを小さくすると、識別器10の計算負荷が大きくなる。
【0041】
訓練装置2000は、誤配置部分空撮領域44と地上画像20とがマッチすると判定するように識別器10を訓練することにより、この問題を緩和する。この訓練により、識別器10は、部分空撮領域40の配置ずれをある程度許容するようになる。すなわち、識別器10は、地上画像20が空撮画像20とマッチするか否かを判定するために、完全に位置合わせされた部分空撮領域を抽出する必要はない。そのため、ストライドに非常に小さな値を設定することなく、識別器10によって実行されるグラウンド・トゥー・エアリアル・クロスビューマッチングの精度を向上させることができ、それにより、識別器10に大きな計算負荷を与えることを避けることができる。
【0042】
識別器10は、空撮画像30の全体から部分空撮領域40を抽出する代わりに、空撮画像30の一部から部分空撮領域40を抽出してもよい。例えば、識別器10は、空撮画像30から円形領域をクロップした後、放射状線を用いてその円形領域から複数の部分空撮領域40を抽出する。これにより、大きさや形状が同一である複数の部分空撮領域40を得ることができる。
図9は、空撮画像30の円形領域から部分空撮領域4
0が抽出されるケースを示す。
図9において、円形領域32は空撮画像30に内接する円であり、その中心は空撮画像30の中心に対応している。
【0043】
識別器10は、訓練可能な方法で構成される。例えば識別器10は、訓練可能なパラメータ(ニューラルネットワークの重みなど)が含まれる1つ以上の機械学習ベースモデルを有する。例えば、識別器10は、それぞれが機械学習ベースのモデルとして構成される2つの特徴抽出器を有する。それらのうちの一つは、地上画像20を供給し、地上画像20の特徴量を出力する。もう一つは、部分空撮領域40を取得し、その部分空撮領域40の特徴量を出力する。特徴抽出器を実装するために採用できる機械学習ベースのモデルの一例は、CNN(Convolutional Neural Network)の特徴抽出層である。
【0044】
<画像と配置情報の取得:S102>
取得部2020は、地上画像20、空撮画像30、及び配置情報50を取得する。取得部2020がこれらのデータを取得する方法は様々である。例えば、地上画像20と、空撮画像30と、配置情報50とが、予め記憶装置に格納されている。この場合、取得部2020は、この記憶装置にアクセスし、地上画像20と、空撮画像30と、配置情報50とを読み出す。別の例では、地上画像20と空撮画像30と配置情報50とのセットは、ユーザによって訓練装置2000に入力される。別の例では、取得部2020は、他の装置から送信された地上画像20と空撮画像30と配置情報50とのセットを受信してもよい。
【0045】
配置情報50は、空撮画像30のどの部分を正配置部分空撮領域42として抽出すべきかを、様々な方法で示しうる。例えば、配置情報50は、正配置部分空撮領域42を空撮画像30から抽出することができる第1の放射状線及び第2の放射状線を示しうる。配置情報50は、第1の放射状線とx軸との間の角度によって第1の放射状線を定義しうる。同様に、配置情報50は、第2の放射状線とx軸との間の角度によって第2の放射状線を定義しうる。別の例では、配置情報50は、第1の放射状線と第2の放射状線との間の角度によって、第2の放射状線を定義しうる。
【0046】
<部分空撮領域の抽出:S104、S104>
部分空撮領域抽出部2040は、空撮画像30から、正配置部分空撮領域42と、誤配置部分空撮領域44とを抽出する(S104、S106)。正配置部分空撮領域42について、部分空撮領域抽出部2040は、配置情報50によって正配置部分空撮領域42として示されている部分空撮領域40を抽出しうる。
【0047】
なお、部分空撮領域抽出部2040は、空撮画像30の一部をクロップし、クロップされた領域から正配置部分空撮領域42を抽出してもよい。例えば、
図9に示すように、部分空撮領域抽出部2040は、空撮画像30に内接され、その中心が空撮画像30の中心に対応する円形領域をクロップし、配置情報50が示す第1の放射状線及び第2の放射状線を用いて、この円形領域から正配置部分空撮領域42を抽出しうる。誤配置部分空撮領域44の抽出についても同様である。
【0048】
誤配置部分空撮領域44について、部分空撮領域抽出部2040は、正配置部分空撮領域42を或る回転角度で回転させることにより、誤配置部分空撮領域44の第1の放射状線及び第2の放射状線を算出することができる。回転角度(すなわち、正配置部分空撮領域42の放射状線をどの角度で回転させて、誤配置部分空撮領域44の放射状線を得るか)は、予め定義されていてもよいし、ユーザによって提供されていてもよいし、動的に算出されていてもよい。
【0049】
第1のケースにおいて、部分空撮領域抽出部2040は、回転角度を示す回転角度情報を取得しうる。この回転角度情報は、予め記憶装置に格納されていてもよい。部分空撮領域抽出部2040は、この回転角度情報によって示される回転角度だけ、正配置部分空撮領域42の第1の放射状線及び第2の放射状線を回転させ、誤配置部分空撮領域44の第1の放射状線及び第2の放射状線を得る。そして、部分空撮領域抽出部2040は、誤配置部分空撮領域44について算出された第1の放射状線及び第2の放射状線を用いて、誤配置部分空撮領域44を抽出する。
【0050】
ユーザから回転角度が提供される場合、部分空撮領域抽出部2040は、回転角度を示すユーザ入力を出得しうる。部分空撮領域抽出部2040は、ユーザから提供された回転角度だけ、正配置部分空撮領域42の第1の放射状線及び第2の放射状線を回転させることにより、誤配置部分空撮領域44の第1の放射状線及び第2の放射状線を得る。
【0051】
回転角度が動的に決定される場合、部分空撮領域抽出部2040は、回転角度として乱数を算出しうる。例えば、ゼロ平均ガウス分布 N(0,σ) から回転角度をサンプリングしうる。標準偏差σは、予め記憶装置に格納されていてもよいし、ユーザから提供されてもよい。部分空撮領域抽出部2040は、正配置部分空撮領域42の第1の放射状線及び第2の放射状線を、ランダムに決定された回転角度だけ回転させることにより、誤配置部分空撮領域44の第1の放射状線及び第2の放射状線を得る。なお、回転角度として乱数をサンプリングすることは、識別器10が訓練データにオーバーフィットすることを防止するために有効である。
【0052】
部分空撮領域抽出部2040は、互いに異なる複数の回転角度を用いて、誤配置部分空撮領域44を複数抽出しうる。予め回転角度が定義されている場合、部分空撮領域抽出部2040は、複数の回転角度を示す回転角度情報を取得しうる。部分空撮領域抽出部2040は、回転角度情報によって示されている各回転角度について誤配置部分空撮領域44を取得することで、複数の誤配置部分空撮領域44を取得する。
【0053】
ユーザから回転角度が提供される場合、部分空撮領域抽出部2040は、複数の回転角度を示すユーザ入力を取得してもよい。部分空撮領域抽出部2040は、ユーザ入力に示されている各回転角度について誤配置部分空撮領域44を取得することで、複数の誤配置部分空撮領域44を取得する。
【0054】
回転角度が動的に算出される場合、部分空撮領域抽出部2040は、回転角度として複数の乱数を算出しうる。抽出すべき誤配置部分空撮領域44の個数がMであるとする。この場合、部分空撮領域抽出部2040は、ガウス分布からランダムな値をM回サンプリングすることで、M個の回転角度を得る。部分空撮領域抽出部2040は、サンプリングされたM個の各回転角度について誤配置部分空撮領域44を得ることにより、M個の誤配置部分空撮領域44を得る。
【0055】
<識別器10の訓練の実行:S108>
訓練実行部2060は、正配置部分空撮領域42と誤配置部分空撮領域44とを用いて識別器10の訓練を実行する。コンセプトとして、識別器10は、正配置部分空撮領域42だけでなく、誤配置部分空撮領域44も地上画像20とマッチするように訓練される。このため、訓練実行部2060は、正配置部分空撮領域42と誤配置部分空撮領域44の両方を正例として、識別器10の訓練を実行する。
【0056】
例えば、訓練実行部2060は、地上画像20と正配置部分空撮領域42とのセットを入力し、地上画像20の特徴量と正配置部分空撮領域42の特徴量との類似度を表す類似度スコアを求める。そして、訓練実行部2060は、得られた類似度スコアに基づいて損失を算出し、損失が低減されるように識別器10の訓練可能なパラメータ(例えばニューラルネットワークの重み)を更新する。なお、算出された損失に基づいて機械学習ベースのモデルの訓練可能なパラメータを更新する方法には、様々な周知の方法があり、それらのいずれかを利用して識別器10を訓練することができる。
【0057】
誤配置部分空撮領域44を利用した識別器の訓練にも同様のことを適用できる。具体的には、訓練実行部2060は、地上画像20と誤配置部分空撮領域44とのセットを入力し、地上画像20の特徴量と誤配置部分空撮領域44の特徴量との類似度を表す類似度スコアを算出する。そして、訓練実行部2060は、得られた類似度スコアに基づいて損失を算出し、損失が低減されるように識別器10の訓練可能なパラメータを更新する。
【0058】
識別器10の訓練には、負例の部分空撮領域も用いることができる。例えば訓練実行部2060は、地上画像20と、正例の部分空撮領域40と、負例の部分空撮領域40とのセットを用いうる。正例としては、正配置部分空撮領域42及び誤配置部分空撮領域44が用いられ、負例としては、他の部分空撮領域が用いられる。なお、負例の部分空撮領域40が抽出される空撮画像30は、正配置部分空撮領域42及び誤配置部分空撮領域44が抽出される空撮画像30と同一の空撮画像30であってもよいし、異なる空撮画像30であってもよい。前者の場合、負例の部分空撮領域40は、正配置部分空撮領域42と重ならない部分空撮領域40である。後者の場合、取得部2020は、負例の部分空撮領域40を1つ以上取得してもよいし、又は、1つ以上の追加の空撮画像30を取得し、その空撮画像30から訓練実行部2060が1つ以上の負例の部分空撮領域40を抽出しうる。
【0059】
負例を用いて識別器10を訓練する方法は様々である。例えば、訓練実行部2060は、識別器10を訓練するためにトリプレットロスを算出しうる。具体的には、訓練実行部2060は、互いに同一のセットに含まれる地上画像20と正例の部分空撮領域40とを入力し、それらについて類似度スコアを得る。また、訓練実行部2060は、互いに同一のセットに含まれる地上画像20と負例の部分空撮領域40とを入力し、それらの類似度スコアを得る。そして、訓練実行部2060は、地上画像20及び正例の部分空撮領域40について算出された類似度スコアと、地上画像20及び負例の部分空撮領域40とについて算出された類似度スコアとを用いてトリプレットロスを算出し、算出されたトリプレットロスに基づいて識別器10の訓練可能なパラメータを更新する。なお、算出されたトリプレットロスに基づいて機械学習ベースのモデルの訓練可能なパラメータを更新する方法には周知の方法があり、それらのいずれかを使用して識別器10を訓練することができる。
【0060】
<訓練装置2000からの出力>
訓練装置2000は、識別器10の訓練の結果得られたデータ(以下、出力情報)を出力しうる。例えば出力情報は、識別器10の訓練の結果得られた識別器10の訓練パラメータを含んでもよい。訓練装置2000から出力された訓練可能なパラメータを識別器10に設定することにより、正配置部分空撮領域42だけでなく、誤配置部分空撮領域44についても地上画像20とマッチすると判定可能な識別器10を得ることができる。別の例では、出力情報は、識別器10の全体(例えば、識別器10を実装するプログラム、その訓練不可能なパラメータ、及び訓練装置2000によって更新された訓練可能なパラメータ)を含みうる。
【0061】
訓練装置2000が出力情報を出力する方法には様々な方法がある。例えば、訓練装置2000は、出力情報を記憶装置に格納しうる。他の例では、訓練装置2000は出力情報を表示装置に出力し、表示装置が出力情報の内容を表示するようにしてもよい。他の例では、訓練装置2000は、出力情報を、
図7に示すジオローカライゼーションシステム200に含まれるコンピュータのような、別のコンピュータに出力してもよい。
【0062】
プログラムは、様々なタイプの非一時的なコンピュータ可読媒体(non-transitory computer readable medium)を用いて格納され、コンピュータに提供することができる。非一時的なコンピュータ可読媒体は、様々なタイプの実体のある記録媒体(tangible storage medium)を含む。非一時的なコンピュータ可読媒体の例は、磁気記録媒体(例えば、フレキシブルディスク、磁気テープ、ハードディスクドライブ)、光磁気記録媒体(例えば、光磁気ディスク)、CD-ROM、CD-R、CD-R/W、半導体メモリ(例えば、マスク ROM、PROM(Programmable ROM)、EPROM(Erasable PROM)、フラッシュROM、RAM)を含む。また、プログラムは、様々なタイプの一時的なコンピュータ可読媒体(transitory computer readable medium)によってコンピュータに提供されてもよい。一時的なコンピュータ可読媒体の例は、電気信号、光信号、及び電磁波を含む。一時的なコンピュータ可読媒体は、電線及び光ファイバ等の有線通信路、又は無線通信路を介して、プログラムをコンピュータに供給できる。
【0063】
以上、実施形態を参照しながら本開示について説明したが、本開示は上記実施形態に限定されるものではない。本開示における構成及び詳細は、本発明の範囲内で、当業者に理解可能な種々の変更を加えることができる。
【0064】
上記の実施形態の一部又は全部は、以下の付記のようにも記載されうるが、以下には限られない。
(付記1)
少なくとも1つのプロセッサと、
命令列が格納されている記憶要素と、を含み、
前記少なくとも1つのプロセッサは、前記命令列を実行することにより、
視野角が360度未満である地上画像と、空撮画像と、配置情報とを取得し、
前記地上画像と前記空撮画像とがマッチするか否かを判定する識別器を訓練し、前記識別器は前記空撮画像から複数の部分空撮領域を抽出し、前記地上画像とマッチする前記部分空撮領域が存在する場合に、前記地上画像と前記空撮画像とがマッチすると判定し、
前記識別器の訓練は、
正配置部分空撮領域と誤配置部分空撮領域を前記空撮画像から抽出することを含み、前記正配置部分空撮領域は、前記配置情報によって示され、かつ、前記地上画像に対応する前記部分空撮領域であり、前記誤配置部分空撮領域は、前記正配置部分空撮領域と一部が重複する前記部分空撮領域であり、
前記地上画像及び前記正配置部分空撮領域のセットと、前記地上画像と前記誤配置部分空撮領域のセットとを用いて、前記識別器を訓練することを含み、前記正配置部分空撮領域と前記誤配置部分空撮領域の双方は、正例の前記部分空撮領域として利用される、訓練装置。
(付記2)
前記配置情報は第1の放射状線と第2の放射状線を示し、
前記正配置部分空撮領域の抽出は、前記空撮画像において前記第1の線と前記第2の線との間にある領域を前記正配置部分空撮領域として抽出することを含み、
前記誤配置部分空撮領域の抽出は、
前記第1の放射状線と前記第2の放射状線を回転させることと、
前記空撮画像において前記回転された第1の放射状線と前記回転された第2の放射状線との間にある領域を前記誤配置部分空撮領域として抽出することとを含む、付記1に記載の訓練装置。
(付記3)
前記誤配置部分空撮領域の抽出は、確率分布から値をサンプリングすることを含み、
前記第1の放射状線と前記第2の放射状線は、前記サンプリングされた値によって定まる角度回転される、付記2に記載の訓練装置。
(付記4)
前記確率分布はゼロ平均ガウス分布である、付記3に記載の訓練装置。
(付記5)
前記少なくとも1つのプロセッサは、前記空撮画像から円形領域を抽出するようにさらに構成され、
前記正配置部分空撮領域と前記誤配置部分空撮領域は、前記円形領域から抽出される、付記1から4いずれか一項に記載の訓練装置。
(付記6)
コンピュータによって実行される制御方法であって、
視野角が360度未満である地上画像と、空撮画像と、配置情報とを取得することと、
前記地上画像と前記空撮画像とがマッチするか否かを判定する識別器を訓練することと、を含み、前記識別器は前記空撮画像から複数の部分空撮領域を抽出し、前記地上画像とマッチする前記部分空撮領域が存在する場合に、前記地上画像と前記空撮画像とがマッチすると判定し、
前記識別器の訓練は、
正配置部分空撮領域と誤配置部分空撮領域を前記空撮画像から抽出することを含み、前記正配置部分空撮領域は、前記配置情報によって示され、かつ、前記地上画像に対応する前記部分空撮領域であり、前記誤配置部分空撮領域は、前記正配置部分空撮領域と一部が重複する前記部分空撮領域であり、
前記地上画像及び前記正配置部分空撮領域のセットと、前記地上画像と前記誤配置部分空撮領域のセットとを用いて、前記識別器を訓練することを含み、前記正配置部分空撮領域と前記誤配置部分空撮領域の双方は、正例の前記部分空撮領域として利用される、制御方法。
(付記7)
前記配置情報は第1の放射状線と第2の放射状線を示し、
前記正配置部分空撮領域の抽出は、前記空撮画像において前記第1の線と前記第2の線との間にある領域を前記正配置部分空撮領域として抽出することを含み、
前記誤配置部分空撮領域の抽出は、
前記第1の放射状線と前記第2の放射状線を回転させることと、
前記空撮画像において前記回転された第1の放射状線と前記回転された第2の放射状線との間にある領域を前記誤配置部分空撮領域として抽出することとを含む、付記6に記載の制御方法。
(付記8)
前記誤配置部分空撮領域の抽出は、確率分布から値をサンプリングすることを含み、
前記第1の放射状線と前記第2の放射状線は、前記サンプリングされた値によって定まる角度回転される、付記7に記載の制御方法。
(付記9)
前記確率分布はゼロ平均ガウス分布である、付記8に記載の制御方法。
(付記10)
前記空撮画像から円形領域を抽出することをさらに含み、
前記正配置部分空撮領域と前記誤配置部分空撮領域は、前記円形領域から抽出される、付記6から9いずれか一項に記載の制御方法。
(付記11)
視野角が360度未満である地上画像と、空撮画像と、配置情報とを取得することと、
前記地上画像と前記空撮画像とがマッチするか否かを判定する識別器を訓練することと、をコンピュータに実行させるプログラムが格納されており、前記識別器は前記空撮画像から複数の部分空撮領域を抽出し、前記地上画像とマッチする前記部分空撮領域が存在する場合に、前記地上画像と前記空撮画像とがマッチすると判定し、
前記識別器の訓練は、
正配置部分空撮領域と誤配置部分空撮領域を前記空撮画像から抽出することを含み、前記正配置部分空撮領域は、前記配置情報によって示され、かつ、前記地上画像に対応する前記部分空撮領域であり、前記誤配置部分空撮領域は、前記正配置部分空撮領域と一部が重複する前記部分空撮領域であり、
前記地上画像及び前記正配置部分空撮領域のセットと、前記地上画像と前記誤配置部分空撮領域のセットとを用いて、前記識別器を訓練することを含み、前記正配置部分空撮領域と前記誤配置部分空撮領域の双方は、正例の前記部分空撮領域として利用される、非一時的なコンピュータ可読記憶媒体。
(付記12)
前記配置情報は第1の放射状線と第2の放射状線を示し、
前記正配置部分空撮領域の抽出は、前記空撮画像において前記第1の線と前記第2の線との間にある領域を前記正配置部分空撮領域として抽出することを含み、
前記誤配置部分空撮領域の抽出は、
前記第1の放射状線と前記第2の放射状線を回転させることと、
前記空撮画像において前記回転された第1の放射状線と前記回転された第2の放射状線との間にある領域を前記誤配置部分空撮領域として抽出することとを含む、付記11に記載の記憶媒体。
(付記13)
前記誤配置部分空撮領域の抽出は、確率分布から値をサンプリングすることを含み、
前記第1の放射状線と前記第2の放射状線は、前記サンプリングされた値によって定まる角度回転される、付記12に記載の記憶媒体。
(付記14)
前記確率分布はゼロ平均ガウス分布である、付記13に記載の記憶媒体。
(付記15)
前記プログラムは、前記空撮画像から円形領域を抽出することを、前記コンピュータにさらに実行させ、
前記正配置部分空撮領域と前記誤配置部分空撮領域は、前記円形領域から抽出される、付記11から14いずれか一項に記載の記憶媒体。
【符号の説明】
【0065】
10 識別器
20 地上画像
30 空撮画像
32 円形領域
40 部分空撮領域
42 正配置部分空撮領域
44 誤配置部分空撮領域
50 配置情報
200 ジオローカライゼーションシステム
300 位置データベース
1000 コンピュータ
1020 バス
1040 プロセッサ
1060 メモリ
1080 ストレージデバイス
1100 入出力インタフェース
1120 ネットワークインタフェース
2000 訓練装置
2020 取得部
2040 部分空撮領域抽出部
2060 訓練実行部