(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024030941
(43)【公開日】2024-03-07
(54)【発明の名称】特徴点アップサンプリング装置、方法及びプログラム
(51)【国際特許分類】
G06T 7/00 20170101AFI20240229BHJP
G06T 7/60 20170101ALI20240229BHJP
G06N 20/00 20190101ALI20240229BHJP
【FI】
G06T7/00 350B
G06T7/60 150D
G06N20/00 130
【審査請求】未請求
【請求項の数】11
【出願形態】OL
(21)【出願番号】P 2022134192
(22)【出願日】2022-08-25
(71)【出願人】
【識別番号】000208891
【氏名又は名称】KDDI株式会社
(74)【代理人】
【識別番号】100092772
【弁理士】
【氏名又は名称】阪本 清孝
(74)【代理人】
【識別番号】100119688
【弁理士】
【氏名又は名称】田邉 壽二
(72)【発明者】
【氏名】スワンウィモンクン スウィーチャヤ
(72)【発明者】
【氏名】小森田 賢史
【テーマコード(参考)】
5L096
【Fターム(参考)】
5L096AA06
5L096EA03
5L096EA33
5L096FA09
5L096FA66
5L096FA67
5L096FA69
5L096GA34
5L096GA55
5L096KA04
(57)【要約】
【課題】同一の被写体を異なる視点で撮影した画像ペアから検出できる、幾何学的に一致する特徴点数をアップサンプリングにより増やす。
【解決手段】特徴点抽出部Aは、同一の被写体を異なる視点で撮影した画像ペアから特徴点を抽出する。特徴点マッチャBは、画像ペアから抽出した特徴点を第1の推論モデルに適用して初期マッチングペアを検出する。特徴点アップサンプラCは、画像ペアから抽出した特徴点及び初期マッチングペアを第2の推論モデルに適用して特徴点をアップサンプリングする。正解データ生成部Dは、予め同一の被写体を異なる視点で撮影した画像ペアから抽出した特徴点とマッチング結果との関係を学習した教師モデルに特徴点抽出部Aを用いて正解データを生成する。正解データ生成部Dは、教師モデルの知識を蒸留して特徴点マッチャB及び特徴点アップサンプラCの推論モデルを訓練する。
【選択図】
図1
【特許請求の範囲】
【請求項1】
同一の被写体を異なる視点で撮影した画像ペアから特徴点を抽出する特徴点抽出手段と、
前記画像ペアから抽出した特徴点を第1の推論モデルに適用して初期マッチングペアを検出する特徴点マッチャと、
前記画像ペアから抽出した特徴点及び前記初期マッチングペアを第2の推論モデルに適用して前記画像ペアの特徴点をアップサンプリングする特徴点アップサンプラと、
予め同一の被写体を異なる視点で撮影した画像ペアから抽出した特徴点と特徴マッチングの結果との関係を学習した教師モデルに前記特徴点抽出手段を用いて抽出した特徴点を適用して正解データを生成する正解データ生成手段とを具備し、
前記教師モデルの知識を用いて特徴点マッチャ及び特徴点アップサンプラの少なくとも一方の推論モデルを訓練することを特徴とする特徴点アップサンプリング装置。
【請求項2】
前記教師モデルの中間出力又は予測スコアを、前記特徴点マッチャが特徴点をマッチングするためのソフトラベルとして利用することを特徴とする請求項1に記載の特徴点アップサンプリング装置。
【請求項3】
前記特徴点アップサンプラは、
前記画像ペアの初期マッチング集合を複数のパッチに分割するパッチ分割手段と、
バッチ毎に特徴点をアップサンプリングするアップサンプリング手段とを具備したことを特徴とする請求項1に記載の特徴点アップサンプリング装置。
【請求項4】
前記特徴点アップサンプラが更に、前記画像ペア間でパッチ毎に初期マッチングを実施するパッチベースマッチング手段を具備したことを特徴とする請求項3に記載の特徴点アップサンプリング装置。
【請求項5】
前記特徴点アップサンプラが更に、初期マッチングペアの特徴点の深度を補間する深度補間手段を具備したことを特徴とする請求項4に記載の特徴点アップサンプリング装置。
【請求項6】
前記正解データ生成手段は、前記教師モデルの中間情報をソフトラベルとして抽出するソフトラベル抽出部を具備し、前記特徴点マッチャは当該ソフトラベルを用いて前記第1の推論モデルを訓練することを特徴とする請求項1に記載の特徴点アップサンプリング装置。
【請求項7】
前記正解データ生成手段は、前記教師モデルが抽出した特徴点及びそのマッチングペア集合を前記特徴点アップサンプラへ正解データとして提供するアップサンプリング正解データ提供手段を具備し、
前記アップサンプリング手段は、前記提供された正解データを用いて前記第2の推論モデルを訓練することを特徴とする請求項3に記載の特徴点アップサンプリング装置。
【請求項8】
前記正解データ生成手段は、前記教師モデルが抽出した特徴点の深度を生成して前記特徴点アップサンプラへ正解データとして提供する正解深度補間部を具備し、
深度補間手段は、前記提供された正解データを用いて前記第2の推論モデルを訓練することを特徴とする請求項1に記載の特徴点アップサンプリング装置。
【請求項9】
前記教師モデルの知識を蒸留して特徴点マッチャ及び特徴点アップサンプラの少なくとも一方の推論モデルを訓練することを特徴とする請求項1ないし8のいずれかに記載の特徴点アップサンプリング装置。
【請求項10】
コンピュータが、
同一の被写体を異なる視点で撮影した画像ペアから特徴点を抽出し、
前記画像ペアから抽出した特徴点を第1の推論モデルに適用して初期マッチングペアを検出し、
前記画像ペアから抽出した特徴点及び前記初期マッチングペアを第2の推論モデルに適用して 前記画像ペアの特徴点をアップサンプリングし、
予め同一の被写体を異なる視点で撮影した画像ペアから抽出した特徴点と特徴マッチングの結果との関係を学習した教師モデルに画像ペアから抽出した特徴点を適用して正解データを生成し、
前記教師モデルの知識を用いて前記第1及び第2の推論モデルの少なくとも一方を訓練することを特徴とする特徴点アップサンプリング方法。
【請求項11】
同一の被写体を異なる視点で撮影した画像ペアから特徴点を抽出する手順と、
前記画像ペアから抽出した特徴点を第1の推論モデルに適用して初期マッチングペアを検出する手順と、
前記画像ペアから抽出した特徴点及び前記初期マッチングペアを第2の推論モデルに適用して前記画像ペアの特徴点をアップサンプリングする手順と、
予め同一の被写体を異なる視点で撮影した画像ペアから抽出した特徴点と特徴マッチングの結果との関係を学習した教師モデルに画像ペアから抽出した特徴点を適用して正解データを生成する手順と、
前記教師モデルの知識を用いて前記第1及び第2の推論モデルの少なくとも一方を訓練する手順と、をコンピュータに実行させる特徴点アップサンプリングプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、特徴点アップサンプリング装置、方法及びプログラムに係り、特に、同一の被写体を異なる視点で撮影した画像ペアのそれぞれから抽出した特徴点の個数を、特徴マッチング集合に基づくパッチベースでのアップサンプリングにより増加させる特徴点アップサンプリング装置、方法及びプログラムに関する。
【背景技術】
【0002】
画像マッチングのために設計された多くの深層学習手法は正解データ(ground truth)のマッチング(ground truth matches:GTM)を利用する。したがって、画像ペアから多数の特徴点(Keypoint)を正確に検出できればGTMに一致するものが増えるために学習効果を改善できる。これは非特許文献1が開示する高密度マッチングタスクで証明されているが、この手法では全ての画像ピクセルが等しく重要とみなされ、特徴点の検出数は画像内のピクセル数と同じになるため効率性に欠けることが多い。
【0003】
特許文献1は、画像の特徴量に基づいて画像間の類似性を推定する機械学習システムによって学習された画像比較ツールを開示する。画像照合の真偽は、2枚の画像の画素値を比較し、画素間の類似度に応じて判断される。例えば、画素値の比較は平均差分とすることができ、平均差分の逆数が画像画素間の類似度を表す。
【0004】
特許文献2は、空間チャネルアテンションニューラルネットワークに基づく画像マッチングシステムを開示する。特許文献2では、特徴量のマッチング集合を取得してマッチングペアの確率を予測し、重み付き8点アルゴリズムを計算して基本行列(Essential Matrix)を求め、基本行列に従って正確なカメラ姿勢を得ている。この手法ではマッチング確率の予測に用いる空間チャネルアテンションニューラルネットワークを学習するために、相対的なカメラ姿勢を用いてGTMを補足するためのジオメトリ情報を採用する。
【0005】
特許文献3は、ニューラルネットワークの出力を、対象のニューラルネットワークを学習させるための学習データとして利用するデータ生成システムを開示する。出力が導出されるニューラルネットワークは、対象ネットワークまたは教師ネットワークである。特許文献3では、ニューラルネットワークからの活性化マップが教師ネットワークの出力となる。
【0006】
非特許文献1は、2つの画像間の全ての画素を照合する密な照合を実施することで、特徴量検出を行わずに照合画素のペアを見つける技術を開示する。非特許文献1は、画像から局所的な特徴を抽出するためにニューラルネットワークのバックボーンを採用し、粗いスケールと細かいスケールで画素をマッチングさせるために2つのTransformerを採用する。
【0007】
粗いレベルのTransformerは、マルチヘッドアテンション(Multi-head Attention)であるself attention / cross attentionによる密なマッチングを行い、その結果、粗いスケールでマッチングされた画素ペアを得る。そして、粗いスケールでのマッチしたピクセルペアは細かいレベルのTransformerのためのマッチペアを初期化するために使用される。細かいレベルのTransformerはself attention / cross attentionを用いたマッチングを行い、精緻なマッチングキーポイントを抽出する。
【0008】
非特許文献2は、画像ペアから2組の特徴量をマッチングさせるスパースマッチングを提案する。非特許文献2では、入力の異なる部分の影響を重み付けするattention構造を持つ深層学習モデルであるTransformerを採用する。Transformerは特徴量の位置及び記述子の両方に基づいて画像のマッチングを行うように学習される。
【0009】
Transformerは以下の構成要素を備える。(1) 特徴点の位置を捉えるための特徴点エンコーダ、(2) 2つの画像内/間の特徴点とその特徴記述の情報を集約するためのMulti-head Attentionである9層のself attention / cross attention、(3) 2画像間でそれら位置と特徴記述が埋め込まれた特徴間の一致を捉えるためのSinkhornアルゴリズムであるマッチングレイヤー。
【0010】
非特許文献3は、点集合をアップサンプリングするための詳細駆動型ディープニューラルネットワークを提案する。この方法は、点集合のためのパッチベースのプログレッシブアップサンプリングを利用する。ニューラルネットワークは複数のステップで異なるレベルの詳細を学習し、各ステップでは前のステップの出力からの局所的なパッチに焦点を当てる。非特許文献3では、エンドツーエンドで漸進的にネットワークを学習し、疎な入力点集合を段階的にアップサンプリングすることで、幾何学的詳細が豊かで高密度な点集合を生成する。
【先行技術文献】
【特許文献】
【0011】
【特許文献1】US10489678B2
【特許文献2】CN112489098A
【特許文献3】US20200302295A1
【特許文献4】US20190205748A1
【非特許文献】
【0012】
【非特許文献1】"LoFTR: Detector-Free Local Feature Matching with Transformers",Sun et al., 2021
【非特許文献2】"SuperGlue: Learning Feature Matching with Graph Neural Networks",Sarlin et al., 2020
【非特許文献3】"Patch-based Progressive 3D Point Set Upsampling",Yifan et al., 2019
【発明の概要】
【発明が解決しようとする課題】
【0013】
図7に示すように、同一の被写体を異なる視点で撮影した画像ペアI
A,I
Bの画像マッチングでは、初めに特徴点検出が行われて各カメラ画像I
A,I
Bから複数個の特徴点がそれぞれ検出される[同図(a)]。
【0014】
次いで、一方のカメラ画像から検出した特徴点が他方のカメラ画像へ(ここでは、カメラ画像IAからカメラ画像IB)射影変換により投影される[同図(b)]。この計算に必要なカメラの姿勢および被写体までの深度情報は、正解データとして画像ペアIA,IBと共に与えられている。
【0015】
最後に、特徴点が重なっており、なおかつ特徴記述が一致する特徴点同士が正解マッチングペアとして登録される[同図(c)]。このペアを構成する特徴点を正解マッチング特徴点とする。このような画像マッチング手法には以下のような技術課題がある。
【0016】
第1に、検出できた特徴点の位置が2つの画像間で本来幾何学的に一致する場合でも、上記した手法では投影後に重ならない場合がある。その場合、その特徴点は正解データとして検証することができない。正解マッチング特徴点の数は、検出できた特徴点数の35%以下であることが多い。
【0017】
第2に、既存の正解マッチングペアは、マッチングした特徴点ペアを"1"、マッチしない特徴点ペアを"0"とするバイナリ行列で表されるが、マッチングする特徴点が全特徴点の35%以下となるためにマッチング数が不足する。
【0018】
本発明の目的は、上記の技術課題を解決し、画像ペアから抽出できる幾何学的に一致する特徴点数をアップサンプリングにより増やし、更に特徴点マッチャの学習において新しい情報を追加するソフトラベリング方式により正解マッチングペアの条件を緩和させる特徴点アップサンプリング装置、方法及びプログラムを提供することにある。
【課題を解決するための手段】
【0019】
上記の目的を達成するために、本発明は、正解データ生成の問題を解決するために、(1)特徴点のアップサンプリング処理、(2)アップサンプリングした特徴点のマッチャ学習のための追加的なラベリング生成を行う。
【0020】
特徴点を増やすために、マッチングできた特徴点をアップサンプリングして更にその深さを補間し、ポイントセットのアップサンプリングを修正することで幾何学的に一致するキーポイントを学習する新しいニューラルネットワークのアーキテクチャを設計する。また、アップサンプリングされた特徴点の位置も学習して修正する。
【0021】
マッチャ学習のために知識蒸留の技術を修正し、特徴点アップサンプリングとマッチングを学習するための正解データを提供する。
【0022】
なお、本発明はこのような特徴的な処理部を備える特徴点アップサンプリング装置として実現できるのみならず、係る特徴的な処理をステップとする特徴点アップサンプリング方法として実現し、更には係るステップをコンピュータに実行させる特徴点アップサンプリングプログラムとして実現することができる。
【発明の効果】
【0023】
本発明によれば以下の効果が達成される。
【0024】
(1) 画像から抽出できなかった特徴点をアップサンプリングにより追加することができるので、マッチングに用いることができる特徴点の総数を増やすことができる。
【0025】
(2) アップサンプリングにより増えた特徴点の深度を補完するので、多数の特徴点に基づく高精度な射影変換を実現できる。
【0026】
(3) 特徴点のアップサンプリングをパッチベースで、初期の特徴マッチングペアを種として行うのでマッチャ計算時間を短縮できる。
【0027】
(4) マッチングした特徴点の位置を利用して無駄なマッチングを防ぐことで、マッチング、3D再構成及び視覚定位などパイプライン全体の効率化を図ることができる。
【図面の簡単な説明】
【0028】
【
図1】本発明の一実施形態に係る特徴点アップサンプリング装置の主要部の構成を示した機能ブロック図である。
【
図2】特徴点アップサンプラの処理を説明するためのフロー図である。
【
図3】パッチ分割の処理を模式的に示した図である。
【
図4】アップサンプリングの処理を模式的に示した図である。
【
図5】本発明の効果を説明するための図(その1)である。
【
図6】本発明の効果を説明するための図(その2)である。
【
図7】本発明の解決課題を説明するための図である。
【発明を実施するための形態】
【0029】
以下、図面を参照して本発明の実施の形態について詳細に説明する。
図1は、本発明の一実施形態に係る特徴点アップサンプリング装置の主要部の構成を示した機能ブロック図であり、特徴点抽出部A、特徴点マッチャB、特徴点アップサンプラC及び正解データ追加生成部Dを主要な構成としている。
【0030】
このような特徴点アップサンプリング装置は、CPU、ROM、RAM、バス、インタフェース等を備えた汎用のコンピュータやサーバに、以下に詳述する各機能を実現するアプリケーション(プログラム)を実装することで構成できる。あるいはアプリケーションの一部をハードウェア化またはソフトウェア化した専用機や単能機としても構成できる。
【0031】
特徴点抽出部Aは、同一の被写体を異なる視点で撮影した2枚の画像(画像ペア)から特徴点を抽出する。抽出される特徴点は、特徴点の位置およびその特徴記述子の2要素から構成される。特徴記述子は特徴点の意味情報を記述した高次元ベクトルである。本実施形態では、特徴点抽出部AとしてSIFTやSuperPointなどの既存の手法を採用しても良いし、end-to-end方式で学習可能なニューラルネットワークを採用しても良い。
【0032】
前記特徴点抽出部Aは、画像IAから特徴点を抽出し、その2次元画像上の位置(x,y)を表現する位置ベクトルKoA∈RNo×2及び特徴記述子を表現する高次元ベクトルFoA∈RNo×Fを計算する。したがって、特徴点抽出部Aの処理は次式(1-1),(1-2)で表現できる。抽出された位置ベクトルKoA及び特徴記述子の高次元ベクトルFoAは、特徴点マッチャB、特徴点アップサンプラC及び正解データ追加生成部Dへ提供される。
【0033】
【0034】
特徴点マッチャBは、2つの画像IA,IBから抽出した特徴点に基づいて特徴マッチングを行い、対応する特徴点同士を初期マッチングペアに決定する。特徴点マッチャBとしては、MNN(Matching Neural Network)Matching,SuperGlue又はSGMNetなどのニューラルネットワーク(推論用の小さな学習モデル:推論モデル)を用いる既存の特徴マッチング手法を採用しても良いし、end-to-end方式で学習可能なニューラルネットワークを用いても良い。
【0035】
例えば、特徴点マッチャBをend-to-end方式で学習させる場合、SuperGlueのグラフニューラルネットワーク(GNN)及びSinkhorn層の両方を学習させる必要がある。GNN 部分は次式(2)のように定義できる。Sinkhorn層は次式(3)のように定義できる。
【0036】
【0037】
【0038】
なお、初期マッチングペアの集合はMscoreの最近傍探索により求めても良い。このように、特徴点マッチャBは2つの画像IA,IB間で特徴点の初期マッチングペア集合Moを抽出し、これを特徴点アップサンプラCへ出力する。したがって、特徴点マッチャBの動作は次式(4)で表現できる。ここで、Moは画像IAから画像IBへの初期マッチングペアの集合を表す。
【0039】
【0040】
特徴点アップサンプラCは、
図2に示すように、パッチ分割C.1,アップサンプリングC.2,パッチベースマッチングC.3,深度補間C.4及び幾何考慮学習C.5の各処理を実施し、初期マッチングペアに基づくパッチベースでの局所的なアップサンプリングにより特徴点及びマッチングペアの総数を増加させる。
【0041】
本実施形態では、初期マッチングペアの各特徴点をその位置に基づいて複数の小領域(パッチ)に分割する。次いで、パッチごとに各特徴点をニューラルネットワーク(推論用の小さな学習モデル:推論モデル)へ入力して当該入力した特徴点に関連する新しい特徴点を抽出(アップサンプリング)し、パッチベースでの局所的な特徴点マッチングを行う。最後に、アップサンプリングされた特徴点のマッチングペア毎に深度情報を補間する。
【0042】
パッチ分割C.1では、例えばK-NN(k近傍法)アルゴリズムを使用して、各画像IA,IBから抽出した多数の特徴点がその位置に基づいてK個の小領域(パッチ:l1,l2…lK)に分割される。この処理は次式(5-1),(5-2)で表現できる。
【0043】
【0044】
ここで、Ii
Aは画像IAのi番目のパッチli
Aにおける特徴点インデックスの集合、Ij
Bは画像IBのj番目のパッチlj
Bにおける特徴点インデックスの集合を表している。本実施形態では、画像IA,IBの各パッチを指定する特徴点インデックスに従って各特徴点の位置ki
A,kj
B及びその特徴記述子di
A,dj
Bのセットが選択される。この処理は次式(6-1),(6-2)で表現できる。
【0045】
【0046】
各パッチの特徴点の位置k
i
A及びk
j
BはK×2のサイズを持つことになり、特徴記述子d
i
A,d
j
BはK×Fのサイズを持つことになる。ここで、Kは特徴点及びその特徴記述子の個数、Fは一つの特徴記述子のサイズを表している。
図3はパッチ分割C.1の処理を模式的に表現している。
【0047】
アップサンプリングC.2では、パッチごとに各特徴点の位置及び特徴記述子をニューラルネットワークに入力することで多数の点について特徴記述子を生成する。この処理は次式(7-1),(7-2)で表現できる。(ki
A,di
A)にはi番目のパッチに関連付けられたK近傍点の位置及びその特徴記述子が対応付けられている。
【0048】
【0049】
図4に示すように、スケーリングファクタをPに設定すると、得られる特徴記述子d
-
i
A は、与えられた特徴点からアップサンプリングされたP個の点に関連付けられる。関連する特徴記述子のアップサンプリングには、OA-Net [Zhang et al., 2019]やPU-GCN [Qian et al., 2019]のディープニューラルネットワークを使用することができる。
【0050】
例えば、UPSAMP (・)はPU-GCN(Point Cloud Upsampling using Graph Convolutional Networks)のように学習可能な特徴点アップサンプリングユニットにおいて、グラフニューラルネットワーク(GCN)層を使用して特徴次元を増強し、増強した特徴次元を定期的にシャッフルすることで特徴点の数をアップサンプリングできる。本実施形態では、初めに次式(8)に示すように特徴次元を拡張する。
【0051】
【0052】
ここで、GCNは次式(9)に示すように、サイズF×Kの入力を受けてサイズPF×Kの出力を与えることを意味する。
【0053】
【0054】
そして、次式(10)に示すように、最後の次元で最大値となるような縮小操作を行う。
【0055】
【0056】
最後に、i^番目のシード位置からアップサンプリングされたP個の点を含む特徴記述子d-
i
Aを得るように、次式(11)に基づいてd~
i
Aの次元を順列化する。
【0057】
【0058】
アップサンプリングされた点に関連する特徴点の位置は、特徴記述子を2次元にマッピングするDNN層,すなわち次式(12)を用いて次式(13)により計算される。
【0059】
【0060】
【0061】
ここで、k-
i
A及びk-
j
B は、それぞれi番目及びj番目のパッチにおいてアップサンプリングされた特徴点の集合である。k-
i
A及びk-
j
B は画像座標の範囲外である任意の値を取ることができる。また、新しい座標では2つの画像間の位置関係の維持が保証されない。例えば、画像Aで左から並んでいる点に対し、画像Bで対応する点の位置が入れ替わってしまう可能性がある。これを防ぐために、本実施形態では上式(13)の出力を種位置からのずれとして出力k-
i
A及びk-
j
B の向きを制御する。例えば、P=4とすればk-
i
Aから4点を得ることになる。
【0062】
そこで、本実施形態では[(0, 1),(0, -1),(-1, 0),(0, 1)]のような方向性フィルタを用いて、k-
i
Aからの値、すなわち[(0, x1),(0, -x2),(-y3, 0),(0, y4)]をフィルタリングすれば良いことになる。したがって、方向性フィルタをFilt(・)で表せば、新しい特徴点の位置は次式(14-1),(14-2)で求められる。
【0063】
【0064】
アップサンプリングされた特徴点の位置k-iA及び特徴記述子d~iAの概念は、それぞれ次式(15),(16)で説明できる。
【0065】
【0066】
【0067】
ここで、Pi
A及びPj
Bはそれぞれ、画像IAのi番目のソースパッチから画像IBのj番目のターゲットパッチへの特徴点のインデックス集合を表している。Pi
A,Pj
Bからのインデックスを(p, q)として全てのパッチを集めると、アップサンプリングされた特徴点のインデックス集合Supは次式(17)で定義できる。
【0068】
【0069】
パッチペースマッチングC.3では、パッチ間で特徴点の局所的なマッチングが行われる。特徴点はその特徴記述子を介して、より高い次元に射影することで入力される。
【0070】
最後に、各パッチ間で局所的なマッチングを行い、マッチングされた特徴点をまとめて蓄積する。特徴点の局所的なマッチングは任意のマッチャ及びフィルタリングを利用して行うことができる。パッチペースマッチング部C.3の処理は次式(18)で表現できる。ここで、Mupは画像IAから画像IBへのアップサンプリングした特徴点のマッチングペアの集合を表す。
【0071】
【0072】
深度補間C.4では、アップサンプリングされた特徴点の深度が補間計算により推定される。入力された2次元の特徴点は深度情報を有さない。インデックス集合Pi
A,Pj
Bからアップサンプリングされた位置及び特徴記述子をそれぞれ(k-
i
A,d-
i
A),(k-
j
B,d-
j
B)とすれば深度は次式(19)で推定できる。
【0073】
【0074】
幾何考慮学習C.5では、アップサンプリングされた特徴点が画像間の幾何的な整合性を保ちながら検出できるように、(1) 幾何損失(Geometry Loss),(2) 特徴記述子損失(Description Loss),(3) アップサンプリング損失(Upsampling Loss)及び(4) 深度推定損失(Depth Estimation Loss)等の各種損失が学習される。
【0075】
(1) 幾何損失
特徴点の位置を正確に検出できるよネットワークのパラメータを最適化するために、カメラの姿勢及び深度情報(CAM)を用いて特徴点のアップサンプリングが学習される。幾何損失の学習方法は次式(20)で表現できる。ここで、k-
Mup
Aとk-
Mup
Bは、Mupで示されるマッチングペアの特徴点のそれぞれ位置を示す。
【0076】
【0077】
(2) 特徴記述子損失
識別性をより向上させるために、アップサンプリングされた特徴点の特徴記述子が学習される。特徴記述子損失の学習方法は次式(21)で表現できる。
【0078】
【0079】
(3) アップサンプリング損失
アップサンプリングされたキーポイントを学習するために、拡張された正解データが使用される。アップサンプリング損失の学習方法は次式(22)で表現できる。
【0080】
【0081】
(4) 深度推定損失
アップサンプリングされた特徴点を学習するために、拡張された正解データが使用される。深度推定損失の学習方法は次式(23)で表現できる。ここで、Chamfer(・)は非特許文献3が開示するChamfer lossに相当する。
【0082】
【0083】
一方、良好な収束を実現するためには、Mupはアップサンプリング点の正解マッチングペアにできるだけ近くする必要がある。しかしながら、アップサンプリング点の正解マッチングペアを抽出することは、異なるサンプリングの不整合により高い計算コストがかかる可能性がある。本実施形態では知識蒸留(Knowledge Distillation)の手法を用いてこの問題を解決する。
【0084】
本実施形態では、正解データ追加生成部Dに画像ペアから抽出した特徴点とマッチング結果との関係を学習した大規模かつ複雑なニューラルネットワーク(学習用の大きなモデル:教師モデル)を予め用意し、当該教師モデルにおける出力を前記特徴点マッチャB及び特徴点アップサンプラCに正解データとして提供する。
【0085】
前記正解データ追加生成部Dは、ソフトラベル抽出部D.1、アップサンプリング正解データマッチング部D.2及び正解深度補間部D.3を具備し、特徴点マッチャB及び特徴点アップサンプラCにおいてニューラルネットワークの学習に必要な2次元・3次元情報のうち、不足している情報を抽出する。
【0086】
本実施形態では、SuperGlueやSGMNetのような学習済みのニューラルネットワークを教師モデルとして使用し、情報が不足している2次元および3次元の情報を表すソフトラベル及びハードラベルの双方の正解ラベルを提供する。正解データ追加生成部Dが追加的に生成する正解データは、以下に詳述するように、上記の出力層や損失関数を学習するために生成される。
【0087】
ソフトラベル抽出部D.1は、マッチャとして学習済みのSuperGlueなどの教師モデルの中間出力や予測スコアを、特徴点マッチャBが特徴点をマッチングするためのソフトラベル(soft target)として利用する。本実施形態では、Sinkhorn層の出力がソフトラベルとして使用される。ソフトラベル抽出部D.1の動作は次式(24)で表現できる。
【0088】
【0089】
ここで、M^scoreは学習済みSuperGlueのSinkhorn層からのマッチングスコアを表し、F^A,F^B は学習済み SuperGlue のGNNからの中間出力を表している。
【0090】
上式(24)で得られるマッチングスコアM^scoreは、特徴点マッチャBが上式(4)において、次式(25)の損失関数と共にマッチャを学習する際の正解データとして使用できる。ここで、Mscoreは上式(4)で推定されるマッチングスコアであり、KL(・||・)はカルバック・ライブラー発散損失(Kullback-Leibler divergence loss)である。
【0091】
【0092】
アップサンプリング正解データマッチ生成部D.2は、学習済の教師モデルを用いて、2次元のアップサンプリングされた特徴点のために正解マッチングペアM^upを生成する。本実施形態では、特徴点抽出部Aを用いて、設定パラメタによってより多くの特徴点の位置及びその特徴記述子(Kup
A,Fup
A),(Kup
B,Fup
B)を抽出し、これらを次式(26)に適用して正解マッチングペアM^upを求める。例えば、SuperPointでは出力する特徴点を、1000点や5000点などに変更できる。
【0093】
【0094】
本実施形態では、上式(20),(21)のMupをM^upに置き換える。そして、上式(22)においてアップサンプリング特徴点を学習するための正解データを選択するために次式(27)の情報を用いる。
【0095】
【0096】
正解深度補間部(D.3)は、アップサンプリングされた特徴点のうち深度が見つからなかった特徴点に関して正解深度情報を補間計算により生成する。p及びqをそれぞれPi
A及びPj
Bに対応する正解データのアップサンプリングインデックスで表せば、補間深度は次式(28)で定義できる。
【0097】
【0098】
なお、上記の実施形態出は、正解データ追加生成部Dが特徴点マッチャB及び特徴点アップサンプラCの各推論モデルを同時に訓練するものとして説明したが、本発明はこれのみに限定されるものではなく、特徴点マッチャB及び特徴点アップサンプラCの各推論モデルの少なくとも一方を訓練するようにしても良い。
【0099】
そして、上記の実施形態によれば、画像ペアから小規模な推論モデルを用いて短時間で大量のマッチングペアを得られ、それにより多数の特徴点に基づく高精度な射影変換を実現できる。したがって、国連が主導する持続可能な開発目標(SDGs)の目標9「レジリエントなインフラを整備し、包括的で持続可能な産業化を推進する」や目標11「都市を包摂的、安全、レジリエントかつ持続可能にする」に貢献することが可能となる。
【符号の説明】
【0100】
A…特徴点抽出部,B…特徴点マッチャ,C…特徴点アップサンプラ,C.1…パッチ分割処理,C.2…アップサンプリング処理,C.3…パッチベースマッチング処理,C.4…深度補間処理,C.5…幾何考慮学習処理,D…正解データ追加生成部,D.1…ソフトラベル抽出部,D.2…アップサンプリング正解データマッチング部,D.3…正解深度補間部