(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2025-07-03
(45)【発行日】2025-07-11
(54)【発明の名称】最適輸送およびエピポーラ幾何学に基づく画像処理のためのシステムならびに方法
(51)【国際特許分類】
G06T 7/70 20170101AFI20250704BHJP
G06V 20/17 20220101ALI20250704BHJP
【FI】
G06T7/70 A
G06V20/17
(21)【出願番号】P 2024524507
(86)(22)【出願日】2022-05-16
(86)【国際出願番号】 JP2022021036
(87)【国際公開番号】W WO2023017663
(87)【国際公開日】2023-02-16
【審査請求日】2024-01-10
(32)【優先日】2021-08-13
(33)【優先権主張国・地域又は機関】US
(73)【特許権者】
【識別番号】000006013
【氏名又は名称】三菱電機株式会社
(74)【代理人】
【識別番号】110001195
【氏名又は名称】弁理士法人深見特許事務所
(72)【発明者】
【氏名】マー,ヤンティン
(72)【発明者】
【氏名】リウ,デホン
(72)【発明者】
【氏名】ボウフォウノス,ペトロス
(72)【発明者】
【氏名】オーリック,フィリップ
【審査官】長谷川 素直
(56)【参考文献】
【文献】特開2018-101408(JP,A)
【文献】特開2020-198096(JP,A)
【文献】国際公開第2021/097185(WO,A1)
【文献】中国特許出願公開第111899194(CN,A)
(58)【調査した分野】(Int.Cl.,DB名)
G06T 7/70
G06V 20/17
(57)【特許請求の範囲】
【請求項1】
シーンの第1の画像と前記シーンの第2の画像との間の位置決めマップ(registrationmap)を決定するための画像処理システムであって、少なくとも1つのプロセッサと、命令を格納したメモリとを備え、前記命令は、前記少なくとも1つのプロセッサによって実行されると、前記画像処理システムに、
前記位置決めマップによって定義される対応点間のエピポーラ幾何学制約の違反を定量化する距離を含むエピポーラ幾何学ベースのレギュラライザで修正された前記第1の画像と前記第2の画像との間の輸送コスト(ground cost)
を最
小化することによって、前記位置決めマップを生成する最適輸送(OT:Optimal Transport)問題を解決させ、
前記輸送コストは、前記第1の画像内で抽出された特徴の輸送コスト距離
と、前記第2の画像
内で抽出された特徴の輸送コスト距離と
の差に基づくコストである、画像処理システム。
【請求項2】
前記画像処理システムはさらに、前記位置決めマップに従って、前記第1の画像と前記第2の画像とを位置決めするように構成されている、請求項1に記載の画像処理システム。
【請求項3】
前記第1の画像内の特徴の前記輸送コスト距離は、前記第1の画像内の画素間のペアワイズ差の類似性尺度に基づいて決定され、前記第2の画像内の特徴の前記輸送コスト距離は、前記第2の画像内の画素間のペアワイズ差の類似性尺度に基づいて決定される、請求項1に記載の画像処理システム。
【請求項4】
前記第1の画像内の画素間のペアワイズ差の類似性尺度および前記第2の画像内の画素間のペアワイズ差の類似性尺度の各々は、Gromov-Wassersteinの概念に従って定義される、請求項3に記載の画像処理システム。
【請求項5】
前記OT問題を解決することは、
前記シーンにおける前記第1の画像
内の特徴ベクトルと前記第2の画像内
の特徴ベクトル間のGromov-Wasserstein(GW)距離
をOT距離
として決定することを含む、請求項1に記載の画像処理システム。
【請求項6】
前記第1の画像と前記第2の画像とは、前記シーン内の異なるオブジェクトの地上からの高度差を示す画素解像度を有する航空画像である、請求項5に記載の画像処理システム。
【請求項7】
前記第1の画像と前記第2の画像とは、前記シーンの非普遍的な特徴を含み、前記第1の画像内の前記非普遍的な特徴の特徴ベクトルと、前記第2の画像内の前記非普遍的な特徴の特徴ベクトルとは、共通の空間において定義されない、請求項5に記載の画像処理システム。
【請求項8】
前記第1の画像
および前記第2の画
像に対応す
る特徴ベクトルは、前記第1の画像
および前記第2の画
像のそれぞれの画像の画素座標と3チャンネル強度値とのうちの1つ以上を含む、請求項5に記載の画像処理システム。
【請求項9】
前記エピポーラ幾何学ベースのレギュラライザは、前記第1の画像と前記第2の画像との間の基本行列の関数である、請求項6に記載の画像処理システム。
【請求項10】
前記エピポーラ幾何学ベースのレギュラライザはサンプソン不一致を含む、請求項9に記載の画像処理システム。
【請求項11】
前記OT問題は、前記第1の画像と前記第2の画像との普遍的特徴のクロス画像コスト行列の関数であり、前記第1の画像内の前記普遍的特徴の特徴ベクトルと前記第2の画像内の前記普遍的特徴の特徴ベクトルとは共通の空間において定義される、請求項1に記載の画像処理システム。
【請求項12】
前記プロセッサはさらに、前記位置決めマップに従って前記第1の画像と前記第2の画像とを融合して、融合画像を出力するように構成されている、請求項6に記載の画像処理システム。
【請求項13】
前記第1の画像のモダリティは、前記第2の画像のモダリティと異なる、請求項12に記載の画像処理システム。
【請求項14】
前記第1の画像および前記第2の画像の前記モダリティは、光学カラー画像、光学グレースケール画像、深度画像、赤外線画像、およびSAR画像からなるグループから選択される、請求項13に記載の画像処理システム。
【請求項15】
前記第1の画像と前記第2の画像とは、センサによって生成された前記シーンのマルチアングルビュー画像のセットの一部であり、各マルチアングルビュー画像は画素を含み、少なくとも1つのマルチアングルビュー画像は前記シーンの少なくとも一部において曇りの領域を含み、それによって欠落画素が生じ、前記プロセッサはさらに、
前記位置決めマップに基づいて、前記マルチアングルビュー画像を前記シーンのターゲットビュー角度に対して位置合わせして、少なくとも3つのマルチアングルビュー画像のうちの少なくとも1つの位置合わせされたマルチアングルビュー画像が、前記曇りの領域に起因する欠落画素を有するように、前記シーンのターゲット視点を表す位置合わせされたマルチアングルビュー画像のセットを形成し、
ベクトル化され位置決めされたマルチアングルビュー画像を用いて、前記欠落画素に起因して不完全である行列を形成し、
行列補完を使用して前記行列を補完して、位置決めされた前記マルチアングルビュー画像を結合して、前記曇りの領域のない前記シーンの融合画像を生成するように構成されている、請求項1に記載の画像処理システム。
【請求項16】
前記シーンは3次元(3D)シーンであり、前記マルチアングルビュー画像のセットの各マルチアングルビュー画像は、前記3Dシーンに対して未知のセンサ位置で同じ時間または異なる時間に撮影されたうちの1つの画像である、請求項15に記載の画像処理システム。
【請求項17】
前記行列補完は低ランク行列補完であり、前記低ランク行列補完の各列は、ベクトル化され位置決めされたマルチアングルビュー画像に対応し、位置決めされた前記少なくとも1つのマルチアングルビュー画像の前記欠落画素は、前記曇りの領域に対応する、請求項16に記載の画像処理システム。
【請求項18】
前記センサは、前記マルチアングルビュー画像の取得中に移動可能である、請求項15に記載の画像処理システム。
【請求項19】
前記センサは、衛星または飛行機に配置される、請求項18に記載の画像処理システム。
【請求項20】
シーンの第1の画像と前記シーンの第2の画像との間の位置決めマップを決定するための画像処理方法であって、
プロセッサが、前記位置決めマップによって定義される対応点間のエピポーラ幾何学制約の違反を定量化する距離を含むエピポーラ幾何学ベースのレギュラライザで修正された前記第1の画像と前記第2の画像との間の輸送コスト
を最
小化することによって、前記位置決めマップを生成する最適輸送(OT)問題を解決することを含み、
前記輸送コストは、前記第1の画像内で抽出された特徴の輸送コスト距離
と、前記第2の画像
内で抽出された特徴の輸送コスト距離
の差に基づくコストである、画像処理方法。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、一般に画像処理に関し、より詳細には、3次元(3D)シーンの複数の画像の位置決め(registration)および融合のための位置決めマップの生成に関する。
【背景技術】
【0002】
シーンを撮像するために、いくつかの撮像技術を利用可能である。各撮像技術には長所および短所があり、異なるタイプの情報を提供する可能性があるため、シーンの特徴を正確に描写するためには、異なる撮像技術を組み合わせることが実際には有利な場合がある。2つ以上の撮像システムをうまく統合するため、および/または、異なるシステムによって提供される情報を合成するためには、異なるモダリティで得られることが多い画像データを位置決めする必要がある。画像位置決めでは、対応画素が同じオブジェクト/特徴を表すように、異なるビュー幾何学および/または異なる地形歪みを有する2つの画像を、同じ座標系に幾何学的に位置合わせする。正確な画像間位置決めは、ジオリファレンス、変化検出、時系列解析、データ融合、画像モザイクの形成、数値標高モデル(digital elevation model:DEM)の抽出、3Dモデリング、ビデオ圧縮、および動作解析など、多くの用途での使いやすさを向上させる。
【発明の概要】
【発明が解決しようとする課題】
【0003】
位置決めの従来のアプローチは、複雑な計算手順を伴うことが一般的であり、十分な精度が得られない場合がある。既知の画像位置決め法は、主に、1)特徴の選択、2)類似性尺度に基づく特徴のマッチング、3)変換モデルの決定、ならびに4)画像の変換およびリサンプリング、という4つの基本ステップを含む。画像位置決め法は、これらの4つの構成要素について、さまざまな組み合わせの選択肢を提供する。しかしながら、画像が共通のレジームに属さない場合(たとえば、異なるモダリティの場合)には、特徴マッチングが達成できないため、従来の方法を用いた位置決めは不可能である。
【0004】
したがって、現代の撮像用途の要件を満たすために、本開示は、3次元(3D)シーンのマルチモーダル画像に適した、普遍的に適用可能な画像位置決めシステムおよび方法を開発する必要性に対処する。
【課題を解決するための手段】
【0005】
画像位置決めは、異なるデータセットを1つの座標系に変換するプロセスである。データは、複数の写真、異なるセンサからのデータ、時間、深度、または視点であってもよい。画像位置決めは、コンピュータビジョン、医療撮像、航空写真術、リモートセンシング(地図作成更新)、人工衛星からの画像およびデータの編集ならびに分析において使用される。たとえば、異なる照明スペクトル帯域の異なるビュー角度から撮影された3次元シーンの画像は、それらの画像を効率的に融合することができれば、シーンに関する豊富な情報を取り込める可能性がある。これらの画像の位置決めは、正常な融合のための、および/または、これらの異なる測定から得られたデータを比較もしくは統合するための重要なステップである。そのため、異なる画像から抽出された強度ベースの情報および特徴ベースの情報を用いたさまざまな位置決め法が開発されてきた。しかしながら、これらの方法にはすべて長所と短所があるため、あるアプリケーションには適用できるが他のアプリケーションには適用できない。
【0006】
たとえば、投影カメラのホモグラフィに基づく2D画像変換を使用して、2D航空画像から一般的な3Dシーンを再構成する方法がある。しかしながら、3Dシーンが、たとえば、車および高い建物など、地面からの高低差が無視できないオブジェクトを含む場合、投影カメラのホモグラフィに基づく2D画像変換は、我々の事例では、視差のない位置決めには不十分である。
【0007】
カメラの完全な情報(内部パラメータおよび位置)が分かっていれば、2D画像からシーンの3D再構成を容易に行うことができる。これに基づいて、ある系列の研究は、カメラキャリブレーションとそれに続く3Dシーンの再構成とに重点を置いている。しかしながら、キャリブレーションパラメータを決定することは、一連の画像を連続して取り込むビデオにより適した困難なタスクである。
【0008】
SIFTフローアルゴリズムは、高密度にサンプリングされた画素単位のSIFT特徴を2つの画像間でマッチングさせることからなる。SIFTフローアルゴリズムは、最初のステップとして3D再構成を必要としない、直接画素間位置決め法である。その代わりに、近傍の画素の変異が同じであることを課す付加的な正規化項を用いて、各画素において計算された密なSIFT特徴のマッチングによって、2つの画像間の画素単位の変位マップを見つけようとする。特徴は、適切な正規化と組み合わされた勾配の方向に基づいているため、SIFTはアフィン照明の変化に対して不変である。しかしながら、3Dオブジェクトの影によって誘発されるような非線形の照明変化に対してはうまく機能しない。
【0009】
最適輸送(optimal Transport:OT)も、位置決めタスクのために検討されてきた。OTは、位置決めされる2つの画像の特徴間の類似性尺度を定義することを含み、たとえば、この類似性は、画素強度値間の距離、またはSIFTのような高次元特徴とすることができる。しかしながら、(マルチモーダル画像のように)2つの画像の特徴が同じ空間にない場合、一方の画像の特徴と他方の画像の特徴との間の適切な距離を定義することは困難である。たとえば、エピポーラ幾何学から借用した距離メトリックは、共通のモダリティ、任意にモダリティ固有の特徴の画像が撮影される場合、マルチビュー画像の位置決めおよび融合に有用であるが、異なるモダリティから抽出された特徴間の距離を定義することは非現実的である(または不可能ですらある)。その結果、文献で利用可能なさまざまな距離メトリックは、大域的最適または少なくとも適切な局所最小を見つけることを保証しない、非凸コスト関数のOT最適化につながる。
【0010】
いくつかの実施形態の目的は、シーンの異なる画像を取得するためのカメラキャリブレーションを必要としない一方で、同じまたは異なるビュー角度から取得されたシーンのマルチモーダル画像の位置決めに適した最適輸送(OT)法を使用する画像位置決めを提供することである。
【0011】
いくつかの実施形態は、画像位置決めは、ターゲット画像を参照画像に関連付けるためにさまざまな変換モデルを使用することができるという認識に基づいている。具体的には、OT法は、参照画像と変換された特徴とターゲット画像とから抽出された特徴との間の距離を最小化しようとする変換を見つける最適化問題を解決する。OTでは、抽出された個々の特徴間の距離は、しばしば輸送コスト(ground cost)と呼ばれ、最適化問題の最小値はOT距離である。
【0012】
特徴および距離の適切な選択は、OT法にとって非常に重要である。しかしながら、異なるモダリティで撮影された画像から抽出された特徴は直接比較できない場合があるため、マルチモーダル画像間の距離を定義することは困難である。
【0013】
OT距離の一例は、一方の画像内の個々の点の特徴の、他方の画像内の点の特徴との比較を試みるWasserstein距離である。Wasserstein距離の使用は、2つの画像内の2つの対応点から抽出された特徴は類似し、2つの画像内の2つの非対応点から抽出された特徴は類似しないという認識に基づいている。しかしながら、Wasserstein距離は、2つの画像内の対応点から抽出された特徴が非常に異なる場合、うまく機能しない可能性があり、その場合、マルチモーダル画像である可能性が高い。
【0014】
OT距離の別の例は、対応する対について、第1の画像内の対から抽出された特徴の輸送コスト距離が第2の画像内の対から抽出された特徴の輸送コストに類似するように、一方の画像内の点の対を他方の画像内の点の対に一致させようとする、Gromov-Wasserstein(GW)距離である。
【0015】
重要な認識は、輸送コスト距離は、同じ画像のポイント内、すなわち、同じモダリティ内でのみ計算されるため、異なるモダリティのポイントから抽出された特徴が直接比較されることはないため、Gromov-Wasserstein距離がマルチモーダル画像の位置決めにより適切であるということである。その代わりに、位置決めマップを生成するための最適化は、特徴を直接比較するのではなく、特徴間の輸送コスト距離を比較することによって行われる。そのため、各モダリティの特徴は、他のモダリティの特徴とは別に選択または設計することができ、そのモダリティから正しい情報を抽出するために適切である。たとえば、一方のモダリティはSIFT、BRIEF、またはBRISK特徴などを使用することができ、他方のモダリティはSAR-SIFT、またはRGB画素値、または学習ベースの特徴などを使用することができる。一方、この種類の特徴は両方のモダリティに適切でない場合であっても、Wasserstein距離の使用では、両方のモダリティで同じ特徴、たとえばSIFTを使用する必要がある。
【0016】
Gromov-Wasserstein距離の計算には、位置決めマップの非凸関数の最小化が含まれ、既存のアルゴリズムでは大域的最適を見つけることが証明されていない。そのため、いくつかの実施形態の目的は、より良い局所最適を見つけるのに適したOT法を開示することである。
【0017】
いくつかの実施形態は、いずれのOT法もエピポーラ幾何学に由来する距離を使用していなかったという認識に基づいている。これは、位置決めされる2つの画像が平面シーンの画像である場合、射影カメラの2Dホモグラフィ(3×3行列)は、ターゲット画像の大域的なワーピング、すなわち、画像全体について同じであり、2つの画像間の少数のマッチング点のみを使用して計算することができる少数のパラメータのみを使用するターゲット画像のワーピングには十分であるからである。したがって、OT法によって得られる画素単位の位置決めマップは冗長であり、不要である。
【0018】
しかしながら、状況によっては、投影カメラのホモグラフィは視差のない位置決めには不十分である。たとえば、十分に高い解像度を有する航空写真撮影では、航空画像は、たとえば、車および高い建物など、地上からの高低差が無視できないオブジェクトを含む。このような状況では、ホモグラフィ行列を用いた画像位置決めは、異なる高度ではホモグラフィが異なるため失敗し、画像内のオブジェクトの高度は通常未知である。ホモグラフィの代わりに、場合によっては、非平面シーンの2つの画像間の幾何学的関係を、エピポーラ幾何学に由来する基本行列によって特徴付けることができる。
【0019】
しかしながら、基本行列それ自体は、位置決めの目的では不十分である。なぜなら、高度の不確かさが存在する場合、基本行列は、一方の画像内の点を他方の画像内の対応するエピポーラ線にマッピングすることしかできないが、位置決めでは、一方の画像内の点を他方の画像内の点にマッピングする必要があるからである。このような状況では、ターゲット画像を参照画像と位置決めするために、ターゲット画像の大域的なワーピングを直接計算することは不可能であり、画素単位の位置決めマップを得るOT法を考慮するかもしれない。しかしながら、大域的なワーピングが存在しないため、エピポーラ幾何学に基づく大域的な位置決め方法と、OTのような画素単位の位置決め方法との組み合わせをどのように定式化するかは自明ではない。
【0020】
いくつかの実施形態は、OT法がエピポーラ幾何学から恩恵を受けることができるという認識に基づいている。具体的には、エピポーラ幾何学は、ターゲット画像からの点を参照画像内の一意の点にマッピングすることができなくても、ターゲット画像内の点をマッピングすることができる参照画像内の点を制約することができると理解されている。たとえば、位置決めマップは、一方の画像内の点を、2つの画像間の基本行列によって定義される他方の画像内の対応するエピポーラ線上の点にマッピングする必要がある。
【0021】
したがって、重要な認識は、異なる画像が同じシーンを取り込む場合、OT法によって提供される、結果として生じる位置決めマップは、エピポーラ幾何学に由来する制約に従うべきであるということである。もう1つの認識は、このような制約をOT法のコスト関数に組み込むことができることである。特に、エピポーラ幾何学がどの程度違反しているかを定量化する距離は、コスト関数の最適化、たとえば最小化がレギュラライザも最小化しようとするように、OT法のコスト関数においてレギュラライザとして使用することができる。このように、いくつかの例示的な実施形態は、エピポーラ幾何学制約に違反する位置決めマップにペナルティを課すためにエピポーラ幾何学ベースのレギュラライザを使用することに向けられ、その結果、最適化問題のより良い解決策が見出される。
【0022】
本開示のいくつかの実施形態は、エピポーラ幾何学およびOT法を組み込んだマルチモーダル画像のための画像の位置決めおよび融合フレームワークに基づいている。エピポーラ幾何学は、基本的にステレオビジョンの幾何学として説明することができる。たとえば、2つのカメラが3Dシーンを2つの異なる位置から見る場合、3D点とそれらの2次元(2D)画像への投影との間には、画像点間の制約につながる多くの幾何学的関係が存在する。これらの関係は、カメラがピンホールカメラモデルで近似できるという仮定に基づいて導き出すことができる。3Dシーンを見る2つのカメラの相対位置が既知であれば、一方の画像で観察される点ごとに、他方の画像でも同じ点が既知のエピポーラ線上で観察されなければならない。これによって、2つのカメラ間の基本行列によっても記述できるエピポーラ制約が提供される。このエピポーラ制約を用いると、2つの点が同じ3D点に対応するかどうかをテストすることが可能になる。このようなエピポーラ幾何学の使用は、幾何学がマッチング点を直接計算するのに使用される、積極的な使用と考えることができる。
【0023】
しかしながら、カメラキャリブレーションが未知のパラメータである場合(マルチモーダル画像で非常に起こりやすい)、エピポーラ幾何学の積極的な使用は計算に適合しない。そのため、2つの画像からの点の対ごとのエピポーラ幾何学の違反量は、2つの画像間のOT距離を最小化するのに役立つより良い制約である。この違反は、エピポーラ幾何学の負の使用と考えることができる。
【0024】
本開示の方法およびシステムがどのように実施され得るかをより良く理解するために、少なくとも1つのアプローチは、コスト関数最適化、位置決めマップ生成、および画像位置決めの少なくとも3つの段階を有することを含む。特定の用途に応じて、他の段階が組み込まれ得ることが考えられる。
【0025】
画像を取得した後、コスト関数最適化の一部として、特徴抽出および距離推定が開始される。特徴抽出は、画像間の普遍的特徴および画像間のモダリティ固有の特徴を抽出することを含む。距離推定は、少なくともエピポーラ幾何学に基づいて画像間の距離を推定することを含む。第1の画像と第2の画像との間の輸送コスト距離の最小値を決定するコスト関数が、エピポーラ幾何学ベースのレギュラライザで修正される。位置決めマップ生成の一部として、修正されたコスト関数が最適化されて、最適な搬送計画として位置決めマップが生成される。その後、生成された位置決めマップに従って、ターゲット画像の画像位置決めが実行される。
【0026】
いくつかの例示的な実施形態は、シーンの第1の画像と当該シーンの第2の画像との間の位置決めマップを決定するための画像処理のためのシステムを提供する。このシステムは、命令を格納したコンピュータ読取可能メモリを含む。コンピュータ読取可能メモリと通信するプロセッサが、命令を実行して、位置決めマップを生成する最適輸送(OT)問題を解決するように構成されている。この目的のために、プロセッサは、エピポーラ幾何学ベースのレギュラライザで修正された第1の画像と第2の画像との間の輸送コスト距離の最小値を決定するコスト関数を最適化するように構成されている。レギュラライザは、位置決めマップによって定義される対応点間のエピポーラ幾何学制約の違反を定量化する距離を含む。輸送コストは、第1の画像内で抽出された特徴の輸送コスト距離を、第2の画像から抽出された特徴の輸送コスト距離と比較する。
【0027】
一実施形態によれば、シーンの第1の画像とシーンの第2の画像との間の位置決めマップを決定するための画像処理方法が提供される。方法は、位置決めマップを生成する最適輸送(OT)問題を解決することを含む。OT問題を解決することは、エピポーラ幾何学ベースのレギュラライザで修正された第1の画像と第2の画像との間の輸送コスト距離の最小値を決定するコスト関数を最適化することを含む。レギュラライザは、位置決めマップによって定義される対応点間のエピポーラ幾何学制約の違反を定量化する距離を含む。輸送コストは、第1の画像内で抽出された特徴の輸送コスト距離を、第2の画像から抽出された特徴の輸送コスト距離と比較する。
【0028】
別の実施形態によれば、画像処理方法を実行するためのコンピュータによって実行可能なプログラムが具現化された非一時的なコンピュータ読取可能記憶媒体が提供される。方法は、位置決めマップを生成する最適輸送(OT)問題を解決することを含む。OT問題を解決することは、エピポーラ幾何学ベースのレギュラライザで修正された第1の画像と第2の画像との間の輸送コスト距離の最小値を決定するコスト関数を最適化することを含む。レギュラライザは、位置決めマップによって定義される対応点間のエピポーラ幾何学制約の違反を定量化する距離を含む。輸送コストは、第1の画像内で抽出された特徴の輸送コスト距離を、第2の画像から抽出された特徴の輸送コスト距離と比較する。
【0029】
添付の図面を参照して、現在開示されている実施形態をさらに説明する。示された図面は、必ずしも縮尺通りではなく、一般に、現在開示されている実施形態の原理を説明することに重点が置かれている。
【図面の簡単な説明】
【0030】
【
図1A】本開示の例示的な実施形態に係る、画像位置決めのための位置決めマップを生成するためのフレームワークを示すブロック図である。
【
図1B】本開示の実施形態に係る、画像融合のためのフレームワークを示すブロック図である。
【
図1C】本開示の実施形態に係る、位置決めマップを生成するための例示的な方法を示す図である。
【
図2】いくつかの例示的な実施形態に係る、2つの画像間のGromov-Wasserstein(G―W)距離の計算を示す模式図である。
【
図3】いくつかの例示的な実施形態に係る、2つの画像間のエピポーラ幾何学を説明する模式図である。
【
図4】いくつかの例示的な実施形態に係る、画像位置決めプロセスを示す模式図である。
【
図5】本開示の実施形態に係る、使用可能なコンポーネントを含む画像を強化するためのシステムを示す模式図である。
【
図6】本開示の実施形態に係る、ベクトル化された位置合わせ済みのマルチアングルビュー画像を用いた行列の形成および行列補完の詳細を提供する、
図5のシステムを示すフロー図である。
【
図7】本開示の実施形態に係る、代替的なコンピュータまたはプロセッサを用いて実施することができる、画像の位置決めおよび融合のためのシステムを示すブロック図である。
【発明を実施するための形態】
【0031】
上述の図面は、現在開示されている実施形態を示すものであるが、説明において言及するように、他の実施形態も考えられる。本開示は、例示的な実施形態を代表として示すものであり、限定するものではない。現在開示されている実施形態の原理の範囲および精神の範囲内に入る多数の他の修正および実施形態が、当業者によって考案され得る。
【0032】
以下の説明は、例示的な実施形態のみを提供するものであり、本開示の範囲、適用性、または構成を限定することを意図するものではない。むしろ、例示的な実施形態の以下の説明は、1つ以上の例示的な実施形態を実施するための可能な説明を当業者に提供するものである。考えられるのは、添付の特許請求の範囲で説明されるように開示された主題の精神および範囲から逸脱することなく、要素の機能および配置において行われ得るさまざまな変更である。
【0033】
具体的な詳細が、実施形態の完全な理解を提供するために以下の説明で与えられる。しかしながら、当業者には、これらの具体的な詳細がなくても実施形態を実施可能であることが理解され得る。たとえば、開示された主題におけるシステム、プロセス、および他の要素は、不必要な詳細で実施形態を不明瞭にしないために、ブロック図の形態で構成要素として示されることがある。他の例では、周知のプロセス、構造、および技術は、実施形態を不明瞭にしないために、不必要な詳細なしで示される場合がある。さらに、さまざまな図面における同様の参照番号および名称は、同様の要素を示す。
【0034】
また、個々の実施形態は、フローチャート、フロー図、データフロー図、構造図、またはブロック図として描かれるプロセスとして説明される場合がある。フローチャートは動作を逐次的なプロセスとして記述する場合があるが、動作の多くは並列にまたは同時に実行されてもよい。さらに、動作の順序を並べ替えてもよい。プロセスは、その動作が完了した時点で終了してもよいが、議論されていない、または図に含まれていない追加のステップを有していてもよい。さらに、特に説明したプロセスにおける全ての動作が、全ての実施形態において発生しないこともある。プロセスは、方法、関数、プロシージャ、サブルーチン、サブプログラムなどに対応する場合がある。プロセスが関数に対応する場合、関数の終了は、呼び出し関数またはメイン関数への関数のリターンに対応し得る。
【0035】
さらに、開示された主題の実施形態は、少なくとも部分的に、手動または自動のいずれかで実施されてもよい。手動または自動の実施は、機械、ハードウェア、ソフトウェア、ファームウェア、ミドルウェア、マイクロコード、ハードウェア記述言語、またはそれらの任意の組み合わせの使用によって実行されてもよいか、または少なくとも支援されてもよい。ソフトウェア、ファームウェア、ミドルウェア、またはマイクロコードで実施される場合、必要なタスクを実行するためのプログラムコードまたはコードセグメントは、機械読取可能媒体に格納されてもよい。プロセッサ(複数可)は、必要なタスクを実行し得る。
【0036】
異なる照明スペクトル帯域で異なるビュー角度から撮影された3次元シーンの画像は、それらの画像を効率的に融合することができれば、シーンに関する豊富な情報を取り込める可能性がある。画像融合プロセスは、複数の画像からすべての重要な情報を収集し、より少ない画像、通常は1つの画像に含めることと定義される。この1つの画像は、1つのソース画像よりも情報量が多く正確であり、必要なすべての情報で構成されている。画像融合の目的は、データ量を減らすだけでなく、人間およびマシンの知覚にとってより適切で理解しやすい画像を構築することである。画像処理では、1つの画像に高空間情報と高スペクトル情報との両方が必要な状況もある。これは特に、コンピュータビジョン、リモートセンシング、および衛星画像撮影において重要である。しかしながら、利用可能な画像処理装置は、設計上または観測上の制約から、そのような情報を提供することができない。画像融合に使用される画像は、すでに位置決めされていなければならない。位置ずれは画像融合におけるエラーの主な原因である。したがって、これらの画像の位置決めは、正常な融合のための重要なステップである。
【0037】
画像位置決めは、異なるデータセットを1つの座標系に変換するプロセスである。データは、複数の写真、異なるセンサからのデータ、時間、深度、または視点であり得る。位置決めは、異なる測定から得られたデータを比較または統合できるようにするために必要である。特徴ベースの位置決め方法は、画像内の空間的に異なる複数の点間の対応を確立する。画像内の複数の点の間の対応を知ることにより、ターゲット画像を参照画像にマッピングするための幾何学的変換を決定することができ、それによって参照画像とターゲット画像との間の点単位の対応を確立することができる。
【0038】
位置決めされる画像の特徴を互いに直接比較できない状況も多々ある。たとえば、強度値が異なる照明スペクトルで測定された場合、および/または、異なるビュー角度から撮影された場合には、強度ベースまたは特徴ベースの位置決め方法による画像位置決めを実行することは不可能である。
【0039】
本明細書で説明するいくつかの例示的な実施形態は、2つの画像間の位置決めマップを定義するために、一方の画像内の画素間の相互関係を他方の画像内の画素間の相互関係と比較することによって、これらの問題に対処する。いくつかの例示的な実施形態は、シーンの異なる画像を取得するためのカメラキャリブレーションを必要としない最適輸送(OT)法を使用する画像位置決めを提供することに向けられる一方で、同じまたは異なるビュー角度から取得されたシーンのマルチモーダル画像の位置決めに適している。この目的のために、いくつかの例示的な実施形態は、位置決めされる画像が共通の3次元(3D)シーンの2次元(2D)投影である場合、サンプソン不一致(Sampson discrepancy)をレギュラライザとして利用可能であり、当該レギュラライザにおいては、基本行列が画像から推定されるため、カメラ位置を知る必要がないという認識に基づいている。
【0040】
利用可能なOT法は、位置決めされる2つの画像の特徴間の類似性尺度を定義することを含む。たとえば、これは、画素強度値間のlp距離、またはSIFTなどの高次元特徴とすることができる。2つの画像の特徴が同じ空間にない場合、一方の画像の特徴と他方の画像の特徴との間の適切な距離を定義できない可能性がある。一方の画像の特徴が他方の画像の特徴の等長変換である特別な場合には、一方の画像のペアワイズ距離と他方の画像のペアワイズ距離との間の類似性尺度を定義することが可能であり、その場合2つの画像上で定義される距離は同じである必要はなく、等長写像に基づいて選択されるべきである。
【0041】
提案されたOT法は、参照画像と変換されたターゲット画像とから抽出された特徴の間の距離を最小化しようとする変換を見つける最適化問題を解決する。OTでは、抽出された個々の特徴間の距離は、しばしば輸送コストと呼ばれ、最適化問題の最小値はOT距離である。いくつかの例示的な実施形態は、OT距離としてGromov-Wasserstein(GW)距離を利用することに基づいている。GW距離は、画像が高度および窪みを有するシーンに対応する場合(すなわち、地形が平坦でない場合)、画像位置決めの目的でも有益である。OT距離では、輸送コストは、対応するペアについて、第1の画像内のペアから抽出された特徴の輸送コスト距離が第2の画像内のペアから抽出された特徴の輸送コストに類似するように、一方の画像内の点のペアを他方の画像内の点のペアに一致させようとする。このように、輸送コスト距離は、同じ画像のポイント内、すなわち同じモダリティ内でのみ計算されるため、異なるモダリティのポイントから抽出される特徴が直接比較されることはない。
【0042】
したがって、いくつかの例示的な実施形態は、各モダリティの特徴が、他のモダリティの特徴から個別に選択または設計され得る機会を提供し、各モダリティの特徴は、当該モダリティから正しい情報を抽出されるのに適している。たとえば、一方のモダリティは、特にSIFT,BRIEFまたはBRISK特徴などを使用することができ、他方のモダリティは、特にSAR-SIFTまたはRGB画素値または学習ベースの特徴などを使用することができる。
【0043】
いくつかの例示的な実施形態は、GW距離を計算するために定義された最適化問題は非凸であり、局所最小値しか提供しない可能性があるという認識に基づいている。この目的のために、いくつかの例示的な実施形態は、位置決めに使用される画像が共通の3Dシーンの2D投影であるという認識に基づいている。したがって、いくつかの例示的な実施形態は、GW距離を計算するために定義された非凸最適化問題を正則化するためにエピポーラ幾何学を組み込む。具体的には、いくつかの例示的な実施形態は、エピポーラ幾何学が、不一致として定義されるソフト制約として違反されているかどうかを決定する。したがって、例示的な実施形態は、その特徴を直接比較することができないデータの位置決めの長年の問題を解決するための、最適輸送とエピポーラ幾何学とのユニークな組み合わせを提供する。
【0044】
本開示の実施形態には、コスト関数最適化、画像位置決め、および画像融合を含む少なくとも3つの段階が組み込まれている。特定の用途に応じて、他のフェーズが組み込まれることが考えられる。
【0045】
次に、画像の位置決めおよび融合のためのフレームワーク、方法、およびシステムによって実現されるいくつかの例示的な実施形態を、添付の図を参照して説明する。特に、
図1Aは、本開示の実施形態に係る、画像位置決めのための位置決めマップを生成するためのフレームワークを示すブロック図であり、
図1Bは、本開示の実施形態に係る、画像融合のためのフレームワークを示すブロック図である。
図1Aと併せて説明する
図1Cは、本開示の実施形態に係る、位置決めマップを生成するための例示的な方法を示す。前述したように、画像位置決め60は、リモートセンシングにおけるようなさらに別の使用のための有意義で情報豊富な融合画像を形成するために、正常な画像の融合70に不可欠である。この目的のために、位置決めマップを生成するためのフレームワーク100Aは、位置決めマップ50に基づいてターゲット画像10Aの参照画像10Bとの正確な位置決め60を実行するために適用することができる。
図1Bに示すフレームワークの例では、位置決めマップ50の生成は、融合フレームワーク100Bの一部であってもよい。
【0046】
特に
図1Cを参照すると、方法100Cにおいて、画像位置決めを実行するために、3次元シーンの複数の画像が撮像され、または取得され得る(102)。画像は、1つ以上の撮像センサから取得されてもよいし、他の手段または他のソース、たとえばメモリ転送、または
有線でもしくは無線通信によって取得されてもよい。可能性として、プロセッサと通信するユーザインターフェイスは、ユーザによるユーザインターフェイスの表面からの入力を受信すると、マルチアングルビュー画像のセットを取得し、コンピュータ読取可能メモリに格納することができる。取得された画像のうちの1つは参照画像(以下、画像1と称する)でもよく、他の画像のうちの少なくとも1つは、参照画像と位置決めされるターゲット画像(以下、画像2と称する)でもよい。画像は、異なるカメラまたは同じカメラで撮影されてもよく、異なる照明レベルを有してもよく、および/またはシーンの異なる視点に対応してもよい(すなわち、マルチビュー画像)。いくつかの例示的な実施形態では、画像は、シーン内の異なるオブジェクトの地面からの高度差を示す画素解像度を有する航空画像であってもよい。いくつかの普遍的特徴およびいくつかの非普遍的特徴が、画像間で定義されてもよい。いくつかの例示的な実施形態では、第1の画像のモダリティは、第2の画像のモダリティと異なっていてもよい。第1の画像および第2の画像のモダリティは、光学カラー画像、光学グレースケール画像、深度画像、赤外線画像、SAR画像からなる群から選択されてもよい。
【0047】
104において、
図1Cの方法100Cでは、2つの画像間のエピポーラ幾何学に基づく画像の基本行列が推定され得る。いくつかの例示的な実施形態では、基本行列は、マルチアングル画像内の重要点によって推定されてもよく、重要点は、コーナー検出によって抽出され、続いて特徴(たとえば、SIFT)マッチングが行われてもよい。基本行列推定の精度をさらに向上させるために、ランダムサンプルコンセンサス(random sample consensus:RANSAC)法を使用して、外れ値(誤ってマッチングされた重要点)の影響を低減することができる。
【0048】
【0049】
【0050】
【0051】
【0052】
【0053】
【0054】
【0055】
Gromov-Wasserstein(G-W)距離では、対応するペアについて、第1の画像内のペアから抽出された特徴の輸送コスト距離が、第2の画像内のペアから抽出された特徴の輸送コストに類似するように、一方の画像内の点のペアを他方の画像内の点のペアに一致させようとする。このように、Gromov-Wasserstein距離は、輸送コスト距離が同じ画像の点内、すなわち同じモダリティ内でのみ計算され、異なるモダリティの点から抽出された特徴が直接比較されることがないため、マルチモーダル画像の位置決めにより適切である。
【0056】
次に、G-W距離の計算の一例について、いくつかの例示的な実施形態に係る、2つの画像間のG-W距離の計算の模式図を示す
図2を参照して説明する。2つの画像202および204が位置決めのために取り上げられることがある。なお、画像202と画像204とが共通の空間にない限り、画像202の点を画像204の点と比較できない。言い換えれば、位置決めされていない空間にある2つの画像間の特徴および強度に基づく比較は不可能である。本発明の目的で、画像内の点が、領域、1つ以上の画素、または任意の2次元スパンに対応し得る。点は、画素強度値のような画像の特徴、またはSIFTのような高次元の特徴を表すものであってもよい。
【0057】
【0058】
したがって、一方の画像の特徴が他方の画像の特徴の等長変換である場合、G-W距離は、一方の画像のペアワイズ距離と他方の画像のペアワイズ距離との間の類似性尺度を定義し、2つの画像上で定義される距離は同じである必要はなく、等長写像に基づいて選択することができる。
【0059】
Gromov-Wasserstein距離の計算は、位置決めマップの非凸関数の最小化を含む。このような非凸関数の局所最適を見つけることは、GW距離を計算するために不可欠である。この目的のために、このフレームワークは、画像間のエピポーラ幾何学に由来する距離の使用を含む。具体的には、エピポーラ幾何学は、ターゲット画像内の点をマッピングすることができる参照画像内の点を制約可能であることが理解される。たとえば、位置決めマップは、一方の画像内の点を、2つの画像間の基本行列によって定義される他方の画像内の対応するエピポーラ線上の点にマッピングする必要がある。2つの画像は同じシーンに対応しているので、OT法によって生成される位置決めマップは、2つの画像間のエピポーラ幾何学に由来する制約に従うべきである。このフレームワークは、OT法のコスト関数にこのような制約を組み込んでいる。たとえば、エピポーラ幾何学がどの程度違反しているか(すなわち、エピポーラ不一致20)を定量化する距離は、コスト関数の最適化(たとえば、最小化)がレギュラライザ30も最小化しようとするように、OT法のコスト関数のレギュラライザ30として使用され得る。このようにして、フレームワークは、エピポーラ幾何学制約に違反する位置決めマップにペナルティを適用するために、エピポーラ幾何学ベースのレギュラライザ30を利用することを試み、その結果、最適化問題のより良い解を見出すことができる。
【0060】
図3は、いくつかの例示的な実施形態に係る、2つの画像間のエピポーラ幾何学を説明する模式図である。エピポーラ幾何学は、ステレオビジョンの幾何学として説明することができる。たとえば、2つのカメラが2つの異なる位置から3Dシーンを見る場合、3D点とその2次元(2D)画像への投影との間には、画像点間の制約につながる多数の幾何学的関係が存在する。これらの関係は、カメラがピンホールカメラモデルで近似できるという仮定に基づいて導き出される。3Dシーンを見る2つのカメラの相対位置が既知であれば、一方の画像で観察される点ごとに、もう一方の画像でも同じ点が既知のエピポーラ線上で観察されなければならない。これは、2つのカメラ間の基本行列によっても記述可能なエピポーラ制約を提供する。
【0061】
図3に示すように、2つのピンホールカメラ302および304が、点Xを含むシーンを撮像するために利用されることがある。実際のカメラでは、像面は実際には焦点中心の後方にあることがあり、レンズの焦点中心に関して対称な画像を生成する。しかしながら、ここでは、対称性によって変換されない画像を生成するために、焦点中心すなわち各カメラレンズの光学中心の前方にある仮想像面を考慮することによって、問題を単純化することができる。O
LおよびO
Rは、2つのカメラのレンズの対称中心を表す。Xは両カメラの注目点を表す。点X
LおよびX
Rはそれぞれ、点Xの像面302Aおよび304Aへの投影である。各カメラは3D世界の2D画像を取り込むので、この3Dから2Dへの変換は透視投影と呼ばれることがあり、ピンホールカメラモデルによって記述される。このような投影動作は、カメラから発せられ、かつその焦点中心を通過する光線によってモデル化することができる。各発光線は画像内の1点に対応する。カメラのレンズの光学中心は異なるため、各中心は、他方のカメラの像面内の異なる点に投影される。e
Lとe
Rとで示されるこれらの2つの画像点は、エピポールまたはエピポーラ点と呼ばれることがある。それぞれの像面302Aおよび304Aにおける両方のエピポールe
Lおよびe
R、ならびに両方のそれぞれの光学中心O
LおよびO
Rは、単一の3次元線上にある。
【0062】
線OL-Xは、カメラ302のレンズ光学中心の一直線上にあるので、このカメラによって点として見られる。しかしながら、カメラ304は、この線をその像面内の線として見る。カメラ304におけるそのような線(eR-XR)はエピポーラ線と呼ばれる。対称的に、線OR-Xは、カメラ304によって点として見られ、カメラ302によってエピポーラ線eL-XLとして見られる。エピポーラ線は、3D空間における点Xの位置の関数であり、すなわち、Xが変化すると、両方の画像においてエピポーラ線のセットが生成される。3D線OL-Xはレンズの光学中心OLを通るので、右の画像(すなわちカメラ304の画像)の対応するエピポーラ線は、エピポールeRを通らなければならない(左の画像のエピポーラ線についても同様)。ある画像内のすべてのエピポーラ線は、その画像のエピポーラ点を含む。実際、エピポーラ点を含む線はいずれも、同じ3D点Xから導出可能であるため、エピポーラ線である。代替的な視覚化として、エピポーラ平面と呼ばれる平面を形成する点X,OL,ORについて考える。エピポーラ平面は、各カメラの像面と交差し、線(エピポーラ線)を形成する。すべてのエピポーラ平面およびエピポーラ線は、Xがどこに位置しているかに関係なく、エピポールと交差する。
【0063】
上述のような相対位置が各カメラ302および304の各々について既知である場合、2つのカメラ間の基本行列によって定義されるエピポーラ制約が取得され得る。たとえば、投影点XLが既知であると仮定すると、エピポーラ線eR-XRは既知であり、点Xは右画像内において、この特定のエピポーラ線上になければならない点XR上に投影される。これは、一方の画像で観測された点ごとに、他方の画像で同じ点が既知のエピポーラ線上に観測されなければならないことを意味する。これによって、右のカメラ平面XR上のXの投影は、eR-XRエピポーラ線に含まれなければならないというエピポーラ制約が与えられる。OL-XL線上のすべての点X、たとえばX1,X2,X3は、その制約を検証する。これは、2つの点が同じ3次元D点に対応するかどうかをテストできることを意味する。エピポーラ制約は、2つのカメラ間の必須行列または基本行列によって記述することもできる。したがって、エピポーラ制約を使用すると、2つの点が同じ3D点に対応するかどうかをテストすることができる。このようなエピポーラ幾何学の使用は、幾何学がマッチング点を直接計算またはテストするために使用される、積極的な使用と考えることができる。
【0064】
しかしながら、カメラキャリブレーションが未知のパラメータである場合(マルチモーダル画像ではその可能性が非常に高い)、エピポーラ幾何学の積極的な使用は計算に適合しない。そのため、2つの画像からの点のペアごとのエピポーラ幾何学の違反量は、2つの画像間のOT距離を最小化するのに役立つ、より良い、自明でない制約である。このような違反は、エピポーラ幾何学の消極的な使用と考えることができる。このような使用は、位置決めを実行するのに必要な情報量を減らすという点で利点がある。たとえば、点から点への関連性の代わりに、エピポーラ幾何学の消極的な使用は、点から線への関連性でも機能することができる。
【0065】
【0066】
【0067】
(7)で定義された最適化問題の解は、行列としての位置決めマップTをもたらす(122)。次に、任意の適切な技術を用いて、位置決めマップを用いて画像2を画像1と位置決めし得る(124)。次に、
図4を参照して、画像の位置決めのための技術の一例を説明する。
【0068】
図4は、いくつかの例示的な実施形態に係る、画像位置決めプロセスを示す模式図である。
図1Aの画像10Aのような参照画像と、
図1Aの画像10Bのようなターゲット画像とが、位置決めの候補であり得る。
図1Cのステップ122で生成された位置決めマップ50のような位置決めマップが、行列404として取得され得る。ターゲット画像10Bは、ターゲット画像10Bのベクトル化行列形式402を取得するためにワープされ得る。ベクトル化行列形式402と位置決めマップ行列404との積は、ターゲット画像10Bの一次元行列406形式をもたらし得る。最後に、ターゲット画像10Bのこの1次元行列406形式は、位置決めされたターゲット画像408を取得するために再形成され得る。再形成403は、たとえばベクトル化ステップ401の反転など、任意の適切な技術を用いて実行されてもよい。上述したような方法で得られる位置決めされたターゲット画像408は、
図1Cを参照して必然的に伴うプロセスに従って取得される位置決めマップがエピポーラ異常に対処するので、参照画像のように見えるはずである。
【0069】
上記に開示された例示的な方法は、画像処理エンジンのような情報処理デバイスによって実行され得る。このような情報処理デバイスは、少なくともプロセッサとメモリとを含み得る。メモリは実行可能な命令を格納することができ、プロセッサは、格納された命令を実行して上記のステップの一部または全部を実行し得る。なお、画像の位置決めおよび融合のための方法のステップの少なくとも一部は、位置決めマップを生成する最適輸送問題の解決策がオンザフライで実行可能になるように、動的な態様で実行され得る。このような画像処理エンジンの一例について、
図7を参照して本開示で後述する。
【0070】
本明細書で開示する例示的な実施形態には、いくつかの実際的な実現例がある。本明細書で開示するシステムおよび方法はG-W距離を利用するので、位置決めマップの非凸関数のより良い局所最適を見つけることにつながる。これは、最終的に高精度の位置決め画像の生成につながる位置決めマップを探す精度に関して、インクリメントを提供する。したがって、画像融合プロセスは、このような位置決め画像の正確な生成から大きな恩恵を受けることになる。したがって、画像内の欠落画素の補完、またはより多くの情報を収集するためのオクルージョンの除去などの現実世界の問題を解決して、より良い解決策を見出すことができる。
【0071】
さらに、例示的な実施形態は、異なるセンサを使用して異なる照明スペクトルで画像が取り込まれる場合であっても画像の位置決めが可能であるシナリオに応えるので、例示的な実施形態は、同じシーンの異種の画像が、計算またはハードウェアのコストを大幅に増加させることなく位置決めし、融合することが可能なシナリオにつながる。このような異種位置決めの一例は、リモートセンシング分野における長年の問題である、合成開口レーダー(Synthetic Aperture Radar:SAR)画像と光学画像との位置決めである。いくつかの例示的な実施形態の別の使用事例は、損傷および成長のパターンを検出するためのインフラ追跡の分野である。たとえば、地震活動、洪水、火災のような自然災害によって引き起こされる損害を推定するために広い地理的領域を調査することは、市民機関にとって長く骨の折れる作業である。例示的な実施形態は、被災地域の画像を取り込み、同じ地域に対応するが時間的に先行する可能性がある参照画像と対応付け、エピポーラの不一致を使用して特徴を対応付けて異なる特徴を見つけるための手段を提供する。このようにして、地理的領域におけるインフラの変化を検出し、監視することができる。次に、
図5および
図6を参照して、航空画像の雲による欠落画素の補完の使用事例について説明する。
【0072】
図5は、本開示の実施形態に係る、使用され得る構成要素を含む画像を強調するためのシステム500を示す模式図である。センサ502A,502B、すなわち衛星内のカメラは、順次または非順次に、シーン503の一連の入力画像504を取り込む。カメラ502A,502Bは、シーン503の写真撮影を可能にする、移動する飛行機、衛星、または何らかの他のセンサ運搬装置内にあってもよい。さらに、センサ502A,502Bの数は限定されず、センサ502A,502Bの数は、特定の用途に基づいてもよい。入力画像504は、時間ステップtで単一の移動センサによって取得することもできるし、異なる時間、異なる角度、および異なる高度で撮影された複数のセンサ502A,502Bによって取得することもできる。入力画像504は、1つ以上のセンサ502A,502Bによって取得され、プロセッサ514によって受信されると、オンラインで処理することができるため、逐次取得は、画像504を格納するためのメモリ要件を低減させる。入力画像504は、画像を互いに位置決めしやすくするために重なり合うことができる。入力画像504は、グレースケール画像またはカラー画像とすることができる。さらに、入力画像504は、順次取得される多時間画像またはマルチアングル画像とすることができる。
【0073】
1つ以上のセンサ502A,502Bは、移動空間または空中プラットフォーム(衛星、飛行機、またはドローン)に配置することができ、シーン503は、地表もしくは地表の上方に位置する地形または他のシーンとすることができる。シーン503は、シーン503と1つまたは複数のセンサ502A,502Bとの間に、建物などのシーン503内の構造物、および雲によるオクルージョンを含み得る。本開示の少なくとも1つの目標は、他の目標の中で特に、オクルージョンのない、強化された出力画像505のセットを生成することである。副産物として、システムは、オクルージョン、たとえば雲を含むだけの疎な画像506のセットも生成する。
【0074】
図6は、本開示の実施形態に係る、ベクトル化された位置決め済みのマルチアングルビュー画像を使用した行列の形成および行列補完の詳細を提供する、
図5のシステムを示すフロー図である。
図6に示すように、システムは、電気的にまたは無線でセンサ602A,602Bに結合され得るプロセッサ614において動作する。
【0075】
図5の入力画像504のセットは、プロセッサ614によって、直接的または間接的に取得され(610)、たとえば、画像は、センサ602A,602B、すなわちカメラ、ビデオカメラによって取得され得るか、または他の手段によってもしくは他のソースから、たとえばメモリ転送、または
有線もしくは無線通信から取得可能である。プロセッサおよびコンピュータ読取可能メモリと通信するユーザインターフェイスは、ユーザによるユーザインターフェイスの表面からの入力を受信すると、マルチアングルビュー画像のセットを取得し、コンピュータ読取可能メモリに格納することができる。画像504は、たとえば地理的領域のような3次元シーンのマルチアングルビュー画像を含み得る。
【0076】
マルチアングルビュー画像504は、たとえば
図1~
図4を参照して先に開示した方法で生成可能な位置決めマップに基づいて、シーンのターゲットビュー角度に対して位置合わせされ得る。マルチアングルビュー画像504のこのような位置合わせは、シーンのターゲット視点を表す位置合わせされたマルチアングルビュー画像のセットを形成するために実行されてもよい。これらの画像504がシーンの航空画像に対応する例示的な実施形態では、マルチアングルビュー画像のうちの少なくとも1つの位置合わせされたマルチアングルビュー画像が、曇りの領域に起因する欠落画素を有する可能性がある。
【0077】
小さなパッチの強度および総変動に基づいて、すなわち総変動閾値処理に基づいて、雲の検出620が実行され得る。具体的には、画像をパッチに分割し、各パッチを特定の条件下で雲、または雲影としてラベル付けできるように、各パッチの平均強度および総変動を計算することによって行う。検出された面積の小さい領域は、建物の表面または建物の影など、他の平坦なオブジェクトである可能性が高いため、雲マスクから除去可能である。最後に、薄い雲で覆われた地域の境界も雲マスクで覆われるように、雲マスクを拡張することができる。
【0078】
シーンのターゲットビュー角度に対するマルチアングルビュー画像の位置合わせは、基本行列に基づくことができるシーンのターゲット視点を表す位置合わせされたマルチアングルビュー画像のセットを形成する。ここで、基本行列は、マルチアングル画像内の重要点によって推定され、重要点は、SIFTマッチングに基づく。たとえば、画像ワーピング630は、重要点SIFT特徴マッチング631、すなわち幾何学的距離レギュラライザを用いるSIFTフロー、続いてエピポーラ点移動によって達成され得る。特に、本開示は、雲のない地域からの画像のすべてのペアの間で、基本行列を推定するアプローチを使用することができ(633)、次に、基本行列がマルチアングル画像内の重要点によって推定されるように、シーンのエピポーラ幾何学に制約されたSIFT-フローを適用することによって、すべての画像ペアの密な対応点を探索する(635)。さらに、より多くの画像を含む反復処理によって、選択された画像が復元される画像と高い相関を有するような閾値を満たす融合画像を改善することができることが企図されている。
【0079】
引き続き
図6を参照して、ターゲット画像、すなわち雲が混入している回復されるべき画像を決定することができると(637)、他の全ての画像は、それらが互いに位置合わせされるように、点移動方式によってターゲット画像の同じビュー角度にワーピングされる(639)。
【0080】
画像ワーピング後、ターゲット画像と位置合わせされるようにワーピングされた画像の集合が利用可能になる。ワーピングされた画像は、雲の混入またはオクルージョンによる欠落画素を含んでいる。このような場合、ベクトル化された適切な位置決め済みの画像を連結することによって形成される行列が低ランクを有すると仮定して、行列補完技術を使用して画像融合を実現することができる(640)。低ランク行列補完は、復元される行列が低ランクであるという仮定の下で、行列の欠落エントリを推定する。直接ランク最小化は、凸であろうと非凸であろうと、計算が困難であり、通常、緩和を用いて問題を再定式化することができる。こうして、雲のない画像が生成される(650)。
【0081】
上述の本開示の実施形態は、多数の方法のいずれかで実施することができる。たとえば、実施形態は、ハードウェア、ソフトウェア、またはそれらの組み合わせを用いて実施することができる。ソフトウェアで実施される場合、ソフトウェアコードは、単一のコンピュータに設けられているか、複数のコンピュータに分散されているかにかかわらず、任意の適切なプロセッサまたはプロセッサの集合体上で実行することができる。このようなプロセッサは、集積回路として実装することができ、1つまたは複数のプロセッサを集積回路コンポーネント内に有する。しかしながら、プロセッサは、任意の適切な形式の回路を使用して実装されてもよい。
【0082】
図7は、本開示の実施形態に係る、代替的なコンピュータまたはプロセッサを使用して実装され得る、画像の位置決めおよび融合のためのシステムを示すブロック図である。コンピュータ711は、プロセッサ740と、コンピュータ読取可能メモリ712と、ストレージ758と、ディスプレイ752およびキーボード751を有するユーザインターフェイス749とを含み、これらはバス756を介して接続されている。たとえば、プロセッサ740およびコンピュータ読取可能メモリ712と通信するユーザインターフェイス749は、ユーザによるユーザインターフェイス757の表面、キーボード753からの入力を受け取ると、画像データを取得し、コンピュータ読取可能メモリ712に格納する。
【0083】
コンピュータ711は電源754を含んでもよく、用途に応じて、電源754は、任意にコンピュータ711の外部に配置可能である。バス756を介してリンクされるのは、ディスプレイデバイス748に接続するように適合されたユーザ入力インターフェイス757であってもよく、ディスプレイデバイス748は、特に、コンピュータモニタ、カメラ、テレビ、プロジェクタ、またはモバイルデバイスを含み得る。また、プリンタインターフェイス759を、バス756を介して接続し、印刷デバイス732に接続するように適合することができ、印刷デバイス732は、特に、液体インクジェットプリンタ、固体インクプリンタ、大型商業用プリンタ、サーマルプリンタ、UVプリンタ、または昇華型プリンタを含み得る。ネットワークインターフェイスコントローラ(network interface controller:NIC)734は、バス756を介してネットワーク736に接続するように適合されており、画像データまたは他のデータは、とりわけ、コンピュータ711の外部にあるサードパーティの表示デバイス、サードパーティの撮像デバイス、および/またはサードパーティの印刷デバイス上でレンダリング可能である。
【0084】
引き続き
図7を参照すると、画像データまたは他のデータは、とりわけ、ネットワーク736の通信チャネルを介して送信され、かつ/または、格納および/もしくはさらに別の処理のために記憶システム758内に格納され得る。さらに、時系列データまたは他のデータは、受信機746(もしくは外部受信機738)から無線もしくはハードワイヤードで受信されてもよく、または送信機747(もしくは外部送信機739)を介して無線もしくはハードワイヤードで送信されてもよく、受信機746および送信機747はどちらもバス756を介して接続される。コンピュータ711は、入力インターフェイス708を介して外部センシングデバイス744および外部入出力デバイス741に接続されてもよい。たとえば、外部センシングデバイス744は、機械の収集された時系列データの前-中-後のデータを収集するセンサを含み得る。コンピュータ711は、他の外部コンピュータ742に接続されてもよい。出力インターフェイス709は、プロセッサ740から処理されたデータを出力するために使用されてもよい。なお、プロセッサ740および非一時的なコンピュータ読取可能記憶媒体712と通信するユーザインターフェイス749は、ユーザによるユーザインターフェイス749の表面752からの入力を受信すると、領域データを取得し、非一時的なコンピュータ読取可能記憶媒体712に格納する。
【0085】
また、本明細書で概説したさまざまな方法またはプロセスは、さまざまなオペレーティングシステムまたはプラットフォームのうちのいずれか1つを採用する1つ以上のプロセッサ上で実行可能なソフトウェアとしてコード化することができる。さらに、このようなソフトウェアは、多数の適切なプログラミング言語および/またはプログラミングツールもしくはスクリプトツールのいずれかを使用して記述することができ、フレームワークまたは仮想マシン上で実行される実行可能な機械語コードまたは中間コードとしてコンパイルすることができる。典型的には、プログラムモジュールの機能を、さまざまな実施形態において所望のように組み合わせたり、分散したりすることができる。
【0086】
また、本開示の実施形態は、いくつかの例が提供されている方法として具体化されてもよい。方法の一部として実行される行為は、任意の適切な方法で順序付けることができる。したがって、例示的な実施形態では連続的な行為として示されていても、複数の行為を同時に行うことを含み得る、図示とは異なる順序で行為が行われる実施形態が構成されてもよい。さらに、請求項要素を修飾するために特許請求の範囲において第1、第2などの序数項を使用することは、それ自体、1つの請求項要素の他の請求項要素に対する優先、優先順位、順序、または方法の行為が実行される時間的順序を意味するものではなく、ある名称を有する1つの請求項要素を、同じ名称を有する(ただし、序数項を使用する)他の請求項要素と区別するためのラベルとして使用されているに過ぎない。
【0087】
本開示は、特定の好ましい実施形態を参照して説明されてきたが、本開示の精神および範囲内で、さまざまな他の適合および修正がなされ得ることが理解されるべきである。したがって、本開示の真の精神および範囲内に入るような全ての変形および修正をカバーすることが、添付の特許請求の範囲の態様である。