IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ トヨタ自動車株式会社の特許一覧 ▶ カトリーケ ユニベルシテイト ルーベン,カー.ユー.ルーベン エルアンドデーの特許一覧 ▶ エー・テー・ハー・チューリッヒの特許一覧

<>
  • 特許-画像補完用のシステム 図1
  • 特許-画像補完用のシステム 図2
  • 特許-画像補完用のシステム 図3
  • 特許-画像補完用のシステム 図4
  • 特許-画像補完用のシステム 図5
  • 特許-画像補完用のシステム 図6
  • 特許-画像補完用のシステム 図7A
  • 特許-画像補完用のシステム 図7B
  • 特許-画像補完用のシステム 図8
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2023-05-18
(45)【発行日】2023-05-26
(54)【発明の名称】画像補完用のシステム
(51)【国際特許分類】
   G06T 5/50 20060101AFI20230519BHJP
   G06T 7/33 20170101ALI20230519BHJP
   G06T 7/80 20170101ALI20230519BHJP
【FI】
G06T5/50
G06T7/33
G06T7/80
【請求項の数】 13
【外国語出願】
(21)【出願番号】P 2021151473
(22)【出願日】2021-09-16
(65)【公開番号】P2022051700
(43)【公開日】2022-04-01
【審査請求日】2021-09-16
(31)【優先権主張番号】20197574.5
(32)【優先日】2020-09-22
(33)【優先権主張国・地域又は機関】EP
(73)【特許権者】
【識別番号】000003207
【氏名又は名称】トヨタ自動車株式会社
(73)【特許権者】
【識別番号】512278191
【氏名又は名称】カトリーケ ユニベルシテイト ルーベン
(73)【特許権者】
【識別番号】508374139
【氏名又は名称】エー・テー・ハー・チューリッヒ
【氏名又は名称原語表記】ETH ZUERICH
(74)【代理人】
【識別番号】100099759
【弁理士】
【氏名又は名称】青木 篤
(74)【代理人】
【識別番号】100123582
【弁理士】
【氏名又は名称】三橋 真二
(74)【代理人】
【識別番号】100092624
【弁理士】
【氏名又は名称】鶴田 準一
(74)【代理人】
【識別番号】100147555
【弁理士】
【氏名又は名称】伊藤 公一
(74)【代理人】
【識別番号】100123593
【弁理士】
【氏名又は名称】関根 宣夫
(74)【代理人】
【識別番号】100133835
【弁理士】
【氏名又は名称】河野 努
(72)【発明者】
【氏名】ウィム アブルー
(72)【発明者】
【氏名】ガブリエル オスメゾリ
(72)【発明者】
【氏名】リーシャン マ
(72)【発明者】
【氏名】スタマティオス ゲオルゴリス
(72)【発明者】
【氏名】ルク ファン ホール
【審査官】板垣 有紀
(56)【参考文献】
【文献】LEE, Sangwoo et al.,Video Extrapolation using Neighboring Frames,ACM Transactions on Graphics,ACM,2019年04月08日,Vol. 38, No. 3, Article 20,pp. 1-13,<URL:https://dl.acm.org/doi/10.1145/3196492>,[検索日:2022年9月6日]
(58)【調査した分野】(Int.Cl.,DB名)
G06T 5/50
G06T 7/00 - 7/90
IEEE Xplore
(57)【特許請求の範囲】
【請求項1】
画像補完用のシステムであって、
複数の第1過去フレーム及び第1現在フレームを受け取るように、且つ、前記受け取られた複数の第1過去フレームのそれぞれごとに1つずつ、座標マップの組を生成するように、構成された座標生成モジュールであって、前記第1過去フレーム及び前記第1現在フレームは、第1視野を有し、第1過去フレームに対応する前記座標マップは、前記第1現在フレームの座標系に対する前記第1過去フレームの空間的なマッピングを提供している、座標生成モジュールと、
入力として、前記第1過去フレーム、前記第1現在フレーム、及び前記座標マップを受け取るように、且つ、前記入力に基づいて、前記第1視野と等しいか又はこれを上回っている第2視野を有する第2現在フレームを合成するように、構成されたフレーム統合モジュールと、
を有し、
前記フレーム統合モジュールは、
前記第1過去フレーム及び前記第1現在フレームのそれぞれのフレームに基づいて複数の特徴マップを生成するように構成されたエンコーダと、
前記第1過去フレーム及び前記第1現在フレームのそれぞれのフレームごとに、前記それぞれのフレームの複数のワーピングされた特徴マップを生成するべく、前記それぞれのフレームと関連する個々の座標マップを使用することにより、前記それぞれのフレームと関連する前記複数の特徴マップをワーピングさせるように構成されたワーピングモジュールと、
前記第1過去フレーム及び前記第1現在フレームのすべてにわたって、統合された特徴マップの組を生成するべく、前記生成されたワーピングされた特徴マップを統合するように構成されたアテンションに基づいた特徴統合モジュールと、
を有する、システム。
【請求項2】
前記座標生成モジュールは、
前記第1過去フレームを受け取るように、且つ、前記受け取られた第1過去フレームのそれぞれごとに深さマップを生成するように、構成された深さネットワークと、
前記受け取られた第1過去フレーム及び前記第1現在フレームから形成された時間隣接フレームのフレームペアを受け取るように、且つ、前記受け取られたフレームペアのそれぞれごとに相対的カメラポーズを生成するように、構成されたポーズネットワークと、
前記深さネットワーク及び前記ポーズネットワークの出力に基づいて前記座標マップの組を生成するように構成された座標計算モジュールと、
を有する、請求項1に記載のシステム。
【請求項3】
前記フレーム統合モジュールは、前記座標生成モジュールによって生成された前記座標マップの組を使用することにより、前記受け取られた第1過去フレーム内に含まれている情報を前記第1現在フレームの前記座標系に伝播させるように構成されている、請求項1又は2に記載のシステム。
【請求項4】
前記アテンションに基づいた特徴統合モジュールは、前記統合において、前記第1過去フレーム及び前記第1現在フレームのそれぞれのフレームごとに、前記第1現在フレームとの関係における前記フレームのタイミングに基づいて、前記フレームの領域固有の特徴を強調するように構成されている、請求項1から3のいずれか1項に記載のシステム。
【請求項5】
前記アテンションに基づいた特徴統合モジュールは、前記第1過去フレーム及び前記第1現在フレームのそれぞれのフレームごとに、
前記それぞれのフレームと関連する前記ワーピングされた特徴マップのそれぞれごとに、個々のフレームの観点における空間的なアテンションマップを生成するように、且つ、
個々の特徴マップを生成するべく、前記それぞれのフレームと関連する前記ワーピングされた特徴マップのそれぞれを前記個々の空間的なアテンションマップによって乗算するように、
構成されている、請求項1から4のいずれか1項に記載のシステム。
【請求項6】
前記アテンションに基づいた特徴統合モジュールは、前記統合された特徴マップの組を生成するべく、前記第1過去フレーム及び前記第1現在フレームのすべてにわたって、前記生成された個々の特徴マップを合計するように更に構成されている、請求項5に記載のシステム。
【請求項7】
前記フレーム統合モジュールは、前記統合された特徴マップの組に基づいて前記第2現在フレームを生成するように構成されたUネットモジュールを更に有し、前記Uネットモジュールは、
前記統合された特徴マップの組を受け取るように、且つ、前記第1現在フレームの視野の外側に含まれる前記第2現在フレームの領域をアウトペインティングするように、構成されたコンテキスト正規化サブモジュールと、
前記コンテキスト正規化サブモジュールによって出力された特徴マップを受け取るように、且つ、前記第1現在フレームの視野内に含まれる遮蔽された又は観察されていない領域をインペインティングするべく前記コンテキスト正規化サブモジュールによって出力された前記特徴マップを処理するように、構成されたデコーダサブモジュールと、
前記デコーダサブモジュールによって出力された特徴マップを受け取るように、且つ、前記デコーダサブモジュールによって出力された前記特徴マップを空間的に統合するように、構成されたゲート付き自己アテンションサブモジュールと、
を有する、請求項1から6のいずれか1項に記載のシステム。
【請求項8】
前記ゲート付き自己アテンションサブモジュールは、特徴ベクトルの空間的な場所に基づいて特徴ベクトル当たりに動的に生成された重みに基づいて前記デコーダサブモジュールによって出力された前記特徴マップを空間的に統合するように構成されている、請求項7に記載のシステム。
【請求項9】
前記第2現在フレームと関連する不確定性マップを生成するように構成された幻視化不確定性モジュールを有する、請求項1から8のいずれか1項に記載のシステム。
【請求項10】
前記幻視化不確定性モジュールは、幻視化不確定性を組み込んだ損失関数を極小化するべく前記不確定性マップを生成するように構成されている、請求項9に記載のシステム。
【請求項11】
前記幻視化不確定性モジュールは、高い幻視化不確定性を有することになる前記第2現在フレームの領域及び低い幻視化不確定性を有することになるものの予測に基づいて前記不確定性マップを生成するように構成されている、請求項9に記載のシステム。
【請求項12】
深さネットワーク及び前記フレーム統合モジュールによって受け取られた前記第1過去フレームの一部分は、前記フレーム統合モジュールによって生成された前記第2視野を有する、且つ、前記第1過去フレームの部分に対応する、第2過去フレームによって置換されている、請求項1から11のいずれか1項に記載のシステム。
【請求項13】
前記第2過去フレームは、それぞれ、前記第2過去フレームを前記フレーム統合モジュールに提供する前に、幻視化不確定性モジュールによって生成された個々の不確定性マップと連結されている、請求項12に記載のシステム。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、画像補完用のシステムに関する。
【背景技術】
【0002】
インテリジェントな機械知覚の遂行においては、自律型自動車及びロボットなどのシステムに、その直近の可視視野(FoV:Field-of-View)を超えたシーンコンテンツの認識を付与する必要がある。これには、例えば、ワイド(wider)FoVにおいて現在のシーンを推定するために過去のナロー(narrow)FoVフレームからの情報を活用するべく、過去の情報から更なるFoV情報を予測するように、これらのシステムをトレーニング及び構成するステップを伴っている。
【0003】
本出願の発明者らが知る限りにおいては、ナローFoVからワイドFoVへのFoVの外挿は、従来技術においては、まったく対処されていない。この問題の解決に伴って、いくつかの課題が想定されうる。第1に、入力されるナローFoVフレームと出力されるワイドFoVフレームの間には、大きな画像サイズの不一致が存在しうる。この不一致は、ビデオ出力における十分な時間的一貫性を実現しつつ、橋絡しなければならない。第2に、ワイドFoVフレーム内の特定のエリアが、大幅に変化している場合があり、或いは、場合によっては、過去のナローFoVフレームの任意のものにおいて、まったく出現していない場合もある。従って、多数の詳細をワイドFoVフレーム内において幻視化する必要がある。そして、第3に、ナローFoVフレーム内に含まれている情報とワイドFoVグランドトゥルース(ground truth)の間には、曖昧さが存在しうる。フレーム領域に応じて変化しうるこの曖昧さは、予測トレーニングプロセスをミスリードしうる。
【0004】
当技術分野における関係する問題は、ビデオに基づいた画像合成のエリアにおいて見出すことができる。例えば、ビデオのインペインティング(inpainting)は、ナローFoVフレーム内において、可視ピクセルを条件として、失われたピクセルを幻視化する(hallucinate)ことを狙いとしている。同様に、将来のビデオ予測は、すべてがナローFoV内にある状態において、過去及び現在のフレームを条件として、将来フレームを幻視化することに合焦している。
【発明の概要】
【発明が解決しようとする課題】
【0005】
ビデオの外挿は、一般に、FoVを拡張するべく、隣接するナローFoVフレームの観察されているピクセルをブレンドするために、2D又は3D形状に基づいた画像ワーピング及びスティッチング技法(image warping and stitching techniques)を採用している。但し、ビデオの外挿は、ナローFoV内において観察されていないピクセルの問題に対処してはいない。
【0006】
新しいビュー合成(Novel view synthesis)は、観察されているピクセルをブレンドする、のみならず、主にディスオクルージョン(dis-occlusion)のためにいくつかの失われたピクセルを幻視化することにより、異なる視点から所与の物体又はシーンの画像を生成することを狙いとしている。この技法は、特にビデオシーンに適用された際に、良好な結果を生成するべく、高精度のマルチビュー形状に大きく依存している。
【課題を解決するための手段】
【0007】
本開示は、画像補完用のシステムを提供しており、システムは、
第1過去フレーム及び第1現在フレームを受け取るように、且つ、受け取られた第1過去フレーム及び第1現在フレームのそれぞれごとに1つずつ、座標マップの組を生成するように、構成された座標生成モジュールであって、第1過去フレーム及び第1現在フレームは、第1視野(FoV)を有し、第1過去フレームに対応する座標マップは、第1現在フレームの座標系に対する第1過去フレームの空間マッピングを提供している、モジュールと、
入力として、第1過去フレーム、第1現在フレーム、及び座標マップを受け取るように、且つ、前記入力に基づいて第2FoVを有する第2現在フレームを合成するように、構成されたフレーム統合モジュールと、
を含む。
【0008】
実施形態によれば、第1及び第2FoVは、等しいものであってもよく、或いは、異なっていてもよい。
【0009】
一実施形態において、第2FoVは、第1FoVよりも大きい。例えば、第2FoVは、第1FoVよりも、ピクセルを単位として、大きな幅及び/又は長さを有することができる。
【0010】
用途に応じて、第1FoVは、「ナローFoV」と見なすことができると共に、第2FoVは、「ワイドFoV」と見なすことができる。
【0011】
一実施形態において、第1FoV及び第2FoVは、初期化時点において、システムのパラメータとして規定することができる。
【0012】
従って、座標マップを通じて、座標生成モジュールは、過去のフレーム内に含まれている情報が第1現在フレームの座標系に伝播することを可能にしている。これは、過去フレームからの情報が、第1現在フレームからの情報と組み合わせられることを許容している。具体的には、フレーム統合モジュールは、その最終的な組合せのために過去フレームからの情報を適切にワーピングするべく座標マップを使用している。
【0013】
一実施形態において、座標生成モジュールは、
第1過去フレームを受け取るように、且つ、受け取られた第1過去フレームのそれぞれごとに深さマップを生成するように、構成された深さネットワークと、
受け取られた第1過去フレーム及び第1現在フレームから形成された時間隣接フレームのフレームペアを受け取るように、且つ、受け取られたフレームペアのそれぞれごとに相対カメラポーズを生成するように、構成されたポーズネットワークと、
深さネットワーク及びポーズネットワークの出力に基づいて座標マップの組を生成するように構成された座標計算モジュールと、
を含む。
【0014】
所与のフレームの深さマップは、フレーム内のすべてのピクセルについて、カメラとピクセルによって表されている物体の間の距離の推定値を通知している。
【0015】
時間隣接フレーム(It-i,It-i+1)に対応する相対カメラポーズ(pt-i)は、、時点(t-j)から時点(t-j+1)までのカメラ位置の相対回転及び平行運動の推定値を表している。
【0016】
一実施形態において、座標計算モジュールは、それぞれの第1過去フレームごとに、第1現在フレームから過去フレームへの剛性フローを算出するように、且つ、算出された剛性フローに基づいて第1過去フレーム用の座標マップを算出するように、構成することができる。第1現在フレームから第1過去フレームへの剛性フローは、第1現在フレームを第1過去フレームにワーピングするべく第1現在フレームのピクセルに適用されることになる個々のピクセル変位を通知している。
【0017】
一実施形態において、フレーム統合モジュールは、座標生成モジュールによって生成された座標マップの組を使用することにより、受け取られた第1過去フレーム内に含まれている情報を第1現在フレームの座標系に伝播させるように構成することができる。
【0018】
一実施形態において、フレーム統合モジュールは、
第1過去フレーム及び第1現在フレームのそれぞれに基づいて複数の特徴マップを生成するように構成されたエンコーダと、
第1過去フレーム及び第1現在フレームのそれぞれごとに、前記それぞれのフレームごとに複数のワーピングされた特徴マップを生成するべく、前記それぞれのフレームと関連する個々の座標マップを使用することにより、前記それぞれのフレームと関連する複数の特徴マップをワーピングするように構成されたワーピングモジュールと、
統合された特徴マップの組を生成するべく、第1過去フレーム及び第1現在フレームのすべてにわたって、生成されたワーピング済みの特徴マップを統合するように構成されたアテンションに基づいた特徴統合(AFA:Attention-based Feature Aggregation)モジュールと、
を含む。
【0019】
一実施形態において、AFAモジュールは、統合において、第1過去フレーム及び第1現在フレームのそれぞれのフレームごとに、第1現在フレームとの関係におけるフレームのタイミングに基づいてフレームの領域固有の特徴を強調するように構成することができる。
【0020】
一実施形態において、AFAモジュールは、(第1過去フレーム及び第1現在フレームの)古いフレームについては、フレームの中心から離れたフレーム領域(例えば、中心から既定の距離超の領域)を強調するように、且つ、新しいフレームについては、フレームの中心の近傍のフレーム領域(例えば、中心から既定の距離未満の領域)を強調するように、構成することができる。このような統合方式の背後の洞察は、中心から遠いフレーム領域は、最近のフレーム内よりも、古いフレーム内において、既に観察されている可能性が大きく、且つ、相対的に小さな深さ/ポーズエラーを有する、というものである。対照的に、フレームの中心近傍のフレーム領域は、古いフレームよりも最近のフレーム内において、既に観察されている、且つ、相対的に小さな深さ/ポーズエラーを有する、可能性が高い。従って、深さ/ポーズエラーに対する安定性が改善されている。
【0021】
一実施形態において、AFAモジュールは、第1過去フレーム及び第1現在フレームのそれぞれのフレームごとに、
前記それぞれのフレームと関連するワーピングされた特徴マップのそれぞれごとに、個々のフレームの観点における空間アテンションマップ(attention map)を生成するように、且つ、
個々の特徴マップを生成するべく、前記それぞれのフレームと関連するワーピングされた特徴マップのそれぞれを個々の空間アテンションマップによって乗算するように、
構成することができる。
【0022】
一実施形態において、AFAモジュールは、統合された特徴マップの組を生成するべく、第1過去フレーム及び第1現在フレームのすべてにわたって、生成された個々の特徴マップを合計するように更に構成することができる。
【0023】
一実施形態において、フレーム統合モジュールは、統合された特徴マップの組に基づいて第2FoVを有する第2現在フレームを生成するように構成されたUネットモジュールを更に含むことができる。
【0024】
一実施形態において、Uネットモジュールは、
統合された特徴マップの組を受け取るように、且つ、第1現在フレームの視野の外側に含まれる第2現在フレームの領域をアウトペインティングするように、構成されたコンテキスト正規化サブモジュールと、
コンテキスト正規化サブモジュールによって出力された特徴マップを受け取るように、且つ、第1現在フレームの視野内に含まれる遮蔽された又は観察されていない(第1過去及び/又は第1現在フレーム内の)領域をインペインティングするべくコンテキスト正規化サブモジュールによって出力された前記特徴マップを処理するように、構成されたデコーダサブモジュールと、
デコーダサブモジュールによって出力された特徴マップを受け取るように、且つ、デコーダサブモジュールによって出力された前記特徴マップを空間的に統合するように、構成されたゲート付き自己アテンション(GSA:Gated Self-Attention)サブモジュールと、
を含むことができる。
【0025】
一実施形態において、GSAサブモジュールは、フレーム内の特徴ベクトル(或いは、ピクセル)の空間的場所に基づいて特徴ベクトル当たりに(即ち、ピクセル当たりに)動的に生成された重みに基づいてデコーダサブモジュールによって出力された特徴マップを空間的に統合するように構成することができる。
【0026】
一実施形態において、第2FoVを有する推定されたフレームとその第2FoVと関連するグランドトゥルースの間の曖昧さレベルは、第2FoVフレーム内の領域の間において変化しうる(即ち、曖昧さレベルと場所の間に相関が存在している)。従って、場所に基づいて動的に生成された重みに基づいた特徴マップの統合は、特徴統合が、統合されている特徴ベクトルの曖昧さレベルに基づいて動的に適合されることを許容している。従って、曖昧さの影響が低減され、これにより、特徴統合性能が改善される。
【0027】
一実施形態において、提案されているシステムは、第2現在フレームと関連する不確定性マップを生成するように構成された幻視化不確定性モジュールを含むことができる。
【0028】
第2現在フレームと関連する不確定性マップを生成することにより、幻視化不確定性モジュールは、第2現在フレームのそれぞれのピクセルごとに幻視化不確定性を解釈するためのメカニズムを提供している。これは、画像補完システムを使用するシステムが、画像補完システムによって生成された任意の更なるFoV情報を相対的に良好に処理することを支援することができる。このようなシステムは、いくつかの例を挙げれば、自己運転自動車、自律型ロボット、及びVR/ARシステムなどの意思決定システムであってよい。
【0029】
トレーニングの際に、不確定性マップは、監督不一致を低減するべく、損失関数を空間的に重み付けするように使用することができる(監督不一致は、予測結果とグランドトゥルースの間の不一致であり、予測結果が視覚的に受け入れ可能でありうるにも拘わらず、空間的な変位が、監督不一致が大きくなることをもたらし、これにより、トレーニングの収束問題を生成しうる)。具体的には、不確定性マップによる損失関数の重み付けは、高度な幻視化不確定性による損失関数値に対するピクセルの影響を減衰させ、且つ、トレーニングの目的の調節を支援している。
【0030】
一実施形態において、幻視化不確定性モジュールは、幻視化不確定性を組み込んだ損失関数を極小化するべく、不確定性マップを生成するように構成することができる。
【0031】
一実施形態において、幻視化不確定性モジュールは、高い幻視化不確定性を有することになる第2現在フレームの領域及び低い幻視化不確定性を有することになるものの予測に基づいて不確定性マップを生成するように構成することができる。
【0032】
一実施形態において、深さネットワーク及びフレーム統合モジュールによって受け取られた第1過去フレームの一部分は、フレーム統合モジュールによって生成された、且つ、第1過去フレームの前記部分に対応する、(第2FoVを有する)第2過去フレームによって置換することができる。これは、生成されたワイドFoVフレームのビデオ内の時間的一貫性(即ち、色及び構造ジッタ)の改善を支援している。
【0033】
一実施形態において、第2過去フレームは、それぞれ、フレーム統合モジュールに提供する前に、幻視化不確定性モジュールによって生成された個々の不確定性マップと連結することができる。従って、不確定性マップは、フレーム統合モジュールの入力にコンフィデンス信号を導入するべく、使用されており、コンフィデンス信号は、第2過去フレームのそれぞれごとに推定コンフィデンスレベルを反映している。これは、システムが、推定された第2過去フレーム当たりにピクセル当たりの幻視化不確定性を表現することを許容している。
【0034】
一実施形態において、上述の特徴の任意のものは、コンピュータプログラムの命令として実装することができる。従って、本開示は、プロセッサによって実行された際に、プロセッサが、上述の画像補完用のシステムを実装するようにする命令を含むコンピュータプログラムを提供している。
【0035】
コンピュータプログラムは、任意のプログラミング言語を使用することが可能であり、且つ、ソースコード、オブジェクトコード、部分的にコンパイルされたコードなどのソースコードとオブジェクトコードの中間のコード、或いは、任意のその他の望ましい形態の形態を有することができる。
【0036】
コンピュータプログラムは、コンピュータ可読媒体上において記録することができる。従って、本開示は、上述のコンピュータプログラムをその上部において記録したコンピュータ可読媒体をも対象としている。コンピュータ可読媒体は、コンピュータプログラムを保存する能力を有する任意のエンティティ又は装置であってよい。
【0037】
本開示の更なる特徴及び利点については、以下の添付の図面を参照する、限定ではなく、例示のみを目的として付与されている、その特定の実施形態に関する以下の説明から明らかとなろう。
【図面の簡単な説明】
【0038】
図1】一実施形態による例示用の画像補完システムを示す図である。
図2図1のシステムの例示用のコンピュータ実装形態を示す図である。
図3】一実施形態による例示用の座標生成モジュールを示す図である。
図4】一実施形態による例示用のフレーム統合モジュールを示す図である。
図5】一実施形態によるフレーム統合モジュールにおいて使用される例示用のアテンションに基づいた特徴統合(AFA)モジュールを示す図である。
図6】一実施形態によるフレーム統合モジュールにおいて使用される例示用のUネットを示す図である。
図7A】例示用のナローFoVフレームを示す図である。
図7B】一実施形態による図7Aの例示用のナローFoVフレームに基づいて生成された例示用のアテンションマップを示す図である。
図8】ワイドFoVグランドトゥルースとの関係における推定ワイドFoVフレーム内の曖昧さを示す一例である。
【発明を実施するための形態】
【0039】
図1は、本開示の一実施形態による画像補完用の例示用のシステム100を示している。例示用のシステム100は、本開示の実施形態の、限定ではなく、例示を目的として提供されている。
【0040】
図1に示されているように、例示用のシステム100は、座標生成モジュール102及びフレーム統合モジュール104を含む2ステージリカレントフレームワークに基づいている。また、幻視化不確定性モジュール106も、提供することができる。
【0041】
座標生成モジュール102は、第1過去フレーム108及び第1現在フレーム116を受け取るように、且つ、受け取られた第1過去フレーム当たりに1つずつ、座標マップ110の組を生成するように、構成されている。第1過去フレームに対応する座標マップは、第1現在フレームに対する第1過去フレームの空間マッピングを提供している。一実施形態において、第1過去フレーム108及び第1現在フレーム116は、第1FoV(例えば、208×128ピクセル)を有する。
【0042】
フレーム統合モジュール104は、第1過去フレーム108及び第1現在フレーム116のみならず、座標マップ110をも、モジュール102から受け取るように構成されている。フレーム統合モジュール104は、受け取られた入力に基づいて第2現在フレーム112を合成するように構成されている。一実施形態において、第2現在フレーム112は、第2FoVを有する。
【0043】
第2FoVは、第1FoVと等しいものであってもよく、或いは、異なっていてもよい。一実施形態において、第2FoVは、第1FoVよりも大きい。例えば、第2FoVは、ピクセルを単位として、第1FoVよりも大きな幅及び/又は長さを有することができる。例えば、第1FoVが208×128ピクセルである場合に、第2FoVは、416×128ピクセルであってよい。
【0044】
一実施形態において、生成された(第2FoVを有する)第2フレーム内の時間的一貫性を改善するべく、モジュール102及び104に入力される第1過去フレームの一部分は、フレーム統合モジュール104によって生成されたその対応する第2フレームによって置換することができる。
【0045】
フレーム統合モジュール104は、座標マップ110を使用することにより、過去フレーム(第1過去フレームと、任意選択により、第2過去フレームをも含む)に含まれている情報を第1現在フレームの座標系に伝播させるように構成することができる。
【0046】
一実施形態において、フレーム統合モジュール104は、それぞれの入力フレームに基づいて複数の特徴マップを生成するように構成することができる。特徴マップは、マルチスケール特徴マップであってよい。
【0047】
フレーム統合モジュール104は、過去フレームと関連する複数の特徴をワーピングさせるべく、所与の過去フレームに対応する座標マップ110を使用することができる。第1現在フレームの場合には、これが正しい座標系内に既に存在していることに伴って、ワーピングは不要であり、且つ、ワーピングされた特徴マップは、オリジナルの特徴マップに対応している。
【0048】
この後に、フレーム統合モジュール104は、統合された特徴マップを生成するべく、すべてのフレームに跨ってワーピングされた特徴マップを統合するように構成することができる。一実施形態において、ワーピングされた特徴マップの統合は、アテンションに基づいた特徴統合方式を使用している。アテンションに基づいた特徴統合方式は、深さ/ポーズエラー(即ち、座標マップにおけるエラー)により、且つ、フレーム一貫性により、生成される課題に対処するべく、フレームの間において有用な特徴を選択するべく学習するようにトレーニングされている。これは、特徴レベルにおけるマルチフレーム情報の融合を改善している。
【0049】
フレーム統合モジュール104は、統合された特徴マップに基づいて第2現在フレーム112を生成するように構成することができる。
【0050】
一実施形態において、フレーム統合モジュール104は、第1FoVの外側に含まれる領域をアウトペインティング(外挿)するべく、コンテキスト正規化に基づいた技法を使用することができる。
【0051】
一実施形態において、フレーム統合モジュール104は、第1FoV内に含まれる遮蔽された又は観察されていない領域をインペインティング(補完)するべくゲート付き畳み込み技法を使用することができる。
【0052】
一実施形態において、フレーム統合モジュール104は、システムが異なる曖昧さレベルを有する観察に対して適合可能となることを許容するべく、ゲート付き自己アテンション(GSA)メカニズムを実装することができる。GSAメカニズムは、ローカル情報(曖昧さが領域の間において異なっている)に従って動的に生成される重みに基づいて特徴マップを空間的に統合するように構成することができる。
【0053】
一実施形態において、フレーム統合モジュール104は、不確定性メカニズムを実装することができる。具体的には、幻視化不確実性モジュール106は、第2現在フレーム112と関連する不確定性マップ114を生成するべく提供することができる。不確定性マップは、それぞれのピクセルにおける幻視化不確定性を解釈するべく機能している。トレーニングの際に、不確定性マップは、監督不一致を低減するべく損失関数を空間的に重み付けするように使用することができる(監督不一致は、予測結果とグランドトゥルースの間の不一致であり、空間的な変位が、予測結果が視覚的に受け入れ可能でありうるにも拘わらず、監督不一致が大きくなるようにしており、これにより、トレーニングの収束問題を生成しうる)。具体的には、不確定性マップによる損失関数の重み付けは、高度な幻視化不確定性による損失関数値に対するピクセルの影響を減衰させ、且つ、トレーニングの目的の調節を支援している。
【0054】
一実施形態において、システム100は、図2に示されているコンピュータシステム200などのコンピュータシステム上において実装することができる。具体的には、システム100と、そのモジュール及びメカニズムの任意のものと、は、コンピュータシステム200のプロセッサ202によって実行された際に、プロセッサ202が、本明細書において記述されているシステム100の方法又は機能を実行するようにする命令を含むコンピュータプログラムとして実装することができる。一実施形態において、コンピュータプログラムは、コンピュータシステム200のコンピュータ可読媒体204上において記録することができる。
【0055】
以下、図3図8を参照し、システム100の詳細な動作を提示する。
【0056】
一般性を失うことなしに、システム100については、第2FoVが(幅及び/又は長さの観点において)第1FoVよりも大きい特定の実施形態について説明することとする。例えば、第1FoVは、208×128ピクセルであってよく、且つ、第2FoVは、416×128ピクセルであってよい。従って、わかりやすさを目的として、第1FoVは、「ナローFoV」と呼称することとし、且つ、第2FoVは、「ワイドFoV」と呼称することとする。本明細書における教示に基づいて当業者には理解されるであろうように、実施形態は、この特定の実施形態によって限定されるものではない。
【0057】
提示の簡潔性を目的として、システム100の動作については、現在のワイドFoVフレームOtを生成するための現在のナローFoVフレームItの処理の観点から説明する。従って、システム100は、FoV外挿システムとして見なすことができる。但し、上述のように、システム100は、FoV外挿に限定されるものではない。
【0058】
図3は、一実施形態による例示用の座標生成モジュール300を示している。例示用の座標生成モジュール300は、本開示の実施形態の、限定ではなく、例示を目的として提供されている。例示用の座標生成モジュール300は、座標生成モジュール102の一実施形態であってよい。
【0059】
図3に示されているように、座標生成モジュール300は、深さネットワーク302と、ポーズネットワーク304と、座標計算モジュール306と、を含む。
【0060】
深さネットワーク302は、複数の過去フレームを受け取るように構成されている。過去フレームは、ナローFoVフレーム及び過去のワイドFoVフレームを含みうる。例示を目的として、以下の説明においては、深さネットワーク302がk個のフレームを受け取るものと仮定されている。k個のフレームは、(k-j)個の過去ナローFoVフレーム(図3において、It-k,...,It-j-1と表記されている)と、j個の過去ワイドFoVフレーム(図3において、Ot-j,...,Ot-1と表記されている)と、を含むことができる。一実施形態において、kは、5に等しくてもよく、且つ、jは、1~5であってよい。
【0061】
過去フレームは、例えば、RGBフレーム、深さフレーム、又はセマンティックセグメント化フレームであってよい。フレームは、同一のカメラソースから、或いは、異なるカメラソースから、導出することができると共に、同一のカメラ基準に変換することができる。
【0062】
深さネットワーク302は、受け取られたk個のフレームのそれぞれごとに深さマップdを生成している。一実施形態において、深さネットワーク302は、過去ナローFoVフレームIt-k,...,It-j-1に個々に対応する深さマップdt-k,...,dt-j-1を生成し、且つ、過去ワイドFoVフレームOt-j,...、Ot-1に個々に対応する深さマップdt-j,...,dt-1を生成している。
【0063】
所与のフレームの深さマップは、フレーム内のすべてのピクセルについて、カメラとピクセルによって表されたオブジェクトの間の距離の推定値を通知している。
【0064】
ピクセル深さ推定については、当業者に周知であり、且つ、本明細書においては、その説明を省略することとする。一実施形態において、深さネットワーク302は、「Clement Godard, Oisin Mac Aodha, Michael Firman, Gabriel Brostow, Digging into self-supervised monocular depth estimation, arXiv:1806.01260, in ICCV, 2019」に詳述されている完全畳み込み型のUネットとして実装することができる。具体的には、深さネットワーク302は、周知のVGG16BNエンコーダと、いくつかの畳み込み層のデコーダと、を含みうる。入力は、RGB画像フレーム(3チャネル)であってよく、且つ、出力は、同一分解能の深さマップ(1チャネル)である。
【0065】
ポーズネットワーク304は、ナローFoVフレームのk個のペアを入力として受取り、且つ、k個のフレームペアのそれぞれごとに相対的なカメラポーズを生成している。一実施形態において、k個のフレームペアは、フレームペア(It-k,It-k+1),...,(It-1,It)、即ち、時間tにわたる隣接するフレームペアである、(現在)ナローFoVフレーム及びk-1個の過去ナローFoVフレーム、を含む。結果的に得られる相対的なカメラポーズは、pt-k,...,pt-1と表記されている。
【0066】
隣接するナローFoVフレーム(It-i,It-i+1)に対応する相対的カメラポーズpt-iは、時点(t-j)から時点(t-j+1)へのカメラ位置の相対回転及び平行運動の推定値を表している。
【0067】
相対カメラポーズ推定については、当業者には、周知であり、本明細書においては、その説明を省略することとする。一実施形態において、ポーズネットワーク304は、「Clement Godard, Oisin Mac Aodha, Michael Firman, Gabriel Brostow, Digging into self-supervised monocular depth estimation, arXiv:1806.01260, in ICCV, 2019」において詳述されているように実装することができる。具体的には、ポーズネットワーク304は、RGB画像のペア(3+3チャネル)を入力として受け取る、且つ、6チャネルベクトルを出力として生成する、ResNet18エンコーダを含むことができる。
【0068】
座標計算モジュール306は、深さネットワーク302及びポーズネットワーク304の出力に基づいてk個の座標マップ308を算出するように構成されている。一実施形態において、(k-j)個の過去ナローFoVフレーム(It-k,...,It-j-t)に個々に対応する(k-j)個のマップ(et-k,...,et-j+1)及びj個の過去ワイドFoVフレーム(Ot-j,...,Ot-1)に個々に対応するj個のマップ(et-j,...,et-1)が算出されている。
【0069】
過去(ナロー又はワイドFoV)フレームに対応する座標マップは、現在ナローFoVフレームItに対する過去フレームの空間的なマッピングを提供している。換言すれば、座標マップは、過去フレームのそれぞれのピクセルごとに、現在のフレームIt内のその対応する座標を通知している。
【0070】
一実施形態においては、次式に従って、過去フレームIi又はOi(i=t-k,...,t-1)用の座標マップが、まず、現在フレームItから過去フレームへの剛性フロー行列を算出することにより、取得されており、
【数1】
ここで、Kは、カメラの内部行列を表記し、
【数2】
は、過去フレームIiから現在フレームへの相対的なカメラポーズを表記し、
【数3】
は、現在フレームIi内のピクセルの同次(又は、射影)座標の行列を表し、且つ、
【数4】
は、位置
【数5】
の深さ値を表している。
【0071】
現在フレームItから過去フレームへの剛性フローは、現在フレームItを過去フレームにワーピングさせるべく、現在フレームItのピクセルに適用されることになる個々のピクセル変位を通知している。
【0072】
次いで、算出された剛性フローを使用することにより、現在フレームItを過去フレームに空間的にマッチングする座標マップ
【数6】
を演算することができる。座標マップ
【数7】
は、剛性フローを一般的な2Dグリッド(2チャネル)(例えば、値[[[1,1,1],[2,2,2],[3,3,3]],[[1,2,3],[1,2,3],[1,2,3]]]を有する3×3の2Dグリッド)に加算することにより、取得することができる。最後に、座標マップ
【数8】
は、座標マップ
【数9】
を取得するべく逆転され、これは、過去フレームを現在フレームItに空間的にマッチングさせている。座標マップ
【数10】
を取得するための座標マップ
【数11】
の逆転の際に、現在フレームItのピクセル(x0、y0)が、座標マップ
【数12】
内の過去フレームのピクセル(u0、v0)に空間的にマッチングしている場合には、過去フレームのピクセル(u0、v0)は、座標マップ
【数13】
内において現在フレームItのピクセル(x0、y0)に空間的にマッチングすることになる。
【0073】
図4は、一実施形態による例示用のフレーム統合モジュール400を示している。例示用のフレーム統合モジュール400は、本開示の実施形態の、限定ではなく、例示を目的として提供されている。例示用のフレーム統合モジュール400は、フレーム統合モジュール104の一実施形態であってよい。
【0074】
図4に示されているように、例示用のフレーム統合モジュール400は、エンコーダ402と、ワーピングモジュール404と、アテンションに基づいた特徴統合(AFA)モジュール406と、Uネットモジュール408と、を含む。
【0075】
エンコーダ402は、入力として、k+1個のフレームを受け取るように構成されている。初期化の際に、k+1個のフレームは、k個の過去ナローFoVフレーム(即ち、It-1,...,It-k)に、且つ、過去ナローFoVフレームItに、対応している。j回の反復の後に、時間的コヒーレンシーを改善するべく、過去ナローフレーム{It-i}i=1,...,jに対応する入力が、以前の出力{Ot-i}i=1,...,j及びその関連する不確定性マップ{Ut-j}i=1,...,jにより、置換されている(Ot-j及びUt-jは、チャネルごとに、互いに連結することができる)。わかりやすさを目的として、図4は、J回の反復が発生した後のエンコーダ入力を示している。
【0076】
エンコーダ402は、それぞれの受け取られた入力フレームに基づいて複数(N)の特徴マップ410を生成するように構成されている。一実施形態において、複数の特徴マップ410は、マルチスケール特徴マップであってよい(即ち、異なる空間的スケール又はサイズを有する)。一実施形態において、Nは、3に等しくてもよいが、更に大きな数を使用することもできる。
【0077】
一実施形態において、エンコーダ402は、入力フレームに基づいて第1特徴マップを生成するように構成された第1畳み込み層を含むことができる。第1特徴マップは、サイズH×W×Cのテンソルであってもよく、この場合に、Hは、フレームの高さであり、Wは、フレームの幅であり、且つ、Cは、チャネルの数である。例えば、Cは、128に等しくてもよい。第1特徴マップは、「レベル0」特徴マップと呼称することができる。
【0078】
また、エンコーダ402は、第1特徴マップを受け取るように、且つ、第1特徴マップに基づいて中間第2特徴マップを生成するように、構成された第2畳み込み層を含むことができる。中間第2特徴マップは、サイズH1×W1×Cであってもよく、この場合に、H1及びW1の少なくとも1つは、それぞれ、H及びWよりも小さい。次いで、中間第2特徴マップが、サイズH1×W1×Cの第2特徴マップを生成するべく、同一サイズ(即ち、H1×W1×C)の第1特徴マップのダウンサイジングされたバージョンに加算されている。第2特徴マップは、「レベル1」特徴マップと呼称することができる。
【0079】
上述のプロセスは、サイズH2×W2×Cの第3特徴マップを取得するべく、第2特徴マップとの関係において反復されてもよく、この場合に、H2及びW2の少なくとも一つは、それぞれ、H及びWよりも小さい。第3特徴マップは、「レベル2」特徴マップと呼称することができる。
【0080】
次いで、k+1個の入力フレームのそれぞれごとに生成された特徴マップ410が、ワーピングモジュール404に提供されている。
【0081】
これに加えて、ワーピングモジュール404は、座標計算モジュール306からk個の座標マップ308を受け取っている。上述のように、k個の座標マップ308は、(k-j)個の過去ナローFoVフレーム(It-k,...,It-j-1)にそれぞれ対応する(k-j)個のマップ(et-k,...,et-j+1)と、j個の過去ワイドFoVフレーム(Ot-j,...,Ot-1)にそれぞれ対応するj個のマップ(et-j,...,et-1)と、を含む。
【0082】
一実施形態において、過去フレームのそれぞれ(即ち、(k-j)個の過去ナローFoVフレーム(It-k,...、It-j-1)及びj個の過去ワイドFoVフレーム(Ot-j,...,Ot-1)のそれぞれ)ごとに、ワーピングモジュール404は、フレームと関連する特徴マップ410を現在ナローFoVフレームItに伝播させるべく、フレームに対応する個々の座標マップを使用するように構成することができる。特徴マップ410の伝播は、フレームの複数のワーピングされた特徴マップ412を生成するべく、座標マップに従って、特徴マップ410をワーピングさせている。
【0083】
一実施形態において、ワーピングモジュール404は、座標マップ308に基づいてマルチスケール特徴マップ410を伝播させるべく、「Jaderberg, Max, Karen Simonyan, and Andrew Zisserman, “Spatial transformer networks,” In NIPS. 2015」において詳述されているバイリニアサンプリングを使用している。
【0084】
現在ナローFoVフレームItに対応する特徴マップ410は、ワーピングモジュール404によってワーピングされておらず、その理由は、これらが、現在フレームの座標系内において既に存在しているからであることに留意されたい。従って、特徴マップ412は、現在ナローFoVフレームItの特徴マップ410と同一である。
【0085】
ワーピングされた特徴マップ412(これは、例えば、レベル0、1、及び2などの異なるレベルであってよい)は、次いで、AFAモジュール406に提供され、これは、統合された特徴マップ414を生成するべく、k+1個のフレームのすべてにわたって、ワーピングされた特徴マップ412を統合するように構成されている。ナローFoVフレームから結果的に得られたワーピング済みの特徴マップは、ワイドFoVフレームから結果的に得られたワーピング済みの特徴マップと同一のサイズを有するように、ゼロによって充填することができる。
【0086】
一実施形態においては、AFAモジュール406が、図5に示されているように、実装されてもよく、図5は、本開示の一実施形態による例示用のAFAモジュール500を示している。例示用のAFAモジュール500は、実施形態の、限定ではなく、例示を目的として提供されている。
【0087】
図5に示されているように、例示用のAFAモジュール500は、k+1個のフレームの所与のフレームに対応するワーピングされた特徴マップ412(例えば、レベル0、1、及び2)を受け取るようにそれぞれが構成された複数のチャネルを含む。
【0088】
それぞれのチャネル内において、個々のフレームのワーピングされた特徴マップ412は、それぞれ、個々のフレームの観点における空間アテンションマップ506を生成するべく、ソフトマックス正規化モジュール504によって後続される畳み込み層502内に供給されている。一実施形態においては、レベル0空間アテンションマップ、レベル1空間アテンションマップ、及びレベル2空間アテンションマップが生成されている。例示を目的として、図7Bは、図7Aに示されている例示用のナローFoVフレームのシーケンスに対応する例示用のレベル0アテンションマップを示している。
【0089】
次いで、ワーピングされた特徴マップ412のそれぞれは、個々の特徴マップ508を生成するべく、その個々の空間アテンションマップ506によって乗算されている。従って、それぞれのフレームごとに、複数の特徴マップ508(例えば、レベル0、レベル1、及びレベル2)が取得されている。
【0090】
上述の空間アテンションマップの使用は、その他のフレームとの間の後続の統合のためにそれぞれのフレームの特定の特徴に合焦する又は選択することを許容している。一実施形態において、空間アテンションマップ506は、k+1個のフレームの古いフレーム(例えば、フレームt-k~t-j-1)について、フレームの中心から遠いフレーム領域(例えば、中心から既定の距離超である領域)を強調するように、且つ、k+1個のフレームの新しいフレーム(例えば、フレームt-j~t)について、フレームの中心近傍のフレーム領域(例えば、中心から既定の距離未満の領域)を強調するように、構成されている。
【0091】
次いで、結果的に得られた特徴マップ508が、統合された特徴マップ414を生成するべく、すべてのフレームに跨って合計されている。一実施形態において、これは、すべてのフレームに跨って、すべてのレベル0特徴マップ508を1つに、すべてのレベル1特徴マップ508を1つに、且つ、すべてのレベル2特徴マップ508を1つに、合計するステップを含む。
【0092】
図4を再度参照すれば、統合された特徴マップ414は、次いで、Uネットモジュール408に提供されている。Uネットモジュール408は、統合された特徴マップ414に基づいて現在ワイドFoVフレームOtを合成するように構成されている。これに加えて、一実施形態において、Uネットモジュール408は、ワイドFoVフレームOtと関連する不確定性マップUtをも出力している。不特定性マップは、それぞれのピクセルにおいて幻視化不確定性を解釈(説明)するべく、且つ、監督曖昧さを低減することによって学習をガイドするべく、機能している。
【0093】
一実施形態において、Uネットモジュール408は、例えば、ナローFoV内に含まれる遮蔽された又は観察されていない領域をインペインティング(補完)する、且つ/又は、ナローFoVの外側に含まれる領域をアウトペインティング(外挿)する、ことにより、失われた領域を幻視化するためのメカニズムを実装している。画像のインペインティング及びアウトペインティングは、当技術分野においては、既知の技法である。具体的には、画像インペインティングは、ワーピングを通じて失われたピクセルを幻視化すること又は隣接(空間又は時間次元)する可視ピクセルを条件として失われたピクセルを生成することを狙いとしている。画像のアウトペインティングは、FoVを拡張するために、隣接するナローFoVフレームの観察されたピクセルをブレンドするべく、通常、2D又は3D形状に基づいたワーピング及びスティッチング技法を採用している。
【0094】
任意選択により、Uネットモジュール408は、ゲート付き自己アテンション(GSA)メカニズムを含むことができる。GSAメカニズム用のモチベーションは、通常、推定されたワイドFoVフレームとワイドFoVグランドトゥルースの間の曖昧さレベルが、ワイドFoVフレーム内の1つの領域から別のものに変化しうる、という点にある。例えば、図8に示されているように、ワイドFoVフレーム内のピクセルは、(a)曖昧さが存在していない、現在フレーム内の観察されたナローFoVピクセル(例えば、フレームの領域802)、(b)曖昧さが小さい、正確な伝播を有する過去フレームからの伝播されたピクセル(例えば、領域806a及び806b)、(c)中間曖昧さレベルを特徴とする、ノイジーな伝播を有する過去フレームからの伝播されたピクセル(例えば、領域808a及び808b)、並びに、(d)曖昧さのレベルが高い、観察されていない領域に対応するピクセル(例えば、領域804)、という4つのカテゴリに粗く分割することができる。更に後述するように、GSAメカニズムは、モデルが、異なる曖昧さレベルを有する観察に適合可能であることを保証するように構成されている。
【0095】
一実施形態において、Uネットモジュール408は、図6に示されているように実装されていてもよく、図6は、本開示の一実施形態による例示用のUネットモジュール600を示している。例示用のUネットモジュール600は、例示を目的としてのみ、提供されており、且つ、実施形態の限定ではない。
【0096】
図6に示されているように、Uネットモジュール600は、ボトルネックモジュール604と、デコーダモジュール618と、を含む。
【0097】
一実施形態において、ボトルネックモジュール604は、複数の連続層604-1、...、604-6を含む。層604-1、...、604-6は、それぞれ、残留遅延畳み込み層として実装することができる。このような層は、式y=x+conv(x)によって記述することが可能であり、ここで、yは、層出力であり、xは、層入力であり、且つ、conv(x)は、入力xの遅延畳み込みを表記している。
【0098】
一実施形態において、デコーダモジュール618は、コンテキスト正規化サブモジュール608と、デコーダサブモジュール610と、ゲート付き自己アテンション(GSA)サブモジュール612と、アップサンプリングモジュール614と、を含む。
【0099】
コンテキスト正規化サブモジュール608は、ナローFoVの外側に含まれる領域をアウトペインティング(外挿)するように構成することができる。
【0100】
一実施形態において、サブモジュール608は、複数のコンテキスト正規化層608-1、608-2、及び608-3を有する。一実施形態において、正規化層608-1、608-2、及び608-3は、それぞれ、「Y.Wang, X. Tao, X. Shen and J. Jia, “Wide-Context Semantic Image Extrapolation,” in 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), Long Beach, CA, USA, 2019 pp. 1399-1408」において記述されているように実装することができる。従って、層608-1、608-2、及び608-3は、平均及びバリアンスを観察された領域特徴から観察されていない領域特徴に転送するように構成することができる。
【0101】
但し、マスクが入力において付与されているWang他におけるものとは異なり、過去フレームを伝播させた後に観察されていない領域を通知する統合されたマスクを使用することができる。従って、大量のワイドビュー情報が過去のフレーム内において観察されており、且つ、この情報は、幻視化されるのではなく、現在ワイドFoVフレーム内に単純に伝播されうることを認識することができる。
【0102】
デコーダサブモジュール610は、ナローFoV内に含まれている遮蔽された又は観察されていない領域をインペインティング(完了)するように構成することができる。
【0103】
一実施形態において、サブモジュール610は、複数のデコーダ層610-1、610-2、610-3、及び610-4を含む。デコーダ層610-1、610-2、610-3、及び610-4は、それぞれ、「Jiahui Yu, Zhe Lin, Jimei Yang, Xiaohui Shen, Xin Lu, Thomas S. Huang, “Free-form image inpainting with gated convolution,” in Proceedings of the IEEE/CVF International Conference on Computer Vision (ICCV), 2019, pp. 4471-4480」において記述されているように、ゲート付き畳み込み層として実装することができる。
【0104】
GSAサブモジュール612は、自己アテンションを伴う特徴統合を実行するように構成することができる。具体的には、(近傍の場所からの特徴を組み合わせるべく)固定された事前トレーニング済みの重みの畳み込みカーネルを使用して特徴統合を実行する従来の畳み込み演算子とは異なり、サブモジュール612は、特徴ベクトルの場所に基づいて特徴ベクトル当たりに(即ち、ピクセル当たりに)カーネル重みを動的に生成するように構成することができる。一実施形態においては、曖昧さが、(図8との関係において上述したように)場所と直接的に相関していることに伴って、カーネル重みを統合されている特徴ベクトルの曖昧さレベルに基づいて特徴ベクトル当たりに動的に適合させることができる。従って、曖昧さの影響が低減され、これにより、特徴統合性能が改善されている。
【0105】
一実施形態において、GSAサブモジュール612は、複数のGSA層612-1、612-2、及び612-3を含む。GSA層612-1、612-2、及び612-3は、それぞれ、「Hengshuang Zhao, Jiaya Jia, and Vladlen Koltun, “Exploring self-attention for image recognition, ” In Conference on Computer Vision and Pattern Recognition (CVPR), 2020」に記述されているように、パッチの観点における自己アテンションブロックとして実装することができる。具体的には、パッチの観点における自己アテンションブロックは、以下の式によって記述することが可能であり、
【数14】
ここで、
【数15】
であり、
【数16】
は、新しい統合された特徴を表記しており、
【数17】
は、統合フットプリント(例えば、3×3又は7×7ピクセル)を表記しており、
【数18】
は、統合フットプリント内の特徴ベクトルのパッチに対応するテンソルを表記しており、
【数19】
は、テンソル
【数20】
内の場所jにおけるアテンションベクトル(即ち、重みベクトル)を表しており、且つ、これは、テンソル
【数21】
内の特徴ベクトル
【数22】
に空間的に対応しており、
【数23】
は、特徴ベクトル
【数24】
を生成する関数であり、且つ、
【数25】
は、ハダマード積である。
【0106】
関数
【数26】
及び
【数27】
は、それぞれ、1つの畳み込み層を介して実装されたマッピングである。関数
【数28】
は、パッチ
【数29】
からの特徴ベクトル
【数30】
を組み合わせており、且つ、連結演算を使用して実装することができる。
【0107】
一実施形態において、トレーニングの際の消失する勾配の影響を低減するべく、自己アテンションブロックが残留構造によってラッピングされてもよく:z=Convr(y)+x、ここで、Convrは、残留畳み込み層を表記しており、yは、自己アテンションブロックの出力であり、且つ、xは、自己アテンションブロックの入力である。
【0108】
別の実施形態において、自己アテンションは、次式によって規定された高度な曖昧さを有する領域を取り扱うべくゲート処理メカニズムを更に含んでいてもよく、
【数31】
この場合に、Convg及びConvaは、ゲート処理畳み込み層及びアテンション畳み込み層を表記している。ゲート処理メカニズムは、情報がネットワーク内において流れる1つ又は複数の経路を制御している。具体的には、一実施形態において、ゲート処理メカニズムは、特定レベル超の曖昧さを有する特徴ベクトルのみが、ネットワークを通じて流れることを許容するように、且つ/又は、特定レベル超の曖昧さを有する特徴ベクトルの流れを制限するように、構成することができる。従って、画像品質を改善することができる。
【0109】
一実施形態において、ボトルネックモジュール604は、入力として、第1層604-1を介して、統合された特徴マップ602-1を受け取るように、且つ、変更された統合された特徴マップ606を生成するように、構成することができる。特徴マップ602-1は、サイズ(H/4×W/4×C)のレベル2の統合された特徴マップであってよく、この場合に、Hは、フレームの高さであり、Wは、フレームの幅であり、且つ、Cは、チャネルの数である。特徴マップ606は、特徴マップ602-1と同一のサイズを有することができる。
【0110】
コンテキスト正規化層608-1、608-2、及び608-3は、個々の統合された特徴マップ602-1、602-2、及び602-3を受け取るように構成されている。統合された特徴マップ602-1、602-2,及び602-3は、それぞれ、レベル2、レベル1、及びレベル0の統合された特徴マップに対応しうる。一例として、特徴マップ602-1は、サイズ(H/4×W/4×C)を有していてもよく、特徴マップ602-2は、サイズ(H/2×W/2×C)を有していてもよく、且つ、特徴マップ602-3は、(H×W×C)を有していてもよく、この場合に、Hは、フレームの高さであり、Wは、フレームの幅であり、且つ、Cは、チャネルの数である。
【0111】
一実施形態において、コンテキスト正規化層608-1、608-2、及び608-3は、それぞれ、デコーダ層610-1、610-2、及び610-3に供給するように構成されており、これらのデコーダ層は、それぞれ、GSA層612-1、612-2、及び612-3に供給するように構成されている。
【0112】
コンテキスト正規化層608-1、608-2、及び608-3の個々の出力を受け取るのと同時に、デコーダ層610-1、610-2、及び610-3は、入力として、それぞれ、ボトルネックモジュール604の出力606、GSA層612-1の出力(アップサンプリングモジュール614-1によってアップサンプリングされたもの)及びGSA層612-2の出力(アップサンプリングモジュール614-2によってアップサンプリングされたもの)を更に受け取っている。例えば、デコーダ層610-1、610-2、及び610-3の組み合わせられた入力は、サイズ(H’×W’×2C)を有していてもよく、且つ、層の出力は、サイズ(H’×W’×2C)を有していてもよく、ここで、層610-1、610-2、及び610-3について、それぞれ、H’=H/4、H/2、及びHであり、それぞれ、W’=W/4、W/2、及びWである。
【0113】
デコーダ層610-4は、GSA層612-3の出力を入力として受け取り、且つ、現在ワイドFoVフレームOtを有する出力616を生成している。
【0114】
図1を再度参照すれば、上述のように、一実施形態において、システム100は、幻視化不確定性モジュール106を含むことができる。具体的には、幻視化不確定モジュール106は、生成されたワイドFoVフレーム112と関連する不確定性マップ114を生成するべく提供することができる。不確定性マップは、ワイドFoVフレームのそれぞれのピクセルにおいて幻視化不確定性を解釈するべく機能している。
【0115】
これに加えて、不確定性マップは、高度な幻視化不確定性による損失関数値に対するピクセルの影響を減衰させ、これにより、監督不一致を低減し、且つ、トレーニング収束をスピードアップさせることにより、トレーニングの目的を調節するべく使用することもできる。
【0116】
一実施形態において、幻視化不確定性モジュール106は、高い幻視化不確定性を有することになるワイドFoVフレームの領域及び低い幻視化不確定性を有することになるものの予測に基づいて不確定性を生成するようにトレーニングすることができる。生成された不確定性マップは、ワイドFoVフレームのピクセル当たりの推定された幻視化不確定性を割り当てることにより、この予測を反映している。
【0117】
一実施形態において、幻視化不確定性モジュール106は、幻視化不確定性を組み込んだ損失関数を極小化するべく、不確定性マップ114を生成するようにトレーニングすることができる。
【0118】
一実施形態において、幻視化不確定性を組み込んだ損失関数は、ピクセルレベル再構築L1損失関数である。
【0119】
一実施形態において、幻視化不確定性を組み込んだ損失関数は、次式によって付与されており、
【数32】
ここで、Otは、現在ワイドFoVフレームであり、Wtは、グランドトゥルースワイドFoVフレームであり、Utは、Otと関連する予測された不確定性マップであり、Mviewは、ナロービュー外の領域用のマスクであり、且つ、
【数33】
は、要素の観点における乗算を表記している。損失関数は、ピクセルごとに演算され、且つ、次いで、すべてのピクセルにわたって平均化されている。
【0120】
上述の式によれば、
【数34】
によって付与されるナローFoV領域は、不確定性マップUtによって重み付けされていないことに留意されたい。この理由は、この領域が、ナローFoVフレーム内において観察されているピクセルに対応しているからである。最も右のUt項は、損失勾配の安定化を支援する正則化項である。
【0121】
一実施形態において、不確定性Utを相対的に解釈可能なものにするべく、且つ、トレーニングプロセスを更に安定化させるべく、Utが、シグモイド関数を使用して範囲(0、1)内において制約されている。
【0122】
これに加えて、図4に示されているように、予め生成された不確定性マップ{Ut-i}i=1...jは、コンフィデンス信号として機能するべく現在の入力において使用することもできる。一実施形態において、これは、過去の不確定性マップを個々の過去の推定されたワイドFoVフレームと連結することにより、実行されている。
【0123】
以上、特定の具体的な実施形態を参照し、本発明について説明したが、本発明は、特定の実施形態の詳細によって限定されるものではないことを理解されたい。添付の請求項の範囲内において、上述の実施形態において、多数の変更、変形、及び修正を実施することができる。
本明細書に開示される発明は以下の態様を含む。
〔態様1〕
画像補完用のシステムであって、
第1過去フレーム及び第1現在フレームを受け取るように、且つ、前記受け取られた第1過去フレームのそれぞれごとに1つずつ、座標マップの組を生成するように、構成された座標生成モジュールであって、前記第1過去フレーム及び前記第1現在フレームは、第1視野を有し、第1過去フレームに対応する前記座標マップは、前記第1現在フレームの座標系に対する前記第1過去フレームの空間的なマッピングを提供している、座標生成モジュールと、
入力として、前記第1過去フレーム、前記第1現在フレーム、及び前記座標マップを受け取るように、且つ、前記入力に基づいて、第2視野を有する第2現在フレームを合成するように、構成されたフレーム統合モジュールと、
を有する、システム。
〔態様2〕
前記座標生成モジュールは、
前記第1過去フレームを受け取るように、且つ、前記受け取られた第1過去フレームのそれぞれごとに深さマップを生成するように、構成された深さネットワークと、
前記受け取られた第1過去フレーム及び前記第1現在フレームから形成された時間隣接フレームのフレームペアを受け取るように、且つ、前記受け取られたフレームペアのそれぞれごとに相対的カメラポーズを生成するように、構成されたポーズネットワークと、
前記深さネットワーク及び前記ポーズネットワークの出力に基づいて前記座標マップの組を生成するように構成された座標計算モジュールと、
を有する、態様1に記載のシステム。
〔態様3〕
前記フレーム統合モジュールは、前記座標生成モジュールによって生成された前記座標マップの組を使用することにより、前記受け取られた第1過去フレーム内に含まれている情報を前記第1現在フレームの前記座標系に伝播させるように構成されている、態様1又は2に記載のシステム。
〔態様4〕
前記フレーム統合モジュールは、
前記第1過去フレーム及び前記第1現在フレームのそれぞれのフレームに基づいて複数の特徴マップを生成するように構成されたエンコーダと、
前記第1過去フレーム及び前記第1現在フレームのそれぞれのフレームごとに、前記それぞれのフレームの複数のワーピングされた特徴マップを生成するべく、前記それぞれのフレームと関連する個々の座標マップを使用することにより、前記それぞれのフレームと関連する前記複数の特徴マップをワーピングさせるように構成されたワーピングモジュールと、
前記第1過去フレーム及び前記第1現在フレームのすべてにわたって、統合された特徴マップの組を生成するべく、前記生成されたワーピングされた特徴マップを統合するように構成されたアテンションに基づいた特徴統合モジュールと、
を有する、態様1から3のいずれか1態様に記載のシステム。
〔態様5〕
前記アテンションに基づいた特徴統合モジュールは、前記統合において、前記第1過去フレーム及び前記第1現在フレームのそれぞれのフレームごとに、前記第1現在フレームとの関係における前記フレームのタイミングに基づいて、前記フレームの領域固有の特徴を強調するように構成されている、態様4に記載のシステム。
〔態様6〕
前記アテンションに基づいた特徴統合モジュールは、前記第1過去フレーム及び前記第1現在フレームのそれぞれのフレームごとに、
前記それぞれのフレームと関連する前記ワーピングされた特徴マップのそれぞれごとに、個々のフレームの観点における空間的なアテンションマップを生成するように、且つ、
個々の特徴マップを生成するべく、前記それぞれのフレームと関連する前記ワーピングされた特徴マップのそれぞれを前記個々の空間的なアテンションマップによって乗算するように、
構成されている、態様4又は5に記載のシステム。
〔態様7〕
前記アテンションに基づいた特徴統合モジュールは、前記統合された特徴マップの組を生成するべく、前記第1過去フレーム及び前記第1現在フレームのすべてにわたって、前記生成された個々の特徴マップを合計するように更に構成されている、態様6に記載のシステム。
〔態様8〕
前記フレーム統合モジュールは、前記統合された特徴マップの組に基づいて前記第2現在フレームを生成するように構成されたUネットモジュールを更に有し、前記Uネットモジュールは、
前記統合された特徴マップの組を受け取るように、且つ、前記第1現在フレームの視野の外側に含まれる前記第2現在フレームの領域をアウトペインティングするように、構成されたコンテキスト正規化サブモジュールと、
前記コンテキスト正規化サブモジュールによって出力された特徴マップを受け取るように、且つ、前記第1現在フレームの視野内に含まれる遮蔽された又は観察されていない領域をインペインティングするべく前記コンテキスト正規化サブモジュールによって出力された前記特徴マップを処理するように、構成されたデコーダサブモジュールと、
前記デコーダサブモジュールによって出力された特徴マップを受け取るように、且つ、前記デコーダサブモジュールによって出力された前記特徴マップを空間的に統合するように、構成されたゲート付き自己アテンションサブモジュールと、
を有する、態様4から7のいずれか1態様に記載のシステム。
〔態様9〕
前記ゲート付き自己アテンションサブモジュールは、特徴ベクトルの空間的な場所に基づいて特徴ベクトル当たりに動的に生成された重みに基づいて前記デコーダサブモジュールによって出力された前記特徴マップを空間的に統合するように構成されている、態様8に記載のシステム。
〔態様10〕
前記第2現在フレームと関連する不確定性マップを生成するように構成された幻視化不確定性モジュールを有する、態様1から9のいずれか1態様に記載のシステム。
〔態様11〕
前記幻視化不確定性モジュールは、幻視化不確定性を組み込んだ損失関数を極小化するべく前記不確定性マップを生成するように構成されている、態様10に記載のシステム。
〔態様12〕
前記幻視化不確定性モジュールは、高い幻視化不確定性を有することになる前記第2現在フレームの領域及び低い幻視化不確定性を有することになるものの予測に基づいて前記不確定性マップを生成するように構成されている、態様10に記載のシステム。
〔態様13〕
深さネットワーク及び前記フレーム統合モジュールによって受け取られた前記第1過去フレームの一部分は、前記フレーム統合モジュールによって生成された前記第2視野を有する、且つ、前記第1過去フレームの部分に対応する、第2過去フレームによって置換されている、態様1から12のいずれか1態様に記載のシステム。
〔態様14〕
前記第2過去フレームは、それぞれ、前記第2過去フレームを前記フレーム統合モジュールに提供する前に、幻視化不確定性モジュールによって生成された個々の不確定性マップと連結されている、態様13に記載のシステム。
〔態様15〕
前記第2視野は、前記第1視野と等しいか又はこれを上回っている、態様1から14のいずれか1態様に記載のシステム。
図1
図2
図3
図4
図5
図6
図7A
図7B
図8