(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2022-01-20
(54)【発明の名称】オプティカルフロー推定のための方法
(51)【国際特許分類】
G06T 7/00 20170101AFI20220113BHJP
【FI】
G06T7/00 350C
【審査請求】有
【予備審査請求】未請求
(21)【出願番号】P 2021547880
(86)(22)【出願日】2018-10-31
(85)【翻訳文提出日】2021-04-22
(86)【国際出願番号】 EP2018079903
(87)【国際公開番号】W WO2020088766
(87)【国際公開日】2020-05-07
(81)【指定国・地域】
(71)【出願人】
【識別番号】511312997
【氏名又は名称】トヨタ モーター ヨーロッパ
(71)【出願人】
【識別番号】521175274
【氏名又は名称】チェコ テクニカル ユニバーシティ イン プラハ
(74)【代理人】
【識別番号】100099759
【氏名又は名称】青木 篤
(74)【代理人】
【識別番号】100123582
【氏名又は名称】三橋 真二
(74)【代理人】
【識別番号】100092624
【氏名又は名称】鶴田 準一
(74)【代理人】
【識別番号】100147555
【氏名又は名称】伊藤 公一
(74)【代理人】
【識別番号】100123593
【氏名又は名称】関根 宣夫
(74)【代理人】
【識別番号】100133835
【氏名又は名称】河野 努
(72)【発明者】
【氏名】ニコレイ フメリン
(72)【発明者】
【氏名】ミハル ネオーラル
(72)【発明者】
【氏名】ヤン ソフマン
(72)【発明者】
【氏名】イジー マタス
【テーマコード(参考)】
5L096
【Fターム(参考)】
5L096AA06
5L096BA04
5L096CA04
5L096EA33
5L096EA39
5L096FA34
5L096GA55
5L096HA04
5L096HA11
5L096KA04
(57)【要約】
1つ以上の画素のオプティカルフロー推定を決定するために、複数の画像フレームを処理するための方法が提供される。本方法は、ビデオシーケンスの複数の画像フレームを提供して、複数の画像フレームから各画像内の特徴を識別することと、オクルージョン推定器により、ビデオシーケンスの2つ以上の連続画像フレームにおける1つ以上のオクルージョンの存在を、少なくとも識別された特徴に基づいて推定することと、オクルージョン推定器により、1つ以上のオクルージョンマップを、1つ以上のオクルージョンの推定された存在に基づいて生成することと、1つ以上のオクルージョンマップを、オプティカルフローデコーダのオプティカルフロー推定器に提供することと、オプティカルフローデコーダにより、識別された特徴および1つ以上のオクルージョンマップに基づいて、複数の画像フレームにわたる1つ以上の画素に対する推定されたオプティカルフローを生成することと、を含んでいる。
【選択図】
図1
【特許請求の範囲】
【請求項1】
1つ以上の画素のオプティカルフロー推定を決定するために、複数の画像フレームを処理するための方法であって、
ビデオシーケンスの複数の画像フレームを提供して、前記複数の画像フレームから各画像内の特徴を識別することと、
オクルージョン推定器により、前記ビデオシーケンスの2つ以上の連続画像フレームにおける1つ以上のオクルージョンの存在を、少なくとも前記識別された特徴に基づいて推定することと、
前記オクルージョン推定器により、1つ以上のオクルージョンマップを、前記1つ以上のオクルージョンの前記推定された存在に基づいて生成することと、
前記1つ以上のオクルージョンマップを、オプティカルフローデコーダのオプティカルフロー推定器に提供することと、
前記オプティカルフローデコーダにより、前記識別された特徴および前記1つ以上のオクルージョンマップに基づいて、前記複数の画像フレームにわたる1つ以上の画素に対する推定されたオプティカルフローを生成することと、
を有している、方法。
【請求項2】
前記識別することは、
特徴抽出器により、前記2つ以上の連続画像フレームのそれぞれから1つ以上の特徴を抽出することにより、1つ以上の特徴ピラミッドを生成することと、
前記1つ以上の特徴ピラミッドのそれぞれの少なくとも1つのレベルを前記オプティカルフロー推定器に提供することと、
を有している、請求項1に記載の方法。
【請求項3】
1つ以上のオクルージョンの存在を推定することは、前記2つ以上の連続画像フレーム間の複数の変位にわたる前記識別された特徴の1つ以上に対する推定された相関コスト量を計算することを含んでいる、請求項1から2の何れか一項に記載の方法。
【請求項4】
前記オプティカルフローおよび前記1つ以上のオクルージョンマップを、精製されたオプティカルフローを生成するために精製ネットワークに提供することを有している、請求項1から3の何れか一項に記載の方法。
【請求項5】
前記オプティカルフローデコーダ、前記オクルージョン推定器、および前記精製ネットワークの少なくとも1つに、以前の時間ステップからの推定されたオプティカルフローを提供することを有しており、前記精製ネットワークは好ましくは、畳み込みニューラルネットワークを備えている、請求項4に記載の方法。
【請求項6】
前記オプティカルフローデコーダおよび前記オクルージョン推定器は、1つ以上の畳み込みニューラルネットワークを備えている、請求項1から5の何れか一項に記載の方法。
【請求項7】
前記オプティカルフローのフロー座標システムを、考慮されている画像フレームのフレーム座標システムに変換することを有しており、前記変換は、バイリニア補間を伴うワーピングを有している、請求項1から6の何れか一項に記載の方法。
【請求項8】
前記ワーピングは、前方ワーピングと後方ワーピングの少なくとも1つを有している、請求項7に記載の方法。
【請求項9】
前記特徴抽出器は、前記複数の画像フレームの第1および第2画像フレーム間の初期推定オプティカルフローで初期化され、前記初期オプティカルフローは、ワーピングの適用に先行して推定される、請求項2から8の何れか一項に記載の方法。
【請求項10】
前記1つ以上の畳み込みニューラルネットワークは、前記オプティカルフローデコーダおよびオクルージョン推定器上の重み付けられたマルチタスク損失によりエンドツーエンドでトレーニングされる、請求項6に記載の方法。
【請求項11】
前記トレーニングは、損失方程式に従って、すべてのスケールにおいて実行され、
【数1】
ここでα
Sは個々のスケール損失の重み、α
0はオクルージョン推定重み、合計はすべてのS空間解像度上で行われ、
【数2】
は最適化損失、および
【数3】
は、オクルージョン損失に対する画素毎のクロスエントロピ損失である、
請求項10に記載の方法。
【請求項12】
前記ビデオシーケンスは、車両、好ましくは、自律操作されるモータービークルにおける道路シーンから得られる画像フレームを備えている、請求項1から11の何れか一項に記載の方法。
【請求項13】
プロセッサに、請求項1から12の何れか一項に記載の方法を実行させるように構成されている命令を有している、非一時的コンピュータ可読媒体。
【請求項14】
前記非一時的コンピュータ可読媒体は、車両、好ましくは、自律操作されるモータービークルに搭載されている、請求項13に記載の非一時的コンピュータ可読媒体。
【請求項15】
請求項1から12の何れか一項に記載されている方法を実行するように構成されているプロセッサを備えているモータービークルであって、
前記プロセッサは、少なくとも部分的には前記オプティカルフローに基づいて車両制御システムを起動するように更に構成されている、モータービークル。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、画像処理のためのシステムおよび方法に関し、特に、ニューラルネットワークにより実現されるオプティカルフロー推定方法に関する。
【背景技術】
【0002】
オプティカルフローは、2つ以上の画像間のシーンの動きの予測を記述する二次元変位フィールドである。シーンの動きまたは他の要因により引き起こされるオクルージョン(occlusions)は、オプティカルフロー推定に関する問題の一因となり、つまり閉塞された(occluded)画素においては視覚的対応物が存在しない。
【0003】
オプティカルフロー推定は、重要なコンピュータビジョン問題であり、例えば、行動認識、自律運転、およびビデオ編集などの多数の適用例がある。
【0004】
畳み込みニューラルネットワーク(CNN)を使用していなかった、以前に行われた方法は、この問題に、周囲の閉塞されていない領域からのオプティカルフローを外挿入して推定する正則化を使用することにより対処していた。
【0005】
現在の最先端CNNに基づくアルゴリズムにおいては、正則化は単に暗黙的に示されるだけで、ネットワークは、識別された対応物にどの程度の信頼をおけるか、およびどの程度外挿して推定するかを学習する。
【0006】
オクルージョンを取り扱う以前のアプローチは、まず、初期前方および後方オプティカルフローをより直接的に推定し、オクルージョンは、前方/後方一貫性チェックを使用して識別される。そして、オクルージョンマップが、最終オプティカルフローの推定のために使用される。
【0007】
更に、幾つかの以前のソリューションによれば、中央のフレームが基準フレームである3つのフレームが、損失演算に対する座標システムを定義するために使用されていた。そして、将来フレームへの前方フローおよび過去フレームへの後方フローが計算され、これら2つのオプティカルフローの何らかの正則化を可能にするために適用される。
【0008】
Yangおよびその他による「PWC-Net:CNNs for Optical Flow Using Pyramid,Warping,and Cost Volume」,CVPR 2018(「PWC-Net:ピラミッド、ワーピング、およびコスト量を使用するオプティカルフローのためのCNN」、CVPR(コンピュータビジョンおよびパターン認識)2018)は、推定されたオプティカルフローの生成のためのCNNモデルを開示している。しかし、オクルージョンをどのように取り扱うかについての考察は検討されていない。
【0009】
Meisterおよびその他による「Unflow:Unsupervised Learning of Optical Flow With a Bidirectional Census Loss,」AAAI 2018(「Unflow:双方向センサス損失を伴うオプティカルフローの教師なし学習」AAAI(アメリカ人工知能学会)2018)は、オプティカルフロー推定におけるオクルージョンを取り扱うための双方向フロー推定の使用を開示している。
【発明の概要】
【0010】
本発明の発明者は、従来の方法においては、オクルージョンは、解析のまさに最初から初期オプティカルフロー推定に影響し、そのため、最終ソリューションは、オクルージョンによる初期影響を考慮しないことにより悪影響を受けると判断した。
【0011】
加えて、本発明の発明者は、以前に推定されたオプティカルフローを現在のオクルージョン/フロー解析にフィードバックすることにより、CNNは、以前の、および現在の時間ステップのオプティカルフローとの間の典型的な関係を学習でき、従って、ネットワークがこれらの関係を、オクルージョン/フロー推定を経る時間ステップにおいて使用することを可能にするということを認識した。
【0012】
更に、3つ以上のフレームにわたるオプティカルフロー推定は、画素を損失演算のために、基準座標システムにマップする必要が生じる結果となる。マッピングは、未知のオプティカルフロー自身により定義されるので、従って、フローを知る前に、時間的正則化を適用することは困難になる。しかし、フィードバックおよびフィードフォワード方法により、本開示に係るシステムを実現することにより、システムは、時間ステップフローの学習において支援され、フレーム間で座標システムをより正確に整列させることが可能になり、そのため、以前のフレームフローを、現在のフレームにおける正しい位置に伝播させることが可能になる。
【0013】
本開示の実施形態によれば、1つ以上の画素のオプティカルフロー推定を決定するために、複数の画像フレームを処理するための方法が提供される。方法は、ビデオシーケンスの複数の画像フレームを提供して、複数の画像フレームから各画像内の特徴を識別することと、オクルージョン推定器により、ビデオシーケンスの2つ以上の連続画像フレームにおける1つ以上のオクルージョンの存在を、少なくとも識別された特徴に基づいて推定することと、オクルージョン推定器により、1つ以上のオクルージョンマップを、1つ以上のオクルージョンの推定された存在に基づいて生成することと、1つ以上のオクルージョンマップを、オプティカルフローデコーダのオプティカルフロー推定器に提供することと、オプティカルフローデコーダにより、識別された特徴および1つ以上のオクルージョンマップに基づいて、複数の画像フレームにわたる1つ以上の画素に対する推定されたオプティカルフローを生成することを含んでいる。
【0014】
推定されたフローの生成に先行してオクルージョン推定を考慮することにより、リソース使用量の削減と共に、オクルージョンの存在およびオプティカルフローの両者の向上された精度を達成できる。加えて、以前に推定されたフローを、システムを通してフィードバックできるので、時間的範囲に制限はなく、反復により、すべての先行するフレームを、将来のオプティカルフロー推定に使用できる。
【0015】
識別することは、特徴抽出器により、2つ以上の連続画像フレームのそれぞれから1つ以上の特徴を抽出することにより、1つ以上の特徴ピラミッドを生成することと、1つ以上の特徴ピラミッドのそれぞれの少なくとも1つのレベルをオプティカルフロー推定器に提供することを含むことができる。
【0016】
1つ以上のオクルージョンの存在を推定することは、2つ以上の連続画像フレーム間の複数の変位にわたる識別された特徴の1つ以上に対する推定された相関コスト量を計算することを含むことができる。
【0017】
本方法は、オプティカルフローおよび1つ以上のオクルージョンマップを、精製されたオプティカルフローを生成するために精製ネットワークに提供することを含むことができる。
【0018】
本方法は、オプティカルフローデコーダ、オクルージョン推定器、および精製ネットワークの少なくとも1つに、以前の時間ステップからの推定されたオプティカルフローを提供することを含むことができ、精製ネットワークは好ましくは、畳み込みニューラルネットワークを備えている。
【0019】
オプティカルフローデコーダおよびオクルージョン推定器は、畳み込みニューラルネットワークを含むことができる。
【0020】
本方法は、オプティカルフローのフロー座標システムを、考慮されている画像フレームのフレーム座標システムに変換することを含むことができ、変換は、バイリニア補間を伴うワーピングを備えている。
【0021】
ワーピングは、前方ワーピングと後方ワーピングの少なくとも1つを含むことができる。
【0022】
特徴抽出器は、複数の画像フレームの第1および第2画像フレーム間の初期推定オプティカルフローで初期化でき、初期オプティカルフローは、任意のワーピングの適用に先行して推定される。
【0023】
1つ以上の畳み込みニューラルネットワークは、オプティカルフローデコーダおよびオクルージョン推定器上の重み付けられたマルチタスク損失によりエンドツーエンド(端末同士)でトレーニングできる。
【0024】
トレーニングは、損失方程式に従って、すべてのスケールにおいて実行でき、
【0025】
【数1】
ここでα
Sは個々のスケール損失の重み、α
0はオクルージョン推定重み、合計はすべてのS空間解像度上で行われ、
【数2】
は最適化損失、および
【数3】
は、オクルージョン損失に対する画素毎のクロスエントロピ損失である。
【0026】
ビデオシーケンスは、車両、好ましくは、自律操作されるモータービークル(motor vehicle)における道路シーンから得られる画像フレームを含むことができる。
【0027】
本開示の更なる実施形態によれば、非一時的コンピュータ可読媒体は、プロセッサに上記の方法を実行させるように構成されている命令を備えている。
【0028】
非一時的コンピュータ可読媒体は、車両、好ましくは、自律操作されるモータービークルに搭載できる。非一時的コンピュータ可読媒体は、磁気格納装置、光格納装置、電子格納装置などを備えることができる。
【0029】
本開示の更なる実施形態は、上記の方法を実行するように構成されているプロセッサを備えているモータービークルを含んでおり、プロセッサは、少なくとも部分的にはオプティカルフローに基づいて車両制御システムを起動するように更に構成できる。
【0030】
上記の要素と、明細書内の要素は、矛盾する場合を除き組み合わせることができるということが意図されている。
【0031】
前述した一般的な記述と、下記の詳細な記述の両者は例および説明のためのものに過ぎず、主張されるような開示を制限するものではないということは理解されるべきである。
【0032】
本明細書に組み込まれ、その一部を構成する付随する図面は、記述と共に開示の実施形態を例示し、その理念を説明する役割を果たす。
【図面の簡単な説明】
【0033】
【
図1】オプティカルフローの解析に先行してオクルージョンを考慮するように構成されているオプティカルフロー推定システムの例としての論理図である。
【
図2】オプティカルフロー推定およびオクルージョン精製のための、例としての時間に基づくフローを示している。
【
図3】本開示の実施形態に係る、例としての方法を示しているフローチャートを示している。
【発明を実施するための形態】
【0034】
ここで、その例が付随する図面に示されている、開示の例としての実施形態にここで詳細に言及する。可能な場合は必ず、同じまたは類似する構成要素に言及するために、図面を通して、同じ参照番号を使用する。
【0035】
本開示は、複数の画像フレームにわたる1つ以上の画素および/または特徴のオプティカルフローを正確に推定するために、画像データを処理する方法に関する。
【0036】
従って、入力データは、例えば、エゴ車両を取り囲む道路シーンからの複数の画像を備えることができ、入力データを、ある時間期間にわたって備えることができる。入力データは、例えば、ここにおいては「ネットワーク」とも称される畳み込みニューラルネットワーク(CNN)のようなニューラルネットワークの入力ノードに提供するための任意の適切な形式であることができる。例えば、画像データ入力は、jpeg形式、gif形式などであってよい。
【0037】
特に注目される画像データは、制限されることはないが、例えば、停止している、または移動している車両の前方において取り込まれるような道路シーンから得られる画像データであってよい。
【0038】
そのような画像データは、例えばエゴ車両の動作中に、車両またはその運転手に関連する対象物の、例えば認識および追尾のために使用できる。注目対象物は、例えば、道路および関連する標識、歩行者、車両、障害物、交通信号灯などのような任意の適切な対象物であってよい。
【0039】
特に、本発明は、ビデオシーケンスの複数のフレームにわたる1つ以上の対象物またはその画素のオプティカルフローを推定するための方法を提供する。
【0040】
図1は、オプティカルフローの解析に先行してオクルージョンを考慮するように構成されているオプティカルフロー推定システムの例としての論理図である。
【0041】
本開示のオプティカルフロー推定システムの構成要素は、特には、機械学習可能特徴ピラミッド抽出器100、1つ以上のオクルージョン推定器110、およびオプティカルフローデコーダ2を含むことができる。例えば、精製ネットワーク(
図2に示されている)もまた提供できる。
【0042】
学習可能特徴ピラミッド抽出器100は、1つ以上の入力画像Iが与えられると、特徴ピラミッドを生成するように構成されている畳み込みニューラルネットワークを備えている。例えば、2つの入力画像I
tとI
t+1が与えられると、特徴図(feature representations)のLレベルピラミッドを生成でき、底(ゼロ番目)レベルは入力画像、つまり
【数4】
である。l番目の層、つまり、
【数5】
における特徴図を生成するために、畳み込みフィルタの層を、例えば係数2で、(l-1)番目のピラミッドレベル、つまり、
【数6】
における特徴をダウンサンプリングするために使用できる。
【0043】
本開示の実施形態によれば、各特徴ピラミッド抽出器100は、少なくとも3つのレベル(101a、101b、101c)、例えば、6つのレベル(更なる3つのレベルは、明確性の目的のために図には示されていない)を備えることができる。そのため、特徴ピラミッド抽出器100の第1レベルから第6レベルで、特徴チャネルの数は、例えば、それぞれ16、32、64、96、128、および196であることができる。
【0044】
特徴ピラミッド抽出器100の少なくとも1つのレベルの出力は、オクルージョン推定器110に供給され、同時に、オプティカルフローデコーダ2の構成要素、例えば、相関コスト量推定器105、ワーピングモジュール120、および第1オプティカルフロー推定モジュール115aの少なくとも1つに供給される。
【0045】
オプティカルフローデコーダ2は、特には、1つ以上のオプティカルフロー推定器115、1つ以上の前方および/または後方ワーピングモジュール120、1つ以上のコスト量推定器105、および1つ以上のアップサンプラー112を含むことができる。当業者は、これらの構成要素のそれぞれは、単一ニューラルネットワーク(例えば、畳み込みニューラルネットワーク)内で実現できるということ、または、トレーニングおよび処理の間に、他の構成ニューラルネットワークからの出力から入力を受信するそれ自身の個々のニューラルネットワーク内で実現できるということを理解するであろう。
【0046】
オプティカルフローデコーダ2の論理構成は、D.Sunその他による、「PWC-Net:CNN for Optical Flow Using Pyramid、Warping、and Cost Volume(PWC-Net:ピラミッド、ワーピング、およびコスト量を使用するオプティカルフローのためのCNN)」arXiv:1709.02371v3、25 June 2018(2018年6月25日)に記述されているPWC-NETのオプティカルフローデコーダに追従している。特に、この文献の第3節で、「Approach(アプローチ)」というタイトルの3ページ目の第2コラムから開始して、5ページ目の第1コラムまでにおいては、有用なオプティカルデコーダの1つの例としての実現形態を提供しており、この節は、ここにおいて、本明細書に参考文献として組み込まれる。
【0047】
ワーピングモジュール120は、特徴ピラミッド抽出器100の1つ以上の層からの出力を入力として受信するように構成されて提供できる。例えば、ワーピングは、
図1において示されているように、特徴ピラミッド100のl番目のレベルにおける出力に適用できる。第1画像に向けての第2画像I
t+1のワーピング特徴は、下記の
【数7】
に従って(l+1)番目のレベルからの、倍率2でアップサンプリングされたフローを使用し、ここにおいて、xは画素インデックスであり、アップサンプリングされたフローup
2(w
l+1)は、トップレベルにおいてはゼロに設定される。
【0048】
バイリニア補間を、ワーピング動作を実現し、入力CNN特徴の勾配および誤差逆伝播法のためのフローを算出するために使用できる。
【0049】
非平行移動の動きに対しては、ワーピングを、幾何学的歪みを補償し、画像パッチを所望されるスケールにするために実現できる。
【0050】
追加的なワーピングモジュール120を、例えば、下記により詳細に検討されるように、画像フレームItとIt+1間の座標システムの平行移動のために、オプティカルフローデコーダ2の外部に提供できる。そのようなワーピングモジュール120は、座標平行移動の性能を促進するために、オプティカルフローデコーダ2および精製ネットワーク250の1つ以上からの入力を受信できる。
【0051】
相関コスト推定器105は、2つ以上の連続画像フレームItとIt+1との間の複数の変位における、特徴ピラミッド抽出器100により識別された1つ以上の特徴に対する相関コスト量を推定するように構成できる。相関コスト量は、時刻tの第1フレームItにおける画素を、画像シーケンスの後続フレームIt+1における、それに対応する画素と関連付けるための計算/エネルギーコストに基づく値である。
【0052】
コスト量の計算および処理は、この技術においては一般的に知られている。例えば、入力を、両者ともRH×W×Cからの2つのテンソルT1およびT2とし、D={-dmax、...、0、...、dmax}およびdをD×Dからとする。そうすると、相関コスト量の出力は、RH×W×|D||D|からのテンソルYであり、Y=CV(x、d)=F(T1、x)TF(T2、x+d)であり、ここで、Fは、入力テンソルからチャネル次元に沿ってスライスを返し、xは{1、...、H}×{1、...、W}からである。
【0053】
本開示においては、多数の特徴ピラミッドレベル(例えば、レベル1~6)における部分的コスト量が、相関コスト量が、特徴ピラミッド100に全体にわたって識別された特徴に対して推定できるように実現される。
【0054】
オクルージョン推定器110は、特徴抽出器100からの識別された特徴および相関コスト推定モジュール105により決定された相関コスト量に基づいて、オクルージョンの存在を推定するように構成されている。本発明の発明者は、精査されたすべての変位上で、コスト量における特別な位置に対するコスト量が高いときは、画素は次のフレームで閉塞され易いと判断した。従って、第1オクルージョン推定器の出力(つまり、プリフロー推定オクルージョンマップ)を、プリフロー推定オクルージョンマップを生成するために使用されるコスト量データと共に、オプティカルフロー推定器に供給でき、それは、より精度良く推定されたオプティカルフローという結果になる。
【0055】
精度の向上を、少なくとも部分的には、オクルージョン推定は生成に先行してオクルージョンを考慮しなかった不正確なフロー推定に依存しないという事実により導出することができ、それにより、オプティカルフロー推定器が、追加的入力から恩恵を受けることを可能にする。
【0056】
オプティカルフロー推定器115とオクルージョン推定器110の両者は、より高い解像度の推定器が、より低い解像度の推定器からのアップサンプリングされたフロー推定を受信する疎から密への方法で動作できる。
【0057】
オクルージョン推定器110は、例えば、D、D/2、D/4、D/8の5つの畳み込み層と、2つの出力チャネル(閉塞されている/閉塞されていないマップ)を実現でき、ここにおいて、Dは相関コスト量層の数に対応している。加えて、各層はReLU(正規化線形ユニット)活性化関数を使用でき、または代替的に、ある層、例えば、最終層は、ソフトマックス活性化関数を実現できる。
【0058】
図2は、オプティカルフロー推定およびオクルージョン精製のための例としての時間に基づくフローを示しており、
図3は、本開示の実施形態に係る、例としての方法を示しているフローチャートを示している。
【0059】
複数の画像を、例えば、ビデオストリームの一部として受信できる(ステップ305)。
【0060】
そして特徴ピラミッド100は、その中の特徴を識別して、画像と関連付けられている特徴マップを生成するために画像を処理できる(ステップ310)。特徴ピラミッド100のあるレベルにおける特徴は、例えば、オプティカルフロー推定器115b、相関コスト推定器105b、ワーピングモジュール120などにフィードフォワードできる。例えば、
図1に示されているように、特徴ピラミッド抽出器100における特徴は、各レベルで、空間的に2倍でダウンサンプリングされ、チャネルは各レベルで増加する。そして、相関コスト推定器105aおよびフロー推定器115aとのリンクは、疎から密への方式に沿って進行する。つまり、最低の空間解像度を有する特徴から開始して、フロー推定器115aは、同じ特徴を使用して相関コスト推定器105aにより構築されたコスト量の値を使用して、その解像度におけるオプティカルフローを推定する。
【0061】
そしてフローはアップサンプリングされて(例えば、2倍で)、より高い解像度を有する特徴と合成される。これは、最終解像度に到達するまで繰り返される。
【0062】
更に詳細には、画像Itと第2画像It+1に対する特徴マップの初期セットが特徴ピラミッド100により作成されると、特徴マップを、ItとIt+1との間の、特徴マップに基づくコスト量推定のためにコスト量推定器105aに提供できる。そして、画像間のコスト量推定は、オクルージョン推定器110aが、t-1からのオプティカルフローと共に、コスト量に基づいて、画像フレームにおける1つ以上のオクルージョンの存在を推定し、オプティカルフロー推定器115aが、現在の解像度における特徴ピラミッド100からの特徴に基づいて、オプティカルフローを推定することを可能にするために、オクルージョン推定器110aと第1オプティカルフロー推定器115aに並列して提供できる(ステップ315)。
【0063】
フローが、シーケンスの第1と第2画像フレームとの間で解析されているときは、t-1からのオプティカルフローは利用できない。従って、t-1のシミュレーションを行う初期化オプティカルフローを提供するために、オクルージョン推定器110aと共に、特徴抽出器100は、複数の画像フレームの第1と第2画像フレームとの間の初期推定されたオプティカルフローで初期化でき、初期オプティカルフローは、ワーピングモジュール120における如何なるワーピングの適用に先行して推定される。言い換えると、オプティカルフローデコーダ2を通しての第1パスは、画像シーケンスの第1および第2画像フレームで実行でき、オプティカルフローは、好ましくは、ワーピングモジュール120の適用なしで推定される。そして、この初期化オプティカルフローは、システムの構成要素にt-1オプティカルフローとして提供できる。
【0064】
画像ItからIt+1のオクルージョンがオクルージョン推定器110により推定されると、推定されたオクルージョンに対するオクルージョンマップ5aを作成でき(ステップ320)これらのマップ5aは、オプティカルフロー推定器115a、アップサンプラー112bなどにフィードフォワードされる。
【0065】
そして、オプティカルフロー推定器115aは、オクルージョンマップ5a、特徴抽出器100からの特徴、コスト量推定器105aからのコスト量情報、および、時間ステップt-1からのワープされた以前のオプティカルフローに基づいて初期オプティカルフロー推定1aを作成できる。
【0066】
そして、初期オプティカルフロー推定は、例えば、アップサンプラー112aにより2倍のアップサンプリング率でアップサンプリングできる。上記のように、フローは、最初は対応する解像度の特徴を使用して最も疎のスケールで推定される。より高い解像度を得るために、フローはアップサンプリングされ、より高い解像度のフローを推定するために、コスト量と共に使用され、最終解像度まで繰り返される。そして、最終解像度でのこの出力は、第2コスト量推定器105b、オクルージョン推定器110bなどと共に、ワーピングモジュール120に提供でき、上記のように処理される。
【0067】
オクルージョンマップ5aは、アップサンプラー112bに供給でき、例えば2倍でアップサンプリングされ、結果のデータは、第2オクルージョン推定器110bに送られる。オクルージョン推定器110bにおいては、アップサンプリングされた初期オプティカルフロー推定1a、コスト量推定器105bからのコスト量、および時間t-1からのワープされたオプティカルフロー推定は、最終オクルージョンマップ5aを作成するために使用される。
【0068】
平行して、アップサンプリング、ワーピング、および第2コスト量計算に続いて、初期オプティカルフロー推定1aを、オプティカルフロー推定器115bに提供でき、オプティカルフロー推定器115bは、特には、最終オクルージョンマップ5b、特徴ピラミッド100からの特徴、および時間t-1からのオプティカルフローを使用して、画像ItとIt+1との間の最終オプティカルフロー推定1bを生成する(ステップ330)。
【0069】
図2において示され、上記に記したように、オプティカルフローとオクルージョン推定は、精度を更に向上するために、精製ネットワーク250により繰り返し精製できる。そのような精製ネットワークの1つの例は、Ilgおよび他の者による「FlowNet2.0:Evolution of Optical Flow Estimationwith Deep Networks(ディープネットワークによるオプティカルフロー推定の展開)」、2016年12月6日、の4.1節に記述されており、この節の内容は、ここにおいて参考文献として組み入れられる。
【0070】
本開示の実施形態によれば、精製ネットワーク250(
図2参照)は、FLowNet2および/またはPWC-Netのオプティカルフローデコーダと類似のアーキテクチャを有することができる。例えば、PWC-Netにより記述される精製ネットワーク(つまり、4ページにおいて記述されたContext Network)を基にして、DenseNet接続を除去できる。そして、入力画像および関連付けられているワープを使用する代わりに、対応するスケールの特徴ピラミッド100からの特徴および関連付けられているワープを代りに使用でき、そのため、より豊かな入力表現を提供する。そして、これらの特徴の入力エラーチャネルは、L
1損失と構造類似性(SSIM)の合計として計算できる。
【0071】
本開示によれば、本発明の発明者は、向上された結果は、2つの精製アプリケーションを使用して得ることができ、更なるアプリケーションにより、減少するゲインが得られると判断した。
【0072】
上記のように、PWC-NETは、本開示のオプティカルデコーダ2の基盤を形成するが、開示は、オプティカルデコーダ2への追加的な時間的接続の記述を提供し、これらの時間的接続220は、オプティカルフローデコーダ2、オクルージョンデコーダ2、および精製ネットワーク25に追加的入力、つまり、以前の時間ステップからの推定フローを提供する。例えば、
図1および
図2の矢印220を参照のこと。
【0073】
2画面フレームよりも長いビデオシーケンスを処理するとき、これらの接続は、ネットワークが、以前の時間ステップフローと現在の時間ステップフローとの間の典型的な関係を学習し、それを、現在のフレームフロー推定に使用することを可能にする。評価の間、接続はまた、より長いシーケンス上でのフローの連続推定も可能にし、増大するシーケンス長でのフローを向上する。
【0074】
しかし、2つのオプティカルフローが表現される座標システムは異なり、以前のフローを、現在の時間ステップにおける正しい画素に適用するためには、互いに対応するように変換する必要がある。そのため、前方および/または後方ワーピングを、この変換を実行するために実現できる。
【0075】
前方ワーピングは、座標システムを、オプティカルフローF
t-1自身(画像I
t-1とI
tとの間の前方フロー)を使用して、時間ステップt-1から変換するために使用できる。ワープされたフロー
【数8】
は、すべての画像位置xに対して、
【数9】
として計算され、フローF
t-1が2度以上マップする位置を処理する。そのような場合は、我々は、マップされたフローをより多く保存する。このようにして、我々は、より大きな動きを、そのため、より速く動く対象物を優先する。実験では、このワーピングの有用性が示されるが、このアプローチの主な不利な点は、変換が微分可能でないということである。そのため、トレーニングはこのステップを通して勾配を伝播できず、共有された重みのみに依存する。
【0076】
代替的に、座標システムは、フレームtからフレームt-1への後方フローBtを使用して変換できる。これは、ネットワークの余分な評価を要求する可能性があるが、そのときは、ワーピングは、微分可能空間変換器の直接の適用となる。言い換えると、ワーピングステップは、微分可能空間変換により実現でき、そのため、エンドツーエンドでトレーニングできる。
【0077】
従って、勾配を、トレーニングの間に、時間的接続を通して伝播できる。
【0078】
当業者は、記述されているネットワークのエンドツーエンドのトレーニングは、多数の方法で実現できるということを認識するであろう。例えば、簡単なデータセット(例えば、簡単な対象物、動きの少ない動作など)であって、FlyingChairsおよびFlyingThingsデータセットはその一部であり、容易にダウンロードして利用できるデータセットから開始して、他のデータセットを、トレーニングに導入できる。そのようなデータセットは、「カリキュラム学習」アプローチを使用するために、Driving、KITTI’15、VirtualKITTI、Sintel、HD1Kを含むことができる。
【0079】
幾つかのデータセットは、要求された形式のサブセットのみしか含むことができないので、損失は、形式がないときはゼロに設定できる(つまり、「トレーニングなし」)
【0080】
まず、PWC-Net(上述されたような)に対応するネットワークの部分を、最も簡単なデータセットを使用してトレーニングし、簡単なトレーニングに続いて追加的なモジュール(つまり、オクルージョン推定器110a、110b、アップサンプラー112b)を追加することにより、向上された結果を更に得ることができる。これは、ネットワークの部分を事前トレーニングし、極小値を回避することにより、最適化の向上した率という結果とすることができる。
【0081】
本発明はまた、演算装置上で実行されると、本発明に係る方法の何れの機能をも提供するコンピュータプログラム製品も含むことができる。そのようなコンピュータプログラム製品は、プログラマブルプロセッサによる実行のためのマシン読取り可能コードを搬送する搬送媒体に実体的に含めることができる。そのため、本発明は、演算手段上で実行されると、上述したような方法の何れをも実行するための命令を提供する、コンピュータプログラム製品を搬送する搬送媒体に関する。
【0082】
「搬送媒体」という用語は、実行のためにプロセッサに命令を提供することに参与する任意の媒体のことである。そのような媒体は、下記に制限されないが、不揮発性媒体および伝送媒体を含む、多数の形状を取ることができる。不揮発性媒体は、例えば、大容量格納装置の一部である格納装置のような、光または磁気ディスクを含んでいる。コンピュータ可読媒体の共通の形状は、CD-ROM、DVD、フレキシブルディスクまたはフロッピー(登録商標)ディスク、テープ、メモリチップまたはカートリッジ、または、コンピュータが読み取ることが可能な任意の他の媒体を含んでいる。コンピュータ可読媒体の種々の形状を、実行のためにプロセッサへの1つ以上の命令の1つ以上のシーケンスを搬送することに関与させることができる。
【0083】
コンピュータプログラム製品はまた、LAN、WAN、またはインターネットなどのネットワークにおける搬送波を介して伝送できる。伝送媒体は、無線波および赤外線データ通信の間に生成されるような、音響または光波の形状を取ることができる。伝送媒体は、コンピュータ内でバスを備えているワイヤを含む、同軸ケーブル、銅ワイヤ、および光ファイバーを含んでいる。
【0084】
ネットワークの出力に基づいて、時間tにおける画像と、時間t+1における画像との間の各画素に対するオプティカルフロー推定を生成できる。
【0085】
加えて、媒体は車両、例えば、自律的に自動化された車両においてインストールでき、方法は、車両の1つ以上のECU内において動作するように構成できる。向上されたオプティカルフローデータは、車両の動作中に、道路シーンにおける種々の対象物および要素の追尾に使用できる。加えて、前記動きの動きと追尾に基づいて、車両のECUに、自律動作モードにおける決定を可能にする情報を提供できる。
【0086】
請求項を含む記述を通して、「1つの~を備えている」という用語は、別途そうでないと記述されない限り、「少なくとも1つの~を備えている」と同義であるとして理解されるべきである。加えて、請求項を含む記述において記載されている如何なる範囲も、別途そうでないと記述されない限り、その両端の値も含むものとして理解されるべきである。記述された要素に対する特定の値は、この技術における当業者には知られている、容認される製造または産業上の許容値内であると理解されるべきであり、「実質的に」および/または「近似的に」および/または「一般的に」という用語の如何なる使用も、そのような容認されている許容値内であることを意味すると理解されるべきである。
【0087】
ここにおける本開示は、特別な実施形態を参照して記述されてきたが、これらの実施形態は、本開示の理念および適用の例に過ぎないということは理解されるべきである。
【0088】
明細書および例は、例示の目的のみのためであると考えられるべきであることが意図されており、開示の真の範囲は、下記の請求項により示される。
【国際調査報告】