(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2024-11-13
(54)【発明の名称】人工ニューラルネットワークの文脈における画像データを融合する方法
(51)【国際特許分類】
G06T 7/00 20170101AFI20241106BHJP
G06V 10/42 20220101ALI20241106BHJP
【FI】
G06T7/00 250
G06T7/00 350C
G06V10/42
【審査請求】有
【予備審査請求】未請求
(21)【出願番号】P 2024526834
(86)(22)【出願日】2022-11-10
(85)【翻訳文提出日】2024-05-07
(86)【国際出願番号】 DE2022200262
(87)【国際公開番号】W WO2023098956
(87)【国際公開日】2023-06-08
(31)【優先権主張番号】102021213757.1
(32)【優先日】2021-12-03
(33)【優先権主張国・地域又は機関】DE
(81)【指定国・地域】
(71)【出願人】
【識別番号】322007626
【氏名又は名称】コンチネンタル・オートナマス・モビリティ・ジャーマニー・ゲゼルシャフト・ミト・ベシュレンクテル・ハフツング
(74)【代理人】
【識別番号】100069556
【氏名又は名称】江崎 光史
(74)【代理人】
【識別番号】100111486
【氏名又は名称】鍛冶澤 實
(74)【代理人】
【識別番号】100191835
【氏名又は名称】中村 真介
(74)【代理人】
【識別番号】100221981
【氏名又は名称】石田 大成
(74)【代理人】
【識別番号】100191938
【氏名又は名称】高原 昭典
(72)【発明者】
【氏名】ブント・トビアス
(72)【発明者】
【氏名】ロメチュ・マリオ
(72)【発明者】
【氏名】ティール・ローベルト
【テーマコード(参考)】
5L096
【Fターム(参考)】
5L096CA05
5L096DA01
5L096EA03
5L096EA39
5L096FA77
5L096HA11
5L096KA04
(57)【要約】
本発明は、少なくとも1つの画像キャプチャセンサ(1)の画像データを融合する方法およびシステム(10)に関する。
本方法は、
a)入力画像データを受信するステップであって、入力画像データは、シーンの第1領域(101,601)を含む第1画像(401,701)およびシーンの第2領域(102,602)を含む第2画像(502,702)を含み、第1および第2領域は、互いに重複するが同一ではない、ステップ(S1)と;
b)第1画像(401,701)に基づいて第1高さおよび幅を有する第1特徴マップ(1301)を決定するステップ(S2)、および、第2画像(502,702)に基づいて第2高さおよび幅を有する第2特徴マップ(1302)を決定するステップ(S3)と;
c)第1特徴マップ(1301)の第1畳み込みを用いて第1出力特徴マップ(1321)を演算するステップ(S4)、および、第2特徴マップ(1302)の第2畳み込みを用いて第2出力特徴マップ(1322)を演算するステップ(S5)と;
d)第1および第2出力特徴マップ(1321,1322)を要素ごとに加算することによる融合特徴マップ(1330)を演算するステップであって、重複領域の要素が加算されるように、第1および第2領域の位置が互いに考慮される、ステップ(S7)と;
e)融合特徴マップ(1330)を出力するステップ(S8)とを備える。
本方法は、ランタイム効率が非常に高く、車両のADAS/ADシステムのために1つまたは複数の画像キャプチャセンサ(1)の画像データを融合するために用いることができる。
【特許請求の範囲】
【請求項1】
少なくとも1つの画像キャプチャセンサ(1)の画像データを融合する方法において:
a)入力画像データを受信するステップであって、前記入力画像データは、
-シーンの第1領域(101,601)を含む第1画像(401,701)および
-前記シーンの第2領域(102,602)を含む第2画像(502,702)を含み、前記第1および前記第2領域は、互いに重複するが同一ではない、ステップ(S1)と;
b)前記第1画像(401,701)に基づいて第1高さおよび幅を有する第1特徴マップ(1301)を決定するステップ(S2)、および、前記第2画像(502,702)に基づいて第2高さおよび幅を有する第2特徴マップ(1302)を決定するステップ(S3)と;
c)前記第1特徴マップ(1301)の第1畳み込みを用いて第1出力特徴マップ(1321)を演算するステップ(S4)、および、前記第2特徴マップ(1302)の第2畳み込みを用いて第2出力特徴マップ(1322)を演算するステップ(S5)と;
d)前記第1および前記第2出力特徴マップ(1321,1322)を要素ごとに加算することによる融合特徴マップ(1330)を演算するステップであって、重複領域の要素が加算されるように、前記第1および前記第2領域の位置が互いに考慮される、ステップ(S7)と;
e)前記融合特徴マップ(1330)を出力するステップ(S8)とを備える、方法。
【請求項2】
前記第1および前記第2画像が、同じ画像キャプチャセンサによりキャプチャされたものである、請求項1に記載の方法。
【請求項3】
前記第1画像(401,701)および前記第2画像(502,702)が、前記画像キャプチャセンサの画像ピラミッドの異なるレベルに対応する、請求項1または2に記載の方法。
【請求項4】
前記第1領域(101,601)が前記シーンの概要領域であり、前記第2領域(502,702)が前記シーンの前記概要領域の部分領域である、請求項1~3の何れか1項に記載の方法。
【請求項5】
前記第1画像が第1解像度を有し、前記第2画像が第2解像度を有し、前記第2解像度が前記第1解像度よりも高い、請求項1~4の何れか1項に記載の方法。
【請求項6】
画像キャプチャセンサとして、重複するキャプチャ領域を有する2つの単眼カメラが用いられる、請求項1、4または5の何れか1項に記載の方法。
【請求項7】
画像キャプチャセンサとして、全方位カメラシステムの複数のカメラが用いられる、請求項1、4または5の何れか1項に記載の方法。
【請求項8】
前記第1および前記第2出力特徴マップ(1321,1322)が、重複領域において同じ高さおよび幅を有する、請求項1~7の何れか1項に記載の方法。
【請求項9】
前記融合特徴マップ(1330)の高さおよび幅が、前記第1および前記第2出力特徴マップ(1321,1322)を囲繞する矩形により決定される、請求項1~8の何れか1項に記載の方法。
【請求項10】
前記特徴マップ(1301,1302,1321,1322)が、各々、前記画像(401;502;701;702)の解像度に依存する深度を有する、請求項1~9の何れか1項に記載の方法。
【請求項11】
前記融合特徴マップが、ADAS/AD関連情報を決定するように構成されている人工ニューラルネットワークのエンコーダにおいて生成される、請求項1~10の何れか1項に記載の方法。
【請求項12】
ADAS/AD関連情報を決定するように構成されている前記人工ニューラルネットワークが、様々なADAS/AD検出機能用の複数のデコーダを備える、請求項11に記載の方法。
【請求項13】
入力インタフェース(12)とデータ処理ユニット(14)と出力インタフェース(18)とを備える、少なくとも1つの画像キャプチャセンサの画像データを融合するシステム(10)において:
a)前記入力インタフェース(12)が、入力画像データを受信するように構成されており、前記入力画像データは、
-シーンの第1領域(101,601)を含む第1画像(401,701)および
-前記シーンの第2領域(102,602)を含む第2画像(502,702)を含み、前記第1および前記第2領域は、互いに重複するが同一ではなく;
前記データ処理ユニット(14)が、
b)前記第1画像(401,701)に基づいて第1高さおよび幅を有する第1特徴マップ(1301)を決定し、前記第2画像(502,702)に基づいて第2高さおよび幅を有する第2特徴マップ(1302)を決定するように構成されており;
c)前記第1特徴マップ(1301)の第1畳み込みを用いて第1出力特徴マップ(1321)を演算し、前記第2特徴マップ(1302)の第2畳み込みを用いて第2出力特徴マップ(1322)を演算するように構成されており;
d)前記第1および前記第2出力特徴マップ(1321,1322)を要素ごとに加算することによる融合特徴マップを演算するように構成されており、重複領域の要素が加算されるように、前記第1および前記第2領域の位置が互いに考慮され;
e)前記出力インタフェース(18)が、前記融合特徴マップ(1330)を出力するように構成されている、システム(10)。
【請求項14】
前記システム(10)が、エンコーダと少なくとも1つのデコーダとを有する畳み込みニューラルネットワークを備え、前記入力インタフェース(12)、前記データ処理ユニット(14)および前記出力インタフェース(18)は、前記エンコーダが前記融合特徴マップを生成するように構成されているように、前記エンコーダにおいて実装されており、前記少なくとも1つのデコーダが、ADAS/AD検出機能を少なくとも前記融合特徴マップに基づいて実装するように構成されている、請求項13に記載のシステム。
【請求項15】
少なくとも1つの画像キャプチャセンサ(1)と請求項13または14に記載のシステムとを備える車両。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、人工ニューラルネットワークの文脈における、例えば、車両用の周辺環境に基づくADAS/ADシステムにおいて、画像データを融合する方法およびシステムに関する。
【背景技術】
【0002】
ADAS/ADシステム用の撮像周辺環境センサ(特に、カメラセンサ)において、解像度は絶え間なく向上している。これにより、小さい物体を検出すること、サブオブジェクトを検出すること、そして、例えば、遠く離れている小さい文字を読むことが可能になる。高解像度の不利な点は、これに対応する大きい画像データを処理するために必要とされる著しく高い計算能力にある。従って、多くの場合、処理のために画像データの様々な解像度レベルが用いられる。大きい範囲または高い解像度は、例えば、多くの場合、画像中央において必要とされる一方、周辺の領域においては必要とされない(例えば、人間の眼と同様である)。
【0003】
特許文献1は、ピクセル画像を撮影する画像センサ装置と、ピクセル画像の隣接しているピクセルを適合されたピクセル画像においてまとめるように構成されている処理装置とを備える、車両用の周辺環境を撮像するカメラ装置を記載している。隣接するピクセルのピクセル値を2x2画像ピラミッドまたはnxn画像ピラミッドの形式でまとめることにより、様々な適合されたピクセル画像を様々な解像度で生成することができる。
【0004】
特許文献2および特許文献3は、可変解像度を有する画像を撮影する運転支援システムを記載している。
【0005】
特許文献4は、広角光学素子と高分解能の画像撮影センサとを備える、車両の周辺領域をキャプチャするカメラ装置を記載している。画像シーケンスの画像に関して、ピクセルビニングを用いて解像度が低減されたキャプチャ領域全体画像、または最大解像度を有するキャプチャ領域の部分領域をキャプチャすることができる。
【0006】
人工ニューラルネットワークを用いる技術は、ますます多くの場合において、周辺環境センサに基づくADAS/ADシステムに用いられており、これにより、道路ユーザとシーンをより良好に認識し、分類し、少なくとも部分的に理解することができる。その際、深層ニューラルネットワーク、例えば、CNN(Convolutional neural network、ドイツ語では、例えば、「畳み込みに基づくニューラルネットワーク」または「畳み込みネットワーク」)は、従来の手法と比較して明らかに有利な点を有している。従来の手法は、訓練された分類器、例えば、サポートベクタマシンまたはAdaBoostにより、どちらかと言えば人の手で設計された特徴量(勾配方向ヒストグラム(Histogram of oriented Gradients(HOG))、局所バイナリパターン(Local Binary Patterns(LBP))、ガボールフィルタ等)を用いている。(多層)CNNの場合、特徴量抽出は、アルゴリズムを用いて機械(深層)学習により行われ、これにより、特徴量空間の次元および深度が大きく高められ、最終的には大幅に改善されたパフォーマンスが、例えば、高い検出率として得られる。
【0007】
困難な課題となるのは、特に、様々なそして重複してもいるキャプチャ領域と様々な解像度とを有するセンサデータを統合する際の処理である。
【0008】
特許文献5は、物体検出器のパラメータを学習する、CNNに基づく方法を記載している。カメラ画像において物体領域が推定され、様々な画像ミラミッドレベルからこの領域の抜粋が生成される。抜粋は、例えば、同一の高さを有しており、「ゼロパディング」(ゼロ領域)を用いて側方を埋められ、コンカチネート(英語で、concatenated(互いに結合))される。このコンカチネートの形式は、大まかに言えば、コラージュのようなものと説明することができ、同一の高さの抜粋が「互いに貼り合わされる」。従って、生成された合成画像は、その同じ原カメラ画像の領域の様々な解像度レベルから結合されたものである。CNNは、物体検出器が合成画像に基づいて物体を検出し、これにより、さらに遠隔の物体も検出可能であるように、訓練される。
CNNを用いて次々に個々の画像領域を別々に処理することに対して、そのような手法の有利な点は、合成画像について、重みを一度のみかければよいことである。
この場合の不利な点は、合成画像における画像領域を、隣同士、特に、互いに独立して、CNNにより、物体検出器を用いて考慮に入れることである。画像領域に不完全にしか含まれていない可能性がある、重複領域に存在する物体は、非自明な仕方で、1つのその同じ物体に属するものとして同定される必要がある。
【先行技術文献】
【特許文献】
【0009】
【特許文献1】独国特許出願公開第102015208889号明細書
【特許文献2】米国特許第10742907号明細書
【特許文献3】米国特許第10757330号明細書
【特許文献4】米国特許第10798319号明細書
【特許文献5】欧州特許出願公開第3686798号明細書
【特許文献6】独国特許出願公開第102020204840号明細書
【発明の概要】
【発明が解決しようとする課題】
【0010】
本発明の課題は、様々な部分的に重複するキャプチャ領域から入力画像データを効率的に融合し、その後の処理のために供給する、人工ニューラルネットワークの文脈における改善された画像データ融合方法を提供することである。
【課題を解決するための手段】
【0011】
本発明の1つの態様は、
a)大きい画像領域をキャプチャし、
b)関連する画像領域、例えば、画像中央の遠隔物体を高解像度でキャプチャする、
少なくとも1つの画像キャプチャセンサの入力データに基づく物体検出の効率的な実装に関する。
【0012】
本解決手段の説明にあたり、以下の検討事項が前置きされる。
【0013】
ニューラルネットワークにおいて画像ピラミッドの複数のレベルを用いて、低解像度を有する概要画像と高解像度を有する中央抜粋画像を、2つの互いに独立した推論(2つの各々そのために訓練されたCNN)により、別々に処理することができる。
このことは、大きな計算コスト/ランタイムコストを意味する。とりわけ、様々な画像について、訓練されたCNNの重みを新規にかける必要がある。様々なピラミッドレベルの特徴量は、組み合わせて考慮されるものではない。
【0014】
代替的に、様々な解像度レベルから結合された画像について、例えば、特許文献5の処理を行うことができる。従って、様々な部分画像/解像度レベルからの結合画像を生成し、これについて推論または訓練されたCNNを実行する。この方が多少なりとも効率的であるのは、全ての画像について各重みを一度のみかければよく、各部分画像について各重みを新規にかけるのではないからである。しかし、それ以外の不利な点、例えば、様々な解像度レベルの特徴量の組み合わせの欠如は、残ったままである。
【0015】
少なくとも1つの画像キャプチャセンサの画像データを融合する方法は:
a)入力画像データを受信するステップであって、入力画像データは、
-シーンの第1領域を含むまたは含有する第1画像(または第1表現)および
-シーンの第2領域を含むまたは含有する第2画像を含み、第1および第2領域は、互いに重複する一方で、同一ではない、ステップと;
b)第1画像に基づいて第1高さおよび幅を有する第1特徴マップを決定するステップ、および、第2画像に基づいて第2高さおよび幅を有する第2特徴マップを決定するステップと;
c)第1特徴マップの第1畳み込みを用いて第1出力特徴マップを演算するステップ、および、第2特徴マップの第2畳み込みを用いて第2出力特徴マップを演算するステップと;
d)第1および第2出力特徴マップを要素ごとに加算することによる融合特徴マップを演算するステップであって、重複領域の(第1および第2出力特徴マップの)要素が加算されるように、第1および第2領域の位置が互いに考慮される、ステップと;
e)融合特徴マップを出力するステップとを備える。
【0016】
画像は、例えば、画像キャプチャセンサによりキャプチャされる、シーンの2次元表現であってよい。
点群または深度マップは、例えば、画像キャプチャセンサとしてライダセンサまたはステレオカメラがキャプチャすることができる、3次元画像または表現の一例である。3次元表現は、多くの目的のために、例えば、平面断面または投影により、2次元画像に変換されてよい。
特徴マップは、画像または他の(既存の)特徴マップから、コンボリューション(畳み込み)またはコンボリューション層/畳み込み層/畳み込みカーネルにより決定されてよい。
特徴マップの高さおよび幅は、基礎となる画像(または入力される特徴マップ)の高さおよび幅と演算に関連する。
【0017】
第1および第2領域の互いの位置は、融合のために第1および第2出力特徴マップの適切な要素を加算するために、特に、考慮される。重複領域の位置は、例えば、融合特徴マップ内の垂直および水平方向の第2出力特徴マップの位置を示す、始点値(xs,ys)により定義されてよい。重複領域においては、第1および第2出力特徴マップの要素が加算される。重複領域外においては、この領域をカバーする出力特徴マップの要素を融合特徴マップに移すことができる。両出力特徴マップの何れも融合特徴マップの領域をカバーしていない場合、この領域は0で埋められてよい。
【0018】
本方法は、例えば、人工ニューラルネットワーク、好ましくは、畳み込みニューラルネットワーク(CNN)の文脈において実行することができる。ADAS/AD機能には、多くの場合(とりわけ、知覚側において)、機械学習方法を用いて画像入力データをADAS/AD機能に関連する出力データに割り当てるように訓練される、少なくとも1つの人工ニューラルネットワークまたはCNNが用いられる。ADASは先進運転支援システム、ADは自動運転を示す(英語では、それぞれAdvanced Driver Assistance Systems、Automated Driving)。訓練された人工ニューラルネットワークは、車両においてADAS/AD制御装置のプロセッサに実装することができる。プロセッサは、訓練された人工ニューラルネットワーク(推論)により画像データを評価するように構成されていてよい。プロセッサは、人工ニューラルネットワーク用のハードウェアアクセラレータを備えてよい。
【0019】
プロセッサまたは推論は、例えば、1つまたは複数の画像キャプチャセンサの入力画像データから、ADAS/AD関連情報を検出または詳細に決定するように構成することができる。関連情報は、例えば、ADAS/ADシステムまたはADAS/AD制御装置用の物体および/または周辺環境情報である。ADAS/ADに関連する物体および/または周辺環境情報は、ADAS/ADシステムにとって重要な入力変数を表す、例えば、対象物、目印、道路標識、交通参加者、物体との距離、物体の相対速度等である。関連情報を検出するための機能の一例は、車線検出、物体検出、深度認識(画像コンポーネントの3次元推定)、セマンティック検出、交通標識検出等である。
【0020】
1つの実施形態において、第1および第2画像が、同じ画像キャプチャセンサによりキャプチャされたものである。これは、本方法の上流のステップであってもよい。特に、第1および第2画像は、画像キャプチャセンサにより、同時または即座に連続して、キャプチャされたものであってよい。
【0021】
1つの実施形態において、(唯一の)画像キャプチャセンサが、単眼カメラである。第1表現(または第1画像)は、広角でキャプチャした、低減解像度を有する概要画像に対応してよく、第2表現(または第2画像)は、高解像度を有する部分画像に対応してよい。
【0022】
1つの実施形態例によると、第1および第2画像が、画像キャプチャセンサによりキャプチャされた(原)画像の異なる画像ピラミッドレベルに対応する。
【0023】
入力画像データは、解像度に応じて、複数のチャネルに符号化されたものであるか、または符号化されてよい。例えば、各チャネルは同じ高さおよび幅を有する。この場合、各チャネル内においては、含まれているピクセルの空間関係は維持されてよい。この点に関する詳細については特許文献6が参照され、その内容がその全体において本出願に組み込まれる。
【0024】
1つの実施形態において、第1領域がシーンの概要領域であり、第2領域がシーンの概要領域の部分領域である。第1画像に含まれている概要領域は、全体領域、つまり、画像キャプチャセンサの最大キャプチャ領域に対応してよい。第2画像に含まれているシーンの部分領域は、第1画像にも含まれている関心領域(Region of Interest(ROI))に対応してよい。
【0025】
1つの実施形態例によると、第1画像が第1解像度を有し、第2画像が第2解像度を有する。例えば、第2解像度が第1解像度よりも高い。第2画像の解像度は画像キャプチャセンサの最大解像度に対応してよい。例えば、高い方の解像度は、第2画像の内容である、部分領域または関心領域に関するさらなる詳細を提供することができる。
画像の解像度は、正確度またはデータ深度、例えば、画像キャプチャセンサの2つの隣接する画素(ピクセル)間の最小距離に対応してよい。
【0026】
1つの実施形態において、画像キャプチャセンサとして、重複するキャプチャ領域を有する2つの単眼カメラが用いられる。2つの単眼カメラはステレオカメラのコンポーネントであってよい。2つの単眼カメラは異なる開口角および/または分解能を有してよい(「ハイブリッドステレオカメラ」)。両単眼カメラは、互いに独立して車両に取り付けられているサテライトカメラであってよい。
【0027】
1つの実施形態例によると、画像キャプチャセンサとして、全方位カメラシステムの複数のカメラが用いられる。例えば、魚眼レンズ(キャプチャ角度が、例えば、180°以上)を有する4つの単眼カメラは、車両の周辺環境を全体的にキャプチャすることができる。各2つの隣接するカメラは、約90°の重複領域を有する。この場合、4つの個別の画像(4つの表現)から、車両の360°周辺環境についての融合特徴マップを作成することができる。
【0028】
1つの実施形態において、第1および第2出力特徴マップが、重複領域において同じ高さおよび幅を有する。言い換えれば、これら出力特徴マップの重複領域における隣接する要素は、現実空間において互いに等距離である。これは、従って、既に第1および第2特徴マップが重複領域において同じ高さおよび幅を有していることから、考えられる事例である。例えば、第1および第2領域または第1および第2画像は(もまた)同じ高さおよび幅を有する。
【0029】
1つの実施形態例によると、融合特徴マップの高さおよび幅が、第1および第2出力特徴マップを囲繞する(丁度包含する)矩形により決定される。
【0030】
1つの実施形態において、融合特徴マップの高さおよび幅が、第1および第2出力特徴マップを囲繞する(丁度包含する)矩形により決定された後、第1および/または第2出力特徴マップは、第1および/または第2出力特徴マップが融合特徴マップの幅および高さに到達するように、第1および第2出力特徴マップの位置が互いに対して維持されているように、拡大または調整することができる。両方の調整された出力特徴マップにおいて、重複領域は同じ位置である。拡大により新規に付加された、各々の(調整された)出力特徴マップの領域は0で埋められる(ゼロパディング)。両方の調整された出力特徴マップは、その後、要素ごとに加算することができる。
【0031】
1つの実施形態例によると、幅および高さが第1および第2出力特徴マップの高さおよび幅と重複領域の位置とから得られる、テンプレート(ひな形)出力特徴マップが作成される(直前の段落、囲繞矩形を参照)。テンプレート出力特徴マップは0で埋められる。
調整された第1出力特徴マップ用には、第1出力特徴マップがカバーしている領域における第1出力特徴マップからの要素は引き継がれる。また、テンプレート出力特徴マップ内の垂直方向および水平方向における第1出力特徴マップの位置を示す始点値を用いることができる。これに対応して、調整された第2出力特徴マップが構成される。また、両方の調整された出力特徴マップは、その後、要素ごとに加算することができる。
【0032】
第2出力特徴マップが重複領域全体を含んでいる(つまり、重複領域を含む第1出力特徴マップの部分領域そのものを含んでいる)という特別な場合に関する1つの実施形態において、第2出力特徴マップの異なる高さおよび幅の調整を省略することができる。この場合、第1出力特徴マップについても調整は行われないのは、融合特徴マップは第1出力特徴マップと同じ高さおよび幅を有しているからである。この場合、第1出力特徴マップとの第2出力特徴マップの要素ごとの加算は、好適な始点値に基づいて、重複領域においてのみ行われてよい。始点値とは、第1出力特徴マップ内において、どこを基点として(つまり、重複領域において)第1出力特徴マップの要素に第2出力特徴マップの要素を加算して、融合特徴マップを生成するかを予め定めるものである。
【0033】
1つの実施形態において、特徴マップが、(基礎となる)画像の解像度に依存する深度を有する。高解像度画像(例えば、抜粋画像)から、高深度の特徴マップが得られ、例えば、特徴マップは、より多くのチャネルを含む。
例えば、プロセッサは、複数の画像チャネルデータ「パケット」からなる積み重ね(英語では、stack(スタック))をクロック周期または計算周期(英語では、clock cycle(クロックサイクル))中にさらに処理できる、人工ニューラルネットワーク用のハードウェアアクセラレータを備えてよい。画像データまたは特徴(マップ)の積み重ねは、積み重ねられた画像チャネルデータパケットとして、ハードウェアアクセラレータにおいて供給されてよい。
【0034】
1つの実施形態例によると、ADAS/ADに関連する特徴量の検出が、融合特徴マップに基づいて行われる。
【0035】
1つの実施形態において、人工ニューラルネットワークまたはCNN用のハードウェアアクセラレータにおいて本方法が実装される。
【0036】
1つの実施形態例によると、融合特徴マップが、ADAS/AD関連情報を決定するように構成されているか、または訓練されている人工ニューラルネットワークまたはCNNのエンコーダにおいて生成される。
【0037】
1つの実施形態において、ADAS/AD関連情報を決定するように構成されているか、または訓練されている人工ニューラルネットワークまたはCNNが、様々なADAS/AD検出機能用の複数のデコーダを備える。
【0038】
本発明のさらなる態様は、少なくとも1つの画像キャプチャセンサの画像データを融合するシステムまたは装置に関する。本装置は、入力インタフェースとデータ処理ユニットと出力インタフェースとを備える。
入力インタフェースが、入力画像データを受信するように構成されている。入力画像データは、第1および第2画像を含む。第1画像は、シーンの第1領域を含むまたは含有する。
第2画像は、シーンの第2領域を含有する。第1および第2領域は、互いに重複する。第1および第2領域は、同一ではない。
データ処理ユニットが、以下のステップb)~d)を実行するように構成されている。
b)第1画像に基づいて第1高さおよび幅を有する第1特徴マップを決定し、第2画像に基づいて第2高さおよび幅を有する第2特徴マップを決定するステップ。
c)第1特徴マップの第1畳み込みを用いて第1出力特徴マップを演算し、第2特徴マップの第2畳み込みを用いて第2出力特徴マップを演算するステップ。
d)第1および第2出力特徴マップを要素ごとに加算することによる融合特徴マップを演算するステップ。重複領域の(第1および第2出力特徴マップの)要素が加算されるように、要素ごとの加算の際に第1および第2領域の位置が互いに考慮される。
出力インタフェースが、融合特徴マップを出力するように構成されている。
出力は、下流のADAS/ADシステムに対して行われてよく、「大きい」ADAS/AD用のCNNまたはさらなる人工ニューラルネットワークの下流の層に対して行われてもよい。
【0039】
1つの実施形態例によると、システムはCNNハードウェアアクセラレータを備える。入力インタフェース、データ処理ユニットおよび出力インタフェースは、CNNハードウェアアクセラレータにおいて実装されている。
【0040】
1つの実施形態において、システムは、エンコーダを有する畳み込みニューラルネットワークを備える。入力インタフェース、データ処理ユニットおよび出力インタフェースは、エンコーダが融合特徴マップを生成するように構成されているように、エンコーダにおいて実装されている。
【0041】
1つの実施形態例によると、畳み込みニューラルネットワークは複数のデコーダを備える。デコーダが、様々なADAS/AD検出機能を少なくとも融合特徴マップに基づいて実装するように構成されている。従って、CNNの複数のデコーダは、共通のエンコーダにより符号化された入力画像データを用いることができる。様々なADAS/AD検出機能とは、例えば、画像または画像データのセマンティックセグメンテーション、空きスペース検出、車線検出、物体検出または物体分類である。
【0042】
1つの実施形態において、システムは、ADAS/AD制御装置を備え、ADAS/AD制御装置は、少なくともADAS/AD検出機能の結果に基づいて、ADAS/AD検出機能を実装するように構成されている。
【0043】
システムは、少なくとも1つの画像キャプチャセンサを備えてよい。1つまたは複数の画像キャプチャセンサとして、例えば、特に、広角キャプチャ領域(例えば、100°以上)と大きい最高解像度(例えば、5メガピクセル以上)を有する、単眼カメラ、ステレオカメラ、サテライトカメラ、全方位システムの個別のカメラ、ライダセンサ、レーザスキャナまたはその他の3次元カメラがその役割を果たす。
【0044】
本発明のさらなる態様は、少なくとも1つの画像キャプチャセンサと、これに対応する画像データを融合するシステムとを備える車両に関する。
【0045】
システムまたはデータ処理ユニットは、特に、マイクロコントローラまたはマイクロプロセッサ、中央処理装置(CPU:central processing unit)、GPU(graphics processing unit)、テンソルプロセッシングユニット(TPU:tensor processing unit)、ニューラル/AIプロセッシングユニット(NPU:neural processing unit)、デジタルシグナルプロセッサ(DSP:digital signal processor)、特定用途向け集積回路(ASIC:Application Specific Integrated Circuit)、FPGA(Field Programmable Gate Array)等と、それに対応する方法ステップを実行するためのソフトウェアを備えてよい。
【0046】
1つの実施形態によると、システムまたはデータ処理ユニットは、ハードウェアに基づく画像データ前処理段(例えば、イメージシグナルプロセッサ(ISP:Image Signal Processor))に実装される。
【0047】
また、本発明は、システムのプロセッサが画像データ融合のプログラムを実行するように構成されている場合に、それに対応する入力画像データを融合する方法を実行するようにプロセッサに命令する、コンピュータプログラム素子またはプログラム製品に関する。
【0048】
また、本発明は、そのようなプログラム素子が記憶されているコンピュータ可読記憶媒体に関する。
【0049】
従って、本発明は、デジタル電子回路、コンピュータハードウェア、ファームウェアまたはソフトウェアに実装されてよい。
【0050】
以下、本発明の文脈において実施形態例と図面について説明する。
【図面の簡単な説明】
【0051】
【
図1】
図1は、少なくとも1つの画像キャプチャセンサの画像データを融合するシステムを示す。
【
図2】
図2は、画像キャプチャセンサまたは2つの異なる画像キャプチャセンサの第1および第2キャプチャ領域の範囲と位置であって、シーンの第1および第2画像を決定することができる、範囲と位置を概示す。
【
図4】
図4は、低減解像度を有する全体画像または概要画像を示す。
【
図5】
図5は、高解像度を有する中央抜粋画像を示す。
【
図6】
図6は、第1(概要)キャプチャ領域および第2中央キャプチャ領域の代替的な配置を示す。
【
図7】
図7は、対応するデジタル画像のグレースケール画像としての見え方の一例を示す。
【
図8】
図8は、そのような画像の基本的な融合の仕方の方法を示す。
【
図11】
図11は、その後に畳み込みカーネルにより処理される(そしてこれにより融合される)、2つの特徴マップのコンカチネーションを示す。
【
図12】
図12は、2つの特徴マップが2つの別個の畳み込みカーネルにより処理され、その後に要素ごとの加算が行われる、代替的なフローを示す。
【
図13】
図13は、異なる幅および高さの2つの特徴マップを融合するフローを示す。
【発明を実施するための形態】
【0052】
図1は、入力インタフェース12と、融合モジュール16を有するデータ処理ユニット14と、融合データをさらなるユニット20に出力する出力インタフェース18とを備える、少なくとも1つのセンサ1のデータを融合するシステム10を概略的に示す。
画像キャプチャセンサ1の一例は、広角光学素子と高解像度画像キャプチャセンサ、例えば、CCDまたはCMOSセンサとを有する単眼カメラセンサである。
多くの場合、画像データまたは画像キャプチャセンサの解像度および/またはキャプチャ領域は異なる。融合には、1つまたは複数の画像キャプチャセンサの画像データから特徴量を融合することを可能にする画像データ前処理が有用である。
以下においてより詳細に説明する実施形態例は、カメラセンサの第1画像とそのカメラセンサの第2画像の処理についてであり、第2画像は、第1画像の部分領域(のみ)を有し、第1画像の解像度と比較して高い解像度を有する。
カメラセンサの画像データに基づいて、複数のADAS機能またはAD機能、例えば、車線検出、車線維持支援、交通標識認識、速度制限アシスト、交通参加者検出、衝突警告、緊急制動アシスト、車間距離制御、工事現場アシスト、ハイウェイパイロット、クルージングショーファー機能および/またはオートパイロットを、ADAS/AD制御装置により、例えば、さらなるユニット20に供給することができる。
全体システム10,20は人工ニューラルネットワーク、例えば、CNNを備えてよい。人工ニューラルネットワークが画像データを、例えば、車両においてリアルタイムで処理できるように、全体システム10,20は人工ニューラルネットワーク用のハードウェアアクセラレータを備えてよい。そのようなハードウェアコンポーネントは、ニューラルネットワークがリアルタイムで動作できるように、基本的にソフトウェア実装のニューラルネットワークを専用的に加速することができる。
【0053】
データ処理ユニット14は、画像データを「積み重ねた」形式で処理することができ、つまり、計算周期(クロック周期)内で複数の入力チャネルの積み重ね(スタック)を読み込むことができ、処理することができる。具体例において、データ処理ユニット14は、576x320ピクセルの解像度を有する4つの画像チャネルを読み込むことができる。少なくとも2つの画像チャネルを融合することは、チャネルを個別にそれに対応するCNNにより処理する必要がなく、既に融合したチャネル情報または特徴マップをCNNにより処理することができるという、その後のCNN検出にとって、有利な点を提供することになる。そのような融合は、融合モジュール16により行うことができる。融合の詳細については、下記の図面を参照して以下においてさらに詳しく説明する。
【0054】
融合は、CNNのエンコーダにおいて実行することができる。融合したデータは、その後、CNNの1つまたは複数のデコーダにより処理することができ、これにより、検出または他のADAS/AD関連情報が得られる。そのような構成の場合、
図1において、エンコーダはブロック10により表すことができ、1つまたは複数のデコーダはブロック20により表すことができる。CNNはブロック10および20を備えることになり、従って、「全体システム」という表記となる。
【0055】
図2は、画像キャプチャセンサ1または2つの異なる画像キャプチャセンサの第1キャプチャ領域101および第2キャプチャ領域102の範囲と位置であって、シーンの第1および第2画像を決定することができる、範囲と位置を概略的に示す。第1画像キャプチャ領域101から、概要画像または全体画像を、第1画像としてキャプチャすることができ、第2画像キャプチャ領域102、例えば、中央画像領域から、第1画像キャプチャ領域101の抜粋を含む第2画像をキャプチャすることができる。
図3~5は、画像キャプチャセンサ(またはカメラセンサ)を用いて画像をキャプチャすることができる、一例を示す。
【0056】
図3は、高解像度を有する概要画像または全体画像300を概略的に示す。家屋306の傍を通る道路305または車道における、近傍およびそれよりも遠隔の交通参加者(304および303)を含むシーンがキャプチャされている。カメラセンサは、最大の幅、高さおよび解像度(またはピクセル数)を有するそのような全体画像をキャプチャすることができる。しかし、この大きいデータ量(例えば、5~10メガピクセルの範囲)を処理することは、ADシステムまたはADASシステムにおいてはリアルタイムでは一般的には不可能であるため、低減された画像データをさらに処理することになる。
【0057】
図4は、低減された解像度を有する全体画像または概要画像401を概略的に示す。解像度が半減すると、ピクセル数は4分の1に低下する。低減解像度を有する概要画像401は、以下において、wfov(広視野(wide field of view))画像と称される。近傍交通参加者404(車両)は、低減解像度の場合でも、広視野画像から検出することができる。その一方、遠隔交通参加者403(歩行者)は、解像度が限定されているため、この広視野画像からは検出不可能である。
【0058】
図5は、高(または最高)解像度を有する中央抜粋画像502を概略的に示す。高解像度を有する抜粋画像502は、以下において、中央画像と称される。
中央画像により、高解像度に基づいて、遠隔歩行者503の検出が可能になる。その一方、近傍に位置する車両504は、中央画像502のキャプチャ領域には含まれていないか、ほぼ(つまり、僅かに一部のみしか)含まれていない。
【0059】
図6は、第1(概要)キャプチャ領域601および中央キャプチャ領域602の代替的な配置を示す。この中央キャプチャ領域602は、「下方」に位置しており、つまり、垂直方向において全体キャプチャ領域601と同じ高さを始点としている。始点値(x
0,y
0)により、全体キャプチャ領域または概要キャプチャ領域内の水平方向および垂直方向における中央キャプチャ領域602の位置を示すことができる。
【0060】
図7は、対応するデジタル画像のグレースケール画像としての見え方の一例を示す。下側には第1画像として、車両のフロントカメラがキャプチャした広視野画像701を見ることができる。車両は道路交差点に向かって走行している。走行方向に対して垂直に、大きい、複数の車線を有している可能性がある道路が延在している。大きい道路と並行して、自転車専用道路が延在している。交通信号機は、交通参加者の優先通行権を制御している。建物および木々は、道路およびを歩道を境界画定している。中央抜粋画像702が広視野画像701において退色で示されているのは、この抜粋画像が、高解像度を有する第2画像(中央画像)7020として、第1画像701のこの抜粋画像702にまさに一致することを説明するためである。第2画像7020は上側に示されており、ここでは、人間の観察者にとって、交通信号機が自車両に対して赤信号を示していること、バスが交差点を丁度左から右へと横断したこと、およびキャプチャしたシーンのさらなる詳細な点について認識することはより簡単である。第2画像7020の高解像度に基づいて、さらに遠隔の物体または交通参加者も、画像処理によりロバストに検出することができる。画像ピラミッドは、例えば、第2(中央)画像の最高レベルにおいて2304x1280ピクセル、第2レベルにおいて1152x640ピクセル、第3レベルにおいて576x320、第4レベルにおいて288x160、第5レベルにおいて144x80ピクセル等を有してよい。第1(広視野)画像の画像ピラミッドは、同じ解像度の場合(つまり、中央画像と同じレベルの場合)には、当然のことながら、より多くのピクセルを有する。
【0061】
広視野画像および中央画像は、一般的には、様々なピラミッドレベルから導出されることから、中央画像は、解像度低減演算により、広視野画像の解像度に適合される。その際、中央画像の特徴マップにおいては、一般的に、チャネル数が増加(ピクセル当たりの情報量が増加)する。解像度低減演算は、例えば、ストライドまたはプーリングである。ストライドの場合、各2番目(または4番目またはn番目)のピクセルのみが読み出される。プーリングの場合、複数のピクセルが1つのピクセルに要約され、例えば、最大値プーリングの場合、(例えば、2つのピクセルまたは2x2ピクセルの)ピクセルプールの最大値が引き継がれる。
【0062】
レベル5の概要画像が400x150ピクセルを有し、レベル5の中央画像が概要画像の左縁から水平方向にx0=133ピクセルに位置し、概要画像の下縁から垂直方向にy0=80ピクセルまで延在していると仮定する。各ピクセルが出力特徴マップの1つの要素に対応すると仮定する。その場合、第2出力特徴マップを調整するために、左側に行ごとに133個の0(各ピクセルに0を1つ)を、上側に列ごとに70個の0を、右側にも行ごとに133個の0を付加する必要があり、これにより、調整された第2出力特徴マップのチャネルに、要素ごとに、第1出力特徴マップのチャネルを加算することができる。始点値x0,y0は、概要領域の(第1)画像内の部分領域の(第2)画像の位置から決定される。始点値x0,y0は、水平方向および垂直方向のシフトまたは延在を示す。
【0063】
図8は、そのような画像(例えば、
図7の第1または広視野画像701および第2または中央画像7020)の基本的な融合の仕方の方法を概略的に示す。
広視野画像は、入力画像データとして、人工ニューラルネットワーク(例えば、CNN)の第1畳み込み層c1に送られる。
中央画像は、入力画像データとして、CNNの第2畳み込み層c2に送られる。各畳み込み層は活性化関数と任意でプーリングとを有する。
中央画像は、高さおよび幅が広視野画像の高さおよび幅と一致するように、「大きい」ゼロパディングZP領域を用いて埋められ、これにより、空間関係が維持される。
図7に基づくならば、中央画像7020用の中央抜粋画像702以外の領域701(つまり、
図7下側における広視野画像701からの、非退色で示されている領域、従って、濃色で示されている領域)を、0で埋めることのように考えることができる。中央画像7020の高解像度から、第2畳み込み層c2が生成する(第2)特徴マップの高深度が得られる。第2特徴マップの高さおよび幅は、広視野画像701の中央抜粋画像702の高さおよび幅に対応する。ここでは、第1および第2特徴マップの相異なる高さおよび幅の調整は、第2特徴マップのゼロパディングZPにより行われる。
広視野画像および中央画像の特徴量は、コンカチネートccされる。
コンカチネートされた特徴量は、融合特徴マップを生成する第3畳み込み層c3に送られる。
第2(ゼロパディングZPを用いて埋められた)特徴マップとの畳み込みの際には、0との乗算が多数必要である。畳み込み層c3におけるゼロパディングZP領域の「0」乗算のこれらの計算は、不要なものであり、従って、有利ではない。その一方、これらの領域を切り捨てることは不可能であるのは、例えば、公知のCNNアクセラレータは、畳み込みカーネルの適用領域を空間的に制御することを許可しないからである。
しかしながら、有利な点は、両特徴マップの深度が異なっていてよいことである。コンカチネーションは、両特徴マップを「深く互いに」結合するものである。このことは、中央画像が広視野画像よりも高い解像度を有している場合に当てはまり、従って、中央画像から、より多くの情報を抽出することができ、特に有利である。この点に関して、この方法は比較的フレキシブルである。
【0064】
図9は、代替的な第2方法を概略的に示し、広視野特徴量および中央特徴量は、(両特徴マップのコンカチネーションccの代わりに)適切な要素ごとの加算(+)を介して結合されるのであって、その前に中央画像については、第2畳み込み層c2により特徴量抽出が行われた後に高さおよび幅がゼロパディングZPを用いて適合される。要素ごとに加算された特徴量を有する特徴マップは、第3畳み込み層c3に送られる。
また、本方法においてはパフォーマンスの低下を受け入れることになるのは、加算により、異なるセマンティックな意味の特徴量が結合されるからである。また、テンソルが同じ次元を有する必要があることは有利ではない。
有利な点は、必要とされる計算時間は、(ゼロパディングZP領域における)0の加算の方が、0の乗算よりも大幅に短いことである。
【0065】
上記両方法は、各々、有利な点と不利な点を提供する。望ましいのは、各々の有利な点を活用することであり、習熟された組み合わせにおいては可能である。
【0066】
図10は、有利な方法を概略的に示す。
図8に示されている第1代替方法、つまり、コンカチネーションによる特徴量の結合に基づいて、以下において、必ずしも必要ではないゼロパディングZP領域の0の乗算を時代遅れのものとする、c3による数学的分解について説明する。
・畳み込み層C
nは、O
n個の特徴量積み重ね(チャネル)を有する3次元テンソルFM
nを生成し、nは自然数である。
・従来の2次元畳み込みに関しては、以下が適用される。
【0067】
【数1】
i,jは自然数。
・
図8の畳み込み層c3に関しては、コンカチネートされた入力データについての畳み込みは線形であるため、以下が適用される。
【0068】
【0069】
その後の畳み込み層を用いるコンカチネーション(
図8参照)は、2つの削減された畳み込みC
3AおよびC
3Bへと変換され、その後、要素ごとの加算(+)が行われる。
【0070】
【0071】
【0072】
両方の削減された畳み込みC3AおよびC3Bから生成された特徴マップの異なる高さおよび幅の適合は、要素ごとの加算(+)の前に行われる。
畳み込みカーネルC3をC3AおよびC3Bへと分解することにより、畳み込みC3Bが高いランタイム効率で中央画像の削減された大きさに適用される。この要素ごとの加算(+)は、現在使用可能な人工ニューラルネットワーク用アクセラレータにおいてランタイムニュートラルである。
【0073】
その後の加算を伴うゼロパディングZPは、適合された始点位置の中央特徴値を合計することと等しい。代替的に、中央特徴マップは、その前に0を用いて初期化されている大きい領域に記述されてよい。この場合、ゼロパディングZPは間接的に行われる。
【0074】
c3後の活性化関数/プーリングは分解することができず、加算後に適用される。
特に、0からなる大きい埋め領域について、畳み込み演算は計算されない。
【0075】
全体的に、この実施形態は特に有利な点として以下を提供する。
a)例えば、遠隔物体について、高解像度を有する関心領域を利用して、画像キャプチャセンサの大きい視野角/キャプチャ領域を用いて、最適な全体パフォーマンスのために、様々な(画像)ピラミッドレベルの統合された特徴量考慮。
b)それと同時に、高いランタイム効率での実装。
【0076】
図11~13において、本方法が再度別様に図示されている。
【0077】
図11は、畳み込みカーネル1110により処理される2つの特徴マップ1101,1102のコンカチネーションを概略的に示しており、これにより、出力可能な融合特徴マップ1130が生じる。
図8の同様の状況と異なる点は、ここでは、両特徴マップ1101,1102は同じ幅wおよび高さhを有することである。両者は2つの矩形面として簡略的に図示されている。コンカチネーションは深度を互いに結合することを意味しており、第2特徴マップ1102が第1特徴マップ1101の空間的に背後に配置されているとして概略的に示されている。
ここで、畳み込みカーネル1110は、比較として、対置方向のハッチングにより示されており、これにより、第1部、つまり、薄いハッチングで示されている「第1畳み込み2次元カーネル」が第1特徴マップ1101をスキャンし、第2(濃いハッチングで示されている)畳み込み2次元カーネルが第2特徴マップ1102をスキャンすることが示される。
その結果が融合出力特徴マップ1130である。融合特徴マップ1130は、畳み込みの後、第1および第2特徴マップ1101,1102に関して分離することは最早できない。
【0078】
図12は、同一の幅w、高さhおよび深度dの2つの特徴マップを融合する代替的なフローを概略的に示す。特徴マップの深度dは、チャネル数に対応してよく、または基礎となる画像の解像度に依存してよい。
ここでは、第1特徴マップ1201が第1畳み込み2次元カーネル1211によりスキャンされ、これにより、第1出力特徴マップ1221が生成され、第2特徴マップ1202が第2畳み込み2次元カーネル1212によりスキャンされ、これにより、第2出力特徴マップ1222が生成される。畳み込み2次元カーネル1211;1212は、例えば、3x3x「入力チャネル数」の次元を有してよく、出力層を生成する。出力特徴マップの深度は、畳み込み2次元カーネル1211;1212の数により定義することができる。
融合特徴マップ1230は、両出力特徴マップ1221,1222から要素ごとの加算(+)により演算することができる。
ここでのフロー、つまり、特徴マップごとに別個の2つの畳み込みを実行し、その後これらを単純に加算することは、2つの特徴マップがコンカチネートされ、その後畳み込みが実行される
図11のフローと等しい。
【0079】
図13は、
図10に記載のフローに対応する、異なる幅および高さの2つの特徴マップを融合するフローを概略的に示す。
【0080】
第1特徴マップ1301(広視野画像から演算)は、大きい幅wおよび高さhを有しているが、深度dは小さい。その一方、第2特徴マップ1302(高解像度の中央抜粋画像から演算)は、小さい幅wおよび高さhを有しているが、大きい深度dを有している。
【0081】
第1畳み込み2次元カーネル1311は第1特徴マップ1301をスキャンし、これにより、拡大された深度dを有する第1出力特徴マップ1321が生成される。第2畳み込み2次元カーネル1312により第2特徴マップはスキャンされ、これにより、第2出力特徴マップ1322(対角線のハッチングによる賽の目状の領域)が生成される。第2出力特徴マップの深度dは第1出力特徴マップの深度と同一である。
【0082】
第1および第2出力特徴マップ1321,1322の融合を実行するために、概要領域内の部分領域の位置を考慮することは好都合である。従って、第2出力特徴マップ1322の高さおよび幅は、第1出力特徴マップ1321の高さおよび幅と一致するように拡大される。調整用の幅および高さの始点値は、例えば、
図6または
図7から、共通の概要領域601または701の中央領域602または702の位置の情報、例えば、始点値x
0,y
0の形式、またはそこから導出した特徴マップの幅始点値x
sおよび高さ始点値y
sの形式により、決定することができる。
【0083】
第2出力特徴マップ1322において欠如している領域(左側、右側および上側)は0で埋められる(ゼロパディング)。このようにして調整された第2出力特徴マップは、第1出力特徴マップ1321と、簡単に要素ごとの加算により融合することができる。そのような融合特徴マップ1330が
図13の下方に示されている。
【0084】
図14は、考えられる方法フローを概略的に示す。
第1ステップS1において、少なくとも1つの画像キャプチャセンサの入力データが受信される。入力センサデータは、例えば、2つの走行方向を向く車両のADASセンサにより、例えば、部分的に重複するキャプチャ領域を有する1つの望遠カメラと1つのライダにより生成されたものであってよい。ライダセンサは、幅広のキャプチャ領域(例えば、100°または120°の大きい開口角)を有してよく、これにより、シーンの第1画像または第1表現が生成される。望遠カメラは、シーンの(中央)部分領域のみ(例えば、50°の小さいキャプチャ角)をキャプチャするが、その代わりに、さらに遠隔の物体を検出することができ、これにより、シーンの第2表現が生成される。ライダセンサと望遠カメラセンサの入力データを融合することができるように、センサローデータを画像にマッピングしてよく、これら画像は車両前方の車道平面への鳥瞰図を示す。
重複領域にはライダデータと望遠カメラデータが存在し、側方の縁領域にはライダデータしか存在せず、さらに遠隔の前方領域には望遠カメラデータしか存在しない。
【0085】
第2ステップS2において、第1特徴マップが入力データから決定される。ライダセンサの(第1)画像から、第1高さおよび幅(または鳥瞰図における車道平面深度および車道平面幅)を有する第1特徴マップを生成することができる。
第3ステップS3において、第2特徴マップが入力データから決定される。望遠カメラセンサのキャプチャ領域の(第2)画像から、第2高さおよび幅を有する第2特徴マップを生成することができる。ここで、第2特徴マップの幅は第1特徴マップの幅よりも小さく、第2特徴マップの高さ(走行方向における距離)は第1特徴マップの高さよりも大きい。
【0086】
第4ステップS4において、第1特徴マップに基づいて、第1出力特徴マップが決定される。ここで、第1出力特徴マップの演算は第1特徴マップの第1畳み込みを用いて行われる。
【0087】
第5ステップS5において、第2特徴マップに基づいて、第2出力特徴マップが決定される。第2出力特徴マップの演算は第2特徴マップの第2畳み込みを用いて行われる。第2畳み込みは、幅および高さが、第2特徴マップの高さおよび幅に限定される。
【0088】
第6ステップS6において、第1および第2出力特徴マップの異なるサイズの調整、特に、高さおよび/または幅の適合が行われる。
【0089】
また、第1変形例によると、第1出力特徴マップの高さは、第2出力特徴マップの高さと一致するように拡大することができる。第2出力特徴マップの幅は、第1出力特徴マップの幅と一致するように拡大することができる。拡大により新規に付加された、各々(調整された)出力特徴マップの領域は0で埋められる(ゼロパディング)。
【0090】
第2変形例によると、まず、テンプレート出力特徴マップが作成され、その幅および高さは、第1および第2出力特徴マップの高さおよび幅と重複領域の位置から得られる。テンプレート出力特徴マップは0で埋められる。この場合、テンプレート出力特徴マップは、第1出力特徴マップの幅および第2出力特徴マップの高さを有する。
【0091】
調整された第1出力特徴マップには、第1出力特徴マップがカバーしている領域における第1出力特徴マップからの要素が引き継がれる。また、テンプレート出力特徴マップ内の垂直方向および水平方向の第1出力特徴マップの位置を示す始点値を用いることができる。ライダ出力特徴マップは、例えば、テンプレート出力特徴マップの幅全体にわたって延在する一方、遠隔領域は空である。従って、垂直方向において、始点値ysが予め定められ、そこからテンプレート出力特徴マップは「埋められる」。
【0092】
同様に、0で予め埋められたテンプレート出力特徴マップに基づいて、好適な始点位置から第2出力特徴マップの要素を挿入することにより調整された第2出力特徴マップが生成される。レーダ出力特徴マップは、例えば、まず、水平方向の始点位置xsから割り当てられ、垂直方向において高さ全体にわたって延在する。
【0093】
第7ステップS7において、調整された第1および第2出力特徴マップは、要素ごとの加算により融合される。高さおよび幅を調整することにより、両出力特徴マップの要素ごとの加算は、一般的なCNNアクセラレータには即座に可能である。その結果が融合特徴マップである。
【0094】
第2出力特徴マップが重複領域全体を含んでいる(つまり、重複領域を含む第1出力特徴マップの部分領域そのものを含んでいる(
図13参照))という特別な場合において、第2出力特徴マップの異なる高さおよび幅の調整を省略することができ、この場合、第1出力特徴マップとの第2出力特徴マップの要素ごとの加算は、好適な始点値x
s,y
sに基づいて、重複領域においてのみ行われる。ここで、融合特徴マップの高さおよび幅は、第1出力特徴マップの高さおよび幅と同一である(
図13参照)。
【0095】
第8ステップS8において、融合特徴マップが出力される。
【符号の説明】
【0096】
1 画像キャプチャセンサ
10 システム
12 入力インタフェース
14 データ処理ユニット
16 融合モデル
18 出力インタフェース
20 制御ユニット
101 概要領域
102 部分領域
300 高解像度を有する概要画像
303 歩行者またはさらなる遠隔交通参加者
304 車両または近傍交通参加者
305 道路または車道
306 家屋
401 低減解像度を有する概要画像
403 歩行者(検出不可能)
404 車両
502 高解像度を有する中央抜粋画像
503 歩行者
504 車両(検出不可能または完全には検出不可能)
601 概要領域
602 部分領域
701 低減解像度を有する概要画像
702 高解像度を有する抜粋画像のキャプチャ領域
7020 高解像度を有する(中央)抜粋画像
1101 第1特徴マップ
1102 第2特徴マップ
1110 畳み込みカーネル
1130 融合特徴マップ
1201 第1特徴マップ
1202 第2特徴マップ
1211 第1畳み込み2次元カーネル
1212 第2畳み込み2次元カーネル
1221 第1出力特徴マップ
1222 第2出力特徴マップ
1230 融合特徴マップ
1301 第1特徴マップ
1302 第2特徴マップ
1311 第1畳み込み2次元カーネル
1312 第2畳み込み2次元カーネル
1321 第1出力特徴マップ
1322 第2出力特徴マップ
1330 融合特徴マップ
x
0 水平方向の始点値
y
0 垂直方向の始点値または延在値
wfov 低減解像度を有する概要画像
center 高解像度を有する(中央)抜粋画像
【数5】
w 幅
h 高さ
d 深度
【手続補正書】
【提出日】2024-05-07
【手続補正1】
【補正対象書類名】明細書
【補正対象項目名】0095
【補正方法】変更
【補正の内容】
【0095】
第8ステップS8において、融合特徴マップが出力される。
なお、本願は、特許請求の範囲に記載の発明に関するものであるが、他の観点として以下も含む。
1.
少なくとも1つの画像キャプチャセンサ(1)の画像データを融合する方法において:
a)入力画像データを受信するステップであって、前記入力画像データは、
-シーンの第1領域(101,601)を含む第1画像(401,701)および
-前記シーンの第2領域(102,602)を含む第2画像(502,702)を含み、前記第1および前記第2領域は、互いに重複するが同一ではない、ステップ(S1)と;
b)前記第1画像(401,701)に基づいて第1高さおよび幅を有する第1特徴マップ(1301)を決定するステップ(S2)、および、前記第2画像(502,702)に基づいて第2高さおよび幅を有する第2特徴マップ(1302)を決定するステップ(S3)と;
c)前記第1特徴マップ(1301)の第1畳み込みを用いて第1出力特徴マップ(1321)を演算するステップ(S4)、および、前記第2特徴マップ(1302)の第2畳み込みを用いて第2出力特徴マップ(1322)を演算するステップ(S5)と;
d)前記第1および前記第2出力特徴マップ(1321,1322)を要素ごとに加算することによる融合特徴マップ(1330)を演算するステップであって、重複領域の要素が加算されるように、前記第1および前記第2領域の位置が互いに考慮される、ステップ(S7)と;
e)前記融合特徴マップ(1330)を出力するステップ(S8)とを備える、方法。
2.
前記第1および前記第2画像が、同じ画像キャプチャセンサによりキャプチャされたものである、上記1に記載の方法。
3.
前記第1画像(401,701)および前記第2画像(502,702)が、前記画像キャプチャセンサの画像ピラミッドの異なるレベルに対応する、上記1または2に記載の方法。
4.
前記第1領域(101,601)が前記シーンの概要領域であり、前記第2領域(502,702)が前記シーンの前記概要領域の部分領域である、上記1~3の何れか1つに記載の方法。
5.
前記第1画像が第1解像度を有し、前記第2画像が第2解像度を有し、前記第2解像度が前記第1解像度よりも高い、上記1~4の何れか1つに記載の方法。
6.
画像キャプチャセンサとして、重複するキャプチャ領域を有する2つの単眼カメラが用いられる、上記1、4または5の何れか1つに記載の方法。
7.
画像キャプチャセンサとして、全方位カメラシステムの複数のカメラが用いられる、上記1、4または5の何れか1つに記載の方法。
8.
前記第1および前記第2出力特徴マップ(1321,1322)が、重複領域において同じ高さおよび幅を有する、上記1~7の何れか1つに記載の方法。
9.
前記融合特徴マップ(1330)の高さおよび幅が、前記第1および前記第2出力特徴マップ(1321,1322)を囲繞する矩形により決定される、上記1~8の何れか1つに記載の方法。
10.
前記特徴マップ(1301,1302,1321,1322)が、各々、前記画像(401;502;701;702)の解像度に依存する深度を有する、上記1~9の何れか1つに記載の方法。
11.
前記融合特徴マップが、ADAS/AD関連情報を決定するように構成されている人工ニューラルネットワークのエンコーダにおいて生成される、上記1~10の何れか1つに記載の方法。
12.
ADAS/AD関連情報を決定するように構成されている前記人工ニューラルネットワークが、様々なADAS/AD検出機能用の複数のデコーダを備える、上記11に記載の方法。
13.
入力インタフェース(12)とデータ処理ユニット(14)と出力インタフェース(18)とを備える、少なくとも1つの画像キャプチャセンサの画像データを融合するシステム(10)において:
a)前記入力インタフェース(12)が、入力画像データを受信するように構成されており、前記入力画像データは、
-シーンの第1領域(101,601)を含む第1画像(401,701)および
-前記シーンの第2領域(102,602)を含む第2画像(502,702)を含み、前記第1および前記第2領域は、互いに重複するが同一ではなく;
前記データ処理ユニット(14)が、
b)前記第1画像(401,701)に基づいて第1高さおよび幅を有する第1特徴マップ(1301)を決定し、前記第2画像(502,702)に基づいて第2高さおよび幅を有する第2特徴マップ(1302)を決定するように構成されており;
c)前記第1特徴マップ(1301)の第1畳み込みを用いて第1出力特徴マップ(1321)を演算し、前記第2特徴マップ(1302)の第2畳み込みを用いて第2出力特徴マップ(1322)を演算するように構成されており;
d)前記第1および前記第2出力特徴マップ(1321,1322)を要素ごとに加算することによる融合特徴マップを演算するように構成されており、重複領域の要素が加算されるように、前記第1および前記第2領域の位置が互いに考慮され;
e)前記出力インタフェース(18)が、前記融合特徴マップ(1330)を出力するように構成されている、システム(10)。
14.
前記システム(10)が、エンコーダと少なくとも1つのデコーダとを有する畳み込みニューラルネットワークを備え、前記入力インタフェース(12)、前記データ処理ユニット(14)および前記出力インタフェース(18)は、前記エンコーダが前記融合特徴マップを生成するように構成されているように、前記エンコーダにおいて実装されており、前記少なくとも1つのデコーダが、ADAS/AD検出機能を少なくとも前記融合特徴マップに基づいて実装するように構成されている、上記13に記載のシステム。
15.
少なくとも1つの画像キャプチャセンサ(1)と上記13または14に記載のシステムとを備える車両。
【手続補正2】
【補正対象書類名】特許請求の範囲
【補正対象項目名】全文
【補正方法】変更
【補正の内容】
【特許請求の範囲】
【請求項1】
少なくとも1つの画像キャプチャセンサ(1)の画像データを融合する方法において:
a)入力画像データを受信するステップであって、前記入力画像データは、
-シーンの第1領域(101,601)を含む第1画像(401,701)および
-前記シーンの第2領域(102,602)を含む第2画像(502,702)を含み、前記第1および前記第2領域は、互いに重複するが同一ではない、ステップ(S1)と;
b)前記第1画像(401,701)に基づいて第1高さおよび幅を有する第1特徴マップ(1301)を決定するステップ(S2)、および、前記第2画像(502,702)に基づいて第2高さおよび幅を有する第2特徴マップ(1302)を決定するステップ(S3)と;
c)前記第1特徴マップ(1301)の第1畳み込みを用いて第1出力特徴マップ(1321)を演算するステップ(S4)、および、前記第2特徴マップ(1302)の第2畳み込みを用いて第2出力特徴マップ(1322)を演算するステップ(S5)と;
d)前記第1および前記第2出力特徴マップ(1321,1322)を要素ごとに加算することによる融合特徴マップ(1330)を演算するステップであって、重複領域の要素が加算されるように、前記第1および前記第2領域の位置が互いに考慮される、ステップ(S7)と;
e)前記融合特徴マップ(1330)を出力するステップ(S8)とを備える、方法。
【請求項2】
前記第1および前記第2画像が、同じ画像キャプチャセンサによりキャプチャされたものである、請求項1に記載の方法。
【請求項3】
前記第1画像(401,701)および前記第2画像(502,702)が、前記画像キャプチャセンサの画像ピラミッドの異なるレベルに対応する、請求項1または2に記載の方法。
【請求項4】
前記第1領域(101,601)が前記シーンの概要領域であり、前記第2領域(502,702)が前記シーンの前記概要領域の部分領域である、請求項
1に記載の方法。
【請求項5】
前記第1画像が第1解像度を有し、前記第2画像が第2解像度を有し、前記第2解像度が前記第1解像度よりも高い、請求項
1に記載の方法。
【請求項6】
画像キャプチャセンサとして、重複するキャプチャ領域を有する2つの単眼カメラが用いられる、請求項1、4または5の何れか1項に記載の方法。
【請求項7】
画像キャプチャセンサとして、全方位カメラシステムの複数のカメラが用いられる、請求項1、4または5の何れか1項に記載の方法。
【請求項8】
前記第1および前記第2出力特徴マップ(1321,1322)が、重複領域において同じ高さおよび幅を有する、請求項1
または2に記載の方法。
【請求項9】
前記融合特徴マップ(1330)の高さおよび幅が、前記第1および前記第2出力特徴マップ(1321,1322)を囲繞する矩形により決定される、請求項1
または2に記載の方法。
【請求項10】
前記特徴マップ(1301,1302,1321,1322)が、各々、前記画像(401;502;701;702)の解像度に依存する深度を有する、請求項1
または2に記載の方法。
【請求項11】
前記融合特徴マップが、ADAS/AD関連情報を決定するように構成されている人工ニューラルネットワークのエンコーダにおいて生成される、請求項1
または2に記載の方法。
【請求項12】
ADAS/AD関連情報を決定するように構成されている前記人工ニューラルネットワークが、様々なADAS/AD検出機能用の複数のデコーダを備える、請求項11に記載の方法。
【請求項13】
入力インタフェース(12)とデータ処理ユニット(14)と出力インタフェース(18)とを備える、少なくとも1つの画像キャプチャセンサの画像データを融合するシステム(10)において:
a)前記入力インタフェース(12)が、入力画像データを受信するように構成されており、前記入力画像データは、
-シーンの第1領域(101,601)を含む第1画像(401,701)および
-前記シーンの第2領域(102,602)を含む第2画像(502,702)を含み、前記第1および前記第2領域は、互いに重複するが同一ではなく;
前記データ処理ユニット(14)が、
b)前記第1画像(401,701)に基づいて第1高さおよび幅を有する第1特徴マップ(1301)を決定し、前記第2画像(502,702)に基づいて第2高さおよび幅を有する第2特徴マップ(1302)を決定するように構成されており;
c)前記第1特徴マップ(1301)の第1畳み込みを用いて第1出力特徴マップ(1321)を演算し、前記第2特徴マップ(1302)の第2畳み込みを用いて第2出力特徴マップ(1322)を演算するように構成されており;
d)前記第1および前記第2出力特徴マップ(1321,1322)を要素ごとに加算することによる融合特徴マップを演算するように構成されており、重複領域の要素が加算されるように、前記第1および前記第2領域の位置が互いに考慮され;
e)前記出力インタフェース(18)が、前記融合特徴マップ(1330)を出力するように構成されている、システム(10)。
【請求項14】
前記システム(10)が、エンコーダと少なくとも1つのデコーダとを有する畳み込みニューラルネットワークを備え、前記入力インタフェース(12)、前記データ処理ユニット(14)および前記出力インタフェース(18)は、前記エンコーダが前記融合特徴マップを生成するように構成されているように、前記エンコーダにおいて実装されており、前記少なくとも1つのデコーダが、ADAS/AD検出機能を少なくとも前記融合特徴マップに基づいて実装するように構成されている、請求項13に記載のシステム。
【請求項15】
少なくとも1つの画像キャプチャセンサ(1)と請求項13または14に記載のシステムとを備える車両。
【国際調査報告】