特許7181402 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

青山学院大学 (神奈川県相模原市中央区淵野辺)

▶ エヌイーシー　ラボラトリーズ　アメリカ　インクの特許一覧

特許7181402場面理解および高度な運転者支援システムのためのアプリケーションを有するマルチタスク感知ネットワーク

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】

(24)【登録日】2022-11-21

(45)【発行日】2022-11-30

(54)【発明の名称】場面理解および高度な運転者支援システムのためのアプリケーションを有するマルチタスク感知ネットワーク

(51)【国際特許分類】

G06T 7/00 20170101AFI20221122BHJP

G06T 1/40 20060101ALI20221122BHJP

G08G 1/16 20060101ALI20221122BHJP

B60W 30/09 20120101ALI20221122BHJP

G06T 7/11 20170101ALI20221122BHJP

【ＦＩ】

G06T7/00 350C

G06T1/40

G08G1/16 C

B60W30/09

G06T7/11

G06T7/00 650

【請求項の数】 19

(21)【出願番号】P 2021528363

(86)(22)【出願日】2020-02-12

(65)【公表番号】

(43)【公表日】2022-01-19

(86)【国際出願番号】 US2020017877

(87)【国際公開番号】W WO2020180469

(87)【国際公開日】2020-09-10

【審査請求日】2021-05-20

(31)【優先権主張番号】16/787,727

(32)【優先日】2020-02-11

(33)【優先権主張国・地域又は機関】US

(31)【優先権主張番号】62/814,886

(32)【優先日】2019-03-07

(33)【優先権主張国・地域又は機関】US

(73)【特許権者】

【識別番号】504080663

【氏名又は名称】エヌイーシーラボラトリーズアメリカインク

【氏名又は名称原語表記】ＮＥＣＬａｂｏｒａｔｏｒｉｅｓＡｍｅｒｉｃａ，Ｉｎｃ．

(74)【代理人】

【識別番号】100123788

【弁理士】

【氏名又は名称】宮崎昭夫

(74)【代理人】

【識別番号】100127454

【弁理士】

【氏名又は名称】緒方雅昭

(72)【発明者】

【氏名】トラン、クオック－フイ

(72)【発明者】

【氏名】シュルター、サミュエル

(72)【発明者】

【氏名】ヴェルナザ、ポール

(72)【発明者】

【氏名】リウ、ブユ

(72)【発明者】

【氏名】ジ、パン

(72)【発明者】

【氏名】ツァイ、イ－シューアン

(72)【発明者】

【氏名】チャンドラカー、マンモハン

【審査官】山田辰美

(56)【参考文献】

【文献】特開２０１７－２１１７９９（ＪＰ，Ａ）

【文献】特開２０１８－０５５３７７（ＪＰ，Ａ）

【文献】特開２０１８－１９０３３２（ＪＰ，Ａ）

【文献】特開２００８－２３８９２７（ＪＰ，Ａ）

【文献】米国特許出願公開第２０１９／００５０６４８（ＵＳ，Ａ１）

【文献】米国特許出願公開第２０１９／００４９９７０（ＵＳ，Ａ１）

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｇ０６Ｔ７／００－７／９０

Ｇ０６Ｔ１／４０

Ｇ０８Ｇ１／１６

Ｂ６０Ｗ３０／０９

(57)【特許請求の範囲】

【請求項1】

高度な運転者支援システム（ＡＤＡＳ）におけるコンピュータによって実現される方法であって、
ハードウェアプロセッサによって、マルチタスク畳込みニューラルネットワーク（ＣＮＮ）を用いて、複数の画像を含む入力映像ストリームから、物体検出および他の感知タスクを含む、異なる感知タスク間で共有される特徴を抽出すること（５０５）と、
前記ハードウェアプロセッサによって、前記マルチタスクＣＮＮを用いて、複数の異なる感知タスクの出力を提供するための、前記マルチタスクＣＮＮのそれぞれの異なる分岐によって、前記共有される特徴の対応するものを同時に処理することによって、単一の経路で前記異なる感知タスクを同時に解決すること（５１０）であって、前記それぞれ異なる分岐のそれぞれが、前記異なる感知タスクのそれぞれの１つに対応することと、
前記複数の異なる感知タスクの出力に応答する少なくとも１つのトップビューマップとして運転場面のパラメトリック表現を形成すること（５３０）と、
差し迫っている衝突を示す前記少なくとも１つのトップビューマップに応答する衝突回避のために、車両の操作を制御することとを含む方法。

【請求項2】

請求項１に記載のコンピュータによって実現される方法において、
前記他の感知タスクは、意味的セグメンテーション、奥行き推定および遮蔽推論を含む方法。

【請求項3】

請求項１に記載のコンピュータによって実現される方法において、
前記ハードウェアプロセッサは、単一のＧＰＵからなる方法。

【請求項4】

請求項１に記載のコンピュータによって実現される方法において、
物体追跡を取得するために、異なる画像にわたってバウンディングボックスを関連付けることと、
前記バウンディングボックスを処理してカメラポーズを判定することと、
前記少なくとも１つのトップビューマップを形成するための洗練された物体追跡を提供するために、前記物体追跡および前記カメラポーズに応答して前記バウンディングボックスによってカプセル化された物体を定位することとをさらに含む方法。

【請求項5】

請求項４に記載のコンピュータによって実現される方法において、
前記洗練された物体追跡は、所与の期間にわたって一貫性があるように提供される方法。

【請求項6】

請求項４に記載のコンピュータによって実現される方法において、
前記バウンディングボックスの各々について信頼スコアを生成することをさらに含み、前記信頼スコアは、前記物体追跡を取得するために使用される方法。

【請求項7】

請求項１に記載のコンピュータによって実現される方法において、
前記マルチタスクＣＮＮは、複数のサブＣＮＮを含み、前記複数のサブＣＮＮの各々は、前記異なる感知タスクのそれぞれ異なる１つを処理する方法。

【請求項8】

請求項１に記載のコンピュータによって実現される方法において、
２次元物体ボックス、３次元物体ボックス、まばらな３次元ポイントおよび意味的画素を含む訓練データを用いて前記マルチタスクＣＮＮを訓練することをさらに含む方法。

【請求項9】

請求項８に記載のコンピュータによって実現される方法において、
前記訓練データは、前記異なる感知タスクのそれぞれについて注釈が付けられている方法。

【請求項10】

請求項９に記載のコンピュータによって実現される方法において、
前記意味的画素の各々は、複数の利用可能な意味的カテゴリのうちの１つに割り当てられる方法。

【請求項11】

請求項１に記載のコンピュータによって実現される方法において、
遮蔽推論を使用して前記トップビューマップを形成することをさらに含み、前記遮蔽推論は、前景物体によって遮蔽された前記入力映像ストリーム内の任意の画素についての意味論および距離を推定する方法。

【請求項12】

請求項２に記載のコンピュータによって実現される方法において、
前記入力映像ストリームのフレーム内の場面の遮蔽領域は、前記遮蔽推論のために注釈付けされない方法。

【請求項13】

請求項１に記載のコンピュータによって実現される方法において、
前記衝突回避は、ブレーキングおよびステアリングからなるグループから選択された車両入力を制御することを含む方法。

【請求項14】

請求項１に記載のコンピュータによって実現される方法において、
前記衝突回避を支援するために、前記トップビューマップに応答して場面理解タスクを実行することをさらに含む方法。

【請求項15】

高度な運転者支援のためのコンピュータプログラムであって、前記コンピュータプログラムは、方法をコンピュータにより実行可能であり、前記方法は、
マルチタスク畳込みニューラルネットワーク（ＣＮＮ）を用いて、複数の画像を含む入力映像ストリームから、物体検出および他の感知タスクを含む異なる感知タスク間で共有される特徴を抽出すること（５０５）と、
前記マルチタスクＣＮＮを用いて、複数の異なる感知タスクの出力を提供するための、前記マルチタスクＣＮＮのそれぞれの異なる分岐によって、前記共有される特徴の対応するものを同時に処理することによって、単一の経路で前記異なる感知タスクを同時に解決すること（５１０）であって、前記それぞれ異なる分岐のそれぞれが、前記異なる感知タスクのそれぞれの１つに対応することと、
前記複数の異なる感知タスクの出力に応答する少なくとも１つのトップビューマップとして運転場面のパラメトリック表現を形成すること（５３０）と、
差し迫っている衝突を示す前記少なくとも１つのトップビューマップに応答する衝突回避のために、車両の操作を制御することとを含むコンピュータプログラム。

【請求項16】

請求項１５に記載のコンピュータプログラムにおいて、
前記他の感知タスクは、意味的セグメンテーション、奥行き推定および遮蔽推論を含むコンピュータプログラム。

【請求項17】

請求項１５に記載のコンピュータプログラムにおいて、
物体追跡を取得するために、異なる画像にわたってバウンディングボックスを関連付けることと、
前記バウンディングボックスを処理してカメラポーズを判定することと、
前記少なくとも１つのトップビューマップを形成するための洗練された物体追跡を提供するために、前記物体追跡および前記カメラポーズに応答して前記バウンディングボックスによってカプセル化された物体を定位することとをさらに含むコンピュータプログラム。

【請求項18】

請求項１５に記載のコンピュータプログラムにおいて、
前記マルチタスクＣＮＮは、複数のサブＣＮＮを含み、前記複数のサブＣＮＮの各々は、前記異なる感知タスクのそれぞれ異なる１つを処理するコンピュータプログラム。

【請求項19】

高度な運転者支援のためのコンピュータ処理システムであって、
記憶されたプログラムコードを含むメモリデバイス（１０３）と、
前記メモリデバイスに動作可能に結合され、前記メモリデバイスに記憶された前記プログラムコードを実行するように構成されたハードウェアプロセッサ（１０２）とを有し、前記ハードウェアプロセッサは、
マルチタスク畳込みニューラルネットワーク（ＣＮＮ）を用いて、複数の画像を含む入力映像ストリームから、物体検出および他の感知タスクを含む異なる感知タスク間で共有される特徴を抽出し、
前記マルチタスクＣＮＮを用いて、複数の異なる感知タスクの出力を提供するための、前記マルチタスクＣＮＮのそれぞれの異なる分岐によって、前記共有される特徴の対応するものを同時に処理することによって、単一の経路で前記異なる感知タスクを同時に解決し、前記それぞれ異なる分岐のそれぞれが、前記異なる感知タスクのそれぞれの１つに対応し、
前記複数の異なる感知タスクの出力に応答する少なくとも１つのトップビューマップとして運転場面のパラメトリック表現を形成し、
差し迫っている衝突を示す前記少なくとも１つのトップビューマップに応答する衝突回避のために、車両の操作を制御するコンピュータ処理システム。

【発明の詳細な説明】

【技術分野】

【0001】

関連出願情報
本出願は、２０２０年２月１１日に出願された米国特許出願第１６／７８７，７２７号の優先権を主張し、この出願は、２０１９年３月７日に出願された米国仮特許出願第６２／８１４，８８６号の優先権を主張し、その内容は、その全体が参照により本明細書に組み込まれる。

【背景技術】

【0002】

本発明は、機械学習に関し、より詳細には、場面理解および高度な運転者支援システムのためのアプリケーションを有するマルチタスク感知ネットワークに関する。
関連技術の説明

【0003】

多くの場面理解システムおよび高度な運転者支援システムは、物体検出、意味的セグメンテーションおよび奥行き推定などの様々な感知タスクを実行することを必要とし、これらは、通常、別個のモジュールとみなされ、独立の畳み込みニューラルネットワーク（ＣＮＮ）として実装される。しかしながら、上記のアプローチにはいくつかの欠点がある。第１に、それは多くの計算資源を必要とし、例えばタスク特定ネットワークを実行するために１つの画像処理ユニット（ＧＰＵ）が必要である。第２に、それは物体検出や意味的セグメンテーションのような個々の感知タスク間の相互特徴を無視する。したがって、場面理解および高度な運転者支援システムのためのマルチタスク感知ネットワークを使用するための改善されたアプローチが必要とされている。

【発明の概要】

【0004】

本発明の一態様によれば、高度な運転者支援システム（ＡＤＡＳ）において、コンピュータによって実現される方法が提供される。前記方法は、ハードウェアプロセッサによって、マルチタスク畳込みニューラルネットワーク（ＣＮＮ）を用いて、複数の画像を含む入力映像ストリームから異なる感知タスク間で共有される特徴を抽出することを含む。前記異なる感知タスクは、物体検出および他の感知タスクを含む。前記方法はさらに、前記ハードウェアプロセッサによって、前記マルチタスクＣＮＮを用いて、複数の異なる感知タスクの出力を提供するための、前記マルチタスクＣＮＮのそれぞれの異なる分岐によって、前記共有される特徴の対応するものを同時に処理することによって、単一の経路で前記異なる感知タスクを同時に解決することを含む。前記それぞれ異なる分岐のそれぞれが、前記異なる感知タスクのそれぞれの１つに対応する。前記方法はまた、前記複数の異なる感知タスクの出力に応答する少なくとも１つのトップビューマップとして運転場面のパラメトリック表現を形成することを含む。さらに前記方法は、差し迫っている衝突を示す前記少なくとも１つのトップビューマップに応答する衝突回避のために、車両の操作を制御することを含む。

【0005】

本発明の別の態様によれば、高度な運転者支援のためのコンピュータプログラム製品が提供される。コンピュータプログラム製品は、共に実施されるプログラム命令を有する非一時的なコンピュータ可読記憶媒体を含む。前記プログラム命令は方法をコンピュータにより実行可能である。前記方法は、マルチタスク畳込みニューラルネットワーク（ＣＮＮ）を用いて、複数の画像を含む入力映像ストリームから異なる感知タスク間で共有される特徴を抽出する。前記異なる感知タスクは、物体検出および他の感知タスクを含む。前記方法はさらに、前記マルチタスクＣＮＮを用いて、複数の異なる感知タスクの出力を提供するための、前記マルチタスクＣＮＮのそれぞれの異なる分岐によって、前記共有される特徴の対応するものを同時に処理することによって、単一の経路で前記異なる感知タスクを同時に解決することを含む。前記それぞれ異なる分岐のそれぞれが、前記異なる感知タスクのそれぞれの１つに対応する。前記方法はまた、ハードウェアプロセッサによって、前記複数の異なる感知タスクの出力に応答する少なくとも１つのトップビューマップとして運転場面のパラメトリック表現を形成することを含む。前記方法はさらに、ハードウェアプロセッサによって、差し迫っている衝突を示す前記少なくとも１つのトップビューマップに応答する衝突回避のために、車両の操作を制御することを含む。

【0006】

本発明のさらに別の態様によれば、高度な運転者支援のためのコンピュータ処理システムが提供される。コンピュータ処理システムは、記憶されたプログラムコードを含むメモリデバイスを含む。コンピュータ処理システムはさらに、前記メモリデバイスに動作可能に結合され、前記メモリデバイスに記憶された前記プログラムコードを実行するように構成され、マルチタスク畳込みニューラルネットワーク（ＣＮＮ）を用いて、複数の画像を含む入力映像ストリームから異なる感知タスク間で共有される特徴を抽出するように構成されたたハードウェアプロセッサを含む。前記異なる感知タスクは、物体検出および他の感知タスクを含む。前記ハードウェアプロセッサはさらに、前記マルチタスクＣＮＮを用いて、複数の異なる感知タスクの出力を提供するための、前記マルチタスクＣＮＮのそれぞれの異なる分岐によって、前記共有される特徴の対応するものを同時に処理することによって、単一の経路で前記異なる感知タスクを同時に解決するために前記プログラムコードを実行する。前記それぞれ異なる分岐のそれぞれが、前記異なる感知タスクのそれぞれの１つに対応する。前記ハードウェアプロセッサはさらに、前記複数の異なる感知タスクの出力に応答する少なくとも１つのトップビューマップとして運転場面のパラメトリック表現を形成するために前記プログラムコードを実行する。前記ハードウェアプロセッサはまた、差し迫っている衝突を示す前記少なくとも１つのトップビューマップに応答する衝突回避のために、車両の操作を制御するために前記プログラムコードを実行する。

【0007】

これらおよび他の特徴および利点は、添付の図面に関連して読まれるべき、その例示的な実施形態の以下の詳細な説明から明らかになるであろう。

【図面の簡単な説明】

【0008】

本開示は、以下の図面を参照して、好ましい実施形態の以下の説明において詳細を提供する。

【0009】

【図1】本発明の一実施形態による例示的な処理システムを示すブロック図である。

【0010】

【図2】本発明の一実施形態による、例示的なアプリケーション概要を示す図である。

【0011】

【図3】図３は、本発明の一実施形態による、例示的なマルチタスク感知ネットワークを示すブロック図である。

【0012】

【図4】本発明の一実施形態による、図３のマルチタスクＣＮＮをさらに示すブロック図である。

【0013】

【図5】本発明の一実施形態による、マルチタスク感知ネットワークのための例示的な方法を示す流れ図である。

【0014】

【図6】本発明の一実施形態による、例示的な高度な運転者支援システム（ＡＤＡＳ）を示すブロック図である。

【発明を実施するための形態】

【0015】

本発明の実施形態は、場面理解および高度な運転者支援システム（ＡＤＡＳ）のためのアプリケーションを有するマルチタスク感知ネットワークを対象とする。

【0016】

本発明の１つまたは複数の実施形態は、個々の感知タスク間の相互特徴を探索し、単一のＧＰＵ上で効率的に実行するマルチタスク感知ネットワークを提案する。さらに、本発明者らは、場面理解および高度な運転者支援システムに対する本発明の応用を実証した。

【0017】

一実施形態では、本発明は、単一の入力画像から、物体検出、意味的セグメンテーション、奥行き推定、遮蔽推論、および３Ｄ物体定位などの異なる感知タスクを同時に実行するための新規なＣＮＮアーキテクチャを提案する。特に、入力画像は、最初に、異なる感知タスクにわたって共有するための特徴を抽出する特徴抽出モジュールを通過する。次に、これらの共有された特徴は、タスク固有のブランチに供給され、各ブランチは、１つまたは複数の感知タスクを実行する。特徴抽出モジュールを共有することによって、本発明のネットワークは、個々の感知タスク間で共有される特徴を探索し、単一のＧＰＵ上で効率的に実行することができる。さらに、マルチタスク感知ネットワークのアプリケーションを、場面理解および高度な運転者支援システムに向けて説明する。もちろん、本発明は、本明細書で提供される本発明の教示を前提として、当業者によって容易に理解されるように、他の用途に適用することができる。

【0018】

図１は、本発明の一実施形態による例示的な処理システム１００を示すブロック図である。処理システム１００は、１組の処理ユニット（例えば、ＣＰＵ）１０１と、１組のＧＰＵ１０２と、１組のメモリデバイス１０３と、１組の通信デバイス１０４と、１組の周辺機器１０５とを含む。ＣＰＵ１０１は、シングルまたはマルチコアＣＰＵとすることができる。ＧＰＵ１０２は、シングルまたはマルチコアＧＰＵとすることができる。１つまたは複数のメモリデバイス１０３は、キャッシュ、ＲＡＭ、ＲＯＭ、および他のメモリ（フラッシュ、光、磁気など）を含むことができる。通信デバイス１０４は、無線および／または有線通信デバイス（例えば、ネットワーク（例えば、ＷＩＦＩなど）アダプタなど）を含むことができる。周辺機器１０５は、表示デバイス、ユーザ入力デバイス、プリンタ、撮像デバイスなどを含むことができる。処理システム１００の要素は、１つまたは複数のバスまたはネットワーク（まとめて図参照番号１１０で示す）によって接続される。

【0019】

一実施形態では、メモリデバイス１０３は、特別にプログラムされたソフトウェアモジュールを記憶して、コンピュータ処理システムを、本発明の様々な態様を実施するように構成された特別目的のコンピュータに変換することができる。一実施形態では、特別な目的のハードウェア（例えば、特定用途向け集積回路、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）など）を使用して、本発明の様々な態様を実施することができる。一実施形態では、メモリデバイス１０３は、場面理解および高度な運転者支援システム（ＡＤＡＳ）のためのマルチタスク感知ネットワーク１０３Ａを含む。

【0020】

もちろん、処理システム１００は、当業者によって容易に企図されるように、他の要素（図示せず）を含んでもよく、また、特定の要素を省略してもよい。例えば、当業者によって容易に理解されるように、様々な他の入力デバイスおよび／または出力デバイスを、その特定の実装に応じて、処理システム１００に含めることができる。例えば、様々なタイプの無線および／または有線の入力および／または出力デバイスを使用することができる。さらに、様々な構成の追加のプロセッサ、コントローラ、メモリなどを利用することもできる。処理システム１００のこれらおよび他の変形は、本明細書で提供される本発明の教示を与えられれば、当業者によって容易に企図される。

【0021】

さらに、システム１００の１つまたは複数の要素によって全体的または部分的に実装され得る、本発明に関連する様々な要素およびステップに関して以下で説明される様々な図が理解されるべきである。

【0022】

本明細書で採用されるように、「ハードウェアプロセッササブシステム」または「ハードウェアプロセッサ」という用語は、１つ以上の特定のタスクを実行するために協働するプロセッサ、メモリ、ソフトウェアまたはそれらの組み合わせを指すことができる。有用な実施形態では、ハードウェアプロセッササブシステムは、１つまたは複数のデータ処理要素（例えば、論理回路、処理回路、命令実行デバイスなど）を含むことができる。１つまたは複数のデータ処理要素は、中央処理ユニット、画像処理ユニットおよび／または別個のプロセッサまたはコンピューティング要素ベースのコントローラ（たとえば、論理ゲートなど）に含めることができる。ハードウェアプロセッササブシステムは、１つ以上のオンボードメモリ（例えば、キャッシュ、専用メモリアレイ、読み出し専用メモリなど）を含むことができる。いくつかの実施形態では、ハードウェアプロセッササブシステムは、オンボードまたはオフボードにすることができるか、またはハードウェアプロセッササブシステム（例えば、ＲＯＭ、ＲＡＭ、基本入出力システム（ＢＩＯＳ）など）によって使用するために専用にすることができる１つ以上のメモリを含むことができる。

【0023】

ある実施形態では、ハードウェアプロセッササブシステムは、１つ以上のソフトウェア要素を含むことができ、実行することができる。１つ以上のソフトウェア要素は、特定の結果を達成するために、オペレーティングシステムおよび／または１つ以上のアプリケーションおよび／または特定のコードを含むことができる。

【0024】

他の実施形態では、ハードウェアプロセッササブシステムは、指定された結果を達成するために１つまたは複数の電子処理機能を実行する専用の専用回路を含むことができる。そのような回路は、１つまたは複数のアプリケーション専用集積回路（ＡＳＩＣ）、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、および／またはプログラマブルロジックアレイ（ＰＬＡ）を含むことができる。

【0025】

ハードウェアプロセッササブシステムのこれらおよび他の変形もまた、本発明の実施形態に従って企図される。

【0026】

図２は、本発明の一実施形態による、例示的なアプリケーション概要２００を示す図である。

【0027】

アプリケーション概要２００は、入力映像２１０、マルチタスク感知ネットワーク２２０、２Ｄ物体検出２３１、３Ｄ物体検出２３２、意味的セグメンテーション２３３、奥行き推定２３４、遮蔽推論２３５、動作および物体追跡および３Ｄ定位からの構造２４０、トップビューマップ２５０、ならびに場面理解および高度な運転者支援システムアプリケーション２６０を含む。

【0028】

図２は、場面理解およびＡＤＡＳ２６０を含むマルチタスク感知ネットワークの例示的なアプリケーションを示す。具体的には、入力映像２１０が与えられると、感知ネットワーク２２０は、各フレームを単一の順方向経路で別々に処理し、２Ｄ物体検出２３１、３Ｄ物体検出２３２、意味的セグメンテーション２３３、奥行き推定２３４および遮蔽推論２３５を含むリッチなフレームごとの出力を生成する。次に、これらのフレームごとの出力を組み合わせて、動作、物体追跡、３Ｄ定位２４０およびトップビューマップ推定モジュールから構造に供給して、車線の数、道路トポロジおよび交差点までの距離などの場面配置の詳細、ならびに場面配置と一致する物体の定位を含む、取得された場面の時間的および空間的に一貫したトップビューマップ２５０表現を生成することができる。詳細なトップビューマップ表現は、場面理解およびＡＤＡＳ２６０（例えば、盲点推論、経路計画、衝突回避（ステアリング、ブレーキ入力等を介する）等）のような様々なアプリケーションに有用であり得る。

【0029】

図３は、本発明の一実施形態による例示的なマルチタスク感知ネットワーク３００を示すブロック図である。

【0030】

ネットワーク３００は、入力映像３０１を受信する。

【0031】

このネットワークは、マルチタスク畳み込みニューラルネットワーク（ＣＮＮ）３１０と、動作からの構造構成要素３２０と、物体追跡構成要素３３０と、３Ｄ定位構成要素３４０と、トップビューマップ３５０と、アプリケーション３６０とを含む。

【0032】

入力映像３０１は、画像の映像ストリームであってもよい（例えば、ＲＧＢまたは他のタイプ）。

【0033】

マルチタスクＣＮＮ３１０は、入力として（ＲＧＢ）画像を取り込み、多数の出力を生成する。マルチタスクＣＮＮ３１０は、複数のタスクを一度に解決するように構成される。

【0034】

物体追跡構成要素３３０は、入力映像３０１のフレームごとに、マルチタスクＣＮＮ３１０から物体インスタンスの２Ｄまたは３Ｄバウンディングボックスを受け取る。物体追跡構成要素３３０は、２Ｄおよび／または３Ｄバウンディングボックスの両方で動作することができる。物体追跡構成要素３３０のタスクは、異なるフレームにわたって、すなわち時間にわたって２Ｄ／３Ｄバウンディングボックスを関連付けることである。バウンディングボックス間の関連付けは、これらのバウンディングボックスが物体のまったく同じインスタンスを取得することを示す。

【0035】

動作からの構造構成要素３２０は、ＲＧＢ画像３０１の映像ストリームを入力として取り込み、映像の最初のフレームに対する相対カメラポーズを出力する。したがって、動作からの構造構成要素３２０は、カメラ自体が空間および時間を通してどのように動いているかを測定する。２Ｄまたは３Ｄバウンディングボックスの入力は、静的世界についての内部の仮定を満たさない場面の動的部分を無視することができるので、動作からの構造構成要素３２０がその推定値を改善するのに役立つ。

【0036】

３Ｄ定位構成要素３４０は、推定されたカメラポーズとフレームごとの３Ｄバウンディングボックスとを統合して、時間の経過とともに一貫した洗練された３Ｄバウンディングボックスを予測する。

【0037】

トップビューマップ３５０は、上面から取得された場面の一貫した意味表現を生成する。トップビューマップ３５０は、マルチタスクＣＮＮ３１０からの複数の出力、すなわち、遮蔽推論された画素ごとの意味論および奥行き推定、ならびに３Ｄ定位構成要素３４０からの洗練された３Ｄバウンディングボックスを統合する。出力は、車線の数、道路配置のトポロジ、交差点までの距離、横断歩道および歩道の存在、ならびにいくつかのより多くの属性を含む、複雑な運転場面のパラメトリック表現である。また、場面配置と一致する物体インスタンス（３Ｄ定位構成要素３４０から与えられる）の定位も提供する。

【0038】

アプリケーション３６０に関して、トップビューマップ３５０によって与えられる意味的およびパラメトリックトップビュー表現は、その場面の有用な抽象化であり、多くの異なるアプリケーションに役立つことができる。それは閉塞領域についての理由であるので、１つの用途は盲点推論である。それは道路配置の計量的に正しい記述を含むため、別のアプリケーションは経路計画であることができる。これらは、トップビューマップ３５０の出力の上に構築される潜在的なアプリケーションの２つの例にすぎない。

【0039】

図４は、本発明の一実施形態による、図３のマルチタスクＣＮＮ３１０をさらに示すブロック図である。

【0040】

マルチタスクＣＮＮ３１０は、共有特徴抽出構成要素４１０と、タスク固有ＣＮＮ４２０と、訓練データ４３０とを含む。

【0041】

タスク固有ＣＮＮ４２０は、２Ｄ物体検出構成要素４２１と、３Ｄ物体検出構成要素４２２と、奥行き推定構成要素４２３と、意味的セグメンテーション構成要素４２４と、遮蔽推論構成要素４２５とを含む。

【0042】

訓練データ４３０は、２Ｄ物体ボックス４３１、３Ｄ物体ボックス４３２、まばらな３Ｄポイント４３３および意味的画素４３４を含む。まばらな３Ｄポイントは、カメラとの距離も取得するカメラを基準とした３Ｄ空間の実点である。このようなまばらな３Ｄポイントは、典型的には、レーザスキャナ（Ｌｉｄａｒ）を用いて収集され、ネットワークが物体までの距離を推定するのに役立つ。

【0043】

上述のように、マルチタスクＣＮＮ３１０は、入力としてＲＧＢ画像を取り込み、（タスク固有ＣＮＮ４２０のための）多数の出力を生成する。計算のボールパークは、全ての異なる出力に対して依然として共有される。共有特徴抽出構成要素４１０およびタスク固有ＣＮＮ４２０は、訓練データ４３０で推定される必要があるいくつかのパラメータを有する１つの共同畳み込みニューラルネットワークとして実装される。

【0044】

共有特徴抽出部４１０は、畳み込みニューラルネットワーク（ＣＮＮ）として表現されている。このＣＮＮの特定のアーキテクチャは、入力画像に比例する空間次元の特徴マップを生成する限り、任意に選択することができる。このアーキテクチャは、利用可能な計算リソースに応じて適合させることができ、これにより、オフラインアプリケーションのための重く強い特徴表現、ならびにリアルタイムアプリケーションのためのより弱いがより軽い特徴表現が可能になる。

【0045】

タスク固有ＣＮＮ４２０に関して、ブロック２１０からの共有特徴表現が与えられると、ＣＮＮ４２０は、その上にいくつかのタスク固有サブＣＮＮを適用する。これらのサブＣＮＮは、共有特徴抽出構成要素４１０と比較して軽量であり、実行時間のほんの一部しか必要としない。これにより、システムの全体的な実行時間を大幅に増加させることなく、多数のタスクの出力を見積もることができる。一実施形態では、以下の出力が推定される。

【0046】

タスク固有ＣＮＮ４２０の様々な構成要素が、本発明の１つまたは複数の実施形態に従って、ここで説明される。

【0047】

２Ｄ物体検出構成要素４２１の出力は、例えば、自動車、人、停車標識、交通信号などの物体カテゴリのあらかじめ定義されたセットのすべてのインスタンスの範囲を描写するバウンディングボックス（画像空間内の４つの座標、信頼スコア、およびカテゴリラベル）のリストである。

【0048】

３Ｄ物体検出構成要素４２２に関して、（２Ｄ物体検出構成要素４２１からの）２Ｄにおける各検出された物体について、システムは、実際の３Ｄ空間（例えば、メートルまたは他の何らかの単位で）においてその物体を囲む３Ｄバウンディングボックスを推定する。この推定値は、取得された場面を完全に理解するための重要な情報である、各物体の３Ｄ位置、向きおよび寸法を提供する。

【0049】

奥行き推定構成要素４２３は、入力画像内の各画素に距離（例えば、メートル単位または他の何らかの単位）を割り当てる。

【0050】

意味的セグメンテーション構成要素４２４は、入力画像内の各画素に、道路、歩道、建物、空、車、または人のような意味的なカテゴリを割り当てる。上述したリストは、限定的なものではない。カテゴリのセットは、２Ｄ物体検出構成要素４２１内のカテゴリのセットとは異なるが、いくつかの項目は等しい。重要なことは、意味的セグメンテーション構成要素４２４内のセットは、バウンディングボックス、例えば道路ではうまく描写できないカテゴリを含むことである。

【0051】

遮蔽推論構成要素４２５は、前景物体によって遮蔽されるすべての画素について、意味論および距離を推定する。意味的セグメンテーション構成要素４２４からのカテゴリのサブセットは、自動車、歩行者またはポールのような、場面を遮蔽することができる前景カテゴリとして定義される。上述したリストは、限定的なものではない。遮蔽推論構成要素４２５にも入力される意味的セグメンテーション構成要素４２４の出力において、これらのカテゴリに割り当てられたすべての画素は、遮蔽領域としてマークされる。遮蔽推論構成要素４２５は、（背景技術カテゴリのセットからの）カテゴリを、あたかもそれが遮蔽されていないかのように各遮蔽された領域に割り当てる。遮蔽推論構成要素４２５は、本質的に、遮蔽画素を取り囲むコンテキスト情報、ならびに遮蔽画素の意味的カテゴリを推定するために訓練データから自動的に学習された以前のものを活用している。同じことが、遮蔽された領域の距離についても起こる。重要なことに、他のすべての構成要素と同様に、遮蔽推論構成要素４２５は、共有特徴抽出構成要素４１０によって与えられる特徴表現に対してのみ機能し、また、システム全体にわずかな実行時間を追加するだけである。

【0052】

訓練データ４３０は、共有特徴抽出構成要素４１０およびタスク固有ＣＮＮ４２０に関して説明した畳み込みニューラルネットワーク（ＣＮＮ）のパラメータを推定するために必要である。再び、ＣＮＮは、エンド・ツー・エンドで訓練することができる、すなわち、上記で定義されたタスクのいずれかについて入力ＲＧＢ画像およびグランドトゥルースデータを与えられる統一モデルである。データをより良く活用するために、一実施形態では、各入力画像がすべてのタスクについて注釈付けされるという限定的な仮定を行わない。一実施形態では、本発明者らは、画像が少なくとも１つのタスクについて注釈付けされることのみを必要とする。次に、１つ（または複数）のタスクに対する入力ＲＧＢ画像およびグランドトゥルースデータが与えられると、訓練アルゴリズムは、この（これらの）タスクに関連するパラメータを更新する。共有特徴抽出構成要素４１０からの共有特徴表現は、常に関与することに留意されたい。これらの更新は、パラメータがすべてのタスクのいくつかの損失関数に従って収束するまで、すべての異なるタスクの画像およびグランドトゥルースを用いて繰り返される。本発明のマルチタスクＣＮＮを訓練するために必要なグランドトゥルースデータは、２Ｄバウンディングボックス４３１、３Ｄバウンディングボックス４３２、（例えば、レーザスキャナからの）まばらな３Ｄポイント４３３、および各画素についての意味カテゴリ（意味的画素４３４）である。

【0053】

遮蔽推論構成要素４２５は、場面の遮蔽された領域についての注釈を必要とせず、これは費用がかかり、獲得するのが困難であることに留意することが重要である。

【0054】

図５は、本発明の一実施形態による、マルチタスク感知ネットワークのための例示的な方法５００を示す流れ図である。方法５００は、場面理解およびＡＤＡＳを含むアプリケーションに適用することができる。

【0055】

ブロック５０５において、マルチタスク畳み込みニューラルネットワーク（ＣＮＮ）を使用して、複数の画像を含む入力映像ストリームから、異なる感知タスクにわたって共有される特徴を抽出し、異なる感知タスクは、２Ｄおよび３Ｄ物体検出、奥行き推定、意味的推定、および遮蔽推論のうちの少なくともいくつかを含む。

【0056】

ブロック５１０で、マルチタスクＣＮＮを使用して、マルチタスクＣＮＮのそれぞれの異なる分岐によって共有特徴の対応するものを同時に処理して、複数の異なる感知タスク出力を提供することによって、単一の経路で異なる感知タスクを同時に解決する。それぞれの異なる分岐の各々は、異なる感知タスクのそれぞれ１つに対応する。

【0057】

ブロック５１５では、異なるピクチャにわたって２Ｄおよび３Ｄバウンディングボックスを関連付けて、３次元物体追跡を取得する。

【0058】

ブロック５２０では、２Ｄおよび３Ｄバウンディングボックスを処理して、カメラポーズを判定する。

【0059】

ブロック５２５では、３次元物体追跡およびカメラポーズに応答する２Ｄおよび３Ｄバウンディングボックスによってカプセル化された物体を定位して、洗練された３Ｄ物体追跡を提供する。

【0060】

ブロック５３０において、複数の異なる感知タスク出力（例えば、意味的セグメンテーション、奥行き推定および遮蔽推論）のうちの少なくともいくつか、および洗練された３Ｄ物体追跡に応答して、少なくとも１つのトップビューマップとして、運転場面のパラメトリック表現を形成する。複数の異なる感知タスク出力の残りのものは、洗練された３Ｄ物体追跡を形成するために使用されたことに留意されたい。

【0061】

ブロック５３５では、差し迫っている衝突を示す少なくとも１つの上面図マップに応答する衝突回避のための車両の操作を制御する。

【0062】

図６は、本発明の一実施形態による、追跡物体検出に基づく例示的な高度な運転者支援システム（ＡＤＡＳ）６００を示す。

【0063】

ＡＤＡＳ６００は、ユーザ２６８８が、各々がそれ自体の位置および軌跡を有する複数の物体６９９を有する場面内に位置する環境６０１で使用される。ユーザ６８８は、車両６７２（例えば、車、トラック、オートバイなど）を操作している。

【0064】

ＡＤＡＳ６００は、カメラシステム６１０を含む。図２では、例示および簡潔さのために単一のカメラシステム６１０が示されているが、本発明の精神を維持しながら、複数のカメラシステムを使用することもできることを理解されたい。ＡＤＡＳ６００は、本発明に従って物体検出を実行するように構成されたサーバ６２０をさらに含む。サーバ６２０は、プロセッサ６２１、メモリ６２２および無線トランシーバ６２３を含むことができる。リモートサーバ６２０のプロセッサ６２１およびメモリ６２２は、リモートサーバ６２０（の無線トランシーバ６２３）によってカメラシステム６１０から受信された画像に基づいて運転者支援機能を実行するように構成することができる。このようにして、ユーザ６８８および／または車両６７２によって是正措置をとることができる。

【0065】

ＡＤＡＳ６００は、ユーザが操作している車両６７２の１つまたは複数のシステムを介してユーザとインターフェースすることができる。例えば、ＡＤＡＳ６００は、車両６７２のシステム６７２Ａ（例えば、ディスプレイシステム、スピーカシステム、および／または何らかの他のシステム）を介して、ユーザ情報（例えば、検出された物体、それらの位置、提案されたアクションなど）を提供することができる。さらに、ＡＤＡＳ６００は、車両を制御するために、または車両６７２に１つまたは複数の動作を実行させるために、（例えば、ステアリングシステム、ブレーキシステム、加速システム、ステアリングシステムなどを含むがこれらに限定されない車両６７２の１つまたは複数のシステムを介して）車両６７２自体とインターフェースすることができる。このようにして、ユーザまたは車両６７２自体は、これらの物体６９９の周りをナビゲートして、それらの間の潜在的な衝突を回避することができる。

【0066】

本明細書に記載する実施形態は、完全にハードウェアであってもよく、完全にソフトウェアであってもよく、または、ハードウェアおよびソフトウェア要素の両方を含むものであってもよい。好ましい実施形態では、本発明は、ファームウェア、常駐ソフトウェア、マイクロコードなどを含むが、これらに限定されないソフトウェアで実施される。

【0067】

実施形態は、コンピュータまたは任意の命令実行システムによって、またはそれに関連して使用するためのプログラムコードを提供する、コンピュータ使用可能またはコンピュータ可読媒体からアクセス可能なコンピュータプログラム製品を含むことができる。コンピュータ使用可能媒体またはコンピュータ可読媒体は、命令実行システム、装置、またはデバイスによって、またはそれに関連して使用するためのプログラムを格納、通信、伝搬、またはトランスポートする任意の装置を含むことができる。媒体は、磁気、光学、電子、電磁気、赤外線、または半導体システム（または装置またはデバイス）、または伝搬媒体とすることができる。媒体は、半導体または固体ステートメモリ、磁気テープ、リムーバブルコンピュータディスケット、ランダムアクセスメモリ（ＲＡＭ）、リードオンリーメモリ（ＲＯＭ）、リジッド磁気ディスクおよび光ディスクなどのコンピュータ読み取り可能な記憶媒体を含むことができる。

【0068】

各コンピュータプログラムは、本明細書に記載する手順を実行するために、記憶媒体または装置がコンピュータによって読み取られるときに、コンピュータの操作を構成し制御するために、汎用または特殊目的のプログラム可能コンピュータによって読み取り可能な、機械読み取り可能な記憶媒体または装置（例えば、プログラムメモリまたは磁気ディスク）に実体的に記憶することができる。本発明のシステムはまた、コンピュータプログラムで構成された、コンピュータ読み取り可能な記憶媒体で実施されるものと考えることができ、その場合、構成された記憶媒体は、コンピュータを特定の所定の方法で動作させて、本明細書に記載する機能を実行させる。

【0069】

プログラムコードを記憶および／または実行するのに適したデータ処理システムは、システムバスを介してメモリ要素に直接的または間接的に結合された少なくとも１つのプロセッサを含んでもよい。メモリ要素は、プログラムコードの実際の実行中に採用されるローカルメモリ、バルクストレージ、および実行中にバルクストレージからコードが検索される回数を減らすために少なくとも何らかのプログラムコードの一時記憶を提供するキャッシュメモリを含むことができる。入力／出力またはＩ／Ｏ装置（キーボード、ディスプレイ、ポインティング装置などを含むが、これらに限定されない）は、直接または介在するＩ／Ｏコントローラを介してシステムに結合され得る。

【0070】

介在する専用ネットワークまたは公衆ネットワークを介して、データ処理システムを他のデータ処理システムあるいはリモートプリンタまたはストレージデバイスに結合できるようにするために、ネットワークアダプタをシステムに結合することもできる。モデム、ケーブルモデム、およびイーサネット（登録商標）カードは、現在使用可能なネットワークアダプタのタイプの一例に過ぎない。

【0071】

本明細書において、本発明の「一実施形態」又は「一実施形態」とは、その他の変形例と同様に、その実施形態に関連して説明した特定の特徴、構造、特性等が、本発明の少なくとも一実施形態に含まれることを意味するものであり、「一実施形態において」又は「一実施形態において」の語句の出現、並びに本明細書全体の様々な箇所に出現する他の変形例は、必ずしも全て同一の実施形態を意味するものではない。しかしながら、本明細書で提供される本発明の教示を前提として、１つまたは複数の実施形態の特徴を組み合わせることができることを理解されたい。

【0072】

以下の「／」、「および／または」、および「少なくとも１つ」、例えば、「Ａ／Ｂ」、「Ａおよび／またはＢ」、および「ＡおよびＢの少なくとも１つ」のいずれかの使用は、第１のリストされた実施例（Ａ）のみの選択、または第２のリストされた実施例（Ｂ）のみの選択、または両方の実施例（ＡおよびＢ）の選択を包含することが意図されることを理解されたい。さらなる例として、「Ａ、Ｂ、および／またはＣ」、および「Ａ、Ｂ、およびＣの少なくとも１つ」の場合、このような句は、第１のリストされた実施例（Ａ）のみの選択、または第２のリストされた実施例（Ｂ）のみの選択、または第３のリストされた実施例（Ｃ）のみの選択、または第１および第２のリストされた実施例（ＡおよびＢ）のみの選択、または第１および第３のリストされた実施例（ＡおよびＣ）のみの選択、または第２および第３のリストされた実施例（ＢおよびＣ）のみの選択、または３つすべての実施例（ＡおよびＢおよびＣ）の選択を包含することを意図する。これは、列挙された項目の数だけ拡張することができる。

【0073】

上記は、あらゆる点で例示的かつ例示的であるが、限定的ではないと理解されるべきであり、本明細書に開示される本発明の範囲は、詳細な説明からではなく、むしろ特許法によって許容される全範囲に従って解釈されるような特許請求の範囲から決定されるべきである。本明細書に示され、説明された実施形態は、本発明の例示にすぎず、当業者は、本発明の範囲および精神から逸脱することなく、様々な修正を実施することができることを理解されたい。当業者は、本発明の範囲および精神から逸脱することなく、様々な他の特徴の組み合わせを実施することができる。このように、本発明の態様を、特許法によって要求される詳細および特殊性と共に説明してきたが、特許状によって保護されることが請求され、望まれるものは、添付の特許請求の範囲に記載されている。

【図1】

【図2】

【図3】

【図4】

【図5】

【図6】

知財求人

青山学院大学 (神奈川県相模原市中央区淵野辺)

知財求人お知らせサービス

知財のニュースを調べる
- 知財ニュース
- 知財周辺ニュース
企業の特許を調べる
知財のセミナーを調べる
知財,特許事務所への求職・転職
特許事務所をさがす
弁理士試験を受ける
- 年の弁理士試験情報
- 弁理士試験の合格率など統計
知財の法律をしらべる
期限日をしらべる
- 今日に対して意見書・補正書の期限
- 今日に対して審査請求期限日
知財の判決をしらべる
コンテンツ・リンク
運営会社
プレスの皆様へ
- お問い合わせ
ユーザーの皆様
- お問い合わせ・フィードバック
広告掲載を希望の皆様へ
- 広告掲載について
- 求人広告の掲載について

IP Force 特許公報掲載プロジェクト 2022.1.31 β版