(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2022179383
(43)【公開日】2022-12-02
(54)【発明の名称】ジョイントリスクの位置特定を完了し、かつ運転シナリオにおいて推論するためのシステム及び方法
(51)【国際特許分類】
G06T 7/00 20170101AFI20221125BHJP
G06V 20/10 20220101ALI20221125BHJP
B60W 40/02 20060101ALI20221125BHJP
B60W 60/00 20200101ALI20221125BHJP
G08G 1/16 20060101ALI20221125BHJP
【FI】
G06T7/00 650B
G06V20/10
B60W40/02
B60W60/00
G08G1/16 C
【審査請求】有
【請求項の数】20
【出願形態】OL
(21)【出願番号】P 2022078721
(22)【出願日】2022-05-12
(31)【優先権主張番号】63/191,581
(32)【優先日】2021-05-21
(33)【優先権主張国・地域又は機関】US
(31)【優先権主張番号】17/388,256
(32)【優先日】2021-07-29
(33)【優先権主張国・地域又は機関】US
(71)【出願人】
【識別番号】000005326
【氏名又は名称】本田技研工業株式会社
(74)【代理人】
【識別番号】100106002
【弁理士】
【氏名又は名称】正林 真之
(74)【代理人】
【識別番号】100120891
【弁理士】
【氏名又は名称】林 一好
(74)【代理人】
【識別番号】100160794
【弁理士】
【氏名又は名称】星野 寛明
(74)【代理人】
【識別番号】100126000
【弁理士】
【氏名又は名称】岩池 満
(72)【発明者】
【氏名】マーラ・スリカンス
【テーマコード(参考)】
3D241
5H181
5L096
【Fターム(参考)】
3D241BA49
3D241CE02
3D241CE05
3D241CE08
3D241DC25Z
3D241DC30Z
3D241DC31Z
3D241DC34Z
3D241DC39Z
3D241DC50Z
3D241DC59Z
5H181AA01
5H181BB20
5H181CC04
5H181LL01
5H181LL02
5H181LL04
5H181LL06
5L096AA06
5L096BA04
5L096CA04
5L096FA16
5L096HA04
5L096HA11
(57)【要約】 (修正有)
【課題】ジョイントリスクの位置特定を完了し、かつ、運転シナリオにおいて推論するためのシステム、コンピュータ実装方法及び記憶媒体を提供する。
【解決手段】ジョイントリスクの位置特定を完了し、かつ運転シナリオにおいて推論する方法は、エゴエージェントの運転シーンに関連付けられた複数の画像を受信することと、複数の画像に関連付けられた画像データをエンコーダに入力することと、エゴエージェントの運転シーン内に位置する重要な交通エージェント及び重要な交通インフラストラクチャのうちの少なくとも1つを識別するデコーダに連結された特徴を入力することと、を含む。
【選択図】
図4
【特許請求の範囲】
【請求項1】
ジョイントリスクの位置特定を完了し、かつ運転シナリオにおいて推論するためのコンピュータ実装方法であって、
エゴエージェントの運転シーンに関連付けられた複数の画像を受信することと、
前記複数の画像に関連付けられた画像データをエンコーダに入力することであって、エンコードされた視覚的特徴及びエンコードされたオプティカルフロー特徴が、前記画像データから抽出されており、かつ前記エゴエージェントの前記運転シーンに関連付けられた連結された特徴に連結されている、入力することと、
前記連結された特徴を、前記エゴエージェントの前記運転シーン内に位置する重要な交通エージェント及び重要な交通インフラストラクチャのうちの少なくとも1つを識別するデコーダに入力することと、
前記エゴエージェントの少なくとも1つのシステムを制御して、前記エゴエージェントの前記運転シーン内に位置する前記重要な交通エージェント及び前記重要な交通インフラストラクチャのうちの少なくとも1つを説明するための応答を提供することと、を含む、コンピュータ実装方法。
【請求項2】
前記エンコードされた視覚的特徴が、前記エゴエージェントの前記運転シーンの画像属性及び特徴を含み、前記画像属性及び特徴が、前記運転シーンの各時間ステップでキャプチャされた前記画像の各々の複数の画素の各々内に含まれている前記運転シーンの視覚的観点に関する、請求項1に記載のコンピュータ実装方法。
【請求項3】
前記エンコードされたオプティカルフロー特徴が、複数の時間ステップにわたって前記運転シーン内に含まれるオブジェクトの運動に関し、前記エンコードされたオプティカルフロー特徴が、前記交通エージェントの動きによって引き起こされる2つ以上の連続する画像フレーム間の交通エージェントの運動の見掛けの変化をキャプチャする、請求項2に記載のコンピュータ実装方法。
【請求項4】
前記デコーダが、交通エージェント、交通インフラストラクチャ、画像レベル質疑応答、オブジェクト位置特定、及びオブジェクトレベル質疑応答に関連付けられた複数のアノテーションを提供するために分析されているアノテーションスキーマを含む、推論モジュールデータセット(ドラマデータセット)を有する事前トレーニングされた運転リスク評価メカニズムにアクセスする、請求項1に記載のコンピュータ実装方法。
【請求項5】
前記連結された特徴を前記デコーダに入力することが、前記ドラマデータセットにアクセスすることと、前記エゴエージェントの前記運転シーン内に位置する前記重要な交通エージェント及び前記重要な交通インフラストラクチャのうちの少なくとも1つを、前記ドラマデータセット内に含まれる前記複数のアノテーションに基づいて識別することと、を含む、請求項4に記載のコンピュータ実装方法。
【請求項6】
前記デコーダが、前記連結された特徴をデコードして、前記複数のアノテーションに基づくキャプションを予測及び生成するように構成されており、前記キャプションが、リスクに関する質問、前記エゴエージェントの意図、前記運転シーンのシーン分類、並びに前記重要な交通エージェント及び前記重要な交通インフラストラクチャのうちの少なくとも1つの位置に関する運転提案に基づく特定の運転シナリオに関する説明、分類、カテゴリー化、及び推奨を提供する、請求項5に記載のコンピュータ実装方法。
【請求項7】
前記運転シーン内に位置する各交通エージェントに関連付けられた交通エージェント特徴、及び前記運転シーン内に位置する各交通インフラストラクチャに関連付けられた交通インフラストラクチャ特徴が、エンコードされたグローバルシーン特徴に連結されており、前記キャプションが、前記エンコードされたグローバルシーン特徴との交通エージェント特徴及び交通インフラストラクチャ特徴の前記連結に基づく前記ドラマデータセット内に含まれている前記複数のアノテーションに基づく、請求項6に記載のコンピュータ実装方法。
【請求項8】
前記応答を提供するために前記エゴエージェントの少なくとも1つのシステムを制御することが、前記エゴエージェントの表示ユニットを制御して、計算され、かつ前記エゴエージェントの前記運転シーン内に位置する前記重要な交通エージェント及び前記重要な交通インフラストラクチャのうちの少なくとも1つの周りで拡張された、少なくとも1つの境界ボックスを提示して、前記ドラマデータセットの分析に基づいて決定された前記キャプションと一致させることを含む、請求項7に記載のコンピュータ実装方法。
【請求項9】
前記応答を提供するために前記エゴエージェントの少なくとも1つのシステムを制御することが、前記エゴエージェントの音声システムを制御して、特に、前記重要な交通エージェント及び前記重要な交通インフラストラクチャのうちの少なくとも1つの存在、位置、説明、及び重要性に関する、前記キャプションに基づくアラートを提供することを含み、前記キャプションが、前記重要な交通エージェント及び前記重要な交通インフラストラクチャのうちの少なくとも1つについて前記エゴエージェントを誘導するための運転提案を含む、請求項7に記載のコンピュータ実装方法。
【請求項10】
ジョイントリスクの位置特定を完了し、かつ運転シナリオにおいて推論するためのシステムであって、
命令を記憶しているメモリを備え、前記命令が、プロセッサによって実行されると、前記プロセッサに、
エゴエージェントの運転シーンに関連付けられた複数の画像を受信することと、
前記複数の画像に関連付けられた画像データをエンコーダに入力することであって、エンコードされた視覚的特徴及びエンコードされたオプティカルフロー特徴が、前記画像データから抽出されており、かつ前記エゴエージェントの前記運転シーンに関連付けられた連結された特徴に連結されている、入力することと、
前記連結された特徴を、前記エゴエージェントの前記運転シーン内に位置する重要な交通エージェント及び重要な交通インフラストラクチャのうちの少なくとも1つを識別するデコーダに入力することと、
前記エゴエージェントの少なくとも1つのシステムを制御して、前記エゴエージェントの前記運転シーン内に位置する前記重要な交通エージェント及び前記重要な交通インフラストラクチャのうちの少なくとも1つを説明するための応答を提供することと、を行わせる、システム。
【請求項11】
前記エンコードされた視覚的特徴が、前記エゴエージェントの前記運転シーンの画像属性及び特徴を含み、前記画像属性及び特徴が、前記運転シーンの各時間ステップでキャプチャされた前記画像の各々の複数の画素の各々内に含まれている前記運転シーンの視覚的観点に関する、請求項10に記載のシステム。
【請求項12】
前記エンコードされたオプティカルフロー特徴が、複数の時間ステップにわたって前記運転シーン内に含まれているオブジェクトの運動に関し、前記エンコードされたオプティカルフロー特徴が、前記交通エージェントの動きによって引き起こされる2つ以上の連続する画像フレーム間の交通エージェントの運動の見掛けの変化をキャプチャする、請求項11に記載のシステム。
【請求項13】
前記デコーダが、交通エージェント、交通インフラストラクチャ、画像レベル質疑応答、オブジェクト位置特定、及びオブジェクトレベル質疑応答に関連付けられた複数のアノテーションを提供するために分析されているアノテーションスキーマを含む、推論モジュールデータセット(ドラマデータセット)を有する事前トレーニングされた運転リスク評価メカニズムにアクセスする、請求項10に記載のシステム。
【請求項14】
前記連結された特徴を前記デコーダに入力することが、前記ドラマデータセットにアクセスすることと、前記エゴエージェントの前記運転シーン内に位置する前記重要な交通エージェント及び前記重要な交通インフラストラクチャのうちの少なくとも1つを、前記ドラマデータセット内に含まれる前記複数のアノテーションに基づいて識別することと、を含む、請求項13に記載のシステム。
【請求項15】
前記デコーダが、前記連結された特徴をデコードして、前記複数のアノテーションに基づくキャプションを予測及び生成するように構成されており、前記キャプションが、リスクに関する質問、前記エゴエージェントの意図、前記運転シーンのシーン分類、並びに前記重要な交通エージェント及び前記重要な交通インフラストラクチャのうちの少なくとも1つの位置に関する運転提案に基づく特定の運転シナリオに関する説明、分類、カテゴリー化、及び推奨を提供する、請求項14に記載のシステム。
【請求項16】
前記運転シーン内に位置する各交通エージェントに関連付けられた交通エージェント特徴及び前記運転シーン内に位置する各交通インフラストラクチャに関連付けられた交通インフラストラクチャ特徴が、エンコードされたグローバルシーン特徴に連結されており、前記キャプションが、前記エンコードされたグローバルシーン特徴との交通エージェント特徴及び交通インフラストラクチャ特徴の前記連結に基づく前記ドラマデータセット内に含まれている前記複数のアノテーションに基づく、請求項15に記載のシステム。
【請求項17】
前記応答を提供するために前記エゴエージェントの少なくとも1つのシステムを制御することが、前記エゴエージェントの表示ユニットを制御して、計算され、かつ前記エゴエージェントの前記運転シーン内に位置する前記重要な交通エージェント及び前記重要な交通インフラストラクチャのうちの少なくとも1つの周りで拡張された、少なくとも1つの境界ボックスを提示して、前記ドラマデータセットの分析に基づいて決定された前記キャプションと一致させることを含む、請求項16に記載のシステム。
【請求項18】
前記応答を提供するために前記エゴエージェントの少なくとも1つのシステムを制御することが、前記エゴエージェントの音声システムを制御して、特に、前記重要な交通エージェント及び前記重要な交通インフラストラクチャのうちの少なくとも1つの存在、位置、説明、及び重要性に関する、前記キャプションに基づくアラートを提供することを含み、前記キャプションが、前記重要な交通エージェント及び前記重要な交通インフラストラクチャのうちの少なくとも1つについて前記エゴエージェントを誘導するための運転提案を含む、請求項16に記載のシステム。
【請求項19】
命令を記憶している非一時的コンピュータ可読記憶媒体であって、前記命令がプロセッサを含むコンピュータによって実行されると、方法を実行し、前記方法が、
エゴエージェントの運転シーンに関連付けられた複数の画像を受信することと、
前記複数の画像に関連付けられた画像データをエンコーダに入力することであって、エンコードされた視覚的特徴及びエンコードされたオプティカルフロー特徴が、前記画像データから抽出されており、かつ前記エゴエージェントの前記運転シーンに関連付けられた連結された特徴に連結されている、入力することと、
前記連結された特徴を、前記エゴエージェントの前記運転シーン内に位置する重要な交通エージェント及び重要な交通インフラストラクチャのうちの少なくとも1つを識別するデコーダに入力することと、
前記エゴエージェントの少なくとも1つのシステムを制御して、前記エゴエージェントの前記運転シーン内に位置する前記重要な交通エージェント及び前記重要な交通インフラストラクチャのうちの少なくとも1つを説明するための応答を提供することと、を含む、非一時的コンピュータ可読記憶媒体。
【請求項20】
前記応答を提供するために前記エゴエージェントの少なくとも1つのシステムを制御することが、前記エゴエージェントの音声システムを制御して、特に、前記重要な交通エージェント及び前記重要な交通インフラストラクチャのうちの少なくとも1つの存在、位置、説明、及び重要性に関する、キャプションに基づくアラートを提供することを含み、前記キャプションが、前記重要な交通エージェント及び前記重要な交通インフラストラクチャのうちの少なくとも1つについて前記エゴエージェントを誘導するための運転提案を含む、請求項19に記載の非一時的コンピュータ可読記憶媒体。
【発明の詳細な説明】
【技術分野】
【0001】
(関連出願の相互参照)
本出願は、2021年5月21日に出願された米国特許仮出願第63/191,581号の優先権を主張し、参照により本明細書に明示的に組み込まれる。
【背景技術】
【0002】
運転シーン内の重要なオブジェクトを識別することは、進歩した運転と進歩した運転支援システムにおける下流タスクの基本要素であり得る。状況認識は、インテリジェント車両において高レベルの自動化を達成するための重要な要件である。インテリジェントモビリティのための状況認識の重要な態様は、運転者の視点からのリスクの知覚に対して説明可能なネットワークを作成するための能力、及びそれらのリスクを運転者に通信する方法を確立するための能力である。
【発明の概要】
【0003】
一態様によれば、ジョイントリスクの位置特定を完了し、かつ運転シナリオにおいて推論するためのコンピュータ実装方法は、エゴエージェントの運転シーンに関連付けられた複数の画像を受信することを含む。コンピュータ実装方法はまた、複数の画像に関連付けられた画像データをエンコーダに入力することを含む。エンコードされた視覚的特徴及びエンコードされたオプティカルフロー特徴は、画像データから抽出され、エゴエージェントの運転シーンに関連付けられた連結された特徴に連結されている。コンピュータ実装方法は、エゴエージェントの運転シーン内に位置する重要な交通エージェント及び重要な交通インフラストラクチャのうちの少なくとも1つを識別するデコーダに連結された特徴を入力することを追加的に含む。コンピュータ実装方法は、エゴエージェントの少なくとも1つのシステムを制御して、エゴエージェントの運転シーン内に位置する重要な交通エージェント及び重要な交通インフラストラクチャのうちの少なくとも1つを説明する応答を提供することを更に含む。
【0004】
別の態様によれば、ジョイントリスクの位置特定を完了し、かつ運転シーンにおいて推論するためのシステムは、命令を記憶するメモリを含み、命令は、プロセッサによって実行されるとき、プロセッサに、エゴエージェントの運転シーンに関連付けられた複数の画像を受信させる。この命令はまた、プロセッサに、複数の画像に関連付けられた画像データをエンコーダに入力させる。エンコードされた視覚的特徴及びエンコードされたオプティカルフロー特徴は、画像データから抽出され、エゴエージェントの運転シーンに関連付けられた連結された特徴に連結されている。命令は、追加的に、エゴエージェントの運転シーン内に位置する重要な交通エージェント及び重要な交通インフラストラクチャのうちの少なくとも1つを識別するデコーダに、連結された特徴をプロセッサに入力するようにさせる。命令は更に、プロセッサに、エゴエージェントの少なくとも1つのシステムを制御させ、エゴエージェントの運転シーン内に位置する重要な交通エージェント及び重要な交通インフラストラクチャのうちの少なくとも1つを説明する応答を提供する。
【0005】
更に別の態様によれば、非一時的コンピュータ可読記憶媒体は命令を記憶し、命令は、プロセッサを含むコンピュータによって実行されると、エゴエージェントの運転シーンに関連付けられた複数の画像を受信することを含む方法を実行する。コンピュータ実装方法はまた、複数の画像に関連付けられた画像データをエンコーダに入力することを含む。エンコードされた視覚的特徴及びエンコードされたオプティカルフロー特徴は、画像データから抽出され、エゴエージェントの運転シーンに関連付けられた連結された特徴に連結されている。コンピュータ実装方法は、重要な交通エージェント、及びエゴエージェントの運転シーン内に位置する重要な交通インフラストラクチャのうちの少なくとも1つを識別するデコーダに連結された特徴を入力することを追加的に含む。コンピュータ実装方法は、エゴエージェントの少なくとも1つのシステムを制御して、重要な交通エージェント、及びエゴエージェントの運転シーン内に位置する重要な交通インフラストラクチャのうちの少なくとも1つを説明する応答を提供することを更に含む。
【図面の簡単な説明】
【0006】
本開示に特徴的であると考えられる新規な特徴は、添付の特許請求の範囲に記載される。以下の説明において、明細書及び図面を通して、同様の部分にはそれぞれ同一の符号を付す。図面は必ずしも縮尺どおりに描画されておらず、明確性及び簡潔さのために、特定の図面は、誇張された又は一般化された形態で示され得る。しかしながら、本開示自体、並びにその好ましい使用モード、更なる目的及び進歩は、添付図面と併せて読むと、例示的な実施形態の以下の詳細な説明を参照することによって最も良く理解されるであろう。
【0007】
【
図1】本開示の例示的実施形態による、ジョイントリスクの位置特定の完成及び運転シナリオにおける推論のための例示的なシステムの概略図である。
【0008】
【
図2】本開示の例示的な実施形態による、推論モジュールデータセットを備えた事前トレーニングされた運転リスク評価メカニズム内に含まれるデータの例示的な実施例である。
【0009】
【
図3】本開示の例示的な実施形態による、ニューラルネットワークのエンコーダ-デコーダ構造の概略図である。
【0010】
【
図4】本開示の例示的な実施形態による、ニューラルネットワークのエンコーダを利用して、ニューラルネットワークのデコーダに連結された画像フローデータを出力するための方法のプロセスフロー図である。
【0011】
【
図5】本開示の例示的な実施形態による、連結画像フローデータをデコードし、1つ以上の重要な交通エージェント、及び/又はエゴエージェントの運転シーン内に位置する重要な交通インフラストラクチャに関連付けられた運転リスク応答を提供するための方法のプロセスフロー図である。
【0012】
【
図6A】本開示の例示的な実施形態による、特定の運転シナリオについて分析される複数のアノテーションの例示的な実施例である。
【0013】
【
図6B】本開示の例示的な実施形態による、特定の運転シナリオについて分析される複数のアノテーションの例示的な実施例である。
【0014】
【
図6C】本開示の例示的な実施形態による、特定の運転シナリオについて分析される複数のアノテーションの例示的な実施例である。
【0015】
【
図6D】本開示の例示的な実施形態による、特定の運転シナリオについて分析される複数のアノテーションの例示的な実施例である。
【0016】
【
図7A】本開示の例示的な実施形態による、キャプションと一致するようにニューラルネットワークによって決定され得る境界ボックスの提示の例示的な実施例である。
【0017】
【
図7B】本開示の例示的な実施形態による、キャプションと一致するようにニューラルネットワークによって決定され得る境界ボックスの提示の例示的な実施例である。
【0018】
【
図7C】本開示の例示的な実施形態による、キャプションと一致するようにニューラルネットワークによって判定され得る境界ボックスの提示の例示的な実施例である。
【0019】
【
図7D】本開示の例示的な実施形態による、キャプションと一致するようにニューラルネットワークによって判定され得る境界ボックスの提示の例示的な実施例である。
【0020】
【
図8】本開示の一例示的実施形態による、ジョイントリスクの位置特定を完成して運転シナリオにおいて推論するための方法のプロセスフロー図である。
【発明を実施するための形態】
【0021】
以下は、本明細書で用いられる選択された用語の定義を含む。定義は、用語の範囲内に含まれかつ実施に使用され得る構成要素の様々な実施例及び/又は形態を含む。実施例は、限定することを意図するものではない。
【0022】
本明細書で使用される場合、「バス」とは、コンピュータ内部又はコンピュータ間の他のコンピュータ構成要素に操作可能に接続された、相互接続されたアーキテクチャを指す。バスは、コンピュータ構成要素間でデータを転送することができる。バスは、とりわけ、メモリバス、メモリコントローラ、周辺バス、外部バス、クロスバースイッチ、及び/又はローカルバスであってもよい。バスはまた、とりわけ、媒体配向システム輸送(media oriented systems transport、MOST)、コントローラエリアネットワーク(controller area network、CAN)、ローカル相互接続ネットワーク(local interconnect network、LIN)などのプロトコルを使用して、車両内部の構成要素を相互接続する、車両バスであってもよい。
【0023】
本明細書で使用される場合、「コンピュータ通信」とは、2つ以上のコンピューティングデバイス(例えば、コンピュータ、パーソナルデジタルアシスタント、携帯電話、ネットワークデバイス)間の通信を指し、例えば、ネットワーク転送、ファイル転送、アプレット転送、電子メール、ハイパーテキスト転送プロトコル(hypertext transfer protocol、HTTP)転送などであってもよい。コンピュータ通信は、例えば、とりわけ、無線システム(例えば、IEEE802.11)、イーサネットシステム(例えば、IEEE802.3)、トークンリングシステム(例えば、IEEE802.5)、ローカルエリアネットワーク(local area network、LAN)、広域ネットワーク(wide area network、WAN)、ポイントツーポイントシステム、回路スイッチングシステム、パケットスイッチングシステムを介して発生し得る。
【0024】
本明細書で使用される場合、「ディスク」又は「ドライブ」とは、磁気ディスクドライブ、ソリッドステートディスクドライブ、フロッピーディスクドライブ、テープドライブ、Zipドライブ、フラッシュメモリカード、及び/又はメモリスティックであってもよい。更に、ディスクは、CD-ROM(コンパクトディスクROM)、CD記録可能ドライブ(CD recordable drive、CD-Rドライブ)、CD書き換え可能ドライブ(CD rewritable drive、CD-RWドライブ)、及び/又はデジタルビデオROMドライブ(digital video ROM、DVD-ROM)であってもよい。ディスクは、コンピューティングデバイスのリソースを制御する又は割り振るオペレーティングシステムを記憶することができる。
【0025】
本明細書で使用される場合、「メモリ」は、揮発性メモリ及び/又は不揮発性メモリを含んでもよい。不揮発性メモリとしては、例えば、ROM(read only memory、読み取り専用メモリ)、PROM(programmable read only memory、プログラム可能な読み取り専用メモリ)、EPROM(erasable PROM、消去可能なPROM)、及びEEPROM(electrically erasable PROM、電気的に消去可能なPROM)を挙げることができる。揮発性メモリとしては、例えば、RAM(ランダムアクセスメモリ)、同期型RAM(synchronous RAM、SRAM)、ダイナミックRAM(dynamic RAM、DRAM)、同期型DRAM(synchronous DRAM、SDRAM)、ダブルデータレートSDRAM(double data rate SDRAM、DDR SDRAM)、及びダイレクトRAMバスRAM(direct RAM bus RAM、DRRAM)を挙げることができる。メモリは、コンピューティングデバイスのリソースを制御する又は割り振るオペレーティングシステムを記憶することができる。
【0026】
本明細書で使用される場合、「モジュール」は、機能若しくは行動を実行するため、並びに/又は別のモジュール、メソッド、及び/若しくはシステムからの機能若しくは行動を引き起こすための、命令を記憶する非一時的コンピュータ可読媒体、機械上で実行される命令、ハードウェア、ファームウェア、機械で実行中のソフトウェア、及び/又はそれぞれの組み合わせを含むが、これらに限定されない。モジュールはまた、論理、ソフトウェア制御マイクロプロセッサ、別個の論理回路、アナログ回路、デジタル回路、プログラムされた論理デバイス、実行命令を含むメモリデバイス、論理ゲート、ゲートの組み合わせ、及び/又は他の回路構成要素を含んでもよい。複数のモジュールは、1つのモジュールに組み合わされてもよく、単一モジュールは、複数のモジュール間に分散されてもよい。
【0027】
「操作可能な接続」、又はエンティティが「操作可能に接続される」ことによる接続は、信号、物理的通信、及び/又は論理的通信が、送信及び/又は受信され得るものである。操作可能な接続は、無線インターフェース、物理的インターフェース、データインターフェース、及び/又は電気インターフェースを含んでもよい。
【0028】
本明細書で使用される場合、「プロセッサ」は、信号を処理し、一般的なコンピューティング及び演算機能を行う。プロセッサによって処理された信号は、デジタル信号、データ信号、コンピュータ命令、プロセッサ命令、メッセージ、ビット、ビットストリーム、又は受信、送信、及び/若しくは検出され得る他の手段を含んでもよい。一般に、プロセッサは、複数の単一及びマルチコアのプロセッサ及びコプロセッサ並びに他の複数の単一及びマルチコアのプロセッサ及びコプロセッサアーキテクチャを含む、多種の様々なプロセッサであってもよい。プロセッサは、様々な機能を実行するための様々なモジュールを含んでもよい。
【0029】
本明細書で使用される場合、「車両」は、1人以上の人間の乗員を運ぶことができ、任意の形態のエネルギーによって電力供給される、任意の移動車両を指し得る。「車両」という用語には、限定するものではないが、自動車、トラック、バン、ミニバン、SUV、オートバイ、スクータ、ボート、ゴーカート、アミューズメントライドカー、鉄道輸送、水上バイク、及び航空機が含まれる。場合によっては、モータ車両は、1つ以上のエンジンを含む。更に、「車両」という用語は、1人以上の人間の乗員を運ぶことができ、電気電池によって電力供給される1つ以上の電気モータによって、完全に又は部分的に電力供給される、電気車両(electric vehicle、EV)を指し得る。EVは、電池電気自動車(battery electric vehicle、BEV)及びプラグインハイブリッド電気自動車(plug-in hybrid electric vehicle、PHEV)を含んでもよい。追加的に、「車両」という用語は、任意の形態のエネルギーによって動力を供給される、自律型車両及び/又は自動運転型車両を指し得る。自律型車両は、1人以上の人間の乗員を運んでいても運んでいなくてもよい。更に、「車両」という用語は、所定の経路又は自由移動車両で自動化又は非自動化される車両を含んでもよい。
【0030】
本明細書で使用される場合、「値」及び「レベル」とは、とりわけ、百分率、非数値、離散的な状態、離散値、連続値などの数値、又は他の種類の値若しくはレベルを含むことができるが、これらに限定されない。「Xの値」又は「Xのレベル」という用語は、この詳細な説明全体を通じて、及び特許請求の範囲で使用される場合、Xの2つ以上の状態を区別するための任意の数値又は他の種類の値を指す。例えば、場合によっては、Xの値又はレベルは、0%~100%の割合として与えられてもよい。他の場合には、Xの値又はレベルは、1~10の範囲の値であり得る。更に他の場合では、Xの値又はレベルは数値でなくてもよいが、「非X」、「わずかにX」、「X」、「非常にX」、及び「極X」などの所与の離散した状態と関連付けることができる。
I.システムの概要
【0031】
ここで図面を参照すると、示されているものは、1つ以上の例示的な実施形態を例示する目的のためであり、それらを限定する目的のためではなく、
図1は、本開示の例示的な実施形態による、ジョイントリスクの位置特定を完了し、かつ運転シナリオにおいて推論するための例示的システムの概略図である。システム100の構成要素、並びに本明細書で考察される他のシステム、ハードウェアアーキテクチャ、及びソフトウェアアーキテクチャの構成要素は、様々な実施形態のために異なるアーキテクチャに組み合わされるか、省略されるか、又は編成されてもよい。
【0032】
概して、システム100は、エゴエージェント102を含み、これは、なかでも1つ以上のアプリケーション、オペレーティングシステム、エージェントシステム、及びサブシステムユーザインターフェースを実行する電子制御ユニット(electronic control unit、ECU)104を含む。ECU104はまた、運転リスク評価メカニズム及びアラートアプリケーション(運転リスクアラートアプリケーション)106を実行することができ、これらは、ニューラルネットワーク108を利用して、エゴエージェント102の運転シーンに関連付けられた複数の画像を分析して、1つ以上の交通エージェント及び/又は交通インフラストラクチャを識別するように構成され得る。
【0033】
エゴエージェント102は、限定するものではないが、車両、モータサイクル、モータ付き自転車/スクータ、建設車両、航空機などを含み得、これらは、1つ以上の交通エージェントを含み得る、エゴエージェント102の運転シーン内で移動することができる。エゴエージェント102の運転シーンは、エゴエージェント102を包囲し得る所定の近傍を含むことができ、これは、1つ以上の道路、経路、誘導路などを含むことができ、その上で、エゴエージェント102が、1つ以上の交通エージェントに加えて移動することができる。
【0034】
1つ以上の交通エージェントは、限定され得るものではないが、追加の車両(例えば、自動車、トラック、バス)、歩行者、モータサイクル、自転車、スクータ、建設/製造用の車両/装置(例えば、可動クレーン、フォークリフト、ブルドーザ)、航空機などを含むことができ、これらはエゴエージェント102の運転シーン内に位置し、その中を移動することができる。運転シーンはまた、交通インフラストラクチャを含むことができ、限定され得るものではないが、交通信号灯(例えば、赤色、青色、黄色)、交通標識(例えば、停止標識、ゆずれ標識、横断歩道標識)、車道マーキング(例えば、横断歩道マーキング、停止マーキング、車線合流マーキング)、及び/又は追加的な道路付属物(例えば、建設用クッションドラム、交通コーン、ガードレール、コンクリートバリアなど)を含み得る。
【0035】
例示的な実施形態では、運転リスクアラートアプリケーション106は、ニューラルネットワーク108を利用して、エゴエージェント102の運転シーンに関連付けられた複数の画像を分析し、エゴエージェント102、1つ以上の代替交通エージェントの動作に影響を及ぼし得、並びに/又は、現在の時間ステップ及び/若しくは1つ以上の将来の時間ステップでエゴエージェント102の1つ以上の経路と潜在的に重複し得る、潜在的な運転リスクとして説明される1つ以上の交通エージェントを決定するように構成され得る。そのような交通エージェントは、重要な交通エージェントとして分類され得る。
【0036】
運転リスクアラートアプリケーション106はまた、ニューラルネットワーク108を利用して、潜在的な運転リスクに関連付けられるとして説明される交通インフラストラクチャを決定するように構成され得、このリスクはエゴエージェント102の動作、並びに/又は、現在の時間ステップ、及び/若しくは1つ以上の将来の時間ステップにおいて、運転シーン内に位置する1つ以上の交通エージェントに影響を及ぼし得る。そのような交通インフラストラクチャは、重要な交通インフラストラクチャとして分類され得る。特に、潜在的な運転リスクは、リスクとして判定され得、このリスクは、エゴエージェント102、及び/又はエゴエージェント102の運転シーン内のエゴエージェント102の動作に影響を及ぼし得る1つ以上の交通エージェントによる、特定の運転応答、及び/又は運転操縦を必要とし得る。
【0037】
以下で論じられるように、運転リスクアラートアプリケーション106は、エゴエージェント102のカメラシステム112から提供される画像データの形態の運転シーンの複数の画像を受信するように構成され得る。換言すると、画像データは、エゴエージェント102の運転シーンの複数の画像に属することができ、これらは、エゴエージェント102の運転シーン(例えば、エゴエージェント102の所定の近傍内の1つ以上の道路)をキャプチャするカメラシステム112の1つ以上のカメラ(図示せず)によってキャプチャされ得る。
【0038】
運転リスクアラートアプリケーション106は、画像データをニューラルネットワーク108のエンコーダデコーダ構造(
図3に示す)に入力して、画像データから視覚的特徴及びオプティカルフロー特徴を抽出するように構成され得る。視覚的特徴及びオプティカルフロー特徴が分析され、エゴエージェント102の運転シーン内に位置する交通エージェント及び交通インフラストラクチャと、エゴエージェント102の運転シーン内の交通エージェントなどの動的オブジェクトの運動と、に関連付けられ得る属性を、エンコードされた特徴として様々な時間ステップにおいて複数の画像から決定されたように決定することができる。
【0039】
以下で論じられるように、視覚的特徴及びオプティカルフロー特徴は、デコーダに連結され、かつ入力され得、1つ以上の特定の交通エージェントを、エゴエージェント102の運転シーン内の潜在的な運転リスクとして説明される重要な交通エージェントとして決定し、並びに/又はエゴエージェント102の運転シーン内に位置する特定の交通インフラストラクチャを、エゴエージェント102によって、及び/若しくは1つ以上の交通エージェントによって説明される重要な交通インフラストラクチャとして決定する。
【0040】
したがって、ニューラルネットワーク108は、重要な交通エージェント及び重要な交通インフラストラクチャの分析及び判定に関する二層アプローチを提供することができる。第1の層は、エゴエージェント102が、1つ以上の交通エージェント及び/又は特定の交通インフラストラクチャによってどのように影響を受け得るかを考慮することができ、1つ以上の重要な交通エージェント及び/又は重要な交通インフラストラクチャを決定する。例えば、第1の層は、エゴエージェント102の経路を横断し得る歩行者、又はエゴエージェント102の前方にあり得る赤色の交通信号灯を説明するために、どのようにエゴエージェント102が減速し、制動するかを考慮することができる。第2の層は、特定の交通エージェントが、互いに、及び/又は特定の交通インフラストラクチャによって、どのように影響を受け得るかを考慮することができる。例えば、第2の層は、特定の交通エージェントが、特定の交通エージェントの前方で減速している別の交通エージェントによって、どのように影響され得るかを考慮し得る。
【0041】
二層アプローチを使用して運転シーンの理解を判定するために、ニューラルネットワーク108は、推論モジュールデータセット(ドラマデータセット)112を備える事前トレーニングされた運転リスク評価メカニズムにアクセスすることができ、データセットは、アノテーションスキーマを含み得、アノテーションスキーマは、重要な交通エージェント、重要な交通インフラストラクチャ、並びに/又は重要な交通エージェント及び重要な交通インフラストラクチャの判定に対するエゴエージェント102の動作に関連し得るエゴエージェント102の運転シーンに関連付けられた複数のアノテーションを提供するために分析されることができる。ニューラルネットワーク108は、エゴエージェント102の動作に関連し得る、及び/又は二層アプローチに基づいて重要な交通エージェントとして判定され得る特定の交通エージェントに影響を及ぼし得る、重要な交通エージェント及び/又は重要な交通インフラストラクチャの境界ボックスを決定することができる。
【0042】
ニューラルネットワーク108は、ドラマデータセット110内のデータに基づいて判定されたアノテーションに基づいたキャプションを生成することができ、キャプションは、リスク、エゴエージェント102の意図、運転シーンのシーン分類、及び運転提案についての質問に基づき得る特定の運転シナリオについての説明、分類、カテゴリー化、及び推奨を提供することができる。運転リスクアラートアプリケーション106は、キャプション、並びに重要な交通エージェント及び/又は重要な交通インフラストラクチャに対して計算された境界ボックスに関するニューラルネットワーク108によって出力されたデータを受信するように構成することができ、かつ、エゴエージェント102のオペレータ136(例えば、運転者)に、アノテーションに基づいてニューラルネットワーク108によって生成されたキャプションを提示する1つ以上の視覚アラート及び/又は音声アラートを提供することができる。
【0043】
1つ以上の実施形態では、キャプションは、重要な交通エージェント及び/又は重要な交通インフラストラクチャについて、現在の時間ステップ、及び/若しくは1つ以上の将来の時間ステップにおけるエゴエージェント102に影響を及ぼし得るか、並びに/又は、特定の交通エージェントが、現在の時間ステップ及び/若しくは1つ以上の将来の時間ステップでの互いの及び/若しくは特定の交通インフラストラクチャによっていかに影響され得るか、の詳細をオペレータ136に提供することができる。そのようなキャプションは、連結された画像フローデータのデコードに基づいて、ドラマデータセット110から取り出されるアノテーションデータに基づき得る。
【0044】
例示的な実施形態では、ドラマデータセット110は、運転シーン内に含まれる重要な交通エージェント及び/又は重要な交通インフラストラクチャと関連付けられ得る運転リスクの視覚的な推論を提供することができる。ニューラルネットワーク108は、ドラマデータセット110にアクセスして、連結された画像フローデータを、エゴエージェント102の様々な運転シナリオに関連付けられた視覚的推論能力の範囲に関して分析することができる。
【0045】
図2の例示的な実施例に示されるように、ドラマデータセット110は、画像(例えば、ビデオ)レベル質問に関する画像レベルQ/A202を含み得、これらの質問は、運転リスクがエゴエージェント102に広く行き渡っている場合、エゴエージェント102の動的センサ124によって提供される動的データに基づき得るエゴエージェント102の意図、エゴエージェント102の運転シーンのシーン分類、並びに判定された重要な交通エージェント及び/又は重要な交通インフラストラクチャのオブジェクト位置特定204に関連付けられた様々な運転シナリオに関連付けられ得る1つ以上の提案を含み得る。画像レベルQ/A202は、リスク及びシーン属性、並びにエゴの意図及び行動提案などのエゴ行動特徴に対処するようにフォーマットされた質問に回答するように構成され得る。いくつかの質問は、何のリスクが知覚されているか、又は運転リスクを和らげるためのオペレータの潜在的な行動が何であり得るかを問い合わせる。一構成においては、キャプションを提供するために利用され得る有効な回答は、ブール形式(すなわち、はい又はいいえ)、又は複数のオプションからの単一の選択(例えば、停止、減速、移動開始、マージなど)などの閉形式に含まれ得る。
【0046】
以下でより詳細に論じられるように、オブジェクト位置特定204は、それぞれの重要な交通エージェント及び/又は重要な交通インフラストラクチャの周りで計算され得る境界ボックスに関連付けられ得る。ドラマデータセット110は、アノテーションデータに関連付けられたオブジェクトレベルQ/A206を含み得、アノテーションデータは、視覚的属性、運動属性、位置的属性、運動方向、及び交通エージェント挙動に影響を及ぼし得る外部要因に関して、交通エージェント及び/又は交通インフラストラクチャに関連付けられたオブジェクトレベルの質疑応答を含み得る。
【0047】
一構成では、エゴエージェント102に関連する運転シナリオがリスクを伴うと決定された場合、オブジェクトレベルQ/A206に基づいて、オブジェクト/レベルの質問が回答され得る。オブジェクトレベルQ/A206は、自由形式又はオープンエンドの応答を可能にする質問を構成することができる基本動作(なにが、どれが、どこで、なぜ、どのように)を含み得る。単一選択の回答に加えて、より複雑な推論が利用され、観察からの高レベルの意味論の理解を表すことができる。
図2に表されるように、例示的な回答が示されており、これらは、問い合わせオブジェクトタイプ(なにが)、視覚的属性及び運動属性(どれが)、場所及び運動方向(どこで)、リスクについての推論又は相互作用の記述(なぜ)、並びに関係の影響(どのように)などの視覚的推論の基本動作に対応している。
【0048】
特に、ドラマデータセット110は、「なにの」各重要な交通エージェント/静的オブジェクトが、エージェントラベルに対するか、に関するデータを含み得る。エージェントラベルは、交通エージェント及び/又は交通インフラストラクチャの各々に関する短い説明を含み得る。例えば、エージェントラベルは、歩行者、サイクリスト、車両、白色のトラック、緑色のスクータ、建設作業者、子供、赤色の交通信号灯、停止標識、ゆずれ標識、横断歩道などを含み得る。
【0049】
ドラマデータセット110内に含まれるデータはまた、視覚的属性及び運動属性に分割され得るエージェントレベル属性に基づく推論を説明するアノテーションを含む「どれが」に関するデータアノテーションを判定するために分析され得る。視覚的属性は、交通エージェント及び/又は交通インフラストラクチャがどのように見えるか、(すなわち、個人/歩行者交通エージェントについての色、衣服、オブジェクト、及び活動、車両交通エージェントについてのタイプ及び色、交通インフラストラクチャの標識/名称及び状態)を説明することができる。運動属性は、各重要な交通エージェントがどのように移動するかを説明することができる。例えば、そのような説明は、「横断を待機している」、「立っている」(歩行者エージェントに適用可能)、「駐車された」、「車線変更中」(車両エージェントに適用可能)を含み得る。
【0050】
ドラマデータセット110内に含まれるデータは、運転シーン内に位置する交通エージェント及び/又は交通インフラストラクチャの場所及び運動方向を含む、「どこで」に関するデータアノテーションを判定するために追加的に分析され得る。重要な交通エージェントの場所は、運転シーン内の1つ以上の重要な交通エージェントの各々のそれぞれの位置であり、運転シーンの交通インフラストラクチャ、道路/経路、及び/又は、エゴエージェント102の位置(例えば、エゴエージェント102に関連する交差点又は位置)に関して関連付けられている。運動方向は、「ある場所又は車線から、別の場所又は車線へ」を説明できる。
【0051】
更に、ドラマデータセット110内に含まれるデータは、重要な交通エージェントの挙動の原因を説明する「なぜ」に関するデータアノテーションを判定するために分析され得、これは、重要な交通エージェント及び/又は重要な交通インフラストラクチャの判定に関してニューラルネットワーク108によって利用される二層アプローチの第2の層に基づくことができる。ドラマデータセット110内に含まれるデータは、更に分析され、重要な交通エージェント及び/又は重要な交通インフラストラクチャの各々がどのようにエゴエージェント102に影響を与えているかを説明する、「どのように」に関するデータアノテーションを判定することができる。
【0052】
したがって、ドラマデータセット110を分析すると、ニューラルネットワーク108のデコーダによって出力されるデータに基づいて、画像レベルの詳細、オブジェクトの位置特定ベースの詳細、及びオブジェクトレベルの詳細に加えて、運転シーン内の1つ以上の重要な交通エージェント、及び/又は、交通インフラストラクチャを説明する処理された境界ボックスに加えて、キャプションが出力され得る。例示的な実施形態では、運転リスクアラートアプリケーション106は、ニューラルネットワーク108のデコーダによって処理された境界ボックスを含む視覚アラートを提供することができる。境界ボックスは、1つ以上のそれぞれの重要な交通エージェント及び/又は重要な交通インフラストラクチャの周りに拡張され得、これは、ドラマデータセット110(
図7A~
図7Dに表されるように)の分析に基づいて決定されたキャプションと一致するように、ニューラルネットワーク108によって判定され得る。
【0053】
境界ボックスは、重要な交通エージェント及び/又は重要な交通インフラストラクチャ、並びに画像レベルQ/A202と、オブジェクト位置特定204と、オブジェクトレベルQ/A206と、に基づくキャプションを含むことができ、キャプションは、ニューラルネットワーク108の機械学習/深層学習技術を通じたドラマデータセット110の分析に基づいて決定され得、特に、特定の交通エージェント及び/又は交通インフラストラクチャの存在、位置、説明、及び重要性に関する視覚アラートをオペレータ136に提供して潜在的運転リスクに関するオペレータの注意を引いて、潜在的運転リスクの各々にどのように対抗するかの提案を提供する。
【0054】
1つ以上の実施形態において、運転リスクアラートアプリケーション106は、音声アラートを提供することができる。音声アラートは、キャプションに基づき、特に、特定の交通エージェント及び/又は交通インフラストラクチャの存在、位置、説明、及び重要性に関するアラートをオペレータ136に提供して、潜在的な運転リスクに関するオペレータの注意を引き、かつエゴエージェント102を誘導するための1つ以上の運転提案をオペレータ136に提供して、1つ以上の運転リスクを説明することができる。例えば、キャプションは、エゴエージェント102の音声システム(図示せず)を介してオペレータ136に音声で述べられ、特に、特定の交通エージェント及び/又は交通インフラストラクチャの存在、位置、説明、及び重要性に関するアラートをオペレータに提供し、かつエゴエージェント102を誘導するための1つ以上の運転提案をオペレータ136に提供して、1つ以上の運転リスクを説明することができる。
【0055】
いくつかの構成では、音声アラートは、境界ボックスの近傍で拡張され得る1語/2語の短い説明の視覚アラートを伴ってオペレータ136に1つ以上の運転提案についてアラートして、エゴエージェント102を誘導することができる。いくつかの実施形態では、運転リスクアラートアプリケーション106は、1つ以上の重要な交通エージェント及び/又は重要な交通インフラストラクチャを説明するために、エゴエージェント102と関連付けられ得るエージェント自律制御を提供するために利用され得る自律制御コマンドを提供するように構成され得る。いくつかの場合、自律制御コマンドは、キャプション内に含まれる1つ以上の運転提案に基づいて、エゴエージェント102の運転シーン内の潜在的な運転リスクを説明するためにエゴエージェント102のオペレータ136に提供され得る1つ以上の視覚アラート及び/又は音声アラートを補足することができる。
【0056】
一実施形態では、運転リスクアラートアプリケーション106はまた、ニューラルネットワーク108によって判定されるように、様々なタイプの重要な交通エージェント及び/又は重要な交通インフラストラクチャと関連付けられ得る補足データを備えたドラマデータセット110を読み込むように構成され得る。したがって、ドラマデータセット110は、重要な交通エージェント及び/又は重要な交通インフラストラクチャの判定を微調整するために利用され得るデータでニューラルネットワーク108を継続的にトレーニングするために、更新されたデータで継続的に読み込まれ得る。ニューラルネットワーク108はまた、エゴエージェント102が、エゴエージェント102の運転シーン内の潜在的な運転リスクを説明することを可能にする目的のためのエンコード及びデコードの将来の反復中に利用される1つ以上の将来時点において、重要な交通エージェント、重要な交通インフラストラクチャ、及びエゴエージェント102の運転シーンに関連付けられたキャプションを微調整するように継続的にトレーニングされ得る。
【0057】
運転リスクアラートアプリケーション106は、重要なエージェント位置特定、重要な交通インフラストラクチャ位置特定、キャプション、及び視覚的質疑応答タスクの技術の改善を提供して、視覚アラート、音声アラートを使用する、及び/又はジョイントリスクの位置特定を完了して、かつ様々な運転シナリオにおいて推論するための自律コマンドを介してそれらを説明する、重要な交通エージェント及び/又は重要な交通インフラストラクチャの自然言語記述を提供するように構成され得る。それによって、この機能性は、視覚的推論能力の範囲を適用するために利用されることができ、様々な時点での異なる運転シーンに基づき得る様々な運転シナリオにおける潜在的な運転リスクに対抗する。
【0058】
引き続き
図1を参照すると、ECU104は、限定するものではないが、カメラシステム112、記憶ユニット116、ヘッドユニット118、自律型コントローラ120、システム/制御ユニット122、及び動的センサ124を含むエゴエージェント102の複数の追加の構成要素に動作可能に接続されるように構成され得る。1つ以上の実施形態では、ECU104は、マイクロプロセッサ、1つ以上の特定用途向け集積回路(application-specific integrated circuit、ASIC)、又は他の同様のデバイスを含んでもよい。ECU104はまた、内部処理メモリ、インターフェース回路、及びデータを転送して、コマンドを送信して、エゴエージェント102の複数の構成要素と通信するためのバスラインを含むことができる。
【0059】
ECU104はまた、エゴエージェント102内で(例えば、1つ以上の構成要素間で)データを内部に送信し、外部ホスト型コンピューティングシステム(例えば、エゴエージェント102の外部)と通信するための通信デバイス(図示せず)を含むことができる。概して、ECU104は、記憶ユニット116内に記憶される1つ以上のアプリケーション、オペレーティングシステム、システム、及びサブシステムユーザインターフェースなどを実行するために、記憶ユニット116と通信することができる。
【0060】
一例において、エゴエージェント102のヘッドユニット118を通して1つ以上の視覚アラート及び/又は音声アラートを提供するためにオペレータ136によって操作され得る、エゴエージェント102の1つ以上の高度な運転者アシストシステム(ADAS)(図示せず)を制御する1つ以上のコマンドが提供されることができる。ヘッドユニット118は、エゴエージェント102のシステム/制御ユニット122に動作可能に接続されることができる。例えば、ヘッドユニット118は、エゴエージェント102の音声システムに動作可能に接続されることができ、運転リスクアラートアプリケーション106から通信されるコマンドに基づいてオペレータ136に提供されるキャプションを含み得る1つ以上の音声アラートを提供する。ヘッドユニット118はまた、1つ以上の表示ユニット(図示せず)に動作可能に接続され得る。ヘッドユニット118は、1つ以上の重要な交通エージェント及び/又は重要な交通インフラストラクチャの周りに計算された境界ボックスを提示することができる1つ以上の視覚アラートを提供する運転リスクアラートアプリケーション106からコマンドを受信するように構成され得る。
【0061】
1つ以上の実施形態では、1つ以上の表示ユニットは、様々なフォームファクタ、形状、サイズ、設計、及び/又は構成で構成され得る。例えば、1つ以上の表示ユニットは、センタースタック、ダッシュボード、及び/又はエゴエージェント102の1つ以上のフロント部分及び/又はリア部分内に含まれる液晶ディスプレイ(liquid crystal display、LCD)デバイスを含み得るフラットパネルディスプレイで構成され得る。いくつかの実施形態では、1つ以上の表示ユニットは、エゴエージェント102のフロントガラスの上に、運転リスクアラートアプリケーション106によって提供される1つ以上の視覚アラートを投影するヘッドアップディスプレイを含み得る。
【0062】
一実施形態では、ECU104は、自律型コントローラ120と通信して、エゴエージェント102が、完全に自律的に運転されるか、又は特定の方法で半自律的に運転されるように操作するための自律運転コマンドを実行することができる。前述のように、この自律運転コマンドは、エージェント自律制御を提供する運転リスクアラートアプリケーション106によって提供されるコマンドに基づくことができ、エゴエージェント102を周囲環境内で誘導するためにエゴエージェント102に関連付けられることができ、1つ以上の重要な交通エージェント及び重要な交通インフラストラクチャを説明する。自律運転コマンドは、運転リスクアラートアプリケーション106によって提供されるコマンドに基づくことができ、周囲環境内でエゴエージェント102を誘導して、周囲環境内で移動するためのエゴエージェント102の1つ以上の機能をドラマデータセット110の分析に基づいてニューラルネットワーク108によって提供され得るキャプション及びデータアノテーションに基づいて自律的に制御する。
【0063】
一構成では、限定されるものではないが、エンジン制御ユニット、ブレーキ制御ユニット、トランスミッション制御ユニット、操舵制御ユニットなどを含む1つ以上のシステム/制御ユニット122に1つ以上のコマンドを提供することができ、運転リスクアラートアプリケーション106によって出力される1つ以上の自律コマンドに基づいて、エゴエージェント102が自律的に運転されるように制御し、エゴエージェント102の運転シーン内でエゴエージェント102を誘導する。特に、エゴエージェント102の1つ以上の機能は、1つ以上の視覚アラート及び/又は音声アラートを補足してエゴエージェント102の運転シーン内の潜在的な運転リスクを説明するキャプション内に含まれた1つ以上の運転提案に基づき得る方法で運転シーン内を移動するように自律的に制御され得る。
【0064】
1つ以上の実施形態では、システム/制御ユニット122は、エゴエージェント102の動的センサ124に操作可能に接続され得る。動的センサ124は、1つ以上のシステム、サブシステム、制御システムなどからの入力を受信するように構成され得る。一実施形態では、動的センサ124は、エゴエージェント102のコントローラエリアネットワーク(Controller Area Network、CAN)の一部として含まれ得、1つ以上のシステム、サブシステム、制御システムなどのために利用されるように、動的データをECU104に提供するように構成され得る。動的センサ124は、限定されるものではないが、位置センサ、進行方向センサ、速度センサ、操舵速度センサ、操舵角センサ、スロットル角度センサ、加速度計、磁力計、ジャイロスコープ、ヨーレートセンサ、制動力センサ、車輪速度センサ、車輪回転角度センサ、変速機ギヤセンサ、温度センサ、RPMセンサ、GPS/DGPSセンサなど(個々のセンサは図示せず)を含み得る。
【0065】
1つの構成では、動的センサ124は、1つ以上の運転操作が行われる際、及び/又はエゴエージェント102が自律的に運転されるように制御される際、エゴエージェント102のリアルタイム動的性能と関連付けられる1つ以上の値(例えば、数値レベル)の形態の動的データを提供することができる。以下で論じられるように、動的センサ124によって出力される動的データは、運転シーン内で進行するときに、エゴエージェント102のリアルタイム動的操作に関連付けられ得る。動的データが、ニューラルネットワーク108に提供され、エゴエージェント102の意図を決定するために分析されることができる。エゴエージェント102の意図は、運転シーン内の1つ以上の将来の時間ステップにおける、エゴエージェント102の意図した軌道、及びエゴエージェント102の1つ以上の位置及び/又は場所に関係し得る。エゴエージェント102の意図は、エゴエージェント102の速度、操舵角度、制動速度などに基づいて決定され得る。
【0066】
引き続き
図1を参照すると、エゴエージェント102のカメラシステム112は、1つ以上のカメラ(図示せず)を含み得、カメラは1つ以上の方向で、1つ以上の領域に位置付けられることができ、エゴエージェント102の運転シーンの1つ以上の画像(例えば、エゴエージェント102が移動している車道の画像)をキャプチャする。カメラシステム112の1つ以上のカメラは、限定されるものではないが、ダッシュボード、バンパ、フロント照明ユニット、フェンダ、及びフロントガラスの様々な部分を含む、エゴエージェント102の外部フロント部分に配設され得る。一実施形態では、1つ以上のカメラは、RGBカメラとして構成され得、これは、RGB帯域をキャプチャすることができ、道路車線マーキング、道路/経路マーカ、及び/又は道路/経路インフラストラクチャ(例えば、ガードレール)に関するオブジェクト外観に関するリッチ情報をキャプチャするように構成されている。
【0067】
他の実施形態では、1つ以上のカメラは、三次元画像の形態で、環境情報をキャプチャするように構成された立体カメラとして構成されてもよい。1つ以上の構成では、1つ以上のカメラは、エゴエージェント102の視野からのエゴエージェント102の現在地の1つ以上の第1の人物視点のRGB画像/ビデオをキャプチャするように構成されてもよい。一実施形態では、カメラシステム112は、1つ以上のRGB画像/ビデオ(例えば、画像のシーケンス)を、運転リスクアラートアプリケーション106に通信されて分析される画像データに変換するように構成されてもよい。
【0068】
以下で論じられるように、カメラシステム112によって提供される画像データは、ニューラルネットワーク108に入力されるように運転リスクアラートアプリケーション106に提供され得る。したがって、ニューラルネットワーク108のエンコーダは、画像データから視覚的特徴及びオプティカルフロー特徴を抽出して、エゴエージェント102の運転シーン内に位置する交通エージェント及び交通インフラストラクチャと、エゴエージェント102の運転シーン内の交通エージェントなどの動的オブジェクトの運動と、に関連付けられ得る属性を、エンコードされた特徴として様々な時間ステップにおいて複数の画像から決定されたように決定することができる。
【0069】
一実施形態では、ニューラルネットワーク108は、OEM、サードパーティ管理者、及び/又は、運転リスクアラートアプリケーション106の動作に関連付けられたデータを管理するデータセットマネージャによって所有、操作、及び/又は管理され得る外部サーバ114にホストされ得る。外部サーバ114は、運転リスクアラートアプリケーション106を実行するように構成され得るプロセッサ126によって動作可能に制御され得る。特に、プロセッサ126は、1つ以上のアプリケーション、オペレーティングシステム、データベースなどを実行するように構成され得る。プロセッサ126はまた、内部処理メモリ、インターフェース回路、及びデータを転送し、コマンドを送信し、外部サーバ114の複数の構成要素と通信するためのバスラインを含むことができる。
【0070】
一実施形態では、プロセッサ126は、外部サーバ114のメモリ128に動作可能に接続され得る。概して、プロセッサ126は、メモリ128と通信して、メモリ128内に記憶された1つ以上のアプリケーション、オペレーティングシステム、などを実行することができる。一実施形態では、メモリ128は、運転リスクアラートアプリケーション106と関連付けられた1つ以上の実行可能なアプリケーションファイルを記憶することができる。
【0071】
例示的な実施形態では、外部サーバ114は、ニューラルネットワーク108を記憶するように構成され得る。ニューラルネットワーク108は、長・短記憶回帰型ニューラルネットワーク(LSTMニューラルネットワーク)として構成され得る。LSTMニューラルネットワークとして、ニューラルネットワーク108は、機械学習/深層学習技術を実行して、複数の画像及びビデオなどのデータポイントのシーケンスを処理及び分析することができ、分類を出力し、時系列データに基づいて予測を行う。
図3に示すように、ニューラルネットワーク108は、エンコーダ302及びデコーダ310を含み得る。以下でより詳細に論じられるように、エンコーダ302は、エゴエージェント102のカメラシステム112から入力された画像データに基づいて、視覚的特徴及びオプティカルフロー特徴をエンコードするために利用され得る。
【0072】
デコーダ310は、運転シーン内の重要な交通エージェント及び/又は重要な交通インフラストラクチャを判定し、重要な交通エージェント及び/又は重要な交通インフラストラクチャの周りの境界ボックスを計算し、ドラマデータセット110内に含まれるデータの抽出及び分析に基づいて対応するキャプションを生成するように構成され得る。上述のように、キャプションは、現在の時間ステップ及び/若しくは1つ以上の将来の時間ステップでエゴエージェント102に影響を及ぼし得る重要な交通エージェント及び/若しくは重要な交通インフラストラクチャに関して、並びに/又は、特定の交通エージェントが、現在の時間ステップ及び/若しくは1つ以上の将来の時間ステップで互いに、並びに/又は、特定の交通インフラストラクチャによってどのように影響され得るかを、オペレータ136に詳細を提供することができる。
II.運転リスクアラートアプリケーション及び関連する方法
【0073】
運転リスクアラートアプリケーション106の構成要素を、ここで、例示的な実施形態に従って、かつ
図1を引き続き参照して説明する。例示的な実施形態では、運転リスクアラートアプリケーション106は、記憶ユニット116上に記憶され、エゴエージェント102のECU104によって実行され得る。別の実施形態では、運転リスクアラートアプリケーション106は、外部サーバ114のメモリ128に記憶され得、エゴエージェント102のECU104によって実行されるエゴエージェント102のテレマティクス制御ユニットによってアクセスされ得る。
【0074】
運転リスクアラートアプリケーション106の一般的な機能性について、ここで、論じる。例示的な実施形態では、運転リスクアラートアプリケーション106は、ジョイントリスクの位置特定を完了し、かつ、運転シナリオにおける推論をするように構成され得る複数のモジュール130~134を含み得る。複数のモジュール130~134は、データ受信モジュール130、重要なオブジェクト決定モジュール132、及びエージェント制御モジュール134を含み得る。しかしながら、運転リスクアラートアプリケーション106は、モジュール130~134の代わりに含まれる1つ以上の追加のモジュール及び/又はサブモジュールを含み得ることが理解される。
【0075】
図4は、本開示の例示的な実施形態による、ニューラルネットワーク108のエンコーダ302を利用して、連結された画像フローデータをニューラルネットワーク108のデコーダ310に出力するための方法400のプロセスフロー図である。
図4は、
図1及び
図3の構成要素を参照して説明されるが、
図4の方法400は、他のシステム/構成要素と共に使用され得ることを理解されたい。方法400は、ブロック402で開始することができ、方法400は、エゴエージェント102の運転シーンに関連付けられた画像データを受信することを含み得る。
【0076】
例示的な実施形態では、1つ以上の過去の時間ステップ及び/又は現在の時間ステップにおいて、運転リスクアラートアプリケーション106のデータ受信モジュール130は、カメラシステム112と通信して、エゴエージェント102の複数の時間ステップ(過去の時間ステップ及び現在の時間ステップ)におけるエゴエージェント102の運転シーンのトリミングされていない画像/ビデオに関連付けられた画像データを収集するように構成され得る。
【0077】
いくつかの構成では、画像データは、特定の時間ステップでキャプチャされた、エゴエージェント102の運転シーンの1つ以上の第1の人物視点のRGB画像/ビデオに関連し得る。画像データは、1つ以上の時間ステップにおける、エゴエージェント102の運転シーン内の道路車線マーキング、道路/経路マーカ、道路/経路インフラストラクチャに関するオブジェクト外観についてのリッチ情報を含むように構成され得る。いくつかの実施形態では、データ受信モジュール130は、1つ以上の時点において評価されるように、記憶ユニット116上に画像データをパッケージ化して、記憶してもよい。
【0078】
方法400は、ブロック404に進んでもよく、方法400は、ニューラルネットワーク108のエンコーダ302に画像データを入力することを含むことができる。例示的な実施形態では、エゴエージェント102の運転シーンに関連付けられた画像データを受信すると、データ受信モジュール130は、画像データを運転リスクアラートアプリケーション106の重要なオブジェクト決定モジュール132に通信するように構成され得る。
【0079】
一実施形態では、重要なオブジェクト決定モジュール132は、画像データを分析するように構成され得、エゴエージェント102の運転シーンの画像属性及び特徴を含む画像ベースの特徴データIを抽出することができる。画像の属性及び特徴は、エゴエージェント102の運転シーンの各時間ステップでキャプチャされた画像及び/又はビデオの各々の複数のピクセルの各々内に含まれ得る運転シーンの視覚的態様に関し得る。そのような視覚的属性は、運転シーン内に位置する1つ以上の交通エージェント、及び/又は運転シーン内に位置する交通インフラストラクチャなどの、エゴエージェント102に影響を及ぼし得るオブジェクトを含み得る。更に、視覚的属性は、道路の構成、車線、自然特徴(例えば、林、樹木)、及び/又は運転シーン内に位置し得る人工特徴物(建物、コンクリートバリア)に関し得る環境情報を含み得る。
【0080】
重要なオブジェクト決定モジュール132は、画像データを分析するように更に構成され得、光フロー特徴データFを抽出することができ、これは、各複数の画像の複数のピクセル内に含まれるそれぞれの画像プレーン上での複数の時間ステップ(例えば、現在の時間ステップまでの過去の時間ステップ)にわたる運動、及び/又はエゴエージェント102の運転シーンの各時間ステップでキャプチャされたビデオに関し得る。光フロー特徴データは、それぞれの交通エージェントの運きによって引き起こされる2つ以上の(それぞれの時間ステップに関連付けられた)連続するフレーム間のそれぞれの交通エージェントなどの動的オブジェクトの運動の見掛けの変化をキャプチャし得る。
【0081】
図3に示すように、重要なオブジェクト決定モジュール132は、外部サーバ114に記憶されたニューラルネットワーク108にアクセスして、画像ベースの特徴データI及びオプティカルフロー特徴データFを、機械学習/深層学習技術を使用してニューラルネットワーク108のエンコーダ302に入力するように構成され得る。
図3及び
図4を引き続き参照すると、
図4の方法400は、ブロック406に進み得、方法400は、視覚的特徴及びオプティカルフロー機能を抽出することを含み得る。
【0082】
例示的な実施形態では、ニューラルネットワーク108のエンコーダ302は、視覚的特徴エンコーダを使用してエンコーダ302に入力された画像ベースの特徴データI上で視覚的特徴抽出304を実行するように構成され得る。エンコーダ302はまた、光フロー特徴エンコーダを使用してエンコーダ302に入力された光フロー特徴データF上でフロー特徴抽出306を実行するように構成され得る。特に、画像ベースの特徴データIに関連付けられた各画像It及び各オプティカルフロー画像Ftを時間ステップtで考慮すると、エンコーダ302は、視覚的特徴抽出304を介して視覚的フロー特徴、及び特徴抽出306を介してオプティカルフロー特徴を抽出するように構成され得る。一構成では、各オプティカルフロー画像Ftが、2つの画像フレームIt及びIt-1を備えるフローネット2.0によって生成され得、エゴエージェント102の運転シーン内の交通エージェントなどのオブジェクトの運動をキャプチャする。
【0083】
一実施形態では、視覚的特徴及びオプティカルフロー特徴をエンコードするために、エンコーダ302は、バックボーンネットワークとしてImagenetで事前トレーニングされたResNet-101モデルを利用し得る。両方の特徴が、元のResNet-101構造、及び適応平均プーリング層が、14×14×2048の固定された埋め込まれたサイズを出力として得るために加えられる前に、2つの層から抽出される。
【0084】
視覚的特徴抽出304及びフロー特徴抽出306の実行時に、方法400は、ブロック408に進み得、方法400は、視覚的特徴及びオプティカルフロー機能を連結して出力特徴を生成することを含み得る。例示的な実施形態では、エンコーダ302は、視覚的特徴抽出304を介して画像ベースの特徴データIから抽出された画像フロー特徴、及びオプティカルフローデータFから抽出されたオプティカルフロー特徴を連結するように構成され得る。画像フロー特徴及びオプティカルフロー特徴が、連結され、連結された画像フローデータEtを出力特徴として生成することができる。特に、画像フロー特徴及びオプティカルフロー特徴は、Et=[Φv(It),Φf(Ft)]として結合され得る。
【0085】
方法400は、ブロック410に進み得、方法400は、出力特徴をニューラルネットワーク108のデコーダ310に入力することを含み得る。例示的な実施形態では、ニューラルネットワーク108は、連結された画像フローデータをエンコーダ302の出力特徴Etとしてデコーダ310に入力するように構成され得る。以下で論じられるように、デコーダ310は、エゴエージェント102の運転シーン内の潜在的な運転リスクとして説明される重要な交通エージェントとして1つ以上の特定の交通エージェントを決定し、並びに/又はエゴエージェント102によって説明される、及び/若しくは1つ以上の交通エージェントによって説明される、エゴエージェント102の運転シーン内に位置する特定の交通インフラストラクチャを決定するように構成され得る。
【0086】
図5は、本開示の例示的な実施形態による、連結画像フローデータをデコードして、エゴエージェント102の運転シーン内に位置する1つ以上の重要な交通エージェント及び/又は重要な交通インフラストラクチャに関連付けられた運転リスク応答を提供するための方法500のプロセスフロー図である。
図5は、
図1及び
図3の構成要素を参照して説明されるが、
図5の方法500は、他のシステム/構成要素と共に使用されてもよいことを理解されたい。
【0087】
方法500は、ブロック502で開始することができ、方法500は、ドラマデータセット110にアクセスすることと、1つ以上の重要な交通エージェント及び/又は重要な交通インフラストラクチャを決定することと、を含み得る。例示的な実施形態では、デコーダ310は、連結された画像フローデータEをデコードしてキャプション予測312を完了するように構成され得、ROIプーリング314は、それぞれの計算された境界ボックスに対してキャプションデコードの性能を改善するために実行され得る。
【0088】
重要なオブジェクト位置特定316は、重要な交通エージェント及び/又は重要な交通インフラストラクチャを識別して、ドラマデータセット110の分析に基づいてそれぞれの境界ボックスを計算するために利用され得る。境界ボックスは、重要な交通エージェント及び/又は重要な交通インフラストラクチャ、並びに、画像レベルQ/A202、オブジェクト位置特定204、及びニューラルネットワーク108の機械学習/深層学習技術を介したドラマデータセット110の分析に基づいて決定され得るオブジェクトレベルQ/A206に基づくキャプションを含み得る。
【0089】
一構成では、基本的な多層層パーセプトロン(multi-layer perceptron、MLP)が、重要なオブジェクト位置特定モデルに利用され得る。重要なオブジェクト位置特定316を実行するデコーダ310の重要なオブジェクト位置特定モジュールのアーキテクチャは、境界ボックスに回帰するMLP層と同様である。重要なオブジェクト位置特定316は、現在の時間ステップ及び/又は1つ以上の将来の時間ステップにおいて、エゴエージェント102に影響を及ぼし得る1つ以上の重要な交通エージェント及び/又は重要な交通インフラストラクチャの周りで計算される境界ボックスのデコードに関する。したがって、境界ボックス
【数1】
は、入力がResNet特徴(E)又は自己注意特徴(H
b)である、重要な交通エージェント及び/又は重要な交通インフラストラクチャの各々に対して予測及び計算される。
【0090】
方法500は、ブロック504に進み得、方法500は、重要な交通エージェント及び/又は重要な交通インフラストラクチャに関連付けられた1つ以上のキャプションを予測することを含み得る。一実施形態では、デコーダ310は、リスク、エゴエージェント102の意図、運転シーンのシーン分類、及び運転提案に関する質問に基づき得る、特定の運転シナリオに関する説明、分類、カテゴライズ化、及び推奨を提供することができる、ドラマデータセット110内のデータに基づいて決定されるアノテーションに基づいて、キャプションをデコードし、予測し、及び生成するように構成され得る。
【0091】
一実施形態では、デコーダ310は、キャプション
【数2】
を予測し、そこではデコーダ310のアーキテクチャに応じて、入力は、ResNet特徴(E)又はROIプール機能(E
a)になる。ROIプーリング314は、キャプション予測を改善するための重要なオブジェクト位置特定316の後に完了され得る。運転シーンEのエンコードされたグローバル特徴から固定されたサイズのテンソルへ、重要なオブジェクトの位置特定を通じて生成された予測境界ボックス
【数3】
を使用して重要な交通エージェント及び重要な交通インフラストラクチャの特徴(E
a,E
i)を決定するために、ROIプーリング314が完了され得る。エージェントの特徴E
a及び/又は交通インフラストラクチャの特徴E
iは、グローバルシーン特徴E,H
c=[E
a,E
i,φ(E)]と連結されており、ドラマデータセット110の分析に基づいて、キャプション予測312に競合する、ニューラルネットワーク108のキャプション生成デコーダに入力として供給される。再帰型キャプション生成デコーダは、H
cを初期隠れ状態h
0=Ж(H
c)に変換して、キャプションを再帰的にデコードする。φは、異なる例では異なるMLP層である。
【0092】
図6A~
図6Dの例示的な実施例に示されるように、キャプションは、グローバルシーン特徴E,H
c=[E
a,E
i,φ(E)]と連結されている各重要な交通エージェントの特徴E
a及び/又は重要な交通インフラストラクチャの特徴E
iに基づき得るドラマデータセット110内に含まれる視覚的シナリオに基づいて提供されるアノテーションに基づき得る。したがって、リスクに関するアノテーション、動的センサ124で提供される動的データに基づき得るエゴエージェント102の意図、エゴエージェント102の運転シーンの属性(例えば、道路のタイプ)、及び1つ以上の提案が提供され得る。
【0093】
更に、問い合わせオブジェクトタイプ(なにが)、視覚的及び運動の属性(どれが)、場所及び運動の方向(どこで)、リスクについての推論又は相互作用の記述(なぜ)、及び関係の影響(どのように)などの、視覚的推論の基本動作に関連付けられたアノテーションが決定され得る。したがって、このアノテーションに基づき得る、予測されたキャプションが生成され得る。いくつかの実施形態では、
図6A~
図6Bに示されるように、キャプションは、ドラマデータセット110から抽出されたアノテーションに基づくセンテンスとして生成され得る。
【0094】
図6A~
図6Dに示すように、アノテーションに基づくキャプションは、重要な交通エージェント及び重要な交通インフラストラクチャの分析及び決定に対する二層アプローチに関する形式で提供され得る。第1の層は、1つ以上の重要な交通エージェント及び/又は重要な交通インフラストラクチャを決定するために、1つ以上の交通エージェント及び/又は特定の交通インフラストラクチャによって、エゴエージェント102が、どのように影響を受け得るかを考慮することができる。例えば、
図6Aに示されるように、第1の層は、どのようにエゴエージェント102が減速して制動するかを考慮して、エゴエージェント102の経路を横断するときに交差点の中央で左折する白色のハチッババック交通エージェントを説明することができる。第2の層は、特定の交通エージェントが、互いに、及び/又は特定の交通インフラストラクチャによって、どのように影響を受け得るかを考慮することができる。例えば、
図6Dに示すように、第2の層は、赤色の交通信号灯の交通インフラストラクチャによって、特定の交通エージェントサイクリストが、どのように影響を受け得るかを考慮し得る。
【0095】
例示的な実施形態では、ニューラルネットワーク108のデコーダ310は、重要な交通エージェント及び/又は重要な交通インフラストラクチャの各々に対して予測され、計算された、1つ以上の生成された境界ボックス
【数4】
に関連付けられたデータ、並びに1つ以上の生成された予測されたキャプションを運転リスクアプリケーション106の重要オブジェクト決定モジュール132に出力するように構成され得る。重要なオブジェクト決定要因モジュール132は、境界ボックス及びキャプションに関するそれぞれのデータを運転リスクアラートアプリケーション106のエージェント制御モジュール134に通信するように構成され得る。
【0096】
図5を引き続き参照すると、方法500は、ブロック506に進み得、方法500は、エゴエージェント102の1つ以上のシステム/制御ユニットにコマンドを送信して運転リスク応答を提供することを含み得る。例示的な実施形態では、エージェント制御モジュール134は、キャプション、重要な交通エージェント及び/又は重要な交通インフラストラクチャに対して計算された境界ボックスに関して、ニューラルネットワーク108によって出力されたデータを分析するように構成され得、エゴエージェント102のECU104、ヘッドユニット118、システム/制御ユニット122、及び/又は自律型コントローラ120に1つ以上のコマンドを通信して、運転リスク応答を提供することができる。
【0097】
一実施形態では、運転リスク応答は、ニューラルネットワーク108のデコーダ310によって処理された境界ボックスを含む視覚アラートの形態で提供され得る。
図7A~
図7Dの例示的な実施例に示されるように、一実施形態において、エゴエージェント102の1つ以上の表示ユニットは、境界ボックスを提示するために利用され得、境界ボックスは、ドラマデータセット110の分析に基づいて決定されたキャプションと一致するように、ニューラルネットワーク108によって決定され得る1つ以上のそれぞれの重要な交通エージェント及び/又は重要な交通インフラストラクチャの周りで計算及び拡張され得る。キャプションは、現在の時間ステップ及び/若しくは1つ以上の将来の時間ステップで、エゴエージェント102に影響を及ぼし得る重要な交通エージェント及び/若しくは重要な交通インフラストラクチャに関する詳細、並びに/又は、現在の時間ステップ及び/若しくは1つ以上の将来の時間ステップで特定の交通エージェントが、互いに、及び/若しくは特定の交通インフラストラクチャによってどのように影響され得るかに関する詳細をオペレータ136に提供することができる。
【0098】
いくつかの構成では、エージェント制御モジュール134は、1つ以上のコマンドをシステム/制御ユニット122に送信し、キャプションに基づき得る音声アラートを提供するように構成され得る。例えば、
図7Cを参照すると、「交通信号灯は、交差点にあるエゴ車線に対して赤色です...完全停止してください。」というキャプションが、エゴエージェント102の音声システムを介してオペレータ136に音声で述べられ、それぞれの境界ボックス内の表示ユニット上に提示される、特に、特定の交通エージェント及び/又は交通インフラストラクチャの存在、位置、説明、及び重要性に関するアラートをオペレータに提供することができる。この機能性は、オペレータ136に1つ以上の運転提案を提供して、1つ以上の運転リスクを説明するために、エゴエージェント102を誘導することができる。
【0099】
いくつかの構成では、音声アラートは、境界ボックスの近傍で拡張され得る1語/2語の短い説明の視覚アラートを伴ってオペレータ136に1つ以上の運転提案についてアラートして、エゴエージェント102を誘導することができる。1つ以上の実施形態では、運転リスクアラートアプリケーション106は、1つ以上の重要な交通エージェント及び/又は重要な交通インフラストラクチャを説明するために、エゴエージェント102と関連付けられ得るエージェント自律制御を提供するために利用され得る自律制御コマンドを提供するように構成され得る。いくつかの場合、自律制御コマンドは、キャプション内に含まれる1つ以上の運転提案に基づくことができ、エゴエージェント102の運転シーン内の潜在的な運転リスクを説明するためにエゴエージェント102のオペレータ136に提供され得る1つ以上の視覚アラート及び/又は音声アラートを補足する。
【0100】
図8は、本開示の例示的な実施形態による、ジョイントリスク位置特定を完了し、かつ、運転シナリオにおいて推論するための方法800のプロセスフロー図である。
図8は、
図1及び
図3の構成要素を参照して説明されるが、
図8の方法500は、他のシステム/構成要素と共に使用され得ることを理解されたい。方法800は、ブロック802において開始することができ、方法800は、エゴエージェント102の運転シーンに関連付けられた複数の画像を受信することを含み得る。
【0101】
方法800は、ブロック804に進み得、方法800は、複数の画像に関連付けられた画像データをエンコーダ302に入力することを含み得る。一実施形態では、エンコードされた視覚的特徴及びオプティカルフロー特徴は、画像データから抽出され、エゴエージェント102の運転シーンに関連付けられた連結された特徴に連結される。方法800は、ブロック806に進み得、方法800は、エゴエージェント102の運転シーン内に位置する重要な交通エージェント及び重要な交通インフラストラクチャのうちの少なくとも1つを識別する連結された特徴をデコーダ310に入力することを含む。方法800は、ブロック808に進み得、方法800は、エゴエージェント102の運転シーン内に位置する重要な交通エージェント及び重要な交通インフラストラクチャのうちの少なくとも1つを説明する応答を提供するために、エゴエージェント102の少なくとも1つのシステムを制御することを含み得る。
【0102】
上述の説明から、本開示の様々な例示的な実施形態がハードウェアで実装され得ることが明らかであるべきである。更に、様々な例示的な実施形態は、本明細書で詳細に説明される操作を行うために少なくとも1つのプロセッサによって読み取り及び実行され得る、揮発性又は不揮発性メモリなどの非一時的機械可読記憶媒体上に記憶された命令として実施されてもよい。機械可読記憶媒体は、パーソナルコンピュータ又はラップトップコンピュータ、サーバ、又は他のコンピューティングデバイスなどの機械によって読み取り可能な形態で情報を記憶するための任意のメカニズムを含んでもよい。したがって、非一時的機械可読記憶媒体は、一時信号を除外するが、読み出し専用メモリ(ROM)、ランダムアクセスメモリ(RAM)、磁気ディスク記憶媒体、光学記憶媒体、フラッシュメモリデバイス、及び同様の記憶媒体を含むがこれらに限定されない揮発性及び不揮発性メモリの両方を含んでもよい。
【0103】
本明細書の任意のブロック図は、本開示の原理を具現化する例示的な回路の概念図を表すことを当業者は理解すべきである。同様に、任意のフローチャート、フロー図、状態遷移図、擬似コードなどは、そのようなコンピュータ又はプロセッサが明示的に示されているか否かにかかわらず、機械可読媒体に実質的に表され、コンピュータ又はプロセッサによって実行され得る様々なプロセスを表すことが理解されるであろう。
【0104】
上記に開示された及び他の特徴並びに機能又はこれらの代替物若しくは変形の様々な実施が、望ましくは多くの他の異なるシステム又はアプリケーションに組み合わされ得ることが理解されるであろう。また、当業者であれば、現在予測されていない、又は予期されていない様々な代替例、修正例、変形例、又は改良例を連続的に行うことができ、これらも添付の特許請求の範囲によって包含されることが意図される。