(58)【調査した分野】(Int.Cl.,DB名)
【発明を実施するための形態】
【0013】
詳細な説明
本開示には、ビークル環境における異なる又は異種のビークルタイプについて構成された自律ビークル能力について記述されている。例示用の方法は、第1のデータセットと、第1のデータセットのサブセットを含む第2のデータセットと、に基づいて自律意思決定を構成するように動作する。
【0014】
第1の、即ち、一般的な、データセットは、一般に複数の(即ち、乗用ビークル、ピックアップトラック、SUV、リクリエーションビークルなどを含む)ビークルの受動的環境ダイナミクスデータを含むセットに関係しており、且つ、第2のデータセットは、第1のデータセットの複数のビークルのサブセットに関係する動作データを含む。サブセットは、1つの自律ビークル要素(即ち、特定のビークルタイプ及びモデル)や(乗用ビークル、SUV、乗用トラックなどのような)共通的な自律ビークルのカテゴリなどを含みうる。サブセットは、第1のデータセットによって生成された状態値関数及びポリシーを第2のデータセットの自律固有ビークル特性に適合させるように動作することができる。
【0015】
ビークルの異種セットのビークルを構成するための一般的なデータセットは、(異なる道路構成におけるビークルシミュレーションなどの)受動的な動的収集に基づいた保存収集データを含むことができる。一般的な、即ち、第1の、データセットは、粗い粒度レベルのものであり、乗用ビークル、ピックアップトラック、SUV、リクリエーションビークルなどのような、複数の自律ビークルカテゴリレベルを含むことができる。更に微細な粒度レベルにおいて、一般的なデータセットは、例えば、Toyotaなどの、ビークル製造元レベルにおいて形成されてもよい。一般的なデータセット内の自律モデルは、例えば、Toyota Tacoma、Toyota Camry、Toyota Corollaなどを含みうる。
【0016】
動作の際に、一般的な、即ち、第1の、データセットを処理することにより、階層に基づいたビークル構成を生成することができる。第1の階層ステージにおいては、一般的な且つ/又は粗い強化学習(RL:Reinforced Lerning)原理は、動力付き陸上ビークルなどの、一般的なデータセットのビークルの様々なカテゴリに跨って適用されるものと見なすことができる。更なる例として、動力付き空中ビークルや動力付き水上もしくは水中ビークルなどに基づいて、一般的なデータセットのその他の形態を形成することができる。
【0017】
理解されうるように、一般的なデータセットは、相対的に微細なビークルのカテゴリを「起源(root)」とすることもできる。例えば、動力付き陸上ビークルを「起源」とする代わりに、一般的なデータセットは、Toyota Camry、Toyota Corolla、Toyota Prius、Toyota Avalonなどのような、動力付き4ドアセダンビークルを起源とすることもできる。
【0018】
一般化された又は粗い動作レベルにおけるポリシー及び状態値の単純な例として、動力付き陸上ビークルが高速道路及び/又は幹線道路に合流するための一般的な理解は、ビークルが、高速道路及び/又は幹線道路の交通流と合流するべく加速する、というものであってもよい。RLの原理の下において動作している自律方式においては、動力付き陸上ビークルは、いくつかの連続的な加速状態を含む加速ポリシーに基づいて動作してもよく、且つ、それぞれの加速状態は、目的が実現されうる時点まで、次の加速状態に進むための関連する状態値関数を有する。
【0019】
従って、(第1のデータセットの)第1の階層ステージにおいては、一般的な状態値関数及びポリシーが、「学習」され、且つ/又は、動力付き公道車の受動的ダイナミクスデータを起源としうる、一般的な、即ち、第1の、データセットに基づいて、初期化される。理解されうるように、受動的ダイナミクスデータの間の不一致が結果的に生じうるが、一般的な視点から一般的データセットを考慮した場合には、動作ポリシー及び関係する状態値関数は、正規化又はポリシー/状態値の一致に向かう傾向を有する。
【0020】
第2の階層状態においては、第1の階層ステージにおいて「学習」された状態値関数及びポリシーをサブセットに適合させる又はこれを研ぎ澄ますべく、一般的なデータセットのサブセット(これは、第2のデータセットとも呼称されうる)を動力付き陸上ビークルのカテゴリのうちの1つ又は複数に適用することができる。即ち、第1のデータセットの受動的ダイナミクスデータは、ビークルの、カテゴリ、即ち、モデルに関係しており、且つ、第2のデータセットにより、自律動作のためにさもなければ必要とされたであろう能動的スキャニングを低減しつつ、改善された実装との関係にいて強化学習を改善するべく、状態値関数及びポリシーに関係するものとして、研ぎ澄まされている。
【0021】
理解されうるように、自律動作用のビークル構成を合理化することにより、一般的な、即ち、第1の、データセットによって提供されるナレッジベースの利用を通じて、ビークルごとに従来必要とされていた学習時間を極小化することができる。
【0022】
換言すれば、第1の、即ち、一般的な、データセットは、ポリシー目的に向かって進捗するための、複数のビークルに一般に適用されうる、現在のビークル状態(X
k)及び次のビークル状態(X
k+1)のプロセスに関係する、保存された受動的環境動的データを含んでいる。
【0023】
例えば、加速ポリシーπにおいて、現在のビークル状態X
kの場所及び速度は、所与の且つ/又は検知された値を有することになろう。次のビークル状態X
k+1の場所及び速度は、(道路を下った)次の場所及び相対的に大きな速度などを有することになろう。この点において、予めサンプリングされた、即ち、受動的な、環境動的データは、一般に複数のビークルに対して適用されてもよく、これにより、自律動作に予め必要とされるそれぞれのビークル状態におけるビークル環境の能動的なセンサスキャニングが除去される。
【0024】
第2のデータセットは、第1の、即ち、一般的な、データセットのサブセットであり、複数のビークルの一部分に適用される動作及び/又は制御ダイナミクスモデルを含むことができる。一部分は、(ビークル製造元及びモデルなどの)単一のビークル要素又は(4ドア乗用ビークルに関係するモデルタイプなどの)複数の要素を含むことができる。制御ダイナミクスモデルは、テストコースにおける収集データを使用することにより、或いは、シミュレーションモデルを通じて、事前に識別することができる。
【0025】
例えば、複数のビークルのサブセットは、Toyotaなどのビークル製造元に、或いは、Toyota Tacoma、Toyota Corolla、Toyota Camry、Toyota Priusなどのような製造元及びモデルに、関係しうる。即ち、一般に、サブセットは、1つの自律ビークル要素(即ち、特定のビークルタイプ及びモデル)や(乗用ビークル、SUV、乗用トラックなどのような)共通的な自律ビークルのカテゴリなどを含みうる。このサブセット及び/又は第2のデータセットは、年式のみならず、ビークルの運転状態に関係する細目(年式、走行マイル、運転特性(即ち、保守的や反応的など)、修理、保守記録など)により、更に分割されてもよい。換言すれば、制御ダイナミクスモデルの粒度は、(ビークルモデルなどの)粗いものから(ビークルの個々の/特定の特性などの)微細なものまで変化しうる。
【0026】
図1は、ビークル環境116において自律動作能力を提供するためのビークル制御ユニット110を含むビークル100の概略図である。理解されうるように、ビークル100は、自動車、軽トラック、貨物輸送車、又は任意のその他の乗用又は非乗用ビークルであってもよい。
【0027】
ビークル100の軌跡計画134との関係においてビークル環境116を評価するべく、複数の物体センサ装置102−1、102−2、102−3、102−4、102−5、及び102−6(総合的に、物体センサ装置102)が、制御ユニット110との通信状態にある。ビークル100の軌跡情報(並びに、自律ビークル状態X
k)は、一般に、GPS及び/又はマッピング技術によって特定されうる様々な既定のマーカーにおける軌跡計画134、ビークル速度、ビークル製造元、ビークルモデル、ファームウェアインスタレーション、目的地点、及び(減速、停止、方向転換、加速、交通流との合流などのような)軌跡地点動作を含みうる。
【0028】
又、軌跡情報は、中間的な自律ビークル目的を含むこともできる。即ち、ビークル制御ユニット110は、交通信号における方向転換、通り、交通信号マーカーにおける加速又は減速などのように、一般的に静的なものとして、目的を識別することができる。その一方で、中間的な自律ビークル目的は、その他のビークル、歩行者、自転車に乗った人などに関係するものとして、動的(又は、非静的)なものであってもよい。このような自律ビークル目的の例は、
図2〜
図6を参照して詳述するように、現在の車線から隣接する車線への、退出車線から正面の車線への、などの、ハイウェイ上への合流車線を介したものなどの、その他のビークルを有する交通流内へのビークル100による合流を含みうる。
【0029】
複数の物体センサ装置102は、ビークル100の外側表面上において位置決めされてもよく、或いは、ビークル100との関係において、美的な目的のために、隠蔽された方式により、位置決めされてもよい。物体センサ装置102と、ビークル制御ユニット110を含む、ビークル制御ユニットの間の通信は、バスに基づいたものであってもよく、且つ、又、ビークル100のその他のシステムによって使用又は操作されてもよい。
【0030】
例えば、物体センサ装置102は、ボディ電子エリアネットワーク(BEAN:Body Electronic Area Network)、コントローラエリアネットワーク(CAN:Controller Area Network)バス構成、オーディオビジュアル通信−ローカルエリアネットワーク(AVC−LAN:Audio Visual Communication−Local Area Network)構成、及び/又はビークル100の装置及びシステムの間において通信を提供するための更なる通信システムアーキテクチャのその他の組合せなどの、ネットワークアーキテクチャの組合せによって結合されてもよい。
【0031】
物体センサ装置102は、光検出及び測距(LIDAR:Light Detection and Ranging)システムによって提供されてもよく、物体入力装置102は、ビークル100の環境116内の物理的物体からのレーザー光反射に関係するデータをキャプチャすることができる。又、物体センサ装置102は、レーザー(LIDAR)とミリ波レーダー装置の組合せを含むことができる。LIDAR及びレーダーに基づいた装置は、物体の速度(即ち、相対的且つ/又は絶対的速度)と共に、物体を検知するように動作することができる。
【0032】
物体センサ装置102は、単独で、或いは、組合せにおいて、深度画像をキャプチャするように、或いは、さもなれば、キャプチャされた画像の深度情報を生成するように、動作することができる。例えば、物体センサ装置102は、画像(可視及び非可視スペクトル波長や可聴及び非可聴波長など)をキャプチャするように構成されていてもよい。
【0033】
この点において、物体センサ装置102は、ビークル環境116の別のビークル150の距離ベクトル計測値を判定するように動作可能である。
【0034】
例えば、物体センサ装置102のそれぞれは、ビークル環境116の物体の深さ/距離、方向、及び/又は速度を判定するべく、構造化光、(例えば、ドップラー検知用の信号の)飛行時間、光検出及び測距(LIDAR)、光場、及びその他の情報を検知及び/又は分析するように構成されていてもよい。
【0035】
動作の際に、物体は、組合せにおいて、或いは、独立的に、複数のセンサ102−1〜102−6を使用することにより、検出することができる。一例においては、物体センサ装置102−1、102−2、及び102−3は、ビークル100の前方の物体を検出するように動作することができると共に、物体センサ装置102−4、102−5、及び102−6は、ビークル100の後方の物体を検出するように動作することができる。
【0036】
又、物体センサ装置102のそれぞれは、個々の空間部分に基づいて集合的な物体パラメータ検出を提供するように、個々の機能を実装することができる。例えば、物体センサ装置102−1は、別のビークル150などの物体を検出するように動作してもよく、且つ、物体センサ装置102−2は、ビークル100との関係において別のビークル150の物体速度を検出するように動作してもよい。更には、物体センサ装置102−3は、物体の検知及び/又は検出を確認するように、物体センサ装置102−1との組合せにおいて動作してもよい。理解されうるように、物体の相対速度を、物体センサ装置102を介して判定し、物体の連続位置検出計測値によって外挿し、且つ、これにより、これらに基づいて、(動きベクトルを形成するなどのために)動きの速度及び/又は方向を算出することができる。
【0037】
又、物体センサ装置102の個々のサブセットは、物体センサ装置のその他のサブセットとの組合せにおいて動作してもよく、且つ、更には、望ましい検知機能及び/又は用途のために、交互又は非同期、同時、又は個々に基づいた方式により、動作することができる。
【0038】
動作の際には、ビークル制御ユニット110は、物体センサ装置102によって出力されうるビークルセンサデータを受け取るように動作することができる。物体センサ装置102は、軌跡計画134に沿って速度V
100において移動しつつ、ビークル100を取り囲んでいるエリア内の物理物体からのレーザー反射に関係するビークルセンサデータをキャプチャ及び送信することができる。一例として、1つ又は複数の検知信号152の信号反射は、その他のビークルのみならず、センターライン、車線ライン、及び軌跡計画134のエッジ、交通信号などのような、ビークルルートのマーキングを通知することができる。
【0039】
理解されうるように、ビークル制御ユニット110は、ビークル環境116の自律ビークル目的を選択するように動作することができる。自律ビークル目的は、軌跡計画134及び/又はビークル制御ユニット110による短期自律制御に基づいたものであってもよい。自律ビークル装置との関係において、ビークル制御ユニット110は、自律ビークル状態のセットを識別することができると共に、ビークル環境116の物体が自律ビークル物体に影響を及ぼすかどうかを判定することもできる。
【0040】
ビークル環境116のその他の静的且つ/又は動的物体が自律ビークル目的に影響を及ぼす際には、ビークル制御ユニット110は、別のビークル150などの、認識された物体のビークル状態をも考慮しつつ、自律ビークル目的を実現するべく、自律ビークル状態のセットを通じて進捗するように動作することができる。ビークル制御ユニット110は、ビークル100の自律ビークル状態のセットの現在のものに対する適応型ポリシーを形成するように、動作することができる。
【0041】
適応型制御ポリシーπは、ビークル目的の自律ビークル状態のセットのうちの後続の1つに進捗するための自律ビークルアクションを形成するように、動作することができる。ビークル制御ユニット110は、自律ビークル状態のセットのうちの後続の1つへの進捗を実現するためのビークルアクションを送信することができる。このような方式によってビークル状態のセットを通じて再帰的に進捗することにより、ビークル制御ユニット110は、
図2〜
図6を参照し説明するように、ビークル環境116において自律ビークル目的を充足することができる。
【0042】
図2は、
図1のビークル制御ユニット110のブロック図を示している。
図2は、ビークル制御ユニット110のブロック図であり、これは、バス208を介して通信自在に結合された無線通信インターフェイス202、プロセッサ204、及びメモリ206を含む。ビークル制御ユニット110は、
図1〜
図6を参照して詳述されている装置及び方法用の例示用のプラットフォームを提供することができる。
【0043】
プロセッサ204は、情報を操作又は処理する能力を有する、従来型の中央処理ユニット又は任意のその他のタイプの装置、或いは、複数の装置であってもよい。理解されうるように、プロセッサ204は、単一の処理装置であってもよく、或いは、複数の処理装置であってもよい。このような処理装置は、マイクロプロセッサ、マイクロコントローラ、デジタル信号プロセッサ、マイクロコンピュータ、中央処理ユニット、フィールドプログラム可能なゲートアレイ、プログラム可能な論理装置、状態機械、論理回路、アナログ回路、デジタル回路、並びに/或いは、回路及び/又は動作命令のハードコーディングに基づいて信号(アナログ及び/又はデジタル)を操作する装置であってもよい。
【0044】
メモリ(並びに/或いは、メモリ要素)206は、プロセッサ204に通信自在に結合されていてもよく、且つ、本開示において記述されている1つ又は複数のモジュールを保存するように動作することができる。モジュールは、実行された際に、プロセッサ204が、本開示において記述されている様々なプロセス及び/又は動作のうちの1つ又は複数を実装するようにする命令を含むことができる。
【0045】
メモリ及び/又はメモリ要素206は、単一のメモリ装置、複数のメモリ装置、及び/又はプロセッサの組込み型回路であってもよい。このようなメモリ装置は、読取り専用メモリ、ランダムアクセスメモリ、揮発性メモリ、不揮発性メモリ、スタティックメモリ、ダイナミックメモリ、フラッシュメモリ、キャッシュメモリ、及び/又はデジタル情報を保存する任意の装置であってもよい。更には、本開示において記述されている構成は、例えば、その上部に保存される、などのように、実施された、コンピュータ可読プログラムコードを有する1つ又は複数のコンピュータ可読媒体として実施されたコンピュータプログラムプロダクトの形態を有することもできる。1つ又は複数のコンピュータ可読媒体の任意の組合せを利用することができる。コンピュータ可読媒体は、コンピュータ可読信号媒体又はコンピュータ可読ストレージ媒体であってもよい。
【0046】
「コンピュータ可読ストレージ媒体」というフレーズは、一時的ではないストレージ媒体を意味している。コンピュータ可読ストレージ媒体は、例えば、限定を伴うことなしに、電子的、磁気的、光学的、電磁的、赤外線、又は半導体システム、装置、又は機器、或いは、これらの任意の適切な組合せであってもよい。コンピュータ可読ストレージ媒体の更に具体的な例(すべてを網羅するものではないリスト)は、携帯型コンピュータディスケット、ハードディスクドライブ(HDD)、半導体ドライブ(SSD)、読み出し専用メモリ(ROM)、消去可能なプログラム可能な読み出し専用メモリ(EPROM又はフラッシュメモリ)、携帯型のコンパクトディスク読み出し専用メモリ(CD−ROM)、デジタルバーサタイルディスク(DVD)、光ストレージ装置、磁気ストレージ装置、又はこれらの任意の適切な組合せを含むことになろう。本文書の文脈において、コンピュータ可読ストレージ媒体は、命令実行システム、装置、又は機器による、或いは、これらとの関連における、使用のためのプログラムを収容又は保存しうる任意の有体の媒体であってもよい。コンピュータ可読媒体上において実施されたプログラムコードは、限定を伴うことなしに、無線、有線、光ファイバ、ケーブル、RFなど、或いは、これらの任意の適切な組合せ、を含む、任意の適切な媒体を使用することにより、送信することができる。
【0047】
メモリ206は、機械可読命令がプロセッサ204によってアクセスされうるように、機械可読命令、又は命令、を保存する能力を有する。機械可読命令は、例えば、プロセッサ204によって直接的に実行されうる機械言語、或いは、機械可読命令にコンパイル及びアセンブルされうると共にメモリ206上において保存されうる、アセンブリ言語、JAVA(登録商標)、Smalltalk、C++、又はこれらに類似したものなどのオブジェクト指向のプログラミング(OOP)、従来の手続き型のプログラミング言語、スクリプティング言語、マイクロコードなどのプログラミング言語及びその各世代(例えば、1GL、2GL、3GL、4GL、又は5GL)において記述された論理又は1つ又は複数のアルゴリズムを含むことができる。或いは、この代わりに、機械可読命令は、フィールドプログラム可能なゲートアレイ(FPGA)構成又は用途固有の集積回路(ASIC)、又はこれらの均等物を介して実装された論理などの、ハードウェア記述言語(HDL)において記述されてもよい。従って、本開示において記述されている方法及び装置は、事前プログラミングされたハードウェア要素として、或いは、ハードウェア及びソフトウェアコンポーネントの組合せとして、任意の従来のコンピュータプログラミング言語において実装することができる。
【0048】
プロセッサ204が複数の処理装置を含む際には、処理装置は、(例えば、有線及び/又は無線バス構造を介して1つに直接的に結合されるなどのように)中央に配置されてもよく、或いは、(例えば、ローカルエリアネットワーク及び/又はワイドエリアネットワークを介する間接的な結合を介したクラウド演算などのように)分散配置されてもよいことに留意されたい。プロセッサ204が、状態機械、アナログ回路、デジタル回路、及び/又は論理回路を介してその機能のうちの1つ又は複数を実装する際には、対応する動作命令を保存するメモリ及び/又はメモリ要素は、状態機械、アナログ回路、デジタル回路、及び/又は論理を含む回路内において、或いは、その外部において、埋め込まれうることに更に留意されたい。
【0049】
又、メモリ206は、
図1〜
図6に示されているステップ及び/又は機能のうちの少なくともいくつかに対応するモジュールのハードコーディングされた且つ/又は動作的な命令を保存し、且つ、プロセッサ204は、これを実行することに更に留意されたい。
【0050】
ビークル制御ユニット110は、1つ又は複数のモジュールを含むことが可能であり、本開示には、その少なくともいくつかについて記述されている。モジュールは、プロセッサ204によって実行された際に、本開示において記述されている様々なプロセスのうちの1つ又は複数を実装する、コンピュータ可読プログラムコードとして実装することができる。モジュールのうちの1つ又は複数は、1つ又は複数のプロセッサ204の1つのコンポーネントであってもよく、或いは、モジュールのうちの1つ又は複数は、1つ又は複数のプロセッサ204が動作自在に接続されているその他の処理システム上において実行させることも可能であり、且つ/又は、これらのシステムの間において分散させることもできる。モジュールは、1つ又は複数のプロセッサ204によって実行可能である命令(例えば、プログラム論理)を含むことができる。
【0051】
無線通信インターフェイス202は、一般に、ビークルネットワーク212を介して受け取られるデータを制御及び管理している。任意の特定のハードウェア構成上において動作する本開示に対する制限は、存在しておらず、且つ、従って、本開示における基本的機能は、その発展に伴って、改善されたハードウェア及び/又はファームウェア構成を目的として、置換、除去、追加、又はさもなければ変更することができる。
【0052】
アンテナ112は、全地球測位システム衛星によって送信された電磁信号とやり取りする1つ又は複数の導電性要素を含むことができる。受信された信号は、場所(例えば、緯度及び経度位置)を通知し、且つ、更には、道路データとの関係におけるビークルの位置を通知する、データ信号に変換することができる。
【0053】
ビークル制御ユニット110は、例えば、ビークル制御ユニット110のアンテナ112又はその他のこのようなビークルアンテナ(図示されていない)を介して、全地球測位システム衛星から信号を受け取るように、通信自在に結合されていてもよい。アンテナ112は、無線通信112を通じたビークル制御ユニット110との間の通信を提供するように動作している。理解されうるように、無線通信112は、別のビークル150(
図1)に関係しうるビークル動作データ140を受け取るべく、ビークル間(V2V)通信、ビークル−インフラストラクチャ(V2I)通信、及び/又は、データ/セルラー通信を搬送するように動作することができる。
【0054】
無線通信122は、1つ又は複数の無線通信システム仕様に基づいたものであってもよい。例えば、無線通信システムは、限定を伴うことなしに、3GPP(3rd Generation Partnership Project)、4GPP(4th Generation Partnership Project)、5GPP(5th Generation Partnership Project)、LTE(Long Term Evolution)、LTE Advanced、RFID、IEEE 802.11、Bluetooth(登録商標)、AMPS(Advanced Mobile Phone Services)、digital AMPS、GSM(登録商標)(Global System for Mobile communications)、CDMA(Code Division Multiple Access)、LMDS(Local Multi−point Distribution Systems)、MMDS(Multi−channel−Multi−point Distribution Systems)、IrDA、Wireless USB、Z−Wave、ZigBee、及び/又はこれらの変形を含む、1つ又は複数の規格仕様に従って動作することができる。
【0055】
理解されうるように、ビークルネットワーク212の通信経路213は、例えば、導電性ワイヤ、導電性トレース、光導波路、又はこれらに類似したものなどの、信号を送信するのに適した媒体から形成することができる。更には、通信経路213は、信号を送信する能力を有する媒体の組合せから形成することもできる。
【0056】
一実施形態においては、通信経路213は、プロセッサ、メモリ、センサ、入力装置、出力装置、及び通信装置などのコンポーネントへの電気データ信号の送信を許容するべく協働する、導電性トレース、導電性ワイヤ、コネクタ、及びバスの組合せを含むことができる。
【0057】
従って、通信経路213は、ボディ電子エリアネットワーク(BEAN)、コントローラエリアネットワーク(CAN)バス構成、オーディオビジュアル通信−ローカルエリアネットワーク(AVC−LAN)構成、ローカルインターコネクトネットワーク(LIN)構成、ビークルエリアネットワーク(VAN)バスなどのビークルバス又はその組合せ、並びに/或いは、ビークル100の装置及びシステムの間における通信を提供するための更なる通信システムアーキテクチャのその他の組合せにより、提供されてもよい。
【0058】
「信号」という用語は、本開示において記述されている媒体の少なくともいくつかを通じて移動する能力を有する、DC、AC、正弦波、三角波、方形波、振動、及びこれらに類似したものなどの、(例えば、電気的、光学的、磁気的、機械的、又は電磁的などの)波形に関係しているものと理解されたい。
【0059】
ビークル制御ユニット110の個々のモジュール及び関連する命令は、プロセッサ204によって実行された際に、プロセッサ204が、
図3〜
図6を参照して詳述しているように、1つ又は複数の物体センサ装置102(
図1)からビークルセンサデータ216を受け取り、且つ、少なくとも部分的にビークルセンサデータ216に基づいて自律ビークルアクションコマンド124を生成するようにしている。
【0060】
図3は、ビークル制御ユニット110用の、メモリ206内において保存されている機能モジュールブロック図を示しており、メモリ206は、マルチビークル検出モジュール308と、強化学習モジュール312と、を保存することができる。又、メモリ206は、フィードバックモジュール318と、自律ビークルデータセットモジュール314と、を保存することもできる。
【0061】
ビークル状態モジュール308は、ビークルセンサデータ216−100及び/又は別のビークルの動作データ306を受け取ることができる。ビークル100の自律ビークル状態322に関係するデータとの関係において、ビークルセンサデータ216−100は、ビークル100と、ビークル100との関係における静的及び/又は動的物体と、の動作に関係するビークルセンサデータ216(例えば、ビークル速度センサ(VSS)データ出力、慣性計測ユニット(IMU)データ出力など)に関係している。
【0062】
ビークル動作データ140及び/又はビークルセンサデータ216−100に基づいて、ビークル状態モジュール308は、プロセッサによって実行された際に、プロセッサが、複数のビークルセンサ装置の第1の部分に基づいてビークル状態ビークル環境を認識するようにする命令を介して、自律ビークル状態を生成する。
【0063】
例えば、自律ビークル目的が、(例えば、道路及び/又は高速道路上へなどのように)交通流と合流する、というものでありうる際には、別のビークルなどのその他の物体が自律ビークル目的に影響を及ぼす場合があり、その理由は、自律ビークルがそのビークルの動作状態を考慮しない際には、衝突及び/又は回避アクションを実行する必要がありうるからである。この点において、合流の目的は、十分な自律ビークル間隔を伴った、且つ、別のビークル(或いは、一般的には、その他の複数のビークル)との間の衝突を伴わない、交通流内への安全な遷移であってもよい。
【0064】
強化学習モジュール312は、自律ビークル100との関係において、ビークルセンサデータ216−100及び/又はビークル動作データ140に基づいて、自律ビークル状態322を受け取るように動作している。理解されうるように、強化学習構造は、自律ビークルアクションコマンド124に基づくように制御ダイナミクスモデル317を生成するべく、環境の能動的なサンプリングに依存している。能動的な探査費用は、過大になる場合があり、且つ、その結果、タイムリーなアクション決定に到達するための時間及び処理及びサンプリングのオーバーヘッドに起因して、自律ビークルが、衝突又はニアミスをもたらしうる操作を楽観的に試みることから、受け入れ不能となる場合がある。
【0065】
従って、強化学習モジュール312は、自律ビークルデータセットモジュール314を介してアクセスされる受動的環境動的データセット316に基づいて、2ステージ構成において、構成することができる。自律ビークルデータセットモジュール314は、ビークル100などのビークルに関係する部分的に既知のシステムダイナミクスモデルをサンプリングし、開発し、且つ、メモリ206内において保存するように、動作する。換言すれば、受動的環境動的データセット316は、一般には複数のビークルの受動的動的データを含む一般的データセットセット(即ち、乗用ビークル、ピックアップトラック、SUV、リクリエーションビークルなどを含む)、並びに、第1のデータセットの複数のビークルのサブセットに関係する動作データを含む第2のデータセット、として、入力されている。サブセットは、(特定のビークルタイプ及びモデルを有するビークル100のものなどの)1つの自律ビークル要素や(乗用ビークル、SUV、乗用トラックなどのような)共通的な自律ビークルのカテゴリなどを含むことができる。サブセットは、第1のデータセットによって生成された状態値関数及びポリシーを第2のデータセットの自律特定ビークル特性に対して適合させるように動作することができる。
【0066】
モデルは、(a)制御ダイナミクスモデル及び/又はデータ317と、(b)受動的環境動的データセット316と、を含んでいてもよく、後者は、第1のデータセットとも呼称することができる。制御ダイナミクスモデル317は、ビークル100の自律制御(速度パラメータ、方向パラメータ、加速パラメータ、減速パラメータなど)に対応している。受動的環境動的データセット316は、(道路の文脈における平均速度サンプリング、その他のビークル及び/又は物体との間の過去のやり取り/シミュレーション、環境の天候条件などのように)ビークルから独立したものであってもよく、受動的なものであってもよく、その理由は、環境ダイナミクスデータは、能動的な、即ち、リアルタイムの、センサスキャンから生成されてはいないからである。その代わりに、このデータは、ビークル100に対応する、予め収集及び保存された、状態遷移及び/又はシミュレーションデータに基づいたものであってもよい。
【0067】
この結果、環境ダイナミクスデータセット316は、ビークル100に関連する位置及びベクトルデータに基づいて軌跡計画134の道路部分に関係しうると共に、別のビークルなどの物体と関連する位置及びベクトルデータにも関係しうる。
【0068】
フィードバックモジュール318は、別のビークル動作データ140及び/又はビークルセンサデータ216−100を受け取り、且つ、自律ビークルアクションコマンド124の結果及び/又は効果に対応する報酬データ320を判定している。ビークルセンサデータ216−100との関係において、自律ビークル状態322に基づいて、更なる報酬、即ち、強化、データを判定することができる。
【0069】
図4は、
図3の強化学習モジュール312の一例の機能モジュールブロック図を示している。理解されうるように、強化学習(RL)は、機械学習の一形態であり、且つ、人工知能(AI)の一態様として見なされてもよい。強化学習モジュール312の1つの目的は、ポリシー決定に続く状態値を予測し、且つ、ポリシーを最適なポリシーの実現に向かって変更する、というものである。例えば、加速の場合に、ポリシー決定は、最適なポリシーが、次の状態を実現するべく所定のレートにおいて加速させる、というものである状態において、加速を継続する、というものであってもよい。予測は、次の状態を実現するというものであり、これは、カバーされている距離によって計測することができる。報酬データは、最適なポリシーに基づいた次の状態の実現の成功に関係することになろう。
【0070】
強化学習モジュール312は、クリティックモジュール402と、アクタモジュール406と、を含むことができる。自律ビークルデータセットモジュール314は、受動的環境動的データセット316及び制御ダイナミクスモデル317をRLモジュール312に提供するように動作している。
【0071】
自律ビークルデータセットモジュール314は、ビークル環境との関係におけるダイナミクスのセンサ及び/又はシミュレートされたデータサンプルを含むことができる。自律ビークルデータセットモジュール314は、強化モジュール312が能動的な環境スキャニングに従事する必要がないように、動作することができる。
【0072】
例えば、強化学習システムは、一般に、現在の状態X
kにある際には、次の状態X
k+1に進捗するべく、能動的な環境スキャニングに基づいてアクション決定を形成している。この結果、次の状態X
k+1への進捗は、センササンプリングレート、プロセッサクロッキング速度、メモリ速度などのような、次のアクションの形成が依存しているコンポーネントの検知及び/処理レイテンシーに依存した状態となりうる。
【0073】
上述のように、能動的なスキャニングは、自律ビークル動作の用途においては、受け入れ不能な遅延を課す場合があり、且つ、更には、このような遅延は、初期環境評価を陳腐化させる場合がある。この結果、遅延の後に形成されたアクション決定は、もはや、自律動作による最適アクションの配備ではなくなりうる。
【0074】
理解されうるように、自律ビークルデータセットモジュール314は、複数のビークルに関係する「現在の状態→次の状態への遷移」(即ち、X
k→X
k+1)から収集される、受動的環境動的データセット316の第1のデータセットを提供するように動作することができる。理解されうるように、受動的環境ダイナミクスデータセット316は、異なるビークルによる状態進捗のデータ記録から、且つ/又は、複数のビークルを形成する異なるビークルのシミュレートされた動作による状態進捗から生成されたデータ記録から、生成することができる。
【0075】
又、自律ビークルデータセットモジュール314は、第1のデータセットを形成する複数のビークルの一部分又はサブセットの制御及び/又は動作ダイナミクスの第2のデータセット(即ち、受動的環境ダイナミクスデータセット317)を提供するように、動作することができる。理解されうるように、複数のビークルの一部分は、(エコノミークラス、ファミリークラス、セダンクラス、高級クラス、スポーツクラス、スポーツユティリティクラスなどのような)ビークルクラスに関係しうる。この代わりに、又は組合せにおいて、複数のビークルの一部分は、(Toyotaなどの)ビークル製造者、(Toyota Tacoma、Toyota Corolla、Toyota Camry、Toyota Priusなどのような)ビークルモデルに関係しうる。
【0076】
一部分は、年式のみならず、(年式、走行マイル、運転特性(即ち、保守的や反応的など)、修理、保守記録などのような)ビークルの運転状態に関係する細目により、更に分割されてもよい。換言すれば、制御ダイナミクスモデル317の粒度は、粗いもの(ビークルモデルなど)から微細なもの(ビークルの特定の特性など)まで変化しうる。
【0077】
この点において、自律ビークルデータセットモジュール314は、相対的に乏しいシステム知識に基づいて、且つ、能動的な環境検知及び/又は探査を必要とすることなしに、機械学習に従事しうる連続的な状態及びアクション空間を提供する能力を強化学習モジュール312に提供するように、動作することができる。又、自律ビークルデータセットモジュール314は、複数のビークルのうちの異なるビークルについて、自律ポリシーπの最適化と、結果的に得られる自律ビークルアクション124と、を提供することができる。
【0078】
換言すれば、ビークル環境の能動的なリアルタイムの(或いは、ほぼリアルタイムの)検知及び/又は探査によって必要とされるオーバーヘッドの低減に加えて、自律ビークルデータセットモジュール314は、複数のビークルのうちの異なるビークルについて、異なる制御ダイナミクスモデルを受け入れるように、動作することができる。即ち、自律ビークルデータセットモジュール314は、強化学習モジュール312を即座に構成しうるが、この実行には、特定のビークルプラットフォーム(即ち、製造者、クラス、モデル、年など)に適合された環境及び動作データの収集を必要としていた。
【0079】
この点において、クリティックモジュール402の状態値関数は、受動的環境動的データセット316に基づいたものであってもよく、受動的環境動的データセット316は、現在の状態に関係するデータ316aと、次の状態に関係するデータ316bと、を含みうる。
【0080】
又、アクタモジュール405の制御利得(並びに、適応型ポリシーπ)は、制御ダイナミクスモード317に基づいて最適化されてもよく、制御ダイナミクスモード317は、状態費用317aと、制御ダイナミクス317bと、を含みうる。
【0081】
クリティックモジュール402は、強化フィードバック信号404を生成することにより、状態評価を提供するように動作しており、強化フィードバック信号404は、報酬データ320及びビークルセンサデータ216−100を介した自律ビークルアクション124の結果の観察に基づいたものであってもよい。理解されうるように、クリティックモジュール402は、時間差誤差の形態を有することができるが、これは、アクションが、先行する自律ビークルアクション124について予想されるものよりも、良い又は悪い状態において進行したかどうかについての通知を生成する。
【0082】
時間差が正である際には、その自律ビークルアクション124のアクションの再度の選択に向かう傾向が強化されることになろう。報酬データの一般的な例として、正の報酬は、望ましい軌跡を成功裏に辿ることを通知しうる一方で、負の報酬は、衝突(或いは、望ましい軌跡を成功裏に辿らないこと)を通知しうる。
【0083】
状態X
k、次の状態X
k+1、及び状態費用q
k(これらは、ビークル100の特定の性能特性に関係する状態費用317aとして提供されうる)を含む、(i=1〜Nの反復に基づいた)第1の、且つ/又は、受動的な、環境動的データセット316の観点における状態値関数の学習の一例は、以下の式によって表すことができる。
【0085】
勾配
【数2】
により、υ
iを更新すれば、次式のとおりであり、
【0087】
kは、時間インデックスを表記しており、
【0088】
Z
kは、指数変換された値関数であり(「Z値」とも呼称される)、且つ、Z
avgは、最適なポリシーπの下における平均費用であり、
【0089】
【数4】
は、推定されたZ値関数であり、
【0091】
【数5】
は、時間差(TD)誤差であり(ここで、iは、反復を表記しており)、且つ、
【0092】
【数6】
は、反復iの関数としての学習レートである。
【0093】
アクタモジュール406は、ポリシーπの改善を提供するように動作することができると共に、アクタモジュール406の行動関数を含むポリシーπの成分を含むことができる。換言すれば、値関数は、どれだけ「良好」に自律ビークルアクション124が実行されると予想されうるか(即ち、将来報酬)と、マルチビークル環境116のモデル表現と、を通知している。ポリシーπは、自律ビークル状態から自律ビークルアクション124にマッピングされうることから、ビークルの振る舞いと見なすことができる。
【0094】
理解されうるように、ポリシーπは、決定論的ポリシーであってもよく(例えば、アクション「a」は、π(状態「s」)に等しい)、或いは、確率論的ポリシーであってもよく、ここで、ポリシーπ(アクション「a」|状態「s」)は、Markov進行における次の自律ビークル状態の確率P[A
t=action “a” 124|S
t=state “s”]に等しい。
【0095】
アクタモジュール406は、Markovianであると見なされてもよく、自律動作の将来は、現時点の状態(位置、速度、方
向など)と、自律ビークルアクション124と、に依存している。Markov決定プロセスは、{S,A,ρ,r,γ}によって定義され、ここで、Sは、状態のセットであり、A(s)は、状態Sにおいて可能であるアクションのセットであり、ρは、状態Sからの遷移の確率であり、rは、自律ビークルアクションAを状態Sにおいて実行した際の予測される報酬であり、且つ、γは、予測された報酬rのディスカウントレートである。
【0096】
アクタモジュール406は、複数のビークルの一部分について制御ダイナミクスモデル317に基づいて制御利得を学習するように、動作することができる。状態X
k、次の状態X
k+1、及び状態費用q
kを含む、(i=1〜Nの反復に基づいた)制御ダイナミクスモデル317の観点における制御利得の学習の一例は、次式によって表すことができる。
【0102】
【数11】
は、報酬関数(或いは、時間変位(TD)誤差)であり、
【0104】
β
iは、学習レートである。
この結果、アクタモジュール406は、クリティックモジュール402からの推定されたZ値を使用して状態Sを演算することにより、ポリシーπを改善するように動作することができる。
【0105】
記述したように、強化学習モジュール312用の受動的なアクタ−クリティック構造においては、2つの階層データセットを使用することができる。第1のデータセットは、受動状態遷移(即ち、環境116との関係におけるサンプリング及び/又はシミュレートされたビークルアクション)において収集された受動的動的データ316であってもよい。第2のデータセットは、自律ビークル100の既知の動作及び/又は制御ダイナミクスモデル317であってもよく、これは、受動的環境動的データセット316の第1のデータセットに関係する複数のビークルの一部分であるものと理解することができる。
【0106】
線形解決可能な連続Markov決定プロセス(L−MDP)に適用されうるように、クリティックモジュール402は、受動的環境動的データ316から、線形化されたBellman(B)等式に基づいて、推定値関数を推定することができる一方で、アクタモジュール406は、自律ビークル100の受動的動的データ316及び制御ダイナミクスモデル317bにおける標準的なBellman(B)等式に基づいてポリシーπを最適化するように(これにより、自律ビークルアクション124を生成するように)、動作することができる。
【0107】
この点において、自律ビークル能力は、アクタモジュール406のポリシー制御利得との協働状態においてクリティックモジュール402の状態値関数に基づいて自律ビークルアクションコマンドを生成するように、実装することができる。
【0108】
図5は、道路560に合流するビークル100を含むマルチビークル環境116の一例を示している。ビークル100は、自律ビークル目的546(即ち、道路との合流)を選択し、且つ、この例の場合には、ビークル100を道路560の交通流と合流させる、というものである、自律ビークル目的に関係する自律ビークル状態のセット540、542、544、及び546を識別する。自律ビークル状態540、542、544、及び546は、ビークル制御ユニット110による離散サンプリングインターバルにより、通知することができると共に、一般には、自律ビークル目的546に向かうビークル100の進捗のアンダーサンプリング及び/又はオーバーサンプリングを回避するように、選択することができる。理解されうるように、自律ビークル状態の数は、離散サンプリングインターバルに基づいて増大/減少しうる。
【0109】
強化学習モジュール312(
図4)の受動的なアクタ−クリティック構造との関係において、受動的環境動的データ316は、自律ビークル100により、最適なポリシーπ(即ち、合流車線562から道路560の交通流に合流するための所与の距離における速度の増大)を許容している。理解されうるように、受動的環境動的データセット316は、同一又は類似の動作及び/又は目的に予め従事したその他のビークルを通じて収集することができると共に、更には、データセット316を生成するためのシミュレーションとの関係において生成することもできる。
【0110】
理解されうるように、最適なポリシーπは、自律ビークル目的546―即ち、交通流との合流―の(合流車線562の長さ、合流車線562における平均速度、道路560の交通流との合流を実現するために加速するべき速度などのような)物理的特性のそれぞれを識別するためのビークル環境116の能動的な探査に基づいてはいない。この代わりに、これらの特性は、ビークル制御ユニット110の強化学習モジュール312によって使用される環境モデルをレンダリングし、これにより、さもなければ環境及び/又は状況評価のために割り当てられることになる自律ビークルアクション124を形成するための時間を低減するべく、受動的に収集及び/又はシミュレートされている。
【0111】
又、受動的環境動的セット316は、自律ビークル目的546に影響を及ぼしうる、道路560内に存在している別のビークル150などの、その他のビークルの先行する且つ/又はシミュレートされたシナリオに基づいた変動を含みうる。例えば、別のビークル150が、ビークル100の時点において又はその周辺において自律ビークル目的546を妨げる場合がある。この点において、ビークル100と別のビークル150の間の衝突及び/又はニアミスの可能性が結果的にもたらされうる。
【0112】
理解されうるように、現在の車線から別のビークルを含む隣接する車線への合流や出口車線から別のビークルを含む正面の車線への合流などのような、別のビークル150が自律ビークル100の自律ビークル目的に影響を及ぼすその他の例示用のシナリオが発生しうる。又、例のわかりやすさを目的として、1つのビークル150が、自律ビークル目的に影響を及ぼすものとして示されている。更に密度の高い交通流状態においては、いくつかのその他のビークルが、自律ビークル目的に影響を及ぼす場合があり、従って、自律ビークル目的546に向かう自律ビークル100の接近を調節するべく、更なるその他のビークルのビークル状態の更なる検知及び認識を実装することができる。
【0113】
動作の際には、ビークル制御ユニット110は、1つ又は複数の検知信号152(並びに、それらの個々の反射)に基づいて、(相対位置、速度、向きなどのような)ビークル150の状態を認識することができる。
【0114】
この点において、ビークル制御ユニット110は、自律ビークル目的546に向かって後の自律ビークル状態540に進捗するべく、(例えば、所定レベルの加速(m/s
2)などの)自律ビークルアクションを形成するための適応型ポリシーπの形成において、別のビークル150の運動を反復的に考慮するように、動作することができる。
【0115】
ビークル制御ユニット110は、別のビークル150の時点t’における認識されたビークル状態Xとの関係において、時点tにおける現在の自律ビークル状態に対する適応型ポリシーπを形成している。時点tにおける現在の自律ビークル状態から、時点t+1における自律ビークル状態のセットSのうちの後続の1つに進捗するべく、適応型ポリシーπから、自律ビークルアクション(t)522が生成される。わかりやすさを目的として、自律ビークルアクションは、合流車線562から道路560に合流するべく十分である別のビークル150との間の自律ビークル100の相対速度に基づきうる、適応型ポリシーπに基づいた自律ビークルの速度に関係しうる。
【0116】
自律ビークルアクション(t)522は、自律ビークル状態のセットのうちの後続の1つへの進捗を実現するべく、送信することができる。即ち、自律ビークルアクション(t)522は、自律ビークルアクション(t)522、自律ビークルアクション(t
1)526、自律ビークルアクション(t+2)530などに基づいて、ビークルパワートレーンアクチュエータに対する制御データを生成するように動作しうる、パワートレーン制御ユニットなどの、自律ビークル100のその他のビークル制御ユニットに提供することができる。
【0117】
理解されうるように、ビークル100のその他のビークル制御ユニットは、ビークル制御ユニット110(
図2)などの、類似の構造を有することができる。又、本開示において使用されている「パワートレーン」という用語は、パワーを生成し、且つ、パワーを道路表面、水、又は空気に供給する、ビークルコンポーネントを記述しており、且つ、エンジン、トランスミッション、駆動シャフト、ディファレンシャル、及びパワーを動きに伝達する最終的な駆動装置(例えば、駆動車輪、戦車又はキャタピラ(登録商標)トラクタなどにおける連続的なキャタピラ(登録商標)、プロペラなど)を含みうる。又、パワートレーンは、ビークル100の物理的なハンドルを通じた、或いは、ワイヤ駆動型及び/又は光駆動型のアクチュエータを介した、ハンドル角度制御をも含みうる。
【0118】
図5に示されているように、自律ビークル状態のセットのうちの或る後続の状態への進捗は、現在の時点(t)に関係する自律ビークルアクション部分と、後続の自律ビークル状態との関係における将来時間インターバル(t+1)における知覚された値又は報酬部分(例えば、S
t+1における自律ビークル状態540の報酬(t+1))と、を含む。受動的なアクタ−クリティックモジュール(
図4)に基づいた強化学習モジュール312においては、クリティックモジュール402は、実現されたかどうかを判定するべく、且つ、更には、強化フィードバック信号404を介して、適宜、アクタモジュール406(
図4)のポリシーπを適合させるべく、知覚された報酬524を評価するように、動作することができる。
【0119】
従って、自律ビークル状態540から、後続の自律ビークル状態542への進捗のために、(例えば、時点tから時点(t+1)までの別のビークル150の距離の変化、並びに、速度v
t’+1m/sなどの)認識されたビークル状態502により、自律ビークル100は、(例えば、別のビークル150の前方又は後方における距離d
t+1メートルなどの)知覚された報酬(t+2)528を伴って、(例えば、加速a
t+1m/s
2などの)自律ビークルアクション(t+1)526を実装する。
【0120】
理解されうるように、1つの自律ビークル状態540、542、544、及び546からの自律ビークルアクションは、互いに異なりうる。又、別のビークル150の速度及び/又は加速度も、認識されたビークル状態及び初期時点t’を通じて、認識されたビークル状態S
t’から一定ではない場合がある。
【0121】
図6は、ビークルの自律ビークル能力を構成するための例示用のプロセス600を示している。
【0122】
動作602において、複数のビークルに関係する階層データセットの第1のデータセットが識別されており、ここで、ビークルは、複数のビークルのうちの1つである。この第1のデータセットとの関係において、動作604において、自律ビークル能力の状態値関数を第1のデータセットとの関係において生成することができる。第1のデータセットの一例は、複数のビークルに関係する受動的環境動的データセット及び現在の状態及び次の状態のデータを含む受動的環境動的データセットである。理解されうるように、受動的環境動的データセットは、状態目的に向かう複数の状態にわたる進捗に関係するものと見なしてもよい。即ち、目的を実現するべく、ビークルがスポーツビークルや貨物ビークルなどであるどうかとは無関係に、一般的な基本的アクションが発生する。
【0123】
動作606においては、複数のビークルの一部分に関係する、階層データセットの、第2のデータセット、又はサブセット、が認識されてもよく、ここで、複数のビークルの一部分は、ビークル100などのビークルを含む(
図1を参照されたい)。
【0124】
第2のデータセットは、複数のビークルの一部分の動作及び/又は制御ダイナミクスモデルを含みうる。制御ダイナミクスモデルは、ビークル状態費用データ及び制御ダイナミクスデータを含みうる。例えば、複数のビークルの一部分は、Toyota Tacoma、Corolla、Camry、Priusなどのような、ビークルモデルに関係しうる。一部分は、年式のみならず、(年式、走行マイル、運転特性(即ち、保守的や反応的など)、修理、保守記録などのような)ビークルの運転状態に関係する細目により、更に分割することができる。換言すれば、動作及び/又は制御ダイナミクスモデルの粒度は、粗いレベル(ビークルモデルなど)から微細なレベル(ビークルの個々の品質など)まで変化しうる。
【0125】
換言すれば、第2のデータセットは、状態を通じて目的まで進捗するための複数のビークルの一部分の個々の能力に関係していると見なすことができる。例えば、スポーツビークルは、一般に、「素早さ」を有しうる、或いは、アクションコマンドに対する応答性を有しうる一方において、貨物ビークルは、相対的に扱いにくいと共に素早さを欠いている場合がある。従って、第2のデータセットは、状態費用データ及び制御ダイナミクスデータを含みうる、複数のビークルの一部分の制御ダイナミクスモデルを含むことができる。
【0126】
動作608において、第2のデータセットとの関係において、ポリシー制御利得を最適化することができると共に、自律ビークル能力を伴う実装のためにビークル特定性能特性に適用することができる。この点において、自律ビークル能力は、強化学習モジュール312と共に配備されるように、構成することができる(
図3)。
【0127】
動作610において、ビークルの自律ビークル能力は、
図5の例において記述されているものなどのポリシー制御利得との協働状態において状態値関数に基づいて次の状態に進捗するための自律ビークルアクションを生成するように、動作することができる。
【0128】
例えば、強化学習モジュールが、アクタ−クリティックモジュールを含む強化学習(RL)モジュールを含む際には、アクタモジュールは、第1の且つ/又は受動的な環境動的データセットと、第1のデータセットのサブセットでありうる、第2の且つ/又は制御動的データセットと、の2ステージ階層構成から生成された適応型ポリシーに基づいて、自律ビークル能力のアクションの予測を生成するように、動作可能であってもよい。
【0129】
クリティックモジュールは、第1のデータセット及び第2のデータセットに応答して報酬パラメータに関係するアクタモジュール用のフィードバックデータを生成するように、動作可能であってもよく、クリティックモジュールは、フィードバックデータを介して、アクタモジュールのポリシーパラメータを変更して適応型ポリシーπを形成するように、更に動作している。又、理解されうるように、フィードバックデータは、次の状態の実現における自律ビークルアクションの有効性に関係する時間変位(TD)誤差データを含むこともできる(道に迷うのは、相対的に大きなTD誤差となる一方で、次の状態又は相対的に良好な状態に向かっているのは、相対的に小さなTD誤差となる、など)。
【0130】
従って、ビークルの自律動作能力を構成するための方法及び装置が開示されている。ビークルによる自律意思決定の構成は、一般に複数のビークルに関係している(即ち、乗用ビークル、ピックアップトラック、SUV、リクリエーションビークルなどを含む)第1のデータセットに基づいたものであってもよい。このようなデータセットは、現在のビークル状態(X
k)及び次のビークル状態(X
k+1)に関係する受動的データに関係する保存された受動的環境動的データと呼称することができる。第2のデータセットは、自律能力のために構成されているビークルに関係する部分などの、複数のビークルの一部分の制御ダイナミクスモデルを含みうる。本開示においては、詳細な実施形態が開示されている。但し、開示されている実施形態は、例としてのみ意図されていることを理解されたい。従って、本開示において開示されている特定の構造的且つ機能的な詳細は、限定としてではなく、請求項のための基礎として、且つ、実質的に任意の適切に詳述された構造における本開示における態様を様々に利用するように当業者に教示するための代表的な基礎として、のみ解釈することを要する。更には、本開示において使用されている用語及びフレーズは、限定ではなく、可能な実装形態の理解可能な説明を提供することを意図したものである。
図1〜
図6には、様々な実施形態が示されているが、これらの実施形態は、図示されている構造又は用途に限定されるものではない。
【0131】
当業者は、本開示において使用されうる「実質的に(substantially)」又は「ほぼ(approximately)」という用語は、産業的に受け入れられる許容範囲を、その対応する用語に、且つ/又は、項目の間の相対性に、提供していることを理解するであろう。このような項目の間の相対性は、数パーセントの差から桁の差までの範囲を有する。
【0132】
当業者は、本開示において使用されうる「結合された(coupled)」という用語は、直接的な結合と、別のコンポーネント、要素、回路、又はモジュールを介した間接的な結合と、を含み、ここで、間接的な結合の場合に、介在するコンポーネント、要素、回路、又はモジュールは、信号の情報を変更することはないが、その電流レベル、電圧レベル、及び/又はパワーレベルを変更しうることを更に理解するであろう。又、当業者は、推定された結合(即ち、1つの要素が、推定により、別の要素に結合されている場合)は、「結合された」と同一の方式による2つの要素の間の直接的且つ間接的な結合を含むことを理解するであろう。
【0133】
「モジュール」という用語が図面の説明において使用されている場合には、モジュールは、出力信号を生成するための入力信号の処理などの1つ又は複数の機能を実行する、ハードウェア、ソフトウェア、及び/又はファームウェアにおいて実装された機能ブロックを含む。本開示において使用されているモジュールは、それ自体がモジュールであるサブモジュールを含みうる。
【0134】
図中のフローチャート及びブロック図は、様々な実施形態によるシステム、方法、及びコンピュータプログラムプロダクトの可能な実装形態のアーキテクチャ、機能、及び動作を示している。この点において、フローチャート又はブロック図内のそれぞれのブロックは、規定された1つ又は複数の論理関数を実装するための1つ又は複数の実行可能な命令を含む、コードのモジュール、セグメント、又は一部分を表すことができる。又、いくつかの代替実装形態においては、ブロック内において示されている機能は、図中において示されている順序以外においても発生しうることに留意されたい。例えば、連続して示されている2つのブロックは、実際には、実質的に同時に実行されてもよく、或いは、ブロックは、しばしば、関係する機能に応じて、逆の順序において実行されてもよい。
【0135】
上述のシステム、コンポーネント、及び/又はプロセスは、ハードウェアにおいて、或いは、ハードウェアとソフトウェアの組合せにおいて、実現することが可能であり、且つ、1つの処理システムにおいて中央集中化された方式により、或いは、異なる要素がいくつかの相互接続された処理システムに跨って分散している分散方式により、実現することもできる。本開示において記述されている方法を実行するように適合された任意の種類の処理システム又は別の装置が好適である。ハードウェア及びソフトウェアの代表的な組合せは、読み込まれると共に実行された際に、本開示において記述されている方法を実行するように、処理システムを制御するコンピュータ使用可能プログラムコードを有する処理システムであってもよい。
【0136】
更には、本開示において記述されている構成は、例えば、その上部において保存されるなどのように、実施された、コンピュータ可読プログラムコードを有する1つ又は複数のコンピュータ可読媒体として実施されたコンピュータプログラムプロダクトの形態を有することもできる。1つ又は複数のコンピュータ可読媒体の任意の組合せを利用することができる。コンピュータ可読媒体は、コンピュータ可読信号媒体又はコンピュータ可読ストレージ媒体であってもよい。
【0137】
本開示において使用されている「1つの(a)」及び「1つの(an)」という用語は、1つ以上である、ものとして定義される。本開示において使用されている「複数(plurality)」という用語は、2つ以上である、ものとして定義される。本開示において使用されている「別の(another)」という用語は、少なくとも2番目以上である、ものとして定義される。本開示において使用されている「含む(including)」及び/又は「有する(having)」という用語は、含む(comprinsing)(即ち、オープン言語)である、ものとして定義される。本開示において使用されている「〜と〜のうちの少なくとも1つ(at least one of...and...)」というフレーズは、関連する列挙された項目のうちの1つ又は複数の任意の且つすべての可能な組合せを参照し、且つ、包含している。一例として、「A、B、及びCのうちの少なくとも1つ(at least one of A, B, and C)」というフレーズは、Aのみ、Bのみ、Cのみ、或いは、これらの任意の組合せ(例えば、AB、AC、BC、又はABC)を含む。
【0138】
本開示における態様は、その真意又は必須の属性を逸脱することなしに、その他の形態において実施することができる。従って、その範囲を通知するものとしては、上述の明細書ではなく、添付の請求項を参照されたい。
[構成1]
ビークルの自律動作能力を構成する方法であって、
複数のビークルに関係する第1のデータセットを識別することであって、前記ビークルは前記複数のビークルのうちの1つである、第1のデータセットを識別することと、
前記第1のデータセットとの関係において自律ビークル能力の状態値関数を生成することと、
前記複数のビークルの一部分に関係する第2のデータセットを識別することであって、前記複数のビークルの前記一部分は前記ビークルを含む、第2のデータセットを識別することと、
前記第2のデータセットとの関係において前記自律ビークル能力のポリシー制御利得を最適化することと、
を含み、
前記自律ビークル能力は、前記ポリシー制御利得との協働状態において前記状態値関数に基づいて次の状態への進捗のための自律ビークルアクションを生成するように動作可能である、方法。
[構成2]
前記複数のビークルの前記一部分は、ビークルクラスを含む、構成1に記載の方法。
[構成3]
前記複数のビークルの前記一部分は、前記ビークルを含む、構成1に記載の方法。
[構成4]
前記第1のデータセットは、前記複数のビークルに関係する受動的環境動的データセットであり、前記受動的環境動的データセットは、現在の状態と、次の状態と、を含み、且つ、
前記第2のデータセットは、前記複数のビークルの前記一部分の制御ダイナミクスモデルであり、前記制御ダイナミクスモデルは、状態費用データと、制御ダイナミクスデータと、を含む、
構成1に記載の方法。
[構成5]
前記自律ビークル能力は、アクタ−クリティックモジュールを含む強化学習(RL)モジュールを含む、構成4に記載の方法。
[構成6]
前記アクタ−クリティックモジュールは、
前記第1のデータセット及び前記第2のデータセットから生成された適応型ポリシーに基づいて前記自律ビークル能力のアクションの予測を生成するように動作可能であるアクタモジュールと、
前記第1のデータセット及び前記第2のデータセットに応答して報酬パラメータに関係する前記アクタモジュール用のフィードバックを生成するように動作可能であるクリティックモジュールであって、前記クリティックモジュールは、前記フィードバックデータを介して、前記アクタモジュールのポリシーパラメータを変更して前記適応型ポリシーを形成するように更に動作可能である、クリティックモジュールと、
含む、構成5に記載の方法。
[構成7]
前記フィードバックデータは、時間変位誤差データを含む、構成6に記載の方法。
[構成8]
ビークルの自律ビークル能力を構成する方法であって、
複数のビークルと共に前記ビークルを識別することと、
複数のビークルに関係する第1のデータセットを取得することと、
前記第1のデータセットに基づいて前記自律ビークル能力の状態値関数を生成することと、
前記複数のビークルの一部分に関係する第2のデータセットを識別することであって、前記複数のビークルの前記一部分は前記ビークルを含む、第2のデータセットを識別することと、
前記第2のデータセットとの関係において前記自律ビークル能力のポリシー制御利得を最適化することと、
を含み、
前記自律ビークル能力は、前記ポリシー制御利得との協働状態において前記状態値関数に基づいて次の状態への進捗のための自律ビークルアクションを生成するように動作可能である、方法。
[構成9]
前記複数のビークルの前記一部分は、ビークルクラスを含む、構成8に記載の方法。
[構成10]
前記複数のビークルの前記一部分は、ビークルクラスの1つを含む、構成8に記載の方法。
[構成11]
前記第1のデータセットは、前記複数のビークルに関係する受動的環境動的データセットであり、且つ、
前記第2のデータセットは、前記複数のビークルの前記一部分用の制御ダイナミクスモデルである、
構成8に記載の方法。
[構成12]
前記制御ダイナミクスモデルは、前記複数のビークルの前記一部分用の複数の動作モードを含む、構成11に記載の方法。
[構成13]
前記自律ビークル能力は、アクタ−クリティックモジュールを含む強化学習(RL)モジュールを含む、構成11に記載の方法。
[構成14]
前記アクタ−クリティックモジュールは、
前記第1のデータセット及び前記第2のデータセットから生成された適応型ポリシーに基づいて前記自律ビークル能力のアクションの予測を生成するように動作可能であるアクタモジュールと、
前記第1のデータセット及び前記第2のデータセットに応答して報酬パラメータに関係する前記アクタモジュール用のフィードバックデータを生成するように動作可能であるクリティックモジュールであって、前記クリティックモジュールは、前記フィードバックデータを介して、前記アクタモジュールのポリシーパラメータを変更して前記適応型ポリシーを形成するように更に動作可能である、クリティックモジュールと、
を含む、構成13に記載の方法。
[構成15]
前記フィードバックデータは、時間変位誤差データを含む、構成14に記載の方法。
[構成16]
ビークルの自律ビークル能力のために構成されたビークル制御ユニットであって、
ビークルネットワークとの間の通信をサービスするための無線通信インターフェイスと、
前記無線通信インターフェイスに、且つ、複数のビークルセンサ装置に、通信自在に結合されたプロセッサと、
前記プロセッサに通信自在に結合され、且つ、強化学習モジュールを保存するメモリと、
を含み、
前記強化学習モジュールは、前記プロセッサによって実行された際に、
複数のビークルに関係する受動的環境動的データセットにアクセスすることであって、前記ビークルは、前記複数のビークルのうちの1つである、受動的環境動的データセットにアクセスすることと、
前記受動的環境動的データセットとの関係において前記自律ビークル能力の状態値関数を生成することと、
前記複数のビークルの一部分に関係する制御ダイナミクスモデルを識別することであって、前記複数のビークルの前記一部分は、前記ビークルを含む、制御ダイナミクスモデルを識別することと、
前記第2のデータセットとの関係において前記自律ビークル能力のポリシー制御利得を最適化することと、
により、前記プロセッサが前記自律ビークル能力用の前記強化学習モジュールを構成するようにする、命令を含み、
前記自律ビークル能力は、前記ポリシー制御利得との協働状態において前記状態値関数に基づいて、且つ、更には、前記複数のビークルセンサ装置によって生成されるビークルセンサデータに基づいて、次の状態への進捗のための自律ビークルアクションを生成するように動作可能である、
ビークル制御ユニット。
[構成17]
前記強化学習モジュールは、受動的アクタ−クリティックモジュールであって、前記プロセッサによって実行された際に、
前記適応型ポリシーを形成するべく、ビークルポリシーを最適化することと、
前記適応型ポリシーに基づいて前記自律ビークルアクションの予測を生成することと、
により、前記プロセッサが前記適応型ポリシーを形成するようにする命令を含む、受動的アクタ−クリティックモジュールを更に含む、構成16に記載のビークル制御ユニット。
[構成18]
前記アクタ−クリティックモジュールは、
前記プロセッサによって実行された際に、前記プロセッサが、前記ビークルアクションに応答して報酬パラメータに関係する前記アクタモジュール用のフィードバックデータを生成するようにする、命令を含むクリティックモジュールであって、前記クリティックモジュールは、前記フィードバックデータを介して、前記アクタモジュールのポリシーパラメータを変更して前記適応型ポリシーを形成するように更に動作する、クリティックモジュールと、
前記プロセッサによって実行された際に、前記プロセッサが、前記適応型ポリシーに基づいて前記自律ビークルアクションの前記予測を生成するようにする命令を含むアクタモジュールと、
を更に含む、構成17に記載のビークル制御ユニット。
[構成19]
前記フィードバックデータは、時間変位誤差データを含む、構成18に記載のビークル制御ユニット。
[構成20]
前記複数のビークルの前記一部分は、ビークルクラスを含む、構成16に記載のビークル制御ユニット。