(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2024-03-12
(54)【発明の名称】ジオフェンス運転ポリシを取得するためのシミュレーションベースの方法及びデータセンタ
(51)【国際特許分類】
B60W 50/00 20060101AFI20240305BHJP
B60W 60/00 20200101ALI20240305BHJP
【FI】
B60W50/00
B60W60/00
【審査請求】有
【予備審査請求】未請求
(21)【出願番号】P 2023549869
(86)(22)【出願日】2021-09-10
(85)【翻訳文提出日】2023-09-25
(86)【国際出願番号】 EP2021074878
(87)【国際公開番号】W WO2023036430
(87)【国際公開日】2023-03-16
(81)【指定国・地域】
(71)【出願人】
【識別番号】504161984
【氏名又は名称】ホアウェイ・テクノロジーズ・カンパニー・リミテッド
(74)【代理人】
【識別番号】110000877
【氏名又は名称】弁理士法人RYUKA国際特許事務所
(72)【発明者】
【氏名】コエベルレ、ヤン
(72)【発明者】
【氏名】サバティニ、ステファノ
(72)【発明者】
【氏名】ツィスコウ、ディズミトリー
【テーマコード(参考)】
3D241
【Fターム(参考)】
3D241BA00
3D241CE02
3D241CE08
(57)【要約】
本開示は、目標位置における自律走行車両の目標運転ポリシを更新する方法を提供し、本方法は、前記車両によって、前記目標位置において車両運転データを取得する段階;前記車両によって、取得した前記車両運転データ、及び前記目標位置のための現在の目標運転ポリシをデータセンタに伝送する段階;更新済み目標運転ポリシを取得するために、前記データセンタによって、前記車両運転データを使用して前記目標位置についての交通シミュレーションを実行する段階;及び前記データセンタによって、前記更新済み目標運転ポリシを前記車両に伝送する段階を備える。
【特許請求の範囲】
【請求項1】
目標位置における車両の目標運転ポリシを更新する方法であって、
前記車両によって、前記目標位置において車両運転データを取得する段階;
前記車両によって、取得した前記車両運転データ、及び前記目標位置のための現在の目標運転ポリシをデータセンタに伝送する段階;
更新済み目標運転ポリシを取得するために、前記データセンタによって、前記車両運転データを使用して前記目標位置についての交通シミュレーションを実行する段階;及び
前記データセンタによって、前記更新済み目標運転ポリシを前記車両に伝送する段階
を備える、方法。
【請求項2】
前記目標位置において車両運転データを取得する前記段階、取得した前記車両運転データを前記データセンタに伝送する前記段階、更新済み目標運転ポリシを取得するために前記車両運転データを使用して前記目標位置についての交通シミュレーションを実行する前記段階、及び前記更新済み目標運転ポリシを前記車両に伝送する前記段階が1回又は複数回繰り返される、請求項1に記載の方法。
【請求項3】
一般運転データ及び一般交通ポリシを取得する段階;及び
前記一般運転データ及び前記車両運転データを使用して、前記一般交通ポリシを前記目標位置に適応させる段階
を更に含む、請求項1又は2に記載の方法。
【請求項4】
前記目標位置についての交通シミュレーションを実行する前記段階が、適応された前記一般交通ポリシに基づく、請求項3に記載の方法。
【請求項5】
前記更新済み目標運転ポリシが、目標運転ポリシパラメータの更新済みセットを有する、請求項1から4のいずれか一項に記載の方法。
【請求項6】
交通シミュレーションを実行する段階が、前記現在の目標運転ポリシを訓練して、信頼度測定値及び/又は安全性測定値を改善する段階を有する、請求項1から5のいずれか一項に記載の方法。
【請求項7】
前記車両運転データから取得した初期交通シナリオを修正することによって異なる交通シナリオを生成する段階を更に備え、
前記目標位置についての前記交通シミュレーションは、生成された前記異なる交通シナリオを用いて実行される
請求項1から6のいずれか一項に記載の方法。
【請求項8】
前記初期交通シナリオの修正が:
前記交通シナリオにおけるエージェントの数を増加させること;
前記交通シナリオにおけるエージェントの速度を修正すること;
前記交通シナリオにおけるエージェントの初期位置及び/又は方向を修正すること;及び
前記交通シナリオにおけるエージェントの軌道を修正すること
のうちの少なくとも1つを有する、請求項7に記載の方法。
【請求項9】
前記目標位置は、地理的に限定されたエリアのマップデータによって説明される、請求項1から8のいずれか一項に記載の方法。
【請求項10】
前記目標位置における車両運転データが、1つ又は複数の更なる車両から更に取得される、請求項1から9のいずれか一項に記載の方法。
【請求項11】
目標位置における車両運転データ及び前記目標位置の現在の目標運転ポリシを車両から受信するように構成された受信手段;
更新済み目標運転ポリシを取得するために、前記車両運転データを使用して前記目標位置についての交通シミュレーションを実行するように構成された処理回路;及び
前記更新済み目標運転ポリシを前記車両に伝送するように構成された伝送手段
を備える、データセンタ。
【請求項12】
前記処理回路が、一般運転データ及び前記車両運転データを使用して、一般交通ポリシを前記目標位置に適応させるように更に構成されている、請求項11に記載のデータセンタ。
【請求項13】
前記処理回路が、一般運転データ及び前記車両運転データを使用して前記目標位置に適応された一般交通ポリシに基づいて、前記目標位置についての交通シミュレーションを実行するように更に構成されている、請求項11又は12に記載のデータセンタ。
【請求項14】
前記更新済み目標運転ポリシが、目標運転ポリシパラメータの更新済みセットを有する、請求項11から13のいずれか一項に記載のデータセンタ。
【請求項15】
前記処理回路が、前記現在の目標運転ポリシを訓練して、信頼度測定値及び/又は安全性測定値を改善するように更に構成されている、請求項11から14のいずれか一項に記載のデータセンタ。
【請求項16】
前記処理回路が、前記車両運転データから取得した初期交通シナリオを修正することによって異なる交通シナリオを生成し;生成された前記異なる交通シナリオを用いて前記目標位置についての前記交通シミュレーションを実行するように更に構成されている、請求項11から15のいずれか一項に記載のデータセンタ。
【請求項17】
前記処理回路が:
前記交通シナリオにおけるエージェントの数を増加させること;
前記交通シナリオにおけるエージェントの速度を修正すること;
前記交通シナリオにおけるエージェントの初期位置及び/又は方向を修正すること;及び
前記交通シナリオにおけるエージェントの軌道を修正すること
のうちの少なくとも1つによって前記初期交通シナリオを修正するように構成されている、請求項16に記載のデータセンタ。
【請求項18】
前記目標位置は、地理的に限定されたエリアのマップデータによって説明される、請求項11から17のいずれか一項に記載のデータセンタ。
【請求項19】
前記受信手段が、前記目標位置における車両運転データを1つ又は複数の更なる車両から受信するように更に構成されている、請求項11から18のいずれか一項に記載のデータセンタ。
【請求項20】
目標位置における車両運転データを取得するように構成され、かつ、取得した前記車両運転データ及び前記目標位置の現在の目標運転ポリシをデータセンタに伝送するように構成された車両;及び
請求項11から19のいずれか一項に記載のデータセンタ
を備える、システム。
【請求項21】
前記目標位置において車両運転データを取得する段階、取得した前記車両運転データを前記データセンタに伝送する段階、更新済み目標運転ポリシを取得するために前記車両運転データを使用して前記目標位置についての交通シミュレーションを実行する段階、及び前記更新済み目標運転ポリシを前記車両に伝送する段階を繰り返し実行するように構成された、請求項20に記載のシステム。
【請求項22】
コンピュータに、請求項1から10のいずれか一項に記載の方法を実行させるためのコンピュータプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、自律走行車両のための運転ポリシを提供するための方法に関する。
【背景技術】
【0002】
先行技術において、自律走行車両の安全性を改善するために、シミュレーションが利用されてきた。そのようなシミュレーションは、オンライン又はオフラインのいずれかの方式で実行され得る。
【0003】
現実世界の運転ポリシの安全性及び信頼度を改善するために、オンラインの解決手段が提案された。例えば、シミュレーションは、自律走行車両運転ポリシに対して挑戦するために、現実の運転実験中のシーンに仮想オブジェクトをリアルタイムで挿入することによって実行され得る。これにより、現実の車両が仮想のものと衝突した場合でさえも、リスクのない環境下で作業することができる。しかしながら、仮想車両はハードコーディングされた規則に基づいて判断を行うため、仮想車両とのインタラクションは限定的である。更に、現実のシーンにおける他の車両は仮想のものとインタラクトすることができず、これは実験全体を偏らせることになる。結果として、仮想車両でのオンラインテストは、複数の現実の運転者に対処することができず、これにより、安全性評価のために利用可能なシナリオの余地が限定される。
【0004】
結論として、仮想エージェントでのオンラインテストは、エージェントとのインタラクションを安全に改善するために使用することができず、むしろ、失敗事例を明らかにするのに適している。
【0005】
以前の他の手法は、運転ポリシの安全性をテストして改善するために、オフラインの交通シミュレーションを既に使用している。
【0006】
先行技術からの例は、現実世界において自動運転車両によって収集された記録されたデータ(以下ではログとも称される)に基づくシミュレーションを使用する。シミュレーションは、記録されたデータに基づいて初期化されるが、ログのうちのいくつかのエージェントは、完全に異なる環境で別個に学習したシミュレーションされたエージェントと交換される。シミュレーション中、元のものとは異なるように行動するように設計された、シミュレーションされたエージェントに関して、自律走行車両運転ポリシがどのようにして反応するかを分析することが目的である。
【0007】
このプロセスにより、シナリオのわずかな摂動に関して運転ポリシがどれほど堅固であるかを確認することができる。しかしながら、シミュレーションされたものは何らかの単純な安全性規則によって単にログを再生するため、交通からの元のエージェントはシミュレーションされたものと現実的にインタラクトすることはできない。結果として、シミュレーションされたエージェントはログとは異なるように行動し、転じて、記録されたエージェントの行動が新しい摂動された状況について現実的ではなくなるため、シミュレーションが進むにつれて、それは現実的ではなくなっていく。
【0008】
結論として、シミュレーションされたエージェントの置換でのログに基づくシミュレーションは、目標運転ポリシとの十分に現実的なインタラクションを提供することができず、これにより、自律走行車両運転ポリシの改善の可能性が限定される。
【0009】
更に、運転ポリシを具体的な位置、とりわけ、多くの他の車両、及び/又は交通エージェント間の多くの異なるタイプのインタラクションを伴い得る特定の位置に適応させる必要があり、そのため、例えば、特定の円形交差点への進入、通行、及び退出など、そのような位置特有の状況に対処することができる自律走行車両のための特別な運転ポリシが必要とされる。
【発明の概要】
【0010】
上記を考慮して、本願の基礎となる目的は、現実的かつインタラクティブな交通発生器を使用して、1つ又は複数の具体的な目標地理的位置に対して自律走行車両運転ポリシを大規模に訓練することを可能にする手順を提供することである。
【0011】
前述及び他の目的は、独立請求項の主題によって実現される。従属請求項、明細書及び図からは更なる実装形態が明らかになる。
【0012】
第1の態様によれば、目標位置における自律走行車両の目標運転ポリシを更新する方法が提供され、前記方法は、前記車両によって、前記目標位置において車両運転データを取得する段階;前記車両によって、取得した前記車両運転データ、及び前記目標位置のための現在の目標運転ポリシをデータセンタに伝送する段階;更新済み目標運転ポリシを取得するために、前記データセンタによって、前記車両運転データを使用して前記目標位置についての交通シミュレーションを実行する段階;及び前記データセンタによって、前記更新済み目標運転ポリシを前記車両に伝送する段階を備える、方法。
【0013】
自律走行車両は、具体的な位置(目標位置)において車両運転データを取得する。これらのデータは、センサ及び/又はカメラを使用することによって取得され得る。そのような記録された車両運転データは、目標位置のオフラインシミュレーションを実行するデータセンタに伝送される。交通シミュレーションは、例えば、記録されたデータに既に含まれている交通エージェントに加えて、シミュレーションシナリオに含まれるシミュレーションされた交通エージェントを使用することによって、現在の目標運転ポリシを訓練し、この交通パラメータは変動/摂動され得る。目標運転ポリシは、その特徴(すなわち、例えば初期位置、目的、生成時間)が運転ポリシに対して挑戦するような方法で摂動されている、1つ又は複数の記録された運転シナリオから生成された複数の運転シナリオのシミュレーションにおいて訓練され得る。シミュレーション段階の後、現在の目標運転ポリシは、シミュレーション結果に基づいて更新され、更新済み目標運転ポリシは自律走行車両に転送される。それに応じて、目標運転ポリシは、目標位置において取得された車両運転データを使用することによって、具体的な目標位置について改善される。したがって、車両が次に目標位置を通るとき、更新済み(改善済み)の目標運転ポリシを適用することができる。エージェント(交通エージェント)は、例えば他の車両又は手順を指し得る。
【0014】
一実装形態によれば、前記目標位置において車両運転データを取得する前記段階、取得した前記車両運転データを前記データセンタに伝送する前記段階、更新済み目標運転ポリシを取得するために前記車両運転データを使用して前記目標位置についての交通シミュレーションを実行する前記段階、及び前記更新済み目標運転ポリシを前記車両に伝送する前記段階が1回又は複数回繰り返される。例えば、十分なセキュリティ及び/又は信頼度測定値(スコア/メトリック)に達するまで、必要な限り、プロセス全体が繰り返されてよい。
【0015】
この方法で、例えば次に車両が目標位置を通り過ぎるときに更なる車両運転データ(現実のデータ)を取得することによって、及び、更なる車両運転データを使用してデータセンタにおいて交通シミュレータによって更なるシミュレーションを実行することによって、少ない現実のデータ及び比較的多くのシミュレーションデータを用いてオフラインの様式で目標運転ポリシを漸進的に更新することができる。目標運転ポリシをこのように更に訓練し、自律運転のセキュリティを改善するために最適化することができる。
【0016】
一実装形態によれば、本方法は、一般運転データ及び一般交通ポリシを取得する段階;及び前記一般運転データ及び前記車両運転データを使用して、前記一般交通ポリシを前記目標位置に適応させる段階を更に備えてよい。
【0017】
初期の一般交通シミュレータは、一般運転データ及び一般交通ポリシを用いて実装され得る。目標位置における車両運転データを使用することにより、シミュレーション、とりわけ、他の交通エージェントとの車両のインタラクションのシミュレーションを通じて目標位置での目標運転ポリシに対して挑戦することによって、目標位置からの(現実の)車両運転データに基づく一般交通シミュレータの微調整を実行することができる。一例として、現実の運転シナリオが収集されてよく(ログデータ)、シナリオ生成器は、現在の交通ポリシに対して挑戦するような方法でそれらから1000個の新しいシナリオを生成してよい。例えば衝突率などの、失敗率を最大化する運転シナリオ摂動のシーケンスが発見され得る。失敗は、安全性スコア及び/又は信頼度スコアが閾値に劣ることによって特徴付けられ得る。換言すれば、交通ポリシの安全性及び/又は信頼度スコアを最小化するシナリオ運転摂動のシーケンスが取得され得る。それに応じて、生成されたシナリオに対する運転ポリシの失敗率を最大化することによって、最適なシナリオ摂動が発見され得る。そのような摂動が最も挑戦的であり、そのため、学習効果を最適化する。交通ポリシは、それらの新しいシナリオ上にロールアウトされて更に更新され得る。
【0018】
一度交通シミュレータが微調整されると、それは、車両運転データからの現実のシナリオ、及び、例えば、挑戦的シナリオ生成器によって生成されたシミュレーションされた(挑戦的な)シナリオに基づいて莫大な数の合成運転シナリオ上でのインタラクションのシミュレーションを通じて目標運転ポリシを改善するために使用され得る。目標運転ポリシは、更新済みの交通を与えられた目標ポリシの失敗率を最大化する(代替的は、安全性及び又は信頼度スコアを最小化する)ような方法で、記録されたシナリオから生成された新しい運転シナリオ上で訓練され得る。交通が失敗(衝突など)の要因である場合、以前の段階が繰り返され、そうでなければ、それは、目標運転ポリシが、新しい運転シナリオにおけるその失敗(例えば、衝突)の要因であったことを意味し、この経験は、目標ポリシを微調整するために使用され得る。運転シナリオは、生成された新しい運転シナリオのシーケンスにおける衝突率を最大化するような方法で、元の現実の記録された運転シナリオに適用された有界摂動のシーケンスに基づいて生成され得る。S
0が現実のシナリオである場合、(S
1,.....S
N)は、S
0のわずかな増分摂動を伴う、生成されたシナリオのシーケンス、すなわち、
【数1】
、
【数2】
などであり得る。
c(S,Π)がシナリオS上でのポリシΠの失敗のインジケータを示すと仮定すると、
【数3】
を最大化することが好ましく、ここで、Nは、摂動のシーケンスの長さを示す。摂動は、マップ上の初期位置、ゴール位置(行き先)、エージェント生成時間の変更、又は、交通参加者のリスクの回避性を制御する比率の変更のいずれかである。
【0019】
一実装形態によれば、前記目標位置についての交通シミュレーションを実行する前記段階は、適応された前記一般交通ポリシに基づいてよい。
【0020】
これは、適応(微調整)された一般交通ポリシを、その後、更なるシミュレーション段階をより正確に実行するために使用することができるという利点を有する。
【0021】
一実装形態によれば、前記更新済み目標運転ポリシは、目標運転ポリシパラメータの更新済みセットを含んでよい。
【0022】
目標運転ポリシは、更新済み目標運転ポリシが1つ又は複数の更新済み目標運転ポリシパラメータによって規定され得るように、目標運転ポリシパラメータによって説明され得る。とりわけ、更新済みパラメータのみが車両に伝送され得る。
【0023】
一実装形態によれば、交通シミュレーションを実行する前記段階は、前記現在の目標運転ポリシを訓練して、信頼度測定値及び/又は安全性測定値を改善する段階を有してよい。
【0024】
安全性測定値(安全性メトリック)は、平均ジャーク率、隣接する車両との平均最低距離、路外運転率、又は衝突までの時間のうちの少なくとも1つに基づいて決定され得る。信頼度測定値(信頼度メトリック)は、専門家の運転シナリオと比較した、行き先に到達するまでの平均時間、停止して過ごした平均時間、又は平均縦速度のうちの少なくとも1つに基づいて推定され得る。
【0025】
一実装形態によれば、本方法は、前記車両運転データから取得した初期交通シナリオを修正することによって異なる交通シナリオを生成する段階を更に備えてよく、前記目標位置についての前記交通シミュレーションは、生成された前記異なる交通シナリオを用いて実行される。例えば、シナリオ生成器は、現実の記録された運転シナリオの初期セット、Πで示される挑戦されるべき交通ポリシのセット、及び具体的に挑戦されることが意図されていない交通ポリシのセットを受信し得る。初期運転シナリオは、
【数4】
が最大となるように、新しい運転シナリオのシーケンス(前に説明したように、S
1,...,S
N)を生成することによって摂動され得る。c(S
i,Π)は、安全性及び信頼度メトリックに基づいて失敗を定量化することに留意されたい。実際、S
i上でポリシΠをシミュレーションすると、ポリシΠについてのこのシナリオにおける安全性メトリック及び信頼度メトリックが取得され得る。Πは単に目標ポリシ(以下で更に説明されるパイプラインの最終段階)であってよく、又は、Πは交通ポリシ(パイプラインの第2の段階)であってもよいことに留意されたい。
【0026】
これは、車両運転データから取得した交通シナリオを修正することによってシミュレーションされる挑戦的なシナリオの生成を規定する。
【0027】
一実装形態によれば、前記初期交通シナリオを修正する前記段階は、(a)前記交通シナリオにおけるエージェントの数を増加させること;(b)前記交通シナリオにおけるエージェントの速度を修正すること;(c)前記交通シナリオにおけるエージェントの初期位置及び/又は方向を修正すること;及び(d)前記交通シナリオにおけるエージェントの軌道を修正することのうちの少なくとも1つを有してよい。
【0028】
これは、挑戦的なシナリオの生成のための可能な具体的な方法を提供する。とりわけ、追加の/新しい交通エージェントが挿入され得る。更に、又は代替的に、例えば、車両運転データからのエージェントの測定された速度、又は挿入されたエージェントの速度の周りに摂動を含めることによって、交通エージェントの速度を変更することができ、とりわけ、現在の値の周りの摂動によって、交通シナリオにおけるエージェントの初期位置及び/又は方向を変更することができ、及び/又は、交通エージェントの軌道/経路を変更、具体的には摂動させることができる。より具体的には、行き先を変更することができ、ルート決定はポリシによって内部でなされ得る。更に、リスクの回避性の比率など、交通ポリシの行動のいくつかの特徴が制御され得る。
【0029】
一実装形態によれば、目標位置は、地理的に限定されたエリアのマップデータによって説明され得る。
【0030】
目標位置は、有界マップによって説明されてよく、とりわけ、道路ネットワーク構造をシミュレーションに使用することができる。これらのマップデータはまた、交通標識を含んでよく、これは、マップデータにおいて予め規定され得るか、又は、車両運転データから挿入され得る(例えば、車両のカメラによる識別)。車両運転データにおける車両の位置は、位置決定モジュール、例えばGPSモジュールから取得されてよく、この位置はマップデータに関連し得る。
【0031】
一実装形態によれば、前記目標位置における車両運転データは、1つ又は複数の更なる車両から更に取得されてよい。
【0032】
この実装形態において、車両のフリートのうちの他の車両は、その後にシミュレーションのために使用され得る車両運転データの提供に参加し得る。これにより、安全性及び/又は信頼度に関するシミュレーション結果が改善され、目標運転ポリシを更新する時間が低減される。
【0033】
第2の態様によれば、目標位置における車両運転データ及び前記目標位置の現在の目標運転ポリシを車両から受信するように構成された受信手段;更新済み目標運転ポリシを取得するために、前記車両運転データを使用して前記目標位置についての交通シミュレーションを実行するように構成された処理回路;及び前記更新済み目標運転ポリシを前記車両に伝送するように構成された伝送手段を備える、データセンタが提供される。
【0034】
第2の態様及びその実装形態のいずれか1つによるデータセンタの利点及び更なる詳細は、第1の態様及びその実装形態による方法に関して上で説明したものに対応する。これを考慮して、ここで、及び以下では、上記の説明を参照する。
【0035】
一実装形態によれば、前記処理回路は、一般運転データ及び前記車両運転データを使用して、一般交通ポリシを前記目標位置に適応させるように更に構成されてよい。
【0036】
一実装形態によれば、前記処理回路は、適応された前記一般交通ポリシに基づいて、前記目標位置についての交通シミュレーションを実行するように更に構成されてよい。
【0037】
一実装形態によれば、前記更新済み目標運転ポリシは、目標運転ポリシパラメータの更新済みセットを含んでよい。
【0038】
一実装形態によれば、前記処理回路は、前記現在の目標運転ポリシを訓練して、信頼度測定値及び/又は安全性測定値を改善するように更に構成されてよい。
【0039】
一実装形態によれば、前記処理回路は、前記車両運転データから取得した初期交通シナリオを修正することによって異なる交通シナリオを生成し;生成された前記異なる交通シナリオを用いて前記目標位置についての前記交通シミュレーションを実行するように更に構成されてよい。異なる交通シナリオの生成、すなわち、挑戦的シナリオ生成器をどのように使用するかの更なる詳細に関して、実装形態に関して上記の説明、及び以下の実施形態の詳細な説明を参照する。
【0040】
一実装形態によれば、前記処理回路は:(a)前記交通シナリオにおけるエージェントの数を増加させること;(b)前記交通シナリオにおけるエージェントの速度を修正すること;(c)前記交通シナリオにおけるエージェントの初期位置及び/又は方向を修正すること;及び(d)前記交通シナリオにおけるエージェントの軌道を修正することのうちの少なくとも1つによって前記初期交通シナリオを修正するように構成されてよい。
【0041】
一実装形態によれば、目標位置は、地理的に限定されたエリアのマップデータによって説明され得る。
【0042】
一実装形態によれば、前記受信手段は、前記目標位置における車両運転データを1つ又は複数の更なる車両から受信するように更に構成されてよい。
【0043】
第3の態様によれば、システムが提供され、前記システムは、目標位置における車両運転データを取得するように構成され、取得した前記車両運転データ及び前記目標位置の現在の目標運転ポリシをデータセンタに伝送するように構成された車両を備え、第2の態様又はその実装形態のいずれか1つによるデータセンタを備える。
【0044】
一実装形態によれば、前記システムは、前記目標位置において車両運転データを取得する前記段階、取得した前記車両運転データを前記データセンタに伝送する前記段階、更新済み目標運転ポリシを取得するために前記車両運転データを使用して前記目標位置についての交通シミュレーションを実行する前記段階、及び前記更新済み目標運転ポリシを前記車両に伝送する前記段階を繰り返し実行するように構成されている。
【0045】
第4の態様によれば、コンピュータプログラム製品が提供され、前記コンピュータプログラム製品は、コンピュータ上で実行されると、第1の態様又はその実装形態のいずれか1つによる方法の前記段階を実行するためのコンピュータ可読命令を備える。
【0046】
1つ又は複数の実施形態の詳細は、添付図面及び以下の説明に記載されている。他の特徴、目的、及び利点は、明細書、図面、及び特許請求の範囲から明らかになるであろう。
【図面の簡単な説明】
【0047】
以下では、添付の図及び図面を参照して本開示の実施形態がより詳細に説明される。
【0048】
【
図1】一実施形態による、目標位置における自律走行車両の目標運転ポリシを更新する方法を示す。
【0049】
【
図2】一実施形態による、自律走行車両及びデータセンタを含むシステムを示す。
【0050】
【0051】
【0052】
【0053】
【発明を実施するための形態】
【0054】
図1は、一実施形態による、目標位置における自律走行車両の目標運転ポリシを更新する方法を示す。方法は、
110:車両によって、目標位置において車両運転データを取得する段階;
120:車両によって、取得した車両運転データ、及び目標位置のための現在の目標運転ポリシをデータセンタに伝送する段階;
130:更新済み目標運転ポリシを取得するために、データセンタによって、車両運転データを使用して目標位置についての交通シミュレーションを実行する段階;及び
140:データセンタによって、更新済み目標運転ポリシを車両に伝送する段階を備える。
【0055】
自律走行車両は、目標位置において車両運転データを取得する。これらのデータは、センサ及び/又はカメラを使用することによって取得され得る。取得した車両運転データは、目標位置についてのオフラインシミュレーションを実行するデータセンタに伝送される。これらの交通シミュレーションは、車両運転データに既に含まれている交通エージェントに加えて、シミュレーションシナリオに含まれるシミュレーションされた交通エージェントを使用することによって、及び/又は、速度などのエージェントの交通パラメータを修正することによって、目標運転ポリシを訓練する。それに応じて、初期シナリオが摂動され、既に上記で詳述されたように、例えば、1000個の新しいシナリオがそれから生成される。シミュレーションの後、目標運転ポリシは、シミュレーション結果に基づいて更新され、更新済み目標運転ポリシは、次に目標位置を通って運転するときに車両が更新済み目標運転ポリシを適用することができるように、自律走行車両に転送される。
【0056】
図2は、一実施形態による、自律走行車両及びデータセンタを含むシステムを示す。
【0057】
システム200は、車両210及びデータセンタ250を有する。データセンタ200は、目標位置における車両運転データ及び目標位置の現在の目標運転ポリシを車両210から受信するように構成された受信手段251;更新済み目標運転ポリシを取得するために、車両運転データを使用して目標位置についての交通シミュレーションを実行するように構成された処理回路255;及び更新済み目標運転ポリシを車両210に伝送するように構成された伝送手段252を備える。
【0058】
本開示の更なる詳細は、以下で
図3から6を参照しながら説明される。
【0059】
本開示は、他のものの中でも、目標地理的エリアに対する最小のデータ収集により自律走行車両運転ポリシの安全性及び信頼度を改善することができるかという技術的問題を解決し、これは、自動運転車両の大規模な展開における主要な関心事項である。
【0060】
実際、自律走行車両の基本的な一般運転ポリシは、あらゆる状況において安全であるように設計されており、未見の場所に晒されると過度に用心深くなることが期待されている。自律走行車両を、少なくとも人間の運転者と同じ程度に効率的となるように顧客の具体的な使用例に適応させるために、目標ポリシは、具体的なユーザ位置に微調整されなければならない。自律走行車両運転の企業は、その力学が発展する様々な位置において多数の顧客を有し得るため、利益を得るためにはこの目標ポリシの微調整を自動的に行う必要がある。
【0061】
本開示は、最小のデータ収集及び最小の人間による介入によりその場で微調整される、現実的かつ堅固な交通シミュレーションのおかげで、オフラインの様式で目標地理的エリア上の運転ポリシの安全性及び信頼度を自動的に改善するための問題に取り組む。
【0062】
本開示は、現実的な交通生成器の使用により具体的な目標地理的位置上で自律走行車両運転ポリシを大規模に訓練することを可能にする具体的な手順に基づく。
【0063】
一般プロセス:自動運転経験の改善
実践において、本方法は、(目標位置において)限定的なデータのみをその場で収集した後に、自律走行車両のエンドユーザが、目的の具体的な目標位置(例えば、自宅から職場への日々の通勤)上で運転の信頼度及び安全性の急な改善を経験することを可能にする。
【0064】
ここで、
図3における現実の用途のためにオフラインの訓練パイプラインをどのように使用できるかを説明する。ユーザのアクティビティに応じて具体的な位置に展開された複数の自動運転車両(Self Driving Vehicle:SDV)210、220、230を検討する。それらの車両の各々は、手動又は自動運転モードのいずれかで、走行中に毎日、ログ(車両運転データ)を収集している。それらのログは、遠隔でデータセンタに送信され得る(例えば、夜間に)。
【0065】
データセンタにおいて、具体的な目標位置における莫大な量のシミュレーションが実行され、ここで、自律運転ポリシは非常に多様な状況を経験し得る。自律運転ポリシは、シミュレーションにおいて収集されたこの莫大な量の経験を使用して訓練及び改善される。
【0066】
一度シミュレーションにおいて自律運転ポリシの信頼度及び安全性における明確な改善が測定されると、遠隔通信を通して、更新済み自律走行車両運転ポリシが車両210、220、230へと戻されるように自動的に送信される。次の走行中、車両(例えば、自動車)は、更新済み運転ポリシに従って運転することができ、ユーザは、以前に見られた位置を再訪する場合に改善を経験することになり、又は、新しい位置に遭遇した場合には経験を収集し続ける場合がある。
【0067】
本開示の重要な部分は、シミュレーションプロセスにある。莫大な量のシミュレーションは、以前の研究におけるようにハードコーディングされた規則により駆動されるのではなく、現実的かつインタラクティブな交通が、大量のデータを使用して学習され、目的の具体的な位置上で微調整される。
【0068】
そのようなアーキテクチャの主要な利点は:
・目標位置における、最小のデータ収集及び人間のサポートでの自動的な自律走行車両運転ポリシの更新
・定量的な安全性評価のための交通シミュレータでの大規模なインタラクション
・大規模なデータ及び具体的な目標位置に対する微調整を活用することによって実行されるため、シミュレーションは現実的かつ効率的である
現実的な交通シミュレーションを学習するプロセスは、
図4に示されるように3つの段階に分けられ得る。
・一般的な、現実的な交通の学習
・目標となる地理的位置における交通の微調整
・学習した交通とインタラクトする、目標位置における自律走行車両運転ポリシの学習
【0069】
これらの段階について更に、以下で詳細に説明する。
1)一般的な、現実的かつ堅固な交通学習
この第1の段階の主な概念は、自律運転の企業により(フリート又はクラウドソースデータの収集を通じて)利用可能である莫大な量のデータを活用して、一般的な現実的交通を学習することである。
【0070】
図5に示されるように、運転デモンストレーションのデータセットを与えられると、マルチエージェント敵対的生成模倣学習MAIRL(multi agent generative adversarial imitation learning)に基づいて、運転ポリシのプールを、それらのそれぞれの報酬関数と共に学習する[参考文献Song et al,2018に記載のとおり]。マルチエージェント学習により、利用可能な位置における収集された現実のクラウドソースデータに基づいて生成された多数の状況におけるエージェント間のインタラクションを学習することが可能になる。このプロセスの終わりに、利用可能な位置における現実的な運転行動を再現する交通ポリシが取得される。
2)目標位置における交通の微調整
この段階の目的は、段階1において学習された一般的な交通を、自律走行車両ユーザの主要な目標となるいくつかのジオフェンス位置(境界により限定されている位置)において微調整することである。
【0071】
具体的な地理的位置において交通ポリシを微調整するために、以下の手順が適用される。
【0072】
まず、目標位置において、手動で、又は自動運転モードのいずれかで、現実の車両を用いて少数の運転デモンストレーションの収集が実行される。これは、自律運転の企業によって、又は、日常生活において自身の車両を使用する間に、この手順を実行するユーザにより直接行うことができる。ログはその後、データセンタに送信され、交通の微調整フェーズを直接トリガする。段階1とは対照的に、この位置において少数のデモンストレーションのみが必要とされる。
【0073】
交通微調整フェーズの間、段階1で学習した一般交通を目標位置に適応させるために、PU-GAIL[Positive-Unlabeled Generative Adversarial Imitation Learning、陽性・ラベル無し敵対的生成模倣学習、参考文献Xu et al,2019を参照されたい]が使用され得る。PU-GAILは、エリアにおける少数の収集された現実の運転デモンストレーション及び目標地理的エリアにおける合成で生成された運転シミュレーションの両方を活用して、交通ポリシを適応させることを可能にする。
【0074】
少数のデモンストレーションが収集され、次いで、それらの新しい生成されたシナリオにおける現在の交通ポリシの失敗率を最大化するような方法で、それらの初期シナリオから挑戦的なシナリオが生成される。合成シナリオ上で生成されるシミュレーションのロールアウトは、PU-GAIL手順に基づいて交通ポリシを更新するために使用され得る。上記のように、PU-GAILの公式により、それらの種類の状況において学習することが可能となるため、目標位置における多くの専門家データが必要とされない。
【0075】
このフェーズの終わりに、交通は目標位置において安全にインタラクトすることができる。
3)目標ポリシの微調整
第3の段階は、
図6に示されるように、目標位置における実際の自律走行車両運転ポリシを学習することからなる。
【0076】
これは、自律走行車両を、シミュレーションにおける学習した交通とインタラクトさせることによって行われる。
【0077】
このプロセスにより、それらはシミュレーションされているため、自律モードにおいて明示的に記録又はテストされる必要のない大量で多様な運転状況を使用することを運転システムが学習することが可能となる。
【0078】
シミュレーションが規則ベースの様式で行われていた以前の作業とは対照的に、段階2において具体的な目標位置上でデータを学習及び微調整しているため、ここで交通は、現実的な様式でシミュレーションされる。
【0079】
再びここで、実際の微調整された交通を与えられた目標ポリシの挑戦的なシナリオを生成するために、シナリオ生成器が使用される。一度合成シナリオのセット上の失敗率が十分に高くなると、それらの経験は、運転ポリシを更新するために使用される。
【0080】
この段階の後、ポリシ更新は、遠隔通信を通じて現実の車両に戻されるように送信され、顧客の運転者は、次の走行中に改善を実験することができる。
【0081】
車両210、202、230は、遠隔通信及びセンサを備えた自動運転車両(SDV)である。データセンタは、SDVと通院するための通信インタフェースを有する。
【0082】
データセンタにおいて使用されるアルゴリズムは、目標位置のHDマップ及び運転デモンストレーションのデータセット、GNSS(global navigation satellite system、全地球測位システム)及びIMU(Inertial Measuring Unit、慣性測定装置)、及び/又は、目標車両データ収集のためのHDマップベースのローカライズ能力を有するビジョンを必要とする。
【0083】
システムを訓練するためのデータベースは、複数の位置においてHDマップと整合された運転デモンストレーションの大規模なデータベースを必要とし得る。
【0084】
システムは、その場での最小のデータ収集を用いて目標地理的位置における自律運転ポリシの信頼度及び安全性を改善するために使用され得る。
【0085】
本開示による方法は、ユーザによって現実の車両における自動運転モードで使用される、
【数5】
で示される目標運転ポリシの安全性及び信頼度を改善する主な訓練手順に基づく。まず、上で詳述された訓練及びパイプラインに関連するいくつかの表記及び用語を紹介し、次いで、上で詳述された3つの主な段階の詳細な説明に移る。
【0086】
訓練手順は、運転シミュレーションを生成するために使用される運転シミュレータに基づく。運転シミュレータは、運転シナリオS及び運転ポリシのセットΠ
θを用いて初期化される。運転シナリオS=(R,T,H)は、具体的な地理的エリアにおける有界道路ネットワークの記載、R上に規定される交通フローT、及びシミュレーション限界Hの組み合わせとして規定される。シミュレーション限界は、シミュレータが新しいシナリオにリセットされる前のシミュレーション段階の最大数を決定する。交通フローは、特定の頻度で運転シーンにエージェントを入力する。追加的に、生み出された各エージェントに対してその初期物理構成、その行き先、そのタイプ(すなわち、自動車、自転車、歩行者)、及びその関連する運転ポリシπ
θ∈Π
θを与える。各エージェントは、各シミュレーション段階において、確率分布πθ(a|o,r)に従って、追従すべき経路r上で調整されたアクションaをシーンoのエゴ観察と関連付けるニューラルネットワークとして実装された、π
θで示される運転ポリシによって動画化される。経路は、R及び行き先に基づいてシミュレータによって自動的に提供される。エゴ観察は、各エージェントの視点kからシミュレータにより生成され、主に、意味層、すなわち、HDマップ、及びシーンのコンテキストについての意味情報、すなわち、前の隣接する車両、斜線通路のポリラインなどまでの距離で構成されている。アクションは、少なくともシミュレーション段階全体の間に追従すべき理想的な軌道の高次の説明からなる。エージェント、すなわち、自動車、トラック、歩行者などの物理的制約を満たすために、各アクションは、より低次のコントローラによる制御のシーケンスへと変換されることに留意されたい。シナリオS=(R,T,H)に基づく運転シミュレーションにより、時間範囲[0,H]の間に入力された全てのエージェントの単一のエージェント軌道で構成されたマルチエージェント軌道Γが生成される。単一のエージェント軌道
【数6】
は、主として、エゴエージェント観察、及び、各シミュレーション段階において所与の時間長Tでサンプリングされたアクションのシーケンスである。我々は、交通ポリシを、現実の自動運転車両を制御する目標運転ポリシ
【数7】
に対して、運転シナリオの交通フローにより入力されたエージェントを動画化するために学習されたポリシのセット
【数8】
と呼ぶ。いくつかの交通エージェントが同じ運転ポリシモデルによって制御され得ることに留意されたい。追加的に、我々は、運転シナリオ
【数9】
及び、シナリオ時間拡張中に
【数10】
に入力された、各専門家エージェントの軌道を含む関連するマルチエージェント専門家軌道
【数11】
で構成された対
【数12】
のセットとして、大規模なデータセットから得られる専門家運転デモンストレーション
【数13】
を導入する。それらの道路ネットワーク
【数14】
により表される目標位置における目標ポリシ
【数15】
を改善するために、目標位置において漸進的に収集した、
【数16】
で示される少数のユーザデモンストレーションを活用する。
【0087】
段階1:一般的な現実的かつ堅固な交通学習
第1の段階は、マルチエージェント敵対的模倣学習MAIRL[Song et al 2018]によって、それらの報酬関数r
iと共に、運転デモンストレーション
【数17】
から交通ポリシ
【数18】
を学習することからなる。MAIRLアルゴリズムは、以下の最適化問題を解決する。
【数19】
ここで、Ψは正規化項である。
【数20】
の各交通ポリシ
【数21】
は、o
t及びアクションa
tの各観察対を、エージェントがどれほど現実的かつ安全に行動するかを示す現実の値にマッピングする、その関連する報酬関数
【数22】
を有することに留意されたい。最適化問題は、PPO、SAC、TD3、D4PGのようなポリシ更新方法を用いて、ディスクリミネータ
【数23】
を最適化すること、及びポリシ
【数24】
を最適化することを交互に行うことによって解決される[Orsini et al 2021を参照されたい]。報酬関数は、[Fu et al,2018]に詳述されるように、
【数25】
を用いてディスクリミネータから導出される。多様な挙動を取得するために、相互情報正規化Ψを使用することができる[Li et al,2017]。ドメイン知識を施行することは、無関係のアクション及び状態を罰則化する相補的損失[Bhattacharyya et al,2019]のおかげ、又は、タスク関連特徴の活用に対する制約[Zolna et al,2019;Wang et al,2021]のおかげで可能である。[Jeon et al,2021]に詳述されるように、所与の状態で全てのエージェントのアクションを整合させるために、個々の
【数26】
の代わりに中央化したクリティックD
centralizedを使用するおかげで、エージェントの暗示的な整合が可能である。これは、あるエージェントが道を譲って別のエージェントを道が進む必要がある交差点のように、エージェントが交渉する必要があるときに特に興味深い。このプロセスの終わりに、一般的な現実的かつ堅固な交通ポリシ
【数27】
が取得される。
【0088】
段階2:目標位置における交通の微調整
一度交通ポリシ
【数28】
がデモンストレーションD
eから訓練されると、第2の段階は、D
userにおいてユーザによって遭遇されるものを越えた様々な状況で交通エージェントが目標位置において安全にインタラクトできるように、目標地理的位置において交通ポリシを微調整することからなる。目標位置
【数29】
においてユーザによって収集された少数のユーザデモンストレーション
【数30】
を活用して、シナリオ生成器は、交通ポリシがそれについて訓練される、交通ポリシΠ
θのためのますます挑戦的なシナリオ
【数31】
を生成する。
【数32】
であるため、交通ポリシが、専門家参照軌道
【数33】
を授けられたシナリオ
【数34】
に対する軌道を生成した以前の段階と比較して、交通ポリシによって生成された合成デモンストレーション
【数35】
は、関連する現実の専門家デモンストレーションを有しない。結果として、我々は、追加のセクションにおいて詳述されるPUGAIL[Xu et al,2019]の手順に基づいて、
【数36】
のラベル無し軌道、並びにD
userにおける少数のラベル付き軌道を活用するために、交通ポリシの訓練方法を適応させる。
【0089】
交通の微調整のための例示的な概略コードをアルゴリズム1として以下に示す。
【表1】
段階3:目標ポリシの微調整
一度交通ポリシΠ
θが目標位置において微調整されると、我々は、目標位置における交通との大規模なインタラクションを通じて目標ポリシを微調整することができる。ユーザデモンストレーションD
userのシナリオからシナリオ生成器により、目標ポリシ
【数37】
のためのますます挑戦的なシナリオが生成される。挑戦的なシナリオにおいて交通とインタラクトする目標ポリシ
【数38】
によって生成されたデモンストレーションD
trialsは、Train
targetで示される目標ポリシ自体の訓練方法に基づいて、αで示される目標ポリシパラメータを更新するために使用される。交通が失敗の要因である場合には、依然として、交通デモンストレーションを利用して、段階2に基づいて交通を微調整し、そこから目標ポリシの訓練を再開することが可能であることに留意されたい。
【0090】
目標ポリシの微調整の例示的な概略コードをアルゴリズム2として以下に示す。
【表2】
以下では、個々の段階に関する追加の情報が提供される。
【0091】
PUGAIL訓練手順
交通ポリシ
【数39】
を微調整するために、PUGAIL訓練手順は、現実のユーザによって、その走行中に目標位置において収集された少数のデモンストレーションD
user、及び挑戦的なシナリオにおける交通ポリシによって生成された合成デモンストレーションD
syntheticを活用する。D
userのサイズは、D
syntheticよりもはるかに小さいことに留意されたい。D
syntheticにおけるシナリオは、関連する専門家軌道を有しないため、D
synthetic∪D
userに対してMAIRLアルゴリズムを直接適用することは不十分なパフォーマンスをもたらし、これは、データセットのバランスが非常に悪いからである。
【0092】
追加的、グラウンドトルースが欠損しているため、交通ポリシが、陰性ラベル(negative labels)を割り当てることによって新しい合成シナリオにおける現実的な移行(o
t,a
t,o
t+1)を全く生成できないとアプリオリに見なすことは、MAIRL段階の後にそれらが導き出されることが既に期待されているので、また、それらの状況において人間の運転者がどのように行動するであろうかを我々は知らないので、不公平である。したがって、元の問題が、陽性のラベル無し学習の問題として再度明確になり、ここで、主な相違点は、交通エージェントの軌道が、専門家及び見習い(apprentice)のデモンストレーションが混合したものとして見なされることである。実際には、元の問題のディスクリミネータの目的は以下のように表される。
【数40】
【0093】
ここで、[Xu et al,2019]によれば、ηは、以前の陽性クラスを表し、β>0である。陽性ラベルD
userのセットが依然としてラベル無しのD
syntheticよりも小さいため、我々は、現実の及び合成のシナリオの比率に応じて、以前の陽性クラスηを調整して、不均衡を緩和する。この新しい目的のために、我々は、以前のようにディスクリミネータ及びポリシの更新を交互に行い、複数の段階の後に、目標位置上に構築された様々なシナリオにおいて安全にインタラクトする微調整された目標ポリシ
【数41】
を取得する。
【0094】
安全性及び信頼度のスコア
運転ポリシのセット
【数42】
が、運転シナリオのセット
【数43】
に対して運転安全である及び信頼できるかどうかを評価するために、シミュレーションにおいて生成された各エピソードにおける交通エージェント又は目標ポリシの安全性及び信頼度スコアを計算する。最終スコアは、[Shalev-Shwartz et al,2017]によって提案される運転軌道の具体的な態様に各々が基づく、個々のスコアの加重和である。
・安全性メトリック:運転ポリシの安全性は、衝突率、交通規則違反、最小安全距離、ジャーク率、路外運転率、中央線に対する横方向のシフトのようないくつかの基準に基づいて、運転シナリオのセットにおいて推定され得る。
・信頼度メトリック:運転ポリシの信頼度は、一度エージェントがより信頼できるようになると低減されることが期待される、モールまでの時間、又は、エージェントがより信頼できるようになると低減されることも期待される衝突までの時間のようなプロキシメトリックを用いて推定され得る。
挑戦的なシナリオの生成
目標地理的位置において様々な挑戦的なシナリオを生成して、第2フェーズ中に交通ポリシΠ
θ、又は第3フェーズ中に目標ポリシ
【数44】
のいずれかを訓練するために、シナリオ生成器モジュールを導入する。シナリオ生成器は、目標位置においてユーザによって漸進的に収集されたD
userのシナリオを種として活用して、新しいシナリオを生成することに留意されたい。実際、これにより、一般的な状況から、非常にまれな状況までのシナリオのセットを、選択したカバレッジで一貫して多様化させることが可能となる。運転シナリオは、関連する交通フローに基づいて、パラメータの有限のリストによって特徴付けられ得ることに留意されたい。交通フローは、特定の頻度でエージェントを生成する交通ノードのセットで構成された交通フローグラフに基づく。生成された各エージェントは、その独自の初期物理構成、すなわち、運転ポリシに応じた初期位置、速度、行き先、運転ポリシ、及び運転スタイルを有する。それらの全てのパラメータは、交通の調和を維持する(すなわち、2つのエージェントが同じ位置及び同じ時間に生み出されない)特定の単純な制約下で摂動され得る。シナリオ生成器は、そこにおいて運転ポリシΠが低い安全性及び信頼度スコアを有するシナリオがもたらされる、有界摂動の最小シーケンスを求める。ここで、運転ポリシΠは、交通ポリシΠ
θ又は目標ポリシ
【数45】
を表し得る。探索中、運転ポリシの訓練可能な重みは固定されている。我々は、生成されたシナリオのシーケンスに対する、平均累積安全性及び信頼度スコア
【数46】
を最小化するπ
perturbationで示されるシナリオ摂動ポリシを学習するために、強化学習ベースの手順を使用する。Pで示される有限数の摂動のみが各トライアルに適用され得ることに留意されたい。我々は、以下の形態(S,δ,score(Π,S'),S')の移行を格納するリプレイバッファBを用いて、π
perturbationを学習するために、DQN[Mnih et al,2013を参照されたい]のようなオフポリシ方法を使用する。ここで、Sは現在のシナリオ、δは適用されるべき摂動、S'は摂動の後に結果として得られるシナリオ、score(Π,S')は、シナリオS'に対する運転ポリシΠの安全性及び信頼度スコアである。
【0095】
挑戦的なシナリオの生成のための例示的な概略コードをアルゴリズム3として以下に示す。
【表3】
参考文献:
・[Bhattacharyya et al 2019] Modeling Human Driving Behavior through Generative Adversarial Imitation Learning Raunak Bhattacharyya, Blake Wulfe Derek Phillips, Alex Kuefler , Jeremy Morton Ransalu Senanayake Mykel Kochenderfer 2019
・[Wang et al 2021] Decision Making for Autonomous Driving via Augmented Adversarial Inverse Reinforcement Learning Pin Wang, Dapeng Liu, Jiayu Chen, Hanhan Li, Ching-Yao Chan 2021
・[Jeon et al 2021]Scalable and Sample-Efficient Multi-Agent Imitation Learning Wonseok Jeon, Paul Barde, Joelle Pineau, Derek Nowrouzezahrai 2021
・[Zolna et al 2019] Task-Relevant Adversarial Imitation Learning Konrad Zolna, Scott Reed, Alexander Novikov, Sergio Gomez Colmenarejo, David Budden, Serkan Cabi, Misha Denil, Nando de Freitas, Ziyu Wang 2019
・[Xu et al 2019] Positive unlabeled reward learning Danfei Xu, Misha Denil 2019
・[Song et al 2018] Multi-Agent Generative Adversarial Imitation Learning Jiaming Song, Hongyu Ren, Dorsa Sadigh, Stefano Ermon 2018
・[Li et al 2017] InfoGAIL: Interpretable Imitation Learning from Visual Demonstrations Yunzhu Li , Jiaming Song , Stefano Ermon 2017
・[Fu et al 2018] Learning robust rewards with adversarial inverse reinforcement learning Justin Fu, Katie Luo, Sergey Levine 2017
・[Orsini et al 2021] What Matters for Adversarial Imitation Learning? Manu Orsini,Anton Raichuk,Leonard Hussenot,Damien Vincent,Robert Dadashi,Sertan Girgin,Matthieu Geist,Olivier Bachem,Olivier Pietquin,Marcin Andrychowicz 2021
・[Mnih et al 2013] Playing Atari with Deep Reinforcement Learning Volodymyr Mnih,Koray Kavukcuoglu,David Silver,Alex Graves,Ioannis Antonoglou,Daan Wierstra,Martin Riedmiller 2013
・[Shalev-Shwartz et al 2017 ] On a Formal Model of Safe and Scalable Self-driving Cars Shai Shalev-Shwartz, Shaked Shammah, Amnon Shashua Mobileye, 2017
【国際調査報告】