IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ ▲広▼州大学の特許一覧

特許7287707敵対的模倣学習に基づく無人運転車両車線変更決定方法及びシステム
<>
  • 特許-敵対的模倣学習に基づく無人運転車両車線変更決定方法及びシステム 図1
  • 特許-敵対的模倣学習に基づく無人運転車両車線変更決定方法及びシステム 図2
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2023-05-29
(45)【発行日】2023-06-06
(54)【発明の名称】敵対的模倣学習に基づく無人運転車両車線変更決定方法及びシステム
(51)【国際特許分類】
   B60W 30/10 20060101AFI20230530BHJP
   B60W 60/00 20200101ALI20230530BHJP
   G06N 20/00 20190101ALI20230530BHJP
   B60W 50/08 20200101ALI20230530BHJP
   B60W 40/04 20060101ALI20230530BHJP
   G08G 1/16 20060101ALI20230530BHJP
【FI】
B60W30/10
B60W60/00
G06N20/00
B60W50/08
B60W40/04
G08G1/16 C
【請求項の数】 10
(21)【出願番号】P 2021541153
(86)(22)【出願日】2020-09-17
(65)【公表番号】
(43)【公表日】2022-07-21
(86)【国際出願番号】 CN2020115750
(87)【国際公開番号】W WO2021212728
(87)【国際公開日】2021-10-28
【審査請求日】2021-07-15
(31)【優先権主張番号】202010331216.1
(32)【優先日】2020-04-24
(33)【優先権主張国・地域又は機関】CN
(73)【特許権者】
【識別番号】519295166
【氏名又は名称】▲広▼州大学
(74)【代理人】
【識別番号】100095407
【弁理士】
【氏名又は名称】木村 満
(74)【代理人】
【識別番号】100132883
【弁理士】
【氏名又は名称】森川 泰司
(74)【代理人】
【識別番号】100148633
【弁理士】
【氏名又は名称】桜田 圭
(74)【代理人】
【識別番号】100147924
【弁理士】
【氏名又は名称】美恵 英樹
(72)【発明者】
【氏名】▲チー▼ 科
(72)【発明者】
【氏名】范 立生
【審査官】二之湯 正俊
(56)【参考文献】
【文献】特表2020-511704(JP,A)
【文献】特開2020-149504(JP,A)
【文献】米国特許出願公開第2019/0111934(US,A1)
(58)【調査した分野】(Int.Cl.,DB名)
B60W 10/00-10/30
B60W 30/00-60/00
G08G 1/00-99/00
(57)【特許請求の範囲】
【請求項1】
敵対的模倣学習に基づく無人運転車両車線変更決定方法において、
無人運転車両車線変更決定タスクを部分観測マルコフ決定過程として記述する記述ステップと
学習中に分散減少方策勾配の学習方策に基づいて専門運転者の運転パフォーマンスをシミュレーションする敵対的模倣学習方法を用いて、専門運転教示によって提供される例から学習し、無人運転車両車線変更決定モデルを取得する取得ステップと
車両の無人運転走行中に、現在取得されている環境車両情報を無人運転車両車線変更決定モデルの入力パラメータとして、無人運転車両車線変更決定モデルによって車両車線変更決定結果を取得する結果取得ステップとを含むことを特徴とする、
敵対的模倣学習に基づく無人運転車両車線変更決定方法。
【請求項2】
記述ステップにおいて、無人運転車両車線変更決定タスクを部分観測マルコフ決定過程として記述することは、具体的に、
状態空間決定ステップにおいて、自車両、車両進路における前後車両及び左右車線における自車両に最も近い車両の走行状態を含む状態Oの空間[v ,s,v,s,v,slf,vlf,slb,vlb,srf,vrf,srb,vrb
(ここで、
は、自車両の走行速度であり、
、vは、それぞれ、自車進路の前方で最も近い車両から自車両までの距離、自車両までの相対速度に対応し、
、vは、それぞれ、自車両の進路の後方で最も近い車両から自車両までの距離、自車両までの相対速度に対応し、
lf、vlfは、それぞれ、自車両より左車線の前方で最も近い車両から自車両までの距離、自車両までの相対速度に対応し、
lb、vlbは、それぞれ、自車両より左車線の後方で最も近い車両から自車両までの距離、自車両までの相対速度に対応し、
rf、vrfは、それぞれ、自車両より右車線の前方で最も近い車両から自車両までの距離、自車両までの相対速度に対応し、
rb、vrbは、それぞれ、自車両より右車線の後方で最も近い車両から自車両までの距離、自車両までの相対速度に対応する)を決定し、
動作空間決定ステップにおいて、車両の左へ車線変更、車両の右へ車線変更、車両の車線維持且つ車速維持、車両の車線維持且つ加速、及び、車両の車線維持且つ減速を含む動作Aの空間を決定することを特徴とする、
請求項1に記載の敵対的模倣学習に基づく無人運転車両車線変更決定方法。
【請求項3】
自車両に対し、
その進路前方の車両が検出されない場合、s、vをそれぞれ固定値にセットし、
その進路後方の車両が検出されない場合、s、vをそれぞれ固定値にセットし、
左車線前方の車両が検出されない場合、slf、vlfをそれぞれ固定値にセットし、
左車線後方の車両が検出されない場合、slb、vlbをそれぞれ固定値にセットし、
右車線前方の車両が検出されない場合、srf、vrfをそれぞれ固定値にセットし、
右車線後方の車両が検出されない場合、srb、vrbをそれぞれ固定値にセットすることを特徴とする、
請求項2に記載の敵対的模倣学習に基づく無人運転車両車線変更決定方法。
【請求項4】
取得ステップにおいて、敵対的模倣学習方法を用いて、専門運転教示によって提供される例から学習する具体的な過程として、
データ収集ステップにおいて、専門運転者の車両の運転挙動に対して、専門運転者の運転の状態データ及び動作データの収集を含むデータ収集を行い、
データセット構成ステップにおいて、収集した車両状態データ及び動作データのペアを抽出し、データセットτ={τ,τ,τ,...,τ}={(O,A),(O,A),(O,A),...,(O,A)}(τを敵対的模倣学習の専門運転者による車両の運転の軌跡として定義し、τ~τは、それぞれ、1~N番目のデータペアを示し、O~Oは、それぞれ、収集した1~N番目の状態データを示し、A~Aは、それぞれ、収集した1~N番目の動作データを示し、Nは、学習データセットにおけるデータペアの総数であり、サンプリング回数に対応する)を構成し、
モデル取得ステップにおいて、データセットτを入力として、敵対的模倣学習方法を用いて学習し、専門運転者の運転挙動を模倣し、無人運転車両車線変更決定モデルを取得することを特徴とする、
請求項2に記載の敵対的模倣学習に基づく無人運転車両車線変更決定方法。
【請求項5】
モデル取得ステップにおいて、敵対的模倣学習として学習中に分散減少方策勾配の学習方策に基づいて専門運転者の運転パフォーマンスをシミュレーションすることは、具体的な過程として、
初期化ステップにおいて
最大学習ラウンドT、敵対的模倣学習の学習率を表す学習ペースα、及びサンプリング回数Nをセットし、
無人運転車両代理方策πθを初期化し、無人運転車両代理方策πθの重みパラメータをθ0に初期化し、
敵対的ネットワーク判別器Dφの重みパラメータを初期化し、ここで、φは、敵対的ネットワーク判別器Dφの初期化重みパラメータであり、
無人運転車両の現在の状態ベクトルO及び現在の動作ベクトルAを取得し、
実行ステップにおいて、学習ラウンドt(0≦t≦T)ごとに、後述するガウスベクトル生成ステップ~無人運転車両代理方策重みパラメータ更新ステップを実行し、
ガウスベクトル生成ステップにおいて、ランダムにサンプリングし、平均が0で分散がvであるガウスベクトルδ={δ,δ,...,δ}をN個生成し、ここで、δ~δは、1~N番目のガウスベクトルであり、δは、N個のガウスベクトルを組み合わせたベクトルであり、
平均分散算出ステップにおいて、現在の学習ラウンドtの際に、無人運転車両代理方策πθの重みパラメータθの平均分散
【数1】
を算出し、
平均値算出ステップにおいて、無人運転車両の現在の状態ベクトルOの平均値μを算出し、
ランダム代理方策算出ステップにおいて、各k(k∈{1,2,...,N})について、分散減少方法を用いてランダム代理方策πt,(k)
【数2】
を算出し、δは、ガウスベクトル生成ステップで得られたk番目のガウスベクトルであり、
サンプル軌跡生成ステップにおいて、無人運転車両の現在の状態ベクトルOを入力として、ランダム代理方策πt,(k)(k=1,2,...,N)を適用して、サンプル軌跡
【数3】
を生成し、
ここで、
【数4】
は、それぞれ、Oを入力とし、kに1~Nの値をとり、ランダム代理方策πt,(k)によって生成された1~N番目のサンプル軌跡であり、
【数5】
は、それぞれ、1~N番目のサンプル軌跡における動作データを示し、
判別器重みパラメータ更新ステップにおいて、敵対的ネットワーク判別器Dφの重みパラメータφを更新し、
最小二乗損失関数を用いて敵対的ネットワーク判別器Dφの重みパラメータφを学習して更新し、即ち、決定境界の両側で専門運転者による車両の運転の軌跡から離れているサンプル軌跡に対して、最小二乗損失関数を用いて懲罰し、損失関数が
【数6】
であり、ここで、π、πθは、それぞれ、エキスパート方策、無人運転車両代理方策に対応し、
【数7】
は、エキスパート方策のエントロピー正則化であり、
【数8】
は、無人運転車両代理方策のエントロピー正則化であり、
無人運転車両代理方策重みパラメータ更新ステップにおいて、無人運転車両代理方策πθの重みパラメータθを更新し、
現在の学習ラウンドtが最大学習ラウンドTに達するまで、分散減少に基づく方策勾配法を用いて代理方策πθの重みパラメータθを更新して、更新後の重みパラメータθt+1を得ることを特徴とする、
請求項4に記載の敵対的模倣学習に基づく無人運転車両車線変更決定方法。
【請求項6】
無人運転車両代理方策重みパラメータ更新ステップにおいて、分散減少に基づく方策勾配法を用いて代理方策πθの重みパラメータθを更新する具体的な過程は、
ランダム代理方策πt,(k)(k∈{1,2,...,N})毎に、インセンティブ関数
【数9】
(式中、
【数10】
は、エントロピー正則化である)を算出するインセンティブ関数算出ステップと
【数11】
のように、無人運転車両代理方策πθのパラメータθを更新するパラメータ更新ステップと、を含むことを特徴とする、
請求項5に記載の敵対的模倣学習に基づく無人運転車両車線変更決定方法。
【請求項7】
結果取得ステップにおいて、無人運転車両車線変更決定モデルによって無人運転車両車線変更決定結果を取得する具体的な過程として、
環境車両情報取得ステップにおいて、無人運転車両の状態データを含む無人運転車両の現在の環境車両情報を取得し、
モデル入力ステップにおいて、無人運転車両の状態データに基づいて、無人運転車両車線変更決定モデルの入力状態に値を与え、
車線変更決定結果取得ステップにおいて、無人運転車両車線変更決定モデルによって車線変更決定結果を取得し、
車線変更方向判断ステップにおいて、連続してn(nは常数である)回の決定結果がすべて車線変更であり且つ車線変更の方向が同じであるかを判断し、NOであれば、車線変更判断ステップに進むが、YESであれば、車線変更ステップに進み、
車線変更判断ステップにおいて、現在の決定結果が車線変更であるかを判断し、
NOであれば、現在の決定結果に応じて、無人運転車両の現在の運転動作を制御し、即ち、無人運転車両が現在の車線を維持しながら走行するように制御し、加速、減速、又は車速維持の動作を実行し、環境車両情報取得ステップに戻り、
YESであれば、無人運転車両が現在の決定結果の前の運転状態を維持し、環境車両情報取得ステップに戻り、
車線変更ステップにおいて、決定結果に応じて車線変更を行い、同時に無人運転車両の車線変更中に緊急事態の有無を検出し、あれば無人運転状態から脱し、手動介入を行うが、なければ、車線変更決定結果に基づいて車線変更を完了し、環境車両情報取得ステップに戻ることを特徴とする、
請求項5に記載の敵対的模倣学習に基づく無人運転車両車線変更決定方法。
【請求項8】
請求項1から7のいずれか1項に記載の敵対的模倣学習に基づく無人運転車両車線変更決定方法を実現するための無人運転車両車線変更決定システムにおいて、
無人運転車両車線変更決定タスクを部分観測マルコフ決定過程として記述するタスク記述モジュールと、
学習中に分散減少方策勾配の学習方策に基づいて専門運転者の運転パフォーマンスをシミュレーションする敵対的模倣学習方法を用いて、専門運転教示によって提供される例から学習し、無人運転車両車線変更決定モデルを取得する車線変更決定モデル構築モジュールと、
車両の無人運転走行中に、現在の環境車両情報を取得する環境車両情報取得モジュールと、
現在取得されている環境車両情報を無人運転車両車線変更決定モデルの入力パラメータとして、無人運転車両車線変更決定モデルによって車両車線変更決定結果を取得する車線変更の意思決定モジュールとを含むことを特徴とする、
無人運転車両車線変更決定システム。
【請求項9】
プログラムが格納されている記憶媒体であって、前記プログラムがプロセッサによって実行されると、請求項1から7のいずれか1項に記載の敵対的模倣学習に基づく無人運転車両車線変更決定方法を実現することを特徴とする、
プログラムが格納されている記憶媒体。
【請求項10】
プロセッサと、プロセッサによって実行可能なプログラムを格納するためのメモリとを含む演算機器であって、
前記プロセッサは、メモリに格納されているプログラムを実行すると、請求項1から7のいずれか1項に記載の敵対的模倣学習に基づく無人運転車両車線変更決定方法を実現することを特徴とする、
演算機器。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、無人自律車両運転の技術分野に属し、特に敵対的模倣学習に基づく無人運転車両車線変更決定方法及びシステムに関する。
【背景技術】
【0002】
無人運転の発展は、道路交通の知的レベルを向上させ、交通運送業界のトランスフォーメーションおよびアップグレードを推進するのに役立つ。無人運転車両は、様々なタイプのセンサ、コントローラを含むハードウェアと、環境認識、行動決定、運動計画が自律制御モジュールと統合された統合システムであるソフトウェアとの組み合わせである。
【0003】
車線変更の決定は、無人運転車両決定技術の重要な構成モジュールであり、後続の動作計画モジュールが実行される根拠である。現在、開示された特許を含む先行技術において、主に採用されている無人運転車両車線変更決定方法は、規則に基づく決定、動的計画に基づく決定、ファジィ制御に基づく決定などの従来の方法を含む。しかし、車両の走行環境が複雑かつ多様で高度な動的交通環境であり、決定方法の設計のための正確な数学モデルの確立が困難であり、従来の車線変更決定方法のロバスト性及び適応性は、無人運転車線変更決定の要件を完全に満たすことができなかった。
【0004】
近年、無人運転分野における人工知能の応用が急速に進展しており、無人運転車両車線変更決定の問題を解決するために人工知能の採用が可能となっている。エンド・ツー・エンドの教師あり学習と深度強化学習は、2つの比較的一般的な手法である。エンド・ツー・エンドの教師あり学習及び深度強化学習は、いずれもニューラルネットワークモデルを学習して、感知データを車線変更の決定の出力に直接マッピングすることができる。しかし、エンド・ツー・エンドの教師あり学習は、多くの場合、大量の学習データを必要とし、モデル化能力の弱い深度強化学習は、タスク要件を満たすインセンティブ関数を人為的に設計する必要がある。
【0005】
現在の無人運転技術のボトルネックと、車線変更決定技術の不足とを総合的に考慮して、新たな無人運転車両車線変更決定方法を設計する必要がある。
【発明の概要】
【発明が解決しようとする課題】
【0006】
本発明の第1の目的は、従来技術の欠点及び不備を克服し、敵対的模倣学習に基づく無人運転車両車線変更決定方法を提供することである。該方法は、専門運転教示によって提供される例から学習し、車両状態から車両の車線変更決定への直接マッピングを、人為的なタスクインセンティブ関数を必要とすることなく、直接的に確立することができ、動的な車両の走行条件下での無人運転車両車線変更決定の正確性、ロバスト性及び適応性を効果的に向上させる。
【0007】
本発明の第2の目的は、無人運転車両車線変更決定システムを提供することである。
【0008】
本発明の第3の目的は、記憶媒体を提供することである。
【0009】
本発明の第4の目的は、演算機器を提供することである。
【課題を解決するための手段】
【0010】
本発明の第1の目的は、以下の技術手段によって実現される。敵対的模倣学習に基づく無人運転車両車線変更決定方法において、無人運転車両車線変更決定タスクを部分観測マルコフ決定過程として記述するステップS1と、学習中に分散減少方策勾配の学習方策に基づいて専門運転パフォーマンスをシミュレーションする敵対的模倣学習方法を用いて、専門運転教示によって提供される例から学習し、無人運転車両車線変更決定モデルを取得するステップS2と、車両の無人運転走行中に、現在取得されている環境車両情報を無人運転車両車線変更決定モデルの入力パラメータとして、無人運転車両車線変更決定モデルによって車両車線変更決定結果を取得するステップS3と、を含む。
【0011】
好ましく、ステップS1において、無人運転車両車線変更決定タスクを部分観測マルコフ決定過程として記述することは、具体的に、
ステップS11において、自車両、車両進路における前後車両及び左右車線における自
車両に最も近い車両の走行状態を含む状態Oの空間[l,v,s,v,s,v,slf,vlf,slb,vlb,srf,vrf,srb,vrb
(ここで、
lは、自車両が走行する車線であり、vは、自車両の走行速度であり、
、vは、それぞれ、自車両の進路の前方で最も近い車両から自車両までの距離、自車両までの相対速度に対応し、
、vは、それぞれ、自車両の進路の後方で最も近い車両から自車両までの距離、自車両までの相対速度に対応し、
lf、vlfは、それぞれ、自車両より左車線の前方で最も近い車両から自車両までの距離、自車両までの相対速度に対応し、
lb、vlbは、それぞれ、自車両より左車線の後方で最も近い車両から自車両までの距離、自車両までの相対速度に対応し、
rf、vrfは、それぞれ、自車両より右車線の前方で最も近い車両から自車両までの距離、自車両までの相対速度に対応し、
rb、vrbは、それぞれ、自車両より右車線の後方で最も近い車両から自車両までの距離、自車両までの相対速度に対応する)を決定し、
ステップS12において、車両の左へ車線変更、車両の右へ車線変更、車両における車線維持且つ車速維持、車両の車線維持且つ加速、及び、車両の車線維持且つ減速を含む動作Aの空間を決定する。
【0012】
更に好ましく、自車両に対し、
その進路前方の車両が検出されない場合、s、vをそれぞれ固定値にセットし、
その進路後方の車両が検出されない場合、s、vをそれぞれ固定値にセットし、
左車線前方の車両が検出されない場合、slf、vlfをそれぞれ固定値にセットし、
左車線後方の車両が検出されない場合、slb、vlbをそれぞれ固定値にセットし、
右車線前方の車両が検出されない場合、srf、vrfをそれぞれ固定値にセットし、
右車線後方の車両が検出されない場合、srb、vrbをそれぞれ固定値にセットする。
【0013】
更に、ステップS2において、敵対的模倣学習方法を用いて、専門運転教示によって提供される例から学習する具体的な過程として、
ステップS21において、専門運転者の車両の運転挙動に対して、専門運転者の運転の状態データ及び動作データの収集を含むデータ収集を行い、
ステップS22において、収集した車両状態データ及び動作データのペアを抽出し、データセットτ={τ,τ,τ,...,τ}={(O,A),(O,A),(O,A),...,(O,A)}(τを敵対的模倣学習のエキスパート軌跡に定義し、τ~τは、それぞれ、1~N番目のデータペアを示し、O~Oは、それぞれ、収集した1~N番目の状態データを示し、A~Aは、それぞれ、収集した1~N番目の動作データを示し、Nは、学習データセットにおけるデータペアの総数であり、サンプリング回数に対応する)を構成し、
ステップS23において、データセットτを入力として、敵対的模倣学習方法を用いて学習し、専門運転者の運転挙動を模倣し、無人運転車両車線変更決定モデルを取得する。
【0014】
更に、ステップS23において、敵対的模倣学習として学習中に分散減少方策勾配の学習方策に基づいて専門運転パフォーマンスをシミュレーションすることは、具体的な過程として、
ステップS231において、初期化し、
最大学習ラウンドT、学習ペースα、及びサンプリング回数Nをセットし、
無人運転車両代理方策πθを初期化し、無人運転車両代理方策πθの重みパラメータをθ0に初期化し、
敵対的ネットワーク判別器Dφの重みパラメータを初期化し、ここで、φは、敵対的ネットワーク判別器Dφの初期化重みパラメータであり、
無人運転車両の現在の状態ベクトルO及び現在の動作ベクトルAを取得し、
ステップS232において、学習ラウンドt(0≦t≦T)ごとに、ステップS233~ステップS239を実行し、
ステップS233において、ランダムにサンプリングし、平均が0で分散がvであるガウスベクトルδ={δ,δ,...,δ}をN個生成し、ここで、δ~δは、1~N番目のガウスベクトルであり、δは、N個のガウスベクトルを組み合わせたベクトルであり、
ステップS234において、現在の学習ラウンドtの際に、無人運転車両代理方策πθの重みパラメータθの平均分散
【数1】

を算出し、
ステップS235において、無人運転車両の現在の状態ベクトルOの平均値μを算出し、
ステップS236において、各k(k∈{1,2,...,N})について、分散減少方法を用いてランダム代理方策πt,(k)
【数2】

を算出し、δは、ステップS233で得られたk番目のガウスベクトルであり、
ステップS237において、無人運転車両の現在の状態ベクトルOを入力として、ランダム代理方策πt,(k)(k=1,2,...,N)を適用して、サンプル軌跡
【数3】

を生成し、
ここで、
【数4】

は、それぞれ、Oを入力とし、kに1~Nの値をとり、ランダム代理方策πt,(k)によって生成された1~N番目のサンプル軌跡であり、
【数5】

は、それぞれ、1~N番目のサンプル軌跡における動作データを示し、
ステップS238において、敵対的ネットワーク判別器Dφの重みパラメータφを更新し、
最小二乗損失関数を用いて敵対的ネットワーク判別器Dφの重みパラメータφを学習して更新し、即ち、決定境界の両側でエキスパート軌跡から離れているサンプル軌跡に対して、最小二乗損失関数を用いて懲罰し、損失関数が
【数6】

であり、ここで、π、πθは、それぞれ、エキスパート方策、無人運転車両代理方策に対応し、
【数7】

は、エキスパート方策のエントロピー正則化であり、
【数8】

は、無人運転車両代理方策のエントロピー正則化であり、
ステップS239において、無人運転車両代理方策πθの重みパラメータθを更新し、
現在の学習ラウンドtが最大学習ラウンドTに達するまで、分散減少に基づく方策勾配法を用いて代理方策πθの重みパラメータθを更新して、更新後の重みパラメータθt+1を得る。
【0015】
更に、ステップS239において、分散減少に基づく方策勾配法を用いて代理方策πθの重みパラメータθを更新する具体的な過程は、
ランダム代理方策πt,(k)(k∈{1,2,...,N})毎に、インセンティブ関数
【数9】

(式中、
【数10】

は、エントロピー正則化である)を算出するステップS2391と、
【数11】

のように、無人運転車両代理方策πθのパラメータθtを更新するステップS2392と、を含む。
【0016】
更に、ステップS3において、無人運転車両車線変更決定モデルによって無人運転車両車線変更決定結果を取得する具体的な過程として、
ステップS31において、無人運転車両状態データを含む無人運転車両の現在の環境車両情報を取得し、
ステップS32において、無人運転車両の状態データに基づいて、無人運転車両車線変更決定モデルの入力状態に値を与え、
ステップS33において、無人運転車両車線変更決定モデルによって車線変更決定結果を取得し、
ステップS34において、連続してn(nは常数である)回の決定結果がすべて車線変更であり且つ車線変更の方向が同じであるかを判断し、NOであれば、ステップS35に進むが、YESであれば、ステップS36に進み、
ステップS35において、現在の決定結果が車線変更であるかを判断し、
NOであれば、現在の決定結果に応じて、無人運転車両の現在の運転動作を制御し、即ち、無人運転車両が現在の車線を維持しながら走行するように制御し、加速、減速、又は車速維持の動作を実行し、ステップS31に戻り、
YESであれば、無人運転車両が現在の決定結果の前の運転状態を維持し、ステップS31に戻り、
ステップS36において、決定結果に応じて車線変更を行い、同時に無人運転車両の車線変更中に緊急事態の有無を検出し、あれば無人運転状態から脱し、手動介入を行うが、なければ、車線変更決定結果に基づいて車線変更を完了し、ステップS31に戻る。
【0017】
本発明の第2の目的は、以下の技術手段によって実現される。無人運転車両車線変更決定システムにおいて、無人運転車両車線変更決定タスクを部分観測マルコフ決定過程として記述するタスク記述モジュールと、学習中に分散減少方策勾配の学習方策に基づいて専門運転パフォーマンスをシミュレーションする敵対的模倣学習方法を用いて、専門運転教示によって提供される例から学習し、無人運転車両車線変更決定モデルを取得する車線変更決定モデル構築モジュールと、車両の無人運転走行中に、現在の環境車両情報を取得する環境車両情報取得モジュールと、現在取得されている環境車両情報を無人運転車両車線変更決定モデルの入力パラメータとして、無人運転車両車線変更決定モデルによって車両の車線変更決定結果を取得する車線変更決定モジュールとを含む。
【0018】
本発明の第3の目的は、以下の技術手段によって実現される。プログラムが格納されている記憶媒体であって、前記プログラムがプロセッサによって実行されると、実施例1に記載の敵対的模倣学習に基づく無人運転車両車線変更決定方法を実現する。
【0019】
本発明の第4の目的は、以下の技術手段によって実現される。プロセッサと、プロセッサによって実行可能なプログラムを格納するためのメモリとを含む演算機器であって、前記プロセッサは、メモリに格納されているプログラムを実行すると、実施例1に記載の敵対的模倣学習に基づく無人運転車両車線変更決定方法を実現する。
【発明の効果】
【0020】
本発明は、従来技術に対して以下の利点及び効果を有する。
(1)本発明の無人運転車両車線変更決定方法は、まず、無人運転車両車線変更決定タスクを部分観測マルコフ決定過程として記述し、それから、敵対的模倣学習方法を用いて、専門運転教示によって提供される例から学習し、無人運転車両車線変更決定モデルを取得し、車両の無人運転走行中に、現在取得されている環境車両情報を無人運転車両車線変更決定モデルの入力パラメータとして、無人運転車両車線変更決定モデルによって車両車線変更決定結果を取得する。本発明は、専門運転教示によって提供される例から敵対的模倣学習方法によって車線変更方策を学習し、車両状態から車両車線変更決定への直接マッピングを、人為的なタスクインセンティブ関数を必要とすることなく、直接的に確立することができ、動的な車両走行条件下での無人運転車両車線変更決定の正確性、ロバスト性及び適応性を効果的に向上させる。
【0021】
(2)本発明の無人運転車両車線変更決定方法は、敵対的模倣学習方法によって、分散減少方策勾配の学習方策に基づいて専門運転パフォーマンスをシミュレーションすることによって、車線変更決定の正確性を更に向上させることができる。また、無人運転車両車線変更決定モデルによる無人運転車両の車線変更決定過程で、複数回連続して車線変更の決定結果が得られた場合にのみ、決定結果に応じた車線変更を行うので、上記操作は、決定結果の正確性をより一層保証し、車線変更の安全性を確保することができる。
【0022】
(3)本発明の無人運転車両車線変更決定方法は、無人運転車両が決定結果に応じて車線変更を行う過程で、緊急事態の有無をリアルタイムで検出し、緊急事態がある場合、無人運転状態から脱して手動介入を行うことで、車両運転の安全性を確保し、車両の乗員の生命安全を確保し、交通事故を極力回避する。
【図面の簡単な説明】
【0023】
図1図1は、本発明の方法の、敵対的模倣学習に基づくオフライン学習のフローチャートである。
図2図2は、本発明の方法による無人車両車線変更決定のフローチャートである。
【発明を実施するための形態】
【0024】
以下、本発明を実施例及び図面に基づいて更に詳細に説明するが、本発明の実施の形態は、これらに限定されるものではない。
【0025】
(実施例1)
本実施例は、敵対的模倣学習に基づく無人運転車両車線変更決定方法を開示し、この方法によって、無人運転車両が正確かつ安全に車線を切り替えることができる。該方法は、以下のステップを含む。
【0026】
ステップS1において、無人運転車両車線変更決定タスクを部分観測マルコフ決定過程として記述する。
【0027】
本実施例において、無人運転車両車線変更決定タスクを部分観測マルコフ決定過程として記述することは、具体的に以下である。
ステップS11において、自車両、車両進路における前後車両及び左右車線における自車両に最も近い車両の走行状態を含む状態Oの空間[l,v,s,v,s,v,slf,vlf,slb,vlb,srf,vrf,srb,vrb]を決定する。
ここで、lは、自車両が走行する車線であり、vは、自車両の走行速度である。本実施例において、自車両の走行速度vは、自車両の車速センサによって収集して検出される。s、vは、それぞれ、自車両の進路の前方で最も近い車両から自車両までの距離、自車両までの相対速度に対応し、s、vは、それぞれ、自車進路の後方で最も近い
車両から自車両までの距離、自車両までの相対速度に対応し、slf、vlfは、それぞれ、自車両より左車線の前方で最も近い車両から自車両までの距離、自車両までの相対速度に対応し、slb、vlbは、それぞれ、自車両より左車線の後方で最も近い車両から自車両までの距離、自車両までの相対速度に対応し、srf、vrfは、それぞれ、自車両より右車線の前方で最も近い車両から自車両までの距離、自車両までの相対速度に対応し、srb、vrbは、それぞれ、自車両より右車線の後方で最も近い車両から自車両までの距離、自車両までの相対速度に対応する。
【0028】
本実施例において、他車両から自車両までの距離s、s、slf、slb、srf、srbは、自車両の画像センサ又はレーダセンサによって収集して検出される。他車両から自車両までの相対速度v、v、vlf、vlb、vrf、vrbは、自車両のレーダセンサによって収集して検出される。
【0029】
ここで、自車両に対し、その進路前方の車両が検出されない場合、s、vをそれぞれ固定値にセットし、その進路後方の車両が検出されない場合、s、vをそれぞれ固定値にセットし、左車線前方の車両が検出されない場合、slf、vlfをそれぞれ固定値にセットし、左車線後方の車両が検出されない場合、slb、vlbをそれぞれ固定値にセットし、右車線前方の車両が検出されない場合、srf、vrfをそれぞれ固定値にセットし、右車線後方の車両が検出されない場合、srb、vrbをそれぞれ固定値にセットする。
【0030】
ここで、上記のセットされたs、s、slf、slb、srf、srbの固定値は、レーダの最大感知距離を取り、例えば300メートルである。上記のセットされたv、v、vlf、vlb、vrf、vrbの固定値は、スマートカーの予想走行速度を取り、例えば100km/hである。
【0031】
上記自車両は、無人運転車両自車を指す。
【0032】
ステップS12において、第1種類の車両の左へ車線変更、第2種類の車両の右へ車線変更、第3種類の車両の車線維持且つ車速維持、第4種類の車両の車線維持且つ加速、及び、第5種類の車両の車線維持且つ減速を含む動作空間Aを決定する。
【0033】
ステップS2において、敵対的模倣学習方法を用いて、専門運転教示によって提供される例からオフライン学習をし、無人運転車両車線変更決定モデルを取得する。ここで、学習中に、敵対的模倣学習方法は、分散減少方策勾配の学習方策に基づいて専門運転パフォーマンスをシミュレーションする。図1に示すように、具体的な過程は、以下のとおりである。
【0034】
ステップS21において、専門運転者の車両運転挙動に対して、専門運転者の運転の状態データ及び動作データの収集を含むデータ収集を行う。ここで、各状態データは、状態Oの空間のデータ[l,v,s,v,s,v,slf,vlf,slb,vlb,srf,vrf,srb,vrb]を含み、即ち、専門運転者の運転する自車両、車両進路における前後車両及び左右車線における自車両に最も近い車両の走行状態を含む。動作データは、動作Aの空間のデータに対応し、毎回収集される動作データは、車両の左へ車線変更、車両の右へ車線変更、車両の車線維持且つ車速維持、車両の車線維持且つ加速、及び、車両の車線維持且つ減速を含む。
【0035】
ステップS22において、収集した車両状態データ及び動作データのペアを抽出し、データセットτ={τ,τ,τ,...,τ}={(O,A),(O,A),(O,A),...,(O,A)}を構成する。τを敵対的模倣学習のエキスパート軌跡に定義し、τ~τは、それぞれ、1~N番目のデータペアを示し、O~Oは、それぞれ、収集した1~N番目の状態データを示し、A~Aは、それぞれ、収集した1~N番目の動作データを示す。ここでNは、学習データセットにおけるデータペアの総数であり、サンプリング回数に対応する。本実施例において、サンプリング回数Nは、N=10にセットされる。
【0036】
ステップS23において、データセットτを入力として、敵対的模倣学習方法を用いて学習し、専門運転者の運転挙動を模倣し、無人運転車両車線変更決定モデルを取得する。具体的な過程は、以下のとおりである。
【0037】
ステップS231において、初期化し、以下を含む。
1)最大学習ラウンドT、学習ペースα、及びサンプリング回数Nをセットする。
本実施例において、最大学習ラウンドTは、T=2000にセットされ、学習ペースαは、α=0.3にセットされ、ステップS22に示すように、サンプリング回数Nは、N=10にセットされる。
2)行動クローニング方法を用いて無人運転車両代理方策πθを初期化し、ここで、無人運転車両代理方策πθの重みパラメータをθに初期化する。
3)Xavier方式を用いて敵対的ネットワーク判別器Dφの重みパラメータを初期化し、ここで、φは、敵対的ネットワーク判別器Dφの初期化重みパラメータである。
【0038】
3)無人運転車両の走行中に、無人運転車両の現在の状態ベクトルO及び現在の動作ベクトルAを含む車両環境情報を取得する。
ここで、無人運転車両の現在の状態ベクトルOは、状態Oの空間のデータ[l,v,s,v,s,v,slf,vlf,slb,vlb,srf,vrf,srb,vrb]を含み、即ち、無人運転車両の自車両、車両進路における前後車両及び左右車線における自車両に最も近い車両の走行状態を含む。無人運転車両の現在の動作ベクトルAは、動作空間Atのデータに対応し、現在取得されている動作データは、無人運転車両の左へ車線変更、車両の右へ車線変更、車両の車線維持且つ車速維持、車両の車線維持且つ加速、及び、車両の車線維持且つ減速を含む。
【0039】
該無人運転車両は、ステップS3で車線変更決定を行う無人運転車両に対応する。
【0040】
ステップS232において、学習ラウンドt(0≦t≦T)ごとに、ステップS233~ステップS239を実行する。
【0041】
ステップS233において、ランダムにサンプリングし、平均が0で分散がt(0≦t≦T)であるガウスベクトルδ={δ,δ,...,δ}をN個生成し、ここで、δ~δは、1~N番目のガウスベクトルであり、δは、N個のガウスベクトルを組み合わせたベクトルである。本実施例において、vは、常数であり、0.3~0をとる。
【0042】
ステップS234において、現在の学習ラウンドtの際に、無人運転車両代理方策πθの重みパラメータθの平均分散
【数12】

を算出する。
【0043】
ステップS235において、無人運転車両の現在の状態ベクトルOの平均値μを算出する。
【0044】
ステップS236において、各k(k∈{1,2,...,N})について、分散減少方法を用いてランダム代理方策πt,(k)
【数13】

を算出し、δは、ステップS233で得られたk番目のガウスベクトルである。
本ステップにおいて、δ=δ,δ,...,δに基づき、N個のランダム代理方策πt,(1),πt,(2),πt,(3),...,πt,(N)が得られる。
【0045】
ステップS237において、無人運転車両の現在の状態ベクトルOを入力として、ランダム代理方策πt,(k)(k=1,2,...,N)を適用して、サンプル軌跡
【数14】

を生成する。
本ステップにおいて、無人運転車両の現在の状態ベクトルOを入力として、N個のランダム代理方策πt,(1),πt,(2),πt,(3),...,πt,(N)をそれぞれ適用して、サンプル軌跡
【数15】

を対応的に生成する。
ここで、
【数16】

は、それぞれ、Oを入力とし、kに1~Nの値をとり、ランダム代理方策πt,(k)によって生成された1~N番目のサンプル軌跡であり、
【数17】

は、それぞれ、1~N番目のサンプル軌跡における動作データを示す。
【0046】
ステップS238において、敵対的ネットワーク判別器Dφの重みパラメータφを更新する。
最小二乗損失関数を用いて敵対的ネットワーク判別器Dφの重みパラメータφを学習して
更新し、即ち、決定境界の両側でエキスパート軌跡から離れているサンプル軌跡に対して、最小二乗損失関数を用いて懲罰し、損失関数が
【数18】

である。ここで、π、πθは、それぞれ、エキスパート方策、無人運転車両代理方策に対応し、
【数19】

は、エキスパート方策のエントロピー正則化であり、
【数20】

は、無人運転車両代理方策のエントロピー正則化である。
【数21】

は、
【数22】

を入力とし、重みパラメータφで算出した結果である。
【0047】
ステップS239において、無人運転車両代理方策πθの重みパラメータθを更新する。
現在の学習ラウンドtが最大学習ラウンドTに達するまで、分散減少に基づく方策勾配法を用いて代理方策πθの重みパラメータθを更新して、更新後の重みパラメータθt+1を得る。
【0048】
ステップS239において、分散減少に基づく方策勾配法を用いて代理方策πθの重みパラメータθを更新する具体的な過程は、ランダム代理方策πt,(k)(k∈{1,2,...,N})毎に、インセンティブ関数
【数23】

(式中、
【数24】

は、エントロピー正則化である。
【数25】

は、判別器が(O,A)で判別計算した結果を示す。)を算出するステップS2391と、
【数26】

のように、無人運転車両代理方策πθのパラメータθtを更新するステップS2392とを含む。
【0049】
本ステップで敵対的ネットワーク判別器Dφの重みパラメータ及び無人運転車両代理方策πθのパラメータを学習回数で更新することによって敵対的模倣学習方法の学習を実現し、無人運転車両車線変更決定モデルを取得する。
【0050】
ステップS3において、車両の無人運転走行中に、現在取得されている環境車両情報を無人運転車両車線変更決定モデルの入力パラメータとして、無人運転車両車線変更決定モデルによって車両車線変更決定結果を取得する。具体的に図2に示すように、以下のとおりである。
【0051】
ステップS31において、無人運転車両の状態データを含む無人運転車両の現在の環境車両情報を取得し、状態Oの空間のデータ[l,v,s,v,s,v,slf,vlf,slb,vlb,srf,vrf,srb,vrb]を含み、即ち、無人運転車両の自車両、車両進路における前後車両及び左右車線における自車両に最も近い車両の走行状態を含む。
【0052】
ステップS32において、無人運転車両の状態データに基づいて、無人運転車両車線変更決定モデルの入力状態に値を与える。即ち、ステップS31で取得した無人運転車両の状態データ[l,v,s,v,s,v,slf,vlf,slb,vlb,srf,vrf,srb,vrb]を無人運転車両車線変更決定モデルに入力する。
【0053】
ステップS33において、無人運転車両車線変更決定モデルによって車線変更決定結果を取得する。本実施例において、無人運転車両車線変更決定モデルによって取得した車線変更決定結果は、動作Aの空間の内容に対応し、第1種類の車両の左へ車線変更、第2種類の車両の右へ車線変更、第3種類の車両の車線維持且つ車速維持、第4種類の車両の車線維持且つ加速、及び、第5種類の車両の車線維持且つ減速を含む。
【0054】
ステップS34において、連続してn回の決定結果がすべて車線変更であり且つ車線変更の方向が同じであるかを判断し、即ち連続してn回ですべて左へ車線変更又は右へ車線変更であるかを判断する。nは、常数であり、3~5にセットされる。NOであれば、ステップS35に進むが、YESであれば、ステップS36に進む。
【0055】
ステップS35において、現在の決定結果が車線変更であるかを判断する。
NOであれば、現在の決定結果に応じて、無人運転車両の現在の運転動作を制御し、即ち、無人運転車両が現在の車線を維持しながら走行するように制御し、加速、減速、又は車速維持の動作を実行し、ステップS31に戻る。例えば、現在の決定結果が車両の車線維持且つ加速である場合、無人運転車両が現在の走行車線を維持し且つ加速動作を実行するように制御する。
【0056】
YESであれば、無人運転車両が現在の決定結果の前の運転状態を維持する。この場合、決定結果が車線変更であるにかかわらず、車線変更の決定結果が連続してn回出ていないので、この際に車線変更せず、現在の決定結果の前の運転状態を維持し、決定結果の前の運転車線及び運転速度を維持することを含む。
【0057】
ステップS36において、意思決定結果に応じて車線変更を行い、同時に無人運転車両の車線変更中に緊急事態の有無を検出し、あれば無人運転状態から脱し、手動介入を行うが、なければ、車線変更決定結果に基づいて車線変更を完了し、ステップS31に戻る。
【0058】
(実施例2)
本実施例は、実施例1の敵対的模倣学習に基づく無人運転車両車線変更決定方法を実現するための無人運転車両車線変更決定システムを開示し、無人運転車両車線変更決定タスクを部分観測マルコフ決定過程として記述するタスク記述モジュールと、学習中に分散減少方策勾配の学習方策に基づいて専門運転パフォーマンスをシミュレーションする敵対的模倣学習方法を用いて、専門運転教示によって提供される例から学習し、無人運転車両車線変更決定モデルを取得する車線変更決定モデル構築モジュールと、車両の無人運転走行中に、現在の環境車両情報を取得する環境車両情報取得モジュールと、現在取得されている環境車両情報を無人運転車両車線変更決定モデルの入力パラメータとして、無人運転車両車線変更決定モデルによって車両車線変更決定結果を取得する車線変更決定モジュールとを含む。
【0059】
更に、本実施例において、タスク記述モジュールは、自車両、車両進路における前後車両及び左右車線における自車両に最も近い車両の走行状態を含む状態Oの空間[l,v,s,v,s,v,slf,vlf,slb,vlb,srf,vrf,srb,vrb]を決定する状態空間決定モジュールと、第1種類の車両の左へ車線変更、第2種類の車両の右へ車線変更、第3種類の車両の車線維持且つ車速維持、第4種類の車両の車線維持且つ加速、及び、第5種類の車両の車線維持且つ減速を含む動作空間Aを決定する動作空間決定モジュールと、を含む。
【0060】
更に、本実施例において、車線変更決定モデル構築モジュールは、専門運転者の車両運転挙動に対して、専門運転者の運転の状態データ及び動作データの収集を含むデータ収集を行う第1データ収集モジュールと、収集した車両状態データ及び動作データのペアを抽出し、データセットτ={τ,τ,τ,...,τ}={(O,A),(O,A),(O,A),...,(O,A)}(τを敵対的模倣学習のエキスパート軌跡に定義し、τ~τは、それぞれ、1~N番目のデータペアを示し、O~Oは、それぞれ、収集した1~N番目の状態データを示し、A~Aは、それぞれ、収集した1~N番目の動作データを示す)を構成するエキスパート軌道生成モジュールと、データセットτを入力として、敵対的模倣学習方法を用いて学習し、専門運転者の運転挙動を模倣し、無人運転車両車線変更決定モデルを取得する学習モジュールとを含む。具体的な学習過程は、実施例1のステップS231~ステップS239で示されるとおりである。
【0061】
本実施例の無人運転車両車線変更決定システムは、実施例1の無人運転車両車線変更決定方法に対応するので、各モジュールの具体的な実現は、上記実施例1を参照でき、ここで一々説明しない。なお、本実施例で提供する装置は、上記各機能ブロックの区分のみを例示したものであり、実際の応用においては、必要に応じて上記機能の割り当てを異なる機能ブロックで行う。即ち内部構成を異なる機能ブロックに区分し、上記で説明した機能の全部又は一部を達成することができる。当業者は、本明細書に開示される実施例に記載される各例のユニット及びアルゴリズムステップに関連して、電子ハードウェア、コンピュータソフトウェア、又は両方の組合せで実装できることを認識することができる。ハードウェア及びソフトウェアの互換性を明確に説明するために、上記の説明では、各例の構成及びステップを機能に応じて一般的に記載してある。これらの機能がハードウェア又はソフトウェアのいずれで実行されるかは、技術手段の特定のアプリケーション及び設計制約条件に依存する。当業者は、記載された機能を実現するために、特定のアプリケーションごとに異なる方法を使用することができるが、そのような実現は、本発明の範囲から逸脱するものと考えられるべきではない。
【0062】
(実施例3)
本実施例は、プログラムが格納されている記憶媒体を開示し、前記プログラムがプロセッサによって実行されると、実施例1に記載の敵対的模倣学習に基づく無人運転車両車線変更決定方法を実現し、即ち、無人運転車両車線変更決定タスクを部分観測マルコフ決定過程として記述し、学習中に分散減少方策勾配の学習方策に基づいて専門運転パフォーマンスをシミュレーションする敵対的模倣学習方法を用いて、専門運転教示によって提供される例から学習し、無人運転車両車線変更決定モデルを取得し、車両の無人運転走行中に、現在取得されている環境車両情報を無人運転車両車線変更決定モデルの入力パラメータとして、無人運転車両車線変更決定モデルによって車両車線変更決定結果を取得する。
【0063】
本実施例における記憶媒体は、磁気ディスク、光ディスク、コンピュータメモリ、リードオンリーメモリ(ROM:Read-Only Memory)、ランダムアクセスメモリ(RAM:Random Access Memory)、Uディスク、リムーバブルハードディスク等の媒体である。
【0064】
(実施例4)
本実施例は、プロセッサと、プロセッサによって実行可能なプログラムを格納するためのメモリとを含む演算機器を開示し、前記プロセッサは、メモリに格納されているプログラムを実行すると、実施例1に記載の敵対的模倣学習に基づく無人運転車両の車線変更決定方法を実現することを特徴とする。即ち、無人運転車両車線変更決定タスクを部分観測マルコフ決定過程として記述し、学習中に分散減少方策勾配の学習方策に基づいて専門運転パフォーマンスをシミュレーションする敵対的模倣学習方法を用いて、専門運転教示によって提供される例から学習し、無人運転車両車線変更決定モデルを取得し、車両の無人運転走行中に、現在取得されている環境車両情報を無人運転車両車線変更決定モデルの入力パラメータとして、無人運転車両車線変更決定モデルによって車両車線変更決定結果を取得する。
【0065】
本実施例における演算機器は、デスクトップコンピュータ、ラップトップ、スマートフォン、PDA携帯端末、タブレット、又はプロセッサ機能を有する他の端末機器である。
【0066】
上記実施例は、本発明の好適な実施形態であるが、本発明の実施形態は、上記実施例に限定されるものではなく、本発明の趣旨及び原理から逸脱しない範囲での変更、修正、置換、組み合わせ、単純化は、均等な置換として本発明の保護範囲内に含まれる。
【0067】
(付記)
(付記1)
敵対的模倣学習に基づく無人運転車両車線変更決定方法において、
無人運転車両車線変更決定タスクを部分観測マルコフ決定過程として記述するステップS1と、
学習中に分散減少方策勾配の学習方策に基づいて専門運転パフォーマンスをシミュレーションする敵対的模倣学習方法を用いて、専門運転教示によって提供される例から学習し、無人運転車両車線変更決定モデルを取得するステップS2と、
車両の無人運転走行中に、現在取得されている環境車両情報を無人運転車両車線変更決定モデルの入力パラメータとして、無人運転車両車線変更決定モデルによって車両車線変更決定結果を取得するステップS3とを含むことを特徴とする、
敵対的模倣学習に基づく無人運転車両車線変更決定方法。
【0068】
(付記2)
ステップS1において、無人運転車両車線変更決定タスクを部分観測マルコフ決定過程として記述することは、具体的に、
ステップS11において、自車両、車両進路における前後車両及び左右車線における自車両に最も近い車両の走行状態を含む状態Oの空間[l,v,s,v,s,v,slf,vlf,slb,vlb,srf,vrf,srb,vrb
(ここで、
lは、自車両が走行する車線であり、vは、自車両の走行速度であり、
、vは、それぞれ、自車進路の前方で最も近い車両から自車両までの距離、自車両までの相対速度に対応し、
、vは、それぞれ、自車両の進路の後方で最も近い車両から自車両までの距離、自車両までの相対速度に対応し、
lf、vlfは、それぞれ、自車両より左車線の前方で最も近い車両から自車両までの距離、自車両までの相対速度に対応し、
lb、vlbは、それぞれ、自車両より左車線の後方で最も近い車両から自車両までの距離、自車両までの相対速度に対応し、
rf、vrfは、それぞれ、自車両より右車線の前方で最も近い車両から自車両までの距離、自車両までの相対速度に対応し、
rb、vrbは、それぞれ、自車両より右車線の後方で最も近い車両から自車両までの距離、自車両までの相対速度に対応する)を決定し、
ステップS12において、車両の左へ車線変更、車両の右へ車線変更、車両の車線維持且つ車速維持、車両の車線維持且つ加速、及び、車両の車線維持且つ減速を含む動作Aの空間を決定することを特徴とする、
付記1に記載の敵対的模倣学習に基づく無人運転車両車線変更決定方法。
【0069】
(付記3)
自車両に対し、
その進路前方の車両が検出されない場合、s、vをそれぞれ固定値にセットし、
その進路後方の車両が検出されない場合、s、vをそれぞれ固定値にセットし、
左車線前方の車両が検出されない場合、slf、vlfをそれぞれ固定値にセットし、
左車線後方の車両が検出されない場合、slb、vlbをそれぞれ固定値にセットし、
右車線前方の車両が検出されない場合、srf、vrfをそれぞれ固定値にセットし、
右車線後方の車両が検出されない場合、srb、vrbをそれぞれ固定値にセットすることを特徴とする、
付記2に記載の敵対的模倣学習に基づく無人運転車両車線変更決定方法。
【0070】
(付記4)
ステップS2において、敵対的模倣学習方法を用いて、専門運転教示によって提供される例から学習する具体的な過程として、
ステップS21において、専門運転者の車両の運転挙動に対して、専門運転者の運転の状態データ及び動作データの収集を含むデータ収集を行い、
ステップS22において、収集した車両状態データ及び動作データのペアを抽出し、データセットτ={τ,τ,τ,...,τ}={(O,A),(O,A),(O,A),...,(O,A)}(τを敵対的模倣学習のエキスパート軌跡に定義し、τ~τは、それぞれ、1~N番目のデータペアを示し、O~Oは、それぞれ、収集した1~N番目の状態データを示し、A~Aは、それぞれ、収集した1~N番目の動作データを示し、Nは、学習データセットにおけるデータペアの総数であり、サンプリング回数に対応する)を構成し、
ステップS23において、データセットτを入力として、敵対的模倣学習方法を用いて学習し、専門運転者の運転挙動を模倣し、無人運転車両車線変更決定モデルを取得することを特徴とする、
付記2に記載の敵対的模倣学習に基づく無人運転車両車線変更決定方法。
【0071】
(付記5)
ステップS23において、敵対的模倣学習として学習中に分散減少方策勾配の学習方策に基づいて専門運転パフォーマンスをシミュレーションすることは、具体的な過程として、
ステップS231において、初期化し、
最大学習ラウンドT、学習ペースα、及びサンプリング回数Nをセットし、
無人運転車両代理方策πθを初期化し、無人運転車両代理方策πθの重みパラメータをθ0に初期化し、
敵対的ネットワーク判別器Dφの重みパラメータを初期化し、ここで、φは、敵対的ネットワーク判別器Dφの初期化重みパラメータであり、
無人運転車両の現在の状態ベクトルO及び現在の動作ベクトルAを取得し、
ステップS232において、学習ラウンドt(0≦t≦T)ごとに、ステップS233~ステップS239を実行し、
ステップS233において、ランダムにサンプリングし、平均が0で分散がvであるガウスベクトルδ={δ,δ,...,δ}をN個生成し、ここで、δ~δは、1~N番目のガウスベクトルであり、δは、N個のガウスベクトルを組み合わせたベクトルであり、
ステップS234において、現在の学習ラウンドtの際に、無人運転車両代理方策πθの重みパラメータθの平均分散
【数27】

を算出し、
ステップS235において、無人運転車両の現在の状態ベクトルOの平均値μを算出し、
ステップS236において、各k(k∈{1,2,...,N})について、分散減少方法を用いてランダム代理方策πt,(k)
【数28】

を算出し、δは、ステップS233で得られたk番目のガウスベクトルであり、
ステップS237において、無人運転車両の現在の状態ベクトルOを入力として、ランダム代理方策πt,(k)(k=1,2,...,N)を適用して、サンプル軌跡
【数29】

を生成し、
ここで、
【数30】

は、それぞれ、Oを入力とし、kに1~Nの値をとり、ランダム代理方策πt,(k)によって生成された1~N番目のサンプル軌跡であり、
【数31】

は、それぞれ、1~N番目のサンプル軌跡における動作データを示し、
テップS238において、敵対的ネットワーク判別器Dφの重みパラメータφを更新し、
最小二乗損失関数を用いて敵対的ネットワーク判別器Dφの重みパラメータφを学習して更新し、即ち、決定境界の両側でエキスパート軌跡から離れているサンプル軌跡に対して、最小二乗損失関数を用いて懲罰し、損失関数が
【数32】

であり、ここで、π、πθは、それぞれ、エキスパート方策、無人運転車両代理方策に対応し、
【数33】

は、エキスパート方策のエントロピー正則化であり、
【数34】

は、無人運転車両代理方策のエントロピー正則化であり、
ステップS239において、無人運転車両代理方策πθの重みパラメータθを更新し、
現在の学習ラウンドtが最大学習ラウンドTに達するまで、分散減少に基づく方策勾配法を用いて代理方策πθの重みパラメータθを更新して、更新後の重みパラメータθt+1を得ることを特徴とする、
付記4に記載の敵対的模倣学習に基づく無人運転車両車線変更決定方法。
【0072】
(付記6)
ステップS239において、分散減少に基づく方策勾配法を用いて代理方策πθの重みパラメータθを更新する具体的な過程は、
ランダム代理方策πt,(k)(k∈{1,2,...,N})毎に、インセンティブ関数
【数35】

(式中、
【数36】

は、エントロピー正則化である)を算出するステップS2391と、
【数37】

のように、無人運転車両代理方策πθのパラメータθを更新するステップS2392と、を含むことを特徴とする、
付記5に記載の敵対的模倣学習に基づく無人運転車両車線変更決定方法。
【0073】
(付記7)
ステップS3において、無人運転車両車線変更決定モデルによって無人運転車両車線変更決定結果を取得する具体的な過程として、
ステップS31において、無人運転車両の状態データを含む無人運転車両の現在の環境車両情報を取得し、
ステップS32において、無人運転車両の状態データに基づいて、無人運転車両車線変更決定モデルの入力状態に値を与え、
ステップS33において、無人運転車両車線変更決定モデルによって車線変更決定結果を取得し、
ステップS34において、連続してn(nは常数である)回の決定結果がすべて車線変更であり且つ車線変更の方向が同じであるかを判断し、NOであれば、ステップS35に進むが、YESであれば、ステップS36に進み、
ステップS35において、現在の決定結果が車線変更であるかを判断し、
NOであれば、現在の決定結果に応じて、無人運転車両の現在の運転動作を制御し、即ち、無人運転車両が現在の車線を維持しながら走行するように制御し、加速、減速、又は車速維持の動作を実行し、ステップS31に戻り、
YESであれば、無人運転車両が現在の決定結果の前の運転状態を維持し、ステップS31に戻り、
ステップS36において、決定結果に応じて車線変更を行い、同時に無人運転車両の車線変更中に緊急事態の有無を検出し、あれば無人運転状態から脱し、手動介入を行うが、なければ、車線変更決定結果に基づいて車線変更を完了し、ステップS31に戻ることを特徴とする、
付記5に記載の敵対的模倣学習に基づく無人運転車両車線変更決定方法。
【0074】
(付記8)
付記1から7のいずれか1つに記載の敵対的模倣学習に基づく無人運転車両車線変更決定方法を実現するための無人運転車両車線変更決定システムにおいて、
無人運転車両車線変更決定タスクを部分観測マルコフ決定過程として記述するタスク記述モジュールと、
学習中に分散減少方策勾配の学習方策に基づいて専門運転パフォーマンスをシミュレーションする敵対的模倣学習方法を用いて、専門運転教示によって提供される例から学習し、無人運転車両車線変更決定モデルを取得する車線変更決定モデル構築モジュールと、
車両の無人運転走行中に、現在の環境車両情報を取得する環境車両情報取得モジュールと、
現在取得されている環境車両情報を無人運転車両車線変更決定モデルの入力パラメータとして、無人運転車両車線変更決定モデルによって車両車線変更決定結果を取得する車線変更の意思決定モジュールとを含むことを特徴とする、
無人運転車両車線変更決定システム。
【0075】
(付記9)
プログラムが格納されている記憶媒体であって、前記プログラムがプロセッサによって実行されると、付記1から7のいずれか1つに記載の敵対的模倣学習に基づく無人運転車両車線変更決定方法を実現することを特徴とする、
プログラムが格納されている記憶媒体。
【0076】
(付記10)
プロセッサと、プロセッサによって実行可能なプログラムを格納するためのメモリとを含む演算機器であって、
前記プロセッサは、メモリに格納されているプログラムを実行すると、付記1から7のいずれか1つに記載の敵対的模倣学習に基づく無人運転車両車線変更決定方法を実現することを特徴とする、
演算機器。
図1
図2