IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 江▲蘇▼大学の特許一覧

特表2024-531006複雑な交差点でのマルチエージェント連合強化学習による車道協調制御方法
<>
  • 特表-複雑な交差点でのマルチエージェント連合強化学習による車道協調制御方法 図1
  • 特表-複雑な交差点でのマルチエージェント連合強化学習による車道協調制御方法 図2
  • 特表-複雑な交差点でのマルチエージェント連合強化学習による車道協調制御方法 図3
  • 特表-複雑な交差点でのマルチエージェント連合強化学習による車道協調制御方法 図4
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2024-08-29
(54)【発明の名称】複雑な交差点でのマルチエージェント連合強化学習による車道協調制御方法
(51)【国際特許分類】
   G08G 1/00 20060101AFI20240822BHJP
   G06N 3/092 20230101ALI20240822BHJP
   G06N 3/098 20230101ALI20240822BHJP
【FI】
G08G1/00 D
G06N3/092
G06N3/098
【審査請求】有
【予備審査請求】未請求
(21)【出願番号】P 2023519510
(86)(22)【出願日】2022-08-04
(85)【翻訳文提出日】2023-03-28
(86)【国際出願番号】 CN2022110197
(87)【国際公開番号】W WO2024016386
(87)【国際公開日】2024-01-25
(31)【優先権主張番号】202210845539.1
(32)【優先日】2022-07-19
(33)【優先権主張国・地域又は機関】CN
(81)【指定国・地域】
(71)【出願人】
【識別番号】517405840
【氏名又は名称】江▲蘇▼大学
(74)【代理人】
【識別番号】110000291
【氏名又は名称】弁理士法人コスモス国際特許商標事務所
(72)【発明者】
【氏名】蔡 英鳳
(72)【発明者】
【氏名】陸 思▲凱▼
(72)【発明者】
【氏名】陳 龍
(72)【発明者】
【氏名】王 海
(72)【発明者】
【氏名】袁 朝春
(72)【発明者】
【氏名】劉 ▲チン▼超
(72)【発明者】
【氏名】李 ▲イー▼承
【テーマコード(参考)】
5H181
【Fターム(参考)】
5H181AA01
5H181BB04
5H181BB20
5H181CC27
5H181EE02
5H181FF03
5H181FF10
5H181FF22
5H181FF27
(57)【要約】
本発明は、路側静的処理モジュール及び車側動的処理モジュールによる車道協調制御枠組みを提出し、路側優位により道路履歴情報を補足し、強化学習モジュールと連合学習モジュールとを接続するための連合強化学習アルゴリズムFTD3を提出し、アルゴリズムが車側データではなくニューラルネットワークパラメータのみを転送しプライバシーを保護する複雑な交差点でのマルチエージェント連合強化学習による車道協調制御システム及び方法を公開する。アルゴリズムでは、一部のニューラルネットワークのみを選択して集約に用い、通信オーバーヘッドを削減し、比較的小さいQ値を生じるネットワークを選択して集約に用い、過剰適合を防止し、連合学習と強化学習との深い組み合わせを実現し、RSUニューラルネットワークは集約に参与するが、トレーニングに参与せず、車側に生じた経験ではなく集約した共有モデルのみを用いて更新する。車側プライバシーを保護し、ニューラルネットワークの収束を遅くし、一部のニューラルネットワークのみを選択して集約に参与させ、ネットワーク集約コストを低減させる。
【選択図】図1
【特許請求の範囲】
【請求項1】
車道協調枠組み部分とFTD3アルゴリズム部分を含み、前記車道協調枠組み部分は、路側静的処理モジュール、センサモジュール、車側動的処理モジュールを含み、協調状態量を合成するためのものであり、前記路側静的処理モジュールは、静的道路情報を取得するとともに、そのうちから単独に車線中心線情報を静的マトリックスとして抽出し、車側動的処理モジュールに伝送するためのものであり、前記センサモジュールは車両動的状態量を取得するためのものであり、前記車側動的処理モジュールは協調状態マトリックス情報の合成に用いられ、路側静的処理モジュールで取得された静的マトリックスを車両の位置情報に応じてクリッピングしてから、連続する2フレームのマトリックスとセンサ情報とを積み重ねることによって、協調状態量を合成し、FTD3アルゴリズム部分に伝送し、前記FTD3アルゴリズム部分は、協調状態マトリックスに基づいて制御量を出力するものであり、強化学習モジュールと連合学習モジュールを含み、前記強化学習モジュールは、制御ポリシーの出力に用いられ、マルコフ決定過程を採用し、前記連合学習モジュールは、主に強化学習モジュールによるトレーニング済のニューラルネットワークパラメータを取得し、共有モデルパラメータを集約するとともに、ローカル更新用のために共有モデルパラメータをエージェントに送信する
ことを特徴とする複雑な交差点でのマルチエージェント連合強化学習による車道協調制御システム。
【請求項2】
前記センサモジュールは、衝突センサ、ラインプレスセンサ、ナビゲーションサテライトセンサ、慣性センサを含み、衝突センサ、車輪が路面標示線を踏んでいるかどうかを検出するセンサは、それぞれ衝突、ラインプレスの2つの事件を検出し記録し、ナビゲーションサテライトセンサは車両の位置情報、速度情報を取得することができ、慣性センサは車両の加速度情報とオリエンテーションを取得することができる
ことを特徴とする請求項1に記載の複雑な交差点でのマルチエージェント連合強化学習による車道協調制御システム。
【請求項3】
前記強化学習モジュールは、ニューラルネットワークモジュール、報酬関数モジュール、ネットワークトレーニングモジュールを含み、
前記ニューラルネットワークモジュールは、協調状態マトリックスの特徴を抽出し、特徴に基づいて制御量を出力するためのものであり、FTD3における単一エージェントは、演出ネットワーク及び2つの批評家ネットワークのほかに、それらのそれぞれのターゲットネットワークも有し、6つのニューラルネットワーク構造は、出力レイヤーを除いて完全に同じであり、1つの畳み込みレイヤー及び4つの全結合レイヤーを用いて特徴を抽出し統合し、演出ネットワークについて、出力レイヤーはtanh活性化関数を介して[-1,1]にマップし、ニューラルネットワークは、CARLAシミュレーターにおけるハンドル制御量の代表をat1として出力し、at2について[-1,0]、[0,1]に分かれてそれぞれブレーキ、アクセル制御量を代表し、批評家ネットワークについて、出力レイヤーに活性化関数が用いられず、そのまま評価値が出力され、
前記報酬関数モジュールは、動作が実行されて到達した新しい状態に応じて、ニューラルネットワークモジュールによる出力値の良否を判断し、ネットワークトレーニングモジュールの学習を指導するものであり、水平報酬関数rlateralと垂直報酬関数rlongitudinalを含み、
【数41】
であり、
r1lateralは水平誤差関連報酬関数であり、r2lateralは方位角偏差関連報酬関数であり、前記垂直報酬関数については、
【数42】
であり、
r1longitudinalは車間距離関連報酬関数であり、r2longitudinalは垂直速度関連報酬関数であり、d0は自車から車線中心線までの最小距離を表し、θは自車の方位角偏差を表し、dminは自車から他車までの最小距離を表し、vegoは自車現在速度を表し、d0、dminはマトリックスにおける要素のユークリッド距離により算出され取得され、即ち
【数43】
であり、
28,28は自車重心を表し、bcenter lineは車線中心線の協調感知マトリックスにおける位置を表し、bx,yは他車重心の協調感知マトリックスにおける位置を表し、
前記ネットワークトレーニングモジュールは、主に設定方法に従ってニューラルネットワークモジュールにおけるニューラルネットワークをトレーニングするためのものであり、報酬関数モジュールの指導に応じて、演出ネットワーク及び批評家ネットワークが逆伝播によりパラメータを更新し、すべてのターゲットネットワークがソフト更新によりパラメータを更新し、よってトレーニング目的を達成し、特定状態下で累積利得を最大化する最適解yを見つけ、エクスペリエンスプールから小ロットでサンプリングした後、ターゲット関数yを算出し、即ち
【数44】
であり、
【数45】
は演出ネットワークのターゲットネットワークポリシーを表し、
【数46】
はノイズ後に出力される動作を表し、rは即時リターンを表し、γは割引係数を表し、
【数47】
批評家ネットワークのターゲットネットワークパラメータを表し、そして、損失lossを最小化することによって批評家ネットワークを更新し、即ち
【数48】
であり、
Nは小ロットサンプリング数を表し、yはターゲット関数を表し、
【数49】
は状態sがポリシーπで動作aを取る価値を表し、θは批評家ネットワークのパラメータを表し、ポリシー勾配降下により演出ネットワークを更新し、即ち
【数50】
であり、
Nは小ロットサンプリング数を表し、
【数51】
は演出ネットワークを表し、θμは演出ネットワークのパラメータを表し、ソフト更新を用いてターゲットネットワークを更新し、即ち
【数52】
である
ことを特徴とする請求項1に記載の複雑な交差点でのマルチエージェント連合強化学習による車道協調制御システム。
【請求項4】
前記連合学習モジュールは、ネットワークパラメータモジュール、集約モジュールを含み、
前記ネットワークパラメータモジュールは、集約開始前に各ニューラルネットワークパラメータを取得し、共有モデルパラメータの集約用のためにパラメータを集約モジュールへアップロードするために用いられ、集約完了後に共有モデルパラメータを取得し、ローカル更新用のためにパラメータを各エージェントへ送信するために用いられ、
前記集約モジュールは、集約間隔に従って、各ニューラルネットワークパラメータを、パラメータ平均化の方法で共有モデルパラメータを集約し、即ち
【数53】
であり、
θはエージェントiのニューラルネットワークであり、nはニューラルネットワーク数であり、θは集約した共有モデルパラメータである
ことを請求項1に記載の複雑な交差点でのマルチエージェント連合強化学習による車道協調制御システム。
【請求項5】
エージェントのインタラクションに用いられるシミュレーションモジュールをさらに含む
ことを特徴とする請求項1から4のいずれか一項に記載の複雑な交差点でのマルチエージェント連合強化学習による車道協調制御システム。
【請求項6】
複雑な交差点でのマルチエージェント連合強化学習による車道協調制御方法であって、下記のステップを含み、
ステップ1であって、シミュレーション環境において車道協調枠組みを構築し、路側静的処理モジュールと車側動的処理モジュールを用いて、学習強化用の協調状態量を合成し、路側静的処理モジュールを用いて路側ユニットRSU航空写真情報を、静的(道路、車線、車線中心線)と動的(インテリジェントコネクテッドカー)の2種類に分け、静的情報から単独に抽出した車線中心線が強化学習協調状態量のベースとし、動的情報が状態量クリッピングの根拠とし、車側動的処理モジュールにより車両の位置情報及び座標変換に応じて路側静的処理モジュールで取得された静的マトリックスをそれぞれクリッピングし、クリッピングした56×56マトリックスが単一の車両の感知範囲とし、約14m×14mの物理的空間をカバーし、より全体的な動的情報を取得するために、2つの連続フレームを用いて動的情報を積み重ね、動的処理モジュールはクリッピング済の静的マトリックスと、積み重ねた動的情報とを重ねて、FTD3用の協調状態量を合成し、
ステップ2であって、制御過程をマルコフ決定過程としてモデリングし、マルコフ決定過程はタプル(S,A,P,R,γ)で説明され、
Sは状態セットを表し、車道協調枠組みに対応して出力された協調状態量は、2部分のマトリックスから構成され、まず協調感知マトリックスについて、提出された車側動的処理モジュールによって取得された協調感知マトリックスは、静的道路情報、動的車両速度、位置情報、及び車両加速度、車線中心線からの距離、進行方向、方位角偏差等の暗黙情報を含み、畳み込みレイヤー及び全結合レイヤーにより特徴を統合し、次に、現在時刻のセンサ情報マトリックスについて、車側センサで取得され算出された速度情報、オリエンテーション、加速度情報を含み、
Aは動作セットを表し、車側アクセル及びハンドル制御量に対応し、
Pは状態遷移方程式p:S×A→P(S)を表し、状態-動作対(s,a)∈S×A毎に、状態sで動作aを取った後、新しい状態に移行する可能性を表す確率分布
【数54】
を有し、
Rは報酬関数R:S×S×A→Rを表し、R(st+1,s,a)は元の状態sから新しい状態st+1に移行した後、取得したリターンを表し、報酬関数により動作実行の良否を定義し、
γは割引係数を表し、γ∈[0,1]であり、総計リターン
【数55】
を算出するためのものであり、
マルコフ決定問題の解としては、総計リターンの最大がπ:=argmaxθη(πθ)となるように、ポリシーπ:S→Aを見つけ、つまり、車道協調枠組みの出力した協調状態量に応じて、FTD3アルゴリズムにより協調状態マトリックスの対応する最適制御ポリシーを出力し、
ステップ3であって、FTD3アルゴリズムを設計し、強化学習モジュール、連合学習モジュールを含み、マルコフ問題における要素(S,A,P,R,γ)により強化学習モジュールが構成され、ネットワークパラメータモジュール及び集約モジュールにより連合学習モジュールが構成され、
ステップ4であって、シミュレーション環境において、インタラクティブトレーニングが行われ、トレーニングプロセスは自由探索とサンプリング学習の2つの段階を含み、自由探索段階で、アルゴリズムのポリシーノイズを増加し、ランダム動作を発生させ、全体のトレーニングプロセスにおいて、車道協調枠組みによって協調状態量が捕獲され合成されてから、FTD3アルゴリズムによって協調状態量が入力とされ、ノイズ付きの動作が出力され、動作実行後に、車道協調枠組みによって新しい状態量が捕獲され、最後に報酬関数モジュールによって動作の良否が判定され、状態量、動作、次の状態量、報酬関数からなるタプルは経験であり、ランダムに発生する経験サンプルはエクスペリエンスプールに保存され、経験数が所定の条件を満たすと、トレーニングはサンプリング学習段階に移行し、小ロットでエクスペリエンスプールからサンプルを抽出し、FTD3ネットワークトレーニングモジュールのトレーニング方法に応じて学習し、ポリシーノイズは学習度合の増加に伴って減衰し、
ステップ5であって、連合学習におけるネットワークパラメータモジュールにより各ニューラルネットワークパラメータを取得し、パラメータを集約モジュールにアップロードし、集約モジュールは、集約間隔に従って、ネットワークパラメータモジュールがアップロードした各ニューラルネットワークパラメータを、パラメータ平均化の方法で共有モデルパラメータを集約し、
ステップ6であって、連合学習におけるネットワークパラメータモジュールにより集約済の共有モデルを、モデル更新用のために車側へ送信し、ネットワークが収束するまで繰り返す
ことを特徴とする複雑な交差点でのマルチエージェント連合強化学習による車道協調制御方法。
【請求項7】
前記ステップ2で、協調状態量のサイズ(56*56*1)の協調状態マトリックスと、(3*1)のセンサ情報マトリックスである
ことを特徴とする請求項6に記載の複雑な交差点でのマルチエージェント連合強化学習による車道協調制御方法。
【請求項8】
前記ステップ3で、前記FTD3アルゴリズムにおいて強化学習モジュールにおける演出ネットワークで使用されるニューラルネットワークモデル構造は1つの畳み込みレイヤー及び4つの全結合レイヤーを保護し、最後の1層のネットワークでtanh活性化関数を用いて出力を[-1,1]区間にマップする他に、他のレイヤーでrelu活性化関数を使用し、批評家ネットワークは同様に1つの畳み込みレイヤー及び4つの全結合レイヤーを用い、最後の1層のネットワークで活性化関数を使用せずQ値を直接的に出力して評価するほかに、他のレイヤーでrelu活性化関数を使用する
ことを特徴とする請求項6に記載の複雑な交差点でのマルチエージェント連合強化学習による車道協調制御方法。
【請求項9】
前記ステップ4で、トレーニングネットワークプロセスにおいて、演出及び批評家ネットワークで選択された学習率はいずれも0.0001であり、ポリシーノイズは0.2であり、遅延更新パラメータは2であり、割引係数γは0.95であり、ターゲットネットワーク更新重みtauは0.995であり、エクスペリエンスプールの最大容量は10000として選択され、エクスペリエンスプールから抽出されたminibatchは128である
ことを特徴とする請求項6に記載の複雑な交差点でのマルチエージェント連合強化学習による車道協調制御方法。
【請求項10】
前記ステップ5で、エージェントRSUに使用される6つのニューラルネットワークは集約に参与するが、トレーニングに参与せず、一部のニューラルネットワークのみを選択して集約に参与させ、より多くの小さいQ値を生じるターゲットネットワークを選択して集約する
ことを特徴とする請求項6に記載の複雑な交差点でのマルチエージェント連合強化学習による車道協調制御方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は交通輸送分野に関し、特に複雑な交差点でのマルチエージェント連合強化学習による車道協調制御システム及び方法に関する。
【背景技術】
【0002】
近年、自動運転に対する研究はますます進んでいる。しかし、単一の車両のインテリジェンスには大きな制限があり、その限られた感知範囲と算出能力は、複雑な交通状況での意思決定に影響を及ぼす可能性がある。やみくもにコストを上げて単一の車両の性能を増やすのは万能薬ではなく、対照的に、感知協調と算出負荷のシフトはより現実的なものである。車道協調技術は、車両のインテリジェント化に加えて路側に感知センサを取り付けると同時に、路側ユニットの算出完了後、データを車両に提供し、単一の車両の負担を弱くすることで、車両が自動的な運転を完了するようにサポートする。しかし、現在段階の車道協調技術において、複雑な交通状況及び余分な交通情報によっては、有効情報の抽出が困難となり、通信オーバーヘッドが非常に巨大であり、制御効果が予期に達することが困難である問題を直接的に招く。そして、プライバシー意識による情報非対称もますます車道協調の大きなボトルネックとなっている。
【0003】
連合学習は、複数のパートナーがそれぞれデータをトレーニングし共有モデルを構築することを許容する分散型コラボレーション方法であり、特殊的な学習フレームワーク、トレーニング方式及び転送原理により車側プライバシーを保護し、より安全な学習環境及び協調プロセスを提供する。なお、強化学習については、複雑な運転環境に臨む場合に、複合報酬関数及び試行錯誤のトレーニング方法により、車両の制御ポリシーを最適化するとともに、安全性を保証する上で利他性を体現することができる。連合強化学習は、連合学習と強化学習との組み合わせであり、連合学習の分散型マルチエージェントのトレーニング枠組みを用いて協調トレーニングを行い、トレーニングデータではなくネットワークパラメータを伝送する通信特性によりプライバシーを保護し、通信オーバーヘッドを大幅に削減し、強化学習に合わせて試行錯誤を経てポリシーを改良しているトレーニング方法であり、自動運転分野で大きな潜在的可能性を示す。しかし、既存の連合強化学習アルゴリズムには問題があり、連合強化学習はネットワーク集約設定に対して要求が厳しく、マルチネットワークアルゴリズムにおいて両者の非互換性が示されるので、ネットワーク収束が安定ではなく、トレーニング効果が悪く、ネットワークのオーバーヘッドが大きい。
【発明の概要】
【0004】
上記技術問題を解決するために、本発明は、路側優位によりトレーニングを指導し、車側路側協調感知、協調トレーニング、協調評価を実現し、本当の意味で車道協調制御を実現する複雑な交差点でのマルチエージェント連合強化学習による車道協調制御システム及び方法を提供する。そして、提出されたFTD3アルゴリズムは、連合学習と強化学習との組み合わせの複数視点からアルゴリズムを改良し、車側プライバシーを保護する上で、収束をスピードアップし、収束レベルを向上させ、通信コストを減少する。
【0005】
本発明で、マルチエージェント連合強化学習による車道協調制御システムの技術的解決策は、路側静的処理モジュール、シミュレーション環境及びセンサモジュール、車両動的処理モジュールを含む車道協調枠組みと、強化学習モジュール、連合学習モジュールを含むFTD3アルゴリズムとの2つの主要内容を含む。
【0006】
車道協調枠組みについて、主要目的としては、トレーニング用の協調状態量の合成である。そのうち、前記路側静的処理モジュールは、静的道路情報を取得するとともに、そのうちから単独に車線中心線情報を静的マトリックスとして抽出し、車両動的処理モジュールに伝送するためのものである。
【0007】
前記シミュレーション環境Carlaは、エージェントと環境とのインタラクションに用いられるが、前記センサモジュールは車両動的状態量の取得に用いられ、衝突センサ、及び車輪が路面標示線を踏んでいるかどうかを検出するセンサは、衝突、ラインプレスの2種類の事件について検出し記録することができる。ナビゲーションサテライトセンサは車両の位置情報を取得することができ、速度情報は2フレームの位置によって取得されてもよい。慣性センサは車両の加速度情報及びオリエンテーションを取得することができる。具体的なインタラクションプロセスとしては、センサを用いてエージェントの所在する状態量を捕獲してから、ニューラルネットワークによって状態量に基づいて制御量が出力され、最後に制御量をシミュレーション環境Carlaに与えて実行させ、このように繰り返すことである。
【0008】
前記車両動的処理モジュールは協調状態マトリックス情報の合成に用いられ、路側静的処理モジュールで取得された静的マトリックスを車両の位置情報に応じてクリッピングし、スマートカー重心を中心とする56×56マトリックスとしてクリッピングし、その後、連続する2フレームのマトリックスとセンサ情報とを積み重ねることによって、協調状態量を合成し、強化学習モジュールに伝送する。
【0009】
FTD3アルゴリズムについて、主要目的としては協調状態マトリックスに基づいて制御量を出力することである。前記強化学習モジュールは、制御ポリシーの出力に用いられ、マルコフ決定過程で説明される。マルコフ決定過程において、次の時刻の状態は、現在状態のみに関連し、前の状態に関連しない。この前提で組成された状態系列マルコフ連鎖は、本発明の強化学習モジュールのベースである。強化学習モジュールは、ニューラルネットワークモジュール、報酬関数モジュール、ネットワークトレーニングモジュールという3つの小さいモジュールを含む。
【0010】
ニューラルネットワークモジュールは、協調状態マトリックスに入力された特徴を抽出し、特徴に基づいて制御量を出力し、シミュレーション環境に与えて実行させるためのものである。FTD3における単一エージェントは、従来のTD3アルゴリズムの有する演出ネットワーク及び2つの批評家ネットワークのほかに、それらのそれぞれのターゲットネットワークも有し、6つのニューラルネットワーク構造は、出力レイヤーを除いて完全に同じであり、1つの畳み込みレイヤー及び4つの全結合レイヤーを用いて特徴を抽出し統合し、演出ネットワークについて、出力レイヤーはtanh活性化関数を介して[-1,1]にマップする。図1に示すように、ニューラルネットワークは、CARLAシミュレーターにおけるハンドル制御量の代表をat1として出力し、at2について[-1,0]、[0,1]に分かれてそれぞれブレーキ、アクセルの制御量を代表する。批評家ネットワークについては、出力レイヤーに活性化関数が用いられず、そのまま評価値が出力される。
【0011】
報酬関数モジュールは、動作が実行されて到達した新しい状態に応じて、ニューラルネットワークモジュールの出力値の良否を判断し、ネットワークトレーニングモジュールの学習を指導する。水平報酬関数rlateral及び垂直報酬関数rlongitudinalの2点から考えると、
【数1】
であり、
r1lateralは水平誤差関連報酬関数であり、r2lateralは方位角偏差関連報酬関数である。次に、垂直の報酬関数の設定については、
【数2】
であり、 r1longitudinalは車間距離関連報酬関数であり、r2longitudinalは垂直速度関連報酬関数である。d0は自車から車線中心線までの最小距離を表し、xは最小衝突時間を表し、θは自車の方位角偏差を表し、dminは自車から他車までの最小距離を表し、vegoは自車現在速度を表す。d0、dminはマトリックスにおける要素のユークリッド距離により算出され取得され、
【数3】
であり、
28,28は、自車重心のマトリックスにおける位置を表し、bcenter lineは車線中心線の協調感知マトリックスにおける位置を表し、bx,yは他車重心の協調感知マトリックスにおける位置を表す。
【0012】
ネットワークトレーニングモジュールは、主に設定方法に従ってニューラルネットワークモジュールにおけるニューラルネットワークをトレーニングするためのものであり、報酬関数モジュールの指導に応じて、演出ネットワーク及び批評家ネットワークが逆伝播によりパラメータを更新し、すべてのターゲットネットワークがソフト更新によりパラメータを更新し、よってトレーニング目的を達成し、特定状態で累積利得を最大化する最適解を見つける。エクスペリエンスプールから小ロットでサンプリングした後、ターゲット関数yを算出し、
【数4】
は演出ネットワークのターゲットネットワークポリシーを表し、
【数5】
ノイズ後に出力された動作を表す。rは即時リターンを表し、γは割引係数を表し、
【数6】
批評家ネットワークターゲットネットワークのパラメータを表す。そして、損失lossを最小化することによって批評家ネットワークを更新し、
【数7】
であり、
Nは小ロットサンプリング数を表し、yはターゲット関数を表し、
【数8】
は状態sがポリシーπで動作aを取る価値を表し、θは批評家ネットワークのパラメータを表す。一定の遅延の後、ポリシー勾配降下により演出ネットワークを更新し、
【数9】
であり、
Nは小ロットサンプリング数を表し、
【数10】
は演出ネットワークを表し、θμは演出ネットワークのパラメータを表す。最後に、ソフト更新を用いてターゲットネットワークを更新し、
【数11】
であり、
τはソフト更新パラメータである。
【0013】
前記連合学習モジュールは、主にトレーニングモジュールによるトレーニング済のニューラルネットワークパラメータを取得し、共有モデルパラメータを集約し、ローカル更新用のために共有モデルパラメータをエージェントへ送信するためのものである。連合学習モジュールは、ネットワークパラメータモジュール、集約モジュールという2つの小さいモジュールを含む。
【0014】
ネットワークパラメータモジュールは、集約開始前に各ニューラルネットワークパラメータを取得し、共有モデルパラメータの集約用のためにパラメータを集約モジュールへアップロードするために用いられ、集約完了後に共有モデルパラメータを取得し、ローカル更新用のためにパラメータを各エージェントへ送信するために用いられる。
【0015】
集約モジュールは、集約間隔に従って、ネットワークパラメータモジュールがアップロードした各ニューラルネットワークパラメータを、パラメータ平均化の方法で共有モデルパラメータを集約し、
【数12】
であり、
θはエージェントiのニューラルネットワークであり、nはニューラルネットワーク数であり、θは集約した共有モデルパラメータである。
【0016】
要するに、FTD3アルゴリズムは、強化学習モジュールと連合学習モジュールとを接続するためのものであり、アルゴリズムは車側データではなく、ニューラルネットワークパラメータのみを転送し、プライバシーを保護する。アルゴリズムは一部のニューラルネットワークのみを選択して集約に用い、通信オーバーヘッドを削減する。アルゴリズムは集約のために比較的小さいQ値のネットワークを選択して集約に用い、過剰適合を防止する。
【0017】
本発明のマルチエージェント連合強化学習による車道協調制御方法の技術的解決策は、下記のステップを含む。
【0018】
ステップ1であって、シミュレーション環境において車道協調枠組みを構築し、路側静的処理モジュールと車両動的処理モジュールを用いて、学習強化用の協調状態量を合成する。路側静的処理モジュールを用いて路側ユニットRSU航空写真情報を、静的(道路、車線、車線中心線)と動的(インテリジェントコネクテッドカー)の2種類に分け、静的情報から単独に抽出した車線中心線が強化学習協調状態量のベースとし、動的情報が状態量クリッピングの根拠とする。車両動的処理モジュールにより車両の位置情報に応じて路側静的処理モジュールで取得された静的マトリックスをそれぞれクリッピングし、クリッピングされた56×56マトリックスが単一の車両の感知範囲とし、約14m×14mの物理的空間をカバーする。より全体的な動的情報を取得するために、2つの連続フレームを用いて動的情報を積み重ねる。動的処理モジュールはクリッピング済の静的マトリックスと、積み重ねた動的情報とを重ねて、FTD3用の協調状態量を合成する。
【0019】
ステップ2であって、制御方法をマルコフ決定問題として説明し、マルコフ決定過程がタプル(S,A,P,R,γ)で説明され、
Sは状態セットを表し、本発明において車道協調枠組みに対応して出力された協調状態量は、2部分のマトリックスから構成され、まず協調感知マトリックスについて、提出された車両動的処理モジュールによって取得された協調感知マトリックスは、静的道路情報、動的車両速度、位置情報、及び車両加速度の車線中心線からの距離、進行方向、方位角偏差等の暗黙情報を含み、畳み込みレイヤー及び全結合レイヤーにより特徴を統合する。次に、現在時刻のセンサ情報マトリックスについて、車側センサで取得され算出された速度情報、オリエンテーション、加速度情報を含み、
Aは動作セットを表し、本発明で車側アクセル及びハンドル制御量に対応し、
Pは状態遷移方程式p:S×A→P(S)を表し、状態-動作対(s,a)∈S×A毎に、状態sで動作aを取ると、新しい状態に移行する可能性を表す確率分布
【数13】
を有し、
Rは報酬関数R:S×S×A→Rを表し、R(st+1,s,a)は元の状態sから新しい状態st+1に移行した後、取得したリターンを表し、本発明で、報酬関数により動作実行の良否を定義し、
γは割引係数を表し、γ∈[0,1]であり、総計リターン
【数14】
を算出するためのものである。
【0020】
マルコフ決定問題の解としては、総計リターンの最大がπ:=argmaxθη(πθ)となるように、ポリシーπ:S→Aを見つけることである。本発明で、車道協調枠組みに応じて協調状態量を出力してから、FTD3アルゴリズムにより協調状態マトリックスの対応する最適制御ポリシーを出力する。
【0021】
ステップ3であって、FTD3アルゴリズムが構築され、主に強化学習モジュール、連合学習モジュールの2部分から構成される。マルコフ問題における要素(S,A,P,R,γ)により強化学習モジュールが構成され、ネットワークパラメータモジュール及び集約モジュールにより連合学習モジュールが構成される。各エージェントは、演出ネットワーク及び2つの批評家ネットワークのほかに、それらのそれぞれのターゲットネットワークも有し、即ち合計6つのニューラルネットワークを有する。
【0022】
ステップ4であって、シミュレーション環境において、インタラクティブトレーニングが行われ、トレーニングプロセスは自由探索とサンプリング学習の2つの段階を含み、自由探索段階で、アルゴリズムのポリシーノイズを増加し、ランダム動作を発生させる。全体のトレーニングプロセスにおいて、車道協調枠組みによって協調状態量が捕獲され合成されてから、FTD3アルゴリズムによって協調状態量が入力とされ、ノイズ付きの動作が出力される。動作実行後に、車道協調枠組みによって新しい状態量が捕獲され、最後に報酬関数モジュールによって動作の良否が判定される。この状態量、動作、次の状態量、報酬関数からなるタプルは経験であり、ランダムに発生する経験サンプルはエクスペリエンスプールに保存される。経験数が3000以上になると、トレーニングはサンプリング学習段階に移行する。小ロットでエクスペリエンスプールからサンプルを抽出し、FTD3ネットワークトレーニングモジュールのトレーニング方法に従って学習し、ポリシーノイズは学習度合の増加に伴って減衰する。
【0023】
ステップ5であって、連合学習におけるネットワークパラメータモジュールにより各ニューラルネットワークパラメータを取得し、パラメータを路側ユニットRSUの集約モジュールにアップロードする。集約モジュールを用いて、集約間隔に従って、ネットワークパラメータモジュールがアップロードした各ニューラルネットワークパラメータを、パラメータ平均化の方法で共有モデルパラメータを集約する。
【0024】
ステップ6であって、連合学習におけるネットワークパラメータモジュールにより集約済の共有モデルを、モデル更新用のために車側へ送信し、ネットワークが収束するまで繰り返す。
【0025】
好ましくは、ステップ2で、協調状態量のサイズ(56*56*1)の協調状態マトリックスと、(3*1)のセンサ情報マトリックスである。
【0026】
好ましくは、ステップ3で、前記FTD3アルゴリズムにおいて演出ネットワークで使用されるニューラルネットワークモデル構造は、1つの畳み込みレイヤー及び4つの全結合レイヤーから構成され、最後の1層のネットワークでtanh活性化関数を用いて出力を[-1,1]区間にマップする他に、他のレイヤーでrelu活性化関数を使用する。批評家ネットワークは同様に1つの畳み込みレイヤー及び4つの全結合レイヤーを用い、最後の1層のネットワークで活性化関数を使用せずQ値を直接的に出力して評価するほかに、他のレイヤーでrelu活性化関数を使用する。
【0027】
好ましくは、ステップ4で、トレーニングネットワークプロセスにおいて、演出及び批評家ネットワークで選択した学習率はいずれも0.0001であり、ポリシーノイズは0.2であり、遅延更新パラメータは2であり、割引係数γは0.95であり、ターゲットネットワーク更新重みtauは0.995である。
【0028】
好ましくは、ステップ4で、エクスペリエンスプールの最大容量は10000として選択され、エクスペリエンスプールから抽出されたminibatchは128である。
【0029】
好ましくは、ステップ5で、路側ユニットRSUで使用されるニューラルネットワークは集約に参与するが、トレーニングに参与しなく、一部のニューラルネットワーク(演出ネットワーク、演出ネットワークのターゲットネットワーク、より多くの小さいQ値を生じる批評家ターゲットネットワーク)のみを選択して集約に参与させる。批評家ターゲットネットワークの選択について、例えばサンプルをminibatchを128とする抽出する場合に、2つの批評家ターゲットネットワークはそれぞれ128個のサンプルをスコアリングし、比較すると、より小さいQ値を生じるサンプル数が64超であるものは、選択されて集約に参与する。
【0030】
本発明の有益効果としては、
(1)本発明は、路側静的処理モジュール及び車両動的処理モジュールによる車道協調制御枠組みを使用する。特徴抽出が困難である問題について、路側優位により革新的な協調状態量を構築し、トレーニングの難しさを低減させる。この枠組みは、車側路側協調感知、協調トレーニング、協調評価を実現し、本当の意味で車道協調制御を実現し、車道協調へ新たしい思想を提供し、
(2)本発明は、提出されたFTD3アルゴリズムを用いて従来技術問題に対して多くの点から改良する。ユーザープライバシー問題に対し、FTD3は、車側サンプルではなくニューラルネットワークパラメータのみを伝達し、プライバシーを保護する。通信オーバーヘッドが極大である問題に対し、FTD3は一部のネットワークのみを選択し集約し、通信コストを低減させる。過剰適合の問題に対し、FTD3は、フィルタリングすることにより、小さいQ値を生成するニューラルネットワークのみを集約する。従来の連合学習と強化学習とのハード接続とは異なり、両者の深い組み合わせを実現する。
【図面の簡単な説明】
【0031】
図1】本発明で提出される車道協調枠組みである。
図2】本発明で設定される協調感知模式図である。
図3】本発明で使用されるニューラルネットワーク構造である。
図4】本発明で提出されるFTD3アルゴリズムの枠組みである。
【発明を実施するための形態】
【0032】
以下、図面を参照ながら、本発明の技術的解決策を詳しく説明するが、本発明の内容はこれに限定されない。
【0033】
本発明は、連合強化学習による車道協調制御枠組み及びFTD3アルゴリズムを提供し、周辺島状況のマルチカー制御を実現し、具体的に下記のステップを含む。
【0034】
(1)CARLAシミュレーターにおいて車道協調制御枠組みを構築し、図1に示すように、カメラ付きRSU及びマルチセンサのスマートカーを含み、図2に示すように、対応する路側静的処理モジュール、車側動的処理モジュールを初期化し、協調感知を構築する。使用される複数種類のセンサは、車両動的状態量の取得根拠とし、そのうち、衝突センサ、及び車輪が路面標示線を踏んでいるかどうかを検出するセンサは、衝突、ラインプレスの2種類の事件を検出し記録することができる。ナビゲーションサテライトセンサは、車両の位置情報を取得することができ、速度情報は2フレームの位置によって取得されてもよい。慣性センサは車両の加速度情報及びオリエンテーションを取得することができる。
【0035】
(2)図3に示すように、FTD3アルゴリズムを構築し、エージェントにニューラルネットワークを割り当てる。ネットワークの入力、出力、報酬関数が特定され、入力は協調状態量であり、2部分のマトリックスから構成され、まず協調感知マトリックスについては、提出された車側動的処理モジュールにより取得された協調感知マトリックスは、静的道路情報、動的車両速度、位置情報、及び車両加速度の車線中心線からの距離、進行方向、方位角偏差等の暗黙情報を含む。次に、現在時刻のセンサ情報マトリックスについて、車側センサで取得され算出された速度情報、オリエンテーション、加速度情報を含む。2つのマトリックスはそれぞれ対応する畳み込みレイヤー及び全結合レイヤーにより特徴の抽出及び統合を行う。
【0036】
出力とCarlaシミュレーターにおける車両の制御方法とを組み合わせ、ニューラルネットワークモジュールの出力レイヤーはそれぞれtanh活性化関数を介してから[-1,1]にマップし、図1に示すように、at1はCARLAシミュレーターにおけるハンドル制御量を代表し、at2は[-1,0]、[0,1]をそれぞれブレーキ、アクセル制御量の代表として分割される。
【0037】
報酬関数の設定については、水平及び垂直の2点から考えると、報酬関数はスマートカーが実行する動作の良否を判断し、トレーニングを指導し、即ち
【数15】
であり、
次に、垂直の報酬関数の設定について、
【数16】
であり、
d0は自車から車線中心線までの最小距離を表し、θは自車の方位角偏差を表し、dminは自車から他車までの最小距離を表し、vegoは自車現在速度を表す。d0、dminはマトリックスにおける要素のユークリッド距離により算出され取得され、
【数17】
であり、
center lineは車線中心線の協調感知マトリックスにおける位置を表し、bx,yは他車重心の協調感知マトリックスにおける位置を表す。
【0038】
(4)OpenDDリアルドライビングデータセットに基づいてランダム位置及び最初速度を取得し、ランダムノイズに組み合わせ、強化学習エージェントをシミュレーション環境とのインタラクションで経験を発生させ、予め設定されたエクスペリエンスプールに保存する。
【0039】
(5)エクスペリエンスプールがいっぱいになった後、システムはエクスペリエンスプールからminibatchを抽出し、ネットワークに対して勾配降下法を適用しトレーニングする。トレーニングで使用されるパラメータとしては、演出及び批評家ネットワークで選択された学習率がいずれも0.0001であり、ポリシーノイズが0.2であり、遅延更新パラメータが2であり、割引係数γが0.95であり、ターゲットネットワーク更新重みtauが0.995であり、エクスペリエンスプールの最大容量が10000として選択され、エクスペリエンスプールから抽出されたminibatchが128である。具体的なアルゴリズムフローとしては、エクスペリエンスプールから小ロットでサンプリングした後、ターゲット関数yを算出し、
【数18】
であり、
rは即時リターンを表し、γは割引係数を表し、
【数19】
批評家ネットワークターゲットネットワークのパラメータを表す。そして、損失lossを最小化することによって批評家ネットワークを更新し、
【数20】
であり、
Nは小ロットサンプリング数を表し、yはターゲット関数を表し、
【数21】
は状態sがポリシーπで動作aを取る価値を表し、θは批評家ネットワークのパラメータを表す。一定の遅延の後、ポリシー勾配降下により演出ネットワークを更新し、
【数22】
であり、
Nは小ロットサンプリング数を表し、
【数23】
は演出ネットワークを表し、θμは演出ネットワークのパラメータを表す。最後に、ソフト更新を用いてターゲットネットワークを更新し、
【数24】
であり、
τはソフト更新パラメータを表す。所定の集約間隔において、図4に示すように、ネットワークパラメータモジュールによって一部のネットワーク(演出ネットワーク、演出ネットワークのターゲットネットワーク、より多くの小さいQ値を生じる批評家ターゲットネットワーク)のパラメータが選択され、集約モジュールに送信されて、集約して共有モデルを生成する。モデル更新が行われるように、集約済の共有モデルを車側へ送信する。具体的なアルゴリズムフローは下記に示す。
【0040】
【表1-1】
【表1-2】
【0041】
初期化プロセスについて、
【数25】
はi番目のエージェントの2つの批評家ネットワークと1つの演出ネットワークであり、
【数26】
はそれらのネットワーク重みである。
【数27】
はi番目のエージェントのターゲットネットワークであり、
【数28】
はそれらのネットワーク重みであり、Rはi番目のエージェントのエクスペリエンスプールである。
【数29】
は、i番目のエージェントの協調状態量であり、
【数30】
はi番目のエージェントの協調状態マトリックスであり、
【数31】
はi番目のエージェントの路側静的処理モジュールが取得した静的情報であり、
【数32】
はi番目のエージェントの車側動的処理モジュールが取得した動的情報であり、
【数33】
はセンサ情報であり、方位角yaw、速度v、加速度aを含む。動作出力について、
【数34】
はi番目のエージェントの演出ネットワークのターゲットネットワークポリシーを表し、
【数35】
は定数-c,c間の正規分布ノイズを表し、
【数36】
はノイズ後に出力された動作を表す。ターゲット関数算出について、yはターゲット関数を表し、rは即時リターンを表し、γは割引係数を表し、
【数37】
はi番目のエージェントが状態でsT+1演出ネットワークのターゲットネットワーク動作
【数38】
を取って取得した低い価値を表す。批評家ネットワーク更新について、Nは小ロットサンプリング数を表し、
【数39】
は状態sがポリシーπで動作aを取る価値を表す。演出ネットワーク更新について、
【数40】
に対する偏微分を表す。ソフト更新について、τはソフト更新パラメータである。
【0042】
具体的なフローを説明すると、エージェントのニューラルネットワーク及びエクスペリエンスプールをランダムに初期化し、エクスペリエンスプールサンプルが3000未満となると、ランダム探索プロセスに入る。スマートカーセンサにより車両動的情報が取得され、路側静的モジュールにより静的道路情報が取得され、車側動的モジュールにより道路情報がスマートカー重心を中心する56×56マトリックスとしてクリッピングされてから、連続する2フレームのマトリックスとセンサ情報とを積み重ねて、協調状態量が合成される。ニューラルネットワークモジュールは状態量に基づいて正規分布ノイズ付きのハンドル及びアクセル制御量を出力するとともに、シミュレーション環境に与えて実行させる。再びにスマートカーセンサにより車両動的情報が取得され、路側静的モジュールにより静的道路情報が取得され、車側動的モジュールにより道路情報がスマートカー重心を中心とする56×56マトリックスとしてクリッピングされてから、連続する2フレームのマトリックスとセンサ情報とを積み重ねて、次時刻の協調状態量が生成され、且つ報酬関数モジュールにより新しい状態量に基づいて具体的な報酬数値が取得される。協調状態量、制御量、報酬、次時刻の協調状態量をタプルに従ってエクスペリエンスプールに保存する。エクスペリエンスプールにおける経験が3000個以上である場合に、正規分布ノイズは減衰し始まり、トレーニング段階に入る。エクスペリエンスプールから最小ロットでサンプルを抽出して学習を行い、演出ネットワーク及び批評家ネットワークは勾配降下法でトレーニングし、他のターゲットネットワークはソフト更新方法でトレーニングする。集約間隔に従って、ネットワークパラメータモジュールは集約開始前に演出ネットワーク、演出ネットワークのターゲットネットワーク、より多くの小さいQ値を生じる批評家ターゲットネットワークパラメータを取得し、共有モデルパラメータの集約用のために、パラメータを集約モジュールにアップロードする。集約完了後に、ネットワークパラメータモジュールは、共有モデルパラメータを再度取得し、ローカル更新用のために、パラメータを各エージェントに送信する。このようにして、ネットワークが収束するまで繰り返す。
【0043】
(6)実行可能性分析について、提出された連合強化学習による制御方法は、遅延した通信環境があっても、相変わらず性能を発揮することができる。これは、主にニューラルネットワークパラメータのみを転送するアルゴリズム特性、個別のネットワークを選択して集約に参与させるアルゴリズム設定によるものである。これらの利点によってその通信要求が高く、既存のWi-Fi、4Gの環境で作業でき、適用シーンがより広くなる。
【0044】
要するに、本発明で提出される路側静的処理モジュール及び車側動的処理モジュールによる車道協調制御枠組みは、路側優位により革新的な協調状態量及び報酬関数を構築し、車側路側協調感知、協調トレーニング、協調評価を実現し、本当の意味で車道協調制御を実現する。そして、連合強化学習アルゴリズムFTD3を提出し、3つの点でアルゴリズム性能を向上させ、連合学習と強化学習との深い組み合わせを実現し、即ちRSUニューラルネットワークは集約に参与するが、トレーニングに参与せず、車側に生じた経験ではなく集約した共有モデルのみを用いて更新する。車側プライバシーを保護し、ニューラルネットワークの収束を遅くし、一部のニューラルネットワークのみを選択して集約に参与させ、ネットワーク集約コストを低減させ、より多くの小さいQ値を生じるターゲットネットワークを選択して集約し、さらに過大評価を防止する。提出されたFTD3アルゴリズムは、連合学習と強化学習とのハード接続とは異なり、両者の深い組み合わせを実現する。
【0045】
上記に列挙された一連の詳細な説明は、単に本発明の実現可能な実施形態に対する具体的な説明に過ぎず、それらは本発明の保護範囲を限定するものではなく、本発明の技術から逸脱しない同等方式又は変更はいずれも本発明の保護範囲に含まれるべきである。
図1
図2
図3
図4
【手続補正書】
【提出日】2023-03-28
【手続補正2】
【補正対象書類名】明細書
【補正対象項目名】0019
【補正方法】変更
【補正の内容】
【0019】
ステップ2であって、制御方法をマルコフ決定過程として説明し、マルコフ決定過程がタプル(S,A,P,R,γ)で説明され、
Sは状態セットを表し、本発明において車道協調枠組みに対応して出力された協調状態量は、2部分のマトリックスから構成され、まず協調感知マトリックスについて、提出された車両動的処理モジュールによって取得された協調感知マトリックスは、静的道路情報、動的車両速度、位置情報、及び車両加速度の車線中心線からの距離、進行方向、方位角偏差等の暗黙情報を含み、畳み込みレイヤー及び全結合レイヤーにより特徴を統合する。次に、現在時刻のセンサ情報マトリックスについて、車側センサで取得され算出された速度情報、オリエンテーション、加速度情報を含み、
Aは動作セットを表し、本発明で車側アクセル及びハンドル制御量に対応し、
Pは状態遷移方程式p:S×A→P(S)を表し、状態-動作対(s,a)∈S×A毎に、状態sで動作aを取ると、新しい状態に移行する可能性を表す確率分布
【数13】
を有し、
Rは報酬関数R:S×S×A→Rを表し、R(st+1,s,a)は元の状態sから新しい状態st+1に移行した後、取得したリターンを表し、本発明で、報酬関数により動作実行の良否を定義し、
γは割引係数を表し、γ∈[0,1]であり、総計リターン
【数14】
を算出するためのものである。
【手続補正3】
【補正対象書類名】明細書
【補正対象項目名】0020
【補正方法】変更
【補正の内容】
【0020】
マルコフ決定過程の解としては、総計リターンの最大がπ:=argmaxθη(πθ)となるように、ポリシーπ:S→Aを見つけることである。本発明で、車道協調枠組みに応じて協調状態量を出力してから、FTD3アルゴリズムにより協調状態マトリックスの対応する最適制御ポリシーを出力する。
【手続補正4】
【補正対象書類名】明細書
【補正対象項目名】0021
【補正方法】変更
【補正の内容】
【0021】
ステップ3であって、FTD3アルゴリズムが構築され、主に強化学習モジュール、連合学習モジュールの2部分から構成される。マルコフ決定過程における要素(S,A,P,R,γ)により強化学習モジュールが構成され、ネットワークパラメータモジュール及び集約モジュールにより連合学習モジュールが構成される。各エージェントは、演出ネットワーク及び2つの批評家ネットワークのほかに、それらのそれぞれのターゲットネットワークも有し、即ち合計6つのニューラルネットワークを有する。
【手続補正5】
【補正対象書類名】特許請求の範囲
【補正対象項目名】全文
【補正方法】変更
【補正の内容】
【特許請求の範囲】
【請求項1】
複雑な交差点でのマルチエージェント連合強化学習による車道協調制御方法であって、下記のステップを含み、
ステップ1であって、シミュレーション環境において車道協調枠組みを構築し、路側静的処理モジュールと車側動的処理モジュールを用いて、学習強化用の協調状態量を合成し、路側静的処理モジュールを用いて路側ユニットRSU航空写真情報を、静的(道路、車線、車線中心線)と動的(インテリジェントコネクテッドカー)の2種類に分け、静的情報から単独に抽出した車線中心線が強化学習協調状態量のベースとし、動的情報が状態量クリッピングの根拠とし、車側動的処理モジュールにより車両の位置情報及び座標変換に応じて路側静的処理モジュールで取得された静的マトリックスをそれぞれクリッピングし、クリッピングした56×56マトリックスが単一の車両の感知範囲とし、約14m×14mの物理的空間をカバーし、より全体的な動的情報を取得するために、2つの連続フレームを用いて動的情報を積み重ね、動的処理モジュールはクリッピング済の静的マトリックスと、積み重ねた動的情報とを重ねて、FTD3用の協調状態量を合成し、
ステップ2であって、制御過程をマルコフ決定過程としてモデリングし、マルコフ決定過程はタプル(S,A,P,R,γ)で説明され、
Sは状態セットを表し、車道協調枠組みに対応して出力された協調状態量は、2部分のマトリックスから構成され、まず協調感知マトリックスについて、提出された車側動的処理モジュールによって取得された協調感知マトリックスは、静的道路情報、動的車両速度、位置情報、及び車両加速度、車線中心線からの距離、進行方向、方位角偏差等の暗黙情報を含み、畳み込みレイヤー及び全結合レイヤーにより特徴を統合し、次に、現在時刻のセンサ情報マトリックスについて、車側センサで取得され算出された速度情報、オリエンテーション、加速度情報を含み、
Aは動作セットを表し、車側アクセル及びハンドル制御量に対応し、
Pは状態遷移方程式p:S×A→P(S)を表し、状態-動作対(s,a)∈S×A毎に、状態sで動作aを取った後、新しい状態に移行する可能性を表す確率分布
【数54】
を有し、
Rは報酬関数R:S×S×A→Rを表し、R(st+1,s,a)は元の状態sから新しい状態st+1に移行した後、取得したリターンを表し、報酬関数により動作実行の良否を定義し、
γは割引係数を表し、γ∈[0,1]であり、総計リターン
【数55】
を算出するためのものであり、
マルコフ決定過程の解としては、総計リターンの最大がπ:=argmaxθη(πθ)となるように、ポリシーπ:S→Aを見つけ、つまり、車道協調枠組みの出力した協調状態量に応じて、FTD3アルゴリズムにより協調状態マトリックスの対応する最適制御ポリシーを出力し、
ステップ3であって、FTD3アルゴリズムを設計し、強化学習モジュール、連合学習モジュールを含み、マルコフ決定過程における要素(S,A,P,R,γ)により強化学習モジュールが構成され、ネットワークパラメータモジュール及び集約モジュールにより連合学習モジュールが構成され、
ステップ4であって、シミュレーション環境において、インタラクティブトレーニングが行われ、トレーニングプロセスは自由探索とサンプリング学習の2つの段階を含み、自由探索段階で、アルゴリズムのポリシーノイズを増加し、ランダム動作を発生させ、全体のトレーニングプロセスにおいて、車道協調枠組みによって協調状態量が捕獲され合成されてから、FTD3アルゴリズムによって協調状態量が入力とされ、ノイズ付きの動作が出力され、動作実行後に、車道協調枠組みによって新しい状態量が捕獲され、最後に報酬関数モジュールによって動作の良否が判定され、状態量、動作、次の状態量、報酬関数からなるタプルは経験であり、ランダムに発生する経験サンプルはエクスペリエンスプールに保存され、経験数が所定の条件を満たすと、トレーニングはサンプリング学習段階に移行し、小ロットでエクスペリエンスプールからサンプルを抽出し、FTD3ネットワークトレーニングモジュールのトレーニング方法に応じて学習し、ポリシーノイズは学習度合の増加に伴って減衰し、
ステップ5であって、連合学習におけるネットワークパラメータモジュールにより各ニューラルネットワークパラメータを取得し、パラメータを集約モジュールにアップロードし、集約モジュールは、集約間隔に従って、ネットワークパラメータモジュールがアップロードした各ニューラルネットワークパラメータを、パラメータ平均化の方法で共有モデルパラメータを集約し、
ステップ6であって、連合学習におけるネットワークパラメータモジュールにより集約済の共有モデルを、モデル更新用のために車側へ送信し、ネットワークが収束するまで繰り返す
ことを特徴とする複雑な交差点でのマルチエージェント連合強化学習による車道協調制御方法。
【請求項2】
前記ステップ2で、協調状態量のサイズ(56*56*1)の協調状態マトリックスと、(3*1)のセンサ情報マトリックスである
ことを特徴とする請求項に記載の複雑な交差点でのマルチエージェント連合強化学習による車道協調制御方法。
【請求項3】
前記ステップ3で、前記FTD3アルゴリズムにおいて強化学習モジュールにおける演出ネットワークで使用されるニューラルネットワークモデル構造は1つの畳み込みレイヤー及び4つの全結合レイヤーを保護し、最後の1層のネットワークでtanh活性化関数を用いて出力を[-1,1]区間にマップする他に、他のレイヤーでrelu活性化関数を使用し、批評家ネットワークは同様に1つの畳み込みレイヤー及び4つの全結合レイヤーを用い、最後の1層のネットワークで活性化関数を使用せずQ値を直接的に出力して評価するほかに、他のレイヤーでrelu活性化関数を使用する
ことを特徴とする請求項に記載の複雑な交差点でのマルチエージェント連合強化学習による車道協調制御方法。
【請求項4】
前記ステップ4で、トレーニングネットワークプロセスにおいて、演出及び批評家ネットワークで選択された学習率はいずれも0.0001であり、ポリシーノイズは0.2であり、遅延更新パラメータは2であり、割引係数γは0.95であり、ターゲットネットワーク更新重みtauは0.995であり、エクスペリエンスプールの最大容量は10000として選択され、エクスペリエンスプールから抽出されたminibatchは128である
ことを特徴とする請求項に記載の複雑な交差点でのマルチエージェント連合強化学習による車道協調制御方法。
【請求項5】
前記ステップ5で、エージェントRSUに使用される6つのニューラルネットワークは集約に参与するが、トレーニングに参与せず、一部のニューラルネットワークのみを選択して集約に参与させ、より多くの小さいQ値を生じるターゲットネットワークを選択して集約する
ことを特徴とする請求項に記載の複雑な交差点でのマルチエージェント連合強化学習による車道協調制御方法。
【国際調査報告】