(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024037423
(43)【公開日】2024-03-19
(54)【発明の名称】情報処理装置、情報処理方法、プログラム
(51)【国際特許分類】
B60L 15/40 20060101AFI20240312BHJP
B60L 7/14 20060101ALI20240312BHJP
B61L 27/40 20220101ALI20240312BHJP
B61L 27/20 20220101ALI20240312BHJP
B60T 8/17 20060101ALI20240312BHJP
G16Y 40/30 20200101ALI20240312BHJP
G16Y 20/20 20200101ALI20240312BHJP
G16Y 10/40 20200101ALI20240312BHJP
【FI】
B60L15/40 J
B60L7/14
B61L27/40
B61L27/20
B60T8/17 C
G16Y40/30
G16Y20/20
G16Y10/40
【審査請求】未請求
【請求項の数】13
【出願形態】OL
(21)【出願番号】P 2022142287
(22)【出願日】2022-09-07
(71)【出願人】
【識別番号】000006208
【氏名又は名称】三菱重工業株式会社
(74)【代理人】
【識別番号】100149548
【弁理士】
【氏名又は名称】松沼 泰史
(74)【代理人】
【識別番号】100162868
【弁理士】
【氏名又は名称】伊藤 英輔
(74)【代理人】
【識別番号】100161702
【弁理士】
【氏名又は名称】橋本 宏之
(74)【代理人】
【識別番号】100189348
【弁理士】
【氏名又は名称】古都 智
(74)【代理人】
【識別番号】100196689
【弁理士】
【氏名又は名称】鎌田 康一郎
(72)【発明者】
【氏名】山田 直輝
(72)【発明者】
【氏名】岡崎 広昂
(72)【発明者】
【氏名】山田 昌弘
【テーマコード(参考)】
3D246
5H125
5H161
【Fターム(参考)】
3D246AA17
3D246BA03
3D246BA05
3D246DA01
3D246GA22
3D246GB39
3D246HA38A
3D246HA42A
3D246HA86A
3D246JA02
5H125AA05
5H125CA04
5H125CB02
5H125CB10
5H125CC04
5H125EE03
5H125EE09
5H125EE52
5H125EE55
5H161AA01
5H161JJ01
5H161JJ21
(57)【要約】
【課題】モータの回生ブレーキを使用して車両を制動させるためのモータの指令値を自動で算出する情報処理装置を提供する。
【解決手段】ある時刻における車両の状態の情報と、その状態において目標位置で停止するための車両の制御入力とを示す情報に基づいて、次の時刻における車両の状態の情報を確率分布により推定する制御モデルを生成する。車両の状態に関する評価値の評価関数を決定して、当該評価関数の評価値が最も改善される方策パラメータを、方策関数に入力して次の時刻の車両の状態におけるモータトルク指令を生成する。当該モータトルク指令による車両の試行結果である車両の状態の情報と制御入力との関係と、制御モデルの生成に用いた車両の状態の情報と制御入力との関係とを用いて制御モデルを更新する。
【選択図】
図3
【特許請求の範囲】
【請求項1】
ある時刻における車両の状態の情報と、その状態において目標位置で停止するための前記車両のモータトルク指令を示す当該車両の制御入力とを示す情報に基づいて次の時刻における車両の状態の情報を確率分布により推定する制御モデルを、過去に行われた前記車両の制動制御が示す前記状態の情報と前記制御入力との関係とその関係により得られた次の時刻における車両の状態とを用いて生成し、
前記車両の状態に関する評価値の評価関数であって、前記目標位置までの距離が離れているほど前記評価値が悪化する前記評価関数を決定して、前記評価値が最も改善される方策パラメータを方策関数に入力して次の時刻の車両の状態における前記車両のモータトルク指令を生成し、
当該生成したモータトルク指令による試行の結果である前記車両の状態の情報と前記制御入力との関係と、前記制御モデルの生成に用いた前記車両の状態の情報と前記制御入力との関係とを用いて前記制御モデルを更新する
情報処理装置。
【請求項2】
前記評価関数は、ある時刻を基準として、その基準の時刻以降の設定されたタイミングまでの複数の時刻における前記車両の状態に関する評価値の期待値の積分値を示す関数である
請求項1に記載の情報処理装置。
【請求項3】
前記車両の状態の情報は、前記車両の位置、速度、空気ばね圧力、モータ電圧、モータトルク出力の情報を少なくとも含む
請求項1または請求項2に記載の情報処理装置。
【請求項4】
前記方策関数と正規分布とに従って初期の任意の前記車両の状態をサンプリングし、当該状態に応じた前記期待値の積分により前記評価関数を算出し、
前記評価関数が最も小さくなる前記方策パラメータを探索する
請求項2に記載の情報処理装置。
【請求項5】
回生失効が生じにくい条件下において取得した前記状態の情報と、回生失効が生じ易い条件下において取得した前記状態の情報とを用いて前記制御モデルを生成する
請求項4に記載の情報処理装置。
【請求項6】
一定の加速度にランダムな加速度を付加して駆動した前記車両の状態の情報と前記制御入力との関係を用いて前記制御モデルを生成する
請求項4に記載の情報処理装置。
【請求項7】
ある時刻における車両の状態の情報と、その状態において目標位置で停止するための前記車両のモータトルク指令を示す当該車両の制御入力とを示す情報に基づいて次の時刻における車両の状態の情報を確率分布により推定する制御モデルを、過去に行われた前記車両の制動制御が示す前記状態の情報と前記制御入力との関係とその関係により得られた次の時刻における車両の状態とを用いて生成し、
前記車両の状態に関する評価値の評価関数であって、前記目標位置までの距離が離れているほど前記評価値が悪化する前記評価関数を決定して、前記評価値が最も改善される方策パラメータを方策関数に入力して次の時刻の車両の状態における前記車両のモータトルク指令を生成し、
当該生成したモータトルク指令による試行の結果である前記車両の状態の情報と前記制御入力との関係と、前記制御モデルの生成に用いた前記車両の状態の情報と前記制御入力との関係とを用いて前記制御モデルを更新する
情報処理方法。
【請求項8】
前記評価関数は、ある時刻を基準として、その基準の時刻以降の設定されたタイミングまでの複数の時刻における前記車両の状態に関する評価値の期待値の積分値を示す関数である
請求項7記載の情報処理方法。
【請求項9】
前記車両の状態の情報は、前記車両の位置、速度、空気ばね圧力、モータ電圧、モータトルク出力の情報を少なくとも含む
請求項7または請求項8に記載の情報処理方法。
【請求項10】
前記方策関数と正規分布とに従って初期の任意の前記車両の状態をサンプリングし、当該状態に応じた前記期待値の積分により前記評価関数を算出し、
前記評価関数が最も小さくなる前記方策パラメータを探索する
請求項8に記載の情報処理方法。
【請求項11】
回生失効が生じにくい条件下において取得した前記状態の情報と、回生失効が生じ易い条件下において取得した前記状態の情報とを用いて前記制御モデルを生成する
請求項10に記載の情報処理方法。
【請求項12】
一定の加速度にランダムな加速度を付加して駆動した前記車両の状態の情報と前記制御入力との関係を用いて前記制御モデルを生成する
請求項10に記載の情報処理方法。
【請求項13】
情報処理装置のコンピュータを、
ある時刻における車両の状態の情報と、その状態において目標位置で停止するための前記車両のモータトルク指令を示す当該車両の制御入力とを示す情報に基づいて次の時刻における車両の状態の情報を確率分布により推定する制御モデルを、過去に行われた前記車両の制動制御が示す前記状態の情報と前記制御入力との関係とその関係により得られた次の時刻における車両の状態とを用いて生成する手段、
前記車両の状態に関する評価値の評価関数であって、前記目標位置までの距離が離れているほど前記評価値が悪化する前記評価関数を決定して、前記評価値が最も改善される方策パラメータを方策関数に入力して次の時刻の車両の状態における前記車両のモータトルク指令を生成する手段、
当該生成したモータトルク指令による試行の結果である前記車両の状態の情報と前記制御入力との関係と、前記制御モデルの生成に用いた前記車両の状態の情報と前記制御入力との関係とを用いて前記制御モデルを更新する手段、
として機能させるプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、情報処理装置、情報処理方法、プログラムに関する。
【背景技術】
【0002】
モータの回転によって車輪を駆動し軌道上を走行する車両の制御装置がある。この制御装置は、現在の車両の状態に応じたモータトルクの指令値を出力してモータを制御する。また当該制御装置を備えた車両はモータの回生ブレーキを用いて車両を制動する。制御装置は、回生ブレーキの他に、車両に設けられた空気ブレーキ(機械ブレーキ)を平行して用い制動してよい。
【0003】
上述のようなモータを制御する機能と回生ブレーキを車両の制動に用いる技術が特許文献1、特許文献2に開示されている。より詳細には、特許文献1には、回生失効の発生を低減して停止精度を向上させる技術が開示されている。また特許文献2には、回生失効を予測して、目標ブレーキ力と機械ブレーキ力との差分に相当するブレーキ力を得るための回生ブレーキ力の指令値を算出する技術が開示されている。
【先行技術文献】
【特許文献】
【0004】
【特許文献1】特開2001-204102号公報
【特許文献2】特開2017-99172号公報
【発明の概要】
【発明が解決しようとする課題】
【0005】
上述のような回生ブレーキを用いて車両を制動する技術において、モータの回生ブレーキを使用して車両を制動させるためのモータの指令値を自動で算出することのできる技術が求められている。
【0006】
そこでこの開示は、上述の課題を解決する情報処理装置、情報処理方法、プログラムを提供することを目的としている。
【課題を解決するための手段】
【0007】
本開示の一態様によれば、情報処理装置は、ある時刻における車両の状態の情報と、その状態において目標位置で停止するための前記車両のモータトルク指令を示す当該車両の制御入力とを示す情報に基づいて次の時刻における車両の状態の情報を確率分布により推定する制御モデルを、過去に行われた前記車両の制動制御が示す前記状態の情報と前記制御入力との関係とその関係により得られた次の時刻における車両の状態とを用いて生成し、前記車両の状態に関する評価値の評価関数であって、前記目標位置までの距離が離れているほど前記評価値が悪化する前記評価関数を決定して、前記評価値が最も改善される方策パラメータを方策関数に入力して次の時刻の車両の状態における前記車両のモータトルク指令を生成し、当該生成したモータトルク指令による試行の結果である前記車両の状態の情報と前記制御入力との関係と、前記制御モデルの生成に用いた前記車両の状態の情報と前記制御入力との関係とを用いて前記制御モデルを更新する。
【0008】
本開示の一態様によれば、情報処理方法は、ある時刻における車両の状態の情報と、その状態において目標位置で停止するための前記車両のモータトルク指令を示す当該車両の制御入力とを示す情報に基づいて次の時刻における車両の状態の情報を確率分布により推定する制御モデルを、過去に行われた前記車両の制動制御が示す前記状態の情報と前記制御入力との関係とその関係により得られた次の時刻における車両の状態とを用いて生成し、前記車両の状態に関する評価値の評価関数であって、前記目標位置までの距離が離れているほど前記評価値が悪化する前記評価関数を決定して、前記評価値が最も改善される方策パラメータを方策関数に入力して次の時刻の車両の状態における前記車両のモータトルク指令を生成し、当該生成したモータトルク指令による試行の結果である前記車両の状態の情報と前記制御入力との関係と、前記制御モデルの生成に用いた前記車両の状態の情報と前記制御入力との関係とを用いて前記制御モデルを更新する。
【0009】
本開示の一態様によれば、プログラムは、情報処理装置のコンピュータを、ある時刻における車両の状態の情報と、その状態において目標位置で停止するための前記車両のモータトルク指令を示す当該車両の制御入力とを示す情報に基づいて次の時刻における車両の状態の情報を確率分布により推定する制御モデルを、過去に行われた前記車両の制動制御が示す前記状態の情報と前記制御入力との関係とその関係により得られた次の時刻における車両の状態とを用いて生成する手段、前記車両の状態に関する評価値の評価関数であって、前記目標位置までの距離が離れているほど前記評価値が悪化する前記評価関数を決定して、前記評価値が最も改善される方策パラメータを方策関数に入力して次の時刻の車両の状態における前記車両のモータトルク指令を生成する手段、当該生成したモータトルク指令による試行の結果である前記車両の状態の情報と前記制御入力との関係と、前記制御モデルの生成に用いた前記車両の状態の情報と前記制御入力との関係とを用いて前記制御モデルを更新する手段、として機能させる。
【発明の効果】
【0010】
本開示によれば、モータの回生ブレーキを使用して車両を制動させるためのモータの指令値を自動で算出することができる。
【図面の簡単な説明】
【0011】
【
図1】本実施形態による車両制御装置とサーバ装置とを含む車両制御システムの概略図である。
【
図2】本実施形態による車両制御装置を含む制御機構を示すブロック図である。
【
図3】本実施形態によるサーバ装置の機能ブロック図である。
【
図4】本実施形態によるサーバ装置の処理概要を示す図である。
【
図5】本実施形態によるサーバ装置の処理フローを示す図である。
【
図6】本実施形態によるサーバ装置のハードウェア構成図である。
【発明を実施するための形態】
【0012】
以下、本開示の一実施形態による車両制御装置およびサーバ装置について図面を参照して説明する。
図1は本実施形態による車両制御装置とサーバ装置とを含む車両制御システムの概略図である。
図2は本実施形態による車両制御装置を含む制御機構の構成を示すブロック図である。
この図で示すように、車両50は、制御機構の一例として、車両制御装置1、インバータ2、モータ3を一部に備える。車両制御装置1は、状態に応じたトルク指令値Tri
(t)を出力してモータを制御する。インバータ2はトルク指令値Tri
(t)に応じた電流をモータ3に出力する。モータ3はトルク指令値Tri
(t)に基づいた電流により駆動する。車両制御装置1は、情報処理装置の一態様であるサーバ装置10と通信接続する。車両制御装置1は、車両50の自己位置px
(t)、車両50の速度v
(t)、車両50の台車と客車との間の揺れを抑制する空気ばねの圧力pa
(t)、モータ電圧V
(t)、モータ3のトルク出力Tro
(t)を含む車両50の状態を示す状態情報を取得する。車両運行時に、車両制御装置1は、状態情報と制御モデルとを用いて、制御入力であるトルク指令値Tri
(t)を算出しインバータ2へ出力する。これにより車両制御装置1は車両の状態に応じたトルク指令値Tri
(t)に基づいて車両を制御する。また車両制御装置1は、取得した状態情報と、その状態情報に基づいて算出したトルク指令値Tri
(t)との情報をサーバ装置10へ出力する。サーバ装置10はそれらの情報を取得して記憶する。
【0013】
図3はサーバ装置の機能ブロック図である。
サーバ装置10は、予め記憶するプログラムを起動することにより、学習部12、方策評価部13、方策改善部14の各機能を発揮する。またサーバ装置10はデータベース等の記憶部11を備える。
記憶部11は、車両50の自己位置px
(t)、車両50の速度v
(t)、車両50の台車と客車との間の揺れを抑制する空気ばねの圧力pa
(t)、モータ電圧V
(t)、モータ3のトルク出力Tro
(t)を含む車両50の状態を示す状態情報と、その状態情報が示す車両の状態におけるトルク指令値Tri
(t)との関係を記憶する。この記憶する情報は、車両50の車両制御装置1から送信されて記録した情報である。
学習部12は、時刻tにおける車両50の状態の情報と、その状態において目標位置で停止するための車両50のモータトルク指令を示す当該車両50の制御入力とを示す初期データに基づいて、次の時刻t+1における車両50の状態の情報を確率分布により推定する制御モデルを生成する。
方策評価部13は、評価関数J
π(θ)を用いて方策の評価を行う。
方策改善部14は、評価関数J
π(θ)が小さくなるパラメータθを探索する。方策改善部14がパラメータθの値を更新することで、方策が更新される。
【0014】
図4はサーバ装置の処理概要を示す図である。
サーバ装置10はモデル強化学習の一つであるPILCO(Probabilistic Inference for Learning Control)等の機能を備えており、以下の処理を行う。
(1)モデルの学習
サーバ装置10は、時刻tにおける車両50の状態の情報と、その状態において目標位置で停止するための車両50のモータトルク指令を示す当該車両50の制御入力とを示す初期データに基づいて、次の時刻t+1における車両50の状態の情報を確率分布により推定する制御モデルを生成する。
【0015】
(2)方策の評価,改善と試行
サーバ装置10は、車両50の状態に関する評価値の評価関数であって、制動制御したことによる停止位置と目標位置との関係において停止位置が目標位置までの距離が離れているほど評価値が悪化する評価関数を用いて最適化計算を行う。サーバ装置10は、当該評価値が最も改善される方策パラメータを方策関数に設定し、また状態情報を方策関数に入力して次の時刻の車両50の状態におけるモータトルク指令を生成する。サーバ装置10はその生成したモータトルク指令により車両50の試行を行うよう車両制御装置1に指示する。
【0016】
(3)試行結果を用いたモデルの更新
サーバ装置10は、車両制御装置1における試行の結果である車両50の状態の情報と制御入力との関係と、制御モデルの生成に用いた車両50の状態の情報と制御入力との関係とを用いて制御モデルを更新する。
【0017】
図5はサーバ装置の処理フローを示す図である。
(制御モデルの生成)
まず学習部12が機械学習の手法を用いて制御モデルを生成する(ステップS101)。サーバ装置10は、予め車両50の制御中の状態情報が示す各状態の値と、その状態時において車両50側の制御入力として出力した制御量であるトルク指令値Tri
(t)との関係と、その関係に基づいて車両50が駆動した場合の次の時刻の車両50の状態の情報を紐づけて、記憶部11等に大量に記憶しておく。このトルク指令値Tri
(t)は、車両50の運転手等によって、目標位置で停止する際に回生失効が発生しないように制御された場合の各情報である。記憶部11はこのような状態情報x
(t)と制御入力であるトルク指令値Tri
(t)と、当該トルク指令Tri
(t)を用いて車両50を制御した場合の状態情報x
(t+1)の関係と、その関係において回生失効が発生したか否かを示すフラグの情報(初期データ)を紐づけて記憶する。学習部12は、このような状態情報x
(t)および状態情報x
(t+1)と制御入力であるトルク指令値Tri
(t)との関係と、その関係において回生失効が発生したか否かを示すフラグの情報と、次の時刻の車両50の状態の情報とを、例えばガウス過程回帰等の手法を用いて学習し、制御モデルを生成する。制御モデルは、時刻tにおける車両50の状態情報と、その状態情報が示す各状態において回生失効せずに目標位置で停止するために適した車両50のトルク指令値Tri
(t)とに基づいて、次の時刻t+1における車両50の状態の情報を確率分布により推定する学習モデルである。式(1)に制御モデルを示す。当該制御モデルはダイナミクスモデルの一例である。
【0018】
【0019】
式(1)においてx(t)は時刻tにおける状態情報、u(t)は時刻tにおける制御入力であるトルク指令値Tri(t)、であり、それぞれ式(2)、式(3)のように示される。ωはノイズを示す。式(1)においてx(t+1)は時刻t+1における状態情報である。また式(1)においてN(0,Σω)は、平均0、共分散行列Σωのガウス分布を示す。ノイズωは当該ガウス分布に従って確率的に求まる。式(1)に示すように制御モデルにより、現在の時刻tにおける状態情報x(t)と制御入力u(t)に基づいて、次の時刻t+1における状態情報の分布を推定することができる。
【0020】
【0021】
【0022】
学習部12は、回生失効が生じにくい条件下において過去に取得した状態情報を示す各状態の値と、その状態時において車両側の制御入力として出力した制御量であるトルク指令値Tri(t)との関係を用いて、制御モデルを学習してもよい。または学習部12は、回生失効が生じ易い条件下において過去に取得した状態情報を示す各状態の値と、その状態時において車両側の制御入力として出力した制御量であるトルク指令値Tri(t)との関係を用いて、制御モデルを学習してもよい。回生失効が生じにくい条件下とは、電力系統の電圧が回生失効の生じ易い所定の閾値よりも低い場合である。また回生失効が生じ易い条件下とは、電力系統の電圧が回生失効の生じ易い所定の閾値よりも高い場合である。このように回生失効が生じ易い条件下や生じにくい条件下における状態情報を用いて制御モデルを学習することにより、回生失効が生じにくい条件でも、回生失効が生じやすい条件でも、精度よく制御するためのトルク指令値Tri(t)を出力することのできる制御モデルを生成することができる。
【0023】
(方策の評価)
方策評価部13は、評価関数Jπ(θ)の値が小さくなる方策パラメータθを決定する(ステップS102)。この処理において、方策評価部13は、パラメータθの初期値を任意に設定しておく。評価関数Jπ(θ)を式(4)に示す。
【0024】
【0025】
式(4)において、c(x(t))は式(5)で表され、時刻tにおける状態情報x(t)の評価値を示す。Hは時刻tを基準時刻とした場合に、その時刻以降の任意に設定されたタイミングを示す。Eは評価値c(x(t))の期待値を示す。なお式(5)においてσc
2は評価値cについての分散を示す。
【0026】
【0027】
当該評価値c(x(t))の値は、軌道上の目標位置であるxtargetと、時刻tにおける車両50の起動における位置xtが近いほど1に近づき、遠いほど0に近づく値となる。式(4)において、
【0028】
【0029】
は、平均μ(t)、共分散行列Σ(t)のガウス分布である。
【0030】
方策評価部13は、初期の状態情報x(0)を、正規分布N(μ(0),Σ(0))に従ってサンプリングする。方策評価部13は、時刻tにおける状態情報x(t)を取得し、評価値c(x(t))期待値Eを算出し、同様に予め設定された時刻Hまでの各評価値c(x(t))の期待値Eの積分により、式(4)で示した評価関数Jπ(θ)を算出する。
【0031】
(方策の改善)
方策改善部14は、一例としてRBF(Radial Basis Function)コントローラの機能を有して以下の処理を行う。なおRBFコントローラは、中間層にガウス関数を持ったニューラルネットワークのネットワーク構造を有する非線形コントローラである。方策改善部14は、方策評価部13の算出する評価関数Jπ(θ)が最も小さくなる方策パラメータθを探索し、更新する(ステップS103)。この処理において、方策改善部14は、評価関数Jπ(θ)から方策勾配を計算し、その方策勾配を基に方策を構成する方策パラメータθを解探索の対象とする最適化計算を行う。評価関数Jπ(θ)の方策勾配は式(7)により計算することができる。方策改善部14は、この方策勾配の値が最も小さくなる方向に、勾配法、例えばバックプロパゲーション等の手法を用いて、方策パラメータθを探索する。
【0032】
【0033】
方策改善部14は、各時刻における評価値c(x(t))の期待値Ex(t)に対する状態分布p(x(t))=N(μ(t),Σ(t))の平均と共分散行列のそれぞれについての偏導関数から、評価値c(x(t))が小さくなる状態x(t)を求め、その状態x(t)が得られるような方策関数π(x(t),θ)を構成する方策のパラメータθを最適化の手法を用いて算出してもよい。
【0034】
状態分布p(x(t))=N(μ(t),Σ(t))の平均μ(t)についての偏導関数を式(8)に示す。また状態分布p(x(t))=N(μ(t),Σ(t))の共分散行列Σ(t)についての偏導関数を式(9)に示す。
【0035】
【0036】
【0037】
ここで、式(8)、式(9)において、式(10)を満たす。また式(9)においてIは単位行列を示す。
【0038】
【0039】
またT-1は対角成分が
【0040】
【0041】
となる行列である。
【0042】
(試行)
方策改善部14は、最適化した方策パラメータθを用いた方策関数π(x(t),θ)に、状態情報x(t)を入力して、式(12)で示すように制御入力u(t+1)を算出する(ステップS104)。
【0043】
【0044】
方策改善部14は、算出した制御入力u(t+1)が示すトルク指令値Tri(t+1)を車両制御装置1へ出力する(ステップS105)。車両制御装置1は、そのトルク指令値Tri(t+1)をインバータ2へ出力し、その結果、モータ3の制御を試行する。これにより車両50が動作して、次の時刻における状態情報x(t+1)が観測できる。車両制御装置1は、その時に観測した状態情報x(t)およびx(t+1)と制御入力u(t)と回生失効の有無の情報との関係をサーバ装置10へ送信し、サーバ装置10がそれらの情報を紐づけて記憶部11に記録する。回生失効の有無は、車両制御装置1がトルク指令値Tri(t)からトルク出力Tro(t)との差を算出し、この差が所定の閾値以上の場合に回生失効有り、閾値未満の場合に入姓失効無しと、車両制御装置1が判定してよい。この記録した情報は、制御モデルの更新に利用する。
【0045】
(制御モデルの更新)
学習部12は、初期の制御モデルに利用した状態情報x(t)や制御入力u(t)と、方策改善部14の最適化後に新たに記録された状態情報x(t)や制御入力u(t)とを用いて、ガウス過程回帰等の手法により繰り返し学習し、制御モデルを更新する(ステップS106)。なお方策改善部14の最適化後に新たに記録された状態情報x(t)や制御入力u(t)も、回生失効が生じにくい条件下や、回生失効が生じ易い条件下に対応する値であり、学習部12はそのような各環境下における状態情報x(t)や制御入力u(t)と、ガウス過程回帰等の手法を用いて繰り返し学習し、制御モデルを更新してよい。サーバ装置10は、更新された制御モデルを用いて、状態情報x(t)に応じた制御入力u(t)であるトルク指令値Tri(t)を算出して、車両制御装置1へ出力する。サーバ装置10は処理を終了するかを判定し(ステップS107)、終了の指示があるまでステップS102~ステップS106の処理を繰り返す。
【0046】
上述した、方策評価部13、方策改善部14の処理の繰り返しや、学習部12の制御モデルの更新の繰り返しが行われることにより、制御モデルの最適化を図ることができる。このような処理によれば、回生失効を発生させずに目標の停止位置で停止することのできる車両50の各位置における適切な制御入力(ランカーブ)を自動で算出することができる。また回生ブレーキを用いてそのような適切な制御入力を用いて車両50の制動制御ができるようになるため、機械ブレーキの使用が減少し、機械ブレーキの単位期間における消耗を低下させることで、機械ブレーキのメンテナンスに係るコストを削減することができる。またさらに上述の処理によれば、回生失効を発生させずに目標の停止位置で停止することのできる車両50の各位置における適切な制御入力(ランカーブ)を特定する手法を、少ない回数の車両50の試行運転で獲得することができる。
【0047】
なお制御モデルを生成するために利用した初期データにおいて、一定の減速度にランダムな加速度を付加して停車させた際の車両50の状態の情報と制御入力との関係を用いてもよい。このような多様な初期データを利用することで、少数の初期データで制御モデルの学習が可能となる。
【0048】
図6はサーバ装置のハードウェア構成図である。一例として、この図が示すようにサーバ装置10は、CPU(Central Processing Unit)101、ROM(Read Only Memory)102、RAM(Random Access Memory)103、HDDやSDDなどの記憶部104、通信モジュール105等の各ハードウェアを備えてよい。
【0049】
そして上述のサーバ装置10において、上述した各処理の過程は、プログラムの形式でコンピュータ読み取り可能な記録媒体に記憶されており、このプログラムをコンピュータが読み出して実行することによって、上記処理が行われる。ここでコンピュータ読み取り可能な記録媒体とは、磁気ディスク、光磁気ディスク、CD-ROM、DVD-ROM、半導体メモリ等をいう。また、このコンピュータプログラムを通信回線によってコンピュータに配信し、この配信を受けたコンピュータが当該プログラムを実行するようにしても良い。
【0050】
上記プログラムは、前述した機能の一部を実現するためのものであっても良い。さらに、前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるもの、いわゆる差分ファイル(差分プログラム)であっても良い。
【0051】
<付記>
上述の実施形態は、例えば以下のように把握される。
【0052】
(1)第一の態様によれば、情報処理装置(サーバ装置10)は
ある時刻における車両50の状態の情報と、その状態において目標位置で停止するための前記車両50のモータトルク指令を示す当該車両50の制御入力とを示す情報に基づいて、次の時刻における車両50の状態の情報を確率分布により推定する制御モデルを、過去に行われた前記車両50の制動制御が示す前記状態の情報と前記制御入力との関係と、その関係により得られた次の時刻における車両50の状態とを用いて生成し、
前記車両の状態に関する評価値の評価関数であって、前記目標位置までの距離が離れているほど前記評価値が悪化する前記評価関数を決定して、当該評価関数の値が最も改善される方策パラメータを、当該方策パラメータを方策関数に入力して次の時刻の車両の状態における前記車両50のモータトルク指令を生成し、
当該生成したモータトルク指令による試行の結果である前記車両50の状態の情報と前記制御入力との関係と、前記制御モデルの生成に用いた前記車両50の状態の情報と前記制御入力との関係とを用いて前記制御モデルを更新する。
【0053】
このような処理によれば、回生失効を発生させずに目標の停止位置で停止することのできる車両50の各位置における適切な制御入力(ランカーブ)を自動で算出することができる。また回生ブレーキを用いてそのような適切な制御入力を用いて車両50の制動制御ができるようになるため、機械ブレーキの使用が減少し、機械ブレーキの単位期間における消耗を低下させることで、機械ブレーキのメンテナンスに係るコストを削減することができる。またこのような処理によれば、回生失効を発生させずに目標の停止位置で停止することのできる車両50の各位置における適切な制御入力(ランカーブ)を特定する手法を、少ない回数の車両50の試行運転で獲得することができる。
【0054】
(2)第二の態様によれば、第一の態様に係る情報処理装置(サーバ装置10)において、前記評価関数は、ある時刻を基準として、その基準の時刻以降の設定されたタイミングまでの複数の時刻における前記車両50の状態に関する評価値の期待値の積分値を示す関数である。
【0055】
(3)第三の態様によれば、第一または第二の態様に係る情報処理装置(サーバ装置10)において、前記車両50の状態の情報は、前記車両50の位置、速度、空気ばね圧力、モータ電圧、モータトルク出力の情報を少なくとも含む。
【0056】
(4)第四の態様によれば、第二の態様に係る情報処理装置(サーバ装置10)において、
前記方策関数と正規分布とに従って初期の任意の前記車両50の状態をサンプリングし、当該状態に応じた前記期待値の積分により前記評価関数を算出し、
前記評価関数が最も小さくなる前記方策パラメータを探索する。
【0057】
(5)第五の態様によれば、第一から第四の何れかの態様に係る情報処理装置(サーバ装置10)において、回生失効が生じにくい条件下において取得した前記状態の情報と、回生失効が生じ易い条件下において取得した前記状態の情報とを用いて前記制御モデルを生成する。
【0058】
このような処理によれば、回生失効が生じにくい条件でも、回生失効が生じやすい条件でも、精度よく制御するための制御入力を出力することのできる制御モデルを生成することができる。
【0059】
(6)第六の態様によれば、第一から第四の何れかの態様に係る情報処理装置(サーバ装置10)において、一定の加速度にランダムな加速度を付加して駆動した前記車両50の状態の情報と前記制御入力との関係を用いて前記制御モデルを生成する。
【0060】
このような処理によれば、多様な初期データを利用することで、少数の初期データで制御モデルの学習が可能となる。
【0061】
(7)第七の態様によれば、情報処理方法は、
ある時刻における車両50の状態の情報と、その状態において目標位置で停止するための前記車両50のモータトルク指令を示す当該車両50の制御入力とを示す情報に基づいて、次の時刻における車両50の状態の情報を確率分布により推定する制御モデルを、過去に行われた前記車両50の制動制御が示す前記状態の情報と前記制御入力との関係とその関係により得られた次の時刻における車両50の状態とを用いて生成し、
前記車両の状態に関する評価値の評価関数であって、前記目標位置までの距離が離れているほど前記評価値が悪化する前記評価関数を決定して、前記評価値が最も改善される方策パラメータを、当該方策パラメータを方策関数に入力して次の時刻の車両の状態における前記車両50のモータトルク指令を生成し、
当該生成したモータトルク指令による試行の結果である前記車両50の状態の情報と前記制御入力との関係と、前記制御モデルの生成に用いた前記車両50の状態の情報と前記制御入力との関係とを用いて前記制御モデルを更新する。
【0062】
(8)第八の態様によれば、第七の態様に係る情報処理方法において、前記評価関数は、ある時刻を基準として、その基準の時刻以降の設定されたタイミングまでの複数の時刻における前記車両50の状態に関する評価値の期待値の積分値を示す関数である。
【0063】
(9)第九の態様によれば、第七または第八の態様に係る情報処理方法において、前記車両50の状態の情報は、前記車両50の位置、速度、空気ばね圧力、モータ電圧、モータトルク出力の情報を少なくとも含む。
【0064】
(10)第十の態様によれば、第八の態様に係る情報処理方法において、前記方策関数と正規分布とに従って初期の任意の前記車両50の状態をサンプリングし、当該状態に応じた前記期待値の積分により前記評価関数を算出し、前記評価関数が最も小さくなる前記方策パラメータを探索する。
【0065】
(11)第十一の態様によれば、第七から第十の態様に係る情報処理方法において、回生失効が生じにくい条件下において取得した前記状態の情報と、回生失効が生じ易い条件下において取得した前記状態の情報とを用いて前記制御モデルを生成する。
【0066】
(12)第十二の態様によれば、第七から第十の態様に係る情報処理方法において、一定の加速度にランダムな加速度を付加して駆動した前記車両50の状態の情報と前記制御入力との関係を用いて前記制御モデルを生成する。
【0067】
(11)第十一の態様によれば、プログラムは、情報処理装置のコンピュータを、
ある時刻における車両50の状態の情報と、その状態において目標位置で停止するための前記車両50のモータトルク指令を示す当該車両50の制御入力とを示す情報に基づいて、次の時刻における車両50の状態の情報を確率分布により推定する制御モデルを、過去に行われた前記車両50の制動制御が示す前記状態の情報と前記制御入力との関係とその関係により得られた次の時刻における車両50の状態とを用いて生成する手段、
前記車両の状態に関する評価値の評価関数であって、前記目標位置までの距離が離れているほど前記評価値が悪化する前記評価関数を決定して、当該評価関数の値が最も改善される方策パラメータを、当該方策パラメータを方策関数に入力して次の時刻の車両の状態における前記車両50のモータトルク指令を生成する手段、
当該生成したモータトルク指令による試行の結果である前記車両50の状態の情報と前記制御入力との関係と、前記制御モデルの生成に用いた前記車両50の状態の情報と前記制御入力との関係とを用いて前記制御モデルを更新する手段、
として機能させる。
【符号の説明】
【0068】
1・・・車両制御装置
2・・・インバータ
3・・・モータ
11・・・記憶部
12・・・学習部
13・・・方策評価部
14・・・方策改善部