特開2024-37423 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 三菱重工業株式会社の特許一覧

特開2024-37423情報処理装置、情報処理方法、プログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2024037423

(43)【公開日】2024-03-19

(54)【発明の名称】情報処理装置、情報処理方法、プログラム

(51)【国際特許分類】

B60L 15/40 20060101AFI20240312BHJP

B60L 7/14 20060101ALI20240312BHJP

B61L 27/40 20220101ALI20240312BHJP

B61L 27/20 20220101ALI20240312BHJP

B60T 8/17 20060101ALI20240312BHJP

G16Y 40/30 20200101ALI20240312BHJP

G16Y 20/20 20200101ALI20240312BHJP

G16Y 10/40 20200101ALI20240312BHJP

【ＦＩ】

B60L15/40 J

B60L7/14

B61L27/40

B61L27/20

B60T8/17 C

G16Y40/30

G16Y20/20

G16Y10/40

【審査請求】未請求

【請求項の数】13

【出願形態】ＯＬ

(21)【出願番号】P 2022142287

(22)【出願日】2022-09-07

(71)【出願人】

【識別番号】000006208

【氏名又は名称】三菱重工業株式会社

(74)【代理人】

【識別番号】100149548

【弁理士】

【氏名又は名称】松沼泰史

(74)【代理人】

【識別番号】100162868

【弁理士】

【氏名又は名称】伊藤英輔

(74)【代理人】

【識別番号】100161702

【弁理士】

【氏名又は名称】橋本宏之

(74)【代理人】

【識別番号】100189348

【弁理士】

【氏名又は名称】古都智

(74)【代理人】

【識別番号】100196689

【弁理士】

【氏名又は名称】鎌田康一郎

(72)【発明者】

【氏名】山田直輝

(72)【発明者】

【氏名】岡崎広昂

(72)【発明者】

【氏名】山田昌弘

【テーマコード（参考）】

3D246

5H125

5H161

【Ｆターム（参考）】

3D246AA17

3D246BA03

3D246BA05

3D246DA01

3D246GA22

3D246GB39

3D246HA38A

3D246HA42A

3D246HA86A

3D246JA02

5H125AA05

5H125CA04

5H125CB02

5H125CB10

5H125CC04

5H125EE03

5H125EE09

5H125EE52

5H125EE55

5H161AA01

5H161JJ01

5H161JJ21

(57)【要約】

【課題】モータの回生ブレーキを使用して車両を制動させるためのモータの指令値を自動で算出する情報処理装置を提供する。
【解決手段】ある時刻における車両の状態の情報と、その状態において目標位置で停止するための車両の制御入力とを示す情報に基づいて、次の時刻における車両の状態の情報を確率分布により推定する制御モデルを生成する。車両の状態に関する評価値の評価関数を決定して、当該評価関数の評価値が最も改善される方策パラメータを、方策関数に入力して次の時刻の車両の状態におけるモータトルク指令を生成する。当該モータトルク指令による車両の試行結果である車両の状態の情報と制御入力との関係と、制御モデルの生成に用いた車両の状態の情報と制御入力との関係とを用いて制御モデルを更新する。
【選択図】図３

【特許請求の範囲】

【請求項1】

ある時刻における車両の状態の情報と、その状態において目標位置で停止するための前記車両のモータトルク指令を示す当該車両の制御入力とを示す情報に基づいて次の時刻における車両の状態の情報を確率分布により推定する制御モデルを、過去に行われた前記車両の制動制御が示す前記状態の情報と前記制御入力との関係とその関係により得られた次の時刻における車両の状態とを用いて生成し、
前記車両の状態に関する評価値の評価関数であって、前記目標位置までの距離が離れているほど前記評価値が悪化する前記評価関数を決定して、前記評価値が最も改善される方策パラメータを方策関数に入力して次の時刻の車両の状態における前記車両のモータトルク指令を生成し、
当該生成したモータトルク指令による試行の結果である前記車両の状態の情報と前記制御入力との関係と、前記制御モデルの生成に用いた前記車両の状態の情報と前記制御入力との関係とを用いて前記制御モデルを更新する
情報処理装置。

【請求項2】

前記評価関数は、ある時刻を基準として、その基準の時刻以降の設定されたタイミングまでの複数の時刻における前記車両の状態に関する評価値の期待値の積分値を示す関数である
請求項１に記載の情報処理装置。

【請求項3】

前記車両の状態の情報は、前記車両の位置、速度、空気ばね圧力、モータ電圧、モータトルク出力の情報を少なくとも含む
請求項１または請求項２に記載の情報処理装置。

【請求項4】

前記方策関数と正規分布とに従って初期の任意の前記車両の状態をサンプリングし、当該状態に応じた前記期待値の積分により前記評価関数を算出し、
前記評価関数が最も小さくなる前記方策パラメータを探索する
請求項２に記載の情報処理装置。

【請求項5】

回生失効が生じにくい条件下において取得した前記状態の情報と、回生失効が生じ易い条件下において取得した前記状態の情報とを用いて前記制御モデルを生成する
請求項４に記載の情報処理装置。

【請求項6】

一定の加速度にランダムな加速度を付加して駆動した前記車両の状態の情報と前記制御入力との関係を用いて前記制御モデルを生成する
請求項４に記載の情報処理装置。

【請求項7】

【請求項8】

前記評価関数は、ある時刻を基準として、その基準の時刻以降の設定されたタイミングまでの複数の時刻における前記車両の状態に関する評価値の期待値の積分値を示す関数である
請求項７記載の情報処理方法。

【請求項9】

前記車両の状態の情報は、前記車両の位置、速度、空気ばね圧力、モータ電圧、モータトルク出力の情報を少なくとも含む
請求項７または請求項８に記載の情報処理方法。

【請求項10】

前記方策関数と正規分布とに従って初期の任意の前記車両の状態をサンプリングし、当該状態に応じた前記期待値の積分により前記評価関数を算出し、
前記評価関数が最も小さくなる前記方策パラメータを探索する
請求項８に記載の情報処理方法。

【請求項11】

回生失効が生じにくい条件下において取得した前記状態の情報と、回生失効が生じ易い条件下において取得した前記状態の情報とを用いて前記制御モデルを生成する
請求項１０に記載の情報処理方法。

【請求項12】

一定の加速度にランダムな加速度を付加して駆動した前記車両の状態の情報と前記制御入力との関係を用いて前記制御モデルを生成する
請求項１０に記載の情報処理方法。

【請求項13】

情報処理装置のコンピュータを、
ある時刻における車両の状態の情報と、その状態において目標位置で停止するための前記車両のモータトルク指令を示す当該車両の制御入力とを示す情報に基づいて次の時刻における車両の状態の情報を確率分布により推定する制御モデルを、過去に行われた前記車両の制動制御が示す前記状態の情報と前記制御入力との関係とその関係により得られた次の時刻における車両の状態とを用いて生成する手段、
前記車両の状態に関する評価値の評価関数であって、前記目標位置までの距離が離れているほど前記評価値が悪化する前記評価関数を決定して、前記評価値が最も改善される方策パラメータを方策関数に入力して次の時刻の車両の状態における前記車両のモータトルク指令を生成する手段、
当該生成したモータトルク指令による試行の結果である前記車両の状態の情報と前記制御入力との関係と、前記制御モデルの生成に用いた前記車両の状態の情報と前記制御入力との関係とを用いて前記制御モデルを更新する手段、
として機能させるプログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本開示は、情報処理装置、情報処理方法、プログラムに関する。

【背景技術】

【0002】

モータの回転によって車輪を駆動し軌道上を走行する車両の制御装置がある。この制御装置は、現在の車両の状態に応じたモータトルクの指令値を出力してモータを制御する。また当該制御装置を備えた車両はモータの回生ブレーキを用いて車両を制動する。制御装置は、回生ブレーキの他に、車両に設けられた空気ブレーキ（機械ブレーキ）を平行して用い制動してよい。

【0003】

上述のようなモータを制御する機能と回生ブレーキを車両の制動に用いる技術が特許文献１、特許文献２に開示されている。より詳細には、特許文献１には、回生失効の発生を低減して停止精度を向上させる技術が開示されている。また特許文献２には、回生失効を予測して、目標ブレーキ力と機械ブレーキ力との差分に相当するブレーキ力を得るための回生ブレーキ力の指令値を算出する技術が開示されている。

【先行技術文献】

【特許文献】

【0004】

【特許文献1】特開２００１－２０４１０２号公報

【特許文献2】特開２０１７－９９１７２号公報

【発明の概要】

【発明が解決しようとする課題】

【0005】

上述のような回生ブレーキを用いて車両を制動する技術において、モータの回生ブレーキを使用して車両を制動させるためのモータの指令値を自動で算出することのできる技術が求められている。

【0006】

そこでこの開示は、上述の課題を解決する情報処理装置、情報処理方法、プログラムを提供することを目的としている。

【課題を解決するための手段】

【0007】

本開示の一態様によれば、情報処理装置は、ある時刻における車両の状態の情報と、その状態において目標位置で停止するための前記車両のモータトルク指令を示す当該車両の制御入力とを示す情報に基づいて次の時刻における車両の状態の情報を確率分布により推定する制御モデルを、過去に行われた前記車両の制動制御が示す前記状態の情報と前記制御入力との関係とその関係により得られた次の時刻における車両の状態とを用いて生成し、前記車両の状態に関する評価値の評価関数であって、前記目標位置までの距離が離れているほど前記評価値が悪化する前記評価関数を決定して、前記評価値が最も改善される方策パラメータを方策関数に入力して次の時刻の車両の状態における前記車両のモータトルク指令を生成し、当該生成したモータトルク指令による試行の結果である前記車両の状態の情報と前記制御入力との関係と、前記制御モデルの生成に用いた前記車両の状態の情報と前記制御入力との関係とを用いて前記制御モデルを更新する。

【0008】

本開示の一態様によれば、情報処理方法は、ある時刻における車両の状態の情報と、その状態において目標位置で停止するための前記車両のモータトルク指令を示す当該車両の制御入力とを示す情報に基づいて次の時刻における車両の状態の情報を確率分布により推定する制御モデルを、過去に行われた前記車両の制動制御が示す前記状態の情報と前記制御入力との関係とその関係により得られた次の時刻における車両の状態とを用いて生成し、前記車両の状態に関する評価値の評価関数であって、前記目標位置までの距離が離れているほど前記評価値が悪化する前記評価関数を決定して、前記評価値が最も改善される方策パラメータを方策関数に入力して次の時刻の車両の状態における前記車両のモータトルク指令を生成し、当該生成したモータトルク指令による試行の結果である前記車両の状態の情報と前記制御入力との関係と、前記制御モデルの生成に用いた前記車両の状態の情報と前記制御入力との関係とを用いて前記制御モデルを更新する。

【0009】

本開示の一態様によれば、プログラムは、情報処理装置のコンピュータを、ある時刻における車両の状態の情報と、その状態において目標位置で停止するための前記車両のモータトルク指令を示す当該車両の制御入力とを示す情報に基づいて次の時刻における車両の状態の情報を確率分布により推定する制御モデルを、過去に行われた前記車両の制動制御が示す前記状態の情報と前記制御入力との関係とその関係により得られた次の時刻における車両の状態とを用いて生成する手段、前記車両の状態に関する評価値の評価関数であって、前記目標位置までの距離が離れているほど前記評価値が悪化する前記評価関数を決定して、前記評価値が最も改善される方策パラメータを方策関数に入力して次の時刻の車両の状態における前記車両のモータトルク指令を生成する手段、当該生成したモータトルク指令による試行の結果である前記車両の状態の情報と前記制御入力との関係と、前記制御モデルの生成に用いた前記車両の状態の情報と前記制御入力との関係とを用いて前記制御モデルを更新する手段、として機能させる。

【発明の効果】

【0010】

本開示によれば、モータの回生ブレーキを使用して車両を制動させるためのモータの指令値を自動で算出することができる。

【図面の簡単な説明】

【0011】

【図1】本実施形態による車両制御装置とサーバ装置とを含む車両制御システムの概略図である。

【図2】本実施形態による車両制御装置を含む制御機構を示すブロック図である。

【図3】本実施形態によるサーバ装置の機能ブロック図である。

【図4】本実施形態によるサーバ装置の処理概要を示す図である。

【図5】本実施形態によるサーバ装置の処理フローを示す図である。

【図6】本実施形態によるサーバ装置のハードウェア構成図である。

【発明を実施するための形態】

【0012】

以下、本開示の一実施形態による車両制御装置およびサーバ装置について図面を参照して説明する。
図１は本実施形態による車両制御装置とサーバ装置とを含む車両制御システムの概略図である。
図２は本実施形態による車両制御装置を含む制御機構の構成を示すブロック図である。
この図で示すように、車両５０は、制御機構の一例として、車両制御装置１、インバータ２、モータ３を一部に備える。車両制御装置１は、状態に応じたトルク指令値Ｔｒｉ_（ｔ）を出力してモータを制御する。インバータ２はトルク指令値Ｔｒｉ_（ｔ）に応じた電流をモータ３に出力する。モータ３はトルク指令値Ｔｒｉ_（ｔ）に基づいた電流により駆動する。車両制御装置１は、情報処理装置の一態様であるサーバ装置１０と通信接続する。車両制御装置１は、車両５０の自己位置ｐｘ_（ｔ）、車両５０の速度ｖ_（ｔ）、車両５０の台車と客車との間の揺れを抑制する空気ばねの圧力ｐａ_（ｔ）、モータ電圧Ｖ_（ｔ）、モータ３のトルク出力Ｔｒｏ_（ｔ）を含む車両５０の状態を示す状態情報を取得する。車両運行時に、車両制御装置１は、状態情報と制御モデルとを用いて、制御入力であるトルク指令値Ｔｒｉ_（ｔ）を算出しインバータ２へ出力する。これにより車両制御装置１は車両の状態に応じたトルク指令値Ｔｒｉ_（ｔ）に基づいて車両を制御する。また車両制御装置１は、取得した状態情報と、その状態情報に基づいて算出したトルク指令値Ｔｒｉ_（ｔ）との情報をサーバ装置１０へ出力する。サーバ装置１０はそれらの情報を取得して記憶する。

【0013】

図３はサーバ装置の機能ブロック図である。
サーバ装置１０は、予め記憶するプログラムを起動することにより、学習部１２、方策評価部１３、方策改善部１４の各機能を発揮する。またサーバ装置１０はデータベース等の記憶部１１を備える。
記憶部１１は、車両５０の自己位置ｐｘ_（ｔ）、車両５０の速度ｖ_（ｔ）、車両５０の台車と客車との間の揺れを抑制する空気ばねの圧力ｐａ_（ｔ）、モータ電圧Ｖ_（ｔ）、モータ３のトルク出力Ｔｒｏ_（ｔ）を含む車両５０の状態を示す状態情報と、その状態情報が示す車両の状態におけるトルク指令値Ｔｒｉ_（ｔ）との関係を記憶する。この記憶する情報は、車両５０の車両制御装置１から送信されて記録した情報である。
学習部１２は、時刻ｔにおける車両５０の状態の情報と、その状態において目標位置で停止するための車両５０のモータトルク指令を示す当該車両５０の制御入力とを示す初期データに基づいて、次の時刻ｔ＋１における車両５０の状態の情報を確率分布により推定する制御モデルを生成する。
方策評価部１３は、評価関数Ｊ^π（θ）を用いて方策の評価を行う。
方策改善部１４は、評価関数Ｊ^π（θ）が小さくなるパラメータθを探索する。方策改善部１４がパラメータθの値を更新することで、方策が更新される。

【0014】

図４はサーバ装置の処理概要を示す図である。
サーバ装置１０はモデル強化学習の一つであるＰＩＬＣＯ（Probabilistic Inference for Learning Control）等の機能を備えており、以下の処理を行う。
（１）モデルの学習
サーバ装置１０は、時刻ｔにおける車両５０の状態の情報と、その状態において目標位置で停止するための車両５０のモータトルク指令を示す当該車両５０の制御入力とを示す初期データに基づいて、次の時刻ｔ＋１における車両５０の状態の情報を確率分布により推定する制御モデルを生成する。

【0015】

（２）方策の評価，改善と試行
サーバ装置１０は、車両５０の状態に関する評価値の評価関数であって、制動制御したことによる停止位置と目標位置との関係において停止位置が目標位置までの距離が離れているほど評価値が悪化する評価関数を用いて最適化計算を行う。サーバ装置１０は、当該評価値が最も改善される方策パラメータを方策関数に設定し、また状態情報を方策関数に入力して次の時刻の車両５０の状態におけるモータトルク指令を生成する。サーバ装置１０はその生成したモータトルク指令により車両５０の試行を行うよう車両制御装置１に指示する。

【0016】

（３）試行結果を用いたモデルの更新
サーバ装置１０は、車両制御装置１における試行の結果である車両５０の状態の情報と制御入力との関係と、制御モデルの生成に用いた車両５０の状態の情報と制御入力との関係とを用いて制御モデルを更新する。

【0017】

図５はサーバ装置の処理フローを示す図である。
（制御モデルの生成）
まず学習部１２が機械学習の手法を用いて制御モデルを生成する（ステップＳ１０１）。サーバ装置１０は、予め車両５０の制御中の状態情報が示す各状態の値と、その状態時において車両５０側の制御入力として出力した制御量であるトルク指令値Ｔｒｉ_（ｔ）との関係と、その関係に基づいて車両５０が駆動した場合の次の時刻の車両５０の状態の情報を紐づけて、記憶部１１等に大量に記憶しておく。このトルク指令値Ｔｒｉ_（ｔ）は、車両５０の運転手等によって、目標位置で停止する際に回生失効が発生しないように制御された場合の各情報である。記憶部１１はこのような状態情報ｘ_（ｔ）と制御入力であるトルク指令値Ｔｒｉ_（ｔ）と、当該トルク指令Ｔｒｉ_（ｔ）を用いて車両５０を制御した場合の状態情報ｘ_{（ｔ＋１）}の関係と、その関係において回生失効が発生したか否かを示すフラグの情報（初期データ）を紐づけて記憶する。学習部１２は、このような状態情報ｘ_（ｔ）および状態情報ｘ_{（ｔ＋１）}と制御入力であるトルク指令値Ｔｒｉ_（ｔ）との関係と、その関係において回生失効が発生したか否かを示すフラグの情報と、次の時刻の車両５０の状態の情報とを、例えばガウス過程回帰等の手法を用いて学習し、制御モデルを生成する。制御モデルは、時刻ｔにおける車両５０の状態情報と、その状態情報が示す各状態において回生失効せずに目標位置で停止するために適した車両５０のトルク指令値Ｔｒｉ_（ｔ）とに基づいて、次の時刻ｔ＋１における車両５０の状態の情報を確率分布により推定する学習モデルである。式（１）に制御モデルを示す。当該制御モデルはダイナミクスモデルの一例である。

【0018】

【数1】

【0019】

式（１）においてｘ_（ｔ）は時刻ｔにおける状態情報、u_（ｔ）は時刻ｔにおける制御入力であるトルク指令値Ｔｒｉ_（ｔ）、であり、それぞれ式（２）、式（３）のように示される。ωはノイズを示す。式（１）においてｘ_{（ｔ＋１）}は時刻ｔ＋１における状態情報である。また式（１）においてＮ（０，Σ_ω）は、平均０、共分散行列Σ_ωのガウス分布を示す。ノイズωは当該ガウス分布に従って確率的に求まる。式（１）に示すように制御モデルにより、現在の時刻ｔにおける状態情報ｘ_（ｔ）と制御入力u_（ｔ）に基づいて、次の時刻ｔ＋１における状態情報の分布を推定することができる。

【0020】

【数2】

【0021】

【数3】

【0022】

学習部１２は、回生失効が生じにくい条件下において過去に取得した状態情報を示す各状態の値と、その状態時において車両側の制御入力として出力した制御量であるトルク指令値Ｔｒｉ_（ｔ）との関係を用いて、制御モデルを学習してもよい。または学習部１２は、回生失効が生じ易い条件下において過去に取得した状態情報を示す各状態の値と、その状態時において車両側の制御入力として出力した制御量であるトルク指令値Ｔｒｉ_（ｔ）との関係を用いて、制御モデルを学習してもよい。回生失効が生じにくい条件下とは、電力系統の電圧が回生失効の生じ易い所定の閾値よりも低い場合である。また回生失効が生じ易い条件下とは、電力系統の電圧が回生失効の生じ易い所定の閾値よりも高い場合である。このように回生失効が生じ易い条件下や生じにくい条件下における状態情報を用いて制御モデルを学習することにより、回生失効が生じにくい条件でも、回生失効が生じやすい条件でも、精度よく制御するためのトルク指令値Ｔｒｉ_（ｔ）を出力することのできる制御モデルを生成することができる。

【0023】

（方策の評価）
方策評価部１３は、評価関数Ｊ^π（θ）の値が小さくなる方策パラメータθを決定する（ステップＳ１０２）。この処理において、方策評価部１３は、パラメータθの初期値を任意に設定しておく。評価関数Ｊ^π（θ）を式（４）に示す。

【0024】

【数4】

【0025】

式（４）において、ｃ（ｘ_（ｔ））は式（５）で表され、時刻ｔにおける状態情報ｘ_（ｔ）の評価値を示す。Ｈは時刻ｔを基準時刻とした場合に、その時刻以降の任意に設定されたタイミングを示す。Ｅは評価値ｃ（ｘ_（ｔ））の期待値を示す。なお式（５）においてσ_ｃ ^２は評価値ｃについての分散を示す。

【0026】

【数5】

【0027】

当該評価値ｃ（ｘ_（ｔ））の値は、軌道上の目標位置であるｘ_targetと、時刻ｔにおける車両５０の起動における位置ｘｔが近いほど１に近づき、遠いほど０に近づく値となる。式（４）において、

【0028】

【数6】

【0029】

は、平均μ_（ｔ）、共分散行列Σ_（ｔ）のガウス分布である。

【0030】

方策評価部１３は、初期の状態情報ｘ_（０）を、正規分布Ｎ（μ_（０），Σ_（０））に従ってサンプリングする。方策評価部１３は、時刻ｔにおける状態情報ｘ_（ｔ）を取得し、評価値ｃ（ｘ_（ｔ））期待値Ｅを算出し、同様に予め設定された時刻Ｈまでの各評価値ｃ（ｘ_（ｔ））の期待値Ｅの積分により、式（４）で示した評価関数Ｊ^π（θ）を算出する。

【0031】

（方策の改善）
方策改善部１４は、一例としてＲＢＦ（Radial Basis Function）コントローラの機能を有して以下の処理を行う。なおＲＢＦコントローラは、中間層にガウス関数を持ったニューラルネットワークのネットワーク構造を有する非線形コントローラである。方策改善部１４は、方策評価部１３の算出する評価関数Ｊ^π（θ）が最も小さくなる方策パラメータθを探索し、更新する（ステップＳ１０３）。この処理において、方策改善部１４は、評価関数Ｊ^π（θ）から方策勾配を計算し、その方策勾配を基に方策を構成する方策パラメータθを解探索の対象とする最適化計算を行う。評価関数Ｊ^π（θ）の方策勾配は式（７）により計算することができる。方策改善部１４は、この方策勾配の値が最も小さくなる方向に、勾配法、例えばバックプロパゲーション等の手法を用いて、方策パラメータθを探索する。

【0032】

【数7】

【0033】

方策改善部１４は、各時刻における評価値ｃ（ｘ_（ｔ））の期待値Ｅｘ_（ｔ）に対する状態分布ｐ（ｘ_（ｔ））＝Ｎ（μ_（ｔ），Σ_（ｔ））の平均と共分散行列のそれぞれについての偏導関数から、評価値ｃ（ｘ_（ｔ））が小さくなる状態ｘ_（ｔ）を求め、その状態ｘ_（ｔ）が得られるような方策関数π（ｘ_（ｔ），θ）を構成する方策のパラメータθを最適化の手法を用いて算出してもよい。

【0034】

状態分布ｐ（ｘ_（ｔ））＝Ｎ（μ_（ｔ），Σ_（ｔ））の平均μ_（ｔ）についての偏導関数を式（８）に示す。また状態分布ｐ（ｘ_（ｔ））＝Ｎ（μ_（ｔ），Σ_（ｔ））の共分散行列Σ_（ｔ）についての偏導関数を式（９）に示す。

【0035】

【数8】

【0036】

【数9】

【0037】

ここで、式（８）、式（９）において、式（１０）を満たす。また式（９）においてIは単位行列を示す。

【0038】

【数10】

【0039】

またＴ^－１は対角成分が

【0040】

【数11】

【0041】

となる行列である。

【0042】

（試行）
方策改善部１４は、最適化した方策パラメータθを用いた方策関数π（ｘ_（ｔ），θ）に、状態情報ｘ_（ｔ）を入力して、式（１２）で示すように制御入力u_{（ｔ＋１）}を算出する（ステップＳ１０４）。

【0043】

【数12】

【0044】

方策改善部１４は、算出した制御入力u_{（ｔ＋１）}が示すトルク指令値Ｔｒｉ_{（ｔ＋１）}を車両制御装置１へ出力する（ステップＳ１０５）。車両制御装置１は、そのトルク指令値Ｔｒｉ_{（ｔ＋１）}をインバータ２へ出力し、その結果、モータ３の制御を試行する。これにより車両５０が動作して、次の時刻における状態情報ｘ_{（ｔ＋１）}が観測できる。車両制御装置１は、その時に観測した状態情報ｘ_（ｔ）およびｘ_{（ｔ＋１）}と制御入力u_（ｔ）と回生失効の有無の情報との関係をサーバ装置１０へ送信し、サーバ装置１０がそれらの情報を紐づけて記憶部１１に記録する。回生失効の有無は、車両制御装置１がトルク指令値Ｔｒｉ_（ｔ）からトルク出力Ｔｒｏ_（ｔ）との差を算出し、この差が所定の閾値以上の場合に回生失効有り、閾値未満の場合に入姓失効無しと、車両制御装置１が判定してよい。この記録した情報は、制御モデルの更新に利用する。

【0045】

（制御モデルの更新）
学習部１２は、初期の制御モデルに利用した状態情報ｘ_（ｔ）や制御入力u_（ｔ）と、方策改善部１４の最適化後に新たに記録された状態情報ｘ_（ｔ）や制御入力u_（ｔ）とを用いて、ガウス過程回帰等の手法により繰り返し学習し、制御モデルを更新する（ステップＳ１０６）。なお方策改善部１４の最適化後に新たに記録された状態情報ｘ_（ｔ）や制御入力u_（ｔ）も、回生失効が生じにくい条件下や、回生失効が生じ易い条件下に対応する値であり、学習部１２はそのような各環境下における状態情報ｘ_（ｔ）や制御入力u_（ｔ）と、ガウス過程回帰等の手法を用いて繰り返し学習し、制御モデルを更新してよい。サーバ装置１０は、更新された制御モデルを用いて、状態情報ｘ_（ｔ）に応じた制御入力u_（ｔ）であるトルク指令値Ｔｒｉ_（ｔ）を算出して、車両制御装置１へ出力する。サーバ装置１０は処理を終了するかを判定し（ステップＳ１０７）、終了の指示があるまでステップＳ１０２～ステップＳ１０６の処理を繰り返す。

【0046】

上述した、方策評価部１３、方策改善部１４の処理の繰り返しや、学習部１２の制御モデルの更新の繰り返しが行われることにより、制御モデルの最適化を図ることができる。このような処理によれば、回生失効を発生させずに目標の停止位置で停止することのできる車両５０の各位置における適切な制御入力（ランカーブ）を自動で算出することができる。また回生ブレーキを用いてそのような適切な制御入力を用いて車両５０の制動制御ができるようになるため、機械ブレーキの使用が減少し、機械ブレーキの単位期間における消耗を低下させることで、機械ブレーキのメンテナンスに係るコストを削減することができる。またさらに上述の処理によれば、回生失効を発生させずに目標の停止位置で停止することのできる車両５０の各位置における適切な制御入力（ランカーブ）を特定する手法を、少ない回数の車両５０の試行運転で獲得することができる。

【0047】

なお制御モデルを生成するために利用した初期データにおいて、一定の減速度にランダムな加速度を付加して停車させた際の車両５０の状態の情報と制御入力との関係を用いてもよい。このような多様な初期データを利用することで、少数の初期データで制御モデルの学習が可能となる。

【0048】

図６はサーバ装置のハードウェア構成図である。一例として、この図が示すようにサーバ装置１０は、ＣＰＵ（Central Processing Unit）１０１、ＲＯＭ（Read Only Memory）１０２、ＲＡＭ（Random Access Memory）１０３、ＨＤＤやＳＤＤなどの記憶部１０４、通信モジュール１０５等の各ハードウェアを備えてよい。

【0049】

そして上述のサーバ装置１０において、上述した各処理の過程は、プログラムの形式でコンピュータ読み取り可能な記録媒体に記憶されており、このプログラムをコンピュータが読み出して実行することによって、上記処理が行われる。ここでコンピュータ読み取り可能な記録媒体とは、磁気ディスク、光磁気ディスク、ＣＤ－ＲＯＭ、ＤＶＤ－ＲＯＭ、半導体メモリ等をいう。また、このコンピュータプログラムを通信回線によってコンピュータに配信し、この配信を受けたコンピュータが当該プログラムを実行するようにしても良い。

【0050】

上記プログラムは、前述した機能の一部を実現するためのものであっても良い。さらに、前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるもの、いわゆる差分ファイル（差分プログラム）であっても良い。

【0051】

＜付記＞
上述の実施形態は、例えば以下のように把握される。

【0052】

（１）第一の態様によれば、情報処理装置（サーバ装置１０）は
ある時刻における車両５０の状態の情報と、その状態において目標位置で停止するための前記車両５０のモータトルク指令を示す当該車両５０の制御入力とを示す情報に基づいて、次の時刻における車両５０の状態の情報を確率分布により推定する制御モデルを、過去に行われた前記車両５０の制動制御が示す前記状態の情報と前記制御入力との関係と、その関係により得られた次の時刻における車両５０の状態とを用いて生成し、
前記車両の状態に関する評価値の評価関数であって、前記目標位置までの距離が離れているほど前記評価値が悪化する前記評価関数を決定して、当該評価関数の値が最も改善される方策パラメータを、当該方策パラメータを方策関数に入力して次の時刻の車両の状態における前記車両５０のモータトルク指令を生成し、
当該生成したモータトルク指令による試行の結果である前記車両５０の状態の情報と前記制御入力との関係と、前記制御モデルの生成に用いた前記車両５０の状態の情報と前記制御入力との関係とを用いて前記制御モデルを更新する。

【0053】

このような処理によれば、回生失効を発生させずに目標の停止位置で停止することのできる車両５０の各位置における適切な制御入力（ランカーブ）を自動で算出することができる。また回生ブレーキを用いてそのような適切な制御入力を用いて車両５０の制動制御ができるようになるため、機械ブレーキの使用が減少し、機械ブレーキの単位期間における消耗を低下させることで、機械ブレーキのメンテナンスに係るコストを削減することができる。またこのような処理によれば、回生失効を発生させずに目標の停止位置で停止することのできる車両５０の各位置における適切な制御入力（ランカーブ）を特定する手法を、少ない回数の車両５０の試行運転で獲得することができる。

【0054】

（２）第二の態様によれば、第一の態様に係る情報処理装置（サーバ装置１０）において、前記評価関数は、ある時刻を基準として、その基準の時刻以降の設定されたタイミングまでの複数の時刻における前記車両５０の状態に関する評価値の期待値の積分値を示す関数である。

【0055】

（３）第三の態様によれば、第一または第二の態様に係る情報処理装置（サーバ装置１０）において、前記車両５０の状態の情報は、前記車両５０の位置、速度、空気ばね圧力、モータ電圧、モータトルク出力の情報を少なくとも含む。

【0056】

（４）第四の態様によれば、第二の態様に係る情報処理装置（サーバ装置１０）において、
前記方策関数と正規分布とに従って初期の任意の前記車両５０の状態をサンプリングし、当該状態に応じた前記期待値の積分により前記評価関数を算出し、
前記評価関数が最も小さくなる前記方策パラメータを探索する。

【0057】

（５）第五の態様によれば、第一から第四の何れかの態様に係る情報処理装置（サーバ装置１０）において、回生失効が生じにくい条件下において取得した前記状態の情報と、回生失効が生じ易い条件下において取得した前記状態の情報とを用いて前記制御モデルを生成する。

【0058】

このような処理によれば、回生失効が生じにくい条件でも、回生失効が生じやすい条件でも、精度よく制御するための制御入力を出力することのできる制御モデルを生成することができる。

【0059】

（６）第六の態様によれば、第一から第四の何れかの態様に係る情報処理装置（サーバ装置１０）において、一定の加速度にランダムな加速度を付加して駆動した前記車両５０の状態の情報と前記制御入力との関係を用いて前記制御モデルを生成する。

【0060】

このような処理によれば、多様な初期データを利用することで、少数の初期データで制御モデルの学習が可能となる。

【0061】

（７）第七の態様によれば、情報処理方法は、
ある時刻における車両５０の状態の情報と、その状態において目標位置で停止するための前記車両５０のモータトルク指令を示す当該車両５０の制御入力とを示す情報に基づいて、次の時刻における車両５０の状態の情報を確率分布により推定する制御モデルを、過去に行われた前記車両５０の制動制御が示す前記状態の情報と前記制御入力との関係とその関係により得られた次の時刻における車両５０の状態とを用いて生成し、
前記車両の状態に関する評価値の評価関数であって、前記目標位置までの距離が離れているほど前記評価値が悪化する前記評価関数を決定して、前記評価値が最も改善される方策パラメータを、当該方策パラメータを方策関数に入力して次の時刻の車両の状態における前記車両５０のモータトルク指令を生成し、
当該生成したモータトルク指令による試行の結果である前記車両５０の状態の情報と前記制御入力との関係と、前記制御モデルの生成に用いた前記車両５０の状態の情報と前記制御入力との関係とを用いて前記制御モデルを更新する。

【0062】

（８）第八の態様によれば、第七の態様に係る情報処理方法において、前記評価関数は、ある時刻を基準として、その基準の時刻以降の設定されたタイミングまでの複数の時刻における前記車両５０の状態に関する評価値の期待値の積分値を示す関数である。

【0063】

（９）第九の態様によれば、第七または第八の態様に係る情報処理方法において、前記車両５０の状態の情報は、前記車両５０の位置、速度、空気ばね圧力、モータ電圧、モータトルク出力の情報を少なくとも含む。

【0064】

（１０）第十の態様によれば、第八の態様に係る情報処理方法において、前記方策関数と正規分布とに従って初期の任意の前記車両５０の状態をサンプリングし、当該状態に応じた前記期待値の積分により前記評価関数を算出し、前記評価関数が最も小さくなる前記方策パラメータを探索する。

【0065】

（１１）第十一の態様によれば、第七から第十の態様に係る情報処理方法において、回生失効が生じにくい条件下において取得した前記状態の情報と、回生失効が生じ易い条件下において取得した前記状態の情報とを用いて前記制御モデルを生成する。

【0066】

（１２）第十二の態様によれば、第七から第十の態様に係る情報処理方法において、一定の加速度にランダムな加速度を付加して駆動した前記車両５０の状態の情報と前記制御入力との関係を用いて前記制御モデルを生成する。

【0067】

（１１）第十一の態様によれば、プログラムは、情報処理装置のコンピュータを、
ある時刻における車両５０の状態の情報と、その状態において目標位置で停止するための前記車両５０のモータトルク指令を示す当該車両５０の制御入力とを示す情報に基づいて、次の時刻における車両５０の状態の情報を確率分布により推定する制御モデルを、過去に行われた前記車両５０の制動制御が示す前記状態の情報と前記制御入力との関係とその関係により得られた次の時刻における車両５０の状態とを用いて生成する手段、
前記車両の状態に関する評価値の評価関数であって、前記目標位置までの距離が離れているほど前記評価値が悪化する前記評価関数を決定して、当該評価関数の値が最も改善される方策パラメータを、当該方策パラメータを方策関数に入力して次の時刻の車両の状態における前記車両５０のモータトルク指令を生成する手段、
当該生成したモータトルク指令による試行の結果である前記車両５０の状態の情報と前記制御入力との関係と、前記制御モデルの生成に用いた前記車両５０の状態の情報と前記制御入力との関係とを用いて前記制御モデルを更新する手段、
として機能させる。

【符号の説明】

【0068】

１・・・車両制御装置
２・・・インバータ
３・・・モータ
１１・・・記憶部
１２・・・学習部
１３・・・方策評価部
１４・・・方策改善部

【図1】

【図2】

【図3】

【図4】

【図5】

【図6】

知財求人

知財求人お知らせサービス

知財のニュースを調べる
- 知財ニュース
- 知財周辺ニュース
企業の特許を調べる
知財のセミナーを調べる
知財,特許事務所への求職・転職
特許事務所をさがす
弁理士試験を受ける
- 年の弁理士試験情報
- 弁理士試験の合格率など統計
知財の法律をしらべる
期限日をしらべる
- 今日に対して意見書・補正書の期限
- 今日に対して審査請求期限日
知財の判決をしらべる
コンテンツ・リンク
運営会社
プレスの皆様へ
- お問い合わせ
ユーザーの皆様
- お問い合わせ・フィードバック
広告掲載を希望の皆様へ
- 広告掲載について
- 求人広告の掲載について

IP Force 特許公報掲載プロジェクト 2022.1.31 β版