(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2023043899
(43)【公開日】2023-03-30
(54)【発明の名称】制御装置及び制御方法
(51)【国際特許分類】
G01M 17/007 20060101AFI20230323BHJP
G06N 20/00 20190101ALI20230323BHJP
【FI】
G01M17/007 A
G06N20/00
【審査請求】未請求
【請求項の数】3
【出願形態】OL
(21)【出願番号】P 2021151626
(22)【出願日】2021-09-17
(71)【出願人】
【識別番号】000006105
【氏名又は名称】株式会社明電舎
(74)【代理人】
【識別番号】110002077
【氏名又は名称】園田・小林弁理士法人
(72)【発明者】
【氏名】金剌 泰宏
(72)【発明者】
【氏名】吉田 健人
(57)【要約】
【課題】過去に学習済みの制御対象の特性と現在の試験対象の制御対象の特性との差を有効に活用することで学習時間を従来よりも短縮する技術を提供すること。
【解決手段】第1の制御対象及び第2の制御対象の状態が指令に一致するように第1の制御対象及び第2の制御対象を制御する制御装置が、強化学習アルゴリズムに基づいて第1の制御対象及び第2の制御対象を操作する制御指令を出力する操作内容推論部と、所定の駆動状態における第1の制御対象の操作値を入力として入力と同一の駆動状態における第2の制御対象の操作値を目的変数として学習を行う制御対象間特性差学習モデルを有する制御対象間特性差学習部と、制御対象間特性差学習モデルに基づいて、操作内容推論部が出力する制御指令を第2の制御対象の操作値に変換する特性変換部と、変換された第2の制御対象の操作値により第2の制御対象の操作を制御する操作制御部と、を備える。
【選択図】
図2
【特許請求の範囲】
【請求項1】
第1の制御対象及び第2の制御対象の状態が指令に一致するように前記第1の制御対象及び前記第2の制御対象を制御する制御装置であって、
強化学習アルゴリズムに基づいて前記第1の制御対象及び前記第2の制御対象を操作する制御指令を出力する操作内容推論部と、
所定の駆動状態における前記第1の制御対象の操作値を入力として前記入力と同一の駆動状態における前記第2の制御対象の操作値を目的変数として学習を行う制御対象間特性差学習モデルを有する制御対象間特性差学習部と、
前記制御対象間特性差学習モデルに基づいて、前記操作内容推論部が出力する制御指令を前記第2の制御対象の操作値に変換する特性変換部と、
前記変換された前記第2の制御対象の操作値により前記第2の制御対象の操作を制御する操作制御部と、を備える制御装置。
【請求項2】
車両に搭載されて該車両を走行させる自動操縦ロボットを該車両が規定された指令車速に従って走行するように制御する、該自動操縦ロボットの制御装置であって、
強化学習アルゴリズムに基づいて前記車両を操作する制御指令を出力する操作内容推論部と、
所定の駆動状態における第1の車両の操作値を入力として前記入力と同一の駆動状態における第2の車両の操作値を目的変数として学習を行う車両間特性差学習モデルを有する車両間特性差学習部と、
前記車両間特性差学習モデルに基づいて、前記操作内容推論部が出力する制御指令を前記第2の車両の操作値に変換する特性変換部と、
前記変換された前記第2の車両の操作値により前記第2の車両の操作を制御する車両操作制御部と、を備える自動操縦ロボットの制御装置。
【請求項3】
車両に搭載されて該車両を走行させる自動操縦ロボットを該車両が規定された指令車速に従って走行するように制御する、該自動操縦ロボットの制御方法であって、
強化学習アルゴリズムに基づいて前記車両を操作する制御指令を出力すること、
所定の駆動状態における第1の車両の操作値を入力として前記入力と同一の駆動状態における第2の車両の操作値を目的変数として学習を行う車両間特性差学習モデルを有すること、
前記車両間特性差学習モデルに基づいて、前記制御指令を前記第2の車両の操作値に変換すること、
前記変換された前記第2の車両の操作値により前記第2の車両の操作を制御すること、を含む自動操縦ロボットの制御方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、制御装置及び制御方法に関する。
【背景技術】
【0002】
一般に、普通自動車等の車両を製造して販売する際には、国又は地域において規定された、特定の走行パターン(以下、モードという)により車両を走行させた際の燃費及び排出ガスを測定する試験を行い、この試験結果を表示することが求められる。
モードは、例えば、走行開始からの時間と、到達すべき車速との関係のグラフにより表わすことが可能である。
到達すべき車速は、車両に与えられる達成すべき速度に関する指令という観点で、指令車速と呼ばれることがある。
燃費及び排出ガスを測定する試験は、シャシーダイナモメータ上に車両を載置し、車両に設置された自動操縦ロボット(ドライブロボット(登録商標))により、モードに従って車両を運転させることにより行われる。
指令車速には許容誤差範囲が規定されており、車速が許容誤差範囲外になると、その試験は無効となる。
そのため、自動操縦ロボットの制御には指令車速への高い追従性が求められ、自動操縦ロボットは、強化学習により学習された学習モデルにより制御される。
【0003】
強化学習では、車両等の実制御対象を実際に動作させ、その動作結果によって学習を進める必要があるが、学習初期には実制御対象にとって好ましくない行動(車両にとって好ましくない運転動作)をする可能性がある。
また、自動操縦ロボットの本来の目的は対象車両の試験を行うことであり、試験の準備に長時間の学習を要することは好ましいことではない。
解決策として、シミュレータを用いた机上での事前学習が考えられるが、対象車両のシミュレータを用意することは容易ではない。
【0004】
従来技術の一例である特許文献1には、車両モデルを作成して自動操縦ロボットを制御する操作推論学習モデルの強化学習により学習される学習システム及び学習方法が開示されている。
特許文献1では、機械学習手法によって車両特性を獲得したシミュレータによる事前学習が行われている。
従来技術の一例である特許文献2には、駆動力特性マップによりペダル操作の特性差を学習する技術が開示されている。
【先行技術文献】
【特許文献】
【0005】
【特許文献1】特開2020-148593号公報
【特許文献2】特開2005-297872号公報
【発明の概要】
【発明が解決しようとする課題】
【0006】
しかしながら、車両等の複雑系の制御対象の全ての特性を機械学習によって獲得するためには教師データとして膨大な走行データを要し、制御対象毎にシミュレータを構築することは容易ではなく、試験対象の制御対象毎にシミュレータを機械学習により1から構築して事前学習を行うことは運用上効率的ではない。
【0007】
本発明は、上記に鑑みてなされたものであって、過去に学習済みの制御対象の特性と現在の試験対象の制御対象の特性との差を有効に活用することで学習時間を従来よりも更に短縮することを目的とする。
【課題を解決するための手段】
【0008】
上述の課題を解決して目的を達成する本発明の一態様は、第1の制御対象及び第2の制御対象の状態が指令に一致するように前記第1の制御対象及び前記第2の制御対象を制御する制御装置であって、強化学習アルゴリズムに基づいて前記第1の制御対象及び前記第2の制御対象を操作する制御指令を出力する操作内容推論部と、所定の駆動状態における前記第1の制御対象の操作値を入力として前記入力と同一の駆動状態における前記第2の制御対象の操作値を目的変数として学習を行う制御対象間特性差学習モデルを有する制御対象間特性差学習部と、前記制御対象間特性差学習モデルに基づいて、前記操作内容推論部が出力する制御指令を前記第2の制御対象の操作値に変換する特性変換部と、前記変換された前記第2の制御対象の操作値により前記第2の制御対象の操作を制御する操作制御部と、を備える制御装置である。
【0009】
又は、上述の課題を解決して目的を達成する本発明の一態様は、車両に搭載されて該車両を走行させる自動操縦ロボットを該車両が規定された指令車速に従って走行するように制御する、該自動操縦ロボットの制御装置であって、強化学習アルゴリズムに基づいて前記車両を操作する制御指令を出力する操作内容推論部と、所定の駆動状態における第1の車両の操作値を入力として前記入力と同一の駆動状態における第2の車両の操作値を目的変数として学習を行う車両間特性差学習モデルを有する車両間特性差学習部と、前記車両間特性差学習モデルに基づいて、前記操作内容推論部が出力する制御指令を前記第2の車両の操作値に変換する特性変換部と、前記変換された前記第2の車両の操作値により前記第2の車両の操作を制御する車両操作制御部と、を備える自動操縦ロボットの制御装置である。
【0010】
又は、上述の課題を解決して目的を達成する本発明の一態様は、車両に搭載されて該車両を走行させる自動操縦ロボットを該車両が規定された指令車速に従って走行するように制御する、該自動操縦ロボットの制御方法であって、強化学習アルゴリズムに基づいて前記車両を操作する制御指令を出力すること、所定の駆動状態における第1の車両の操作値を入力として前記入力と同一の駆動状態における第2の車両の操作値を目的変数として学習を行う車両間特性差学習モデルを有すること、前記車両間特性差学習モデルに基づいて、前記制御指令を前記第2の車両の操作値に変換すること、前記変換された前記第2の車両の操作値により前記第2の車両の操作を制御すること、を含む自動操縦ロボットの制御方法である。
【発明の効果】
【0011】
本発明によれば、過去に学習済みの制御対象の特性と現在の試験対象の制御対象の特性とを有効に活用することで学習時間を従来よりも更に短縮することができる。
【図面の簡単な説明】
【0012】
【
図1】
図1は、実施形態における自動操縦ロボットであるドライブロボットを用いた試験環境の概要を示す図である。
【
図2】
図2は、実施形態における試験装置と、実施形態に係る自動操縦ロボットの制御装置と、を示す機能ブロック図である。
【
図3】
図3は、実施形態における試験装置と、実施形態に係る自動操縦ロボットの制御装置と、を示す機能ブロックの一部を示す図であって、車両特性取得走行制御部を説明するための図である。
【
図4】
図4は、実施形態におけるB車両を備える試験装置と、実施形態に係る自動操縦ロボットの制御装置と、を示す機能ブロックの一部を示す図であって、車両特性取得走行制御部を説明するための図である。
【
図5】
図5は、実施形態における試験装置と、実施形態に係る自動操縦ロボットの制御装置と、を示す機能ブロックの一部を示す図であって、学習データ記憶部を説明するための図である。
【発明を実施するための形態】
【0013】
以下、添付図面を参照して、本発明を実施するための形態について説明する。
ただし、本発明は、以下の実施形態の記載によって限定解釈されるものではない。
【0014】
図1は、本実施形態における自動操縦ロボットであるドライブロボット11を用いた試験環境の概要を示す図である。
図2は、本実施形態における試験装置1と、本実施形態に係る自動操縦ロボットの制御装置2と、を示す機能ブロック図である。
【0015】
試験装置1は、ドライブロボット11と、車両12と、シャシーダイナモメータ13と、車両状態計測部14と、を備える。
車両12は、試験環境の床面上に配置された、性能が計測される被試験車両であり、駆動輪121と、運転席122と、車両操作ペダル123a,123bと、を備える。
シャシーダイナモメータ13は、試験環境の床面の下方に設置され、路上に代えてシャシローラ上で車両12を走行させ、車両12の駆動特性を計測するための構成である。
車両12は、車両12の前輪である駆動輪121がシャシーダイナモメータ13の上に位置するように配置されている。
駆動輪121が回転する際には、シャシーダイナモメータ13は、駆動輪121の回転の反対方向に回転する。
【0016】
ドライブロボット11は、アクチュエータ110a,110bを備え、人間のドライバーに代えて車両12の運転席122に設置され、車両12を走行させる動作を行う機械である。
アクチュエータ110a,110bは、各々、車両操作ペダル123a,123bに当接する。
車両操作ペダル123a,123bの一方はアクセルペダルであり、他方はブレーキペダルである。
【0017】
ドライブロボット11は、制御装置2によって制御される。
制御装置2は、学習部20と、ドライブロボット制御部21と、車両間特性差学習部22と、を備える。
制御装置2は、車両12が規定された指令車速に従って走行するようにドライブロボット11のアクチュエータ110a,110bを制御し、車両操作ペダル123a,123bの開度を調整する。
すなわち、制御装置2は、車両12の車両操作ペダル123a,123bの開度を調整することで、規定された走行パターンであるモードに従うように、車両12の走行を制御する。
詳細には、制御装置2は、走行開始から時間が経過するに従って、各時刻に到達すべき車速である指令車速に従うように、車両12の走行を制御する。
【0018】
車両状態計測部14は、車両12の状態を計測する計測部又は外的に設置された計測部である。
ここで、車両12の状態としては、車両操作ペダル123a,123bの操作値を例示することができる。
ここで、外的に設置された計測部としては、車両操作ペダル123a,123bの操作値を計測するカメラ又は赤外線センサ等を例示することができる。
【0019】
学習部20は、指令車速生成部200と、強化学習部201と、学習データ成型部202と、学習データ記憶部203と、学習データ生成部204と、推論データ成型部205と、変換データ成型部206と、を備え、ドライブロボット制御の学習を行う。
【0020】
指令車速生成部200は、ドライブロボット制御の推論を行う際に、入力データとして使用する指令車速を生成する。
強化学習部201は、報酬計算部2010と、操作内容推論部2011と、状態行動価値推論部2012と、特性変換部2013と、を備え、ドライブロボット制御の強化学習を行う。
強化学習部201は、演算部により実現される。
報酬計算部2010は、行動後の状態に対する強化学習の報酬を計算する。
操作内容推論部2011は、第1学習モデルを有し、状態の入力に対して、ドライブロボット11の操作内容である制御指令(操作指令)を出力する。
ここで、モデル初期値としては他の車両において学習済みのパラメータが設定される。
状態行動価値推論部2012は、第2学習モデルを有し、状態と行動の入力に対して、時間割引された期待収益であるQ値を計算する。
特性変換部2013は、車両間特性差学習モデルを有し、第1学習モデルの出力を制御対象の車両12の特性に合うように変換する。
【0021】
学習データ成型部202は、強化学習部201で使用される学習データが学習データ記憶部203に記憶される際に、学習方法等に合わせて、適切なデータ形式(形及び組)に変換することでデータ成型を行う。
学習データ記憶部203は、強化学習部201における強化学習に用いる学習データを記憶する。
学習データ生成部204は、学習に際して、学習データ記憶部203のデータを適切な形、組又は数として強化学習部201における強化学習に用いる学習データとして生成する。
推論データ成型部205は、操作内容推論部2011への入力として使用する観測状態と、指令車速とを、第1学習モデルのニューラルネットワークへ入力するためのデータ形式に変換することでデータ成型を行う。
変換データ成型部206は、特性変換部2013への入力として使用する駆動状態を、車両間特性差学習モデルのニューラルネットワークへ入力するためのデータ形式に変換することでデータ成型を行う。
【0022】
ドライブロボット制御部21は、駆動状態取得部211と、車両操作制御部212と、を備え、ドライブロボット11の状態を観測しつつドライブロボット11に制御指令を与える。
ドライブロボット制御部21は、演算部により実現される。
駆動状態取得部211は、ドライブロボット11の状態、例えばドライブロボット11のペダル操作検出値の状態を取得する。
車両操作制御部212は、入力されたペダル操作指令をドライブロボット11のアクチュエータ110a,110bへの指令に変換することで車両12の操作を制御する。
【0023】
車両間特性差学習部22は、第1学習モデルの初期パラメータに設定される学習済み車両と制御対象の車両との車両間特性差を学習し、学習済み車両に応じた第1学習モデルの出力を制御対象車両の特性に合うように変換するモデルを生成する。
【0024】
図3は、本実施形態における試験装置1と、本実施形態に係る自動操縦ロボットの制御装置2の一部と、を示す機能ブロック図であって、車両特性取得走行制御部207を説明するための図である。
図3に示す制御装置2には、車両特性取得走行制御部207と、ドライブロボット制御部21と、学習データ成型部202と、車両間特性差学習部22と、が示されている。
車両特性取得走行制御部207は、特性取得ペダル制御部2070を備え、車両特性を取得するための既定の運転となるペダル操作指令を含む指令をドライブロボット制御部21に出力する。
特性取得ペダル制御部2070は、車両特性を取得するための既定の運転となるペダル操作指令を生成する。
ここでは、学習データ成型部202は、車両特性を示すデータが学習データ記憶部203に記憶される際に、学習方法等に合わせて、適切なデータ形式(形及び組)に変換することでデータ成型を行う。
車両間特性差学習部22は、ニューラルネットワークで構成される車両間特性差学習モデルを有し、車両間特性差学習モデルは、学習データ記憶部203に記憶された、異なる2つの車両の車両特性を示すデータから所望のいずれかの特性の差を学習する。
車両間特性差学習モデル記憶部220は、学習済みの車両間特性差学習モデルを記憶する。
【0025】
なお、
図2,3において、矢印で結ばれた各構成の間は、有線又は無線により接続されている。
【0026】
車両間特性差学習部22は、
図3に示す構成により、異なる2つの車両の走行データを取得して学習データ記憶部203に記憶し、この走行データを教師データとして2つの車両間の車両特性の差を学習する。
ここでは、特許文献2に開示された駆動力特性マップによりペダル操作の特性差を学習する例について説明する。
なお、ここで、2つの車両を各々A車両及びB車両と称し、A車両についてはドライブロボット制御の強化学習を学習済みであり、B車両についてのドライブロボット制御を行う。
【0027】
図4は、本実施形態におけるB車両12Bを備える試験装置1Bと、本実施形態に係る自動操縦ロボットの制御装置2の一部と、を示す機能ブロック図であって、車両特性取得走行制御部207を説明するための図である。
まず、ドライブロボット11は、
図4に示す構成により、B車両に対して特性取得ペダル操作制御部2070の出力するペダル操作指令値によって走行を行う。
駆動状態取得部211は、駆動力特性マップの生成に必要な、走行時のペダル開度、速度及び駆動力を取得する。
学習データ成型部202は、走行時のペダル開度、速度及び駆動力を所望のフォーマットに変換する。
学習データ記憶部203Bは、学習データ成型部202によって変換されたB車両のデータを記憶する。
【0028】
図5は、本実施形態における試験装置1と、本実施形態に係る自動操縦ロボットの制御装置2の一部と、を示す機能ブロック図であって、学習データ記憶部203Aを説明するための図である。
図5に示すように、学習データ記憶部203は、学習データ記憶部203A及び学習データ記憶部203Bを含む。
学習データ記憶部203Aは、強化学習済みのA車両の車両特性学習データを記憶する。
学習データ記憶部203Bは、試験対象であるB車両の車両特性学習データを記憶する。
図5に示すように、A車両の車両特性学習データとB車両の車両特性学習データとは、区別して記憶されている。
【0029】
車両間特性差学習部22においては、車両間特性差学習モデルが、A車両における速度及び駆動力時におけるペダル開度を入力とし、入力と同一となる速度及び駆動力時のB車両のペダル開度を目的変数として学習を行う。
これにより、車両間特性差学習モデルは、車両の所定の駆動状態(所定の速度及び駆動力)におけるA車両のペダル操作開度が入力されると、同じ駆動状態におけるB車両のペダル操作開度が出力されるニューラルネットワークモデルを有する。
学習済みのニューラルネットワークモデルのパラメータは、
図3に示す車両間特性差学習モデル記憶部220に記憶され、B車両のドライブロボット制御を行う際に初期パラメータとして設定される。
【0030】
ここでは、具体例として、駆動力特性マップを用いて車両の速度及び駆動力をキーとしてA車両とB車両のペダル操作指令の変換を行うモデルとしているが、本発明はこれに限定されるものではなく、ドライブロボットの強化学習において、ペダル操作値以外の車両特性を用いるために他の所望の目的変数及び入力データが用いられてもよい。
【0031】
試験対象であるB車両によるドライブロボット制御の各強化学習モデルでは、過去に学習されたA車両の第1学習モデル及び第2学習モデルの学習済みパラメータが初期値として設定される。
また、車両間特性差学習モデルでは、上述の車両間特性差の学習において学習された、車両間特性差学習モデルの学習済みパラメータが初期値として設定される。
【0032】
強化学習における走行において、車両間特性差学習モデルは、A車両で学習済みの第1学習モデルが出力するペダル操作指令値と、試験装置から取得される車両の速度及び駆動力と、を入力とし、B車両に対応するペダル操作値を出力し、ドライブロボットは、このペダル操作値によって車両を操作する。
【0033】
本実施形態によれば、過去に学習済みの車両(A車両)の特性と現在の試験対象の車両(B車両)の特性とを有効に活用することで、学習時間を従来よりも更に短縮することができる。
【0034】
なお、本実施形態では、制御対象を車両とし、制御対象の状態を車速とし、指令がペダル操作値である場合、すなわち、車両に搭載されて該車両を走行させる自動操縦ロボットを該車両が規定された指令車速に従ってペダルを操作して走行するように制御する、該自動操縦ロボットの制御装置について説明したが、本発明は、これに限定されるものではない。
すなわち、第1の制御対象及び第2の制御対象の状態が指令に一致するように前記第1の制御対象及び前記第2の制御対象を制御する制御装置であって、強化学習アルゴリズムに基づいて前記第1の制御対象及び前記第2の制御対象を操作する制御指令を出力する操作内容推論部と、所定の駆動状態における前記第1の制御対象の操作値を入力として前記入力と同一の駆動状態における前記第2の制御対象の操作値を目的変数として学習を行う制御対象間特性差学習モデルを有する制御対象間特性差学習部と、前記制御対象間特性差学習モデルに基づいて、前記操作内容推論部が出力する制御指令を前記第2の制御対象の操作値に変換する特性変換部と、前記変換された前記第2の制御対象の操作値により前記第2の制御対象の操作を制御する操作制御部と、を備える制御装置も本発明に含まれるものである。
【0035】
なお、本発明は、上述の実施形態に限定されるものではなく、上述の構成に対して、構成要素の付加、削除又は転換を行った様々な変形例も含むものとする。
【符号の説明】
【0036】
1,1B 試験装置
11 ドライブロボット
110a,110b アクチュエータ
12,12A,12B 車両
121 駆動輪
122 運転席
123a,123b 車両操作ペダル
13 シャシーダイナモメータ
14 車両状態計測部
2 制御装置
20 学習部
200 指令車速生成部
201 強化学習部
2010 報酬計算部
2011 操作内容推論部
2012 状態行動価値推論部
2013 特性変換部
202 学習データ成型部
203,203A,203B 学習データ記憶部
204 学習データ生成部
205 推論データ成型部
206 変換データ成型部
207 車両特性取得走行制御部
2070 特性取得ペダル操作制御部
21 ドライブロボット制御部
211 駆動状態取得部
212 車両操作制御部
22 車両間特性差学習部
220 車両間特性差学習モデル記憶部