(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024001584
(43)【公開日】2024-01-10
(54)【発明の名称】自動操縦ロボットの制御装置及び制御方法
(51)【国際特許分類】
G01M 17/007 20060101AFI20231227BHJP
【FI】
G01M17/007 D
【審査請求】未請求
【請求項の数】6
【出願形態】OL
(21)【出願番号】P 2022100325
(22)【出願日】2022-06-22
(71)【出願人】
【識別番号】000006105
【氏名又は名称】株式会社明電舎
(71)【出願人】
【識別番号】504182255
【氏名又は名称】国立大学法人横浜国立大学
(74)【代理人】
【識別番号】110002077
【氏名又は名称】園田・小林弁理士法人
(72)【発明者】
【氏名】吉田 健人
(72)【発明者】
【氏名】濱上 知樹
(57)【要約】
【課題】強化学習においてある車両で獲得した制御方策を、未知の車両へ容易に転移することが可能となる、自動操縦ロボットの制御装置及び制御方法を提供する。
【解決手段】車両2に搭載されて前記車両2を走行させる自動操縦ロボット(ドライブロボット)4を、前記車両2が規定された指令車速に従って走行するように制御する、自動操縦ロボット4の制御装置10であって、前記車両2の駆動状態と前記指令車速に基づいて、第1学習モデル7、7aにより、前記車両2の操作内容を出力する制御部20と、前記第1学習モデル7、7aと前記操作内容を評価する第2学習モデル9とを強化学習する学習部30とを備え、前記強化学習は、TD3法によって行われ、前記第1学習モデルは、ANFISで構成される。
【選択図】
図2
【特許請求の範囲】
【請求項1】
車両に搭載されて前記車両を走行させる自動操縦ロボットを、前記車両が規定された指令車速に従って走行するように制御する、自動操縦ロボットの制御装置であって、
前記車両の駆動状態と前記指令車速に基づいて、第1学習モデルにより、前記車両の操作内容を出力する制御部と、
前記第1学習モデルと前記操作内容を評価する第2学習モデルとを強化学習する学習部とを備え、
前記強化学習は、TD3法によって行われ、前記第1学習モデルは、ANFISで構成される、自動操縦ロボットの制御装置。
【請求項2】
前記第1の学習モデルの転移学習は、ANFISのLayer4のみを追加学習する、請求項1に記載の自動操縦ロボットの制御装置。
【請求項3】
複数の前記第1学習モデルを備え、これら複数の前記第1学習モデルを並列に結合し重み付けを施したモデルを第1学習モデルとする、請求項1または2に記載の自動操縦ロボットの制御装置。
【請求項4】
車両に搭載されて前記車両を走行させる自動操縦ロボットを、前記車両が規定された指令車速に従って走行するように制御する、自動操縦ロボットの制御方法であって、
前記車両の駆動状態と前記指令車速に基づいて、第1学習モデルにより、前記車両の操作内容を出力すること、
前記第1学習モデルと前記操作内容を評価する第2学習モデルとを強化学習すること、
前記強化学習は、TD3法によって行われ、前記第1学習モデルは、ANFISで構成される、自動操縦ロボットの制御方法。
【請求項5】
前記第1の学習モデルの転移学習は、ANFISのLayer4のみを追加学習する、請求項4に記載の自動操縦ロボットの制御方法。
【請求項6】
複数の前記第1学習モデルを備え、これら複数の前記第1学習モデルを並列に結合し重み付けを施したモデルを第1学習モデルとする、請求項4または5に記載の自動操縦ロボットの制御方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、車両を走行させる自動操縦ロボットの制御装置及び制御方法に関する。
【背景技術】
【0002】
一般に、普通自動車などの車両を製造、販売する際には、国や地域により規定された、特定の走行パターン(モード)により車両を走行させた際の燃費や排出ガスを測定し、これを表示する必要がある。モードは、例えば、走行開始から経過した時間と、その時に到達すべき車速との関係として、グラフにより表わすことが可能である。この到達すべき車速は、車両へ与えられる達成すべき速度に関する指令という観点で、指令車速と呼ばれることがある。上記のような、燃費や排出ガスに関する試験は、シャシーダイナモメータ上に車両を載置し、車両に搭載された自動操縦ロボット、所謂ドライブロボット(登録商標)により、モードに従って車両を運転させることにより行われる。
【0003】
指令車速には、許容誤差範囲が規定されている。車速が許容誤差範囲を逸脱すると、その試験は無効となるため、自動運転装置には、指令車速への高い追従性が求められる。この目的のため、特許文献1には、強化学習を用いた速度追従のための自動操縦ロボットの制御装置及び制御方法が開示されている。
【先行技術文献】
【特許文献】
【0004】
【発明の概要】
【発明が解決しようとする課題】
【0005】
引用文献1に記載の強化学習を用いた速度追従の制御では、学習に非常に多くの試行を必要とするため、最適な方策の学習に時間がかかることや、学習に使用した車両に過学習するため、特性の異なる他の車両での方策使用が容易ではないなどの恐れがある。そのため、試験走行の対象車両が変わるたびに長時間の学習が必要となる等の課題が生じる。
【0006】
本発明は、上述した実情に鑑みてなされたものであり、本発明が解決しようとする課題は、強化学習においてある車両で獲得した制御方策を、未知の車両へ容易に転移することが可能となる、自動操縦ロボットの制御装置及び制御方法を提供することである。
【課題を解決するための手段】
【0007】
本発明は、上記課題を解決するため、以下の手段を採用する。
すなわち、本発明の自動操縦ロボットの制御装置は、車両に搭載されて前記車両を走行させる自動操縦ロボットを、前記車両が規定された指令車速に従って走行するように制御する、自動操縦ロボットの制御装置であって、前記車両の駆動状態と前記指令車速に基づいて、第1学習モデルにより、前記車両の操作内容を出力する制御部と、前記第1学習モデルと前記操作内容を評価する第2学習モデルとを強化学習する学習部とを備え、前記強化学習は、TD3法によって行われ、前記第1学習モデルは、ANFISで構成される。
【0008】
本発明の、自動操縦ロボットの制御装置は、制御に使用される学習モデルが、ANFISで構成され、TD3法によって強化学習されるので、ある車両で獲得した方策をほかの車両へ容易に転移することができる。
【0009】
本発明の一態様では、前記第1の学習モデルの転移学習は、ANFISのLayer4のみを追加学習する。
この一態様では、転移学習されるのは、ANFISのLayer4のみであるので、転移学習が容易で比較的少ない工程で行うことができる。
【0010】
本発明の一態様では、複数の前記第1学習モデルを備え、これら複数の前記第1学習モデルを並列に結合し重み付けを施したモデルを第1学習モデルとする。
この一態様では、第1学習モデルとして複数のモデルをアンサンブルするので、多様なモデルの最適な部分を適用して第1学習モデルを構成することができる。
【0011】
本発明の自動操縦ロボットの制御方法は、車両に搭載されて前記車両を走行させる自動操縦ロボットを、前記車両が規定された指令車速に従って走行するように制御する、自動操縦ロボットの制御方法であって、前記車両の駆動状態と前記指令車速に基づいて、第1学習モデルにより、前記車両の操作内容を出力すること、前記第1学習モデルと前記操作内容を評価する第2学習モデルとを強化学習すること、前記強化学習は、TD3法によって行われ、前記第1学習モデルは、ANFISで構成される。
【0012】
本発明の、自動操縦ロボットの制御方法は、制御に使用される学習モデルが、ANFISで構成され、TD3法によって強化学習されるので、ある車両で獲得した方策をほかの車両へ容易に転移することができる。
【0013】
本発明の一態様では、前記第1の学習モデルの転移学習は、ANFISのLayer4のみを追加学習する。
この一態様では、転移学習されるのは、ANFISのLayer4のみであるので、転移学習が容易で比較的少ない工程で行うことができる。
【0014】
本発明の一態様では、複数の前記第1学習モデルを備え、これら複数の前記第1学習モデルを並列に結合し重み付けを施したモデルを第1学習モデルとする。
この一態様では、第1学習モデルとして複数のモデルをアンサンブルするので、多様なモデルの最適な部分を適用して第1学習モデルを構成することができる。
【発明の効果】
【0015】
本発明によれば、強化学習においてある車両で獲得した制御方策を、未知の車両へ容易に転移することが可能となる、自動操縦ロボットの制御装置及び制御方法を提供することができる。
【図面の簡単な説明】
【0016】
【
図1】本発明の実施形態における、自動操縦ロボットを用いた試験環境の説明図である。
【
図2】本発明の実施形態における、自動操縦ロボットの制御装置のブロック図である。
【
図3】本発明の実施形態における、TD3法における強化学習を説明する模式図である。
【
図4】本発明の実施形態における、ANFISで構成された第1学習モデルの構成を示す模式図である。
【
図5】本発明の実施形態における、自動操縦ロボットの制御装置の要部のブロック図である。
【発明を実施するための形態】
【0017】
以下、添付図面を参照して、本発明の実施の形態について説明する。
(第1実施形態)
本実施形態における自動操縦ロボットの制御装置は、車両に搭載されて前記車両を走行させる自動操縦ロボットを、前記車両が規定された指令車速に従って走行するように制御する、自動操縦ロボットの制御装置であって、前記車両の駆動状態と前記指令車速に基づいて、第1学習モデルにより、前記車両の操作内容を出力する制御部と、前記第1学習モデルと前記操作内容を評価する第2学習モデルとを強化学習する学習部とを備え、前記強化学習は、TD3法によって行われ、前記第1学習モデルは、ANFISで構成される。
本実施形態においては、自動操縦ロボットとしては、ドライブロボット(登録商標)を用いているため、以下、自動操縦ロボットをドライブロボットと記載する。
【0018】
図1は、本実施形態におけるドライブロボットを用いた試験環境の説明図である。試験装置1は、車両2、シャシーダイナモメータ3、及びドライブロボット4を備えている。
車両2は、床面上に設けられている。シャシーダイナモメータ3は、床面の下方に設けられている。車両2は、車両2の駆動輪2aがシャシーダイナモメータ3の上に載置されるように、位置づけられている。車両2が走行し駆動輪2aが回転する際には、シャシーダイナモメータ3が反対の方向に回転する。
ドライブロボット4は、車両2の運転席2bに搭載されて、車両2を走行させる。ドライブロボット4は、第1アクチュエータ4cと第2アクチュエータ4dとを備えており、これらはそれぞれ、車両2のアクセルペダル2cとブレーキペダル2dに当接するように設けられている。
【0019】
ドライブロボット4は、制御装置10によって制御されている。より詳細には、制御装置10は、ドライブロボット4の第1アクチュエータ4cと第2アクチュエータ4dを制御することにより、車両2のアクセルペダル2cとブレーキペダル2dの開度を変更、調整する。
【0020】
制御装置10は、ドライブロボット4を、車両2が規定された指令車速に従って走行するように制御する。すなわち、制御装置10は、車両2のアクセルペダル2cとブレーキペダル2dの開度を変更することで、規定された走行パターン(モード)に従うように、車両2を走行制御する。より詳細には、制御装置10は、走行開始から時間が経過するに従い、各時間に到達すべき車速である指令車速に従うように、車両2を走行制御する。
【0021】
制御装置10は、互いに通信可能に設けられた、制御部20と、学習部30と、を備えている。制御部20は、ドライブロボット4の制御を行うための制御信号を生成し、ドライブロボット4に送信することで、ドライブロボット4を制御する。学習部30は、後に説明するような機械学習器に対して強化学習を行い、学習モデルを生成する。この学習モデルの出力を基に、ドライブロボット4の制御を行うための制御信号が生成される。制御部20は、例えば、ドライブロボット4の筐体外部に設けられた、コントローラ等の情報処理装置である。学習部30は、例えばパーソナルコンピュータ等の情報処理装置である。
【0022】
図2は、試験装置1と制御装置10とのブロック図である。
図2においては、データや処理の流れが矢印で示されている。第1学習モデル7、7aのデータの流れは、破線で示されている。試験装置1は、前述した車両2、シャシーダイナモメータ3、及びドライブロボット4に加え、車両状態計測部5を備えている。車両状態計測部5は、車両2の状態を計測する計測部又は外的に設置された計測部である。ここで、車両2の状態としては、車両2のアクセルペダル2c、ブレーキペダル2dの操作値を例示することができる。ここで、外的に設置された計測部としては、車両2のアクセルペダル2c、ブレーキペダル2dの操作値を計測するカメラ又は赤外線センサ等を例示することができる。尚、試験装置1は、シミューレータとして実装されてもよい。
【0023】
制御装置10は、前述した制御部20、学習部30に加え、指令車速生成部11を備えている。指令車速生成部11は、ドライブロボット制御の推論を行う際に、入力データとして使用する指令車速を生成する。制御部20は、車両操作制御部21、及び駆動状態取得部23を備えている。学習部30は、強化学習部31、学習済みモデル記憶部33、学習データ記憶部35、学習データ生成部37、及び学習データ成型部39を備えている。
【0024】
これら制御装置10の構成要素のうち、車両操作制御部21、駆動状態取得部23、強化学習部31、学習データ生成部37、及び学習データ成型部39は、例えば上記の各情報処理装置内のCPUにより実行されるソフトウェア、プログラムであってよい。また、学習済みモデル記憶部33、学習データ記憶部35、及び指令車速生成部11は、上記各情報処理装置内外に設けられた半導体メモリや磁気ディスクなどの記憶装置により実現されていてよい。
【0025】
まず、制御部20に係る構成要素の挙動を説明する。指令車速生成部11は、モードに関する情報に基づいて指令車速を生成する。モードは、例えば、走行開始から経過した時間と、その時に到達すべき車速との関係であり、したがって指令車速生成部11には、実際には、経過時間と指令車速の関係が表現された、例えばテーブルやグラフ、関数等が格納されている。
【0026】
駆動状態取得部23は、現在時点における、車両2の駆動状態を取得する。車両2の駆動状態は、試験装置1の車両状態計測部5、やシャシーダイナモ3、及び車両2を操作するドライブロボット4内に記録された操作実績から取得され得る。すなわち、車両2の駆動状態は、現在時点における車両2の動作状況を数値化して表現したものであり、この値を取得する手段は、車両状態計測部5の計測器による計測値に限られず、シャシーダイナモ3、ドライブロボット4によって取得可能な値をも含む。
【0027】
具体的な駆動状態としては、前回の駆動状態取得時刻からのアクセルペダル操作の、ドライブロボット4の操作実績中の操作量(以下、アクセルペダル検出量と呼称する)、前回の駆動状態取得時刻からのブレーキペダル操作の、ドライブロボット4の操作実績中の操作量(以下、ブレーキペダル検出量と呼称する)、車両2において検出されたエンジン回転数(以下、エンジン回転数検出量と呼称する)、車両2において検出された車速(以下、検出車速と呼称する)を含む。駆動状態は、更に、当該駆動状態が取得された時刻において、車両2が実現すべき指令車速を含む。
【0028】
上記の駆動状態の各々は、スカラー値であってもよいが、複数の値により実現されていてもよい。駆動状態の各々は、後述する機械学習器を学習させて学習モデル(第1学習モデル7、7a)を生成する際の入力として主に使用される。このため、駆動状態の各々に関し、駆動状態が取得された時点のみではなく、その前後の複数の時刻において値を取得し、機械学習器の入力とすることにより、過去の経過や将来の推測を活かしてより効果的に学習することができる可能性がある。例えば、アクセルペダル検出量、ブレーキペダル検出量、エンジン回転数検出量、検出車速等の、車両2の状態を実際に観測、計測することにより取得される駆動状態については、機械学習器の学習アルゴリズムにおいて使用する過去の観測データの参照時間を観測データ参照時間Tobsとすると、観測データ参照時間Tobsの系列として、複数の値を有していてもよい。
【0029】
また、上記のような観測データとは異なり、指令車速生成部11に値が格納されており全ての時刻における値が随時参照可能な状態となっている指令車速については、機械学習器の学習アルゴリズムにおいて使用する将来の指令車速の参照時間を指令車速参照時間Trefとすると、指令車速参照時間Trefの系列として、複数の値を有していてもよい。本実施形態においては、駆動状態の各々は、複数の値により実現されている。
【0030】
駆動状態取得部23は、車両2に備えられた様々な図示されない計測器やドライブロボット4内に記録された操作実績等から、アクセルペダル検出量、ブレーキペダル検出量、エンジン回転数検出量、検出車速を取得する。また、駆動状態取得部23は、指令車速生成部11から、指令車速を取得する。駆動状態取得部23は、これらの取得した駆動状態を、学習部30へ送信する。
【0031】
車両操作制御部21は、駆動状態取得部23が送信した車両2の駆動状態を基に、当該時刻よりも後の車両2の操作の内容を推論する。車両操作制御部21は、この推論した操作の内容を基にしてドライブロボット4を制御する制御信号を生成し、ドライブロボット4へ送信する。この、車両2の操作内容の推論は、後述する強化学習部31において強化学習された第1学習モデル7aに基づいて行われる。
図2に示すように、学習済み第1学習モデル7aは、学習済みモデル記憶部33から読み出される。
【0032】
次に、学習部30の構成要素の挙動を説明する。前述の駆動状態取得部23から送信された車両2の駆動状態は、報酬計算部31cと学習データ成型部39に送られる、報酬計算部31cでは、受信した車両2の駆動状態を評価しその好ましさに基づいて強化学習に際し、必要となる値である報酬を計算する。ここで報酬は、例えば指令車速と検出車速の差などに基き速度追従の度合いが計算される。計算された報酬の値は、車両2の駆動状態と共に学習データ成型部39に送られる。
【0033】
学習データ成型部39は、強化学習部31で使用される学習データを適切なデータ形式
に成型する。成型されたデータは、学習データ記憶部35に送信され記憶される。記憶されたデータは、学習データ記憶部35から読み出されて強化学習の入力データとして利用される。その際、学習データ記憶部35から読み出されたデータは、学習データ生成部37において、学習方法などに合わせた形、組、数に整えた後、強化学習部31に送信される。
【0034】
強化学習部31は、車両2の駆動状態と指令車速に基づいて、車両2の操作内容を推論する第1学習モデルを強化学習する操作内容推論部31aと、第2学習モデルを有し、操作内容を評価すると共に第2学習モデルを強化学習する価値推論部31bと前述した報酬計算部31cとを備えている。本実施形態では、後述する様に強化学習の手法として、TD3(Twin Delayed DDPG)法が用いられている。
図2において学習部30は、簡略的に各ブロック、そのデータ、処理の流れを記載しているが、それぞれのブロックは、何らかの通信手段で相互に接続され得る。強化学習部31において強化学習された第1学習モデル7は、学習済みモデル記憶部33に保存される。
【0035】
<TD3法>
図3は、強化学習部31において行われる強化学習の手法であるTD3(Twin Delayed DDPG)を説明する模式図である。TD3はActor-Critic型の深層強化学習アルゴリズムである。Actor-Criticは、制御方策に当たるActorと、価値予測を行うCriticを共に用いて強化学習を行う学習手法である。本実施形態では、第1学習モデルがActor、第2学習モデルがCriticに該当する。厳密にはTD3では2つの第2学習モデルを有し、値の小さい出力値を学習に採用する。また学習上の工夫で、第1学習モデル、第2学習モデルともに少し前の学習状態で固定して複製したTargetネットワークが学習損失計算時に使用されることもある。一般に深層強化学習では、Actor、Criticともに(深層の)ニューラルネットワークで表現されるが、本実施形態ではActor(第1学習モデル)を後述するANFIS(Adaptive-Network-based Fuzzy Inference System)として表現する。
【0036】
図3に示すように、TD3においては、Enviroment43(車両2を含む試験環境)を観測(Observation)することによってState44(車両2の駆動状態)が抽出される。State44は、Actor41(第1学習モデル)とCritic42(第2学習モデル)とに送られる。Actor41は、State44に基づいて、次のAction(車両2の操作内容)を推論する。Environment43からはその時のActionに対するReword(報酬)が計算され、Critic42は、State44に基づいて、現時点でとられたActionに対するQ Value45(Q値)を推論する。ここでQ Value45とは、現時点でのActionに対する価値であって、報酬(Reward)の要素を含み、現時点でのState44から次に取り得るActionに対する総合的な価値として計算される。また、Q Value45やReward等に基づいた、取るべき所望のActionと現在のActionとの差を計算し(Actor Loss47)、この計算結果に基づいて、Actor41のUpdate(学習結果のフィードバック)が行われる。同様に、Critic42によって推論されたQ Value45と、計算された実際のQ Valueとの差が計算され(Critic Loss46)、この計算結果に基づいて、Critic42のUpdate(学習結果のフィードバック)が行われる。
【0037】
<ANFIS>
図4は、ANFIS(Adaptive-Network-based Fuzzy Inference System)で構成された第1学習モデル7、7aの構成を示す模式図である。
図4に示すように、ANFISは、入力層50と、出力層55を備え、その間には、4つの隠れ層、Layer1(51)、Layer2(52)、Layer3(53)、Layer4(54)を備えている。ANFISはLayer1(51),Layer4(54)のみがパラメータを持つ学習箇所で、Layer2(52)、Layer3(53)、出力層55は計算方法が規定された計算パスとなっている。すなわち、Actor41の学習においては、Layer1、Layer4のパラメータがTD3によって獲得されることとなる。
図4においては、学習対象を円形のノード、非学習対象を四角形のノードで表している。
【0038】
次に、各Layer層についてその動作を説明する。入力層50には、x1、x2が入力される。Layer1(51)は、ファジィレイヤーと呼ばれ、入力値x1、x2のファジィ化を実行する。すなわち入力値x1、x2に対して、人間の感覚的な尺度である、低、中、高などを規定する。各ノードA1、A2、B1、B2は、それぞれ低、中、高、等の感覚的概念に相当する。ここで、x1がノードA1に入力される場合は、if x1 is A1(もしx1がA1ならば)を表現することになる。同様に、x2がノードB1に入力される場合は、if x2 is B1(もしx2がB1ならば)を表現することになる。
【0039】
Layer2(52)は、ルールレイヤーと呼ばれ、Layer1(51)から受け取った出力の組み合わせを設定する。図中w1は、
if x1 is A1 and x2 is B1
を表現している。
図中w2は、
if x1 is A2 and x2 is B2
を表現している。
【0040】
Layer3(53)は、正規化レイヤーと呼ばれ、Layer2(52)で設定された組合せの正規化の重み付けwu1、wu2を設定する。Layer4(54)は、脱ファジィレイヤーと呼ばれ、Layer3(53)から受け取った正規化の重み付けと、元の入力x1、x2を受け取り、各入力の重みとバイアスを設定し、それに正規化の重みをつけて出力する。最終的には、入力から出力にいたる処理によって例えば下記の推論が表現される。
if x1 is A1 and x2 is B1、then y1=p1x1+q1x2+r1
ここで、x1、x2は、入力、y1は、出力、A1、B1は、ファジィ化のための前件部パラメータ、p1、q1、r1は、重み付けやバイアスのための後件部パラメータである。Layer4(54)では、上記の重み付けとバイアスが付与された出力y1、y2が計算され、さらにこれらの出力y1、y2に正規化の重み付けwu1、wu2が付された値が各ノードから出力層(55)に送られる。出力層(55)では、それらをまとめて出力する。Layer1(51)では、ファジィ化のための前件部パラメータA1、A2、B1、B2等が強化学習の対象である。Layer4(54)では、重み付けやバイアスのための後件部パラメータp1、q1、r1等が、強化学習の対象となる。
【0041】
次に、上述のように構成されたドライブロボット4の制御装置10の動作について説明する。
<事前学習>
最初に、対象車両に対して、第1学習モデル7、7a、第2学習モデル9の機械学習が行われる。事前学習時には、Actor41(ANFIS、第1学習モデル7)のLayer1、Layer4、Critic42(第2学習モデル9)の全体が学習対象となる。特定の学習対象車両を走行させ学習データを蓄積して、学習を進行させる。
【0042】
具体的には、
図2において、学習対象の車両2を試験装置に搭載し、1サイクル分の指令車速のセットに従って試験装置1、制御装置10を駆動する。このとき学習済み第1学習モデル7aとしては、初期値設定のモデルを使用し、指令車速と車両2の駆動状態に基づいてドライブロボット4への操作内容を推論し、その操作内容に基づいてドライブロボット4を制御する。このときの時系列の指令車速を含む車両2の駆動状態は、学習部30に送られて、学習データとして学習データ記憶部35に記憶される。
【0043】
1サイクル分の指令車速のセットが、1エピソード分の学習データのセットとなる。試験装置1を駆動することによって、このような学習データのエピソードを複数セット用意する。この複数のエピソードについて、学習部30では、TD3法によって、第1学習モデル7と第2学習モデル9の強化学習を行う。強化学習が済んだ第1学習モデルは、学習済みモデル記憶部33に送られる。次回において、車両2の走行試験を行う際には、制御部20によって、学習済みモデル記憶部33から学習済み第1学習モデル7aが読み出されて、走行試験時のドライブロボット4の制御に使用される。
【0044】
<転移学習>
学習済みの第1学習モデル7、7aおよび第2学習モデル9を別の車両2の学習に転移(再利用)して、少ない追加学習コストで、新たな対象車両での学習を実現する。この転移学習時には、追加学習コストの低減のため、Actor41(ANFIS,第1学習モデル7)内ではLayer1(51)は追加学習せずLayer4(54)のみを追加学習する。Critic42(第2学習モデル9)は事前学習状態から継続学習することを基本とするが、初期化もしくは固定してもよい。一連の強化学習の処理、データの流れは、前述の事前学習と同等である。
【0045】
以上述べたように、本実施形態では、強化学習にTD3法を用い、第1学習モデル7、7aがANFISで構成される。したがって、強化学習においてある車両で獲得した制御方策を、未知の車両へ容易に転移することが可能となる。転移学習時には、ANFISのLayer4のみを追加学習するので、従来の強化学習に比べて少ないエピソード数で、強化学習の効果を高めることが可能となり運用時の強化学習のコストを低減することができる。また、TD3法のActor(第1学習モデル)としてANFISを用いているので、制御手法が人の感覚に近づけたものであることにより、処理がブラックボックス化せずに、改良を要する点を明確にすることができる。
【0046】
(第2実施形態)
図5は、本実施形態におけるドライブロボット4の制御装置10の操作内容推論部31aの拡大図である。本実施形態が第1実施形態と異なるのは、
図5に示すように、第1学習モデル7bの構成である。本実施形態では、複数の第1学習モデル71、72、73、・・・7Nを備え、これら複数の第1学習モデル71、72、73、・・・7Nを並列に結合し重み付けw
1、w
2、w
3、・・・、w
Nを施したモデルを新たな第1学習モデル7bとする。これらの第1学習モデルは、事前学習した複数の第1学習モデルをそのまま用いてもよいし、事前学習モデルを“アンサンブル”した追加学習構成としてもよい。このとき、w
1+w
2+w
3+・・・+w
N=1である。アンサンブルの重みは、w
n=1/Nとしてもよいし、何らかのモデル寄与度を考慮して個々に重みを決定してもよい。この重み自体を強化学習の対象としてもよい。本実施形態では、第1実施形態の作用効果に加え、複数の第1学習モデルを並列に並べて出力値に重み付けするので、複数の事前学習モデルを活用して転移学習時の汎化性を向上させることができる。
【符号の説明】
【0047】
1 試験装置
2 車両
4 ドライブロボット(自動操縦ロボット)
7、7a、7b、71、72・・・7N 第1学習モデル
9 第2学習モデル
10 制御装置
20 制御部
30 学習部