(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-09-27
(45)【発行日】2024-10-07
(54)【発明の名称】制御装置、及び制御方法
(51)【国際特許分類】
G05B 13/02 20060101AFI20240930BHJP
G06N 20/00 20190101ALI20240930BHJP
【FI】
G05B13/02 L
G06N20/00
(21)【出願番号】P 2021018280
(22)【出願日】2021-02-08
【審査請求日】2023-10-04
(73)【特許権者】
【識別番号】000003078
【氏名又は名称】株式会社東芝
(73)【特許権者】
【識別番号】598076591
【氏名又は名称】東芝インフラシステムズ株式会社
(74)【代理人】
【識別番号】100091487
【氏名又は名称】中村 行孝
(74)【代理人】
【識別番号】100120031
【氏名又は名称】宮嶋 学
(74)【代理人】
【識別番号】100107582
【氏名又は名称】関根 毅
(74)【代理人】
【識別番号】100118843
【氏名又は名称】赤岡 明
(74)【代理人】
【識別番号】100125151
【氏名又は名称】新畠 弘之
(72)【発明者】
【氏名】高野 俊也
(72)【発明者】
【氏名】茂田 智秋
(72)【発明者】
【氏名】阿邊 優一
【審査官】牧 初
(56)【参考文献】
【文献】特開2019-185742(JP,A)
【文献】米国特許出願公開第2017/0315515(US,A1)
【文献】特開2020-067913(JP,A)
【文献】特開平05-265509(JP,A)
【文献】特開2020-057211(JP,A)
【文献】米国特許第5781700(US,A)
(58)【調査した分野】(Int.Cl.,DB名)
G05B 11/00-13/04
(57)【特許請求の範囲】
【請求項1】
操作量に応じて実動する制御対象の制御装置であって、
強化学習による学習モデルを用いて制御指令値である制御量に基づく前記操作量を出力する推定部と、
前記制御量と、前記制御量に対応する前記操作量と、前記操作量に対して前記制御対象が実動することにより生じた次制御量とを記憶する記憶部と、
前記推定部と独立
且つ非同期に動作し、少なくとも前記制御量、及び前記制御量に対応する前記次制御量とを用いた強化学習により前記操作量を出力する前記学習モデル
の次の学習モデルの学習を行い、前記記憶部の前記推定部が記憶する領域と異なる領域に前記
次の学習モデルを記憶する学習部と、
を備え
、
前記推定部は、前記次の学習モデルが学習されると、前記次の学習モデルを前記学習モデルとして用いて制御指令値である制御量に基づく前記操作量を出力し、
前記学習部は、更に次の学習モデルの学習を行うことが可能である、制御装置。
【請求項2】
前記
次の学習モデルは、前記推定部における前記制御量、前記操作量及び前記次制御量の出力の時間間隔以上の時間間隔で出力する、請求項1に記載の制御装置。
【請求項3】
前記学習部は、前記制御量と前記次制御量との偏差と基準値を比較し、前記偏差が基準値を超える場合は強化学習を行い、前記偏差が基準値以下の場合は強化学習を停止する、請求項1又は2に記載の制御装置。
【請求項4】
前記学習部と、前記推定部と、前記記憶部は、コネクタにより接続され、脱着機能を備える請求項1に記載の制御装置。
【請求項5】
前記推定部は、前記学習部と前記記憶部が未接続時においても前記制御対象に対して前記制御量に対応した前記操作量を出力する、請求項4に記載の制御装置。
【請求項6】
操作量に応じて実動する制御対象の制御方法であって、
強化学習による学習モデルを用いて制御指令値である制御量に基づく前記操作量を出力する推定工程と、
前記制御量と、前記制御量に対応する前記操作量と、前記操作量に対して前記制御対象が実動することにより生じた次制御量とを記憶部に記憶する記憶工程と、
前記推定工程と独立且つ非同期に動作し、少なくとも前記制御量、及び前記制御量に対応する前記次制御量とを用いた強化学習により前記操作量を出力する前記学習モデル
の次の学習モデルの学習を行い、前記記憶部の前記推定工程により情報が記憶される領域と異なる領域に前記
次の学習モデルを記憶する学習工程と、
を備
え、
前記推定工程では、前記次の学習モデルが学習されると、前記次の学習モデルを前記学習モデルとして用いて制御指令値である制御量に基づく前記操作量を出力し、
前記学習工程では、更に次の学習モデルの学習を行うことが可能である、制御方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明の実施形態は、制御装置、及び制御方法に関する。
【背景技術】
【0002】
近年、モデルが複雑で、高度な制御が要求される分野のブレークスルー技術として、人工知能技術のひとつである強化学習(ReinforcementLearning)が注目されている。強化学習は、教師有り学習(Supervised Learning)および教師無し学習(Unsupervised Learning)と並ぶ機械学習の手法の1つとして位置付けられており、制御対象に対して、操作量を与え、その結果得られた制御量から報酬値を計算し、高い報酬値が得られるように各状態に対する操作量を学習する。
【0003】
強化学習は、入力データと入力データに対応する出力データを与えて学習する教師有り学習とは異なり、評価値を指標として操作量を学習するため、制御対象に関する完全な理解を必要とせず、複雑なモデルの制御への応用が期待される。一方で、強化学習は逐次学習し、操作量を出力する必要があるため、ニューラルネットワークのような学習計算量が多いモデルを適用すると、実時間でこれらの処理を完了できないという課題があった。この課題に対して、非同期で強化学習を実行する非同期深層強化学習が考案されており、複数の演算装置で強化学習を同時実行し、一定の間隔でそれぞれの演算装置で学習した学習モデルを結合することで、高速に強化学習する仕組みを提供している。しかしながら、非同期深層強化学習では、学習および推定が可能な複数の演算装置が必要となり、装置が大きくなってしまう。
【先行技術文献】
【特許文献】
【0004】
【発明の概要】
【発明が解決しようとする課題】
【0005】
本発明が解決しようとする課題は、学習モデルによる制御と、制御により生成された学習データによる学習モデルの学習とが非同期に実行可能であり、より小さい構成で実現可能である制御装置、及び制御方法を提供することである。
【課題を解決するための手段】
【0006】
本実施形態によれば、操作量に応じて実動する制御対象の制御装置であって、制御装置は、推定部と、記憶部と、学習部と、を備える。推定部は、学習モデルを用いて制御指令値である制御量に基づく操作量を出力する。記憶部は、推定部から出力された制御量と、操作量と、制御量に対して制御対象が実動することにより生じた次制御量とを記憶する。学習部は、推定部と独立に動作し、制御量と、制御量に対応する次制御量とを用いた強化学習により操作量を出力する学習モデルの学習を行い、記憶部の推定部が記憶する領域と異なる領域に学習モデルを記憶する。
【図面の簡単な説明】
【0007】
【
図4】共有メモリ部の詳細な構成例を示すブロック図。
【
図5】本実施形態に係る制御装置の動作例を示すフローチャート。
【
図6】第2実施形態に係る制御装置の構成例を示すブロック図。
【
図7】第3実施形態に係る制御装置の構成例を示すブロック図。
【発明を実施するための形態】
【0008】
以下、本発明の実施形態に係る制御装置、制御方法、及びモータ制御装置について、図面を参照しながら詳細に説明する。なお、以下に示す実施形態は、本発明の実施形態の一例であって、本発明はこれらの実施形態に限定して解釈されるものではない。また、本実施形態で参照する図面において、同一部分又は同様な機能を有する部分には同一の符号又は類似の符号を付し、その繰り返しの説明は省略する場合がある。また、図面の寸法比率は説明の都合上実際の比率とは異なる場合や、構成の一部が図面から省略される場合がある。
【0009】
(第1実施形態)
図1は、第1実施形態に係る制御システム1の構成例を示すブロック図である。
図1を用いて、制御システム1の構成を説明する。
図1に示すように、本実施形態に係る制御システム1は、例えば強化学習による学習機能を有するシステムであり、制御対象5と、制御装置10とを備えて構成される。制御対象5は、例えばモータである。
【0010】
制御装置10は、例えば、CPU(Central Processing Unit)を含んで構成される。この制御装置10は、制御対象5を制御する制御装置であり、学習部20と、推定部30と、共有メモリ40とを、有する。制御装置10は、例えば共有メモリ40に記憶されるプログラムを実行することにより、学習部20と、推定部30とを構成する。
【0011】
本実施形態に係る制御装置10は、学習部20および推定部30は独立かつ非同期に動作し、推定部30により学習部20における強化学習に必要な学習データが生成される。また、学習部20により制御対象5に必要な操作量を推定するための学習モデルパラメタが生成される。学習部20および推定部30が必要となる情報は、共有メモリ40を介してやり取りされる。
【0012】
なお、本実施形態では、制御により生じた制御対象5の状態を示す測定量を制御状態量と称する。また、制御対象5において制御の対象となる量を制御量と称する。例えば、制御対象5の制御状態量もしくは制御状態量の一部が制御量である。また、制御量の目標値を制御指令値と称する。さらにまた、制御量に影響を与える手段を駆動する量を操作量と称する。例えば、制御対象5がモータの場合には、制御指令値である回転速度に応じた電圧指令値に基づき電力変換器が駆動され、電力変換器から電流がモータに出力され、モータが回転する。この場合、制御量に影響を与える手段が電圧電流変換器であり、制御量に影響を与える操作量は電圧であり、制御量は回転速度である。
【0013】
学習部20は、学習機能を有し、共有メモリ40に保存された学習データにより、例えば強化学習により学習モデルを学習する。本実施形態に係る学習部20の学習には、評価関数(例えばニューラルネットワーク)が使用され、強化学習の学習モデル(例えばニューラルネットワーク)を学習する。なお、評価関数は、学習モデルの出力を評価する基準を表す。なお、学習モデルは制御モデルと呼ばれる場合もある。
【0014】
以下の説明において、例えば制御指令値である制御量が状態値stに対応し、制御指令値である制御量に対する操作量が行動値atに対応する。即時報酬値reは、制御指令値と、この制御指令値である制御量により制御対象5に生じた次の制御量との差分に基づく値である。例えば、差分が0であれば即時報酬値reを1.0とし、値の差が大きくなるに従い0.0に近づく値を割り振る。なお、以下の説明では、制御指令値である制御量を制御量と称し、制御指令値である制御量(例えば回転速度の目標値)により制御対象5に生じた次の制御量(例えば回転速度)を次制御量と称する。
【0015】
学習モデルは、例えば状態値stとして制御量を入力とし、行動値atとして操作量を出力する。tは例えば時間を意味する。学習モデルは、例えば線形回帰関数又はニューラルネットワークである。また、評価関数は、例えば線形回帰関数又はニューラルネットワークである。以下の説明においては、学習モデルに第1ニューラルネットワークを用いて、評価関数に第2ニューラルネットワークを用いるが、これに限定されない。なお、学習部20の詳細な構成は後述する。
【0016】
推定部30は、学習部20と独立且つ非同期に動作可能である。この推定部30は、学習部20で学習した学習モデルに基づいて、制御量(状態値st)を入力とし、操作量(行動値at)を推定して、制御対象5に出力する。また、推定部30は、学習モデルへの入力(状態値st)、及び操作量(行動値at)による制御対象5の制御結果を少なくとも含むデータを学習データとして生成する。なお、推定部30の詳細な構成も後述する。
【0017】
共有メモリ40は、学習部20及び推定部30から読み書き可能なメモリである。学習部20で学習した学習モデルのパラメータ、例えば、第1ニューラルネットワークの重み係数などの情報と、推定部30で取得した制御対象5の制御量、制御量によって生じた次制御量、及び即時報酬値reを保存する。なお、共有メモリ40の詳細な構成も後述する。また、本実施形態では、制御対象5の制御量(状態値st)、制御量によって生じた次制御量、制御量に対する操作量(行動値at)、及び即時報酬値reを学習データと称する。
【0018】
図2は、学習部20の詳細な構成例を示すブロック図である。
図2に基づき学習部20について詳細に説明する。学習部20は、行動推定学習部201と、価値学習部202、期待報酬計算部203と、学習データ記憶部204と、を有する。
【0019】
行動推定学習部201は、制御量(状態値st)を入力とし、操作量(行動値at)を出力とする第1ニューラルネットワーク(第1学習モデル)を学習する。例えば、行動推定学習部201は、価値学習部202における第2ニューラルネットワークの勾配を価値学習部202から供給されると、学習データ記憶部204に記憶された所定数の学習データを用いて学習モデルを学習する。なお、学習データ記憶部204の学習データは、共有メモリ40から供給される。
【0020】
また、行動推定学習部201は、学習データ記憶部204に記憶された学習データに含まれる次制御量(状態値st+1)を入力(
図2のA)として、その操作量(行動値at+1)(
図2のB)を、価値学習部202に出力する。
【0021】
価値学習部202は、制御量(状態値st)及び操作量(行動値at)を入力として、その行動価値として期待報酬Q(st、at)を出力する第2ニューラルネットワーク(第2学習モデル)を学習する。
【0022】
より詳細には、学習データ記憶部204に記憶された学習データに含まれる操作によって生じた次制御量(状態値st+1)(図の2Aと同じデータ)と、操作量(行動値at+1)(
図2のB)を入力として、その期待報酬Q(st、at)(更新前)を期待報酬計算部203に出力する(
図2のD)。
【0023】
期待報酬計算部203は、(1)式に従い、学習データに含まれる即時報酬値re、価値学習部202が出力した期待報酬値Q(st+1、at+1)(
図2のD)を用いて、期待報酬値のQ‘(st、at)(更新後)を演算し、価値学習部202に出力する(
図2のE)。γは所謂割引率であり1.0未満の値である。
【数1】
【0024】
価値学習部202は、制御量(状態値st)及び操作量(行動値at)を入力とし、(1)式で示す期待報酬値Q‘(st、at)(更新後)を出力とする教師有学習を行う。より具体的には、(2)式で示す損失関数Lossが最小化するように、第2ニューラルネットワークを例えば逆誤差伝播法により、実際に出力されたQ値(更新前)と目標Q’値との誤差の二乗平均の損失関数Lossが最少となるように、学習する。
【数2】
【0025】
行動推定学習部201は、価値学習部202の学習が完了後、第1学習モデルを更新するためのパラメータを計算する。これは、行動推定学習部201の第1学習モデルのパラメータの期待報酬値が最大となるように更新すればよい。すなわち、価値学習部202の第2学習モデルにおいて、操作量(行動値at)に対する期待報酬値Q(st、at)の傾き(偏微分値)と行動推定学習部201の第1学習モデルの操作量に対するパラメータの傾き(すなわち、第1ニューラルネットワークでは、操作量(行動値at)に対する重み係数の偏微分値)の積が0になるように、行動推定学習部201の第1学習モデルのパラメータを更新する。また、行動推定学習部201は、制御量と次制御量との偏差と基準値とを比較し、偏差が基準値を超える場合には強化学習を継続し、偏差が基準値以下の場合は強化学習を停止する。
【0026】
行動推定学習部201の学習モデルのパラメータ更新が完了後、共有メモリ40にその結果を記憶する。なお、価値学習部202および行動推定学習部201の学習は、学習データ記憶部204からランダムに選択した複数データを学習単位として、上述の処理を行った後、その平均値を学習モデルの更新値とする。
【0027】
図3は、推定部30の詳細な構成例を示すブロック図である。
図3に基づき推定部30について詳細に説明する。推定部30は、行動推定部301と、探索部302と、即時報酬計算部303と、遅延バッファ304と、学習データ生成部305と、を有する。
【0028】
行動推定部301は、制御対象5への制御量(状態値st)を入力とし、制御対象5への操作量(行動値at)を出力する学習モデルである。すなわち、行動推定学習部201において学習した第1ニューラルネットワークの学習パラメータに基づいて操作量を算出する。行動推定部301は、強化学習の所謂、エージェントに対応する。
【0029】
探索部302は、行動推定部301の出力値にノイズを重畳し制御対象5に操作量を出力する。なお、探索部302は、良い制御状態を探索するため、意図的に操作量にノイズを印加しており、学習の進行に伴い、ノイズ量を低減させる。
【0030】
即時報酬計算部303は、制御量(状態値st)と、操作量(行動値at)と、制御対象5を操作することによって生じた次制御量に基づき、正しい制御が実現できているかどうかを評価する。上述のように、操作によって次制御量が制御指令値に一致もしくは近づけば、高い報酬値である1.0を例えば即時報酬値reとして付与し、制御指令値からの誤差が増えるなど指示通りの制御ができていない場合は低い報酬値、例えば0.1などを即時報酬値reとして付与する。即時報酬値reとしては、制御対象から得られる現在の制御量、制御指令値に加え、遅延バッファ304で保持している過去の任意サンプルから算出する。
【0031】
遅延バッファ304は、即時報酬計算部で使用する制御量、操作量を記憶するための一時記憶メモリで、過去の任意サンプル数分を保持する。
【0032】
学習データ生成部305は、上述のように制御対象5の制御量(状態値st)、制御量によって生じた次制御量、制御量に対する操作量(行動値at)、及び即時報酬値reを学習データとして生成し、共有メモリ40に保存する。
【0033】
図4は、共有メモリ部40の詳細な構成例を示すブロック図である。
図4に基づき共有メモリ40について、詳細に説明する。
【0034】
共有メモリ40は、デュアルポートメモリ401と、デュアルポートメモリ402とを有する。デュアルポートメモリ401は、学習部20が書き込み、推定部30が読み込み可能な記憶装置である。学習部20は、学習によって更新された行動推定学習部201の学習モデルのパラメータをデュアルポートメモリ401に書き込む。さらに、学習モデルのパラメータを書き込んだ最終の位置をデュアルポートメモリ401の所定の位置に書き込む。
【0035】
デュアルポートメモリ402は、推定部30が書き込み、学習部20が読み込み可能な記憶装置である。推定部30は、学習データをデュアルポートメモリ402に書き込む。さらに、学習データを書き込んだ最終の位置をデュアルポートメモリ402の所定の位置に書き込む。なお、デュアルポートメモリ401および402は、書き込みに際しては、書き込んだ最後の位置の次の位置から書き込む。
【0036】
また、デュアルポートメモリ401あるいは402はリングバッファで構成することもでき、書き込み位置がメモリ領域を超える場合は、書き込み位置を使用可能なメモリサイズで割った余りの位置に補正して書き込みを行う。また、書き込み位置が学習モデルのパラメータ読み込み完了位置あるいは学習データ読み込み完了位置を超える場合、書き込みを一時停止するなどの処理を行うことも可能である。
【0037】
図5は、本実施形態に係る制御装置10の動作例を示すフローチャートである。まず、推定部30の処理例を説明する。
図5に示すように、制御装置10は、学習部20および推定部30の処理を非同期に開始する(ステップS100)。
【0038】
学習開始により、推定部30は、デュアルポートメモリ402と遅延バッファ304を初期化し(ステップS101)、続けて、学習モデルパラメタを初期化する(ステップS102)。なお、デュアルポートメモリ402、及び遅延バッファ304は、0に初期化する。学習モデルパラメタは、乱数で初期化する。或いは、学習済みのパラメータが存在する場合は、その値で初期化してもよい。
【0039】
次に、制御対象5からの制御量を取得し(ステップS103)、遅延バッファ304に保存された制御量および操作量を基に即時報酬値を計算する(ステップS104)。続けて、推定部30は、制御量、遅延バッファに保存された制御量と操作量、および即時報酬値を学習データ生成部305に出力し、共有データ402に書き込む(ステップS105)。
【0040】
次に、推定部30は、設定する学習モデルパラメタ読み出し位置と、学習部20が設定する学習モデル書き込み位置を比較し、一致しているか否かを判定する(ステップS106)。一致していない場合(ステップS106のYes)、一致するまでデュアルポートメモリ401に保存されている学習モデルパラメタを読み出す(ステップS107)。このとき、複数組みの学習モデルパラメタが保存されていた場合は、最後に書き込まれた学習モデルパラメタを更新対象とする。
【0041】
一方で、一致する場合(ステップS106のNo)、制御量に基づいて操作量を計算し制御対象5に出力するとともに遅延バッファ304に保存し(ステップS108、S109、S110)、ステップS103からの処理を繰り返す。
【0042】
次に、学習部20の動作について詳細に説明する。学習開始(ステップS100)により学習部20は学習を開始する。まず、デュアルポートメモリ401を初期化し(ステップS201)し、続けて学習モデルパラメタ(ステップS202)を初期化する。デュアルポートメモリ401については、0に初期化する。学習モデルパラメタについては、乱数で初期化するか学習済みモデルのパラメータが存在する場合は、その値で初期化してもよい。
【0043】
次に、デュアルポートメモリ402に保存されている学習データ読み出し位置と書き込み位置を読み出し位置が一致するか否かを判定する(ステップS203)。不一致の場合(ステップS203のYes)、学習データを読み出す(ステップS204)。
【0044】
次に、共有メモリ40に学習データが所定の数だけ準備できているか否かを判定する(ステップS205)。満たされない場合(ステップS205のNo)、学習データが準備できるまで、S203からの処理を繰り返す。一方で、一致の場合(ステップS203のNo)、ステップS205の処理を行う。なお、推定部の処理(S103~S110)を学習部の処理(S203~S212)よりも短時間で実行することで、この待ち処理を無くすことが可能である。
【0045】
一方で、満たされる場合(ステップS205のYes)、強化学習を継続するかどうかを判断する(ステップS206)。強化学習を継続しない場合(ステップS206のNo)、学習処理を終了する。強化学習継続の判断基準は、学習回数や制御偏差などを使用する。
【0046】
一方で、強化学習を継続する場合(ステップS206のYes)、行動推定学習部201に学習データに含まれている操作量で操作した結果生じた制御量を入力し、操作量を計算する(S207)。
【0047】
次に価値学習部202にこの操作量と操作量を求める際に使用した制御量とを入力とし、期待報酬値Q(更新前)を計算する(ステップS208)。続けて、期待報酬計算部203は、この期待報酬値と学習データに含まれる即時報酬値reを用いて、期待報酬値の更新値を計算する(ステップS209)。
【0048】
次に、価値学習部202に操作量と操作量を求める際に使用した制御量とを入力とし、この報酬値の更新値を出力として、価値学習部202における学習モデルパラメタを更新する(ステップS210)。価値学習部202において、操作量に対する期待報酬の勾配を計算し(ステップS211)、この結果を元に行動推定部301の学習パラメータを更新するステップ(S212)。そして、更新した学習モデルパラメタをデュアルポートメモリ401に書き込み(ステップS213)、ステップS203からの処理を繰り返す。なお、共有メモリ40は、学習部20と推定部30を共有バスで接続し、双方から読み書き可能なメモリを配置することで、デュアルポートメモリ以外のメモリを使用することができる。
【0049】
以上のように、本実施形態によれば、学習部20および推定部30は独立かつ非同期に動作する。この場合、推定部30により生成された学習部20における強化学習に必要な学習データと、学習部20により学習され、推定部30に用いられる学習モデルの学習モデルパラメタが、共有メモリ40の異なる記憶領域を介してやり取りされる。これにより、より効率的に学習モデルの学習が進められるとともに、共有メモリ40を共有化することにより、制御装置10をより小型化可能となる。
【0050】
(第2実施形態)
第2実施形態に係る制御装置11は、学習部20と共有メモリ40を取り外し可能に構成した点で第1実施形態に係る制御装置10と相違する。以下では、第1実施形態に係る制御装置10と相違する点を説明する。
【0051】
図6は、第2実施形態に係る制御装置11の構成例を示すブロック図である。第2実施形態に係る制御装置11は、制御装置11は、学習部20と、推定部30と、共有メモリ40と、を着脱可能に構成している。学習部20と、推定部30と、共有メモリ40は、コネクタ等により脱着可能とすることで様々な構成を実現することができる。
図6では、強化学習完了後などに、学習部20と共有メモリ40を取り外し、推定部30のみで構成された制御装置11を示したものである。
【0052】
このように、制御装置11は、学習部20と、推定部30と、共有メモリ40と、を着脱可能に構成することにより、学習の終了後に学習部20と、共有メモリ40と、を制御装置11か取り外すことが可能となり、制御装置11をより小型化可能である。
【0053】
(第3実施形態)
第3実施形態に係る制御装置12は、複数の学習部20と複数の推定部30とがネットワークを介して情報を共有する点で第1実施形態に係る制御装置10と相違する。以下では、第1実施形態に係る制御装置10と相違する点を説明する。
【0054】
図7は、第3実施形態に係る制御装置12の構成例を示すブロック図である。
図7に示すように、制御装置12は、複数の学習部20と複数の推定部30とを有する。成され推定部と学習部はネットワークを介して接続される。学習部20は、N≧1であり、推定部30は、M≧1である。
【0055】
学習部20と、推定部30とのデータ伝送を、ネットワーク70経由で学習モデルパラメタと学習データのやり取りをすることが可能である。また、制御装置12は、MとNが異なる場合、推定部と学習部を動的に対応付け、強化学習を行う。このように、制御装置12は、共有メモリ40を有しないため、より小型化が可能である。
【0056】
以上、いくつかの実施形態を説明したが、これらの実施形態は、例としてのみ提示したものであり、発明の範囲を限定することを意図したものではない。本明細書で説明した新規な装置、方法及びプログラムは、その他の様々な形態で実施することができる。また、本明細書で説明した装置、方法及びプログラムの形態に対し、発明の要旨を逸脱しない範囲内で、種々の省略、置換、変更を行うことができる。
【符号の説明】
【0057】
1:制御システム、5:制御対象、10、11、12:制御装置、20:学習部、30:推定部、40:共有メモリ、70:ネットワーク。