特許7562439 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社東芝の特許一覧 ▶ 東芝電機サービス株式会社の特許一覧

特許7562439制御装置、及び制御方法

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】

(24)【登録日】2024-09-27

(45)【発行日】2024-10-07

(54)【発明の名称】制御装置、及び制御方法

(51)【国際特許分類】

G05B 13/02 20060101AFI20240930BHJP

G06N 20/00 20190101ALI20240930BHJP

【ＦＩ】

G05B13/02 L

G06N20/00

【請求項の数】 6

(21)【出願番号】P 2021018280

(22)【出願日】2021-02-08

(65)【公開番号】P2022121112

(43)【公開日】2022-08-19

【審査請求日】2023-10-04

(73)【特許権者】

【識別番号】000003078

【氏名又は名称】株式会社東芝

(73)【特許権者】

【識別番号】598076591

【氏名又は名称】東芝インフラシステムズ株式会社

(74)【代理人】

【識別番号】100091487

【弁理士】

【氏名又は名称】中村行孝

(74)【代理人】

【識別番号】100120031

【弁理士】

【氏名又は名称】宮嶋学

(74)【代理人】

【識別番号】100107582

【弁理士】

【氏名又は名称】関根毅

(74)【代理人】

【識別番号】100118843

【弁理士】

【氏名又は名称】赤岡明

(74)【代理人】

【識別番号】100125151

【弁理士】

【氏名又は名称】新畠弘之

(72)【発明者】

【氏名】高野俊也

(72)【発明者】

【氏名】茂田智秋

(72)【発明者】

【氏名】阿邊優一

【審査官】牧初

(56)【参考文献】

【文献】特開２０１９－１８５７４２（ＪＰ，Ａ）

【文献】米国特許出願公開第２０１７／０３１５５１５（ＵＳ，Ａ１）

【文献】特開２０２０－０６７９１３（ＪＰ，Ａ）

【文献】特開平０５－２６５５０９（ＪＰ，Ａ）

【文献】特開２０２０－０５７２１１（ＪＰ，Ａ）

【文献】米国特許第５７８１７００（ＵＳ，Ａ）

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｇ０５Ｂ１１／００－１３／０４

(57)【特許請求の範囲】

【請求項1】

操作量に応じて実動する制御対象の制御装置であって、
強化学習による学習モデルを用いて制御指令値である制御量に基づく前記操作量を出力する推定部と、
前記制御量と、前記制御量に対応する前記操作量と、前記操作量に対して前記制御対象が実動することにより生じた次制御量とを記憶する記憶部と、
前記推定部と独立且つ非同期に動作し、少なくとも前記制御量、及び前記制御量に対応する前記次制御量とを用いた強化学習により前記操作量を出力する前記学習モデルの次の学習モデルの学習を行い、前記記憶部の前記推定部が記憶する領域と異なる領域に前記次の学習モデルを記憶する学習部と、
を備え、
前記推定部は、前記次の学習モデルが学習されると、前記次の学習モデルを前記学習モデルとして用いて制御指令値である制御量に基づく前記操作量を出力し、
前記学習部は、更に次の学習モデルの学習を行うことが可能である、制御装置。

【請求項2】

前記次の学習モデルは、前記推定部における前記制御量、前記操作量及び前記次制御量の出力の時間間隔以上の時間間隔で出力する、請求項１に記載の制御装置。

【請求項3】

前記学習部は、前記制御量と前記次制御量との偏差と基準値を比較し、前記偏差が基準値を超える場合は強化学習を行い、前記偏差が基準値以下の場合は強化学習を停止する、請求項１又は２に記載の制御装置。

【請求項4】

前記学習部と、前記推定部と、前記記憶部は、コネクタにより接続され、脱着機能を備える請求項１に記載の制御装置。

【請求項5】

前記推定部は、前記学習部と前記記憶部が未接続時においても前記制御対象に対して前記制御量に対応した前記操作量を出力する、請求項４に記載の制御装置。

【請求項6】

操作量に応じて実動する制御対象の制御方法であって、
強化学習による学習モデルを用いて制御指令値である制御量に基づく前記操作量を出力する推定工程と、
前記制御量と、前記制御量に対応する前記操作量と、前記操作量に対して前記制御対象が実動することにより生じた次制御量とを記憶部に記憶する記憶工程と、
前記推定工程と独立且つ非同期に動作し、少なくとも前記制御量、及び前記制御量に対応する前記次制御量とを用いた強化学習により前記操作量を出力する前記学習モデルの次の学習モデルの学習を行い、前記記憶部の前記推定工程により情報が記憶される領域と異なる領域に前記次の学習モデルを記憶する学習工程と、
を備え、
前記推定工程では、前記次の学習モデルが学習されると、前記次の学習モデルを前記学習モデルとして用いて制御指令値である制御量に基づく前記操作量を出力し、
前記学習工程では、更に次の学習モデルの学習を行うことが可能である、制御方法。

【発明の詳細な説明】

【技術分野】

【0001】

本発明の実施形態は、制御装置、及び制御方法に関する。

【背景技術】

【0002】

近年、モデルが複雑で、高度な制御が要求される分野のブレークスルー技術として、人工知能技術のひとつである強化学習（ＲｅｉｎｆｏｒｃｅｍｅｎｔＬｅａｒｎｉｎｇ）が注目されている。強化学習は、教師有り学習（ＳｕｐｅｒｖｉｓｅｄＬｅａｒｎｉｎｇ）および教師無し学習（ＵｎｓｕｐｅｒｖｉｓｅｄＬｅａｒｎｉｎｇ）と並ぶ機械学習の手法の１つとして位置付けられており、制御対象に対して、操作量を与え、その結果得られた制御量から報酬値を計算し、高い報酬値が得られるように各状態に対する操作量を学習する。

【0003】

強化学習は、入力データと入力データに対応する出力データを与えて学習する教師有り学習とは異なり、評価値を指標として操作量を学習するため、制御対象に関する完全な理解を必要とせず、複雑なモデルの制御への応用が期待される。一方で、強化学習は逐次学習し、操作量を出力する必要があるため、ニューラルネットワークのような学習計算量が多いモデルを適用すると、実時間でこれらの処理を完了できないという課題があった。この課題に対して、非同期で強化学習を実行する非同期深層強化学習が考案されており、複数の演算装置で強化学習を同時実行し、一定の間隔でそれぞれの演算装置で学習した学習モデルを結合することで、高速に強化学習する仕組みを提供している。しかしながら、非同期深層強化学習では、学習および推定が可能な複数の演算装置が必要となり、装置が大きくなってしまう。

【先行技術文献】

【特許文献】

【0004】

【文献】特開２０１８－５３７７６７号公報

【発明の概要】

【発明が解決しようとする課題】

【0005】

本発明が解決しようとする課題は、学習モデルによる制御と、制御により生成された学習データによる学習モデルの学習とが非同期に実行可能であり、より小さい構成で実現可能である制御装置、及び制御方法を提供することである。

【課題を解決するための手段】

【0006】

本実施形態によれば、操作量に応じて実動する制御対象の制御装置であって、制御装置は、推定部と、記憶部と、学習部と、を備える。推定部は、学習モデルを用いて制御指令値である制御量に基づく操作量を出力する。記憶部は、推定部から出力された制御量と、操作量と、制御量に対して制御対象が実動することにより生じた次制御量とを記憶する。学習部は、推定部と独立に動作し、制御量と、制御量に対応する次制御量とを用いた強化学習により操作量を出力する学習モデルの学習を行い、記憶部の推定部が記憶する領域と異なる領域に学習モデルを記憶する。

【図面の簡単な説明】

【0007】

【図1】制御システムの構成例を示すブロック図。

【図2】学習部の詳細な構成例を示すブロック図。

【図3】推定部の詳細な構成例を示すブロック図。

【図4】共有メモリ部の詳細な構成例を示すブロック図。

【図5】本実施形態に係る制御装置の動作例を示すフローチャート。

【図6】第２実施形態に係る制御装置の構成例を示すブロック図。

【図7】第３実施形態に係る制御装置の構成例を示すブロック図。

【発明を実施するための形態】

【0008】

以下、本発明の実施形態に係る制御装置、制御方法、及びモータ制御装置について、図面を参照しながら詳細に説明する。なお、以下に示す実施形態は、本発明の実施形態の一例であって、本発明はこれらの実施形態に限定して解釈されるものではない。また、本実施形態で参照する図面において、同一部分又は同様な機能を有する部分には同一の符号又は類似の符号を付し、その繰り返しの説明は省略する場合がある。また、図面の寸法比率は説明の都合上実際の比率とは異なる場合や、構成の一部が図面から省略される場合がある。

【0009】

（第１実施形態）
図１は、第１実施形態に係る制御システム１の構成例を示すブロック図である。図１を用いて、制御システム１の構成を説明する。図１に示すように、本実施形態に係る制御システム１は、例えば強化学習による学習機能を有するシステムであり、制御対象５と、制御装置１０とを備えて構成される。制御対象５は、例えばモータである。

【0010】

制御装置１０は、例えば、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）を含んで構成される。この制御装置１０は、制御対象５を制御する制御装置であり、学習部２０と、推定部３０と、共有メモリ４０とを、有する。制御装置１０は、例えば共有メモリ４０に記憶されるプログラムを実行することにより、学習部２０と、推定部３０とを構成する。

【0011】

本実施形態に係る制御装置１０は、学習部２０および推定部３０は独立かつ非同期に動作し、推定部３０により学習部２０における強化学習に必要な学習データが生成される。また、学習部２０により制御対象５に必要な操作量を推定するための学習モデルパラメタが生成される。学習部２０および推定部３０が必要となる情報は、共有メモリ４０を介してやり取りされる。

【0012】

なお、本実施形態では、制御により生じた制御対象５の状態を示す測定量を制御状態量と称する。また、制御対象５において制御の対象となる量を制御量と称する。例えば、制御対象５の制御状態量もしくは制御状態量の一部が制御量である。また、制御量の目標値を制御指令値と称する。さらにまた、制御量に影響を与える手段を駆動する量を操作量と称する。例えば、制御対象５がモータの場合には、制御指令値である回転速度に応じた電圧指令値に基づき電力変換器が駆動され、電力変換器から電流がモータに出力され、モータが回転する。この場合、制御量に影響を与える手段が電圧電流変換器であり、制御量に影響を与える操作量は電圧であり、制御量は回転速度である。

【0013】

学習部２０は、学習機能を有し、共有メモリ４０に保存された学習データにより、例えば強化学習により学習モデルを学習する。本実施形態に係る学習部２０の学習には、評価関数（例えばニューラルネットワーク）が使用され、強化学習の学習モデル（例えばニューラルネットワーク）を学習する。なお、評価関数は、学習モデルの出力を評価する基準を表す。なお、学習モデルは制御モデルと呼ばれる場合もある。

【0014】

以下の説明において、例えば制御指令値である制御量が状態値ｓｔに対応し、制御指令値である制御量に対する操作量が行動値ａｔに対応する。即時報酬値ｒｅは、制御指令値と、この制御指令値である制御量により制御対象５に生じた次の制御量との差分に基づく値である。例えば、差分が０であれば即時報酬値ｒｅを１．０とし、値の差が大きくなるに従い０．０に近づく値を割り振る。なお、以下の説明では、制御指令値である制御量を制御量と称し、制御指令値である制御量（例えば回転速度の目標値）により制御対象５に生じた次の制御量（例えば回転速度）を次制御量と称する。

【0015】

学習モデルは、例えば状態値ｓｔとして制御量を入力とし、行動値ａｔとして操作量を出力する。ｔは例えば時間を意味する。学習モデルは、例えば線形回帰関数又はニューラルネットワークである。また、評価関数は、例えば線形回帰関数又はニューラルネットワークである。以下の説明においては、学習モデルに第１ニューラルネットワークを用いて、評価関数に第２ニューラルネットワークを用いるが、これに限定されない。なお、学習部２０の詳細な構成は後述する。

【0016】

推定部３０は、学習部２０と独立且つ非同期に動作可能である。この推定部３０は、学習部２０で学習した学習モデルに基づいて、制御量（状態値ｓｔ）を入力とし、操作量（行動値ａｔ）を推定して、制御対象５に出力する。また、推定部３０は、学習モデルへの入力（状態値ｓｔ）、及び操作量（行動値ａｔ）による制御対象５の制御結果を少なくとも含むデータを学習データとして生成する。なお、推定部３０の詳細な構成も後述する。

【0017】

共有メモリ４０は、学習部２０及び推定部３０から読み書き可能なメモリである。学習部２０で学習した学習モデルのパラメータ、例えば、第１ニューラルネットワークの重み係数などの情報と、推定部３０で取得した制御対象５の制御量、制御量によって生じた次制御量、及び即時報酬値ｒｅを保存する。なお、共有メモリ４０の詳細な構成も後述する。また、本実施形態では、制御対象５の制御量（状態値ｓｔ）、制御量によって生じた次制御量、制御量に対する操作量（行動値ａｔ）、及び即時報酬値ｒｅを学習データと称する。

【0018】

図２は、学習部２０の詳細な構成例を示すブロック図である。図２に基づき学習部２０について詳細に説明する。学習部２０は、行動推定学習部２０１と、価値学習部２０２、期待報酬計算部２０３と、学習データ記憶部２０４と、を有する。

【0019】

行動推定学習部２０１は、制御量（状態値ｓｔ）を入力とし、操作量（行動値ａｔ）を出力とする第１ニューラルネットワーク（第１学習モデル）を学習する。例えば、行動推定学習部２０１は、価値学習部２０２における第２ニューラルネットワークの勾配を価値学習部２０２から供給されると、学習データ記憶部２０４に記憶された所定数の学習データを用いて学習モデルを学習する。なお、学習データ記憶部２０４の学習データは、共有メモリ４０から供給される。

【0020】

また、行動推定学習部２０１は、学習データ記憶部２０４に記憶された学習データに含まれる次制御量（状態値ｓｔ＋１）を入力（図２のＡ）として、その操作量（行動値ａｔ＋１）（図２のＢ）を、価値学習部２０２に出力する。

【0021】

価値学習部２０２は、制御量（状態値ｓｔ）及び操作量（行動値ａｔ）を入力として、その行動価値として期待報酬Ｑ（ｓｔ、ａｔ）を出力する第２ニューラルネットワーク（第２学習モデル）を学習する。

【0022】

より詳細には、学習データ記憶部２０４に記憶された学習データに含まれる操作によって生じた次制御量（状態値ｓｔ＋１）（図の２Ａと同じデータ）と、操作量（行動値ａｔ＋１）（図２のＢ）を入力として、その期待報酬Ｑ（ｓｔ、ａｔ）（更新前）を期待報酬計算部２０３に出力する（図２のＤ）。

【0023】

期待報酬計算部２０３は、（１）式に従い、学習データに含まれる即時報酬値ｒｅ、価値学習部２０２が出力した期待報酬値Ｑ（ｓｔ＋１、ａｔ＋１）（図２のＤ）を用いて、期待報酬値のＱ‘（ｓｔ、ａｔ）（更新後）を演算し、価値学習部２０２に出力する（図２のＥ）。γは所謂割引率であり１．０未満の値である。

【数1】

【0024】

価値学習部２０２は、制御量（状態値ｓｔ）及び操作量（行動値ａｔ）を入力とし、（１）式で示す期待報酬値Ｑ‘（ｓｔ、ａｔ）（更新後）を出力とする教師有学習を行う。より具体的には、（２）式で示す損失関数Ｌｏｓｓが最小化するように、第２ニューラルネットワークを例えば逆誤差伝播法により、実際に出力されたＱ値（更新前）と目標Ｑ’値との誤差の二乗平均の損失関数Ｌｏｓｓが最少となるように、学習する。

【数2】

【0025】

行動推定学習部２０１は、価値学習部２０２の学習が完了後、第１学習モデルを更新するためのパラメータを計算する。これは、行動推定学習部２０１の第１学習モデルのパラメータの期待報酬値が最大となるように更新すればよい。すなわち、価値学習部２０２の第２学習モデルにおいて、操作量（行動値ａｔ）に対する期待報酬値Ｑ（ｓｔ、ａｔ）の傾き（偏微分値）と行動推定学習部２０１の第１学習モデルの操作量に対するパラメータの傾き（すなわち、第１ニューラルネットワークでは、操作量（行動値ａｔ）に対する重み係数の偏微分値）の積が０になるように、行動推定学習部２０１の第１学習モデルのパラメータを更新する。また、行動推定学習部２０１は、制御量と次制御量との偏差と基準値とを比較し、偏差が基準値を超える場合には強化学習を継続し、偏差が基準値以下の場合は強化学習を停止する。

【0026】

行動推定学習部２０１の学習モデルのパラメータ更新が完了後、共有メモリ４０にその結果を記憶する。なお、価値学習部２０２および行動推定学習部２０１の学習は、学習データ記憶部２０４からランダムに選択した複数データを学習単位として、上述の処理を行った後、その平均値を学習モデルの更新値とする。

【0027】

図３は、推定部３０の詳細な構成例を示すブロック図である。図３に基づき推定部３０について詳細に説明する。推定部３０は、行動推定部３０１と、探索部３０２と、即時報酬計算部３０３と、遅延バッファ３０４と、学習データ生成部３０５と、を有する。

【0028】

行動推定部３０１は、制御対象５への制御量（状態値ｓｔ）を入力とし、制御対象５への操作量（行動値ａｔ）を出力する学習モデルである。すなわち、行動推定学習部２０１において学習した第１ニューラルネットワークの学習パラメータに基づいて操作量を算出する。行動推定部３０１は、強化学習の所謂、エージェントに対応する。

【0029】

探索部３０２は、行動推定部３０１の出力値にノイズを重畳し制御対象５に操作量を出力する。なお、探索部３０２は、良い制御状態を探索するため、意図的に操作量にノイズを印加しており、学習の進行に伴い、ノイズ量を低減させる。

【0030】

即時報酬計算部３０３は、制御量（状態値ｓｔ）と、操作量（行動値ａｔ）と、制御対象５を操作することによって生じた次制御量に基づき、正しい制御が実現できているかどうかを評価する。上述のように、操作によって次制御量が制御指令値に一致もしくは近づけば、高い報酬値である１．０を例えば即時報酬値ｒｅとして付与し、制御指令値からの誤差が増えるなど指示通りの制御ができていない場合は低い報酬値、例えば０．１などを即時報酬値ｒｅとして付与する。即時報酬値ｒｅとしては、制御対象から得られる現在の制御量、制御指令値に加え、遅延バッファ３０４で保持している過去の任意サンプルから算出する。

【0031】

遅延バッファ３０４は、即時報酬計算部で使用する制御量、操作量を記憶するための一時記憶メモリで、過去の任意サンプル数分を保持する。

【0032】

学習データ生成部３０５は、上述のように制御対象５の制御量（状態値ｓｔ）、制御量によって生じた次制御量、制御量に対する操作量（行動値ａｔ）、及び即時報酬値ｒｅを学習データとして生成し、共有メモリ４０に保存する。

【0033】

図４は、共有メモリ部４０の詳細な構成例を示すブロック図である。図４に基づき共有メモリ４０について、詳細に説明する。

【0034】

共有メモリ４０は、デュアルポートメモリ４０１と、デュアルポートメモリ４０２とを有する。デュアルポートメモリ４０１は、学習部２０が書き込み、推定部３０が読み込み可能な記憶装置である。学習部２０は、学習によって更新された行動推定学習部２０１の学習モデルのパラメータをデュアルポートメモリ４０１に書き込む。さらに、学習モデルのパラメータを書き込んだ最終の位置をデュアルポートメモリ４０１の所定の位置に書き込む。

【0035】

デュアルポートメモリ４０２は、推定部３０が書き込み、学習部２０が読み込み可能な記憶装置である。推定部３０は、学習データをデュアルポートメモリ４０２に書き込む。さらに、学習データを書き込んだ最終の位置をデュアルポートメモリ４０２の所定の位置に書き込む。なお、デュアルポートメモリ４０１および４０２は、書き込みに際しては、書き込んだ最後の位置の次の位置から書き込む。

【0036】

また、デュアルポートメモリ４０１あるいは４０２はリングバッファで構成することもでき、書き込み位置がメモリ領域を超える場合は、書き込み位置を使用可能なメモリサイズで割った余りの位置に補正して書き込みを行う。また、書き込み位置が学習モデルのパラメータ読み込み完了位置あるいは学習データ読み込み完了位置を超える場合、書き込みを一時停止するなどの処理を行うことも可能である。

【0037】

図５は、本実施形態に係る制御装置１０の動作例を示すフローチャートである。まず、推定部３０の処理例を説明する。図５に示すように、制御装置１０は、学習部２０および推定部３０の処理を非同期に開始する（ステップＳ１００）。

【0038】

学習開始により、推定部３０は、デュアルポートメモリ４０２と遅延バッファ３０４を初期化し（ステップＳ１０１）、続けて、学習モデルパラメタを初期化する（ステップＳ１０２）。なお、デュアルポートメモリ４０２、及び遅延バッファ３０４は、０に初期化する。学習モデルパラメタは、乱数で初期化する。或いは、学習済みのパラメータが存在する場合は、その値で初期化してもよい。

【0039】

次に、制御対象５からの制御量を取得し（ステップＳ１０３）、遅延バッファ３０４に保存された制御量および操作量を基に即時報酬値を計算する（ステップＳ１０４）。続けて、推定部３０は、制御量、遅延バッファに保存された制御量と操作量、および即時報酬値を学習データ生成部３０５に出力し、共有データ４０２に書き込む（ステップＳ１０５）。

【0040】

次に、推定部３０は、設定する学習モデルパラメタ読み出し位置と、学習部２０が設定する学習モデル書き込み位置を比較し、一致しているか否かを判定する（ステップＳ１０６）。一致していない場合（ステップＳ１０６のＹｅｓ）、一致するまでデュアルポートメモリ４０１に保存されている学習モデルパラメタを読み出す（ステップＳ１０７）。このとき、複数組みの学習モデルパラメタが保存されていた場合は、最後に書き込まれた学習モデルパラメタを更新対象とする。

【0041】

一方で、一致する場合（ステップＳ１０６のＮｏ）、制御量に基づいて操作量を計算し制御対象５に出力するとともに遅延バッファ３０４に保存し（ステップＳ１０８、Ｓ１０９、Ｓ１１０）、ステップＳ１０３からの処理を繰り返す。

【0042】

次に、学習部２０の動作について詳細に説明する。学習開始（ステップＳ１００）により学習部２０は学習を開始する。まず、デュアルポートメモリ４０１を初期化し（ステップＳ２０１）し、続けて学習モデルパラメタ（ステップＳ２０２）を初期化する。デュアルポートメモリ４０１については、０に初期化する。学習モデルパラメタについては、乱数で初期化するか学習済みモデルのパラメータが存在する場合は、その値で初期化してもよい。

【0043】

次に、デュアルポートメモリ４０２に保存されている学習データ読み出し位置と書き込み位置を読み出し位置が一致するか否かを判定する（ステップＳ２０３）。不一致の場合（ステップＳ２０３のＹｅｓ）、学習データを読み出す（ステップＳ２０４）。

【0044】

次に、共有メモリ４０に学習データが所定の数だけ準備できているか否かを判定する（ステップＳ２０５）。満たされない場合（ステップＳ２０５のＮｏ）、学習データが準備できるまで、Ｓ２０３からの処理を繰り返す。一方で、一致の場合（ステップＳ２０３のＮｏ）、ステップＳ２０５の処理を行う。なお、推定部の処理（Ｓ１０３～Ｓ１１０）を学習部の処理（Ｓ２０３～Ｓ２１２）よりも短時間で実行することで、この待ち処理を無くすことが可能である。

【0045】

一方で、満たされる場合（ステップＳ２０５のＹｅｓ）、強化学習を継続するかどうかを判断する（ステップＳ２０６）。強化学習を継続しない場合（ステップＳ２０６のＮｏ）、学習処理を終了する。強化学習継続の判断基準は、学習回数や制御偏差などを使用する。

【0046】

一方で、強化学習を継続する場合（ステップＳ２０６のＹｅｓ）、行動推定学習部２０１に学習データに含まれている操作量で操作した結果生じた制御量を入力し、操作量を計算する（Ｓ２０７）。

【0047】

次に価値学習部２０２にこの操作量と操作量を求める際に使用した制御量とを入力とし、期待報酬値Ｑ（更新前）を計算する（ステップＳ２０８）。続けて、期待報酬計算部２０３は、この期待報酬値と学習データに含まれる即時報酬値ｒｅを用いて、期待報酬値の更新値を計算する（ステップＳ２０９）。

【0048】

次に、価値学習部２０２に操作量と操作量を求める際に使用した制御量とを入力とし、この報酬値の更新値を出力として、価値学習部２０２における学習モデルパラメタを更新する（ステップＳ２１０）。価値学習部２０２において、操作量に対する期待報酬の勾配を計算し（ステップＳ２１１）、この結果を元に行動推定部３０１の学習パラメータを更新するステップ（Ｓ２１２）。そして、更新した学習モデルパラメタをデュアルポートメモリ４０１に書き込み（ステップＳ２１３）、ステップＳ２０３からの処理を繰り返す。なお、共有メモリ４０は、学習部２０と推定部３０を共有バスで接続し、双方から読み書き可能なメモリを配置することで、デュアルポートメモリ以外のメモリを使用することができる。

【0049】

以上のように、本実施形態によれば、学習部２０および推定部３０は独立かつ非同期に動作する。この場合、推定部３０により生成された学習部２０における強化学習に必要な学習データと、学習部２０により学習され、推定部３０に用いられる学習モデルの学習モデルパラメタが、共有メモリ４０の異なる記憶領域を介してやり取りされる。これにより、より効率的に学習モデルの学習が進められるとともに、共有メモリ４０を共有化することにより、制御装置１０をより小型化可能となる。

【0050】

（第２実施形態）
第２実施形態に係る制御装置１１は、学習部２０と共有メモリ４０を取り外し可能に構成した点で第１実施形態に係る制御装置１０と相違する。以下では、第１実施形態に係る制御装置１０と相違する点を説明する。

【0051】

図６は、第２実施形態に係る制御装置１１の構成例を示すブロック図である。第２実施形態に係る制御装置１１は、制御装置１１は、学習部２０と、推定部３０と、共有メモリ４０と、を着脱可能に構成している。学習部２０と、推定部３０と、共有メモリ４０は、コネクタ等により脱着可能とすることで様々な構成を実現することができる。図６では、強化学習完了後などに、学習部２０と共有メモリ４０を取り外し、推定部３０のみで構成された制御装置１１を示したものである。

【0052】

このように、制御装置１１は、学習部２０と、推定部３０と、共有メモリ４０と、を着脱可能に構成することにより、学習の終了後に学習部２０と、共有メモリ４０と、を制御装置１１か取り外すことが可能となり、制御装置１１をより小型化可能である。

【0053】

（第３実施形態）
第３実施形態に係る制御装置１２は、複数の学習部２０と複数の推定部３０とがネットワークを介して情報を共有する点で第１実施形態に係る制御装置１０と相違する。以下では、第１実施形態に係る制御装置１０と相違する点を説明する。

【0054】

図７は、第３実施形態に係る制御装置１２の構成例を示すブロック図である。図７に示すように、制御装置１２は、複数の学習部２０と複数の推定部３０とを有する。成され推定部と学習部はネットワークを介して接続される。学習部２０は、Ｎ≧１であり、推定部３０は、Ｍ≧１である。

【0055】

学習部２０と、推定部３０とのデータ伝送を、ネットワーク７０経由で学習モデルパラメタと学習データのやり取りをすることが可能である。また、制御装置１２は、ＭとＮが異なる場合、推定部と学習部を動的に対応付け、強化学習を行う。このように、制御装置１２は、共有メモリ４０を有しないため、より小型化が可能である。

【0056】

以上、いくつかの実施形態を説明したが、これらの実施形態は、例としてのみ提示したものであり、発明の範囲を限定することを意図したものではない。本明細書で説明した新規な装置、方法及びプログラムは、その他の様々な形態で実施することができる。また、本明細書で説明した装置、方法及びプログラムの形態に対し、発明の要旨を逸脱しない範囲内で、種々の省略、置換、変更を行うことができる。

【符号の説明】

【0057】

１：制御システム、５：制御対象、１０、１１、１２：制御装置、２０：学習部、３０：推定部、４０：共有メモリ、７０：ネットワーク。

【図1】