IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 横河電機株式会社の特許一覧

<>
  • 特許-装置、方法およびプログラム 図1
  • 特許-装置、方法およびプログラム 図2
  • 特許-装置、方法およびプログラム 図3
  • 特許-装置、方法およびプログラム 図4
  • 特許-装置、方法およびプログラム 図5
  • 特許-装置、方法およびプログラム 図6
  • 特許-装置、方法およびプログラム 図7
  • 特許-装置、方法およびプログラム 図8
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2023-08-15
(45)【発行日】2023-08-23
(54)【発明の名称】装置、方法およびプログラム
(51)【国際特許分類】
   G05B 13/02 20060101AFI20230816BHJP
【FI】
G05B13/02 L
G05B13/02 A
【請求項の数】 11
(21)【出願番号】P 2019213293
(22)【出願日】2019-11-26
(65)【公開番号】P2021086283
(43)【公開日】2021-06-03
【審査請求日】2021-06-10
【前置審査】
(73)【特許権者】
【識別番号】000006507
【氏名又は名称】横河電機株式会社
(74)【代理人】
【識別番号】110000877
【氏名又は名称】弁理士法人RYUKA国際特許事務所
(72)【発明者】
【氏名】▲高▼見 豪
【審査官】山村 秀政
(56)【参考文献】
【文献】特開2019-145042(JP,A)
【文献】特開2009-142111(JP,A)
【文献】特開2000-222002(JP,A)
【文献】特開平08-221379(JP,A)
【文献】特開2019-168973(JP,A)
【文献】特開2018-097680(JP,A)
【文献】特開平06-105414(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G05B 13/02
(57)【特許請求の範囲】
【請求項1】
センサによって測定された測定データを取得する第1取得部および第2取得部と、
前記第1取得部により取得された測定データと、少なくとも1つの制御対象機器の第1種類の制御内容を示す制御パラメータとを含む学習データを用いて、測定データの入力に応じ、予め設定された報酬関数により定まる報酬値を高めるために推奨される前記第1種類の制御内容を示す推奨制御パラメータを出力する第1モデルの学習処理を実行する第1学習処理部と、
前記第2取得部により取得された測定データと、前記少なくとも1つの制御対象機器の第2種類の制御内容を示す制御パラメータとを含む学習データを用いて、測定データの入力に応じ、前記報酬値を高めるために推奨される前記第2種類の制御内容を示す推奨制御パラメータを出力する第2モデルの学習処理を実行する第2学習処理部と、
を備え、
各制御対象機器は、PI制御、PD制御およびPID制御のうち何れかのフィードバック制御によって制御されており、
前記第1種類の制御内容は、前記少なくとも1つの制御対象機器のフィードバック制御の比例ゲインの値と、積分ゲインの値、または、微分ゲインの値の少なくとも一方とを含む各ゲインセットに予め対応付けられた識別情報のうち、フィードバック制御に使用するゲインセットの識別情報であり、
前記第2種類の制御内容は、前記少なくとも1つの制御対象機器のフィードバック制御の目標値であり、
前記第1取得部は、少なくとも1種類の測定データを含む第1群の測定データと、少なくとも1種類の測定データを含む第2群の測定データとをそれぞれ取得し、
前記第1学習処理部で用いられる前記報酬関数は、
前記第1群の測定データの少なくとも1つが基準条件を満たさない場合には、前記第2群の測定データのそれぞれの値に関わらず前記報酬値を0とし、
前記第1群の測定データのそれぞれが基準条件を満たす場合には、前記第2群の測定データのそれぞれの値に応じて前記報酬値を増減させる装置。
【請求項2】
センサによって測定された測定データを取得する第1取得部および第2取得部と、
前記第1取得部により取得された測定データと、少なくとも1つの制御対象機器の第1種類の制御内容を示す制御パラメータとを含む学習データを用いて、測定データの入力に応じ、予め設定された報酬関数により定まる報酬値を高めるために推奨される前記第1種類の制御内容を示す推奨制御パラメータを出力する第1モデルの学習処理を実行する第1学習処理部と、
前記第2取得部により取得された測定データと、前記少なくとも1つの制御対象機器の第2種類の制御内容を示す制御パラメータとを含む学習データを用いて、測定データの入力に応じ、前記報酬値を高めるために推奨される前記第2種類の制御内容を示す推奨制御パラメータを出力する第2モデルの学習処理を実行する第2学習処理部と、
を備え、
各制御対象機器は、P制御、PI制御、PD制御およびPID制御のうち何れかのフィードバック制御によって制御されており、
前記第1種類の制御内容は、前記少なくとも1つの制御対象機器のフィードバック制御の比例ゲインの値、積分ゲインの値、または、微分ゲインの値の少なくとも1つであり、
前記第2種類の制御内容は、前記少なくとも1つの制御対象機器のフィードバック制御の目標値であり、
前記第1取得部は、少なくとも1種類の測定データを含む第1群の測定データと、少なくとも1種類の測定データを含む第2群の測定データとをそれぞれ取得し、
前記第1学習処理部で用いられる前記報酬関数は、
前記第1群の測定データの少なくとも1つが基準条件を満たさない場合には、前記第2群の測定データのそれぞれの値に関わらず前記報酬値を0とし、
前記第1群の測定データのそれぞれが基準条件を満たす場合には、前記第2群の測定データのそれぞれの値に応じて前記報酬値を増減させる装置。
【請求項3】
前記第1群の測定データは、前記少なくとも1つの制御対象機器を含む設備の運転状態を示し、
前記第2群の測定データは、前記設備によるエネルギーまたは原材料の少なくとも一方の消費量を示す、請求項1または2に記載の装置。
【請求項4】
前記第1モデルに対し、前記第1取得部により取得された前記測定データを供給する第1供給部と、
前記測定データを前記第1モデルに供給したことに応じて前記第1モデルが出力する前記推奨制御パラメータを取得する第1推奨制御パラメータ取得部と、
前記第1推奨制御パラメータ取得部により取得された前記推奨制御パラメータを用いて前記少なくとも1つの制御対象機器を制御する第1制御部と、
をさらに備える請求項1から3の何れか一項に記載の装置。
【請求項5】
前記第2モデルに対し、前記第2取得部により取得された前記測定データを供給する第2供給部と、
前記測定データを前記第2モデルに供給したことに応じて前記第2モデルが出力する前記推奨制御パラメータを取得する第2推奨制御パラメータ取得部と、
前記第2推奨制御パラメータ取得部により取得された前記推奨制御パラメータを用いて前記少なくとも1つの制御対象機器を制御する第2制御部と、
をさらに備える、請求項に記載の装置。
【請求項6】
前記第1取得部は、前記少なくとも1つの制御対象機器に対する外乱として作用し得る物理量を示す前記測定データを取得する、請求項1からのいずれか一項に記載の装置。
【請求項7】
前記第1取得部は、前記少なくとも1つの制御対象機器を含む設備によるエネルギーまたは原材料の少なくとも一方の消費量を示す前記測定データを取得する、請求項1からのいずれか一項に記載の装置。
【請求項8】
センサによって測定された測定データを取得する第1取得段階および第2取得段階と、
前記第1取得段階により取得された測定データと、少なくとも1つの制御対象機器の第1種類の制御内容を示す制御パラメータとを含む学習データを用いて、測定データの入力に応じ、予め設定された報酬関数により定まる報酬値を高めるために推奨される前記第1種類の制御内容を示す推奨制御パラメータを出力する第1モデルの学習処理を実行する第1学習処理段階と、
前記第2取得段階により取得された測定データと、前記少なくとも1つの制御対象機器の第2種類の制御内容を示す制御パラメータとを含む学習データを用いて、測定データの入力に応じ、前記報酬値を高めるために推奨される前記第2種類の制御内容を示す推奨制御パラメータを出力する第2モデルの学習処理を実行する第2学習処理段階と、
を備え、
各制御対象機器は、PI制御、PD制御およびPID制御のうち何れかのフィードバック制御によって制御されており、
前記第1種類の制御内容は、前記少なくとも1つの制御対象機器のフィードバック制御の比例ゲインの値と、積分ゲインの値、または、微分ゲインの値の少なくとも一方とを含む各ゲインセットに予め対応付けられた識別情報のうち、フィードバック制御に使用するゲインセットの識別情報であり、
前記第2種類の制御内容は、前記少なくとも1つの制御対象機器のフィードバック制御の目標値であり、
前記第1取得段階では、少なくとも1種類の測定データを含む第1群の測定データと、少なくとも1種類の測定データを含む第2群の測定データとをそれぞれ取得し、
前記第1学習処理段階で用いられる前記報酬関数は、
前記第1群の測定データの少なくとも1つが基準条件を満たさない場合には、前記第2群の測定データのそれぞれの値に関わらず前記報酬値を0とし、
前記第1群の測定データのそれぞれが基準条件を満たす場合には、前記第2群の測定データのそれぞれの値に応じて前記報酬値を増減させる方法。
【請求項9】
センサによって測定された測定データを取得する第1取得段階および第2取得段階と、
前記第1取得段階により取得された測定データと、少なくとも1つの制御対象機器の第1種類の制御内容を示す制御パラメータとを含む学習データを用いて、測定データの入力に応じ、予め設定された報酬関数により定まる報酬値を高めるために推奨される前記第1種類の制御内容を示す推奨制御パラメータを出力する第1モデルの学習処理を実行する第1学習処理段階と、
前記第2取得段階により取得された測定データと、前記少なくとも1つの制御対象機器の第2種類の制御内容を示す制御パラメータとを含む学習データを用いて、測定データの入力に応じ、前記報酬値を高めるために推奨される前記第2種類の制御内容を示す推奨制御パラメータを出力する第2モデルの学習処理を実行する第2学習処理段階と、
を備え、
各制御対象機器は、P制御、PI制御、PD制御およびPID制御のうち何れかのフィードバック制御によって制御されており、
前記第1種類の制御内容は、前記少なくとも1つの制御対象機器のフィードバック制御の比例ゲインの値、積分ゲインの値、または、微分ゲインの値の少なくとも1つであり、
前記第2種類の制御内容は、前記少なくとも1つの制御対象機器のフィードバック制御の目標値であり、
前記第1取得段階では、少なくとも1種類の測定データを含む第1群の測定データと、少なくとも1種類の測定データを含む第2群の測定データとをそれぞれ取得し、
前記第1学習処理段階で用いられる前記報酬関数は、
前記第1群の測定データの少なくとも1つが基準条件を満たさない場合には、前記第2群の測定データのそれぞれの値に関わらず前記報酬値を0とし、
前記第1群の測定データのそれぞれが基準条件を満たす場合には、前記第2群の測定データのそれぞれの値に応じて前記報酬値を増減させる方法。
【請求項10】
コンピュータに、
センサによって測定された測定データを取得する第1取得部および第2取得部と、
前記第1取得部により取得された測定データと、少なくとも1つの制御対象機器の第1種類の制御内容を示す制御パラメータとを含む学習データを用いて、測定データの入力に応じ、予め設定された報酬関数により定まる報酬値を高めるために推奨される前記第1種類の制御内容を示す推奨制御パラメータを出力する第1モデルの学習処理を実行する第1学習処理部と、
前記第2取得部により取得された測定データと、前記少なくとも1つの制御対象機器の第2種類の制御内容を示す制御パラメータとを含む学習データを用いて、測定データの入力に応じ、前記報酬値を高めるために推奨される前記第2種類の制御内容を示す推奨制御パラメータを出力する第2モデルの学習処理を実行する第2学習処理部
として機能させ、
各制御対象機器は、PI制御、PD制御およびPID制御のうち何れかのフィードバック制御によって制御されており、
前記第1種類の制御内容は、前記少なくとも1つの制御対象機器のフィードバック制御の比例ゲインの値と、積分ゲインの値、または、微分ゲインの値の少なくとも一方とを含む各ゲインセットに予め対応付けられた識別情報のうち、フィードバック制御に使用するゲインセットの識別情報であり、
前記第2種類の制御内容は、前記少なくとも1つの制御対象機器のフィードバック制御の目標値であり、
前記第1取得部は、少なくとも1種類の測定データを含む第1群の測定データと、少なくとも1種類の測定データを含む第2群の測定データとをそれぞれ取得し、
前記第1学習処理部で用いられる前記報酬関数は、
前記第1群の測定データの少なくとも1つが基準条件を満たさない場合には、前記第2群の測定データのそれぞれの値に関わらず前記報酬値を0とし、
前記第1群の測定データのそれぞれが基準条件を満たす場合には、前記第2群の測定データのそれぞれの値に応じて前記報酬値を増減させるプログラム。
【請求項11】
コンピュータに、
センサによって測定された測定データを取得する第1取得部および第2取得部と、
前記第1取得部により取得された測定データと、少なくとも1つの制御対象機器の第1種類の制御内容を示す制御パラメータとを含む学習データを用いて、測定データの入力に応じ、予め設定された報酬関数により定まる報酬値を高めるために推奨される前記第1種類の制御内容を示す推奨制御パラメータを出力する第1モデルの学習処理を実行する第1学習処理部と、
前記第2取得部により取得された測定データと、前記少なくとも1つの制御対象機器の第2種類の制御内容を示す制御パラメータとを含む学習データを用いて、測定データの入力に応じ、前記報酬値を高めるために推奨される前記第2種類の制御内容を示す推奨制御パラメータを出力する第2モデルの学習処理を実行する第2学習処理部
として機能させ、
各制御対象機器は、P制御、PI制御、PD制御およびPID制御のうち何れかのフィードバック制御によって制御されており、
前記第1種類の制御内容は、前記少なくとも1つの制御対象機器のフィードバック制御の比例ゲインの値、積分ゲインの値、または、微分ゲインの値の少なくとも1つであり、
前記第2種類の制御内容は、前記少なくとも1つの制御対象機器のフィードバック制御の目標値であり、
前記第1取得部は、少なくとも1種類の測定データを含む第1群の測定データと、少なくとも1種類の測定データを含む第2群の測定データとをそれぞれ取得し、
前記第1学習処理部で用いられる前記報酬関数は、
前記第1群の測定データの少なくとも1つが基準条件を満たさない場合には、前記第2群の測定データのそれぞれの値に関わらず前記報酬値を0とし、
前記第1群の測定データのそれぞれが基準条件を満たす場合には、前記第2群の測定データのそれぞれの値に応じて前記報酬値を増減させるプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、装置、方法およびプログラムに関する。
【背景技術】
【0002】
従来、機器を制御する種々の手法が提案されている(例えば、特許文献1参照)。
特許文献1 特開2018-202564号公報
【発明の概要】
【発明が解決しようとする課題】
【0003】
しかしながら、近年、より適切に機器を制御したいという要望が高まっている。
【課題を解決するための手段】
【0004】
上記課題を解決するために、本発明の第1の態様においては、装置が提供される。装置は、センサによって測定された測定データを取得する第1取得部を備えてよい。装置は、第1取得部により取得された測定データと、少なくとも1つの制御対象機器の第1種類の制御内容を示す制御パラメータとを含む学習データを用いて、測定データの入力に応じ、予め設定された報酬関数により定まる報酬値を高めるために推奨される第1種類の制御内容を示す推奨制御パラメータを出力する第1モデルの学習処理を実行する第1学習処理部を備えてよい。
【0005】
装置は、第1モデルに対し、第1取得部により取得された測定データを供給する第1供給部をさらに備えてよい。装置は、測定データを第1モデルに供給したことに応じて第1モデルが出力する推奨制御パラメータを取得する第1推奨制御パラメータ取得部をさらに備えてよい。装置は、第1推奨制御パラメータ取得部により取得された推奨制御パラメータを用いて少なくとも1つの制御対象機器を制御する第1制御部をさらに備えてよい。
【0006】
各制御対象機器は、P制御、PI制御、PD制御およびPID制御のうち何れかのフィードバック制御によって制御されてよい。第1種類の制御内容は、フィードバック制御の目標値であってよい。
【0007】
各制御対象機器は、PI制御、PD制御およびPID制御のうち何れかのフィードバック制御によって制御されてよい。第1種類の制御内容は、フィードバック制御の比例ゲインの値と、積分ゲインの値、または、微分ゲインの値の少なくとも一方とを含む各ゲインセットに予め対応付けられた識別情報のうち、フィードバック制御に使用するゲインセットの識別情報であってよい。
【0008】
各制御対象機器は、P制御、PI制御、PD制御およびPID制御のうち何れかのフィードバック制御によって制御されてよい。第1種類の制御内容は、フィードバック制御の比例ゲインの値、積分ゲインの値、または、微分ゲインの値の少なくとも1つであってよい。
【0009】
装置は、センサによって測定された測定データを取得する第2取得部をさらに備えてよい。装置は、第2取得部により取得された測定データと、少なくとも1つの制御対象機器の第2種類の制御内容を示す制御パラメータとを含む学習データを用いて、測定データの入力に応じ報酬値を高めるために推奨される第2種類の制御内容を示す推奨制御パラメータを出力する第2モデルの学習処理を実行する第2学習処理部をさらに備えてよい。第2種類の制御内容は、フィードバック制御の目標値であってよい。
【0010】
装置は、第2モデルに対し、第2取得部により取得された測定データを供給する第2供給部をさらに備えてよい。装置は、測定データを第2モデルに供給したことに応じて第2モデルが出力する推奨制御パラメータを取得する第2推奨制御パラメータ取得部をさらに備えてよい。装置は、第2推奨制御パラメータ取得部により取得された推奨制御パラメータを用いて少なくとも1つの制御対象機器を制御する第2制御部をさらに備えてよい。
【0011】
第1種類の制御内容は、各制御対象機器の出力値であってよい。
【0012】
第1取得部は、少なくとも1つの制御対象機器に対する外乱として作用し得る物理量を示す測定データを取得してよい。
【0013】
第1取得部は、少なくとも1つの制御対象機器を含む設備によるエネルギーまたは原材料の少なくとも一方の消費量を示す測定データを取得してよい。
【0014】
第1取得部は、少なくとも1種類の測定データを含む第1群の測定データと、少なくとも1種類の測定データを含む第2群の測定データとをそれぞれ取得してよい。第1学習処理部で用いられる報酬関数は、第1群の測定データの少なくとも1つが基準条件を満たさない場合には、第2群の測定データのそれぞれの値に関わらず報酬値を0とし、第1群の測定データのそれぞれが基準条件を満たす場合には、第2群の測定データのそれぞれの値に応じて報酬値を増減させてよい。
【0015】
本発明の第2の態様においては、方法が提供される。方法は、センサによって測定された測定データを取得する第1取得段階を備えてよい。方法は、第1取得段階により取得された測定データと、少なくとも1つの制御対象機器の第1種類の制御内容を示す制御パラメータとを含む学習データを用いて、測定データの入力に応じ、予め設定された報酬関数により定まる報酬値を高めるために推奨される第1種類の制御内容を示す推奨制御パラメータを出力する第1モデルの学習処理を実行する第1学習処理段階を備えてよい。
【0016】
本発明の第3の態様においては、プログラムが提供される。プログラムは、コンピュータに、センサによって測定された測定データを取得する第1取得部として機能させてよい。プログラムは、コンピュータに、第1取得部により取得された測定データと、少なくとも1つの制御対象機器の第1種類の制御内容を示す制御パラメータとを含む学習データを用いて、測定データの入力に応じ、予め設定された報酬関数により定まる報酬値を高めるために推奨される第1種類の制御内容を示す推奨制御パラメータを出力する第1モデルの学習処理を実行する第1学習処理部として機能させてよい。
【0017】
なお、上記の発明の概要は、本発明の必要な特徴の全てを列挙したものではない。また、これらの特徴群のサブコンビネーションもまた、発明となりうる。
【図面の簡単な説明】
【0018】
図1】本実施形態に係るシステム1を示す。
図2】本実施形態に係る装置4の学習段階での動作を示す。
図3】本実施形態に係る装置4の運用段階での動作を示す。
図4】システム1の適用例(1)を示す。
図5】システム1の適用例(2)を示す。
図6】システム1の適用例(3)を示す。
図7】変形例に係るシステム1Aを示す。
図8】本発明の複数の態様が全体的または部分的に具現化されてよいコンピュータ2200の例を示す。
【発明を実施するための形態】
【0019】
以下、発明の実施の形態を通じて本発明を説明するが、以下の実施形態は特許請求の範囲にかかる発明を限定するものではない。また、実施形態の中で説明されている特徴の組み合わせの全てが発明の解決手段に必須であるとは限らない。
【0020】
[1.システム1の構成]
図1は、本実施形態に係るシステム1を示す。システム1は、設備2と、装置4とを備える。
【0021】
[1-1.設備2]
設備2は、複数の機器20を備え付けたものである。例えば設備2は、プラントでもよいし、複数の機器20を複合させた複合装置でもよい。プラントとしては、化学やバイオ等の工業プラントの他、ガス田や油田等の井戸元やその周辺を管理制御するプラント、水力・火力・原子力等の発電を管理制御するプラント、太陽光や風力等の環境発電を管理制御するプラント、上下水やダム等を管理制御するプラント等が挙げられる。本実施形態においては一例として、設備2は、1または複数の機器20と、1または複数のセンサ21とを有する。
【0022】
[1-1-1.機器20]
各機器20は、器具、機械または装置であり、例えば、設備2のプロセスにおける圧力、温度、pH、速度または流量などの少なくとも1つの物理量を制御するバルブ、ポンプ、ヒータ、ファン、モータ、スイッチ等のアクチュエータであってよい。
【0023】
本実施形態においては一例として、設備2には複数の機器20が具備される。各機器20は互いに異種でもよいし、少なくとも一部の2以上の機器20が同種でもよい。
【0024】
各機器20は図示しないネットワークを介して外部から有線または無線で制御されてもよいし、手動で制御されてもよい。複数の機器20のうち少なくとも一部の機器20は、装置4によって制御される制御対象機器20(T)であってよい。システム1に複数の制御対象機器20(T)が具備される場合には、これら複数の制御対象機器20(T)は連動して制御される関係(一例として主従関係、独立には制御されない関係)を有してよい。また、各制御対象機器20(T)は、同種の機器20でもよいし、異種の機器20でもよい。
【0025】
なお、複数の機器20のうち少なくとも一部の機器20には、図示しないコントローラが設けられてよい。機器20にコントローラが設けられるとは、機器20にコントローラが内蔵されることであってもよいし、機器20にコントローラが外部接続されることであってもよい。コントローラは、目標値(設定値)が設定されることに応じて、当該目標値と現在値との差分を低減するように機器20をフィードバック制御してよい。フィードバック制御は、PI制御、PD制御およびPID制御のうちの何れかであってもよいし、P制御であってもよい。
【0026】
PI制御、PD制御およびPID制御のうちの何れかのフィードバック制御が行われる場合には、コントローラは一例として、比例ゲインの値と、積分ゲインの値または微分ゲインの値の少なくとも一方とを含む複数のゲインセットのそれぞれについて、当該ゲインセットを識別するための識別情報(ゲインセットIDとも称する)を予め記憶してよい。この場合に、コントローラは、ゲインセットIDが入力されることに応じて、当該ゲインセットIDに対応するゲインセットの各ゲインの値を用いてフィードバック制御を行ってよい。
【0027】
フィードバック制御の目標値および現在値は、機器20による出力値そのもの(一例として、バルブの開度)を示してもよいし、出力値によって影響を受ける値(一例として、バルブの下流側での流体の流量)を示してもよい。
【0028】
[1-1-2.センサ21]
各センサ21は、設備2の内外の物理量を測定する。各センサ21は、測定によって得られた測定データを装置4に供給してよい。
【0029】
本実施形態においては一例として、設備2には複数のセンサ21が具備される。複数のセンサ21によって測定される複数の測定データは、外部環境データ、フィードバック制御用データ、運転状態データ、または、消費量データの少なくとも1つを含んでよい。
【0030】
外部環境データは、制御対象機器20(T)に対する外乱として作用し得る物理量を示す。例えば、外部環境データは、制御対象機器20(T)の制御パラメータに対して外乱として作用し得る物理量(或いは、その変動)を示してよい。一例として、外部環境データは、設備2の外気の温度や湿度、日照、風向き、風量、降水量、他の機器20の制御により変化する物理量等を示してよい。外部環境データは、外乱を検出するのに用いられてよい。
【0031】
フィードバック制御用データは、各制御対象機器20(T)をフィードバック制御するための物理量を示す。フィードバック制御用データは、各制御対象機器20(T)による出力値を示してもよいし、出力値によって変化する値を示してもよい。
【0032】
運転状態データは、各制御対象機器20(T)を制御した結果の運転状態を示す。運転状態データは、各制御対象機器20(T)の制御によって変動し得る物理量を示してもよいし、各制御対象機器20(T)の出力値を示してもよい。運転状態データは、フィードバック制御用データと同じであってもよい。
【0033】
消費量データは、設備2によるエネルギーまたは原材料の少なくとも一方の消費量を示す。消費量データは、エネルギー消費量として、電力や燃料(一例としてLPG)の消費量を示してよい。
【0034】
[1-3.装置4]
装置4は、各制御対象機器20(T)についての学習を行う。装置4は、1または複数のコンピュータであってよく、PCなどで構成されてよい。装置4は、測定データ取得部40と、制御パラメータ取得部41と、報酬値取得部42と、学習処理部44と、モデル45と、供給部46と、推奨制御パラメータ取得部47と、制御部49とを有する。
【0035】
[1-3―1.測定データ取得部40]
測定データ取得部40は、第1取得部の一例であり、センサ21によって測定された測定データを取得する。測定データ取得部40は、設備2に具備された複数のセンサ21のそれぞれによって測定された測定データを取得してよい。測定データ取得部40は、装置4による各制御対象機器20(T)の制御周期内での測定値の平均値を示す測定データを取得してもよいし、制御インターバル毎の測定値(つまり制御周期の終了タイミングでの測定値)を示す測定データを取得してもよい。本実施形態では一例として、各制御対象機器20(T)の制御周期は同期していてよい。測定データ取得部40は、測定データをセンサ21から取得してもよいし、センサ21を確認したオペレータから取得してもよい。測定データ取得部40は、取得した測定データを学習処理部44および供給部46に供給してよい。
【0036】
[1-3―2.制御パラメータ取得部41]
制御パラメータ取得部41は、各制御対象機器20(T)の制御内容を示す制御パラメータを取得する。システム1に複数の制御対象機器20(T)が具備される場合には、制御パラメータはこれら複数の制御対象機器20(T)のそれぞれの制御内容を示してよい。本実施形態では一例として、制御パラメータ取得部41は制御部49から制御パラメータを取得するが、オペレータから取得してもよいし、各制御対象機器20(T)から取得してもよい。制御パラメータ取得部41は、取得した制御パラメータを学習処理部44に供給してよい。
【0037】
ここで、各制御対象機器20(T)の制御内容は、当該制御対象機器20(T)の出力値であってもよいし、当該制御対象機器20(T)がフィードバック制御される場合に、その目標値であってもよいし、フィードバック制御の比例ゲインの値、積分ゲインの値、または、微分ゲインの値の少なくとも1つであってもよいし、フィードバック制御に使用するゲインセットのゲインセットIDであってもよい。学習処理部44で用いられる制御パラメータは、これらの種類の制御内容のうち、一の種類(第1種類とも称する)の制御内容を示してよい。
【0038】
[1-3―3.報酬値取得部42]
報酬値取得部42は、学習処理部44での強化学習に用いられる報酬値を取得する。報酬値は、設備2の操業状態を評価するための値であってよく、予め設定された報酬関数により定まる値であってよい。ここで、関数とは、ある集合の各要素に他の集合の各要素を一対一で対応させる規則を持つ写像であり、例えば数式でもよいし、テーブルでもよい。
【0039】
報酬関数は、測定データの入力に応じて、当該測定データで示される状態を評価した報酬値を出力してよい。報酬関数は、オペレータによって設定されてよい。報酬値取得部42は、報酬関数を使用したオペレータから報酬値を取得してもよいし、センサ21からの測定データを報酬関数に入力して報酬値を取得してもよい。報酬値取得部42が測定データを報酬関数に入力する場合には、報酬関数は装置4の内部に記憶されていてもよいし、外部に記憶されていてもよい。
【0040】
[1-3―4.学習処理部44]
学習処理部44は、第1学習処理部の一例であり、測定データ取得部40により取得された測定データと、制御パラメータ取得部41により取得された制御パラメータとを含む学習データを用いてモデル45の学習処理を実行する。学習処理部44は、報酬値取得部42からの報酬値を用いてモデル45の学習処理を実行してよい。
【0041】
[1-3―5.モデル45]
モデル45は、第1モデルの一例であり、測定データの入力に応じ、報酬値を高めるために推奨される制御内容を示す推奨制御パラメータを出力する。モデル45から出力される推奨制御パラメータは、上述の第1種類の制御内容を示してよい。報酬値を高める制御内容とは、所定の時点(一例として現在)の設備2の操業状態に対応する報酬値(一例としてその時点の測定データを報酬関数に入力して得られる報酬値)を基準報酬値とした場合に、当該基準報酬値よりも報酬値が高くなる制御内容であってよい。このように報酬値が高くなる制御内容は、現時点よりも操業状態が改善されるので、制御対象機器20(T)に対する制御として推奨される。但し、基準報酬値は、固定値(一例として報酬値の最大値から許容値を減じた値)であってもよい。
【0042】
[1-3―6.供給部46]
供給部46は、第1供給部の一例であり、測定データ取得部40により取得された測定データをモデル45に供給する。
【0043】
[1-3―7.推奨制御パラメータ取得部47]
推奨制御パラメータ取得部47は、第1推奨制御パラメータ取得部の一例であり、測定データをモデル45に供給したことに応じてモデル45が出力する推奨制御パラメータを取得する。推奨制御パラメータ取得部47は、取得した推奨制御パラメータを制御部49に供給してよい。
【0044】
[1-3―8.制御部49]
制御部49は、第1制御部の一例であり、推奨制御パラメータ取得部47により取得された推奨制御パラメータを用いて各制御対象機器20(T)を制御する。
【0045】
制御部49は、各制御対象機器20(T)に推奨制御パラメータを供給することで、推奨制御パラメータが示す制御内容で各制御対象機器20(T)を制御してよい。制御部49は、各制御対象機器20(T)にコントローラが設けられている場合には、当該コントローラに推奨制御パラメータを供給してよい。
【0046】
制御部49は、各制御対象機器20(T)の出力値が制御周期内に維持されるように各制御対象機器20(T)を制御してよい。制御対象機器20(T)がフィードバック制御される場合には、制御周期はフィードバック制御のサイクルタイムよりも長くてよい。
【0047】
なお、制御部49は、装置4の各部の制御をさらに行ってもよい。例えば、制御部49は、モデル45の学習を制御してよい。
【0048】
以上のシステム1によれば、センサ21による測定データと、各制御対象機器20(T)の第1種類の制御内容を示す制御パラメータとを含む学習データを用いてモデル45の学習処理が実行され、モデル45は測定データの入力に応じ報酬値を高めるために推奨される第1種類の制御内容を示す推奨制御パラメータを出力する。従って、測定データを入力することで、報酬値を高める推奨制御パラメータを取得することができるため、熟練したオペレータによる試行錯誤を必要とせずに適切な推奨制御パラメータを取得し、制御対象機器20(T)を適切に制御することができる。
【0049】
また、制御対象機器20(T)に対する外乱として作用し得る物理量を示す測定データが取得されるので、外乱が生じる場合にも適切な推奨制御パラメータを取得することができる。
【0050】
また、制御対象機器20(T)を含む設備2によるエネルギーまたは原材料の少なくとも一方の消費量を示す測定データが取得されるので、消費量に応じた適切な推奨制御パラメータを取得することができる。
【0051】
また、測定データをモデル45に供給したことに応じて出力される推奨制御パラメータを用いて各制御対象機器20(T)が制御されるので、熟練したオペレータによる試行錯誤を必要とせずに、適切な制御パラメータによって各制御対象機器20(T)を自動的に制御することができる。
【0052】
[2.動作]
[2-1.学習段階]
図2は、本実施形態に係る装置4の学習段階での動作を示す。装置4は、ステップS11~S25の処理を行うことにより設備2を稼働させつつモデル45の学習を行う。
【0053】
まずステップS11において測定データ取得部40は、各センサ21によって測定された測定データを取得する。これにより、初期状態の測定データが取得される。測定データ取得部40は、学習処理部44に測定データを記憶させてよい。
【0054】
ステップS13において制御部49は、各制御対象機器20(T)の制御内容を示す制御パラメータを決定する。制御部49は、次の制御周期での制御パラメータを決定してよく、本実施形態では一例として、後述のステップS15が次回行われる場合に使用される制御パラメータを決定してよい。決定される制御パラメータは、報酬値を高くするものであってもよいし、低くするものであってもよいし、報酬値とは無関係に決定されるものであってもよい。制御部49は、オペレータの操作に応じて制御パラメータを決定してよい。これに代えて、制御部49は、モデル45から出力される推奨制御パラメータを制御パラメータとして決定してよい。
【0055】
例えば、ステップS13の処理が最初に行われる場合には、制御部49は、ステップS11で取得された測定データをモデル45に入力したことに応じてモデル45から出力される推奨制御パラメータを、次の制御周期での制御パラメータとして決定してよい。ステップS13~S19の処理が繰り返されてステップS13の処理が複数回行われる場合には、制御部49は、最後に行われたステップS17の処理で取得された測定データをモデル45に入力したことに応じてモデル45から出力される推奨制御パラメータを、次の制御周期での制御パラメータとして決定してよい。ステップS13の処理が複数回行われる場合には、複数のステップS13の処理のうち少なくとも一部の処理の間では、異なる制御パラメータが決定されてよい。
【0056】
ステップS15において制御部49は、制御パラメータを各制御対象機器20(T)に出力して各制御対象機器20(T)を制御する。制御部49は、制御パラメータ取得部41を介して学習処理部44に制御パラメータを記憶させてよい。制御部49は、各制御対象機器20(T)の制御前に測定データ取得部40によって取得された測定データに対応付けて、制御パラメータを学習処理部44に記憶させてよい。これにより、測定データおよび制御パラメータを含む学習データが学習処理部44に記憶される。
【0057】
なお、ステップS15の処理が最初に行われる場合には、制御対象機器20(T)の制御前に取得された測定データは、上述のステップS11の処理で取得された測定データであってよい。ステップS13~S19の処理が繰り返されてステップS15の処理が複数回行われる場合には、制御対象機器20(T)の制御前に取得された測定データは、最後に行われたステップS17の処理で取得された測定データであってよい。
【0058】
ステップS17において測定データ取得部40は、各センサ21によって測定された測定データを取得する。これにより、制御パラメータで示される制御内容で各制御対象機器20(T)が制御された場合の測定データが取得される。
【0059】
ステップS19において報酬値取得部42は、報酬関数により定まる報酬値を取得する。ここで、測定データ取得部40により取得される測定データには第1群の測定データと、第2群の測定データとがそれぞれ含まれてよく、各群の測定データには少なくとも1種類の測定データが含まれてよい。報酬関数は、第1群の測定データの少なくとも1つが基準条件を満たさない場合には、第2群の測定データのそれぞれの値に関わらず報酬値を0としてよい。また、報酬関数は、第1群の測定データのそれぞれが基準条件を満たす場合には、第2群の測定データのそれぞれの値に応じて報酬値を増減させてよい。
【0060】
第1群の測定データは運転状態データであってよく、第1群の測定データの基準条件は、設備2で最低限、達成するべき条件であってよい。例えば、設備2が化学製品などの製品の製造プラントである場合には第1群の測定データはプラント内の温度や湿度を示してよく、測定データの基準条件は、製品の品質を保つために維持されるべき温度範囲、湿度範囲であってよい。また、第2群の測定データは消費量データであってよい。この場合、消費量が多いほど報酬値は少なくてよい。これにより、消費量が削減されるように学習処理が行われることとなる。
【0061】
報酬値取得部42は、取得した報酬値を学習処理部44に記憶させてよい。報酬値取得部42は、最後に行われたステップS15の処理で記憶された学習データに対応付けて報酬値を記憶させてよい。
【0062】
ステップS21において制御部49は、ステップS13~S19の処理を基準ステップ数だけ行ったか否かを判定する。基準ステップ数だけ処理を行っていないと判定された場合(ステップS21;No)には、ステップS13に処理が移行する。これにより、測定データまたは制御パラメータの少なくとも一方が異なる学習データが基準ステップ数だけサンプリングされて報酬値と共に記憶される。なお、ステップS13~S19の処理が繰り返し行われる場合に、ステップS13の周期(つまり制御周期)は設備2の時定数に応じて定められてよく、一例として5分であってよい。ステップS21において基準ステップ数だけ処理を行ったと判定された場合(ステップS21;Yes)には、ステップS23に処理が移行する。
【0063】
ステップS23において学習処理部44は、対応付けて記憶された学習データおよび報酬値の組をそれぞれ用いてモデル45の学習処理を行う。これにより、モデル45が更新される。なお、学習処理部44は、最急降下法やニューラルネットワーク、DQN(Deep Q-Network)、ガウシアンプロセス、ディープラーニングなど、公知の手法による学習処理を行ってよい。学習処理部44は、報酬値が高くなる制御パラメータほど推奨制御パラメータとして優先的に出力されるように、モデル45の学習処理を行ってよい。
【0064】
学習処理後のモデル45には、測定データおよび制御パラメータを含む学習データに対応付けて、重み係数が記憶されてよい。重み係数は、対応する学習データ内の制御パラメータが制御に用いられた場合の報酬値の高さに応じて設定されてよく、当該制御パラメータが制御に用いられる場合の報酬値を予測するのに用いられてよい。
【0065】
ステップS25において制御部49は、ステップS13~S23の処理を基準繰り返し(イテレーション)数だけ行ったか否かを判定する。基準繰り返し数だけ処理を行っていないと判定された場合(ステップS25;No)には、ステップS11に処理が移行する。基準イテレーション数だけ処理を行ったと判定された場合(ステップS25;Yes)には、処理が終了する。
【0066】
以上の動作によれば、報酬関数は第1群の測定データの少なくとも1つが基準条件を満たさない場合には、第2群の測定データのそれぞれの値に関わらず報酬値を0とし、第1群の測定データのそれぞれが基準条件を満たす場合には、第2群の測定データのそれぞれの値に応じて報酬値を増減させる。従って、第1群の測定データが基準条件を満たす前提で報酬値が高まるような制御パラメータが優先的に出力されるようモデル45の学習処理を行うことができる。
【0067】
また、モデル45から出力される推奨制御パラメータを次の制御周期での制御パラメータとして決定する場合には、推奨制御パラメータに従って各制御対象機器20(T)が制御され、制御に応じた測定データが取得されるので、推奨制御パラメータを含む学習データと、その制御結果に対応する報酬値とを用いてモデル45の学習処理が行われる。従って、推奨制御パラメータで制御が行われる場合のモデル45の学習処理を順次行って学習精度を高めることができる。
【0068】
[2-2.運用段階]
図3は、本実施形態に係る装置4の運用段階での動作を示す。装置4は、ステップS31~S37の処理を行うことによりモデル45を用いて設備2を稼働させる。
【0069】
ステップS31において測定データ取得部40は、各センサ21によって測定された測定データを取得する。これにより、初期状態の測定データが取得される。測定データは供給部46からモデル45に供給されてよい。
【0070】
ステップS33において推奨制御パラメータ取得部47は、測定データをモデル45に供給したことに応じてモデル45が出力する推奨制御パラメータを取得する。ここで、モデル45は、報酬値を高めるために推奨される制御内容を示す推奨制御パラメータを出力する。本実施形態においては一例として、モデル45は、学習データ内に含まれる制御パラメータそれぞれについて、当該制御パラメータが制御に用いられる場合に予測される報酬値(予測報酬値とも称する)を算出してよい。
【0071】
モデル45は、同じ制御内容を示す制御パラメータ毎に予測報酬値を算出してよい。例えば、モデル45は、複数の学習データから、一の制御内容を示す制御パラメータを含む各学習データを抽出してよい。モデル45は、抽出した各学習データに対応付けられた各重み係数を、現時点の状態を示す測定データ(本実施形態では一例として最後に行われたステップS33の処理で取得された測定データ)と、学習データ内の測定データとの距離に応じて重み付け加算した結果を、当該一の制御内容を示す制御パラメータについての予測報酬値としてよい。モデル45は、測定データ間の距離が大きいほど重みが小さくなるように(つまり、報酬値への影響が小さくなるように)、重み付けの大きさを設定してよい。
【0072】
モデル45は、予測報酬値の高い制御パラメータほど、より優先的に推奨制御パラメータとしてよい。ただし、モデル45は、必ずしも予測報酬値が最高の制御パラメータを推奨制御パラメータにしなくてもよい。
【0073】
ステップS35において制御部49は、推奨制御パラメータを各制御対象機器20(T)に出力して各制御対象機器20(T)を制御する。なお、推奨制御パラメータによって制御対象機器20(T)が制御される場合に、制御結果が許容範囲を外れる場合には、制御部49は、制御結果が許容範囲内となるように推奨制御パラメータを変更してもよい。例えば、推奨制御パラメータが制御対象機器20(T)の出力値を示す場合に、その出力値が操作量の上限値を超える(または下限値を下回る)場合には、制御部49は、上限値(または下限値)を示す推奨制御パラメータを出力してよい。
【0074】
ステップS37において測定データ取得部40は、各センサ21によって測定された測定データを取得する。これにより、各制御対象機器20(T)が推奨制御パラメータで制御された状態での測定データが取得される。ステップS37の処理が終了したら、装置4はステップS33に処理を移行してよい。
【0075】
以上の動作によれば、熟練したオペレータによる試行錯誤を必要とせずに、適切な制御パラメータによって各制御対象機器20(T)を自動的に制御することができる。
【0076】
[3.適用例]
[3-1.適用例(1)]
図4は、システム1の適用例(1)を示す。なお、本図や後述の図5図6では、装置4の構成を簡略化して図示している。
【0077】
本適用例において、設備2はプラント用の空調機であり、ダクト200内に外気を取り込んで、調温・調湿後の空気をプラントの部屋や他の空調機に供給する。
【0078】
設備2には、制御対象機器20(T)としてのバルブB1~B4が設けられている。バルブB1はダクト200内の加熱量を調整するものであり、バルブB2はダクト200内の冷却量を調整するものであり、バルブB3はダクト200内の加湿量を調整するものであり、バルブB4はダクト200内の除湿量を調整するものである。
【0079】
また、設備2には、センサ21としての湿度センサ21a,21bや、温度センサ21c,21d、開度センサ21e、日照センサ21f、風向きセンサ21g、風量センサ21h、使用電力センサ21i、使用LPGセンサ21jなどが設けられている。湿度センサ21a,温度センサ21cは、ダクト200内に取り込まれた外気の湿度,温度を測定する。湿度センサ21b,温度センサ21dは、ダクト200から放出された調整後の空気の湿度,温度を測定する。開度センサ21eは、バルブB1~B4の開度(出力値)をそれぞれ測定する。日照センサ21f,風向きセンサ21g,風量センサ21hは、設備2が設けられたプラント外部での日射量,風向き,風量を測定する。使用電力センサ21iは、設備2の使用電力量を測定する。使用LPGセンサ21jは、設備2の使用LPG量を測定する。
【0080】
装置4の学習処理部44は、これらのセンサ21a~21jによって測定された測定データと、各バルブB1~B4の制御内容を示す制御パラメータとを含む学習データを用いてモデル45の学習処理を実行する。本適用例では一例として、制御パラメータは、バルブB1~B4の出力値である開度を示す。出力値である開度を示す値が制御パラメータとして電気信号等で装置4から送信されると、バルブB1~B4は、その値に対応する開度になるように開閉する。学習処理に用いられる報酬値は、調整後の空気の温度または湿度の少なくとも一方が基準範囲内に維持されない場合には0にされてよく、調整後の空気の温度,湿度がそれぞれ基準範囲内に維持される場合には、使用電力量および使用LPG量が少ないほど高い値にされてよい。
【0081】
また、装置4の制御部49は、バルブB1~B4の出力値を示す推奨制御パラメータをモデル45から取得してバルブB1~B4を制御する。
【0082】
以上の適用例によれば、制御パラメータで示される制御内容は各制御対象機器20(T)の出力値であるので、各制御対象機器20(T)の出力値を直接的に制御することができる。
【0083】
[3-2.適用例(2)]
図5は、システム1の適用例(2)を示す。
【0084】
本適用例では一例として、バルブB1~B4には、PID制御用のコントローラC1~C4が設けられている。コントローラC1~C4は、それぞれ調整後の空気の温度,湿度が目標値(設定値)として設定されることに応じて、当該目標値と、現在値(本適用例では一例として温度センサ21c,湿度センサ21aの測定値)との差分を低減するように、該当のバルブB1~B4をPID制御する。各コントローラC1~C4は、比例ゲインの値、積分ゲインの値、および、微分ゲインの値を予め記憶している。
【0085】
制御パラメータは、バルブB1~B4のPID制御の目標値、つまり調整後の空気の温度,湿度を示す。そのため、装置4の学習処理部44は、各バルブB1~B4のPID制御の目標値を示す制御パラメータと、センサ21a~21jによって測定された測定データとを含む学習データを用いてモデル45の学習処理を実行する。また、装置4の制御部49は、各バルブB1~B4のPID制御の目標値を示す推奨制御パラメータをモデル45から取得して、コントローラC1~C4を介してバルブB1~B4を制御する。
【0086】
以上の適用例によれば、制御パラメータで示される制御内容は各制御対象機器20(T)のPID制御の目標値であるので、PID制御によって各制御対象機器20(T)の制御を行いつつ、その目標値を都度、変更することができる。
【0087】
なお、本変形例においては、制御パラメータはPID制御の比例ゲインの値、積分ゲインの値、または、微分ゲインの値の少なくとも1つを示してもよい。この場合には、PID制御によって制御対象機器の制御を行いつつ、そのゲイン(本適用例ではコントローラC1~C4で用いられるゲイン)を都度、変更することができる。なお、目標値の設定は、オペレータによって適宜、行われてよい。
【0088】
[3-3.適用例(3)]
図6は、システム1の適用例(3)を示す。
【0089】
本適用例では一例として、バルブB1~B4のコントローラC1~C4は、それぞれ比例ゲインの値、積分ゲインの値、および、微分ゲインの値を含むゲインセットを2つ記憶しており、PID制御に使用するゲインセットを切り替えつつPID制御を行う。各ゲインセットには、ゲインセットを識別するためのゲインセットIDが予め対応付けられている。
【0090】
制御パラメータは、ゲインセットIDを示す。そのため、装置4の学習処理部44は、各バルブB1~B4のPID制御に使用するゲインセットのゲインセットIDを示す制御パラメータと、センサ21a~21jによって測定された測定データとを含む学習データを用いてモデル45の学習処理を実行する。また、装置4の制御部49は、各バルブB1~B4のPID制御に使用するゲインセットのゲインセットIDを示す推奨制御パラメータをモデル45から取得して、コントローラC1~C4を介してバルブB1~B4を制御する。例えば制御部49は、取得したゲインセットIDをコントローラC1~C4に送信してよい。これにより、コントローラC1~C4は、受信したゲインセットIDに対応するゲインセットを特定し、そのゲインセット内の各ゲイン値を使用してPID制御を行う。
【0091】
以上の適用例によれば、制御パラメータで示される制御内容はPID制御の各ゲインセットに予め対応付けられたゲインセットIDのうち、PID制御に使用するゲインセットのゲインセットIDであるので、PID制御によって制御対象機器20(T)の制御を行いつつ、その各ゲインを都度、一括して変更することができる。これにより例えば、各状態(一例として通常運転状態と、天候急変状態とのそれぞれの状態など)に対応した各ゲインセットを予めコントローラC1~C4に記憶させておくことで、各ゲインを都度、現時点の状態に合わせて変更することができる。
【0092】
なお、上記の適用例(1)~(3)では、設備2をプラント用の空調機とし、制御対象機器20(T)をバルブB1~B4として説明したが、システム1の適用対象はこれに限らない。例えば、設備2は、複数の供給管および少なくとも1つの排出管に接続されたタンクと、何れかの管に設けられた制御対象機器20としてのバルブと、各管の流量計やタンクの水位計などのセンサ21などとを備えてよい。複数の供給管の少なくとも一部では、突発的に供給量が変動してよい。この場合に装置4の学習処理部44は、センサ21による測定データと、制御対象機器20(T)としてのバルブの制御内容を示す制御パラメータとを含む学習データを用いてモデル45の学習処理を実行してよい。学習処理に用いられる報酬値は、タンクの水位や排出管の流量が基準範囲内に維持されない場合には0にされてよく、基準範囲内に維持される場合には他の測定データに応じて増減されてよい。装置4の制御部49は、バルブの制御内容を示す推奨制御パラメータをモデル45から取得してバルブを制御してよい。
【0093】
[4.変形例]
図7は、変形例に係るシステム1Aを示す。
【0094】
システム1Aの装置4Aは、学習処理部44Aと、モデル45Aと、供給部46Aと、推奨制御パラメータ取得部47Aと、制御部49Aとをさらに備える。
【0095】
学習処理部44Aは、第2学習処理部の一例であり、測定データ取得部40により取得された測定データと、制御パラメータ取得部41により取得された制御パラメータとを含む学習データを用いてモデル45Aの学習処理を実行する。学習処理部44Aは、報酬値取得部42からの報酬値を用いてモデル45の学習処理を実行してよい。なお、本変形例において測定データ取得部40は、第2取得部の一例でもあり、モデル45Aの学習処理に用いられる学習データに含まれる測定データを取得する。
【0096】
学習処理部44,44Aで用いられる学習データ内の各測定データは同じであってもよいし、少なくとも一部において異なっていてもよい。例えば、学習処理部44,44Aで用いられる学習データの間では、測定したセンサ21が異なっていてよい。学習処理部44,44Aで用いられる学習データの間で少なくとも一部の測定データが異なる場合には、装置4Aには、学習処理部44に供給するための測定データを取得する測定データ取得部40とは別個に、学習処理部44Aに供給するための測定データを取得する測定データ取得部(図示せず)が具備されてもよい。
【0097】
学習処理部44,44Aで用いられる学習データ内の制御パラメータは、同じ制御対象機器20(T)の複数種類の制御内容のうち、互いに異なる制御内容を示してよい。例えば、学習処理部44で用いられる学習データ内の制御パラメータが制御対象機器20(T)の第1種類の制御内容を示す場合に、学習処理部44Aで用いられる学習データ内の制御パラメータは当該制御対象機器20(T)の第2種類の制御内容を示してよい。
【0098】
本実施形態では一例として、第1種類の制御内容は、制御対象機器20(T)のフィードバック制御に使用するゲインセットのゲインセットIDであってもよいし、フィードバック制御の比例ゲインの値、積分ゲインの値、または、微分ゲインの値の少なくとも1つであってもよい。第2種類の制御内容は、フィードバック制御の目標値であってよい。
【0099】
モデル45Aは、第2モデルの一例であり、測定データの入力に応じ、報酬値を高めるために推奨される制御内容を示す推奨制御パラメータを出力する。モデル45Aから出力される推奨制御パラメータは、上述の第2種類の制御内容を示してよい。
【0100】
供給部46Aは、第2供給部の一例であり、測定データ取得部40により取得された測定データをモデル45Aに供給する。
【0101】
推奨制御パラメータ取得部47Aは、第2推奨制御パラメータ取得部の一例であり、測定データをモデル45Aに供給したことに応じてモデル45Aが出力する推奨制御パラメータを取得する。推奨制御パラメータ取得部47Aは、取得した推奨制御パラメータを制御部49Aに供給してよい。
【0102】
制御部49Aは、第2制御部の一例であり、推奨制御パラメータ取得部47Aにより取得された推奨制御パラメータを用いて各制御対象機器20(T)を制御する。制御部49Aは、異なる種類の制御内容を示す推奨制御パラメータを用いる以外には、制御部49と同様にして制御を行ってよい。
【0103】
以上のシステム1Aによれば、モデル45を用いてフィードバック制御により制御対象機器20(T)の制御を行いつつ、その各ゲインを都度、変更するとともに、モデル45Aを用いてフィードバック制御の目標値を都度、変更することができる。
【0104】
[5.その他の変形例]
なお、上記の実施形態および変形例では、システム1(またはシステム1A)は単一の装置4(または装置4A)を備えることとして説明したが、複数の装置4(または装置4A)を備えてもよい。この場合には、各装置4(または装置4A)の間で制御対象機器20(T)が同じであってもよいし、異なってもよい。一例としてシステム1,1Aには、機器20毎に、当該機器20を制御対象機器20(T)とする装置4,4Aが具備されてよい。
【0105】
また、装置4は、制御パラメータ取得部41と、報酬値取得部42と、学習処理部44と、モデル45と、供給部46と、推奨制御パラメータ取得部47と、制御部49とを有することとして説明したが、これらの少なくとも1つを有しないこととしても良い。装置4が学習処理部44を有しない場合には、装置4は、モデル45の学習処理を行わずに、学習処理後のモデル45を用いて制御対象機器20(T)の制御を行ってよい。装置4がモデル45を有しない場合には、モデル45は装置4の外部のサーバに格納されてもよい。装置4が供給部46や推奨制御パラメータ取得部47、制御部49を有しない場合には、装置4はモデル45を用いた制御対象機器20(T)の制御を行わなくてよい。
【0106】
同様に、装置4Aは、制御パラメータ取得部41と、報酬値取得部42と、学習処理部44,44Aと、モデル45,45Aと、供給部46,46Aと、推奨制御パラメータ取得部47,47Aと、制御部49,49Aとを有することとして説明したが、これらの少なくとも1つを有しないこととしても良い。
【0107】
また、本発明の様々な実施形態は、フローチャートおよびブロック図を参照して記載されてよく、ここにおいてブロックは、(1)操作が実行されるプロセスの段階または(2)操作を実行する役割を持つ装置のセクションを表わしてよい。特定の段階およびセクションが、専用回路、コンピュータ可読媒体上に格納されるコンピュータ可読命令と共に供給されるプログラマブル回路、およびコンピュータ可読媒体上に格納されるコンピュータ可読命令と共に供給されるプロセッサの少なくとも1つによって実装されてよい。専用回路は、デジタルおよびアナログの少なくとも一方のハードウェア回路を含んでよく、集積回路(IC)およびディスクリート回路の少なくとも一方を含んでよい。プログラマブル回路は、論理AND、論理OR、論理XOR、論理NAND、論理NOR、および他の論理操作、フリップフロップ、レジスタ、フィールドプログラマブルゲートアレイ(FPGA)、プログラマブルロジックアレイ(PLA)等のようなメモリ要素等を含む、再構成可能なハードウェア回路を含んでよい。
【0108】
コンピュータ可読媒体は、適切なデバイスによって実行される命令を格納可能な任意の有形なデバイスを含んでよく、その結果、そこに格納される命令を有するコンピュータ可読媒体は、フローチャートまたはブロック図で指定された操作を実行するための手段を作成すべく実行され得る命令を含む、製品を備えることになる。コンピュータ可読媒体の例としては、電子記憶媒体、磁気記憶媒体、光記憶媒体、電磁記憶媒体、半導体記憶媒体等が含まれてよい。コンピュータ可読媒体のより具体的な例としては、フロッピー(登録商標)ディスク、ディスケット、ハードディスク、ランダムアクセスメモリ(RAM)、リードオンリメモリ(ROM)、消去可能プログラマブルリードオンリメモリ(EPROMまたはフラッシュメモリ)、電気的消去可能プログラマブルリードオンリメモリ(EEPROM)、静的ランダムアクセスメモリ(SRAM)、コンパクトディスクリードオンリメモリ(CD-ROM)、デジタル多用途ディスク(DVD)、ブルーレイ(RTM)ディスク、メモリスティック、集積回路カード等が含まれてよい。
【0109】
コンピュータ可読命令は、アセンブラ命令、命令セットアーキテクチャ(ISA)命令、マシン命令、マシン依存命令、マイクロコード、ファームウェア命令、状態設定データ、またはSmalltalk、JAVA(登録商標)、C++等のようなオブジェクト指向プログラミング言語、および「C」プログラミング言語または同様のプログラミング言語のような従来の手続型プログラミング言語を含む、1または複数のプログラミング言語の任意の組み合わせで記述されたコードまたはオブジェクトコードのいずれかを含んでよい。
【0110】
コンピュータ可読命令は、汎用コンピュータ、特殊目的のコンピュータ、若しくは他のプログラム可能なデータ処理装置のプロセッサまたはプログラマブル回路に対し、ローカルにまたはローカルエリアネットワーク(LAN)、インターネット等のようなワイドエリアネットワーク(WAN)を介して提供され、フローチャートまたはブロック図で指定された操作を実行するための手段を作成すべく、コンピュータ可読命令を実行してよい。プロセッサの例としては、コンピュータプロセッサ、処理ユニット、マイクロプロセッサ、デジタル信号プロセッサ、コントローラ、マイクロコントローラ等を含む。
【0111】
図8は、本発明の複数の態様が全体的または部分的に具現化されてよいコンピュータ2200の例を示す。コンピュータ2200にインストールされたプログラムは、コンピュータ2200に、本発明の実施形態に係る装置に関連付けられる操作または当該装置の1または複数のセクションとして機能させることができ、または当該操作または当該1または複数のセクションを実行させることができ、これに加えて、またはこれに代えて、コンピュータ2200に、本発明の実施形態に係るプロセスまたは当該プロセスの段階を実行させることができる。そのようなプログラムは、コンピュータ2200に、本明細書に記載のフローチャートおよびブロック図のブロックのうちのいくつかまたはすべてに関連付けられた特定の操作を実行させるべく、CPU2212によって実行されてよい。
【0112】
本実施形態によるコンピュータ2200は、CPU2212、RAM2214、グラフィックコントローラ2216、およびディスプレイデバイス2218を含み、それらはホストコントローラ2210によって相互に接続されている。コンピュータ2200はまた、通信インターフェイス2222、ハードディスクドライブ2224、DVD-ROMドライブ2226、およびICカードドライブのような入出力ユニットを含み、それらは入出力コントローラ2220を介してホストコントローラ2210に接続されている。コンピュータはまた、ROM2230およびキーボード2242のようなレガシの入出力ユニットを含み、それらは入出力チップ2240を介して入出力コントローラ2220に接続されている。
【0113】
CPU2212は、ROM2230およびRAM2214内に格納されたプログラムに従い動作し、それにより各ユニットを制御する。グラフィックコントローラ2216は、RAM2214内に提供されるフレームバッファ等またはそれ自体の中にCPU2212によって生成されたイメージデータを取得し、イメージデータがディスプレイデバイス2218上に表示されるようにする。
【0114】
通信インターフェイス2222は、ネットワークを介して他の電子デバイスと通信する。ハードディスクドライブ2224は、コンピュータ2200内のCPU2212によって使用されるプログラムおよびデータを格納する。DVD-ROMドライブ2226は、プログラムまたはデータをDVD-ROM2201から読み取り、ハードディスクドライブ2224にRAM2214を介してプログラムまたはデータを提供する。ICカードドライブは、プログラムおよびデータをICカードから読み取り、これに加えて、またはこれに代えてプログラムおよびデータをICカードに書き込む。
【0115】
ROM2230はその中に、アクティブ化時にコンピュータ2200によって実行されるブートプログラム等、およびコンピュータ2200のハードウェアに依存するプログラムの少なくとも1つを格納する。入出力チップ2240はまた、様々な入出力ユニットをパラレルポート、シリアルポート、キーボードポート、マウスポート等を介して、入出力コントローラ2220に接続してよい。
【0116】
プログラムが、DVD-ROM2201またはICカードのようなコンピュータ可読媒体によって提供される。プログラムは、コンピュータ可読媒体から読み取られ、コンピュータ可読媒体の例でもあるハードディスクドライブ2224、RAM2214、またはROM2230にインストールされ、CPU2212によって実行される。これらのプログラム内に記述される情報処理は、コンピュータ2200に読み取られ、プログラムと、上記様々なタイプのハードウェアリソースとの間の連携をもたらす。装置または方法が、コンピュータ2200の使用に従い情報の操作または処理を実現することによって構成されてよい。
【0117】
例えば、通信がコンピュータ2200および外部デバイス間で実行される場合、CPU2212は、RAM2214にロードされた通信プログラムを実行し、通信プログラムに記述された処理に基づいて、通信インターフェイス2222に対し、通信処理を命令してよい。通信インターフェイス2222は、CPU2212の制御下、RAM2214、ハードディスクドライブ2224、DVD-ROM2201、またはICカードのような記録媒体内に提供される送信バッファ処理領域に格納された送信データを読み取り、読み取られた送信データをネットワークに送信し、またはネットワークから受信された受信データを記録媒体上に提供される受信バッファ処理領域等に書き込む。
【0118】
また、CPU2212は、ハードディスクドライブ2224、DVD-ROMドライブ2226(DVD-ROM2201)、ICカード等のような外部記録媒体に格納されたファイルまたはデータベースの全部または必要な部分がRAM2214に読み取られるようにし、RAM2214上のデータに対し様々なタイプの処理を実行してよい。CPU2212は次に、処理されたデータを外部記録媒体にライトバックする。
【0119】
様々なタイプのプログラム、データ、テーブル、およびデータベースのような様々なタイプの情報が記録媒体に格納され、情報処理を受けてよい。CPU2212は、RAM2214から読み取られたデータに対し、本開示の随所に記載され、プログラムの命令シーケンスによって指定される様々なタイプの操作、情報処理、条件判断、条件分岐、無条件分岐、情報の検索,置換等を含む、様々なタイプの処理を実行してよく、結果をRAM2214に対しライトバックする。また、CPU2212は、記録媒体内のファイル、データベース等における情報を検索してよい。例えば、各々が第2の属性の属性値に関連付けられた第1の属性の属性値を有する複数のエントリが記録媒体内に格納される場合、CPU2212は、第1の属性の属性値が指定される、条件に一致するエントリを当該複数のエントリの中から検索し、当該エントリ内に格納された第2の属性の属性値を読み取り、それにより予め定められた条件を満たす第1の属性に関連付けられた第2の属性の属性値を取得してよい。
【0120】
上で説明したプログラムまたはソフトウェアモジュールは、コンピュータ2200上またはコンピュータ2200近傍のコンピュータ可読媒体に格納されてよい。また、専用通信ネットワークまたはインターネットに接続されたサーバーシステム内に提供されるハードディスクまたはRAMのような記録媒体が、コンピュータ可読媒体として使用可能であり、それによりプログラムを、ネットワークを介してコンピュータ2200に提供する。
【0121】
以上、本発明を実施の形態を用いて説明したが、本発明の技術的範囲は上記実施の形態に記載の範囲には限定されない。上記実施の形態に、多様な変更または改良を加えることが可能であることが当業者に明らかである。その様な変更または改良を加えた形態も本発明の技術的範囲に含まれ得ることが、特許請求の範囲の記載から明らかである。
【0122】
特許請求の範囲、明細書、および図面中において示した装置、システム、プログラム、および方法における動作、手順、ステップ、および段階等の各処理の実行順序は、特段「より前に」、「先立って」等と明示しておらず、また、前の処理の出力を後の処理で用いるのでない限り、任意の順序で実現しうることに留意すべきである。特許請求の範囲、明細書、および図面中の動作フローに関して、便宜上「まず、」、「次に、」等を用いて説明したとしても、この順で実施することが必須であることを意味するものではない。
【符号の説明】
【0123】
1 システム、2 設備、4 装置、20 機器、21 センサ、40 測定データ取得部、41 制御パラメータ取得部、42 報酬値取得部、44 学習処理部、45 モデル、46 供給部、47 推奨制御パラメータ取得部、49 制御部、200 ダクト、2200 コンピュータ、2201 DVD-ROM、2210 ホストコントローラ、2212 CPU、2214 RAM、2216 グラフィックコントローラ、2218 ディスプレイデバイス、2220 入出力コントローラ、2222 通信インターフェイス、2224 ハードディスクドライブ、2226 DVD-ROMドライブ、2230 ROM、2240 入出力チップ、2242 キーボード
図1
図2
図3
図4
図5
図6
図7
図8