特許7409345 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 横河電機株式会社の特許一覧

特許7409345学習処理装置、制御装置、学習処理方法、制御方法、学習プログラムおよび制御プログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1A
1B
2A
2B
3
4A
4B
4C
5
6A
6B
7

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】

(24)【登録日】2023-12-25

(45)【発行日】2024-01-09

(54)【発明の名称】学習処理装置、制御装置、学習処理方法、制御方法、学習プログラムおよび制御プログラム

(51)【国際特許分類】

G05B 13/02 20060101AFI20231226BHJP

G06N 20/00 20190101ALI20231226BHJP

【ＦＩ】

G05B13/02 L

G06N20/00 130

【請求項の数】 11

(21)【出願番号】P 2021060666

(22)【出願日】2021-03-31

(65)【公開番号】P2022156797

(43)【公開日】2022-10-14

【審査請求日】2022-04-26

(73)【特許権者】

【識別番号】000006507

【氏名又は名称】横河電機株式会社

(74)【代理人】

【識別番号】110000877

【氏名又は名称】弁理士法人ＲＹＵＫＡ国際特許事務所

(72)【発明者】

【氏名】劉琢

(72)【発明者】

【氏名】鹿子木宏明

(72)【発明者】

【氏名】▲高▼見豪

(72)【発明者】

【氏名】古川陽太

(72)【発明者】

【氏名】後藤宏紹

【審査官】大古健一

(56)【参考文献】

【文献】特開２０２１－６７１９１（ＪＰ，Ａ）

【文献】特開２０２１－１１７６９９（ＪＰ，Ａ）

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｇ０５Ｂ１／００－７／０４

Ｇ０５Ｂ１１／００－１３／０４

Ｇ０５Ｂ１７／００－１７／０２

Ｇ０５Ｂ２１／００－２１／０２

Ｇ０６Ｎ２０／００

(57)【特許請求の範囲】

【請求項1】

機械学習により、予め定められた系の指示値および測定値に応じて、前記測定値が設定された目標値となるように操作量を出力する制御モデルを、前記目標値毎に生成する学習処理部と、
前記制御モデルを用いて、前記指示値および前記測定値の組み合わせと、当該組み合わせに応じた前記操作量との対応関係を示す制御用データを、前記目標値毎に生成する生成部と、
予め定められた制御装置に前記制御用データを供給する供給部と
を備え、
前記制御用データは、前記指示値および前記測定値の組み合わせと、当該組み合わせに応じた前記操作量との対応関係をマッピングした操作量マップを含む学習処理装置。

【請求項2】

前記操作量は、予め定められた操作可能範囲のうち、最大の操作量または最小の操作量である
請求項１に記載の学習処理装置。

【請求項3】

前記制御モデルは、予め定められた複数の系に対応して生成されており、
前記生成部は、前記複数の系毎に異なる前記制御用データを生成する
請求項１または２に記載の学習処理装置。

【請求項4】

予め定められた系の指示値および測定値を取得する入力データ取得部と、
前記指示値および前記測定値に応じて、前記測定値が設定された目標値となるように操作量を出力するように学習された前記目標値毎の制御モデルを用いて前記目標値毎に生成され、前記指示値および前記測定値の組み合わせと、当該組み合わせに応じて出力される操作量との対応関係を示す制御用データを取得する制御用データ取得部と、
前記制御用データを用いて、前記指示値および前記測定値の組み合わせに応じた前記操作量を算出する算出部と、
前記操作量を予め定められた制御対象へ出力する出力部と
を備え、
前記制御用データ取得部は、前記制御用データとして、前記指示値および前記測定値の組み合わせと、当該組み合わせに応じた前記操作量との対応関係をマッピングした複数の操作量マップを取得する制御装置。

【請求項5】

前記入力データ取得部は、前記系に関する特徴データを取得し、
前記制御装置は、前記特徴データに基づいて、前記複数の操作量マップから操作量マップを選択するマップ選択部を備える
請求項４に記載の制御装置。

【請求項6】

前記指示値および前記測定値を、前記操作量マップに応じた値にスケーリングするスケーリング部と、
前記操作量マップから算出された操作量を、前記系に応じて逆スケーリングする逆スケーリング部と
を備える請求項５に記載の制御装置。

【請求項7】

前記出力部は、前記操作量として、予め定められた操作可能範囲のうち、最大の操作量または最小の操作量を前記制御対象へ出力する
請求項４から６のいずれか一項に記載の制御装置。

【請求項8】

機械学習により、予め定められた系の指示値および測定値に応じて、前記測定値が設定された目標値となるように操作量を出力する制御モデルを、前記目標値毎に生成する段階と、
前記制御モデルを用いて、前記指示値および前記測定値の組み合わせと、当該組み合わせに応じた前記操作量との対応関係を示す制御用データを、前記目標値毎に生成する段階と、
予め定められた制御装置に前記制御用データを供給する段階と
を備え、
前記制御用データは、前記指示値および前記測定値の組み合わせと、当該組み合わせに応じた前記操作量との対応関係をマッピングした操作量マップを含む学習処理方法。

【請求項9】

予め定められた系の指示値および測定値を取得する段階と、
前記指示値および前記測定値に応じて、前記測定値が設定された目標値となるように操作量を出力するように学習された前記目標値毎の制御モデルを用いて前記目標値毎に生成され、前記指示値および前記測定値の組み合わせと、当該組み合わせに応じて出力される操作量との対応関係を示す制御用データを取得する段階であって、前記制御用データとして、前記指示値および前記測定値の組み合わせと、当該組み合わせに応じた前記操作量との対応関係をマッピングした複数の操作量マップを含む、制御用データを取得する段階と、
前記制御用データを用いて、前記指示値および前記測定値の組み合わせに応じた前記操作量を算出する段階と、
前記操作量を予め定められた制御対象へ出力する段階と
を備える制御方法。

【請求項10】

コンピュータにより実行されて、前記コンピュータを、
機械学習により、予め定められた系の指示値および測定値に応じて、前記測定値が設定された目標値となるように操作量を出力する制御モデルを、前記目標値毎に生成する学習処理部と、
前記制御モデルを用いて、前記指示値および前記測定値の組み合わせと、当該組み合わせに応じた前記操作量との対応関係を示す制御用データを、前記目標値毎に生成する生成部と、
予め定められた制御装置に前記制御用データを供給する供給部と
して機能させ、
前記制御用データは、前記指示値および前記測定値の組み合わせと、当該組み合わせに応じた前記操作量との対応関係をマッピングした操作量マップを含む、学習プログラム。

【請求項11】

コンピュータにより実行されて、前記コンピュータを、
予め定められた系の指示値および測定値を取得する入力データ取得部と、
前記指示値および前記測定値に応じて、前記測定値が設定された目標値となるように操作量を出力するように学習された前記目標値毎の制御モデルを用いて前記目標値毎に生成され、前記指示値および前記測定値の組み合わせと、当該組み合わせに応じて出力される操作量との対応関係を示す制御用データを取得する制御用データ取得部であって、前記制御用データとして、前記指示値および前記測定値の組み合わせと、当該組み合わせに応じた前記操作量との対応関係をマッピングした複数の操作量マップを取得する、制御用データ取得部と、
前記制御用データを用いて、前記指示値および前記測定値の組み合わせに応じた前記操作量を算出する算出部と、
前記操作量を予め定められた制御対象へ出力する出力部と
して機能させる、制御プログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、学習処理装置、制御装置、学習処理方法、制御方法、学習プログラムおよび制御プログラムに関する。

【背景技術】

【0002】

特許文献１には、「温度制御情報を用いて、シリンダ温度をＰＩＤ制御する、温度制御装置」が記載されている。
［先行技術文献］
［特許文献］
特許文献１特開２０１９－１３０７７１号公報

【発明の概要】

【0003】

本発明の第１の態様においては、学習処理装置を提供する。学習処理装置は、機械学習により、予め定められた系の指示値および測定値に応じた操作量を出力する制御モデルを生成する学習処理部を備えてよい。学習処理装置は、制御モデルを用いて、指示値および測定値の組み合わせと、当該組み合わせに応じた操作量との対応関係を示す制御用データを生成する生成部を備えてよい。学習処理装置は、予め定められた制御装置に制御用データを供給する供給部を備えてよい。

【0004】

操作量は、予め定められた操作可能範囲のうち、最大の操作量または最小の操作量であってよい。

【0005】

制御モデルは、測定値が設定された目標値となるように操作量を出力してよい。生成部は、目標値毎に異なる制御用データを生成してよい。

【0006】

制御モデルは、予め定められた複数の系に対応して生成されてよい。生成部は、複数の系毎に異なる制御用データを生成してよい。

【0007】

制御用データは、指示値および測定値の組み合わせと、当該組み合わせに応じた操作量との対応関係をマッピングした操作量マップを含んでよい。

【0008】

本発明の第２の態様においては、制御装置を提供する。制御装置は、予め定められた系の指示値および測定値を取得する入力データ取得部を備えてよい。制御装置は、指示値および測定値に応じた操作量を出力するように学習された制御モデルを用いて生成され、指示値および測定値の組み合わせと、当該組み合わせに応じて出力される操作量との対応関係を示す制御用データを取得する制御用データ取得部を備えてよい。制御装置は、制御用データを用いて、指示値および測定値の組み合わせに応じた操作量を算出する算出部を備えてよい。制御装置は、操作量を予め定められた制御対象へ出力する出力部を備えてよい。

【0009】

制御用データ取得部は、制御用データとして、指示値および測定値の組み合わせと、当該組み合わせに応じた操作量との対応関係をマッピングした複数の操作量マップを取得してよい。入力データ取得部は、系に関する特徴データを取得してよい。制御装置は、特徴データに基づいて、複数の操作量マップから任意の操作量マップを選択するマップ選択部を備えてよい。

【0010】

制御装置は、指示値および測定値を、操作量マップに応じた値にスケーリングするスケーリング部を備えてよい。制御装置は、操作量マップから算出された操作量を、系に応じて逆スケーリングする逆スケーリング部を備えてよい。

【0011】

出力部は、操作量として、予め定められた操作可能範囲のうち、最大の操作量または最小の操作量を制御対象へ出力してよい。

【0012】

本発明の第３の態様においては、学習処理方法を提供する。学習処理方法は、機械学習により、予め定められた系の指示値および測定値に応じた操作量を出力する制御モデルを生成する段階を備えてよい。学習処理方法は、制御モデルを用いて、指示値および測定値の組み合わせと、当該組み合わせに応じた操作量との対応関係を示す制御用データを生成する段階を備えてよい。学習処理方法は、予め定められた制御装置に制御用データを供給する段階を備えてよい。

【0013】

本発明の第４の態様においては、制御方法を提供する。制御方法は、予め定められた系の指示値および測定値を取得する段階を備えてよい。制御方法は、指示値および測定値に応じた操作量を出力するように学習された制御モデルを用いて生成され、指示値および測定値の組み合わせと、当該組み合わせに応じて出力される操作量との対応関係を示す制御用データを取得する段階を備えてよい。制御方法は、制御用データを用いて、指示値および測定値の組み合わせに応じた操作量を算出する段階を備えてよい。制御方法は、操作量を予め定められた制御対象へ出力する段階を備えてよい。

【0014】

本発明の第５の態様においては、学習プログラムを提供する。学習プログラムは、コンピュータにより実行されて、コンピュータを、機械学習により、予め定められた系の指示値および測定値に応じた操作量を出力する制御モデルを生成する学習処理部として機能させてよい。学習プログラムは、コンピュータにより実行されて、コンピュータを、制御モデルを用いて、指示値および測定値の組み合わせと、当該組み合わせに応じた操作量との対応関係を示す制御用データを生成する生成部として機能させてよい。学習プログラムは、コンピュータにより実行されて、コンピュータを、予め定められた制御装置に制御用データを供給する供給部として機能させてよい。

【0015】

本発明の第６の態様においては、制御プログラムを提供する。制御プログラムは、コンピュータにより実行されて、コンピュータを、予め定められた系の指示値および測定値を取得する入力データ取得部として機能させてよい。制御プログラムは、コンピュータにより実行されて、コンピュータを、指示値および測定値に応じた操作量を出力するように学習された制御モデルを用いて生成され、指示値および測定値の組み合わせと、当該組み合わせに応じて出力される操作量との対応関係を示す制御用データを取得する制御用データ取得部として機能させてよい。制御プログラムは、コンピュータにより実行されて、コンピュータを、制御用データを用いて、指示値および測定値の組み合わせに応じた操作量を算出する算出部として機能させてよい。制御プログラムは、コンピュータにより実行されて、コンピュータを、操作量を予め定められた制御対象へ出力する出力部として機能させてよい。

【0016】

なお、上記の発明の概要は、本発明の特徴の全てを列挙したものではない。また、これらの特徴群のサブコンビネーションもまた、発明となりうる。

【図面の簡単な説明】

【0017】

【図1A】制御装置１００の構成の概要を、設備３００と共に示す。

【図1B】制御装置１００が制御対象３１０の動作を制御するフローの一例を示す。

【図2A】学習処理装置２００の構成の概要を示す。

【図2B】学習処理装置２００により機械学習するフローの一例を示す。

【図3】算出部３０のより具体的な構成の一例を示す。

【図4A】操作量マップの一例を示す。

【図4B】実施例に係る制御装置１００による制御方法の一例を示す。

【図4C】機械学習を用いた操作量マップの生成方法の一例を示す。

【図5】比較例に係る制御方法の一例を示す。

【図6A】学習処理装置２００の実施形態の一例を示す。

【図6B】学習処理装置２００の実施形態の一例を示す。

【図7】本発明の複数の態様が全体的又は部分的に具現化されてよいコンピュータ２２００の例を示す。

【発明を実施するための形態】

【0018】

以下、発明の実施の形態を通じて本発明を説明するが、以下の実施形態は特許請求の範囲にかかる発明を限定するものではない。また、実施形態の中で説明されている特徴の組み合わせの全てが発明の解決手段に必須であるとは限らない。

【0019】

図１Ａは、制御装置１００の構成の概要を、設備３００と共に示す。制御装置１００は、設備３００に設けられた制御対象３１０の動作を制御する。

【0020】

設備３００は、制御対象３１０が備え付けられた施設や装置等である。例えば、設備３００は、プラントであってもよいし、複数の機器を複合させた複合装置であってもよい。プラントとしては、化学やバイオ等の工業プラントの他、ガス田や油田等の井戸元やその周辺を管理制御するプラント、水力・火力・原子力等の発電を管理制御するプラント、太陽光や風力等の環境発電を管理制御するプラント、上下水やダム等を管理制御するプラント等が挙げられる。

【0021】

設備３００には、制御対象３１０が設けられている。本図においては、設備３００に１つの制御対象３１０のみが設けられている場合を一例として示しているが、これに限定されるものではない。設備３００には、複数の制御対象３１０が設けられてもよい。

【0022】

また、設備３００には、設備３００の内外における様々な状態（物理量）を測定する１または複数のセンサ（図示せず）が設けられていてよい。このようなセンサは、例えば、制御対象３１０を制御した結果の運転状態を示す運転データを取得する。例えば、運転データは、制御対象３１０について測定された測定値ＰＶ（ＰｒｏｃｅｓｓＶａｒｉａｂｌｅ）を示してよく、一例として、制御対象３１０の出力（制御量）を示してもよいし、制御対象３１０の出力によって変化する様々な値を示してもよい。

【0023】

制御対象３１０は、制御の対象となるフィールド機器および装置等である。例えば、制御対象３１０は、圧力計、流量計、温度センサ等のセンサ機器、流量制御弁や開閉弁等のバルブ機器、またはファンやモータ等のアクチュエータ機器である。

【0024】

本例の制御装置１００は、１つの測定値ＰＶと１つの操作量ＭＶとによる単入力単出力によってプロセス制御する。例えば、制御装置１００は、温度の調節、液面の水位調整または流量の調整などのプロセス制御を実行する。

【0025】

制御装置１００は、ＰＣ（パーソナルコンピュータ）、タブレット型コンピュータ、スマートフォン、ワークステーション、サーバコンピュータ、または汎用コンピュータ等のコンピュータであってよく、複数のコンピュータが接続されたコンピュータシステムであってもよい。このようなコンピュータシステムもまた広義のコンピュータである。また、制御装置１００は、コンピュータ内で１または複数実行可能な仮想コンピュータ環境によって実装されてもよい。これに代えて、制御装置１００は、ＡＩ制御用に設計された専用コンピュータであってもよく、専用回路によって実現された専用ハードウェアであってもよい。また、制御装置１００がインターネットに接続可能な場合、制御装置１００は、クラウドコンピューティングにより実現されてもよい。

【0026】

制御装置１００は、入力データ取得部１０と、制御用データ取得部２０と、算出部３０と、出力部４０とを備える。なお、これらブロックは、それぞれ機能的に分離された機能ブロックであって、実際のデバイス構成とは必ずしも一致していなくてもよい。即ち、本図において、１つのブロックとして示されている場合であっても、それが１つのデバイスにより構成されるものに限定されない。また、本図において、別々のブロックとして示されている場合であっても、それらが別々のデバイスにより構成されるものに限定されない。

【0027】

入力データ取得部１０は、予め定められた入力データを取得する。例えば、入力データ取得部１０は、入力データとして、設備３００から予め定められた系の指示値ＩＶおよび測定値ＰＶを取得する。指示値ＩＶおよび測定値ＰＶは、設備３００に設けられたセンサによって測定され、ネットワークを介して入力データ取得部１０に送信されてよい。また、入力データ取得部１０は、入力データとして、オペレータ等によって設定された目標値ＳＶを取得している。入力データ取得部１０は、取得した入力データを制御用データ取得部２０および算出部３０へ供給してよい。

【0028】

制御用データ取得部２０は、指示値ＩＶおよび測定値ＰＶの組み合わせと、当該組み合わせに応じて出力される操作量ＭＶ（ＭａｎｉｐｕｌａｔｅｄＶａｒｉａｂｌｅ）との対応関係を示す制御用データを取得する。制御用データ取得部２０は、取得した制御用データを記憶する記憶部を有してよい。制御用データは、指示値ＩＶおよび測定値ＰＶに応じた操作量ＭＶを出力するように学習された制御モデルを用いて生成される。

【0029】

制御用データは、指示値ＩＶおよび測定値ＰＶの組み合わせと、操作量ＭＶとの対応関係を示すものであればデータの形式は特に限定されない。一例において、制御用データは、指示値ＩＶおよび測定値ＰＶの組み合わせと、操作量ＭＶとの対応関係をマッピングした操作量マップを含む。操作量マップについては後述する。制御用データは、指示値ＩＶおよび測定値ＰＶの組み合わせと、操作量ＭＶとの対応関係をテーブル形式で示してもよい。

【0030】

算出部３０は、制御用データを用いて、指示値ＩＶおよび測定値ＰＶの組み合わせに応じた操作量ＭＶを算出する。一例において、算出部３０は、操作量ＭＶとして、予め定められた操作可能範囲のうち、最大の操作量ＭＶまたは最小の操作量ＭＶを算出する。最大の操作量ＭＶとは、予め定められた操作可能範囲のうち、正の操作量ＭＶの最大値であってよい。最小の操作量ＭＶとは、予め定められた操作可能範囲のうち、負の操作量ＭＶの最小値であってよい。

【0031】

また、算出部３０は、目標値ＳＶにも基づいて操作量ＭＶを算出してよい。例えば、算出部３０は、目標値ＳＶに基づいて操作量マップを選択して、選択した操作量マップを用いて操作量ＭＶを算出する。なお、算出部３０は、目標値ＳＶと測定値ＰＶとの差分が予め定められた値よりも小さくなった場合に、ＰＩＤ制御等の他の制御方法に切り替えてもよい。

【0032】

出力部４０は、算出部３０が算出した操作量ＭＶを制御対象３１０へ出力する。出力部４０は、操作量ＭＶとして、予め定められた操作可能範囲のうち、最大の操作量ＭＶまたは最小の操作量ＭＶを制御対象へ出力してよい。

【0033】

例えば、制御装置１００がバルブの開閉を行うための回転速度を調整することにより、タンクの水位を制御する場合、指示値ＩＶがバルブの開度であり、測定値ＰＶがタンクの水位であり、操作量ＭＶがバルブの回転速度である。また、制御装置１００が電熱線に流れる電流を調整して、炉の温度を制御する場合、指示値ＩＶが電熱線自体の温度であり、測定値ＰＶが炉全体の温度であり、操作量ＭＶが電熱線への電流であってよい。

【0034】

本例の制御装置１００は、機械学習により生成された制御用データを用いて、操作量ＭＶを算出することにより、ＰＩＤ制御等の他の制御よりも、オーバーシュートが少なくより高速な制御を実現することができる。本例の制御装置１００は、シングルループコントローラとして用いられ、最大の操作量ＭＶまたは最小の操作量ＭＶを制御対象へ出力することで、理論上の最速制御を実現することができる。これにより、制御装置１００は、タンクの水位の調整時間または炉温度の立ち上げ時間等をＰＩＤ制御の場合と比較して短縮できる。そして、立ち上げ時間の短縮に伴う生産量の増加、初期起動時に使われるエネルギーセーブまたは素早い多品種バッチ製造に対応するシステムを実現できる。また、オーバーシュートを少なくすることで、品質の早期安定化による廃棄の減少、設備稼働率の向上、または設備負担の減少による寿命の延伸を実現できる。

【0035】

図１Ｂは、制御装置１００が制御対象３１０の動作を制御するフローの一例を示す。ステップＳ１００において、制御装置１００は、指示値ＩＶおよび測定値ＰＶを取得する。また、ステップＳ１００において、制御装置１００は、目標値ＳＶを取得してもよいし、予め目標値ＳＶを取得していてもよい。例えば、制御装置１００は、予めオペレータによって設定された目標値ＳＶを取得し、設備３００のセンサから指示値ＩＶおよび測定値ＰＶをリアルタイムに取得する。

【0036】

ステップＳ１０２において、制御装置１００は、制御用データを取得する。制御装置１００は、予め機械学習により生成された制御用データを取得しておいてもよいし、シミュレータまたは実際の系を用いて機械学習された制御用データを取得してもよい。

【0037】

ステップＳ１０４において、制御装置１００は、制御用データに基づいて操作量ＭＶを算出する。ステップＳ１０６において、制御対象３１０へ操作量ＭＶを出力する。その後、制御装置１００は、制御を終了するか否かを判断する。制御装置１００は、制御を終了しない場合、ステップＳ１００に戻って指示値ＩＶおよび測定値ＰＶを取得する。

【0038】

例えば、制御装置１００は、機械学習により生成された制御用データを用いた制御と、フィードバック制御とを組み合わせて用いてもよい。フィードバック制御は、比例制御（Ｐ制御）、積分制御（Ｉ制御）または、微分制御（Ｄ制御）の少なくとも１つであってよく、一例においてＰＩＤ制御であってもよい。一例として、フィードバック制御においては、測定値ＰＶと目標値ＳＶとに基づいて操作量ＭＶを算出する。フィードバック制御においては、目標値ＳＶが設定されたことに応じて、当該目標値ＳＶと現在の測定値ＰＶとの差分を低減するような操作量ＭＶが算出されてよい。

【0039】

図２Ａは、学習処理装置２００の構成の概要を示す。学習処理装置２００は、状態データ取得部２１０と、学習処理部２２０と、生成部２３０と、供給部２４０とを備える。

【0040】

状態データ取得部２１０は、制御対象３１０が設けられた設備３００の状態を示す状態データを取得する。例えば、状態データ取得部２１０は、設備３００に設けられたセンサが測定した指示値ＩＶおよび測定値ＰＶを取得する。状態データ取得部２１０は、取得した状態データを学習処理部２２０および生成部２３０へ供給してよい。

【0041】

学習処理部２２０は、機械学習により、指示値ＩＶおよび測定値ＰＶに応じた操作量ＭＶを出力する制御モデル２３５を生成する。本例では、制御モデル２３５の入力値が指示値ＩＶおよび測定値ＰＶであり、出力値が操作量ＭＶである。学習処理部２２０は、指示値ＩＶに対応する測定値ＰＶが得られた場合に、オーバーシュートが少なくかつ最速で目標値ＳＶに収束するような操作量ＭＶを出力する制御モデル２３５を機械学習により生成する。制御モデル２３５は、予め定められた複数の系に対応して生成されてもよい。例えば、制御モデル２３５は、加熱炉の温度を制御するための系またはタンクの水位を制御するための系などの系毎に機械学習をして生成される。

【0042】

制御モデル２３５は、学習処理部２２０が強化学習により生成した学習モデルであり、設備３００の状態に応じた操作量ＭＶを出力する。本例の制御モデル２３５は、測定値ＰＶが予め定められた目標値ＳＶとなるように操作量ＭＶを出力する。なお、本図においては、制御モデル２３５が学習処理装置２００に内蔵されている場合を一例として示したが、これに限定されるものではない。制御モデル２３５は、制御装置１００に格納されてもよい。なお、制御モデル２３５は、目標値ＳＶ毎に操作量ＭＶを出力するモデルであってもよい。制御モデル２３５は、目標値ＳＶ毎に強化学習された複数のモデルを含んでよい。例えば、制御モデル２３５は、目標値ＳＶが第１の値（例えば、５）の場合に操作量ＭＶを出力する、又は目標値ＳＶが第２の値（例えば、１０）の場合に操作量ＭＶを出力する各々のモデルである。

【0043】

生成部２３０は、制御モデル２３５を用いて、指示値ＩＶおよび測定値ＰＶの組み合わせと、当該組み合わせに応じた操作量ＭＶとの対応関係を示す制御用データを生成する。生成部２３０は、目標値ＳＶ毎に異なる制御用データを生成してもよい。本例の生成部２３０は、目標値ＳＶ毎に異なる制御モデル２３５を用いて、目標値ＳＶ毎に異なる制御用データを生成する。例えば、生成部２３０は、目標値ＳＶ毎に後述する操作量マップを生成する。また、生成部２３０は、制御モデル２３５が複数の系に対応して生成される場合に、複数の系毎に異なる制御用データを生成してもよい。

【0044】

供給部２４０は、制御装置１００に制御用データを供給する。また、供給部２４０は、予め定められた記憶部に制御用データを供給して記憶させてよい。本例の供給部２４０は、目標値ＳＶ毎または系毎に最適な制御用データを供給することができる。また、供給部２４０は、目標値ＳＶと系の組み合わせに応じて、最適な制御用データを供給してもよい。即ち、制御用データは、系毎に異なっていてよく、かつ、それぞれの系において目標値毎に異なっていてよい。

【0045】

図２Ｂは、学習処理装置２００により機械学習するフローの一例を示す。ステップＳ２００において、学習処理装置２００は、状態データを取得する。ステップＳ２０２において、学習処理装置２００は、機械学習により、制御モデル２３５を生成する。ステップＳ２０４において、学習処理装置２００は、制御モデル２３５を用いて、制御用データを生成する。ステップＳ２０６において、学習処理装置２００は、制御用データを供給する。

【0046】

図３は、算出部３０のより具体的な構成の一例を示す。本例の算出部３０は、スケーリング部３２と、マップ選択部３４と、決定部３６と、逆スケーリング部３８とを備える。

【0047】

制御用データ取得部２０は、制御用データとして、指示値ＩＶおよび測定値ＰＶの組み合わせと、当該組み合わせに応じた操作量ＭＶとの対応関係をマッピングした複数の操作量マップを取得している。複数の操作量マップには、目標値ＳＶ毎に異なる操作量マップが含まれてもよい。また、複数の操作量マップには、制御対象３１０とする系の異なる操作量マップが含まれてもよい。

【0048】

スケーリング部３２は、指示値ＩＶおよび測定値ＰＶを、操作量マップに応じた値にスケーリングする。スケーリング部３２は、指示値ＩＶおよび測定値ＰＶの範囲を、操作量マップの範囲と整合させるために、指示値ＩＶ'および測定値ＰＶ'にスケーリングして、レンジを合わせるための線形処理を行う。例えば、操作量マップにおける測定値ＰＶ'の範囲が［０，１００］であり、実際の系の測定値ＰＶの範囲が［０，１］である。スケーリング部３２は、入力された測定値ＰＶの値が０．３である場合、操作量マップの範囲に合わせて、測定値ＰＶ'を０．３×１００＝３０とする線形処理を行う。

【0049】

マップ選択部３４は、制御用データ取得部２０に記憶された複数の操作量マップから予め定められた操作量マップを選択する。マップ選択部３４は、算出部３０に入力された指示値ＩＶおよび測定値ＰＶに基づいて、適当な操作量マップを選択してよい。例えば、マップ選択部３４は、複数の操作量マップから制御対象３１０の系に最も近い系の操作量マップを選択する。

【0050】

例えば、マップ選択部３４は、系に関する特徴データに基づいて、複数の操作量マップから実際の系に適した操作量マップを選択する。ここで、複数の操作量マップは、加熱炉向けの操作量マップまたは三段水槽水位制御向けの操作量マップなどのアプリケーション毎に固有の操作量マップを含んでよい。また、複数の操作量マップは、系の数学的特徴に応じて、１次遅れ系の操作量マップまたは２次遅れ系の操作量マップなどを含んでよい。即ち、マップ選択部３４は、特徴データとして、系のアプリケーションに関する情報または系の数学的特徴に関する情報に基づいて、複数の操作量マップから任意の操作量マップを選択してよい。マップ選択部３４は、系のアプリケーションに関する情報および系の数学的特徴に関する情報などを組み合わせて参照することにより、複数の操作量マップから任意の操作量マップを選択してもよい。より具体的には、マップ選択部３４は、特徴データと、複数の操作量マップの付加情報とを照らし合わせることにより、最も実際の系の情報に近い操作量マップを選択してよい。複数の操作量マップの付加情報とは、操作量マップに関する任意の情報であってよい。なお、特徴データは、入力データ取得部１０により取得されてよい。特徴データは、ユーザによって入力されてもよいし、入力データ取得部１０に入力された指示値ＩＶおよび測定値ＰＶ等に基づいて算出されてもよい。

【0051】

決定部３６は、マップ選択部３４が選択した操作量マップを用いて、入力された指示値ＩＶ'および測定値ＰＶ'に応じた操作量ＭＶ'を決定する。なお、決定部３６には、スケーリングされずにそのまま指示値ＩＶおよび測定値ＰＶが入力されてもよい。

【0052】

逆スケーリング部３８は、操作量マップから算出された操作量ＭＶ'を、系に応じて逆スケーリングする。逆スケーリング部３８は、実際の系の出力の範囲に合わせてスケーリング部３２の逆演算を行い、その結果を出力する。例えば、操作量マップにおける操作量ＭＶ'の範囲が［０，１００］であり、実際の系の操作量ＭＶの範囲が［０，１］である。逆スケーリング部３８は、操作量マップにより得られた操作量ＭＶ'の値が５である場合、実際の系の出力の範囲に合わせて操作量ＭＶを５÷１００＝０．０５とする線形処理を行う。

【0053】

図４Ａは、操作量マップの一例を示す。縦軸は測定値ＰＶを示し、横軸は指示値ＩＶを示す。また、本例の操作量マップは、指示値ＩＶと測定値ＰＶの組み合わせに応じて、領域Ａと領域Ｂに分けられている。制御装置１００は、領域Ａと領域Ｂとで異なる操作量ＭＶを出力してよい。

【0054】

例えば、制御装置１００は、指示値ＩＶと測定値ＰＶの組み合わせが領域Ａに位置する場合に、予め定められた操作可能範囲のうち、最大の操作量ＭＶで制御対象３１０を制御する。また、制御装置１００は、指示値ＩＶと測定値ＰＶの組み合わせが領域Ｂに位置する場合に、予め定められた操作可能範囲のうち、最小の操作量ＭＶで制御対象３１０を制御してよい。

【0055】

本例では、実際にフルアクセル・フルブレーキ制御によって系が安定するときの軌跡を示している。例えば、予め定められた初期状態ａから操作量マップに基づいてフルブレーキ制御を行うことにより、系が最終的に安定状態ｃに安定している。同様に、予め定められた初期状態ｂからフルアクセル制御を行うことにより、系が同じ安定状態ｃに安定している。

【0056】

図４Ｂは、実施例に係る制御装置１００による制御方法の一例を示す。本例では、シミュレータ上で「三段水槽」と呼ばれる１次遅れ系の水位をコントロールする場合の制御結果を示す。本例では、フルアクセル・フルブレーキによる制御により、図５に示すようなＰＩＤ制御よりも速く予め定められた目標値ＳＶに収束している。このように、本例の制御装置１００は、制御データを用いて適切な操作量ＭＶに設定しているので、オーバーシュートを回避して、高速な制御を実現できる。

【0057】

図４Ｃは、機械学習を用いた操作量マップの生成方法の一例を示す。操作量マップは、予め定められた強化学習アルゴリズムを用いて生成されてよい。本例の操作量マップは、カーネルダイナミックポリシープログラミング法（ＫｅｒｎｅｌＤｙｎａｍｉｃＰｏｌｉｃｙＰｒｏｇｒａｍｍｉｎｇ、ＫＤＰＰ）を用いて生成されるがこれに限定されない。

【0058】

評価関数は、例えば、ｆ（ｔ）＝｜測定値ＰＶ（ｔ）－目標値ＳＶ｜等の関数を用いる。操作量ＭＶは、－ＭＡＸから＋ＭＡＸまでの間の数点を取って、強化学習の出力値とする。ＫＤＰＰでは１入力、１出力の系での学習を十分に行えば、最終的に強化学習モデルは＋ＭＡＸおよび－ＭＡＸの２値のみを使用したモデルに収束する。そして、生成された強化学習モデルに、指示値ＩＶと測定値ＰＶの組み合わせを与え、操作量ＭＶ（＋ＭＡＸまたは－ＭＡＸ）を算出してグラフにすることで、操作量マップが生成される。

【0059】

図５は、比較例に係る制御方法の一例を示す。本例では、１つの操作量ＭＶと１つの測定値ＰＶとの単入力単出力に対する制御アルゴリズムとしてＰＩＤ制御を用いている。

【0060】

ここで、ＰＩＤ制御では、安定した制御を実現できる一方で、目標値ＳＶに達するまでの時間が最適なものではない。ＰＩＤ制御は、系の微分方程式をラプラス変換し、代数方程式に変換して算出される解であり、一般形としては指数関数あるいは三角関数の組み合わせといった、滑らかな関数が解空間を形成する。しかしながら、単三角波はラプラス変換しても指数関数の項が残り代数方程式にならないので、単三角波のような解は除外されている。

【0061】

これに対して、フルアクセル・フルブレーキを用いた制御は、単三角波の解の足し合わせであり、これは従来使用されているラプラス変換では考慮されていない。つまり、ラプラス変換を用いた手法では、フルアクセル・フルブレーキを用いた最速制御解を算出できない。したがって、比較例のＰＩＤ制御では、オーバーシュートの発生によって高速な制御を実行することが困難である。

【0062】

なお、高度制御などによりフルアクセル・フルブレーキに近似した制御を実現することも考えられるが、複雑なパラメータ調整が必要となるので、処理能力が小さなマイコンで動作可能な小型なコントローラに搭載して使用することが困難である。本例の制御装置１００は、シングルループコントローラのＰＩＤ計算を実行する構成と置き換えられてよく、アナログ信号処理またはデジタル信号処理などの構成は既存のものと同じであってよい。制御装置１００は、小型のコントローラにも搭載することができる。

【0063】

図６Ａは、学習処理装置２００の実施形態の一例を示す。学習処理装置２００は、シミュレータ２５０を備える。シミュレータ２５０は、学習処理装置２００の外部に設けられてもよい。

【0064】

シミュレータ２５０は、予め定められた指示値ＩＶおよび測定値ＰＶを状態データ取得部２１０に供給する。例えば、シミュレータ２５０は、任意のシステム同定技術により系の実測データなどを用いて作成される。本例の学習処理装置２００は、シミュレータ２５０を用いた機械学習により制御モデル２３５を生成する。これにより、本例の学習処理装置２００は、制御対象３１０がより複雑な系の場合であっても、シミュレータ２５０を用いて学習処理を実現できる。

【0065】

図６Ｂは、学習処理装置２００の実施形態の一例を示す。本例の制御用データ取得部２０は、設備３００から取得した指示値ＩＶおよび測定値ＰＶを状態データとして、機械学習により、制御モデル２３５を生成する。本例の学習処理装置２００は、制御対象３１０に応じたシミュレータ２５０の生成が困難な場合においても、制御モデル２３５を生成することができる。実際の系を用いて生成された制御用データは、シミュレータ２５０等の他の方法を用いて生成された制御用データと組み合わせて用いられてよい。即ち、複数の操作量マップには、異なる方法によって機械学習された操作量マップが含まれていてもよい。

【0066】

図７は、本発明の複数の態様が全体的又は部分的に具現化されてよいコンピュータ２２００の例を示す。コンピュータ２２００にインストールされたプログラムは、コンピュータ２２００に、本発明の実施形態に係る装置に関連付けられる操作又は当該装置の１又は複数のセクションとして機能させることができ、又は当該操作又は当該１又は複数のセクションを実行させることができ、及び／又はコンピュータ２２００に、本発明の実施形態に係るプロセス又は当該プロセスの段階を実行させることができる。そのようなプログラムは、コンピュータ２２００に、本明細書に記載のフローチャート及びブロック図のブロックのうちのいくつか又はすべてに関連付けられた特定の操作を実行させるべく、ＣＰＵ２２１２によって実行されてよい。

【0067】

本実施形態によるコンピュータ２２００は、ＣＰＵ２２１２、ＲＡＭ２２１４、グラフィックコントローラ２２１６、及びディスプレイデバイス２２１８を含み、それらはホストコントローラ２２１０によって相互に接続されている。コンピュータ２２００はまた、通信インタフェース２２２２、ハードディスクドライブ２２２４、ＤＶＤ－ＲＯＭドライブ２２２６、及びＩＣカードドライブのような入／出力ユニットを含み、それらは入／出力コントローラ２２２０を介してホストコントローラ２２１０に接続されている。コンピュータはまた、ＲＯＭ２２３０及びキーボード２２４２のようなレガシの入／出力ユニットを含み、それらは入／出力チップ２２４０を介して入／出力コントローラ２２２０に接続されている。

【0068】

ＣＰＵ２２１２は、ＲＯＭ２２３０及びＲＡＭ２２１４内に格納されたプログラムに従い動作し、それにより各ユニットを制御する。グラフィックコントローラ２２１６は、ＲＡＭ２２１４内に提供されるフレームバッファ等又はそれ自体の中にＣＰＵ２２１２によって生成されたイメージデータを取得し、イメージデータがディスプレイデバイス２２１８上に表示されるようにする。

【0069】

通信インタフェース２２２２は、ネットワークを介して他の電子デバイスと通信する。ハードディスクドライブ２２２４は、コンピュータ２２００内のＣＰＵ２２１２によって使用されるプログラム及びデータを格納する。ＤＶＤ－ＲＯＭドライブ２２２６は、プログラム又はデータをＤＶＤ－ＲＯＭ２２０１から読み取り、ハードディスクドライブ２２２４にＲＡＭ２２１４を介してプログラム又はデータを提供する。ＩＣカードドライブは、プログラム及びデータをＩＣカードから読み取り、及び／又はプログラム及びデータをＩＣカードに書き込む。

【0070】

ＲＯＭ２２３０はその中に、アクティブ化時にコンピュータ２２００によって実行されるブートプログラム等、及び／又はコンピュータ２２００のハードウェアに依存するプログラムを格納する。入／出力チップ２２４０はまた、様々な入／出力ユニットをパラレルポート、シリアルポート、キーボードポート、マウスポート等を介して、入／出力コントローラ２２２０に接続してよい。

【0071】

プログラムが、ＤＶＤ－ＲＯＭ２２０１又はＩＣカードのようなコンピュータ可読媒体によって提供される。プログラムは、コンピュータ可読媒体から読み取られ、コンピュータ可読媒体の例でもあるハードディスクドライブ２２２４、ＲＡＭ２２１４、又はＲＯＭ２２３０にインストールされ、ＣＰＵ２２１２によって実行される。これらのプログラム内に記述される情報処理は、コンピュータ２２００に読み取られ、プログラムと、上記様々なタイプのハードウェアリソースとの間の連携をもたらす。装置又は方法が、コンピュータ２２００の使用に従い情報の操作又は処理を実現することによって構成されてよい。

【0072】

例えば、通信がコンピュータ２２００及び外部デバイス間で実行される場合、ＣＰＵ２２１２は、ＲＡＭ２２１４にロードされた通信プログラムを実行し、通信プログラムに記述された処理に基づいて、通信インタフェース２２２２に対し、通信処理を命令してよい。通信インタフェース２２２２は、ＣＰＵ２２１２の制御下、ＲＡＭ２２１４、ハードディスクドライブ２２２４、ＤＶＤ－ＲＯＭ２２０１、又はＩＣカードのような記録媒体内に提供される送信バッファ処理領域に格納された送信データを読み取り、読み取られた送信データをネットワークに送信し、又はネットワークから受信された受信データを記録媒体上に提供される受信バッファ処理領域等に書き込む。

【0073】

また、ＣＰＵ２２１２は、ハードディスクドライブ２２２４、ＤＶＤ－ＲＯＭドライブ２２２６（ＤＶＤ－ＲＯＭ２２０１）、ＩＣカード等のような外部記録媒体に格納されたファイル又はデータベースの全部又は必要な部分がＲＡＭ２２１４に読み取られるようにし、ＲＡＭ２２１４上のデータに対し様々なタイプの処理を実行してよい。ＣＰＵ２２１２は次に、処理されたデータを外部記録媒体にライトバックする。

【0074】

様々なタイプのプログラム、データ、テーブル、及びデータベースのような様々なタイプの情報が記録媒体に格納され、情報処理を受けてよい。ＣＰＵ２２１２は、ＲＡＭ２２１４から読み取られたデータに対し、本開示の随所に記載され、プログラムの命令シーケンスによって指定される様々なタイプの操作、情報処理、条件判断、条件分岐、無条件分岐、情報の検索／置換等を含む、様々なタイプの処理を実行してよく、結果をＲＡＭ２２１４に対しライトバックする。また、ＣＰＵ２２１２は、記録媒体内のファイル、データベース等における情報を検索してよい。例えば、各々が第２の属性の属性値に関連付けられた第１の属性の属性値を有する複数のエントリが記録媒体内に格納される場合、ＣＰＵ２２１２は、第１の属性の属性値が指定される、条件に一致するエントリを当該複数のエントリの中から検索し、当該エントリ内に格納された第２の属性の属性値を読み取り、それにより予め定められた条件を満たす第１の属性に関連付けられた第２の属性の属性値を取得してよい。

【0075】

上で説明したプログラム又はソフトウェアモジュールは、コンピュータ２２００上又はコンピュータ２２００近傍のコンピュータ可読媒体に格納されてよい。また、専用通信ネットワーク又はインターネットに接続されたサーバーシステム内に提供されるハードディスク又はＲＡＭのような記録媒体が、コンピュータ可読媒体として使用可能であり、それによりプログラムを、ネットワークを介してコンピュータ２２００に提供する。

【0076】

以上、本発明を実施の形態を用いて説明したが、本発明の技術的範囲は上記実施の形態に記載の範囲には限定されない。上記実施の形態に、多様な変更または改良を加えることが可能であることが当業者に明らかである。その様な変更または改良を加えた形態も本発明の技術的範囲に含まれ得ることが、特許請求の範囲の記載から明らかである。

【0077】

特許請求の範囲、明細書、および図面中において示した装置、システム、プログラム、および方法における動作、手順、ステップ、および段階等の各処理の実行順序は、特段「より前に」、「先立って」等と明示しておらず、また、前の処理の出力を後の処理で用いるのでない限り、任意の順序で実現しうることに留意すべきである。特許請求の範囲、明細書、および図面中の動作フローに関して、便宜上「まず、」、「次に、」等を用いて説明したとしても、この順で実施することが必須であることを意味するものではない。

【符号の説明】

【0078】

１０・・・入力データ取得部、２０・・・制御用データ取得部、３０・・・算出部、３２・・・スケーリング部、３４・・・マップ選択部、３６・・・決定部、３８・・・逆スケーリング部、４０・・・出力部、５０・・・１００・・・制御装置、２００・・・学習処理装置、２１０・・・状態データ取得部、２２０・・・学習処理部、２３０・・・生成部、２３５・・・制御モデル、２４０・・・供給部、２５０・・・シミュレータ、３００・・・設備、３１０・・・制御対象、２２００・・・コンピュータ、２２０１・・・ＤＶＤ－ＲＯＭ、２２１０・・・ホストコントローラ、２２１２・・・ＣＰＵ、２２１４・・・ＲＡＭ、２２１６・・・グラフィックコントローラ、２２１８・・・ディスプレイデバイス、２２２０・・・入／出力コントローラ、２２２２・・・通信インタフェース、２２２４・・・ハードディスクドライブ、２２２６・・・ＤＶＤ－ＲＯＭドライブ、２２３０・・・ＲＯＭ、２２４０・・・入／出力チップ、２２４２・・・キーボード

【図1A】