IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 横河電機株式会社の特許一覧

特開2023-173459モデル選択装置、モデル選択方法、および、モデル選択プログラム
<>
  • 特開-モデル選択装置、モデル選択方法、および、モデル選択プログラム 図1
  • 特開-モデル選択装置、モデル選択方法、および、モデル選択プログラム 図2
  • 特開-モデル選択装置、モデル選択方法、および、モデル選択プログラム 図3
  • 特開-モデル選択装置、モデル選択方法、および、モデル選択プログラム 図4
  • 特開-モデル選択装置、モデル選択方法、および、モデル選択プログラム 図5
  • 特開-モデル選択装置、モデル選択方法、および、モデル選択プログラム 図6
  • 特開-モデル選択装置、モデル選択方法、および、モデル選択プログラム 図7
  • 特開-モデル選択装置、モデル選択方法、および、モデル選択プログラム 図8
  • 特開-モデル選択装置、モデル選択方法、および、モデル選択プログラム 図9
  • 特開-モデル選択装置、モデル選択方法、および、モデル選択プログラム 図10
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2023173459
(43)【公開日】2023-12-07
(54)【発明の名称】モデル選択装置、モデル選択方法、および、モデル選択プログラム
(51)【国際特許分類】
   G05B 23/02 20060101AFI20231130BHJP
   G05B 13/04 20060101ALI20231130BHJP
   G06N 20/00 20190101ALI20231130BHJP
【FI】
G05B23/02 G
G05B13/04
G06N20/00
【審査請求】未請求
【請求項の数】13
【出願形態】OL
(21)【出願番号】P 2022085729
(22)【出願日】2022-05-26
(71)【出願人】
【識別番号】000006507
【氏名又は名称】横河電機株式会社
(74)【代理人】
【識別番号】110000877
【氏名又は名称】弁理士法人RYUKA国際特許事務所
(72)【発明者】
【氏名】▲高▼見 豪
(72)【発明者】
【氏名】岡本 浩実
(72)【発明者】
【氏名】佐藤 正彦
(72)【発明者】
【氏名】藤井 英幸
(72)【発明者】
【氏名】神宮 善行
(72)【発明者】
【氏名】御供 頌弘
【テーマコード(参考)】
3C223
5H004
【Fターム(参考)】
3C223AA01
3C223AA02
3C223AA03
3C223AA04
3C223AA06
3C223BA03
3C223CC02
3C223DD03
3C223EA06
3C223EB01
3C223EB02
3C223FF22
3C223FF23
3C223FF26
3C223GG01
3C223GG02
3C223HH29
5H004GB01
5H004GB02
5H004GB04
5H004GB08
5H004HA01
5H004HA02
5H004HA03
5H004HB01
5H004HB02
5H004KB02
5H004KB04
5H004KB06
5H004KC27
5H004KC28
5H004KC33
5H004KD62
5H004MA05
5H004MA06
5H004MA36
5H004MA39
5H004MA51
(57)【要約】
【解決手段】各々が、設備の状態を評価した指標を出力する評価モデルの出力を報酬の少なくとも一部とした強化学習により生成され、前記設備における状態に応じた行動を出力可能な複数の候補モデルを記憶する候補モデル記憶部と、前記複数の候補モデルの出力に基づくそれぞれの操作量を前記設備における制御対象へ与えた場合における、前記設備の状態を示す複数の状態データを取得する状態データ取得部と、前記複数の状態データのそれぞれを入力したことに応じて前記評価モデルが出力する複数の指標を取得する指標取得部と、前記複数の指標に基づいて、前記複数の候補モデルの中から前記制御対象を制御するための対象モデルを選択するモデル選択部と、前記対象モデルを出力する対象モデル出力部と、を備える、モデル選択装置を提供する。
【選択図】図4
【特許請求の範囲】
【請求項1】
各々が、設備の状態を評価した指標を出力する評価モデルの出力を報酬の少なくとも一部とした強化学習により生成され、前記設備における状態に応じた行動を出力可能な複数の候補モデルを記憶する候補モデル記憶部と、
前記複数の候補モデルの出力に基づくそれぞれの操作量を前記設備における制御対象へ与えた場合における、前記設備の状態を示す複数の状態データを取得する状態データ取得部と、
前記複数の状態データのそれぞれを入力したことに応じて前記評価モデルが出力する複数の指標を取得する指標取得部と、
前記複数の指標に基づいて、前記複数の候補モデルの中から前記制御対象を制御するための対象モデルを選択するモデル選択部と、
前記対象モデルを出力する対象モデル出力部と、
を備える、モデル選択装置。
【請求項2】
前記モデル選択部は、前記複数の候補モデルのうち、前記指標が最も高くなるに至った行動を出力した候補モデルを前記対象モデルとして選択する、請求項1に記載のモデル選択装置。
【請求項3】
前記モデル選択部は、前記複数の候補モデルのうち、複数の時点における前記指標の統計量が最も高くなるに至った行動を出力した候補モデルを前記対象モデルとして選択する、請求項2に記載のモデル選択装置。
【請求項4】
前記統計量は、平均値または最小値の少なくともいずれかを含む、請求項3に記載のモデル選択装置。
【請求項5】
前記モデル選択部は、前記評価モデルが更新されたことに応じて、前記対象モデルを再選択する、請求項1から4のいずれか一項に記載のモデル選択装置。
【請求項6】
前記モデル選択部は、予め定められた時間が経過したことに応じて、前記対象モデルを再選択する、請求項1から4のいずれか一項に記載のモデル選択装置。
【請求項7】
前記対象モデルが出力されたことに応じてユーザ入力を受け付ける入力部を更に備える、請求項1から4のいずれか一項に記載のモデル選択装置。
【請求項8】
前記対象モデルを用いて前記制御対象を制御する制御部を更に備える、請求項1から4のいずれか一項に記載のモデル選択装置。
【請求項9】
前記強化学習により、前記複数の候補モデルとなる複数の操業モデルを生成する操業モデル生成部を更に備える、請求項1から4のいずれか一項に記載のモデル選択装置。
【請求項10】
前記評価モデルを記憶する評価モデル記憶部を更に備える、請求項1から4のいずれか一項に記載のモデル選択装置。
【請求項11】
機械学習により、前記評価モデルを生成する評価モデル生成部を更に備える、請求項1から4のいずれか一項に記載のモデル選択装置。
【請求項12】
コンピュータにより実行され、前記コンピュータが、
各々が、設備の状態を評価した指標を出力する評価モデルの出力を報酬の少なくとも一部とした強化学習により生成され、前記設備における状態に応じた行動を出力可能な複数の候補モデルを記憶することと、
前記複数の候補モデルの出力に基づくそれぞれの操作量を前記設備における制御対象へ与えた場合における、前記設備の状態を示す複数の状態データを取得することと、
前記複数の状態データのそれぞれを入力したことに応じて前記評価モデルが出力する複数の指標を取得することと、
前記複数の指標に基づいて、前記複数の候補モデルの中から前記制御対象を制御するための対象モデルを選択することと、
前記対象モデルを出力することと、
を備える、モデル選択方法。
【請求項13】
コンピュータにより実行され、前記コンピュータを、
各々が、設備の状態を評価した指標を出力する評価モデルの出力を報酬の少なくとも一部とした強化学習により生成され、前記設備における状態に応じた行動を出力可能な複数の候補モデルを記憶する候補モデル記憶部と、
前記複数の候補モデルの出力に基づくそれぞれの操作量を前記設備における制御対象へ与えた場合における、前記設備の状態を示す複数の状態データを取得する状態データ取得部と、
前記複数の状態データのそれぞれを入力したことに応じて前記評価モデルが出力する複数の指標を取得する指標取得部と、
前記複数の指標に基づいて、前記複数の候補モデルの中から前記制御対象を制御するための対象モデルを選択するモデル選択部と、
前記対象モデルを出力する対象モデル出力部と、
して機能させる、モデル選択プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、モデル選択装置、モデル選択方法、および、モデル選択プログラムに関する。
【背景技術】
【0002】
特許文献1には、「モデル45は測定データの入力に応じ報酬値を高めるために推奨される第1種類の制御内容を示す推奨制御パラメータを出力する」と記載されている。また、非特許文献1には、「FKDPP(Factоrial Kernel Dynamic Pоlicy Prоgramming)」が記載されている。
[先行技術文献]
[特許文献]
[特許文献1] 特開2021-086283
[非特許文献]
[非特許文献1] "横河電機とNAISTが化学プラント向けに強化学習",日経Robotics 2019年3月号
【発明の概要】
【0003】
本発明の第1の態様においては、モデル選択装置を提供する。前記モデル選択装置は、各々が、設備の状態を評価した指標を出力する評価モデルの出力を報酬の少なくとも一部とした強化学習により生成され、前記設備における状態に応じた行動を出力可能な複数の候補モデルを記憶する候補モデル記憶部と、前記複数の候補モデルの出力に基づくそれぞれの操作量を前記設備における制御対象へ与えた場合における、前記設備の状態を示す複数の状態データを取得する状態データ取得部と、前記複数の状態データのそれぞれを入力したことに応じて前記評価モデルが出力する複数の指標を取得する指標取得部と、前記複数の指標に基づいて、前記複数の候補モデルの中から前記制御対象を制御するための対象モデルを選択するモデル選択部と、前記対象モデルを出力する対象モデル出力部と、を備える。
【0004】
前記モデル選択装置において、前記モデル選択部は、前記複数の候補モデルのうち、前記指標が最も高くなるに至った行動を出力した候補モデルを前記対象モデルとして選択してもよい。
【0005】
前記モデル選択装置のいずれかにおいて、前記モデル選択部は、前記複数の候補モデルのうち、複数の時点における前記指標の統計量が最も高くなるに至った行動を出力した候補モデルを前記対象モデルとして選択してもよい。
【0006】
前記モデル選択装置のいずれかにおいて、前記統計量は、平均値または最小値の少なくともいずれかを含んでもよい。
【0007】
前記モデル選択装置のいずれかにおいて、前記モデル選択部は、前記評価モデルが更新されたことに応じて、前記対象モデルを再選択してもよい。
【0008】
前記モデル選択装置のいずれかにおいて、前記モデル選択部は、予め定められた時間が経過したことに応じて、前記対象モデルを再選択してもよい。
【0009】
前記モデル選択装置のいずれかは、前記対象モデルが出力されたことに応じてユーザ入力を受け付ける入力部を更に備えてもよい。
【0010】
前記モデル選択装置のいずれかは、前記対象モデルを用いて前記制御対象を制御する制御部を更に備えてもよい。
【0011】
前記モデル選択装置のいずれかは、前記強化学習により、前記複数の候補モデルとなる複数の操業モデルを生成する操業モデル生成部を更に備えてもよい。
【0012】
前記モデル選択装置のいずれかは、前記評価モデルを記憶する評価モデル記憶部を更に備えてもよい。
【0013】
前記モデル選択装置のいずれかは、機械学習により、前記評価モデルを生成する評価モデル生成部を更に備えてもよい。
【0014】
本発明の第2の態様においては、モデル選択方法を提供する。前記モデル選択方法は、コンピュータにより実行され、前記コンピュータが、各々が、設備の状態を評価した指標を出力する評価モデルの出力を報酬の少なくとも一部とした強化学習により生成され、前記設備における状態に応じた行動を出力可能な複数の候補モデルを記憶することと、前記複数の候補モデルの出力に基づくそれぞれの操作量を前記設備における制御対象へ与えた場合における、前記設備の状態を示す複数の状態データを取得することと、前記複数の状態データのそれぞれを入力したことに応じて前記評価モデルが出力する複数の指標を取得することと、前記複数の指標に基づいて、前記複数の候補モデルの中から前記制御対象を制御するための対象モデルを選択することと、前記対象モデルを出力することと、を備える。
【0015】
本発明の第3の態様においては、モデル選択プログラムを提供する。前記モデル選択プログラムは、コンピュータにより実行され、前記コンピュータを、各々が、設備の状態を評価した指標を出力する評価モデルの出力を報酬の少なくとも一部とした強化学習により生成され、前記設備における状態に応じた行動を出力可能な複数の候補モデルを記憶する候補モデル記憶部と、前記複数の候補モデルの出力に基づくそれぞれの操作量を前記設備における制御対象へ与えた場合における、前記設備の状態を示す複数の状態データを取得する状態データ取得部と、前記複数の状態データのそれぞれを入力したことに応じて前記評価モデルが出力する複数の指標を取得する指標取得部と、前記複数の指標に基づいて、前記複数の候補モデルの中から前記制御対象を制御するための対象モデルを選択するモデル選択部と、前記対象モデルを出力する対象モデル出力部と、して機能させる。
【0016】
なお、上記の発明の概要は、本発明の特徴の全てを列挙したものではない。また、これらの特徴群のサブコンビネーションもまた、発明となりうる。
【図面の簡単な説明】
【0017】
図1】制御システム1のブロック図の一例を示す。
図2】評価モデル管理装置200のブロック図の一例を示す。
図3】操業モデル管理装置300のブロック図の一例を示す。
図4】本実施形態に係るモデル選択装置400のブロック図の一例を示す。
図5】制御装置500のブロック図の一例を示す。
図6】本実施形態に係るモデル選択装置400が実行してよいモデル選択方法のフロー図の一例を示す。
図7】第1の変形例に係るモデル選択装置400のブロック図の一例を示す。
図8】第2の変形例に係るモデル選択装置400のブロック図の一例を示す。
図9】第3の変形例に係るモデル選択装置400のブロック図の一例を示す。
図10】本発明の複数の態様が全体的または部分的に具現化されてよいコンピュータ9900の例を示す。
【発明を実施するための形態】
【0018】
以下、発明の実施の形態を通じて本発明を説明するが、以下の実施形態は特許請求の範囲にかかる発明を限定するものではない。また、実施形態の中で説明されている特徴の組み合わせの全てが発明の解決手段に必須であるとは限らない。
【0019】
図1は、制御システム1のブロック図の一例を示す。なお、これらブロックは、それぞれ機能的に分離された機能ブロックであって、実際の装置構成とは必ずしも一致していなくてもよい。すなわち、本図において、1つのブロックとして示されているからといって、それが必ずしも1つの装置により構成されていなくてもよい。また、本図において、別々のブロックとして示されているからといって、それらが必ずしも別々の装置により構成されていなくてもよい。これより先のブロック図についても同様である。
【0020】
制御システム1においては、設備10の状態を評価した指標を出力する評価モデルを機械学習により生成し、当該評価モデルの出力を報酬の少なくとも一部とした強化学習により操業モデルを生成する。そして、制御システム1においては、生成された操業モデルを用いて設備10における制御対象15を制御する。このような操業モデルを用いた制御は、AI(Artificial Intelligence)制御とも呼ばれる。本実施形態に係るモデル選択装置400は、このような制御システム1において、AI制御に利用可能な操業モデルが複数存在する場合に、複数の候補の中から制御に用いるモデルを選択する。
【0021】
制御システム1には、設備10と、シミュレータ100と、評価モデル管理装置200と、操業モデル管理装置300と、モデル選択装置400と、制御装置500とが含まれてよい。
【0022】
設備10は、制御対象15が設けられた施設や装置である。例えば、設備10は、プラントであってもよいし、複数の機器を複合させた複合装置であってもよい。プラントとしては、化学やバイオ等の工業プラントの他、ガス田や油田等の井戸元やその周辺を管理制御するプラント、水力・火力・原子力等の発電を管理制御するプラント、太陽光や風力等の環境発電を管理制御するプラント、上下水やダム等を管理制御するプラント等が挙げられる。
【0023】
これより先、設備10が、プロセス装置の1つである蒸留装置である場合を一例として説明する。一般に、蒸留装置は、蒸留塔内において低沸成分を蒸発させて塔頂から抜き出し、抜き出した低沸成分の蒸気をコンデンサにより凝縮させて還流ドラムに貯蔵する。そして、蒸留装置は、還流ドラムに貯蔵された一部を蒸留塔内に還流して、蒸留塔内の蒸気と接触させ、低沸成分と高沸成分とに蒸留する。このような蒸留装置においては、一例として、還流量を制御すべく、還流ドラムと蒸留塔との間に設けられたバルブが開閉制御される。
【0024】
制御対象15は、設備10に設けられ、制御の対象となる機器である。例えば、制御対象15は、設備10のプロセスにおける物体の量、温度、圧力、流量、速度、および、pH等の少なくとも1つの物理量を制御する、バルブ、ヒータ、モータ、ファン、および、スイッチ等のアクチュエータ、すなわち、操作端であってよく、操作量に応じた所与の操作を実行する。これより先、制御対象15が、蒸留装置における還流ドラムと蒸留塔との間に設けられたバルブである場合を一例として説明する。しかしながら、これに限定されるものではない。制御対象15は、操作端を制御するコントローラであってもよい。すなわち、本明細書において用いられる「制御」という用語には、操作端を直接制御することに加えて、コントローラを介して操作端を間接的に制御することをも含まれるものと広義に解釈されてよい。
【0025】
制御対象15が設けられた設備10には、設備10の内外における様々な状態(物理量)を測定可能な1または複数のセンサが設けられていてよい。一例として、設備10が蒸留装置である場合、センサは、蒸留装置の様々な位置(例えば、塔頂、塔中央、塔底等)における温度や、様々な経路における流量等を測定した測定値PV(Process Variable)を出力してよい。設備10の状態を示す状態データには、このような測定値PVが含まれていてよい。また、状態データには、制御対象15であるバルブの開閉度を示す操作量MV(Manipulated Variable)が含まれていてよい。状態データには、このように制御対象15を制御した結果の運転状態を示す運転データに加えて、設備10におけるエネルギーや原材料の消費量を示す消費量データや、制御対象15の制御に対して外乱として作用し得る物理量を示す外乱環境データ等が含まれていてもよい。
【0026】
蒸留装置は、石油・化学プロセスにおいて非常に多く用いられている装置の一つであるが、塔頂と塔底の相互干渉が強く、時定数が長く、動作が非線形であるという特徴を有している。このような、蒸留装置において還流量を制御すべくバルブをPID(Proportional Integral Differential)等により開閉制御する場合、制御性の向上を図ることが困難であった。また、このようなバルブを、品質確保、省エネルギー、GHG(GreenHouse Gas)削減、および、歩留まり向上等の複数の項目を目的として、作業員がマニュアル操作する場合、どの程度バルブを開閉制御するかは、作業員の経験や勘に頼るところが大きかった。
【0027】
そこで、このようなバルブを開閉制御するにあたり、強化学習により生成された操業モデルを用いることが考えられる。本実施形態に係るモデル選択装置400は、例えばこのような操業モデルを選択の対象としてよい。
【0028】
シミュレータ100は、設備10における操業を模擬する。例えば、シミュレータ100は、設備10における設計情報をもとに設計されたものであってよく、設備10における操業を模擬した挙動を実行する。シミュレータ100は、制御対象15に対する操作量を模擬した信号を取得することで環境が変化し、設備10における状態(例えば、センサの予測値)を模擬したシミュレーションデータを出力する。一例として、シミュレータ100は、蒸留装置の状態を予測する予測モデルと、プラント制御シミュレータとにより構成されていてよい。予測モデルは、ディープラーニングを用いた時系列データのモデル化技術を用いて、蓄積されたプロセスデータから反応器の状態変化を予測可能であってよい。また、プラント制御シミュレータは、制御対象15に対して、目標値SVと制御量CVとの差分によって操作量MVを導出するPID制御を仮想的にシミュレート可能であってよい。すなわち、シミュレータ100は、状態予測値に加えて、設備10における挙動そのものをシミュレート可能であってよい。
【0029】
評価モデル管理装置200は、設備10の状態を評価した指標を出力する評価モデルを管理する。例えば、評価モデル管理装置200は、機械学習により評価モデルを生成し、生成した評価モデルを自装置内に記憶してよい。また、評価モデル管理装置200は、生成した評価モデルを操業モデル管理装置300へ出力してよい。
【0030】
操業モデル管理装置300は、設備10における状態に応じた行動を出力する複数の操業モデルを管理する。例えば、操業モデル管理装置300は、評価モデル管理装置200が管理する評価モデルの出力を報酬の少なくとも一部とした強化学習により、複数の操業モデルを生成し、生成した複数の操業モデルを自装置内に記憶してよい。また、操業モデル管理装置300は、生成した複数の操業モデルをモデル選択装置400へ出力してよい。
【0031】
モデル選択装置400は、AI制御に利用可能な操業モデルが複数存在する場合に、複数の候補の中から制御に用いるモデルを選択する。例えば、モデル選択装置400は、操業モデル管理装置300が管理する複数の操業モデルを複数の候補モデルとして取得し、当該複数の候補モデルの中から制御対象15を制御するための対象モデルを選択してよい。また、モデル選択装置400は、選択した対象モデルを制御装置500へ出力してよい。
【0032】
制御装置500は、対象モデルを用いて制御対象15を制御する。例えば、制御装置500は、モデル選択装置400が選択した対象モデルを用いて、設備10における制御対象15を制御してよい。
【0033】
このように、制御システム1においては、AIが自動的に操業におけるボトルネック(ポテンシャルフォルト)を探し出し、改善のための指標を評価モデルとして生成する。そして、AIが与えられた指標を基に試行錯誤を行い、よりよい操業方法を指示する操業モデルを生成する。これにより、制御システム1によれば、AI技術を用いて設備10を自律的に制御可能な環境を提供する。本実施形態に係るモデル選択装置400は、このような制御システム1において、AI制御に利用可能な操業モデルが複数存在する場合に、複数の候補の中から制御に用いるモデルを選択する。これについて、各装置の詳細を順に説明する。
【0034】
図2は、評価モデル管理装置200のブロック図の一例を示す。評価モデル管理装置200は、PC(パーソナルコンピュータ)、タブレット型コンピュータ、スマートフォン、ワークステーション、サーバコンピュータ、または汎用コンピュータ等のコンピュータであってよく、複数のコンピュータが接続されたコンピュータシステムであってもよい。このようなコンピュータシステムもまた広義のコンピュータである。また、評価モデル管理装置200は、コンピュータ内で1または複数実行可能な仮想コンピュータ環境によって実装されてもよい。これに代えて、評価モデル管理装置200は、評価モデルの管理用に設計された専用コンピュータであってもよく、専用回路によって実現された専用ハードウェアであってもよい。また、インターネットに接続可能な場合、評価モデル管理装置200は、クラウドコンピューティングにより実現されてもよい。
【0035】
評価モデル管理装置200は、評価モデル生成部210と、評価モデル記憶部220と、評価モデル出力部230とを備える。
【0036】
評価モデル生成部210は、設備10の状態を評価した指標を出力する評価モデルを生成する。例えば、評価モデル生成部210は、設備10における操業目標(プラントKPI(Key Performance Indicator:重要業績評価指標)等)、設備10の状態を示す状態データ、および、教師ラベルを取得し、これらに基づいてラベリングデータを生成してよい。そして、評価モデル生成部210は、生成したラベリングデータを学習データとして、機械学習のアルゴリズムにより評価モデルを生成してよい。評価モデルの生成処理自体については任意であってよいので、更なる詳細についてはここでは説明を省略する。評価モデル生成部210は、生成した評価モデルを評価モデル記憶部220へ供給する。
【0037】
評価モデル記憶部220は、評価モデルを記憶する。例えば、評価モデル記憶部220は、評価モデル生成部210により生成された評価モデルを記憶してよい。なお、上述の説明では、評価モデル記憶部220が、評価モデル管理装置200の内部において生成された評価モデルを記憶する場合を一例として示したが、これに限定されるものではない。評価モデル記憶部220は、評価モデル管理装置200の外部において生成された評価モデルを記憶してもよい。評価モデル記憶部220は、記憶した評価モデルを複製して評価モデル出力部230へ供給する。
【0038】
評価モデル出力部230は、評価モデルを出力する。例えば、評価モデル出力部230は、評価モデル記憶部220が複製した評価モデルを、ネットワークを介して操業モデル管理装置300へ出力してよい。
【0039】
図3は、操業モデル管理装置300のブロック図の一例を示す。操業モデル管理装置300についても、評価モデル管理装置200と同様、コンピュータであってよく、複数のコンピュータが接続されたコンピュータシステムであってもよい。また、操業モデル管理装置300は、コンピュータ内で1または複数実行可能な仮想コンピュータ環境によって実装されてもよい。これに代えて、操業モデル管理装置300は、操業モデルの管理用に設計された専用コンピュータであってもよく、専用回路によって実現された専用ハードウェアであってもよい。また、インターネットに接続可能な場合、操業モデル管理装置300は、クラウドコンピューティングにより実現されてもよい。
【0040】
操業モデル管理装置300は、評価モデル取得部310と、操業モデル生成部320と、操業モデル記憶部330と、操業モデル出力部340とを備える。
【0041】
評価モデル取得部310は、設備10の状態を評価した指標を出力する評価モデルを取得する。例えば、評価モデル取得部310は、評価モデル出力部230から出力された評価モデルを、ネットワークを介して取得してよい。評価モデル取得部310は、取得した評価モデルを操業モデル生成部320へ供給する。
【0042】
操業モデル生成部320は、評価モデルの出力を報酬の少なくとも一部とした強化学習により、設備10の状態に応じた行動を出力可能な複数の操業モデルを生成する。このような操業モデルは、一例として、サンプリングされた状態データの集合を示すSと各状態下に取られた行動Aとの組み合わせ(S,A)と、報酬によって計算されたウエイトWとで構成されるデータテーブルを有してよい。なお、このようなウエイトWを計算するための報酬の少なくとも一部として、評価モデルの出力が用いられてよい。
【0043】
このような操業モデルを生成するにあたって、操業モデル生成部320は、学習環境の状態を示す学習環境データを取得してよい。この際、学習環境として設備10における操業を模擬するシミュレータ100が用いられる場合、操業モデル生成部320は、シミュレータ100からのシミュレーションデータを学習環境データとして取得してよい。しかしながら、これに限定されるものではない。学習環境として実際の設備10が用いられてもよい。この場合、操業モデル生成部320は、設備10の状態を示す状態データを学習環境データとして取得してよい。
【0044】
次に、操業モデル生成部320は、ランダムに、または、後述するFKDPP等の既知のAIアルゴリズムを用いて行動を決定し、当該行動に基づく操作量を学習環境における制御対象へ与えてよい。これに応じて学習環境の状態が変化する。
【0045】
そして、操業モデル生成部320は、学習環境データを再び取得してよい。これにより、操業モデル生成部320は、決定された行動に基づく操作量が制御対象へ与えられたことに応じて変化した後の学習環境の状態を取得することができる。
【0046】
そして、操業モデル生成部320は、評価モデルの出力に少なくとも部分的に基づき、報酬値を算出してよい。一例として、変化した後の学習環境の状態を示す学習環境データを評価モデルへ入力したことに応じて、当該評価モデルが出力する指標をそのまま報酬値として算出してよい。
【0047】
操業モデル生成部320は、このような行動の決定に応じた状態の取得処理を複数回繰り返した後、データテーブルにおけるウエイト列の値を上書きするほか、これまでに保存されていない新たなサンプルデータをデータテーブルにおける新たな行へ追加することで、操業モデルを更新してよい。操業モデル生成部320は、このような更新処理を複数回繰り返すことで、操業モデルを生成することができる。操業モデルの生成自体については任意であってよいので、更なる詳細についてはここでは説明を省略する。
【0048】
操業モデル生成部320は、例えばこのような操業モデルの生成処理を、異なる学習環境下や、異なる学習アルゴリズムで実行することによって、互いに異なる複数の操業モデルを生成することができる。操業モデル生成部320は、生成した複数の操業モデルを操業モデル記憶部330へ供給する。
【0049】
操業モデル記憶部330は、複数の操業モデルを記憶する。例えば、操業モデル記憶部330は、操業モデル生成部320により生成された複数の操業モデルを記憶してよい。なお、上述の説明では、操業モデル記憶部330が、操業モデル管理装置300の内部において生成された複数の操業モデルを記憶する場合を一例として示したが、これに限定されるものではない。操業モデル記憶部330は、一部または全部が操業モデル管理装置300の外部において生成された複数の操業モデルを記憶してもよい。操業モデル記憶部330は、記憶した複数の操業モデルを複製して操業モデル出力部340へ供給する。
【0050】
操業モデル出力部340は、複数の操業モデルを出力する。例えば、操業モデル出力部340は、操業モデル記憶部330が複製した複数の操業モデルを、ネットワークを介してモデル選択装置400へ出力してよい。
【0051】
図4は、本実施形態に係るモデル選択装置400のブロック図の一例を示す。モデル選択装置400についても、評価モデル管理装置200と同様、コンピュータであってよく、複数のコンピュータが接続されたコンピュータシステムであってもよい。また、モデル選択装置400は、コンピュータ内で1または複数実行可能な仮想コンピュータ環境によって実装されてもよい。これに代えて、モデル選択装置400は、モデルの選択用に設計された専用コンピュータであってもよく、専用回路によって実現された専用ハードウェアであってもよい。また、インターネットに接続可能な場合、モデル選択装置400は、クラウドコンピューティングにより実現されてもよい。
【0052】
モデル選択装置400は、候補モデル取得部410と、候補モデル記憶部420と、状態データ取得部430と、指標取得部440と、モデル選択部450と、対象モデル出力部460と、入力部470とを備える。
【0053】
候補モデル取得部410は、複数の候補モデルを取得する。例えば、候補モデル取得部410は、操業モデル出力部340が出力した複数の操業モデルを複数の候補モデルとして取得してよい。候補モデル取得部410は、取得した複数の候補モデルを候補モデル記憶部420へ供給する。
【0054】
候補モデル記憶部420は、複数の候補モデルを記憶する。例えば、候補モデル記憶部420は、候補モデル取得部410により取得された複数の候補モデルを記憶してよい。候補モデル記憶部420は、例えばこのようにして、各々が、設備10の状態を評価した指標を出力する評価モデルの出力を報酬の少なくとも一部とした強化学習により生成され、設備10における状態に応じた行動を出力可能な複数の候補モデルを記憶することができる。
【0055】
状態データ取得部430は、複数の状態データを取得する。例えば、状態データ取得部430は、候補モデル記憶部420に記憶された複数の候補モデルの出力に基づくそれぞれの操作量を設備10における制御対象15へ与えた場合における、設備10の状態を示す複数の状態データを取得してよい。状態データ取得部430は、取得した複数の状態データを指標取得部440へ供給する。
【0056】
指標取得部440は、複数の指標を取得する。例えば、指標取得部440は、状態データ取得部430により取得された複数の状態データのそれぞれを入力したことに応じて評価モデルが出力する複数の指標を取得してよい。指標取得部440は、取得した複数の指標をモデル選択部450へ供給する。
【0057】
モデル選択部450は、対象モデルを選択する。例えば、モデル選択部450は、指標取得部440により取得された複数の指標に基づいて、候補モデル記憶部420に記憶された複数の候補モデルの中から制御対象15を制御するための対象モデルを選択してよい。モデル選択部450は、選択した対象モデルを識別する情報を対象モデル出力部460へ供給する。
【0058】
対象モデル出力部460は、対象モデルを出力する。例えば、対象モデル出力部460は、モデル選択部450により選択された対象モデルを識別する情報にしたがって、候補モデル記憶部420に記憶された複数の候補モデルの中から対象モデルを複製してよい。そして、対象モデル出力部460は、当該対象モデルを、ネットワークを介して制御装置500へ出力してよい。
【0059】
入力部470は、ユーザ入力を受け付ける。例えば、入力部470は、対象モデル出力部460により対象モデルが出力されたことに応じてユーザ入力を受け付けてよい。そして、入力部470は、対象モデルを再選択する場合に、状態データ取得部430による複数の状態データの取得や、候補モデル取得部410による複数の候補モデルの取得をトリガしてよい。
【0060】
図5は、制御装置500のブロック図の一例を示す。制御装置500は、例えば、DCS(Distributed Control System:分散制御システム)や中規模向け計装システムにおけるコントローラであってもよいし、リアルタイムOSコントローラ等であってもよい。
【0061】
制御装置500は、対象モデル取得部510と、実環境データ取得部520と、制御部530とを備える。
【0062】
対象モデル取得部510は、対象モデルを取得する。例えば、対象モデル取得部510は、対象モデル出力部460が出力した対象モデルを、ネットワークを介して取得してよい。対象モデル取得部510は、取得した対象モデルを制御部530へ供給する。
【0063】
実環境データ取得部520は、実環境、すなわち、設備10の状態を示す実環境データを取得する。このような実環境データは、前述の状態データと同様のデータであってよい。実環境データ取得部520は、取得した実環境データを制御部530へ供給する。
【0064】
制御部530は、対象モデルを用いて制御対象15を制御する。例えば、制御部530は、後述するFKDPP等の既知のAIアルゴリズムにより行動を決定してよい。そして、制御部530は、決定した行動を、制御対象15の値に加算した操作量を、設備10における制御対象15へ与えてよい。制御部530は、例えばこのようにして、モデル選択装置400により選択された対象モデルを用いて、制御対象15をAI制御することができる。
【0065】
図6は、本実施形態に係るモデル選択装置400が実行してよいモデル選択方法のフロー図の一例を示す。
【0066】
ステップS610において、モデル選択装置400は、複数の候補モデルを取得する。例えば、候補モデル取得部410は、操業モデル出力部340が出力した複数の操業モデルを、操業モデル管理装置300からネットワークを介して、複数の候補モデルとして取得してよい。しかしながら、これに限定されるものではない。候補モデル取得部410は、ネットワークとは異なる他の手段(各種メモリデバイスやユーザ入力等)を介して複数の候補モデルを取得してもよいし、操業モデル管理装置300とは異なる他の装置から複数の候補モデルを取得してもよい。候補モデル取得部410は、取得した複数の候補モデルを候補モデル記憶部420へ供給する。
【0067】
ステップS620において、モデル選択装置400は、複数の候補モデルを記憶する。例えば、候補モデル記憶部420は、ステップS610において取得された複数の候補モデルを記憶してよい。なお、上述の説明では、候補モデル記憶部420が操業モデル管理装置300等の他の装置から取得された複数の候補モデルを記憶する場合を一例として示したが、これに限定されるものではない。候補モデル記憶部420は、複数の候補モデルを予め記憶していてもよい。候補モデル記憶部420は、例えばこのようにして、各々が、設備10の状態を評価した指標を出力する評価モデルの出力を報酬の少なくとも一部とした強化学習により生成され、設備10における状態に応じた行動を出力可能な複数の候補モデルを記憶することができる。換言すれば、候補モデル記憶部420は、共通の評価モデルの出力を報酬の少なくとも一部として、異なる学習環境下や異なる学習アルゴリズムで生成された互いに異なる複数の候補モデルを記憶することができる。ここでは、一例として、候補モデル記憶部420が、候補モデルx、候補モデルy、および、候補モデルzの3つの候補モデルを記憶するものとする。
【0068】
ステップS630において、モデル選択装置400は、複数の状態データを取得する。例えば、状態データ取得部430は、設備10に設けられた各種センサが測定した様々な物理量を、設備10からネットワークを介して、状態データとして取得してよい。しかしながら、これに限定されるものではない。状態データ取得部430は、ネットワークとは異なる他の手段を介して状態データを取得してもよいし、設備10とは異なる他の装置から状態データを取得してもよい。
【0069】
次に、状態データ取得部430は、ステップS620において記憶された複数の候補モデルを用いて、FKDPP等の既知のAIアルゴリズムにより、複数の行動をそれぞれ決定してよい。このようなカーネル法を用いる場合、状態データ取得部430は、取得した状態データにより得られたセンサ値から状態Sのベクトルを生成してよい。次に、状態データ取得部430は、状態Sと、取り得る全ての行動Aとの組み合わせを、行動決定テーブルとして生成してよい。そして、状態データ取得部430は、行動決定テーブルを、ステップS620において記憶された複数の候補モデルのそれぞれへ入力してよい。これに応じて、複数の候補モデルのそれぞれは、行動決定テーブルの各行と、データテーブルのうちのウエイト列を除いた各サンプルデータとの間でカーネル計算を行い、各サンプルデータとの間の距離をそれぞれ算出してよい。そして、複数の候補モデルのそれぞれは、各サンプルデータについて算出した距離にそれぞれのウエイト列の値を乗算したものを順次足し合わせ、各行動における報酬期待値を計算してよい。状態データ取得部430は、例えばこのようにして、複数の候補モデルを用いて報酬期待値が最も高いと判断されたそれぞれの行動を選択することにより、複数の行動を決定してよい。換言すれば、状態データ取得部430は、設備10の状態に応じて複数の候補モデルのそれぞれが報酬期待値を最も高めると判断した行動を、候補モデル毎に決定してよい。ここでは、一例として、状態データ取得部430が、候補モデルxを用いて行動Axを決定し、候補モデルyを用いて行動Ayを決定し、候補モデルzを用いて行動Azを決定するものとする。
【0070】
そして、状態データ取得部430は、決定した複数の行動を制御対象15の値に加算したそれぞれの操作量を、制御装置500を介して制御対象15へ与えてよい。これに応じて、設備10の状態が変化する。状態データ取得部430は、変化した後の設備の状態を示す状態データをさらに取得してよい。状態データ取得部430は、例えばこのようにして、複数の候補モデルの出力に基づくそれぞれの操作量を設備10における制御対象15へ与えた場合における、設備10の状態を示す複数の状態データを取得してよい。ここでは、状態データ取得部430が、行動Axに基づく操作量MVxを制御対象15へ与えた場合における状態データSxを取得し、行動Ayに基づく操作量MVyを制御対象15へ与えた場合における状態データSyを取得し、行動Azに基づく操作量MVzを制御対象15へ与えた場合における状態データSzを取得するものとする。状態データ取得部430は、取得した複数の状態データを指標取得部440へ供給する。
【0071】
ステップS640において、モデル選択装置400は、複数の指標を取得する。例えば、指標取得部440は、ステップS630において取得された複数の状態データを、評価モデル記憶部220に記憶される評価モデルへそれぞれ入力し、当該評価モデルが出力する複数の指標をそれぞれ取得してよい。指標取得部440は、例えばこのようにして、複数の状態データのそれぞれを入力したことに応じて評価モデルが出力する複数の指標を取得してよい。ここでは、指標取得部440が、状態データSxを入力したことに応じて評価モデルが出力する指標Ixを取得し、状態データSyを入力したことに応じて評価モデルが出力する指標Iyを取得し、状態データSzを入力したことに応じて評価モデルが出力する指標Izを取得するものとする。指標取得部440は、取得した複数の指標をモデル選択部450へ供給する。
【0072】
ステップS650において、モデル選択装置400は、対象モデルを選択する。例えば、モデル選択部450は、ステップS640において取得された複数の指標に基づいて、ステップS620において記憶された複数の候補モデルの中から制御対象15を制御するための対象モデルを選択してよい。
【0073】
この際、モデル選択部450は、複数の候補モデルのうち、指標が最も高くなるに至った行動を出力した候補モデルを対象モデルとして選択してよい。一例として、複数の指標がIx>Iy>Izである場合、モデル選択部450は、行動Axを出力した候補モデルxを対象モデルとして選択してよい。
【0074】
なお、上述の説明では、モデル選択部450が、1つの時点における指標に基づいて候補モデルを選択する場合を一例として示したが、これに限定されるものではない。モデル選択部450は、複数の時点における指標の統計量に基づいて候補モデルを選択してもよい。一例として、複数の指標がIy_min>Iz_min>Ix_minである場合(ただし、minは複数の時点における最小値を示す)、モデル選択部450は、行動Ayを出力した候補モデルyを対象モデルとして選択してもよい。
【0075】
また、複数の指標がIz_ave>Ix_ave>Iy_aveである場合(ただし、aveは複数の時点における平均値を示す)、モデル選択部450は、行動Azを出力した候補モデルzを対象モデルとして選択してもよい。
【0076】
モデル選択部450は、例えばこのようにして、複数の候補モデルのうち、複数の時点における指標の統計量が最も高くなるに至った行動を出力した候補モデルを対象モデルとして選択してもよい。この際、統計量は、平均値または最小値の少なくともいずれかを含んでもよい。この際、複数の統計量に基づいて候補モデルを選択する場合、モデル選択部450は、各統計量を重み付け加算した和や加重平均が最も高くなるに至った行動を出力した候補モデルを対象モデルとして選択してもよい。モデル選択部450は、選択した対象モデルを識別する情報を対象モデル出力部460へ供給する。
【0077】
ステップS660において、モデル選択装置400は、対象モデルを出力する。例えば、対象モデル出力部460は、ステップS650において選択された対象モデルを識別する情報にしたがって、ステップS620において記憶された複数の候補モデルの中から対象モデルを複製してよい。そして、対象モデル出力部460は、当該対象モデルを、例えば、ネットワークを介して制御装置500へ出力してよい。これに応じて、制御装置500は、対象モデルを用いたAI制御を開始することができる。
【0078】
ステップS670において、モデル選択装置400は、対象モデルを再選択するか否か判定する。例えば、入力部470は、ステップS660において対象モデルが出力されたことに応じてユーザ入力を受け付けてよい。そして、入力部470は、ユーザから対象モデルを再選択する旨の指示を受けた場合に、対象モデルを再選択すると判定してよい。
【0079】
対象モデルを再選択する(Yes)と判定された場合、モデル選択装置400は、処理をステップS630に戻してフローを継続してよい。この場合、入力部470は、状態データ取得部430による複数の状態データの取得をトリガしてよい。これにより、モデル選択装置400は、複数の状態データを再取得し、対象モデルを再選択することができる。なお、上述の説明では、モデル選択装置400が処理をステップS630に戻す場合を一例として示したが、これに限定されるものではない。モデル選択装置400は、処理をステップS610に戻してフローを継続してもよい。この場合、入力部470は、候補モデル取得部410による複数の候補モデルの取得をトリガしてよい。これにより、モデル選択装置400は、複数の候補モデルを新たに取得し、新たに取得された複数の候補モデルの中から対象モデルを再選択してもよい。
【0080】
対象モデルを再選択しない(No)と判定された場合、モデル選択装置400は、モデル選択方法のフローを終了する。
【0081】
モデル選択装置400は、このようなモデル選択方法のフローを様々なトリガ(イベントトリガやタイムトリガ)に応じて再び実行することもできる。例えば、モデル選択装置400は、評価モデルが更新されたことをトリガとして、モデル選択方法を再び実行してもよい。したがって、モデル選択部450は、評価モデルが更新されたことに応じて、対象モデルを再選択してもよい。
【0082】
また、モデル選択装置400は、以前に対象モデルを選択してから予め定められた時間が経過したことをトリガとして、モデル選択方法を再び実行してもよい。したがって、モデル選択部450は、予め定められた時間が経過したことに応じて、対象モデルを再選択してもよい。
【0083】
一般に、強化学習により生成された操業モデルは、ブラックボックス化されており、操業モデルを評価することが困難であった。したがって、このような操業モデルが複数利用可能である場合に、どの操業モデルをAI制御に用いるかを選択することが困難であった。これに対して、本実施形態に係るモデル選択装置400は、複数の候補モデルの出力に基づくそれぞれの操作量を制御対象15へ与えた場合における設備10のそれぞれの状態を、評価モデルを用いて評価し、当該評価モデルが出力するそれぞれの指標に基づいて、対象モデルを選択する。これにより、本実施形態に係るモデル選択装置400によれば、複数の候補モデルが出力する複数の行動を共通の評価モデルを用いてそれぞれ評価した客観的な結果に基づいて、どの候補モデルをAI制御に用いるかを選択することができる。
【0084】
また、本実施形態に係るモデル選択装置400は、複数の候補モデルのうち、評価モデルが出力する指標が最も高くなる行動を出力した候補モデルを対象モデルとして選択してもよい。これにより、本実施形態に係るモデル選択装置400によれば、KPI等の操業目標を最も高めることが可能な候補モデルを対象モデルとして選択することができる。
【0085】
また、本実施形態に係るモデル選択装置400は、複数の候補モデルのうち、複数の時点における指標の統計量が最も高くなる行動を出力した候補モデルを対象モデルとして選択してもよい。これにより、本実施形態に係るモデル選択装置400によれば、一時的に指標が最も高くなる行動を出力した候補モデルではなく、ある期間に亘って長期的に指標が最も高くなる行動を出力した候補モデルを対象モデルとして選択することができる。この際、統計量として平均値が用いられてもよい。これにより、本実施形態に係るモデル選択装置400によれば、長期的に安定して指標が高くなる行動を出力した候補モデルを対象モデルとして選択することができる。また、統計量として最小値が用いられてもよい。これにより、本実施形態に係るモデル選択装置400によれば、プラントの操業のようにミッションクリティカルな操業が求められる場合であっても、最適な候補モデルを対象モデルとして選択することができる。
【0086】
また、本実施形態に係るモデル選択装置400は、評価モデルが更新されたことに応じて対象モデルを再選択することもできる。これにより、本実施形態に係るモデル選択装置400によれば、操業目標が変更された場合であっても、新たな操業目標に照らして最適な候補モデルを対象モデルとして再選択することができる。
【0087】
また、本実施形態に係るモデル選択装置400は、予め定められた時間が経過したことに応じて対象モデルを再選択することもできる。これにより、本実施形態に係るモデル選択装置400によれば、以前に対象モデル選択した時点から設備10が経時変化した場合であっても、設備10の現状に照らして最適な候補モデルを対象モデルとして再選択することができる。
【0088】
また、本実施形態に係るモデル選択装置400は、対象モデルを出力したことに応じてユーザ入力を受け付けることもできる。これにより、本実施形態に係るモデル選択装置400によれば、対象モデルが出力された後に、ユーザが対象モデルの妥当性を判断した結果をフィードバックすることができる。そして、本実施形態に係るモデル選択装置400によれば、対象モデルが妥当でなかった場合に、対象モデルを再選択することができる。
【0089】
図7は、第1の変形例に係るモデル選択装置400のブロック図の一例を示す。図7においては、図1と同じ機能および構成を有する部材に対して同じ符号を付すとともに、以下相違点を除き説明を省略する。上述の実施形態においては、評価モデル管理装置200と、操業モデル管理装置300と、モデル選択装置400と、制御装置500とがそれぞれ独立した別々の装置として提供される場合を一例として示した。しかしながら、これら装置は、一部または全部が一体となった一つの装置として提供されてもよい。本変形例において、モデル選択装置400は、上述の実施形態に係るモデル選択装置400の機能に加えて、制御装置500の機能を提供する。
【0090】
本変形例に係るモデル選択装置400は、制御部530を更に備えてよい。すなわち、モデル選択装置400は、対象モデルを用いて制御対象15を制御する制御部530を更に備えてよい。
【0091】
また、本変形例において、対象モデル出力部460は、選択された対象モデルを制御装置500に代えて、制御部530へ出力してよい。そして、制御部530は、対象モデル出力部460が出力した対象モデルを取得してよい。
【0092】
また、本変形例において、状態データ取得部430は、AI制御中に取得した状態データを制御部530へ供給してよい。すなわち、本変形例において、状態データ取得部430は、実環境データ取得部520としても機能してよい。
【0093】
そして、制御部530は、対象モデルを用いて制御対象15を制御してよい。モデル選択装置400は、例えばこのようにして、制御装置500としての機能も提供してよい。
【0094】
このように、本変形例に係るモデル選択装置400は、対象モデルを用いて制御対象15を制御することもできる。これにより、本変形例に係るモデル選択装置400によれば、対象モデルを選択する機能と、選択された対象モデルを用いて制御対象15を制御する機能とを、一つの装置により実現することができる。また、本変形例に係るモデル選択装置400によれば、モデル選択装置400と制御装置500との間で対象モデルをやりとりする必要がないので、通信コストや時間を削減することができる。
【0095】
図8は、第2の変形例に係るモデル選択装置400のブロック図の一例を示す。図8においては、図1と同じ機能および構成を有する部材に対して同じ符号を付すとともに、以下相違点を除き説明を省略する。本変形例において、モデル選択装置400は、上述の実施形態に係るモデル選択装置400の機能に加えて、操業モデル管理装置300の機能を提供する。
【0096】
本変形例に係るモデル選択装置400は、評価モデル取得部310と、操業モデル生成部320とを更に備えてよい。すなわち、モデル選択装置400は、強化学習により、複数の候補モデルとなる複数の操業モデルを生成する操業モデル生成部を更に備えてよい。
【0097】
また、本変形例において、操業モデル生成部320は、生成した複数の操業モデルを候補モデル記憶部420へ供給してよい。そして、候補モデル記憶部420は、操業モデル生成部320から供給された複数の操業モデルを、複数の候補モデルとして記憶してよい。
【0098】
また、本変形例において、入力部470は、対象モデルを再選択する場合に、操業モデル生成部320による複数の操業モデルの生成をトリガしてよい。これにより、本変形例に係るモデル選択装置400は、複数の候補モデルとなる複数の操業モデルを新たに生成し、新たに生成された複数の候補モデルの中から対象モデルを再選択してもよい。モデル選択装置400は、例えばこのようにして、操業モデル管理装置300としての機能も提供してよい。
【0099】
このように、本変形例に係るモデル選択装置400は、複数の候補モデルとなる複数の操業モデルを、強化学習により自身で生成することもできる。これにより、本変形例に係るモデル選択装置400によれば、対象モデルを選択する候補となる複数の操業モデルを生成する機能と、対象モデルを選択する機能とを、一つの装置により実現することができる。また、本変形例に係るモデル選択装置400によれば、操業モデル管理装置300とモデル選択装置400との間で複数の操業モデルをやりとりする必要がないので、通信コストや時間を削減することができる。
【0100】
図9は、第3の変形例に係るモデル選択装置400のブロック図の一例を示す。図9においては、図1と同じ機能および構成を有する部材に対して同じ符号を付すとともに、以下相違点を除き説明を省略する。本変形例において、モデル選択装置400は、上述の実施形態に係るモデル選択装置400の機能に加えて、評価モデル管理装置200の機能を提供する。
【0101】
本変形例に係るモデル選択装置400は、評価モデル生成部210と、評価モデル記憶部220とを更に備える。すなわち、モデル選択装置400は、評価モデルを記憶する評価モデル記憶部220を更に備えてよい。また、モデル選択装置400は、機械学習により、評価モデルを生成する評価モデル生成部210を更に備えてよい。
【0102】
また、本変形例において、指標取得部440は、複数の状態データを、評価モデル記憶部220に記憶される評価モデルへそれぞれ入力し、当該評価モデルが出力する複数の指標をそれぞれ取得してよい。モデル選択装置400は、例えばこのようにして、評価モデル管理装置200としての機能も提供してよい。
【0103】
このように、本変形例に係るモデル選択装置400は、評価モデルを記憶することもできる。これにより、本変形例に係るモデル選択装置400によれば、複数の指標を取得するにあたり、評価モデル管理装置200との間で複数の状態データや複数の指標をやりとりする必要がないので、通信コストや時間を削減することができる。また、本変形例に係るモデル選択装置400は、評価モデルを機械学習により自身で生成することもできる。これにより、本変形例に係るモデル選択装置400によれば、評価モデルを生成する機能と、対象モデルを選択する機能とを、一つの装置により実現することができる。
【0104】
ここまで、実施し得る形態を例示して説明した。しかしながら、上述の実施形態は、様々な形で変更、または、応用されてよい。例えば、上述の変形例においては、モデル選択装置400が、制御装置500、操業モデル管理装置300、および、評価モデル管理装置200の機能を更に提供する場合を、別々の変形例として示した。しかしながら、これに限定されるものではない。モデル選択装置400は、制御装置500、操業モデル管理装置300、および、評価モデル管理装置200のうちの2つ以上の機能を更に提供してもよいし、全ての機能を更に提供してもよい。これにより、モデル選択装置400によれば、制御対象15を制御する全ての操業に係る機能を一つの装置により実現することもできる。
【0105】
また、上述の説明では、複数の状態データを取得するにあたり、モデル選択装置400が、複数の候補モデルの出力に基づくそれぞれの操作量を、実際の設備10における制御対象15へ与え、実際の設備10から複数の状態データを取得する場合を一例として示しが、これに限定されるものではない。モデル選択装置400は、複数の候補モデルの出力に基づくそれぞれの操作量を、シミュレーション環境における制御対象へ与え、シミュレータ100から複数の状態データを取得してもよい。これにより、モデル選択装置400は、対象モデルを選択するまでのフローを、実機を用いることなくシミュレーション環境で完結することもできる。
【0106】
本発明の様々な実施形態は、フローチャートおよびブロック図を参照して記載されてよく、ここにおいてブロックは、(1)操作が実行されるプロセスの段階または(2)操作を実行する役割を持つ装置のセクションを表わしてよい。特定の段階およびセクションが、専用回路、コンピュータ可読媒体上に格納されるコンピュータ可読命令と共に供給されるプログラマブル回路、および/またはコンピュータ可読媒体上に格納されるコンピュータ可読命令と共に供給されるプロセッサによって実装されてよい。専用回路は、デジタルおよび/またはアナログハードウェア回路を含んでよく、集積回路(IC)および/またはディスクリート回路を含んでよい。プログラマブル回路は、論理AND、論理OR、論理XOR、論理NAND、論理NOR、および他の論理操作、フリップフロップ、レジスタ、フィールドプログラマブルゲートアレイ(FPGA)、プログラマブルロジックアレイ(PLA)等のようなメモリ要素等を含む、再構成可能なハードウェア回路を含んでよい。
【0107】
コンピュータ可読媒体は、適切なデバイスによって実行される命令を格納可能な任意の有形なデバイスを含んでよく、その結果、そこに格納される命令を有するコンピュータ可読媒体は、フローチャートまたはブロック図で指定された操作を実行するための手段を作成すべく実行され得る命令を含む、製品を備えることになる。コンピュータ可読媒体の例としては、電子記憶媒体、磁気記憶媒体、光記憶媒体、電磁記憶媒体、半導体記憶媒体等が含まれてよい。コンピュータ可読媒体のより具体的な例としては、フロッピー(登録商標)ディスク、ディスケット、ハードディスク、ランダムアクセスメモリ(RAM)、リードオンリメモリ(ROM)、消去可能プログラマブルリードオンリメモリ(EPROMまたはフラッシュメモリ)、電気的消去可能プログラマブルリードオンリメモリ(EEPROM)、静的ランダムアクセスメモリ(SRAM)、コンパクトディスクリードオンリメモリ(CD-ROM)、デジタル多用途ディスク(DVD)、ブルーレイ(RTM)ディスク、メモリスティック、集積回路カード等が含まれてよい。
【0108】
コンピュータ可読命令は、アセンブラ命令、命令セットアーキテクチャ(ISA)命令、マシン命令、マシン依存命令、マイクロコード、ファームウェア命令、状態設定データ、またはSmalltalk(登録商標)、JAVA(登録商標)、C++等のようなオブジェクト指向プログラミング言語、および「C」プログラミング言語または同様のプログラミング言語のような従来の手続型プログラミング言語を含む、1または複数のプログラミング言語の任意の組み合わせで記述されたソースコードまたはオブジェクトコードのいずれかを含んでよい。
【0109】
コンピュータ可読命令は、汎用コンピュータ、特殊目的のコンピュータ、若しくは他のプログラム可能なデータ処理装置のプロセッサまたはプログラマブル回路に対し、ローカルにまたはローカルエリアネットワーク(LAN)、インターネット等のようなワイドエリアネットワーク(WAN)を介して提供され、フローチャートまたはブロック図で指定された操作を実行するための手段を作成すべく、コンピュータ可読命令を実行してよい。プロセッサの例としては、コンピュータプロセッサ、処理ユニット、マイクロプロセッサ、デジタル信号プロセッサ、コントローラ、マイクロコントローラ等を含む。
【0110】
図10は、本発明の複数の態様が全体的または部分的に具現化されてよいコンピュータ9900の例を示す。コンピュータ9900にインストールされたプログラムは、コンピュータ9900に、本発明の実施形態に係る装置に関連付けられる操作または当該装置の1または複数のセクションとして機能させることができ、または当該操作または当該1または複数のセクションを実行させることができ、および/またはコンピュータ9900に、本発明の実施形態に係るプロセスまたは当該プロセスの段階を実行させることができる。そのようなプログラムは、コンピュータ9900に、本明細書に記載のフローチャートおよびブロック図のブロックのうちのいくつかまたはすべてに関連付けられた特定の操作を実行させるべく、CPU9912によって実行されてよい。
【0111】
本実施形態によるコンピュータ9900は、CPU9912、RAM9914、グラフィックコントローラ9916、およびディスプレイデバイス9918を含み、それらはホストコントローラ9910によって相互に接続されている。コンピュータ9900はまた、通信インターフェイス9922、ハードディスクドライブ9924、DVDドライブ9926、およびICカードドライブのような入/出力ユニットを含み、それらは入/出力コントローラ9920を介してホストコントローラ9910に接続されている。コンピュータはまた、ROM9930およびキーボード9942のようなレガシの入/出力ユニットを含み、それらは入/出力チップ9940を介して入/出力コントローラ9920に接続されている。
【0112】
CPU9912は、ROM9930およびRAM9914内に格納されたプログラムに従い動作し、それにより各ユニットを制御する。グラフィックコントローラ9916は、RAM9914内に提供されるフレームバッファ等またはそれ自体の中にCPU9912によって生成されたイメージデータを取得し、イメージデータがディスプレイデバイス9918上に表示されるようにする。
【0113】
通信インターフェイス9922は、ネットワークを介して他の電子デバイスと通信する。ハードディスクドライブ9924は、コンピュータ9900内のCPU9912によって使用されるプログラムおよびデータを格納する。DVDドライブ9926は、プログラムまたはデータをDVD-ROM9901から読み取り、ハードディスクドライブ9924にRAM9914を介してプログラムまたはデータを提供する。ICカードドライブは、プログラムおよびデータをICカードから読み取り、および/またはプログラムおよびデータをICカードに書き込む。
【0114】
ROM9930はその中に、アクティブ化時にコンピュータ9900によって実行されるブートプログラム等、および/またはコンピュータ9900のハードウェアに依存するプログラムを格納する。入/出力チップ9940はまた、様々な入/出力ユニットをパラレルポート、シリアルポート、キーボードポート、マウスポート等を介して、入/出力コントローラ9920に接続してよい。
【0115】
プログラムが、DVD-ROM9901またはICカードのようなコンピュータ可読媒体によって提供される。プログラムは、コンピュータ可読媒体から読み取られ、コンピュータ可読媒体の例でもあるハードディスクドライブ9924、RAM9914、またはROM9930にインストールされ、CPU9912によって実行される。これらのプログラム内に記述される情報処理は、コンピュータ9900に読み取られ、プログラムと、上記様々なタイプのハードウェアリソースとの間の連携をもたらす。装置または方法が、コンピュータ9900の使用に従い情報の操作または処理を実現することによって構成されてよい。
【0116】
例えば、通信がコンピュータ9900および外部デバイス間で実行される場合、CPU9912は、RAM9914にロードされた通信プログラムを実行し、通信プログラムに記述された処理に基づいて、通信インターフェイス9922に対し、通信処理を命令してよい。通信インターフェイス9922は、CPU9912の制御下、RAM9914、ハードディスクドライブ9924、DVD-ROM9901、またはICカードのような記録媒体内に提供される送信バッファ処理領域に格納された送信データを読み取り、読み取られた送信データをネットワークに送信し、またはネットワークから受信された受信データを記録媒体上に提供される受信バッファ処理領域等に書き込む。
【0117】
また、CPU9912は、ハードディスクドライブ9924、DVDドライブ9926(DVD-ROM9901)、ICカード等のような外部記録媒体に格納されたファイルまたはデータベースの全部または必要な部分がRAM9914に読み取られるようにし、RAM9914上のデータに対し様々なタイプの処理を実行してよい。CPU9912は次に、処理されたデータを外部記録媒体にライトバックする。
【0118】
様々なタイプのプログラム、データ、テーブル、およびデータベースのような様々なタイプの情報が記録媒体に格納され、情報処理を受けてよい。CPU9912は、RAM9914から読み取られたデータに対し、本開示の随所に記載され、プログラムの命令シーケンスによって指定される様々なタイプの操作、情報処理、条件判断、条件分岐、無条件分岐、情報の検索/置換等を含む、様々なタイプの処理を実行してよく、結果をRAM9914に対しライトバックする。また、CPU9912は、記録媒体内のファイル、データベース等における情報を検索してよい。例えば、各々が第2の属性の属性値に関連付けられた第1の属性の属性値を有する複数のエントリが記録媒体内に格納される場合、CPU9912は、第1の属性の属性値が指定される、条件に一致するエントリを当該複数のエントリの中から検索し、当該エントリ内に格納された第2の属性の属性値を読み取り、それにより予め定められた条件を満たす第1の属性に関連付けられた第2の属性の属性値を取得してよい。
【0119】
上で説明したプログラムまたはソフトウェアモジュールは、コンピュータ9900上またはコンピュータ9900近傍のコンピュータ可読媒体に格納されてよい。また、専用通信ネットワークまたはインターネットに接続されたサーバーシステム内に提供されるハードディスクまたはRAMのような記録媒体が、コンピュータ可読媒体として使用可能であり、それによりプログラムを、ネットワークを介してコンピュータ9900に提供する。
【0120】
以上、本発明を実施の形態を用いて説明したが、本発明の技術的範囲は上記実施の形態に記載の範囲には限定されない。上記実施の形態に、多様な変更または改良を加えることが可能であることが当業者に明らかである。その様な変更または改良を加えた形態も本発明の技術的範囲に含まれ得ることが、特許請求の範囲の記載から明らかである。
【0121】
特許請求の範囲、明細書、および図面中において示した装置、システム、プログラム、および方法における動作、手順、ステップ、および段階等の各処理の実行順序は、特段「より前に」、「先立って」等と明示しておらず、また、前の処理の出力を後の処理で用いるのでない限り、任意の順序で実現しうることに留意すべきである。特許請求の範囲、明細書、および図面中の動作フローに関して、便宜上「まず、」、「次に、」等を用いて説明したとしても、この順で実施することが必須であることを意味するものではない。
【符号の説明】
【0122】
1 制御システム
10 設備
15 制御対象
100 シミュレータ
200 評価モデル管理装置
210 評価モデル生成部
220 評価モデル記憶部
230 評価モデル出力部
300 操業モデル管理装置
310 評価モデル取得部
320 操業モデル生成部
330 操業モデル記憶部
340 操業モデル出力部
400 モデル選択装置
410 候補モデル取得部
420 候補モデル記憶部
430 状態データ取得部
440 指標取得部
450 モデル選択部
460 対象モデル出力部
470 入力部
500 制御装置
510 対象モデル取得部
520 実環境データ取得部
530 制御部
9900 コンピュータ
9901 DVD-ROM
9910 ホストコントローラ
9912 CPU
9914 RAM
9916 グラフィックコントローラ
9918 ディスプレイデバイス
9920 入/出力コントローラ
9922 通信インターフェイス
9924 ハードディスクドライブ
9926 DVDドライブ
9930 ROM
9940 入/出力チップ
9942 キーボード
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10