特許7090243 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 千代田化工建設株式会社の特許一覧 ▶ 株式会社グリッドの特許一覧

特許7090243プラント運転条件設定支援システム、学習装置、及び運転条件設定支援装置

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】

(24)【登録日】2022-06-16

(45)【発行日】2022-06-24

(54)【発明の名称】プラント運転条件設定支援システム、学習装置、及び運転条件設定支援装置

(51)【国際特許分類】

G05B 13/02 20060101AFI20220617BHJP

【ＦＩ】

G05B13/02 A

G05B13/02 L

【請求項の数】 12

(21)【出願番号】P 2018089972

(22)【出願日】2018-05-08

(65)【公開番号】P2019197315

(43)【公開日】2019-11-14

【審査請求日】2021-01-12

(73)【特許権者】

【識別番号】000003285

【氏名又は名称】千代田化工建設株式会社

(73)【特許権者】

【識別番号】510080727

【氏名又は名称】株式会社グリッド

(74)【代理人】

【識別番号】100109081

【弁理士】

【氏名又は名称】三木友由

(72)【発明者】

【氏名】安井威公

(72)【発明者】

【氏名】井川玄

(72)【発明者】

【氏名】土岐明史

(72)【発明者】

【氏名】曽我部完

(72)【発明者】

【氏名】諏訪佑介

【審査官】今井貞雄

(56)【参考文献】

【文献】特開２０１４－１７８８５３（ＪＰ，Ａ）

【文献】特開２０１７－０３４８４４（ＪＰ，Ａ）

【文献】特開２００４－１７８４９２（ＪＰ，Ａ）

【文献】特表２００７－５１０１８７（ＪＰ，Ａ）

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｇ０５Ｂ１３／０２

(57)【特許請求の範囲】

【請求項1】

それぞれ独立してフィードバック制御される複数の装置により構成され、それぞれのフィードバック制御による影響が相互に干渉しうるプロセスを実行するプラントの運転条件の設定を支援するためのプラント運転条件設定支援システムであって、
前記複数の装置のうちの１以上の制御対象装置をそれぞれフィードバック制御する複数の制御装置と、
複数のフィードバック制御をそれぞれ独立して行う前記複数の制御装置の設定を統括的に支援する運転条件設定支援装置と、
を備え、
前記複数の制御装置は、それぞれ、
制御対象装置の状態を示す計測値を取得する計測値取得部と、
制御対象装置へ入力する制御操作量を決定するための制御装置調整パラメータを取得する制御装置調整パラメータ取得部と、
前記計測値取得部により取得された計測値と、前記制御装置調整パラメータ取得部により取得された制御装置調整パラメータに基づいて、前記制御操作量を決定する制御操作量決定部と、
前記制御操作量決定部により決定された制御操作量を制御対象装置へ入力する制御操作量入力部と、
を備え、
前記運転条件設定支援装置は、
前記複数の制御装置によりそれぞれ制御される複数の制御対象装置の状態を示す複数の計測値を取得する複数計測値取得部と、
深層強化学習により獲得された方策により、前記複数計測値取得部により取得された複数の計測値に基づいて、前記複数の制御装置のそれぞれが前記複数の制御対象装置に入力すべき制御操作量を決定するために使用する複数の制御装置調整パラメータを決定する制御装置調整パラメータ決定部と、
を備えることを特徴とするプラント運転条件設定支援システム。

【請求項2】

前記制御装置調整パラメータ決定部は、前記プラントが運転されるときの前記制御対象装置の計測値、制御目標値、及び制御操作量と、それらを評価して安定度指数として数値化した報酬値と、前記制御操作量が決定されるときに使用される制御装置調整パラメータとに基づいた、前記複数の制御装置調整パラメータを決定するための方策を獲得するための深層強化学習によって獲得された方策により、前記複数の制御装置調整パラメータを決定することを特徴とする請求項１に記載のプラント運転条件設定支援システム。

【請求項3】

前記深層強化学習を実行する学習装置を更に備え、
前記学習装置は、
前記複数の制御対象装置の状態を示す複数の計測値を取得し、前記複数の制御装置がそれぞれ使用する複数の制御装置調整パラメータを出力する行動決定部と、
前記行動決定部により出力された制御装置調整パラメータを使用して前記複数の制御装置が前記複数の制御対象装置を制御したときの前記複数の制御対象装置の状態を示す複数の計測値と、使用された制御装置調整パラメータとの対の価値を算出するための価値関数部と、
を備え、
前記複数の制御対象装置が前記複数の計測値により示される状態にあるときに、前記制御装置調整パラメータ決定部により前記制御対象装置に入力される制御装置調整パラメータが決定され、決定された制御装置調整パラメータを使用して前記複数の制御装置が決定した制御操作量が前記複数の制御対象装置に入力されて前記複数の制御対象装置の状態が更新され、その後も最適な制御装置調整パラメータが選択され続けた場合に得られるであろう報酬値の期待値と、前記価値関数部により算出される価値との誤差が小さくなるように、前記価値関数部が学習される
ことを特徴とする請求項２に記載のプラント運転条件設定支援システム。

【請求項4】

前記報酬値は、前記プロセスの状態の良否を前記安定度指数として数値化したものであることを特徴とする請求項２又は３に記載のプラント運転条件設定支援システム。

【請求項5】

前記報酬値は、前記複数の計測値と前記制御目標値との差が小さいこと、前記複数の計測値が振動していないこと、又は前記複数の計測値が安定化するまでの所要時間が短いことを基準として、前記プロセスの状態の良否を前記安定度指数として数値化したものであることを特徴とする請求項２から４のいずれかに記載のプラント運転条件設定支援システム。

【請求項6】

前記制御装置調整パラメータ決定部は、前記プラントの運転が起動又は停止されたときの前記計測値及び制御操作量と前記制御装置調整パラメータとを使用した深層強化学習によって獲得された方策により、前記プラントの運転を起動又は停止するときの前記複数の制御装置調整パラメータを決定することを特徴とする請求項２から５のいずれかに記載のプラント運転条件設定支援システム。

【請求項7】

前記制御装置調整パラメータ決定部は、前記プラントの運転中に外乱が発生したとき又は運転条件が変更されたときの前記計測値及び制御操作量と前記制御装置調整パラメータとを使用した深層強化学習によって獲得された方策により、前記プラントの運転中に外乱が発生したとき又は運転条件が変更されるときの前記複数の制御装置調整パラメータを決定することを特徴とする請求項２から６のいずれかに記載のプラント運転条件設定支援システム。

【請求項8】

前記運転条件設定支援装置は、前記深層強化学習により獲得された方策に基づいて、前記制御装置が自動的に制御操作量を制御対象装置へ入力する自動モードと、前記制御装置がオペレータから制御操作量の指示を受け付けて制御対象装置へ入力する手動モードのいずれのモードで制御すべきかを前記制御装置に指示するモード切替部を更に備えることを特徴とする請求項２から７のいずれかに記載のプラント運転条件設定支援システム。

【請求項9】

前記運転条件設定支援装置は、前記制御装置調整パラメータ決定部により決定された複数の制御装置調整パラメータを、それぞれの制御装置へ通知し、
前記制御装置は、前記運転条件設定支援装置から通知された制御装置調整パラメータを前記制御装置調整パラメータ取得部により取得することを特徴とする請求項１から８のいずれかに記載のプラント運転条件設定支援システム。

【請求項10】

前記運転条件設定支援装置は、前記制御装置調整パラメータ決定部により決定された複数の制御装置調整パラメータを、オペレータに提示し、
前記制御装置は、前記オペレータにより入力された制御装置調整パラメータを前記制御装置調整パラメータ取得部により取得することを特徴とする請求項１から９のいずれかに記載のプラント運転条件設定支援システム。

【請求項11】

それぞれ独立してフィードバック制御される複数の装置により構成され、それぞれのフィードバック制御による影響が相互に干渉しうるプロセスを構成する複数の装置のうちの１以上の制御対象装置をそれぞれフィードバック制御する複数の制御装置の設定を統括的に支援する運転条件設定支援装置において、
前記複数の制御装置によりそれぞれ制御される複数の制御対象装置の状態を示す複数の計測値を取得する複数計測値取得部と、
深層強化学習により獲得された方策により、前記複数計測値取得部により取得された複数の計測値に基づいて、前記複数の制御装置のそれぞれが前記複数の制御対象装置に入力すべき制御操作量を決定するために使用する複数の制御装置調整パラメータを決定する制御装置調整パラメータ決定部と、
を備えることを特徴とする運転条件設定支援装置。

【請求項12】

それぞれ独立してフィードバック制御される複数の装置により構成され、それぞれのフィードバック制御による影響が相互に干渉しうるプロセスを構成する複数の制御対象装置の状態を示す複数の計測値を取得し、前記複数の制御対象装置をそれぞれ自動フィードバック制御する複数の制御装置がそれぞれ使用する複数の制御装置調整パラメータを出力する行動決定部と、
前記行動決定部により出力された制御装置調整パラメータを使用して前記複数の制御装置が前記複数の制御対象装置を制御したときの前記複数の制御対象装置の状態を示す複数の計測値と、使用された制御装置調整パラメータとの対の価値を算出するための価値関数部と、
を備え、
前記複数の制御対象装置が前記複数の計測値により示される状態にあるときに、前記制御対象装置に入力される制御装置調整パラメータが決定され、決定された制御装置調整パラメータを使用して前記複数の制御装置が決定した制御操作量が前記複数の制御対象装置に入力されて前記複数の制御対象装置の状態が更新され、その後も最適な制御装置調整パラメータが選択され続けた場合に得られるであろう報酬値の期待値と、前記価値関数部により算出される価値との誤差が小さくなるように、前記価値関数部が学習される
ことを特徴とする学習装置。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、プラントの運転条件の設定を支援するためのプラント運転条件設定支援システム、及びそのプラント運転条件設定支援システムに利用可能な学習装置及び運転条件設定支援装置に関する。

【背景技術】

【0002】

化学製品や工業製品などを生産するためのプラントにおいては、反応器や加熱炉などの多数の装置により一連のプロセスが実行されており、多数の装置のそれぞれを制御するための多数の操作量によりプロセス状態が変化する。多段階のプロセスが実行されるプラントにおいては、多数の操作量が複雑に相互作用しうるため、操作量の変更による影響を予測することは容易ではなく、熟練したオペレータにより、操作量を決定するための制御装置調整パラメータが設定されてプラントが運転されている。

【0003】

このような相互干渉しうる複数の制御系を含むプラントを制御する技術として、例えば、特許文献１及び特許文献２に記載された技術が提案されている。

【0004】

特許文献１には、３系列以上の制御ループの間に各制御ループ間の相互干渉を打ち消す非干渉要素を備える技術が開示されている。この非干渉要素は、各制御ループの伝達関数および他の制御ループから干渉してくる干渉要素の伝達関数をむだ時間を含んだ一次遅れ系の応答形に近似して算出したものである。

【0005】

特許文献２には、操作弁の弁開度と、その弁開度に応じて変化するプロセスの状態を表す変数との関係を、定常状態での方程式で構築し、当該方程式により操作弁ごとに導出した解析解式に基づいて、操作弁の目標の弁開度であるＣＶ値を算出し、検知した値に応じた操作弁の現状の弁開度であるＣＶ値を算出するとともに、２つのＣＶ値の偏差ｅを算出し、偏差ｅに基づいてプロセスの状態をフィードバック制御する技術が開示されている。

【先行技術文献】

【特許文献】

【0006】

【文献】特開２００７－１１８６６号公報

【文献】特開２０１０－９７２５４号公報

【発明の概要】

【発明が解決しようとする課題】

【0007】

複数の制御系のそれぞれにおけるプロセス値の挙動を数学的に精度良く近似するのは困難である上、複雑に相互作用しうる複数の制御系に予測不可能な外乱が発生したときのプラント値の挙動を、それらの数学的な近似表現から精度良く予測するのは、更に困難である。プラントの挙動を不安定化しうる外乱が発生した場合であっても、プラントを安定的に運転することを可能とする技術が求められる。

【0008】

本発明は、こうした状況を鑑みてなされたものであり、その目的は、プラントの安定的な運転を実現する技術を提供することにある。

【課題を解決するための手段】

【0009】

上記課題を解決するために、本発明のある態様のプラント運転条件設定支援システムは、複数の装置により構成されるプロセスを実行するプラントの運転条件の設定を支援するためのプラント運転条件設定支援システムであって、複数の装置のうちの１以上の制御対象装置をそれぞれフィードバック制御する複数の制御装置と、複数のフィードバック制御をそれぞれ独立して行う複数の制御装置の設定を統括的に支援する運転条件設定支援装置と、を備える。複数の制御装置は、それぞれ、制御対象装置の状態を示す計測値を取得する計測値取得部と、制御対象装置へ入力する制御操作量を決定するための制御装置調整パラメータを取得する制御装置調整パラメータ取得部と、計測値取得部により取得された計測値と、制御装置調整パラメータ取得部により取得された制御装置調整パラメータに基づいて、制御操作量を決定する制御操作量決定部と、制御操作量決定部により決定された制御操作量を制御対象装置へ入力する制御操作量入力部と、を備える。運転条件設定支援装置は、複数の制御装置によりそれぞれ制御される複数の制御対象装置の状態を示す複数の計測値を取得する複数計測値取得部と、深層強化学習により獲得された方策により、複数計測値取得部により取得された複数の計測値に基づいて、複数の制御装置のそれぞれが複数の制御対象装置に入力すべき制御操作量を決定するために使用する複数の制御装置調整パラメータを決定する制御装置調整パラメータ決定部と、を備える。

【0010】

制御装置調整パラメータ決定部は、プラントが運転されるときの制御対象装置の計測値、制御目標値、及び制御操作量と、それらを評価して安定度指数として数値化した報酬値と、制御操作量が決定されるときに使用される制御装置調整パラメータとに基づいた、複数の制御装置調整パラメータを決定するための方策を獲得するための深層強化学習によって獲得された方策により、複数の制御装置調整パラメータを決定してもよい。

【0011】

深層強化学習を実行する学習装置を更に備えてもよい。学習装置は、複数の制御対象装置の状態を示す複数の計測値を取得し、複数の制御装置がそれぞれ使用する複数の制御装置調整パラメータを出力する行動決定部と、行動決定部により出力された制御装置調整パラメータを使用して複数の制御装置が複数の制御対象装置を制御したときの複数の制御対象装置の状態を示す複数の計測値と、使用された制御装置調整パラメータとの対の価値を算出するための価値関数部と、を備えてもよい。複数の制御対象装置が複数の計測値により示される状態にあるときに、制御装置調整パラメータ決定部により制御対象装置に入力される制御装置調整パラメータが決定され、決定された制御装置調整パラメータを使用して複数の制御装置が決定した制御操作量が複数の制御対象装置に入力されて複数の制御対象装置の状態が更新され、その後も最適な制御装置調整パラメータが選択され続けた場合に得られるであろう報酬値の期待値と、価値関数部により算出される価値との誤差が小さくなるように、価値関数部が学習されてもよい。

【0012】

報酬値は、プロセスの状態の良否を安定度指数として数値化したものであってもよい。

【0013】

報酬値は、複数の計測値と制御目標値との差が小さいこと、複数の計測値が振動していないこと、又は複数の計測値が安定化するまでの所要時間が短いことを基準として、プロセスの状態の良否を安定度指数として数値化したものであってもよい。

【0014】

制御装置調整パラメータ決定部は、プラントの運転が起動又は停止されたときの計測値及び制御操作量と制御装置調整パラメータとを使用した深層強化学習によって獲得された方策により、プラントの運転を起動又は停止するときの複数の制御装置調整パラメータを決定してもよい。

【0015】

制御装置調整パラメータ決定部は、プラントの運転中に外乱が発生したとき又は運転条件が変更されたときの計測値及び制御操作量と制御装置調整パラメータとを使用した深層強化学習によって獲得された方策により、プラントの運転中に外乱が発生したとき又は運転条件が変更されるときの複数の制御装置調整パラメータを決定してもよい。

【0016】

運転条件設定支援装置は、深層強化学習により獲得された方策に基づいて、制御装置が自動的に制御操作量を制御対象装置へ入力する自動モードと、制御装置がオペレータから制御操作量の指示を受け付けて制御対象装置へ入力する手動モードのいずれのモードで制御すべきかを制御装置に指示するモード切替部を更に備えてもよい。

【0017】

運転条件設定支援装置は、制御装置調整パラメータ決定部により決定された複数の制御装置調整パラメータを、それぞれの制御装置へ通知し、制御装置は、運転条件設定支援装置から通知された制御装置調整パラメータを制御装置調整パラメータ取得部により取得してもよい。

【0018】

運転条件設定支援装置は、制御装置調整パラメータ決定部により決定された複数の制御装置調整パラメータを、オペレータに提示し、制御装置は、オペレータにより入力された制御装置調整パラメータを制御装置調整パラメータ取得部により取得してもよい。

【0019】

本発明の別の態様は、運転条件設定支援装置である。この装置は、プラントにおいて実行されるプロセスを構成する複数の装置のうちの１以上の制御対象装置をそれぞれフィードバック制御する複数の制御装置の設定を統括的に支援する運転条件設定支援装置において、複数の制御装置によりそれぞれ制御される複数の制御対象装置の状態を示す複数の計測値を取得する複数計測値取得部と、深層強化学習により獲得された方策により、複数計測値取得部により取得された複数の計測値に基づいて、複数の制御装置のそれぞれが複数の制御対象装置に入力すべき制御操作量を決定するために使用する複数の制御装置調整パラメータを決定する制御装置調整パラメータ決定部と、を備える。

【0020】

本発明のさらに別の態様は、学習装置である。この装置は、プラントにおいて実行されるプロセスを構成する複数の制御対象装置の状態を示す複数の計測値を取得し、複数の制御対象装置をそれぞれ自動フィードバック制御する複数の制御装置がそれぞれ使用する複数の制御装置調整パラメータを出力する行動決定部と、行動決定部により出力された制御装置調整パラメータを使用して複数の制御装置が複数の制御対象装置を制御したときの複数の制御対象装置の状態を示す複数の計測値と、使用された制御装置調整パラメータとの対の価値を算出するための価値関数部と、を備える。複数の制御対象装置が複数の計測値により示される状態にあるときに、制御対象装置に入力される制御装置調整パラメータが決定され、決定された制御装置調整パラメータを使用して複数の制御装置が決定した制御操作量が複数の制御対象装置に入力されて複数の制御対象装置の状態が更新され、その後も最適な制御装置調整パラメータが選択され続けた場合に得られるであろう報酬値の期待値と、価値関数部により算出される価値との誤差が小さくなるように、価値関数部が学習される。

【0021】

なお、以上の構成要素の任意の組合せ、本発明の表現を方法、装置、システム、記録媒体、コンピュータプログラムなどの間で変換したものもまた、本発明の態様として有効である。

【発明の効果】

【0022】

本発明によれば、プラントの安定的な運転を実現する技術を提供することができる。

【図面の簡単な説明】

【0023】

【図1】実施の形態に係るプラント運転条件設定支援システムの全体構成を示す図である。

【図2】制御対象プロセスの一例であるコンプレッサーシステムの構成例を示す図である。

【図3】従来のプラントにおける制御方法を模式的に示す図である。

【図4】実施の形態に係る運転条件設定支援装置の構成を模式的に示す図である。

【図5】実施の形態に係る運転条件設定装置及び制御装置の構成を示す図である。

【図6】実施の形態に係る学習装置の構成を模式的に示す図である。

【図7】実施の形態に係る学習装置の構成を示す図である。

【図8】操作パネルの表示装置に表示される表示画面の例を示す図である。

【発明を実施するための形態】

【0024】

図１は、実施の形態に係るプラント運転条件設定支援システムの全体構成を示す。プラント３の運転条件の設定を支援するためのプラント運転条件設定支援システム１は、化学製品や工業製品などを生産するためのプラント３と、プラント３の運転条件の設定のために使用される複数の制御装置調整パラメータを決定するための方策を獲得するための深層強化学習を実行する学習装置２とを備える。プラント３は、プラント３において実行されるプロセスを構成する制御対象装置１０と、１以上の制御対象装置１０をそれぞれフィードバック制御する複数の制御装置２０と、複数のフィードバック制御をそれぞれ独立して行う複数の制御装置２０の設定を統括的に支援する運転条件設定支援装置３０とを備える。運転条件設定支援装置３０は、学習装置２において実行される深層強化学習によって獲得された方策により、複数の制御装置２０が複数の制御対象装置１０に入力する制御操作量を決定するためにそれぞれ使用する複数の制御装置調整パラメータを決定する。

【0025】

図２は、制御対象プロセスの一例であるコンプレッサーシステムの構成例を示す。本図に示したコンプレッサーシステムは、プロセスを構成する複数の制御対象装置１０として、プロパン冷媒により冷却対象を冷却するための熱交換器、熱交換器において蒸発したプロパンガスを圧縮するプロパンコンプレッサーなどを含み、複数の制御対象装置１０をそれぞれ独立して自動制御する制御装置２０として、液面コントローラＬＣ、圧力コントローラＰＣ、回転数コントローラＳＣ、アンチサージコントローラＡＳＣなどのＰＩＤコントローラを含む。

【0026】

液面コントローラＬＣは、熱交換器におけるプロパン冷媒の液面レベルを一定に保つために、プロパン冷媒の液面レベルに応じてプロパン冷媒の供給バルブの開度を制御する。圧力コントローラＰＣは、プロパンコンプレッサーに導入されるプロパンガスの圧力を一定に保つために、熱交換器から蒸発したプロパンガスの圧力に応じて回転数コントローラＳＣを制御する。回転数コントローラＳＣは、圧力コントローラＰＣからの指令を受けて、プロパンコンプレッサーに導入されるプロパンガスの圧力を調整するためのガスタービンＧＴの回転数を制御する。アンチサージコントローラＡＳＣは、プロパンコンプレッサーにおけるサージングの発生を抑制するために、プロパンコンプレッサーの出口におけるプロパンガスの圧力に応じてアンチサージバルブの開度を制御する。これらのＰＩＤコントローラのうち、回転数コントローラＳＣは、圧力コントローラＰＣからの指令を受けて動作するが、それ以外の３個のＰＩＤコントローラは、それぞれ独立して制御対象装置１０を自動制御する。

【0027】

このコンプレッサーシステムにおいて、外乱などに起因して冷却対象の量が急激に減少すると、冷熱消費量が減少するので熱交換器におけるプロパンの蒸発量が減少し、プロパン冷媒の液面レベルが上昇する。このとき、液面コントローラＬＣは、バルブの開度を減少させ、プロパン冷媒の流入量を減少させて、プロパン冷媒の液面を一定に保つ。プロパンの蒸発量が減少すると、圧力コントローラＰＣに入力される圧力の計測値が減少するので、圧力コントローラＰＣが回転数コントローラＳＣにガスタービンＧＴの回転数の減少を指示する。

【0028】

ところが、ガスタービンＧＴの回転数が減少されたことにより、プロパンコンプレッサーに導入されるプロパンガスの圧力が減少すると、アンチサージコントローラＡＳＣに入力される圧力の計測値が減少するので、アンチサージコントローラＡＳＣが、プロパンコンプレッサーにおけるサージングの発生を回避するために、アンチサージバルブの開度を増加させる。これにより、圧力コントローラＰＣに入力される圧力の計測値が増加するので、圧力コントローラＰＣが回転数コントローラＳＣにガスタービンＧＴの回転数の増加を指示する。

【0029】

ガスタービンＧＴの回転数が増加されたことにより、プロパンコンプレッサーに導入されるプロパンガスの圧力が増加すると、アンチサージコントローラＡＳＣに入力される圧力の計測値が増加するので、アンチサージコントローラＡＳＣは、アンチサージバルブの開度を減少させる。これにより、圧力コントローラＰＣに入力される圧力の計測値が減少するので、再び圧力コントローラＰＣが回転数コントローラＳＣにガスタービンＧＴの回転数の減少を指示する。

【0030】

このように、複数の制御装置２０によりそれぞれ独立して自動フィードバック制御される複数の制御系を含むプロセスにおいて、それぞれの自動フィードバック制御による影響が相互に干渉しうる場合には、逆方向の制御が周期的に繰り返されてハンチングを生じるなど、挙動が不安定になる可能性がある。このような場合であっても、それぞれのＰＩＤコントローラに適切なＰＩＤパラメータが設定されていれば、いずれ安定した動作に収束することが期待されるが、振動の契機となった外乱や運転条件変更による変化が多大又は急激であった場合などには、安定した動作に収束するまでに長い時間を要したり、ハンチングが残ったりする場合がありうる。

【0031】

図３は、従来のプラントにおける制御方法を模式的に示す。プラントにおいて実行されるプロセス１２は、複数の制御対象装置１０ａ、１０ｂ、・・・、１０ｎにより構成され、複数の制御対象装置１０ａ、１０ｂ、・・・、１０ｎは、それぞれ制御装置２０ａ、２０ｂ、・・・、２０ｎにより制御される。図２に示した例で言うと、複数の制御対象装置１０ａ、１０ｂ、・・・、１０ｎは、熱交換器、プロパンコンプレッサーなどであり、複数の制御装置２０ａ、２０ｂ、・・・、２０ｎは、液面コントローラＬＣ、圧力コントローラＰＣ、回転数コントローラＳＣ、アンチサージコントローラＡＳＣなどである。

【0032】

従来のプラントにおいては、複数の制御装置２０がＰＩＤ制御のために使用する、比例ゲイン（Ｐゲイン）、積分ゲイン（Ｉゲイン）、微分ゲイン（Ｄゲイン）の３種類の制御装置調整パラメータ（以下、「ＰＩＤパラメータ」ともいう）は、それらを変更することによる影響を予測することが困難であったため、ほとんど変更されることがなく、変更が必要である場合には、オペレータによりそれぞれの制御装置２０に入力されていた。したがって、外乱などに起因してプロセス１２の状態が不安定になった場合には、オペレータが適切なＰＩＤパラメータをそれぞれの制御装置２０に入力することにより、相互干渉する複数の制御装置２０ａ、２０ｂ、・・・、２０ｎの自動制御を安定化させる必要があり、安定な運転に収束するまでに要する時間は、オペレータの経験と技能に依存していた。

【0033】

図４は、実施の形態に係る運転条件設定支援装置の構成を模式的に示す。運転条件設定支援装置３０は、後述するように、学習装置２における深層強化学習により獲得された方策にしたがって、複数の制御装置２０に入力すべきＰＩＤパラメータを決定する。この方策は、複数の制御対象装置１０の状態を示す複数の計測値、複数の制御対象装置１０の制御対象値の目標値、及び複数の制御対象装置１０に入力されている複数の制御操作量の値から、ＰＩＤパラメータとして設定可能な複数の値の組合せにおける価値を算出する行動価値関数に基づいて、価値を最大とするＰＩＤパラメータを決定するものである。行動価値関数は、プロセス全体を安定的に制御しながら制御対象値を迅速に目標値に近づけることを可能とするＰＩＤパラメータに対して高い価値を算出するように、学習装置２により学習される。別の例では、ＰＩＤパラメータを決定するために使用される行動価値関数は、ＰＩＤパラメータとして設定可能な複数の値の組合せの価値を算出するために、計測値、制御対象値の目標値、制御操作量の値に加えて、又は、それらのうちのいずれかに代えて、他のパラメータの値を使用してもよい。例えば、現在又は過去のＰＩＤパラメータの値や、外乱因子を表すパラメータの値などが使用されてもよいし、上記のいずれかのパラメータの絶対値に加えて、又は絶対値に代えて、それらのパラメータの変化率又は変化量が使用されてもよい。

【0034】

運転条件設定支援装置３０により決定された複数のＰＩＤパラメータがオペレータに提示され、オペレータが提示された複数のＰＩＤパラメータを参照して制御装置２０にＰＩＤパラメータを入力してもよいし、運転条件設定支援装置３０から直接制御装置２０にＰＩＤパラメータが入力されてもよい。これにより、オペレータの労力を大幅に低減させることができるとともに、オペレータの経験や技能によらずプラント３を安定的に運転することができる。

【0035】

図５は、実施の形態に係る運転条件設定装置及び制御装置の構成を示す。制御装置２０は、制御部２１及び操作パネル２２を備える。

【0036】

操作パネル２２は、プラント３を構成する複数の制御対象装置１０の状態を示す複数の計測値と、制御装置２０により制御対象装置１０に設定された制御操作量の設定値と、制御装置２０に設定されたＰＩＤパラメータの値と、プラント３の運転結果を示す出力の計測値を表示装置に表示するとともに、ＰＩＤパラメータの値の入力をオペレータから受け付ける。

【0037】

制御装置２０は、計測値取得部２３、目標値取得部２４、ＰＩＤパラメータ取得部２５、制御操作量決定部２６、制御操作量入力部２７を備える。これらの構成は、ハードウエアコンポーネントでいえば、任意のコンピュータのＣＰＵ、メモリ、メモリにロードされたプログラムなどによって実現されるが、ここではそれらの連携によって実現される機能ブロックを描いている。したがって、これらの機能ブロックがハードウエアのみ、ソフトウエアのみ、またはそれらの組合せによっていろいろな形で実現できることは、当業者には理解されるところである。

【0038】

計測値取得部２３は、制御対象装置１０の状態を示す計測値を取得する。目標値取得部２４は、制御対象装置１０の制御対象値の目標値が可変である場合に、その目標値を取得する。例えば、図２に示した例において、熱交換器におけるプロパン冷媒の液面レベルの目標値は所定値に固定されているが、ガスタービンの回転数の目標値は圧力コントローラＬＣにより可変に制御されるので、目標値取得部２４は、圧力コントローラＬＣからガスタービンの回転数の目標値を取得する。

【0039】

ＰＩＤパラメータ取得部２５は、制御対象装置１０に入力する制御操作量を決定するために使用するＰＩＤパラメータを取得する。運転条件設定支援装置３０が自動的にＰＩＤパラメータを制御装置２０へ入力する自動モードにおいては、運転条件設定支援装置３０は、決定された複数のＰＩＤパラメータをそれぞれの制御装置２０へ通知し、制御装置２０は、運転条件設定支援装置３０から通知されたＰＩＤパラメータをＰＩＤパラメータ取得部２５により直接取得する。オペレータがＰＩＤパラメータを制御装置２０へ入力する手動モードにおいては、運転条件設定支援装置３０は、決定された複数のＰＩＤパラメータを、操作パネル２２を介してオペレータに提示し、制御装置２０は、オペレータにより入力されたＰＩＤパラメータをＰＩＤパラメータ取得部２５により取得する。

【0040】

制御操作量決定部２６は、計測値取得部２３により取得された計測値と、目標値取得部２４により取得された目標値と、ＰＩＤパラメータ取得部２５により取得されたＰＩＤパラメータとに基づいて、制御対象装置１０に設定すべき制御操作量を決定する。制御操作量決定部２６は、既知の任意のＰＩＤ制御技術を利用して、制御操作量を決定してもよい。制御操作量入力部２７は、制御操作量決定部２６により決定された制御操作量を制御対象装置１０へ入力する。

【0041】

運転条件設定支援装置３０は、制御部３１を備える。制御部３１は、複数計測値取得部３２、ＰＩＤパラメータ決定部３３、ＰＩＤパラメータ出力部３４、モード切替部３５、方策更新部３６を備える。これらの構成も、ハードウエアのみ、ソフトウエアのみ、またはそれらの組合せによっていろいろな形で実現できる。

【0042】

複数計測値取得部３２は、複数の制御装置２０によりそれぞれ制御される複数の制御対象装置１０の状態を示す複数の計測値を取得する。複数計測値取得部３２は、運転条件設定支援装置３０が統括する複数の制御装置２０により制御される全ての制御対象装置１０の状態を示す全ての計測値を取得する。

【0043】

ＰＩＤパラメータ決定部３３は、複数計測値取得部３２により取得された複数の計測値に基づいて、複数の制御装置２０のそれぞれが複数の制御対象装置１０に入力すべき制御操作量を決定するために使用する複数のＰＩＤパラメータを決定する。ＰＩＤパラメータ決定部３３は、学習装置２により学習済みの行動価値関数に基づいて、複数計測値取得部３２により取得された計測値により規定される状態において選択しうるＰＩＤパラメータのうち、価値が最大となるＰＩＤパラメータを決定する。後述するように、この行動価値関数は、複数の制御対象装置１０の状態を示す複数の計測値を入力したときに、選択しうる複数のＰＩＤパラメータのそれぞれについて価値を出力するニューラルネットワークであり、学習装置２における深層強化学習により学習される。

【0044】

モード切替部３５は、深層強化学習により獲得された方策に基づいて、制御装置２０が自動的に制御操作量を制御対象装置１０へ入力する自動モードと、制御装置２０がオペレータから制御操作量の指示を受け付けて制御対象装置１０へ入力する手動モードのいずれのモードで制御すべきかを制御装置２０に指示する。

【0045】

方策更新部３６は、学習装置２から学習済みのニューラルネットワークを方策として取得し、ＰＩＤパラメータ決定部３３を更新する。これにより、プラント３の運転中にも、学習装置２により更に精度が高められたニューラルネットワークを取得して、行動を決定するための行動価値関数を更新することができるので、より適切なＰＩＤパラメータを選択することができる。

【0046】

図６は、実施の形態に係る学習装置の構成を模式的に示す。学習装置２は、シミュレータ４０を用いて、プラント３により実行されるプロセス１２を構成する全ての制御対象装置１０の挙動を統括的に制御するための方策を獲得するための深層強化学習を実行する。シミュレータ４０は、プラント３において実行されるプロセス１２をシミュレートするプロセスシミュレータ４２と、複数の制御対象装置１０をそれぞれ制御する制御装置２０をそれぞれシミュレートする制御装置シミュレータ４３を含む。プロセスシミュレータ４２は、プロセス１２を構成する複数の制御対象装置１０をそれぞれシミュレートする制御対象装置シミュレータ４１を含む。学習装置２は、それぞれの制御装置シミュレータ４３が制御操作量を決定するために使用するＰＩＤパラメータを決定してシミュレータ４０に入力し、入力したＰＩＤパラメータを使用して制御された結果を示す複数の計測値を取得するステップを時系列的に複数回繰り返しつつプラント３の挙動を学習し、複数の制御装置２０が協調して安定的にプラント３を運転させることが可能なＰＩＤパラメータを統括的に決定するための方策を獲得する。

【0047】

図７は、実施の形態に係る学習装置２の構成を示す。学習装置２は、行動決定部４、報酬値取得部５、行動価値関数更新部６、ニューラルネットワーク７、学習制御部８、複数計測値取得部９を備える。これらの構成も、ハードウエアのみ、ソフトウエアのみ、またはそれらの組合せによっていろいろな形で実現できる。

【0048】

学習装置２は、運転条件設定支援装置３０のＰＩＤパラメータ決定部３３が、それぞれの制御装置２０に設定すべきＰＩＤパラメータの値を決定するための方策を、深層強化学習により獲得する。

【0049】

強化学習は、ある環境下に置かれたエージェントが環境に対して行動をし、その行動により得られる報酬が最大化されるような方策を求めるものである。エージェントが環境に対して行動を起こし、環境が状態の更新と行動の評価を行い、状態と報酬をエージェントに知らせるというステップを時系列的に繰り返し、得られる報酬の合計の期待値が最大化されるように行動価値関数と方策を最適化する。

【0050】

本実施の形態では、複数の制御対象装置１０の計測値により規定されるプラント３の状態ｓと、状態ｓにおいて複数の制御装置２０にＰＩＤパラメータを入力する行動ａの選択肢の組合せは膨大な数になるので、行動価値関数をニューラルネットワーク７により近似した深層強化学習を実行する。深層強化学習のアルゴリズムは、ＤＱＮ（Deep Q-Learning Network）であってもよいし、ＤＤＱＮ（Double DQN）であってもよいし、その他の任意のアルゴリズムであってもよい。ニューラルネットワーク７は、多層パーセプトロンニューラルネットワーク、単純パーセプトロンニューラルネットワーク、畳み込みニューラルネットワークなどの順伝播型ニューラルネットワークであってもよいし、その他の任意の形式のニューラルネットワークであってもよい。ニューラルネットワーク７の入力層には、全ての制御対象装置１０の状態を示す全ての計測値ＰＶｎと、全ての制御対象装置１０の制御対象値の目標値ＳＶｎと、全ての制御装置２０から全ての制御対象装置１０に入力される全ての制御操作量の値ＭＶｎとが入力され、出力層からは、制御装置２０に設定可能なＰＩＤパラメータの値の価値が出力される。上述したように、ＰＩＤパラメータを決定するために使用される行動価値関数が、計測値ＰＶｎ、制御対象値の目標値ＳＶｎ、制御操作量の値ＭＶｎに加えて、又は、それらのうちのいずれかに代えて、他のパラメータの値を使用する場合には、使用される他のパラメータの値も、ニューラルネットワーク７の入力層に入力される。

【0051】

学習制御部８は、学習の方針及び内容を決定し、深層強化学習を実行する。学習制御部８は、シミュレータ４０に初期条件を設定して試行を開始し、シミュレータ４０へのＰＩＤパラメータの入力と、入力されたＰＩＤパラメータを使用して制御されたプラント３の所定時間後の状態を示す複数の計測値の取得とを所定回数繰り返し、所定回数のステップを終了すると１回の試行を終えて、再び初期条件を設定して次の試行を開始する。例えば、プラント３の定常運転中に外乱又は運転条件の変更が発生した場合のプラント３の挙動を学習させる場合には、学習制御部８は、シミュレータ４０を構成するそれぞれの制御対象装置シミュレータ１１及び制御装置シミュレータ４３に、定常運転時の計測値、目標値、制御操作量の値を初期値として設定して学習を開始させ、ランダムに決定されたタイミングで外乱又は運転条件の変更を発生させ、シミュレータ４０に外乱又は運転条件の変更に対応する値を入力する。プラント３を起動させる場合のプラント３の挙動を学習させる場合には、学習制御部８は、シミュレータ４０に運転停止時の値を初期値として設定して学習を開始させ、定常運転に収束するまでのプラント３の挙動を学習させる。プラント３を停止させる場合のプラント３の挙動を学習させる場合には、学習制御部８は、シミュレータ４０に定常運転時の値を初期値として設定して学習を開始させ、プラント３の運転の停止をシミュレータ４０に指示し、プラント３の運転が停止されるまでのプラント３の挙動を学習させる。学習制御部８は、得られた報酬値が所定値未満であるなど、実行中の試行が良好な結果をもたらさないことが明らかであるような所定の条件が満たされた場合には、所定回数のステップが終了する前に試行を終了し、次の試行を開始してもよい。

【0052】

行動決定部４は、シミュレータ４０に入力する複数のＰＩＤパラメータを決定する。行動決定部４は、ランダムに、あるいは、ニューラルネットワーク７により表現された行動価値関数に基づいて、ＰＩＤパラメータを決定する。行動決定部４は、ε－ｇｒｅｅｄｙ法などの既知の任意のアルゴリズムにしたがって、ランダムにＰＩＤパラメータを決定するか、行動価値関数に基づいて期待される価値が最大となるＰＩＤパラメータを決定するかを選択してもよい。これにより、広く様々な選択肢を試行しつつ、学習を効率良く進め、学習が収束するまでの時間を短縮することができる。

【0053】

複数計測値取得部９は、シミュレータ４０から、複数の制御対象装置シミュレータ４１の状態を示す複数の計測値を取得する。報酬値取得部５は、複数計測値取得部９により取得された複数の計測値により示されるプラント３の状態に対する報酬値を取得する。この報酬値は、プラント３において実行されるプロセス１２の状態の良否を安定度指数として数値化したものである。より具体的には、報酬値は、（１）複数の計測値と制御目標値との差が小さいこと、（２）複数の計測値が振動していないこと、又は（３）複数の計測値が安定化するまでの所要時間が短いことを基準として、プロセスの状態の良否を安定度指数として数値化したものである。例えば、報酬値は、計測値と制御目標値との差が小さく、計測値の振動が小さく、又は計測値が安定化するまでの所要時間が短いほど、高くなるように決定される。

【0054】

行動価値関数更新部６は、報酬値取得部５により取得された報酬値に基づいて、ニューラルネットワーク７により表現された行動価値関数を更新する。行動価値関数更新部６は、ある状態ｓにおいて行動決定部４が取った行動の組の行動価値関数の出力が、ある状態ｓにおいて行動決定部４が取った行動の結果、報酬値取得部５により取得された報酬値と、その後に最適な行動を続けた場合に得られるであろう報酬値の和の期待値に近づくように、ニューラルネットワーク７の重みを学習させる。すなわち、行動価値関数更新部６は、報酬値取得部５により実際に得られた報酬値と、その後に得られるであろう報酬値の期待値に時間割引を乗じた値の和と、行動価値関数の出力値との間の誤差を減らすように、ニューラルネットワーク７の各層の各結合の重みを調整する。これにより、ニューラルネットワーク７により算出される行動価値が真の値に近づくように重みが更新され、学習が進んでいく。

【0055】

図８は、操作パネルの表示装置に表示される表示画面の例を示す。表示画面には、プラント３のプロセスフロー図と、各ＰＩＤコントローラに設定されているＰＩＤパラメータの現状値と、運転条件設定支援装置３０により決定されたＰＩＤパラメータの推奨値が表示されている。オペレータが、表示装置に表示された推奨値を参照してＰＩＤパラメータを入力すると、入力されたＰＩＤパラメータを制御装置２０のＰＩＤパラメータ取得部２５が取得し、制御操作量決定部２６が制御操作量を決定するために使用される。これにより、プラント３の挙動が不安定となりうる要因が発生した場合であっても、プラント３の挙動を迅速に安定化させることができる。

【0056】

以上、本発明を実施例をもとに説明した。この実施例は例示であり、それらの各構成要素や各処理プロセスの組合せにいろいろな変形例が可能なこと、またそうした変形例も本発明の範囲にあることは当業者に理解されるところである。

【0057】

本発明の技術は、複数の制御装置により複数の制御対象装置が制御されるプラントにおいて利用可能である。実施の形態では、それぞれＰＩＤ制御される複数の制御系を含むプラントについて説明したが、Ｐ制御、ＰＩ制御など、他の任意の制御方式の制御系を含むプラントにも本発明の技術を利用可能である。

【符号の説明】

【0058】

１プラント運転条件設定支援システム、２学習装置、３プラント、４行動決定部、５報酬値取得部、６行動価値関数更新部、７ニューラルネットワーク、８学習制御部、９複数計測値取得部、１０制御対象装置、１１制御対象装置シミュレータ、１２プロセス、２０制御装置、２１制御部、２２操作パネル、２３計測値取得部、２４目標値取得部、２５ＰＩＤパラメータ取得部、２６制御操作量決定部、２７制御操作量入力部、３０運転条件設定支援装置、３１制御部、３２複数計測値取得部、３３ＰＩＤパラメータ決定部、３４ＰＩＤパラメータ出力部、３５モード切替部、３６方策更新部、４０シミュレータ、４１制御対象装置シミュレータ、４２プロセスシミュレータ、４３制御装置シミュレータ。

【図1】