(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2022-06-16
(45)【発行日】2022-06-24
(54)【発明の名称】プラント運転条件設定支援システム、学習装置、及び運転条件設定支援装置
(51)【国際特許分類】
G05B 13/02 20060101AFI20220617BHJP
【FI】
G05B13/02 A
G05B13/02 L
(21)【出願番号】P 2018089972
(22)【出願日】2018-05-08
【審査請求日】2021-01-12
(73)【特許権者】
【識別番号】000003285
【氏名又は名称】千代田化工建設株式会社
(73)【特許権者】
【識別番号】510080727
【氏名又は名称】株式会社グリッド
(74)【代理人】
【識別番号】100109081
【氏名又は名称】三木 友由
(72)【発明者】
【氏名】安井 威公
(72)【発明者】
【氏名】井川 玄
(72)【発明者】
【氏名】土岐 明史
(72)【発明者】
【氏名】曽我部 完
(72)【発明者】
【氏名】諏訪 佑介
【審査官】今井 貞雄
(56)【参考文献】
【文献】特開2014-178853(JP,A)
【文献】特開2017-034844(JP,A)
【文献】特開2004-178492(JP,A)
【文献】特表2007-510187(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G05B 13/02
(57)【特許請求の範囲】
【請求項1】
それぞれ独立してフィードバック制御される複数の装置により構成され
、それぞれのフィードバック制御による影響が相互に干渉しうるプロセスを実行するプラントの運転条件の設定を支援するためのプラント運転条件設定支援システムであって、
前記複数の装置のうちの1以上の制御対象装置をそれぞれフィードバック制御する複数の制御装置と、
複数のフィードバック制御をそれぞれ独立して行う前記複数の制御装置の設定を統括的に支援する運転条件設定支援装置と、
を備え、
前記複数の制御装置は、それぞれ、
制御対象装置の状態を示す計測値を取得する計測値取得部と、
制御対象装置へ入力する制御操作量を決定するための制御装置調整パラメータを取得する制御装置調整パラメータ取得部と、
前記計測値取得部により取得された計測値と、前記制御装置調整パラメータ取得部により取得された制御装置調整パラメータに基づいて、前記制御操作量を決定する制御操作量決定部と、
前記制御操作量決定部により決定された制御操作量を制御対象装置へ入力する制御操作量入力部と、
を備え、
前記運転条件設定支援装置は、
前記複数の制御装置によりそれぞれ制御される複数の制御対象装置の状態を示す複数の計測値を取得する複数計測値取得部と、
深層強化学習により獲得された方策により、前記複数計測値取得部により取得された複数の計測値に基づいて、前記複数の制御装置のそれぞれが前記複数の制御対象装置に入力すべき制御操作量を決定するために使用する複数の制御装置調整パラメータを決定する制御装置調整パラメータ決定部と、
を備えることを特徴とするプラント運転条件設定支援システム。
【請求項2】
前記制御装置調整パラメータ決定部は、前記プラントが運転されるときの前記制御対象装置の計測値、制御目標値、及び制御操作量と、それらを評価して安定度指数として数値化した報酬値と、前記制御操作量が決定されるときに使用される制御装置調整パラメータとに基づいた、前記複数の制御装置調整パラメータを決定するための方策を獲得するための深層強化学習によって獲得された方策により、前記複数の制御装置調整パラメータを決定することを特徴とする請求項1に記載のプラント運転条件設定支援システム。
【請求項3】
前記深層強化学習を実行する学習装置を更に備え、
前記学習装置は、
前記複数の制御対象装置の状態を示す複数の計測値を取得し、前記複数の制御装置がそれぞれ使用する複数の制御装置調整パラメータを出力する行動決定部と、
前記行動決定部により出力された制御装置調整パラメータを使用して前記複数の制御装置が前記複数の制御対象装置を制御したときの前記複数の制御対象装置の状態を示す複数の計測値と、使用された制御装置調整パラメータとの対の価値を算出するための価値関数部と、
を備え、
前記複数の制御対象装置が前記複数の計測値により示される状態にあるときに、前記制御装置調整パラメータ決定部により前記制御対象装置に入力される制御装置調整パラメータが決定され、決定された制御装置調整パラメータを使用して前記複数の制御装置が決定した制御操作量が前記複数の制御対象装置に入力されて前記複数の制御対象装置の状態が更新され、その後も最適な制御装置調整パラメータが選択され続けた場合に得られるであろう報酬値の期待値と、前記価値関数部により算出される価値との誤差が小さくなるように、前記価値関数部が学習される
ことを特徴とする請求項2に記載のプラント運転条件設定支援システム。
【請求項4】
前記報酬値は、前記プロセスの状態の良否を前記安定度指数として数値化したものであることを特徴とする請求項2又は3に記載のプラント運転条件設定支援システム。
【請求項5】
前記報酬値は、前記複数の計測値と前記制御目標値との差が小さいこと、前記複数の計測値が振動していないこと、又は前記複数の計測値が安定化するまでの所要時間が短いことを基準として、前記プロセスの状態の良否を前記安定度指数として数値化したものであることを特徴とする請求項2から4のいずれかに記載のプラント運転条件設定支援システム。
【請求項6】
前記制御装置調整パラメータ決定部は、前記プラントの運転が起動又は停止されたときの前記計測値及び制御操作量と前記制御装置調整パラメータとを使用した深層強化学習によって獲得された方策により、前記プラントの運転を起動又は停止するときの前記複数の制御装置調整パラメータを決定することを特徴とする請求項2から5のいずれかに記載のプラント運転条件設定支援システム。
【請求項7】
前記制御装置調整パラメータ決定部は、前記プラントの運転中に外乱が発生したとき又は運転条件が変更されたときの前記計測値及び制御操作量と前記制御装置調整パラメータとを使用した深層強化学習によって獲得された方策により、前記プラントの運転中に外乱が発生したとき又は運転条件が変更されるときの前記複数の制御装置調整パラメータを決定することを特徴とする請求項2から6のいずれかに記載のプラント運転条件設定支援システム。
【請求項8】
前記運転条件設定支援装置は、前記深層強化学習により獲得された方策に基づいて、前記制御装置が自動的に制御操作量を制御対象装置へ入力する自動モードと、前記制御装置がオペレータから制御操作量の指示を受け付けて制御対象装置へ入力する手動モードのいずれのモードで制御すべきかを前記制御装置に指示するモード切替部を更に備えることを特徴とする請求項2から7のいずれかに記載のプラント運転条件設定支援システム。
【請求項9】
前記運転条件設定支援装置は、前記制御装置調整パラメータ決定部により決定された複数の制御装置調整パラメータを、それぞれの制御装置へ通知し、
前記制御装置は、前記運転条件設定支援装置から通知された制御装置調整パラメータを前記制御装置調整パラメータ取得部により取得することを特徴とする請求項1から8のいずれかに記載のプラント運転条件設定支援システム。
【請求項10】
前記運転条件設定支援装置は、前記制御装置調整パラメータ決定部により決定された複数の制御装置調整パラメータを、オペレータに提示し、
前記制御装置は、前記オペレータにより入力された制御装置調整パラメータを前記制御装置調整パラメータ取得部により取得することを特徴とする請求項1から9のいずれかに記載のプラント運転条件設定支援システム。
【請求項11】
それぞれ独立してフィードバック制御される複数の装置により構成され、それぞれのフィードバック制御による影響が相互に干渉しうるプロセスを構成する複数の装置のうちの1以上の制御対象装置をそれぞれフィードバック制御する複数の制御装置の設定を統括的に支援する運転条件設定支援装置において、
前記複数の制御装置によりそれぞれ制御される複数の制御対象装置の状態を示す複数の計測値を取得する複数計測値取得部と、
深層強化学習により獲得された方策により、前記複数計測値取得部により取得された複数の計測値に基づいて、前記複数の制御装置のそれぞれが前記複数の制御対象装置に入力すべき制御操作量を決定するために使用する複数の制御装置調整パラメータを決定する制御装置調整パラメータ決定部と、
を備えることを特徴とする運転条件設定支援装置。
【請求項12】
それぞれ独立してフィードバック制御される複数の装置により構成され、それぞれのフィードバック制御による影響が相互に干渉しうるプロセスを構成する複数の制御対象装置の状態を示す複数の計測値を取得し、前記複数の制御対象装置をそれぞれ自動フィードバック制御する複数の制御装置がそれぞれ使用する複数の制御装置調整パラメータを出力する行動決定部と、
前記行動決定部により出力された制御装置調整パラメータを使用して前記複数の制御装置が前記複数の制御対象装置を制御したときの前記複数の制御対象装置の状態を示す複数の計測値と、使用された制御装置調整パラメータとの対の価値を算出するための価値関数部と、
を備え、
前記複数の制御対象装置が前記複数の計測値により示される状態にあるときに、前記制御対象装置に入力される制御装置調整パラメータが決定され、決定された制御装置調整パラメータを使用して前記複数の制御装置が決定した制御操作量が前記複数の制御対象装置に入力されて前記複数の制御対象装置の状態が更新され、その後も最適な制御装置調整パラメータが選択され続けた場合に得られるであろう報酬値の期待値と、前記価値関数部により算出される価値との誤差が小さくなるように、前記価値関数部が学習される
ことを特徴とする学習装置。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、プラントの運転条件の設定を支援するためのプラント運転条件設定支援システム、及びそのプラント運転条件設定支援システムに利用可能な学習装置及び運転条件設定支援装置に関する。
【背景技術】
【0002】
化学製品や工業製品などを生産するためのプラントにおいては、反応器や加熱炉などの多数の装置により一連のプロセスが実行されており、多数の装置のそれぞれを制御するための多数の操作量によりプロセス状態が変化する。多段階のプロセスが実行されるプラントにおいては、多数の操作量が複雑に相互作用しうるため、操作量の変更による影響を予測することは容易ではなく、熟練したオペレータにより、操作量を決定するための制御装置調整パラメータが設定されてプラントが運転されている。
【0003】
このような相互干渉しうる複数の制御系を含むプラントを制御する技術として、例えば、特許文献1及び特許文献2に記載された技術が提案されている。
【0004】
特許文献1には、3系列以上の制御ループの間に各制御ループ間の相互干渉を打ち消す非干渉要素を備える技術が開示されている。この非干渉要素は、各制御ループの伝達関数および他の制御ループから干渉してくる干渉要素の伝達関数をむだ時間を含んだ一次遅れ系の応答形に近似して算出したものである。
【0005】
特許文献2には、操作弁の弁開度と、その弁開度に応じて変化するプロセスの状態を表す変数との関係を、定常状態での方程式で構築し、当該方程式により操作弁ごとに導出した解析解式に基づいて、操作弁の目標の弁開度であるCV値を算出し、検知した値に応じた操作弁の現状の弁開度であるCV値を算出するとともに、2つのCV値の偏差eを算出し、偏差eに基づいてプロセスの状態をフィードバック制御する技術が開示されている。
【先行技術文献】
【特許文献】
【0006】
【文献】特開2007-11866号公報
【文献】特開2010-97254号公報
【発明の概要】
【発明が解決しようとする課題】
【0007】
複数の制御系のそれぞれにおけるプロセス値の挙動を数学的に精度良く近似するのは困難である上、複雑に相互作用しうる複数の制御系に予測不可能な外乱が発生したときのプラント値の挙動を、それらの数学的な近似表現から精度良く予測するのは、更に困難である。プラントの挙動を不安定化しうる外乱が発生した場合であっても、プラントを安定的に運転することを可能とする技術が求められる。
【0008】
本発明は、こうした状況を鑑みてなされたものであり、その目的は、プラントの安定的な運転を実現する技術を提供することにある。
【課題を解決するための手段】
【0009】
上記課題を解決するために、本発明のある態様のプラント運転条件設定支援システムは、複数の装置により構成されるプロセスを実行するプラントの運転条件の設定を支援するためのプラント運転条件設定支援システムであって、複数の装置のうちの1以上の制御対象装置をそれぞれフィードバック制御する複数の制御装置と、複数のフィードバック制御をそれぞれ独立して行う複数の制御装置の設定を統括的に支援する運転条件設定支援装置と、を備える。複数の制御装置は、それぞれ、制御対象装置の状態を示す計測値を取得する計測値取得部と、制御対象装置へ入力する制御操作量を決定するための制御装置調整パラメータを取得する制御装置調整パラメータ取得部と、計測値取得部により取得された計測値と、制御装置調整パラメータ取得部により取得された制御装置調整パラメータに基づいて、制御操作量を決定する制御操作量決定部と、制御操作量決定部により決定された制御操作量を制御対象装置へ入力する制御操作量入力部と、を備える。運転条件設定支援装置は、複数の制御装置によりそれぞれ制御される複数の制御対象装置の状態を示す複数の計測値を取得する複数計測値取得部と、深層強化学習により獲得された方策により、複数計測値取得部により取得された複数の計測値に基づいて、複数の制御装置のそれぞれが複数の制御対象装置に入力すべき制御操作量を決定するために使用する複数の制御装置調整パラメータを決定する制御装置調整パラメータ決定部と、を備える。
【0010】
制御装置調整パラメータ決定部は、プラントが運転されるときの制御対象装置の計測値、制御目標値、及び制御操作量と、それらを評価して安定度指数として数値化した報酬値と、制御操作量が決定されるときに使用される制御装置調整パラメータとに基づいた、複数の制御装置調整パラメータを決定するための方策を獲得するための深層強化学習によって獲得された方策により、複数の制御装置調整パラメータを決定してもよい。
【0011】
深層強化学習を実行する学習装置を更に備えてもよい。学習装置は、複数の制御対象装置の状態を示す複数の計測値を取得し、複数の制御装置がそれぞれ使用する複数の制御装置調整パラメータを出力する行動決定部と、行動決定部により出力された制御装置調整パラメータを使用して複数の制御装置が複数の制御対象装置を制御したときの複数の制御対象装置の状態を示す複数の計測値と、使用された制御装置調整パラメータとの対の価値を算出するための価値関数部と、を備えてもよい。複数の制御対象装置が複数の計測値により示される状態にあるときに、制御装置調整パラメータ決定部により制御対象装置に入力される制御装置調整パラメータが決定され、決定された制御装置調整パラメータを使用して複数の制御装置が決定した制御操作量が複数の制御対象装置に入力されて複数の制御対象装置の状態が更新され、その後も最適な制御装置調整パラメータが選択され続けた場合に得られるであろう報酬値の期待値と、価値関数部により算出される価値との誤差が小さくなるように、価値関数部が学習されてもよい。
【0012】
報酬値は、プロセスの状態の良否を安定度指数として数値化したものであってもよい。
【0013】
報酬値は、複数の計測値と制御目標値との差が小さいこと、複数の計測値が振動していないこと、又は複数の計測値が安定化するまでの所要時間が短いことを基準として、プロセスの状態の良否を安定度指数として数値化したものであってもよい。
【0014】
制御装置調整パラメータ決定部は、プラントの運転が起動又は停止されたときの計測値及び制御操作量と制御装置調整パラメータとを使用した深層強化学習によって獲得された方策により、プラントの運転を起動又は停止するときの複数の制御装置調整パラメータを決定してもよい。
【0015】
制御装置調整パラメータ決定部は、プラントの運転中に外乱が発生したとき又は運転条件が変更されたときの計測値及び制御操作量と制御装置調整パラメータとを使用した深層強化学習によって獲得された方策により、プラントの運転中に外乱が発生したとき又は運転条件が変更されるときの複数の制御装置調整パラメータを決定してもよい。
【0016】
運転条件設定支援装置は、深層強化学習により獲得された方策に基づいて、制御装置が自動的に制御操作量を制御対象装置へ入力する自動モードと、制御装置がオペレータから制御操作量の指示を受け付けて制御対象装置へ入力する手動モードのいずれのモードで制御すべきかを制御装置に指示するモード切替部を更に備えてもよい。
【0017】
運転条件設定支援装置は、制御装置調整パラメータ決定部により決定された複数の制御装置調整パラメータを、それぞれの制御装置へ通知し、制御装置は、運転条件設定支援装置から通知された制御装置調整パラメータを制御装置調整パラメータ取得部により取得してもよい。
【0018】
運転条件設定支援装置は、制御装置調整パラメータ決定部により決定された複数の制御装置調整パラメータを、オペレータに提示し、制御装置は、オペレータにより入力された制御装置調整パラメータを制御装置調整パラメータ取得部により取得してもよい。
【0019】
本発明の別の態様は、運転条件設定支援装置である。この装置は、プラントにおいて実行されるプロセスを構成する複数の装置のうちの1以上の制御対象装置をそれぞれフィードバック制御する複数の制御装置の設定を統括的に支援する運転条件設定支援装置において、複数の制御装置によりそれぞれ制御される複数の制御対象装置の状態を示す複数の計測値を取得する複数計測値取得部と、深層強化学習により獲得された方策により、複数計測値取得部により取得された複数の計測値に基づいて、複数の制御装置のそれぞれが複数の制御対象装置に入力すべき制御操作量を決定するために使用する複数の制御装置調整パラメータを決定する制御装置調整パラメータ決定部と、を備える。
【0020】
本発明のさらに別の態様は、学習装置である。この装置は、プラントにおいて実行されるプロセスを構成する複数の制御対象装置の状態を示す複数の計測値を取得し、複数の制御対象装置をそれぞれ自動フィードバック制御する複数の制御装置がそれぞれ使用する複数の制御装置調整パラメータを出力する行動決定部と、行動決定部により出力された制御装置調整パラメータを使用して複数の制御装置が複数の制御対象装置を制御したときの複数の制御対象装置の状態を示す複数の計測値と、使用された制御装置調整パラメータとの対の価値を算出するための価値関数部と、を備える。複数の制御対象装置が複数の計測値により示される状態にあるときに、制御対象装置に入力される制御装置調整パラメータが決定され、決定された制御装置調整パラメータを使用して複数の制御装置が決定した制御操作量が複数の制御対象装置に入力されて複数の制御対象装置の状態が更新され、その後も最適な制御装置調整パラメータが選択され続けた場合に得られるであろう報酬値の期待値と、価値関数部により算出される価値との誤差が小さくなるように、価値関数部が学習される。
【0021】
なお、以上の構成要素の任意の組合せ、本発明の表現を方法、装置、システム、記録媒体、コンピュータプログラムなどの間で変換したものもまた、本発明の態様として有効である。
【発明の効果】
【0022】
本発明によれば、プラントの安定的な運転を実現する技術を提供することができる。
【図面の簡単な説明】
【0023】
【
図1】実施の形態に係るプラント運転条件設定支援システムの全体構成を示す図である。
【
図2】制御対象プロセスの一例であるコンプレッサーシステムの構成例を示す図である。
【
図3】従来のプラントにおける制御方法を模式的に示す図である。
【
図4】実施の形態に係る運転条件設定支援装置の構成を模式的に示す図である。
【
図5】実施の形態に係る運転条件設定装置及び制御装置の構成を示す図である。
【
図6】実施の形態に係る学習装置の構成を模式的に示す図である。
【
図7】実施の形態に係る学習装置の構成を示す図である。
【
図8】操作パネルの表示装置に表示される表示画面の例を示す図である。
【発明を実施するための形態】
【0024】
図1は、実施の形態に係るプラント運転条件設定支援システムの全体構成を示す。プラント3の運転条件の設定を支援するためのプラント運転条件設定支援システム1は、化学製品や工業製品などを生産するためのプラント3と、プラント3の運転条件の設定のために使用される複数の制御装置調整パラメータを決定するための方策を獲得するための深層強化学習を実行する学習装置2とを備える。プラント3は、プラント3において実行されるプロセスを構成する制御対象装置10と、1以上の制御対象装置10をそれぞれフィードバック制御する複数の制御装置20と、複数のフィードバック制御をそれぞれ独立して行う複数の制御装置20の設定を統括的に支援する運転条件設定支援装置30とを備える。運転条件設定支援装置30は、学習装置2において実行される深層強化学習によって獲得された方策により、複数の制御装置20が複数の制御対象装置10に入力する制御操作量を決定するためにそれぞれ使用する複数の制御装置調整パラメータを決定する。
【0025】
図2は、制御対象プロセスの一例であるコンプレッサーシステムの構成例を示す。本図に示したコンプレッサーシステムは、プロセスを構成する複数の制御対象装置10として、プロパン冷媒により冷却対象を冷却するための熱交換器、熱交換器において蒸発したプロパンガスを圧縮するプロパンコンプレッサーなどを含み、複数の制御対象装置10をそれぞれ独立して自動制御する制御装置20として、液面コントローラLC、圧力コントローラPC、回転数コントローラSC、アンチサージコントローラASCなどのPIDコントローラを含む。
【0026】
液面コントローラLCは、熱交換器におけるプロパン冷媒の液面レベルを一定に保つために、プロパン冷媒の液面レベルに応じてプロパン冷媒の供給バルブの開度を制御する。圧力コントローラPCは、プロパンコンプレッサーに導入されるプロパンガスの圧力を一定に保つために、熱交換器から蒸発したプロパンガスの圧力に応じて回転数コントローラSCを制御する。回転数コントローラSCは、圧力コントローラPCからの指令を受けて、プロパンコンプレッサーに導入されるプロパンガスの圧力を調整するためのガスタービンGTの回転数を制御する。アンチサージコントローラASCは、プロパンコンプレッサーにおけるサージングの発生を抑制するために、プロパンコンプレッサーの出口におけるプロパンガスの圧力に応じてアンチサージバルブの開度を制御する。これらのPIDコントローラのうち、回転数コントローラSCは、圧力コントローラPCからの指令を受けて動作するが、それ以外の3個のPIDコントローラは、それぞれ独立して制御対象装置10を自動制御する。
【0027】
このコンプレッサーシステムにおいて、外乱などに起因して冷却対象の量が急激に減少すると、冷熱消費量が減少するので熱交換器におけるプロパンの蒸発量が減少し、プロパン冷媒の液面レベルが上昇する。このとき、液面コントローラLCは、バルブの開度を減少させ、プロパン冷媒の流入量を減少させて、プロパン冷媒の液面を一定に保つ。プロパンの蒸発量が減少すると、圧力コントローラPCに入力される圧力の計測値が減少するので、圧力コントローラPCが回転数コントローラSCにガスタービンGTの回転数の減少を指示する。
【0028】
ところが、ガスタービンGTの回転数が減少されたことにより、プロパンコンプレッサーに導入されるプロパンガスの圧力が減少すると、アンチサージコントローラASCに入力される圧力の計測値が減少するので、アンチサージコントローラASCが、プロパンコンプレッサーにおけるサージングの発生を回避するために、アンチサージバルブの開度を増加させる。これにより、圧力コントローラPCに入力される圧力の計測値が増加するので、圧力コントローラPCが回転数コントローラSCにガスタービンGTの回転数の増加を指示する。
【0029】
ガスタービンGTの回転数が増加されたことにより、プロパンコンプレッサーに導入されるプロパンガスの圧力が増加すると、アンチサージコントローラASCに入力される圧力の計測値が増加するので、アンチサージコントローラASCは、アンチサージバルブの開度を減少させる。これにより、圧力コントローラPCに入力される圧力の計測値が減少するので、再び圧力コントローラPCが回転数コントローラSCにガスタービンGTの回転数の減少を指示する。
【0030】
このように、複数の制御装置20によりそれぞれ独立して自動フィードバック制御される複数の制御系を含むプロセスにおいて、それぞれの自動フィードバック制御による影響が相互に干渉しうる場合には、逆方向の制御が周期的に繰り返されてハンチングを生じるなど、挙動が不安定になる可能性がある。このような場合であっても、それぞれのPIDコントローラに適切なPIDパラメータが設定されていれば、いずれ安定した動作に収束することが期待されるが、振動の契機となった外乱や運転条件変更による変化が多大又は急激であった場合などには、安定した動作に収束するまでに長い時間を要したり、ハンチングが残ったりする場合がありうる。
【0031】
図3は、従来のプラントにおける制御方法を模式的に示す。プラントにおいて実行されるプロセス12は、複数の制御対象装置10a、10b、・・・、10nにより構成され、複数の制御対象装置10a、10b、・・・、10nは、それぞれ制御装置20a、20b、・・・、20nにより制御される。
図2に示した例で言うと、複数の制御対象装置10a、10b、・・・、10nは、熱交換器、プロパンコンプレッサーなどであり、複数の制御装置20a、20b、・・・、20nは、液面コントローラLC、圧力コントローラPC、回転数コントローラSC、アンチサージコントローラASCなどである。
【0032】
従来のプラントにおいては、複数の制御装置20がPID制御のために使用する、比例ゲイン(Pゲイン)、積分ゲイン(Iゲイン)、微分ゲイン(Dゲイン)の3種類の制御装置調整パラメータ(以下、「PIDパラメータ」ともいう)は、それらを変更することによる影響を予測することが困難であったため、ほとんど変更されることがなく、変更が必要である場合には、オペレータによりそれぞれの制御装置20に入力されていた。したがって、外乱などに起因してプロセス12の状態が不安定になった場合には、オペレータが適切なPIDパラメータをそれぞれの制御装置20に入力することにより、相互干渉する複数の制御装置20a、20b、・・・、20nの自動制御を安定化させる必要があり、安定な運転に収束するまでに要する時間は、オペレータの経験と技能に依存していた。
【0033】
図4は、実施の形態に係る運転条件設定支援装置の構成を模式的に示す。運転条件設定支援装置30は、後述するように、学習装置2における深層強化学習により獲得された方策にしたがって、複数の制御装置20に入力すべきPIDパラメータを決定する。この方策は、複数の制御対象装置10の状態を示す複数の計測値、複数の制御対象装置10の制御対象値の目標値、及び複数の制御対象装置10に入力されている複数の制御操作量の値から、PIDパラメータとして設定可能な複数の値の組合せにおける価値を算出する行動価値関数に基づいて、価値を最大とするPIDパラメータを決定するものである。行動価値関数は、プロセス全体を安定的に制御しながら制御対象値を迅速に目標値に近づけることを可能とするPIDパラメータに対して高い価値を算出するように、学習装置2により学習される。別の例では、PIDパラメータを決定するために使用される行動価値関数は、PIDパラメータとして設定可能な複数の値の組合せの価値を算出するために、計測値、制御対象値の目標値、制御操作量の値に加えて、又は、それらのうちのいずれかに代えて、他のパラメータの値を使用してもよい。例えば、現在又は過去のPIDパラメータの値や、外乱因子を表すパラメータの値などが使用されてもよいし、上記のいずれかのパラメータの絶対値に加えて、又は絶対値に代えて、それらのパラメータの変化率又は変化量が使用されてもよい。
【0034】
運転条件設定支援装置30により決定された複数のPIDパラメータがオペレータに提示され、オペレータが提示された複数のPIDパラメータを参照して制御装置20にPIDパラメータを入力してもよいし、運転条件設定支援装置30から直接制御装置20にPIDパラメータが入力されてもよい。これにより、オペレータの労力を大幅に低減させることができるとともに、オペレータの経験や技能によらずプラント3を安定的に運転することができる。
【0035】
図5は、実施の形態に係る運転条件設定装置及び制御装置の構成を示す。制御装置20は、制御部21及び操作パネル22を備える。
【0036】
操作パネル22は、プラント3を構成する複数の制御対象装置10の状態を示す複数の計測値と、制御装置20により制御対象装置10に設定された制御操作量の設定値と、制御装置20に設定されたPIDパラメータの値と、プラント3の運転結果を示す出力の計測値を表示装置に表示するとともに、PIDパラメータの値の入力をオペレータから受け付ける。
【0037】
制御装置20は、計測値取得部23、目標値取得部24、PIDパラメータ取得部25、制御操作量決定部26、制御操作量入力部27を備える。これらの構成は、ハードウエアコンポーネントでいえば、任意のコンピュータのCPU、メモリ、メモリにロードされたプログラムなどによって実現されるが、ここではそれらの連携によって実現される機能ブロックを描いている。したがって、これらの機能ブロックがハードウエアのみ、ソフトウエアのみ、またはそれらの組合せによっていろいろな形で実現できることは、当業者には理解されるところである。
【0038】
計測値取得部23は、制御対象装置10の状態を示す計測値を取得する。目標値取得部24は、制御対象装置10の制御対象値の目標値が可変である場合に、その目標値を取得する。例えば、
図2に示した例において、熱交換器におけるプロパン冷媒の液面レベルの目標値は所定値に固定されているが、ガスタービンの回転数の目標値は圧力コントローラLCにより可変に制御されるので、目標値取得部24は、圧力コントローラLCからガスタービンの回転数の目標値を取得する。
【0039】
PIDパラメータ取得部25は、制御対象装置10に入力する制御操作量を決定するために使用するPIDパラメータを取得する。運転条件設定支援装置30が自動的にPIDパラメータを制御装置20へ入力する自動モードにおいては、運転条件設定支援装置30は、決定された複数のPIDパラメータをそれぞれの制御装置20へ通知し、制御装置20は、運転条件設定支援装置30から通知されたPIDパラメータをPIDパラメータ取得部25により直接取得する。オペレータがPIDパラメータを制御装置20へ入力する手動モードにおいては、運転条件設定支援装置30は、決定された複数のPIDパラメータを、操作パネル22を介してオペレータに提示し、制御装置20は、オペレータにより入力されたPIDパラメータをPIDパラメータ取得部25により取得する。
【0040】
制御操作量決定部26は、計測値取得部23により取得された計測値と、目標値取得部24により取得された目標値と、PIDパラメータ取得部25により取得されたPIDパラメータとに基づいて、制御対象装置10に設定すべき制御操作量を決定する。制御操作量決定部26は、既知の任意のPID制御技術を利用して、制御操作量を決定してもよい。制御操作量入力部27は、制御操作量決定部26により決定された制御操作量を制御対象装置10へ入力する。
【0041】
運転条件設定支援装置30は、制御部31を備える。制御部31は、複数計測値取得部32、PIDパラメータ決定部33、PIDパラメータ出力部34、モード切替部35、方策更新部36を備える。これらの構成も、ハードウエアのみ、ソフトウエアのみ、またはそれらの組合せによっていろいろな形で実現できる。
【0042】
複数計測値取得部32は、複数の制御装置20によりそれぞれ制御される複数の制御対象装置10の状態を示す複数の計測値を取得する。複数計測値取得部32は、運転条件設定支援装置30が統括する複数の制御装置20により制御される全ての制御対象装置10の状態を示す全ての計測値を取得する。
【0043】
PIDパラメータ決定部33は、複数計測値取得部32により取得された複数の計測値に基づいて、複数の制御装置20のそれぞれが複数の制御対象装置10に入力すべき制御操作量を決定するために使用する複数のPIDパラメータを決定する。PIDパラメータ決定部33は、学習装置2により学習済みの行動価値関数に基づいて、複数計測値取得部32により取得された計測値により規定される状態において選択しうるPIDパラメータのうち、価値が最大となるPIDパラメータを決定する。後述するように、この行動価値関数は、複数の制御対象装置10の状態を示す複数の計測値を入力したときに、選択しうる複数のPIDパラメータのそれぞれについて価値を出力するニューラルネットワークであり、学習装置2における深層強化学習により学習される。
【0044】
モード切替部35は、深層強化学習により獲得された方策に基づいて、制御装置20が自動的に制御操作量を制御対象装置10へ入力する自動モードと、制御装置20がオペレータから制御操作量の指示を受け付けて制御対象装置10へ入力する手動モードのいずれのモードで制御すべきかを制御装置20に指示する。
【0045】
方策更新部36は、学習装置2から学習済みのニューラルネットワークを方策として取得し、PIDパラメータ決定部33を更新する。これにより、プラント3の運転中にも、学習装置2により更に精度が高められたニューラルネットワークを取得して、行動を決定するための行動価値関数を更新することができるので、より適切なPIDパラメータを選択することができる。
【0046】
図6は、実施の形態に係る学習装置の構成を模式的に示す。学習装置2は、シミュレータ40を用いて、プラント3により実行されるプロセス12を構成する全ての制御対象装置10の挙動を統括的に制御するための方策を獲得するための深層強化学習を実行する。シミュレータ40は、プラント3において実行されるプロセス12をシミュレートするプロセスシミュレータ42と、複数の制御対象装置10をそれぞれ制御する制御装置20をそれぞれシミュレートする制御装置シミュレータ43を含む。プロセスシミュレータ42は、プロセス12を構成する複数の制御対象装置10をそれぞれシミュレートする制御対象装置シミュレータ41を含む。学習装置2は、それぞれの制御装置シミュレータ43が制御操作量を決定するために使用するPIDパラメータを決定してシミュレータ40に入力し、入力したPIDパラメータを使用して制御された結果を示す複数の計測値を取得するステップを時系列的に複数回繰り返しつつプラント3の挙動を学習し、複数の制御装置20が協調して安定的にプラント3を運転させることが可能なPIDパラメータを統括的に決定するための方策を獲得する。
【0047】
図7は、実施の形態に係る学習装置2の構成を示す。学習装置2は、行動決定部4、報酬値取得部5、行動価値関数更新部6、ニューラルネットワーク7、学習制御部8、複数計測値取得部9を備える。これらの構成も、ハードウエアのみ、ソフトウエアのみ、またはそれらの組合せによっていろいろな形で実現できる。
【0048】
学習装置2は、運転条件設定支援装置30のPIDパラメータ決定部33が、それぞれの制御装置20に設定すべきPIDパラメータの値を決定するための方策を、深層強化学習により獲得する。
【0049】
強化学習は、ある環境下に置かれたエージェントが環境に対して行動をし、その行動により得られる報酬が最大化されるような方策を求めるものである。エージェントが環境に対して行動を起こし、環境が状態の更新と行動の評価を行い、状態と報酬をエージェントに知らせるというステップを時系列的に繰り返し、得られる報酬の合計の期待値が最大化されるように行動価値関数と方策を最適化する。
【0050】
本実施の形態では、複数の制御対象装置10の計測値により規定されるプラント3の状態sと、状態sにおいて複数の制御装置20にPIDパラメータを入力する行動aの選択肢の組合せは膨大な数になるので、行動価値関数をニューラルネットワーク7により近似した深層強化学習を実行する。深層強化学習のアルゴリズムは、DQN(Deep Q-Learning Network)であってもよいし、DDQN(Double DQN)であってもよいし、その他の任意のアルゴリズムであってもよい。ニューラルネットワーク7は、多層パーセプトロンニューラルネットワーク、単純パーセプトロンニューラルネットワーク、畳み込みニューラルネットワークなどの順伝播型ニューラルネットワークであってもよいし、その他の任意の形式のニューラルネットワークであってもよい。ニューラルネットワーク7の入力層には、全ての制御対象装置10の状態を示す全ての計測値PVnと、全ての制御対象装置10の制御対象値の目標値SVnと、全ての制御装置20から全ての制御対象装置10に入力される全ての制御操作量の値MVnとが入力され、出力層からは、制御装置20に設定可能なPIDパラメータの値の価値が出力される。上述したように、PIDパラメータを決定するために使用される行動価値関数が、計測値PVn、制御対象値の目標値SVn、制御操作量の値MVnに加えて、又は、それらのうちのいずれかに代えて、他のパラメータの値を使用する場合には、使用される他のパラメータの値も、ニューラルネットワーク7の入力層に入力される。
【0051】
学習制御部8は、学習の方針及び内容を決定し、深層強化学習を実行する。学習制御部8は、シミュレータ40に初期条件を設定して試行を開始し、シミュレータ40へのPIDパラメータの入力と、入力されたPIDパラメータを使用して制御されたプラント3の所定時間後の状態を示す複数の計測値の取得とを所定回数繰り返し、所定回数のステップを終了すると1回の試行を終えて、再び初期条件を設定して次の試行を開始する。例えば、プラント3の定常運転中に外乱又は運転条件の変更が発生した場合のプラント3の挙動を学習させる場合には、学習制御部8は、シミュレータ40を構成するそれぞれの制御対象装置シミュレータ11及び制御装置シミュレータ43に、定常運転時の計測値、目標値、制御操作量の値を初期値として設定して学習を開始させ、ランダムに決定されたタイミングで外乱又は運転条件の変更を発生させ、シミュレータ40に外乱又は運転条件の変更に対応する値を入力する。プラント3を起動させる場合のプラント3の挙動を学習させる場合には、学習制御部8は、シミュレータ40に運転停止時の値を初期値として設定して学習を開始させ、定常運転に収束するまでのプラント3の挙動を学習させる。プラント3を停止させる場合のプラント3の挙動を学習させる場合には、学習制御部8は、シミュレータ40に定常運転時の値を初期値として設定して学習を開始させ、プラント3の運転の停止をシミュレータ40に指示し、プラント3の運転が停止されるまでのプラント3の挙動を学習させる。学習制御部8は、得られた報酬値が所定値未満であるなど、実行中の試行が良好な結果をもたらさないことが明らかであるような所定の条件が満たされた場合には、所定回数のステップが終了する前に試行を終了し、次の試行を開始してもよい。
【0052】
行動決定部4は、シミュレータ40に入力する複数のPIDパラメータを決定する。行動決定部4は、ランダムに、あるいは、ニューラルネットワーク7により表現された行動価値関数に基づいて、PIDパラメータを決定する。行動決定部4は、ε-greedy法などの既知の任意のアルゴリズムにしたがって、ランダムにPIDパラメータを決定するか、行動価値関数に基づいて期待される価値が最大となるPIDパラメータを決定するかを選択してもよい。これにより、広く様々な選択肢を試行しつつ、学習を効率良く進め、学習が収束するまでの時間を短縮することができる。
【0053】
複数計測値取得部9は、シミュレータ40から、複数の制御対象装置シミュレータ41の状態を示す複数の計測値を取得する。報酬値取得部5は、複数計測値取得部9により取得された複数の計測値により示されるプラント3の状態に対する報酬値を取得する。この報酬値は、プラント3において実行されるプロセス12の状態の良否を安定度指数として数値化したものである。より具体的には、報酬値は、(1)複数の計測値と制御目標値との差が小さいこと、(2)複数の計測値が振動していないこと、又は(3)複数の計測値が安定化するまでの所要時間が短いことを基準として、プロセスの状態の良否を安定度指数として数値化したものである。例えば、報酬値は、計測値と制御目標値との差が小さく、計測値の振動が小さく、又は計測値が安定化するまでの所要時間が短いほど、高くなるように決定される。
【0054】
行動価値関数更新部6は、報酬値取得部5により取得された報酬値に基づいて、ニューラルネットワーク7により表現された行動価値関数を更新する。行動価値関数更新部6は、ある状態sにおいて行動決定部4が取った行動の組の行動価値関数の出力が、ある状態sにおいて行動決定部4が取った行動の結果、報酬値取得部5により取得された報酬値と、その後に最適な行動を続けた場合に得られるであろう報酬値の和の期待値に近づくように、ニューラルネットワーク7の重みを学習させる。すなわち、行動価値関数更新部6は、報酬値取得部5により実際に得られた報酬値と、その後に得られるであろう報酬値の期待値に時間割引を乗じた値の和と、行動価値関数の出力値との間の誤差を減らすように、ニューラルネットワーク7の各層の各結合の重みを調整する。これにより、ニューラルネットワーク7により算出される行動価値が真の値に近づくように重みが更新され、学習が進んでいく。
【0055】
図8は、操作パネルの表示装置に表示される表示画面の例を示す。表示画面には、プラント3のプロセスフロー図と、各PIDコントローラに設定されているPIDパラメータの現状値と、運転条件設定支援装置30により決定されたPIDパラメータの推奨値が表示されている。オペレータが、表示装置に表示された推奨値を参照してPIDパラメータを入力すると、入力されたPIDパラメータを制御装置20のPIDパラメータ取得部25が取得し、制御操作量決定部26が制御操作量を決定するために使用される。これにより、プラント3の挙動が不安定となりうる要因が発生した場合であっても、プラント3の挙動を迅速に安定化させることができる。
【0056】
以上、本発明を実施例をもとに説明した。この実施例は例示であり、それらの各構成要素や各処理プロセスの組合せにいろいろな変形例が可能なこと、またそうした変形例も本発明の範囲にあることは当業者に理解されるところである。
【0057】
本発明の技術は、複数の制御装置により複数の制御対象装置が制御されるプラントにおいて利用可能である。実施の形態では、それぞれPID制御される複数の制御系を含むプラントについて説明したが、P制御、PI制御など、他の任意の制御方式の制御系を含むプラントにも本発明の技術を利用可能である。
【符号の説明】
【0058】
1 プラント運転条件設定支援システム、2 学習装置、3 プラント、4 行動決定部、5 報酬値取得部、6 行動価値関数更新部、7 ニューラルネットワーク、8 学習制御部、9 複数計測値取得部、10 制御対象装置、11 制御対象装置シミュレータ、12 プロセス、20 制御装置、21 制御部、22 操作パネル、23 計測値取得部、24 目標値取得部、25 PIDパラメータ取得部、26 制御操作量決定部、27 制御操作量入力部、30 運転条件設定支援装置、31 制御部、32 複数計測値取得部、33 PIDパラメータ決定部、34 PIDパラメータ出力部、35 モード切替部、36 方策更新部、40 シミュレータ、41 制御対象装置シミュレータ、42 プロセスシミュレータ、43 制御装置シミュレータ。