(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-04-03
(45)【発行日】2024-04-11
(54)【発明の名称】メタ強化学習を用いたプロセスコントローラ
(51)【国際特許分類】
G05B 13/02 20060101AFI20240404BHJP
【FI】
G05B13/02 Z
【外国語出願】
(21)【出願番号】P 2022038751
(22)【出願日】2022-03-14
【審査請求日】2022-03-23
(32)【優先日】2021-03-15
(33)【優先権主張国・地域又は機関】US
(32)【優先日】2022-03-02
(33)【優先権主張国・地域又は機関】US
(73)【特許権者】
【識別番号】508322831
【氏名又は名称】ハネウェル・リミテッド
(74)【代理人】
【識別番号】100118902
【氏名又は名称】山本 修
(74)【代理人】
【識別番号】100106208
【氏名又は名称】宮前 徹
(74)【代理人】
【識別番号】100196508
【氏名又は名称】松尾 淳一
(74)【代理人】
【識別番号】100147991
【氏名又は名称】鳥居 健一
(72)【発明者】
【氏名】ダニエル・ジョージ・マクレメント
(72)【発明者】
【氏名】ネイサン・ペロン・ローレンス
(72)【発明者】
【氏名】フィリップ・ダニエル・ローウェン
(72)【発明者】
【氏名】ラトナ・ブーシャン・ゴパルニ
(72)【発明者】
【氏名】マイケル・ゴレゴリー・フォーブス
(72)【発明者】
【氏名】ウルフ・ヨハン・バックストロム
【審査官】西井 香織
(56)【参考文献】
【文献】中国特許出願公開第111783994(CN,A)
【文献】米国特許出願公開第2020/0394506(US,A1)
【文献】国際公開第2021/033380(WO,A1)
【文献】米国特許出願公開第2020/0020326(US,A1)
【文献】特表2019-529135(JP,A)
【文献】QINGE XIAO et. al,META-REINFORCEMENT LEARNING OF MACHINING PARAMETERS FOR ENERGY-EFFICIENT PROCESS CONTROL OF FLEXIBLE TURNIG OPEREATIONS ,IEEE TRANSACTIONS ON AUTOMATION SCIENCE AND ENGINEERING,米国,IEEE,2021年01月,VOL.18 NO.1,PP.5-18
(58)【調査した分野】(Int.Cl.,DB名)
G05B 13/02
(57)【特許請求の範囲】
【請求項1】
処理機器を制御するように構成されたアクチュエータに結合された少なくとも1つのプロセスコントローラ(311、312、313)を含むプロセス制御システム(PCS)によって実行される産業プロセスのプロセス制御のためのメタ強化学習(MRL)の方法であって、
少なくとも1つのプロセッサ(612)と、深層RL(DRL)アルゴリズム及び埋め込みニューラルネットワークを記憶するメモリ(610)と、を含むデータ処理システム(400)を提供することを含み、前記データ処理システムが、
前記DRLアルゴリズムを訓練することであって、前記産業プロセスからの過去のプロセスデータを含む入出力プロセスデータを含むコンテキストデータを処理して、前記コンテキストデータよりも低い次元の多次元ベクトルを生成することと、前記産業プロセスのダイナミクス及び制御目標を表すように前記コンテキストデータを要約することとを含む、訓練することと、
潜在ベクトルを使用して、
より低い次元変数を用いた前記DRLアルゴリズムの訓練により前記プロセスコントローラを新しい産業プロセスに適応させることであって、前記潜在ベクトルは、前記生成された多次元ベクトルに対応する、適応させることと、
MRL訓練アルゴリズムを使用してメタ強化学習エージェント(MRLエージェント)を訓練することであって、前記MRL訓練アルゴリズムが、前記MRLエージェントを訓練して、
改良されたパラメータセットを収集し、前記MRLエージェントが、前記
改良されたパラメータセットを使用して前記新しいプロセスを制御する、訓練することと、
を行うように構成されている、方法。
【請求項2】
前記DRLアルゴリズムが、ポリシー
ニューラルネットワークを含み、前記ポリシー
ニューラルネットワーク(608)が、前記潜在ベクト
ル及び前記新しい産業プロセスの現在の状態を入力として取得し、次いで、前記アクチュエータが前記処理機器を制御するために構成された制御アクションを出力するように構成されている、請求項1に記載の方法。
【請求項3】
前記ポリシーニューラルネットワーク(608)が、アクターニューラルネットワークを備え、前記訓練が、前記プロセスの潜在的表現を決定するために、異なるプロセス又は制御目標モデルの分布を使用して、前記ポリシーニューラルネットワーク(608)を訓練することを更に含む、請求項2に記載の方法。
【発明の詳細な説明】
【技術分野】
【0001】
(関連出願の相互参照)
本出願は、2021年3月15日に出願された米国仮出願第63/161,003号、表題「PROCESS CONTROLLER WITH META-REINFORCEMENT LEARNING」に対する利益及び優先権を主張し、同出願は全体を参照により本明細書に組み込む。
【0002】
(発明の分野)
開示される態様は、プロセス制御システムのメタレベル学習を有するプロセスコントローラに関する。
【背景技術】
【0003】
1つ以上の従来のプロセスコントローラを有するプロセス制御システム(PCS)によって実行されるプロセスが制御される場合、プロセスダイナミクスを決定し、プロセスコントローラをチューニングすることは、熟練した人員を必要とし、かなりの時間を要し、プロセス品質又は製品収率を破綻させる可能性のある手動プロセスである。産業プロセスコントローラのセットアップ及びメンテナンスは、多種多様な産業にわたって存在する問題である。
【0004】
メタ学習、又は「学び方の学習」は、機械学習における活発な研究領域であり、その目的は、実行できるタスクの分布を管理する基本構造を学習することである。プロセス制御用途では、多くのシステムが、分布にわたる訓練に合わせて適応される同様のダイナミクス又は既知の構造を有するため、メタ学習は魅力的であると考えられる。多くのプロセスの場合、広範なオンライン学習は、生産を混乱させ、品質又は製品収率を低下させる可能性があるために望ましくない。メタ学習は、チューニングアルゴリズムがいくつかの関連するシステムに対して予め訓練されているため、プロセスコントローラのチューニングに必要なオンライン学習の量を大幅に削減することができる。
【発明の概要】
【0005】
本概要は、提示される図面を含む以下の「発明を実施するための形態」で更に詳述される、簡潔に選定された開示の概念を単純な形態で紹介するために提供される。本概要は、特許請求される主題の範囲を限定することを意図するものではない。
【0006】
一実施形態では、方法は、少なくとも1つのプロセッサと、深層強化学習(DRL)アルゴリズム及び埋め込みニューラルネットワークを記憶するメモリと、を含むデータ処理システムを提供することを含む。データ処理システムは、DRLアルゴリズムを訓練するように構成されており、訓練することは、産業プロセスからの過去のプロセスデータを含む入出力プロセスデータを含むコンテキストデータを処理して、コンテキストデータよりも次元が低い多次元ベクトルを生成することと、産業プロセスのダイナミクス及び制御目標を表すためにコンテキストデータを要約することと、を含む。データ処理システムはまた、潜在ベクトルを使用し、プロセスコントローラを新しい産業プロセスに適応させる。データ処理システムはまた、メタRL訓練アルゴリズムを使用して、メタRLエージェントを訓練する。メタRL訓練アルゴリズムは、メタRLエージェントを訓練して、メタRLエージェントのための好適なパラメータセットを収集し、それを使用して新たなプロセスを制御する。
【0007】
別の実施形態では、プロセスコントローラは、深層強化学習(DRL)アルゴリズム及び埋め込みニューラルネットワールを記憶するデータ処理システムを含む。データ処理システムは、入出力処理データを処理するDRLアルゴリズムを訓練して、産業プロセスのダイナミクス及び制御目標を表すコンテキストデータと比較して、より低次元の多次元ベクトルを生成する。プロセスコントローラはまた、潜在ベクトルを使用して、処理コントローラを新しい産業プロセスに適応させる。プロセスコントローラはまた、メタRLエージェントを訓練して、新しいプロセスを制御するパラメータセットを収集する。
【0008】
更なる実施形態では、システムは、深層強化学習(DRL)アルゴリズム及びDRLアルゴリズムを訓練する埋め込みニューラルネットワークを含み、コンテキストデータよりも次元が低い多次元ベクトルを生成し、産業プロセスのダイナミクス及び制御目標を表すためにコンテキストデータを要約する。システムはまた、プロセスコントローラを新しい産業プロセスに適応させる。更に、システムはメタRL訓練アルゴリズムを使用してメタRLエージェントを訓練し、メタRLアルゴリズムはメタRLエージェントを訓練して、新しいプロセスを制御するための好適なパラメータセットを収集する。
【0009】
開示される態様は、プロセス特性を自動的に認識し調節して、プロセスモデルを判定する、及び/又はプロセスコントローラのパラメータをチューニングする産業プロセスコントローラ用の(MRL)を開示することによって、産業プロセスコントローラの手動チューニングの必要性という上述の問題を解決する。開示されるMRLは、同じ又は関連するプロセスのために、プロセスコントローラを、新しいプロセスダイナミクスだけでなく異なる制御目標(例えば、新しい報酬関数の選択)に適応させることができる。開示される態様は、一般に、プロセスコントローラに適用され得るソフトウェア製品又はサービスにコード化される。
【図面の簡単な説明】
【0010】
【
図1】例示的な態様による、プロセスモデルの更新及び/又はプロセスコントローラのパラメータチューニングのためのMRLの方法におけるステップを示すフローチャートである。
【0011】
【
図2】ローカルサーバ(1つの場所で)又はクラウドタイプの環境で実装され、いくつかのサーバにわたって分散され得る、シミュレーション及び訓練中のMRLのデータ記憶及び処理システムの図である。μ
θは埋め込みネットワークであり、Q
θはクリティックネットワークであり、π
θはアクターネットワークである。例示的な伝達関数
【数1】
は、コントローラが訓練されているタスクを表す。θ、θ’、θ’’は、3つのニューラルネットワークが固有のパラメータを有することを強調するために使用される。MRLアルゴリズムは、異なるダイナミクスで、実際の又はシミュレートされた複数の異なるプロセスを制御することによって訓練される。これらのプロセス経験は、リプレイバッファとして本明細書で言及されるメモリに記憶され、MRLプロセスモデルのパラメータを更新するために使用される。いったんプロセスモデルが、一般的に最小量のタスク固有データを使用して、新規のプロセスダイナミクスに適応するように十分に訓練されると、プロセスモデルは、ユーザに関連する物理的プロセスに展開される準備が整う。
【0012】
【
図3】開示される態様が適用され得る例示的なプロセス制御システムを示す図であり、プロセスコントローラが、開示されるMRLの方法によって生成された更新プロセスモデル又はチューニングパラメータを実施する。
【0013】
【
図4】MRLの開示される方法を実装するために使用され得るデータ処理システムの例示的な内部構造の図である。
【0014】
【
図5】様々なダイナミクスを有するプロセスに展開されたときに、従来の強化学習コントローラと比較して、開示されるモデル制御性能を示す図である。
【0015】
【
図6-1】プロセスダイナミクスの同じ分布にわたって訓練された従来の強化学習コントローラの性能と比較して、異なるプロセスダイナミクスにわたる訓練後の開示されるメタ学習コントローラの性能を示す図である。
【
図6-2】プロセスダイナミクスの同じ分布にわたって訓練された従来の強化学習コントローラの性能と比較して、異なるプロセスダイナミクスにわたる訓練後の開示されるメタ学習コントローラの性能を示す図である。
【
図6-3】プロセスダイナミクスの同じ分布にわたって訓練された従来の強化学習コントローラの性能と比較して、異なるプロセスダイナミクスにわたる訓練後の開示されるメタ学習コントローラの性能を示す図である。
【0016】
【
図7】新しいプロセスへのコントローラの適応性能の移動する20エピソードの平均を示す図である。影付き領域は、10個の異なる試験にわたるコントローラ性能分布から計算された四分位数範囲を表す。開示されるメタ学習コントローラは、より大きな「リターン」に対応する改善された初期性能を実証する。
【0017】
【
図8-1】実施された実験からの潜在コンテキスト変数の視覚化を示す図である。確率論的潜在変数空間の拡大図は、訓練伝達関数の変数分布が単一点ではなく、むしろ、分布が非常に小さな分散を有することを強調している。
【
図8-2】実施された実験からの潜在コンテキスト変数の視覚化を示す図である。確率論的潜在変数空間の拡大図は、訓練伝達関数の変数分布が単一点ではなく、むしろ、分布が非常に小さな分散を有することを強調している。
【0018】
【
図9-1】伝達関数1/(s+1)
3に作用する異なる制御目標にわたる例示的なマルチタスク及びメタ学習コントローラの性能を示す図である。
【
図9-2】伝達関数1/(s+1)
3に作用する異なる制御目標にわたる例示的なマルチタスク及びメタ学習コントローラの性能を示す図である。
【
図9-3】伝達関数1/(s+1)
3に作用する異なる制御目標にわたる例示的なマルチタスク及びメタ学習コントローラの性能を示す図である。
【0019】
【
図10】本発明の実施形態による、メタRLエージェント相互作用を示す図である。
【0020】
【
図11】本発明の実施形態によるRLエージェントの構造を示す図である。
【0021】
【
図12】本開示の実施形態によるグラフ比較を示す。
【0022】
【
図13】本発明の実施形態に関連するシステム出力軌道を示す図である。
【0023】
【
図14】本発明の一実施形態によるオンライン時間パラメータを示す図である。
【0024】
【
図15】本発明の一実施形態によるシステム出力軌道グラフである。
【0025】
【
図16】プロセスダイナミクスの変化に対するチューニングアルゴリズムの記応答を伴うシステム出力軌道を示す図である。
【0026】
【
図17】本発明の一実施形態による、メタRLモデルからの深層隠れ状態でのPCA結果を示す図である。
【0027】
【
図18】本発明の一実施形態による、メタRLチューニングアルゴリズムの性能を示す図である。
【0028】
【
図19】本発明の実施形態によるフローチャートである。
【発明を実施するための形態】
【0029】
添付の図面を参照して、開示される態様を説明するが、類似又は同等の要素を示すために、図面全体にわたって同じ参照番号を使用する。図面は、縮尺どおりに描かれておらず、それらは、特定の開示される態様を単に例証するために提供される。いくつかの開示される態様は、例証のための例示的な用途に言及しながら以下に記載される。開示される態様の完全な理解を提供するために、多数の具体的な詳細、関係、及び方法が記載されることを理解するべきである。
【0030】
開示される態様は、概して、強化学習アルゴリズムとしてモデルを含まない深層強化学習(DRL)アルゴリズムを利用する。明確にするために、DRLアルゴリズムは、プロセスの動的モデルに依存しないという意味で、モデルを含まない。しかしながら、ポリシーを決定するためのニューラルネットワークなどのDRLアルゴリズムに含まれるモデルを指す場合がある。DRLアルゴリズムは、モデルを含まないだけでなく、オフポリシーでもあり、連続アクション空間と適合する。オフポリシーとは、現在の制御ポリシーにはもはや適合していない環境で有していた以前の相互作用から学習することができるDRLを指す。
【0031】
従来の深層RLアルゴリズムは、オンポリシーであり、コントローラの現在のポリシーと整合された環境で最新の経験からのみ学習することができる。過去の経験を保存して利用することは、オフポリシーアルゴリズムをはるかにサンプル効率の高い有用なプロパティとする。DRLアルゴリズムを開示されるMRLアルゴリズムにするために、以前のタスク特有経験のバッチは、本明細書でzと呼ばれる多次元潜在変数を生成する埋め込みネットワークに供給される。一般的なケースでは、DRLは、zを追加入力として使用して訓練される。DRLのより具体的な例を提供するために、本明細書では、以下の段落において、アクタークリティックネットワークとして記載されたポリシークリティックネットワークベースのDRLフレームワークが記載されている。アクタークリティックは、RLの一般的な方法、即ち、アルゴリズムのクラスである。
【0032】
アクタークリティックネットワークは、状態及びアクション信号の関数であり、それは、各状態-アクション対の長期報酬に近似する。「アクター」は、アクション(例えば、制御信号)を生成する目的を果たす。アクターは、ポリシーと同義である。それらがどのように協働するかは、クリティックによって生成された予測報酬を最大化するようにアクターが更新されることである。アクター-クリティック実装の場合、DRLのアクター-クリティックは、zを追加の入力として使用して訓練される。潜在変数zは、DRLエージェントが5次元以下のような低次元形態で制御しているタスクのプロセスダイナミクス及び制御目標を表すことを目的とする。これは、プロセスダイナミクスを理解し、プロセスを制御するという問題を解決する。
【0033】
埋め込みネットワークは、上述するように実際のデータ又はシミュレートされたデータであり得る生プロセスデータを与えられてプロセスダイナミクスを解くというタスクを課される一方、アクタークリティックネットワークは、プロセスダイナミクスをzとして与えられて最適な制御戦略を開発するタスクを課せられる。コントローラが十分に大きな分布のタスクにわたって訓練される場合、それは、タスク全体で共有構造を利用することによって、タスク特有訓練なしに同様のダイナミクスを用いて新しいプロセスを制御するように適応され得るべきであると認識される。
【0034】
この開示に至るまで、メタ学習の領域は、産業プロセス制御の分野において適用されてこなかったと思われる。開示される態様を既知のMRL用途と異ならせる2つの主要な要因がある。第1に、メタ学習の領域は、主に、MRLエージェントが、そのアクションがほとんどの時間ステップでどのように望まれるかに関するフィードバックを受信しないことを意味する(このフィードバックは、報酬信号と呼ばれる)疎な報酬環境における用途のサンプル効率の改善に関する。対照的に、産業プロセス制御用途は、一般的に、設定点追跡誤差の形態で全ての時間ステップで与えられる非常に豊富な報酬信号を有する。
【0035】
しかしながら、産業プロセス制御用途は、本開示が対処する固有の課題のセットを有する。MRLの既知の使用例は、シミュレートされた若しくは物理的なロボットシステム、又はプロセスダイナミクスをより学習し易くする大量の励起が存在するその他の用途であった。対照的に、本開示に関して、産業プロセス制御用途における目標は、システムを設定点で可能な限り静止させて、障害を排除することである。これにより、ほとんどのデータが情報を与えないため、プロセスダイナミクスを学習することが極めて困難になる。したがって、本開示は、コントローラが最小限の励起で制御プロセスを学習する新しく、非自明な方法でMRLを適用すると考えられる。
【0036】
メタRLフレームワークは、比例積分(PI)コントローラをチューニングするという課題に適用される。Piパラメータは、積分時定数パラメータではなく積分ゲインパラメータを使用することによって得られる改善された数値能力により、メタRLエージェントを訓練するために使用される。メタRLスキームの利点は、明示的なシステム識別なしに閉ループで行われるチューニングを含む。更に、基本システムが変化するときでも、チューニングは自動的に実行される。エージェントは、オンライン訓練なしに、新規の「分布内」システムで展開することができる。
【0037】
潜在ベクトルを使用して、プロセスコントローラを新しい産業プロセスに適応させることができる。メタRLエージェントは、メタRL訓練アルゴリズムを使用して訓練される。更に、メタRL訓練アルゴリズムは、メタRLエージェントを訓練して、好適なパラメータセットを収集し、メタRLエージェントはこの好適なパラメータセットを使用して、新しいプロセスを制御する。
【0038】
図1は、方法におけるステップを示すフローチャートである。例示的な態様による、メタ補強学習(MRL)の方法100のステップを示すフローチャートである。110では、ステップ101は、以下のステップ102及び103を実行するように構成された、少なくとも1つのプロセッサと、DRLアルゴリズム及び埋め込みニューラルネットワークを記憶するメモリと、を含むデータ処理システムを提供することを含む。
【0039】
図1では、120で、ステップ102は、処理機器を制御するように構成されたアクチュエータに結合された少なくとも1つのプロセスコントローラを含むPCSによって実行される産業プロセスからの過去のプロセスデータを含む入出力プロセスデータを含むコンテキストデータを処理することを含む、DRLアルゴリズムを訓練することと、コンテキストデータよりも次元が低い多次元ベクトル(本明細書では潜在変数zと称される)を生成するために、産業プロセスのダイナミクスと、制御入力、システム出力、及び設定点データを含む、例えばデータヒストリアンからの生データとしても知られる制御目標プロセスデータと、を表すようにコンテキストデータを要約することと、を含む。(埋め込みニューラルネットワークのための)コンテキストデータは、一般に、産業プロセス(抄紙機又は他の平坦シート製造プロセス、蒸留塔、選鉱におけるSAG又はボールミル、ヒータ反応器など)からの履歴プロセスデータとオンライン出力データ(物理的システム又はシミュレートされたシステムから)との組み合わせから収集される。
【0040】
図1では、130で、ステップ103は、より低い次元変数を使用することと、プロセスコントローラを新しい産業プロセスに適応させることとを含む。したがって、埋め込みニューラルネットワークは、ステップ102において訓練されて、より低い次元変数を生成し、より低い次元変数は、訓練の後に、新しいプロセスに適応するように使用される。
【0041】
図1では、方法100は、埋め込みニューラルネットワークとは異なるポリシークリティックネットワークを含むDRLアルゴリズムを含むことができ、ポリシーニューラルネットワークは、より低い次元変数及び新しい産業プロセスの現在の状態を入力として取得し、次いで、アクチュエータが処理機器を制御するために構成された制御アクションを出力するように構成される。別の関連する配置では、ポリシーニューラルネットワークは、アクターニューラルネットワークを含み、訓練は、プロセスモデルを決定するために、異なるプロセス又は制御目標モデルの分布を使用してプロセスコントローラを訓練することを更に含む。このフレームワークは、モデルベースのRLを、モデルが利用可能でない問題に拡張する。コントローラは、モデルが知られる必要がない別個のプロセスを制御するように学習するために、「タスク」と称される、異なるプロセス又は制御目標モデルの分布を使用して訓練され得る。このフレームワークは、一般に任意の産業プロセスを最適に制御するために迅速に適応することができる「ユニバーサルコントローラ」を開発するために使用することができる。コンテキストデータは、PCSから取得されたオンライン出力データを更に含むことができ、PCSは、物理的PCS又はシミュレーションされたPCSであり得る。
【0042】
制御目標は、追跡誤差、入力信号の大きさ、又は入力信号の変化のうちの少なくとも1つを含むことができる。これらの3つの制御目標は、変動する重みを含め、一緒に追加することができる。多次元ベクトルは、5次元以下のユーザ定義されたパラメータであり得る。
【0043】
図2は、ローカルサーバ(1つの場所で)又はクラウドタイプの環境で実装され、いくつかのサーバにわたって分散され得る、シミュレーション210及び訓練240中のMRLネットワークのデータ記憶及び処理システム200の図である。μ
θは埋め込みネットワークであり、Q
θ0は、クリティックネットワークであり、π
θ00は、アクターネットワークである。例示的な伝達関数
【数2】
は、コントローラが訓練されているタスクを表す。θ、θ
0、θ
00は、3つのニューラルネットワークが固有のパラメータを有することを強調するために使用される。MRLアルゴリズムは、異なるダイナミクスで、実際の又はシミュレートされた複数の異なるプロセスを制御することによって訓練される。これらのプロセス経験は、リプレイバッファ220として本明細書で言及され、
図2に示されるようなメモリに記憶され、MRLプロセスモデルのパラメータを更新するために使用される。リプレイバッファ220と共に、ストア経験215、コンテキストサンプラ225、アクタークリティックサンプラ230が示されている。いったんプロセスモデルが、一般的に最小量のタスク固有データを使用して、新規のプロセスダイナミクスに適応するように十分に訓練されると、プロセスモデルは、ユーザに関連する物理的プロセスに展開される準備が整う。
【0044】
図2では、コントローラと環境(タスク)の生成との間の相互作用は、リプレイバッファに記憶された状態、アクション、報酬、及び次の状態の経験組を生成する。これらの経験の小さなバッチは、潜在変数zを計算する埋め込みネットワークμθにサンプリングされる。訓練中、個々の状態アクション対は、潜在コンテキスト変数と共にアクタークリティックネットワークに供給される。アクターπθ00は、s及びzを使用して、それが取るアクションを選択する。クリティックQθ0は、値関数を作成するために使用され、アクターによって取られる望ましい行動がどのようであるかを判断する。
【0045】
図2及び他の実施形態を参照すると、過去の経験は、埋め込みネットワークとアクタークリティックネットワークとでは異なってサンプリングされる。最近、したがってオンポリシーにより近づくと、訓練がより効率的であることが認識されており、コンテキストが使用されて埋め込み及び埋め込みなしを生成する(マルチタスク学習とも呼ばれ、通常のDRLコントローラがタスクの分布にわたって訓練される)。PEは、疎な報酬又は部分的に観察可能な環境でより良好な性能を有すると認識されるが、報酬信号が設定点追跡誤差の形態で全ての時間ステップで存在する際、DEの使用は多くの産業制御問題に対して正当化され得る。rt=|ysp-yt|及び環境ダイナミクスは、潜伏変数を構築するために使用される経験のバッチが十分に大きい場合には完全に観察可能である(即ち、埋め込みネットワークは、多くの異なる状態遷移を見ることによってzを生成する)。アルゴリズム1は、プロセスモデルの分布にわたる、開示されるメタ学習コントローラのメタ訓練手順を概説する。
【0046】
図3は、開示される態様が適用され得るプラントネットワーク300として示される例示的なプロセス制御システムを示し、プロセスコントローラ321~323が、開示されるMRLの方法によって生成された更新プロセスモデル又はチューニングパラメータを実施する。
図3は、処理機器306、フィールドデバイス308、dcsコントローラ311、312、313、フィールドバス/フィールドネットワーク330を示す。加えて、DCSサーバ321~323が、コントロールネットワーク335と共に示される。また、ワークプレイス331~332を含むドメインコントローラ340も示される。
図3は、ファイアウォール334、336、DMZ339、368、及びDCS360も含む。加えて、
図3は、冗長プラントネットワーク345、ワークプレイス341~342、及びファイアウォール344も示す。
【0047】
図4は、開示される態様が適用され得る、
図3に示されるプラントネットワーク300と共に使用され得るデータ処理システム400の例示的な内部構造の図であり、プロセスコントローラ321~323が、データ処理システム400によって実装されたMRLの開示される方法の結果を実施し、データ処理システム400はオンサイトであっても、クラウドに配置されてもよい。
【0048】
図4は、ネットワーク408、メモリ420、システムバス402、ユーザインターフェース404、通信インターフェース416、及びネットワークインターフェース406を有するシステム400を含む。加えて、
図4は、プロセッサ412、サポート電子回路ロジック414、及びメモリ410を含む。
【0049】
開示される態様は、強化学習用途をサポートするために十分な計算能力及びメモリを有する、略任意の産業制御製品又はサービスと共に含まれ得る。例としては、Experion MX QCS、及びPROFIT CONTROLLER用のHoneywell InternationalのMD及びCD制御用途が挙げられる。
【0050】
開示される態様は、以下の特定の実施例によって更に例証され、実験的シミュレーション結果が提示及び記載されるが、これは、任意の方法で本開示の範囲又は内容を制限するものとして解釈されるべきではない。
【0051】
図5は、産業プロセス制御用途のためのプロセスコントローラを生成するために開示されるMRLの有効性を評価する2回の実験500が実行された方法を示す。各実施例では、どのようにコンテキスト埋め込み510、520が、MRLアルゴリズムの複数タスクを同時に制御する能力(一般化)、及び新しいタスクが提示されたときのメタRLアルゴリズムのサンプル効率(適応性)に影響を及ぼすかを調べた。相対性能は、決定論的埋め込み(DE)、確率論的埋め込み(PE)、及び埋め込みなし530、540を用いて、既知の制御照アルゴリズムエージェントと比較した。以下に記載されるように、MRLモデルが異なるダイナミクスを有する複数のシステムで訓練され、次いで、新しいダイナミクスで異なるシステム上で試験される例が提示される。以下に記載されるセクション4.2では、システムダイナミクスが一定に保たれている間、複数の制御目標にわたって訓練されているMRLの例が提示されている。モデルは、新しい制御目標への適応性に基づいて評価される。
【0052】
新たなダイナミクスの学習:
予備バイナリゲイン例
この予備実験では、マルチタスクRLコントローラ(タスクの分布にわたって訓練された従来のRLコントローラ)とDE MRLコントローラの性能が、単純な伝達関数
【数3】
で比較される。本例では、s
t=(yt,y-1,t-2,y-3,et,It)、但し、etは設定点追跡誤差であり、Itは現在の訓練エピソードに対する設定点追跡誤差の積分であり、PIDコントローラで見出されるものと同じである。
【0053】
各コントローラのサンプル軌道が
図5に示される。開示されるMRLコントローラはこの比較的単純な問題をマスターすることができるが、マルチタスクコントローラはできない。このことは、stの構成を考慮すると理解できる。過去のアクションが状態に含まれていないため、マルチタスクコントローラはアクションの因果作用を判定して、環境のダイナミクスを理解することが不可能だからである。この情報は、潜在コンテキスト変数を介してMRLコントローラに暗黙的に与えられる。
【0054】
この問題は比較的非常に単純であるが、モデルを含まないプロセス制御のために開示されるメタ学習の1つの強みを強調するものである。メタ学習は、最適な制御ポリシーを開発する問題からプロセスダイナミクスを理解するという問題を解決する。十分に訓練された埋め込みネットワークを使用して、コントローラをプロセスダイナミクスの低次元表現で直接訓練することができる。これにより、訓練がより効率化され、プロセスダイナミクスを理解するために必要な全ての情報を含む必要がないより単純な状態表現が可能になる。このため、プロセスダイナミクスを全ての時間ステップで再発見する必要がないため、より高速な適応制御が可能になり、潜在コンテキスト変数は、新しい環境内で1回計算され、一定に保たれ得る。
【0055】
この実験における最初のダイナミクス例では、コントローラは3つの伝達関数にわたって訓練される。
【0056】
エージェントの性能は、伝達関数で評価される。これらのシステムは、潜在的なコンテキスト可変埋め込みシステムダイナミクスの単なる例示として選択した。試験システムは、エージェントが既に見たダイナミクスの新たな構成であり、同じゲイン、頻度、及び順序、したがって、訓練中に開発されたプロセスダイナミクス埋め込みが、試験システムに適応するのに有用である可能性が高い。
【0057】
この例では、st=(yt,...,yt-3,at-1,...,at-4,et,It)。状態に以前のアクションを含むことにより、マルチタスクコントローラに、プロセスのダイナミクスを理解し、MRLコントローラと公平に競合するのに十分な情報が与えられる。MRLコントローラでPE対DEを使用する効果も調べる。それらが訓練される3つの伝達関数にわたるコントローラ性能を
図3に示す。
【0058】
DEを使用するMRLコントローラは、PEコントローラ及びマルチタスクコントローラの両方よりも性能が優れており、訓練中にコントローラが参照する他の伝達関数よりも高速なダイナミクスを有する伝達関数を制御するときにオーバーシュートを回避する。
【0059】
10及び20秒マークでの段階的変化に応答して取られる制御アクションを比較すると、DE MRLコントローラは、1/s+1と1/2s+1のプロセスとを区別することができるが、両方のシステムに対するマルチタスクコントローラ及びPE MRLコントローラの応答はほぼ同一であり、1/2s+1のより速いダイナミクスで最適以下の性能をもたらすことが明らかである。
【0060】
問題はかなり小さい確率性を有するため、決定論的コンテキスト埋め込みは、確率論的コンテキスト埋め込みよりも優れた性能を有する可能性が高い。プロセスダイナミクスは、コンテキストから完全に観察可能であり、問題の唯一のランダムな特徴は、訓練中に出力に追加される少量のガウス雑音である。この環境は、コンテキスト埋め込みネットワークがプロセスダイナミクスを確実に符号化することを可能にし、これは、分散が自然に低くなるために、分布からコンテキスト変数をサンプリングすることが不要であることを意味する。確率分布を符号化するための学習は、本質的に、サンプル効率が低く、決定論的変数を符号化するよりも訓練するのが困難である。マルチタスクコントローラの実行は、同じニューラルネットワークにおいてプロセスダイナミクスと最適な制御ポリシーとを同時に解く高い困難さに起因して悪化した可能性が高く、つまり、訓練をより低速にする、又は最適以下の解決策へと収束させる。
【0061】
MRLコントローラは、新しいシステムでの追加の訓練の前に、3つのコントローラのうちで最良の最初の性能を有した。このことは、我々がコントローラが設置される直後に効果的なプロセス制御を望むため、産業用途にとって望ましい。適応チューニング中のシステムの混乱は、費用がかかり、場合によっては安全ではない可能性がある。
【0062】
確率論的MRLコントローラによって生じた不十分な埋め込みは、この新しいプロセスに適応するときに明らかである。潜在コンテキスト変数は、コントローラに非常に少ない有用な情報を提供し、このプロセスで全くの最初から訓練されたRLコントローラと非常に類似している。更に、DE MRLコントローラは、他の2つのコントローラよりも堅牢であり、PE MRL及びマルチタスクコントローラのいずれも、訓練中に不安定性を経験し、適応訓練中に有意な性能低下を有する。全てのコントローラは、同様の漸近性能を達成する。
【0063】
MRL潜在性コンテキスト変数を
図5に示す。潜在的なコンテキスト変数に2次元z
1及びz
2が与えられて、システムに、システムダイナミクスを埋め込むために必要な自由度を与える(即ち、コントローラゲイン及び時定数を伝える)。新しい環境及びモデルに良好に一般化された決定論又はPEのいずれも、プロセスダイナミクスを正確に符号化する堅牢な特徴を開発するために、より多様なタスクにわたって訓練される必要はない。
【0064】
試験伝達関数
【数4】
のPE分布は、訓練伝達関数
【数5】
とほぼ同一であり、コントローラが同様のものとしてゲインを認識するが、それらの異なる時定数に基づいて2つを不十分にしか区別しないことを示す。対照的に、確率論的潜在変数空間における試験伝達関数の分布は、訓練伝達関数とは非常に異なり、訓練伝達関数よりも大きい分散を有する。PEネットワークは、新しいシステムを以前の訓練データとは異なるものとして認識することができるが、新しいタスクのその埋め込みは、潜在変数空間の未探査部分にあり、したがって、アクタークリティックネットワークに有用な情報を与えず、PE MRLコントローラが
図7の未訓練RLコントローラと非常に類似して実行した理由を説明する。更に、
【数6】
の潜在変数分布は、可視的に異なるが、互いに非常に近くに位置付けられる。
【0065】
図6では、確率論的コントローラのポリシーは2つを区別しない。これらの結果は、より大きく、より多様な訓練データが、プロセス制御用途でMRLを実行可能にするために必要であることを示す。
【0066】
図6は、様々な設定点を有するシステム600を示す。埋め込みなし610、620が示される。加えて、決定論的埋め込み630、640も示される。更なる確率論的埋め込み650、660も示される。
【0067】
図7では、伝達関数-1/2s1に対するコントローラの適応性が試験されている。更に、以下で説明するように、コントローラの適応性能を
図7に示す。システム700は、エピソードリターン710と訓練エピソードの数720とを含む。大きな網掛けの四分位数間領域は、主に、コントローラの変数性能ではなく、環境の変数性質に起因する。全てのエピソードの間、各コントローラは、10のランダムな設定点変化について試験される。0.1~0.11の設定点変化を管理するタスクを課せられたコントローラは、例えば、0.1~1.0の設定点変化を管理するタスクを課せられた全く同じコントローラよりも小さな累積オフセットペナルティを経験する可能性が高い。10のランダム設定点変化は、公正比較のために全てのコントローラにわたって一貫している。
【0068】
図8は、変数z1、z2、及びz3をそれぞれ有するグラフ810、820でシステム800を示す。グラフ810、820は、プロセス(-1)/(0.5s+1)、(-1)/(s+1)、(-1)/(1.5s+1)、(-1)/(2s+1)、(-2)/(0.5s+1)、(-2)/(s+1)、(-2)/(1.5s+1)、(-2)(2s+1)、(2)/(0.5s+1)、(2)/(s+1)、(2)/(1.5s+1)、及び(2)/(2s+1)に基づく。
【0069】
新規制御目標の学習
この実験では、本発明者らのコントローラは、伝達関数
【数7】
で訓練される。コントローラは、以下の式(4)に示されるRL報酬関数におけるパラメータα、β、γを操作することによって、異なる制御目標にわたって訓練される。
r
t=|y
sp-y
t|+α|a
t-a
t-1|+β|a
t|+γ(t)
【数8】
【0070】
設定点誤差にペナルティを課すことに加えて、α項は、滑らかなアクションを促進するために、間欠的な制御運動にペナルティを課す。β項は大きな制御アクションにペナルティを課し、プロセスへの入力に多大の費用がかかり得る用途にとって有用である。γ項は、基準時間ステップと比較して設定点誤差に符号変化があるときに定義されるオーバーシュートをペナルティを課し、y0を、設定点変更後のシステムの初期状態として選択した。α、β、及びγに適切な値を選択することを使用して、任意の特定用途の目標のために最適化された制御ポリシーを開発することができる。この実験では、st=(yt,...,yt-3,at-1,...,at-4,rt-1,...,rt-4,et,It)。以前の報酬が、異なるタスク(制御目標)を互いに区別するために必要な情報を有するマルチタスクエージェントの状態に追加される。
【0071】
マルチタスク、DE MRL、及びPE MRLコントローラは、報酬関数パラメータを変更することによって、4つの異なる制御目標にわたって訓練される。1つの環境は、設定点追跡誤差を最小限に抑えることのみを目的とし、別の環境は、アクションの変化に対するペナルティを有し、別の環境は、アクションの大きさに対するペナルティを有し、最後の環境は、オーバーシュートに対してペナルティを課される。これらの訓練されたコントローラの適応性能は、アクションの変化及びアクションの大きさの両方に対してペナルティを有する環境で試験される。コントローラの環境がコンテキストから完全に観察可能である例4.1.2とは異なり、この問題は、コンテキストから完全に観察可能ではなく、オーバーシュートペナルティは、設定点をオーバーシュートするまで、コントローラによって知ることができない。この理由から、確率論的コンテキスト埋め込みは、妥当な選択である。
【0072】
図9は、訓練環境にわたるコントローラの性能を示す。結果は、例4.1.2と同様の傾向に従う。システム900は、埋め込みなし910,920、決定論的埋め込み930、940及び確率論的埋め込み950、960のグラフで示されている。マルチタスクコントローラは、全ての環境に対して単一の一般化されたポリシーを学習する傾向があるが、MRLコントローラは、それらのポリシーを特定の環境に調整する。例えば、制御アクションの変化又はアクションの大きさに対してペナルティ化されていない場合、メタRLコントローラは、大きな振動アクションをとるが、環境がそのようなアクションにペナルティを課すときにこの挙動を回避する。確率論的MRLコントローラは、設定点から大きなオフセットを発生させる。これは、訓練中に出力に追加されるガウス雑音があるため、オーバーシュート環境における合理的な挙動である。したがって、設定点を通過させるために絶えずペナルティを課せられることを避けるために、設定点から小さい距離を保つことがより安全であり得る(このことは、報酬関数の定式化に関する1つの問題を浮き彫りにするものであり、対処する必要がある)。確率論的MRLコントローラは、オーバーシュート環境を他の環境と区別するように学習せず、出力と設定点との間のこのバッファをあらゆる環境に適用する。
【0073】
図10は、タスク分布とのメタRLエージェントの相互作用の図である。マルコフ決定プロセス(MDP)11010及びMDP21020を有するシステム1000が図示されている。メタRLは、単一MDPとは対照的に、MDP11010及びMDP21020などのMDPの分布にエージェントを一般化することを試みる。単一MDPは、タプルT=(S,A,p,c,γ)によって特徴付けることができる。しかしながら、対照的に、メタRLは、MDPの分布p
meta(T)にわたる最適化問題を扱う。メタRL設定に関連する問題は、全てのΘ∈R
nにわたるJ
meta(Θ)=
ET~pmeta(T)[J(θ
*(T、Θ)]を最小化することである。
【0074】
更に
図10を参照すると、メタRLは、異なるプラントにわたって良好に機能する単一のコントローラを見つけるように試みていない。対照的に、メタRLエージェントは、異なるプラントの基本構造と、コスト関数下での最適な制御戦略とを同時に学習しようと試みる。結果として、RLエージェントは、新しい又は新規の環境に迅速に適応することができる。メタ学習アルゴリズムに対する2つの構成要素は、所与のタスクを解決するアクタークリティックネットワークなどのモデルであり、モデルを更新する方法を学習するメタパラメータのセットでもある。更に、コンテキストベースのメタRL方法は、メタエージェントが所与のタスクのコンテキストとポリシーを同時に学習することを可能にする各タスクの潜在表現を学習する。各MDP毎に、メタRLエージェントは、最大数の時間ステップTを有し、MDP11010及びMDP21020について上述するエピソードと相互作用する。
【0075】
図10では、各エピソードが進行すると、RLエージェントは、観察されたRL状態に基づいてMDPを通る各時間ステップを進化させる隠れ内部状態z
tを有する。z
t=f
Θ(z
t-1,s
t)。したがって、RLエージェントは、s
t及びz
tの両方のアクションを条件とする。メタパラメータは、z
tによって符号化されるMDP固有パラメータの好適なセットを解くことによって、MDPのための制御ポリシーを迅速に適応させる。したがって、メタRLエージェントは、RLエージェント又はメタRLエージェントのための好適なパラメータセットを見出して、プロセスを制御するように訓練される。更に、メタRLエージェントを訓練する利点は、最終モデルがタスク分布p(T)にわたってMDP11010及びMDP21020などの全てのMDPを制御できることである。対照的に、通常のRLエージェントは、単一タスクのためにのみ最適化され得る。
【0076】
図10を参照すると、隠れ状態z
tは、リカレントニューラルネットワーク(RNN)で生成される。RNN構造は、ゲート付きリカレントネットワーク(GRN)である。RNNの基本形態はz
t=σ(Wz
t-1+Ux
t+b)及びo
t=Vz
t+cである。変数は訓練可能な重みであり、x
tはネットワークへの入力であり、O
tはネットワークへの出力である。記載されたRNNは、いくつかの目標のために最適化された非線形状態空間システムであり得る。
【0077】
図11では、メタRLエージェントの構造が示される。メタRLエージェント1100は、メタRLポリシー1110、s
t1115、リカレント層11120、リカレント層21125、アクターエンコーダ1130、出力層1135、K
C、t、K
l、t1140、st1145、クリティックエンコーダ1150、完全接続層1155、出力層1160、及びv
t1165を含む。
【0078】
図11を参照すると、メタRLエージェント1100のボックス部分は、コントローラチューニングのためにオンラインで使用されるメタRLエージェントの一部を示す。各時間ステップでRL状態を観察することにより、メタRLエージェント1100のリカレント層1120、1125は、PIパラメータをチューニングするための情報を含む埋め込み状態又は隠れ状態を作成する。情報は、システムダイナミクス及びシステムダイナミクスに関する任意の不確実性を含む。埋め込みは、メタRLエージェントのプロセスダイナミクスに関する知識が変化すると更新されるプロセス固有RLパラメータを表す。更に、2つの完全接続層1155は、埋め込みを使用して、コントローラのPIパラメータへの調整を推奨する。加えて、リカレント層1、2 1120、1125を含めることは、メタRLエージェント1100の性能に不可欠である。時間ステップ間に運ばれる隠れステップは、メモリを有するメタRLエージェント1100を可能にし、メタRLエージェント1100が、従来のフィードフォワードRLネットワークが実行できないであろうプロセスダイナミクスの表現を学習することを可能にする。
【0079】
図11では、メタRLエージェント1100のボックスの外側では、クリティックエンコーダ1150が、現在のRL状態を前提として現在のMDPにおいて将来のコストを割り引いたメタRLエージェント1100の値又は推定値を計算するように訓練される。次いで、この値関数を使用して、勾配降下を介してメタRLアクターを訓練する。クリティックエンコーダ1150には、ζとして示されるRL状態の外側の任意の追加情報として定義される特権情報へのアクセスが与えられる。クリティックエンコーダ1150はまた、真のプロセスパラメータ(K、τ、及びθ)に関する値関数の推定値及びアクターの深層隠れ状態をチューニングする。したがって、タスクのプロセスダイナミクス及びアクターの内部表現を知ることは、コントローラが値関数をより正確に推定することを可能にする。更に、クリティックエンコーダ1150を装備することで、より単純なフィードフォワードニューラルネットワークを動作させることができる。クリティックエンコーダ1150の情報は、潜在的な競合を回避するためにオフライン訓練中にのみ必要とされる。
【0080】
図11を参照すると、メタRLエージェント1100は、既知のプロセスダイナミクスを知るシミュレートされたシステム上で訓練される。にもかかわらず、この訓練手順の最終結果は、タスク固有訓練又はプロセスダイナミクスの知識を有さずに、実際のオンラインプロセスのPIパラメータをチューニングするために使用することができるメタRLエージェント1100である。ボックス部分に含まれるオンラインを動作させるメタRLエージェント1100の部分は、各時間ステップでのRL状態情報又はプロセスデータを必要とする。
【0081】
図12では、0.5に設定されたプロセスゲイン及びプロセスデッドタイム1210、0.5tに設定されたプロセスデッドタイム1210及びプロセスゲインK1220、平均二乗誤差1230を含むシステム1200が示されている。
図12は、-1~1の設定点について、ターゲット軌道から平均二乗誤差1230によって測定されるメタRLチューニングアルゴリズムの漸近性能を示し、モデルがタスク分布にわたってどのように実行されるかの断面図を提供する。プロセスダイナミクスを定義する3つのパラメータがあり、結果は2次元で視覚化できる。チューニングアルゴリズムは、その分布から任意のシステムのターゲット出力と密接に一致させることができる。性能は、プロセスゲイン1210及び時定数1220が小さいシステムの場合、わずかに低下する。小さなプロセスゲイン及び時定数を有するシステムは、最大のコントローラゲインを必要とする。更に、コスト関数の意図しない効果は、そのようなシステムのわずかなアンダーチューニングを動機付けすることであり得る。訓練エピソードの有限期間内の特定の点としてコントローラゲインを更に増加させるために生じるペナルティは、ターゲット軌道追跡誤差のわずかな減少を上回る。性能のわずかな落下は、メタRLアルゴリズムの目標のわずかな不一致の結果であり得る。
【0082】
図13を参照すると、システム1300が、ターゲット軌道と比較して、メタRLアルゴリズムのPIチューニングを使用して、-1~1の設定点変化に対するシステム出力軌道を有するグラフ1310、1320で示されている。最悪のシナリオ1310及び最良のシナリオ1320が示される。最悪のシナリオ1310でも、メタRLアルゴリズムのPIチューニングは、望ましい制御性能を提供する。
【0083】
図14は、0.5に設定されたプロセスゲイン及びプロセスデッドタイム1410、0.5tに設定されたプロセスデッドタイム及びプロセスゲインK1420、及び時間1430で、システム1400を示す。両方のコントローラパラメータの時間は、それらの最終値の±10%に収束する。加えて、チューニングの収束は、システム1400内の励起に依存する。収束速度は、より多くの励起で速めることができる。メタRLエージェントは、2.75時間単位のサンプリング時間を使用することができる。全体として、大きなプロセスゲイン及び高速ダイナミクスを有するシステムは、通常約10時間単位の単一の設定点変化を単に必要とする。他方では、小さなゲイン及び低速のダイナミクスを有するシステムは、収束するのに長くかかり、大抵の場合、収束するまで13の設定点の変化又は約140時間単位を必要とする。
【0084】
図15を参照すると、システム1500が、プロセス出力1510、1520、プロセス入力1530、1540、及びコントローラパラメータ1550、1560で示されている。最悪及び最良のシナリオは、
図14から選択される収束時間に基づく。最悪のシナリオであっても、単一の設定点変化後に合理的なPIチューニングが達成される。更に、性能は、ターゲット軌道により密接に一致するように時間の経過と共に改善し続ける。
【0085】
図16は、を示すプロセス出力1610、1620、プロセスパラメータ1630、1640、及びコントローラパラメータ1650、1660を有するシステム1600を示す。ドリフトプロセス遅延時間及びプロセスゲインにおけるステップ変化も示されている。プロセスダイナミクスの有意な変化に応答したメタRLチューニングアルゴリズムの性能。これらの例では、忘却因子γ=0.99が、性能に目立った影響を及ぼすことなく適応を高速化することが実験的に観察されているため、各時間ステップでメタRLエージェントの隠れ状態に適用される。忘却因子は、z
t=σ(γWz
t-1Ux
t+b)で表すことができる。コントローラのパラメータ1650、1660は、システム出力1610、1620からの乱れが非常に少ない変化システム1600のダイナミクスに適応させる。
【0086】
図17を参照すると、システム1700が、プロセスゲイン1720、開ループ時定数1740、及び時間1760を有するグラフ1710、1730、及び1750で示されている。
図17では、2つの構成要素は、最終的な深層隠れ状態の分散の98%を捕捉することができる。プロセスゲイン1720及び時定数1750に関してPCA傾向を分析すると、隠れ状態はこれら2つのパラメータに基づいて、近直交グリッドを作成することが見られる。メタRLモデルの隠れ状態により、モデルを含まない様式で閉ループプロセスデータを通してプロセスダイナミクスの内部表現を作成することができる。深層隠れ状態は、シミュレーション全体を通して経時的に発生する。隠れ状態は、全てのエピソードの開始時にゼロで初期化される。例えば、1700などのシステムのPIパラメータは最大であり、より多くの情報を収集できるまで、システム1700が、大きいゲイン1720及び大きい時定数1760を有すると仮定するよりも、小さいゲイン1720及び小さい時定数1760を有すると仮定する方が大きいリスクを有する。
【0087】
図18では、システム1800は、設定点、出力、チューニングなしの出力1820、入力、チューニングなしの入力1840、時定数1860、タンクレベル1810、プロセス入力1830、及びコントローラパラメータ1850で示されている。2タンクシステム1800上のメタRLエージェントのチューニング性能が示される。ただ1つの設定点変化後、メタRLエージェントは、システム1800の妥当なPIパラメータを見つけることができる。実際の時間単位を有する例のメタRLアルゴリズムのサンプル効率も示されている。約1分の時定数及び約13秒のデッドタイムのシステム1800では、PIパラメータが収束するために通常4分かかる可能性がある。メタRLアルゴリズムは、様々なプロセスに適用することができる。プロセスゲイン及び時定数の大きさは、プロセスデータが適切に拡張され得るように知る必要がある。ゲイン及びプロセスダイナミクスをスケーリングするタスクは、自動化されなければならない。
【0088】
図19には、本発明の実施形態によるプロセス1900が示される。ステップ1910では、DPLアルゴリズム及び埋め込みニューラルネットワークを記憶するデータ処理システムが提供される。データ処理システムは、最終的にメタRLエージェントを訓練することを可能にするために提供される。更に、ステップ1920では、DRLアルゴリズムは、多次元ベクトルを生成し、コンテキストデータを要約するように訓練される。ステップ1930では、プロセスコントローラが、新しい産業プロセスに適応される。次いで、ステップ1940では、メタRLエージェントは、メタRLアルゴリズムを使用して、好適なパラメータセットを収集するように訓練される。次に、ステップ1950では、メタRLエージェントが好適なパラメータセットを使用して、新しいプロセスを制御する。
【0089】
要約すると、メタRLモデルは、明示的なシステム識別を伴わずに閉ループで固定構造コントローラをチューニングすることができる。更に、チューニングアルゴリズムは、プロセスダイナミクスが経時的に変化するときにコントローラパラメータを適応的に更新することによって、コントローラの初期チューニング又はコントローラのメンテナンスを自動化するために使用される。既知のプロセスゲイン及び時定数の大きさにより、メタRLチューニングアルゴリズムを、ほぼどのシステムにも適用することができる。
【0090】
メタRLモデルは、効率が損なわれる場合がある、RLを産業プロセスに適用するという主な課題を克服する。更に、メタRLモデルは、事前にオフラインで可能なシステムの大きな分布を制御するモデルを訓練する。更に、メタRLモードは、プロセス特有の訓練及びプロセスモデルなしでオンラインで固定構造プロセスコントローラをチューニングすることができる。RLエージェントに隠れ状態を含めることにより、メタRLエージェントにメモリが与えられ、プロセスデータを通じてプロセスダイナミクスの内部表現を学習する。更に、RL状態に加えて余分な情報を使用する値関数を構築することは非常に価値があり、この追加情報に関する値関数を調整することで、メタRLモデルの訓練効率が改善される。
【0091】
メタRLエージェントは、メタRL訓練アルゴリズムを使用して訓練される。更に、メタRL訓練アルゴリズムは、メタRLエージェントを訓練して、好適なパラメータセットを収集する。その結果、メタRLエージェントは、好適なパラメータセットを使用して、新しい産業プロセスを制御する。
【0092】
様々な開示される態様を上で説明してきたが、それらは、単なる一例として提示されており、限定するものではないことを理解するべきである。本開示に開示される主題に対する多くの変更は、本開示の趣旨又は範囲から逸脱せずに、本開示に従ってなされ得る。加えて、特定の特徴はいくつかの実施例のうちの1つのみに関して開示されている場合があるが、かかる特徴は、任意の所定の又は特定の用途にとって望ましく、有利であり得るため、他の実施例のうちの1つ以上の他の特徴と組み合わされてもよい。