特許7465902 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ ハネウェル・アスカ・インコーポレーテッドの特許一覧

特許7465902メタ強化学習を用いたプロセスコントローラ

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6-1
6-2
6-3
7
8-1
8-2
9-1
9-2
9-3
10
11
12
13
14
15
16
17
18
19

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】

(24)【登録日】2024-04-03

(45)【発行日】2024-04-11

(54)【発明の名称】メタ強化学習を用いたプロセスコントローラ

(51)【国際特許分類】

G05B 13/02 20060101AFI20240404BHJP

【ＦＩ】

G05B13/02 Z

【請求項の数】 3

【外国語出願】

(21)【出願番号】P 2022038751

(22)【出願日】2022-03-14

(65)【公開番号】P2022141605

(43)【公開日】2022-09-29

【審査請求日】2022-03-23

(31)【優先権主張番号】63/161,003

(32)【優先日】2021-03-15

(33)【優先権主張国・地域又は機関】US

(31)【優先権主張番号】17/653,175

(32)【優先日】2022-03-02

(33)【優先権主張国・地域又は機関】US

(73)【特許権者】

【識別番号】508322831

【氏名又は名称】ハネウェル・リミテッド

(74)【代理人】

【識別番号】100118902

【弁理士】

【氏名又は名称】山本修

(74)【代理人】

【識別番号】100106208

【弁理士】

【氏名又は名称】宮前徹

(74)【代理人】

【識別番号】100196508

【弁理士】

【氏名又は名称】松尾淳一

(74)【代理人】

【識別番号】100147991

【弁理士】

【氏名又は名称】鳥居健一

(72)【発明者】

【氏名】ダニエル・ジョージ・マクレメント

(72)【発明者】

【氏名】ネイサン・ペロン・ローレンス

(72)【発明者】

【氏名】フィリップ・ダニエル・ローウェン

(72)【発明者】

【氏名】ラトナ・ブーシャン・ゴパルニ

(72)【発明者】

【氏名】マイケル・ゴレゴリー・フォーブス

(72)【発明者】

【氏名】ウルフ・ヨハン・バックストロム

【審査官】西井香織

(56)【参考文献】

【文献】中国特許出願公開第１１１７８３９９４（ＣＮ，Ａ）

【文献】米国特許出願公開第２０２０／０３９４５０６（ＵＳ，Ａ１）

【文献】国際公開第２０２１／０３３３８０（ＷＯ，Ａ１）

【文献】米国特許出願公開第２０２０／００２０３２６（ＵＳ，Ａ１）

【文献】特表２０１９－５２９１３５（ＪＰ，Ａ）

【文献】QINGE XIAO et. al，META-REINFORCEMENT LEARNING OF MACHINING PARAMETERS FOR ENERGY-EFFICIENT PROCESS CONTROL OF FLEXIBLE TURNIG OPEREATIONS ，IEEE TRANSACTIONS ON AUTOMATION SCIENCE AND ENGINEERING，米国，IEEE，2021年01月，VOL.18 NO.1，PP.5-18

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｇ０５Ｂ１３／０２

(57)【特許請求の範囲】

【請求項1】

処理機器を制御するように構成されたアクチュエータに結合された少なくとも１つのプロセスコントローラ（３１１、３１２、３１３）を含むプロセス制御システム（ＰＣＳ）によって実行される産業プロセスのプロセス制御のためのメタ強化学習（ＭＲＬ）の方法であって、
少なくとも１つのプロセッサ（６１２）と、深層ＲＬ（ＤＲＬ）アルゴリズム及び埋め込みニューラルネットワークを記憶するメモリ（６１０）と、を含むデータ処理システム（４００）を提供することを含み、前記データ処理システムが、
前記ＤＲＬアルゴリズムを訓練することであって、前記産業プロセスからの過去のプロセスデータを含む入出力プロセスデータを含むコンテキストデータを処理して、前記コンテキストデータよりも低い次元の多次元ベクトルを生成することと、前記産業プロセスのダイナミクス及び制御目標を表すように前記コンテキストデータを要約することとを含む、訓練することと、
潜在ベクトルを使用して、より低い次元変数を用いた前記ＤＲＬアルゴリズムの訓練により前記プロセスコントローラを新しい産業プロセスに適応させることであって、前記潜在ベクトルは、前記生成された多次元ベクトルに対応する、適応させることと、
ＭＲＬ訓練アルゴリズムを使用してメタ強化学習エージェント（ＭＲＬエージェント）を訓練することであって、前記ＭＲＬ訓練アルゴリズムが、前記ＭＲＬエージェントを訓練して、改良されたパラメータセットを収集し、前記ＭＲＬエージェントが、前記改良されたパラメータセットを使用して前記新しいプロセスを制御する、訓練することと、
を行うように構成されている、方法。

【請求項2】

前記ＤＲＬアルゴリズムが、ポリシーニューラルネットワークを含み、前記ポリシーニューラルネットワーク（６０８）が、前記潜在ベクトル及び前記新しい産業プロセスの現在の状態を入力として取得し、次いで、前記アクチュエータが前記処理機器を制御するために構成された制御アクションを出力するように構成されている、請求項１に記載の方法。

【請求項3】

前記ポリシーニューラルネットワーク（６０８）が、アクターニューラルネットワークを備え、前記訓練が、前記プロセスの潜在的表現を決定するために、異なるプロセス又は制御目標モデルの分布を使用して、前記ポリシーニューラルネットワーク（６０８）を訓練することを更に含む、請求項２に記載の方法。

【発明の詳細な説明】

【技術分野】

【0001】

（関連出願の相互参照）
本出願は、２０２１年３月１５日に出願された米国仮出願第６３／１６１，００３号、表題「ＰＲＯＣＥＳＳＣＯＮＴＲＯＬＬＥＲＷＩＴＨＭＥＴＡ－ＲＥＩＮＦＯＲＣＥＭＥＮＴＬＥＡＲＮＩＮＧ」に対する利益及び優先権を主張し、同出願は全体を参照により本明細書に組み込む。

【0002】

（発明の分野）
開示される態様は、プロセス制御システムのメタレベル学習を有するプロセスコントローラに関する。

【背景技術】

【0003】

１つ以上の従来のプロセスコントローラを有するプロセス制御システム（ＰＣＳ）によって実行されるプロセスが制御される場合、プロセスダイナミクスを決定し、プロセスコントローラをチューニングすることは、熟練した人員を必要とし、かなりの時間を要し、プロセス品質又は製品収率を破綻させる可能性のある手動プロセスである。産業プロセスコントローラのセットアップ及びメンテナンスは、多種多様な産業にわたって存在する問題である。

【0004】

メタ学習、又は「学び方の学習」は、機械学習における活発な研究領域であり、その目的は、実行できるタスクの分布を管理する基本構造を学習することである。プロセス制御用途では、多くのシステムが、分布にわたる訓練に合わせて適応される同様のダイナミクス又は既知の構造を有するため、メタ学習は魅力的であると考えられる。多くのプロセスの場合、広範なオンライン学習は、生産を混乱させ、品質又は製品収率を低下させる可能性があるために望ましくない。メタ学習は、チューニングアルゴリズムがいくつかの関連するシステムに対して予め訓練されているため、プロセスコントローラのチューニングに必要なオンライン学習の量を大幅に削減することができる。

【発明の概要】

【0005】

本概要は、提示される図面を含む以下の「発明を実施するための形態」で更に詳述される、簡潔に選定された開示の概念を単純な形態で紹介するために提供される。本概要は、特許請求される主題の範囲を限定することを意図するものではない。

【0006】

一実施形態では、方法は、少なくとも１つのプロセッサと、深層強化学習（ＤＲＬ）アルゴリズム及び埋め込みニューラルネットワークを記憶するメモリと、を含むデータ処理システムを提供することを含む。データ処理システムは、ＤＲＬアルゴリズムを訓練するように構成されており、訓練することは、産業プロセスからの過去のプロセスデータを含む入出力プロセスデータを含むコンテキストデータを処理して、コンテキストデータよりも次元が低い多次元ベクトルを生成することと、産業プロセスのダイナミクス及び制御目標を表すためにコンテキストデータを要約することと、を含む。データ処理システムはまた、潜在ベクトルを使用し、プロセスコントローラを新しい産業プロセスに適応させる。データ処理システムはまた、メタＲＬ訓練アルゴリズムを使用して、メタＲＬエージェントを訓練する。メタＲＬ訓練アルゴリズムは、メタＲＬエージェントを訓練して、メタＲＬエージェントのための好適なパラメータセットを収集し、それを使用して新たなプロセスを制御する。

【0007】

別の実施形態では、プロセスコントローラは、深層強化学習（ＤＲＬ）アルゴリズム及び埋め込みニューラルネットワールを記憶するデータ処理システムを含む。データ処理システムは、入出力処理データを処理するＤＲＬアルゴリズムを訓練して、産業プロセスのダイナミクス及び制御目標を表すコンテキストデータと比較して、より低次元の多次元ベクトルを生成する。プロセスコントローラはまた、潜在ベクトルを使用して、処理コントローラを新しい産業プロセスに適応させる。プロセスコントローラはまた、メタＲＬエージェントを訓練して、新しいプロセスを制御するパラメータセットを収集する。

【0008】

更なる実施形態では、システムは、深層強化学習（ＤＲＬ）アルゴリズム及びＤＲＬアルゴリズムを訓練する埋め込みニューラルネットワークを含み、コンテキストデータよりも次元が低い多次元ベクトルを生成し、産業プロセスのダイナミクス及び制御目標を表すためにコンテキストデータを要約する。システムはまた、プロセスコントローラを新しい産業プロセスに適応させる。更に、システムはメタＲＬ訓練アルゴリズムを使用してメタＲＬエージェントを訓練し、メタＲＬアルゴリズムはメタＲＬエージェントを訓練して、新しいプロセスを制御するための好適なパラメータセットを収集する。

【0009】

開示される態様は、プロセス特性を自動的に認識し調節して、プロセスモデルを判定する、及び／又はプロセスコントローラのパラメータをチューニングする産業プロセスコントローラ用の（ＭＲＬ）を開示することによって、産業プロセスコントローラの手動チューニングの必要性という上述の問題を解決する。開示されるＭＲＬは、同じ又は関連するプロセスのために、プロセスコントローラを、新しいプロセスダイナミクスだけでなく異なる制御目標（例えば、新しい報酬関数の選択）に適応させることができる。開示される態様は、一般に、プロセスコントローラに適用され得るソフトウェア製品又はサービスにコード化される。

【図面の簡単な説明】

【0010】

【図1】例示的な態様による、プロセスモデルの更新及び／又はプロセスコントローラのパラメータチューニングのためのＭＲＬの方法におけるステップを示すフローチャートである。

【0011】

【図2】ローカルサーバ（１つの場所で）又はクラウドタイプの環境で実装され、いくつかのサーバにわたって分散され得る、シミュレーション及び訓練中のＭＲＬのデータ記憶及び処理システムの図である。μ_θは埋め込みネットワークであり、Ｑ_θはクリティックネットワークであり、π_θはアクターネットワークである。例示的な伝達関数

【数1】

は、コントローラが訓練されているタスクを表す。θ、θ’、θ’’は、３つのニューラルネットワークが固有のパラメータを有することを強調するために使用される。ＭＲＬアルゴリズムは、異なるダイナミクスで、実際の又はシミュレートされた複数の異なるプロセスを制御することによって訓練される。これらのプロセス経験は、リプレイバッファとして本明細書で言及されるメモリに記憶され、ＭＲＬプロセスモデルのパラメータを更新するために使用される。いったんプロセスモデルが、一般的に最小量のタスク固有データを使用して、新規のプロセスダイナミクスに適応するように十分に訓練されると、プロセスモデルは、ユーザに関連する物理的プロセスに展開される準備が整う。

【0012】

【図3】開示される態様が適用され得る例示的なプロセス制御システムを示す図であり、プロセスコントローラが、開示されるＭＲＬの方法によって生成された更新プロセスモデル又はチューニングパラメータを実施する。

【0013】

【図4】ＭＲＬの開示される方法を実装するために使用され得るデータ処理システムの例示的な内部構造の図である。

【0014】

【図5】様々なダイナミクスを有するプロセスに展開されたときに、従来の強化学習コントローラと比較して、開示されるモデル制御性能を示す図である。

【0015】

【図6-1】プロセスダイナミクスの同じ分布にわたって訓練された従来の強化学習コントローラの性能と比較して、異なるプロセスダイナミクスにわたる訓練後の開示されるメタ学習コントローラの性能を示す図である。

【図6-2】プロセスダイナミクスの同じ分布にわたって訓練された従来の強化学習コントローラの性能と比較して、異なるプロセスダイナミクスにわたる訓練後の開示されるメタ学習コントローラの性能を示す図である。

【図6-3】プロセスダイナミクスの同じ分布にわたって訓練された従来の強化学習コントローラの性能と比較して、異なるプロセスダイナミクスにわたる訓練後の開示されるメタ学習コントローラの性能を示す図である。

【0016】

【図7】新しいプロセスへのコントローラの適応性能の移動する２０エピソードの平均を示す図である。影付き領域は、１０個の異なる試験にわたるコントローラ性能分布から計算された四分位数範囲を表す。開示されるメタ学習コントローラは、より大きな「リターン」に対応する改善された初期性能を実証する。

【0017】

【図8-1】実施された実験からの潜在コンテキスト変数の視覚化を示す図である。確率論的潜在変数空間の拡大図は、訓練伝達関数の変数分布が単一点ではなく、むしろ、分布が非常に小さな分散を有することを強調している。

【図8-2】実施された実験からの潜在コンテキスト変数の視覚化を示す図である。確率論的潜在変数空間の拡大図は、訓練伝達関数の変数分布が単一点ではなく、むしろ、分布が非常に小さな分散を有することを強調している。

【0018】

【図9-1】伝達関数１／（ｓ＋１）^３に作用する異なる制御目標にわたる例示的なマルチタスク及びメタ学習コントローラの性能を示す図である。

【図9-2】伝達関数１／（ｓ＋１）^３に作用する異なる制御目標にわたる例示的なマルチタスク及びメタ学習コントローラの性能を示す図である。

【図9-3】伝達関数１／（ｓ＋１）^３に作用する異なる制御目標にわたる例示的なマルチタスク及びメタ学習コントローラの性能を示す図である。

【0019】

【図10】本発明の実施形態による、メタＲＬエージェント相互作用を示す図である。

【0020】

【図11】本発明の実施形態によるＲＬエージェントの構造を示す図である。

【0021】

【図12】本開示の実施形態によるグラフ比較を示す。

【0022】

【図13】本発明の実施形態に関連するシステム出力軌道を示す図である。

【0023】

【図14】本発明の一実施形態によるオンライン時間パラメータを示す図である。

【0024】

【図15】本発明の一実施形態によるシステム出力軌道グラフである。

【0025】

【図16】プロセスダイナミクスの変化に対するチューニングアルゴリズムの記応答を伴うシステム出力軌道を示す図である。

【0026】

【図17】本発明の一実施形態による、メタＲＬモデルからの深層隠れ状態でのＰＣＡ結果を示す図である。

【0027】

【図18】本発明の一実施形態による、メタＲＬチューニングアルゴリズムの性能を示す図である。

【0028】

【図19】本発明の実施形態によるフローチャートである。

【発明を実施するための形態】

【0029】

添付の図面を参照して、開示される態様を説明するが、類似又は同等の要素を示すために、図面全体にわたって同じ参照番号を使用する。図面は、縮尺どおりに描かれておらず、それらは、特定の開示される態様を単に例証するために提供される。いくつかの開示される態様は、例証のための例示的な用途に言及しながら以下に記載される。開示される態様の完全な理解を提供するために、多数の具体的な詳細、関係、及び方法が記載されることを理解するべきである。

【0030】

開示される態様は、概して、強化学習アルゴリズムとしてモデルを含まない深層強化学習（ＤＲＬ）アルゴリズムを利用する。明確にするために、ＤＲＬアルゴリズムは、プロセスの動的モデルに依存しないという意味で、モデルを含まない。しかしながら、ポリシーを決定するためのニューラルネットワークなどのＤＲＬアルゴリズムに含まれるモデルを指す場合がある。ＤＲＬアルゴリズムは、モデルを含まないだけでなく、オフポリシーでもあり、連続アクション空間と適合する。オフポリシーとは、現在の制御ポリシーにはもはや適合していない環境で有していた以前の相互作用から学習することができるＤＲＬを指す。

【0031】

従来の深層ＲＬアルゴリズムは、オンポリシーであり、コントローラの現在のポリシーと整合された環境で最新の経験からのみ学習することができる。過去の経験を保存して利用することは、オフポリシーアルゴリズムをはるかにサンプル効率の高い有用なプロパティとする。ＤＲＬアルゴリズムを開示されるＭＲＬアルゴリズムにするために、以前のタスク特有経験のバッチは、本明細書でｚと呼ばれる多次元潜在変数を生成する埋め込みネットワークに供給される。一般的なケースでは、ＤＲＬは、ｚを追加入力として使用して訓練される。ＤＲＬのより具体的な例を提供するために、本明細書では、以下の段落において、アクタークリティックネットワークとして記載されたポリシークリティックネットワークベースのＤＲＬフレームワークが記載されている。アクタークリティックは、ＲＬの一般的な方法、即ち、アルゴリズムのクラスである。

【0032】

アクタークリティックネットワークは、状態及びアクション信号の関数であり、それは、各状態－アクション対の長期報酬に近似する。「アクター」は、アクション（例えば、制御信号）を生成する目的を果たす。アクターは、ポリシーと同義である。それらがどのように協働するかは、クリティックによって生成された予測報酬を最大化するようにアクターが更新されることである。アクター－クリティック実装の場合、ＤＲＬのアクター－クリティックは、ｚを追加の入力として使用して訓練される。潜在変数ｚは、ＤＲＬエージェントが５次元以下のような低次元形態で制御しているタスクのプロセスダイナミクス及び制御目標を表すことを目的とする。これは、プロセスダイナミクスを理解し、プロセスを制御するという問題を解決する。

【0033】

埋め込みネットワークは、上述するように実際のデータ又はシミュレートされたデータであり得る生プロセスデータを与えられてプロセスダイナミクスを解くというタスクを課される一方、アクタークリティックネットワークは、プロセスダイナミクスをｚとして与えられて最適な制御戦略を開発するタスクを課せられる。コントローラが十分に大きな分布のタスクにわたって訓練される場合、それは、タスク全体で共有構造を利用することによって、タスク特有訓練なしに同様のダイナミクスを用いて新しいプロセスを制御するように適応され得るべきであると認識される。

【0034】

この開示に至るまで、メタ学習の領域は、産業プロセス制御の分野において適用されてこなかったと思われる。開示される態様を既知のＭＲＬ用途と異ならせる２つの主要な要因がある。第１に、メタ学習の領域は、主に、ＭＲＬエージェントが、そのアクションがほとんどの時間ステップでどのように望まれるかに関するフィードバックを受信しないことを意味する（このフィードバックは、報酬信号と呼ばれる）疎な報酬環境における用途のサンプル効率の改善に関する。対照的に、産業プロセス制御用途は、一般的に、設定点追跡誤差の形態で全ての時間ステップで与えられる非常に豊富な報酬信号を有する。

【0035】

しかしながら、産業プロセス制御用途は、本開示が対処する固有の課題のセットを有する。ＭＲＬの既知の使用例は、シミュレートされた若しくは物理的なロボットシステム、又はプロセスダイナミクスをより学習し易くする大量の励起が存在するその他の用途であった。対照的に、本開示に関して、産業プロセス制御用途における目標は、システムを設定点で可能な限り静止させて、障害を排除することである。これにより、ほとんどのデータが情報を与えないため、プロセスダイナミクスを学習することが極めて困難になる。したがって、本開示は、コントローラが最小限の励起で制御プロセスを学習する新しく、非自明な方法でＭＲＬを適用すると考えられる。

【0036】

メタＲＬフレームワークは、比例積分（ＰＩ）コントローラをチューニングするという課題に適用される。Ｐｉパラメータは、積分時定数パラメータではなく積分ゲインパラメータを使用することによって得られる改善された数値能力により、メタＲＬエージェントを訓練するために使用される。メタＲＬスキームの利点は、明示的なシステム識別なしに閉ループで行われるチューニングを含む。更に、基本システムが変化するときでも、チューニングは自動的に実行される。エージェントは、オンライン訓練なしに、新規の「分布内」システムで展開することができる。

【0037】

潜在ベクトルを使用して、プロセスコントローラを新しい産業プロセスに適応させることができる。メタＲＬエージェントは、メタＲＬ訓練アルゴリズムを使用して訓練される。更に、メタＲＬ訓練アルゴリズムは、メタＲＬエージェントを訓練して、好適なパラメータセットを収集し、メタＲＬエージェントはこの好適なパラメータセットを使用して、新しいプロセスを制御する。

【0038】

図１は、方法におけるステップを示すフローチャートである。例示的な態様による、メタ補強学習（ＭＲＬ）の方法１００のステップを示すフローチャートである。１１０では、ステップ１０１は、以下のステップ１０２及び１０３を実行するように構成された、少なくとも１つのプロセッサと、ＤＲＬアルゴリズム及び埋め込みニューラルネットワークを記憶するメモリと、を含むデータ処理システムを提供することを含む。

【0039】

図１では、１２０で、ステップ１０２は、処理機器を制御するように構成されたアクチュエータに結合された少なくとも１つのプロセスコントローラを含むＰＣＳによって実行される産業プロセスからの過去のプロセスデータを含む入出力プロセスデータを含むコンテキストデータを処理することを含む、ＤＲＬアルゴリズムを訓練することと、コンテキストデータよりも次元が低い多次元ベクトル（本明細書では潜在変数ｚと称される）を生成するために、産業プロセスのダイナミクスと、制御入力、システム出力、及び設定点データを含む、例えばデータヒストリアンからの生データとしても知られる制御目標プロセスデータと、を表すようにコンテキストデータを要約することと、を含む。（埋め込みニューラルネットワークのための）コンテキストデータは、一般に、産業プロセス（抄紙機又は他の平坦シート製造プロセス、蒸留塔、選鉱におけるＳＡＧ又はボールミル、ヒータ反応器など）からの履歴プロセスデータとオンライン出力データ（物理的システム又はシミュレートされたシステムから）との組み合わせから収集される。

【0040】

図１では、１３０で、ステップ１０３は、より低い次元変数を使用することと、プロセスコントローラを新しい産業プロセスに適応させることとを含む。したがって、埋め込みニューラルネットワークは、ステップ１０２において訓練されて、より低い次元変数を生成し、より低い次元変数は、訓練の後に、新しいプロセスに適応するように使用される。

【0041】

図１では、方法１００は、埋め込みニューラルネットワークとは異なるポリシークリティックネットワークを含むＤＲＬアルゴリズムを含むことができ、ポリシーニューラルネットワークは、より低い次元変数及び新しい産業プロセスの現在の状態を入力として取得し、次いで、アクチュエータが処理機器を制御するために構成された制御アクションを出力するように構成される。別の関連する配置では、ポリシーニューラルネットワークは、アクターニューラルネットワークを含み、訓練は、プロセスモデルを決定するために、異なるプロセス又は制御目標モデルの分布を使用してプロセスコントローラを訓練することを更に含む。このフレームワークは、モデルベースのＲＬを、モデルが利用可能でない問題に拡張する。コントローラは、モデルが知られる必要がない別個のプロセスを制御するように学習するために、「タスク」と称される、異なるプロセス又は制御目標モデルの分布を使用して訓練され得る。このフレームワークは、一般に任意の産業プロセスを最適に制御するために迅速に適応することができる「ユニバーサルコントローラ」を開発するために使用することができる。コンテキストデータは、ＰＣＳから取得されたオンライン出力データを更に含むことができ、ＰＣＳは、物理的ＰＣＳ又はシミュレーションされたＰＣＳであり得る。

【0042】

制御目標は、追跡誤差、入力信号の大きさ、又は入力信号の変化のうちの少なくとも１つを含むことができる。これらの３つの制御目標は、変動する重みを含め、一緒に追加することができる。多次元ベクトルは、５次元以下のユーザ定義されたパラメータであり得る。

【0043】

図２は、ローカルサーバ（１つの場所で）又はクラウドタイプの環境で実装され、いくつかのサーバにわたって分散され得る、シミュレーション２１０及び訓練２４０中のＭＲＬネットワークのデータ記憶及び処理システム２００の図である。μ_θは埋め込みネットワークであり、Ｑ_θ０は、クリティックネットワークであり、π_θ００は、アクターネットワークである。例示的な伝達関数

【数2】

は、コントローラが訓練されているタスクを表す。θ、θ^０、θ^００は、３つのニューラルネットワークが固有のパラメータを有することを強調するために使用される。ＭＲＬアルゴリズムは、異なるダイナミクスで、実際の又はシミュレートされた複数の異なるプロセスを制御することによって訓練される。これらのプロセス経験は、リプレイバッファ２２０として本明細書で言及され、図２に示されるようなメモリに記憶され、ＭＲＬプロセスモデルのパラメータを更新するために使用される。リプレイバッファ２２０と共に、ストア経験２１５、コンテキストサンプラ２２５、アクタークリティックサンプラ２３０が示されている。いったんプロセスモデルが、一般的に最小量のタスク固有データを使用して、新規のプロセスダイナミクスに適応するように十分に訓練されると、プロセスモデルは、ユーザに関連する物理的プロセスに展開される準備が整う。

【0044】

図２では、コントローラと環境（タスク）の生成との間の相互作用は、リプレイバッファに記憶された状態、アクション、報酬、及び次の状態の経験組を生成する。これらの経験の小さなバッチは、潜在変数ｚを計算する埋め込みネットワークμθにサンプリングされる。訓練中、個々の状態アクション対は、潜在コンテキスト変数と共にアクタークリティックネットワークに供給される。アクターπθ００は、ｓ及びｚを使用して、それが取るアクションを選択する。クリティックＱθ０は、値関数を作成するために使用され、アクターによって取られる望ましい行動がどのようであるかを判断する。

【0045】

図２及び他の実施形態を参照すると、過去の経験は、埋め込みネットワークとアクタークリティックネットワークとでは異なってサンプリングされる。最近、したがってオンポリシーにより近づくと、訓練がより効率的であることが認識されており、コンテキストが使用されて埋め込み及び埋め込みなしを生成する（マルチタスク学習とも呼ばれ、通常のＤＲＬコントローラがタスクの分布にわたって訓練される）。ＰＥは、疎な報酬又は部分的に観察可能な環境でより良好な性能を有すると認識されるが、報酬信号が設定点追跡誤差の形態で全ての時間ステップで存在する際、ＤＥの使用は多くの産業制御問題に対して正当化され得る。ｒｔ＝｜ｙｓｐ－ｙｔ｜及び環境ダイナミクスは、潜伏変数を構築するために使用される経験のバッチが十分に大きい場合には完全に観察可能である（即ち、埋め込みネットワークは、多くの異なる状態遷移を見ることによってｚを生成する）。アルゴリズム１は、プロセスモデルの分布にわたる、開示されるメタ学習コントローラのメタ訓練手順を概説する。

【0046】

図３は、開示される態様が適用され得るプラントネットワーク３００として示される例示的なプロセス制御システムを示し、プロセスコントローラ３２１～３２３が、開示されるＭＲＬの方法によって生成された更新プロセスモデル又はチューニングパラメータを実施する。図３は、処理機器３０６、フィールドデバイス３０８、ｄｃｓコントローラ３１１、３１２、３１３、フィールドバス／フィールドネットワーク３３０を示す。加えて、ＤＣＳサーバ３２１～３２３が、コントロールネットワーク３３５と共に示される。また、ワークプレイス３３１～３３２を含むドメインコントローラ３４０も示される。図３は、ファイアウォール３３４、３３６、ＤＭＺ３３９、３６８、及びＤＣＳ３６０も含む。加えて、図３は、冗長プラントネットワーク３４５、ワークプレイス３４１～３４２、及びファイアウォール３４４も示す。

【0047】

図４は、開示される態様が適用され得る、図３に示されるプラントネットワーク３００と共に使用され得るデータ処理システム４００の例示的な内部構造の図であり、プロセスコントローラ３２１～３２３が、データ処理システム４００によって実装されたＭＲＬの開示される方法の結果を実施し、データ処理システム４００はオンサイトであっても、クラウドに配置されてもよい。

【0048】

図４は、ネットワーク４０８、メモリ４２０、システムバス４０２、ユーザインターフェース４０４、通信インターフェース４１６、及びネットワークインターフェース４０６を有するシステム４００を含む。加えて、図４は、プロセッサ４１２、サポート電子回路ロジック４１４、及びメモリ４１０を含む。

【0049】

開示される態様は、強化学習用途をサポートするために十分な計算能力及びメモリを有する、略任意の産業制御製品又はサービスと共に含まれ得る。例としては、ＥｘｐｅｒｉｏｎＭＸＱＣＳ、及びＰＲＯＦＩＴＣＯＮＴＲＯＬＬＥＲ用のＨｏｎｅｙｗｅｌｌＩｎｔｅｒｎａｔｉｏｎａｌのＭＤ及びＣＤ制御用途が挙げられる。

【0050】

開示される態様は、以下の特定の実施例によって更に例証され、実験的シミュレーション結果が提示及び記載されるが、これは、任意の方法で本開示の範囲又は内容を制限するものとして解釈されるべきではない。

【0051】

図５は、産業プロセス制御用途のためのプロセスコントローラを生成するために開示されるＭＲＬの有効性を評価する２回の実験５００が実行された方法を示す。各実施例では、どのようにコンテキスト埋め込み５１０、５２０が、ＭＲＬアルゴリズムの複数タスクを同時に制御する能力（一般化）、及び新しいタスクが提示されたときのメタＲＬアルゴリズムのサンプル効率（適応性）に影響を及ぼすかを調べた。相対性能は、決定論的埋め込み（ＤＥ）、確率論的埋め込み（ＰＥ）、及び埋め込みなし５３０、５４０を用いて、既知の制御照アルゴリズムエージェントと比較した。以下に記載されるように、ＭＲＬモデルが異なるダイナミクスを有する複数のシステムで訓練され、次いで、新しいダイナミクスで異なるシステム上で試験される例が提示される。以下に記載されるセクション４．２では、システムダイナミクスが一定に保たれている間、複数の制御目標にわたって訓練されているＭＲＬの例が提示されている。モデルは、新しい制御目標への適応性に基づいて評価される。

【0052】

新たなダイナミクスの学習：
予備バイナリゲイン例
この予備実験では、マルチタスクＲＬコントローラ（タスクの分布にわたって訓練された従来のＲＬコントローラ）とＤＥＭＲＬコントローラの性能が、単純な伝達関数

【数3】

で比較される。本例では、ｓ_ｔ＝（ｙｔ，ｙ－１，ｔ－２，ｙ－３，ｅｔ，Ｉｔ）、但し、ｅｔは設定点追跡誤差であり、Ｉｔは現在の訓練エピソードに対する設定点追跡誤差の積分であり、ＰＩＤコントローラで見出されるものと同じである。

【0053】

各コントローラのサンプル軌道が図５に示される。開示されるＭＲＬコントローラはこの比較的単純な問題をマスターすることができるが、マルチタスクコントローラはできない。このことは、ｓｔの構成を考慮すると理解できる。過去のアクションが状態に含まれていないため、マルチタスクコントローラはアクションの因果作用を判定して、環境のダイナミクスを理解することが不可能だからである。この情報は、潜在コンテキスト変数を介してＭＲＬコントローラに暗黙的に与えられる。

【0054】

この問題は比較的非常に単純であるが、モデルを含まないプロセス制御のために開示されるメタ学習の１つの強みを強調するものである。メタ学習は、最適な制御ポリシーを開発する問題からプロセスダイナミクスを理解するという問題を解決する。十分に訓練された埋め込みネットワークを使用して、コントローラをプロセスダイナミクスの低次元表現で直接訓練することができる。これにより、訓練がより効率化され、プロセスダイナミクスを理解するために必要な全ての情報を含む必要がないより単純な状態表現が可能になる。このため、プロセスダイナミクスを全ての時間ステップで再発見する必要がないため、より高速な適応制御が可能になり、潜在コンテキスト変数は、新しい環境内で１回計算され、一定に保たれ得る。

【0055】

この実験における最初のダイナミクス例では、コントローラは３つの伝達関数にわたって訓練される。

【0056】

エージェントの性能は、伝達関数で評価される。これらのシステムは、潜在的なコンテキスト可変埋め込みシステムダイナミクスの単なる例示として選択した。試験システムは、エージェントが既に見たダイナミクスの新たな構成であり、同じゲイン、頻度、及び順序、したがって、訓練中に開発されたプロセスダイナミクス埋め込みが、試験システムに適応するのに有用である可能性が高い。

【0057】

この例では、ｓｔ＝（ｙｔ，．．．，ｙｔ－３，ａｔ－１，．．．，ａｔ－４，ｅｔ，Ｉｔ）。状態に以前のアクションを含むことにより、マルチタスクコントローラに、プロセスのダイナミクスを理解し、ＭＲＬコントローラと公平に競合するのに十分な情報が与えられる。ＭＲＬコントローラでＰＥ対ＤＥを使用する効果も調べる。それらが訓練される３つの伝達関数にわたるコントローラ性能を図３に示す。

【0058】

ＤＥを使用するＭＲＬコントローラは、ＰＥコントローラ及びマルチタスクコントローラの両方よりも性能が優れており、訓練中にコントローラが参照する他の伝達関数よりも高速なダイナミクスを有する伝達関数を制御するときにオーバーシュートを回避する。

【0059】

１０及び２０秒マークでの段階的変化に応答して取られる制御アクションを比較すると、ＤＥＭＲＬコントローラは、１／ｓ＋１と１／２ｓ＋１のプロセスとを区別することができるが、両方のシステムに対するマルチタスクコントローラ及びＰＥＭＲＬコントローラの応答はほぼ同一であり、１／２ｓ＋１のより速いダイナミクスで最適以下の性能をもたらすことが明らかである。

【0060】

問題はかなり小さい確率性を有するため、決定論的コンテキスト埋め込みは、確率論的コンテキスト埋め込みよりも優れた性能を有する可能性が高い。プロセスダイナミクスは、コンテキストから完全に観察可能であり、問題の唯一のランダムな特徴は、訓練中に出力に追加される少量のガウス雑音である。この環境は、コンテキスト埋め込みネットワークがプロセスダイナミクスを確実に符号化することを可能にし、これは、分散が自然に低くなるために、分布からコンテキスト変数をサンプリングすることが不要であることを意味する。確率分布を符号化するための学習は、本質的に、サンプル効率が低く、決定論的変数を符号化するよりも訓練するのが困難である。マルチタスクコントローラの実行は、同じニューラルネットワークにおいてプロセスダイナミクスと最適な制御ポリシーとを同時に解く高い困難さに起因して悪化した可能性が高く、つまり、訓練をより低速にする、又は最適以下の解決策へと収束させる。

【0061】

ＭＲＬコントローラは、新しいシステムでの追加の訓練の前に、３つのコントローラのうちで最良の最初の性能を有した。このことは、我々がコントローラが設置される直後に効果的なプロセス制御を望むため、産業用途にとって望ましい。適応チューニング中のシステムの混乱は、費用がかかり、場合によっては安全ではない可能性がある。

【0062】

確率論的ＭＲＬコントローラによって生じた不十分な埋め込みは、この新しいプロセスに適応するときに明らかである。潜在コンテキスト変数は、コントローラに非常に少ない有用な情報を提供し、このプロセスで全くの最初から訓練されたＲＬコントローラと非常に類似している。更に、ＤＥＭＲＬコントローラは、他の２つのコントローラよりも堅牢であり、ＰＥＭＲＬ及びマルチタスクコントローラのいずれも、訓練中に不安定性を経験し、適応訓練中に有意な性能低下を有する。全てのコントローラは、同様の漸近性能を達成する。

【0063】

ＭＲＬ潜在性コンテキスト変数を図５に示す。潜在的なコンテキスト変数に２次元ｚ_１及びｚ_２が与えられて、システムに、システムダイナミクスを埋め込むために必要な自由度を与える（即ち、コントローラゲイン及び時定数を伝える）。新しい環境及びモデルに良好に一般化された決定論又はＰＥのいずれも、プロセスダイナミクスを正確に符号化する堅牢な特徴を開発するために、より多様なタスクにわたって訓練される必要はない。

【0064】

試験伝達関数

【数4】

のＰＥ分布は、訓練伝達関数

【数5】

とほぼ同一であり、コントローラが同様のものとしてゲインを認識するが、それらの異なる時定数に基づいて２つを不十分にしか区別しないことを示す。対照的に、確率論的潜在変数空間における試験伝達関数の分布は、訓練伝達関数とは非常に異なり、訓練伝達関数よりも大きい分散を有する。ＰＥネットワークは、新しいシステムを以前の訓練データとは異なるものとして認識することができるが、新しいタスクのその埋め込みは、潜在変数空間の未探査部分にあり、したがって、アクタークリティックネットワークに有用な情報を与えず、ＰＥＭＲＬコントローラが図７の未訓練ＲＬコントローラと非常に類似して実行した理由を説明する。更に、

【数6】

の潜在変数分布は、可視的に異なるが、互いに非常に近くに位置付けられる。

【0065】

図６では、確率論的コントローラのポリシーは２つを区別しない。これらの結果は、より大きく、より多様な訓練データが、プロセス制御用途でＭＲＬを実行可能にするために必要であることを示す。

【0066】

図６は、様々な設定点を有するシステム６００を示す。埋め込みなし６１０、６２０が示される。加えて、決定論的埋め込み６３０、６４０も示される。更なる確率論的埋め込み６５０、６６０も示される。

【0067】

図７では、伝達関数－１／２ｓ１に対するコントローラの適応性が試験されている。更に、以下で説明するように、コントローラの適応性能を図７に示す。システム７００は、エピソードリターン７１０と訓練エピソードの数７２０とを含む。大きな網掛けの四分位数間領域は、主に、コントローラの変数性能ではなく、環境の変数性質に起因する。全てのエピソードの間、各コントローラは、１０のランダムな設定点変化について試験される。０．１～０．１１の設定点変化を管理するタスクを課せられたコントローラは、例えば、０．１～１．０の設定点変化を管理するタスクを課せられた全く同じコントローラよりも小さな累積オフセットペナルティを経験する可能性が高い。１０のランダム設定点変化は、公正比較のために全てのコントローラにわたって一貫している。

【0068】

図８は、変数ｚ１、ｚ２、及びｚ３をそれぞれ有するグラフ８１０、８２０でシステム８００を示す。グラフ８１０、８２０は、プロセス（－１）／（０．５ｓ＋１）、（－１）／（ｓ＋１）、（－１）／（１．５ｓ＋１）、（－１）／（２ｓ＋１）、（－２）／（０．５ｓ＋１）、（－２）／（ｓ＋１）、（－２）／（１．５ｓ＋１）、（－２）（２ｓ＋１）、（２）／（０．５ｓ＋１）、（２）／（ｓ＋１）、（２）／（１．５ｓ＋１）、及び（２）／（２ｓ＋１）に基づく。

【0069】

新規制御目標の学習
この実験では、本発明者らのコントローラは、伝達関数

【数7】

で訓練される。コントローラは、以下の式（４）に示されるＲＬ報酬関数におけるパラメータα、β、γを操作することによって、異なる制御目標にわたって訓練される。
ｒ_ｔ＝｜ｙ_ｓｐ－ｙ_ｔ｜＋α｜ａ_ｔ－ａ_ｔ－１｜＋β｜ａ_ｔ｜＋γ（ｔ）

【数8】

【0070】

設定点誤差にペナルティを課すことに加えて、α項は、滑らかなアクションを促進するために、間欠的な制御運動にペナルティを課す。β項は大きな制御アクションにペナルティを課し、プロセスへの入力に多大の費用がかかり得る用途にとって有用である。γ項は、基準時間ステップと比較して設定点誤差に符号変化があるときに定義されるオーバーシュートをペナルティを課し、ｙ_０を、設定点変更後のシステムの初期状態として選択した。α、β、及びγに適切な値を選択することを使用して、任意の特定用途の目標のために最適化された制御ポリシーを開発することができる。この実験では、ｓ_ｔ＝（ｙ_ｔ，．．．，ｙ_ｔ－_３，ａ_ｔ－_１，．．．，ａ_ｔ－_４，ｒ_ｔ－_１，．．．，ｒ_ｔ－_４，ｅ_ｔ，Ｉ_ｔ）。以前の報酬が、異なるタスク（制御目標）を互いに区別するために必要な情報を有するマルチタスクエージェントの状態に追加される。

【0071】

マルチタスク、ＤＥＭＲＬ、及びＰＥＭＲＬコントローラは、報酬関数パラメータを変更することによって、４つの異なる制御目標にわたって訓練される。１つの環境は、設定点追跡誤差を最小限に抑えることのみを目的とし、別の環境は、アクションの変化に対するペナルティを有し、別の環境は、アクションの大きさに対するペナルティを有し、最後の環境は、オーバーシュートに対してペナルティを課される。これらの訓練されたコントローラの適応性能は、アクションの変化及びアクションの大きさの両方に対してペナルティを有する環境で試験される。コントローラの環境がコンテキストから完全に観察可能である例４．１．２とは異なり、この問題は、コンテキストから完全に観察可能ではなく、オーバーシュートペナルティは、設定点をオーバーシュートするまで、コントローラによって知ることができない。この理由から、確率論的コンテキスト埋め込みは、妥当な選択である。

【0072】

図９は、訓練環境にわたるコントローラの性能を示す。結果は、例４．１．２と同様の傾向に従う。システム９００は、埋め込みなし９１０，９２０、決定論的埋め込み９３０、９４０及び確率論的埋め込み９５０、９６０のグラフで示されている。マルチタスクコントローラは、全ての環境に対して単一の一般化されたポリシーを学習する傾向があるが、ＭＲＬコントローラは、それらのポリシーを特定の環境に調整する。例えば、制御アクションの変化又はアクションの大きさに対してペナルティ化されていない場合、メタＲＬコントローラは、大きな振動アクションをとるが、環境がそのようなアクションにペナルティを課すときにこの挙動を回避する。確率論的ＭＲＬコントローラは、設定点から大きなオフセットを発生させる。これは、訓練中に出力に追加されるガウス雑音があるため、オーバーシュート環境における合理的な挙動である。したがって、設定点を通過させるために絶えずペナルティを課せられることを避けるために、設定点から小さい距離を保つことがより安全であり得る（このことは、報酬関数の定式化に関する１つの問題を浮き彫りにするものであり、対処する必要がある）。確率論的ＭＲＬコントローラは、オーバーシュート環境を他の環境と区別するように学習せず、出力と設定点との間のこのバッファをあらゆる環境に適用する。

【0073】

図１０は、タスク分布とのメタＲＬエージェントの相互作用の図である。マルコフ決定プロセス（ＭＤＰ）１１０１０及びＭＤＰ２１０２０を有するシステム１０００が図示されている。メタＲＬは、単一ＭＤＰとは対照的に、ＭＤＰ１１０１０及びＭＤＰ２１０２０などのＭＤＰの分布にエージェントを一般化することを試みる。単一ＭＤＰは、タプルＴ＝（Ｓ，Ａ，ｐ，ｃ，γ）によって特徴付けることができる。しかしながら、対照的に、メタＲＬは、ＭＤＰの分布ｐ_ｍｅｔａ（Ｔ）にわたる最適化問題を扱う。メタＲＬ設定に関連する問題は、全てのΘ∈Ｒ_ｎにわたるＪ_ｍｅｔａ（Θ）＝_{ＥＴ～ｐｍｅｔａ（Ｔ）}［Ｊ（θ^＊（Ｔ、Θ）］を最小化することである。

【0074】

更に図１０を参照すると、メタＲＬは、異なるプラントにわたって良好に機能する単一のコントローラを見つけるように試みていない。対照的に、メタＲＬエージェントは、異なるプラントの基本構造と、コスト関数下での最適な制御戦略とを同時に学習しようと試みる。結果として、ＲＬエージェントは、新しい又は新規の環境に迅速に適応することができる。メタ学習アルゴリズムに対する２つの構成要素は、所与のタスクを解決するアクタークリティックネットワークなどのモデルであり、モデルを更新する方法を学習するメタパラメータのセットでもある。更に、コンテキストベースのメタＲＬ方法は、メタエージェントが所与のタスクのコンテキストとポリシーを同時に学習することを可能にする各タスクの潜在表現を学習する。各ＭＤＰ毎に、メタＲＬエージェントは、最大数の時間ステップＴを有し、ＭＤＰ１１０１０及びＭＤＰ２１０２０について上述するエピソードと相互作用する。

【0075】

図１０では、各エピソードが進行すると、ＲＬエージェントは、観察されたＲＬ状態に基づいてＭＤＰを通る各時間ステップを進化させる隠れ内部状態ｚ_ｔを有する。ｚ_ｔ＝ｆ_Θ（ｚ_ｔ－１，ｓ_ｔ）。したがって、ＲＬエージェントは、ｓ_ｔ及びｚ_ｔの両方のアクションを条件とする。メタパラメータは、ｚ_ｔによって符号化されるＭＤＰ固有パラメータの好適なセットを解くことによって、ＭＤＰのための制御ポリシーを迅速に適応させる。したがって、メタＲＬエージェントは、ＲＬエージェント又はメタＲＬエージェントのための好適なパラメータセットを見出して、プロセスを制御するように訓練される。更に、メタＲＬエージェントを訓練する利点は、最終モデルがタスク分布ｐ（Ｔ）にわたってＭＤＰ１１０１０及びＭＤＰ２１０２０などの全てのＭＤＰを制御できることである。対照的に、通常のＲＬエージェントは、単一タスクのためにのみ最適化され得る。

【0076】

図１０を参照すると、隠れ状態ｚ_ｔは、リカレントニューラルネットワーク（ＲＮＮ）で生成される。ＲＮＮ構造は、ゲート付きリカレントネットワーク（ＧＲＮ）である。ＲＮＮの基本形態はｚ_ｔ＝σ（Ｗｚ_ｔ－１＋Ｕｘ_ｔ＋ｂ）及びｏ_ｔ＝Ｖｚ_ｔ＋ｃである。変数は訓練可能な重みであり、ｘ_ｔはネットワークへの入力であり、Ｏ_ｔはネットワークへの出力である。記載されたＲＮＮは、いくつかの目標のために最適化された非線形状態空間システムであり得る。

【0077】

図１１では、メタＲＬエージェントの構造が示される。メタＲＬエージェント１１００は、メタＲＬポリシー１１１０、ｓ_ｔ１１１５、リカレント層１１１２０、リカレント層２１１２５、アクターエンコーダ１１３０、出力層１１３５、Ｋ_Ｃ、ｔ、Ｋ_ｌ、ｔ１１４０、ｓｔ１１４５、クリティックエンコーダ１１５０、完全接続層１１５５、出力層１１６０、及びｖ_ｔ１１６５を含む。

【0078】

図１１を参照すると、メタＲＬエージェント１１００のボックス部分は、コントローラチューニングのためにオンラインで使用されるメタＲＬエージェントの一部を示す。各時間ステップでＲＬ状態を観察することにより、メタＲＬエージェント１１００のリカレント層１１２０、１１２５は、ＰＩパラメータをチューニングするための情報を含む埋め込み状態又は隠れ状態を作成する。情報は、システムダイナミクス及びシステムダイナミクスに関する任意の不確実性を含む。埋め込みは、メタＲＬエージェントのプロセスダイナミクスに関する知識が変化すると更新されるプロセス固有ＲＬパラメータを表す。更に、２つの完全接続層１１５５は、埋め込みを使用して、コントローラのＰＩパラメータへの調整を推奨する。加えて、リカレント層１、２１１２０、１１２５を含めることは、メタＲＬエージェント１１００の性能に不可欠である。時間ステップ間に運ばれる隠れステップは、メモリを有するメタＲＬエージェント１１００を可能にし、メタＲＬエージェント１１００が、従来のフィードフォワードＲＬネットワークが実行できないであろうプロセスダイナミクスの表現を学習することを可能にする。

【0079】

図１１では、メタＲＬエージェント１１００のボックスの外側では、クリティックエンコーダ１１５０が、現在のＲＬ状態を前提として現在のＭＤＰにおいて将来のコストを割り引いたメタＲＬエージェント１１００の値又は推定値を計算するように訓練される。次いで、この値関数を使用して、勾配降下を介してメタＲＬアクターを訓練する。クリティックエンコーダ１１５０には、ζとして示されるＲＬ状態の外側の任意の追加情報として定義される特権情報へのアクセスが与えられる。クリティックエンコーダ１１５０はまた、真のプロセスパラメータ（Ｋ、τ、及びθ）に関する値関数の推定値及びアクターの深層隠れ状態をチューニングする。したがって、タスクのプロセスダイナミクス及びアクターの内部表現を知ることは、コントローラが値関数をより正確に推定することを可能にする。更に、クリティックエンコーダ１１５０を装備することで、より単純なフィードフォワードニューラルネットワークを動作させることができる。クリティックエンコーダ１１５０の情報は、潜在的な競合を回避するためにオフライン訓練中にのみ必要とされる。

【0080】

図１１を参照すると、メタＲＬエージェント１１００は、既知のプロセスダイナミクスを知るシミュレートされたシステム上で訓練される。にもかかわらず、この訓練手順の最終結果は、タスク固有訓練又はプロセスダイナミクスの知識を有さずに、実際のオンラインプロセスのＰＩパラメータをチューニングするために使用することができるメタＲＬエージェント１１００である。ボックス部分に含まれるオンラインを動作させるメタＲＬエージェント１１００の部分は、各時間ステップでのＲＬ状態情報又はプロセスデータを必要とする。

【0081】

図１２では、０．５に設定されたプロセスゲイン及びプロセスデッドタイム１２１０、０．５ｔに設定されたプロセスデッドタイム１２１０及びプロセスゲインＫ１２２０、平均二乗誤差１２３０を含むシステム１２００が示されている。図１２は、－１～１の設定点について、ターゲット軌道から平均二乗誤差１２３０によって測定されるメタＲＬチューニングアルゴリズムの漸近性能を示し、モデルがタスク分布にわたってどのように実行されるかの断面図を提供する。プロセスダイナミクスを定義する３つのパラメータがあり、結果は２次元で視覚化できる。チューニングアルゴリズムは、その分布から任意のシステムのターゲット出力と密接に一致させることができる。性能は、プロセスゲイン１２１０及び時定数１２２０が小さいシステムの場合、わずかに低下する。小さなプロセスゲイン及び時定数を有するシステムは、最大のコントローラゲインを必要とする。更に、コスト関数の意図しない効果は、そのようなシステムのわずかなアンダーチューニングを動機付けすることであり得る。訓練エピソードの有限期間内の特定の点としてコントローラゲインを更に増加させるために生じるペナルティは、ターゲット軌道追跡誤差のわずかな減少を上回る。性能のわずかな落下は、メタＲＬアルゴリズムの目標のわずかな不一致の結果であり得る。

【0082】

図１３を参照すると、システム１３００が、ターゲット軌道と比較して、メタＲＬアルゴリズムのＰＩチューニングを使用して、－１～１の設定点変化に対するシステム出力軌道を有するグラフ１３１０、１３２０で示されている。最悪のシナリオ１３１０及び最良のシナリオ１３２０が示される。最悪のシナリオ１３１０でも、メタＲＬアルゴリズムのＰＩチューニングは、望ましい制御性能を提供する。

【0083】

図１４は、０．５に設定されたプロセスゲイン及びプロセスデッドタイム１４１０、０．５ｔに設定されたプロセスデッドタイム及びプロセスゲインＫ１４２０、及び時間１４３０で、システム１４００を示す。両方のコントローラパラメータの時間は、それらの最終値の±１０％に収束する。加えて、チューニングの収束は、システム１４００内の励起に依存する。収束速度は、より多くの励起で速めることができる。メタＲＬエージェントは、２．７５時間単位のサンプリング時間を使用することができる。全体として、大きなプロセスゲイン及び高速ダイナミクスを有するシステムは、通常約１０時間単位の単一の設定点変化を単に必要とする。他方では、小さなゲイン及び低速のダイナミクスを有するシステムは、収束するのに長くかかり、大抵の場合、収束するまで１３の設定点の変化又は約１４０時間単位を必要とする。

【0084】

図１５を参照すると、システム１５００が、プロセス出力１５１０、１５２０、プロセス入力１５３０、１５４０、及びコントローラパラメータ１５５０、１５６０で示されている。最悪及び最良のシナリオは、図１４から選択される収束時間に基づく。最悪のシナリオであっても、単一の設定点変化後に合理的なＰＩチューニングが達成される。更に、性能は、ターゲット軌道により密接に一致するように時間の経過と共に改善し続ける。

【0085】

図１６は、を示すプロセス出力１６１０、１６２０、プロセスパラメータ１６３０、１６４０、及びコントローラパラメータ１６５０、１６６０を有するシステム１６００を示す。ドリフトプロセス遅延時間及びプロセスゲインにおけるステップ変化も示されている。プロセスダイナミクスの有意な変化に応答したメタＲＬチューニングアルゴリズムの性能。これらの例では、忘却因子γ＝０．９９が、性能に目立った影響を及ぼすことなく適応を高速化することが実験的に観察されているため、各時間ステップでメタＲＬエージェントの隠れ状態に適用される。忘却因子は、ｚ_ｔ＝σ（γＷｚ_ｔ－１Ｕｘ_ｔ＋ｂ）で表すことができる。コントローラのパラメータ１６５０、１６６０は、システム出力１６１０、１６２０からの乱れが非常に少ない変化システム１６００のダイナミクスに適応させる。

【0086】

図１７を参照すると、システム１７００が、プロセスゲイン１７２０、開ループ時定数１７４０、及び時間１７６０を有するグラフ１７１０、１７３０、及び１７５０で示されている。図１７では、２つの構成要素は、最終的な深層隠れ状態の分散の９８％を捕捉することができる。プロセスゲイン１７２０及び時定数１７５０に関してＰＣＡ傾向を分析すると、隠れ状態はこれら２つのパラメータに基づいて、近直交グリッドを作成することが見られる。メタＲＬモデルの隠れ状態により、モデルを含まない様式で閉ループプロセスデータを通してプロセスダイナミクスの内部表現を作成することができる。深層隠れ状態は、シミュレーション全体を通して経時的に発生する。隠れ状態は、全てのエピソードの開始時にゼロで初期化される。例えば、１７００などのシステムのＰＩパラメータは最大であり、より多くの情報を収集できるまで、システム１７００が、大きいゲイン１７２０及び大きい時定数１７６０を有すると仮定するよりも、小さいゲイン１７２０及び小さい時定数１７６０を有すると仮定する方が大きいリスクを有する。

【0087】

図１８では、システム１８００は、設定点、出力、チューニングなしの出力１８２０、入力、チューニングなしの入力１８４０、時定数１８６０、タンクレベル１８１０、プロセス入力１８３０、及びコントローラパラメータ１８５０で示されている。２タンクシステム１８００上のメタＲＬエージェントのチューニング性能が示される。ただ１つの設定点変化後、メタＲＬエージェントは、システム１８００の妥当なＰＩパラメータを見つけることができる。実際の時間単位を有する例のメタＲＬアルゴリズムのサンプル効率も示されている。約１分の時定数及び約１３秒のデッドタイムのシステム１８００では、ＰＩパラメータが収束するために通常４分かかる可能性がある。メタＲＬアルゴリズムは、様々なプロセスに適用することができる。プロセスゲイン及び時定数の大きさは、プロセスデータが適切に拡張され得るように知る必要がある。ゲイン及びプロセスダイナミクスをスケーリングするタスクは、自動化されなければならない。

【0088】

図１９には、本発明の実施形態によるプロセス１９００が示される。ステップ１９１０では、ＤＰＬアルゴリズム及び埋め込みニューラルネットワークを記憶するデータ処理システムが提供される。データ処理システムは、最終的にメタＲＬエージェントを訓練することを可能にするために提供される。更に、ステップ１９２０では、ＤＲＬアルゴリズムは、多次元ベクトルを生成し、コンテキストデータを要約するように訓練される。ステップ１９３０では、プロセスコントローラが、新しい産業プロセスに適応される。次いで、ステップ１９４０では、メタＲＬエージェントは、メタＲＬアルゴリズムを使用して、好適なパラメータセットを収集するように訓練される。次に、ステップ１９５０では、メタＲＬエージェントが好適なパラメータセットを使用して、新しいプロセスを制御する。

【0089】

要約すると、メタＲＬモデルは、明示的なシステム識別を伴わずに閉ループで固定構造コントローラをチューニングすることができる。更に、チューニングアルゴリズムは、プロセスダイナミクスが経時的に変化するときにコントローラパラメータを適応的に更新することによって、コントローラの初期チューニング又はコントローラのメンテナンスを自動化するために使用される。既知のプロセスゲイン及び時定数の大きさにより、メタＲＬチューニングアルゴリズムを、ほぼどのシステムにも適用することができる。

【0090】

メタＲＬモデルは、効率が損なわれる場合がある、ＲＬを産業プロセスに適用するという主な課題を克服する。更に、メタＲＬモデルは、事前にオフラインで可能なシステムの大きな分布を制御するモデルを訓練する。更に、メタＲＬモードは、プロセス特有の訓練及びプロセスモデルなしでオンラインで固定構造プロセスコントローラをチューニングすることができる。ＲＬエージェントに隠れ状態を含めることにより、メタＲＬエージェントにメモリが与えられ、プロセスデータを通じてプロセスダイナミクスの内部表現を学習する。更に、ＲＬ状態に加えて余分な情報を使用する値関数を構築することは非常に価値があり、この追加情報に関する値関数を調整することで、メタＲＬモデルの訓練効率が改善される。

【0091】

メタＲＬエージェントは、メタＲＬ訓練アルゴリズムを使用して訓練される。更に、メタＲＬ訓練アルゴリズムは、メタＲＬエージェントを訓練して、好適なパラメータセットを収集する。その結果、メタＲＬエージェントは、好適なパラメータセットを使用して、新しい産業プロセスを制御する。

【0092】

様々な開示される態様を上で説明してきたが、それらは、単なる一例として提示されており、限定するものではないことを理解するべきである。本開示に開示される主題に対する多くの変更は、本開示の趣旨又は範囲から逸脱せずに、本開示に従ってなされ得る。加えて、特定の特徴はいくつかの実施例のうちの１つのみに関して開示されている場合があるが、かかる特徴は、任意の所定の又は特定の用途にとって望ましく、有利であり得るため、他の実施例のうちの１つ以上の他の特徴と組み合わされてもよい。

【図1】