IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 独立行政法人産業技術総合研究所の特許一覧

<>
  • 特開-サンプル効率の良い強化学習 図1
  • 特開-サンプル効率の良い強化学習 図2
  • 特開-サンプル効率の良い強化学習 図3
  • 特開-サンプル効率の良い強化学習 図4
  • 特開-サンプル効率の良い強化学習 図5
  • 特開-サンプル効率の良い強化学習 図6
  • 特開-サンプル効率の良い強化学習 図7
  • 特開-サンプル効率の良い強化学習 図8
  • 特開-サンプル効率の良い強化学習 図9
  • 特開-サンプル効率の良い強化学習 図10
  • 特開-サンプル効率の良い強化学習 図11
  • 特開-サンプル効率の良い強化学習 図12
  • 特開-サンプル効率の良い強化学習 図13
  • 特開-サンプル効率の良い強化学習 図14
  • 特開-サンプル効率の良い強化学習 図15
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2023132902
(43)【公開日】2023-09-22
(54)【発明の名称】サンプル効率の良い強化学習
(51)【国際特許分類】
   G06N 3/08 20230101AFI20230914BHJP
   G06N 20/20 20190101ALI20230914BHJP
   G05B 23/02 20060101ALI20230914BHJP
【FI】
G06N3/08
G06N20/20
G05B23/02 R
G05B23/02 Z
【審査請求】未請求
【請求項の数】15
【出願形態】OL
【外国語出願】
(21)【出願番号】P 2022038480
(22)【出願日】2022-03-11
(71)【出願人】
【識別番号】301021533
【氏名又は名称】国立研究開発法人産業技術総合研究所
(72)【発明者】
【氏名】ブーギー ブルノ アレクサンダー ニコラス
【テーマコード(参考)】
3C223
【Fターム(参考)】
3C223AA01
3C223AA05
3C223BA03
3C223BB12
3C223BB17
3C223CC02
3C223DD03
3C223EA01
3C223EB01
3C223EB07
3C223FF02
3C223FF12
3C223FF22
3C223FF23
3C223FF24
3C223FF26
3C223FF35
3C223GG01
(57)【要約】
【課題】複雑なプロセス制御のタスクを制御するサンプル効率の良い方法を提供すること。
【解決手段】方法は、コントローラサンプルを記憶するための再生メモリ、大きな累積報酬を有するロールアウトを記憶するためのエピソードメモリ、エピソードメモリを更新するためのメカニズム、再生メモリおよびエピソードメモリからのサンプルを優先的にサンプリングするための方法に基づいて状態軌道を収集するステップと、コントローラサンプルおよび収集されたロールアウトをエージェントのサンプルから区別するようにニューラルネットワークのアンサンブルを訓練するステップと、ニューラルネットワークのアンサンブルからの集約された予測に基づいて探索ボーナスを決定するステップと、期待総報酬を最大化するシステムの制御目標を設定するステップとを含む。
【選択図】図10
【特許請求の範囲】
【請求項1】
環境の状態を特徴付ける観測結果を受信することによって環境とインタラクションするエージェントによって実行される行動を選択するために使用されるニューラルネットワークを訓練するための方法であって、1つまたは複数のプロセッサによって実施され、
強化学習コントローラを使用してニューラルネットワークを訓練するステップであって、前記ニューラルネットワークが、センサーの読み取り値などの観測入力を含む入力を受け取り、前記環境内で実行される行動を選択するために前記入力を処理するように構成される、ステップと、
ガイドコントローラを利用して、判断を行うときに探索すべき状態に関するガイダンスを提供することによって、前記強化学習コントローラの訓練を加速させるステップであって、前記ガイドコントローラが、探索を制限するために、既存のコントローラおよび前記エージェントの経験からの大きな累積報酬を有するロールアウトを利用する支援された方策探索を実施する、ステップと、
前記環境内で既存のコントローラを実行した結果として抽出されたサンプルを記憶する再生メモリを維持するステップと、
環境との前記エージェントのインタラクションの結果として大きな累積報酬を有するロールアウトを記憶するエピソードメモリを維持するステップであって、各ロールアウトが、複数の時間ステップの各々における状態を含む、ステップと、
ニューラルネットワークのアンサンブルを維持するステップであって、各ニューラルネットワークが、以前に訪問された状態のバッチ、及び現在の状態を含む遷移を受け取り、遷移入力を処理して、前記再生メモリおよび前記エピソードメモリからの実演者データの集合と、前記エージェントの経験との間で前記遷移の出所を区別するように構成されるニューラルネットワークである、ステップと、
環境報酬と合計される探索ボーナスを決定するステップであって、前記ボーナスが、ニューラルネットワークの前記アンサンブルからの集約された予測出力に基づく、ステップと、を含む、方法。
【請求項2】
前記エージェントが、前記観測結果に応じてプラントにおける行動を制御するように構成され、前記観測結果が、完全にまたは部分的に観測された状態を含む前記プラントの動作またはセンサーの読み取り値に関連し、前記行動が、前記プラントの機器の動作条件を制御するかもしくは課す行動、または前記プラントの前記動作における設定への変更をもたらす行動を含む請求項1に記載の方法。
【請求項3】
プロセス制御のために前記強化学習コントローラを訓練することが、前記コントローラの動作モード中に判断を行うときに探索すべき状態に関するガイダンスを提供するシステムを利用する請求項1に記載の方法。
【請求項4】
前記支援された方策探索が、前記環境によって提供される前記報酬とさらに合計される補助的なボーナス信号を出力するガイドコントローラの形態で実装され、前記方法が、
定常条件の下でおよび乱れの下で初期データを生成するために既存のコントローラを実行するステップと、
前記初期データから訓練サンプルを抽出し、予測器ニューラルネットワークのアンサンブルのオンライン訓練のために使用するために前記サンプルを再生メモリに記憶するステップであって、サンプルが、以前に訪問された状態のバッチ、現在の状態、および2値ラベルを含む遷移である、ステップと、
大きな累積報酬を有するロールアウトをエピソードメモリに収集することによって、初期のサンプルの集合を膨らませるステップと、
前記再生メモリ、前記エピソードメモリ、および前記エージェントの経験からのサンプルの混合でニューラルネットワークの前記アンサンブルを訓練するステップと、
前記探索ボーナスと合計された平均環境報酬を最大化するために、行動を選択するために使用されている前記ニューラルネットワークのパラメータを調整するステップであって、前記探索ボーナスが、前記ガイドコントローラによって生成される、ステップと、を含む請求項3に記載の方法。
【請求項5】
前記ガイドコントローラによって使用される前記初期データが、既存のコントローラの制御下でシミュレータまたは現実のプラントを実行することによって収集され、収集されたデータが、状態軌道の集合からなり、各状態軌道が、前記環境の状態の集合を特徴付ける観測結果の集合を含む請求項4に記載の方法。
【請求項6】
1つまたは複数の予測器ニューラルネットワークのアンサンブルが、直面しているタスクを解決するために前記エージェントが訪れるべき状態空間の領域を特定するように構成され、そのような領域が、前記再生メモリおよび前記エピソードメモリ内の前記サンプルから有望なエリア内にある請求項4に記載の方法。
【請求項7】
予測器ニューラルネットワークの前記アンサンブルが、前記エージェントの経験から抽出された前記サンプルと、既存のコントローラを実行することによって収集された軌道、および訓練プロセス全体を通じて収集された大きな累積報酬を有するロールアウトから抽出されたサンプルとを区別するように構成され、前記データの前記出所が、2値としてラベル付けされる請求項6に記載の方法。
【請求項8】
前記探索ボーナスを生成するための動作が、
前記環境が遷移した前記現在の状態が、前記環境とインタラクションする前記エージェントによって実行される行動を選択するために使用される前記ニューラルネットワークに従って訪問された状態、または既存のコントローラに従って訪問された状態、または大きな累積報酬につながる状態であると、以前の状態のバッチに基づいて判定することと、
複合報酬関数によって、前記現在の状態を訪問することに関連する報酬として探索ボーナスを割り振ることとをさらに含む請求項1に記載の方法。
【請求項9】
予測器ネットワークの前記アンサンブルを訓練するステップが、前記再生メモリ、前記エピソードメモリ、および前記エージェントの経験からのサンプルの混合を使用し、
前記再生メモリおよび前記エピソードメモリに関してサンプルの混合を優先的にサンプリングすることと、
前記エージェントの経験からサンプルの集合をサンプリングすることと、
ミックスアップ訓練を使用して追加のサンプルを生成することであって、追加のサンプルが、訓練サンプルおよびラベルの凸結合として構築される、生成することと、
モデルの汎化を改善するための正則化としてドロップアウトを用いてラベルの予測を促す目標に基づいてネットワークの前記アンサンブルを更新することと、を繰り返し含む請求項7に記載の方法。
【請求項10】
予測器ネットワークの前記アンサンブルの予測を集約することが、前記予測器ネットワークの予測の信頼度に基づく重み係数によって前記予測を調整することと、前記アンサンブルの不確実性を取り込む集計関数に基づいて出力を集約することと、を含む請求項7に記載の方法。
【請求項11】
前記補助的なボーナスを推定することが、
前記現在の状態を受け取ることと、
以前の状態のバッチと前記現在の状態とをマッピングするサンプルを生成することと、
現在のサンプルに基づいて予測器ネットワークの前記アンサンブルの前記予測を決定することと、
前記アンサンブル内の各ネットワークの重みを決定することと、
重み付けされた予測を集約し、補助的なボーナスを出力することと、を繰り返し含む請求項10に記載の方法。
【請求項12】
前記予測の前記信頼度を取り込むために予測器ネットワークの前記アンサンブル内の各ネットワークに重みが割り当てられ、前記信頼度が、異なるドロップアウトマスクを用いて複数の予測を実行することによって推定される請求項11に記載の方法。
【請求項13】
大きな累積報酬を有する前記ロールアウトが、自己教師の形態として使用され、前記ロールアウトが、前記エピソードメモリに記憶され、予測器ネットワークの前記アンサンブルによって訓練サンプルとして使用される請求項1に記載の方法。
【請求項14】
前記エピソードメモリが、ヒューリスティックに基づいて前記ロールアウトを管理し、古いロールアウトを破棄し、前記ヒューリスティックが、前記ロールアウトの収益と、このロールアウトを経験するときに追求されている目標に到達するシステムの能力とに基づく請求項13に記載の方法。
【請求項15】
サンプルの混合が、前記再生メモリおよび前記エピソードメモリから優先的にサンプリングされ、サンプリングされることが、
前記再生メモリおよび前記エピソードメモリからサンプルをサンプリングする初期確率を割り振ること、
新規のロールアウトを収集し、前記エピソードメモリに記憶すること、
前記エージェントの経験から収集されたロールアウトの数に基づいてサンプルをサンプリングする前記確率を調整することを含む請求項9に記載の方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、自律的なプロセス制御に関する。より詳細には、本発明は、プロセス制御のためのサンプル効率の良い強化学習に関する。
【背景技術】
【0002】
プロセス制御は、化学制御(chemical control)と工学とを組み合わせる産業用制御システムの中の分野である。プロセス制御の現在の手法は、周波数領域での古典的な制御手法、時間領域での現代的な制御手法、または先進的な制御手法のいずれかである。
【0003】
比例積分微分(PID)などの古典的な制御手法は、プラントの変化にどのように対応すべきかを計算するために、システムについての情報を使用する。概して、古典的な制御手法は、システムの時間領域の表現を周波数領域に変換するためにラプラス変換およびフーリエ変換に依拠する。しかしながら、古典的な制御手法は、高次元の入力/出力が含まれるとき、システムを表現するために使用される伝達関数および微分方程式が過度に複雑になるので、特に複雑な高次元システムに関して、最適化ステップが最適な制御入力を返すのに時間がかかるという事実に悩まされる。その上、たとえコントローラが設置時にうまく調整されるとしても、プロセス特性のドリフト(drift)または意図的な設定値の変更が、時間の経過とともに性能を低下させ得る。
【0004】
一方、現代的な制御手法は、システムの時間領域を考慮に入れる。たとえば、状態空間制御は、システムと入力の任意の所与の集合に対するその応答とを記述する状態変数を使用する。したがって、現代的な制御は、システムの時間領域を記述する微分方程式を取得し、それらを状態変数を使用してベクトル形式で変換する。結果として、簡単な行列代数によってシステムを評価することが可能であり、これは、高次元システムが評価されることも可能にする。しかし、それらの手法は、過去および現在のシステムの挙動のみを考慮する(つまり、それらの手法は、逸脱に反応する)。
【0005】
一方、モデル予測制御(MPC)などの先進的な制御手法は、概して、プロセスの動作を指示するために使用される。MPCは、システムモデルを使用して、基準からの逸脱を予測して将来の挙動を予測する。つまり、MPCは、最適な軌道(trajectory)を決定する最適化において将来のシステムの挙動を考慮して将来のシステムの挙動を予測する。
【0006】
プロセス産業にとって、プラントにおける安全性および最適な生産負荷を維持することは極めて重要である。残念なことに、プロセス制御の通常の方法は、概して、天候の変化などの乱れ(disturbance)にうまく対応することができず、柔軟性に欠ける後手後手の制御戦略である。詳細には、これらのコントローラは、システムを定常状態に維持するのには適しているが、未経験の状態または乱れに遭遇するときには概して不十分である。たとえば、化学プラントは、昼/夜または大雨などの外的な乱れと、供給組成(feed composition)や構成要素の圧力(pressure of a component)の急激な変化などの内的な乱れを経験することが多い。そのような状況においては、既存のコントローラは効果的でない可能性が高いので、プラントの安定性を回復するために化学プラントを手動で調整し、制御するように熟練したオペレータに頼むことがよくある。これらの手続きは、通常、複雑で資源をたくさん必要とし、通常動作のコストのかさむ中断を引き起こすことが多い。さらに、通常のコントローラは、適切なパラメータおよび制御則の設計を選択するために、タスクに高度に精通していることを必要とする。つまり、制御モデルの作成およびそのパラメータの選択は、難易度の高いことでよく知られた工学的問題である。
【0007】
上述の課題に対する1つの解決策は、プロセス制御の分野を強化学習と組み合わせることである。強化学習は、環境とインタラクションすることによって、エージェントにタスクを学習する能力を与えるコンピュータサイエンスの分野である。このテクノロジーは、環境の変化および新規の状況にエージェントの挙動を適応させることができる。強化学習は、環境とインタラクションすることによって適切な閉ループコントローラを学習し、その方策(policy)を段階的に改善することを対象としてする。このテクノロジーは、ロボットアーム制御、ゲームプレイ、またはチャットロボットなどの様々な用途で使用されてきた。
【0008】
プロセス制御の文脈では、いくつかの研究が、Q学習または方策勾配に基づく強化学習アルゴリズムを使用してプロセス制御に取り組んだ。しかし、強化学習の柔軟性および適応性は、「サンプル効率」問題としても知られる、満足のいく方策に収束するために膨大な数のインタラクションを経験する必要性をともなう。言い換えると、そのような通常の強化学習の手法は、サンプル効率が良くなく、時間がかかる。通常の強化学習の手法は、行動選択ニューラルネットワークの訓練の過程で、大量の経験遷移(experience transition)が収集されることを必要とし、それによって、訓練が効果的であるために訓練プロセスが大量の訓練データが収集されることを必要とするので、訓練プロセスを比較的データ非効率にする。
【0009】
ビデオゲームなどのサンプル効率の良いシミュレータにおいては、数百万または数十億ステップにわたってエージェントを訓練することが許容され得るが、プロセス制御産業では、これは、多くの場合、手に負えなくなる。プロセス制御のタスクは、概して、複雑で変化するダイナミクス(dynamics)、巨大な状態行動空間、およびコストのかかる計算を含み、これは、低いサンプル効率をともなう。加えて、実世界のタスクにおいては、元来、報酬が疎であり、必要な訓練ステップの数をさらに増加させる。したがって、少ない量のデータから最適な挙動を学習することができるプロセス制御のための強化学習手法を提供するニーズが存在する。言い換えると、強化学習により高速に、環境とのより少ない量のインタラクションを使用して学習させるプロセス制御のための方法を構築することが必要である。
【0010】
一方、行動クローニング(behavioral cloning)などの強化学習においてサンプル効率を向上させるための通常の方法は、専門家によって生成される高品質な状態行動のデモンストレーションの必要性が原因で、プロセス制御産業においては適用可能でない。つまり、これらの手法は、プロセス制御のタスクのような人間がデモンストレーションすることが難しい挙動には直接適用可能でなく、通常、最適な挙動が収集され得るタスクに制限され、したがって、ガイダンスとしての既存のコントローラの使用を棄却する。最後に、これらの手法は、専門家の行動へのアクセスを必要とし、これは、一部のプロセス制御のタスクのように第三者(third-person)のガイダンスのみが利用可能であるとき、手法の適用可能性をさらに低くする。本明細書において使用される第三者という用語は、たとえば、既存のコントローラが、タスクを学習する必要があるエージェントとは異なる実施形態によってシステムを動作させるときに観測される場合があるガイダンスの種類を指す。
【先行技術文献】
【非特許文献】
【0011】
【非特許文献1】Dzmitry Bahdanau、Philemon Brakel、Kelvin Xu、Anirudh Goyal、Ryan Lowe、Joelle Pineau、Aaron C、Courville、and Yoshua Bengio、An actor-critic algorithm for sequence prediction、In 5th International Conference on Learning Representations、2017、12
【非特許文献2】Marc G Bellemare、Yavar Naddaf、Joel Veness、and Michael Bowling、The arcade learning environment: An evaluation platform for general agents、Journal of Artificial Intelligence Research、47:253~279、2013. 11
【非特許文献3】Nicolas Bougieand Ryutaro Ichise、Hierarchical learning from human preferences and curiosity、Applied Intelligence、1~21pages、2021. 13
【非特許文献4】Lifei Cheng、Eswaran Subrahmanian、and Arthur W. Westerberg、A comparison of optimal control and stochastic programming from a formulation and computation perspective、Computers & Chemical Engineering、29(1):149~164、2004. 16
【非特許文献5】Paul Christiano、Jan Leike、Tom B Brown、Miljan Martic、Shane Legg、and Dario Amodei、Deep reinforcement learning from human preferences、arXiv preprint arXiv:1706.03741、2017. 13
【非特許文献6】Yunduan Cui、Lingwei Zhu、Morihiro Fujisaki、Hiroaki Kanokogi、and Takamitsu Matsubara、Factorial kernel dynamic policy programming for vinyl acetate monomer plant model control、In Proceedings of the IEEE International Conference on Automation Science and Engineering、304~309pages、2018. 15
【非特許文献7】Chelsea Finn、Sergey Levine、and Pieter Abbeel、Guided cost learning: Deep inverse optimal control via policy optimization、In International conference on machine learning、49~58pages、PMLR、2016. 12
【非特許文献8】Ian Goodfellow、Jean Pouget-Abadie、Mehdi Mirza、Bing Xu、David WardeFarley、Sherjil Ozair、Aaron Courville、and Yoshua Bengio、Generative adversarial nets、Advances in neural information processing systems、27、2014. 14
【非特許文献9】Abhishek Gupta、Coline Devin、YuXuan Liu、Pieter Abbeel、and Sergey Levine、Learning invariant feature spaces to transfer skills with reinforcement learning、arXiv preprint arXiv:1703.02949、2017. 14
【非特許文献10】Todd Hester、Matej Vecerik、Olivier Pietquin、Marc Lanctot、Tom Schaul、Bilal Piot、Dan Horgan、John Quan、Andrew Sendonaris、Ian Osband、Gabriel DulacArnold、John Agapiou、Joel Z Leibo、and Audrunas Gruslys、Deep q-learning from demonstrations、In Proceedings of the Annual Meeting of the Association for the Advancement of Artificial Intelligence、2018. 12
【非特許文献11】Jonathan Ho and Stefano Ermon、Generative adversarial imitation learning、In Proceedings of Advances in neural information processing systems、4565~4573pages、2016. 12
【非特許文献12】Borja Ibarz、Jan Leike、Tobias Pohlen、Geoffrey Irving、Shane Legg、and Dario Amodei、Reward learning from human preferences and demonstrations in atari、arXiv preprint arXiv:1811.06521、2018. 13
【非特許文献13】Ruoxi Jia、Ming Jin、Kaiyu Sun、Tianzhen Hong、and Costas Spanos、Advanced building control via deep reinforcement learning、Energy Procedia、158:6158~6163、2019. 16
【非特許文献14】Sanket Kamthe and Marc Deisenroth、Data-efficient reinforcement learning with probabilistic model predictive control、In Proceedings of the International conference on artificial intelligence and statistics、1701~1710pages、2018. 16
【非特許文献15】Diederik P Kingma and Jimmy Ba、Adam: A method for stochastic optimization、arXiv preprint arXiv:1412.6980、2014. 32
【非特許文献16】Shumpei Kubosawa、Takashi Onishi、and Yoshimasa Tsuruoka、Synthesizing chemical plant operation procedures using knowledge, dynamic simulation and deep reinforcement learning、ArXiv、abs/1903.02183、2019. 11
【非特許文献17】Shumpei Kubosawa、Takashi Onishi、and Yoshimasa Tsuruoka、Computing operation procedures for chemical plants using whole-plant simulation models、Control Engineering Practice、114:104878、2021. 11
【非特許文献18】Shumpei Kubosawa、Onishi Takashi、and Tsuruoka Yoshimasa、Nonsteady state control under disturbances: Navigation plant operation via simulation-based reinforcement learning、In Proceedings of the Annual Conference of the Society of Instrument and Control Engineers of Japan、21. 11
【非特許文献19】Hoang Le、Nan Jiang、Alekh Agarwal、Miroslav Dudik、Yisong Yue、and Hal Daume III、Hierarchical imitation and reinforcement learning、In International conference on machine learning、2917~2926pages、PMLR、2018. 13
【非特許文献20】Sergey Levine and Pieter Abbeel、Learning neural network policies with guided policy search under unknown dynamics、In NIPS、volume 27、1071~1079pages、2014. 14
【非特許文献21】Sergey Levine and Vladlen Koltun、Guided policy search、In International conference on machine learning、1~9pages、2013. 14
【非特許文献22】Weiwei Li and Emanuel Todorov、Iterative linear quadratic regulator design for nonlinear biological movement systems、In ICINCO (1)、222~229pages、2004. 15
【非特許文献23】Yuanlong Li、Yonggang Wen、Dacheng Tao、and Kyle Guan、Transforming cooling optimization for green data center via deep reinforcement learning、IEEE Transactions on Cybernetics、50(5):2002~2013、2020. 16
【非特許文献24】Timothy P Lillicrap、Jonathan J Hunt、Alexander Pritzel、Nicolas Heess、Tom Erez、Yuval Tassa、David Silver、and Wierstra、Continuous control with deep reinforcement learning、arXiv preprint:1509.02971、2015. 11
【非特許文献25】Yuta Machida、Shigeki Ootakara、Hiroya Seki、Yoshihiro Hashimoto、Manabu Kano、Yasuhiro Miyake、Naoto Anzai、Masayoshi Sawai、Takashi Katsuno、and Toshiaki Omata、Vinyl acetate monomer (vam) plant model: A new benchmark problem for control and operation study、49(7):533~538、2016、Proceedings of the IFAC Symposium on Dynamics and Control of Process Systems Including Biosystems. 31
【非特許文献26】Eskild Ruud Mageli、Reinforcement learning in process control、Master’s thesis、NTNU、2019. 12
【非特許文献27】Daniel G. McClement、Nathan P. Lawrence、Philip D. Loewen、Michael G. Forbes、Johan U. Backstrom、and R. Bhushan Gopaluni、A meta-reinforcement learning approach to process control、IFAC-PapersOnLine、54(3):685~692、2021.15
【非特許文献28】Josh Merel、Yuval Tassa、Dhruva TB、Sriram Srinivasan、Jay Lemmon、Ziyu Wang、Greg Wayne、and Nicolas Heess、Learning human behaviors from motion capture by adversarial imitation、arXiv preprint arXiv:1707.02201、2017. 14
【非特許文献29】Volodymyr Mnih、Adria Puigdomenech Badia、Mehdi Mirza、Alex Graves、Timothy Lillicrap、Tim Harley、David Silver、and Koray Kavukcuoglu、Asynchronous methods for deep reinforcement learning、In Proceedings of the international conference on machine learning、1928~1937pages、2016. 11、12、32
【非特許文献30】Volodymyr Mnih、Koray Kavukcuoglu、David Silver、Andrei A Rusu、Joel Veness、Marc G Bellemare、Alex Graves、Martin Riedmiller、Andreas K Fidjeland、and Georg、Human-level control through deep reinforcement learning、Nature、518(7540):529、2015. 11
【非特許文献31】Tatsuya Mori、Shumpei Kubosawa、Takashi Onishi、and Yoshimasa Tsuruoka、Improving the gross profit of a vinyl acetate monomer plant by deep reinforcement learning、In Proceedings of the Annual Conference of the Society of Instrument and Control Engineers of Japan、2020. 11
【非特許文献32】Arun Nair、Praveen Srinivasan、Sam Blackwell、Cagdas Alcicek、Rory Fearon、Alessandro De Maria、Vedavyas Panneershelvam、Mustafa Suleyman、Charles Beattie、Stig Petersenら、Massively parallel methods for deep reinforcement learning、arXiv preprint arXiv:1507.04296、2015. 11
【非特許文献33】Ashvin Nair、Dian Chen、Pulkit Agrawal、Phillip Isola、Pieter Abbeel、Jitendra Malik、and Sergey Levine、Combining self-supervised learning and imitation for vision-based rope manipulation、In 2017 IEEE international conference on robotics and automation (ICRA)、2146~2153pages、IEEE、2017. 13
【非特許文献34】Ashvin Nair、Bob McGrew、Marcin Andrychowicz、Wojciech Zaremba、and Pieter Abbeel、Overcoming exploration in reinforcement learning with demonstrations、In Proceedings of the IEEE International Conference on Robotics and Automation、6292~6299pages、2018. 12
【非特許文献35】Yunxiao Qin、Weiguo Zhang、Jingping Shi、and Jinglong Liu、Improve pid controller through reinforcement learning、In Proceedings of the IEEE CSAA Guidance, Navigation and Control Conference、1~6pages、2018. 16
【非特許文献36】John Schulman、Filip Wolski、Prafulla Dhariwal、Alec Radford、and Oleg Klimov、Proximal policy optimization algorithms、arXiv preprint arXiv:1707.06347、2017. 32
【非特許文献37】Pierre Sermanet、Corey Lynch、Yevgen Chebotar、Jasmine Hsu、Eric Jang、Stefan Schaal、Sergey Levine、and Google Brain、Time-contrastive networks: Self-supervised learning from video、In 2018 IEEE international conference on robotics and automation (ICRA)、1134~1141pages、IEEE、2018. 14
【非特許文献38】Joohyun Shin、Thomas A Badgwell、Kuang-Hung Liu、and Jay H Lee、Reinforcement learning-overview of recent progress and implications for process control、Computers & Chemical Engineering、127:282~294、2019. 11
【非特許文献39】Steven Spielberg、Aditya Tulsyan、Nathan P Lawrence、Philip D Loewen、and R Bhushan Gopaluni、Deep reinforcement learning for process control: A primer for beginners、arXiv preprint arXiv:2004.05490、2020. 11
【非特許文献40】Richard S Sutton、Doina Precup、and Satinder Singh、Between mdps and semimdps: A framework for temporal abstraction in reinforcement learning、Artificial intelligence、112(1~2):181~211、1999. 13
【非特許文献41】Go Takami、Ai-based plant control、Technical report、Yokogawa Technical Report English Edition、2020. 12
【非特許文献42】Faraz Torabi、Garrett Warnell、and Peter Stone、Behavioral cloning from observation、arXiv preprint arXiv:1805.01954、2018. 14
【非特許文献43】Faraz Torabi、Garrett Warnell、and Peter Stone、Generative adversarial imitation from observation、arXiv preprint arXiv:1807.06158、2018. 13
【非特許文献44】Zsolt J. Viharos and Richard Jakab、Reinforcement learning for statistical process control in manufacturing、Measurement、182:109616、2021. 12
【非特許文献45】Yuhuai Wu、Elman Mansimov、Roger B Grosse、Shun Liao、 and Jimmy Ba、Scalable trust-region method for deep reinforcement learning using kroneckerfactored approximation、Proceedings of Advances in neural information processing systems、30:5279~5288、2017. 32
【非特許文献46】Huimin Xie、Xinghai Xu、Yuling Li、Wenjing Hong、 and Jia Shi、Model predictive control guided reinforcement learning control scheme、In Proceedings of the International Joint Conference on Neural Networks、1~8pages、2020. 11
【非特許文献47】Lingwei Zhu、Yunduan Cui、Go Takami、Hiroaki Kanokogi、 and Takamitsu Matsubara、Scalable reinforcement learning for plant-wide control of vinyl acetate monomer process、Control Engineering Practice、97:104331、2020. 15
【非特許文献48】Brian D Ziebart、Andrew L Maas、J Andrew Bagnell、Anind K Deyら、Maximum entropy inverse reinforcement learning、In Aaai、8巻、1433~1438pages、Chicago、IL、USA、2008. 12
【非特許文献49】Darja Semrov、R. Marsetic、Marijan Zura、Ljupco Todorovski、and Aleksander Srdic、Reinforcement learning approach for train rescheduling on a single-track railway、Transportation Research Part B Methodological、86:250~267、04 2016. 11
【発明の概要】
【課題を解決するための手段】
【0012】
以上に鑑みて、化学プラントなどの複雑なプロセス制御のタスクを制御するサンプル効率の良い方法の継続的なニーズが、当技術分野に存在する。一部の実施形態によれば、支援された方策探索の形態に基づいて強化学習の訓練を加速させるための方法が、提供される。プロセス制御のために強化学習コントローラを訓練することは、判断を行うときに探索すべき状態空間の領域に関するガイダンスを提供するための方法を利用する。方法は、既存のコントローラ、どのガイダンスサンプルが訓練プロセスを高速化するのに有用であるか、最適でない既存のコントローラによって生成された「コントローラサンプル」を抽出し、再ラベル付けするための方法、コントローラサンプルを記憶するための再生メモリ(replay memory)、大きな累積報酬を有するロールアウトを記憶するためのエピソードメモリ(episodic memory)、エピソードメモリを更新するためのメカニズム、再生メモリおよびエピソードメモリからのサンプルを優先的にサンプリングするための方法に基づいて状態軌道を収集するステップと、コントローラサンプルおよび収集されたロールアウトをエージェントのサンプルから区別するようにニューラルネットワークのアンサンブル(ensemble)を訓練するステップと、ニューラルネットワークのアンサンブルからの集約された予測に基づいて探索ボーナスを決定するステップと、期待総報酬を最大化するシステムの制御目標を設定するステップとを含む。
【0013】
有利なことに、方法は、いくつかの点でサンプル効率を向上させる。特に、モデル予測制御または比例積分微分などの任意の既存のコントローラが、直面しているタスクを解決するために適切な方向にエージェントを潜在的に導く状態/領域に向けてエージェントの学習を導くために使用され得る。特に、そのようなガイダンスは、どのようにして乱れを修正すべきかおよび/またはシステムを定常状態に維持すべきかを学習するようにエージェントに促す。結果として、本発明はこのガイダンスを利用して探索空間を有望なエリア内に制限するので、訓練データがより効率的に探索されることが可能であり、したがって、訓練中のサンプル効率を向上させる。上で使用された用語「コントローラサンプル」は、仮想的なまたは現実のプラントにおいて既存のコントローラを実行することによって生成された状態軌道から抽出される訓練サンプルの集合を指す。上述のように、既存のコントローラは乱れに遭遇するときに最適でない可能性が高いが、不完全な軌道は、システムのダイナミクスおよび制御に関するドメイン知識(domain knowledge)を依然として符号化し得る。つまり、本システムにおいては、既存のコントローラの意図が、最適でない状態軌道からでさえも抽出され得る。
【0014】
コントローラのガイダンスに加えて、本システムは、大きな累積報酬を有するエージェントの過去のロールアウトを自己教師(self-supervision)の形態として組み込む。一部の実施形態において、コントローラのガイダンスは、主に、訓練フェーズの開始時に性能を向上させ、自己教師は、訓練プロセス全体を通じてサンプル効率を向上させる。エージェントがタスクについての知識を獲得すると、システムは、(潜在的に)最適でないコントローラのガイダンスよりも、大きな累積報酬を有するエージェントの過去の経験を優先させる。この目的で、エージェントの訓練プロセス全体を通じて経験された大きな累積報酬を有する過去のロールアウトが、エピソードメモリに記憶され、新規の学習目標に組み込まれる。結果として、本システムは、訓練プロセスの開始時と訓練プロセス中との両方で、サンプル効率および性能を向上させる。
【0015】
本発明のより完全な理解のために、以下の説明および添付図面が参照される。
【図面の簡単な説明】
【0016】
図1】プロセス制御のための通常の強化学習システムの実装の図である。
図2】一部の実施形態によるプロセス制御のためのサンプル効率の良い強化学習システムの実装の図である。
図3】ガイド付き強化学習システム(guided reinforcement learning system)を訓練するための例示的なプロセスの流れ図である。
図4】本発明の実施形態による強化学習コントローラの訓練を加速させるためのシステムの概要を示す図である。
図5】既存のコントローラを利用することによってデータを収集する方法の流れ図である。
図6】一部の実施形態による、訓練中に強化学習システムを支援するために使用される探索ボーナスを決定するためのガイドコントローラの実装の図である。
図7】探索ボーナスの推定の方法の流れ図である。
図8】本発明の実施形態による探索ボーナスを計算するためのシステムを示す図である。
図9】大きな平均報酬を有するロールアウトを記憶するためのエピソードメモリの実装の方法の流れ図である。
図10】本発明の概要を示す図である。
図11】本発明の実施形態による、探索ボーナスによって強化学習コントローラの訓練を加速させるためのシステムを示す図である。
図12】酢酸ビニルモノマープラントにおける制御のための支援された強化学習を示す図である。
図13】酢酸ビニルモノマープラントにおいてAcOHの供給圧力の乱れを修正するために使用されるいくつかのベースライン(baseline)と比較して本発明を示す図である。
図14】酢酸ビニルモノマープラントにおいてC2H4の供給圧力の乱れを修正するために使用されるいくつかのベースラインと比較して本発明を示す図である。
図15】酢酸ビニルモノマープラントにおいて昼夜の乱れを修正するために使用されるいくつかのベースラインと比較して本発明を示す図である。
【発明を実施するための形態】
【0017】
まず、関連する研究の概要および本発明との相違点が、以下で説明される。
【0018】
上述のように、強化学習は、ゲームプレイ[30]やロボット制御[24]などの様々な複雑なタスクで大きな成功を収めた。また、強化学習は、いくつかの産業領域で使用され得ることが示された[46、49、38]。実際、そのような手法は、従来から、サンプル効率の良いシミュレータによって生成された大量のデータに依存する。たとえば、それなりの性能に達するために、アーケード学習環境(arcade learning environment)[2]からのゲームにおける数十億ステップにわたってエージェントを訓練することがよく行われる。研究の一部の系統は学習プロセスを並列化することによって訓練時間を短縮することに注力したが[32、29]、それらは、通常、環境との多数のインタラクションを依然として必要とする。したがって、これらの通常の手法は、サンプル効率が重要な課題であるプロセス産業に適用するのが概して困難である。
【0019】
産業用制御の文脈では、いくつかの従来研究が、化学プラントの制御[17、31]および乱れに対する対処[18、16]のための強化学習の使用を探求した。たとえば、[39]においては、プロセスプラントの構成要素を制御するために、モデルフリー強化学習モデルが採用されている。[44]においては、プロセスタスクを学習するために、再利用窓(reusage window)を用いるQテーブルアルゴリズムが採用されている。しかし、そのような手法は、訓練を可能にするために制限された数の起こり得る乱れを含む。
【0020】
研究[26]は、1つまたは複数の自由度を有する1つまたは複数のタンクの液位を制御する、A2C[29]またはREINFORCE[1]などのいくつかの強化学習コントローラの能力を評価した。別の論文は、追加の実験的設定を用いて同様の応用を対象とした[41]。しかしながら、タスクを一から学習することは、効果的な方策を学習するために状態行動空間の手に負えないほど時間がかかる量の探索を依然として必要とする可能性があり、したがって必然的に、そのようなフレームワークを実世界の応用に拡張することは困難である可能性がある。
【0021】
タスクに関する事前知識がない場合、そのような標準的な強化学習手法は、追求されている目標に到達するために無関係である可能性が高い選択肢を試すためにその探索時間の大半を費やし、それがそれらの手法の最終的な性能を低下させる可能性がある。これは、概してタスクが複雑で変化するダイナミクス、巨大な状態行動空間をともない、したがって必然的に、エージェントが多くの異なる選択肢を試すことによってその探索バジェットを使い果たすプロセス産業において大きな問題となる。一方、本発明では、エージェントの探索を支援するためにタスクについての事前知識を利用し、したがって、訓練時間の短縮し、最終的な性能を向上させる。
【0022】
タスクについての事前知識を利用することによって学習プロセスを加速させるという考え方は、複数の強化学習フレームワークで採用された。研究の1つの系統は、エージェントが提供されたデモンストレーションのクローンを作成することを目標とする行動クローニング[34、10]である。異なる考え方で、GAIL[11]などの逆模倣(inverse imitation)ベースの手法[48、7]は、提供されたデモデータに基づいて報酬関数を推測しようと試みる。模倣学習に関するこれまでの研究のほとんどは、状態行動のデモンストレーションを中心としている。しかし、これらの手法は、複雑な化学プラントの制御などの、人間がデモンストレーションすることが難しい挙動に直接適用可能でない。さらに、これらの手法は、デモンストレーションの性能によって制約されることが多い。最後に、これらの手法は、エージェントに知識を伝達するまたは提供することができる人間の専門家へのアクセスを必要とする。人間へのこの負担は、デモンストレーションによってカバーする状態空間が大きいとき、たとえば、多くの異なる状況または乱れが起こり得るとき、手に負えないことが多い。
【0023】
デモデータの必要性を克服するために、プリファレンスの考え方が採用された[5、12]。この設定の下で、エージェントは、人間にエージェントの可能な軌道を比較するように頼み、そのデータ使用して報酬関数を学習することによって、訓練プロセス中にフィードバック信号を要求することができる。そのような問題に対処するための方法の別の部類は、タスクの構造がこれらのタスクに関する高レベルのフィードバックのみを提供するように人間の訓練者に頼むために利用される[40]階層的模倣(hierarchical imitation)である。たとえば、人間の訓練者は、現在の状態および行動を前提として次の下位目標(sub-goal)についてのフィードバックを要求されることが可能であり、低レベルの方策が、通常の強化学習の方法で訓練される[19]。同様に、人間の実演者が、下位目標のペアの間の高レベルのプリファレンスを提供するように求められ得る[3]。一方、本発明は、既存のコントローラを実行することによって、エージェント自身の過去の良好な状態軌道からガイダンスが収集されるので、人間の実演者を必要としない。加えて、本発明は、タスクを学習する必要があるエージェントとは異なる実施形態によってシステムを動作させる既存のコントローラを観測することによってガイダンスが収集される場合があることを必然的にともなう行動へのアクセスを必要としない。
【0024】
行動データが利用可能でないとき、観測結果からの模倣の使用が提案された[43]。観測結果からの模倣は、タスクを実行する訓練者を観測することによって直接学習する問題である。一部のモデルベースのアルゴリズムにおいては、動的モデルが、現在の状態および次の状態が与えられたときに取られる行動を推定するように訓練される。
【0025】
したがって、このモデルは、専門家の欠落している行動ラベルを推測するために使用され得る[33]。
【0026】
状態から行動へのマッピングが、学習されたモデルをさらに強化するために学習され、使用されることが可能である[42]。しかし、モデルベースの手法の起こり得る問題は、モデルベースの手法が、計算負荷を増やし、モデルフリーの手法と比較してサンプル効率を低下させることである。加えて、プロセス制御のタスクなどの複雑な環境をどのようにしてモデル化すべきかは、まだ明確になっていない。対照的に、本実施形態は、学習プロセスを加速させながら、環境のダイナミクスをモデル化する必要性を減らす。
【0027】
一方、観測結果からのモデルフリーの模倣は、方策の状態からの専門家の状態のユークリッド距離として報酬関数を構築することによってガイダンスを提供することができる[9、37]。対照的に、本テクノロジーは、提供されたガイダンスとエージェントの経験とを区別するように予測器ネットワークのアンサンブルを訓練し、エージェントは、予測器を「騙して」エージェントが専門家であると思い込ませるように訓練される。さらに、システムは、学習プロセスをさらに加速させるために、自己教師の形態を採用する。
【0028】
方法の別の系統は、敵対的生成模倣学習(generative adversarial imitation learning)[8]にヒントを得て、敵対的な方法でタスクを模倣する[28]。しかし、上述のように、プロセス制御産業においては、特に、数の多い異なる状況および大きな状態空間が原因で、人間の実演者から状態軌道を収集することが依然として困難である。対照的に、本実施形態は、人知に頼らず、その代わりに、既存のコントローラを利用し、したがって、人手を大幅に削減する。さらに、本フレームワークは、異なるアーキテクチャ/目標を採用し、提供されたガイダンスをエージェント自身の経験によって豊かにすることを対象としている。
【0029】
ガイド付き方策探索(guided policy search)アルゴリズム[21、20]は、デモンストレーションを教師によって生成された軌道によって置き換え、それらを使用してエージェントの方策をガイドすることを提案する。つまり、ガイド付き方策探索は、「ローカル」コントローラのガイドする分布(guiding distribution)を使用して、教師付き学習によってエージェントの方策を訓練する。ローカルコントローラは、iLQR[22]などの軌道最適化方法によって訓練され得る。システムは、2つのフェーズ、すなわち、(i)軌道の分布の最適化、および(ii)教師あり学習による方策の学習を交互に繰り返す。しかしながら、そのような手法は、複数の軌道を生成する必要があり、計算コストを増大させるので、プロセス産業に適用するのが困難である場合がある。加えて、ガイド付き方策探索の要件は、システムのダイナミクスの正確なモデルを学習することであり、これは、大規模で複雑なプラントにおいては困難になり得る。一方、本発明(図10)は、システムのダイナミクスをモデル化する必要性を減らし、教師あり学習に頼らず、これは、我々のエージェントがガイダンスよりも優れた性能を達成し、提供された誘導が最適でないときに動作することを可能にする。その上、本発明は、行動へのアクセスを必要とせず、既存のコントローラを利用してエージェントの探索を支援することによって訓練プロセスの始めからエージェントの学習を加速させる。
【0030】
サンプル効率の良い強化学習の古典的な手法を踏まえて、プロセス制御に特化したサンプル効率の良い強化学習アルゴリズムを構築するニーズが存在する。従来研究は、大きな行動空間を扱い、問題の複雑さを減らすためにマルチエージェントフレームワークを採用することを試みた[6]。それから、この考え方は、Fastfoodカーネル近似を導入することによって次元の呪いを軽減するために拡張された[47]。[27]において、著者らは、ダイナミクスおよび制御目標が異なるプロセス間で類似していると仮定する。したがって、著者らは、エージェントの方策を新しいタスクまたはダイナミクスに迅速に適応させるためのメタ学習アルゴリズムを提案する。
【0031】
いくつかのその他の手法は、産業用制御のためのサンプル効率の良い強化学習に注力した。それらの手法は、プロセス制御産業を対象としていないが、いくつかの同様の課題を克服しており、したがって本研究と関連性がある。たとえば、ガウス過程を使用して確率的な遷移モデルを学習し、モデルの不確実性を長期予測に組み込むこと(すなわち、MPC)が可能である[14]。強化学習は、PIDコントローラの初期値を調整するためにも使用された[35]。別の手法は、マルコフ決定過程によって状態の長期的な価値をモデル化し、それをコントローラにフィードバックする[4]。しかし、上述のように、タスクを一から学習することは、効果的な方策を学習するために状態行動空間の手に負えないほど時間がかかる量の探索を依然として必要とし得る。加えて、実世界では報酬が疎であることが多いので、領域についての事前の仮定に基づく探索のインセンティブなしに、エンドツーエンドの強化学習システムが速やかに成功すると期待することは、多くの場合、非現実的である。
【0032】
これらの困難を克服するために、産業用制御の分野のある研究は、履歴データからそれらのエージェントを初期化すること[23]、または既存のアルゴリズムの挙動のクローンを作成すること[13]によってサンプルの複雑さを減らすことに充てられた。しかしながら、これらの手法は、最適な専門家の行動へのアクセスを依然として必要とし、主に初期の訓練を改善するために設計されている。したがって、限られた設定を用いる小規模な環境において得られた結果は、現実のプラントに移らない可能性がある。対照的に、本発明は、訓練プロセスの開始時と訓練プロセス全体との両方で、サンプル効率および性能を向上させる方法を提示する。さらに、システムは、安価に収集され得る、既存の不完全なコントローラからの状態軌道を利用する。
【0033】
次に、添付図面と関連して以下で提供される詳細な説明は、方法の説明として意図されている。いくつかのサンプルが特定の応用分野の文脈で説明されるが、可能なユースケースは、この応用分野に限定されない。
【0034】
支援された方策探索に基づいてプロセス制御のための強化学習コントローラ211の訓練を加速させるための方法が、本明細書において説明される。サンプル効率は、本明細書においては、最適に近い制御方策を学習するために必要な訓練ステップの数を意味するために使用される。強化学習コントローラ102は、化学プラントなどのプロセスプラントを制御するために訓練される。たとえば、コントローラ102は、プラント101において生産負荷を最適化することまたは乱れを修正することを学習してよい。支援された方策探索は、強化学習エージェントの探索を、状態空間(200)の潜在的にタスクに関連しており、情報が得られる領域に向けることによって、探索空間を制限する。
【0035】
形式的には、本開示は、エージェントによって実行されているタスクの完了から遠いかまたはエージェントの方策を改善するのに関連する知識を伝えない状態を訪問するよりも、実行されているタスクの完了に近いかまたはエージェントがその方策を改善するのに役立つ状態(すなわち、タスクに関連する状態)を訪問することに対してエージェントに報酬を与え、報酬は、探索ボーナス210と呼ばれるスカラ値であることが可能である。
【0036】
図1は、化学プラント101を制御する強化学習システム102の概略図である。この例において、エージェントは、乱れを修正し、プラントの利益を最適化するプラント101のコントローラである。強化学習システム102は、以下で説明されるシステムおよび技術が実装され得る、1つまたは複数の場所の1つまたは複数のコンピュータ上のコンピュータプログラムとして実装されたシステムの例である。一部の実装において、環境は、シミュレーションされた環境であり、エージェントは、シミュレーションされた環境とインタラクションする1つまたは複数のコンピュータプログラムとして実装される。一部のその他の実装において、環境は、実世界の環境であり、エージェントは、実世界の環境とインタラクションする物理的またはコンピュータプログラムである。たとえば、エージェントは、特定のタスクを成し遂げるため、たとえば、乱れを経験した後で化学プラントの安定性を回復するために環境とインタラクションするロボットであってよい。別の例として、エージェントは、人間のオペレータに助言するコンピュータプログラムの形態で実装される。
【0037】
強化学習102は、環境101とインタラクションすることによってエージェントが方針πを学習することからなる。強化学習システム102は、エージェントによって実行される行動a 103を選択する。強化学習システム102は、センサー読み取り値105に存する受信された観測結果sに従って行動103を選択する。観測結果は、環境101の状態を特徴付ける。実装に応じて、センサー読み取り値105は、プラント101を監視する1つまたは複数のセンサーに存する。状態空間は、たとえば、体積、流量(flux)、温度、濃度、および圧力センサーの読み取り値を含む場合がある。エージェントの学習を容易にするために、観測結果の正規化方式が採用される場合があり(503)、各次元が、移動平均を引き、それから、移動標準偏差で割ることによって白色化される。エージェントによって実行された各行動103に応じて、システムは、環境101から報酬r 104を受け取る。報酬104は、エージェントが行動103を実行した結果として環境101から受け取られる数値である。強化学習コントローラ102は、期待総報酬を最大化する状態と行動との間のマッピングを学習する。つまり、割引率γが与えられると、収益
【0038】
【数1】
【0039】
と呼ばれる将来割引報酬(future discounted reward)が、
【0040】
【数2】
【0041】
として定義され、Tは、エポックが終了する時間ステップである。エージェントは、与えられた観測結果に関して達成可能な最大の収益
【0042】
【数3】
【0043】
を有する行動103を選択することを学習する。
【0044】
特に、行動103を選択するために、強化学習システム102は、ニューラルネットワークを含む。概して、ニューラルネットワークは、観測結果を入力として受け取り、観測結果を処理して、観測結果に応じてエージェントによって実行されるべき行動103を定義する出力を生成するように構成される。一部の実装において、ニューラルネットワークは、観測結果を受け取り、可能な行動の全体にわたる確率分布を定義する出力を生成するニューラルネットワークであり、各行動の確率は、行動が将来の報酬を最大化する行動である確率である。一部のその他の実装において、ニューラルネットワークは、観測結果を受け取り、観測結果に応じてエージェントによって実行されるべき行動を表す数値の集合を定義する出力を生成するニューラルネットワークである。
【0045】
概して、ニューラルネットワークを訓練するために、システムは、2つのステップ、すなわち、経験タプル(experience tuple)を生成するために環境101とインタラクションするステップと、将来の期待報酬を改善するためにニューラルネットワークを訓練するステップとを繰り返し実行する。経験タプルは、概して、観測結果に応じて実行された行動103を特定するデータと、環境101において行動103を実行した効果を表す環境報酬104とを含む。性能の良いRLアルゴリズムは、環境101との少ない数のインタラクションから、良好な挙動方策(behavior policy)を学習する。
【0046】
上述のように、強化学習102は、プラント101の乱れを修正し、生産負荷を最適化するなど、プラント101の制御するために使用されてよい。しかし、現実には、通常の強化学習フレームワーク100を適用することは、プロセス産業では現実的でないことが多い、環境101との必要なインタラクションの数の多さが原因で困難である。つまり、プロセス制御のタスクは、概して、複雑で変化するダイナミクス、大きな状態行動空間、およびコストのかかる計算を含み、低いサンプル効率をともなう。したがって、強化学習100の基本的な定義と、複雑なプロセス制御のタスクをうまく解決するために強化学習100に期待できることとの間には大きな隔たりがある。
【0047】
対照的に、本発明は、(1)主に訓練の開始中にガイダンスとして既存のコントローラ201を利用し、(2)訓練プロセス全体を通じてエージェントを支援するために自己教師の形態を利用することによって、プロセス制御のタスクにおいてサンプル効率の良い強化学習を可能にする。既存のコントローラ201は、製造中にほとんどのプロセス産業に設置され、したがって、本システムは、環境101においてどのように振る舞うべきかをデモンストレーションする専門家を必要としない。加えて、ガイダンスの本形態は、状態情報へのアクセスをのみを仮定しており、最適でない既存のコントローラを観測することによって収集され得る。たとえば、既存のコントローラ201は、モデル予測制御や比例積分微分法を含んでよい。
【0048】
図2は、プロセス制御のためのサンプル効率の良い強化学習フレームワーク200の実装の図を示す。一部の実施形態において、強化学習は、サンプル効率が良くなるように探索空間を有望なエリア内に制限することによって学習を支援する「ガイドコントローラ」209を統合することを含む。たとえば、乱れなどの新規の状況に遭遇したときにすべきことのすべての選択肢を試す代わりに、強化学習エージェントがすべての選択肢を試す必要なしに、直面しているタスクを解決するために適切な方向(すなわち、エージェントによって実行されているタスクの完了から遠い状態を訪れるよりも実行されているタスクの完了に近づく)にエージェントを導く選択肢がエージェントによって選択される可能性がより高くなるような支援された方策探索が利用される。
【0049】
本明細書において使用される用語「ガイドコントローラ」209は、強化学習システム211にいくつかの形態の助けを提供するシステムを指す。一部の実施形態において、支援された方策探索は、ガイドコントローラ209によって生成される探索ボーナス210を介して強化学習に統合され、探索ボーナス210は、環境104によって提供される外的報酬(extrinsic reward)と合算される。言い換えると、本発明において、ガイドコントローラ209は、(前処理された)状態s 601を入力とし、探索ボーナスb 210と呼ばれるスカラ値を出力するシステムであり、探索ボーナス210は、この状態を訪れることに対して強化学習211に報酬を与える。前処理段階は、移動平均を引き、次に、移動標準偏差で割ることによって状態を正規化すること503を含んでよい。本開示においては、強化学習システム211が依然として環境報酬104にアクセスすることができるので、そのことが、システムがガイダンスよりも優れた戦略を発見することを可能にする可能性がある。
【0050】
図3は、プロセス制御のための支援された方策探索300の実施のガイドコントローラ209の流れ図を示す。方法は、既存のコントローラ201から状態軌道を収集するステップ301と、軌道からコントローラサンプル206を抽出するステップ203と、訓練サンプルをラベル付けするステップ504と、サンプルのラベルを予測するためにアーキテクチャを設定するステップと、システムの全般的な制御目標を設定するステップと、強化学習を使用し、期待総報酬を最大化するガイドコントローラ209によって支援されて、状態空間を探索するステップと、エージェントによって経験された大きな累積報酬を有するロールアウト216からの追加のサンプルによって初期訓練サンプルの集合301を膨らませるステップ304と、収集されたロールアウトを更新するためにエピソードメモリを管理するステップ900とを含む。これらの手順は、図4を参照して説明される。
【0051】
図5は、既存のコントローラ201からガイダンスを収集するための方法500のフローチャートを示す。一部の実施形態によれば、第1の段階は、既存のプロセスコントローラからガイダンスサンプル206を抽出する方法301を提案する。既存のコントローラ201が利用可能であると仮定すると、第1の段階において、システムは、既存のコントローラ201を実行することによって得られたサンプル206が記憶される再生メモリM 204を維持する。本明細書において使用されるサンプルという用語は、最近の状態の集合sおよび状態sの遷移s → sの、遷移がエージェントの方策によって生成されたのか(すなわち、y=0 215)または既存のコントローラによって生成されたのか(すなわち、y=1 208)を定義する2値ラベルyへのマッピングを指す。既存のコントローラ201から抽出されたサンプルは、乱れに直面するときに最適でない可能性が高いが、y=1としてラベル付けされることに留意されたい。一部の実施形態においては、これらのサンプルが、取り組まれているタスクを部分的に解決することができる既存のコントローラ201に従って生成されたので、強化学習エージェント211は、これらのサンプルから有望なエリア内の領域を訪問するためにエージェントによって実行される行動を選択するように訓練されてよい(303)。
【0052】
再生メモリ204は、1つまたは複数の既存のコントローラ201の制御の下でプラント101を稼動させ、状態軌道を収集し(301)、これらの軌道からコントローラサンプルを抽出する(203)ことによって満たされる。各状態軌道は、環境101を特徴付ける観測結果の集合を含む。システムは、学習されているプロセス制御のタスクに関連する異なる種類の知識を含む2種類の状態軌道202を収集する(500)。
【0053】
第1に、一部の実施形態によれば、システムは、「定常軌道」を収集する(501)。本明細書において使用される用語「定常軌道」は、プラント101の生産が最適に近いおよび/またはプラント101の状態が安定している状態空間の状態を指す。この設定において、既存のコントローラ201は、システムを定常状態に維持するように努める。そのようなサンプルは、生産負荷を最適化するため、機器の故障を回避するため、またはシステムを安定した状態に保つために訪問されなければならない状態空間の領域を特定するためにガイドコントローラ209によって使用されてよい。
【0054】
第2に、さらに、システムは、乱れの下でのガイダンスによって初期のサンプルの集合を膨らませる(502)。したがって、システムは、乱れを修正しようと試みるコントローラ201を観測することによって不完全な挙動を収集する(502)。ほとんどの乱れは修正され得ないが、訪問された状態を考慮することのみによって、システムは、システムのダイナミクスおよび制御に関するドメイン知識をやはり取り込むことができる。つまり、訪問された状態の一部が、状態空間の潜在的にタスクに関連する領域を特定するために使用されることが可能であり、したがって、乱れからどのようにして回復すべきかなどのタスクに関連する挙動を取り込む。したがって、状態をガイダンスとして利用することのみによって、本開示のシステムは、エージェントの性能に対する不完全な実演者の知識の影響を減らす可能性がある。さらに、サンプルの出所を区別すること(下記参照)は、(模倣学習とは異なり)「コントローラサンプル」208としてラベル付けされたサンプルの状態をコピーするようにエージェントに強制せず、最適でないガイダンスの影響をさらに減らす。
【0055】
一部の実装においては、収集された状態軌道202からサンプル203を抽出した後、システムは、再生メモリM 204にサンプルを記憶するM ← M∪{(s ,s,y),(s ,s,y),...}。
【0056】
図6は、訓練中のガイドコントローラ209の実施600の図を示す。一部の実施形態によれば、第2の段階は、予測器ニューラルネットワークのアンサンブル602などの新規の構成要素を有する全体的な強化学習方式を提案する。つまり、1つまたは複数の予測器ネットワークのアンサンブル602が、状態空間のタスクに関連する領域の訪問を探索ボーナス210によって助長する支援された方策探索を実施するために使用される。本明細書において使用される用語「予測器」603は、所与の入力のラベルを予測するニューラルネットワークの能力を指す。本明細書において使用されるとき、用語「ネットワーク」は、任意の人工知能ネットワークまたはシステム、ニューラルネットワークまたはシステムを含む任意のハードウェアまたはソフトウェアベースのフレームワークを含む場合がある。
【0057】
第2の段階において、一部の実施形態では、予測器ネットワークのアンサンブル602は、状態空間のタスクに関連する状態を特定するために、既存のコントローラ201から収集されたサンプル208を使用して訓練され得る(302)。一部の実施形態においては、最もタスクに関連する領域が、既存のコントローラ201によって訪問された状態、または大きな累積報酬を有するロールアウト216内の状態として定義され得る。既存のコントローラ201と一緒に大きな累積報酬を有するロールアウト216を使用することは、図9を参照して下でより詳細に説明される。詳細には、そのようなタスクに関連する領域は、エージェントによって実行されているタスクの完了から遠いかまたはエージェントがその将来の報酬を改善するのに役立たない状態を訪れるよりも、実行されているタスクの完了に近いかまたは将来の環境報酬を改善するのに役立つ知識を伝える状態である。
【0058】
各予測器ネットワーク603は、再生メモリM 204およびエージェントのデータセットR 213(y=0 215とラベル付けされた)からサンプルを復元ありで(with replacement)引くことによって独立して訓練される。システムが低データレジーム(low data regime)で動作するので、ドロップアウトが、正則化技術として使用される。一部の実施形態においては、予測器ネットワークのアンサンブル602のすべての重み層(weight layer)の前にドロップアウト層が追加される。したがって、ランダムに選択されたニューロンが、訓練中に無視され、訓練サンプルに対する複雑な共適応(co-adaptation)を防ぐ。さらに、汎化を保証するために、システムは、訓練サンプルおよびラベルの凸結合として追加のサンプルを作成するミックスアップ(mixup)正則化を課す。これらの新しいサンプルは、次のように定義される。
【0059】
【数4】
【0060】
式中、構成可能なパラメータλ∈[0,1]は、ミックスアップの程度を制御し、λ~Beta(α,α)であり、(s ,s,y)および(s ,s,y)は、メモリM 204およびR 213からランダムに引き出された2つのサンプルである。
【0061】
一部の実施形態において、予測器ネットワークのアンサンブル602の目標は、所与のサンプル(s,s)のラベルを予測することである。そのようにするために、各予測器ネットワーク603は、以前に訪問された状態sに基づいて、状態sが既存のコントローラの意図に似ているように見えるy=1 208であるのか、またはエージェントの方策に従って生成されたy=0 215であるのかを予測するように構成される。各予測器ネットワークDφ 603は、そのパラメータφに関して、以下に定義される損失関数に従って訓練される。
【0062】
【数5】
【0063】
したがって、予測器ネットワークのアンサンブル602は、再生メモリM 204からの提供されたガイダンスと、エージェントの経験R 213とを区別することを学習する。言い換えると、s → sが与えられると、アンサンブル602は、遷移が既存のコントローラ201によって生成されたのかまたは方策によって生成されたのかを推測し、したがって、エージェント211は、予測器602を「騙して」エージェント211が「既存のコントローラ」201であると思い込ませるように訓練される。
【0064】
各時間ステップにおいて、システムは、予測器ネットワークの適合されたアンサンブル602を使用して、再生メモリ204内のy=1 208としてラベル付けされたサンプルから、有望なエリア内の状態を探索するようにエージェントに促す探索ボーナス210を生成してよい。さらにタスク報酬r 104と合計される探索ボーナスb 210は、予測器ネットワークの出力を使用することによって計算される(607)。
【0065】
【数6】
【0066】
式中、w(s,s,Dφ)は、タプル(s,s,Dφ)の重み608を示し、Nは、予測器の数を示し、Fは、集計関数を示す。この手順700が、図7および図8を参照して説明される。
【0067】
1つの構成において、出力606は、F=maxによって集約されてよく(701)、これは、予測器602によってタスクに関連するとみなされる領域か、またはアンサンブル602が高い広がり(spread)を持つ領域かのどちらかを探索することに対してエージェントに報酬を与える。言い換えると、結果として得られるボーナス210は、既存のコントローラの意図と不確実性との両方を取り込む。
【0068】
一部の実施形態において、本開示のシステムおよび方法は、各予測器ネットワークの出力を重み付けしてよい(605)。本システムは、ドロップアウトをガウス過程のベイズ近似として使用する。つまり、予測器ネットワークDφ 603に関するタプル(s,s,Dφ)の重みw(s,s,Dφ) 608は、ランダムなドロップアウトマスク609を有する予測器ネットワークを通る確率的順方向通過(forward pass)の結果604を収集することによって割り当てられる。
【0069】
【数7】
【0070】
式中、
【0071】
【数8】
【0072】
は、ドロップアウトマスクdを有する予測器603を表し、Dは、ドロップアウトマスク609の集合であり、βは、定数パラメータであってよく、pは、予測事後平均(predictive posterior mean)であり、
【0073】
【数9】
【0074】
である。構成可能なパラメータβは、不確実性に対する許容度に基づいてユーザによって設定されてよい。未知および遠く離れたタプルの分散は、既知のタプルよりも大きく、したがって、この予測器603の探索ボーナスb 210に対する重要度を小さくする。順方向通過606は同時に行われ得るので、本方法は、標準的なドロップアウトと同一の実行時間をもたらす。
【0075】
図9は、強化学習コントローラ304の訓練中に追加の訓練サンプルを収集するための処理を示す。第3の段階において、再生メモリM 204に記憶された既存のコントローラ201のサンプルと一緒に、システムは、自己教師の形態として、大きな累積報酬を有するエージェントの過去のロールアウト216を組み込んでよい(304)。コントローラ201は乱れなどの新規の状況に直面するとき最適でない場合があるので、大きな累積報酬を有する過去のロールアウト216が、エージェントによって実行されているタスクを完了するために訪問されるべき状態、または大きな環境報酬をもたらす可能性がある状態を示唆することによって学習をさらに支援するために使用される(204)。つまり、既存のコントローラ201からのガイダンスは、主に訓練フェーズの始めに学習を支援するために設計される。強化学習エージェント211がタスクについての知識を獲得すると、ガイドコントローラ209は、(潜在的に)最適でないコントローラのガイダンス204よりも、大きな累積報酬を有するエージェントの経験豊富なロールアウト216を優先させてよい。これらの手順は、図11を参照して説明される。
【0076】
1つの構成において、システムは、大きな累積報酬を有する過去のロールアウト216を記憶するエピソードメモリ205を維持し、すなわち、M={(τ,R,done),...}であり、式中、τは、状態軌道であり、Rは、収益であり、doneは、軌道が成功したかどうかを示す。本明細書において使用される収益という用語は、報酬の割引和(discounted sum)
【0077】
【数10】
【0078】
を指す。
【0079】
1つの構成において、エピソードメモリ205は、限られた容量Kを有する。各エピソードの後、容量901が超えられていない場合(902)、新しいロールアウトがメモリ900に追加される可能性がある(904)。容量901が超えられているとき(903)、システムは、メモリ205内の最も低い収益Rを有する要素を現在の要素によって置き換える(905)。メモリ205全体が成功したロールアウトによって満たされるまで、この戦略は、失敗したロールアウトの間でのみ適用され(905)、したがって、大きな累積報酬を有するより古い要素を完全に無視することなく、メモリ内の新しい要素を維持する。
【0080】
1つまたは複数の実施形態においては、エージェントの性能に対する不完全なコントローラのガイダンスの影響を減らすために、再生メモリM 204およびエピソードメモリM 205から訓練サンプルをサンプリングする(207)確率を更新するための以下の手順が導入される。システムは、訓練サンプルを、確率δでM内の乱れの下での軌道からサンプリングし、確率ρでM内の乱れの下での軌道からサンプリングし、確率1-ρ-δでM内の定常軌道からサンプリングする(207)。エージェントがタスクについてのより多くの知識を獲得するにつれて、システムは、コントローラのガイダンスを再生する確率を下げ、経験された状態を再生する確率ρを上げてよい。δおよびρは、エピソードメモリに新しいロールアウトが追加されるたびに、以下の規則に従ってアニール(anneal)されてよい(906)。
【0081】
【数11】
【0082】
式中、ρは、ρの初期値であり、Kは、エピソードメモリの最大サイズである。
【0083】
1つの構成においては、訓練の過程で予測器ネットワークのアンサンブル602を訓練するために、ガイドコントローラ209は、M 205から遷移s → sを抽出し(203)、そして、M 204およびM 205からのサンプルの混合を正サンプル(y=1) 208として採用する。現在のシステムにおいては、予測器ネットワーク602を訓練するときに、M 205からのサンプルがM 204に併合され、したがって、M 205およびM 204は、式3の単一のメモリM ← M∪M 1000として扱われてよく、サンプル208は、式6に従ってサンプリングされる(207)。
【0084】
例: 酢酸ビニルモノマープラント
図12は、乱れの下での酢酸ビニルモノマープラント1201の制御タスクへの本発明の応用1200を示す。この例示的な応用1200において、酢酸ビニルモノマープラント1201は、現実のプラントの特性および実用上の問題を反映する、シミュレータ上に構築された仮想環境[25]である。酢酸ビニルモノマープラント1201は、プロセス産業の典型的なプロセスを含んでいるので、堅牢なベンチマーク環境として使用され得る。
【0085】
この例において、エージェントは、1)乱れによってトリガされ得る機器の故障を回避し、2)内乱または外乱を安定させ、修正し、3)プロセスを定常状態に維持しなければならない。行動空間は、制御するPIDの集合からなる。行動の範囲は、初期値から[-x%,+x%]として定義され、x=0.60であり、x=1.35である。プロセスは、化学物質の体積、流量、温度、濃度、および圧力を測定する109個のセンサーによって観測される。エージェントの学習を容易にするために、システムは、観測結果の正規化方式を使用して状態を前処理する。つまり、各次元が、移動平均を引き、次に、移動標準偏差で割ることによって白色化される。方策と予測器ネットワーク602との両方のために、同じ観測結果の正規化が採用される。報酬が、元来、疎である実世界の問題を再現するために、汎用的な選択は、報酬関数を次のように設定することである。
【0086】
【数12】
【0087】
式中、xは、現在の状態であり、xは、目標の状態であり、xは、定常状態の値であり、εは、閾値である。実際には、我々は、x=xおよびε=0.01と設定する。
【0088】
方策学習方法として、コントローラは、近接方策最適化(PPO: proximal policy optimization)[36]によって訓練された(211)。本発明は、統合された自己教師ありコントローラガイダンス(Controller Guidance with Integrated Self-Supervision)CGSと呼ばれる。アクターおよびクリティックネットワークは、128個の隠れユニットを有する3つの全連結層に存していた。tanhが、活性化関数として使用され、アクターネットワークの出力値は、各行動の次元の範囲にスケーリングされた。訓練は、バッチサイズ128で、Adamオプティマイザ[15]を使用して、固定の学習率0.0007で行われた。方策は、各エピソードの後、4エポック分訓練された。PPO[36]、A2C[29]、ACKTR[45]、および既存のPIDを含む4つのベースラインが、検討された。
【0089】
CGSが、3つの予測器ニューラルネットワークN=3 602によって評価された。それらの予測器ニューラルネットワークは、128個の隠れユニットを有する3つの全連結層に存していた。2つの最初の層は、最後の層のためにReLU活性化およびシグモイドを採用した。予測器の信頼度は、p=0.2で100個のドロップアウトマスク609を使用して推定された。予測器ネットワーク602は、ネットワークが100回分更新された最初の10エピソードを除き、サイズ128のランダムなバッチを使用して各エピソード後に5回更新された。sを生成するために、4つの直近に経験された状態が、積み重ねられた。システムは、β=0.7、ρ=0.30、およびγ=1を使用した。探索ボーナス210は、係数0.1でスケーリングされ、環境報酬104は、係数0.9でスケーリングされた。ミックスアップ訓練に関して、方法は、α=1を使用した。コントローラのガイダンス301は、もともと化学プラント1201を制御していたPIDを観測することによって収集された。CGSは、100個の定常状態を訓練サンプル(steと呼ばれる)として使用し、これらの訓練サンプルは、乱れの下での15個の専門家の軌道(trjと呼ばれる)502から抽出されたサンプルによって膨らまされることが可能であった。軌道を収集するために、プラント1201は、上で説明されたのと同じパラメータを用いて使用され、したがって、軌道の長さは、60ステップであった。例示的な応用において、これらの軌道から遷移を抽出した後、M 204は、定常状態の約10%によって満たされ、その他の専門家の遷移は、trjガイダンスから来た。方法は、サイズK=20のエピソードメモリ205を採用した。
【0090】
本発明の理解を深めるために、CGSは、異なる設定、すなわち、CGS+ste、CGS+ste+sel、CGS+ste+trj、CGS+ste+trj+selを用いて評価された。CGS+steの設定の下で、CGSは、定常的なサンプルを用いて訓練される。CGS+ste+selの設定では、CGSは、定常的なサンプルと、大きな累積報酬を有するロールアウト216から抽出されたサンプルとを用いて(つまり、自己教師法を使用して)訓練される。CGS+ste+trjの設定の下で、CGSは、定常的なサンプルと、乱れの下にあるプラント1201において既存のコントローラ204を実行することによって抽出されたサンプルとの両方を用いて訓練される。CGS+ste+trjの設定の下で、本発明は、すべての種類のガイダンスを利用する。
【0091】
図13は、300エピソードにわたるCGSおよびベースラインエージェントの平均収益を示す。この実験において、エージェントは、AcOHの供給圧力の乱れを修正するように訓練され、すなわち、原料の酢酸の供給組成が、酢酸プラントの条件の変化が原因で変更される。この種の乱れは、原料の供給および水の組成の変化を検出することによって観測され得る。強度(intensity)レベルは、[1,50]の間でランダムに変化する。図示されるように、PPO 1300は、本発明によって支援されたPPO 1303~1306よりもはるかに弱いように見える。さらに、CGSは、著しく速く学習することによってベースライン1301~1302および既存のPID 1307よりも性能が優れている。
【0092】
図14は、200エピソードにわたるCGSおよびベースラインエージェントの平均収益を示す。この実験において、エージェントは、C2H4の供給圧力の乱れを修正するように訓練され、すなわち、原料のエチレンの供給圧力が、エチレンプラントの条件の変化が原因で変更される。この種の乱れは、原料の流量の変化を検出することによって観測され得る。強度レベルは、[70,140]の間でランダムに変化する。図13および図14に示される結果は、ベースライン1400~1402および既存のPID 1407と比較して、サンプル効率を改善する本発明1403~1406の能力を示す。
【0093】
別の例において、エージェントは、外乱を修正するように訓練される。図15は、200エピソードにわたるCGSおよびベースラインエージェントの平均収益を示す。この実験において、エージェントは、昼夜の乱れを修正するように訓練され、すなわち、昼夜のサイクルが、大気の変化につながり、非定常条件および内部温度の変動をもたらす。この乱れは、冷却水の消費および温度センサーの値の変化を検出することによって観測され得る。強度レベルは、[1,50]の間でランダムに変化する。図15において観察され得るように、本発明1503~1506は、最終的な性能およびサンプル効率の観点で、標準的な強化学習手法1500~1502および既存のPID 1507よりも外乱を修正するのに有効である。
【0094】
図13図14、および図15は、たとえ方策ネットワーク(policy network)が同一であっても、より少ないステップを必要とすることによって、PPOよりも明らかな性能の向上を示す。その上、生成された軌道の分析は、コントローラのガイダンス301を利用することが、本発明が最初の数回の成功の軌道を迅速に経験することを可能にすることを明らかにする。数回の訓練エピソードの後、自己教師が、ラーナーがさらに乱れを修正するための代替的な戦略を発見するのに十分な教師を提供する。図示されるように、概して、ベースラインの方法は、そのような複雑なタスクにおいてそれらの方法の比較的低いサンプル効率が原因で最適に近い方策を学習することができない。対照的に、CGSの平均スコアは、急激に上昇し、ベースラインよりも上限に近い。結果として、本実施形態は、訓練時間を短縮し、サンプル効率を向上させる。全体として、この方式は、プロセス制御のためのサンプル効率の良い強化学習を可能にし、より高い平均報酬および訓練時間の大幅な短縮をもたらす。
【0095】
本明細書は多くの特定の実装の詳細を含むが、これらは、特許請求される可能性があるものの範囲に対する限定とみなされるべきでない。別々のまたは並列的な実施形態の文脈で本発明において示されている一部の特徴は、単一の実施形態に組み合わせて実装されてもよい。また、特徴が特定の組み合わせで働くものとして上で説明されているが、図示されたデバイスまたはプロセスの形態および詳細の様々な省略、置換、および変更が、革新を逸脱することなく当業者によって行われる場合があることは理解されるであろう。したがって、本開示は、本明細書において示された実施形態に限定されるように意図されておらず、本明細書において開示された原理および新規性のある特徴に合致する最も広い範囲を与えられるべきである。
【符号の説明】
【0096】
100 通常の強化学習フレームワーク
101 プラント
102 強化学習コントローラ、強化学習システム、強化学習
103 行動
104 報酬
105 センサー読み取り値
200 状態空間
201 既存のコントローラ
202 状態軌道
204 再生メモリ
205 エピソードメモリ
206 コントローラサンプル、ガイダンスサンプル
208 コントローラサンプル
209 ガイドコントローラ
210 探索ボーナス
211 強化学習コントローラ、強化学習システム、強化学習エージェント
213 エージェントのデータセット
216 大きな累積報酬を有するロールアウト
304 強化学習コントローラ
601 状態
602 予測器ニューラルネットワークのアンサンブル
603 予測器、予測器ネットワーク
604 予測器ネットワークを通る確率的順方向通過の結果
606 出力、順方向通過
608 重み
609 ドロップアウトマスク
700 手順
1000 単一のメモリM ← M ∪ M
1200 応用
1201 酢酸ビニルモノマープラント
1300 PPO
1301~1302 ベースライン
1303~1306 本発明によって支援されたPPO
1307 既存のPID
1400~1402 ベースライン
1403~1406 本発明
1407 既存のPID
1500~1502 標準的な強化学習手法
1503~1506 本発明
1507 既存のPID
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11
図12
図13
図14
図15
【外国語明細書】