特許7748780 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ インターナショナル・ビジネス・マシーンズ・コーポレーションの特許一覧

特許7748780方法、制御システムおよびコンピュータ・プログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】

(24)【登録日】2025-09-25

(45)【発行日】2025-10-03

(54)【発明の名称】方法、制御システムおよびコンピュータ・プログラム

(51)【国際特許分類】

G05B 13/02 20060101AFI20250926BHJP

G06N 3/092 20230101ALI20250926BHJP

【ＦＩ】

G05B13/02 J

G05B13/02 L

G06N3/092

【請求項の数】 20

(21)【出願番号】P 2022565663

(86)(22)【出願日】2021-04-21

(65)【公表番号】

(43)【公表日】2023-06-12

(86)【国際出願番号】 IB2021053270

(87)【国際公開番号】W WO2021229325

(87)【国際公開日】2021-11-18

【審査請求日】2023-09-25

(31)【優先権主張番号】16/871,903

(32)【優先日】2020-05-11

(33)【優先権主張国・地域又は機関】US

(73)【特許権者】

【識別番号】390009531

【氏名又は名称】インターナショナル・ビジネス・マシーンズ・コーポレーション

【氏名又は名称原語表記】ＩＮＴＥＲＮＡＴＩＯＮＡＬＢＵＳＩＮＥＳＳＭＡＣＨＩＮＥＳＣＯＲＰＯＲＡＴＩＯＮ

【住所又は居所原語表記】ＮｅｗＯｒｃｈａｒｄＲｏａｄ，Ａｒｍｏｎｋ，ＮｅｗＹｏｒｋ１０５０４，ＵｎｉｔｅｄＳｔａｔｅｓｏｆＡｍｅｒｉｃａ

(74)【代理人】

【識別番号】100112690

【弁理士】

【氏名又は名称】太佐種一

(74)【代理人】

【識別番号】100120710

【弁理士】

【氏名又は名称】片岡忠彦

(72)【発明者】

【氏名】ザドロジニイ、アレキサンダー

【審査官】影山直洋

(56)【参考文献】

【文献】特開２０２０－０２７３８６（ＪＰ，Ａ）

【文献】特開２００９－２９４７３１（ＪＰ，Ａ）

【文献】特開平０５－０１２０１９（ＪＰ，Ａ）

【文献】特開２００８－１９６７１９（ＪＰ，Ａ）

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｇ０５Ｂ１３／０２

Ｇ０６Ｎ３／０９２

(57)【特許請求の範囲】

【請求項1】

１つ又はそれ以上の制約値が課される被制御アプリケーション・システムの数学的表現の次元を自動的に削減するためのコンピュータが実行する方法であって、前記方法が、
前記被制御アプリケーション・システムの動作を指令する制御システムにおいて、前記被制御アプリケーション・システムに関連する制御活動変数及びシステム状態変数に対応するデータを受信すること、
前記制御システムのプロセッサを介して、前記制御活動変数及び前記システム状態変数に対応するデータに基づいて、制約付き強化学習（ＣＲＬ）モデルを前記被制御アプリケーション・システムにフィッティングすること、
前記プロセッサを介して、関心のある制御活動変数を選択することにより、及び、関心のある制御活動変数各々について、フィッティングされた前記ＣＲＬモデルについて得られたポリシーに基づいて、前記関心のある制御活動変数各々を推奨するように前記ＣＲＬモデルを駆動するシステム状態変数を識別することにより、前記システム状態変数のサブセットを自動的に識別すること、
前記プロセッサを介して、前記システム状態変数の前記サブセットを使用して前記ＣＲＬモデルの状態空間の次元削減を自動的に実行すること、
前記プロセッサを介して、状態空間の次元削減の後に、前記１つ又はそれ以上の制約値が課される前記被制御アプリケーション・システムの制約付きマルコフ決定プロセス（ＣＭＤＰ）モデルのための遷移確率マトリックスを推定すること、及び
前記プロセッサを介して、前記遷移確率マトリックス、１つ又はそれ以上のコスト目標、及び１つ又はそれ以上の制約関連コストを使用して、前記ＣＭＤＰモデルを線形計画（ＬＰ）問題として定式化すること
を含む方法。

【請求項2】

前記ＣＲＬモデルは、制約付き深層強化学習（ＣＤＲＬ）モデルを含む、請求項１に記載の方法。

【請求項3】

前記プロセッサを介して前記ＬＰ問題を解き、前記１つ又はそれ以上の制約値が課される前記被制御アプリケーション・システムの動作を最適化するであろう１つ又はそれ以上の活動を決定すること、及び
前記制御システムを介して前記１つ又はそれ以上の制御活動を実行すること
を含む、請求項１に記載の方法。

【請求項4】

少なくとも、
前記被制御アプリケーション・システムに結合されたセンサからデータの少なくとも一部を受信すること、及び
前記プロセッサを介して、前記被制御アプリケーション・システムのシミュレーションに基づいて、前記データの少なくとも一部分を計算すること
を含む、請求項１に記載の方法。

【請求項5】

前記ＣＲＬモデルを前記被制御アプリケーション・システムにフィッティングすることは、リワード被制約ポリシー最適化（ＲＣＰＯ）プロセスを実行すること
を含む、請求項１に記載の方法。

【請求項6】

前記ＣＲＬモデルを前記被制御アプリケーション・システムにフィッティングすることは、
勾配上昇法を使用して前記被制御アプリケーション・システムの数学的表現にフィットするラグランジュ乗数を学習すること、及び
前記学習されたラグランジュ乗数を使用してＣＲＬモデルとしての前記数学的表現を定式化すること
を含む、請求項１に記載の方法。

【請求項7】

前記システム状態変数の前記サブセットを自動的に識別することは、
前記制御活動変数及び前記システム状態変数のペアに関連する占有尺度を計算すること、
関心のある制御活動変数各々を含み、かつ事前定義された閾値に従う占有尺度を有する前記制御活動変数及び前記システム状態変数の特定のペアを自動的に決定すること、及び
前記制御活動変数及び前記システム状態変数の前記特定のペアを分析して、関心のある制御活動変数各々を推奨するように前記ＣＲＬモデルを駆動することに最も実質的な影響を有する前記システム状態変数の前記サブセットを決定すること
を含む、請求項１に記載の方法。

【請求項8】

前記ＣＭＤＰモデルのための前記遷移確率マトリックスを推定することは、
関心のある前記制御活動変数、及び前記システム状態変数に関連する状態空間及び活動空間を分析すること、
特定の制御活動変数のためのシステム状態変数におけるそれぞれの変化についての遷移数を、制御活動変数及び関心のある前記制御活動変数内のシステム状態変数及び前記システム状態変数のサブセットの全数で除算することにより推定すること、及び
前記遷移確率マトリックスを生成するための補間を、
活動依存のシステム状態変数又は活動非依存のシステム状態変数の少なくとも１つについての近傍システム状態を使用するか、又は
既約性保証方法を実行するか、又はそれらの両方によって実行すること
を含む、請求項１に記載の方法。

【請求項9】

前記プロセッサを介して、前記被制御アプリケーション・システムの動作に関連する複数の異なる予測的シナリオを分析するために前記ＬＰ問題を解くこと
を含む、請求項１に記載の方法。

【請求項10】

１つ又はそれ以上の制約値が課される被制御アプリケーション・システムの動作を指令する制御システムであって、
前記被制御アプリケーション・システムに関連する制御活動変数及びシステム状態変数に対応するデータを受信するためのインタフェースと、
プロセッサとを含み、前記プロセッサが、
前記制御活動変数及び前記システム状態変数に対応するデータに基づいて制約付き強化学習（ＣＲＬ）モデルを前記被制御アプリケーション・システムにフィッティングすること、
前記プロセッサを介して、関心のある制御活動変数を選択することにより、及び、関心のある制御活動変数各々について、フィッティングされた前記ＣＲＬモデルについて得られたポリシーに基づいて、前記関心のある制御活動変数各々を推奨するように前記ＣＲＬモデルを駆動するシステム状態変数を識別することにより、前記システム状態変数のサブセットを自動的に識別すること、
前記システム状態変数の前記サブセットを使用して前記ＣＲＬモデルの状態空間の次元削減を自動的に実行すること、
状態空間の次元削減の後に、前記１つ又はそれ以上の制約値が課される前記被制御アプリケーション・システムの制約付きマルコフ決定プロセス（ＣＭＤＰ）モデルのための遷移確率マトリックスを推定すること、及び
前記遷移確率マトリックス、１つ又はそれ以上のコスト目標、及び１つ又はそれ以上の制約関連コストを使用して前記ＣＭＤＰモデルを線形計画（ＬＰ）問題として定式化すること
を実行すること含む、制御システム。

【請求項11】

前記ＬＰ問題を解き、前記１つ又はそれ以上の制約値が課される前記被制御アプリケーション・システムの動作を最適化するであろう１つ又はそれ以上の活動を決定すること、及び
前記制御システムを介して前記１つ又はそれ以上の制御活動を実行すること
を含む、請求項１０に記載の制御システム。

【請求項12】

前記ＣＲＬモデルは、制約付き深層強化学習（ＣＤＲＬ）モデルを含む、請求項１０に記載の制御システム。

【請求項13】

前記被制御アプリケーション・システムは、排水処理プラント（ＷＷＴＰ）を含み、かつ前記１つ又はそれ以上の制約値は、前記ＷＷＴＰにより生成される流出液の全窒素濃度についての制限、又は燐濃度についての制限の少なくとも１つを含む、請求項１０に記載の制御システム。

【請求項14】

リワード被制約ポリシー最適化（ＲＣＰＯ）プロセスを実行することにより、前記ＣＲＬモデルを前記被制御アプリケーション・システムにフィッティングすることを指令するプログラム命令を格納する、請求項１０に記載の制御システム。

【請求項15】

前記ＣＲＬモデルを前記被制御アプリケーション・システムにフィッティングすることが、
勾配上昇法を使用して前記被制御アプリケーション・システムの数学的表現にフィットするラグランジュ乗数を学習すること、及び
前記学習されたラグランジュ乗数を使用してＣＲＬモデルとしての前記数学的表現を定式化すること
を含む、請求項１０に記載の制御システム。

【請求項16】

前記システム状態変数を識別することは、
前記制御活動変数及び前記システム状態変数のペアに関連する占有尺度を計算すること、
関心のある制御活動変数各々を含み、かつ事前定義された閾値に従う占有尺度を有する前記制御活動変数及び前記システム状態変数の特定のペアを自動的に決定すること、及び
前記制御活動変数及び前記システム状態変数の前記特定のペアを分析して、関心のある制御活動変数各々を推奨するように前記ＣＲＬモデルを駆動することに最も実質的な影響を有する前記システム状態変数の前記サブセットを決定すること
を含む、請求項１０に記載の制御システム。

【請求項17】

前記ＣＭＤＰモデルのための前記遷移確率マトリックスを推定することは、
関心のある前記制御活動変数及び前記システム状態変数に関連する状態空間及び活動空間を分析すること、
特定の制御活動変数のためのシステム状態変数におけるそれぞれの変化についての遷移数を、制御活動変数及び関心のある前記制御活動変数内のシステム状態変数及び前記システム状態変数のサブセットの全数で除算することにより推定すること、及び
前記遷移確率マトリックスを生成するための補間を、
活動依存のシステム状態変数又は活動非依存のシステム状態変数の少なくとも１つについての近傍システム状態を使用するか、又は
既約性保証方法を実行するか、又はそれらの両方によって実行すること
を含む、請求項１０に記載の制御システム。

【請求項18】

前記ＬＰ問題を解くことにより、前記被制御アプリケーション・システムの動作に関連する複数の異なる予測的シナリオを分析することを指令することを含む、請求項１０に記載の制御システム。

【請求項19】

前記被制御アプリケーション・システムのシミュレーションに基づいて、前記データの少なくとも一部を計算することを含む、請求項１０に記載の制御システム。

【請求項20】

１つ又はそれ以上の制約値が課せられる被制御アプリケーション・システムの数学的表現の次元を自動的に削減するためのコンピュータ・プログラムであって、プロセッサに対して、
制御活動変数及びシステム状態変数に対応するデータに基づいて制約付き強化学習（ＣＲＬ）モデルを前記被制御アプリケーション・システムにフィッティングすること、
関心のある制御活動変数を選択することにより、及び、関心のある制御活動変数各々について、フィッティングされた前記ＣＲＬモデルについて得られたポリシーに基づいて、前記関心のある制御活動変数各々を推奨するように前記ＣＲＬモデルを駆動するシステム状態変数を識別することにより、前記システム状態変数のサブセットを自動的に識別すること、
前記システム状態変数の前記サブセットを使用して前記ＣＲＬモデルの状態空間の次元削減を自動的に実行すること、
状態空間の次元削減の後に、前記１つ又はそれ以上の制約値が課される前記被制御アプリケーション・システムの制約付きマルコフ決定プロセス（ＣＭＤＰ）モデルのための遷移確率マトリックスを推定すること、及び
前記遷移確率マトリックス、１つ又はそれ以上のコスト目標、及び１つ又はそれ以上の制約関連コストを使用して前記ＣＭＤＰモデルを線形計画（ＬＰ）問題として定式化すること
を実行させる、コンピュータ・プログラム。

【発明の詳細な説明】

【背景技術】

【0001】

本開示は、機械学習の分野に関する。より特定的には、本開示は、被制御アプリケーション・システムの数学的表現を自動的に次元削減することにより、被制御アプリケーション・システムの動作を指示する制御システムの制御活動を最適化することに関する。

【発明の概要】

【0002】

本明細書に記載される実施形態にしたがい、１つ又はそれ以上の制約値が課せられる被制御アプリケーション・システムの数学的表現の次元を自動的に削減するための方法が提供される。本方法は、前記被制御アプリケーション・システムの動作を指令する制御システムにおいて、前記被制御アプリケーション・システムに関連する制御活動変数及びシステム状態変数に対応するデータを受信すること、及び前記制御システムのプロセッサを介して、前記制御活動変数及び前記システム状態変数に対応するデータに基づいて、制約付き強化学習（ＣＲＬ）モデルを前記被制御アプリケーション・システムにフィッティングすることを含む。本方法はまた、前記プロセッサを介して、関心のある制御活動変数を選択することにより前記システム状態変数のサブセットを自動的に識別すること、及び関心のあるそれぞれの制御活動変数について関心のある制御活動変数を推奨するためにＣＲＬモデルを駆動するシステム状態変数を識別することを含む。本方法はさらに、前記プロセッサを介して、前記システム状態変数の前記サブセットを使用して前記ＣＲＬモデルの状態空間の次元削減を自動的に実行すること、前記プロセッサを介して、状態空間の次元削減の後に、前記１つ又はそれ以上の制約値が課される前記被制御アプリケーション・システムの制約付きマルコフ決定プロセス（ＣＭＤＰ）のための遷移確率マトリックスを推定すること、及び前記プロセッサを介して、前記遷移確率マトリックス、１つ又はそれ以上のコスト目標、及び１つ又はそれ以上の制約関連コストを使用して、前記ＣＭＤＰモデルを線形計画（ＬＰ）問題として定式化することを含む。

【0003】

別の実施形態においては、１つ又はそれ以上の制約値が課せられる被制御アプリケーション・システムの数学的表現の次元を自動的に削減するための制御システムが提供される。制御システムは、前記被制御アプリケーション・システムに関連する制御活動変数及びシステム状態変数に対応するデータを受信するためのインタフェースを含む。制御システムはまた、プロセッサ及びコンピュータ可読は記録媒体を含む。コンピュータ可読な記録媒体は、前記プロセッサに対して前記制御活動変数及び前記システム状態変数に対応するデータに基づいて制約付き強化学習（ＣＲＬ）モデルを前記被制御アプリケーション・システムにフィットすること、前記プロセッサを介して、関心のある制御活動変数を選択することにより前記システム状態変数のサブセットを自動的に識別すること、及び関心のあるそれぞれの制御活動変数について関心のある制御活動変数を推奨するためにＣＲＬモデルを駆動するシステム状態変数を識別することを指令するプログラム命令を含む。コンピュータ可読な記録媒体はまた、前記プロセッサに対して、前記システム状態変数の前記サブセットを使用して前記ＣＲＬモデルの状態空間の次元削減を自動的に実行すること、状態空間の次元削減の後に、前記１つ又はそれ以上の制約値が課される前記被制御アプリケーション・システムの制約付きマルコフ決定プロセス（ＣＭＤＰ）のための遷移確率マトリックスを推定すること、及び前記遷移確率マトリックス、１つ又はそれ以上のコスト目標、及び１つ又はそれ以上の制約関連コストを使用して前記ＣＭＤＰモデルを線形計画（ＬＰ）問題として定式化することを指令する、プログラム命令を格納する。

【0004】

さらに別の実施形態においては、１つ又はそれ以上の制約値が課される被制御アプリケーション・システムの数学的表現の次元を自動的に削減するためのコンピュータ・プログラム製品が提供される。コンピュータ・プログラム製品は、それに実体化されたプログラム命令を有するコンピュータ可読な記録媒体を含み、前記コンピュータ可読な記録媒体がそれ自体過渡的信号ではない。プログラム命令は、前記プロセッサにより実行されて、前記プロセッサに対して前記制御活動変数及び前記システム状態変数に対応するデータに基づいて制約付き強化学習（ＣＲＬ）モデルを前記被制御アプリケーション・システムにフィットさせ、前記ＣＲＬモデルは、前記制御活動変数及び前記システム状態変数に対応するデータに基づき、かつ関心のある制御活動変数を選択することにより前記システム状態変数のサブセットを自動的に識別させ、かつ関心のある制御活動変数について関心のある制御活動変数を推奨するためにＣＲＬモデルを動作するシステム状態変数を識別させる。前記プログラム命令はまた、前記プロセッサにより実行されて、前記プロセッサに対して、前記システム状態変数の前記サブセットを使用して前記ＣＲＬモデルの状態空間の次元削減を自動的に実行させ、状態空間の次元削減の後に、前記１つ又はそれ以上の制約値が課される前記被制御アプリケーション・システムの制約付きマルコフ決定プロセス（ＣＭＤＰ）のための遷移確率マトリックスを推定させ、かつ前記遷移確率マトリックス、１つ又はそれ以上のコスト目標、及び１つ又はそれ以上の制約関連コストを使用して前記ＣＭＤＰモデルを線形計画（ＬＰ）問題として定式化させる。

【図面の簡単な説明】

【0005】

【図1】図１は、本明細書において説明される自動的な状態空間の次元削減技術が実装されることができる、実施例の配水処置プラント（ＷＷＴＰ）の簡略化されたブロック図であり、

【0006】

【図2】図２は、１つ又はそれ以上の制約値が課せられる被制御アプリケーション・システムの数学的表現の次元を自動的に削減するための方法のプロセス・フロー図である。

【発明を実施するための形態】

【0007】

機械学習技術は、例えば、排水処理、農業システム、水資源管理システム、問合わせシステム、伝染症初期プロセス・システム、ロボット・モーション計画システムなどといった、被制御アプリケーション・システムの種々の異なるタイプに関連する制御システムの動作最適化のために、普通に使用される。より特定的には、機械学習技術は、そのような被制御アプリケーション・システムの動作を数学的に記述するモデルを生成するために使用される。例えば、強化学習（ＲＬ）技術は、その環境に関する被制御アプリケーション・システムの状態を、その環境に関連して、その被制御アプリケーション・システムに関連する制御システムのオペレータにより、積算的なリワードの意義を最大化するようなシーケンスにおいて執られる制御活動にマップするポリシーを学習するために使用されることができる。強化学習の拡張は、深層強化学習（deep reinforcement learning：ＤＲＬ）と呼ばれ、クライアントの／問題の環境的挙動をモデル化するために、ディープ・ニューラル・ネットワークを利用する。さらに、被制御アプリケーション・システムの動作に制約が課される場合、制約付き強化学習又は制約付き深層強化学習技術（ＣＤＲＬ）又はそれらの両方がそのような制約を考慮するポリシーを学習するために使用されることができる。追加的に、マルコフ決定プロセス（ＭＤＰ）は、決定が特定の制御活動に応答して異なるシステム状態間の、明示的に計算／推定された遷移確率を使用するための複雑なフレームワークを含む。制約付きマルコフ決定プロセス（ＣＭＤＰ）技術が使用される場合、モデルは被制御アプリケーション・システムに関連する特定の制約に適合するように制御される。

【0008】

動作においては、そのような被制御アプリケーション・システムは、しばしば、それぞれの制御システムによって執られることができる、極めて膨大な数の利用可能な制御活動に加えて、極めて膨大な数の可能なシステム状態を含む。例えば、いくつかの被制御アプリケーション・システムは、１００の可能な制御活動に加えて、数百の可能なシステム状態変数を含む。この結果、そのような被制御アプリケーション・システムのための制約された数学的モデルを実装することは、数百万の上の方の遷移確率値を計算すること、又は極めて膨大なニューラル・ネットワークを学習させることを含む可能性がある。しかしながら、これらのアプリケーションに対する制御システムは、しばしば、合理的な時間内にそのような膨大な数の遷移確率を計算するための充分な処理能力を有さず、かつ多くの被制御アプリケーション・システムは、このレベルにおいて計算を実行するための充分なデータを収集するための充分なセンサを含まない。さらに、１つ又はそれ以上の制約が被制御アプリケーション・システムに課される場合、制約された数学的モデルは、さらに複雑にさえなり、かつ計算が困難となる。したがって、そのような制約された数学的モデルのサイズを削減することがしばしば望ましい。

【0009】

したがって、本開示は、数千の変数から、例えば１０よりも少ないか又は２０よりも少ない変数へと、可能なシステム状態の数を削減することにより、そのような制約された数学的モデルの状態空間の次元を自動的に削減するための技術を記載する。これは、ＣＭＤＰ及びＣＲＬ（又はＣＤＲＬ）技術の組み合わせを使用して達成される。得られる簡略化されたモデルは、被制御アプリケーション・システムに対して課される１つ又はそれ以上の制約を依然として維持しながら、制御システムが迅速かつ効果的に、被制御アプリケーション・システムの動作を最適化することを許容する。

【0010】

本明細書において記載される本技術は、排水処理プラント、健康管理システム、農業システム、水資源管理システム、問合わせシステム、伝染症初期プロセス・システム、ロボット・モーション計画システムなどといった、いかなる好適なタイプの被制御アプリケーション・システムに対して適用することができる。しかしながら、議論の簡略化のため、本明細書において記述される実施形態は、排水処理プラントに対するそのような技術の適用に関する。

【0011】

図１は、本明細書において記載される自動的な状態空間の次元削減技術が実装されることができる実施例の、排水処理プラント（ＷＷＴＰ）１００の簡略化されたブロック図である。ＷＷＴＰ１００は、流入液１０２として参照される、入来する排水を処理するように構成されるいかなる好適なタイプの排水処理ユニット、デバイス、又はシステムとすることができる。流入液１０２は、ローカルな規制又はプロトコルにしたがって、設定される水準まで流入液１０２を処理するための、いかなる数のスクリーン、ポンプ、反応器、沈殿タンク、分離デバイス、エア・ブロワなどを含むことができるＷＷＴＰ１００内の液体ライン１０４を通して移動する。液体ライン１０４の２つの主な排出物は、流出液１０６として参照される被処理流体及びスラッジ１０８として参照される被処理バイオ固体である。スラッジ１０８は、その後、スラッジ・ライン１１０を通して流れ、これはスラッジ１０８を処理するための、いかなる数のスクリーン、ポンプ、反応器、沈殿タンク、分離デバイス、脱水システム、エアレーション・タンク、エア・ブロワなどを含むことができる。得られる被処理スラッジ１１２は、フィルタ・ケーキを含む可能性があり、例えば、その後に処理１１４のために外部に送付されるが、反応器内での使用のための活性スラッジを含む可能性があり、再利用される流出液１０６は、液体ライン１０４へと戻してリサイクルされる。追加的に、スラッジ・ライン１１０内のスラッジ１０８から分離されたメタンガス１１８は、ガス・ライン１２０へと送付されることができ、そこで、それが販売されるか又は種々の目的のために使用されることができる。

【0012】

ＷＷＴＰ１００はまた、液体ライン１０４又はスラッジ・ライン１１０又はそれらの両方に含まれる、スクリーン（複数）、ポンプ（複数）、反応器（複数）、沈殿タンク（複数）、分離デバイス（複数）、エア・ブロワ（複数）、脱水システム（複数）、エアレーション・タンク（複数）などといった、ＷＷＴＰ１００内の種々のデバイス及びシステムの機能を制御するように構成される、制御システム１２２を含む。種々の実施形態においては、ＷＷＴＰ１００の制御システム１２２は、例えば、１つ又はそれ以上のサーバ、１つ又はそれ以上の汎用目的のコンピューティング・デバイス、１つ又はそれ以上の特定目的のコンピューティング・デバイス、又は１つ又はそれ以上の仮想マシン又はそれらの組み合わせからなる。さらに、制御システム１２２は、液体ライン１０４に接続された１つ又はそれ以上のセンサ（複数）１２８Ａ及びスラッジ・ライン１１０に接続された１つ又はそれ以上のセンサ（複数）１２８Ｂといった、ＷＷＴＰ１００内の多数のセンサからの読取り値を受信するためのインタフェース１２６に加えて、１つ又はそれ以上のプロセッサ１２４を含む。センサ（複数）１２８Ａ及び１２８Ｂは、ＷＷＴＰ１００に関連する種々の状態をモニタするために使用されることができる。例えば、センサ（複数）１２８Ａ及び１２８Ｂは、流出液の全窒素のフロー変数及び流出液の全燐のフロー変数といったフロー変数をモニタするために使用されることができる。読取り値は、センサ（複数）から直接受信されることができるか、又はプロキシ又は入力デバイスを介して受信されることができる。

【0013】

インタフェース１２６はまた、例えば、インターネット、ローカルエリア・ネットワーク（ＬＡＮ）、ワイドエリア・ネットワーク（ＷＡＮ）、又はワイヤレス・ネットワーク又はそれらの組み合わせといったネットワーク１３２を介して、ＷＷＴＰ１００に関連する１つ又はそれ以上のデータベース１３０からデータを取得するために使用されることができる。ネットワーク１３２は、関連する銅通信ケーブル、光学通信ファイバ、ワイヤレス通信デバイス、ルータ、ファイヤウォール、スイッチ、ゲートウェイ・コンピュータ、エッジ・サーバなどを含むことができる。データベース１３０から取得されたデータは、例えば、ＷＷＴＰ１００についての、又は他の同様のＷＷＴＰｓの履歴的動作データに加えて、ＷＷＴＰ１００の動作要件に関連する情報を含むことができる。

【0014】

制御システム１２２はまた、本明細書においてさらに説明されるように、ＷＷＴＰ１００の動作を制御するためにプロセッサ（複数）１２４により実行されることができるプログラム命令を含む、コンピュータ可読な記録媒体（又は複数の媒体）１３４を含む。コンピュータ可読な記録媒体１３４は、制御システム１２２に一体化されていてもよく、又使用時に制御システム１２２に接続される外部デバイスとすることができる。コンピュータ可読な記録媒体１３４は、例えば、電子的記録デバイス、磁気記録デバイス、光学的記録デバイス、電気磁気記録デバイス、半導体記録デバイス、又は上述のもののいかなる好適な組み合わせを含むことができる。コンピュータ可読な記録媒体１３４の、より特定的で非消尽的なリストは以下を含む：ポータブル・コンピュータ・ディスク、ハードディスク、ランダム・アクセス・メモリ（ＲＡＭ）、リード・オンリー・メモリ（ＲＯＭ）、消去可能なプログラマブル・リード・オンリー・メモリ（ＥＰＲＯＭ又はフラッシュ・メモリ（登録商標））、スタティック・ランダム・アクセス・メモリ（ＳＲＡＭ）、ポータブル・コンパクト・ディスク・リード・イオンリー・メモリ（ＣＤ－ＲＯＭ）、デジタル多目的ディスク（ＤＶＤ）、メモリ・スティック、フロッピー・ディスク（登録商標）、パンチ・カード又は命令を記録した溝内に突出する構造を有する機械的にエンコードされたデバイス、及びこれらの好ましい如何なる組合せを含む。さらに、本明細書で使用されるように用語“コンピュータ可読な記録媒体”は、ラジオ波又は他の自由に伝搬する電磁波、導波路又は他の通信媒体（例えば、光ファイバ・ケーブルを通過する光パルス）といった電磁波、又はワイヤを通して通信される電気信号といったそれ自体が一時的な信号として解釈されることはない。いくつかの実施形態においては、インタフェース１２６は、ネットワーク１３２からプログラム命令を受信すると共に、制御システム１２２内のコンピュータ可読な記録媒体１３４内に格納するためにプログラム命令を転送するネットワーク・アダプタ・カード又はネットワーク・インタフェースを含む。

【0015】

プログラム命令は、アセンブラ命令、命令セット・アーキテクチャ（ＩＳＡ）命令、機械語命令、マシン依存命令、マイクロ・コード、ファームウェア命令、状態設定データ、集積回路のための構成データ、又は１つ又はそれ以上の、Ｓｍａｌｌｔａｌｋ（登録商標）、Ｃ＋＋などのオブジェクト指向プログラミング言語、“Ｃ”プログラミング言語又は類似のプログラム言語といった従来の手続き型プログラミング言語を含むプログラミング言語のいかなる組合せにおいて記述されたソース・コード又はオブジェクト・コードのいずれかとすることができる。プログラム命令は、全体が制御システム１２２上で、部分的に制御システム１２２上でスタンドアローン・ソフトウェア・パッケージとして、部分的に制御システム１２２上で、かつ部分的に制御システム１２２にネットワーク１３２を介して接続されたリモート・コンピュータ上で、又は全体がリモート・コンピュータ又はサーバ上で実行することができる。いくつかの実施形態では、例えばプログラマブル論理回路、フィールド・プログラマブル・ゲートアレイ（ＦＰＧＡ）、又はプログラマブル論理アレイ（ＰＬＡ）を含む電気回路がコンピュータ可読なプログラム命令を、コンピュータ可読なプログラム命令の状態情報を使用して、本発明の特徴を実行するために電気回路をパーソナライズして実行することができる。

【0016】

動作においては、ＷＷＴＰ１００を出る流出液１０６及び被処理スラッジ１１２の特性は、ＷＷＴＰ１００のロケーションに特有な規制上の制約に従わなければならない。そのような制約は、例えば、特定の時間的期間にわたる流出液１０６の全窒素濃度及び全燐濃度についての制限を含むことができる。そのような制約の実施例は、流出液１０６内の月（又は日）平均の全窒素濃度について、１５ミリグラム・パー・リッター（ｍｇ／Ｌ）の上限である。流出液１０６及び被処理スラッジ１１２を処理することはその程度において、液体ライン１０４及びスラッジ・ライン１１０内で多数のステップが実行される。例えば、液体ライン１０４は、いかなる数の反復的なサブプロセスを介して流入液１０２を処理するための装置に加えて、生物物理又は化学又はそれらの両方のサブプロセスを介して流入液１０２を処理するための種々の異なるタイプの装置を含むことができ、同一の入流液の部分は、いくつかのサブプロセスを、何度も通る。

【0017】

そのような制約に従うために、制御システム１２２は、ＷＷＴＰ１００に関連する制御活動変数及びシステム状態変数を制御するために使用することができる。本明細書において使用されるように、用語“制御活動”は、被制御アプリケーション・システムの動作を制御するための制御システムにより執られる可能な活動を参照するが、用語“システム状態”は、制御システムが１つ又はそれ以上の制御活動を執った後の被制御アプリケーション・システムの可能な状態を参照する。システム状態変数の実施例は、以下のものを含む：（１）低、中、高の流入フロー・レート（立方メートル・パー・アワー（ｍ^３／ｈｒ）で動作すること；（２）オン又はオフ設定に設定された１つ又はそれ以上のフィードバック又はリサイクル・ループと共に動作すること；（３）低、中、高に設定された流出液１０６の全窒素濃度（ｍｇ／Ｌでの）、又は全燐濃度（ｍｇ／Ｌでの）、又はそれらの両方の上限で動作すること；（４）高価、中、又は安価設定に設定された電気的コストに関連する時間的期間で動作すること；及び（５）低、中、高に設定された全動作コストで動作すること。制御活動変数の実施例は、以下のものを含む：（１）ＷＷＴＰ１００内の１つ又はそれ以上のエア・ブロワの速度を増加又は減少すること；（２）ＷＷＴＰ１００内の液体ライン１０４又はスラッジ・ライン１１０又はそれらの両方に添加される添加剤の量を増加又は減少すること；（３）ＷＷＴＰ１００内の１つ又はそれ以上のポンプについてのポンピング・レート（ｍ^３／ｈｒでの）を増加又は減少すること；及び（４）液体ライン１０４へと戻すリサイクル流出液１１６を送付するために使用されるＷＷＴＰ１００内のフィードバック装置といったフィードバック装置を制御すること。

【0018】

この複雑性の結果として、ＷＷＴＰｓは、典型的には高い動作コストを有する。全運転コストは、例えば、ＷＷＴＰ１００内のコンポーネントを動作するために必要とされる電気コスト、排水処理プロセスに使用される種々の添加剤のコスト、及び得られた被処理スラッジ１１２のための廃棄コストを含む可能性がある。今日においては、ほとんどのＷＷＴＰｓは、リスクを定量化するか、又は真にコストを最適化する能力なく、保守的で、かつ非効率なリスク不利なモードで動作されている。いくつかのサブプロセスは、局所的に最適化されるが、しかしながら、あるサブプロセスの局所的な最適化は、考慮されていない１つ又はそれ以上の他のサブプロセスに対して負の影響を有する可能性がある。そのような局所的な最適化は、プロセス全体として逆効果を有する可能性さえ有する。

【0019】

この結果、制御システム１２２のコンピュータ可読な記録媒体１３４は、動作最適化モジュール１３６を含む。この動作最適化モジュール１３６は、１つ又はそれ以上の課せられた制約を維持しながら動作効率を最大化させ、かつＷＷＴＰ１００の動作コストを最小化するための制御活動を選択するために使用されることができる、ＷＷＴＰ１００の数学的表現を生成するように構成される。

【0020】

動作において、ＷＷＴＰ１００に関連するＣＭＤＰモデルは、排水処理プロセスに関連する膨大な数の変数のため、高度の複雑性を含む。例えば、ＷＷＴＰ１００は、制御システム１２２により執られることができる１００を超える可能な制御活動に加えて、数百の可能なシステム状態変数を含む可能性がある。この結果、ＷＷＴＰ１００に対してＣＭＤＰモデルを実装することは、２＾２００×１００を超える遷移確率値の計算又は推定を含む可能性がある。しかしながら、制御システム１００は、合理的な時間内でそのような膨大な数の遷移確率を計算するための充分な処理能力を有しない可能性がある。さらに、ＷＷＴＰ１００は、制限された数のセンサ１２８Ａ及び１２８Ｂを含むだけである。例えば全体のＷＷＴＰ１００は、５～１０センサを含むだけの可能性がある。この結果、制御システム１２２は、このレベルでの計算を実行するための充分なデータを収集することができない可能性がある。さらに、制約がＷＷＴＰ１００に対して課せられるので、ＣＭＤＰモデルは、より複雑にさえなり、かつ計算が困難になる。

【0021】

この結果、本明細書で説明される実施形態によれば、制御システム１２２のコンピュータ可読な記録媒体１３４内の動作最適化モジュール１３６は、自動状態空間次元削減モジュール１３８として参照されるサブモジュールを含む。自動状態空間次元削減モジュール１３８は、プロセッサ（複数）１２４に対して、ＣＲＬモデル内で使用される可能なシステム状態の数を、数千の変数から１０よりも少ないか又は２０よりも少ない変数へと削減することにより、ＷＷＴＰ１００に関連するＣＲＬモデルの状態空間次元を自動的に削減させる命令を含む。これは、次に被制御アプリケーション・システムのＣＭＤＰモデルのための遷移確率マトリックスを簡略化し、ＣＭＤＰモデルが線形計画（ＬＰ）問題として定式化されることを許容する。制御システム１２２は、その後、課せられた制約を適切に維持しながらＷＷＴＰ１００の動作を迅速かつ効率的に制御するためにＬＰ問題を使用することができる。

【0022】

図１のブロック図は、ＷＷＴＰ１００（又はＷＷＴＰ１００内の制御システム１２２）が図１に示されるコンポーネントの全部を含むべきことを示す意図はない。そうではなく、ＷＷＴＰ１００（又は制御システム１２２、又はそれらの両方）は、図１に示されていない、いかなる数の追加的な、又は代替的なコンポーネントを含むことができる。例えば、制御システム１２２のコンピュータ可読な記録媒体１３４は、ＷＷＴＰ１００の動作を制御し、又は最適化し又はこれらの両方のための、いかなる数の追加的モジュールを含むことができる。追加的に、制御システム１２２は、ＷＷＴＰ１００の動作に関連するシミュレーションされたデータを提供する、シミュレーション・システムを含むか、又は接続されるか、又はそれらの両方とすることができる。いくつかの実施形態においては、制御システム１２２は、ＷＷＴＰ１００の動作を最適化するために、シミュレートされたデータ及びセンサ１２８Ａ及び１２８Ｂから取得されたデータの組み合わせを使用することができる。

【0023】

ここで、本明細書において説明される実施形態により使用されることができる、ＣＭＤＰ技術の数学的説明を行う。ＣＭＤＰは、５－タプル

【0024】

【数1】

【0025】

で定義され、ここに、Ｓは、システム状態の有限のセットであり、

【0026】

【数2】

【0027】

であり、Ｕは、制御活動の有限のセットであり、

【0028】

【数3】

【0029】

であり、Ｐは、遷移確率関数

【0030】

【数4】

【0031】

であり、ｃは、コスト関数

【0032】

【数5】

【0033】

であり、これは、状態－活動ペアについてのコストのベクトルを含み、かつ

【0034】

【数6】

【0035】

は、制約に関連するコストのベクトルを意味する。システム状態の有限のセットＳは、

【0036】

【数7】

【0037】

として表され、ここで、Ｓからの要素は、ベクトルであり、かつ制御活動の有限のセットＵは、

【0038】

【数8】

【0039】

として表され、ここで、Ｕは、ベクトルである。
遷移確率関数Ｐは、

【0040】

【数9】

【0041】

により表される。さらにｓ_ｔは、時間ｔでの状態を表すランダム変数であり、ｕ_ｔは、時間ｔでの活動を表すランダム変数である。

【0042】

遷移確率関数、

【0043】

【数10】

【0044】

は、１つのシステム状態

【0045】

【数11】

【0046】

から別のシステム状態

【0047】

【数12】

【0048】

への、活動ｕが選択された場合の遷移確率を定量化する。システム状態ｘの場合に活動ｕを選択することに関連するコストは、

【0049】

【数13】

【0050】

に等しい。異なる確率及び結果に基づいて、ポリシー、πが生成され、ここでそれぞれのポリシーは、状態－活動ペアを覆う確率尺度を含む。ＣＭＤＰモデルのゴールは、全体のコスト、

【0051】

【数14】

【0052】

を、制約の合計値

【0053】

【数15】

【0054】

が特定的な値を下回るように保証しながら最小化するポリシーπを見い出すことである。

【0055】

ＣＭＤＰがディスカウントしたコスト・モデルについて、パラメータ

【0056】

【数16】

【0057】

は、将来のコストが削減されるレートを特定し、

【0058】

ここで、

【0059】

【数17】

【0060】

は、イベント

【0061】

【数18】

【0062】

の、初期状態が

【0063】

【数19】

【0064】

に等しく、ポリシーが

【0065】

【数20】

【0066】

に等しい場合の確率を表す。このモデルによりディスカウントされた占有尺度は、以下の式（１）で示されるように規定される。ここで、

【0067】

【数21】

として、

【0068】

【数22】

【0069】

である。時間ｔでのポリシーπでのコストの期待値は、式（２）に示されるように定義される。

【0070】

【数23】

【0071】

コストは、ここで、（0＜β＜1（ディスカウント・ファクタ）とすると、式（３）に示すように定義される。

【0072】

【数24】

【0073】

制約、

【0074】

【数25】

【0075】

は、同様に、式（４）に示されるように定義される。

【0076】

【数26】

【0077】

上述したように、ＣＭＤＰ技術のゴールは、全コスト

【0078】

【数27】

【0079】

を最小化するポリシーπを、制約の合計値

【0080】

【数28】

【0081】

が特定的な値を下回ることを保証しながら見い出すことである。得られるポリシーπは、被制御アプリケーション・システムの動作最適化のために使用されることができる。しかしながら、図１に示された実施例に関連して説明されるように、多くの被制御アプリケーション・システムは、過剰すぎるほど膨大な数の可能なシステム状態、及び可能な制御活動を含む。この膨大な数の変数は、合理的な時間内で解くことができない高度に複雑なモデルの生成をもたらす。したがって、本明細書において説明される実施形態は、それぞれのＣＭＤＰモデルのために最重要なシステム状態変数のサブセットを自動的に選択することにより、ＣＭＤＰモデルのサイズを迅速かつ効率的に削減するために使用することができる自動的な状態空間の次元削減技術を提供する。種々の実施形態においては、これは、図２についてより詳細に説明されるように、ＣＲＬ（又はＣＤＲＬ）及びＣＭＤＰ技術を組み合わせることによって達成される。さらに、状態空間の次元削減の後、ＣＭＤＰモデルは、ＩＢＭＣＰＬＥＸ（登録商標）オプティマイザといった典型的なソルバーにより、迅速、かつ効率的に解くことができる線形計画（ＬＰ）問題として定式化することができる。

【0082】

図２は、１つ又はそれ以上の制約値が課される被制御アプリケーション・システムの数学的表現の次元を自動的に削減するための方法２００のプロセス・フロー図を示す。本方法２００は、被制御アプリケーション・システムの動作を指令する制御システムにより実装される。いくつかの実施形態においては、被制御アプリケーション・システムは、図１に関連して説明されたＷＷＴＰ１００といったＷＷＴＰであり、制御システムは、プロセッサ及びプロセッサを指示して方法２００のステップを実行させるプログラム命令を含むコンピュータ可読な記録媒体を含む。さらに、他の実施形態においては、被制御アプリケーション・システムは、健康管理システム、農業システム、水資源管理システム、問合わせシステム、伝染症初期プロセス・システム、ロボット・モーション計画システム、又はいかなる他の好適なタイプの被制御アプリケーション・システムとすることができる。

【0083】

本方法２００は、ブロック２０２で開始し、そこにおいて、制御システムは、被制御プリケーション・システムに関連する制御活動変数及びシステム状態変数に対応するデータを受信する。いくつかの実施形態において、データの少なくとも一部分は、被制御アプリケーション・システムに結合されたセンサを介して計算される。さらに、いくつかの実施形態においては、制御システムは、被制御アプリケーション・システムのシミュレーションに基づいてデータの少なくとも一部分を計算する。

【0084】

本明細書において説明されるように、制御活動変数は、制御システムが被制御アプリケーション・システムの動作の制御を実行することを可能とする膨大な数の可能な活動を含み、かつシステム状態変数は、制御システムが１つ又はそれ以上の活動を実行した後の被制御アプリケーション・システムの膨大な数の可能な状態を含む。種々の実施形態において、制御システムの制御活動を最適化することは、制御活動変数と、システム状態変数との間の関係に関連する大サイズの確率論的問題を解くことを含む。さらに、大サイズの確率論的問題は、被制御アプリケーション・システムのための１つ又はそれ以上の制約値に加えて、被制御アプリケーション・システムに関連するコスト関数を考慮する。

【0085】

ブロック２０４では、制御システムのプロセッサは、制御活動変数及びシステム状態変数に対応するデータに基づいて、制約付き強化学習（ＣＲＬ）モデルを、被制御アプリケーション・システムにフィットする。言い換えると、制御システムのプロセッサは、機械学習フレームワーク内の大サイズの確率論的問題を考慮すると共に、問題を定義する、制約値、制御活動変数、及びシステム状態変数の１つ又はそれ以上の観点において被制御システムの動作を最良に説明する、ＣＲＬモデルを出力する。いくつかの実施形態においては、ＣＲＬモデルは、制約付き深層強化学習（ＣＤＲＬ）モデルである。

【0086】

種々の実施形態においては、モデル・フィッティング・プロセスは、当技術において知られている、ポリシー

【0087】

【数29】

を生成するためのパラメータ調整及び最適化といった標準的な強化学習技術を実行することを含む。

【0088】

このポリシーは、一般に１と、０との間の確率Ｐを提供する制御活動ｕを制御するマップであり、被制御アプリケーション・システムの環境がシステム状態、

【0089】

【数30】

【0090】

を示す場合に採用される。ポリシーは、当技術において知られるように、定常的、すなわち時間独立、又は非定常的、すなわち時間依存とすることができる。さらに、ポリシーに基づいて、システム状態変数と、制御活動変数との特定的なペア、すなわち状態－活動ペアの結合確率が、

【0091】

【数31】

【0092】

として計算されることができ、ここで、

【0093】

【数32】

【0094】

は、制御システムによって受信されたデータに基づいて計算される。

【0095】

種々の実施形態においては、ＣＲＬ（又はＣＤＲＬ）モデルのためのポリシーは、暗黙的である。特定的には、ＣＲＬ（又はＣＤＲＬ）モデルのための入力としての所与のシステム状態について、制御活動の分布（又は最も可能性のある制御活動）が出力として提供される。システム状態の全数が膨大であるか又は無限でさえある可能性があるので、ポリシーは、通常には明示的に計算されない。そのかわり、ＣＲＬ（及びＣＤＲＬ）プロセスは、“お告げ”の種類のものとして実行する。しかしながら、本明細書において説明される実施形態によれば、確率は、入力として受信されるデータを使用するフィッティング・プロセスの間に推定されることができ、かくして暗示的なポリシーが提供される。

【0096】

ＣＲＬ（又はＣＤＲＬ）についてのポリシーを生成するために使用されることができる１つの特定的なプロセスは、リワード被制約ポリシー最適化（reward constrained policy optimization：ＲＣＰＯ）プロセスとして参照される。このプロセスは、Tessler、 Mankowitz、及びMannor （２０１８）による、論文、名称“Reward Constrained Policy Optimization,”に記載されている。そこに記載されるように、被制約最適化問題について、タスクは、目的関数、

【0097】

【数33】

【0098】

を、不等式制約、

【0099】

【数34】

【0100】

を満たしながら、最大化させるポリシーを見いだすことである。ＲＣＰＯアルゴリズムは、これを、ペナルティ・シグナルとしてリワード関数へと制約を組み込むことによって達成する。ペナルティ・シグナルは、ポリシーを、制約を満たす解に向けてガイドする。

【0101】

より特定的には、ＲＣＰＯアルゴリズムのため、大サイズの確率論的問題は、先ずラグランジュ緩和技術を使用して定式化することであり、これは、被制約最適化問題を、等価な制約されない最適化問題に変換することを含む。ペナルティ項は、非妥当性のために追加され、妥当でない解は準最適である。この結果、所与のＣＭＤＰベースのモデルについて、制約されていない最適化問題は、式（５）に示されるように定義され、
ここで、Ｌは、ラグランジアンであり、λ≧０は、ラグランジアン乗数（ペナルティ係数）である。

【0102】

【数35】

【0103】

式（５）のゴールは、鞍点

【0104】

【数36】

【0105】

を見いだすことであり、ここで、妥当解は、

【0106】

【数37】

【0107】

を満たすものである。次に、勾配が推定される。特定的には、制御活動変数及びシステム状態変数に関連するデータは、式（６）及び（７）に示されるように、

【0108】

【数38】

【0109】

被制約最適化問題のためのアルゴリズムを定義するために使用される。式（６）及び（７）において、Γ_θは、射影演算子であり、これは、コンパクトで凸のセットへと射影することによりイタレートθ_ｋを安定に保持する。Γ_λは、λを範囲

【0110】

【数39】

へと射影する。

【0111】

【数40】

【0112】

は、式（５）から導出され、ここで、

【0113】

【数41】

【0114】

に対する定式化は、式（８）及び（９）に示される対数尤度トリック（log-likelihood trick）を使用して導出される。

【0115】

【数42】

【0116】

さらに、式（６）及び（７）において、η_１（ｋ）及びη_２（ｋ）は、ポリシーのアップデートがペナルティ係数λのそれよりも早いタイムスケールで実行されることを保証する、ステップ・サイズである。このことは、式（１０）に示される仮定を導出し、これは、イタレート

【0117】

【数43】

【0118】

が、妥当解である固定ポイント（すなわち、局所的な最小）に収束するであろうというものである。

【0119】

【数44】

【0120】

ＲＣＰＯアルゴリズムは、アクター・クリティック(actor-critic)に基づくアプローチを使用することにより、このプロセスを拡張し、そこにおいて、アクターは、ポリシーπを学習し、かつクリティックは、時間的差の学習を使用、すなわち回帰的Ｂｅｌｌｍａｎ方程式を通して学習する。さらに特定的には、ＲＣＰＯアルゴリズムの下で、アクター及びクリティックは、ディスカウンテッド・ペナルティ（discounted penalty）として参照される、代替的なガイディング・ペナルティ(guiding penalty)を使用してトレーニングされる。ディスカウンテッド・ペナルティは、式（１１）に示されるように定義される。

【0121】

【数45】

【0122】

追加的に、ペナライズド・リワード関数は、式（１２）及び（１３）として示されるように定義される。

【0123】

【数46】

【0124】

式（１３）のペナライズド値は、ＴＤ学習クリティックを使用して推定されることができる。ＲＣＰＯアルゴリズムは、アクター及びクリティックが式（１３）の解決後にアップデートされ、かつλが式（６）の解決後にアップデートされる、３つのタイムスケール（被制約アクター・クリティック）のプロセスである。ＲＣＰＯアルゴリズムは、以下の条件下で妥当解に収束する：（１）妥当解のセットは、

【0125】

【数47】

により表され、

【0126】

（２）局所的な最小のセット

【0127】

【数48】

【0128】

は、

【0129】

【数49】

によって表され、

【0130】

及び（３）

【0131】

【数50】

であり、

【0132】

その後、ＲＣＰＯアルゴリズムが、ほとんど確実に固定されたポイント、

【0133】

【数51】

に収束し、

【0134】

これが妥当解であることを仮定する。

【0135】

種々の実施形態において、別のアクター・クリティック・プロセスがＣＲＬモデルを被制御アプリケーション・システムにフィットするために使用することができる。制御システムがこのプロセスを実行するために従うことができるステップは、以下のようにまとめられる：（１）勾配上昇法を使用して被制御アプリケーション・システムの数学的表現をフィットするラグランジュ乗数を学習することであって、ここで、最急降下法が主な方法（例えば、アクター・クリティック・アルゴリズム）のために使用され；かつ（２）学習したラグランジュ乗数を使用してＣＲＬモデルとして数学的表現を定式化する。これは、時間分離の特性、すなわち、最急降下法及び勾配上昇法についてゆっくり及び速い時間スケールの結果、作用する。種々の実施形態においては、このプロセスは、ＣＤＲＬ技術を使用する、より一般化された制約について適用されることができる。さらに、このプロセスは、ボルカー（２００５）による論文、題名“制約付きマルコフ決定プロセスのためのアクター・クリティック・アルゴリズム。Systems & control letters”においてより詳細に説明される。

【0136】

ブロック２０６では、プロセッサは、関心のある制御活動変数を選択することにより、システム状態変数のサブセットを自動的に識別し、かつ関心のあるそれぞれの制御活動変数について、関心のある制御活動変数を推奨するためにＣＲＬモデルを駆動するシステム状態変数を識別する。種々の実施形態において、このステップは、例えば、数千の変数を、１０より少ないか、又は２０より少ない変数へと絞り込むことを含む。さらに、識別されたシステム状態変数のサブセットは、１つ又はそれ以上の制約値及び被制約数学モデルに関連するコスト関連の変数により記述される。

【0137】

種々の実施形態において、ブロック２０６でのシステム状態変数のサブセットを自動的に識別することは４つのステップを含む。第１に、制御活動変数及びシステム状態変数のペア、すなわち、ブロック２０４に関連して記述された状態－活動ペアについての占有尺度が計算される。占有尺度は、式（１４）に示されるように計算される。

【0138】

【数52】

【0139】

この計算は、ブロック２０４に関連して記載されたモデル・フィッティング・プロセスの間に計算された状態－活動ペアの確率に基づく。それぞれの状態－活動ペアについての占有は、状態－活動ペアが到達される０と１の間の頻度を現す。種々の実施形態においては、占有尺度はまた、ブロック２０４に関連して記述された、モデル・フィッティング・プロセスの間に計算されることができる。さらに、占有尺度は、式（１５）に示されるように、ディスカウント・ファクタβ（将来のリワードをディスカウントする）及び無限区間で定式化されることができる。

【0140】

【数53】

【0141】

第２に、制御システムは、関心のある数多くの制御活動を選択し、そこで、関心のあるそれぞれの制御活動は、ｕ^ｉにより表される。いくつかの実施形態においては、関心のある制御活動は、制御システムのオペレータにより手作業によって選択される。例えば、制御システムのユーザ・インタフェースは、オペレータに対して、オペレータがそれから利便性よく選択することができる制御活動のリストを提示するか、又はオペレータは、関心のある制御活動のコンピュータ可読な識別値を手作業でタイプすることができる。他の実施形態においては、関心のある制御活動は、制御システム内に事前プログラミングされたトリガ・イベントの自動生成された表示に応答して、制御システムにより自動的に選択される。

【0142】

第３に、制御システムは、関心のあるそれぞれの制御活動を含み、かつ事前定義された閾値に従う占有尺度を有する特定の状態－活動ペアを自動的に決定する。例えば、関心のあるそれぞれの制御活動について、最高の占有尺度を有するＤの状態－活動ペア（Ｄ≧１）、すなわち、

【0143】

【数54】

【0144】

が決定されることができる。これらの状態－活動ペアは、関心のある特定の制御活動ｕ^ｉを推奨するようにＣＲＬモデルを動作するシステム状態変数を含むであろう。第４に、状態－活動ペアは、分離され、かつ分析されて、関心のあるそれぞれの制御活動を推奨するためにＣＲＬモデルを駆動することに最も実質的に影響を有するシステム状態変数の特定のサブセットを識別する。

【0145】

ブロック２０８で、プロセッサは、システム状態変数のサブセットを使用して、ＣＲＬ（又はＣＤＲＬ）モデルの状態空間の次元削減を自動的に実行する。これは、ブロック２０６で識別されたシステム状態変数のサブセットをＣＲＬモデルに組み込むことを含む。種々の実施形態において、このやり方においてＣＲＬモデルの状態空間の次元削減を実行することは、複雑で大サイズの確率論的問題を制御システムにより、より迅速かつ効率的に解くことができる、より簡潔な確率論的問題に変換する。

【0146】

ブロック２１０では、プロセッサは、状態空間次元削減の後の１つ又はそれ以上の制約値が課される被制御システムの制約付きマルコフ決定プロセス（ＣＭＤＰ）モデルについての遷移確率マトリックスを推定する。種々の実施形態においては、この遷移確率の推定プロセスは、３つのステップに分解される可能性がある。第１にプロセッサは、可能な限りのカバレッジで状態空間及び活動空間を分析する。言い換えれば、プロセッサは、異なる制御活動に応答して異なるシステム状態の間の、できるだけ多くの遷移を分析する。この目的のため、プロセッサは、関心のある制御活動変数及びシステム状態変数の削減されたセットを使用して、それぞれのシステム状態について最小に使用される制御活動に焦点を当てつつ、可能な遷移のシミュレーションを動作することができる。
第２に、プロセッサは、特定の制御活動のためのシステム状態におけるそれぞれの変化についての遷移数を、変数のサブセット内の制御活動変数及びシステム状態変数の全数で除算することにより、遷移確率を推定する。第３に、プロセッサは、遷移確率マトリックスを生成するために補間を実行する。これは、活動依存のシステム状態変数又は活動非依存のシステム状態変数、又はこれらの両方についての近傍のシステム状態を使用することにより、又は既約性を保証する方法を実行することにより達成されることができる。得られる遷移確率マトリックスは、変数のサブセットに基づく被制御アプリケーション・システム（１つ又はそれ以上の制約値が課される）の動作の簡潔なモデルを表す。

【0147】

ここで、遷移確率推定の数学的説明を参照して、制御活動変数のセットは、

【0148】

【数55】

【0149】

であり、ここで、それぞれの制御活動変数の数は、

【0150】

【数56】

【0151】

として表されると共に、制御活動変数の全数は、

【0152】

【数57】

【0153】

である。システム状態変数の削減されたセットは、

【0154】

【数58】

【0155】

で表され、ここで、それぞれのシステム状態変数の数は、

【0156】

【数59】

【0157】

であり、かつ削減されたセット内のシステム状態変数の全数は、

【0158】

【数60】

【0159】

である。制御活動ｉに伴われてシステム状態ｊに到来する数は、

【0160】

【数61】

【0161】

により表され、かつ、制御活動ｉが実行された後にシステム状態ｊからシステム状態ｋへと遷移する数は、

【0162】

【数62】

【0163】

で表される。これらの定義と共に、遷移確率マトリックスの基本的な推定が、式（１６）に示される。

【0164】

【数63】

【0165】

種々の実施形態において、システム状態変数は、２つのセットに分割される：制御可能及び制御不能。被制御アプリケーション・システムがＷＷＴＰである実施形態については、制御不能なシステム状態変数は、例えば、流入液フロー、流入液の化学的負荷、及び電気的コストによる時間的期間のタイプを含む。制御活動及び制御可能なシステム状態変数は、制御不能なシステム状態変数の間の遷移に影響しない。制御可能なシステム状態変数は、被制御アプリケーション・システムの内部又は流出液特性を記述すると共に、いかなるタイプの過去の活動及びシステム状態変数により影響されることができる。制御不能なシステム状態変数は、

【0166】

【数64】

【0167】

によって表され、ここで、インデックス１，...，Ｉを有するシステム状態変数は、制御不能である。

【0168】

【数65】

【0169】

は、それぞれ、制御不能及び制御可能なシステム状態変数に対応する状態空間である。全状態空間は、これら2つの空間のカーテシアン積、すなわち、

【0170】

【数66】

【0171】

であり、それらの次元は、それぞれ、

【0172】

【数67】

及び

【0173】

【数68】

【0174】

である。制御不能の状態空間から状態ｊに対応する状態空間からのシステム状態のセット、

【0175】

【数69】

は、

【0176】

【数70】

【0177】

として定義される。言い換えれば、

【0178】

【数71】

【0179】

である。制御可能な状態空間からの状態ｊに対応する状態空間からのシステム状態のセット、

【0180】

【数72】

【0181】

は、

【0182】

【数73】

【0183】

で定義される。言い換えれば、

【0184】

【数74】

【0185】

さらに、もしも、

【0186】

【数75】

【0187】

であれば、

【0188】

【数76】

は、状態ｋの制御不能の部分を表し、かつ

【0189】

【数77】

【0190】

は、状態ｋの制御可能な部分を表す。言い換えれば、状態ｋは、状態のコンカテネーション、

【0191】

【数78】

【0192】

である。アクション－駆動カバレッジについて、現在のシステム状態が、

【0193】

【数79】

【0194】

であるものと仮定する。それまでの最小の選択された制御活動、すなわち、

【0195】

【数80】

【0196】

を選択する。もしも、そのような制御活動がいくつかあるならば、均一な分布にしたがってそれらの間からランダムに選択する。同様に、状態－駆動カバレッジについて、現在のシステムが、

【0197】

【数81】

【0198】

であるものと仮定する。現在の時間までにシステム状態ｋに到来する全数は、

【0199】

【数82】

【0200】

により表される。加えて、

【0201】

【数83】

であり、ここで、

【0202】

【数84】

は、遷移確率の現在の推定である。制御活動

【0203】

【数85】

【0204】

を選択する。もしも、いくつかのそのような制御活動があるならば、均一な分布にしたがってそれらの間からランダムに選択する。状態－駆動カバレッジは、

【0205】

【数86】

の多さでシステム状態に到来することを意味するか、又は

【0206】

言い換えれば、システム状態にめったに到来しない制御活動を選択する。

【0207】

種々の実施形態においては、このプロセスは、遷移確率の合理的な初期推定を取得するため比較的長い時間的期間についての活動－駆動カバレッジを使用して反復される。その後、本プロセスは、活動－駆動及び状態－駆動カバレッジの間で互換的に繰り返される。

【0208】

遷移確率マトリックスの補間のため、第１のプロセスは、近傍のシステム状態に基づく補間を含む。システム状態の近傍システム状態、

【0209】

【数87】

【0210】

は、１つを除いて全システム状態変数が、システム状態変数、

【0211】

【数88】

【0212】

に一致し、かつ１つのシステム状態変数による差は、１つの隣接するインターバルに等しいシステム状態である。状態、

【0213】

【数89】

【0214】

の近傍のシステム状態のセットに加えて、システム状態

【0215】

【数90】

【0216】

それ自体は、Ｌ_ｊによって表される。Ｌ_ｊのサブセットは、

【0217】

【数91】

【0218】

によって表され、

【0219】

【数92】

【0220】

は、制御活動ｉが少なくとも１回行われたシステム状態を含む。さらに、

【0221】

【数93】

【0222】

は、このセットのサイズを表す。

【0223】

パラメータ

【0224】

【数94】

【0225】

が使用され、かつ補間は、制御活動及びシステム状態について、

【0226】

【数95】

【0227】

で実行される。Ｍ＝１０の値は、典型的に使用され、補間された確率は、式（１７）に示されるように計算される。

【0228】

【数96】

【0229】

このプロセスは、もしも、隣接するシステム状態への到来の数

【0230】

【数97】

が、システム状態ｊ及び制御活動ｉについての閾値基準において、

【0231】

【数98】

で置き換えられるのであれば、反復的に実行することができる。

【0232】

遷移確率マトリックスの補間のための第２のプロセスは、遷移確率マトリックスの既約性を保証することを含む。このことは、もしも、遷移確率マトリックスがいくつかの制御活動ｉにおいて既約ではない場合、その後の最適解がいくつかのシステム状態がこの制御活動の下で到来しないことを暗示するため、重要であり、このことは多くの被制御アプリケーション・システムについて不適切である。したがって、既約性の保証方法が、この問題に対処するために使用される。既約性の保証方法は、パラメータε、０≦ε≦１を使用し、ここで、ε＝０．０１が典型的に仮定される。初期のシステム状態として所与のｓ０について、既約性保証方法は、以下のステップを含む。先ず、すべての制御活動ｉ∈Ｕについて、システム状態ｋ及びｊの値は、それぞれ、式（１８）及び（１９）で示されるとおりである。

【0233】

【数99】

【0234】

直接的なアルゴリズムが、その後遷移確率マトリックスを規格化するために使用され、ここで、全部の行の合計は１に等しい。

【0235】

いくつかの実施形態においては、第３のプロセスが遷移確率マトリックスの補間のために使用される。特定的には、第１及び第２のプロセスを介して得られた遷移確率は、制御不能のシステム状態変数に関して、顕著な歪みを含む可能性がある。したがって、制御不能のシステム状態変数の補間は、この歪みを修正するために実行されることができる。このプロセスは、さらに、Zadorojniy，Shwartz，Wasserkrug，及び Zeltyn（２１０６）による論文、題名“排水処理プラントの動作最適化：ＣＭＤＰに基づく分解アプローチ”に記載される。

【0236】

ブロック２１２では、プロセッサは、遷移確率マトリックス、１つ又はそれ以上のコスト目標、及び１つ又はそれ以上の制約関連のコストを使用して、線形計画（ＬＰ）問題としてＣＭＤＰモデルを定式化する。いくつかの実施形態においては、ＬＰ問題は、例えば、Python／Optimization Programming Language （ＯＰＬ）を使用して定式化することができ、その後、ＩＢＭＣＰＬＥＸ（登録商標）Ｏｐｔｉｍｉｚｅｒを使用して解くことができる。ブロック２１２の数学的説明は、式（２０）～（２５）に示されており、ここで、非ゼロのエントリは、初期システム状態に対応する。

【0237】

【数100】

【0238】

図２のブロック図は、方法２００のブロック２０２－２１２がいかなる特定の順序で実行されるべきか、若しくは方法２００のブロック２０２－２１２のすべてがすべてのケースに含まれるべきということを示すことを意図しない。さらに、特定の実装の詳細に依存して、方法２００内においていかなる数の追加のブロックが含まれてもよい。例えば、いくつかの実施形態においては、本方法２００は、ＬＰ問題を分析して、１つ又はそれ以上の制約値が課せられる被制御アプリケーション・システムの動作を最適化するであろう１つ又はそれ以上の制御活動を決定すること、及び制御システムを介して１つ又はそれ以上の制御活動を実行することを含む。さらに、いくつかの実施形態においては、本方法２００は、多数回実行され、かつ得られたＬＰ問題は、被制御アプリケーション・システムの動作に関連する数多くの異なる予測的シナリオを分析するために使用される。例えば、本方法２００は、種々の異なる制約値又は種々の異なるタイプの制約又はそれらの組み合わせの下で、被制御アプリケーション・システムの動作に関しての予測（又は、“したらどうなるだろう”分析）を提供するために使用することができる。

【0239】

本発明の種々の実施形態の説明は、例示の目的のために提示されてきたが、開示された実施形態に尽きるとか、限定されることを意図しない。多くの修正及び変更は、説明された実施形態の範囲及び精神から逸脱することなしに当業者において自明であろう。本明細書において使用された用語は、実施形態の原理、現実的な適用、又は市場に見いだされる技術を超えた技術的改善を最良に説明し、又は当業者の他のものが本明細書に開示された実施形態を理解することができるように選択された。

【図1】

【図2】

知財求人

知財求人お知らせサービス

知財のニュースを調べる
- 知財ニュース
- 知財周辺ニュース
企業の特許を調べる
知財のセミナーを調べる
知財,特許事務所への求職・転職
特許事務所をさがす
弁理士試験を受ける
- 年の弁理士試験情報
- 弁理士試験の合格率など統計
知財の法律をしらべる
期限日をしらべる
- 今日に対して意見書・補正書の期限
- 今日に対して審査請求期限日
知財の判決をしらべる
コンテンツ・リンク
運営会社
プレスの皆様へ
- お問い合わせ
ユーザーの皆様
- お問い合わせ・フィードバック
広告掲載を希望の皆様へ
- 広告掲載について
- 求人広告の掲載について

IP Force 特許公報掲載プロジェクト 2022.1.31 β版