(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-03-29
(45)【発行日】2024-04-08
(54)【発明の名称】技術システムを制御する制御装置および制御装置を構成する方法
(51)【国際特許分類】
G05B 13/02 20060101AFI20240401BHJP
G06N 20/00 20190101ALI20240401BHJP
【FI】
G05B13/02 L
G05B13/02 J
G06N20/00
(21)【出願番号】P 2022535874
(86)(22)【出願日】2020-12-01
(86)【国際出願番号】 EP2020084025
(87)【国際公開番号】W WO2021121946
(87)【国際公開日】2021-06-24
【審査請求日】2022-10-13
(32)【優先日】2019-12-18
(33)【優先権主張国・地域又は機関】EP
(73)【特許権者】
【識別番号】390039413
【氏名又は名称】シーメンス アクチエンゲゼルシヤフト
【氏名又は名称原語表記】Siemens Aktiengesellschaft
(74)【代理人】
【識別番号】110003317
【氏名又は名称】弁理士法人山口・竹本知的財産事務所
(74)【代理人】
【識別番号】100075166
【氏名又は名称】山口 巖
(74)【代理人】
【識別番号】100133167
【氏名又は名称】山本 浩
(74)【代理人】
【識別番号】100169627
【氏名又は名称】竹本 美奈
(72)【発明者】
【氏名】ハイン,ダニエル
(72)【発明者】
【氏名】シェーナー,ホルガー
(72)【発明者】
【氏名】ウェーバー,マルク クリスチャン
【審査官】大古 健一
(56)【参考文献】
【文献】特表2014-525063(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G05B 1/00 - 7/04
G05B 11/00 -13/04
G05B 17/00 -17/02
G05B 21/00 -21/02
G05B 23/00 -23/02
G06N 20/00
(57)【特許請求の範囲】
【請求項1】
機械学習法を用いて技術システム(TS)用の制御装置(CTL)を構成するコンピュータ実装方法において、
a)前記機械学習法用の訓練データ(TD)の時系列が収集され、前記訓練データ(TD)は、前記技術システム(TS)の状態を特定する状態データ(SD)と、前記技術システム(TS)の制御動作を特定する制御動作データ(AD)と、を含み、
b)前記制御動作データ(AD)の経時変化
量(ΔAD)
が収集され、
c)前記制御動作データ(AD)の前記経時変化
量(ΔAD)は相異なる時間窓(TF)内の前記状態データ(SD)の経時変化
量(ΔSD)と相関付けられ、それぞれ時間窓特有の相関値(CC)が計算され、
d)前記計算された相関値(CC)に応じて獲得時間窓(RTF)が決定され、
e)前記獲得時間窓(RTF)内に存在する前記訓練データ(FTD)が時間窓特有に抽出され、
f)前記制御装置(CTL)は前記機械学習法を用いて前記抽出された訓練データ(FTD)に基づいて訓練されることにより、前記技術システム(TS)を制御するように構成される、方法。
【請求項2】
前記技術システム(TS)は、ガスタービン、風力タービン、太陽光発電所、発電所、内燃機関、ロボット、製造プラント、自動車、交通案内システム、建物用エネルギー制御システム、エネルギー伝送ネットワーク
または3Dプリンタ
を含む、請求項1に記載の方法。
【請求項3】
相異なる時間窓(TF)についての前記相関値(CC)が比較され、
これに応じて、前記相関値(CC)に関して最適化された時間窓が前記獲得時間窓(RTF)として決定される、請求項1または2に記載の方法。
【請求項4】
複数の相異なる時間窓(TF)が生成され、前記生成が、前記生成された時間窓(TF)のそれぞれの相関値(CC)が最適化されるように、数理最適化手法を用いて制御される、請求項1~3のいずれか1項に記載の方法。
【請求項5】
最適化手法として、最急降下法、粒子群最適化および/または遺伝的最適化手法が用いられる、請求項4に記載の方法。
【請求項6】
前記制御動作データ(AD)が、相異なる制御動作を特定する動作成分を含み、
前記制御動作データ(AD)の前記経時変化が、それぞれの動作成分について収集され、
前記相関値(CC)の計算が、それぞれの動作成分について行われ、
これに応じて、前記獲得時間窓(RTF)が、動作成分特有の時間窓の組み合わせにより決定される、請求項1~5のいずれか1項に記載の方法。
【請求項7】
前記状態データ(SD)が、前記技術システム(TS)の相異なる状態パラメータを特定する状態成分を含み、
前記相関値(CC)の計算が、それぞれの状態成分について行われ、
これに応じて、前記獲得時間窓(RTF)が、状態成分特有の時間窓の組み合わせにより決定される、請求項1~6のいずれか1項に記載の方法。
【請求項8】
前記制御動作データ(AD)の複数の経時変化
量(ΔAD)が収集され、相異なる、前記制御動作データ(AD)のそれぞれの前記経時変化
量(ΔAD)に関して定義される時間窓(TF)にわたって、それぞれ前記状態データ(SD)の複数の経時変化
量(ΔSD)と相関付けられ、それぞれ時間窓特有の相関値(CC)が計算される、請求項1~7のいずれか1項に記載の方法。
【請求項9】
前記獲得時間窓(RTF)が相異なる時間窓(TF)の和集合、平均および/または
連続的に重み付けされた
平均値、中央値、最大値および/または最小値の組み合わせによって決定される、請求項1~8のいずれか1項に記載の方法。
【請求項10】
前記状態データ(SD)および/または前記制御動作データ(AD)が、集約時間窓にわたって集約され、
前記獲得時間窓(RTF)の決定が、前記集約された状態データ(SD)および/または前記集約された制御動作データ(AD)に基づいて行われる、請求項1~9のいずれか1項に記載の方法。
【請求項11】
相異なる集約時間窓が用いられ、
前記相関値(CC)の計算が
、それぞれの集約時間窓について行われ、
計算された前記相関値(CC)に応じて、前記相関値(CC)に関して最適化された集約時間窓が決定され、用いられる、請求項10に記載の方法。
【請求項12】
前記獲得時間窓(RTF)外に存在する訓練データ(TD)が前記制御装置(CTL)の訓練の際にサプレスまたは破棄される、請求項1~11のいずれか1項に記載の方法。
【請求項13】
技術システム(TS)を制御する制御装置(CTL)であって、請求項1~12のいずれか1項に記載の方法を実施するように構成される制御装置(CTL)。
【請求項14】
請求項1~12のいずれか1項に記載の方法を
コンピュータに実施
させるように構成されるコンピュータ
プログラム。
【請求項15】
請求項14に記載のコンピュータ
プログラムを備えるコンピュータ可読記憶媒体。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、技術システムを制御する制御装置および制御装置を構成する方法に関する。
【背景技術】
【0002】
複雑な技術システム、例えばガスタービン、風力タービン、内燃機関、ロボット、製造プラント、自動車または電力グリッドは、生産運転について、例えば技術システムの収支、必要資源、効率、汚染物質排出、損耗および/または他のパラメータを特に最適化するために、一般にコストがかかる構成を必要とする。
【0003】
技術システムの最近の制御装置は、構成のために機械学習法を用いることが多い。そのような学習法を用いて、制御装置は、特に技術システムの所望のまたはその他の最適な挙動を生じさせる、技術システムを制御する制御動作を技術システムの現在の運転データに基づいて決定するように、訓練データに基づいて訓練可能である。このために、多数の周知の学習法、例えば強化学習法が利用可能である。この場合、訓練データとして、特に技術システムまたは同様の技術システムの過去および/または現在の運転データを使用することができる。
【0004】
周知の学習法の場合、訓練を成功させるためには、一般に、さらに技術システムの運転条件を可能な限り表現して満たす大量の訓練データが必要とされる。表現する訓練データが少なすぎるか、関連する運転条件があまり満たされていない場合、訓練の成功に負の影響を与えることがある。
【発明の概要】
【発明が解決しようとする課題】
【0005】
本発明の課題は、より効率的な訓練を可能にする、技術システムを制御する制御装置および制御装置を構成する方法を提供することである。
【課題を解決するための手段】
【0006】
本課題は請求項1の特徴を有する方法、請求項13の特徴を有する制御装置、請求項14の特徴を有するコンピュータプログラム製品および請求項15の特徴を有するコンピュータ可読記憶媒体により解決される。
【0007】
機械学習法を用いて技術システム用の制御装置を構成するために、機械学習法用の訓練データの時系列が収集される。ここで、訓練データは、技術システムの状態を特定する状態データと、技術システムの制御動作を特定する制御動作データとを含む。技術システムは、特にガスタービン、風力タービン、太陽光発電所、発電所、内燃機関、ロボット、製造プラント、自動車、交通案内システム、建物用エネルギー制御システム、エネルギー伝送ネットワーク、3Dプリンタまたは他の機械を含んでよい。本発明によると、制御動作データの経時変化が特に収集され、相異なる時間窓内の状態データの経時変化と相関付けられ、それぞれ時間窓特有の相関値が計算される。ここで、計算された相関値に応じて獲得時間窓が決定され、獲得時間窓内に存在する訓練データが時間窓特有に抽出される。ここで、制御装置は機械学習法を用いて抽出された訓練データに基づいて訓練されることにより、技術システムを制御するように構成される。
【0008】
本発明に係る方法を実施するために、制御装置、コンピュータプログラム製品および好ましくは不揮発性のコンピュータ可読記憶媒体が提供される。
【0009】
本発明に係る方法および本発明に係る制御装置は、例えば1つまたは複数のコンピュータ、プロセッサ、特定用途向け集積回路(ASIC)、デジタルシグナルプロセッサ(DSP)および/またはいわゆる「フィールドプログラマブルゲートアレイ」(FPGA)を用いて実施または実装することができる。
【0010】
獲得時間窓が、その中に含まれる状態データの経時変化が制御動作データの経時変化と相関するように特に決定される場合、獲得時間窓に含まれる訓練データが、技術システムの状態に対する制御介入の効果に関する情報を平均以上多く含むことが期待される。獲得時間窓内に存在する訓練データを特に抽出し利用することにより、制御介入とその効果との間の因果関係を、多くの場合、大幅により迅速かつ効率的に学習することが可能であることが分かっている。広く流布している知見とは対照的に、多くの場合、特に選択された訓練データに限定される訓練は、利用可能な全ての訓練データを用いた訓練よりも効率的であることを認めることができる。関連性に乏しいか冗長な訓練データは、訓練の成功を後退させることさえある。
【0011】
本発明の有利な実施形態および発展形態は従属請求項に記載されている。
【0012】
本発明の有利な実施形態によると、相異なる時間窓についての相関値が比較されてよい。これに応じて、相関値に関して最適化された時間窓が獲得時間窓として決定されてよい。特に、最も高い相関性または最も高い反相関性を示す相関値を有する時間窓は、獲得時間窓として選択されてよい。代替的または追加的に、獲得時間窓は、高いかまたは特に高い相関性または反相関性を有する相異なる時間窓の組み合わせにより決定されてよい。
【0013】
本発明のさらなる有利な実施形態によると、複数の相異なる時間窓が生成されてよく、生成が、生成された時間窓のそれぞれの相関値が最適化されるように、数理最適化手法を用いて制御される。このようにして、一般に特に訓練を促進することが分かっている、特に高い相関性を有する訓練データを得ることができる。
【0014】
好ましくは、最適化手法として、最急降下法、粒子群最適化および/または遺伝的最適化手法が用いられてよい。上記最適化手法には、多数の実装が利用可能である。
【0015】
本発明のさらなる有利な実施形態によると、制御動作データが、相異なる制御動作を特定する動作成分を含んでよい。ここで、制御動作データの経時変化が、特にそれぞれの動作成分について収集されてよく、相関値の計算が、特にそれぞれの動作成分について行われてよい。これに応じて、獲得時間窓が、動作成分特有の時間窓の組み合わせにより決定されてよい。特に、このために、高い相関性を有する動作成分特有の時間窓が、動作成分特有の重み付けを用いて組み合わされてよい。
【0016】
また、状態データが、技術システムの相異なる状態パラメータを特定する状態成分を含んでよい。ここで、相関値の計算が、特にそれぞれの状態成分について行われてよい。これに応じて、獲得時間窓が、状態成分特有の時間窓の組み合わせにより決定されてよい。特に、このために、高い相関性を有する状態成分特有の時間窓が、状態成分特有の重み付けを用いて組み合わされてよい。
【0017】
好ましくは、制御動作データの複数の経時変化が収集されてよく、相異なる、制御動作データのそれぞれの経時変化に関して定義される時間窓にわたって、それぞれ状態データの複数の経時変化と相関付けられてよく、それぞれ時間窓特有の相関値が計算される。このようにして、計算される相関値の統計的有意性を一般に大幅に向上させることができる。
【0018】
本発明のさらなる有利な実施形態によると、獲得時間窓が相異なる時間窓の和集合、平均および/または他の特に重み付けされた組み合わせによって決定されてよい。重み付けには、特に、動作成分特有および/または状態成分特有の重みが用いられてよい。このようにして、全部または少なくとも大部分の動作成分および/または状態成分について高い相関性を有する獲得時間窓を決定することができる。
【0019】
本発明の有利な発展形態によると、状態データおよび/または制御動作データが、集約時間窓にわたって集約されてよい。ここで、獲得時間窓の決定が、集約された状態データおよび/または集約された制御動作データに基づいて行われてよい。そのような集約により、状態データおよび/または制御動作データを経時的に加算しおよび/または減算することができる。例えば、連続的に必要に応じて重み付けされた平均値、中央値、最大値、最小値ならびに/または複数の時間的に連続する状態データおよび/もしくは制御動作データの他の組み合わせが形成されることによる。このようにして、因果関係の検出を困難にする場合がある状態データおよび/または制御動作データのランダムなまたは異常なゆらぎを、少なくとも部分的に埋め合わせすることができる。
【0020】
好ましくは、相異なる集約時間窓が用いられてよく、相関値の計算が、特にそれぞれの集約時間窓について行われてよい。これに応じて、相関値に関して最適化された集約時間窓が決定され、用いられてよい。
【0021】
本発明のさらなる有利な実施形態によると、獲得時間窓外に存在する訓練データが制御装置の訓練の際にサプレスまたは破棄されてよい。代替的または追加的に、獲得時間窓外に存在する訓練データを訓練の際に抽出された訓練データよりも小さく重み付けすることができる。
【0022】
以下、図面を参照して本発明の実施形態例をより詳細に説明する。図はそれぞれ概略的に示すものである。
【図面の簡単な説明】
【0023】
【
図1】
図1は、本発明に係る制御装置を有するガスタービンを示す。
【
図2】
図2は、訓練段階における本発明に係る制御装置を示す。
【
図3】
図3は、訓練データが時間に対してプロットされている図である。
【発明を実施するための形態】
【0024】
図1は、一例として、技術システムTSとしてガスタービンを示す。代替的または追加的に、技術システムTSは、風力タービン、太陽光発電所、発電所、内燃機関、ロボット、製造プラント、自動車、交通案内システム、建物用エネルギー制御システム、エネルギー伝送ネットワーク、3Dプリンタまたは他の機械も含んでよい。
【0025】
ガスタービンTSは、ガスタービンTSの一部としてまたはガスタービンTSの全体的もしくは部分的に外部で実装されてよいコンピュータ支援で訓練可能な制御装置CTLと接続される。制御装置CTLは技術システムTSを制御するように働き、この目的のために機械学習法を用いて訓練可能である。ここで、技術システムTSの制御とは、また、技術システムTSを調整すること、制御関連のデータおよび制御信号、言い換えれば技術システムTSの制御に寄与するデータおよび制御信号を出力および使用することと理解されてよい。
【0026】
そのような制御関連のデータは、特に技術システムTSの運転最適化、監視または保守のためおよび/または損耗もしくは損傷を検出するために用いられてよい、特に制御動作データ、予測データ、監視データおよび/または分類データを含んでよい。
【0027】
さらに、ガスタービンTSは、技術システムTSの1つまたは複数の運転パラメータを連続的に計測し運転データBDの形式で制御装置CTLに送信する、制御装置CTLと接続されたセンサSを有する。センサデータに加えて、制御装置CTLにより、技術システムTSの他のデータソースからまたは外部データソースからさらなる運転パラメータがさらに収集されてよい。
【0028】
この場合そして以下において、運転データBDは、特に、物理的、制御技術的、動作技術的および/または設計に関する運転値、特性データ、性能データ、効果データ、状態データ、システムデータ、設定値、制御データ、センサデータ、計測値、環境データ、監視データ、予測データ、分析データおよび/または技術システムTSの運転時に生じる他のデータおよび/または技術システムTSの運転状態もしくは制御動作を記述する他のデータと理解されてよい。これは、例えば技術システムTSの温度、圧力、エミッション、振動、振動状態または資源消費に関するデータであってよい。特にガスタービンの場合、運転データBDは、タービン性能、回転速度、振動周波数または振動振幅に関してよい。運転データBDは、スカラー、ベクトル値またはテンソル値であってよく、特に高次元であってよい。
【0029】
図2は、技術システムTSを最適化制御するために制御装置CTLが構成される訓練段階における本発明に係る制御装置CTLの概略図を示す。制御装置CTLは、技術システムTSと接続されている。
【0030】
制御装置CTLおよび技術システムTSは、
図1に関連して説明したように設計または実装されてよい。制御装置CTLは、制御装置CTLの全ての方法ステップを実行する1つまたは複数のプロセッサPROCと、制御装置CTLによって処理されるべきデータを記憶する、プロセッサPROCと接続された1つまたは複数のメモリMEMとを有する。
【0031】
技術システムTSにより、状態データと制御動作データの両方を含む運転データの時系列がセンサを用いて収集され、訓練データTD(t)として制御装置CTLに送信される。この場合そして以下において、tは、それぞれの値の時間依存性つまりそれぞれの時点tにおけるその割り当てを示している。
【0032】
訓練データTD(t)の時系列は、本実施形態例においては技術システムTSに由来する。その一方で、一般に、技術システムTSまたは同様の技術システムの訓練用に使用可能な過去、現在および/またはシミュレートされた任意の運転データは、訓練データとして使用されてよい。
【0033】
訓練データTD(t)は、特に状態データSD(t)の時系列と、制御動作データAD(t)の時系列とを含む。ここで、状態データSD(t)は、技術システムTSの運転状態を特定する一方、制御動作データAD(t)は、技術システムTSにおいて実行される制御動作を特定する。運転状態は、例えば技術システムTSの性能、回転速度、温度、圧力、振動状態および/またはエミッションに関してよい。
【0034】
制御装置CTLは、機械学習法を実行するデータ駆動型で訓練可能な計算モジュールNNを有する。本実施形態例では、訓練可能な計算モジュールNNは人工ニューラルネットワークを有し、これを用いて多くの場合、Reinforcement-Learningとも称される強化学習法が実行される。そのような訓練可能な計算モジュールまたはそれに対応して訓練される制御装置は、多くの場合、訓練可能もしくは学習するポリシーエージェントまたは制御モデルとも称される。計算モジュールNNのニューラルネットワークは、訓練中に構成される訓練構造を有する。
【0035】
訓練は、一般に、パラメータ化されたシステムモデル、例えばニューラルネットワークの入力パラメータから1つまたは複数の出力パラメータへのマッピングを最適化することと理解されてよい。このマッピングは、所定の、学習された、および/または訓練段階中に学習される基準に従って最適化される。基準として、例えば制御モデルの場合、例えば収支、必要資源、汚染物質排出、損耗、または技術システムの性能を定量化する他のパラメータに関してよい、制御動作の成功が用いられよい。訓練構造は、例えばニューラルネットワークのニューロンのネットワーク構造および/または基準が可能な限り良好に満たされるように訓練により構成される、ニューロン間の結合の重みを含んでよい。
【0036】
本実施形態例では、計算モジュールNNは、技術システムTSを最適化制御するように、強化学習法を用いて訓練される。ここで、計算モジュールNNは、入力パラメータとして供給される技術システムTSの運転データに基づいて最適化される制御動作データOADを、技術システムTSに適用されると目的関数RFを最適化する出力パラメータとして出力するように訓練される。そのような学習法には、多数の周知の標準ルーチンが利用可能である。
【0037】
目的関数RFは、供給される運転データから、上記学習法により最適化される性能パラメータPPを計算する。この目的のために、目的関数RFにより計算される性能パラメータPPの値は、
図2において破線矢印により示されるように、計算モジュールNNに供給される。これにより、ニューラルネットワークの訓練構造は、ニューラルネットワークの出力パラメータOADが性能パラメータPPを最適化するように学習法を用いて適応される。
【0038】
性能パラメータPPにより技術システムTSの所望の挙動が定量化される。このようにして性能パラメータPPとして、例えば技術システムTSもしくはその一部の収支、歩留まり、効率、汚染物質排出、損耗および資源消費の必要に応じて重み付けされた組み合わせまたは技術システムTSの性能に関する他のパラメータが用いられてよい。性能パラメータPPを最適化することにより、計算モジュールNNは最適化された制御動作データOADを出力するように訓練され、このようにして制御装置CTLは技術システムTSを最適化制御するように構成される。
【0039】
性能パラメータ、この場合PP、を計算するための目的関数、この場合RFは、多くの場合報酬関数またはコスト関数とも称される。性能パラメータは、好ましくは長期、累積および/もしくは割引利得または報酬の合計を示す。
【0040】
目的関数RFに入力される運転データは、多くの場合ターゲットデータとも称され、一般に運転データに含まれる技術システムTSの状態データの一部である。技術システムTSのターゲットデータから性能パラメータを計算するための方法は多数知られている。
【0041】
計算モジュールNNの訓練の成功は、訓練データTDの品質に大きく依存することが分かっている。この意味において、本発明においては、訓練または訓練の成功に特に有用な訓練データを発見し、抽出することが追求される。
【0042】
これら訓練を促進する訓練データを選択および抽出するために、制御装置CTLはフィルタFを含み、フィルタFに訓練データTD(t)は送信される。フィルタFは、好ましくは訓練を促進する訓練データを含む時間区間または時間窓を識別し、これら訓練を促進する訓練データを特に抽出またはフィルタ処理することを目的として機能する。
【0043】
技術システムTSの状態に対する制御介入の効果に関する情報を含む訓練データは、特に訓練を促進することが分かっている。そのような訓練データに学習法を集中させることにより、制御介入とその効果との間の因果関係を、通常大幅により迅速かつ効率的に学習することが可能である。よって、制御動作が適用されるか変化する時間窓、つまり制御動作が経時変化する時間窓を識別することが有利であることが分かる。
【0044】
制御動作の経時変化を決定するために、フィルタFは変化検出器DDを含み、変化検出器DDに制御動作データAD(t)の時系列は送信される。このために、制御動作データAD(t)がフィルタFにより訓練データTD(t)から特に抽出される。
【0045】
制御動作データAD(t)の経時変化を検出するために、変化検出器DDは変化量Dを連続的に計算する。変化量Dは、例えば連続する制御動作データ間の差の値|AD(t)-AD(t-1)|またはそのような差の二乗(AD(t)-AD(t-1))2として計算されてよい。複数の動作成分を有する制御動作データAD(t)の場合、それに応じて、連続する制御動作ベクトル間の多次元のユークリッドまたは重み付き距離を変化量Dとして計算してよい。特に、制御動作データAD(t)は、その経時変化を算出するために集約時間窓にわたって集約されてよい。例えば、移動平均値の連続的な形成を用いてよい。その場合、変化量Dは、例えば制御動作データの連続する平均値間の差の値またはその二乗により決定されてよい。このようにして、制御動作データAD(t)の異常なまたはランダムなゆらぎを、少なくとも部分的に埋め合わせすることができる。
【0046】
変化検出器DDは、連続的に計算される変化量Dを所定のまたは他の方法で決定される閾値THと比較し、この閾値THを超過する場合、制御動作データAD(t)の経時変化を決定する。複数の成分からなる制御動作データの場合、それに対応して成分特有の閾値が設けられてよい。代替的または追加的に、変化検出器DDは、制御動作データAD(t)のシーケンスを、所定または他の方法で決定される変化モデルに従って検索してよく、この変化モデルが出現する場合、制御動作データAD(t)の経時変化を決定してよい。
【0047】
各変化の決定後、制御動作データAD(t)のシーケンスにおけるそれぞれの変化点が算出される。それぞれの変化点として、本実施形態例では、それぞれの変化量Dが閾値THを超過する、それぞれの変化時点tsが算出される。
【0048】
算出された変化時点tsは、変化検出器DDからフィルタFの選択モジュールSELに送信される。この選択モジュールSELには、訓練データTD(t)、すなわち制御動作データAD(t)および状態データSD(t)も送信される。
【0049】
変化時点tsに基づいて、選択モジュールSELは、それぞれの変化時点tsにおいて存在するかまたは変化時点ts近傍に存在する制御動作データAD(t)をそれぞれ特に選択し、抽出する。これら制御動作データは、以下においてAD(ts)とも略称される。
【0050】
また、フィルタFは、複数の時間窓TFを生成する時間窓生成器GENを有する。特に、複数の時間窓TFは、それぞれ1つまたは複数の時間区間によって特定されてよい。1つまたは複数の時間区間はそれぞれ、開始時間および終了時間によって、または時点および区間長によって定量化されてよい。ここで、時間区間は、絶対的または変化時点もしくは他のイベントに関して相対的に設定されてよい。本実施形態例では、時間窓は、それぞれの変化時点tsに関して相対的に定義されている。
【0051】
生成された時間窓TFは、時間窓生成器GENから選択モジュールSELに送信される。送信された時間窓TFに基づいて、選択モジュールSELは、この時間窓TF内のそれぞれの変化時点tsに関して存在する状態データSD(t)をそれぞれ特に選択し、抽出する。変化時点tsに関して設定される開始時間DLと区間長Lとを有する時間窓TF=[DL,DL+L]について、抽出される状態データは、例えば集合{SD(ts+DL),...,SD(ts+DL+L)}によってまたは一般に{SD(t):t-ts∈TF}として与えられてよい。ここで、相対的な開始時間DLは、変化時点tsに対するいわば遅延時間として理解されてよい。それぞれの変化時点tsおよびそれぞれの時間窓TFについて抽出される状態データは、以下においてSD(ts+TF)とも略称される。
【0052】
抽出された制御動作データAD(ts)は、抽出された状態データSD(ts+TF)とともに、選択モジュールSELからフィルタFの相関モジュールCORに送信される。抽出された制御動作データAD(ts)に基づいて、相関モジュールCORにより、それぞれの変化時点tsにおけるかまたは変化時点ts近傍における制御動作データAD(t)の経時変化ΔADが定量化される。これは、例えばΔAD=AD(ts+l)-AD(ts-l)、ここでlは所定の短い時間、による減法によって行われてよい。制御動作データAD(t)が、その経時変化を算出するために集約時間窓にわたって集約される場合、その経時変化ΔADは、同様に制御動作データの連続する集約値の減法によって決定されてよい。複数の成分からなる制御動作データAD(t)の場合、それに対応してそれぞれ複数の変化成分ΔADが上述のように定量化されてよい。
【0053】
さらに、相関モジュールCORにより、抽出された状態データSD(ts+TF)に基づいてそれぞれの時間窓TF内のその経時変化ΔSDが定量化される。これは、例えばΔSD=SD(ts+DL+L)-SD(ts+DL)による減法によって行われてよい。状態データSD(t)が、その経時変化を算出するために集約時間窓にわたって集約される場合、その経時変化ΔSDは、同様に状態データの連続する集約値の減法によって決定されてよい。複数の成分からなる状態データSD(t)の場合、それに対応してそれぞれ複数の変化成分ΔSDが上述のように定量化されてよい。
【0054】
それぞれの時間窓TFの適用について
図3を参照してさらに説明する。
図3は、訓練データTD(t)のシーケンスが時間tに対してプロットされている図を示す。訓練データTD(t)は、図中下部に示されている状態データSD(t)と、上部に示されている制御動作データAD(t)とを含む。明瞭化のため、1つの値のみの曲線がそれぞれ大幅に簡略化して示されている。
【0055】
制御動作データAD(t)の時系列は、複数の経時変化を示している。本実施形態例では、図示の時間区間内の計算された変化量Dは、変化時点tsのみにおいて閾値THを超過すると仮定する。従って、この時間区間における制御動作データAD(t)の経時変化ΔADは、変化時点tsのみにおいてまたは変化時点ts近傍のみにおいて決定される。そのため、状態データSD(t)の経時変化ΔSDは、変化時点tsに関して定義される時間窓TF内で計算される。この場合、時間窓TFの開始は、決定された変化時点tsに対する遅延時間DLだけシフトされる。時間窓TFの終了は、それに対応してその長さLによって定義される。
【0056】
本発明に係る方法のさらなるプロセスを、再び
図2を参照して説明する。
【0057】
本発明によれば、相関モジュールCORにより、複数の相異なる時間窓TFについて、制御動作データの経時変化ΔADは、それぞれの時間窓TFの状態データの経時変化ΔSDと相関付けられる。相関付けは、それぞれ複数の検出された変化時点tsについて行われる。このために、例えば相関総和、相関積分および/または相関係数が標準的な数値解析法を用いて計算されてよく、その結果、数値相関値が得られる。
【0058】
本実施形態例では、このようにして時間窓TFのそれぞれについて、この時間窓TFに特有の相関値CC(TF)が計算される。相関値CC(TF)は、相関モジュールCORからフィルタFの最適化モジュールOPTに送信される。さらに、最適化モジュールOPTには、時間窓TFも時間窓生成器GENから送信される。
【0059】
最適化モジュールOPTは、相異なる時間窓TFについて計算された相関値CC(TF)を、比較器CMPを用いて比較し、このようにして、状態データの経時変化ΔSDが制御動作データの経時変化ΔADと高いもしくは最も高い相関性を有するかまたは高いもしくは最も高い反相関性を有する1つまたは複数の時間窓TFを決定する。さらに、最適化モジュールOPTにより相関値CC(TF)に応じて時間窓TFのパラメータを特に変化させることにより、相関値CC(TF)に関して最適化された時間窓を発見する。好ましくは、時間窓生成器GENは、生成された時間窓TFのそれぞれの相関値CC(TF)が最適化されるように、最適化モジュールOPTにより制御される。このために、好ましくは、粒子群最適化、最急降下法および/または遺伝的最適化手法が用いられてよい。
【0060】
制御動作データAD(t)および/または状態データSD(t)が集約時間窓にわたって集約される場合、それぞれの集約時間窓の長さまたは位置を同様に最適化モジュールOPTにより最適化することができ、これにより相関値CC(TF)に関して最適化された集約時間窓を計算し、さらなるプロセスにおいて用いることができる。
【0061】
相関最適化時間窓に基づいて、最適化モジュールOPTにより、状態データの経時変化ΔSDが制御動作データの経時変化ΔADと特に高い相関性を有する1つまたは複数の獲得時間窓RTFが決定される。獲得時間窓RTFは、特に相異なる時間窓TFの平均、和集合および/または他の特に重み付けされた組み合わせによって決定されてよい。重み付けには、特に、動作成分特有および/または状態成分特有の重みが用いられてよい。このようにして、獲得時間窓RTFを決定することができ、その状態データSD(ts+RTF)は、全部または少なくとも大部分の動作成分および/または状態成分について高い相関性を有する。獲得時間窓RTFは、最適化モジュールOPTにより選択モジュールSELに送信される。
【0062】
獲得時間窓RTFに基づいて、選択モジュールSELは、この獲得時間窓RTF内に存在する訓練データTD(t)を特に選択し、抽出する。この獲得時間窓RTF内に存在する訓練データは、以下において抽出された訓練データFTDまたはフィルタ処理訓練データFTDと称される。開始時点t1と終了時点t2とを有する獲得時間窓RTF=[t1,t2]について、抽出された訓練データは、例えばFTD={TD(t1),...,TD(t2)}によってまたは一般にFTD={TD(t):t∈RTF}として与えられてよい。
【0063】
時間窓特有に選択かつフィルタ処理された訓練データFTDは、選択モジュールSELからまたはフィルタFから計算モジュールNNに送信される。さらに、フィルタ処理訓練データFTDは、目的関数RFに供給され、目的関数RFは、抽出された訓練データFTDに含まれる運転データから、特にその中に含まれる状態データから性能パラメータPPを計算する。抽出された訓練データFTDおよび計算された性能パラメータPPに基づいて、計算モジュールNNのニューラルネットワークは、上述のように、技術システムTSに適用されると性能パラメータPPを最適化する制御動作データOADが出力されるように訓練される。
【0064】
本実施形態例では、計算モジュールNNに、獲得時間窓RTF外に存在する訓練データは供給されず、これによりニューラルネットワークは、抽出された訓練データFTDのみに基づいて訓練される。上述のように、ニューラルネットワークの代替または追加として、特に強化学習法を計算モジュールNNにおいて実行してよい。
【0065】
代替的に、計算モジュールNNに、獲得時間窓RTF外に存在する訓練データも供給されてよい。この場合、計算モジュールNNは、少なくとも好ましくはまたは主にフィルタ処理訓練データFTDに基づいて訓練されてよい。このようにして、フィルタ処理訓練データFTDを、獲得時間窓RTF外に存在する訓練データよりも訓練の際に大きく重み付けすることができ、または、獲得時間窓RTF外に存在する訓練データを減らし、間引きし、および/または部分的に破棄することができる。
【0066】
好ましくは、連続的に現在収集されている訓練データTD(t)をフィルタFにより連続的にフィルタ処理してよく、制御装置CTLは、運転中にフィルタ処理訓練データFTDに基づいてさらに訓練されてよい。
【0067】
ニューラルネットワークと伴って計算モジュールNNが訓練されることにより、制御装置CTLは、技術システムTSを最適化制御するように構成される。制御の際、制御装置CTLは、訓練により学習された制御方策を適用し、つまり、現在のシステム状態を、目的関数RFに関して最適な制御動作または制御動作データOADに割り当てる。
【0068】
訓練データを特にフィルタ処理することにより、計算モジュールNNは、特に訓練を促進する訓練データにより訓練される。これら選択された訓練データFTDは、制御介入と技術システムTSのシステム状態に対するその効果との間の相関性を特に多く含んでいるため、その制御を特に表現している。訓練データを特に選択することにより、冗長で関連性が低く、または重要性に乏しい情報が学習プロセスを妨害または遅延させることを効果的に防止することができる。本発明による訓練データのフィルタ処理により、訓練の成功を大幅に改善することができ、または訓練のコストを大幅に低減することができることが分かる。