IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ シーメンス アクチエンゲゼルシヤフトの特許一覧

特許7612881技術システムを制御するための制御装置、及び、その制御装置を構成するための方法
<>
  • 特許-技術システムを制御するための制御装置、及び、その制御装置を構成するための方法 図1
  • 特許-技術システムを制御するための制御装置、及び、その制御装置を構成するための方法 図2
  • 特許-技術システムを制御するための制御装置、及び、その制御装置を構成するための方法 図3
  • 特許-技術システムを制御するための制御装置、及び、その制御装置を構成するための方法 図4
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-12-27
(45)【発行日】2025-01-14
(54)【発明の名称】技術システムを制御するための制御装置、及び、その制御装置を構成するための方法
(51)【国際特許分類】
   G05B 13/02 20060101AFI20250106BHJP
【FI】
G05B13/02 J
G05B13/02 L
【請求項の数】 11
(21)【出願番号】P 2023545969
(86)(22)【出願日】2021-12-28
(65)【公表番号】
(43)【公表日】2024-01-31
(86)【国際出願番号】 EP2021087697
(87)【国際公開番号】W WO2022161729
(87)【国際公開日】2022-08-04
【審査請求日】2023-09-20
(31)【優先権主張番号】21154166.9
(32)【優先日】2021-01-29
(33)【優先権主張国・地域又は機関】EP
(73)【特許権者】
【識別番号】390039413
【氏名又は名称】シーメンス アクチエンゲゼルシヤフト
【氏名又は名称原語表記】Siemens Aktiengesellschaft
(74)【代理人】
【識別番号】110003317
【氏名又は名称】弁理士法人山口・竹本知的財産事務所
(74)【代理人】
【識別番号】100075166
【弁理士】
【氏名又は名称】山口 巖
(74)【代理人】
【識別番号】100133167
【弁理士】
【氏名又は名称】山本 浩
(74)【代理人】
【識別番号】100169627
【弁理士】
【氏名又は名称】竹本 美奈
(72)【発明者】
【氏名】ハイン,ダニエル
(72)【発明者】
【氏名】シェーナー,ホルガー
(72)【発明者】
【氏名】ウェーバー,マルク クリスチャン
(72)【発明者】
【氏名】ヘーシェ,カイ
(72)【発明者】
【氏名】シュテルツィン,フォルクマール
(72)【発明者】
【氏名】ウドルフト,シュテッフェン
【審査官】大古 健一
(56)【参考文献】
【文献】米国特許出願公開第2020/0064788(US,A1)
【文献】特開2019-021186(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G05B 1/00 - 7/04
G05B 11/00 -13/04
G05B 17/00 -17/02
G05B 21/00 -21/02
(57)【特許請求の範囲】
【請求項1】
技術システム(TS)のための制御装置(CTL)を構成するための、コンピュータで実行される方法であって、
a)前記技術システム(TS)の運転信号(BS)が第1の機械学習モジュール(NN1)に供給され、前記第1の機械学習モジュール(NN1)が、前記技術システム(TS)の運転信号(BS)に基づいて、制御動作の実際の適用なしに生じる前記技術システム(TS)固有の挙動信号を再現し、かつ、前記再現された挙動信号を第1の出力信号(VSR1)として出力するようにトレーニングされ、
b)前記第1の出力信号(VSR1)が第2の機械学習モジュール(NN2)に供給され、前記第2の機械学習モジュール(NN2)が制御動作信号(AS)に基づいて、その結果として生じる前記技術システム(TS)の挙動信号を再現し、かつ、前記再現された挙動信号(VSR2)を第2の出力信号(VSR2)として出力するようにトレーニングされ、
c)前記技術システム(TS)の運転信号(BS)が第3の機械学習モジュール(NN3)に供給され、
d)前記第3の機械学習モジュール(NN3)の第3の出力信号(AS)がトレーニングされた前記第2の機械学習モジュール(NN2)に供給され、
e)前記第2の出力信号(VSR2)に基づいて制御動作性能(Q)が決定され、
f)前記第3の機械学習モジュール(NN3)が、前記技術システム(TS)の運転信号(BS)に基づいて前記制御動作性能(Q)を最適化するようにトレーニングされ、
g)前記制御装置(CTL)が、前記第3の機械学習モジュール(NN3)に基づいて、前記第3の機械学習モジュール(NN3)の前記第3の出力信号(AS)を用いて前記技術システム(TS)を制御するように構成され
前記第3の機械学習モジュール(NN3)が、前記第1の出力信号(VSR1)に基づいてトレーニングされ、
挙動信号設定値(OB)が読み込まれ、前記第2の出力信号(VSR2)が前記挙動信号設定値(OB)と比較され、
前記比較の結果に基づいて前記制御動作性能(Q)が決定され
前記挙動信号設定値(OB)が前記第3の機械学習モジュール(NN3)に供給され、
前記第3の機械学習モジュール(NN3)が、前記挙動信号設定値(OB)に基づいて、前記制御動作性能(Q)を最適化するようにトレーニングされる、
ことを特徴とする方法。
【請求項2】
前記制御動作性能(Q)が、挙動信号の単一の時間増分に基づいて、それぞれの場合においてそれぞれの時点について決定されることを特徴とする請求項に記載の方法。
【請求項3】
前記技術システム(TS)の運転信号(BS)の第1の部分(SS1、VS1)及び/又は第2の部分(AS2、VS2)が、それらが制御動作を含むか否かによって選択され、
制御動作を含まない前記運転信号(BS)の第1の部分(SS1、VS1)が前記第1の機械学習モジュール(NN1)をトレーニングするために使用され、及び/又は、制御動作を含む前記運転信号(BS)の第2の部分(AS2、VS2)が前記第2の機械学習モジュール(NN2)をトレーニングするために使用される、
ことを特徴とする請求項1又は2に記載の方法。
【請求項4】
前記制御動作性能(Q)が、前記第1の出力信号(VSR1)に基づいて決定されることを特徴とする請求項1からのいずれか1項に記載の方法。
【請求項5】
前記第1の出力信号(VSR1)と前記第2の出力信号(VSR2)との偏差が決定され、
前記制御動作性能(Q)が、前記偏差に応じて決定される、
ことを特徴とする請求項に記載の方法。
【請求項6】
前記第1の機械学習モジュール(NN1)及び/又は前記第2の機械学習モジュール(NN2)が、前記技術システム(TS)内で実行される様々なプロセスの複数の挙動信号を別々に再現するようにトレーニングされ、
前記制御動作性能(Q)が前記再現された挙動信号に応じて決定される、
ことを特徴とする請求項1からのいずれか1項に記載の方法。
【請求項7】
特定の挙動信号設定値(OB)が、それぞれの挙動信号(VS)に対して読み込まれ、
前記制御動作性能(Q)が、前記再現された挙動信号(VS)と前記特定の挙動信号設定値(OB)との比較に基づいて決定される、
ことを特徴とする請求項に記載の方法。
【請求項8】
前記第3の機械学習モジュール(NN3)が、前記特定の挙動信号設定値(OB)に基づいて前記制御動作性能(Q)を最適化するようにトレーニングされることを特徴とする請求項に記載の方法。
【請求項9】
技術システム(TS)を制御するための制御装置(CTL)であって、請求項1からのいずれか1項に記載の方法を実行するように構成された制御装置(CTL)。
【請求項10】
請求項1からのいずれか1項に記載の方法を実行するように構成されたコンピュータプログラム
【請求項11】
請求項10に記載のコンピュータプログラムを含むコンピュータ可読記憶媒体。
【発明の詳細な説明】
【技術分野】
【0001】
機械学習法は、ガスタービン、風力タービン、燃焼エンジン、ロボット、製造設備又は電力系統のような複雑な技術システムの制御においてますます使用されている。このような学習法を使用して、トレーニングデータに基づいて制御装置の機械学習モデルをトレーニングし、その結果、技術システムの実際の運転信号に基づきその技術システム固有の所望の又は最適化された挙動を生じさせ、且つ、その性能を最適化するような、技術システムを制御するための制御動作を決定することができる。技術システムを制御するためのそのような機械学習モデルは、しばしば、ポリシー又は制御モデルとも呼ばれる。このようなポリシーをトレーニングするために、例えば強化学習法などの多数の既知のトレーニング方法が利用可能である。
【0002】
しかしながら、産業環境における制御最適化において、多数の既知のトレーニング方法では学習プロセスの収束問題及び/又は再現性に関する問題が生じる。これは、例えば、その技術システムの状態空間のわずかな部分しか考慮されないということ、技術システムのセンサデータがノイズを含んでいること、及び/又は、制御動作が一般的に時間遅延を伴っており、様々な複数の制御動作がしばしば様々な時間遅延をもたらすということに帰せられる。上記の症状は複雑な実際のシステムでよく起こり、学習効果を著しく損なう。
【発明の概要】
【発明が解決しようとする課題】
【0003】
本発明の課題は、技術システムを制御するための、より効果的なトレーニングを可能にする制御装置、及び、その制御装置を構成するための方法を提供することにある。
【課題を解決するための手段】
【0004】
この課題は、請求項1の特徴を有する方法、請求項12の特徴を有する制御装置、請求項13の特徴を有するコンピュータプログラム製品、及び、請求項14の特徴を有するコンピュータ可読記憶媒体によって解決される。
【0005】
技術システムのための制御装置を構成するために、その技術システムの運転信号が第1の機械学習モジュールに供給され、この第1の機械学習モジュールは、その技術システムの運転信号に基づいて、制御動作の実際の適用なしに生じる技術システム固有の挙動信号を再現し、かつ、再現された挙動信号を第1の出力信号として出力するようにトレーニングされている。この第1の出力信号が第2の機械学習モジュールに供給され、第2の機械学習モジュールは制御動作信号に基づいて、その結果として生じるこの技術システムの挙動信号を再現し、かつ、再現されたこの挙動信号を第2の出力信号として出力するようにトレーニングされる。さらに、技術システムの運転信号が第3の機械学習モジュールに供給され、第3の機械学習モジュールの第3の出力信号がトレーニングされた第2の機械学習モジュールに供給される。第2の出力信号に基づいて制御動作性能が決定される。これにより、第3の機械学習モジュールは技術システムの運転信号に基づいて制御動作性能を最適化するようにトレーニングされる。この制御装置は最終的に、第3の機械学習モジュールに基づいて第3の機械学習モジュールの第3の出力信号を用いて技術システムを制御するように構成される。
【0006】
本発明によるこの方法を実行するために、制御装置、コンピュータプログラム製品、及び、好適には不揮発性のコンピュータ可読記憶媒体が設けられる。
【0007】
本発明による方法及び本発明による制御装置は、例えば、1つ又は複数の、コンピュータ、プロセッサ、特定用途向け集積回路(ASIC)、デジタル信号プロセッサ(DSP)、及び/又は、フィールドプログラマブルゲートアレイ(FPGA)によって実行又は実装することができる。
【0008】
本発明により、制御装置を著しく効果的に構成する又はトレーニングすることができる。トレーニングされた第2の機械学習モジュールが第3の機械学習モジュールのトレーニングにおいて使用されるので、第3の機械学習モジュールをトレーニングするときに、システム挙動の本質的な構成要素は、一般に、もはや潜在的に学習する又は表示する必要がなくなる。多くの場合、これは収束挙動の大幅な改善及び/又はトレーニング結果のより良い再現性につながる。このトレーニングは、さらに、トレーニングデータの変動に対して、より安定し、及び/又は、よりロバストになることが多い。さらに、多くの場合、トレーニングデータ、計算時間、及び/又は、計算資源はより少なくて済む。
【0009】
本発明の有利な実施形態及び発展形態は従属請求項に記載されている。
【0010】
本発明の有利な一実施形態によれば、第3の機械学習モジュールは、第1の出力信号に基づいてトレーニングすることができる。これにより、第3の機械学習モジュールは特に効果的にトレーニングすることができる。というのは、システム挙動に関する固有の情報が、制御動作の実際の適用なしに、第3の機械学習モジュールに利用可能であるからである。
【0011】
本発明の特に有利な一実施形態によれば、それぞれの時点に対する制御動作性能は、その都度、挙動信号の単一の時間増分に基づいて決定することができる。多くの場合、性能に対する将来の影響の複雑な決定又は推定は不要である。したがって、様々な時間スケールで実行される動的効果も効率的に考慮に入れることができる。この時間増分は、さらに、制御動作及び/又は挙動信号に応じて異なる長さとすることができ、制御動作の将来の影響を表すこともできる。
【0012】
好適に、技術システムの運転信号の第1及び/又は第2の部分は、特にそれらが制御動作を含むか否かによって選択することができる。これにより、制御動作を含まない運転信号の第1の部分は特に第1の機械学習モジュールをトレーニングするために使用することができ、及び/又は、制御動作を含む運転信号の第2の部分は特に第2の機械学習モジュールをトレーニングするために使用することができる。それぞれのトレーニング目的に対するトレーニングデータの特定の選択により、第1及び/又は第2の機械学習モジュールを特に効果的にトレーニングすることができる。
【0013】
本発明の別の有利な実施形態によれば、挙動信号設定値を読み込み、第2の出力信号をこの挙動信号設定値と比較することができる。このようにして、その比較結果に応じて、制御動作性能を決定することができる。特に、第2の出力信号と挙動信号設定値との偏差を、例えば、差の絶対値又は差の二乗の形で決定することができる。次いで、制御動作性能はこの偏差に応じて決定することができ、偏差が大きいほど、一般には、制御動作性能が低くなる。
【0014】
さらに、この挙動信号設定値を第3の機械学習モジュールに供給することができる。これにより、第3の機械学習モジュールは、その挙動信号設定値に基づいて制御動作性能を最適化するようにトレーニングすることができる。
【0015】
本発明の別の有利な実施形態によれば、制御動作性能は、第1の出力信号に基づいて決定することができる。この場合、特に第1の出力信号と第2の出力信号との偏差を、例えば、差の絶対値又は差の二乗の形で決定することができる。これに代えて又はこれに加えて、第1と第2の出力信号の和と、挙動信号設定値との偏差を決定することができる。次に、制御動作性能は、このようにして決定された偏差に応じて決定することができる。この場合、この偏差に基づき、特に、制御動作の適用を伴うシステム挙動が、制御動作の適用を伴わないシステム挙動とどのように異なるかを評価することができる。この差を用いて、制御動作性能の決定を、多くの場合、大幅に改善することができることが分かった。
【0016】
本発明の有利な一開発形態によれば、第1及び/又は第2の機械学習モジュールは、技術システム内で実行される様々なプロセスの複数の挙動信号を別々に再現するようにトレーニングすることができる。そして、その制御動作性能は、再現された挙動信号に応じて決定することができる。第1及び/又は第2の機械学習モジュールは、この目的のために特に、1組の機械学習モデル又はサブモデルを含むことができ、これらはそれぞれが技術システム内で実行される特定のプロセスをプロセス固有の方法でモデル化する。そのような別々のトレーニングは、多くの場合、結合されたトレーニングよりも効果的であることが分かっている。なぜなら、それぞれの基礎となる個別のダイナミクスは、一般に、結合されたシステムダイナミクスよりも単純な応答挙動を有するからである。
【0017】
本発明は、挙動信号の単一の、場合によっては調節可能な時間増分に基づいて、それぞれの時点での制御動作性能を決定することを可能にするので、特に、第3の機械学習モジュールのトレーニングにおいては、様々な実行速度を有する複数のプロセス間の同期問題は、一般に、より少なく生じる。多くの場合、複数のプロセス固有の機械学習モデルに対して、単一のステップで制御動作性能の比較的正確でロバストな評価を実行することが可能である。
【0018】
さらに、それぞれの1つの挙動信号に対して、1つの固有の挙動信号設定値を読み込むことができる。次いで、制御動作性能は、再現された挙動信号と固有の挙動信号設定値との比較に基づいて決定することができる。
【0019】
第3の機械学習モジュールは、特に、固有の挙動信号設定値に基づいて制御動作性能を最適化するようにトレーニングすることができる。
【0020】
本発明の一実施例を、図面を参照して以下により詳細に説明する。これらはいずれも概略図である。
【図面の簡単な説明】
【0021】
図1】本発明による制御装置を備えたガスタービンを示す図である。
図2】第1のトレーニング段階における本発明による制御装置を示す図である。
図3】第2のトレーニング段階における制御装置を示す図である。
図4】第3のトレーニング段階における制御装置を示す図である。
【発明を実施するための形態】
【0022】
図1は、制御装置CTLを備えた技術システムTSの例としてガスタービンを示す。これに代えて又はこれに加えて、この技術システムTSは、風力タービン、燃焼エンジン、製造設備、化学的、冶金的もしくは製薬的製造プロセス、ロボット、自動車、送電系統、3Dプリンタもしくは別の機械、別の装置、又は、他の設備を含むこともできる。
【0023】
ガスタービンTSは制御装置CTLと接続されており、この制御装置CTLはガスタービンTSの一部として、又は、全体もしくは一部をガスタービンTSの外部に実装することができる。図1では、制御装置CTLは、分かり易くするために、技術システムTSの外部に示されている。
【0024】
制御装置CTLは技術システムTSを制御するために使用され、この目的のために、機械学習法によってトレーニングされる。ここでは、技術システムTSの制御とは、技術システムTSの調節、ならびに、制御に関連する、すなわち、技術システムTSの制御に寄与するデータ又は信号の出力及び使用をも意味する。
【0025】
そのような制御関連データ又は信号は、特に、制御動作信号、予測データ、監視信号、状態データ、及び/又は、分類データを含み、これらは、特に、技術システムTSの運転最適化、監視又は保守、及び/又は、摩耗もしくは損傷の識別のために使用することができる。
【0026】
ガスタービンTSは、技術システムTSの1つ又は複数の運転パラメータを連続的に測定し、測定値として出力する複数のセンサSを有している。これらセンサSの測定値及び場合によっては別の方法で検出された技術システムTSの運転パラメータは、運転信号BSとして技術システムTSから制御装置CTLに送信される。
【0027】
運転信号BSは、特に、物理的な、化学的な、調節関連の、効率関連の及び/又は構造関連の運転変数、特性データ、出力データ、効率データ、状態信号、挙動信号、システムデータ、プリセット値、制御データ、制御動作信号、センサデータ、測定値、周辺データ、監視データ、予測データ、分析データ、及び/又は、技術システムTSの運転中に生じる及び/又は技術システムTSの運転状態もしくは制御動作を記述する他のデータを含むことができる。これらは、例えば、技術システムTSの温度、圧力、エミッション、振動、振動状態又は燃料消費に関するデータである。特にガスタービンの場合には、運転信号BSは、タービン出力、回転速度、振動周波数、振動振幅、燃焼動力学、燃焼交番圧力振幅又は亜酸化窒素濃度に関する。
【0028】
トレーニングされた制御装置CTLは、運転信号BSに基づいて、技術システムTSの性能を最適化する制御動作を決定する。この場合、最適化すべき性能は、特に、出力、収益、速度、耐用年数、精度、故障率、燃料必要量、効率、汚染物質排出、安定性、摩耗、耐用年数、及び/又は、技術システムTSの他の目標パラメータに関するものである。
【0029】
決定された、性能を最適化する制御動作は、それに対応する制御動作信号ASを制御装置CTLから伝達することにより技術システムTSにもたらされる。これらの制御動作により、例えばガスタービンの場合には、ガス供給、ガス分配、又は、空気供給を調節することができる。
【0030】
図2は、本発明による学習ベースの制御装置CTLの第1のトレーニング段階における概略図である。この制御装置CTLは、技術システムTSを制御するために構成されている。図中、同一の又はそれに対応する参照符号が使用されている場合、これらの参照符号は同一の、又は、それに対応する対象物を示す。
【0031】
本実施例では、制御装置CTLは技術システムTSに接続されている。この制御装置CTLは、本発明による方法を実行するための1つ又は複数のプロセッサPROCと、方法データを記憶するための1つ又は複数のメモリMEMとを備えている。
【0032】
制御装置CTLは、技術システムTSからトレーニングデータとして複数の運転信号BSを受信する。これらの運転信号は、特に複数の時系列、すなわち、技術システムTSの複数の運転パラメータ値の時間的経緯を含む。本実施例では、運転信号BSは、技術システムTSの状態を時系列的に特定する状態信号SSと、技術システムTSの制御動作を特定する又は実行する制御動作信号ASと、技術システムTSのシステム挙動を特定する挙動信号VSとを含む。挙動信号は、例えば、燃焼交番圧力振幅、排出量、ガスタービンの速度、又は、温度の変化を特定することができる。挙動信号VSは、技術システムTSの特に性能に関連する技術システムTSの状態信号であると理解することができる。
【0033】
これらの運転信号BSの少なくとも一部は、この技術システムTSに類似する技術システムから、この技術システムTSもしくはそれに類似する技術システムの記憶された運転信号を含むデータベースから、及び/又は、この技術システムTSもしくはそれに類似する技術システムのシミュレーションから、受け取る、又は、それらに由来することができる。
【0034】
さらに、この制御装置CTLは、第1の機械学習モジュールNN1と、第2の機械学習モジュールNN2と、第3の機械学習モジュールNN3とを備えている。この場合、それぞれの機械学習モジュールNN1、NN2ないしNN3は、特に、人工ニューラルネットワークとして、又は、複数のニューラルサブネットワークの集合として構成することができる。第1の機械学習モジュールNN1は、特に、第3の機械学習モジュールNN3のサブモジュールとして構成することができる。
【0035】
機械学習モジュールNN1、NN2、及び/又は、NN3は、好適には、教師あり学習法、強化学習法、再帰ニューラルネットワーク、畳み込みニューラルネットワーク、ベイジアンニューラルネットワーク、オートエンコーダ、ディープラーニングアーキテクチャ、サポートベクトルマシン、データ駆動型トレーニング可能回帰モデル、k-最近傍分類器、物理的モデル、決定木、及び/又は、ランダムフォレストを使用又は実装することができる。上述された変形例及びそのトレーニングのために、多数の効果的な実装が利用可能である。
【0036】
ここでは、トレーニングは一般的に、入力信号の出力信号への再現を最適化することを意味する。この再現はトレーニング段階中に、予め与えられた基準、及び/又は、学習される基準に従って最適化される。この場合、基準として、例えば、予測モデルでは予測誤差を、分類モデルでは分類誤差を、又は、制御モデルでは制御動作の結果を用いることができる。このトレーニングにより、例えば、ニューラルネットワークの複数のニューロンのネットワーキング構造及び/又はニューロン間の接続の重みを、予め与えられた複数の基準が可能な限り良好に満たされるように、調整又は最適化することができる。したがって、トレーニングは、最適化問題として理解することができる。機械学習の分野では、このような最適化問題に対して多数の効果的な最適化手法が利用可能である。勾配降下法、粒子群最適化法、及び/又は、遺伝的最適化法を特に使用することができる。
【0037】
図2に示す第1のトレーニング段階では、第1の機械学習モジュールNN1がトレーニングされる。これは、技術システムTSの運転信号に基づいて技術システムTSの挙動を予測又は再現するようにトレーニングされ、これは制御動作を実際に行うことなしに展開される。
【0038】
トレーニング効果を改善するために、好適に、制御動作なしに又は制御動作の影響なしにトレーニングデータを取得するために、複数のトレーニングデータBSが第1の機械学習モジュールNN1に接続されたフィルタF1によってフィルタリングされる。この目的のために、複数の運転信号BSがフィルタF1に供給される。フィルタF1は、運転信号に含まれている制御動作信号ASに基づいて運転信号BS内の制御動作を検出するための制御動作検出器ASDを備えている。
【0039】
制御動作検出器ASDによる制御動作の検出に応じて、運転信号BSの第1の部分がフィルタF1によって選択され、運転信号BSから取り出される。この場合、好適に、制御動作を含まない及び/又は制御動作の影響を含まない、運転信号BSの第1の部分が選択される。したがって、運転信号BSの第1の部分は、実際の制御動作が検出された後に例えば1つの時間窓から取り出すことができ、この場合、この時間窓は、この制御動作がシステム挙動にまだ影響を及ぼすことができないように選択される。
【0040】
フィルタリングされた運転信号BSの第1の部分は、状態信号SSの第1の部分SS1及び挙動信号VSの第1の部分VS1を含む。これら第1の部分SS1及びVS1は、フィルタF1を通して出力され、第1の機械学習モジュールNN1をトレーニングするために使用される。
【0041】
状態信号SSの第1の部分SS1はトレーニングのために入力信号として第1の機械学習モジュールNN1に供給される。このトレーニングの目的は、第1の機械学習モジュールNN1が、技術システムTSの1つの運転信号に基づいて、制御動作の実際の適用なしに生じる技術システムの1つの運転信号を可能な限り良好に再現することである。このことは、第1の機械学習モジュールNN1の出力信号VSR1(以下、第1の出力信号と呼ぶ)が、技術システムTSの実際の挙動信号と可能な限り良好に一致することを意味する。この目的のために、第1の出力信号VSR1と、これに対応する挙動信号VSの第1の部分VS1との偏差D1が決定される。この場合、偏差D1は、第1の機械学習モジュールNN1の再現誤差又は予測誤差を表す。偏差D1は、特に、D1=(VS1-VSR1)、又は、D1=│VS1-VSR1│によって、差、特にベクトル差、の二乗、又は、絶対値として計算することができる。
【0042】
図2に破線矢印で示すように、偏差D1は、第1の機械学習モジュールNN1にフィードバックされる。フィードバックされた偏差D1に基づいて、第1の機械学習モジュールNN1は、この偏差D1、ひいては再現誤差が最小化されるようにトレーニングされる。偏差D1を最小化するために、すでに上述したように、例えば勾配降下法、粒子群最適化法又は遺伝的最適化法などの多数の最適化法が利用可能である。このようにして、第1の機械学習モジュールNN1は、教師あり学習法によりトレーニングされる。トレーニングされた第1の機械学習モジュールNN1の第1の出力信号VSR1は、制御動作の実際の適用なしで生じる技術システムTSの運転信号を再現する。
【0043】
フィルタリングされた運転信号SS1及びVS1がトレーニングのために使用されるので、第1の機械学習モジュールNN1はこのトレーニング目的に向けて特に効果的にトレーニングされる。この第1の機械学習モジュールNN1は制御装置CTLの外部でもトレーニングされ得ることに留意すべきである。
【0044】
上記のトレーニング方法は、特に有利な方法で、技術システムTS内で実行される様々なプロセスの複数の挙動信号を別々に再現するために使用することができる。この目的のために、第1の機械学習モジュールNN1はプロセス固有の複数のニューラルサブネットワークを備えることができ、これらのサブネットワークは、上述のように、それぞれ別々に、すなわち、プロセス固有の挙動信号を用いて個別にトレーニングされる。そのような別々のトレーニングは、多くの場合、結合されたトレーニングよりも効果的であることが判っている。それは、それぞれの基礎となる個々のダイナミクス自体が、一般に、より単純な、及び/又は、より均一な応答挙動を有するからである。
【0045】
図3は、第2のトレーニング段階における制御装置CTLを示す。第2のトレーニング段階では、第2の機械学習モジュールNN2は、技術システムTSの運転信号BSに基づいて、特に、その中に含まれる制御動作信号ASに基づいて、それぞれの制御動作によって誘発される技術システムTSの挙動を予測又は再現するようにトレーニングされる。
【0046】
第2の機械学習モジュールNN2をトレーニングするために、制御装置CTLはトレーニングデータとして技術システムTSから技術システムTSの運転信号BSを受信する。すでに述べたように、運転信号BSは、特に、状態信号SS、制御動作信号AS、及び、挙動信号VSの複数の時系列を含む。第2の機械学習モジュールNN2をトレーニングするために、それに加えて、トレーニングされた第1の機械学習モジュールNN1が使用される。本実施例では、第2の機械学習モジュールNN2のトレーニング時には、第1の機械学習モジュールNN1のトレーニングは既に完了している。
【0047】
トレーニング効果を改善するために、トレーニングデータBSは、複数の制御動作又はこれら制御動作の影響を含むトレーニングデータを好適に取得するために、第2の機械学習モジュールNN2に接続されたフィルタF2によってフィルタリングされる。
【0048】
この目的のために、運転データBSがフィルタF2に供給される。フィルタF2は、運転信号BS内の複数の制御動作をその中に含まれる制御動作信号ASに基づいて個別に検出するための制御動作検出器ASDを含む。制御動作検出器ASDによる制御動作の検出に応じて、運転信号BSの第2の部分がフィルタF2によって選択され、運転信号BSから取り出される。この場合、好適に、複数の制御動作及び/又はこれら制御動作の影響を含む運転信号BSの第2の部分が選択される。運転信号BSの第2の部分は、例えば、その都度検出された制御動作に関する時間窓から、及び/又は、それぞれの制御動作の影響が予期される時間窓から取り出すことができる。運転信号BSのフィルタリングされた第2の部分は、特に、挙動信号VSの第2の部分VS2、及び、複数の制御動作信号が含まれている第2の部分AS2を含む。運転信号BSの第2の部分であるAS2及びVS2はフィルタF2を通して出力され、第2の機械学習モジュールNN2をトレーニングするために使用される。
【0049】
このトレーニングのために、運転信号BSの第2の部分AS2が入力信号として第2の機械学習モジュールNN2に供給される。さらに、運転信号BSは、既にトレーニングされた第1の機械学習モジュールNN1に供給され、このモジュールは、そこから挙動信号VSR1を導出し、第1の出力信号として出力する。この挙動信号VSR1は、上述のように、技術システムTSの挙動信号を再現するものであり、これは制御動作の実際の適用なしで生じる。この挙動信号VSR1は、さらなる入力信号として、第2の機械学習モジュールNN2に供給される。
【0050】
このトレーニングの目的は、第2の機械学習モジュールNN2が、複数の制御動作を含む運転信号、ここではAS2、に基づいて、及び、制御動作の実際の適用なしで生じる挙動信号、ここではVSR1、に基づいて、これらの制御動作によって導出された技術システムTSの挙動信号を可能な限り正確に再現することである。すなわち、第2の機械学習モジュールNN2の出力信号VSR2(以下、第2の出力信号と呼ぶ)が複数の制御動作の影響の下で可能な限り良好に技術システムTSの実際の挙動信号と一致することがその目的である。
【0051】
このトレーニングの過程で、第2の出力信号VSR2と、これに対応する挙動信号VSの第2の部分VS2との偏差D2が決定される。この場合、この偏差D2は、第2の機械学習モジュールNN2の再現誤差又は予測誤差を表す。この偏差D2は、例えば、D2=(VS2-VSR2)、又は、D2=│VS2-VSR2│によって、差、特にベクトル差、の二乗、又は、絶対値として計算することができる。
【0052】
図3に破線矢印で示すように、偏差D2は第2の機械学習モジュールNN2にフィードバックされる。フィードバックされた偏差D2に基づいて、第2の機械学習モジュールNN2は、この偏差D2、ひいては再現誤差が最小化されるようにトレーニングされる。すでに述べたように、偏差D2を最小化するために、多数の既知の最適化方法、特に教師あり学習方法を使用することができる。
【0053】
トレーニングされた第2の機械学習モジュールNN2の第2の出力信号VSR2は、制御動作の実際の適用によって導出される技術システムTSの挙動信号を再現する。
【0054】
フィルタリングされた運転信号AS2及びVS2がこのトレーニングのために使用されるので、第2の機械学習モジュールNN2は、このトレーニング目的に向けて特に効果的にトレーニングされる。さらに、挙動信号VSR1を第2の機械学習モジュールNN2に供給することにより、多くの場合、トレーニング効果を大幅に高めることが可能となる。というのは、第2の機械学習モジュールNN2には、制御動作により誘起されたシステム挙動と制御動作のないシステム挙動との差に関する固有の情報が提供されるからである。第2の機械学習モジュールNN2は制御装置CTLの外部でもトレーニング可能であることに留意すべきである。
【0055】
上記のトレーニング方法は、特に有利な方法で、技術システムTS内で実行される様々なプロセスの複数の挙動信号を別々に再現するために使用することができる。この目的のために、第2の機械学習モジュールNN2は、第1の機械学習モジュールNN1と同様に、プロセス固有の複数のニューラルサブネットワークを備えることができ、これらのサブネットワークは、上述のように、それぞれ別々に、すなわち、プロセス固有の挙動信号を用いて個別にトレーニングされる。
【0056】
図4は、第3のトレーニング段階における制御装置CTLを示す。第3のトレーニング段階では、第3の機械学習モジュールNN3が、技術システムTSの運転信号に基づいて、この技術システムを制御するための性能を最適化する制御動作信号を生成するようにトレーニングされる。この場合、最適化は、最適値に近づくことをも意味する。第3の機械学習モジュールNN3をトレーニングすることにより、制御装置CTLは技術システムTSを制御するように構成される。
【0057】
第3の機械学習モジュールNN3をトレーニングするために、制御装置CTLは技術システムTSからトレーニングデータとして技術システムTSの運転信号BSを受信する。このトレーニングのために、上述のように、特に、トレーニングされた第1の機械学習モジュールNN1及び第2の機械学習モジュールNN2が使用される。本実施例では、第3の機械学習モジュールNN3のトレーニング時には、機械学習モジュールNN1及びNN2のトレーニングは既に完了している。
【0058】
上述の構成要素に加えて、制御装置CTLは、機械学習モジュールNN1、NN2及びNN3に接続された性能評価器EVを備えている。さらに、第1の機械学習モジュールNN1は機械学習モジュールNN2及びNN3に接続され、第2の機械学習モジュールNN2は第3の機械学習モジュールNN3に接続されている。
【0059】
性能評価器EVは、それぞれの制御動作に対して、その制御動作によって引き起こされた技術システムTSの挙動の性能を決定するために使用される。この目的のために、報酬関数Qが評価される。報酬関数Qは、報酬、ここでは既に幾度も述べたように、実際のシステム挙動の性能を決定し、定量化する。そのような報酬関数は、しばしば、コスト関数、損失関数、目的関数、報酬関数又は価値関数とも呼ばれる。報酬関数Qは、例えば、運転状態の関数、制御動作の関数、及び、システム挙動のための1つ又は複数の設定値OBの関数として実装することができる。
【0060】
複数の挙動信号が機械学習モジュールNN1、NN2、NN3によって、及び/又は、性能評価器EVによって評価される場合には、複数の挙動信号設定値OBを、それぞれの挙動信号に対してそれぞれ固有に事前に設定することができる。
【0061】
第3の機械学習モジュールNN3をトレーニングするために、複数の運転信号BSが入力信号として、トレーニングされた機械学習モジュールNN1及びNN2に供給されるとともに、第3の機械学習モジュールNN3に供給される。
【0062】
これらの運転信号BSに基づいて、トレーニングされた第1の機械学習モジュールNN1は、制御動作の実際の適用なしに生じる技術システムTSの挙動信号VSR1を再現する。この再現された挙動信号VSR1は、第1の機械学習モジュールNN1から第2の機械学習モジュールNN2、第3の機械学習モジュールNN3及び性能評価器EVに供給される。さらに、1つ又は複数の挙動信号設定値OBが第3の機械学習モジュールNN3及び性能評価器EVに供給される。
【0063】
運転信号BSから、再現された挙動信号VSR1から、及び、1つ又は複数の挙動信号設定値OBからの結果として生じる第3の機械学習モジュールNN3の出力信号AS(以下、第3の出力信号と呼ぶ)が、次に、入力信号として、トレーニングされた第2の機械学習モジュールNN2に供給される。トレーニングされた第2の機械学習モジュールNN2は、第3の出力信号AS、再現された挙動信号VSR1及び運転信号BSに基づいて、技術システムTSの制御動作により誘発された挙動信号VSR2を再現し、これがトレーニングされた第2の機械学習モジュールNN2から性能評価器EVに供給される。
【0064】
性能評価器EVは、再現された挙動信号VSR2に基づき、再現された第1の挙動信号VSR1及び1つ又は複数の挙動信号設定値OBを考慮に入れて、技術システムTSの実際の性能を定量化する。この場合、性能評価器EVは、特に、1つ又は複数の挙動信号設定値OBからの、制御動作により誘発された挙動信号VSR2の第1の偏差を決定する。偏差が増大する場合には、通常は、制御動作性能は小さくなる。さらに、制御動作により誘起された挙動信号VSR2と挙動信号VSR1との間の第2の偏差も決定される。この第2の偏差に基づいて、性能評価器EVは、制御動作の適用を伴うシステム挙動が、制御動作の適用を伴わないシステム挙動とどのように異なるかを評価することができる。この差異により、多くの場合、性能評価を大幅に改善できることが分かった。
【0065】
報酬関数Qにより決定された制御動作性能は、図4の破線矢印で示すように、第3の機械学習モジュールNN3にフィードバックされる。フィードバックされた制御動作性能に基づいて、第3の機械学習モジュールNN3は、その制御動作性能を最大化するようにトレーニングされる。既に幾度も述べたように、制御動作性能を最大化するために、多数の既知の最適化方法を使用することができる。
【0066】
第2の機械学習モジュールNN2が入力信号として特に制御動作信号を確実に得られる限り、第3の機械学習モジュールNN3はこのような制御動作信号、ここではASを出力するように、暗黙的にトレーニングされる。この制御動作性能の最適化によって、第3の機械学習モジュールNN3は性能を最適化する制御動作信号ASを出力するようにトレーニングされる。
【0067】
運転信号BSに加えて、再現された挙動信号VSR1も第3の機械学習モジュールNN3をトレーニングするために使用されるので、第3の機械学習モジュールNN3は特に効果的にトレーニングすることができる。というのは、制御動作のないシステム挙動に関する固有の情報が第3の機械学習モジュールNN3に利用可能であるからである。
【0068】
本発明の特別の利点は、第3の機械学習モジュールNN3をトレーニングするとき、多くの場合、性能評価器EVを使用して、それぞれの1つの時点について、挙動信号のそれぞれ単一の、必要に応じ調整可能な、時間増分のみを評価すれば十分であるという点にある。多くの場合、将来の報酬の複雑な決定又は推定は不要である。したがって、複数の様々な時間スケールで実行される効果も効率的に考慮に入れることができる。
【0069】
さらに、挙動信号VSR2に対して、複数の変化する挙動信号設定値OBが予め与えられているので、予め与えられた運転信号のデータセットを第3の機械学習モジュールNN3をトレーニングするために何度も使用することができる。これにより、複数の同じ運転信号から、異なる、設定値固有の制御動作信号を学習することができ、制御動作空間のより良好なカバー率を達成することができる。
【0070】
第3の機械学習モジュールNN3のこのトレーニングにより、制御装置CTLは、技術システムTSを、トレーニングされた第3の機械学習モジュールNN3の制御動作信号ASを用いて、性能を最適化するように制御すべく構成される。


図1
図2
図3
図4