特表2024-504470 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ シーメンス　アクチエンゲゼルシヤフトの特許一覧

特表2024-504470技術システムを制御するための制御装置、及び、その制御装置を構成するための方法

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公表特許公報(A)

(11)【公表番号】

(43)【公表日】2024-01-31

(54)【発明の名称】技術システムを制御するための制御装置、及び、その制御装置を構成するための方法

(51)【国際特許分類】

G05B 13/02 20060101AFI20240124BHJP

【ＦＩ】

G05B13/02 J

G05B13/02 L

【審査請求】有

【予備審査請求】未請求

(21)【出願番号】P 2023545969

(86)(22)【出願日】2021-12-28

(85)【翻訳文提出日】2023-09-04

(86)【国際出願番号】 EP2021087697

(87)【国際公開番号】W WO2022161729

(87)【国際公開日】2022-08-04

(31)【優先権主張番号】21154166.9

(32)【優先日】2021-01-29

(33)【優先権主張国・地域又は機関】EP

(81)【指定国・地域】

(71)【出願人】

【識別番号】390039413

【氏名又は名称】シーメンスアクチエンゲゼルシヤフト

【氏名又は名称原語表記】ＳｉｅｍｅｎｓＡｋｔｉｅｎｇｅｓｅｌｌｓｃｈａｆｔ

(74)【代理人】

【識別番号】110003317

【氏名又は名称】弁理士法人山口・竹本知的財産事務所

(74)【代理人】

【識別番号】100075166

【弁理士】

【氏名又は名称】山口巖

(74)【代理人】

【識別番号】100133167

【弁理士】

【氏名又は名称】山本浩

(74)【代理人】

【識別番号】100169627

【弁理士】

【氏名又は名称】竹本美奈

(72)【発明者】

【氏名】ハイン，ダニエル

(72)【発明者】

【氏名】シェーナー，ホルガー

(72)【発明者】

【氏名】ウェーバー，マルククリスチャン

(72)【発明者】

【氏名】ヘーシェ，カイ

(72)【発明者】

【氏名】シュテルツィン，フォルクマール

(72)【発明者】

【氏名】ウドルフト，シュテッフェン

【テーマコード（参考）】

5H004

【Ｆターム（参考）】

5H004GA01

5H004GA05

5H004GA08

5H004GA14

5H004GB01

5H004GB04

5H004GB12

5H004GB15

5H004GB16

5H004HA16

5H004KC01

5H004KC17

5H004KC31

5H004KC55

5H004KD31

5H004KD61

(57)【要約】

本発明によれば、技術システムの運転信号(BS)が第1の機械学習モジュール(NN1)に供給され、第1の機械学習モジュールは、技術システムの運転信号(BS)に基づいて、制御動作の実際の適用なしに生じる技術システム固有の挙動信号を再現し、再現された挙動信号(VSR1)を第1の出力信号として出力するようにトレーニングされる。第１の出力信号(VSR1)が第2の機械学習モジュール(NN2)に供給され、第2の機械学習モジュールは制御動作信号(AS)に基づいて、その結果として生じる技術システムの挙動信号を再現し、再現された挙動信号(VSR2)を第2の出力信号として出力するようにトレーニングされる。さらに、技術システムの運転信号(BS)が第3の機械学習モジュール(NN3)に供給され、第3の機械学習モジュール(NN3)の第3の出力信号(AS)がトレーニングされた第2の機械学習モジュール(NN2)に供給される。第2の出力信号(VSR2)に基づいて制御動作性能(Q)が決定される。

【特許請求の範囲】

【請求項1】

技術システム（ＴＳ）のための制御装置（ＣＴＬ）を構成するための、コンピュータで実行される方法であって、
ａ）前記技術システムの運転信号（ＢＳ）が第１の機械学習モジュール（ＮＮ１）に供給され、前記第１の機械学習モジュールが、前記技術システムの運転信号（ＢＳ）に基づいて、制御動作の実際の適用なしに生じる前記技術システム固有の挙動信号を再現し、かつ、前記再現された挙動信号（ＶＳＲ１）を第１の出力信号として出力するようにトレーニングされ、
ｂ）第１の出力信号（ＶＳＲ１）が第２の機械学習モジュール（ＮＮ２）に供給され、前記第２の機械学習モジュールが制御動作信号（ＡＳ）に基づいて、その結果として生じる前記技術システムの挙動信号を再現し、かつ、前記再現された挙動信号（ＶＳＲ２）を第２の出力信号として出力するようにトレーニングされ、
ｃ）前記技術システムの運転信号（ＢＳ）が第３の機械学習モジュール（ＮＮ３）に供給され、
ｄ）前記第３の機械学習モジュール（ＮＮ３）の第３の出力信号（ＡＳ）がトレーニングされた前記第２の機械学習モジュール（ＮＮ２）に供給され、
ｅ）前記第２の出力信号（ＶＳＲ２）に基づいて制御動作性能（Ｑ）が決定され、
ｆ）前記第３の機械学習モジュール（ＮＮ３）が、前記技術システムの運転信号（ＢＳ）に基づいて前記制御動作性能（Ｑ）を最適化するようにトレーニングされ、
ｇ）前記制御装置（ＣＴＬ）が、前記第３の機械学習モジュール（ＮＮ３）に基づいて、前記第３の機械学習モジュール（ＮＮ３）の前記第３の出力信号（ＡＳ）を用いて前記技術システムを制御するように構成される、
方法。

【請求項2】

前記第３の機械学習モジュール（ＮＮ３）が、前記第１の出力信号（ＶＳＲ１）に基づいてトレーニングされることを特徴とする請求項１に記載の方法。

【請求項3】

前記制御動作性能（Ｑ）が、挙動信号の単一の時間増分に基づいて、それぞれの場合においてそれぞれの時点について決定されることを特徴とする請求項１又は２に記載の方法。

【請求項4】

前記技術システムの運転信号（ＢＳ）の第１の部分（ＳＳ１、ＶＳ１）及び／又は第２の部分（ＡＳ２、ＶＳ２）が、それらが制御動作を含むか否かによって選択され、
制御動作を含まない運転信号（ＢＳ）の第１の部分（ＳＳ１、ＶＳ１）が前記第１の機械学習モジュール（ＮＮ１）をトレーニングするために使用され、及び／又は、制御動作を含む運転信号（ＢＳ）の第２の部分（ＡＳ２、ＶＳ２）が前記第２の機械学習モジュール（ＮＮ２）をトレーニングするために使用される、
ことを特徴とする請求項１から３のいずれか１項に記載の方法。

【請求項5】

挙動信号設定値（ＯＢ）が読み込まれ、前記第２の出力信号（ＶＳＲ２）が前記挙動信号設定値（ＯＢ）と比較され、
前記比較の結果に基づいて前記制御動作性能（Ｑ）が決定される、
ことを特徴とする請求項１から４のいずれか１項に記載の方法。

【請求項6】

前記挙動信号設定値（ＯＢ）が前記第３の機械学習モジュール（ＮＮ３）に供給され、
前記第３の機械学習モジュール（ＮＮ３）が、前記挙動信号設定値（ＯＢ）に基づいて、前記制御動作性能（Ｑ）を最適化するようにトレーニングされる、
ことを特徴とする請求項５に記載の方法。

【請求項7】

前記制御動作性能（Ｑ）が、前記第１の出力信号（ＶＳＲ１）に基づいて決定されることを特徴とする請求項１から６のいずれか１項に記載の方法。

【請求項8】

前記第１の出力信号（ＶＳＲ１）と前記第２の出力信号（ＶＳＲ２）との偏差が決定され、
前記制御動作性能（Ｑ）が、前記偏差に応じて決定される、
ことを特徴とする請求項７に記載の方法。

【請求項9】

前記第１の機械学習モジュール（ＮＮ１）及び／又は前記第２の機械学習モジュール（ＮＮ２）が、前記技術システム内で実行される様々なプロセスの複数の挙動信号を別々に再現するようにトレーニングされ、
前記制御動作性能（Ｑ）が前記再現された挙動信号に応じて決定される、
ことを特徴とする請求項１から８のいずれか１項に記載の方法。

【請求項10】

特定の挙動信号設定値（ＯＢ）が、それぞれの挙動信号（ＯＢ）に対して読み込まれ、
前記制御動作性能（Ｑ）が、前記再現された挙動信号と前記特定の挙動信号設定値との比較に基づいて決定される、
ことを特徴とする請求項９に記載の方法。

【請求項11】

前記第３の機械学習モジュール（ＮＮ３）が、前記特定の運転信号設定値（ＯＢ）に基づいて前記制御動作性能（Ｑ）を最適化するようにトレーニングされることを特徴とする請求項１０に記載の方法。

【請求項12】

技術システム（ＴＳ）を制御するための制御装置（ＣＴＬ）であって、請求項１から１１のいずれか１項に記載の方法を実行するように構成された制御装置（ＣＴＬ）。

【請求項13】

請求項１から１１のいずれか１項に記載の方法を実行するように構成されたコンピュータプログラム製品。

【請求項14】

請求項１３に記載のコンピュータプログラム製品を含むコンピュータ可読記憶媒体。

【発明の詳細な説明】

【技術分野】

【0001】

機械学習法は、ガスタービン、風力タービン、燃焼エンジン、ロボット、製造設備又は電力系統のような複雑な技術システムの制御においてますます使用されている。このような学習法を使用して、トレーニングデータに基づいて制御装置の機械学習モデルをトレーニングし、その結果、技術システムの実際の運転信号に基づきその技術システム固有の所望の又は最適化された挙動を生じさせ、且つ、その性能を最適化するような、技術システムを制御するための制御動作を決定することができる。技術システムを制御するためのそのような機械学習モデルは、しばしば、ポリシー又は制御モデルとも呼ばれる。このようなポリシーをトレーニングするために、例えば強化学習法などの多数の既知のトレーニング方法が利用可能である。

【0002】

しかしながら、産業環境における制御最適化において、多数の既知のトレーニング方法では学習プロセスの収束問題及び／又は再現性に関する問題が生じる。これは、例えば、その技術システムの状態空間のわずかな部分しか考慮されないということ、技術システムのセンサデータがノイズを含んでいること、及び／又は、制御動作が一般的に時間遅延を伴っており、様々な複数の制御動作がしばしば様々な時間遅延をもたらすということに帰せられる。上記の症状は複雑な実際のシステムでよく起こり、学習効果を著しく損なう。

【発明の概要】

【発明が解決しようとする課題】

【0003】

本発明の課題は、技術システムを制御するための、より効果的なトレーニングを可能にする制御装置、及び、その制御装置を構成するための方法を提供することにある。

【課題を解決するための手段】

【0004】

この課題は、請求項１の特徴を有する方法、請求項１２の特徴を有する制御装置、請求項１３の特徴を有するコンピュータプログラム製品、及び、請求項１４の特徴を有するコンピュータ可読記憶媒体によって解決される。

【0005】

技術システムのための制御装置を構成するために、その技術システムの運転信号が第１の機械学習モジュールに供給され、この第１の機械学習モジュールは、その技術システムの運転信号に基づいて、制御動作の実際の適用なしに生じる技術システム固有の挙動信号を再現し、かつ、再現された挙動信号を第１の出力信号として出力するようにトレーニングされている。この第１の出力信号が第２の機械学習モジュールに供給され、第２の機械学習モジュールは制御動作信号に基づいて、その結果として生じるこの技術システムの挙動信号を再現し、かつ、再現されたこの挙動信号を第２の出力信号として出力するようにトレーニングされる。さらに、技術システムの運転信号が第３の機械学習モジュールに供給され、第３の機械学習モジュールの第３の出力信号がトレーニングされた第２の機械学習モジュールに供給される。第２の出力信号に基づいて制御動作性能が決定される。これにより、第３の機械学習モジュールは技術システムの運転信号に基づいて制御動作性能を最適化するようにトレーニングされる。この制御装置は最終的に、第３の機械学習モジュールに基づいて第３の機械学習モジュールの第３の出力信号を用いて技術システムを制御するように構成される。

【0006】

本発明によるこの方法を実行するために、制御装置、コンピュータプログラム製品、及び、好適には不揮発性のコンピュータ可読記憶媒体が設けられる。

【0007】

本発明による方法及び本発明による制御装置は、例えば、１つ又は複数の、コンピュータ、プロセッサ、特定用途向け集積回路（ＡＳＩＣ）、デジタル信号プロセッサ（ＤＳＰ）、及び／又は、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）によって実行又は実装することができる。

【0008】

本発明により、制御装置を著しく効果的に構成する又はトレーニングすることができる。トレーニングされた第２の機械学習モジュールが第３の機械学習モジュールのトレーニングにおいて使用されるので、第３の機械学習モジュールをトレーニングするときに、システム挙動の本質的な構成要素は、一般に、もはや潜在的に学習する又は表示する必要がなくなる。多くの場合、これは収束挙動の大幅な改善及び／又はトレーニング結果のより良い再現性につながる。このトレーニングは、さらに、トレーニングデータの変動に対して、より安定し、及び／又は、よりロバストになることが多い。さらに、多くの場合、トレーニングデータ、計算時間、及び／又は、計算資源はより少なくて済む。

【0009】

本発明の有利な実施形態及び発展形態は従属請求項に記載されている。

【0010】

本発明の有利な一実施形態によれば、第３の機械学習モジュールは、第１の出力信号に基づいてトレーニングすることができる。これにより、第３の機械学習モジュールは特に効果的にトレーニングすることができる。というのは、システム挙動に関する固有の情報が、制御動作の実際の適用なしに、第３の機械学習モジュールに利用可能であるからである。

【0011】

本発明の特に有利な一実施形態によれば、それぞれの時点に対する制御動作性能は、その都度、挙動信号の単一の時間増分に基づいて決定することができる。多くの場合、性能に対する将来の影響の複雑な決定又は推定は不要である。したがって、様々な時間スケールで実行される動的効果も効率的に考慮に入れることができる。この時間増分は、さらに、制御動作及び／又は挙動信号に応じて異なる長さとすることができ、制御動作の将来の影響を表すこともできる。

【0012】

好適に、技術システムの運転信号の第１及び／又は第２の部分は、特にそれらが制御動作を含むか否かによって選択することができる。これにより、制御動作を含まない運転信号の第１の部分は特に第１の機械学習モジュールをトレーニングするために使用することができ、及び／又は、制御動作を含む運転信号の第２の部分は特に第２の機械学習モジュールをトレーニングするために使用することができる。それぞれのトレーニング目的に対するトレーニングデータの特定の選択により、第１及び／又は第２の機械学習モジュールを特に効果的にトレーニングすることができる。

【0013】

本発明の別の有利な実施形態によれば、挙動信号設定値を読み込み、第２の出力信号をこの挙動信号設定値と比較することができる。このようにして、その比較結果に応じて、制御動作性能を決定することができる。特に、第２の出力信号と挙動信号設定値との偏差を、例えば、差の絶対値又は差の二乗の形で決定することができる。次いで、制御動作性能はこの偏差に応じて決定することができ、偏差が大きいほど、一般には、制御動作性能が低くなる。

【0014】

さらに、この挙動信号設定値を第３の機械学習モジュールに供給することができる。これにより、第３の機械学習モジュールは、その挙動信号設定値に基づいて制御動作性能を最適化するようにトレーニングすることができる。

【0015】

本発明の別の有利な実施形態によれば、制御動作性能は、第１の出力信号に基づいて決定することができる。この場合、特に第１の出力信号と第２の出力信号との偏差を、例えば、差の絶対値又は差の二乗の形で決定することができる。これに代えて又はこれに加えて、第１と第２の出力信号の和と、挙動信号設定値との偏差を決定することができる。次に、制御動作性能は、このようにして決定された偏差に応じて決定することができる。この場合、この偏差に基づき、特に、制御動作の適用を伴うシステム挙動が、制御動作の適用を伴わないシステム挙動とどのように異なるかを評価することができる。この差を用いて、制御動作性能の決定を、多くの場合、大幅に改善することができることが分かった。

【0016】

本発明の有利な一開発形態によれば、第１及び／又は第２の機械学習モジュールは、技術システム内で実行される様々なプロセスの複数の挙動信号を別々に再現するようにトレーニングすることができる。そして、その制御動作性能は、再現された挙動信号に応じて決定することができる。第１及び／又は第２の機械学習モジュールは、この目的のために特に、１組の機械学習モデル又はサブモデルを含むことができ、これらはそれぞれが技術システム内で実行される特定のプロセスをプロセス固有の方法でモデル化する。そのような別々のトレーニングは、多くの場合、結合されたトレーニングよりも効果的であることが分かっている。なぜなら、それぞれの基礎となる個別のダイナミクスは、一般に、結合されたシステムダイナミクスよりも単純な応答挙動を有するからである。

【0017】

本発明は、挙動信号の単一の、場合によっては調節可能な時間増分に基づいて、それぞれの時点での制御動作性能を決定することを可能にするので、特に、第３の機械学習モジュールのトレーニングにおいては、様々な実行速度を有する複数のプロセス間の同期問題は、一般に、より少なく生じる。多くの場合、複数のプロセス固有の機械学習モデルに対して、単一のステップで制御動作性能の比較的正確でロバストな評価を実行することが可能である。

【0018】

さらに、それぞれの１つの挙動信号に対して、１つの固有の挙動信号設定値を読み込むことができる。次いで、制御動作性能は、再現された挙動信号と固有の挙動信号設定値との比較に基づいて決定することができる。

【0019】

第３の機械学習モジュールは、特に、固有の挙動信号設定値に基づいて制御動作性能を最適化するようにトレーニングすることができる。

【0020】

本発明の一実施例を、図面を参照して以下により詳細に説明する。これらはいずれも概略図である。

【図面の簡単な説明】

【0021】

【図1】本発明による制御装置を備えたガスタービンを示す図である。

【図2】第１のトレーニング段階における本発明による制御装置を示す図である。

【図3】第２のトレーニング段階における制御装置を示す図である。

【図4】第３のトレーニング段階における制御装置を示す図である。

【発明を実施するための形態】

【0022】

図１は、制御装置ＣＴＬを備えた技術システムＴＳの例としてガスタービンを示す。これに代えて又はこれに加えて、この技術システムＴＳは、風力タービン、燃焼エンジン、製造設備、化学的、冶金的もしくは製薬的製造プロセス、ロボット、自動車、送電系統、３Ｄプリンタもしくは別の機械、別の装置、又は、他の設備を含むこともできる。

【0023】

ガスタービンＴＳは制御装置ＣＴＬと接続されており、この制御装置ＣＴＬはガスタービンＴＳの一部として、又は、全体もしくは一部をガスタービンＴＳの外部に実装することができる。図１では、制御装置ＣＴＬは、分かり易くするために、技術システムＴＳの外部に示されている。

【0024】

制御装置ＣＴＬは技術システムＴＳを制御するために使用され、この目的のために、機械学習法によってトレーニングされる。ここでは、技術システムＴＳの制御とは、技術システムＴＳの調節、ならびに、制御に関連する、すなわち、技術システムＴＳの制御に寄与するデータ又は信号の出力及び使用をも意味する。

【0025】

そのような制御関連データ又は信号は、特に、制御動作信号、予測データ、監視信号、状態データ、及び／又は、分類データを含み、これらは、特に、技術システムＴＳの運転最適化、監視又は保守、及び／又は、摩耗もしくは損傷の識別のために使用することができる。

【0026】

ガスタービンＴＳは、技術システムＴＳの１つ又は複数の運転パラメータを連続的に測定し、測定値として出力する複数のセンサＳを有している。これらセンサＳの測定値及び場合によっては別の方法で検出された技術システムＴＳの運転パラメータは、運転信号ＢＳとして技術システムＴＳから制御装置ＣＴＬに送信される。

【0027】

運転信号ＢＳは、特に、物理的な、化学的な、調節関連の、効率関連の及び／又は構造関連の運転変数、特性データ、出力データ、効率データ、状態信号、挙動信号、システムデータ、プリセット値、制御データ、制御動作信号、センサデータ、測定値、周辺データ、監視データ、予測データ、分析データ、及び／又は、技術システムＴＳの運転中に生じる及び／又は技術システムＴＳの運転状態もしくは制御動作を記述する他のデータを含むことができる。これらは、例えば、技術システムＴＳの温度、圧力、エミッション、振動、振動状態又は燃料消費に関するデータである。特にガスタービンの場合には、運転信号ＢＳは、タービン出力、回転速度、振動周波数、振動振幅、燃焼動力学、燃焼交番圧力振幅又は亜酸化窒素濃度に関する。

【0028】

トレーニングされた制御装置ＣＴＬは、運転信号ＢＳに基づいて、技術システムＴＳの性能を最適化する制御動作を決定する。この場合、最適化すべき性能は、特に、出力、収益、速度、耐用年数、精度、故障率、燃料必要量、効率、汚染物質排出、安定性、摩耗、耐用年数、及び／又は、技術システムＴＳの他の目標パラメータに関するものである。

【0029】

決定された、性能を最適化する制御動作は、それに対応する制御動作信号ＡＳを制御装置ＣＴＬから伝達することにより技術システムＴＳにもたらされる。これらの制御動作により、例えばガスタービンの場合には、ガス供給、ガス分配、又は、空気供給を調節することができる。

【0030】

図２は、本発明による学習ベースの制御装置ＣＴＬの第１のトレーニング段階における概略図である。この制御装置ＣＴＬは、技術システムＴＳを制御するために構成されている。図中、同一の又はそれに対応する参照符号が使用されている場合、これらの参照符号は同一の、又は、それに対応する対象物を示す。

【0031】

本実施例では、制御装置ＣＴＬは技術システムＴＳに接続されている。この制御装置ＣＴＬは、本発明による方法を実行するための１つ又は複数のプロセッサＰＲＯＣと、方法データを記憶するための１つ又は複数のメモリＭＥＭとを備えている。

【0032】

制御装置ＣＴＬは、技術システムＴＳからトレーニングデータとして複数の運転信号ＢＳを受信する。これらの運転信号は、特に複数の時系列、すなわち、技術システムＴＳの複数の運転パラメータ値の時間的経緯を含む。本実施例では、運転信号ＢＳは、技術システムＴＳの状態を時系列的に特定する状態信号ＳＳと、技術システムＴＳの制御動作を特定する又は実行する制御動作信号ＡＳと、技術システムＴＳのシステム挙動を特定する挙動信号ＶＳとを含む。挙動信号は、例えば、燃焼交番圧力振幅、排出量、ガスタービンの速度、又は、温度の変化を特定することができる。挙動信号ＶＳは、技術システムＴＳの特に性能に関連する技術システムＴＳの状態信号であると理解することができる。

【0033】

これらの運転信号ＢＳの少なくとも一部は、この技術システムＴＳに類似する技術システムから、この技術システムＴＳもしくはそれに類似する技術システムの記憶された運転信号を含むデータベースから、及び／又は、この技術システムＴＳもしくはそれに類似する技術システムのシミュレーションから、受け取る、又は、それらに由来することができる。

【0034】

さらに、この制御装置ＣＴＬは、第１の機械学習モジュールＮＮ１と、第２の機械学習モジュールＮＮ２と、第３の機械学習モジュールＮＮ３とを備えている。この場合、それぞれの機械学習モジュールＮＮ１、ＮＮ２ないしＮＮ３は、特に、人工ニューラルネットワークとして、又は、複数のニューラルサブネットワークの集合として構成することができる。第１の機械学習モジュールＮＮ１は、特に、第３の機械学習モジュールＮＮ３のサブモジュールとして構成することができる。

【0035】

機械学習モジュールＮＮ１、ＮＮ２、及び／又は、ＮＮ３は、好適には、教師あり学習法、強化学習法、再帰ニューラルネットワーク、畳み込みニューラルネットワーク、ベイジアンニューラルネットワーク、オートエンコーダ、ディープラーニングアーキテクチャ、サポートベクトルマシン、データ駆動型トレーニング可能回帰モデル、k-最近傍分類器、物理的モデル、決定木、及び／又は、ランダムフォレストを使用又は実装することができる。上述された変形例及びそのトレーニングのために、多数の効果的な実装が利用可能である。

【0036】

ここでは、トレーニングは一般的に、入力信号の出力信号への再現を最適化することを意味する。この再現はトレーニング段階中に、予め与えられた基準、及び／又は、学習される基準に従って最適化される。この場合、基準として、例えば、予測モデルでは予測誤差を、分類モデルでは分類誤差を、又は、制御モデルでは制御動作の結果を用いることができる。このトレーニングにより、例えば、ニューラルネットワークの複数のニューロンのネットワーキング構造及び／又はニューロン間の接続の重みを、予め与えられた複数の基準が可能な限り良好に満たされるように、調整又は最適化することができる。したがって、トレーニングは、最適化問題として理解することができる。機械学習の分野では、このような最適化問題に対して多数の効果的な最適化手法が利用可能である。勾配降下法、粒子群最適化法、及び／又は、遺伝的最適化法を特に使用することができる。

【0037】

図２に示す第１のトレーニング段階では、第１の機械学習モジュールＮＮ１がトレーニングされる。これは、技術システムＴＳの運転信号に基づいて技術システムＴＳの挙動を予測又は再現するようにトレーニングされ、これは制御動作を実際に行うことなしに展開される。

【0038】

トレーニング効果を改善するために、好適に、制御動作なしに又は制御動作の影響なしにトレーニングデータを取得するために、複数のトレーニングデータＢＳが第１の機械学習モジュールＮＮ１に接続されたフィルタＦ１によってフィルタリングされる。この目的のために、複数の運転信号ＢＳがフィルタＦ１に供給される。フィルタＦ１は、運転信号に含まれている制御動作信号ＡＳに基づいて運転信号ＢＳ内の制御動作を検出するための制御動作検出器ＡＳＤを備えている。

【0039】

制御動作検出器ＡＳＤによる制御動作の検出に応じて、運転信号ＢＳの第１の部分がフィルタＦ１によって選択され、運転信号ＢＳから取り出される。この場合、好適に、制御動作を含まない及び／又は制御動作の影響を含まない、運転信号ＢＳの第１の部分が選択される。したがって、運転信号ＢＳの第１の部分は、実際の制御動作が検出された後に例えば1つの時間窓から取り出すことができ、この場合、この時間窓は、この制御動作がシステム挙動にまだ影響を及ぼすことができないように選択される。

【0040】

フィルタリングされた運転信号ＢＳの第１の部分は、状態信号ＳＳの第１の部分ＳＳ１及び挙動信号ＶＳの第１の部分ＶＳ１を含む。これら第１の部分ＳＳ１及びＶＳ１は、フィルタＦ１を通して出力され、第１の機械学習モジュールＮＮ１をトレーニングするために使用される。

【0041】

状態信号ＳＳの第１の部分ＳＳ１はトレーニングのために入力信号として第１の機械学習モジュールＮＮ１に供給される。このトレーニングの目的は、第１の機械学習モジュールＮＮ１が、技術システムＴＳの１つの運転信号に基づいて、制御動作の実際の適用なしに生じる技術システムの１つの運転信号を可能な限り良好に再現することである。このことは、第１の機械学習モジュールＮＮ１の出力信号ＶＳＲ１（以下、第１の出力信号と呼ぶ）が、技術システムＴＳの実際の挙動信号と可能な限り良好に一致することを意味する。この目的のために、第１の出力信号ＶＳＲ１と、これに対応する挙動信号ＶＳの第１の部分ＶＳ１との偏差Ｄ１が決定される。この場合、偏差Ｄ１は、第１の機械学習モジュールＮＮ１の再現誤差又は予測誤差を表す。偏差Ｄ１は、特に、Ｄ１＝（ＶＳ１－ＶＳＲ１）^２、又は、Ｄ１＝│ＶＳ１－ＶＳＲ１│によって、差、特にベクトル差、の二乗、又は、絶対値として計算することができる。

【0042】

図２に破線矢印で示すように、偏差Ｄ１は、第１の機械学習モジュールＮＮ１にフィードバックされる。フィードバックされた偏差Ｄ１に基づいて、第１の機械学習モジュールＮＮ１は、この偏差Ｄ１、ひいては再現誤差が最小化されるようにトレーニングされる。偏差Ｄ１を最小化するために、すでに上述したように、例えば勾配降下法、粒子群最適化法又は遺伝的最適化法などの多数の最適化法が利用可能である。このようにして、第１の機械学習モジュールＮＮ１は、教師あり学習法によりトレーニングされる。トレーニングされた第１の機械学習モジュールＮＮ１の第１の出力信号ＶＳＲ１は、制御動作の実際の適用なしで生じる技術システムＴＳの運転信号を再現する。

【0043】

フィルタリングされた運転信号ＳＳ１及びＶＳ１がトレーニングのために使用されるので、第１の機械学習モジュールＮＮ１はこのトレーニング目的に向けて特に効果的にトレーニングされる。この第１の機械学習モジュールＮＮ１は制御装置ＣＴＬの外部でもトレーニングされ得ることに留意すべきである。

【0044】

上記のトレーニング方法は、特に有利な方法で、技術システムＴＳ内で実行される様々なプロセスの複数の挙動信号を別々に再現するために使用することができる。この目的のために、第１の機械学習モジュールＮＮ１はプロセス固有の複数のニューラルサブネットワークを備えることができ、これらのサブネットワークは、上述のように、それぞれ別々に、すなわち、プロセス固有の挙動信号を用いて個別にトレーニングされる。そのような別々のトレーニングは、多くの場合、結合されたトレーニングよりも効果的であることが判っている。それは、それぞれの基礎となる個々のダイナミクス自体が、一般に、より単純な、及び／又は、より均一な応答挙動を有するからである。

【0045】

図３は、第２のトレーニング段階における制御装置ＣＴＬを示す。第２のトレーニング段階では、第２の機械学習モジュールＮＮ２は、技術システムＴＳの運転信号ＢＳに基づいて、特に、その中に含まれる制御動作信号ＡＳに基づいて、それぞれの制御動作によって誘発される技術システムＴＳの挙動を予測又は再現するようにトレーニングされる。

【0046】

第２の機械学習モジュールＮＮ２をトレーニングするために、制御装置ＣＴＬはトレーニングデータとして技術システムＴＳから技術システムＴＳの運転信号ＢＳを受信する。すでに述べたように、運転信号ＢＳは、特に、状態信号ＳＳ、制御動作信号ＡＳ、及び、挙動信号ＶＳの複数の時系列を含む。第２の機械学習モジュールＮＮ２をトレーニングするために、それに加えて、トレーニングされた第１の機械学習モジュールＮＮ１が使用される。本実施例では、第２の機械学習モジュールＮＮ２のトレーニング時には、第１の機械学習モジュールＮＮ１のトレーニングは既に完了している。

【0047】

トレーニング効果を改善するために、トレーニングデータＢＳは、複数の制御動作又はこれら制御動作の影響を含むトレーニングデータを好適に取得するために、第２の機械学習モジュールＮＮ２に接続されたフィルタＦ２によってフィルタリングされる。

【0048】

この目的のために、運転データＢＳがフィルタＦ２に供給される。フィルタＦ２は、運転信号ＢＳ内の複数の制御動作をその中に含まれる制御動作信号ＡＳに基づいて個別に検出するための制御動作検出器ＡＳＤを含む。制御動作検出器ＡＳＤによる制御動作の検出に応じて、運転信号ＢＳの第２の部分がフィルタＦ２によって選択され、運転信号ＢＳから取り出される。この場合、好適に、複数の制御動作及び／又はこれら制御動作の影響を含む運転信号ＢＳの第２の部分が選択される。運転信号ＢＳの第２の部分は、例えば、その都度検出された制御動作に関する時間窓から、及び／又は、それぞれの制御動作の影響が予期される時間窓から取り出すことができる。運転信号ＢＳのフィルタリングされた第２の部分は、特に、挙動信号ＶＳの第２の部分ＶＳ２、及び、複数の制御動作信号が含まれている第２の部分ＡＳ２を含む。運転信号ＢＳの第２の部分であるＡＳ２及びＶＳ２はフィルタＦ２を通して出力され、第２の機械学習モジュールＮＮ２をトレーニングするために使用される。

【0049】

このトレーニングのために、運転信号ＢＳの第２の部分ＡＳ２が入力信号として第２の機械学習モジュールＮＮ２に供給される。さらに、運転信号ＢＳは、既にトレーニングされた第１の機械学習モジュールＮＮ１に供給され、このモジュールは、そこから挙動信号ＶＳＲ１を導出し、第１の出力信号として出力する。この挙動信号ＶＳＲ１は、上述のように、技術システムＴＳの挙動信号を再現するものであり、これは制御動作の実際の適用なしで生じる。この挙動信号ＶＳＲ１は、さらなる入力信号として、第２の機械学習モジュールＮＮ２に供給される。

【0050】

このトレーニングの目的は、第２の機械学習モジュールＮＮ２が、複数の制御動作を含む運転信号、ここではＡＳ２、に基づいて、及び、制御動作の実際の適用なしで生じる挙動信号、ここではＶＳＲ１、に基づいて、これらの制御動作によって導出された技術システムＴＳの挙動信号を可能な限り正確に再現することである。すなわち、第２の機械学習モジュールＮＮ２の出力信号ＶＳＲ２（以下、第２の出力信号と呼ぶ）が複数の制御動作の影響の下で可能な限り良好に技術システムＴＳの実際の挙動信号と一致することがその目的である。

【0051】

このトレーニングの過程で、第２の出力信号ＶＳＲ２と、これに対応する挙動信号ＶＳの第２の部分ＶＳ２との偏差Ｄ２が決定される。この場合、この偏差Ｄ２は、第２の機械学習モジュールＮＮ２の再現誤差又は予測誤差を表す。この偏差Ｄ２は、例えば、Ｄ２＝（ＶＳ２－ＶＳＲ２）^２、又は、Ｄ２＝│ＶＳ２－ＶＳＲ２│によって、差、特にベクトル差、の二乗、又は、絶対値として計算することができる。

【0052】

図３に破線矢印で示すように、偏差Ｄ２は第２の機械学習モジュールＮＮ２にフィードバックされる。フィードバックされた偏差Ｄ２に基づいて、第２の機械学習モジュールＮＮ２は、この偏差Ｄ２、ひいては再現誤差が最小化されるようにトレーニングされる。すでに述べたように、偏差Ｄ２を最小化するために、多数の既知の最適化方法、特に教師あり学習方法を使用することができる。

【0053】

トレーニングされた第２の機械学習モジュールＮＮ２の第２の出力信号ＶＳＲ２は、制御動作の実際の適用によって導出される技術システムＴＳの挙動信号を再現する。

【0054】

フィルタリングされた運転信号ＡＳ２及びＶＳ２がこのトレーニングのために使用されるので、第２の機械学習モジュールＮＮ２は、このトレーニング目的に向けて特に効果的にトレーニングされる。さらに、挙動信号ＶＳＲ１を第２の機械学習モジュールＮＮ２に供給することにより、多くの場合、トレーニング効果を大幅に高めることが可能となる。というのは、第２の機械学習モジュールＮＮ２には、制御動作により誘起されたシステム挙動と制御動作のないシステム挙動との差に関する固有の情報が提供されるからである。第２の機械学習モジュールＮＮ２は制御装置ＣＴＬの外部でもトレーニング可能であることに留意すべきである。

【0055】

上記のトレーニング方法は、特に有利な方法で、技術システムＴＳ内で実行される様々なプロセスの複数の挙動信号を別々に再現するために使用することができる。この目的のために、第２の機械学習モジュールＮＮ２は、第１の機械学習モジュールＮＮ１と同様に、プロセス固有の複数のニューラルサブネットワークを備えることができ、これらのサブネットワークは、上述のように、それぞれ別々に、すなわち、プロセス固有の挙動信号を用いて個別にトレーニングされる。

【0056】

図４は、第３のトレーニング段階における制御装置ＣＴＬを示す。第３のトレーニング段階では、第３の機械学習モジュールＮＮ３が、技術システムＴＳの運転信号に基づいて、この技術システムを制御するための性能を最適化する制御動作信号を生成するようにトレーニングされる。この場合、最適化は、最適値に近づくことをも意味する。第３の機械学習モジュールＮＮ３をトレーニングすることにより、制御装置ＣＴＬは技術システムＴＳを制御するように構成される。

【0057】

第３の機械学習モジュールＮＮ３をトレーニングするために、制御装置ＣＴＬは技術システムＴＳからトレーニングデータとして技術システムＴＳの運転信号ＢＳを受信する。このトレーニングのために、上述のように、特に、トレーニングされた第１の機械学習モジュールＮＮ１及び第２の機械学習モジュールＮＮ２が使用される。本実施例では、第３の機械学習モジュールＮＮ３のトレーニング時には、機械学習モジュールＮＮ１及びＮＮ２のトレーニングは既に完了している。

【0058】

上述の構成要素に加えて、制御装置ＣＴＬは、機械学習モジュールＮＮ１、ＮＮ２及びＮＮ３に接続された性能評価器ＥＶを備えている。さらに、第１の機械学習モジュールＮＮ１は機械学習モジュールＮＮ２及びＮＮ３に接続され、第２の機械学習モジュールＮＮ２は第３の機械学習モジュールＮＮ３に接続されている。

【0059】

性能評価器ＥＶは、それぞれの制御動作に対して、その制御動作によって引き起こされた技術システムＴＳの挙動の性能を決定するために使用される。この目的のために、報酬関数Ｑが評価される。報酬関数Ｑは、報酬、ここでは既に幾度も述べたように、実際のシステム挙動の性能を決定し、定量化する。そのような報酬関数は、しばしば、コスト関数、損失関数、目的関数、報酬関数又は価値関数とも呼ばれる。報酬関数Ｑは、例えば、運転状態の関数、制御動作の関数、及び、システム挙動のための１つ又は複数の設定値ＯＢの関数として実装することができる。

【0060】

複数の挙動信号が機械学習モジュールＮＮ１、ＮＮ２、ＮＮ３によって、及び／又は、性能評価器ＥＶによって評価される場合には、複数の挙動信号設定値ＯＢを、それぞれの挙動信号に対してそれぞれ固有に事前に設定することができる。

【0061】

第３の機械学習モジュールＮＮ３をトレーニングするために、複数の運転信号ＢＳが入力信号として、トレーニングされた機械学習モジュールＮＮ１及びＮＮ２に供給されるとともに、第３の機械学習モジュールＮＮ３に供給される。

【0062】

これらの運転信号ＢＳに基づいて、トレーニングされた第１の機械学習モジュールＮＮ１は、制御動作の実際の適用なしに生じる技術システムＴＳの挙動信号ＶＳＲ１を再現する。この再現された挙動信号ＶＳＲ１は、第１の機械学習モジュールＮＮ１から第２の機械学習モジュールＮＮ２、第３の機械学習モジュールＮＮ３及び性能評価器ＥＶに供給される。さらに、１つ又は複数の挙動信号設定値ＯＢが第３の機械学習モジュールＮＮ３及び性能評価器ＥＶに供給される。

【0063】

運転信号ＢＳから、再現された挙動信号ＶＳＲ１から、及び、１つ又は複数の挙動信号設定値ＯＢからの結果として生じる第３の機械学習モジュールＮＮ３の出力信号ＡＳ（以下、第３の出力信号と呼ぶ）が、次に、入力信号として、トレーニングされた第２の機械学習モジュールＮＮ２に供給される。トレーニングされた第２の機械学習モジュールＮＮ２は、第３の出力信号ＡＳ、再現された挙動信号ＶＳＲ１及び運転信号ＢＳに基づいて、技術システムＴＳの制御動作により誘発された挙動信号ＶＳＲ２を再現し、これがトレーニングされた第２の機械学習モジュールＮＮ２から性能評価器ＥＶに供給される。

【0064】

性能評価器ＥＶは、再現された挙動信号ＶＳＲ２に基づき、再現された第１の挙動信号ＶＳＲ１及び１つ又は複数の挙動信号設定値ＯＢを考慮に入れて、技術システムＴＳの実際の性能を定量化する。この場合、性能評価器ＥＶは、特に、１つ又は複数の挙動信号設定値ＯＢからの、制御動作により誘発された挙動信号ＶＳＲ２の第１の偏差を決定する。偏差が増大する場合には、通常は、制御動作性能は小さくなる。さらに、制御動作により誘起された挙動信号ＶＳＲ２と挙動信号ＶＳＲ１との間の第２の偏差も決定される。この第２の偏差に基づいて、性能評価器ＥＶは、制御動作の適用を伴うシステム挙動が、制御動作の適用を伴わないシステム挙動とどのように異なるかを評価することができる。この差異により、多くの場合、性能評価を大幅に改善できることが分かった。

【0065】

報酬関数Ｑにより決定された制御動作性能は、図４の破線矢印で示すように、第３の機械学習モジュールＮＮ３にフィードバックされる。フィードバックされた制御動作性能に基づいて、第３の機械学習モジュールＮＮ３は、その制御動作性能を最大化するようにトレーニングされる。既に幾度も述べたように、制御動作性能を最大化するために、多数の既知の最適化方法を使用することができる。

【0066】

第２の機械学習モジュールＮＮ２が入力信号として特に制御動作信号を確実に得られる限り、第３の機械学習モジュールＮＮ３はこのような制御動作信号、ここではＡＳを出力するように、暗黙的にトレーニングされる。この制御動作性能の最適化によって、第３の機械学習モジュールＮＮ３は性能を最適化する制御動作信号ＡＳを出力するようにトレーニングされる。

【0067】

運転信号ＢＳに加えて、再現された挙動信号ＶＳＲ１も第３の機械学習モジュールＮＮ３をトレーニングするために使用されるので、第３の機械学習モジュールＮＮ３は特に効果的にトレーニングすることができる。というのは、制御動作のないシステム挙動に関する固有の情報が第３の機械学習モジュールＮＮ３に利用可能であるからである。

【0068】

本発明の特別の利点は、第３の機械学習モジュールＮＮ３をトレーニングするとき、多くの場合、性能評価器ＥＶを使用して、それぞれの１つの時点について、挙動信号のそれぞれ単一の、必要に応じ調整可能な、時間増分のみを評価すれば十分であるという点にある。多くの場合、将来の報酬の複雑な決定又は推定は不要である。したがって、複数の様々な時間スケールで実行される効果も効率的に考慮に入れることができる。

【0069】

さらに、挙動信号ＶＳＲ２に対して、複数の変化する挙動信号設定値ＯＢが予め与えられているので、予め与えられた運転信号のデータセットを第３の機械学習モジュールＮＮ３をトレーニングするために何度も使用することができる。これにより、複数の同じ運転信号から、異なる、設定値固有の制御動作信号を学習することができ、制御動作空間のより良好なカバー率を達成することができる。

【0070】

第３の機械学習モジュールＮＮ３のこのトレーニングにより、制御装置ＣＴＬは、技術システムＴＳを、トレーニングされた第３の機械学習モジュールＮＮ３の制御動作信号ＡＳを用いて、性能を最適化するように制御すべく構成される。

【図1】