特許7463515 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ シーメンス　アクチエンゲゼルシヤフトの特許一覧

特許7463515技術システムを制御する制御装置および制御装置を構成する方法

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】

(24)【登録日】2024-03-29

(45)【発行日】2024-04-08

(54)【発明の名称】技術システムを制御する制御装置および制御装置を構成する方法

(51)【国際特許分類】

G05B 13/02 20060101AFI20240401BHJP

G06N 20/00 20190101ALI20240401BHJP

【ＦＩ】

G05B13/02 L

G05B13/02 J

G06N20/00

【請求項の数】 15

(21)【出願番号】P 2022535874

(86)(22)【出願日】2020-12-01

(65)【公表番号】

(43)【公表日】2023-03-06

(86)【国際出願番号】 EP2020084025

(87)【国際公開番号】W WO2021121946

(87)【国際公開日】2021-06-24

【審査請求日】2022-10-13

(31)【優先権主張番号】19217606.3

(32)【優先日】2019-12-18

(33)【優先権主張国・地域又は機関】EP

(73)【特許権者】

【識別番号】390039413

【氏名又は名称】シーメンスアクチエンゲゼルシヤフト

【氏名又は名称原語表記】ＳｉｅｍｅｎｓＡｋｔｉｅｎｇｅｓｅｌｌｓｃｈａｆｔ

(74)【代理人】

【識別番号】110003317

【氏名又は名称】弁理士法人山口・竹本知的財産事務所

(74)【代理人】

【識別番号】100075166

【弁理士】

【氏名又は名称】山口巖

(74)【代理人】

【識別番号】100133167

【弁理士】

【氏名又は名称】山本浩

(74)【代理人】

【識別番号】100169627

【弁理士】

【氏名又は名称】竹本美奈

(72)【発明者】

【氏名】ハイン，ダニエル

(72)【発明者】

【氏名】シェーナー，ホルガー

(72)【発明者】

【氏名】ウェーバー，マルククリスチャン

【審査官】大古健一

(56)【参考文献】

【文献】特表２０１４－５２５０６３（ＪＰ，Ａ）

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｇ０５Ｂ１／００－７／０４

Ｇ０５Ｂ１１／００－１３／０４

Ｇ０５Ｂ１７／００－１７／０２

Ｇ０５Ｂ２１／００－２１／０２

Ｇ０５Ｂ２３／００－２３／０２

Ｇ０６Ｎ２０／００

(57)【特許請求の範囲】

【請求項1】

機械学習法を用いて技術システム（ＴＳ）用の制御装置（ＣＴＬ）を構成するコンピュータ実装方法において、
ａ）前記機械学習法用の訓練データ（ＴＤ）の時系列が収集され、前記訓練データ（ＴＤ）は、前記技術システム（ＴＳ）の状態を特定する状態データ（ＳＤ）と、前記技術システム（ＴＳ）の制御動作を特定する制御動作データ（ＡＤ）と、を含み、
ｂ）前記制御動作データ（ＡＤ）の経時変化量（ΔＡＤ）が収集され、
ｃ）前記制御動作データ（ＡＤ）の前記経時変化量（ΔＡＤ）は相異なる時間窓（ＴＦ）内の前記状態データ（ＳＤ）の経時変化量（ΔＳＤ）と相関付けられ、それぞれ時間窓特有の相関値（ＣＣ）が計算され、
ｄ）前記計算された相関値（ＣＣ）に応じて獲得時間窓（ＲＴＦ）が決定され、
ｅ）前記獲得時間窓（ＲＴＦ）内に存在する前記訓練データ（ＦＴＤ）が時間窓特有に抽出され、
ｆ）前記制御装置（ＣＴＬ）は前記機械学習法を用いて前記抽出された訓練データ（ＦＴＤ）に基づいて訓練されることにより、前記技術システム（ＴＳ）を制御するように構成される、方法。

【請求項2】

前記技術システム（ＴＳ）は、ガスタービン、風力タービン、太陽光発電所、発電所、内燃機関、ロボット、製造プラント、自動車、交通案内システム、建物用エネルギー制御システム、エネルギー伝送ネットワークまたは３Ｄプリンタを含む、請求項１に記載の方法。

【請求項3】

相異なる時間窓（ＴＦ）についての前記相関値（ＣＣ）が比較され、
これに応じて、前記相関値（ＣＣ）に関して最適化された時間窓が前記獲得時間窓（ＲＴＦ）として決定される、請求項１または２に記載の方法。

【請求項4】

複数の相異なる時間窓（ＴＦ）が生成され、前記生成が、前記生成された時間窓（ＴＦ）のそれぞれの相関値（ＣＣ）が最適化されるように、数理最適化手法を用いて制御される、請求項１～３のいずれか１項に記載の方法。

【請求項5】

最適化手法として、最急降下法、粒子群最適化および／または遺伝的最適化手法が用いられる、請求項４に記載の方法。

【請求項6】

前記制御動作データ（ＡＤ）が、相異なる制御動作を特定する動作成分を含み、
前記制御動作データ（ＡＤ）の前記経時変化が、それぞれの動作成分について収集され、
前記相関値（ＣＣ）の計算が、それぞれの動作成分について行われ、
これに応じて、前記獲得時間窓（ＲＴＦ）が、動作成分特有の時間窓の組み合わせにより決定される、請求項１～５のいずれか１項に記載の方法。

【請求項7】

前記状態データ（ＳＤ）が、前記技術システム（ＴＳ）の相異なる状態パラメータを特定する状態成分を含み、
前記相関値（ＣＣ）の計算が、それぞれの状態成分について行われ、
これに応じて、前記獲得時間窓（ＲＴＦ）が、状態成分特有の時間窓の組み合わせにより決定される、請求項１～６のいずれか１項に記載の方法。

【請求項8】

前記制御動作データ（ＡＤ）の複数の経時変化量（ΔＡＤ）が収集され、相異なる、前記制御動作データ（ＡＤ）のそれぞれの前記経時変化量（ΔＡＤ）に関して定義される時間窓（ＴＦ）にわたって、それぞれ前記状態データ（ＳＤ）の複数の経時変化量（ΔＳＤ）と相関付けられ、それぞれ時間窓特有の相関値（ＣＣ）が計算される、請求項１～７のいずれか１項に記載の方法。

【請求項9】

前記獲得時間窓（ＲＴＦ）が相異なる時間窓（ＴＦ）の和集合、平均および／または連続的に重み付けされた平均値、中央値、最大値および／または最小値の組み合わせによって決定される、請求項１～８のいずれか１項に記載の方法。

【請求項10】

前記状態データ（ＳＤ）および／または前記制御動作データ（ＡＤ）が、集約時間窓にわたって集約され、
前記獲得時間窓（ＲＴＦ）の決定が、前記集約された状態データ（ＳＤ）および／または前記集約された制御動作データ（ＡＤ）に基づいて行われる、請求項１～９のいずれか１項に記載の方法。

【請求項11】

相異なる集約時間窓が用いられ、
前記相関値（ＣＣ）の計算が、それぞれの集約時間窓について行われ、
計算された前記相関値（ＣＣ）に応じて、前記相関値（ＣＣ）に関して最適化された集約時間窓が決定され、用いられる、請求項１０に記載の方法。

【請求項12】

前記獲得時間窓（ＲＴＦ）外に存在する訓練データ（ＴＤ）が前記制御装置（ＣＴＬ）の訓練の際にサプレスまたは破棄される、請求項１～１１のいずれか１項に記載の方法。

【請求項13】

技術システム（ＴＳ）を制御する制御装置（ＣＴＬ）であって、請求項１～１２のいずれか１項に記載の方法を実施するように構成される制御装置（ＣＴＬ）。

【請求項14】

請求項１～１２のいずれか１項に記載の方法をコンピュータに実施させるように構成されるコンピュータプログラム。

【請求項15】

請求項１４に記載のコンピュータプログラムを備えるコンピュータ可読記憶媒体。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、技術システムを制御する制御装置および制御装置を構成する方法に関する。

【背景技術】

【0002】

複雑な技術システム、例えばガスタービン、風力タービン、内燃機関、ロボット、製造プラント、自動車または電力グリッドは、生産運転について、例えば技術システムの収支、必要資源、効率、汚染物質排出、損耗および／または他のパラメータを特に最適化するために、一般にコストがかかる構成を必要とする。

【0003】

技術システムの最近の制御装置は、構成のために機械学習法を用いることが多い。そのような学習法を用いて、制御装置は、特に技術システムの所望のまたはその他の最適な挙動を生じさせる、技術システムを制御する制御動作を技術システムの現在の運転データに基づいて決定するように、訓練データに基づいて訓練可能である。このために、多数の周知の学習法、例えば強化学習法が利用可能である。この場合、訓練データとして、特に技術システムまたは同様の技術システムの過去および／または現在の運転データを使用することができる。

【0004】

周知の学習法の場合、訓練を成功させるためには、一般に、さらに技術システムの運転条件を可能な限り表現して満たす大量の訓練データが必要とされる。表現する訓練データが少なすぎるか、関連する運転条件があまり満たされていない場合、訓練の成功に負の影響を与えることがある。

【発明の概要】

【発明が解決しようとする課題】

【0005】

本発明の課題は、より効率的な訓練を可能にする、技術システムを制御する制御装置および制御装置を構成する方法を提供することである。

【課題を解決するための手段】

【0006】

本課題は請求項１の特徴を有する方法、請求項１３の特徴を有する制御装置、請求項１４の特徴を有するコンピュータプログラム製品および請求項１５の特徴を有するコンピュータ可読記憶媒体により解決される。

【0007】

機械学習法を用いて技術システム用の制御装置を構成するために、機械学習法用の訓練データの時系列が収集される。ここで、訓練データは、技術システムの状態を特定する状態データと、技術システムの制御動作を特定する制御動作データとを含む。技術システムは、特にガスタービン、風力タービン、太陽光発電所、発電所、内燃機関、ロボット、製造プラント、自動車、交通案内システム、建物用エネルギー制御システム、エネルギー伝送ネットワーク、３Ｄプリンタまたは他の機械を含んでよい。本発明によると、制御動作データの経時変化が特に収集され、相異なる時間窓内の状態データの経時変化と相関付けられ、それぞれ時間窓特有の相関値が計算される。ここで、計算された相関値に応じて獲得時間窓が決定され、獲得時間窓内に存在する訓練データが時間窓特有に抽出される。ここで、制御装置は機械学習法を用いて抽出された訓練データに基づいて訓練されることにより、技術システムを制御するように構成される。

【0008】

本発明に係る方法を実施するために、制御装置、コンピュータプログラム製品および好ましくは不揮発性のコンピュータ可読記憶媒体が提供される。

【0009】

本発明に係る方法および本発明に係る制御装置は、例えば１つまたは複数のコンピュータ、プロセッサ、特定用途向け集積回路（ＡＳＩＣ）、デジタルシグナルプロセッサ（ＤＳＰ）および／またはいわゆる「フィールドプログラマブルゲートアレイ」（ＦＰＧＡ）を用いて実施または実装することができる。

【0010】

獲得時間窓が、その中に含まれる状態データの経時変化が制御動作データの経時変化と相関するように特に決定される場合、獲得時間窓に含まれる訓練データが、技術システムの状態に対する制御介入の効果に関する情報を平均以上多く含むことが期待される。獲得時間窓内に存在する訓練データを特に抽出し利用することにより、制御介入とその効果との間の因果関係を、多くの場合、大幅により迅速かつ効率的に学習することが可能であることが分かっている。広く流布している知見とは対照的に、多くの場合、特に選択された訓練データに限定される訓練は、利用可能な全ての訓練データを用いた訓練よりも効率的であることを認めることができる。関連性に乏しいか冗長な訓練データは、訓練の成功を後退させることさえある。

【0011】

本発明の有利な実施形態および発展形態は従属請求項に記載されている。

【0012】

本発明の有利な実施形態によると、相異なる時間窓についての相関値が比較されてよい。これに応じて、相関値に関して最適化された時間窓が獲得時間窓として決定されてよい。特に、最も高い相関性または最も高い反相関性を示す相関値を有する時間窓は、獲得時間窓として選択されてよい。代替的または追加的に、獲得時間窓は、高いかまたは特に高い相関性または反相関性を有する相異なる時間窓の組み合わせにより決定されてよい。

【0013】

本発明のさらなる有利な実施形態によると、複数の相異なる時間窓が生成されてよく、生成が、生成された時間窓のそれぞれの相関値が最適化されるように、数理最適化手法を用いて制御される。このようにして、一般に特に訓練を促進することが分かっている、特に高い相関性を有する訓練データを得ることができる。

【0014】

好ましくは、最適化手法として、最急降下法、粒子群最適化および／または遺伝的最適化手法が用いられてよい。上記最適化手法には、多数の実装が利用可能である。

【0015】

本発明のさらなる有利な実施形態によると、制御動作データが、相異なる制御動作を特定する動作成分を含んでよい。ここで、制御動作データの経時変化が、特にそれぞれの動作成分について収集されてよく、相関値の計算が、特にそれぞれの動作成分について行われてよい。これに応じて、獲得時間窓が、動作成分特有の時間窓の組み合わせにより決定されてよい。特に、このために、高い相関性を有する動作成分特有の時間窓が、動作成分特有の重み付けを用いて組み合わされてよい。

【0016】

また、状態データが、技術システムの相異なる状態パラメータを特定する状態成分を含んでよい。ここで、相関値の計算が、特にそれぞれの状態成分について行われてよい。これに応じて、獲得時間窓が、状態成分特有の時間窓の組み合わせにより決定されてよい。特に、このために、高い相関性を有する状態成分特有の時間窓が、状態成分特有の重み付けを用いて組み合わされてよい。

【0017】

好ましくは、制御動作データの複数の経時変化が収集されてよく、相異なる、制御動作データのそれぞれの経時変化に関して定義される時間窓にわたって、それぞれ状態データの複数の経時変化と相関付けられてよく、それぞれ時間窓特有の相関値が計算される。このようにして、計算される相関値の統計的有意性を一般に大幅に向上させることができる。

【0018】

本発明のさらなる有利な実施形態によると、獲得時間窓が相異なる時間窓の和集合、平均および／または他の特に重み付けされた組み合わせによって決定されてよい。重み付けには、特に、動作成分特有および／または状態成分特有の重みが用いられてよい。このようにして、全部または少なくとも大部分の動作成分および／または状態成分について高い相関性を有する獲得時間窓を決定することができる。

【0019】

本発明の有利な発展形態によると、状態データおよび／または制御動作データが、集約時間窓にわたって集約されてよい。ここで、獲得時間窓の決定が、集約された状態データおよび／または集約された制御動作データに基づいて行われてよい。そのような集約により、状態データおよび／または制御動作データを経時的に加算しおよび／または減算することができる。例えば、連続的に必要に応じて重み付けされた平均値、中央値、最大値、最小値ならびに／または複数の時間的に連続する状態データおよび／もしくは制御動作データの他の組み合わせが形成されることによる。このようにして、因果関係の検出を困難にする場合がある状態データおよび／または制御動作データのランダムなまたは異常なゆらぎを、少なくとも部分的に埋め合わせすることができる。

【0020】

好ましくは、相異なる集約時間窓が用いられてよく、相関値の計算が、特にそれぞれの集約時間窓について行われてよい。これに応じて、相関値に関して最適化された集約時間窓が決定され、用いられてよい。

【0021】

本発明のさらなる有利な実施形態によると、獲得時間窓外に存在する訓練データが制御装置の訓練の際にサプレスまたは破棄されてよい。代替的または追加的に、獲得時間窓外に存在する訓練データを訓練の際に抽出された訓練データよりも小さく重み付けすることができる。

【0022】

以下、図面を参照して本発明の実施形態例をより詳細に説明する。図はそれぞれ概略的に示すものである。

【図面の簡単な説明】

【0023】

【図1】図１は、本発明に係る制御装置を有するガスタービンを示す。

【図2】図２は、訓練段階における本発明に係る制御装置を示す。

【図3】図３は、訓練データが時間に対してプロットされている図である。

【発明を実施するための形態】

【0024】

図１は、一例として、技術システムＴＳとしてガスタービンを示す。代替的または追加的に、技術システムＴＳは、風力タービン、太陽光発電所、発電所、内燃機関、ロボット、製造プラント、自動車、交通案内システム、建物用エネルギー制御システム、エネルギー伝送ネットワーク、３Ｄプリンタまたは他の機械も含んでよい。

【0025】

ガスタービンＴＳは、ガスタービンＴＳの一部としてまたはガスタービンＴＳの全体的もしくは部分的に外部で実装されてよいコンピュータ支援で訓練可能な制御装置ＣＴＬと接続される。制御装置ＣＴＬは技術システムＴＳを制御するように働き、この目的のために機械学習法を用いて訓練可能である。ここで、技術システムＴＳの制御とは、また、技術システムＴＳを調整すること、制御関連のデータおよび制御信号、言い換えれば技術システムＴＳの制御に寄与するデータおよび制御信号を出力および使用することと理解されてよい。

【0026】

そのような制御関連のデータは、特に技術システムＴＳの運転最適化、監視または保守のためおよび／または損耗もしくは損傷を検出するために用いられてよい、特に制御動作データ、予測データ、監視データおよび／または分類データを含んでよい。

【0027】

さらに、ガスタービンＴＳは、技術システムＴＳの１つまたは複数の運転パラメータを連続的に計測し運転データＢＤの形式で制御装置ＣＴＬに送信する、制御装置ＣＴＬと接続されたセンサＳを有する。センサデータに加えて、制御装置ＣＴＬにより、技術システムＴＳの他のデータソースからまたは外部データソースからさらなる運転パラメータがさらに収集されてよい。

【0028】

この場合そして以下において、運転データＢＤは、特に、物理的、制御技術的、動作技術的および／または設計に関する運転値、特性データ、性能データ、効果データ、状態データ、システムデータ、設定値、制御データ、センサデータ、計測値、環境データ、監視データ、予測データ、分析データおよび／または技術システムＴＳの運転時に生じる他のデータおよび／または技術システムＴＳの運転状態もしくは制御動作を記述する他のデータと理解されてよい。これは、例えば技術システムＴＳの温度、圧力、エミッション、振動、振動状態または資源消費に関するデータであってよい。特にガスタービンの場合、運転データＢＤは、タービン性能、回転速度、振動周波数または振動振幅に関してよい。運転データＢＤは、スカラー、ベクトル値またはテンソル値であってよく、特に高次元であってよい。

【0029】

図２は、技術システムＴＳを最適化制御するために制御装置ＣＴＬが構成される訓練段階における本発明に係る制御装置ＣＴＬの概略図を示す。制御装置ＣＴＬは、技術システムＴＳと接続されている。

【0030】

制御装置ＣＴＬおよび技術システムＴＳは、図１に関連して説明したように設計または実装されてよい。制御装置ＣＴＬは、制御装置ＣＴＬの全ての方法ステップを実行する１つまたは複数のプロセッサＰＲＯＣと、制御装置ＣＴＬによって処理されるべきデータを記憶する、プロセッサＰＲＯＣと接続された１つまたは複数のメモリＭＥＭとを有する。

【0031】

技術システムＴＳにより、状態データと制御動作データの両方を含む運転データの時系列がセンサを用いて収集され、訓練データＴＤ（ｔ）として制御装置ＣＴＬに送信される。この場合そして以下において、ｔは、それぞれの値の時間依存性つまりそれぞれの時点ｔにおけるその割り当てを示している。

【0032】

訓練データＴＤ（ｔ）の時系列は、本実施形態例においては技術システムＴＳに由来する。その一方で、一般に、技術システムＴＳまたは同様の技術システムの訓練用に使用可能な過去、現在および／またはシミュレートされた任意の運転データは、訓練データとして使用されてよい。

【0033】

訓練データＴＤ（ｔ）は、特に状態データＳＤ（ｔ）の時系列と、制御動作データＡＤ（ｔ）の時系列とを含む。ここで、状態データＳＤ（ｔ）は、技術システムＴＳの運転状態を特定する一方、制御動作データＡＤ（ｔ）は、技術システムＴＳにおいて実行される制御動作を特定する。運転状態は、例えば技術システムＴＳの性能、回転速度、温度、圧力、振動状態および／またはエミッションに関してよい。

【0034】

制御装置ＣＴＬは、機械学習法を実行するデータ駆動型で訓練可能な計算モジュールＮＮを有する。本実施形態例では、訓練可能な計算モジュールＮＮは人工ニューラルネットワークを有し、これを用いて多くの場合、Ｒｅｉｎｆｏｒｃｅｍｅｎｔ－Ｌｅａｒｎｉｎｇとも称される強化学習法が実行される。そのような訓練可能な計算モジュールまたはそれに対応して訓練される制御装置は、多くの場合、訓練可能もしくは学習するポリシーエージェントまたは制御モデルとも称される。計算モジュールＮＮのニューラルネットワークは、訓練中に構成される訓練構造を有する。

【0035】

訓練は、一般に、パラメータ化されたシステムモデル、例えばニューラルネットワークの入力パラメータから１つまたは複数の出力パラメータへのマッピングを最適化することと理解されてよい。このマッピングは、所定の、学習された、および／または訓練段階中に学習される基準に従って最適化される。基準として、例えば制御モデルの場合、例えば収支、必要資源、汚染物質排出、損耗、または技術システムの性能を定量化する他のパラメータに関してよい、制御動作の成功が用いられよい。訓練構造は、例えばニューラルネットワークのニューロンのネットワーク構造および／または基準が可能な限り良好に満たされるように訓練により構成される、ニューロン間の結合の重みを含んでよい。

【0036】

本実施形態例では、計算モジュールＮＮは、技術システムＴＳを最適化制御するように、強化学習法を用いて訓練される。ここで、計算モジュールＮＮは、入力パラメータとして供給される技術システムＴＳの運転データに基づいて最適化される制御動作データＯＡＤを、技術システムＴＳに適用されると目的関数ＲＦを最適化する出力パラメータとして出力するように訓練される。そのような学習法には、多数の周知の標準ルーチンが利用可能である。

【0037】

目的関数ＲＦは、供給される運転データから、上記学習法により最適化される性能パラメータＰＰを計算する。この目的のために、目的関数ＲＦにより計算される性能パラメータＰＰの値は、図２において破線矢印により示されるように、計算モジュールＮＮに供給される。これにより、ニューラルネットワークの訓練構造は、ニューラルネットワークの出力パラメータＯＡＤが性能パラメータＰＰを最適化するように学習法を用いて適応される。

【0038】

性能パラメータＰＰにより技術システムＴＳの所望の挙動が定量化される。このようにして性能パラメータＰＰとして、例えば技術システムＴＳもしくはその一部の収支、歩留まり、効率、汚染物質排出、損耗および資源消費の必要に応じて重み付けされた組み合わせまたは技術システムＴＳの性能に関する他のパラメータが用いられてよい。性能パラメータＰＰを最適化することにより、計算モジュールＮＮは最適化された制御動作データＯＡＤを出力するように訓練され、このようにして制御装置ＣＴＬは技術システムＴＳを最適化制御するように構成される。

【0039】

性能パラメータ、この場合ＰＰ、を計算するための目的関数、この場合ＲＦは、多くの場合報酬関数またはコスト関数とも称される。性能パラメータは、好ましくは長期、累積および／もしくは割引利得または報酬の合計を示す。

【0040】

目的関数ＲＦに入力される運転データは、多くの場合ターゲットデータとも称され、一般に運転データに含まれる技術システムＴＳの状態データの一部である。技術システムＴＳのターゲットデータから性能パラメータを計算するための方法は多数知られている。

【0041】

計算モジュールＮＮの訓練の成功は、訓練データＴＤの品質に大きく依存することが分かっている。この意味において、本発明においては、訓練または訓練の成功に特に有用な訓練データを発見し、抽出することが追求される。

【0042】

これら訓練を促進する訓練データを選択および抽出するために、制御装置ＣＴＬはフィルタＦを含み、フィルタＦに訓練データＴＤ（ｔ）は送信される。フィルタＦは、好ましくは訓練を促進する訓練データを含む時間区間または時間窓を識別し、これら訓練を促進する訓練データを特に抽出またはフィルタ処理することを目的として機能する。

【0043】

技術システムＴＳの状態に対する制御介入の効果に関する情報を含む訓練データは、特に訓練を促進することが分かっている。そのような訓練データに学習法を集中させることにより、制御介入とその効果との間の因果関係を、通常大幅により迅速かつ効率的に学習することが可能である。よって、制御動作が適用されるか変化する時間窓、つまり制御動作が経時変化する時間窓を識別することが有利であることが分かる。

【0044】

制御動作の経時変化を決定するために、フィルタＦは変化検出器ＤＤを含み、変化検出器ＤＤに制御動作データＡＤ（ｔ）の時系列は送信される。このために、制御動作データＡＤ（ｔ）がフィルタＦにより訓練データＴＤ（ｔ）から特に抽出される。

【0045】

制御動作データＡＤ（ｔ）の経時変化を検出するために、変化検出器ＤＤは変化量Ｄを連続的に計算する。変化量Ｄは、例えば連続する制御動作データ間の差の値｜ＡＤ（ｔ）－ＡＤ（ｔ－１）｜またはそのような差の二乗（ＡＤ（ｔ）－ＡＤ（ｔ－１））^２として計算されてよい。複数の動作成分を有する制御動作データＡＤ（ｔ）の場合、それに応じて、連続する制御動作ベクトル間の多次元のユークリッドまたは重み付き距離を変化量Ｄとして計算してよい。特に、制御動作データＡＤ（ｔ）は、その経時変化を算出するために集約時間窓にわたって集約されてよい。例えば、移動平均値の連続的な形成を用いてよい。その場合、変化量Ｄは、例えば制御動作データの連続する平均値間の差の値またはその二乗により決定されてよい。このようにして、制御動作データＡＤ（ｔ）の異常なまたはランダムなゆらぎを、少なくとも部分的に埋め合わせすることができる。

【0046】

変化検出器ＤＤは、連続的に計算される変化量Ｄを所定のまたは他の方法で決定される閾値ＴＨと比較し、この閾値ＴＨを超過する場合、制御動作データＡＤ（ｔ）の経時変化を決定する。複数の成分からなる制御動作データの場合、それに対応して成分特有の閾値が設けられてよい。代替的または追加的に、変化検出器ＤＤは、制御動作データＡＤ（ｔ）のシーケンスを、所定または他の方法で決定される変化モデルに従って検索してよく、この変化モデルが出現する場合、制御動作データＡＤ（ｔ）の経時変化を決定してよい。

【0047】

各変化の決定後、制御動作データＡＤ（ｔ）のシーケンスにおけるそれぞれの変化点が算出される。それぞれの変化点として、本実施形態例では、それぞれの変化量Ｄが閾値ＴＨを超過する、それぞれの変化時点ｔ_ｓが算出される。

【0048】

算出された変化時点ｔ_ｓは、変化検出器ＤＤからフィルタＦの選択モジュールＳＥＬに送信される。この選択モジュールＳＥＬには、訓練データＴＤ（ｔ）、すなわち制御動作データＡＤ（ｔ）および状態データＳＤ（ｔ）も送信される。

【0049】

変化時点ｔ_ｓに基づいて、選択モジュールＳＥＬは、それぞれの変化時点ｔ_ｓにおいて存在するかまたは変化時点ｔ_ｓ近傍に存在する制御動作データＡＤ（ｔ）をそれぞれ特に選択し、抽出する。これら制御動作データは、以下においてＡＤ（ｔ_ｓ）とも略称される。

【0050】

また、フィルタＦは、複数の時間窓ＴＦを生成する時間窓生成器ＧＥＮを有する。特に、複数の時間窓ＴＦは、それぞれ１つまたは複数の時間区間によって特定されてよい。１つまたは複数の時間区間はそれぞれ、開始時間および終了時間によって、または時点および区間長によって定量化されてよい。ここで、時間区間は、絶対的または変化時点もしくは他のイベントに関して相対的に設定されてよい。本実施形態例では、時間窓は、それぞれの変化時点ｔ_ｓに関して相対的に定義されている。

【0051】

生成された時間窓ＴＦは、時間窓生成器ＧＥＮから選択モジュールＳＥＬに送信される。送信された時間窓ＴＦに基づいて、選択モジュールＳＥＬは、この時間窓ＴＦ内のそれぞれの変化時点ｔ_ｓに関して存在する状態データＳＤ（ｔ）をそれぞれ特に選択し、抽出する。変化時点ｔ_ｓに関して設定される開始時間ＤＬと区間長Ｌとを有する時間窓ＴＦ＝［ＤＬ，ＤＬ＋Ｌ］について、抽出される状態データは、例えば集合｛ＳＤ（ｔ_ｓ＋ＤＬ），．．．，ＳＤ（ｔ_ｓ＋ＤＬ＋Ｌ）｝によってまたは一般に｛ＳＤ（ｔ）：ｔ－ｔ_ｓ∈ＴＦ｝として与えられてよい。ここで、相対的な開始時間ＤＬは、変化時点ｔ_ｓに対するいわば遅延時間として理解されてよい。それぞれの変化時点ｔ_ｓおよびそれぞれの時間窓ＴＦについて抽出される状態データは、以下においてＳＤ（ｔ_ｓ＋ＴＦ）とも略称される。

【0052】

抽出された制御動作データＡＤ（ｔ_ｓ）は、抽出された状態データＳＤ（ｔ_ｓ＋ＴＦ）とともに、選択モジュールＳＥＬからフィルタＦの相関モジュールＣＯＲに送信される。抽出された制御動作データＡＤ（ｔ_ｓ）に基づいて、相関モジュールＣＯＲにより、それぞれの変化時点ｔ_ｓにおけるかまたは変化時点ｔ_ｓ近傍における制御動作データＡＤ（ｔ）の経時変化ΔＡＤが定量化される。これは、例えばΔＡＤ＝ＡＤ（ｔ_ｓ＋ｌ）－ＡＤ（ｔ_ｓ－ｌ）、ここでｌは所定の短い時間、による減法によって行われてよい。制御動作データＡＤ（ｔ）が、その経時変化を算出するために集約時間窓にわたって集約される場合、その経時変化ΔＡＤは、同様に制御動作データの連続する集約値の減法によって決定されてよい。複数の成分からなる制御動作データＡＤ（ｔ）の場合、それに対応してそれぞれ複数の変化成分ΔＡＤが上述のように定量化されてよい。

【0053】

さらに、相関モジュールＣＯＲにより、抽出された状態データＳＤ（ｔ_ｓ＋ＴＦ）に基づいてそれぞれの時間窓ＴＦ内のその経時変化ΔＳＤが定量化される。これは、例えばΔＳＤ＝ＳＤ（ｔ_ｓ＋ＤＬ＋Ｌ）－ＳＤ（ｔ_ｓ＋ＤＬ）による減法によって行われてよい。状態データＳＤ（ｔ）が、その経時変化を算出するために集約時間窓にわたって集約される場合、その経時変化ΔＳＤは、同様に状態データの連続する集約値の減法によって決定されてよい。複数の成分からなる状態データＳＤ（ｔ）の場合、それに対応してそれぞれ複数の変化成分ΔＳＤが上述のように定量化されてよい。

【0054】

それぞれの時間窓ＴＦの適用について図３を参照してさらに説明する。図３は、訓練データＴＤ（ｔ）のシーケンスが時間ｔに対してプロットされている図を示す。訓練データＴＤ（ｔ）は、図中下部に示されている状態データＳＤ（ｔ）と、上部に示されている制御動作データＡＤ（ｔ）とを含む。明瞭化のため、１つの値のみの曲線がそれぞれ大幅に簡略化して示されている。

【0055】

制御動作データＡＤ（ｔ）の時系列は、複数の経時変化を示している。本実施形態例では、図示の時間区間内の計算された変化量Ｄは、変化時点ｔ_ｓのみにおいて閾値ＴＨを超過すると仮定する。従って、この時間区間における制御動作データＡＤ（ｔ）の経時変化ΔＡＤは、変化時点ｔ_ｓのみにおいてまたは変化時点ｔ_ｓ近傍のみにおいて決定される。そのため、状態データＳＤ（ｔ）の経時変化ΔＳＤは、変化時点ｔ_ｓに関して定義される時間窓ＴＦ内で計算される。この場合、時間窓ＴＦの開始は、決定された変化時点ｔ_ｓに対する遅延時間ＤＬだけシフトされる。時間窓ＴＦの終了は、それに対応してその長さＬによって定義される。

【0056】

本発明に係る方法のさらなるプロセスを、再び図２を参照して説明する。

【0057】

本発明によれば、相関モジュールＣＯＲにより、複数の相異なる時間窓ＴＦについて、制御動作データの経時変化ΔＡＤは、それぞれの時間窓ＴＦの状態データの経時変化ΔＳＤと相関付けられる。相関付けは、それぞれ複数の検出された変化時点ｔ_ｓについて行われる。このために、例えば相関総和、相関積分および／または相関係数が標準的な数値解析法を用いて計算されてよく、その結果、数値相関値が得られる。

【0058】

本実施形態例では、このようにして時間窓ＴＦのそれぞれについて、この時間窓ＴＦに特有の相関値ＣＣ（ＴＦ）が計算される。相関値ＣＣ（ＴＦ）は、相関モジュールＣＯＲからフィルタＦの最適化モジュールＯＰＴに送信される。さらに、最適化モジュールＯＰＴには、時間窓ＴＦも時間窓生成器ＧＥＮから送信される。

【0059】

最適化モジュールＯＰＴは、相異なる時間窓ＴＦについて計算された相関値ＣＣ（ＴＦ）を、比較器ＣＭＰを用いて比較し、このようにして、状態データの経時変化ΔＳＤが制御動作データの経時変化ΔＡＤと高いもしくは最も高い相関性を有するかまたは高いもしくは最も高い反相関性を有する１つまたは複数の時間窓ＴＦを決定する。さらに、最適化モジュールＯＰＴにより相関値ＣＣ（ＴＦ）に応じて時間窓ＴＦのパラメータを特に変化させることにより、相関値ＣＣ（ＴＦ）に関して最適化された時間窓を発見する。好ましくは、時間窓生成器ＧＥＮは、生成された時間窓ＴＦのそれぞれの相関値ＣＣ（ＴＦ）が最適化されるように、最適化モジュールＯＰＴにより制御される。このために、好ましくは、粒子群最適化、最急降下法および／または遺伝的最適化手法が用いられてよい。

【0060】

制御動作データＡＤ（ｔ）および／または状態データＳＤ（ｔ）が集約時間窓にわたって集約される場合、それぞれの集約時間窓の長さまたは位置を同様に最適化モジュールＯＰＴにより最適化することができ、これにより相関値ＣＣ（ＴＦ）に関して最適化された集約時間窓を計算し、さらなるプロセスにおいて用いることができる。

【0061】

相関最適化時間窓に基づいて、最適化モジュールＯＰＴにより、状態データの経時変化ΔＳＤが制御動作データの経時変化ΔＡＤと特に高い相関性を有する１つまたは複数の獲得時間窓ＲＴＦが決定される。獲得時間窓ＲＴＦは、特に相異なる時間窓ＴＦの平均、和集合および／または他の特に重み付けされた組み合わせによって決定されてよい。重み付けには、特に、動作成分特有および／または状態成分特有の重みが用いられてよい。このようにして、獲得時間窓ＲＴＦを決定することができ、その状態データＳＤ（ｔ_ｓ＋ＲＴＦ）は、全部または少なくとも大部分の動作成分および／または状態成分について高い相関性を有する。獲得時間窓ＲＴＦは、最適化モジュールＯＰＴにより選択モジュールＳＥＬに送信される。

【0062】

獲得時間窓ＲＴＦに基づいて、選択モジュールＳＥＬは、この獲得時間窓ＲＴＦ内に存在する訓練データＴＤ（ｔ）を特に選択し、抽出する。この獲得時間窓ＲＴＦ内に存在する訓練データは、以下において抽出された訓練データＦＴＤまたはフィルタ処理訓練データＦＴＤと称される。開始時点ｔ_１と終了時点ｔ_２とを有する獲得時間窓ＲＴＦ＝［ｔ_１，ｔ_２］について、抽出された訓練データは、例えばＦＴＤ＝｛ＴＤ（ｔ_１），．．．，ＴＤ（ｔ_２）｝によってまたは一般にＦＴＤ＝｛ＴＤ（ｔ）：ｔ∈ＲＴＦ｝として与えられてよい。

【0063】

時間窓特有に選択かつフィルタ処理された訓練データＦＴＤは、選択モジュールＳＥＬからまたはフィルタＦから計算モジュールＮＮに送信される。さらに、フィルタ処理訓練データＦＴＤは、目的関数ＲＦに供給され、目的関数ＲＦは、抽出された訓練データＦＴＤに含まれる運転データから、特にその中に含まれる状態データから性能パラメータＰＰを計算する。抽出された訓練データＦＴＤおよび計算された性能パラメータＰＰに基づいて、計算モジュールＮＮのニューラルネットワークは、上述のように、技術システムＴＳに適用されると性能パラメータＰＰを最適化する制御動作データＯＡＤが出力されるように訓練される。

【0064】

本実施形態例では、計算モジュールＮＮに、獲得時間窓ＲＴＦ外に存在する訓練データは供給されず、これによりニューラルネットワークは、抽出された訓練データＦＴＤのみに基づいて訓練される。上述のように、ニューラルネットワークの代替または追加として、特に強化学習法を計算モジュールＮＮにおいて実行してよい。

【0065】

代替的に、計算モジュールＮＮに、獲得時間窓ＲＴＦ外に存在する訓練データも供給されてよい。この場合、計算モジュールＮＮは、少なくとも好ましくはまたは主にフィルタ処理訓練データＦＴＤに基づいて訓練されてよい。このようにして、フィルタ処理訓練データＦＴＤを、獲得時間窓ＲＴＦ外に存在する訓練データよりも訓練の際に大きく重み付けすることができ、または、獲得時間窓ＲＴＦ外に存在する訓練データを減らし、間引きし、および／または部分的に破棄することができる。

【0066】

好ましくは、連続的に現在収集されている訓練データＴＤ（ｔ）をフィルタＦにより連続的にフィルタ処理してよく、制御装置ＣＴＬは、運転中にフィルタ処理訓練データＦＴＤに基づいてさらに訓練されてよい。

【0067】

ニューラルネットワークと伴って計算モジュールＮＮが訓練されることにより、制御装置ＣＴＬは、技術システムＴＳを最適化制御するように構成される。制御の際、制御装置ＣＴＬは、訓練により学習された制御方策を適用し、つまり、現在のシステム状態を、目的関数ＲＦに関して最適な制御動作または制御動作データＯＡＤに割り当てる。

【0068】

訓練データを特にフィルタ処理することにより、計算モジュールＮＮは、特に訓練を促進する訓練データにより訓練される。これら選択された訓練データＦＴＤは、制御介入と技術システムＴＳのシステム状態に対するその効果との間の相関性を特に多く含んでいるため、その制御を特に表現している。訓練データを特に選択することにより、冗長で関連性が低く、または重要性に乏しい情報が学習プロセスを妨害または遅延させることを効果的に防止することができる。本発明による訓練データのフィルタ処理により、訓練の成功を大幅に改善することができ、または訓練のコストを大幅に低減することができることが分かる。

【図1】

【図2】

【図3】

知財求人

知財求人お知らせサービス

知財のニュースを調べる
- 知財ニュース
- 知財周辺ニュース
企業の特許を調べる
知財のセミナーを調べる
知財,特許事務所への求職・転職
特許事務所をさがす
弁理士試験を受ける
- 年の弁理士試験情報
- 弁理士試験の合格率など統計
知財の法律をしらべる
期限日をしらべる
- 今日に対して意見書・補正書の期限
- 今日に対して審査請求期限日
知財の判決をしらべる
コンテンツ・リンク
運営会社
プレスの皆様へ
- お問い合わせ
ユーザーの皆様
- お問い合わせ・フィードバック
広告掲載を希望の皆様へ
- 広告掲載について
- 求人広告の掲載について

IP Force 特許公報掲載プロジェクト 2022.1.31 β版