(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】5737890
(24)【登録日】2015年5月1日
(45)【発行日】2015年6月17日
(54)【発明の名称】技術システムの制御および/または調整をコンピュータ支援により学習する方法
(51)【国際特許分類】
G06N 99/00 20100101AFI20150528BHJP
G06N 7/00 20060101ALI20150528BHJP
G06Q 50/04 20120101ALI20150528BHJP
G05B 13/02 20060101ALI20150528BHJP
【FI】
G06N99/00 153
G06N7/00 150
G06Q50/04
G05B13/02 L
【請求項の数】29
【全頁数】22
(21)【出願番号】特願2010-202137(P2010-202137)
(22)【出願日】2010年9月9日
(65)【公開番号】特開2011-60290(P2011-60290A)
(43)【公開日】2011年3月24日
【審査請求日】2013年9月9日
(31)【優先権主張番号】10 2009 040 770.7
(32)【優先日】2009年9月9日
(33)【優先権主張国】DE
(73)【特許権者】
【識別番号】390039413
【氏名又は名称】シーメンス アクチエンゲゼルシヤフト
【氏名又は名称原語表記】Siemens Aktiengesellschaft
(74)【代理人】
【識別番号】100099483
【弁理士】
【氏名又は名称】久野 琢也
(74)【代理人】
【識別番号】100061815
【弁理士】
【氏名又は名称】矢野 敏雄
(74)【代理人】
【識別番号】100112793
【弁理士】
【氏名又は名称】高橋 佳大
(74)【代理人】
【識別番号】100128679
【弁理士】
【氏名又は名称】星 公弘
(74)【代理人】
【識別番号】100135633
【弁理士】
【氏名又は名称】二宮 浩康
(74)【代理人】
【識別番号】100156812
【弁理士】
【氏名又は名称】篠 良一
(74)【代理人】
【識別番号】100114890
【弁理士】
【氏名又は名称】アインゼル・フェリックス=ラインハルト
(72)【発明者】
【氏名】アレクサンダー ハンス
(72)【発明者】
【氏名】シュテフェン ウードルフト
【審査官】
多胡 滋
(56)【参考文献】
【文献】
特表平10−504667(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G06N 99/00
G06N 7/00
G05B 13/02
G06Q 50/04
(57)【特許請求の範囲】
【請求項1】
技術システムの制御および/または調整をコンピュータ支援により学習する方法であって、
技術システムの運転が、運転中の技術システムの状態(s)と、技術システムの運転中に実行され、技術システムのそれぞれの状態(s)を連続状態に移行させる活動とによって特徴付けられる方法において、
・技術システムの運転中に求められた、状態(s)、活動(a)および連続状態(s’)を含むトレーニングデータに基づいて、品質関数(Q)と活動選択ルール(π(s))を学習するステップ;
ただし前記品質関数(Q)は技術システムの最適運転をモデル化し、
前記活動選択ルール(π(s))は、技術システムの運転中に当該技術システムのそれぞれの状態(s)に対して実行すべき活動(a)を指示し、
・品質関数(Q)および活動選択ルール(π(s))の学習中に、品質関数(Q)の統計的不確定性に対する尺度(σQ)を、不確定性伝播によって求めるステップ;
・該統計的不確定性に対する尺度(σQ)と、品質関数(Q)への統計的な要求に相当する安全パラメータ(ζ)とに基づいて、変形された品質関数を決定するステップ;
ただし前記不確定性伝播は、非対角要素が無視された共分散マトリクスを使用し、
・変形された品質関数に基づいて、活動選択ルール(π(s))を学習するステップ;
を有する方法。
【請求項2】
前記品質関数(Q)を、評価(R)および状態活動確率(P)を考慮して学習し、
それぞれの評価(R)は、状態(s)、当該状態で実行された活動(a)、および連続状態(s’)からなる組合せの品質を、技術システムの最適運転の観点で評価し、
それぞれの状態活動確率(P)は、状態と当該状態で実行された活動(a)に依存して、連続状態(s’)の確率(P)を指示する請求項1記載の方法。
【請求項3】
品質関数(Q)と活動選択ルール(π(s))を、ベルマン反復式に基づいて学習し、
各反復ステップで新たな品質関数(Q)と、該品質関数(Q)の統計的不確定性に対する新たな尺度を求め、それにより新たに変形された品質関数を決定し、
それぞれの反復ステップで共分散マトリクスを、前記品質関数(Q)、状態活動確率(P)および評価(R)に依存し、非対角要素を無視して求める請求項2記載の方法。
【請求項4】
ベルマン反復法のm番目の反復ステップで、活動選択ルールを以下の活動α
s,maxに基づいて求め、
【数1】
ここで
【数2】
は品質関数であり、
【数3】
は変形された品質関数であり、
σQ
m(s,a)はm番目の反復ステップにおける品質関数(Q)の統計的不確定性に対する尺度(σQ)であり、
ここで
【数4】
γ∈[0,1]は非連続因子であり、
ζは
安全パラメータであり、
【数5】
が成り立ち、
P(s’|s,a)は、状態sで活動aが実行された際の連続状態s’に対する状態活動確率であり、
R(s,a,s’)は、状態sで活動aが実行された際の連続状態s’の評価であり、
σP(s’|s,a)は、状態−活動確率の統計的不確定性であり、
σR(s,a,s’)は、評価の統計的不確定性である請求項3記載の方法。
【請求項5】
状態活動確率(P)を状態活動確率分布としてモデル化し、および/または評価(R)を評価確率分布としてモデル化する請求項2から4までのいずれか一項記載の方法。
【請求項6】
状態活動確率(P)の統計的不確定性(σP)を、モデル化した状態活動確率分布から求め、評価の統計的不確定性(σR)を、モデル化した評価確率分布から求める請求項4および5記載の方法。
【請求項7】
状態活動確率分布および/または評価確率分布を、トレーニングデータからの相対的頻度としてモデル化し、
ここで状態活動確率分布は多項分布としてモデル化し、および/または評価確率分布は正規分布としてモデル化する請求項5または6記載の方法。
【請求項8】
状態活動確率分布を、アプリオリ分布とアポステリオリパラメータを用いたベイズの推定に基づいてモデル化し、ここでアポステリオリパラメータはトレーニングデータに依存する請求項5から7までのいずれか一項記載の方法。
【請求項9】
アプリオリ分布は、ディリクレ分布および/または正規分布である請求項8記載の方法。
【請求項10】
ディリクレ分布のパラメータ(αijk)は、連続状態(s’)の平均数と、トレーニングデータによる状態(s)の総数の商に相当する請求項9記載の方法。
【請求項11】
学習すべき活動選択ルールは、決定論的活動選択ルールである請求項1から10までのいずれか一項記載の方法。
【請求項12】
ベルマン反復式のm番目の反復ステップにおける活動選択ルールπ
m(s)は以下のとおりであり、
【数6】
ここで
【数7】
は、選択された活動である、請求項4にかかる請求項11記載の方法。
【請求項13】
学習すべき活動選択ルールは、技術システムの状態(s)のために実行可能な活動(a)に対する確率分布を指示する確率論的活動選択ルール(π(s))である請求項1から10までのいずれか一項記載の方法。
【請求項14】
前記ベルマン反復式の各反復ステップにおいて、実行可能な活動(a)に対する新たな確率分布として確率分布を求め、
該確率分布は、最後の反復ステップの確率分布を、変形された品質関数の値を最大にする活動(a)に比較的高い確率が割り当てられるよう変形する、請求項3にかかる請求項13記載の方法。
【請求項15】
当該方法により、タービンの制御および/または調整が学習される請求項1から14までのいずれか一項記載の方法。
【請求項16】
当該方法により、風力発電設備の制御および/または調整が学習される請求項1から14までのいずれか一項記載の方法。
【請求項17】
技術システムの運転方法であって、
該技術システムが、請求項1から16までのいずれか1項記載の方法により学習された制御および/または調整に基づいて運転され、学習された活動選択ルールにより技術システムのそれぞれの状態(s)で実行すべき活動(a)が選択される運転方法。
【請求項18】
技術システムの運転中に、請求項1から16までのいずれか1項記載の方法が反復され、
各反復の際に、技術システムが取る新たな状態(s)および/または実行すべき活動(a)がトレーニングデータとして考慮される請求項17記載の方法。
【請求項19】
コンピュータに、
・技術システムの運転中に求められた、状態(s)、活動(a)および連続状態(s’)を含むトレーニングデータに基づいて、品質関数(Q)と活動選択ルール(π(s))を学習するステップ;
ただし前記品質関数(Q)は技術システムの最適運転をモデル化し、
前記活動選択ルール(π(s))は、技術システムの運転中に当該技術システムのそれぞれの状態(s)に対して実行すべき活動(a)を指示し、
・品質関数(Q)および活動選択ルール(π(s))の学習中に、品質関数(Q)の統計的不確定性に対する尺度(σQ)を、不確定性伝播によって求めるステップ;
・該統計的不確定性に対する尺度(σQ)と、品質関数(Q)への統計的な要求に相当する安全パラメータ(ζ)とに基づいて、変形された品質関数を決定するステップ;
ただし前記不確定性伝播は、非対角要素が無視された共分散マトリクスを使用し、
・変形された品質関数に基づいて、活動選択ルール(π(s))を学習するステップ;
を実行させるためのコンピュータプログラム。
【請求項20】
コンピュータを備えた、技術システムの制御装置であって、
技術システムの運転が、運転中の技術システムの状態(s)と、技術システムの運転中に実行され、技術システムのそれぞれの状態(s)を連続状態に移行させる活動とによって特徴付けられる、制御装置において、
前記コンピュータは、
・技術システムの運転中に求められた、状態(s)、活動(a)および連続状態(s’)を含むトレーニングデータに基づいて、品質関数(Q)と活動選択ルール(π(s))を学習し、
ただし前記品質関数(Q)は技術システムの最適運転をモデル化し、
前記活動選択ルール(π(s))は、技術システムの運転中に当該技術システムのそれぞれの状態(s)に対して実行すべき活動(a)を指示し、
・品質関数(Q)および活動選択ルール(π(s))の学習中に、品質関数(Q)の統計的不確定性に対する尺度(σQ)を、不確定性伝播によって求め、
・該統計的不確定性に対する尺度(σQ)と、品質関数(Q)への統計的な要求に相当する安全パラメータ(ζ)とに基づいて、変形された品質関数を決定し、
ただし前記不確定性伝播は、非対角要素が無視された共分散マトリクスを使用し、
・変形された品質関数に基づいて、活動選択ルール(π(s))を学習する
ことを特徴とする制御装置。
【請求項21】
前記コンピュータは、
前記品質関数(Q)を、評価(R)および状態活動確率(P)を考慮して学習し、
それぞれの評価(R)は、状態(s)、当該状態で実行された活動(a)、および連続状態(s’)からなる組合せの品質を、技術システムの最適運転の観点で評価し、
それぞれの状態活動確率(P)は、状態と当該状態で実行された活動(a)に依存して、連続状態(s’)の確率(P)を指示する請求項20記載の制御装置。
【請求項22】
前記コンピュータは、
品質関数(Q)と活動選択ルール(π(s))を、ベルマン反復式に基づいて学習し、
各反復ステップで新たな品質関数(Q)と、該品質関数(Q)の統計的不確定性に対する新たな尺度を求め、それにより新たに変形された品質関数を決定し、
それぞれの反復ステップで共分散マトリクスを、前記品質関数(Q)、状態活動確率(P)および評価(R)に依存し、非対角要素を無視して求める請求項21記載の制御装置。
【請求項23】
前記コンピュータは、状態活動確率(P)を状態活動確率分布としてモデル化し、および/または評価(R)を評価確率分布としてモデル化する請求項21または22記載の制御装置。
【請求項24】
前記コンピュータは、
状態活動確率(P)の統計的不確定性(σP)を、モデル化した状態活動確率分布から求め、評価の統計的不確定性(σR)を、モデル化した評価確率分布から求める請求項23記載の制御装置。
【請求項25】
前記コンピュータは、
状態活動確率分布および/または評価確率分布を、トレーニングデータからの相対的頻度としてモデル化し、
ここで状態活動確率分布は多項分布としてモデル化し、および/または評価確率分布は正規分布としてモデル化する請求項23または24記載の制御装置。
【請求項26】
前記コンピュータは、
状態活動確率分布を、アプリオリ分布とアポステリオリパラメータを用いたベイズの推定に基づいてモデル化し、ここでアポステリオリパラメータはトレーニングデータに依存する請求項23から25までのいずれか1項記載の制御装置。
【請求項27】
学習すべき活動選択ルールは、決定論的活動選択ルールである請求項20から26までのいずれか1項記載の制御装置。
【請求項28】
学習すべき活動選択ルールは、技術システムの状態(s)のために実行可能な活動(a)に対する確率分布を指示する確率論的活動選択ルール(π(s))である請求項20から26までのいずれか1項記載の制御装置。
【請求項29】
タービンまたは風力発電設備を制御する、
請求項20から28までのいずれか1項記載の制御装置。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、技術システムの閉ループ制御(制御)および/または開ループ制御(調整)をコンピュータ支援により学習する方法、対応する技術システムの運転方法、およびコンピュータプログラムに関する。
【背景技術】
【0002】
従来技術から、前もって求めたトレーニングデータに基づき(このトレーニングデータは技術システムの運転を表す)、当該システムの最適運転をモデル化することのできる種々の方法が公知である。技術システムは状態、活動および連続状態により記述される。ここで状態とは、特定の技術パラメータまたは技術システムの観察された状態量である。また活動は、対応する調整量を表し、この調整量は技術システムにおいて変化し得る。従来技術から一般的に強化学習方法(英語:Reinforcement Learning)が公知である。この強化学習方法は、技術システムのためにトレーニングデータに基づき、最適化基準にしたがって最適の活動選択ルールを学習する。公知の方法は、学習した活動選択ルールのランダムな不確定性に関しては予測を提供しないという欠点を有する。このような不確定性は、とりわけトレーニングデータ量が小さい場合に非常に大きくなる。
【0003】
非特許文献1には、活動選択ルールの学習のために使用される品質関数における統計的不確定性を考慮する方法が記載されている。ここでは、活動選択ルールを決定する学習方法が統計的不確定性と組み合わされ、ガウスの誤差伝搬とも称されるそれ自体公知の不確定性伝播(英語:Uncertainty Propagation)に基づいて、学習の際に考慮される品質関数の統計的不確定性が求められる。不確定性伝播では、学習方法で導入される変数の不確定性間の相関が共分散マトリクスによって考慮される。このようにして不確定性は変数内に正確に伝播され、計算される。このことは、技術システムの対応する制御をコンピュータ支援により学習する際には非常に大きな計算コストとメモリスペースを必要とする。
【先行技術文献】
【非特許文献】
【0004】
【非特許文献1】D. Schneegass, S. Udluft, T. Martinetz: Uncertainty Propagation for Quality Assurance in Reinforcement Learning, 2008, Proc. of the International Joint Conference on Neural Networks (IJCNN), pages 2589-2596.
【発明の概要】
【発明が解決しようとする課題】
【0005】
したがって本発明の課題は、学習の際に使用されるトレーニングデータの統計的不確定性を考慮し、同時にメモリスペース需要と計算時間に関して効率的な、技術システムの閉ループ制御および/または開ループ制御の学習方法を提供することである。
【課題を解決するための手段】
【0006】
この課題は独立請求項により解決される。本発明の有利な実施形態は従属請求項に記載されている。
【0007】
本発明の方法によれば、技術システムの閉ループ制御または開ループ制御がコンピュータ支援により学習される。技術システムの運転は、運転中の技術システムの状態と、技術システムの運転中に実行され、技術システムのそれぞれの状態を連続状態に移行させる活動とによって特徴付けられる。本発明の方法では、技術システムの運転中に求められたトレーニングデータを含む状態、活動、および連続状態に基づいて、品質関数と活動選択ルールが学習される。ここで学習はとりわけ強化学習方法により行われる。品質関数は、技術システムの最適運転を、この技術システムに対する固有の基準に関してモデル化し、活動選択ルールは技術システムの運転中に、技術システムのそれぞれの状態に対して優先的に実行すべき活動を指示する。
【0008】
本発明の方法では、品質関数および活動選択ルールの学習中に品質関数の統計的不確定性に対する尺度が、不確定性伝播によって求められ、この統計的不確定性に対する尺度と、品質関数への統計的に緩和された要求に相当する
安全パラメータとに基づいて、モデル化された品質関数が決定される。統計的不確定性に対する尺度とは、統計的分散または標準偏差に対する尺度であると理解すべきであり、好ましくは統計的分散または標準偏差自体である。これらから決定されたモデル化された品質関数に基づいて、活動選択ルールが学習される。
【0009】
非特許文献1の方法との相違は、本発明による方法では、不確定性伝播が共分散マトリクスを使用し、この共分散マトリクスでは非対角要素が無視される、すなわち非対角要素がゼロにセットされることである。したがってこのことは、不確定性伝播の際に考慮される変数間の相関が無視されることと同義である。したがって不確定性はもはや正確には伝播および計算されず、単に近似が実行される。しかしこの近似にもかかわらず、本発明の方法は、確定性が最適である活動選択ルールの形で良好な結果をもたらし、この活動選択ルールは、技術システムのパフォーマンスを統計的不確定性を考慮して最大にする。この方法は、特許文献1の方法に対して、計算時間と必要なワークメモリが格段に小さいという利点を有する。なぜなら共分散マトリクスの対角要素だけを求めれば良いからである。とりわけ計算時間と必要ワークメモリは、統計的不確定性を考慮しない従来の強化学習法と同じオーダーである。
【0010】
品質関数と活動選択ルールの学習は、本発明の方法の好ましい変形実施形態では、評価と状態活動確率を考慮して行われる。ここでそれぞれの評価では、状態と、この状態で実行される活動と、連続状態との組合せの品質が、技術システムの最適運転の観点で評価される。この評価はしばしば報酬とも称される。状態活動確率は、状態およびこの状態で実行される活動の関数として連続状態の確率を表す。評価が学習の際に考慮されるなら、このような評価はトレーニングデータに含まれるか、または状態、活動および連続状態に依存して相当の評価を送出する関数が抽出される。
【0011】
とりわけ好ましい実施形態では、品質関数と活動選択ルールが、それ自体公知のベルマン反復法に基づいて学習される。ここで各反復ステップでは、新たな品質関数、品質関数の統計的不確定性に対する新たな尺度、およびこれにより新たに変形された品質関数が決定され、それぞれの反復ステップでは、統計的不確定性に対する新たな尺度を決定するために共分散マトリクスが、品質関数、状態活動確率、および非対角要素を無視した評価によって求められる。したがって分散だけが不確定性伝播に入り込む。すなわち、共分散マトリクスは、品質関数の統計的不確定性と、評価の統計的不確定性と、状態活動確率の統計的不確定性との相関が無視されるようにして近似される。
【0012】
好ましい実施形態では、ベルマン反復法のm番目の反復ステップで、活動選択ルールが以下の活動α
s,maxに基づいて求められる。
【0013】
【数1】
ここで
【数2】
品質関数、そして
【数3】
変形された品質関数であり、
【数4】
はm次の反復ステップでの品質関数(Q)の統計的不確定性に対する尺度(σQ)である。ただし
【数5】
γ∈[0,1]は不連続関数であり、
ξは安全パラメータであり、
【数6】
が当てはまる。
P(s’|s,a)は、状態sで活動aが実行された際の連続状態s’に対する状態活動確率であり、
R(s,a,s’)は、状態sで活動aが実行された際の連続状態s’の評価であり、
σP(s’|s,a)は、状態活動確率の統計的不確定性であり、
σR(s,a,s’)は、評価の統計的不確定性である。
【0014】
本発明の方法の別のとくに好ましい実施形態では、状態活動確率が状態活動確率分布としてモデル化され、および/または評価が評価確率分布としてモデル化される。状態活動確率分布または評価確率分布は、状態活動確率または評価の統計的不確定性が入り込む上記の方法で好ましくは、この統計的不確定性を決定するために使用される。
【0015】
本発明の別の変形実施形態では、状態活動確率分布および/または評価確率分布が、トレーニングデータから相対的頻度としてモデル化される。ここで状態活動確率分布はとりわけ多項分布としてモデル化され、および/または評価確率分布はとりわけ正規分布としてモデル化される。
【0016】
本発明の方法の別のとくに好ましい実施形態では、状態−活動確率分布が、アプリオリ分布とアポステリオリパラメータを用いたベイズの推定に基づいてモデル化される。ここでアポステリオリパラメータはトレーニングデータに依存する。
【0017】
このベイズのモデル化は、推定者の不確定性に良好にアクセスできるという利点を有する。ここで好ましくは、アプリオリ分布としてディリクレ分布または場合により正規分布を使用する。とくに好ましい変形実施形態では、ディリクレ分布を使用する場合、その各パラメータが、連続状態の平均数とトレーニングデータによる状態の総数との商に相当するように選択される。このようにして、観察が少数である場合に対しても現実的な活動選択ルールが学習される。
【0018】
本発明の方法で学習された活動選択ルールは、決定論的であっても確率論的であっても良い。ここで、決定論的活動選択ルールは技術システムの状態に対して明確な活動を指示する。これに対して確率論的活動選択ルールは、技術システムの状態に対して、実行可能な活動に対する確率分布を指示する。欠点論的活動選択ルールπが使用される場合、上記のベルマン反復法のm番目の反復ステップにおける活動選択ルールπ
m(s)は次のとおりである。
【0019】
【数7】
ここでπ
m(s)は選択された活動である。
【0020】
別のとくに好ましい実施形態では確率論的活動選択ルールが次のように構成されている。すなわち、上記のベルマン反復式の各反復ステップにおいて、実行可能な活動に対する新たな確率分布として確率分布が求められ、この確率分布は、最後の反復ステップの確率分布を、変形された品質関数の値を最大にする活動に比較的高い確率が割り当てられるように変形する。
【0021】
本発明による方法は任意の技術システムに使用可能である。とくに好ましい変形実施形態では、タービン、とりわけガスタービンの制御または調整を学習するための本発明が使用される。ここでガスタービンの状態は、例えば供給される燃料量および/またはタービンのうなりである。活動は例えば、供給される燃料量の変化またはタービンの翼における調整変化である。
【0022】
本発明の方法の別の変形実施形態では、風力発電設備の制御および/または調整が学習される。ここで風力発電設備の状態は、例えば風力、ロータ回転数、設備のコンポーネントの磨耗等とすることができる。活動はこの関連で、例えば風力発電設備の個々のロータブレードの調整角の調整とすることができる。
【0023】
上記の学習方法の他に、本発明はさらに技術システムの運転方法を含む。ここで技術システムは、上記の学習方法の任意の変形実施形態により学習された制御または調整に基づいて運転される。技術システムのそれぞれの状態で学習された活動選択ルールにより、実行すべき活動が選択される。確率論的活動選択ルールでは、この選択がそれぞれの確率にしたがった、活動のランダムな選択により行われる。運転の好ましい変形実施形態では、上記の学習方法が間隔を置いて繰り返される。ここでは各繰り返しの際に、技術システムから取り出された新たな状態と実行された活動がトレーニングデータとして考慮される。
【0024】
上記の方法の他、本発明はさらに、コンピュータに手順を実行させるためのプログラムコードを有するコンピュータプログラムを記録したコンピュータ読み取り可能媒体に関しており、ここでこのプログラムコードは、相応するプログラムがコンピュータ上で実行される場合に本発明による方法手順を実行する。
【0025】
以下では本発明の実施例を添付の図面に基づき詳細に説明する。
【図面の簡単な説明】
【0026】
【
図1】本発明の実施形態により得られた報酬と、非特許文献1の方法による対応する報酬とを比較して示す線図である。
【
図2】本発明の方法の実施形態により得られた報酬と、品質関数の統計的不確定性を考慮しない方法により得られた報酬とを比較して示す線図である。
【発明を実施するための形態】
【0027】
以下、本発明を技術システムの例で説明する。この技術システムは状態空間Sと活動空間Aにより特徴付けられる。状態空間とは、技術システムの運転中にこの技術システムを特徴付けるパラメータの形にある多数の離散的または連続的状態の集合である。ガスタービンの場合、これらのパラメータは例えば、供給される燃料量またはタービンのうなりである。活動空間は、技術システムで実行可能な活動を表し、この活動により技術システムの状態を変化することができる。活動は技術システムの調整量の変化であっても良く、例えばガスタービンの案内翼の位置変化等である。
【0028】
技術システムのダイナミクスは、ここに記載した実施形態ではマルコフ決定プロセスとして遷移確率分布P
T:S×A×S→[0,1]により特徴付けられる。この遷移確率分布は、技術システムの目下の状態、目下の状態で実行された活動ならびにそこから生じた技術システムの連続状態に依存する。ここに説明する本発明の方法の実施形態では、トレーニングデータに基づきコンピュータ支援で活動選択ルールが学習される。この活動選択ルールは一般的に、技術システムの所与の状態においてはどの活動を優先的に実行すべきかを指示する。活動選択ルールはここで決定論的であっても良い。すなわち特定の活動がルールによって設定されても良い。しかし活動選択ルールは確率論的であっても良い。すなわち活動選択ルールが、実行すべき活動の確率分布を状態に基づいて指示しても良い。本発明の方法の目的は、期待されるパフォーマンスの点で必ずしも最適ではないが、統計的に活動選択ルールへの最低の要求を満たす、いわば確実性の点で最適化された活動選択ルールを学習することである。このようにして、期待される最大パフォーマンスの最適基準は満たさないが、保証されるパフォーマンスを最大にする活動選択ルールを学習することができる。
【0029】
ここに説明する本発明の変形実施形態は非特許文献1による方法に基づく。しかし本発明の方法は格段に計算効率がよい。なぜなら、活動選択ルールの不確定性を決定する変数間の相関を考慮しないからである。これについては下でさらに詳細に説明する。
【0030】
まず従来技術による強化学習方法について説明する。ここでは活動選択ルールが対応する最適基準に基づいて学習される。ここで最適基準は対応する評価Rによって表される。この評価は、状態、この状態で実行された活動a、および連続状態s’に対するものであり、実行された活動aが技術システムの最適運転の点でどの程度の価値があるものかを指示する。最適運転は、注目する技術システムに応じて任意に設定することができ、例えばこのような運転に対する基準は、「技術システムの損傷または破壊に繋がるような状態が発生しない」、または「技術システムの運転で理想効率が達成される」である。ガスタービンでは最適運転を例えば、タービンにうなりが発生せずに高い効率が達成されたことにより特徴付けることができる。
【0031】
強化学習では活動選択ルールにしたがい、マルコフ決定プロセスM≒(S,A,P
T,R)、ただし状態空間S、活動空間Aならびに確率分布P
T:S×A×S→[0,1]を前提にして、どの活動が技術システムの最適運転に至るかが求められる。ここでは各状態、この状態で実行される活動、およびそこから生じる、報酬関数R:S×A×S→Rをともなう連続状態が評価される。ここで最適運転は、いわゆる価値関数の最大値により記述される。これは次式のとおりである。
【0033】
この価値関数は、将来の評価の予想される非連続和であり、γ∈[0,1]が非連続因子である。ここでは通例、いわゆるQ関数Q
π(s,a)が使用され、このQ関数は状態sでの活動aの選択、およびそれに続く活動選択ルールπの実施の後で予想される非連続報酬を表す。ここで最適活動選択ルールに対するQ関数Q
π=Q
*は、いわゆるベルマン最適方程式の解により与えられる。これは次式のとおりである。
【0035】
ここでE
S’は予想値である。Q
*に基づき、最適活動選択ルールに対してはπ
*(s)=argmax
aQ
*(s,a)が成り立つ。ここでπ
*は決定論的活動選択ルールである。しかし上にすでに述べたように、活動選択ルールは統計的活動選択ルールπ(a|s)として構築することもでき、これは状態sにおいて活動aを選択するための確率を提供する。
【0036】
上記のベルマン最適方程式は、従来技術から十分に公知のベルマン反復式より解かれる。これについて下にさらに説明する。以下でTはベルマン演算子として定義され、各任意の品質関数Qに対して次のとおりである。
【0038】
以下に説明する本発明の実施形態では、統計的不確定性が付加的に注目される。この統計的不確定性は技術システムの測定の不確定性から生じるものであり、技術システムのための活動選択ルールを決定するトレーニングデータとして使用される。
【0039】
この統計的不確定性は注目するQ関数、すなわち学習された活動選択ルールの不確定性を引き起こす。強化学習に存在する不確定性は、技術システムの真の特性についての無知から生じるものである。すなわち技術システムの基礎となる、真のマルコフ決定プロセスから生じる。技術システムに関してトレーニングデータの形でより多くの観察が存在すれば、マルコフ決定プロセスに関してより多くの情報が得られる。偶然性が大きければ、所与数の観察に対するマルコフ決定プロセスを基準にしてより多くの不確定性が残る。
【0040】
トレーニングデータに基づく測定の不確定性、すなわち1つの状態から、活動を適用した次の状態への変遷、およびこれと結び付いた評価は、以下に説明する本発明の変形実施形態ではQ関数に、不確定性伝播によって伝播する。不確定性伝播の原理は、不確定性のガウス伝播またはガウスエラー伝播とも称され、従来技術から十分に公知であり、それぞれ推定された点を中心にする一次のテイラー展開に基づくものである。非特許文献1に記載された方法によれば、関数f(x)、ただしf:R
m→R
nの不確定性は、独立変数xの不確定性が所与である場合、以下の共分散に基づいて示される。
Cov(f)=Cov(f,f)=DCov(x)D
T
ここで
【数11】
は、その独立変数xによるfのヤコビ行列である。Cov(x)=Cov(x,x)により、独立変数xの共分散が示され、この共分散はさらにxの不確定性の関数である。関数fは、対称性で正の規定共分散および不確定性Cov(f)を使用する。ここで非特許文献1の方法は、m番目のベルマン反復ステップで、この反復ステップでのQ関数Q
m、遷移確率P、および評価Rに依存する完全な共分散行列が計算されるという欠点を有する。各反復ステップにおいて共分散行列を完全に計算することは面倒であり、非常に大きな計算時間を必要とする。
【0041】
本発明によれば、共分散マトリクスの非対角要素を無視することにより、すなわちゼロにセットすることにより、非特許文献1の方法を計算的に格段に効率良く構築できることを認識した。これは、共分散マトリクスを決定する変数の不確定性の相関、すなわちQ関数Q
m、遷移確率Pおよび評価R間の相関は無視することができるという仮定に相当する。このように近似しても、なお非常に良好な活動選択ルールを学習することができ、このことは本発明者により実験により証明された。本発明の方法の利点は、その計算時間が非特許文献1の方法の場合よりも何倍も小さいことである。以下に本発明の方法を、実施例に基づいて詳細に説明する。
【0042】
非特許文献1の方法と同じように、不確定性伝播ないしガウスエラー伝播は、測定の不確定性、すなわち遷移確率と評価の不確定性を、Q関数へ、ひいては活動選択ルールへ伝播させるのに使用することができる。共分散マトリクスが対角要素だけを含むという近似に基づいて、関数値f(x)、ただしf:R
m→R
nを分散として記述することができる。
【0044】
このように変数間の相関を無視して不確定性を近似的に考慮することは、ベルマン反復式の次式により表されるm番目の反復ステップにおいて
【数13】
Q関数における次の不確定性となる。
【0046】
上記の方程式では、確率論的活動選択ルールπの一般的場合が仮定されている。ここでπ(a|s)は状態sにおける活動aの選択の確率を表す。この表記法は決定論的活動選択ルールπ
dを記述するのにも使用することができる。このような場合、π
d(s)=aであればπ(a|s)≒1が成り立ち、π
d(s)≠aであればπ(a|s)≒0が成り立つ。所与の活動選択ルールの判定または評価に関し、上記のパラメータV
m(s)と(σV
m(s))
2は確率論的活動選択ルールπに対しては次のとおりである。
【0048】
これに対し、決定論的活動選択ルールに対するパラメータは次のとおりである。
【0050】
上記のベルマン最適方程式による活動選択ルールの反復計算の場合、ベルマン反復式のm次の反復ステップにおける最適活動選択ルールのQ関数Q
*に対するVまたはσVは次のとおりである。
【0052】
本発明によれば、上記の不確定性伝播がベルマン反復式と平行して使用され、各反復ステップQ
mとσQ
mで更新される。
【0053】
ここで対応する推定子が、遷移確率Pに対し、また不確定性σPまたはσRによる評価Rに対し使用される。これについては後で詳細に説明する。最初、Q関数Q
0による反復では、対応する不確定性σQ
0により開始される。ここでは例えばQ
0≒0、σQ
0≒0とすることができる。
【0054】
上記の反復式が収束する場合、対応する不確定性σQ
*を備えるQ
*の固定値に達する。この情報は、統計的不確定性を考慮する後続のQ関数を得るために使用することができる。
【0056】
この不確定性を考慮するQ関数は、P(ζ)の保証確率を備える予想パフォーマンスを提供する。ただし、活動aが状態sで実行され、続いて活動選択ルールπ
*(s)=argmax
aQ
*(s,a)が遵守されるという条件の下である。ここではQ
*u、すなわちπ
u(s)=argmax
aQ
*u(s,a)に基づく活動選択ルールは、保証されたパフォーマンスを一般的には改善しないことに注意すべきである。なぜならQ
*uは反復ステップで不確定性だけに注目するからである。一般的にQ
*uは活動選択ルールπ
uのQ関数を表さない。このことは不整合につながる。不確定性に関する知識を、保証されたパフォーマンスを最大にするのに利用するため、ベルマン反復式の各反復ステップで活動選択ルールの更新の際に、不確定性を考慮しなければならない。
【0057】
したがってここに説明する本発明の実施形態では、m次のベルマン反復ステップにおける最適活動選択ルールがQ
m(s,a)に基づいて計算されるのではなく、修正されたQ関数Q
m(s,a)−ζσQ
m(s,a)に基づいて計算される。すなわちここに説明する本発明の実施形態では、活動選択ルールの計算が次式に基づいて行われる。
【0059】
したがって反復式の後続のステップでは、a
s,maxがargmax
aQ(s,a)の代わりに使用され、Q
m−1とσQ
m−1に対する適値が決定される。
【0060】
このようにして、パラメータζに依存する信頼値について最適である活動選択ルールが得られる。すなわちその最小パフォーマンスが所与の確率に依存して保証される活動選択ルールが得られる。したがって形式的には活動選択ルールπが、保証パフォーマンスZ(s,a)の最大化により次式のように得られる。ここでは次式が当てはまる。
【0062】
ここでQ
π(ただしQの上にバーあり)はπの真のQ関数を、P(ζ)は前もって特定された固定の確率を表す。したがってパフォーマンスZはQ
πuにより近似され、次式により解かれる。
【0063】
【数21】
ただし、Q
πがπの有効Q関数であるという条件の下である。
【0064】
決定論的活動選択ルールの場合はこのようにして、ベルマン反復式の枠内で次の確率最適活動選択ルールが得られる。
【0066】
この活動選択ルールは各反復ステップにおいて最適の活動を、特定の状態でのQ値の最大値を基準にするのではなく、Q値の最大値から重み付けしたその不確定性を減じたものを基準にして形成する。ここで重み付けはパラメータζに基づき適切に設定される。
【0067】
上記のベルマン反復式に基づく決定論的活動選択ルールが、収束することを保証することはできない。とりわけ、活動選択ルールを発振させる、すなわち対応するQ関数を収束させない2つの作用が存在する。第1の作用は、すでに非特許文献1に記載されており、ζσQ(s,a)≠π(s)よりも大きなζσQ(s、π(s))に基づくものであり、πが求める活動選択ルールの場合、ζ>0が成り立つ。これは、R(s,π(s)、s’)とV(s7)=Q(s’π(s))が、R(s,a,s’)≠π(s)とV(s’)より強く相関しているためである。というのも、状態sが比較的後で発生するたびに活動π(s)の選択を価値関数が暗示するからである。特定の状態sで活動選択ルールをπからπ’に、Q(s、π(s))−ζσQ(s、π(s))<Q(s、π’(s))−ζσQ(s,π’(s))という条件のため切り換えると、Q(s、π’(s))の不確定性が比較的大きくなり、したがって次の反復ステップで再び始めに戻ることがある。
【0068】
すでに述べたように、Q値と、発生する活動の対応する不確定性とに特定の状況が存在する場合、発振を引き起こす第2の作用が存在する。そのような状況の例は、2つの活動a
1とa
2が1つの状態sで類似のQ値を有するが、不確定性は異なる場合である。これは、a
1が比較的大きな不確定性を有するが、真のマルコフ決定プロセスに対してはより良好な場合である。不確定性を考慮する活動選択ルールを更新するステップでは、π
mにより、不確定性が最小である活動a
2が選択されるようになる。しかし場合によっては、この活動が比較的劣であるとランク付けられている事実が、変更された活動選択ルールπ
m(活動a
2を選択する活動選択ルール)に対する価値関数が更新される場合に次の反復ステップで際立つことがある。したがって活動選択ルールの更新の際に次のステップで、状態sで活動a
1が選択されるように活動選択ルールが変更される。なぜならQ関数は、活動a
2が活動a
1より劣っていることを反映しているからである。Q関数の次の更新後に、両方の活動に対する値は類似するようになる。なぜなら価値関数がa
1の選択を暗示し、a
2の劣った作用が関数Q(s,a
2)を一度調整するからである。したがって活動a
1とa
2との間で発振が生じる。ここでは、非特許文献1に記載の方法では上記2つの作用が発生するが、本発明の方法では第2の作用だけが関連することに注意すべきである。これは、Q関数と報酬との間の共分散が考慮されていないためである。
【0069】
上記の非共分散の問題を解決するために、とくに好ましい実施形態では、確率論的活動選択ルールが適切な更新ステップにより上記の活動a
s,maxに基づいて決定される。ζ>0に対しては確率最適活動選択ルールが確率論的なものであることは直観的に自明である。なぜなら将来の報酬が低下するリスクを最小にすることが試行されるからである。
【0070】
ここに説明した本発明の変形実施形態では、確率の同じ活動により初期設定される確率論的活動選択ルールが使用される。各反復ステップで、Q
πuにしたがい最適の活動の確率が高められる。一方、他のすべての活動の確率は次式に基づき低下される。
【0072】
ここで
はQ
uによる最適の活動を表す。すなわち
【数24】
が当てはまる。
【0073】
調和的に減少する変化率に基づき、可能なすべての活動選択ルールの収束と到達可能性が保証される。ここでは収束が保証される他に、本発明により実施された実験で、確率論的活動選択ルールが決定論的活動選択ルールよりも良好な結果を提供することが示された。
【0074】
従来のベルマン反復式の時間複雑性はO(|S|
2|A|)にある。本発明の方法では、Q関数の不確定性σQを更新するステップが挿入され、このステップも同様にO(|S|
2|A|)の時間複雑性を有する。したがってこの方法全体が、O(|S|
2|A|)の時間複雑性を有する。非特許文献1による方法は完全な共分散マトリクスを計算し、時間複雑性をO((|S||A|)
2log(|S||A|)とO((|S||A|)
2376)の間に、共分散マトリクスの更新時に挿入する。そのため従来のベルマン反復式よりも時間複雑性が大きくなる。標準ベルマン反復式のメモリスペース複雑性は遷移確率Pとステイされた評価Rにより決定され、これらはそれぞれO((|S|
2|A|)のメモリスペースを必要とする。Q関数はO(|S||A|)のメモリスペースを必要とする。したがって標準ベルマン反復式の全メモリスペースはO(|S|
2|A|)である。不確定性をインプリメンテーションすることにより、σPとσRに対するO(|S|
2|A|)の複雑性と、σQに対するO(|S||A|)の複雑性が挿入される。したがって全体のメモリスペース複雑性はO(|S|
2|A|)において同じである。これとは異なり、非特許文献1による方法は、完全な共分散マトリクスのためのメモリスペースを必要とする。この完全な共分散マトリクスは、部分行列Cov(Q),Cov(Q,P),Cov(Q,R),Cov(P),Cov(P,R)およびCov(R)からなる。そのためメモリスペース複雑性はO(|S|
5|A|
3)となる。したがって時間複雑性もメモリスペース複雑性も、ここに説明した方法では、非特許文献1の方法の場合よりも格段に小さくなることが明白である。
【0075】
すでに上に示したように、確率最適活動選択ルールを求めるための計算は、トレーニングデータによる遷移確率Pと評価Rの推定に基づく。ここでは例えば、PとRに対する一般的な推定を、発生する状態の相対的頻度を用い、トレーニングデータに基づき使用することができる。この場合、遷移確率は多項分布としてモデル化され、これに基づき不確定性が次のように計算される。
【0077】
ここでP(s’|s,a)は、状態sと活動aを前提とする連続状態s’の相対頻度に相当する。さらにn
saは、状態活動ペア(s,a)に基づく連続状態への、観察された遷移の数を表す。これらの情報はすべてトレーニングデータから由来する。
【0078】
同じようにして評価を、正規分布を前提にしてモデル化することができる。この場合、遷移(s,a,s’)で観察されたすべての評価の平均値が評価に対する予想値として使用される。したがい評価に対する不確定性は次のようになる。
【0080】
ここで分散の分子の表現は、トレーニングデータに基づいてモデル化された正規分布に相当する。さらにn
sas’は、観察された遷移(s,a,s’)の数である。
【0081】
相対的頻度に基づく上記の遷移確率の推定は、通例、良好な結果を生む。しかし対応する不確定性推定は、トレーニングデータより少数の観察しか存在しない場合に問題である。例えば特別の遷移が2度、2回の試行で観察されれば(すなわち(n
sas’=n
sa=2)が成り立てば)、それ自身の不確定性はσP(s’|s,a)=0となる。これにより、観察が少数の場合には、不確定性がしばしば過度に低くランク付けられる。
【0082】
遷移確率の決定のためによく利用される数式の代わりに、ベイズの推定を使用することもできる。ここでは状態s
iおよび連続状態s
kに対するパラメータ空間P(s
k|s
i,a
j)についてのアプリオリ分布として、以下の密度を備えるディリクレ分布が使用される。
【0083】
【数27】
ここでは
【数28】
が成り立つ。ディリクレ分布は、次のアポステリオリパラメータを備える、いわゆる「共役プリオー(conjugate prior)」である。
【0084】
【数29】
ここで
は、トレーニングデータにしたがい活動a
jを実施した際の、s
iからs
kへの遷移の数である。アポステリオリ分布の予想値を推定子として使用することにより、すなわち確率をP(s
k|s
i,a
j)=α
dijk/α
dijと推定することにより、Pに対する不確定性は次のようになる。
【0085】
【数30】
α
ijkはディリクレ分布のパラメータである。α
ijk=0と選択することにより、遷移確率の上記一般的なモデル化と比較して、同等の推定とわずかに小さな不確定性が得られる。他方、α
ijk=1と選択することにより、1つの状態から別のすべての状態へのすべての遷移が同じ確率である分布が生じる。
【0086】
α
ijk=0とα
ijk=1の選択はそれぞれ、ほとんどの適用に適しない極値である。したがって本発明のとくに好ましい変形実施形態では、ディリクレ分布のパラメータが次のように設定される。
【0088】
ここでmはすべての状態活動ペアの予想される連続状態の平均数であり、|S|は状態の総数である。α
ijkを好ましく選択することにより、状態パラメータmの状態空間の部分集合にわたり、最大のエントロピーによりアプリオリ確率を近似することができる。このようにして確率の大部分が、実際に観察された状態mの部分集合に分散され、他の(観察されない)すべての連続状態の確率が非常に小さくなる。α
ijk=1によるアプリオリ分布と比較して、観察された連続状態に対して、観察されなかった連続状態に対するものより高い確率を達成するために、実際に観察された連続状態に対して少数の観察しか必要ない。同時に不確定性の推定が、一般的に使用される数式の場合より極端でない。なぜなら同じ観察が2度行われても、不確定性がゼロにはならないからである。
【0089】
本発明の方法の実施形態が、いわゆる「ウェットチキン(Wet Chicken)」ベンチマーク問題でテストされた。オリジナルのウェットチキン問題では、長さl、流速v=1の一次元の流れに沿ってパドルするカヌー漕手が考察される。流れの位置x=lには滝がある。位置x=0から出発してカヌー漕手は、できるだけ滝に接近するが、滝からは落下しないことを試みる。カヌー漕手が滝から落下すると、彼は再び位置x=0から開始しなければならない。報酬または評価は、滝に接近するとともに線形に上昇し、r=xにより表される。カヌー漕手は、流される、自分の位置を保持する、または流れに逆らって漕ぐなどの手段を有する。流れの渦がパラメータs=2.5であると、状態の確率論的遷移が生じる。カヌー漕手が自分の現在位置(河の流れも考慮して)で活動を実施した後、彼の新たな位置はx’=x+nにより与えられる。ここでn∈[−s,s]が同じように分散されたランダム値である。ここで考察する2次元のウェットチキン問題が、幅wだけ拡張あれる。したがって、カヌー漕手に対しては付加的に2つの活動が可能である。カヌー漕手はカヌーを一方では右に、他方では左に1単位だけ移動することができる。カヌー漕手の位置は(x、y)として示され、スタート位置は(0,0)である。流速vと渦の量sはyに依存し、v=3y/wと、s=3.5−vが成り立つ。実験では、離散的問題が考察された。すなわちxとyの値は常に次の整数値に丸められた。河の流速は左岸でゼロであるが、そこで渦の量が最大である。一方、河の右岸には渦がないが、逆に漕ぐための流速は最高である。
【0090】
上記の問題に基づいて、対応する活動選択ルールが本発明の方法により学習された。ここで
図1と2に示された実験100で、河において可能な状態が考察された。すなわちカヌー漕手は河の中で10×10の可能な位置を取ることができる。別の実験では5×5または20×20の状態が考察された。固定数の観察が、状態空間のランダムな調査により発生された。発生された観察が本発明による確率最適の活動選択ルールの決定のための入力量(すなわちトレーニングデータ)として使用された。ここでは非連続因子ζが0.95に設定された。活動選択ルールの決定後、このルールが100のエピソードに関して、それぞれ1000ステップによりテストされた。
【0091】
図1は、テストされた活動選択ルールの結果であり、100の試行にわたり平均されている。ここで
図1には、活動選択ルールの平均報酬が、活動選択ルールを学習するための使用された観察数の関数として示されている。観察は横軸にOにより示されており、平均報酬は縦軸にARとして示されている。直線L1は、遷移確率を推定するための一般的数式に対する
安全パラメータζ=0.5についての結果を示し、直線L2は、ベイズの数式に対するζ=0.5についての結果を示し、直線L3は一般的数式に対するζ=1についての結果を示し、直線L4はベイズの数式に対するζ=1についての結果を示す。比較のため不確定性を考慮しない(すなわちζ=0)活動選択ルールの学習結果が、直線L5により示されている。さらに非特許文献1による完全な共分散マトリクスに基づく活動選択ルールの学習が示されている。ここで直線L6は、ζ=1に対して非特許文献1の方法により学習された活動選択ルールを示し、直線L7は、ζ=0.5に対する非特許文献1の方法による結果を示す。簡単にするため、確率論的活動選択ルールだけが、ζ=0を除いて考察された。とりわけ
図1から、非特許文献1による方法のパフォーマンスは確かに高いが、本発明の方法についても良好な結果が達成されていることが分かる。このことは平均報酬の高い場合において、とくに観察数が多いときに反映されている。さらに統計的不確定性を考慮する方法は、観察数が多い場合に、活動選択ルールにおいて不確定性を考慮しない方法よりも良好である。
【0092】
図2は、活動選択ルールの頻度を、学習された1000の活動選択ルールに対する平均報酬の関数として示すヒストグラムである。横軸に沿って平均報酬ARが、縦軸に沿って対応する平均報酬により学習された活動選択ルールの数NPがプロットされている。このヒストグラムで、実線L8はζ=0により(すなわち不確定性を考慮せずに)学習された活動選択ルールを、破線L9は本発明の方法にしたがいζ=1により学習された活動選択ルールを、点線L10は本発明の方法に従いζ=2により学習された活動選択ルールを示す。各活動選択ルールを形成するために、4×10
4の観察が使用された。
図2から、本発明の方法により学習された活動選択ルールは、平均報酬の大きい領域で顕著な最大頻度を有することが分かる。この最大頻度は、不確定性を考慮しない活動選択ルールでは小さい。したがって本発明の方法により発生された、平均報酬の小さい活動選択ルールは、不確定性を考慮しない対応する活動選択ルールと比較して小さい頻度を有する。したがい不確定性の考慮により、報酬の小さい活動選択ルールの量が低減され、期待されるパフォーマンスが上昇する。
【0093】
非特許文献1の方法に対する本発明の方法の格別の利点は、計算時間が格段に短いことである。5×5の状態を備えるウェットチキン問題に対し、非特許文献1に記載の方法では選択ルールを形成するための計算時間が5.61sであった。これに対して本発明の方法は0.0002sしか必要としなかった。10×10の状態を備えるウェットチキン問題では、非特許文献1の方法の計算時間は1.1×10
3sであった。これに対して本発明の方法は0.034sしか必要としなかった。20×20の状態を備えるウェットチキン問題に対しては、そこから生じる計算時間とメモリスペースが非常に大きいため、非特許文献1に記載の方法により活動選択ルールを求めることができなかった。これに対して本発明の方法は活動選択ルールを発生するのに1.61sしか必要としなかった。
【0094】
上記のウェットチキン実験は、公知の方法に対する本発明の方法の優れたパフォーマンスを明確にするためにだけ用いるものである。本発明に基づき、技術システムを制御または調整するための方法が使用される。本発明の方法をテストするために、ガスタービン制御のシミュレーションも実行された。このシミュレーションについても本発明の方法は、計算時間の短い良好なパフォーマンスを示した。