IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ ロベルト ボッシュ ゲーエムベーハーの特許一覧

特許7191965方法、プログラム、機械可読記憶媒体、学習システム、及び、アクチュエータ調整システム
<>
  • 特許-方法、プログラム、機械可読記憶媒体、学習システム、及び、アクチュエータ調整システム 図1
  • 特許-方法、プログラム、機械可読記憶媒体、学習システム、及び、アクチュエータ調整システム 図2
  • 特許-方法、プログラム、機械可読記憶媒体、学習システム、及び、アクチュエータ調整システム 図3
  • 特許-方法、プログラム、機械可読記憶媒体、学習システム、及び、アクチュエータ調整システム 図4
  • 特許-方法、プログラム、機械可読記憶媒体、学習システム、及び、アクチュエータ調整システム 図5
  • 特許-方法、プログラム、機械可読記憶媒体、学習システム、及び、アクチュエータ調整システム 図6a)
  • 特許-方法、プログラム、機械可読記憶媒体、学習システム、及び、アクチュエータ調整システム 図6b)
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2022-12-09
(45)【発行日】2022-12-19
(54)【発明の名称】方法、プログラム、機械可読記憶媒体、学習システム、及び、アクチュエータ調整システム
(51)【国際特許分類】
   G05B 13/02 20060101AFI20221212BHJP
【FI】
G05B13/02 A
【請求項の数】 16
(21)【出願番号】P 2020542498
(86)(22)【出願日】2018-08-10
(65)【公表番号】
(43)【公表日】2020-12-24
(86)【国際出願番号】 EP2018071753
(87)【国際公開番号】W WO2019076512
(87)【国際公開日】2019-04-25
【審査請求日】2021-05-27
(31)【優先権主張番号】102017218811.1
(32)【優先日】2017-10-20
(33)【優先権主張国・地域又は機関】DE
【早期審査対象出願】
(73)【特許権者】
【識別番号】503082516
【氏名又は名称】ロベルト ボッシュ ゲーエムベーハー
(74)【代理人】
【識別番号】100103894
【弁理士】
【氏名又は名称】家入 健
(72)【発明者】
【氏名】ビショフ バスティアン
(72)【発明者】
【氏名】ヴィノグラツカ ユリア
(72)【発明者】
【氏名】ペーテルス ヤン
【審査官】堀内 亮吾
(56)【参考文献】
【文献】米国特許出願公開第2011/0059427(US,A1)
【文献】特開2015-018388(JP,A)
【文献】特開2017-102613(JP,A)
【文献】特開2011-060290(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G05B 13/02
(57)【特許請求の範囲】
【請求項1】
アクチュエータの調整変数を事前定義可能な目標変数に調整するために設定されるアクチュエータ調整システムを動作させる方法であって、
前記アクチュエータ調整システムは、調整戦略を特徴付ける変数の関数として補正変数を前記調整変数と前記目標変数の差分に基づいて生成し、この補正変数の関数として前記アクチュエータを制御するように設定され、
前記調整戦略を特徴付ける前記変数は価値関数の関数として決定され、
前記価値関数は、ベルマン方程式を用いて、反復価値関数の連続した反復により、徐々に前記価値関数を近似していくことによって反復的に決定され、
後続の反復の反復価値関数は、先行する反復の反復価値関数から前記ベルマン方程式を用いて決定され、
前記ベルマン方程式を解くために、前記先行する反復の前記反復価値関数の代わりに、基本関数の集合が範囲とする関数空間へのその射影のみが使用され、
前記反復価値関数と、前記集合が範囲とする前記関数空間へのその射影との間の最大剰余がどれほど大きいかに依存して、少なくとも1つのさらなる基本関数を前記集合に追加することにより、基本関数の後続の集合が反復的に決定される、
方法。
【請求項2】
前記後続の反復の前記反復価値関数の代わりにも、基本関数の第2の集合が範囲とする関数空間へのその射影のみが決定される、
請求項1に記載の方法。
【請求項3】
基本関数としてガウス関数が使用される、
請求項1又は2に記載の方法。
【請求項4】
前記ベルマン方程式の積分の値が、数値求積によって決定される、
請求項1から3のいずれかに記載の方法。
【請求項5】
前記少なくとも1つのさらなる基本関数が、前記剰余が最大になる前記調整変数の最大点に依存して選択される、
請求項に記載の方法。
【請求項6】
前記少なくとも1つの追加的な基本関数が、最大点において最大値を取る、
請求項に記載の方法。
【請求項7】
前記少なくとも1つの追加的な基本関数が、前記最大点における前記剰余の曲率を特徴付ける変数、詳細には前記最大点における前記剰余のヘッセ行列、に依存して選択される、
請求項5または6に記載の方法。
【請求項8】
前記少なくとも1つの追加的な基本関数が、前記最大点において、そのヘッセ行列が前記剰余の前記ヘッセ行列と等しくなるように選択される、
請求項に記載の方法。
【請求項9】
前記ベルマン方程式が依存する条件付き確率が、前記アクチュエータのモデルを用いて決定される、
請求項1からのいずれかに記載の方法。
【請求項10】
前記モデルはガウス過程である、
請求項に記載の方法。
【請求項11】
前記調整戦略を特徴付ける前記変数の決定後、前記モデルが前記補正変数の関数として適合され、それが前記アクチュエータの調整時に前記アクチュエータに供給され、前記アクチュエータ調整システムは、前記調整戦略と、その結果得られる前記調整変数とを考慮に入れ、前記モデルの適合後に、前記調整戦略を特徴付ける前記変数が、請求項10または11に記載の方法によって再度決定され、次いで前記条件付き確率が適合済みとなった前記モデルを用いて決定される、
請求項9または10に記載の方法。
【請求項12】
前記補正変数は、前記調整戦略を特徴付ける前記変数の関数として生成され、前記アクチュエータはこの補正変数の関数として制御される、
請求項1から11までの何れかに記載の方法。
【請求項13】
コンピュータに、請求項1から12のいずれかに記載の方法を実行させるプログラム。
【請求項14】
請求項13に記載のプログラムを記憶した、機械可読記憶媒体。
【請求項15】
アクチュエータ調整システムの調整戦略を特徴付ける変数を自動的に設定するための学習システムであって、前記アクチュエータ調整システムは、アクチュエータの調整変数を、事前定義可能な目標変数に調整するために設定され、前記学習システムは、請求項1から11のいずれかに記載の方法を実行するように設定される、学習システム。
【請求項16】
請求項12に記載の方法によりアクチュエータを制御するように設定される、アクチュエータ調整システム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、アクチュエータ調整システムを動作させる方法、学習システム、アクチュエータ調整システム、上記方法を実行するためのコンピュータプログラム、およびそのコンピュータプログラムが記憶された機械可読記憶媒体に関する。
【背景技術】
【0002】
事前に公開されていないDE102017211209から、アクチュエータ調整システムの少なくとも1つのパラメータを自動的に設定するための方法が知られており、これは、アクチュエータの調整変数を、事前定義可能な目標変数に調整するように設計されており、アクチュエータ調整システムは、少なくとも1つのパラメータ、目標変数、および調整変数に依存して、補正変数を生成し、この補正変数の関数としてアクチュエータを制御するように設計され、少なくとも1つのパラメータの新しい値が、長期間費用関数の関数として選択され、この長期間費用関数は、アクチュエータの調整変数の確率分布の予測される時間発展の関数として決定され、次いでパラメータがこの新しい値に設定される。
【発明の概要】
【課題を解決するための手段】
【0003】
それに対して、独立請求項1の特徴を備える本方法は、特に、アクチュエータ調整システムの最適な調整を保証することができるという利点を有する。有利なさらなる発展が、従属請求項の主題である。
【0004】
第1の態様において、本発明は、アクチュエータの調整変数を、事前定義可能な目標変数に調整するために設定されるアクチュエータ調整システムを動作させる方法に関し、アクチュエータ調整システムは、調整戦略を特徴付ける変数の関数として、詳細には目標変数および/または調整変数の関数としても、補正変数を生成し、この補正変数の関数としてアクチュエータを制御するように設定され、
調整戦略を特徴付ける変数は、価値関数の関数として決定される。
【0005】
価値関数を決定することにより、状態変数および/またはアクションが離散値に限定されるのでなく連続値を達成し得る場合であっても、アクチュエータ調整システムの最適な調整を保証することが可能となる。
【0006】
詳細には、調整戦略は、調整変数ごとに、補正変数が導出されるアクションが決定されるように、決定されることができ、このことにより価値関数を最大化する。
【0007】
さらなる発展において、価値関数は、ベルマン方程式を用いて、反復価値関数の後続の反復により、徐々に価値関数を近似していくことによって反復的に決定されるようになされ、後続の反復の反復価値関数は、先行する反復の反復価値関数から、ベルマン方程式を用いて決定され、
先行する反復の反復価値関数の代わりに、基本関数の集合が範囲とする線形関数空間へのその射影のみが、ベルマン方程式を解くために使用される。
【0008】
詳細には、これにより、特に長期間にわたり、システム動態を考慮に入れて、反復的に決定される価値関数が事前定義された報酬を最大化することを保証する。射影を使用することにより、その中に含まれる最大値形成のために点ごとに解析的に解くことしかできないベルマン方程式を、特に近似によって容易に解くことが可能となる。
【0009】
後続の反復の反復価値関数の代わりに、基本関数の第2の集合が範囲とする関数空間へのその射影のみが決定される場合、特に有利である。
【0010】
よって、後続の反復の反復価値関数自体を完全に計算する必要なく、この射影を決定することが可能となる。
【0011】
解析的に解くことが特に容易であるベルマン方程式の積分は、ガウス関数が基本関数として使用されるときに得られる。これにより、この方法が数値的に特に効率的になる。
【0012】
ベルマン方程式の最大値形成のために、ベルマン方程式は、一般には、個々の点で評価することしかできない。それでも、ベルマン方程式における積分が数値求積を使用して計算されれば、完全な解が可能である。したがって、数値求積の使用は数値的に特に効率的である。
【0013】
本発明のさらなる態様において、反復価値関数と、上記集合が範囲とする関数空間へのその射影との間の最大剰余がどれほど大きいかに依存して、少なくとも1つのさらなる基本関数をこの集合に追加することにより、基本関数の後続の集合が反復的に決定される。
【0014】
この反復的手順により、方法の数値エラーを、事前定義可能な最大値に特に効率的に制限することができ、よって、アクチュエータ調整システムを特に確実に動作させることができる。
【0015】
さらなる発展において、少なくとも1つのさらなる基本関数が、剰余が最大になる調整変数の最大点に依存して選択されるようになされ得る。
【0016】
これにより、基本関数の集合が範囲とする関数空間への射影によって数値エラーを特に迅速に減らすことができるため、方法が特に効率的になる。
【0017】
効率は、最大点における少なくとも1つの追加的な基本関数が最大値を取る場合に特に高い。
【0018】
代替または追加として、そのことは、少なくとも1つのさらなる基本関数が、最大点における剰余の曲率を特徴付ける数量、詳細には最大点における剰余のヘッセ行列、に依存して選択される場合に、方法の効率をさらに増大させる。
【0019】
特に多次元調整変数の場合に、少なくとも1つのさらなる基本関数が、最大点において、そのヘッセ行列が剰余のヘッセ行列と等しくなるように選択される場合、それは特に容易である。
【0020】
本発明のさらなる態様において、ベルマン方程式が依存する条件付き確率が、アクチュエータのモデルを用いて決定されるようになされ得る。アクチュエータの実際の挙動を再度決定する必要がないため、これによっても方法が特に効率的になる。
【0021】
ここで、モデルがガウス過程である場合、特に有利である。これは、基本関数がガウス関数によって与えられる場合に特に有利である。何故ならば、そうすると、発生する積分を、ガウス関数の積を介して積分として解析的に解くことができるためであり、これは特に効率的な実装を可能にする。
【0022】
アクチュエータ調整システムの特に良好な調整挙動を得るために、本発明のさらなる態様によれば、アクチュエータ調整システムの教授およびモデルの教授がエピソード的手順で決定されるようになされてよく、このことは、調整戦略を特徴付ける変数の決定後に、モデルが補正変数に依存するようにされ、それが、調整戦略を考慮に入れたアクチュエータ調整システムによるアクチュエータの調整の場合に、アクチュエータに供給され、その結果得られる調整変数に合わせて適合され、モデルの適合後に、調整戦略を特徴付ける変数が上記の方法により再度決定され、次いで条件付き確率が、適合済みとなったモデルを用いて決定される。
【0023】
さらなる態様において、本発明は、アクチュエータ調整システムの調整戦略を特徴付ける変数を自動的に設定するための学習システムに関し、アクチュエータ調整システムは、アクチュエータの調整変数を、事前定義可能な目標変数に調整するように構成され、学習システムは、上述の方法のいずれか1つを実行するように構成される。
【0024】
さらなる態様において、本発明は、調整戦略を特徴付ける変数が上述の方法の1つに従って決定され、次いで、調整戦略を特徴付ける変数に依存して操作変数が生成され、この補正変数に依存してアクチュエータが制御される方法に関する。
【0025】
さらなる態様において、本発明は、この方法を使用してアクチュエータを制御するように設定されるアクチュエータ調整システムに関する。
【0026】
さらに別の態様において、本発明は、上述の方法の1つを行うように設定されたコンピュータプログラムに関する。換言すると、コンピュータプログラムは、コンピュータで実行されたときに、そのコンピュータに方法を行わせる命令を備える。
【0027】
本発明はさらに、このコンピュータプログラムが記憶された機械可読記憶媒体に関する。
【0028】
以降、本発明の実施形態について、添付の図面を参照してより詳細に説明する。
【図面の簡単な説明】
【0029】
図1】学習システムとアクチュエータとの間の相互作用の概略的表現である。
図2】アクチュエータ調整システムとアクチュエータとの間の相互作用の概略的表現である。
図3】アクチュエータ調整システムを訓練する方法の一実施形態のフローチャートである。
図4】反復価値関数を決定する方法の一実施形態のフローチャートである。
図5】基本関数の集合を決定する方法の一実施形態のフローチャートである。
図6】補正変数を決定する方法の一実施形態のフローチャートである。
【発明を実施するための形態】
【0030】
図1は、その環境20の中で学習システム40と相互作用するアクチュエータ10を示す。アクチュエータ10および環境20を、以下ではまとめてアクチュエータシステムと称する。アクチュエータシステムの状態は、センサ30によって検出され、これは複数のセンサによって提供されてもよい。センサ30の出力信号Sは、学習システム40に送信される。学習システム40はそこから駆動信号Aを決定し、それをアクチュエータ10が受信する。
【0031】
アクチュエータ10は、例えば、(部分的に)自律的なロボット、例えば(部分的に)自律的な自動車、(部分的に)自律的な芝刈り機であり得る。また、例えばアイドル制御のためのスロットルバルブまたはバイパスアクチュエータなどの、自動車のアクチュエータの作動であってもよい。また、加熱設備、または、バルブアクチュエータなど加熱設備の一部であってもよい。アクチュエータ10は、特に、自動車の内燃機関または(可能性としてはハイブリッド型の)ドライブトレーン、さらにはブレーキシステムなどの、より大きいシステムであってもよい。
【0032】
センサ30は、例えば、1つもしくは複数のビデオセンサ、および/または1つもしくは複数のレーダセンサ、および/または1つもしくは複数の超音波センサ、および/または1つもしくは複数の位置センサ(例えばGPS)であってよい。例えば温度センサなどの他のセンサが考えられる。
【0033】
別の実施形態例において、アクチュエータ10は、製造用ロボットであってよく、そのとき、センサ30は、例えば製造用ロボットの製造製品の特性を検出する光学センサであってよい。
【0034】
学習システム40は、センサ30の出力信号Sを任意選択の受信部50で受信し、出力信号Sを調整変数xに変換する(代替として、出力信号Sは調整変数xとしてそのまま引き継がれる場合もある)。調整変数xは、例えば、出力信号Sの一部分またはさらなる処理であってよい。調整変数xは、調整器60に供給される。調整器において、調整戦略πまたは価値関数Vのいずれかが実装され得る。
【0035】
パラメータメモリ70に、パラメータθが保管され、それが調整器60に供給される。パラメータθは、調整戦略πまたは価値関数Vをパラメータ化する。パラメータθは、単数または複数のパラメータであり得る。
【0036】
ブロック90は、調整器60に、事前定義可能な目標変数xdを供給する。ブロック90が、事前定義可能な目標変数xdを、例えばブロック90に対して事前定義されたセンサ信号の関数として生成するようになされ得る。また、ブロック90が、目標変数xdが常駐する専用のメモリ領域から目標変数xdを読み出すことも可能である。
【0037】
調整戦略またはπ価値関数Vと、目標変数xdおよび調整変数xとに依存して、調整器60は補正変数uを生成する。これは、例えば、調整変数xと目標変数xdとの間の差x-xdに依存して決定され得る。
【0038】
調整器60は補正変数uを出力部80に送信し、出力部80はそこから駆動信号Aを決定する。例えば、出力部が、はじめに、補正変数uが事前定義可能な変数範囲内にあるかどうかを検査することが可能である。これが該当する場合、制御信号Aは、例えば、関連付けられた駆動信号Aが補正変数uの関数として特性フィールドから読み出されることにより、補正変数uの関数として決定される。これが通常の場合である。一方、補正変数uが事前定義可能な値範囲内にないと判定される場合は、制御信号AがアクチュエータAをセーフモードに入れるように設計されるようになされ得る。
【0039】
受信部50は、調整変数xをブロック100に送信する。同様に、調整器60は、対応する補正変数uをブロック100に送信する。ブロック100は、一連の時刻に受信された調整変数xの時系列と、それぞれの対応する補正変数uとを記憶する。ブロック100は、次いで、これらの時系列に基づいてモデルgのモデルパラメータΛ、σ、σを適合することができる。モデルパラメータΛ、σ、σは、ブロック110に供給され、ブロック110はそれらを、例えば専用の記憶位置に記憶する。これについては以下で図4のステップ1010でより詳細に説明する。
【0040】
学習システム40は、ある実施形態において、コンピュータプログラムが記憶された機械可読記憶媒体42を有するコンピュータ41を備え、コンピュータプログラムは、コンピュータ41によって実行されると、コンピュータ41に、記載される学習システム40の機能を行わせる。この実施形態において、コンピュータ41はGPU43を備える。
【0041】
モデルgは、価値関数Vの決定に使用され得る。これについては以下で説明する。
【0042】
図2は、アクチュエータ10とのアクチュエータ調整システム45の相互作用を例示する。アクチュエータ調整システム45の構造およびアクチュエータ10およびセンサ30とのその相互作用は、多くの部分で学習システム40の構造と類似しており、その理由からここでは違いのみを説明する。学習システム40と対照的に、アクチュエータ調整システム45はブロック100を有さず、またブロック110を有さない。ブロック100への変数の送信は、したがって除去される。アクチュエータ調整システム45のパラメータメモリ70には、例えば図4に例示されるように本発明に係る方法によって決定されたパラメータθが保管される。
【0043】
図3は、本発明に係る方法の一実施形態を例示する。はじめに(1000)、調整変数xの初期値xが、事前定義可能な初期確率分布p(x)から選択される。エピソードインデックスeが値e=1に初期化され、このエピソードインデックスeに割り当てられた価値関数
が値
に初期化される。
【0044】
また、図1に説明されるようにアクチュエータ10が制御される事前定義可能な計画期間Tまで、補正変数u,u,...,uT-1がランダムに選択される。アクチュエータ10は、環境20を介してセンサ30と相互作用し、センサ30のセンサ信号Sは、調整器60から間接的にまたは直接、調整変数x,...,xT-1,xとして受信される。
【0045】
これらは組み合わせられて、データセットD={(x,u,x),...,(xT-1,uT-1,x}となる。
【0046】
ブロック100は、補正変数uおよび調整変数xの時系列を受信して集約し(1030)、これらは一緒になって、調整変数xと対応する変数uとのペアz、
を生じる。
【0047】
Dは、これにより、調整変数xの次元数であり、Fは補正変数uの次元数であり、すなわち
である。
【0048】
この状態軌道に依存して、次いで、連続する時刻t,t+1の間に以下が該当するように、ガウス過程gが適合される。
t+1=x+g(x,u). (1)
ここで、
=πθ(x). (1')
【0049】
ガウス過程gの共分散関数kは、例えば、
によって与えられる。
【0050】
パラメータ
は信号の分散であり、
は、D+F個の入力次元の各々についての二乗された長さスケール
の集まりである。
【0051】
共分散行列Kが、
K(Z,Z)i,j=k(z,z). (3)
によって定義される。
【0052】
すると、ガウス過程gは、平均μおよび分散Varの2つの関数によって特徴付けられ、これらは
によって与えられる。
【0053】
ここで、yは、白色雑音εで、y=f(z)+εによって通常の方式で与えられる。
【0054】
次いで、対数周辺尤度関数を最大化することにより、知られている方式でパラメータΛ、σ、σがペア(z,y)にマッチングされる。
【0055】
次いで(1020)、エピソードインデックスeに関連付けられた反復価値関数
が決定され、これらの反復価値関数のうち最後のものが、エピソードインデックスeに関連付けられた収束した反復価値関数
である。エピソードインデックスeに割り当てられた反復価値関数
を決定する方法の一実施形態が図5に例示される。
【0056】
次いで(1030)、例えば、現在のエピソードインデックスeに割り当てられた収束した反復価値関数と、先行するエピソードインデックスe-1に割り当てられた反復価値関数
との差が、関数Δの第1の事前定義可能な制限値未満であるかどうか、すなわち
であるかどうかを検査することにより、エピソードインデックスeに関連付けられた収束した反復価値関数
が収束しているかどうかが検査される。これが該当する場合、続いてステップ1080が行われる。
【0057】
しかし、収束がまだ達成されていない場合(1040)、エピソードインデックスeに関連付けられた最適な調整戦略πが、
により定義される。
【0058】
次いで(1050)、調整変数xの初期値xが、初期確率分布p(x)から再度選択される。
【0059】
式(6)に定義される最適な調整戦略πを使用して、調整変数の系列π(x),...,π(xT-1)がここで(1060)反復的に決定され、それを用いてアクチュエータ10が制御される。次いで受信されるセンサ30の出力信号Sから、その結果得られる状態変数x,...,xが次いで決定される。
【0060】
ここで(1070)エピソードインデックスeが1増分され、分岐してステップ1030に戻る。
【0061】
ステップ1030で、各エピソードにわたる反復の結果、エピソードインデックスeに割り当てられた反復価値関数
の収束に至ったと決定された場合、価値関数Vは、エピソードインデックスeに割り当てられた反復価値関数
の価値関数に等しく設定される。これにより方法のこの態様が終了する。
【0062】
図4は、エピソードインデックスeに割り当てられた反復価値関数
を決定する方法の一実施形態を例示する。明瞭さの理由から、エピソードインデックスeは以下では省略される。上付きのインデックスは、以降、文字tによって表される。方法は、常に先行する価値関数
に基づいて、後続の反復価値関数
を常に計算する。この先行する反復価値関数
は、基本関数
と係数
との線形結合
として与えられる。また、これらの係数
は、簡単に係数ベクトルαにまとめられる。方法は、インデックスt=0で開始する(1500)。
【0063】
はじめに、基本関数の集合B
が決定される(1510)。これらは事前定義されることも、または図6を使用して例示したアルゴリズムを使用して決定されることもできる。
【0064】
次いで(1520)、i,j=1...Nt+1についてのスカラー積
が決定される。
【0065】
その後(1530)、数値求積を使用して、ノードξ,...,ξおよび関連付けられた重みw,...,wが定義される。
【0066】
これらのノードξ,...,ξおよび重みw,...,wを利用して、次いで(1540)すべてのインデックスi=1...Nt+1について、ベクトルbt+1の係数

に決定される。
【0067】
係数ベクトルαt+1が、ここで(1550)αt+1=M-1t+1に決定され、質量行列Mは
によって与えられる。
【0068】
演算子Aは、
として定義される。
【0069】
ここで、0<γ<1は指定可能な重み付け係数であり、例えばγ=0.85である。rは、調整変数xの値に報酬値を割り当てる報酬関数である。有利には、報酬関数rは、目標変数xdからの調整変数xの逸脱が小さいほど、大きい値を取るように選択される。
【0070】
先行する変数xおよび操作変数uを与えられたときの調整変数x’の条件付き確率p(x’|x,u)は、ガウス過程gを使用して式(8)で決定することができる。
【0071】
式(8)のmax演算子は、解析解には利用できないことに留意すべきである。しかし、所与の調整変数xについて、最大化は、各事例で勾配降下方法を用いて行われ得る。
【0072】
これらの定義は、このようにして定義された後続の反復価値関数
が、基本関数Bが範囲とする空間への実際の反復価値関数Vt+1の射影に対応することを保証し、実際の反復価値関数は、ベルマン方程式
を満たす。
【0073】
ベクトルbt+1は、よって、式
を近似的に満たし、ここで、例外ケースのみにおいて正確に解くことができるこの式は、実際の価値関数Vt+1が、基本関数Bが範囲とする空間へのその射影に、すなわち反復価値関数
に、置き換えられ、かつ、その結果得られる数値求積を伴う積分方程式が近似的に解かれる場合に、解くことができることが認識された。
【0074】
ここで(1560)、終了基準が満たされるかどうかが検査される。終了基準は、例えば、反復価値関数
が収束している場合、例えば、先行する反復価値関数
との差が、関数Δの第2の制限値よりも小さくなる、すなわち
である場合に、満たされ得る。終了基準は、インデックスtが事前定義可能な計画期間Tに達した場合にも満たされるとみなされ得る。
【0075】
終了基準が満たされない場合、インデックスtが1増分される(1570)。一方、終了基準が満たされる場合、価値関数Vが、前回の反復の反復価値関数
に等しく設定される。
【0076】
これにより方法のこの部分が終了する。
【0077】
図5は、ベルマン方程式の実際の反復価値関数Vについての基本関数の集合Bを決定する方法の一実施形態を例示する。このために、はじめに(1600)、基本関数の集合Bが空集合に初期化され、インデックスlが値l=0に初期化される。基本関数の集合Bに射影された反復価値関数
も、値0に初期化される。
【0078】
次いで(1610)、剰余
が、反復価値関数
と、それに対応する射影された反復価値関数
との間の逸脱として定義される。
【0079】
次いで(1620)、剰余の最大点x=arg maxt,l(x)が、例えば勾配降下方法で決定され、剰余Rt,lのヘッセ行列Ht,lが最大桁xで決定される。
【0080】
ここで(1630)、基本関数の集合Bに追加される新しい基本関数
が決定される。追加される新しい基本関数
は、好ましくは、平均値sおよび共分散行列Σのガウス関数として選択される。共分散行列Σは、式
を満たすように計算される。
【0081】
次いで(1640)、この基本関数
が基本関数の集合Bに加えられる。
【0082】
ここで(1650)、拡大された基本関数の集合Bが範囲とする関数空間への反復価値関数
の射影により、射影された反復価値関数
が決定される。
【0083】
その後(1660)、射影された反復価値関数
の決定が十分に収束しているかどうかが、例えば、関連付けられた逸脱のノルム(例えばLノルム)が、関数Δの第3の事前定義可能な制限値を下回る、すなわち
であるかどうかを検査することにより、検査される。
【0084】
これが該当しない場合、インデックスlが1増分され、方法は分岐してステップ1610に戻る。
【0085】
それ以外の場合は、決定された集合
が、検索された基本関数の集合として戻され、方法のこの部分が終了する。
【0086】
図6は、補正変数を決定する方法の実施形態を例示し、図7aは、パラメータメモリ70に保管されたパラメータθが調整戦略πをパラメータ化するケースの一実施形態を例示する。このために、はじめに(1700)、例えばSobol設計計画として、試験点xの集合が定義される。
【0087】
次いで(1710)、試験点uに割り当てられた最適な補正変数xが、式


を使用して計算され、例えば、勾配降下方法を用いて決定され、また、試験点xと、それぞれに割り当てられた最適な操作変数uとのペアから、訓練集合M={(x,u),(x,u),...}が作成される。
【0088】
この訓練集合Mを用いて、次いで、データに基づくモデル、例えばガウス過程gθ、の教授が行われ(1720)、それにより、データに基づくモデルは、調整変数xに対して、割り振られる最適な補正変数uを効率的に決定する。ガウス過程θを特徴付けるパラメータgθは、パラメータメモリ70に保管される。
【0089】
ステップ(1700)から(1720)は、好ましくは学習システム40で実行される。
【0090】
アクチュエータ調整システム45の動作中(1730)、このシステムは次いで、ガウス過程gθを使用して、所与の調整変数xに対して関連付けられた補正変数uを決定する。
【0091】
これによりこの方法が終了する。
【0092】
図7bは、パラメータメモリ70に保管されたパラメータθが価値関数Vをパラメータ化するケースの一実施形態を例示する。このために、ステップ(1800)で所与の調整変数xについて、ステップ(1710)と同じように、式


によって定義される関連付けられた補正変数uが、勾配降下方法で決定される。
【0093】
これによりこの方法が終了する。
図1
図2
図3
図4
図5
図6a)】
図6b)】