特許7586298 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 日本電気株式会社の特許一覧

特許7586298設定装置、設定方法およびプログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】

(24)【登録日】2024-11-11

(45)【発行日】2024-11-19

(54)【発明の名称】設定装置、設定方法およびプログラム

(51)【国際特許分類】

G05B 13/04 20060101AFI20241112BHJP

G05B 23/02 20060101ALI20241112BHJP

【ＦＩ】

G05B13/04

G05B23/02 E

【請求項の数】 10

(21)【出願番号】P 2023515941

(86)(22)【出願日】2021-04-20

(86)【国際出願番号】 JP2021016105

(87)【国際公開番号】W WO2022224364

(87)【国際公開日】2022-10-27

【審査請求日】2023-10-04

(73)【特許権者】

【識別番号】000004237

【氏名又は名称】日本電気株式会社

(74)【代理人】

【識別番号】100149548

【弁理士】

【氏名又は名称】松沼泰史

(74)【代理人】

【識別番号】100181135

【弁理士】

【氏名又は名称】橋本隆史

(72)【発明者】

【氏名】窪澤駿平

(72)【発明者】

【氏名】大西貴士

【審査官】牧初

(56)【参考文献】

【文献】特開２００８－３０４９７０（ＪＰ，Ａ）

【文献】特開２００６－３４４００４（ＪＰ，Ａ）

【文献】特開２００９－２４４９３３（ＪＰ，Ａ）

【文献】特開２００５－０５０２８３（ＪＰ，Ａ）

【文献】特開平０６－２８９１７９（ＪＰ，Ａ）

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｇ０５Ｂ１１／００－１７／０２

Ｇ０５Ｂ２３／００－２３／０２

(57)【特許請求の範囲】

【請求項1】

模擬対象を模擬するシミュレータのパラメータ値を設定するパラメータ値設定手段と、
前記シミュレータの出力値と、前記シミュレータの出力値による模擬の対象となる基準出力値とに基づいて、前記シミュレータの出力値毎の項目である出力項目毎の重みを計算する重み計算手段と、
前記シミュレータの出力値と前記基準出力値と前記重みとに基づく評価関数を用いて、前記パラメータ値設定手段による前記シミュレータのパラメータ値の設定の学習を制御する学習制御手段と、
を備える設定装置。

【請求項2】

前記重み計算手段は、前記出力項目毎の誤差を正規化した正規化後誤差が大きい前記出力項目ほど小さい重みになるように、前記出力項目毎の重みを計算する、
請求項１に記載の設定装置。

【請求項3】

前記シミュレータの出力値と前記基準出力値との誤差の、前記パラメータ値の空間における勾配を示す勾配ベクトルを、前記出力項目毎に計算する勾配ベクトル計算手段
をさらに備え、
前記重み計算手段は、前記勾配ベクトルと、前記勾配ベクトルを全ての前記出力項目について平均した平均勾配ベクトルとの差異が小さいほど重みが大きくなるように、前記出力項目毎の重みを計算する
請求項１に記載の設定装置。

【請求項4】

前記学習制御手段は、前記シミュレータによる前記模擬対象のシミュレーション上の時間で、前記パラメータ値設定手段が前記パラメータ値を設定する時間よりも未来の時間を含む時間における前記シミュレータの出力値に基づく前記評価関数を用いる、
請求項１から３の何れか一項に記載の設定装置。

【請求項5】

模擬対象を模擬する第１シミュレータのパラメータ値を設定するパラメータ値設定手段と、
前記模擬対象を模擬し、出力値が前記第１シミュレータの出力値による模擬の対象となる基準出力値として用いられる第２シミュレータの出力値と、前記第１シミュレータに、前記第２シミュレータへの入力値と同じ入力値が入力されたときの前記第１シミュレータの出力値とに基づく評価関数を用いて、前記パラメータ値設定手段による前記第１シミュレータのパラメータ値の設定の学習を制御する学習制御手段と、
を備える設定装置。

【請求項6】

前記第２シミュレータのパラメータ値を変化させるパラメータ値変更手段
をさらに備え、
前記第２シミュレータの出力値は、前記パラメータ値変更手段が前記第２シミュレータのパラメータ値を変化させるときの出力値を含む、
請求項５に記載の設定装置。

【請求項7】

コンピュータが、
模擬対象を模擬するシミュレータのパラメータ値を設定し、
前記シミュレータの出力値と、前記シミュレータの出力値による模擬の対象となる基準出力値とに基づいて、前記シミュレータの出力値毎の項目である出力項目毎の重みを計算し、
前記シミュレータの出力値と前記基準出力値と前記重みとに基づく評価関数を用いて、前記シミュレータのパラメータ値の設定の学習を制御する、
設定方法。

【請求項8】

コンピュータが、
模擬対象を模擬する第１シミュレータのパラメータ値を設定し、
前記模擬対象を模擬し、出力値が前記第１シミュレータの出力値による模擬の対象となる基準出力値として用いられる第２シミュレータの出力値と、前記第１シミュレータに、前記第２シミュレータへの入力値と同じ入力値が入力されたときの前記第１シミュレータの出力値とに基づく評価関数を用いて、前記第１シミュレータのパラメータ値の設定の学習を制御する、
設定方法。

【請求項9】

コンピュータに、
模擬対象を模擬するシミュレータのパラメータ値を設定することと、
前記シミュレータの出力値と、前記シミュレータの出力値による模擬の対象となる基準出力値とに基づいて、前記シミュレータの出力値毎の項目である出力項目毎の重みを計算することと、
前記シミュレータの出力値と前記基準出力値と前記重みとに基づく評価関数を用いて、前記シミュレータのパラメータ値の設定の学習を制御することと、
を実行させるためのプログラム。

【請求項10】

コンピュータに、
模擬対象を模擬する第１シミュレータのパラメータ値を設定することと、
前記模擬対象を模擬し、出力値が前記第１シミュレータの出力値による模擬の対象となる基準出力値として用いられる第２シミュレータの出力値と、前記第１シミュレータに、前記第２シミュレータへの入力値と同じ入力値が入力されたときの前記第１シミュレータの出力値とに基づく評価関数を用いて、前記第１シミュレータのパラメータ値の設定の学習を制御することと、
を実行させるためのプログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、設定装置、設定方法およびプログラムに関する。

【背景技術】

【0002】

シミュレータのパラメータ値の計算方法を強化学習にて学習することが提案されている。
例えば、特許文献１には、ごみ焼却プラントのシミュレータのパラメータ（プロセスモデルのプラントモデルを特徴付ける数値）を強化学習（Ｑ－Ｌｅａｒｎｉｎｇ、ＴＤ学習法など）にて学習することが記載されている。また、特許文献１には、報酬を、実測と計算の状態量の間にある差に応じて定めることが記載されている。

【先行技術文献】

【特許文献】

【0003】

【文献】日本国特開２００４－１７８４９２号公報

【発明の概要】

【発明が解決しようとする課題】

【0004】

プラントが複数のセンサを備える場合など、模擬対象から複数項目の出力値を得られる場合が考えられる。この場合に、シミュレータのパラメータ値の設定の学習を効果的に行えることが好ましい。

【0005】

本発明の目的の一例は、上述した課題を解決することのできる設定装置、設定方法およびプログラムを提供することである。

【課題を解決するための手段】

【0006】

本発明の第一の態様によれば、設定装置は、模擬対象を模擬するシミュレータのパラメータ値を設定するパラメータ値設定手段と、前記シミュレータの出力値と、前記シミュレータの出力値による模擬の対象となる基準出力値とに基づいて、前記シミュレータの出力値毎の項目である出力項目毎の重みを計算する重み計算手段と、前記シミュレータの出力値と前記基準出力値と前記重みとに基づく評価関数を用いて、前記パラメータ値設定手段による前記シミュレータのパラメータ値の設定の学習を制御する学習制御手段と、を備える。

【0007】

本発明の第二の態様によれば、設定装置は、模擬対象を模擬する第１シミュレータのパラメータ値を設定するパラメータ値設定手段と、前記模擬対象を模擬し、出力値が前記第１シミュレータの出力値による模擬の対象となる基準出力値として用いられる第２シミュレータの出力値と、前記第１シミュレータに、前記第２シミュレータへの入力値と同じ入力値が入力されたときの前記第１シミュレータの出力値とに基づく評価関数を用いて、前記パラメータ値設定手段による前記第１シミュレータのパラメータ値の設定の学習を制御する学習制御手段と、を備える。

【0008】

本発明の第三の態様によれば、設定方法では、コンピュータが、模擬対象を模擬するシミュレータのパラメータ値を設定し、前記シミュレータの出力値と、前記シミュレータの出力値による模擬の対象となる基準出力値とに基づいて、前記シミュレータの出力値毎の項目である出力項目毎の重みを計算し、前記シミュレータの出力値と前記基準出力値と前記重みとに基づく評価関数を用いて、前記シミュレータのパラメータ値の設定の学習を制御する。

【0009】

本発明の第四の態様によれば、設定方法では、コンピュータが、模擬対象を模擬する第１シミュレータのパラメータ値を設定し、前記模擬対象を模擬し、出力値が前記第１シミュレータの出力値による模擬の対象となる基準出力値として用いられる第２シミュレータの出力値と、前記第１シミュレータに、前記第２シミュレータへの入力値と同じ入力値が入力されたときの前記第１シミュレータの出力値とに基づく評価関数を用いて、前記第１シミュレータのパラメータ値の設定の学習を制御する。

【0010】

本発明の第五の態様によれば、プログラムは、コンピュータに、模擬対象を模擬するシミュレータのパラメータ値を設定することと、前記シミュレータの出力値と、前記シミュレータの出力値による模擬の対象となる基準出力値とに基づいて、前記シミュレータの出力値毎の項目である出力項目毎の重みを計算することと、前記シミュレータの出力値と前記基準出力値と前記重みとに基づく評価関数を用いて、前記シミュレータのパラメータ値の設定の学習を制御することと、を実行させるためのプログラムである。

【0011】

本発明の第六の態様によれば、プログラムは、コンピュータに、模擬対象を模擬する第１シミュレータのパラメータ値を設定することと、前記模擬対象を模擬し、出力値が前記第１シミュレータの出力値による模擬の対象となる基準出力値として用いられる第２シミュレータの出力値と、前記第１シミュレータに、前記第２シミュレータへの入力値と同じ入力値が入力されたときの前記第１シミュレータの出力値とに基づく評価関数を用いて、前記第１シミュレータのパラメータ値の設定の学習を制御することと、を実行させるためのプログラムである。

【発明の効果】

【0012】

本発明によれば、模擬対象から複数項目の出力値を得られる場合に、シミュレータのパラメータ値の設定の学習を効果的に行えると期待される。

【図面の簡単な説明】

【0013】

【図1】第１実施形態に係るシミュレーションシステムの装置構成の例を示す図である。

【図2】第１実施形態での学習時における設定装置の構成の例を示す図である。

【図3】第１実施形態に係るシミュレーションシステムの運用時におけるデータの入出力の例を示す図である。

【図4】第２実施形態に係るシミュレーションシステムの構成例を示す図である。

【図5】第２実施形態に係るシミュレーションシステムの学習時におけるデータの入出力の例を示す図である。

【図6】第２実施形態に係る設定装置における評価値の計算のための構成の例を示す図である。

【図7】第２実施形態に係るセンサ値の誤差の勾配の例を示す図である。

【図8】第２実施形態に係る重み計算部が算出する正規化された誤差の例を示す図である。

【図9】第２実施形態に係る重み計算部が算出する一致度の例を示す図である。

【図10】第２実施形態に係る重み計算部が算出する重みの例を示す図である。

【図11】第２実施形態における重み付けされた誤差の分布の第１例を示す図である。

【図12】第２実施形態における重み付けされた誤差の分布の第２例を示す図である。

【図13】第２実施形態に係る学習制御部による重みの更新の例を示す図である。

【図14】第２実施形態に係る設定装置が、誤差の重みを更新する処理手順の例を示す図である。

【図15】第３実施形態に係るシミュレーションシステムの構成例を示す図である。

【図16】第３実施形態に係るシミュレーションシステムの学習時におけるデータの入出力の例を示す図である。

【図17】第３実施形態におけるパラメータ値の空間における勾配ベクトルの例を示す図である。

【図18】第３実施形態に係る勾配ベクトル計算部が誤差の微分ｄＬｉ（θ）／ｄθを推定する処理手順の例を示す図である。

【図19】第３実施形態に係る設定装置が、誤差の重みを更新する処理手順の例を示す図である。

【図20】第４実施形態に係るシミュレーションシステムの構成例を示す図である。

【図21】第４実施形態に係るシミュレーションシステムの学習時におけるデータの入出力の例を示す図である。

【図22】第５実施形態に係るシミュレーションシステムの構成例を示す図である。

【図23】第５実施形態に係るシミュレーションシステムの学習時におけるデータの入出力の例を示す図である。

【図24】第６実施形態に係るシミュレーションシステムの構成例を示す図である。

【図25】第６実施形態に係るシミュレーションシステムの学習時におけるデータの入出力の例を示す図である。

【図26】第７実施形態に係る設定装置の構成例を示す図である。

【図27】第８実施形態に係る設定装置の構成例を示す図である。

【図28】第９実施形態に係る設定方法における処理手順の例を示す図である。

【図29】第１０実施形態に係る設定方法における処理手順の例を示す図である。

【図30】少なくとも１つの実施形態に係るコンピュータの構成を示す概略ブロック図である。

【発明を実施するための形態】

【0014】

以下、本発明の実施形態を説明するが、以下の実施形態は請求の範囲にかかる発明を限定するものではない。また、実施形態の中で説明されている特徴の組み合わせの全てが発明の解決手段に必須であるとは限らない。

【0015】

＜第１実施形態＞
図１は、第１実施形態に係るシミュレーションシステムの装置構成の例を示す図である。
図１に示す構成で、シミュレーションシステム１は、設定装置１００と、シミュレータ２００とを備える。また、図１には模擬対象９００が示されている。模擬対象９００が、シミュレーションシステム１に含まれていてもよいし、シミュレーションシステム１の外部の構成となっていてもよい。

【0016】

模擬対象９００は、シミュレーションシステム１によるシミュレーションの対象である。模擬対象９００は、シミュレーションを実行可能ないろいろなものとすることができ、特定のものに限定されない。また、模擬対象９００は、複数の装置を含むシステムであってもよいし、単体の装置であってもよいし、装置の部分であってもよい。
例えば、模擬対象９００は、化学プラント、蒸留塔、航空管制システム、または、鉄道システムの何れかであってもよいが、これに限定されない。

【0017】

シミュレーションシステム１は、模擬対象９００を模擬する。
具体的には、シミュレータ２００が、模擬対象９００のシミュレーションモデルを備える。シミュレータ２００が備える模擬対象９００のシミュレーションモデルは、模擬対象９００の状態に相当するパラメータを有する。設定装置１００が、シミュレーションモデルのパラメータに値を設定することで、シミュレータ２００は、設定されたパラメータ値に応じた模擬対象９００の状態における模擬対象９００の動作を模擬する。
設定装置１００とシミュレータ２００とが、何れもコンピュータを用いて構成されていてもよい。設定装置１００とシミュレータ２００とが、これら両方を含む１つの装置として構成されていてもよい。

【0018】

シミュレータ２００が備える模擬対象９００のシミュレーションモデルを、単にシミュレーションモデル、または、模擬対象９００のシミュレーションモデルとも称する。
シミュレータ２００が備える模擬対象９００のシミュレーションモデルのパラメータを単にパラメータ、または、シミュレータ２００のパラメータとも称する。シミュレータ２００が備える模擬対象９００のシミュレーションモデルのパラメータ値を単にパラメータ値または、シミュレータ２００のパラメータ値とも称する。

【0019】

設定装置１００は、基準出力値を取得する。ここでいう基準出力値は、シミュレータ２００の出力値による模擬の対象となる値である。設定装置１００は、シミュレータ２００の出力値を基準出力値に合わせるように、パラメータ値を設定する。具体的には、設定装置１００は、シミュレータ２００の出力値が基準出力値になるべく近い値になるように、パラメータ値を設定する。

【0020】

例えば、模擬対象９００への実際の入力値と同じ値が、シミュレータ２００に入力されるようにしてもよい。そして、設定装置１００が、この入力値に対する模擬対象９００の実際の出力値を基準出力値として取得し、シミュレータ２００の出力値が基準出力値になるべく近づくようにパラメータ値を設定するようにしてもよい。
これにより、シミュレータ２００は、模擬対象９００の状態に応じて模擬対象９００を高精度に模擬することができる。また、設定装置１００が設定するパラメータ値を参照することで、模擬対象９００の状態を解析することができる。

【0021】

シミュレーションシステム１が模擬対象９００の実際の入力値および出力値を取得する場合、模擬対象９００の入力値および出力値をリアルタイムで取得するようにしてもよい。この場合、シミュレータ２００は、模擬対象９００をリアルタイムで模擬することができる。
あるいは、シミュレーションシステム１が、模擬対象９００の入力値および出力値の履歴データを取得するようにしてもよい。この場合、シミュレータ２００は、模擬対象９００の過去の動作をシミュレーションで再現することができる。
この場合、設定装置１００と模擬対象９００とが通信接続されていなくてもよい。

【0022】

模擬対象９００への入力値、または、模擬対象９００への入力値に相当する値を、制御入力値とも称する。模擬対象９００への入力値に相当する値とは、模擬対象９００への入力値として使用可能であるが、実際に模擬対象９００に入力される予定は無い値であってもよい。

【0023】

シミュレーションシステム１が、模擬対象９００における実データに代えて、制御入力値および基準出力値の仮想的なデータに基づいて模擬対象９００のシミュレーションを行うようにしてもよい。例えば、シミュレーションシステム１が、模擬対象９００における入出力の計画値に基づいて模擬対象９００のシミュレーションを行うようにしてもよい。これにより、設定装置１００が設定するパラメータ値を参照することで、計画を実施するのに適した模擬対象９００の状態を解析することができる。
この場合、設定装置１００と模擬対象９００とが通信接続されていなくてもよい。

【0024】

模擬対象９００の出力値は、シミュレーションシステム１が取得可能な値であればよく、特定のものに限定されない。以下では、模擬対象９００の出力値を取得する手段をセンサとして扱う。模擬対象９００の出力値をセンサ値とも称する。
模擬対象９００の出力値には、模擬対象９００が備えるタンク内の圧力など、模擬対象９００自体のセンサ値が含まれていてもよい。また、模擬対象９００の出力値には、模擬対象９００が設置された部屋の室温など、模擬対象９００の周囲環境に関するセンサ値が含まれていてもよい。

【0025】

模擬対象９００の出力が複数ある場合、模擬対象９００の個々の出力を模擬対象９００の出力項目、あるいは単に出力項目とも称する。模擬対象９００の出力値が、出力項目毎の要素を有するベクトルで示されてもよい。模擬対象９００の全ての出力項目の出力値を出力項目毎の出力値と区別する場合、全ての出力項目の出力値を出力値ベクトルとも称する。
模擬対象９００を模擬するシミュレータ２００についても、模擬対象９００の場合と同様に、「出力項目」および「出力値ベクトル」の用語を用いる。基準出力値についても、「出力項目」および「出力値ベクトル」の用語を用いる。例えば、全ての出力項目の基準出力値を「基準出力値ベクトル」とも称する。

【0026】

模擬対象９００への入力値には、模擬対象９００が備える配管内の液体流量指令値など、模擬対象９００に信号で入力される値が含まれていてもよい。また、模擬対象９００への入力値には、模擬対象９００の運転員の操作による調整弁の開度など、模擬対象９００に対する操作によって入力される値が含まれていてもよい。

【0027】

模擬対象９００への入力が複数ある場合、模擬対象９００への個々の入力を模擬対象９００への入力項目とも称する。模擬対象９００への入力値が、入力項目毎の要素を有するベクトルで示されてもよい。模擬対象９００の全て入力項目の入力値を入力項目毎の出力値と区別する場合、全ての入力項目の入力値を入力値ベクトルとも称する。

【0028】

設定装置１００が、模擬対象９００の状態の時間変化に応じてシミュレーション中にパラメータ値を更新するようにしてもよい。
また、設定装置１００が、模擬対象９００の一部のセンサが故障した場合もシミュレーションモデルが模擬対象９００と同じ動作またはなるべく似た動作を示すように、パラメータ値を設定するようにしてもよい。

【0029】

模擬対象９００のシミュレーションモデルが複数のパラメータを備えていてもよく、これら複数のパラメータの値がベクトルで示されてもよい。模擬対象９００のシミュレーションモデルの全てのパラメータ値を個々のパラメータ値と区別する場合、全てのパラメータ値をパラメータ値ベクトルとも称する。

【0030】

図２は、学習時における設定装置１００の構成の例を示す図である。図２に示す構成で、設定装置１００は、学習制御部１１０と、パラメータ値設定部１２０とを備える。
設定装置１００は、シミュレーションモデルパラメータ値の計算方法を強化学習によって取得する。

【0031】

強化学習は、機械学習の一種である。強化学習では、「環境」内の「エージェント」が「状態」を観察して「行動」を決定するための、行動決定基準である「方策」が、学習による更新の対象となる。方策の更新に際し、行動による環境への働きかけに対する評価を示す「報酬」がエージェントに提示される。方策に加えて報酬の計算方法も、学習による更新の対象となっていてもよい。また、報酬として、値が小さいほど評価が高いことを示す、いわゆる「損失」が、エージェントに提示されるようにしてもよい。
学習を訓練とも称する。

【0032】

シミュレーションシステム１では、設定装置１００がエージェントの例に該当する。シミュレータ２００と、例えば模擬対象９００など制御入力値および基準出力値の出力元とが、環境の例に該当する。制御入力値、基準出力値、および、シミュレータ２００の出力値が、設定装置１００が観測する状態の例に該当する。

【0033】

パラメータ値設定部１２０は、シミュレータ２００のパラメータ値を設定する。具体的には、パラメータ値設定部１２０は、パラメータ値を計算するための関数を備え、この関数を用いてパラメータ値を算出する。パラメータ値設定部１２０は、算出したパラメータ値をシミュレータ２００に送信することで、このパラメータ値をシミュレータ２００に設定する。
パラメータ値設定部１２０は、パラメータ値設定手段の例に該当する。

【0034】

パラメータ値設定部１２０がパラメータ値を決定するための基準が、関数以外の形式で構成されていてもよい。例えば、パラメータ値設定部１２０がパラメータ値を決定するための基準がアルゴリズムの形式で示されていてもよい。
パラメータ値設定部１２０によるパラメータ値の設定は、行動の例に該当する。パラメータ値設定部１２０がパラメータ値を決定するための基準は、方策の例に該当する。

【0035】

パラメータ値設定部１２０がパラメータ値を決定するための基準は、更新可能に構成される。例えば、パラメータ値設定部１２０がパラメータ値を決定するための基準が関数の形式で構成される場合、関数の係数の値および定数項の値が、更新可能になっていてもよい。パラメータ値設定部１２０がアルゴリズムの形式で構成される場合、アルゴリズム中に、学習によって値を更新可能な外部変数が設けられていてもよい。

【0036】

以下では、パラメータ値設定部１２０がパラメータ値を決定するための基準が関数の形式で構成される場合を例に説明する。この関数を方策関数とも称する。方策関数を「π」で表す場合がある。
方策関数πの引数は、制御入力値、基準出力値、および、シミュレータ２００の出力値であってもよいが、これらに限定されない。また、方策関数πが複数時刻分のデータを引数にとるようになっていてもよい。例えば、方策関数πが、制御入力値、基準出力値、および、シミュレータ２００の履歴情報を引数にとるようになっていてもよい。

【0037】

学習制御部１１０は、シミュレータ２００の出力値と基準出力値とに基づく評価関数を用いて、パラメータ値設定部１２０によるパラメータ値の設定の学習を制御する。学習制御部１１０は、学習制御手段の例に該当する。
具体的には、学習制御部１１０は、シミュレータ２００の出力値と基準出力値とを引数とし、パラメータ値設定部１２０が設定したパラメータ値に対する評価値を算出するための評価関数を備える。学習制御部１１０は、この評価関数を用いて評価値を算出する。
例えば、学習制御部１１０が、基準出力値に対するシミュレータ２００の出力値の誤差の大きさを評価値として算出する評価関数を用いるようにしてもよい。

【0038】

学習制御部１１０が評価値を取得するための基準が、関数以外の形式で構成されていてもよい。例えば、学習制御部１１０が評価値を取得するための基準がアルゴリズムの形式で示されていてもよい。
学習制御部１１０が取得する評価値は、報酬の例に該当する。学習制御部１１０が、上記の誤差のように、値が小さいほど評価が高いことを示す、いわゆる損失を報酬として取得するようにしてもよい。
以下では、学習制御部１１０が評価関数を用いて評価値を算出する場合を例に説明する。この評価関数を報酬関数とも称する。

【0039】

学習制御部１１０は、算出した評価値に基づいて、パラメータ値設定部１２０によるパラメータ値の設定の学習を制御する。ここでのパラメータ値設定部１２０によるパラメータ値の設定の学習は、具体的には、方策関数πを更新することである。

【0040】

学習制御部１１０は、評価値が減少するように、方策関数πを更新する。これにより、学習制御部１１０は、シミュレータ２００の出力値が基準出力値に近付くように、方策関数πを更新する。学習制御部１１０が、方策関数πを直接更新することに代えて、パラメータ値設定部１２０に方策関数πを更新させるようにしてもよい。

【0041】

ここでの方策関数πの更新方法として公知の方法を用いることができる。例えば、方策関数πの微分または差分近似など、何らかの方法で方策関数πの勾配を算出可能な場合、学習制御部１１０が勾配法を用いて方策関数πの更新内容を決定するようにしてもよい。

【0042】

図３は、シミュレーションシステム１の運用時におけるデータの入出力の例を示す図である。
図３の例では、設定装置１００の各部のうちパラメータ値設定部１２０が示されている。図２に示す設定装置１００の各部のうち学習制御部１１０は、運用時には不要である。運用時には、設定装置１００が学習制御部１１０を備えていなくてもよい。あるいは、運用時にも設定装置１００が図２の例のように構成され、学習制御部１１０が停止状態となっていてもよい。

【0043】

図３の例で、パラメータ値設定部１２０は、制御入力値、基準出力値、および、シミュレータ２００の出力値を取得する。パラメータ値設定部１２０は、取得した各値を学習済みの方策関数πに入力してパラメータ値を算出し、算出したパラメータ値をシミュレータ２００に設定する。

【0044】

シミュレータ２００は、設定されたパラメータ値に基づいて模擬対象９００のシミュレーションを実行し、制御入力値に対する出力値を算出する。
以下では、時刻を時間ステップ毎の連番で表すこととし、時刻０、１、２、・・・のように表記する。パラメータ値設定部１２０が時間ステップ毎にパラメータ値の算出および設定を行うものとする。そして、シミュレータ２００が、パラメータ値が設定される毎に、制御入力値に対する出力値を算出するものとする。
シミュレータ２００における入出力は式（１）のように表記される。

【0045】

【数1】

【0046】

ｘ^（ｔ）は、時刻ｔにおけるシミュレータ２００への入力値ベクトルを示す。θ^（ｔ）は、時刻ｔにおけるシミュレータ２００のパラメータ値ベクトルを示す。
ｆは、シミュレーションモデルの動作を示す関数である。関数ｆでは、シミュレーションモデルの状態が、パラメータ値θ^（ｔ）の引数で示されている。
シミュレーションモデルが、パラメータ値θ^（ｔ）以外にも状態を有していてもよい。この場合、関数ｆが、パラメータ値θ^（ｔ）以外にも状態変数値を引数にとるようにしてもよい。
ｙ＾^{（ｔ＋１）}は、時刻ｔ＋１におけるシミュレータ２００の出力値ベクトルを示す。
シミュレータ２００が、ｘ^（ｔ）およびθ^（ｔ）に基づいて、時刻ｔにおけるシミュレータ２００の出力値ベクトルｙ＾^（ｔ）を算出するようにしてもよい。

【0047】

シミュレーションの開始時刻を０とし、シミュレーション上での現在時刻をτとして、時刻０からτまでの制御入力値ベクトルの時系列データは式（２）のように示される。

【0048】

【数2】

【0049】

時刻０からτまでの模擬対象９００の出力値の時系列データは、式（３）のように示される。

【0050】

【数3】

【0051】

時刻０からτまでのシミュレータ２００の出力値の時系列データは、式（４）のように示される。

【0052】

【数4】

【0053】

設定装置１００が、制御入力値の時系列データ、模擬対象９００の出力値の時系列データ、および、シミュレータ２００の出力値の時系列データの全部または一部を、パラメータ値の設定の学習における状態観測データとして用いるようにしてもよい。設定装置１００が、模擬対象９００の出力値の時系列データに代えて、模擬対象９００の出力計画値の時系列データなど仮想的なデータを状態観測データとして用いるようにしてもよい。

【0054】

＜第２実施形態＞
図４は、第２実施形態に係るシミュレーションシステムの構成例を示す図である。
図４に示す構成で、シミュレーションシステム２は、設定装置１０１と、シミュレータ２００とを備える。設定装置１０１は、学習制御部１１１と、パラメータ値設定部１２０と、重み計算部３１０とを備える。
図４の各部のうち、図２の各部に対応して同様の機能を有する部分には、同一の符号（１２０、２００）を付し、ここでは詳細な説明を省略する。

【0055】

シミュレーションシステム２は、シミュレーションシステム１の例に該当する。設定装置１０１は、設定装置１００の例に該当する。学習制御部１１１は、学習制御部１１０の例に該当する。したがって、学習制御部１１１は、学習制御手段の例に該当する。
重み計算部３１０は、模擬対象９００の出力値に対するシミュレータ２００の出力値の出力項目毎の誤差に対する重みを算出する。学習制御部１１１は、シミュレータ２００の出力値と基準出力値とに加えてさらに、重み計算部３１０が算出する重みに基づく評価関数を用いて、出力項目毎の誤差が重み付け合計された誤差を評価値として算出する。それ以外の点では、シミュレーションシステム２はシミュレーションシステム１と同様である。

【0056】

図５は、シミュレーションシステム２の学習時におけるデータの入出力の例を示す図である。図５の例で、重み計算部３１０は、基準出力値とシミュレータ２００の出力値との入力を受け、出力項目毎に重みを計算する。

【0057】

学習制御部１１１は、基準出力値と、シミュレータ２００の出力値と、重み計算部３１０が算出する重みとの入力を受ける。学習制御部１１１は、出力項目毎に、基準出力値に対するシミュレータ２００の出力値の誤差を算出し、重み計算部３１０が算出する重みを用いて出力項目毎の誤差を重み付け合計する。学習制御部１１１は、重み付け合計された誤差を評価値として用いて、評価値が減少するように、パラメータ値設定部１２０によるパラメータ値の設定の学習を制御する。

【0058】

パラメータ値設定部１２０は、制御入力値と、基準出力値と、シミュレータ２００の出力値との入力を受ける。パラメータ値設定部１２０は、得られた各値を方策関数πに入力してパラメータ値を算出し、算出したパラメータ値をシミュレータ２００に設定する。
シミュレータ２００は、設定されたパラメータ値に基づいて模擬対象９００のシミュレーションを実行し、制御入力値に対する出力値を算出する。

【0059】

図６は、設定装置１０１における評価値の計算のための構成の例を示す図である。
図６の例で、模擬対象９００の状態が「θ_ｔ」と表記されている。模擬対象９００の状態に相当するシミュレータ２００のパラメータ値は「θ＾_ｔ」と表記されている。
Ｓ_ｔは、模擬対象９００のセンサ、および、模擬対象９００のセンサを模擬するシミュレータ２００の出力を示す。Ｓ_ｔに示されるセンサまたは出力が正常であることを白丸（〇）で示し、故障していることを黒丸（●）で示している。図６は、模擬対象９００のセンサのうちの１つが故障している場合の例を示している。

【0060】

学習制御部１１１は、模擬対象９００の出力値に対するシミュレータ２００の出力値の、出力項目毎の差の２乗の重み付け合計を評価値として算出し、評価値を最小化するように、方策関数πを更新する。模擬対象９００の出力値に対するシミュレータ２００の出力値の、出力項目毎の差の２乗を２乗誤差とも称する。
図６の「－」は、出力項目毎の、模擬対象９００の出力とシミュレータ２００の出力との差を示す。「ε^２」は、２乗を示す。「ｗ」は、重み計算部３１０が算出する重みによる重み付けを示す。「Σ」は、合計を示す。

【0061】

図６の例のように、模擬対象９００の一部のセンサが故障している場合、学習制御部１１１が、シミュレータ２００の出力値を故障しているセンサの出力値に合わせるように学習を制御することで、シミュレータ２００によるシミュレーションの精度が低くなることが考えられる。
また、模擬対象９００の一部のセンサが故障している場合、評価値として算出される誤差を０にできないことが考えられる。誤差を０にできないことで、学習に時間を要する場合が考えられる。

【0062】

そこで、重み計算部３１０は、出力項目毎に重みを設定する。この重みは、模擬対象９００の出力値に対するシミュレータ２００の出力値の誤差を評価値に反映させる度合いを示す重みとして用いられる。全ての出力項目の重みを出力項目毎の重みと区別する場合、全ての出力項目の重みを重みベクトルとも称する。
重み計算部３１０は、重み計算手段の例に該当する。
重み計算部３１０が、出力項目毎の各重みを、０以上、かつ、１以下の範囲で設定するようにしてもよい。この場合、重みベクトルｗは、式（５）のように示される。

【0063】

【数5】

【0064】

Ｐは、出力項目の個数を示す整数である。式（５）では、「［０，１］」は、０以上１以下の範囲を示す。
パラメータ値設定部１２０は、例えば、式（６）に基づいてパラメータ値を算出する。

【0065】

【数6】

【0066】

θは、パラメータ値ベクトルの時系列データを示す。シミュレーションの開始時刻を０とし、シミュレーション上での現在時刻をτとして、式（６）のθは、式（７）のように示される。

【0067】

【数7】

【0068】

パラメータ値設定部１２０は、式（７）に示される時系列データに含まれるパラメータ値ベクトルのうち、最新の時刻のパラメータ値ベクトルθ^{（τ－１）}を、パラメータ値ベクトルθ^（τ）としてシミュレータ２００に設定するようにしてもよい。

【0069】

式（６）のｙ_ｉ ^{（ｔ＋１）}は、時刻ｔ＋１における模擬対象９００の出力値ベクトルｙ^{（ｔ＋１）}のうちｉ番目の要素を示す。
ｆ_ｉ（ｘ^（ｔ），θ^（ｔ））は、関数ｆ（ｘ^（ｔ），θ^（ｔ））のうち、シミュレータ２００の出力値ｙ＾_ｉ ^{（ｔ＋１）}を算出する部分を示す。ｙ＾_ｉ ^{（ｔ＋１）}は、時刻ｔ＋１におけるシミュレータ２００の出力値ベクトルｙ＾^{（ｔ＋１）}のうちｉ番目の要素を示す。
ｗ_ｉは、重みベクトルのうちｉ番目の要素を示す。
ａｒｇｍｉｎ_θ（ｔ）は、引数として与えられる関数の値が最小となるようなパラメータ値ベクトルθ^（ｔ）を出力する関数である。

【0070】

ｆ_ｉ（ｘ^（ｔ），θ^（ｔ））＝ｙ＾_ｉ ^{（ｔ＋１）}と表すことができ、式（６）の「ｗ_ｉ（ｙ_ｉ ^{（ｔ＋１）}－ｆ_ｉ（ｘ^（ｔ），θ^（ｔ）））^２」は、模擬対象９００の出力値に対するシミュレータ２００の出力値の、出力項目毎の２乗誤差の重み付け合計を示す。式（６）は、重み付けされた２乗誤差の、出力項目および重みについての合計が最小になるような、重みベクトルの時系列データを算出することを示す。

【0071】

なお、式（６）で、全て重みｗ_ｉを０にすると、ａｒｇｍｉｎの引数が常に０になり、強化学習における評価関数として用いることができなくなる。そこで、重み計算部３１０は、例えば全ての重みｗ_ｉの合計が１との制約条件など、全て重みｗ_ｉが０になることを回避する制約条件のもとで、重みｗ_ｉを算出する。

【0072】

ここで、模擬対象９００のセンサの一部が故障している場合の例として、模擬対象９００が２つのセンサを備え、２つのセンサのうち１つが故障している場合について考える。模擬対象９００の出力値は、ｙ＝［ｙ_１，ｙ_２］＝［５．２，１．２］とする。１番目のセンサ、すなわち出力値ｙ_１＝５．２のセンサが故障しているものとする。

【0073】

シミュレータ２００の出力値は、ｙ＾＝［ｙ＾_１，ｙ＾_２］とし、パラメータ値にかかわらずｙ＾_１＝１．２とする。ｙ＾_２は、０．０またはそれ以上、かつ、１０．０またはそれ以下の範囲の値をとるものとする。
１番目のセンサの誤差は、ｙ_１－ｙ＾_１＝５．２－１．２＝４．０の固定値となっており、誤差関数値はｙ＾_２の値に依存して変化する。

【0074】

パラメータ値設定部１２０が設定するパラメータ値ベクトルθは、式（８）のように示される。

【0075】

【数8】

【0076】

ｉ番目のセンサの誤差ε_ｉは、式（９）のように示される。

【0077】

【数9】

【0078】

図７は、センサ値の誤差の勾配の例を示す図である。
図７のグラフの横軸はシミュレータ２００の出力値ｙ＾_２を示す。縦軸は、誤差Σ_ｉ（ｗ_ｉ（ｙ_ｉ－ｆ_ｉ（ｘ，θ））^２）を示す。
線Ｌ１は、重みベクトルがｗ＝［０．５，０．５］の場合の出力値ｙ＾_２と誤差との関係を示す。線Ｌ２は、重みベクトルがｗ＝［０．０５，０．９５］の場合の出力値ｙ＾_２と誤差との関係を示す。

【0079】

図７の例で、１番目のセンサの誤差ε_１は固定値９をとる。このため、重み付けされた誤差ｗ_１ε_１は固定値となり、重み付けされた２番目のセンサの誤差ｗ_２ε_２の大きさによって誤差の勾配の大きさが決まる。
線Ｌ１と線Ｌ２とでは、重みｗ_２の値が大きい線Ｌ２のほうが、誤差の勾配が大きくなる。例えば、図７で、ｙ＾_２の同じ変化幅に対する重み付けされた誤差の変化幅は、Ｄ２のほうがＤ１よりも大きい。誤差の勾配が大きいことで、例えば勾配法を用いる学習の学習時間が比較的短い時間で済むと期待される。

【0080】

そこで、重み計算部３１０は、センサ値の正常可能性に基づいて重みを計算する。ここでいう正常可能性は、センサ値が正確であると期待される度合いである。正常可能性が高いほど、センサが正確である可能性が高い。ここでいうセンサが正確であるとは、センサ値と実際値との誤差を無視できる程度にセンサ値が実際値と一致していることであってもよい。

【0081】

具体的には、重み計算部３１０は、出力項目毎の模擬対象９００の出力値とシミュレータ２００の出力値との差を比較できるように正規化する。そして、重み計算部３１０は、正規化された差の大きさが大きい出力項目ほど重みの大きさが小さくなるように、重みの大きさを決定する。

【0082】

学習が進んで模擬対象９００の出力値とシミュレータ２００の出力値との差の大きさが小さくなってくると、故障しているセンサの出力項目、または、他のセンサに比べて精度が著しく低いセンサの出力項目など、正常可能性が低い出力項目における差が比較的大きくなることが考えられる。重み計算部３１０が、正規化された差の大きさが大きい出力項目ほど重みの大きさが小さくなるように、重みの大きさを決定することで、正常可能性が低い出力項目の重みが小さくなり、学習への影響を小さくできると期待される。

【0083】

重み計算部３１０、重みの初期値を全ての出力項目について同じ値に設定するようにしてもよい。例えば、重み計算部３１０が、重みベクトルｗを式（１０）のように初期設定するようにしてもよい。

【0084】

【数10】

【0085】

学習がある程度進んでから、学習制御部１１１が誤差の重み付けを行うようにしてもよい。例えば、学習が所定の回数だけ行われるまで、重み計算部３１０が各重みの値を、式（１０）に示される初期値のままにするようにしてもよい。

【0086】

図８は、重み計算部３１０が算出する正規化された誤差の例を示す図である。
重み計算部３１０は、例えば各センサのレンジを０から１までの範囲（［０，１］）に揃えるように、出力項目毎の模擬対象９００の出力値、および、出力項目毎のシミュレータ２００の出力値を変換する。
ただし、重み計算部３１０が行う正規化は、誤差が比較可能になるものであればよく、特定の方法による正規化に限定されない。

【0087】

重み計算部３１０は、出力項目毎に、正規化された模擬対象９００の出力値に対する、正規化されたシミュレータ２００の出力値の２乗誤差を算出する。正規化された模擬対象９００の出力値に対する、正規化されたシミュレータ２００の出力値の２乗誤差を、正規化された２乗誤差、または、比較誤差とも称する。
図８は、出力項目の個数が３つである場合の例を示している。出力項目毎の比較誤差は、０．７、０．２、および、０．１となっている。

【0088】

図９は、重み計算部３１０が算出する一致度の例を示す図である。
一致度として、比較誤差が小さいほど一致度が大きくなるような値を用いる。
図９の例では、重み計算部３１０は、出力項目毎に１から比較誤差を減算して一致度を算出している。出力項目毎の一致度は、０．３、０．８、および、０．９となっている。出力項目毎の一致度をＲ_ｉとも表記する。ｉは、出力項目を識別する識別番号であり、例えば１からの連番とすることができる。

【0089】

ただし、重み計算部３１０が一致度を算出する方法は、上記の方法に限定されない。
例えば、重み計算部３１０が、例えば、式（１１）を用いて訓練サンプル毎、かつ、出力項目毎の一致度ｒ_ｉを算出するようにしてもよい。

【0090】

【数11】

【0091】

ここでいう訓練サンプルは、シミュレータ２００のパラメータ値の設定の学習の一単位となるものであればよい。例えば、訓練サンプルが、１つの制御入力値ベクトルの時系列データと１つの基準出力値ベクトルの時系列データとの組み合わせを含んで構成されていてもよい。訓練データが、複数の訓練サンプルを含んで構成されていてもよい。１つの訓練データを用いて学習を繰り返し行う場合、１つの訓練データを用いた１回分の学習を、１エポックの学習と称するようにしてもよい。
式（１１）では、ε_ｉは、正規化された２乗誤差を示す。
重み計算部３１０が、式（１１）を用いて、出力項目毎の正規化された２乗誤差を正規化された２乗誤差の合計値で除算することで、個々の一致度ｒ_ｉは０またはそれ以上、かつ１またはそれ以下の範囲内の値になり、一致度ｒ_ｉの全ての出力項目についての合計値は１になる。
重み計算部３１０が、例えば、式（１２）を用いて、訓練サンプル毎、かつ、出力項目毎の一致度を所定の個数の訓練サンプルについて平均することで、出力項目毎の一致度Ｒ_ｉを算出するようにしてもよい。

【0092】

【数12】

【0093】

Ｄは、所定の個数を示す定数である。
ε_ｋ ^（ｄ）は、ｋ番目の出力項目、かつ、ｄ番目の訓練サンプルの正規化された２乗誤差を示す。「ε_ｉ ^（ｄ）／Σ_ｋ＝１ ^Ｐε_ｋ ^（ｄ）」は、訓練サンプル毎、かつ、出力項目毎の一致度ｒ_ｉの、Ｄ個の訓練サンプルについての平均を示す。

【0094】

個々の一致度Ｒ_ｉは０またはそれ以上、かつ１またはそれ以下の範囲内の値になり、一致度Ｒ_ｉの全ての出力項目についての合計値は１になる。
式（１２）で、Ｄ＝１であってもよい。したがって、重み計算部３１０が、式（１１）で算出する訓練サンプル毎、かつ、出力項目毎の一致度ｒ_ｉをそのまま、出力項目毎の一致度Ｒ_ｉとして算出するようにしてもよい。

【0095】

図１０は、重み計算部３１０が算出する重みの例を示す図である。
重み計算部３１０が、重みの合計が１になるように、図９の例で得られた出力項目毎の一致度に同じ値を乗算するようにしてもよい。
例えば、重み計算部３１０は、式（１３）を用いて出力項目毎の重みｗ_ｉを算出する。

【0096】

【数13】

【0097】

重み計算部３１０が、式（１３）を用いて出力項目毎の重みを算出することで、個々の重みｗ_ｉは０またはそれ以上、かつ１またはそれ以下の範囲内の値になり、重みｗ_ｉの全ての出力項目についての合計値は１になる。

【0098】

あるいは、重み計算部３１０が、式（１３）に代えて式（１４）を用いて出力項目毎の重みｗ_ｉを算出するようにしてもよい。

【0099】

【数14】

【0100】

ｅはネイピア数を示す。
重み計算部３１０が、式（１４）を用いて出力項目毎の重みを算出することで、個々の一致度ｗ_ｉは０またはそれ以上、かつ１またはそれ以下の範囲内の値になり、重みｗ_ｉの全ての出力項目についての合計値は１になる。

【0101】

また、重み計算部３１０が、式（１４）のようにネイピア数など１より大きい底のべき乗を計算することで、一致度Ｒ_ｉの大きさの相対的な違いを強調して重みｗ_ｉに反映させることができる。具体的には、重み計算部３１０が、式（１３）を用いる場合と比較すると、式（１４）を用いる場合は、一致度Ｒ_ｉが大きいほど、重みｗ_ｉがより大きく算出されるようになる。

【0102】

あるいは、重み計算部３１０が、一致度をそのまま重みとして用いるようにしてもよい。例えば、重み計算部３１０が、図９の例のように算出した一致度Ｒ_ｉ、式（１１）を用いて算出した一致度ｒ_ｉ、または、式（１２）を用いて算出した一致度Ｒ_ｉを、そのまま重みｗ_ｉとして用いるようにしてもよい。

【0103】

学習制御部１１１が、エポック毎など学習の単位毎に、シミュレータ２００の出力値と基準出力値との重み付けされた誤差の出力項目全体での大きさを示す誤差指標値を計算するようにしてもよい。そして、１単位分の学習の実行後の誤差指標値が、その１単位分の学習の実行前の誤差指標値よりも、誤差が大きいことを示す場合、学習制御部１１１が、重みを、その１単位分の学習の実行前の重みに戻すようにしてもよい。

【0104】

図１１は、重み付けされた誤差の分布の第１例を示す図である。
図１１のグラフの横軸は重み付けされた誤差の大きさの、度数分布における階級を示す。縦軸は、重み付けされた誤差の大きさの階級毎の、センサの個数を示す。重み付けされた誤差として、模擬対象９００の出力値に対するシミュレータ２００の出力値の、出力項目毎の２乗誤差に、重み計算部３１０が算出する出力項目毎の係数を乗算した値を用いることができる。
図１１の例では、グラフの横軸の誤差が比較的大きい側（図１１の右側）の階級の度数が比較的大きくなっている。

【0105】

図１２は、重み付けされた誤差の分布の第２例を示す図である。
図１２のグラフの横軸は重み付けされた誤差の大きさの、度数分布における階級を示す。縦軸は、重み付けされた誤差の大きさの階級毎の、センサの個数を示す。
図１１の例と比較すると図１２の例では、グラフの横軸の誤差が比較的小さい側（図１２の左側）の階級の度数が比較的大きくなっている。図１２の例のほうが、図１１の例の場合よりも重み付けされた誤差が改善されていると評価することができる。

【0106】

学習制御部１１１が算出する誤差指標値として、重み付けされた誤差の改善度合いを示すいろいろな指標値を用いることができる。例えば、学習制御部１１１が、誤差指標値として、模擬対象９００の出力値に対するシミュレータ２００の出力値の２乗誤差の、全ての出力項目についての最頻値、平均値、または中央値を算出するようにしてもよいが、これらに限定されない。

【0107】

図１３は、学習制御部１１１による重みの更新の例を示す図である。図１２の例で、学習制御部１１１は、時間ステップ毎にパラメータ値の設定の学習を行い、誤差指標値を算出し、重みを更新する。
図１３の例では、学習制御部１１１は、誤差指標値として、評価値の今回値から前回値を減算した差分を用いている。「Ｅ_ｔ」は、時刻ｔにおける評価値を示す。「Ｅ_ｔ－Ｅ_ｔ－１」は、時刻ｔにおける誤差指標値を示す。
「ｗ^（ｔ）」は、重み計算部３１０が時刻ｔに算出する重みを示す。
上述したように、ここでの評価値として、出力項目毎の誤差が重み付け合計された誤差を用いることができる。

【0108】

また、上述したように、学習制御部１１１は、誤差指標値としていろいろな指標値を用いることができる。例えば、学習制御部１１１が、誤差指標値として、模擬対象９００の出力値に対するシミュレータ２００の出力値の２乗誤差の、全ての出力項目についての最頻値、平均値、または中央値を算出するようにしてもよい。あるいは、学習制御部１１１が、誤差指標値として、「｜Ｅ_ｔ－Ｅ_ｔ－１｜－｜Ｅ_ｔ－１－Ｅ_ｔ－２｜」など、評価値の高階の差分を用いるようにしてもよい。

【0109】

時刻ｔ－１では、誤差指標値Ｅ_ｔ－１－Ｅ_ｔ－２≧０となっており、重み付け合計された誤差が改善されていると評価することができる。そこで、学習制御部１１１は、時刻ｔ－１において、重み計算部３１０が算出する重みｗ^{（ｔ－１）}を採用している。
一方、時刻ｔでは、誤差指標値Ｅ_ｔ－Ｅ_ｔ－１＜０となっており、重み付け合計された誤差が改善されていないと評価することができる。そこで学習制御部１１１は時刻ｔにおいて、重み計算部３１０を、時刻ｔ－２に重み計算部３１０が算出した重みｗ^{（ｔ－２）}に戻している。

【0110】

誤差指標値が、重み付けされた誤差が改善されていないことを示す場合、誤差に対する重み付けが適切でなかったことが考えられる。
学習制御部１１１が上記のように重みを戻すことで、適切でない可能性のある重みをキャンセルして元の重みに戻すことができる。
誤差指標値が、重み付けされた誤差が改善されていないことを示す場合、学習制御部１１１が、重みだけでなく学習自体をキャンセルして、パラメータ値等を、その時刻における学習の前の値に戻すようにしてもよい。

【0111】

図１４は、設定装置１０１が、誤差の重みを更新する処理手順の例を示す図である。
図１４の処理で、学習制御部１１１は、出力項目毎の基準出力値、および、出力項目毎のシミュレータ２００の出力値を正規化し、重みを設定する（ステップＳ１１１）。シミュレータ２００の出力値を、シミュレーションによる出力値の実績値とも称する。
上述したように、出力項目毎の重みの初期値を、例えば１／Ｐなど、全ての出力項目について同じ値に設定することができる。

【0112】

次に、学習制御部１１１は、設定した重みを用いて１エポック分の学習を行う（ステップＳ１１２）。ただし、ステップＳ１１２での学習の分量は、１つの訓練データを用いた学習の繰り返しの１回分に限定されず、学習の単位なるいろいろな分量とすることができる。

【0113】

次に、重み計算部３１０は、基準出力値に対するシミュレータ２００の出力値の、正規化された誤差を出力項目毎に算出する（ステップＳ１１３）。上述したように、重み計算部３１０が、正規化された誤差として、正規化された２乗誤差を算出するようにしてもよい。

【0114】

次に、重み計算部３１０は、基準出力値に対するシミュレータ２００の出力値の一致度を、出力項目毎に算出する（ステップＳ１１４）。上述したように、重み計算部３１０が、出力項目毎に正規化された２乗誤差を１から減算して一致度を算出するようにしてもよい。あるいは、重み計算部３１０が、式（１１）に基づいて一致度を算出するようにしてもよい。あるいは、重み計算部３１０が、式（１１）および式（１２）に基づいて一致度を算出するようにしてもよい。

【0115】

次に、学習制御部１１１は、重み計算部３１０を更新する（ステップＳ１１５）。具体的には、学習制御部１１１は、誤差に適用する重みを、重み計算部３１０が算出した重みに更新する。
上述したように、重み計算部３１０が、式（１３）または式（１４）を用いて出力項目毎の重みを算出するようにしてもよい。あるいは、重み計算部３１０が、出力項目毎に算出した一致度をそのまま出力項目毎の重みとして用いるようしてもよい。

【0116】

上述したように、学習制御部１１１が誤差指標値を算出するようにしてもよい。誤差指標値が、１単位分の学習の実行前の誤差指標値よりも誤差が大きいことを示す場合、学習制御部１１１が、重みを、その１単位分の学習の実行前の重みに戻すようにしてもよい。

【0117】

次に、学習制御部１１１は、学習の終了条件が成立したか否かを判定する（ステップＳ１１６）。ここでの学習の終了条件は、特定の条件に限定されない。例えば、学習制御部１１１が、学習を所定回数繰り返した場合に、学習の終了条件が成立したと判定するようにしてもよい。あるいは、学習制御部１１１が算出する評価値が、パラメータ値が所定の条件以上に高精度であることを示す場合に、学習制御部１１１が、学習所終了条件が成立したと判定するようにしてもよい。

【0118】

ステップＳ１１６で、学習の終了条件が成立していないと学習制御部１１１が判定した場合（ステップＳ１１６：ＮＯ）、処理がステップＳ１１２へ戻る。
一方、ステップＳ１１６で、学習の終了条件が成立していると学習制御部１１１が判定した場合（ステップＳ１１６：ＹＥＳ）、設定装置１０１は、図１４の処理を終了する。

【0119】

以上のように、パラメータ値設定部１２０は、模擬対象を模擬するシミュレータ２００のパラメータ値を設定する。重み計算部３１０は、シミュレータ２００の出力値と、シミュレータ２００の出力値による模擬の対象となる基準出力値とに基づいて、出力項目毎の重みを計算する。学習制御部１１１は、シミュレータ２００の出力値と基準出力値と重みとに基づく評価関数を用いて、パラメータ値設定手段によるシミュレータのパラメータ値の設定の学習を制御する。

【0120】

設定装置１０１によれば、センサの故障などにより基準出力値の正常可能性が低くなっている出力項目について、重みを小さく設定して評価値への影響を小さくすることができる。設定装置１０１によれば、この点で、模擬対象から複数項目の出力値を得られる場合に、シミュレータのパラメータ値の設定の学習を効果的に行えると期待される。

【0121】

また、重み計算部３１０は、出力項目毎の誤差を正規化した正規化後誤差が大きい出力項目ほど小さい重みになるように、出力項目毎の重みを計算する。
設定装置１０１によれば、出力項目毎にセンサのレンジなど上下限値が異なる場合に、正規化によって上下限値を揃えることができる。設定装置１０１によれば、この点で、出力項目毎の誤差の大きさをより適切に比較して、重みをより適切に設定することができ、シミュレータのパラメータ値の設定の学習を効果的に行えると期待される。

【0122】

また、学習制御部１１１は、学習の単位毎に、誤差指標値を計算する。誤差指標値は、シミュレータ２００の出力値と基準出力値との重み付けされた誤差の出力項目全体での大きさを示す指標値である。学習制御部１１１は、１単位分の学習の実行後の誤差指標値が、その１単位分の学習の実行前の誤差指標値よりも、誤差が大きいことを示す場合、重みを、その１単位分の学習の実行前の重みに戻す。

【0123】

設定装置１０１によれば、重みの設定が適切でない可能性があることを誤差指標値が示す場合に、重みの設定を元の設定に戻すことができる。設定装置１０１によれば、この点で、重みをより高精度に設定することができ、シミュレータのパラメータ値の設定の学習を効果的に行えると期待される。

【0124】

＜第３実施形態＞
図１５は、第３実施形態に係るシミュレーションシステムの構成例を示す図である。
図１５に示す構成で、シミュレーションシステム３は、設定装置１０２と、シミュレータ２００とを備える。設定装置１０２は、学習制御部１１２と、パラメータ値設定部１２０と、重み計算部３１１と、勾配ベクトル計算部３２０とを備える。
図１５の各部のうち、図２の各部に対応して同様の機能を有する部分には、同一の符号（１２０、２００）を付し、ここでは詳細な説明を省略する。

【0125】

シミュレーションシステム３は、シミュレーションシステム１の例に該当する。設定装置１０２は、設定装置１００の例に該当する。学習制御部１１２は、学習制御部１１０の例に該当する。したがって、学習制御部１１２は、学習制御手段の例に該当する。

【0126】

重み計算部３１１は、模擬対象９００の出力値に対するシミュレータ２００の出力値の出力項目毎の誤差に対する重みを算出する。学習制御部１１２は、シミュレータ２００の出力値と基準出力値とに加えてさらに、重み計算部３１１が算出する重みに基づく評価関数を用いて、出力項目毎の誤差が重み付け合計された誤差を評価値として算出する。それ以外の点では、シミュレーションシステム３はシミュレーションシステム１と同様である。

【0127】

勾配ベクトル計算部３２０は、シミュレータ２００の出力値と基準出力値との誤差の、パラメータ値の空間における勾配を示す勾配ベクトルを、出力項目毎に計算する。
勾配ベクトル計算部３２０は、勾配ベクトル計算手段の例に該当する。
重み計算部３１１は、勾配ベクトルと、勾配ベクトルを全ての出力項目について平均した平均勾配ベクトルとの差異が小さいほど重みが大きくなるように、出力項目毎の重みを計算する。重み計算部３１１と図４の重み計算部３１０とでは、重みの計算方法が異なる。それ以外の点では、重み計算部３１１は重み計算部３１０と同様である。重み計算部３１１は、重み計算手段の例に該当する。
学習制御部１１２と図４の学習制御部１１１とでは、重み計算部３１１と重み計算部３１０との重みの計算方法の違いに応じて、学習の具体的処理が異なる。それ以外の点では、学習制御部１１２は学習制御部１１１と同様である。学習制御部１１２は、学習制御手段の例に該当する。

【0128】

図１６は、シミュレーションシステム３の学習時におけるデータの入出力の例を示す図である。図１６の例で、勾配ベクトル計算部３２０は、基準出力値とシミュレータ２００の出力値との入力を受け、出力項目毎に勾配ベクトルを算出する。
重み計算部３１１は、勾配ベクトル計算部３２０が算出する出力項目毎の勾配ベクトルの入力を受け、出力項目毎に重みを算出する。

【0129】

学習制御部１１２におけるデータの入出力は、図５の学習制御部１１１の場合と同様である。パラメータ値設定部１２０におけるデータの入出力は、図５のパラメータ値設定部１２０の場合と同様である。シミュレータ２００におけるデータの入出力は、図５のシミュレータ２００の場合と同様である。

【0130】

図１７は、パラメータ値の空間における勾配ベクトルの例を示す図である。
図１７は、シミュレータ２００のパラメータがθ_１およびθ_２の２つである場合の例を示している。図１７のグラフの横軸は、パラメータθ_１の値を示す。縦軸は、パラメータθ_２の値を示す。これら横軸と縦軸とのなす直交座標空間は、パラメータ値の空間の例に該当する。

【0131】

図１７は、出力項目の個数が４つであり、模擬対象９００の４つのセンサのうち１番目のセンサが故障している場合の例を示している。したがって、図１７の例では、模擬対象９００の出力値ベクトルｙ＝［ｙ_１，ｙ_２，ｙ_３，ｙ_４］の要素のうち、出力値ｙ_１が、センサの正常時の値と異なっている。一方、出力値ｙ_２、ｙ_３およびｙ_４の何れも、センサの正常時の値になっている。

【0132】

式（１５）のように、模擬対象９００の出力値ｙ_１に対するシミュレータ２００の出力値の２乗誤差ε_１を、パラメータθを引数とする関数としてＬ_１（θ）と表記する。

【0133】

【数15】

【0134】

また、式（１６）のように、出力項目毎のシミュレータ２００の出力値ｆ_ｉ（ｘ；θ）をｙ＾_ｉとも表記する。

【0135】

【数16】

【0136】

パラメータθによる誤差Ｌ_１（θ）の微分は、式（１７）のように示される。

【0137】

【数17】

【0138】

式（１７）の右辺の「２（ｆ_１（ｘ；θ）－ｙ_１）」の「ｙ_１」がセンサの正常時と異なる値を示すことで、パラメータθによる誤差Ｌ_１（θ）の微分ｄＬ_１（θ）／ｄθは、センサの正常時と異なる値を示す。

【0139】

また、式（１８）のように、模擬対象９００の出力値ｙ_２に対するシミュレータ２００の出力値の２乗誤差ε_２を、パラメータθを引数とする関数としてＬ_２（θ）と表記する。

【0140】

【数18】

【0141】

模擬対象９００の出力値ｙ_３、ｙ_４に対するシミュレータ２００の出力値の２乗誤差ε_３、ε_４についても同様に、それぞれＬ_３（θ）、Ｌ_４（θ）と表記する。
あるいは、第２実施形態で説明した正規化された２乗誤差ε_ｉを、パラメータθを引数とする関数による誤差Ｌ_ｉ（θ）と表記するようにしてもよい。図１７の例では、ｉ＝１、２、３、４である。

【0142】

図１７では、シミュレーション上での現在のパラメータ値が、「θ」で表されている。また、図１７では、誤差Ｌ_１（θ）、Ｌ_２（θ）、Ｌ_３（θ）、Ｌ_４（θ）が最小になるパラメータ値が、それぞれ、「ａｒｇｍｉｎ_θＬ_１（θ）」、「ａｒｇｍｉｎ_θＬ_２（θ）」、「ａｒｇｍｉｎ_θＬ_３（θ）」、「ａｒｇｍｉｎ_θＬ_４（θ）」で表されている。

【0143】

ａｒｇｍｉｎ_θＬ_２（θ）、ａｒｇｍｉｎ_θＬ_３（θ）、および、ａｒｇｍｉｎ_θＬ_４（θ）は、パラメータ値の空間上で互いに近い位置に示されている。シミュレータ２００が模擬対象９００を高精度に模擬することで、Ｌ_２（θ）、Ｌ_３（θ）、および、Ｌ_４（θ）の何れの値も小さくなると考えられる。

【0144】

これに対し、模擬対象９００の１番目のセンサが故障していることで、ａｒｇｍｉｎ_θＬ_１（θ）は、ａｒｇｍｉｎ_θＬ_２（θ）、ａｒｇｍｉｎ_θＬ_３（θ）、および、ａｒｇｍｉｎ_θＬ_４（θ）から離れた位置に示されている。シミュレータ２００が模擬対象９００を高精度に模擬した場合でも、センサの故障により誤差Ｌ_１（θ）の値があまり小さくならないことが考えられる。

【0145】

模擬対象９００の出力値ｙ_ｉに対する、シミュレータ２００の出力値ｙ＾_ｉの誤差Ｌ_ｉ（θ）を最小にするパラメータ値を、θ＾^（ｉ）とも表記する。
故障しているセンサによる模擬対象９００の出力値ｙ_１に対する、シミュレータ２００の出力値ｙ＾_１の誤差Ｌ_１（θ）を最小にするパラメータ値θ＾^（１）と、正常なセンサによる模擬対象９００の出力値ｙ_２に対する、シミュレータ２００の出力値ｙ＾_２の誤差Ｌ_２（θ）を最小にするパラメータ値θ＾^（１）とが異なることは、式（１９）のように示される。

【0146】

【数19】

【0147】

また、図１７では、シミュレーション上での現在のパラメータ値における誤差Ｌ_１（θ）、Ｌ_２（θ）、Ｌ_３（θ）、および、Ｌ_４（θ）の勾配ベクトル「∇_θＬ_１」、「∇_θＬ_２」、「∇_θＬ_３」、および、「∇_θＬ_４」が示されている。さらに、図１７では、勾配ベクトル∇_θＬ_１、∇_θＬ_２、∇_θＬ_３、および、∇_θＬ_４を平均した平均勾配ベクトル「∇_θＬ」が示されている。
ここで、誤差Ｌ_１（θ）、Ｌ_２（θ）、・・・を平均した平均誤差Ｌ（θ）は式（２０）のように示される。

【0148】

【数20】

【0149】

Ｎは、出力項目の個数を示す。図１７の例では、Ｎ＝４である。
平均勾配ベクトル∇_θＬは、式（２１）のように示される。

【0150】

【数21】

【0151】

図１７の例で、ａｒｇｍｉｎ_θＬ_２（θ）、ａｒｇｍｉｎ_θＬ_３（θ）、および、ａｒｇｍｉｎ_θＬ_４（θ）が、パラメータ値の空間上で互いに近い位置にあることに応じて、勾配ベクトル「∇_θＬ_２」、「∇_θＬ_３」、および、「∇_θＬ_４」は、同様のベクトルになっている。すなわち、勾配ベクトル「∇_θＬ_２」、「∇_θＬ_３」、および、「∇_θＬ_４」の間の差異は小さい。

【0152】

一方、ａｒｇｍｉｎ_θＬ_１（θ）が、ａｒｇｍｉｎ_θＬ_２（θ）、ａｒｇｍｉｎ_θＬ_３（θ）、および、ａｒｇｍｉｎ_θＬ_４（θ）から離れた位置にあることに応じて、勾配ベクトル「∇_θＬ_１」は、勾配ベクトル「∇_θＬ_２」、「∇_θＬ_３」、および、「∇_θＬ_４」と異なるベクトルになっている。
勾配ベクトル「∇_θＬ_１」は、勾配ベクトル「∇_θＬ_２」、「∇_θＬ_３」、および、「∇_θＬ_４」と異なることは、微分を用いて式（２１）のように表すこともできる。

【0153】

【数22】

【0154】

平均勾配ベクトル∇_θＬとの関係でも、勾配ベクトル「∇_θＬ_２」、「∇_θＬ_３」、および、「∇_θＬ_４」は、いずれも、平均勾配ベクトル∇_θＬとの差異が小さい。
一方、勾配ベクトル「∇_θＬ_１」は、平均勾配ベクトル∇_θＬとの差異が、勾配ベクトル「∇_θＬ_２」、「∇_θＬ_３」、および、「∇_θＬ_４」の場合よりも大きい。

【0155】

このように、故障しているセンサの出力項目、または、他のセンサに比べて精度が著しく低いセンサの出力項目など、正常可能性が低い出力項目では、誤差の勾配ベクトルと平均勾配ベクトルとの差異が大きいことが考えられる。
誤差の勾配ベクトルと平均勾配ベクトルとの差異は、式（２３）のように表すこともできる。

【0156】

【数23】

【0157】

式（２３）に示される差異が大きいほど、センサの正常可能性が低いと考えられる。
そこで、重み計算部３１１は、勾配ベクトルと平均勾配ベクトルとの差異が小さいほど重みが大きくなるように、出力項目毎の重みを計算する。
例えば、重み計算部３１１が、式（２４）を用いて出力項目毎に模擬対象９００の出力値の勾配乖離度Ｅ_ｉを算出するようにしてもよい。

【0158】

【数24】

【0159】

勾配乖離度Ｅ_ｉは、出力項目毎の誤差Ｌ_ｉ（θ）の勾配ｄＬ_ｉ（θ）／ｄθと、全ての出力項目についての誤差の平均の勾配ｄＬ（θ）／ｄθとの差異の度合いを示す。勾配乖離度Ｅ_ｉが大きいほど、正常可能性が低いと考えられる。
重み計算部３１１が、式（２５）を用いて重みベクトルｗを算出するようにしてもよい。

【0160】

【数25】

【0161】

「Ｔ」はベクトルまたは行列の転置を示す。式（２５）では、重みベクトルｗを縦ベクトルで示している。
ただし、重み計算部３１１が算出する重みは、式（２５）に示すものに限定されない。重み計算部３１１が算出する重みは、勾配ベクトルと平均勾配ベクトルとの差異が小さいほど重みが大きくなる、いろいろな重みとすることができる。

【0162】

式（２４）の「ｄＬ_ｉ（θ）／ｄθ」について、シミュレータの動作を示す関数を陽に求めることは一般的には困難であり、シミュレータ２００の微分を直接求めることが困難な場合が考えられる。
そこで、勾配ベクトル計算部３２０が、パラメータ値をランダムに変化させた場合の誤差の変化量に基づいて、勾配ベクトルを計算するようにしてもよい。例えば、勾配ベクトル計算部３２０が、パラメータ値をランダムに変化させて微分ｄＬｉ（θ）／ｄθを式（２６）のように差分近似することを複数回繰り返し、複数回分の平均をとって勾配を推定するようにしてもよい。

【0163】

【数26】

【0164】

模擬対象９００の実機の状態をランダムに変化させることが困難な場合、模擬対象９００の動作についてもシミュレータ２００を用いてシミュレーションで実行するようにしてもよい。

【0165】

図１８は、勾配ベクトル計算部３２０が誤差の微分ｄＬ_ｉ（θ）／ｄθを推定する処理手順の例を示す図である。図１８の処理の適用範囲を、例えば模擬対象９００の定常状態など入力または出力の変化が小さい場合に限定するようにしてもよい。
図１８の処理で、勾配ベクトル計算部３２０は、勾配を式（２７）のように初期化する（ステップＳ２１１）。

【0166】

【数27】

【0167】

∇＾θＬ_ｉは、誤差Ｌ_ｉの勾配の推定値を表す。勾配の推定値を推定勾配とも表記する。
次に、勾配ベクトル計算部３２０は、パラメータ毎に乱数をサンプリングしてパラメータ値の変化量Δθ_ｉを設定する（ステップＳ２１２）。
例えば、勾配ベクトル計算部３２０は、Ｒ＝Ｕ（－１，１）など適当な分布からパラメータの個数分の乱数をサンプリングする。サンプル値が０になった場合は、サンプリングし直す。

【0168】

次に、勾配ベクトル計算部３２０は、各パラメータ値の変化分Δθ_ｉをサンプル値に設定して、式（２８）に示される摂動ベクトルΔθを構成する（ステップＳ２１３）。

【0169】

【数28】

【0170】

ｐは、模擬対象９００のシミュレーションモデルのパラメータの個数を示す。
例えば、勾配ベクトル計算部３２０がＲ＝Ｕ（－１，１）から乱数をサンプリングした場合、Δθ_ｉの各々は、パラメータ値を１だけ増加または減少させることに設定される。
次に、勾配ベクトル計算部３２０は、ｉ＝１、２、・・・ｐの各々について誤差関数値Ｌ_ｉ（θ；ｘ）とＬ_ｉ（θ＋Δθ；ｘ）とをＢ回ずつ計算する（ステップＳ２１４）。
Ｂは、Ｂ≧１の整数定数である。

【0171】

次に、勾配ベクトル計算部３２０は、ｉ＝１、２、・・・ｐの各々、についてステップＳ２１４で得られた誤差関数値Ｌ_ｉ（θ；ｘ）とＬ_ｉ（θ＋Δθ；ｘ）とを式２９に入力して、推定勾配∇＾_θＬ_ｉを更新する（ステップＳ２１５）。

【0172】

【数29】

【0173】

勾配ベクトル計算部３２０は、ステップＳ２１４でＢ回計算した誤差関数値Ｌ_ｉ（θ；ｘ）とＬ_ｉ（θ＋Δθ；ｘ）とのそれぞれを式（２９）に入力することで、推定勾配∇＾_θＬ_ｉをＢ回更新する。
Ｂ回更新後の推定勾配∇＾_θＬ_ｉは、Ｂ回分の推定勾配を平均した勾配になっている。
勾配ベクトル計算部３２０は、Ｂ回更新後の推定勾配∇＾_θＬ_ｉを、誤差の微分ｄＬ_ｉ（θ）／ｄθを近似する近似勾配として採用する。
ステップＳ２１５の後、勾配ベクトル計算部３２０は、図１８の処理を終了する。

【0174】

図１９は、設定装置１０２が、誤差の重みを更新する処理手順の例を示す図である。
図１９の処理では、報酬関数ｒ（ｙ）を式（３０）のように定義する。

【0175】

【数30】

【0176】

図１９の処理で、重み計算部３１１は、重みベクトルｗを初期化する（ステップＳ３１１）。例えば、重み計算部３１１は、重みベクトルｗの初期値を式（３１）のように設定する。

【0177】

【数31】

【0178】

Ｎは、出力項目の個数を示す正の整数である。重みベクトルｗの要素の個数はＮ個であり、重みベクトルｗの全要素の合計は１になる。
次に、設定装置１０２は、方策関数πの更新回数として定められている回数だけ処理を繰り返すループＬ１１を開始する（ステップＳ３１２）。

【0179】

ループＬ１１の処理で、設定装置１０２は、方策関数πの１回の更新に使用するエピソード数として定められているエピソード数だけ処理を繰り返すループＬ１２を開始する（ステップＳ３１３）。ここでいうエピソードは、学習におけるシミュレータ２００による模擬対象９００の１回の模擬の開始から終了までの時系列である。

【0180】

ループＬ１２の処理で、学習制御部１１２は、シミュレータ２００に模擬対象９００の模擬を実行させ、式（３２）で示されるシミュレータ２００の出力値ｙ＾_ｔ＋１、および、式（３０）の報酬関数ｒ（ｙ）による報酬関数値を保存する（ステップＳ３１４）。

【0181】

【数32】

【0182】

ｚは、制御入力値と、基準入力値と、シミュレータ２００の出力値とを示すベクトルである。αは、方策関数πのパラメータ値を示す。

【0183】

また、勾配ベクトル計算部３２０は、推定勾配の更新タイミングとして定められているタイミングの条件が成立するか否かを判定する（ステップＳ３１５）。
更新タイミングの条件が成立すると判定した場合（ステップＳ３１５：ＹＥＳ）、勾配ベクトル計算部３２０は、誤差Ｌ_ｉ（θ）の勾配ｄＬ_ｉ（θ）／ｄθの推定値を更新する（ステップＳ３１６）。例えば、勾配ベクトル計算部３２０が、図１８の処理を行って勾配の推定値を更新するようにしてもよい。

【0184】

また、重み計算部３１１は、エピソードの回数が、重み計算タイミングとして定めされている回数になっているか否かを判定する（ステップＳ３１７）。
エピソード回数が重み計算タイミングの回数になっていると判定した場合（ステップＳ３１７：ＹＥＳ）、重み計算部３１１は、重みを計算し、計算した重みを式（３０）の報酬関数に反映させる（ステップＳ３１８）。
例えば、重み計算部３１１が、式（３３）を用いて出力項目毎に模擬対象９００の出力値の勾配乖離度Ｅ_ｉを算出するようにしてもよい。

【0185】

【数33】

【0186】

出力項目毎の誤差の勾配「∇＾_θＬ_ｉ」と、全ての出力項目についての誤差の勾配の平均「１／ｐΣ_ｋ＝１ ^ｐ∇＾_θＬ_ｉ」との差異が大きいほど、式（３３）に示される勾配乖離度Ｅ_ｉの値が大きくなる。
重み計算部３１１が、式（３３）で得られた勾配乖離度Ｅ_ｉを式（２５）に入力して重みベクトルｗを算出するようにしてもよい。

【0187】

ステップＳ３１８の後、学習制御部１１２は、ループＬ１２の終端処理を行う（ステップＳ３１９）。具体的には、学習制御部１１２は、ループＬ１２の処理を所定のエピソード数だけ繰り返したか否かを判定する。まだ、所定のエピソード数だけループＬ１２の処理を繰り返していないと学習制御部１１２が判定した場合、処理がステップＳ３１４に戻り、設定装置１０２は、引き続きループＬ１２の処理を繰り返す。
一方、所定のエピソード数だけループＬ１２の処理を繰り返したと判定した場合、学習制御部１１２は、ループＬ１２を終了する。

【0188】

ステップＳ３１９でループＬ１２を終了した場合、学習制御部１１２は、保存したエピソードデータを用いて方策パラメータαを更新することで方策関数πを更新する（ステップＳ３２０）。

【0189】

ステップＳ３２０の後、学習制御部１１２は、ループＬ１１の終端処理を行う（ステップＳ３２１）。具体的には、学習制御部１１２は、ループＬ１１の処理を所定のアップデート回数だけ繰り返したか否かを判定する。まだ、所定のアップデート回数だけループＬ１１の処理を繰り返していないと学習制御部１１２が判定した場合、処理がステップＳ３１３に戻り、設定装置１０２は、引き続きループＬ１１の処理を繰り返す。
一方、所定のアップデート回数だけループＬ１１の処理を繰り返したと判定した場合、学習制御部１１２は、ループＬ１１を終了する。
ステップＳ３２１でループＬ１１を終了した場合、設定装置１０２は、図１９の処理を終了する。

【0190】

以上のように、勾配ベクトル計算部３２０は、シミュレータ２００の出力値と基準出力値との誤差の、パラメータ値の空間における勾配を示す勾配ベクトルを、シミュレータの出力項目毎に計算する。重み計算部３１１は、勾配ベクトルと、勾配ベクトルを全ての出力項目について平均した平均勾配ベクトルとの差異が小さいほど重みが大きくなるように、出力項目毎の重みを計算する。

【0191】

勾配ベクトルと平均勾配ベクトルとの差異が小さい出力項目では、基準出力値が正確であると期待される。設定装置１０２によれば、基準出力値が正確であると期待される出力項目に対する重みを大きく設定することができ、これによってパラメータ値の設定の学習を効果的に行えると期待される。

【0192】

また、勾配ベクトル計算部３２０は、パラメータ値をランダムに変化させた場合の誤差の変化量に基づいて、勾配ベクトルを計算する。
これにより、設定装置１０２では、誤差の微分を直接的に計算できない場合でも、誤差の勾配を推定することができる。

【0193】

＜第４実施形態＞
図２０は、第４実施形態に係るシミュレーションシステムの構成例を示す図である。
図２０に示す構成で、シミュレーションシステム４は、設定装置１０３と、第１シミュレータ２００Ａと、第２シミュレータ２００Ｂとを備える。設定装置１０３は、強化学習部３００と、パラメータ値変更部３３０とを備える。強化学習部３００は、学習制御部１１０と、パラメータ値設定部１２０とを備える。
図２０の各部のうち、図２の各部に対応して同様の機能を有する部分には、同一の符号（１１０、１２０）を付し、ここでは詳細な説明を省略する。

【0194】

シミュレーションシステム４は、シミュレーションシステム１の例に該当する。設定装置１０３は、設定装置１００の例に該当する。
第１シミュレータ２００Ａおよび第２シミュレータ２００Ｂの何れも、模擬対象９００を模擬する。第１シミュレータ２００Ａは、図２のシミュレータ２００の例に該当し、パラメータ値設定部１２０によるパラメータ値の設定の対象となる。

【0195】

一方、第２シミュレータ２００Ｂは、模擬対象９００の代わりに用いられる。第２シミュレータ２００Ｂの出力値は、基準出力値として用いられる。
パラメータ値変更部３３０は、第２シミュレータ２００Ｂのパラメータ値を変更する。パラメータ値変更部３３０が、第２シミュレータ２００Ｂがシミュレーションを実行中に、第２シミュレータ２００Ｂのパラメータ値を変更するようにしてもよい。

【0196】

図２１は、シミュレーションシステム４の学習時におけるデータの入出力の例を示す図である。図２１の例で、パラメータ値変更部３３０は、第２シミュレータ２００Ｂのパラメータ値を設定し変更する。第２シミュレータ２００Ｂは、制御入力値の入力を受け、パラメータ値変更部が設定し変更するパラメータ値に従って模擬対象９００のシミュレーションを実行し、出力値を算出する。上記のように第２シミュレータ２００Ｂの出力値は、基準出力値として用いられる。

【0197】

学習制御部１１０は、第１シミュレータ２００Ａの出力値と第２シミュレータ２００Ｂの出力値との入力を受ける。学習制御部１１０は、第２シミュレータ２００Ｂの出力値に対する第１シミュレータ２００Ａの出力値の誤差が小さいほど評価が高くなる評価関数を用いて評価値を算出する。例えば、学習制御部１１０が、出力項目毎に、第２シミュレータ２００Ｂの出力値に対する第１シミュレータ２００Ａの出力値の誤差を算出し、出力項目毎の誤差を合計するようにしてもよい。

【0198】

学習制御部１１０は、評価値が示す評価が高くなるように、パラメータ値設定部１２０によるパラメータ値の設定の学習を制御する。これにより、学習制御部１１０は、第１シミュレータ２００Ａの出力値が第２シミュレータ２００Ｂの出力値に近付くように、パラメータ値設定部１２０によるパラメータ値の設定の学習を制御する。

【0199】

パラメータ値設定部１２０は、制御入力値と、第１シミュレータ２００Ａの出力値と、第２シミュレータ２００Ｂの出力値との入力を受ける。パラメータ値設定部１２０は、得られた各値を方策関数πに入力してパラメータ値を算出し、算出したパラメータ値を第１シミュレータ２００Ａに設定する。
第１シミュレータ２００Ａは、設定されたパラメータ値に基づいて模擬対象９００のシミュレーションを実行し、制御入力値に対する出力値を算出する。

【0200】

以上のように、模擬対象９００を模擬する第２シミュレータ２００Ｂの出力値が基準出力値として用いられる。学習制御部１１０は、パラメータ値設定部１２０がパラメータ値を設定するシミュレータである第１シミュレータ２００Ａに、第２シミュレータ２００Ｂへの入力値と同じ入力値が入力されたときの第１シミュレータ２００Ａの出力値と、基準出力値とに基づく評価関数を用いて、パラメータ値設定部１２０による第１シミュレータのパラメータ値の設定の学習を制御する。

【0201】

このように、第２シミュレータ２００Ｂの出力値を基準出力値として用いることで、模擬対象９００の実機で得られるデータが少ない場合でも、強化学習部３００が、パラメータ値設定部１２０によるパラメータ値の設定を学習することができる。
また、第２シミュレータ２００Ｂの出力値を基準出力値として用いることで、強化学習部３００は、模擬対象９００の実機ではあまり発生しないような異常状態などの状態に対する対応を学習することができる。

【0202】

また、パラメータ値変更部３３０は、第２シミュレータ２００Ｂのパラメータ値を変化させる。基準出力値は、パラメータ値変更部３３０が第２シミュレータのパラメータ値を変化させるときの第２シミュレータの出力値を含む。
このように、パラメータ値変更部３３０が第２シミュレータ２００Ｂのシミュレーション実行中に第２シミュレータ２００Ｂのパラメータ値を変更することで、模擬対象９００の状態が動的に変化することに対応する基準出力値を得られる。強化学習部３００が、この基準出力値を用いてパラメータ値設定部１２０によるパラメータ値の設定を学習することで、第１シミュレータ２００Ａが、模擬対象９００の状態の動的な変化に対応して模擬対象９００を模擬するように、第１シミュレータ２００Ａのパラメータ値を設定することができる。

【0203】

また、パラメータ値設定部１２０は、模擬対象を模擬する第１シミュレータ２００Ａのパラメータ値を設定する。学習制御部１１０は、模擬対象を模擬する第２シミュレータ２００Ｂの出力値と、第１シミュレータ２００Ａに、第２シミュレータ２００Ｂへの入力値と同じ入力値が入力されたときの第１シミュレータの出力値とに基づく評価関数を用いて、パラメータ値設定部１２０による第１シミュレータ２００Ａのパラメータ値の設定の学習を制御する。

【0204】

【0205】

第２実施形態と第４実施形態とを組み合わせて実施するようにしてもよい。この場合、図２０の構成で、強化学習部３００が、図５の重み計算部３１０をさらに備え、学習制御部１１０に代えて図５の学習制御部１１１を備えるようにしてもよい。

【0206】

第３実施形態と第４実施形態とを組み合わせて実施するようにしてもよい。この場合、図２０の構成で強化学習部３００が、図１５の重み計算部３１１と、勾配ベクトル計算部３２０とをさらに備え、学習制御部１１０に代えて図１５の学習制御部１１２を備えるようにしてもよい。

【0207】

＜第５実施形態＞
図２２は、第５実施形態に係るシミュレーションシステムの構成例を示す図である。
図２２に示す構成で、シミュレーションシステム５は、設定装置１０４と、第１シミュレータ２００Ａと、第２シミュレータ２００Ｂとを備える。設定装置１０４は、第１強化学習部３００Ａと、第２強化学習部３００Ｂとを備える。第１強化学習部３００Ａは、第１学習制御部１１０Ａと、第１パラメータ値設定部１２０Ａとを備える。第２強化学習部３００Ｂは、第２学習制御部１１０Ｂと、第２パラメータ値設定部１２０Ｂと、スケーリング部３４０とを備える。

【0208】

シミュレーションシステム５は、図２０のシミュレーションシステム４の例に該当する。設定装置１０４は、設定装置１０３の例に該当する。第１強化学習部３００Ａは、強化学習部３００の例に該当する。第１学習制御部１１０Ａは、学習制御部１１０の例に該当する。
第１学習制御部１１０Ａは、第１学習手段の例に該当する。
第１パラメータ値設定部１２０Ａは、パラメータ値設定部１２０の例に該当する。したがって、第１パラメータ値設定部１２０Ａは、パラメータ値設定手段の例に該当する。

【0209】

第１シミュレータ２００Ａおよび第２シミュレータ２００Ｂの何れも、模擬対象９００を模擬する。第１シミュレータ２００Ａは、図２０の第１シミュレータ２００Ａの例に該当し、第１パラメータ値設定部１２０Ａによるパラメータ値の設定の対象となる。
第２シミュレータ２００Ｂは、図２０の第２シミュレータ２００Ｂの例に該当し、模擬対象９００の代わりに用いられる。第２シミュレータ２００Ｂの出力値は、基準出力値として用いられる。

【0210】

第１パラメータ値設定部１２０Ａは、第１学習制御部１１０Ａの制御に従った学習によって、第１シミュレータ２００Ａの出力値が第２シミュレータ２００Ａの出力値に近付くように、第１シミュレータ２００Ａのパラメータ値を設定する。
第１学習制御部１１０Ａは、第１シミュレータ２００Ａの出力値と、基準出力値として用いられる第２シミュレータ２００Ｂの出力値との差異を減少させるように、第１パラメータ値設定部１２０Ａによる第１シミュレータ２００Ａのパラメータ値の設定の学習を制御する。

【0211】

これに対し、第２パラメータ値設定部１２０Ｂは、第２学習制御部１１０Ｂの制御に従った学習によって、第２シミュレータ２００Ａの出力値が第１シミュレータ２００Ａの出力値と異なるように、第２シミュレータ２００Ｂのパラメータ値を設定する。
第２パラメータ値設定部１２０Ｂは、パラメータ値変更手段の例に該当する。

【0212】

第２学習制御部１１０Ｂは、第１シミュレータ２００Ａに第２シミュレータ２００Ｂへの入力値と同じ入力値が入力されたときの第１シミュレータ２００Ａの出力値と、基準出力値として用いられる第２シミュレータ２００Ｂの出力値とに基づく第２評価関数を用いて、第１シミュレータの出力値と基準出力値との差異を増加させるように、第２パラメータ値設定部１２０Ｂによる第２シミュレータ２００Ｂのパラメータ値の設定の学習を制御する。
第２学習制御部１１０Ｂは、第２学習制御手段の例に該当する。

【0213】

これにより、第１強化学習部３００Ａは、第１パラメータ値設定部１２０Ａが第１シミュレータ２００Ａのパラメータ値を適切に設定できないような制御入力値および基準出力値を用いて、第１パラメータ値設定部１２０Ａによるパラメータ値の設定の学習を行うことができる。これにより、第１パラメータ値設定部１２０Ａが、いろいろな制御入力値および基準出力値に対して、第１シミュレータ２００Ａのパラメータ値を適切に設定できるようになると期待される。

【0214】

スケーリング部３４０は、第１学習制御手段の制御による学習が所定の条件以上進むと、第２評価関数の値を増加させるスケーリングを行う。ここでの所定の条件は、特定の上限に限定されない。例えば、所定の条件は、所定の時間ステップ数以上学習が行われることであってもよいが、これに限定されない。

【0215】

スケーリング部３４０は、学習の初期段階では、第２パラメータ値設定部１２０Ｂによる第２シミュレータ２００Ｂのパラメータ値の設定よりも、第１パラメータ値設定部１２０Ａによる第１シミュレータ２００Ａのパラメータ値の設定を優先させる。

【0216】

学習の初期段階で、第２シミュレータ２００Ａの出力値が第１シミュレータ２００Ａの出力値と異なる状態が維持されると、第１強化学習部３００Ａの学習が進まないことが考えられる。そこで、スケーリング部３４０が、第２パラメータ値設定部１２０Ｂによる第２シミュレータ２００Ｂのパラメータ値の設定よりも、第１パラメータ値設定部１２０Ａによる第１シミュレータ２００Ａのパラメータ値の設定を優先させる。これにより、第１シミュレータ２００Ａの出力値が第２シミュレータ２００Ａの出力値に近付くようになり、第１強化学習部３００Ａの学習が進むことが期待される。
スケーリング部３４０は、スケーリング手段の例に該当する。

【0217】

図２３は、シミュレーションシステム５の学習時におけるデータの入出力の例を示す図である。
第１パラメータ値設定部１２０Ａは、制御入力値と、第１シミュレータ２００Ａの出力値と、第２シミュレータ２００Ｂの出力値との入力を受け、これらの値を第１方策関数π_Ａに入力して第１シミュレータ２００Ａのパラメータ値を算出する。第１パラメータ値設定部１２０Ａは、算出したパラメータ値を第１シミュレータ２００Ａに設定する。

【0218】

第１学習制御部１１０Ａは、第１シミュレータ２００Ａの出力値と、第２シミュレータ２００Ｂの出力値との入力を受ける。第１学習制御部１１０Ａは、第２シミュレータ２００Ｂの出力値に対する第１シミュレータ２００Ａの出力値の誤差が小さいほど評価が高くなる第１評価関数を用いて評価値を算出する。第１学習制御部１１０Ａは、評価値が示す評価が高くなるように、第１パラメータ値設定部１２０Ａによる第１シミュレータ２００Ａのパラメータ値の設定の学習を制御する。これにより、第１学習制御部１１０Ａは、第１シミュレータ２００Ａの出力値が第２シミュレータ２００Ｂの出力値に近付くように、第１パラメータ値設定部１２０Ａによるパラメータ値の設定の学習を制御する。
第１シミュレータ２００Ａは、設定されたパラメータ値に基づいて模擬対象９００のシミュレーションを実行し、制御入力値に対する出力値を算出する。

【0219】

第１パラメータ値設定部１２０Ａは、制御入力値と、第１シミュレータ２００Ａの出力値と、第２シミュレータ２００Ｂの出力値との入力を受け、これらの値を第１方策関数π_Ａに入力して第１シミュレータ２００Ａのパラメータ値を算出する。第１パラメータ値設定部１２０Ａは、算出したパラメータ値を第１シミュレータ２００Ａに設定する。

【0220】

第２パラメータ値設定部１２０Ｂは、制御入力値と、第１シミュレータ２００Ａの出力値と、第２シミュレータ２００Ｂの出力値との入力を受け、これらの値を第２方策関数π_Ｂに入力して第２シミュレータ２００Ｂのパラメータ値を算出する。第２パラメータ値設定部１２０Ｂは、算出したパラメータ値を第２シミュレータ２００Ｂに設定する。

【0221】

第２学習制御部１１０Ｂは、第１シミュレータ２００Ａの出力値と、第２シミュレータ２００Ｂの出力値との入力を受ける。第２学習制御部１１０Ｂは、第１シミュレータ２００Ａの出力値と第２シミュレータ２００Ｂの出力値との差異が大きいほど評価が高くなる第２評価関数を用いて評価値を算出する。第２学習制御部１１０Ｂは、評価値が示す評価が高くなるように、第２パラメータ値設定部１２０Ｂによる第２シミュレータ２００Ｂのパラメータ値の設定の学習を制御する。これにより、第２学習制御部１１０Ｂは、第２シミュレータ２００Ｂの出力値が第１シミュレータ２００Ａの出力値と相違するように、第２パラメータ値設定部１２０Ｂによるパラメータ値の設定の学習を制御する。
第２シミュレータ２００Ｂは、設定されたパラメータ値に基づいて模擬対象９００のシミュレーションを実行し、制御入力値に対する出力値を算出する。

【0222】

スケーリング部３４０は、第１学習制御手段の制御による学習が所定の条件以上進むと、第２評価関数の値を増加させるスケーリングを行う。上記のように、スケーリング部３４０は、学習の初期段階では、第２パラメータ値設定部１２０Ｂによる第２シミュレータ２００Ｂのパラメータ値の設定よりも、第１パラメータ値設定部１２０Ａによる第１シミュレータ２００Ａのパラメータ値の設定を優先させる。

【0223】

以上のように、第２学習制御部１１０Ｂは、第１シミュレータ２００Ａに、第２シミュレータ２００Ｂへの入力値と同じ入力値が入力されたときの第１シミュレータ２００Ａの出力値と、基準出力値として用いられる第２シミュレータ２００Ｂの出力値とに基づく第２評価関数を用いて、第１シミュレータ２００Ａの出力値と基準出力値との差異を増加させるように、第２パラメータ値設定部１２０Ｂによる第２シミュレータ２００Ｂのパラメータ値の設定の学習を制御する。
第１学習制御部１１０Ａは、第１シミュレータ２００Ａの出力値と基準出力値との差異を減少させるように、第１パラメータ値設定部１２０Ａによる第１シミュレータ２００Ａのパラメータ値の設定の学習を制御する。

【0224】

【0225】

スケーリング部３４０は、第１学習制御部１１０Ａの制御による学習が所定の条件以上進むと、第２評価関数の値を増加させるスケーリングを行う。
学習の初期段階で、第２シミュレータ２００Ａの出力値が第１シミュレータ２００Ａの出力値と異なる状態が維持されると、第１強化学習部３００Ａの学習が進まないことが考えられる。そこで、スケーリング部３４０が、上記のスケーリングによって、学習の初期段階では第２パラメータ値設定部１２０Ｂによる第２シミュレータ２００Ｂのパラメータ値の設定よりも、第１パラメータ値設定部１２０Ａによる第１シミュレータ２００Ａのパラメータ値の設定を優先させる。これにより、第１シミュレータ２００Ａの出力値が第２シミュレータ２００Ａの出力値に近付くようになり、第１強化学習部３００Ａの学習が進むことが期待される。

【0226】

第２実施形態と第５実施形態とを組み合わせて実施するようにしてもよい。この場合、図２２の構成で、第１強化学習部３００Ａが、図４の重み計算部３１０をさらに備え、第１学習制御部１１０Ａに代えて図４の学習制御部１１１を備えるようにしてもよい。

【0227】

第３実施形態と第５実施形態とを組み合わせて実施するようにしてもよい。この場合、図２２の構成で第１強化学習部３００Ａが、図１５の重み計算部３１１と、勾配ベクトル計算部３２０とをさらに備え、第１学習制御部１１０Ａに代えて図１５の学習制御部１１２を備えるようにしてもよい。

【0228】

＜第６実施形態＞
図２４は、第６実施形態に係るシミュレーションシステムの構成例を示す図である。
図２４に示す構成で、シミュレーションシステム６は、設定装置１０５と、第１シミュレータ２００Ａと、第２シミュレータ２００Ｂとを備える。設定装置１０５は、強化学習部３００と、パラメータ値変更部３３０と、故障設定部３５０とを備える。強化学習部３００は、学習制御部１１０と、パラメータ値設定部１２０とを備える。
図２４の各部のうち、図２０の各部に対応して同様の機能を有する部分には、同一の符号（１１０、１２０、２００Ａ，２００Ｂ、３００、３３０）を付し、ここでは詳細な説明を省略する。

【0229】

シミュレーションシステム６では、設定装置１０５が、図２０の設定装置１０３の各部に加えて、さらに故障設定部３５０を備える点で、シミュレーションシステム４と異なる。
それ以外の点では、シミュレーションシステム６は、シミュレーションシステム４と同様である。

【0230】

故障設定部３５０は、第２シミュレータ２００Ｂに、シミュレーションモデルにおけるセンサの故障を設定する。故障設定部３５０が、故障を設定する対象のセンサをランダムに選択するようしてもよい。故障設定部３０５が、第２シミュレータ２００Ｂのシミュレーション実行中にセンサの故障の有無を切り替えるようにしてもよい。
これにより、強化学習部３００は、模擬対象９００のセンサが故障した場合でも、第１シミュレータ２００Ａが模擬対象９００を高精度に模擬するように、パラメータ値設定部１２０によるパラメータ値の設定の学習を行うことができる。
故障設定部３５０は、故障設定手段の例に該当する。

【0231】

故障設定部３５０がセンサの故障を設定したときに、学習制御部１１０が、故障の設定が行われたセンサの出力値が評価関数の計算における参照の対象から除外された評価関数を用いるようにしてもよい。例えば、評価関数の計算式で、出力項目毎に係数を設けておくようにしてもよい。そして、学習制御部１１０が、故障の設定が行われたセンサに相当する出力項目の係数値を０に設定するようにしてもよい。
このように、習制御部１１０が、故障の設定が行われたセンサの出力値が評価関数の計算における参照の対象から除外することで、強化学習部３００が学習を効率的に行えると期待される。

【0232】

図２５は、シミュレーションシステム６の学習時におけるデータの入出力の例を示す図である。図２５の例で、パラメータ値変更部３３０は、第２シミュレータ２００Ｂのパラメータ値を設定し変更する。
故障設定部３５０は、第２シミュレータ２００Ｂに、シミュレーションモデルにおけるセンサの故障を設定する。
第２シミュレータ２００Ｂは、制御入力値の入力を受け、パラメータ値変更部が設定し変更するパラメータ値、および、故障設定部３５０によるセンサの故障の設定に従って模擬対象９００のシミュレーションを実行し、出力値を算出する。上記のように第２シミュレータ２００Ｂの出力値は、基準出力値として用いられる。

【0233】

【0234】

【0235】

【0236】

以上のように、故障設定部３５０は、第２シミュレータ２００Ｂに、シミュレーションモデルにおけるセンサの故障を設定する。
これにより、強化学習部３００は、模擬対象９００のセンサが故障した場合でも、第１シミュレータ２００Ａが模擬対象９００を高精度に模擬するように、パラメータ値設定部１２０によるパラメータ値の設定の学習を行うことができる。

【0237】

また、学習制御部１１０は、故障の設定が行われたセンサの出力値が評価関数の計算における参照の対象から除外された評価関数を用いる。
このように、習制御部１１０が、故障の設定が行われたセンサの出力値が評価関数の計算における参照の対象から除外することで、強化学習部３００が学習を効率的に行えると期待される。

【0238】

第２実施形態と第６実施形態とを組み合わせて実施するようにしてもよい。この場合、図４の構成で、設定装置１０１が、さらに故障設定部３５０を備えるようにしてもよい。

【0239】

第３実施形態と第６実施形態とを組み合わせて実施するようにしてもよい。この場合、図１５の構成で、設定装置１０２が、さらに故障設定部３５０を備えるようにしてもよい。

【0240】

第５実施形態と第６実施形態とを組み合わせて実施するようにしてもよい。この場合、図２２の構成で、設定装置１０４が、さらに故障設定部３５０を備えるようにしてもよい。

【0241】

さらには、第２実施形態と第５実施形態と第６実施形態とを組み合わせて実施するようにしてもよい。第３実施形態と第５実施形態と第６実施形態とを組み合わせて実施するようにしてもよい。

【0242】

第１実施形態から第６実施形態の何れか、またはそれらの組み合わせにおいて、学習制御手段が、シミュレータによる模擬対象のシミュレーション上の時間で、パラメータ値設定手段がパラメータ値を設定する時間よりも未来の時間を含む時間におけるシミュレータの出力値に基づく評価関数を用いるようにしてもよい。
これにより、パラメータ値設定手段が、未来の時間においてシミュレータが制御対象を高精度に模擬するように、シミュレータのパラメータ値を設定することが期待される。

【0243】

第１実施形態では、学習制御部１１０がここでの学習制御手段の例に該当する。シミュレータ２００が、ここでのシミュレータの例に該当する。パラメータ値設定部１２０が、ここでのパラメータ値設定手段の例に該当する。
第２実施形態では、学習制御部１１１がここでの学習制御手段の例に該当する。シミュレータ２００が、ここでのシミュレータの例に該当する。パラメータ値設定部１２０が、ここでのパラメータ値設定手段の例に該当する。

【0244】

第３実施形態では、学習制御部１１２がここでの学習制御手段の例に該当する。シミュレータ２００が、ここでのシミュレータの例に該当する。パラメータ値設定部１２０が、ここでのパラメータ値設定手段の例に該当する。
第４実施形態では、学習制御部１１０がここでの学習制御手段の例に該当する。第１シミュレータ２００Ａが、ここでのシミュレータの例に該当する。パラメータ値設定部１２０が、ここでのパラメータ値設定手段の例に該当する。

【0245】

第５実施形態では、第１学習制御部１１０Ａがここでの学習制御手段の例に該当する。第１シミュレータ２００Ａが、ここでのシミュレータの例に該当する。第１パラメータ値設定部１２０Ａが、ここでのパラメータ値設定手段の例に該当する。
第６実施形態では、学習制御部１１０がここでの学習制御手段の例に該当する。第１シミュレータ２００Ａが、ここでのシミュレータの例に該当する。パラメータ値設定部１２０が、ここでのパラメータ値設定手段の例に該当する。

【0246】

＜第７実施形態＞
図２６は、第７実施形態に係る設定装置の構成例を示す図である。
図２６に示す構成で、設定装置６１０は、パラメータ値設定部６１１と、重み計算部６１２と、学習制御部６１３とを備える。
パラメータ値設定部６１１は、模擬対象を模擬するシミュレータのパラメータ値を設定する。重み計算部６１２は、シミュレータの出力値と、シミュレータの出力値による模擬の対象となる基準出力値とに基づいて、出力項目毎の重みを計算する。学習制御部６１３は、シミュレータの出力値と基準出力値と重みとに基づく評価関数を用いて、パラメータ値設定部６１１によるシミュレータのパラメータ値の設定の学習を制御する。
パラメータ値設定部６１１は、パラメータ値設定手段の例に該当する。重み計算部６１２は、重み計算手段の例に該当する。学習制御部６１３は、学習制御手段の例に該当する。

【0247】

設定装置６１０によれば、センサの故障などにより基準出力値の正常可能性が低くなっている出力項目について、重みを小さく設定して評価値への影響を小さくすることができる。設定装置６１０によれば、この点で、模擬対象から複数項目の出力値を得られる場合に、シミュレータのパラメータ値の設定の学習を効果的に行えると期待される。

【0248】

パラメータ値設定部６１１は、例えば、図４に示されるパラメータ値設定部１２０等の機能を用いて実現することができる。重み計算部６１２は、例えば、図４に示される重み計算部３１０等の機能を用いて実現することができる。学習制御部６１３は、例えば、図４に示される学習制御部１１１等の機能を用いて実現することができる。

【0249】

＜第８実施形態＞
図２７は、第８実施形態に係る設定装置の構成例を示す図である。
図２７に示す構成で、設定装置６２０は、パラメータ値設定部６２１と、学習制御部６２２とを備える。
パラメータ値設定部６２１は、模擬対象を模擬する第１シミュレータのパラメータ値を設定する。学習制御部６２２は、模擬対象を模擬する第２シミュレータの出力値と、第１シミュレータに、第２シミュレータへの入力値と同じ入力値が入力されたときの第１シミュレータの出力値とに基づく評価関数を用いて、パラメータ値設定部６２１による第１シミュレータのパラメータ値の設定の学習を制御する。
パラメータ値設定部６２１は、パラメータ値設定手段の例に該当する。学習制御部６２２は、学習制御手段の例に該当する。

【0250】

設定装置６２０によれば、第２シミュレータの出力値を用いて学習を行うことで、模擬対象の実機で得られるデータが少ない場合でも、パラメータ値設定部６２１によるパラメータ値の設定を学習することができる。
また、設定装置６２０によれば、第２シミュレータの出力値を用いて学習を行うことで、模擬対象の実機ではあまり発生しないような異常状態などの状態に対する対応を学習することができる。

【0251】

パラメータ値設定部６２１は、例えば、図２０に示されるパラメータ値設定部１２０等の機能を用いて実現することができる。学習制御部６２２は、例えば、図２０に示される学習制御部１１０等の機能を用いて実現することができる。

【0252】

＜第９実施形態＞
図２８は、第９実施形態に係る設定方法における処理手順の例を示す図である。
図２８に示す設定方法は、パラメータ値を設定すること（ステップＳ６１１）と、重みを計算すること（ステップＳ６１２）と、学習を制御すること（ステップＳ６１３）とを含む。
パラメータ値を設定すること（ステップＳ６１１）では、模擬対象を模擬するシミュレータのパラメータ値を設定する。重みを計算すること（ステップＳ６１２）では、シミュレータの出力値と、シミュレータの出力値による模擬の対象となる基準出力値とに基づいて、出力項目毎の重みを計算する。学習を制御すること（ステップＳ６１３）では、シミュレータの出力値と基準出力値と重みとに基づく評価関数を用いて、シミュレータのパラメータ値の設定の学習を制御する。
図２８に示す設定方法によれば、センサの故障などにより基準出力値の正常可能性が低くなっている出力項目について、重みを小さく設定して評価値への影響を小さくすることができる。図２８に示す設定方法によれば、この点で、模擬対象から複数項目の出力値を得られる場合に、シミュレータのパラメータ値の設定の学習を効果的に行えると期待される。

【0253】

＜第１０実施形態＞
図２９は、第１０実施形態に係る設定方法における処理手順の例を示す図である。
図２９に示す設定方法は、パラメータ値を設定すること（ステップＳ６２１）と、学習を制御すること（ステップＳ６２２）とを含む。
パラメータ値を設定すること（ステップＳ６２１）では、模擬対象を模擬する第１シミュレータのパラメータ値を設定する。学習を制御すること（ステップＳ６２２）では、模擬対象を模擬する第２シミュレータの出力値と、第１シミュレータに、第２シミュレータへの入力値と同じ入力値が入力されたときの第１シミュレータの出力値とに基づく評価関数を用いて、第１シミュレータのパラメータ値の設定の学習を制御する。

【0254】

図２９に示す設定方法によれば、第２シミュレータの出力値を用いて学習を行うことで、模擬対象の実機で得られるデータが少ない場合でも、パラメータ値の設定を学習することができる。
また、図２９に示す設定方法によれば、第２シミュレータの出力値を用いて学習を行うことで、模擬対象の実機ではあまり発生しないような異常状態などの状態に対する対応を学習することができる。

【0255】

図３０は、少なくとも１つの実施形態に係るコンピュータの構成を示す概略ブロック図である。
図３０に示す構成で、コンピュータ７００は、ＣＰＵ７１０と、主記憶装置７２０と、補助記憶装置７３０と、インタフェース７４０と、不揮発性記録媒体７５０とを備える。

【0256】

上記の設定装置１００、１０１、１０２、１０３、１０４、１０５、６１０、および、６２０のうち何れか１つ以上またはその一部が、コンピュータ７００に実装されてもよい。その場合、上述した各処理部の動作は、プログラムの形式で補助記憶装置７３０に記憶されている。ＣＰＵ７１０は、プログラムを補助記憶装置７３０から読み出して主記憶装置７２０に展開し、当該プログラムに従って上記処理を実行する。また、ＣＰＵ７１０は、プログラムに従って、上述した各記憶部に対応する記憶領域を主記憶装置７２０に確保する。各装置と他の装置との通信は、インタフェース７４０が通信機能を有し、ＣＰＵ７１０の制御に従って通信を行うことで実行される。また、インタフェース７４０は、不揮発性記録媒体７５０用のポートを有し、不揮発性記録媒体７５０からの情報の読出、および、不揮発性記録媒体７５０への情報の書込を行う。

【0257】

設定装置１００がコンピュータ７００に実装される場合、学習制御部１１０およびパラメータ値設定部１２０の動作は、プログラムの形式で補助記憶装置７３０に記憶されている。ＣＰＵ７１０は、プログラムを補助記憶装置７３０から読み出して主記憶装置７２０に展開し、当該プログラムに従って上記処理を実行する。

【0258】

また、ＣＰＵ７１０は、プログラムに従って、設定装置１００が行う処理のための記憶領域を主記憶装置７２０に確保する。
設定装置１００と他の装置との通信は、インタフェース７４０が通信機能を有し、ＣＰＵ７１０の制御に従って動作することで実行される。
設定装置１００とユーザとのインタラクションは、インタフェース７４０が入力デバイスおよび出力デバイスを有し、ＣＰＵ７１０の制御に従って出力デバイスにて情報をユーザに提示し、入力デバイスにてユーザ操作を受け付けることで実行される。

【0259】

設定装置１０１がコンピュータ７００に実装される場合、学習制御部１１１、パラメータ値設定部１２０および重み計算部３１０の動作は、プログラムの形式で補助記憶装置７３０に記憶されている。ＣＰＵ７１０は、プログラムを補助記憶装置７３０から読み出して主記憶装置７２０に展開し、当該プログラムに従って上記処理を実行する。

【0260】

また、ＣＰＵ７１０は、プログラムに従って、設定装置１０１が行う処理のための記憶領域を主記憶装置７２０に確保する。
設定装置１０１と他の装置との通信は、インタフェース７４０が通信機能を有し、ＣＰＵ７１０の制御に従って動作することで実行される。
設定装置１０１とユーザとのインタラクションは、インタフェース７４０が入力デバイスおよび出力デバイスを有し、ＣＰＵ７１０の制御に従って出力デバイスにて情報をユーザに提示し、入力デバイスにてユーザ操作を受け付けることで実行される。

【0261】

設定装置１０２がコンピュータ７００に実装される場合、学習制御部１１２、パラメータ値設定部１２０、重み計算部３１１および勾配ベクトル計算部３２０の動作は、プログラムの形式で補助記憶装置７３０に記憶されている。ＣＰＵ７１０は、プログラムを補助記憶装置７３０から読み出して主記憶装置７２０に展開し、当該プログラムに従って上記処理を実行する。

【0262】

また、ＣＰＵ７１０は、プログラムに従って、設定装置１０２が行う処理のための記憶領域を主記憶装置７２０に確保する。
設定装置１０２と他の装置との通信は、インタフェース７４０が通信機能を有し、ＣＰＵ７１０の制御に従って動作することで実行される。
設定装置１０２とユーザとのインタラクションは、インタフェース７４０が入力デバイスおよび出力デバイスを有し、ＣＰＵ７１０の制御に従って出力デバイスにて情報をユーザに提示し、入力デバイスにてユーザ操作を受け付けることで実行される。

【0263】

設定装置１０３がコンピュータ７００に実装される場合、強化学習部３００、パラメータ値変更部３３０およびその各部の動作は、プログラムの形式で補助記憶装置７３０に記憶されている。ＣＰＵ７１０は、プログラムを補助記憶装置７３０から読み出して主記憶装置７２０に展開し、当該プログラムに従って上記処理を実行する。

【0264】

また、ＣＰＵ７１０は、プログラムに従って、設定装置１０３が行う処理のための記憶領域を主記憶装置７２０に確保する。
設定装置１０３と他の装置との通信は、インタフェース７４０が通信機能を有し、ＣＰＵ７１０の制御に従って動作することで実行される。
設定装置１０３とユーザとのインタラクションは、インタフェース７４０が入力デバイスおよび出力デバイスを有し、ＣＰＵ７１０の制御に従って出力デバイスにて情報をユーザに提示し、入力デバイスにてユーザ操作を受け付けることで実行される。

【0265】

設定装置１０４がコンピュータ７００に実装される場合、第１強化学習部３００Ａ、第２強化学習部３００Ｂおよびその各部の動作は、プログラムの形式で補助記憶装置７３０に記憶されている。ＣＰＵ７１０は、プログラムを補助記憶装置７３０から読み出して主記憶装置７２０に展開し、当該プログラムに従って上記処理を実行する。

【0266】

また、ＣＰＵ７１０は、プログラムに従って、設定装置１０４が行う処理のための記憶領域を主記憶装置７２０に確保する。
設定装置１０４と他の装置との通信は、インタフェース７４０が通信機能を有し、ＣＰＵ７１０の制御に従って動作することで実行される。
設定装置１０４とユーザとのインタラクションは、インタフェース７４０が入力デバイスおよび出力デバイスを有し、ＣＰＵ７１０の制御に従って出力デバイスにて情報をユーザに提示し、入力デバイスにてユーザ操作を受け付けることで実行される。

【0267】

設定装置１０５がコンピュータ７００に実装される場合、強化学習部３００、パラメータ値変更部３３０、故障設定部３５０およびその各部の動作は、プログラムの形式で補助記憶装置７３０に記憶されている。ＣＰＵ７１０は、プログラムを補助記憶装置７３０から読み出して主記憶装置７２０に展開し、当該プログラムに従って上記処理を実行する。

【0268】

また、ＣＰＵ７１０は、プログラムに従って、設定装置１０５が行う処理のための記憶領域を主記憶装置７２０に確保する。
設定装置１０５と他の装置との通信は、インタフェース７４０が通信機能を有し、ＣＰＵ７１０の制御に従って動作することで実行される。
設定装置１０５とユーザとのインタラクションは、インタフェース７４０が入力デバイスおよび出力デバイスを有し、ＣＰＵ７１０の制御に従って出力デバイスにて情報をユーザに提示し、入力デバイスにてユーザ操作を受け付けることで実行される。

【0269】

設定装置６１０がコンピュータ７００に実装される場合、パラメータ値設定部６１１、重み計算部６１２および学習制御部６１３の動作は、プログラムの形式で補助記憶装置７３０に記憶されている。ＣＰＵ７１０は、プログラムを補助記憶装置７３０から読み出して主記憶装置７２０に展開し、当該プログラムに従って上記処理を実行する。

【0270】

また、ＣＰＵ７１０は、プログラムに従って、設定装置６１０が行う処理のための記憶領域を主記憶装置７２０に確保する。
設定装置６１０と他の装置との通信は、インタフェース７４０が通信機能を有し、ＣＰＵ７１０の制御に従って動作することで実行される。
設定装置６１０とユーザとのインタラクションは、インタフェース７４０が入力デバイスおよび出力デバイスを有し、ＣＰＵ７１０の制御に従って出力デバイスにて情報をユーザに提示し、入力デバイスにてユーザ操作を受け付けることで実行される。

【0271】

設定装置６２０がコンピュータ７００に実装される場合、パラメータ値設定部６２１および学習制御部６２２の動作は、プログラムの形式で補助記憶装置７３０に記憶されている。ＣＰＵ７１０は、プログラムを補助記憶装置７３０から読み出して主記憶装置７２０に展開し、当該プログラムに従って上記処理を実行する。

【0272】

また、ＣＰＵ７１０は、プログラムに従って、設定装置６２０が行う処理のための記憶領域を主記憶装置７２０に確保する。
設定装置６２０と他の装置との通信は、インタフェース７４０が通信機能を有し、ＣＰＵ７１０の制御に従って動作することで実行される。
設定装置６２０とユーザとのインタラクションは、インタフェース７４０が入力デバイスおよび出力デバイスを有し、ＣＰＵ７１０の制御に従って出力デバイスにて情報をユーザに提示し、入力デバイスにてユーザ操作を受け付けることで実行される。

【0273】

上述したプログラムのうち何れか１つ以上が不揮発性記録媒体７５０に記録されていてもよい。この場合、インタフェース７４０が不揮発性記録媒体７５０からプログラムを読み出すようにしてもよい。そして、ＣＰＵ７１０が、インタフェース７４０が読み出したプログラムを直接実行するか、あるいは、主記憶装置７２０または補助記憶装置７３０に一旦保存して実行するようにしてもよい。

【0274】

なお、設定装置１００、１０１、１０２、１０３、１０４、１０５、６１０、および、６２０が行う処理の全部または一部を実行するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することにより各部の処理を行ってもよい。なお、ここでいう「コンピュータシステム」とは、ＯＳや周辺機器等のハードウェアを含むものとする。
また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ＲＯＭ（Read Only Memory）、ＣＤ－ＲＯＭ（Compact Disc Read Only Memory）等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。また上記プログラムは、前述した機能の一部を実現するためのものであってもよく、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであってもよい。

【0275】

以上、この発明の実施形態について図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。

【0276】

上記の実施形態の一部または全部は、以下の付記のようにも記載され得るが、以下には限定されない。

【0277】

（付記１）
模擬対象を模擬するシミュレータのパラメータ値を設定するパラメータ値設定手段と、
前記シミュレータの出力値と、前記シミュレータの出力値による模擬の対象となる基準出力値とに基づいて、出力項目毎の重みを計算する重み計算手段と、
前記シミュレータの出力値と前記基準出力値と前記重みとに基づく評価関数を用いて、前記パラメータ値設定手段による前記シミュレータのパラメータ値の設定の学習を制御する学習制御手段と、
を備える設定装置。

【0278】

（付記２）
前記重み計算手段は、前記出力項目毎の誤差を正規化した正規化後誤差が大きい出力項目ほど小さい重みになるように、前記出力項目毎の重みを計算する、
付記１に記載の設定装置。

【0279】

（付記３）
前記学習制御手段は、前記学習の単位毎に、前記シミュレータの出力値と前記基準出力値との重み付けされた誤差の前記出力項目全体での大きさを示す誤差指標値を計算し、１単位分の学習の実行後の前記誤差指標値が、その１単位分の学習の実行前の前記誤差指標値よりも、誤差が大きいことを示す場合、前記重みを、その１単位分の学習の実行前の重みに戻す、
付記２に記載の設定装置。

【0280】

（付記４）
前記シミュレータの出力値と前記基準出力値との誤差の、前記パラメータ値の空間における勾配を示す勾配ベクトルを、前記シミュレータの出力項目毎に計算する勾配ベクトル計算手段
をさらに備え、
前記重み計算手段は、前記勾配ベクトルと、前記勾配ベクトルを全ての前記出力項目について平均した平均勾配ベクトルとの差異が小さいほど重みが大きくなるように、前記出力項目毎の重みを計算する
付記１に記載の設定装置。

【0281】

（付記５）
前記勾配ベクトル計算手段は、前記パラメータ値をランダムに変化させた場合の前記誤差の変化量に基づいて、前記勾配ベクトルを計算する、
付記４に記載の設定装置。

【0282】

（付記６）
前記学習制御手段は、前記シミュレータによる前記模擬対象のシミュレーション上の時間で、前記パラメータ値設定手段が前記パラメータ値を設定する時間よりも未来の時間を含む時間における前記シミュレータの出力値に基づく前記評価関数を用いる、
付記１から５の何れか一つに記載の設定装置。

【0283】

（付記７）
前記基準出力値は、前記模擬対象を模擬する第２シミュレータの出力値であり、
前記学習制御手段は、前記パラメータ値設定手段が前記パラメータ値を設定する前記シミュレータである第１シミュレータに、前記第２シミュレータへの入力値と同じ入力値が入力されたときの前記第１シミュレータの出力値と、前記基準出力値と、前記重みとに基づく評価関数を用いて、前記パラメータ値設定手段による前記第１シミュレータのパラメータ値の設定の学習を制御する、
付記１から６の何れか一つに記載の設定装置。

【0284】

（付記８）
前記第２シミュレータのパラメータ値を変化させるパラメータ値変更手段
をさらに備え、
前記基準出力値は、前記パラメータ値変更手段が前記第２シミュレータのパラメータ値を変化させるときの前記第２シミュレータの出力値を含む、
付記７に記載の設定装置。

【0285】

（付記９）
前記第１シミュレータに、前記第２シミュレータへの入力値と同じ入力値が入力されたときの前記第１シミュレータの出力値と、前記基準出力値とに基づく第２評価関数を用いて、前記第１シミュレータの出力値と前記基準出力値との差異を増加させるように、前記パラメータ値変更手段による前記第２シミュレータのパラメータ値の設定の学習を制御する第２学習制御手段
をさらに備え、
前記第１シミュレータのパラメータ値の学習を制御する前記学習制御手段は、前記第１シミュレータの出力値と前記基準出力値との差異を減少させるように、前記パラメータ値設定手段による前記第１シミュレータのパラメータ値の設定の学習を制御する第１学習制御手段である、
付記８に記載の設定装置。

【0286】

（付記１０）
前記第１学習制御手段の制御による学習が所定の条件以上進むと、前記第２評価関数の値を増加させるスケーリングを行うスケーリング手段
をさらに備える付記９に記載の設定装置。

【0287】

（付記１１）
前記第２シミュレータに、シミュレーションモデルにおけるセンサの故障を設定する故障設定手段をさらに備える、
付記８から１０の何れか一つに記載の設定装置。

【0288】

（付記１２）
前記重み計算手段は、故障の設定が行われた前記センサの出力値に対する前記重みを、前記評価関数の計算対象からの除外を示す値に設定する、
付記１１に記載の設定装置。

【0289】

（付記１３）
模擬対象を模擬する第１シミュレータのパラメータ値を設定するパラメータ値設定手段と、
前記模擬対象を模擬する第２シミュレータの出力値と、前記第１シミュレータに、前記第２シミュレータへの入力値と同じ入力値が入力されたときの前記第１シミュレータの出力値とに基づく評価関数を用いて、前記パラメータ値設定手段による前記第１シミュレータのパラメータ値の設定の学習を制御する学習制御手段と、
を備える設定装置。

【0290】

（付記１４）
前記第２シミュレータのパラメータ値を変化させるパラメータ値変更手段
をさらに備え、
前記第２シミュレータの出力値は、前記パラメータ値変更手段が前記第２シミュレータのパラメータ値を変化させるときの出力値を含む、
付記１３に記載の設定装置。

【0291】

（付記１５）
前記第１シミュレータに、前記第２シミュレータへの入力値と同じ入力値が入力されたときの前記第１シミュレータの出力値と、前記第２シミュレータの出力値とに基づく第２評価関数を用いて、前記第１シミュレータの出力値と前記第２シミュレータの出力値との差異を増加させるように、前記パラメータ値変更手段による前記第２シミュレータのパラメータ値の設定の学習を制御する第２学習制御手段
をさらに備え、
前記第１シミュレータのパラメータ値の学習を制御する前記学習制御手段は、前記第１シミュレータの出力値と前記第２シミュレータの出力値との差異を減少させるように、前記パラメータ値設定手段による前記第１シミュレータのパラメータ値の設定の学習を制御する第１学習制御手段である、
付記１４に記載の設定装置。

【0292】

（付記１６）
前記第１学習制御手段の制御による学習が所定の条件以上進むと、前記第２評価関数の値を増加させるスケーリングを行うスケーリング手段
をさらに備える付記１５に記載の設定装置。

【0293】

（付記１７）
前記第２シミュレータに、シミュレーションモデルにおけるセンサの故障を設定する故障設定手段をさらに備える、
付記１４から１６の何れか一つに記載の設定装置。

【0294】

（付記１８）
前記学習制御手段は、故障の設定が行われた前記センサの出力値が前記評価関数の計算における参照の対象から除外された前記評価関数を用いる、
付記１７に記載の設定装置。

【0295】

（付記１９）
コンピュータが、
模擬対象を模擬するシミュレータのパラメータ値を設定し、
前記シミュレータの出力値と、前記シミュレータの出力値による模擬の対象となる基準出力値とに基づいて、出力項目毎の重みを計算し、
前記シミュレータの出力値と前記基準出力値と前記重みとに基づく評価関数を用いて、前記シミュレータのパラメータ値の設定の学習を制御する、
設定方法。

【0296】

（付記２０）
コンピュータが、
模擬対象を模擬する第１シミュレータのパラメータ値を設定し、
前記模擬対象を模擬する第２シミュレータの出力値と、前記第１シミュレータに、前記第２シミュレータへの入力値と同じ入力値が入力されたときの前記第１シミュレータの出力値とに基づく評価関数を用いて、前記第１シミュレータのパラメータ値の設定の学習を制御する、
設定方法。

【0297】

（付記２１）
コンピュータに、
模擬対象を模擬するシミュレータのパラメータ値を設定することと、
前記シミュレータの出力値と、前記シミュレータの出力値による模擬の対象となる基準出力値とに基づいて、出力項目毎の重みを計算することと、
前記シミュレータの出力値と前記基準出力値と前記重みとに基づく評価関数を用いて、前記シミュレータのパラメータ値の設定の学習を制御することと、
を実行させるためのプログラムを記録する記録媒体。

【0298】

（付記２２）
コンピュータに、
模擬対象を模擬する第１シミュレータのパラメータ値を設定することと、
前記模擬対象を模擬する第２シミュレータの出力値と、前記第１シミュレータに、前記第２シミュレータへの入力値と同じ入力値が入力されたときの前記第１シミュレータの出力値とに基づく評価関数を用いて、前記第１シミュレータのパラメータ値の設定の学習を制御することと、
を実行させるためのプログラムを記録する記録媒体。

【産業上の利用可能性】

【0299】

本発明の実施形態は、設定装置、設定方法および記録媒体に適用してもよい。

【符号の説明】

【0300】

１、２、３、４、５、６シミュレーションシステム
１００、１０１、１０２、１０３、１０４、１０５、６１０、６２０設定装置
１１０、１１１、１１２、６１３、６２２学習制御部
１１０Ａ第１学習制御部
１１０Ｂ第２学習制御部
１２０，６１１，６２１パラメータ値設定部
１２０Ａ第１パラメータ値設定部
１２０Ｂ第２パラメータ値設定部
１３０重み設定部
２００シミュレータ
２００Ａ第１シミュレータ
２００Ｂ第２シミュレータ
３００強化学習部
３００Ａ第１強化学習部
３００Ｂ第２強化学習部
３１０、３１１、６１２重み計算部
３２０勾配ベクトル計算部
３３０パラメータ値変更部
３４０スケーリング部
３５０故障設定部
９００模擬対象

【図1】