特開2024-160826 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社豊田中央研究所の特許一覧 ▶ 株式会社豊田自動織機の特許一覧

特開2024-160826モデル学習装置、制御装置、モデル学習方法、および、コンピュータプログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2024160826

(43)【公開日】2024-11-15

(54)【発明の名称】モデル学習装置、制御装置、モデル学習方法、および、コンピュータプログラム

(51)【国際特許分類】

G05B 13/02 20060101AFI20241108BHJP

【ＦＩ】

G05B13/02 L

【審査請求】未請求

【請求項の数】9

【出願形態】ＯＬ

(21)【出願番号】P 2023076233

(22)【出願日】2023-05-02

(71)【出願人】

【識別番号】000003609

【氏名又は名称】株式会社豊田中央研究所

(71)【出願人】

【識別番号】000003218

【氏名又は名称】株式会社豊田自動織機

(74)【代理人】

【識別番号】100160691

【弁理士】

【氏名又は名称】田邊淳也

(74)【代理人】

【識別番号】100227732

【弁理士】

【氏名又は名称】小澤祥二

(72)【発明者】

【氏名】森安竜大

(72)【発明者】

【氏名】島遼太朗

(72)【発明者】

【氏名】楠昌幸

【テーマコード（参考）】

5H004

【Ｆターム（参考）】

5H004GA14

5H004GB01

5H004KC27

5H004KD62

(57)【要約】

【課題】システムにおける入力と出力との関係を表すモデルを学習するモデル学習装置において、システムを安定的に制御可能なモデルを学習することができる技術を提供する。
【解決手段】モデル学習装置は、入力変数ｖを用いて出力変数ｙを予測するための非線形の状態方程式の学習に用いられるモデルを記憶するモデル記憶部と、モデル記憶部に記憶されているモデルと、モデルに対する入力変数データと出力変数データの組を複数含んだ入出力データセットと、を用いて状態方程式を学習する学習部と、を備え、モデルは、入力変数ｖを入力とする全単射な写像Ψと、出力変数ｙを入力とする全単射な写像Φと、を含む状態方程式であり、写像Ψは、入力変数ｖの成分の少なくとも１つが０であるとき、出力成分の少なくとも１つが０となり、写像Φは、出力変数ｙの成分の少なくとも１つが０であるとき、出力成分の少なくとも１つが０となる。
【選択図】図１

【特許請求の範囲】

【請求項1】

システムに入力される入力変数ｖ（ベクトル）と、前記システムから出力される出力変数ｙ（ベクトル）との関係を表すモデルを学習するモデル学習装置であって、
前記入力変数ｖを用いて前記出力変数ｙを予測するための非線形の状態方程式の学習に用いられるモデルを記憶するモデル記憶部と、
前記モデル記憶部に記憶されているモデルと、前記モデルに対する入力変数データと出力変数データの組を複数含んだ入出力データセットと、を用いて前記状態方程式を学習する学習部と、
を備え、
前記モデルは、前記入力変数ｖを入力とする全単射な写像Ψと、前記出力変数ｙを入力とする全単射な写像Φと、を含む状態方程式であり、
前記写像Ψは、前記入力変数ｖの成分の少なくとも１つが０であるとき、出力成分の少なくとも１つが０となり、
前記写像Φは、前記出力変数ｙの成分の少なくとも１つが０であるとき、出力成分の少なくとも１つが０となる、
モデル学習装置。

【請求項2】

請求項１に記載のモデル学習装置であって、
前記モデルは、式（１）によって定義され、
前記写像Ψは、多層ニューラルネットワークを表す式（２）～式（４）によって定義され、
前記写像Φは、多層ニューラルネットワークを表す式（５）～式（７）によって定義される、
モデル学習装置。

【数1】

上記式（１）において、
等号の左辺は、前記出力変数ｙを表すｎ（ｎは整数）次元ベクトルの時間微分であり、
等号の右辺のうち、
前記入力変数ｖは、前記出力変数ｙの変化に影響を与える制御可能な入力を示すｎ次元ベクトルであり、
外生入力ｄは、前記出力変数ｙの変化に影響を与える制御不可能な入力を示すｐ（ｐは整数）次元ベクトルであり、
前記写像Ψは、前記入力変数ｖと前記外生入力ｄを入力としてｎ次元のベクトルを返す関数であって、かつ、前記入力変数ｖについて全単射な写像であり、
前記写像Φは、前記出力変数ｙと前記外生入力ｄを入力としてｎ次元のベクトルを返す関数であって、かつ、前記出力変数ｙについて全単射な写像であり、
関数Ａは、前記外生入力ｄを入力として、ｎ×ｎ行列を返す関数であり、

【数2】

【数3】

【数4】

上記式（２）～式（４）において、
添え字ｉは、多層ニューラルネットワークにおける層の番号を表し、
添え字Ｌ_Ψは、多層ニューラルネットワークの層数を表し、
重みＷ_Ψは、多層ニューラルネットワークにおける前記入力変数ｖの入力次元をｎ次元とする場合、ｎ×ｎ行列で表され、
バイアスｂ_Ψは、多層ニューラルネットワークにおける前記入力変数ｖの入力次元をｎ次元とする場合、ｎ次元ベクトルで表され、
活性化関数ψは、第一引数である、Ｗ_Ψ ⁽ⁱ⁾（ｄ）ｙ^(i-1)＋ｂ_Ψ ⁽ⁱ⁾（ｄ）、または、ｂ_Ψ ⁽ⁱ⁾（ｄ）について同相写像となるものであり、

【数5】

【数6】

【数7】

【請求項3】

請求項１に記載のモデル学習装置であって、
前記モデルは、式（１）によって定義され、
前記写像Ψは、中間層が式（９）および式（１０）の少なくとも一方によって表される多層ニューラルネットワークを表す式（８）～式（１１）によって定義され、
前記写像Φは、中間層が式（１３）および式（１４）の少なくとも一方によって表される多層ニューラルネットワークを表す式（１２）～式（１５）によって定義される、
モデル学習装置。

【数8】

【数9】

【数10】

【数11】

【数12】

上記式（８）～式（１１）において、
添え字ｉは、多層ニューラルネットワークにおける層の番号を表し、
添え字Ｌ_Ψは、多層ニューラルネットワークの層数を表し、
前記入力変数ｖをｎ_a（ｎ_aは整数）次元の入力変数ｖ_aとｎ_b（ｎ_bは整数）次元の入力変数ｖ_bとに分割した場合、
重みＷ_Ψaは、ｎ_a×ｎ_a次元行列であり、
バイアスｂ_Ψaは、ｎ_a次元ベクトルであり、
重みＷ_Ψbは、ｎ_a×ｎ_b次元行列であり、
バイアスｂ_Ψbは、ｎ_b次元ベクトルであり、
活性化関数ψは、第一引数である、Ｗ_Ψa ⁽ⁱ⁾（ｄ）ｖ_a ^(i-1)＋ｂ_Ψa ⁽ⁱ⁾、ｂ_Ψa ⁽ⁱ⁾、または、Ｗ_Ψb ⁽ⁱ⁾（ｄ）ｖ_b ^(i-1)＋ｂ_Ψb ⁽ⁱ⁾について同相写像となるものであり、
関数ｆ_Ψ+は、任意の正値関数（正の値を返す関数）であり、
関数ｆ_Ψは、任意の関数であり、

【数13】

【数14】

【数15】

【数16】

【請求項4】

請求項２または請求項３に記載のモデル学習装置であって、
前記学習部は、前記式（１）において、内部変数ｕを用いた式（１６）で前記写像Ψを定義し、内部変数ｘを用いた式（１７）で前記写像Φを定義することで、式（１８）によって定義される前記状態方程式を学習する、
モデル学習装置。

【数17】

【数18】

【数19】

【請求項5】

請求項４に記載のモデル学習装置であって、
前記学習部は、式（１６）を離散時刻ｋの時間ステップで離散化した式（１９）とし、式（１７）を離散時刻ｋの時間ステップで離散化した式（２０）とすることで、式（１８）を離散時刻ｋの時間ステップで離散化した式（２１）に示す状態方程式を学習する、
モデル学習装置。

【数20】

【数21】

【数22】

上記式（２１）において、関数Ａ´は、前記関数Ａと同次元の行列である。

【請求項6】

請求項２または請求項３に記載のモデル学習装置であって、
前記学習部は、
前記モデルに対して、前記入出力データセットのうちの前記入力変数データのセットを与えて出力を推定し、
推定された出力と、前記入出力データセットのうちの前記出力変数データのセットと、の一致度を評価し、
評価の結果に応じて前記モデルの学習パラメータを更新することで、前記状態方程式を学習する、
モデル学習装置。

【請求項7】

システムを制御する制御装置であって、
請求項１から請求項３のいずれか一項に記載のモデル学習装置と、
前記学習部が学習した前記状態方程式を用いて、前記出力変数ｙの目標値に対応する前記入力変数ｖの目標値を決定する決定部と、
前記決定部によって決定される前記入力変数ｖの目標値を入力することで前記システムを制御する制御部と、を備える、
制御装置。

【請求項8】

システムに入力される入力変数ｖ（ベクトル）と、前記システムから出力される出力変数ｙ（ベクトル）との関係を表すモデルをモデル学習装置によって学習するモデル学習方法であって、
前記入力変数ｖを用いて前記出力変数ｙを予測するための非線形の状態方程式の学習に用いられるモデルを取得する取得工程と、
前記取得工程において取得した前記モデルと、前記モデルに対する入力変数データと出力変数データの組を複数含んだ入出力データセットと、を用いて前記状態方程式を学習する学習工程と、
を備え、
前記モデルは、前記入力変数ｖを入力とする全単射な写像Ψと、前記出力変数ｙを入力とする全単射な写像Φと、を含む状態方程式であり、
前記写像Ψは、前記入力変数ｖの成分の少なくとも１つが０であるとき、出力成分の少なくとも１つが０となり、
前記写像Φは、前記出力変数ｙの成分の少なくとも１つが０であるとき、出力成分の少なくとも１つが０となる、
モデル学習方法。

【請求項9】

システムに入力される入力変数ｖ（ベクトル）と、前記システムから出力される出力変数ｙ（ベクトル）との関係を表すモデルの学習を情報処理装置に実行させるコンピュータプログラムであって、
前記入力変数ｖを用いて前記出力変数ｙを予測するための非線形の状態方程式の学習に用いられるモデルを取得する取得機能と、
前記取得機能によって取得する前記モデルと、前記モデルに対する入力変数データと出力変数データの組を複数含んだ入出力データセットと、を用いて前記状態方程式を学習す
る学習機能と、を前記情報処理装置に実行させ、
前記モデルは、前記入力変数ｖを入力とする全単射な写像Ψと、前記出力変数ｙを入力とする全単射な写像Φと、を含む状態方程式であり、
前記写像Ψは、前記入力変数ｖの成分の少なくとも１つが０であるとき、出力成分の少なくとも１つが０となり、
前記写像Φは、前記出力変数ｙの成分の少なくとも１つが０であるとき、出力成分の少なくとも１つが０となる、
コンピュータプログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、モデル学習装置、制御装置、モデル学習方法、および、コンピュータプログラムに関する。

【背景技術】

【0002】

従来から、システムを制御するための入力と、この入力に対するシステムからの出力との関係を表すモデルを学習するモデル学習装置が知られている。例えば、特許文献１には、出力が所定の領域内におさまるように、入力を変換する全単射な写像を含むモデルを学習する技術が開示されている。特許文献２には、入出力を変換する２つの全単射な写像と線形の動的方程式とを含むモデルを学習するモデル学習装置が開示されている。

【先行技術文献】

【特許文献】

【0003】

【特許文献1】特開２０２２－０１６７０９号公報

【特許文献2】特開２０２１－１８９９３４号公報

【発明の概要】

【発明が解決しようとする課題】

【0004】

しかしながら、上述したような先行技術によっても、モデル学習装置において、システムを安定的に制御可能なモデルを学習する技術については、なお改善の余地があった。例えば、特許文献１と特許文献２とのいずれにも、モデル学習装置が学習するモデルに含まれる全単射な写像が、入力成分が０であったときに対応する出力成分の値が０となることは、記載されていない。このため、特許文献１に記載のモデル学習装置によって学習されるモデル、および、特許文献２に記載のモデル学習装置によって学習されるモデルでは、入力成分が０になっても対応する出力成分が０とならないおそれがある。このようなモデルを用いてシステムを制御すると、システムが不安定になるおそれがある。

【0005】

本発明は、上述した課題を解決するためになされたものであり、システムにおける入力と出力との関係を表すモデルを学習するモデル学習装置において、システムを安定的に制御可能なモデルを学習することができる技術を提供することを目的とする。

【課題を解決するための手段】

【0006】

本発明は、上述の課題を解決するためになされたものであり、以下の形態として実現できる。

【0007】

（１）本発明の一形態によれば、システムに入力される入力変数ｖ（ベクトル）と、前記システムから出力される出力変数ｙ（ベクトル）との関係を表すモデルを学習するモデル学習装置が提供される。このモデル学習装置は、前記入力変数ｖを用いて前記出力変数ｙを予測するための非線形の状態方程式の学習に用いられるモデルを記憶するモデル記憶部と、前記モデル記憶部に記憶されているモデルと、前記モデルに対する入力変数データと出力変数データの組を複数含んだ入出力データセットと、を用いて前記状態方程式を学習する学習部と、を備え、前記モデルは、前記入力変数ｖを入力とする全単射な写像Ψと、前記出力変数ｙを入力とする全単射な写像Φと、を含む状態方程式であり、前記写像Ψは、前記入力変数ｖの成分の少なくとも１つが０であるとき、出力成分の少なくとも１つが０となり、前記写像Φは、前記出力変数ｙの成分の少なくとも１つが０であるとき、出力成分の少なくとも１つが０となる。

【0008】

この構成によれば、モデルは、システムに入力される入力変数ｖを入力とする全単射な写像Ψと、システムから出力される出力変数ｙを入力とする全単射な写像Φと、を含む状態方程式である。このような状態方程式は、写像Ψ，Φのそれぞれを内部変数とすることで、線形化することができるため、非線形な構造をしているモデルであっても、出力の目標を達成する最適な入力を求める最適制御問題の解が一意であることを保証することができる。また、写像Ψは、入力変数ｖの成分の少なくとも１つが０であるとき、出力成分の少なくとも１つが０となり、写像Φは、出力変数ｙの成分の少なくとも１つが０であるとき、出力成分の少なくとも１つが０となる。これにより、写像Ψ，Φのそれぞれを含む状態方程式は、特定の入力成分が０となったときに、対応する出力成分が０となることが保証される。したがって、モデル学習装置は、システムを安定的に制御可能なモデルを学習することができる。

【0009】

（２）上記形態のモデル学習装置において、前記モデルは、式（１）によって定義され、前記写像Ψは、多層ニューラルネットワークを表す式（２）～式（４）によって定義され、前記写像Φは、多層ニューラルネットワークを表す式（５）～式（７）によって定義されてもよい。

【数23】

上記式（１）において、等号の左辺は、前記出力変数ｙを表すｎ（ｎは整数）次元ベクトルの時間微分であり、等号の右辺のうち、前記入力変数ｖは、前記出力変数ｙの変化に影響を与える制御可能な入力を示すｎ次元ベクトルであり、外生入力ｄは、前記出力変数ｙの変化に影響を与える制御不可能な入力を示すｐ（ｐは整数）次元ベクトルであり、前記写像Ψは、前記入力変数ｖと前記外生入力ｄを入力としてｎ次元のベクトルを返す関数であって、かつ、前記入力変数ｖについて全単射な写像であり、前記写像Φは、前記出力変数ｙと前記外生入力ｄを入力としてｎ次元のベクトルを返す関数であって、かつ、前記出力変数ｙについて全単射な写像であり、関数Ａは、前記外生入力ｄを入力として、ｎ×ｎ行列を返す関数である。

【数24】

【数25】

【数26】

上記式（２）～式（４）において、添え字ｉは、多層ニューラルネットワークにおける層の番号を表し、添え字Ｌ_Ψは、多層ニューラルネットワークの層数を表し、重みＷ_Ψは、多層ニューラルネットワークにおける前記入力変数ｖの入力次元をｎ次元とする場合、ｎ×ｎ行列で表され、バイアスｂ_Ψは、多層ニューラルネットワークにおける前記入力変数ｖの入力次元をｎ次元とする場合、ｎ次元ベクトルで表され、活性化関数ψは、第一引数である、Ｗ_Ψ ⁽ⁱ⁾（ｄ）ｙ^(i-1)＋ｂ_Ψ ⁽ⁱ⁾（ｄ）、または、ｂ_Ψ ⁽ⁱ⁾（ｄ）について同相写像となるものである。

【数27】

【数28】

【数29】

上記式（５）～式（７）において、添え字ｉは、多層ニューラルネットワークにおける層の番号を表し、添え字Ｌ_Φは、多層ニューラルネットワークの層数を表し、重みＷ_Φは、多層ニューラルネットワークにおける前記出力変数ｙの入力次元をｎ次元とする場合、ｎ×ｎ行列で表され、バイアスｂ_Φは、多層ニューラルネットワークにおける前記出力変数ｙの入力次元をｎ次元とする場合、ｎ次元ベクトルで表され、活性化関数φは、第一引数である、Ｗ_Φ ⁽ⁱ⁾（ｄ）ｙ^(i-1)＋ｂ_Φ ⁽ⁱ⁾（ｄ）、または、ｂ_Φ ⁽ⁱ⁾（ｄ）について同相写像となるものである。この構成によれば、式（１）のモデルに含まれる写像Ψ、Φのそれぞれには、出力変数ｙの変化に影響を与える制御不可能な入力である外生入力ｄが含まれている。これにより、式（１）のモデルは、制御不可能な外生入力ｄによる影響も考慮した状態方程式となるため、このようなモデルを用いることで、システムの将来の状態を高精度に予測することができる。また、式（２）～式（４）によって定義される多層ニューラルネットワークによって表される写像Ψは、多層ニューラルネットワークの中間層を表す式（３）において、入力変数ｖ^(i-1)が０になると、入力変数ｖ⁽ⁱ⁾も０となる。すなわち、写像Ψの出力も０となる。また、式（５）～式（７）によって定義される多層ニューラルネットワークによって表される写像Φは、多層ニューラルネットワークの中間層を表す式（６）において、出力変数ｙ^(i-1)が０になると、出力変数ｙ⁽ⁱ⁾も０となる。すなわち、写像Φの出力も０となる。式（１）のモデルは、式（２）～式（４）によって表される写像Ψと、式（５）～式（７）によって表される写像Φとを含むため、特定の入力変数が０となったときに、対応する出力変数が０となることが保証される。したがって、モデル学習装置は、システムを安定的に制御可能なモデルを学習することができる。

【0010】

（３）上記形態のモデル学習装置において、前記モデルは、式（１）によって定義され、前記写像Ψは、中間層が式（９）および式（１０）の少なくとも一方によって表される多層ニューラルネットワークを表す式（８）～式（１１）によって定義され、前記写像Φは、中間層が式（１３）および式（１４）の少なくとも一方によって表される多層ニューラルネットワークを表す式（１２）～式（１５）によって定義されてもよい。

【数30】

上記式（１）において、等号の左辺は、前記出力変数ｙを表すｎ（ｎは整数）次元ベクトルの時間微分であり、等号の右辺のうち、前記入力変数ｖは、前記出力変数ｙの変化に影響を与える制御可能な入力を示すｎ次元ベクトルであり、外生入力ｄは、前記出力変数ｙの変化に影響を与える制御不可能な入力を示すｐ（ｐは整数）次元ベクトルであり、前記写像Ψは、前記入力変数ｖと前記外生入力ｄを入力としてｎ次元のベクトルを返す関数であって、かつ、前記入力変数ｖについて全単射な写像であり、前記写像Φは、前記出力変数ｙと前記外生入力ｄを入力としてｎ次元のベクトルを返す関数であって、かつ、前記出力変数ｙについて全単射な写像であり、関数Ａは、前記外生入力ｄを入力として、ｎ×
ｎ行列を返す関数である。

【数31】

【数32】

【数33】

【数34】

上記式（８）～式（１１）において、添え字ｉは、多層ニューラルネットワークにおける層の番号を表し、添え字Ｌ_Ψは、多層ニューラルネットワークの層数を表し、前記入力変数ｖをｎ_a（ｎ_aは整数）次元の入力変数ｖ_aとｎ_b（ｎ_bは整数）次元の入力変数ｖ_bとに分割した場合、重みＷ_Ψaは、ｎ_a×ｎ_a次元行列であり、バイアスｂ_Ψaは、ｎ_a次元ベクトルであり、重みＷ_Ψbは、ｎ_a×ｎ_b次元行列であり、バイアスｂ_Ψbは、ｎ_b次元ベクトルであり、活性化関数ψは、第一引数である、Ｗ_Ψa ⁽ⁱ⁾（ｄ）ｖ_a ^(i-1)＋ｂ_Ψa ⁽ⁱ⁾、ｂ_Ψa ⁽ⁱ⁾、または、Ｗ_Ψb ⁽ⁱ⁾（ｄ）ｖ_b ^(i-1)＋ｂ_Ψb ⁽ⁱ⁾について同相写像となるものであり、関数ｆ_Ψ+は、任意の正値関数（正の値を返す関数）であり、関数ｆ_Ψは、任意の関数である。

【数35】

【数36】

【数37】

【数38】

上記式（１２）～式（１５）において、添え字ｉは、多層ニューラルネットワークにおける層の番号を表し、添え字Ｌ_Φは、多層ニューラルネットワークの層数を表し、前記出力変数ｙをｎ_c（ｎ_cは整数）次元の出力変数ｙ_cとｎ_d（ｎ_dは整数）次元の出力変数ｙ_dとに分割した場合、重みＷ_Φcは、ｎ_c×ｎ_c次元行列であり、バイアスｂ_Φcは、ｎ_c次元ベクトルであり、重みＷ_Φdは、ｎ_c×ｎ_d次元行列であり、バイアスｂ_Φdは、ｎ_d次元ベクトルであり、活性化関数φは、第一引数である、Ｗ_Φc ⁽ⁱ⁾（ｄ）ｙ_c ^(i-1)＋ｂ_Φc ⁽ⁱ⁾、ｂ_Φc ⁽ⁱ⁾、または、Ｗ_Φd ⁽ⁱ⁾（ｄ）ｙ_d ^(i-1)＋ｂ_Φd ⁽ⁱ⁾について同相写像となるものであり、関数ｆ_Φ+は、任意の正値関数（正の値を返す関数）であり、関数ｆ_Φは、任意の関数である。この構成によれば、モデル学習装置が学習する式（１）のモデルに含まれる写像Ψ、Φのそれぞれには、出力変数ｙの変化に影響を与える制御不可能な入力である外生入力ｄが含まれているため、式（１）のモデルを用いることで、システムの将来の状態を高精度に予測することができる。また、式（８）～式（１１）によって定義される多層ニューラルネットワークによって表される写像Ψは、中間層が式（９）および式（１０）の少なくとも一方によって表される。式（９）では、入力変数ｖの一部であるｎ_a次元の入力変数ｖ_a ^(i-1)が０になると、入力変数ｖ_a ⁽ⁱ⁾も０となる。また、式（１０）では、ｎ_a次元の入力変数ｖ_a ^(i-1)、または、入力変数ｖの一部であるｎ_b次元の入力変数ｖ_b ^(i-1)が０になると、入力変数ｖ_a ⁽ⁱ⁾も０となる。したがって、写像Ψの出力の一部も０となる。また、式（１２）～式（１５）によって定義される多層ニューラルネットワークによって表される写像Φは、中間層が式（１３）および式（１４）の少なくとも一方によって表される。式（１３）では、出力変数ｙの一部であるｎ_c次元の出力変数ｙ_c ^(i-1)が０になると、出力変数ｙ_c ⁽ⁱ⁾も０となる。また、式（１４）では、ｎ_c次元の出力変数ｙ_c ^(i-1)、または、出力変数ｙの一部であるｎ_d次元の出力変数ｙ_d ^(i-1)が０になると、出力変数ｙ_d ⁽ⁱ⁾も０となる。したがって、写像Φの出力の一部も０となる。このように、式（１）のモデルは、式（８）～式（１１）によって表される写像Ψと、式（１２）～式（１５）によって表される写像Φとを含むため、特定の入力成分が０となったときに、対応する出力成分が０となることが保証される。したがって、モデル学習装置は、システムを安定的に制御可能なモデルを学習することができる。

【0011】

（４）上記形態のモデル学習装置において、前記学習部は、前記式（１）において、内部変数ｕを用いた式（１６）で前記写像Ψを定義し、内部変数ｘを用いた式（１７）で前記写像Φを定義することで、式（１８）によって定義される前記状態方程式を学習してもよい。

【数39】

【数40】

【数41】

この構成によれば、式（１）の状態方程式において、式（１）に示す状態方程式は、内部変数ｕを用いた式（１６）で写像Ψを定義し、内部変数ｘを用いた式（１７）で写像Φを定義することで線形化することができる。これにより、式（１）に示す状態方程式は、
解が一意となることを保証することができるため、モデル学習装置は、システムを安定的に制御可能なモデルを学習することができる。

【0012】

（５）上記形態のモデル学習装置において、前記学習部は、式（１６）を離散時刻ｋの時間ステップで離散化した式（１９）とし、式（１７）を離散時刻ｋの時間ステップで離散化した式（２０）とすることで、式（１８）を離散時刻ｋの時間ステップで離散化した式（２１）に示す状態方程式を学習してもよい。

【数42】

【数43】

【数44】

上記式（２１）において、関数Ａ´は、前記関数Ａと同次元の行列である。この構成によれば、学習部は、式（１６）～式（１８）で表される状態方程式を、離散時刻ｋの時間ステップで離散化した式（１９）～式（２１）で表される状態方程式として学習する。これにより、内部変数ｘ、ｕの数を有限とすることによって、モデルの学習に要する時間を短くすることができる。したがって、モデル学習装置は、システムを安定的に制御可能なモデルを比較的短時間で学習することができる。

【0013】

（６）上記形態のモデル学習装置において、前記学習部は、前記モデルに対して、前記入出力データセットのうちの前記入力変数データのセットを与えて出力を推定し、推定された出力と、前記入出力データセットのうちの前記出力変数データのセットと、の一致度を評価し、評価の結果に応じて前記モデルの学習パラメータを更新することで、前記状態方程式を学習してもよい。この構成によれば、学習部は、入出力データセットのうちの入力変数データセットを用いて推定された出力と、出力変数データセットとの一致度を評価する。学習部は、この一致度の評価に応じて、モデルについての学習パラメータを更新し、状態方程式を学習する。すなわち、学習部は、予め準備された入出力データセットを教師データとした学習手法に沿って、非線形の状態方程式を学習することができる。これにより、実際のシステムに沿ったモデルを学習することができるため、システムからの出力の目標値に対する追従性を向上することができる。したがって、モデル学習装置は、システムを安定的に制御可能であり、かつ、システムからの出力の目標値に対する追従性が高いモデルを学習することができる。

【0014】

（７）本発明の別の形態によれば、システムを制御する制御装置が提供される。この制御装置は、上記のモデル学習装置と、前記学習部が学習した前記状態方程式を用いて、前記出力変数ｙの目標値に対応する前記入力変数ｖの目標値を決定する決定部と、前記決定部によって決定される前記入力変数ｖの目標値を入力することで前記システムを制御する制御部と、を備える。この構成によれば、制御部は、特定の入力が０となったときに、対応する出力が０となることが保証されるモデルを用いて決定される入力変数ｖの目標値を入力することで、システムを制御する。これにより、制御装置は、システムを安定的に制御することができる。

【0015】

（８）本発明のさらに別の形態によれば、システムに入力される入力変数ｖ（ベクトル）と、前記システムから出力される出力変数ｙ（ベクトル）との関係を表すモデルを学習
するモデル学習方法が提供される。このモデル学習方法は、前記入力変数ｖを用いて前記出力変数ｙを予測するための非線形の状態方程式の学習に用いられるモデルを取得する取得工程と、前記取得工程において取得した前記モデルと、前記モデルに対する入力変数データと出力変数データの組を複数含んだ入出力データセットと、を用いて前記状態方程式を学習する学習工程と、を備え、前記モデルは、前記入力変数ｖを入力とする全単射な写像Ψと、前記出力変数ｙを入力とする全単射な写像Φと、を含む状態方程式であり、前記写像Ψは、前記入力変数ｖの成分の少なくとも１つが０であるとき、出力成分の少なくとも１つが０となり、前記写像Φは、前記出力変数ｙの成分の少なくとも１つが０であるとき、出力成分の少なくとも１つが０となる。この構成によれば、学習されるモデルは、システムに入力される入力変数ｖを入力とする全単射な写像Ψと、システムから出力される出力変数ｙを入力とする全単射な写像Φと、を含む状態方程式であるため、出力の目標を実現する最適な入力を求める最適制御問題の解が一意であることを保証することができる。また、写像Ψ，Φのいずれにおいても、特定の入力が０となったときに、対応する出力が０となることが保証されている。これにより、学習工程で学習されるモデルを用いることで、入力成分が０になると対応する出力成分が０となる。したがって、システムを安定的に制御可能なモデルを学習することができる。

【0016】

（９）本発明のさらに別の形態によれば、システムに入力される入力変数ｖ（ベクトル）と、前記システムから出力される出力変数ｙ（ベクトル）との関係を表すモデルの学習を情報処理装置に実行させるコンピュータプログラムが提供される。このコンピュータプログラムは、前記入力変数ｖを用いて前記出力変数ｙを予測するための非線形の状態方程式の学習に用いられるモデルを取得する取得機能と、前記取得機能によって取得する前記モデルと、前記モデルに対する入力変数データと出力変数データの組を複数含んだ入出力データセットと、を用いて前記状態方程式を学習する学習機能と、を前記情報処理装置に実行させ、前記モデルは、前記入力変数ｖを入力とする全単射な写像Ψと、前記出力変数ｙを入力とする全単射な写像Φと、を含む状態方程式であり、前記写像Ψは、前記入力変数ｖの成分の少なくとも１つが０であるとき、出力成分の少なくとも１つが０となり、前記写像Φは、前記出力変数ｙの成分の少なくとも１つが０であるとき、出力成分の少なくとも１つが０となる。この構成によれば、情報処理装置が学習するモデルは、システムに入力される入力変数ｖを入力とする全単射な写像Ψと、システムから出力される出力変数ｙを入力とする全単射な写像Φと、を含む状態方程式であるため、出力の目標を実現する最適な入力を求める最適制御問題の解が一意であることを保証することができる。また、写像Ψ，Φのいずれにおいても、特定の入力が０となったときに、対応する出力が０となることが保証されている。これにより、学習機能によって学習されるモデルを用いることで、入力成分が０になると対応する出力成分が０となる。したがって、システムを安定的に制御可能なモデルを学習することができる。

【0017】

なお、本発明は、種々の態様で実現することが可能であり、例えば、非線形システムのモデルを学習する装置および方法、学習により得られたモデルを用いて状態を推定する装置および方法、これらの装置が含まれるシステム、これらの装置およびシステムにおいて実行されるコンピュータプログラム、そのコンピュータプログラムを配布するためのサーバ装置、そのコンピュータプログラムを記憶した一時的でない記憶媒体等の形態で実現することができる。

【図面の簡単な説明】

【0018】

【図1】第１実施形態のモデル学習装置の構成を示す模式図である。

【図2】第１実施形態のモデル学習方法のフローチャートである。

【図3】入力値の時間変化を示す図である。

【図4】第１実施形態のモデルを用いた予測値と実測値とを比較する図である。

【図5】比較例のモデルを用いた予測値と実測値とを比較する図である。

【図6】第２実施形態のモデル学習装置の構成を示す模式図である。

【図7】第３実施形態のモデル学習装置の構成を示す模式図である。

【図8】第４実施形態の制御装置の構成を示す模式図である。

【発明を実施するための形態】

【0019】

＜第１実施形態＞
図１は、第１実施形態のモデル学習装置１００の構成を示す模式図である。本実施形態のモデル学習装置１００は、非線形システムのモデルを学習する装置である。ここで、「非線形システム」とは、任意の制御対象物（システム）に対する入出力パラメータの関係性が一次式では表せない、または、近似できない性質を持つシステムを意味する。また、本実施形態では「モデル」として、非線形の状態方程式を例示する。すなわち、モデル学習装置１００は、任意のシステムの状態を、該システムから出力される出力変数ｙとみなすことで、システムに入力される入力変数ｖによって制御された結果、システムの出力変数ｙを予測する非線形の状態方程式を学習する。なお、「状態方程式」とは、「ｙ・（ｔ）＝ｆ（ｙ（ｔ）、・・・）」のように、現時刻ｔにおける出力変数ｙ（ｔ）によって、それ自身の出力変数ｙ・（ｔ）を決定する方程式を意味する。以降、表記の便宜上、任意の変数ｚの時間微分を「ｚ・」と記載する。

【0020】

システムは、例えば、内燃機関、ハイブリッド機関、パワートレインなどの駆動機関、燃料電池、誘導電動機などが含まれる。内燃機関などの駆動機関をシステムとした場合、モデル学習装置１００により学習されるモデルは、例えば、制御対象部のアクチュエータの操作量、制御対象部に対する外乱、制御対象部の状態、制御対象部の出力、制御対象部の出力目標値などの関係を表す非線形の状態方程式となる。より具体的には、モデル学習装置１００は、車両に搭載された内燃機関をシステムとして想定する場合、モデル学習装置１００は、入力変数ｖとしてのアクセルの開度、ＥＧＲバルブの開度などが入力されることで、内燃機関から出力される、内燃機関の出力値や二酸化炭素の排出量、炭化水素の排出量を出力変数ｙとして予測する状態方程式を学習する。

【0021】

車両に搭載された、内燃機関とモータとのハイブリッド機関をシステムとして想定する場合、モデル学習装置１００は、入力変数ｖとしてのアクセルの開度、ブレーキ操作量、車両の加速度などが入力されることで、ハイブリッド機関から出力される、内燃機関の出力値、モータの出力値、バッテリの蓄電量や蓄電量の制限値を出力変数ｙとして予測する状態方程式を学習する。車両に搭載された内燃機関やハイブリッド機関をシステムとして想定する場合、走行によって変化する車両の走行状態（曲がっている状態か否か、坂道を上っている状態か否かなど）が初期条件となる。

【0022】

燃料電池をシステムとして想定する場合、モデル学習装置１００は、入力変数ｖとしての供給燃料の量が入力されることで、発生電力を出力変数ｙとして予測する状態方程式を学習する。誘導電動機をシステムとして想定する場合、モデル学習装置１００は、入力変数ｖとしての電源電圧が入力されることで、電動機の回転数を出力変数ｙとして予測する状態方程式を学習する。なお、本実施形態のモデル学習装置１００が適用される分野は、これに限定されない。

【0023】

モデル学習装置１００は、例えば、パーソナルコンピュータ（ＰＣ：Ｐｅｒｓｏｎａｌ
Ｃｏｍｐｕｔｅｒ）であり、ＣＰＵ１１０と、記憶部１２０と、ＲＯＭ／ＲＡＭ１３０と、通信部１４０と、入出力部１５０と、を備えている。モデル学習装置１００の各部は、バスにより相互に接続されている。

【0024】

ＣＰＵ１１０は、制御部１１１と、学習部１１２と、を備えている。制御部１１１は、ＲＯＭ１３０に格納されているコンピュータプログラムをＲＡＭ１３０に展開して実行す
ることにより、モデル学習装置１００の各部を制御する。学習部１１２は、任意のシステム（非線形システム）の状態を表す出力変数ｙを予測するための非線形の状態方程式を学習する。学習部１１２の機能の詳細は、後述する。

【0025】

記憶部１２０は、ハードディスク、フラッシュメモリ、メモリカードなどで構成される記憶媒体である。記憶部１２０は、モデル記憶部１２１と、データセット記憶部１２２と、を有している。

【0026】

モデル記憶部１２１は、学習部１１２による状態方程式の学習のために用いられるモデルを予め記憶している。本実施形態では、モデル記憶部１２１に記憶されたモデルは、入力変数ｖを入力とする全単射な写像Ψと、出力変数ｙを入力とする全単射な写像Φと、を含む状態方程式であって、式（１）により定義される。ここで、「全単射」とは、集合Ａの写像の結果が集合Ｂであるとした場合に、ＡとＢの各要素が必ず一対一の対応関係を持つことを意味する。これは、例えば、関数ｆが全単射である場合、一意の逆関数ｆ^-1が存在することと同義である。

【数45】

上記式（１）において、等号の左辺は、出力変数ｙを表すｎ（ｎは整数）次元ベクトルの時間微分である。上記式（１）において、等号の右辺のうち、入力変数ｖは、出力変数ｙの変化に影響を与える制御可能な入力を示すｎ次元ベクトルであり、外生入力ｄは、出力変数ｙの変化に影響を与える制御不可能な入力を示すｐ（ｐは整数）次元ベクトルである。写像Ψは、入力変数ｖと外生入力ｄを入力としてｎ次元のベクトルを返す関数であって、かつ、入力変数ｖについて全単射な写像である。写像Φは、出力変数ｙと外生入力ｄを入力としてｎ次元のベクトルを返す関数であって、かつ、出力変数ｙについて全単射な写像である。関数Ａは、外生入力ｄを入力として、ｎ×ｎ行列を返す関数である。

【0027】

本実施形態では、式（１）に含まれる全単射な写像Ψは、多層ニューラルネットワークを表す以下の式（２）～式（４）によって定義される。

【数46】

【数47】

【数48】

上記式（２）～式（４）において、添え字ｉは、多層ニューラルネットワークにおける層の番号を表し、添え字Ｌ_Ψは、多層ニューラルネットワークの層数を表す。重みＷ_Ψは、多層ニューラルネットワークにおける入力変数ｖの入力次元をｎ次元とする場合、ｎ×ｎ行列で表される。バイアスｂ_Ψは、多層ニューラルネットワークにおける入力変数ｖの入力次元をｎ次元とする場合、ｎ次元ベクトルで表される。重みＷ_Ψ、および、バイアスｂ_Ψは、外生入力ｄの大きさに応じて変化してもよい。活性化関数ψは、第一引数である、Ｗ_Ψ ⁽ⁱ⁾（ｄ）ｙ^(i-1)＋ｂ_Ψ ⁽ⁱ⁾（ｄ）、または、ｂ_Ψ ⁽ⁱ⁾（ｄ）について同相写像となるものである。活性化関数ψは、外生入力ｄの大きさに応じて変化してもよい。多層ニューラルネットワークの中間層を示す式（３）では、入力変数ｖ（ベクトル）の全ての
要素が０であれば、式（２）は、０となる。重みＷ_Ψが対角行列である場合、入力変数ｖのj番目の要素が０であれば、写像Ψのj番目の要素も０となる。

【0028】

本実施形態では、式（１）に含まれる全単射な写像Φは、多層ニューラルネットワークを表す式（５）～式（７）によって定義される。

【数49】

【数50】

【数51】

上記式（５）～式（７）において、添え字ｉは、多層ニューラルネットワークにおける層の番号を表し、添え字Ｌ_Φは、多層ニューラルネットワークの層数を表す。重みＷ_Φは、多層ニューラルネットワークにおける出力変数ｙの入力次元をｎ次元とする場合、ｎ×ｎ行列で表される。バイアスｂ_Φは、多層ニューラルネットワークにおける出力変数ｙの入力次元をｎ次元とする場合、ｎ次元ベクトルで表される。重みＷ_Φ、および、バイアスｂ_Φは、外生入力ｄの大きさに応じて変化してもよい。活性化関数φは、第一引数である、Ｗ_Φ ⁽ⁱ⁾（ｄ）ｙ^(i-1)＋ｂ_Φ ⁽ⁱ⁾（ｄ）、または、ｂ_Φ ⁽ⁱ⁾（ｄ）について同相写像となるものである。活性化関数φは、外生入力ｄの大きさに応じて変化してもよい。多層ニューラルネットワークの中間層を示す式（６）では、出力変数ｙ（ベクトル）の全ての要素が０であれば、式（６）は、０となる。重みＷ_Φが対角行列である場合、出力変数ｙのj番目の要素が０であれば、写像Φのj番目の要素も０となる。

【0029】

データセット記憶部１２２は、式（１）のモデルに対する入力変数データと出力変数データの組を複数含んでいる入出力データセットを予め記憶している。この入力変数データと出力変数データの組は、システムに対する実験や計算により予め求められている。入出力データセットは、学習部１１２による状態方程式の学習のために用いられる教師データとして用いられる。以降、入出力データセットのうち、複数の入力変数データをまとめて「入力変数データセット」とも呼び、複数の出力変数データをまとめて「出力変数データセット」とも呼ぶ。

【0030】

通信部１４０は、モデル学習装置１００と他の装置との間における、通信インターフェースを介した通信を制御する。他の装置としては、例えば、システムを制御する制御装置や、他の情報処理装置、および、データセット記憶部１２２から入出力データセットを取得するための計測器などが挙げられる。入出力部１５０は、モデル学習装置１００と、利用者との間の情報の入出力に使用される種々のインターフェースである。入出力部１５０としては、例えば、入力部としてのタッチパネル、キーボード、マウス、操作ボタン、マイクや、出力部としてのタッチパネル、モニタ、スピーカー、ＬＥＤ（ＬｉｇｈｔＥｍｉｔｔｉｎｇＤｉｏｄｅ）インジケータなどが挙げられる。

【0031】

図２は、第１実施形態のモデル学習方法のフローチャートである。モデル学習装置１００におけるモデル学習方法は、例えば、所定のアプリケーションの起動などの利用者からの要求などによって実行される。本実施形態では、式（１）に示す状態方程式において、出力変数ｙ、入力変数ｖ、システムにおける外生入力ｄ、出力変数ｙの時間微分ｙ・、および、外生入力ｄの時間微分ｄ・を含む既知の入出力データセットを用いて、式（２２）に示す関数Ｆの関数形を学習（推定）する。ここで、出力変数ｙは、ｎ次元ベクトルであ
り、入力変数ｖは、ｎ次元ベクトルであり、外生入力ｄは、ｐ次元ベクトルである。

【数52】

【0032】

最初に、学習部１１２は、モデル記憶部１２１に記憶されているモデルを取得する（ステップＳ１１）。具体的には、学習部１１２は、関数Ｆを学習するためのモデルを式（１）に示す状態方程式と想定する。学習部１１２は、式（１）に示す状態方程式において、各変数の値をゼロまたはランダムな値とすることで、各変数を初期化する。

【数53】

【0033】

本実施形態では、学習部１１２は、式（１）に含まれる写像Ψを式（１６）で示す内部変数ｕと定義し、式（１）に含まれる写像Φを式（１７）で示す内部変数ｘと定義する。これにより、学習部１１２は、式（１）を内部変数ｕ、ｘで示した式（１８）の状態方程式を学習することとなる。式（１）の状態方程式に含まれる写像Φ、Ψのそれぞれを内部変数ｘ、ｕのそれぞれで定義する効果は、後述する。

【数54】

【数55】

【数56】

なお、式（１７）を式（２３）とし、式（１８）を式（２４）に置き換えてもよい。

【数57】

【数58】

【0034】

本実施形態では、学習部１１２は、式（１６）～式（１８）を、離散時刻ｋにおいて所定の時間ステップΔｔで離散化した式（１９）～式（２１）に示す状態方程式を読み込む。

【数59】

【数60】

【数61】

上記式（２１）において、関数Ａ´は、関数Ａと同次元の行列である。

【0035】

次に、学習部１１２は、データセット記憶部１２２から、出力変数ｙ、入力変数ｖ、外生入力ｄ、出力変数ｙの時間微分ｙ・、外生入力ｄの時間微分ｄ・についての入出力データセット［ｙ、ｖ、ｄ、ｙ・、ｄ・］を取得する（ステップＳ１２）。本実施形態では、入出力データセット［ｙ、ｖ、ｄ、ｙ・、ｄ・］の各データは、ｊ組（ｊは自然数、ｊ＝１～Ｎ）含まれている。取得した入出力データセットのうち、［ｙ_j、ｖ_j、ｄ_j、ｄ・_j］は、入力変数データセットに相当し、［ｙ・_j］は、出力変数データセットに相当する。

【0036】

次に、学習部１１２は、モデルに入力データセットを与えて出力を推定する（ステップＳ１３）。具体的には、学習部１１２は、ステップＳ１１で取得し初期化した式（１）の状態方程式に対して、ステップＳ１２で取得した入力変数データセット［ｙ_j、ｖ_j、ｄ_j、ｄ・_j］を与える。これにより、出力変数ｙ・ｊの推定値（式（２５）の左辺）を得ることができる。なお、（∂Φ／∂ｙ）^-1は、出力変数ｙおよび外生入力ｄの関数であるため、出力変数ｙ_jおよび外生入力ｄ_jを代入することで評価可能である。また、式（１７）の右辺の（∂Φ／∂ｄ）は、入力変数ｖおよび外生入力ｄの関数であるため、入力変数ｖ_jおよび外生入力ｄ_jを代入することで評価可能である。

【数62】

【0037】

次に、学習部１１２は、推定された出力と出力変数データセットとの一致度を評価する（ステップＳ１４）。具体的には、学習部１１２は、ステップＳ１３で得られた出力変数ｙ・_jの推定値と、ステップＳ１２で取得した出力変数データセット［ｙ・_j］との一致度を評価する。学習部１１２は、例えば、式（２６）に示す二乗平均誤差（ＭＳＥ：ＭｅａｎＳｑｕａｒｅＥｒｒｏｒ）を一致度の指標として用いることができる。ＭＳＥの場合、等号の左辺Ｊの値が小さければ小さいほど、一致度が高い。なお、学習部１１２は、二乗平均誤差の代わりに、例えば、絶対平均誤差率や、交差エントロピーなどの指標を用いて、一致度を評価してもよい。

【数63】

【0038】

次に、学習部１１２は、一致度が十分であるか否かを判定する（ステップＳ１５）。例えば、式（１８）のＭＳＥを用いる場合、学習部１１２は、Ｊの値が所定値以下である場合に、一致度が十分であると判定できる。なお、学習部１１２は、Ｊの値の変化率が所定値以下である場合に、一致度が十分であると判定してもよい。所定値は任意に決定できる。

【0039】

一致度が十分でない場合（ステップＳ１５：ＮＯ）、学習部１１２は、ステップＳ１６に進み、ステップＳ１１で定義した式（１）のモデルにおける、例えば、式（１）に含まれる関数Ａ、式（２）～式（７）に含まれる重みＷ_Ψ、Ｗ_Φやバイアスｂ_Ψ、ｂ_Φなどの学習パラメータを更新する。学習部１１２は、例えば、バックプロパゲーションにより各学習パラメータに対するＪの勾配を評価し、各種の勾配法に基づいて、各学習パラメータを更新してもよい。その後、学習部１１２は、ステップＳ１３に進み、出力の推定および評価を繰り返す。

【0040】

一致度が十分である場合（ステップＳ１５：ＹＥＳ）、学習部１１２は、処理を終了する。この際、学習部１１２は、学習した関数Ｆについて、入出力部１５０に出力してもよ
く、記憶部１２０に記憶してもよく、通信部１４０を介して他の装置に送信してもよい。

【0041】

本実施形態のモデル学習装置１００がシステムの操作量を制御する制御装置と組み合わされている場合、モデル学習装置１００は、学習部１１２において学習した関数Ｆを制御装置に出力する。制御装置では、出力された関数Ｆを用いて、システムの現在時刻の出力から、将来の出力を制御するための入力を計算する。制御装置は、計算された入力をシステムに出力し、システムを制御する。

【0042】

本実施形態のモデル学習装置１００が学習するモデルでは、特定の入力成分が０になると対応する出力成分が０となることが保証されている。これにより、制御対象のシステムを安定的に制御することができる。ここで、本実施形態のモデル学習装置１００によって学習されるモデルの一例として、内燃機関の吸排気系に関するモデルについて検討した結果を説明する。本検討では、入力変数ｖとして式（２７）に示す項目と、出力変数ｙとして式（２８）に示す項目とを用いた。

【数64】

【数65】

【0043】

図３は、入力変数の時間変化を示す図である。モデル学習装置１００によって学習されたモデルにおける、ＥＧＲバルブ開度（入力変数）とＥＧＲ率（出力変数）との関係について具体的に説明する。図３には、内燃機関におけるＥＧＲバルブ開度の時間変化の一例を示している。図３に示すＥＧＲバルブ開度の時間変化では、時間ｔ１から時間ｔ２の間において、ＥＧＲバルブ開度が０となっている。

【0044】

図４は、本実施形態のモデル学習装置１００によって学習されるモデルを用いた予測値と実測値とを比較する図である。図４には、図３に示すＥＧＲバルブ開度の時間変化に対して、モデル学習装置１００によって学習されるモデルを用いて予測したＥＧＲ率の時間変化を一点鎖線Ｐｖ１で示し、実際のＥＧＲ率の時間変化を実線Ａｖ１で示している。図４に示すように、図３に示すＥＧＲバルブ開度が０となる時間ｔ１から時間ｔ２までの間において、モデルを用いて予測したＥＧＲ率も０となっている。このように、モデル学習装置１００によって学習されるモデルでは、特定の入力変数ｖ（ｖ１：ＥＧＲバルブ開度）が０になると、対応する出力変数ｙ（ｙ１：ＥＧＲ率）が０となる。

【0045】

図５は、比較例のモデル学習装置によって学習されるモデルを用いた予測値と実測値とを比較する図である。図５には、図３に示すＥＧＲバルブ開度の時間変化に対して、比較例のモデル学習装置によって学習されるモデルを用いて予測したＥＧＲ率の時間変化を一点鎖線Ｐｖ０で示し、実際のＥＧＲ率の時間変化を実線Ａｖ１で示している。比較例のモデル学習装置が学習するモデルは、式（１）に示す状態方程式であるものの、写像Ψ，Φのそれぞれが、式（２）～式（４）、および、式（５）～式（７）のように定義されていない。

【0046】

図５に示すように、図３に示すＥＧＲバルブ開度が０となる時間ｔ１から時間ｔ２までの間において、比較例のモデル学習装置が学習するモデルを用いて予測したＥＧＲ率は、０になっていない。このように比較例のモデル学習装置によって学習されるモデルでは、入力変数ｖが０になったとき、出力変数ｙが０となる保証がない。このため、このようなモデルを用いてシステムを制御すると、特定の入力変数ｖ（ｖ１：ＥＧＲバルブ開度）が０になっても、対応する出力変数ｙ（ｙ１：ＥＧＲ率）が０にならないため、システムの制御が不安定になるおそれがある。

【0047】

以上説明した、本実施形態のモデル学習装置１００によれば、モデル学習装置１００が学習するモデルは、システムに入力される入力変数ｖを入力とする全単射な写像Ψと、システムから出力される出力変数ｙを入力とする全単射な写像Φと、を含む状態方程式である。このような状態方程式は、写像Ψ，Φのそれぞれを内部変数とすることで、線形化することができるため、非線形な構造をしているモデルであっても、出力の目標値を達成する最適な入力を求める最適制御問題の解が一意であることを保証することができる。また、写像Ψは、入力変数ｖの成分の少なくとも１つが０であるとき、出力成分の少なくとも１つが０となり、写像Φは、出力変数ｙの成分の少なくとも１つが０であるとき、出力成分の少なくとも１つが０となる。これにより、特定の入力成分が０となったときに、対応する出力成分が０となることが保証されるため、モデルを用いたシステムの制御において意図しない制御となりにくくなる。したがって、モデル学習装置１００は、システムを安定的に制御可能なモデルを学習することができる。すなわち、モデル学習装置１００は、システムを安定的に制御する制御装置を構築可能なモデルを学習することができる

【0048】

また、本実施形態のモデル学習装置１００によれば、式（１）のモデルに含まれる写像Ψ、Φのそれぞれには、出力変数ｙの変化に影響を与える制御不可能な入力である外生入力ｄが含まれている。これにより、式（１）のモデルは、このような外生入力ｄによる影響も考慮した状態方程式となるため、このモデルを用いることで、システムの将来の状態を高精度に予測することができる。また、式（２）～式（４）によって定義される多層ニューラルネットワークによって表される写像Ψは、多層ニューラルネットワークの中間層を表す式（３）において、入力変数ｖ^(i-1)が０になると、入力変数ｖ⁽ⁱ⁾も０となる。すなわち、写像Ψの出力も０となる。また、式（５）～式（７）によって定義される多層ニューラルネットワークによって表される写像Φは、多層ニューラルネットワークの中間層を表す式（６）において、出力変数ｙ^(i-1)が０になると、出力変数ｙ⁽ⁱ⁾も０となる。すなわち、写像Φの出力も０となる。このように、式（１）で表されるモデルは、式（２）～式（４）によって表される写像Ψと、式（５）～式（７）によって表される写像Φとを含むため、特定の入力が０となったときに、対応する出力が０となることが保証される。したがって、モデル学習装置１００は、システムを安定的に制御可能なモデルを学習することができる。

【0049】

また、本実施形態のモデル学習装置１００によれば、式（２）～式（４）で定義される多層ニューラルネットワークで表されている写像Ψは、中間層を示す式（３）では、入力変数ｖ（ベクトル）の全ての要素が０であれば、式（２）は、０となる。重みＷ_Ψが対角行列である場合、入力変数ｖのｊ番目の要素が０であれば、写像Ψのｊ番目の要素も０となる。また、式（５）～式（７）で定義される多層ニューラルネットワークで表されている写像Φは、中間層を示す式（６）では、出力変数ｙ（ベクトル）の全ての要素が０であれば、式（６）は、０となる。重みＷ_Φが対角行列である場合、出力変数ｙのｊ番目の要素が０であれば、写像Φのｊ番目の要素も０となる。これらの性質により、式（１）で表されるモデルは、原点不変性を有する。ここで、「原点不変性」とは、式（１）に含まれる関数Ａが安定行列であること、すなわち、すべての固有値の実部が負である場合、入力変数ｖの全ての要素を０で一定にしておけば、出力変数ｙは必ず全ての要素で０に収束する性質を指す。より詳細には、入力変数ｖが０であれば式（１６）に含まれる内部変数ｕ
が０であり、式（１７）に含まれる内部変数ｘの時間微分ｘ・が０となるのは内部変数ｘが０のときであることから、出力変数ｙは、０となる。このように、学習部１１２において学習されるモデルを用いることで、入力変数ｖが０になると対応する出力変数ｙが０となる。したがって、モデル学習装置１００は、システムを安定的に制御可能なモデルを学習することができる。

【0050】

また、本実施形態のモデル学習装置１００によれば、学習部１１２は、式（１）において、内部変数ｕを用いた式（１６）で写像Ψを定義し、内部変数ｘを用いた式（１７）で写像Φを定義することで、式（１８）によって定義される状態方程式を学習する。これにより、式（１８）に示すように、式（１）に示す状態方程式を線形化することができるため、式（１）に示す状態方程式は、出力の目標値を達成する最適な入力を求める最適制御問題の解が一意となることを保証することができる。したがって、モデル学習装置１００は、システムを安定的に制御可能なモデルを学習することができる。

【0051】

また、本実施形態のモデル学習装置１００によれば、学習部１１２は、式（１６）を離散時刻ｋの時間ステップで離散化した式（１９）とし、式（１７）を離散時刻ｋの時間ステップで離散化した式（２０）とすることで、式（１８）を離散時刻ｋの時間ステップで離散化した式（２１）に示す状態方程式を学習する。これにより、内部変数ｘ、ｕの数を有限とすることにより、モデルの学習に要する時間を短くすることができる。したがって、モデル学習装置１００は、システムを安定的に制御する制御装置を構築可能なモデルを比較的短時間で学習することができる。

【0052】

また、本実施形態のモデル学習装置１００によれば、学習部１１２は、入出力データセットのうちの入力変数データセットを用いて推定された出力と、出力変数データセットとの一致度を評価する。学習部１１２は、この一致度の評価に応じて、モデルについての学習パラメータを更新し、状態方程式を学習する。すなわち、学習部１１２は、予め準備された入出力データセットを教師データとした学習手法に沿って、非線形の状態方程式を学習することができる。これにより、実際のシステムに沿ったモデルを学習することができる。したがって、モデル学習装置１００は、システムを安定的に制御可能であり、かつ、システムからの出力の目標値に対する追従性が高いモデルを学習することができる。

【0053】

また、本実施形態のモデル学習方法によれば、学習されるモデルは、システムに入力される入力変数ｖを入力とする全単射な写像Ψと、システムから出力される出力変数ｙを入力とする全単射な写像Φと、を含む状態方程式であるため、出力の目標値を達成する最適な入力を求める最適制御問題の解が一意であることを保証することができる。また、写像Ψ，Φのいずれにおいても、特定の入力が０となったときに、対応する出力が０となることが保証されている。これにより、図２に示すモデル学習方法によって学習されるモデルを用いることで、入力成分が０になると対応する出力成分が０となる。したがって、モデル学習装置１００は、システムを安定的に制御可能なモデルを学習することができる。

【0054】

また、本実施形態のコンピュータプログラムによれば、導出されるモデルは、システムに入力される入力変数ｖを入力とする全単射な写像Ψと、システムから出力される出力変数ｙを入力とする全単射な写像Φと、を含む状態方程式であるため、解が一意であることを保証することができる。また、写像Ψ，Φのいずれにおいても、特定の入力が０となったときに、対応する出力が０となることが保証されている。これにより、ＣＰＵ１１０によって学習されるモデルを用いることで、入力成分が０になると対応する出力成分が０となるなる。したがって、モデル学習装置１００は、システムを安定的に制御可能なモデルを学習することができる。

【0055】

＜第２実施形態＞
図６は、第２実施形態のモデル学習装置２００の構成を示す模式図である。第２実施形態のモデル学習装置２００は、第１実施形態のモデル学習装置１００（図１）と比較すると、モデル記憶部に記憶されているモデルの構成が異なる。

【0056】

モデル学習装置２００は、例えば、パーソナルコンピュータ（ＰＣ：Ｐｅｒｓｏｎａｌ
Ｃｏｍｐｕｔｅｒ）であり、ＣＰＵ１１０と、記憶部２２０と、ＲＯＭ／ＲＡＭ１３０と、通信部１４０と、入出力部１５０と、を備えている。モデル学習装置２００の各部は、バスにより相互に接続されている。記憶部２２０は、ハードディスク、フラッシュメモリ、メモリカードなどで構成される記憶媒体である。記憶部２２０は、モデル記憶部２２１と、データセット記憶部１２２と、を有している。

【0057】

モデル記憶部２２１は、学習部１１２による状態方程式の学習のために用いられるモデルを予め記憶している。本実施形態では、モデル記憶部２２１に記憶されたモデルは、入力変数ｖを入力とする全単射な写像Ψと、出力変数ｙを入力とする全単射な写像Φと、を含む状態方程式であって、式（１）により定義される。

【数66】

【0058】

本実施形態では、式（１）に含まれる全単射な写像Ψは、中間層が式（９）および式（１０）の少なくとも一方によって表される多層ニューラルネットワークを表す式（８）～式（１１）によって定義される。

【数67】

【数68】

【数69】

【数70】

上記式（８）～式（１１）において、添え字ｉは、多層ニューラルネットワークにおける層の番号を表し、添え字Ｌ_Ψは、多層ニューラルネットワークの層数を表す。入力変数ｖをｎ_a（ｎ_aは整数）次元の入力変数ｖ_aとｎ_b（ｎ_bは整数）次元の入力変数ｖ_bとに分割した場合、重みＷ_Ψaは、ｎ_a×ｎ_a次元行列であり、バイアスｂ_Ψaは、ｎ_a次元ベクトルであり、重みＷ_Ψbは、ｎ_a×ｎ_b次元行列であり、バイアスｂ_Ψbは、ｎ_b次元ベクトルである。活性化関数ψは、第一引数である、Ｗ_Ψa ⁽ⁱ⁾（ｄ）ｖ_a ^(i-1)＋ｂ_Ψa ⁽ⁱ⁾、ｂ_Ψa ⁽ⁱ⁾、または、Ｗ_Ψb ⁽ⁱ⁾（ｄ）ｖ_b ^(i-1)＋ｂ_Ψb ⁽ⁱ⁾について同相写像となるものであり、関数ｆ_Ψ+は、任意の正値関数（正の値を返す関数）であり、関数ｆ_Ψは、任意の関数である。なお、重みＷ_Ψa、Ｗ_Ψb、および、バイアスｂ_Ψa、ｂ_Ψbは、外生入力ｄの大きさに応じて変化してもよい。本実施形態では、写像Ψを定義する多層ニューラルネットワークの中間層は、式（９）と式（１０）とを交互に用いる。

【0059】

本実施形態では、式（１）に含まれる全単射な写像Φは、中間層が式（１３）および式（１４）の少なくとも一方によって表される多層ニューラルネットワークを表す式（１２）～式（１５）によって定義される。

【数71】

【数72】

【数73】

【数74】

上記式（１２）～式（１５）において、添え字ｉは、多層ニューラルネットワークにおける層の番号を表し、添え字Ｌ_Φは、多層ニューラルネットワークの層数を表す。出力変数ｙをｎ_c（ｎ_cは整数）次元の出力変数ｙ_cとｎ_d（ｎ_dは整数）次元の出力変数ｙ_dとに分割した場合、重みＷ_Φcは、ｎ_c×ｎ_c次元行列であり、バイアスｂ_Φcは、ｎ_c次元ベクトルであり、重みＷ_Φdは、ｎ_c×ｎ_d次元行列であり、バイアスｂ_Φdは、ｎ_d次元ベクトルである。活性化関数φは、第一引数である、Ｗ_Φc ⁽ⁱ⁾（ｄ）ｙ_c ^(i-1)＋ｂ_Φc ⁽ⁱ⁾、ｂ_Φc ⁽ⁱ⁾、または、Ｗ_Φd ⁽ⁱ⁾（ｄ）ｙ_d ^(i-1)＋ｂ_Φd ⁽ⁱ⁾について同相写像となるものであり、関数ｆ_Φ+は、任意の正値関数（正の値を返す関数）であり、関数ｆ_Φは、任意の関数である。重みＷ_Φc、Ｗ_Φd、および、バイアスｂ_Φc、ｂ_Φdは、外生入力ｄの大きさに応じて変化してもよい。本実施形態では、写像Φを定義する多層ニューラルネットワークの中間層は、式（１３）と式（１４）とを交互に用いる。

【0060】

モデル学習装置２００におけるモデル学習方法は、第１実施形態のモデル学習方法と同じ方法によって行われる。具体的には、最初に、学習部１１２は、モデル記憶部２２１に記憶されているモデルを取得する。本実施形態では、学習部１１２は、式（８）～式（１１）によって定義される写像Ψと、式（１２）～式（１５）によって定義される写像Φとを含む、式（１）のモデルを取得する。その後、学習部１１２は、入出力データセットを取得し、モデルに入力データセットを与えて出力を推定する。学習部１１２は、推定された出力と出力変数データセットとの一致度を評価する。学習部１１２は、一致度が十分でない場合、出力の推定および評価を繰り返す。学習部１１２は、一致度が十分である場合、処理を終了する。

【0061】

以上説明した、本実施形態のモデル学習装置２００によれば、モデル学習装置２００が学習する式（１）のモデルに含まれる写像Ψ、Φのそれぞれには、出力変数ｙの変化に影響を与える制御不可能な入力である外生入力ｄが含まれているため、式（１）のモデルを用いることで、システムの将来の状態を高精度に予測することができる。また、式（８）～式（１１）によって定義される多層ニューラルネットワークによって表される写像Ψは、中間層が式（９）および式（１０）の少なくとも一方によって表される。式（９）では、入力変数ｖの一部であるｎ_a次元の入力変数ｖ_a ^(i-1)が０になると、入力変数ｖ_a ⁽ⁱ⁾も０となる。また、式（１０）では、ｎ_a次元の入力変数ｖ_a ^(i-1)、または、入力変数ｖの一部であるｎ_b次元の入力変数ｖ_b ^(i-1)が０になると、入力変数ｖ_a ⁽ⁱ⁾も０となる。したがって、写像Ψの出力の一部も０となる。また、式（１２）～式（１５）によって定義される多層ニューラルネットワークによって表される写像Φは、中間層が式（１３）および式（１４）の少なくとも一方によって表される。式（１３）では、出力変数ｙの一部であるｎ_c次元の出力変数ｙ_c ^(i-1)が０になると、出力変数ｙ_c ⁽ⁱ⁾も０となる。また、式（１４）では、ｎ_c次元の出力変数ｙ_c ^(i-1)、または、出力変数ｙの一部であるｎ_d次元の出力変数ｙ_d ^(i-1)が０になると、出力変数ｙ_d ⁽ⁱ⁾も０となる。したがって、写像Φの出力の一部も０となる。このように、式（１）で表されるモデルは、式（８）～式（１１）によって表される写像Ψと、式（１２）～式（１５）によって表される写像Φとを含むため、特定の入力が０となったときに、対応する出力が０となることが保証される。したがって、モデル学習装置２００は、システムを安定的に制御可能なモデルを学習することができる。

【0062】

＜第３実施形態＞
図７は、第３実施形態のモデル学習装置３００の構成を示す模式図である。第３実施形態のモデル学習装置３００は、第１実施形態のモデル学習装置１００（図１）と比較すると、モデル記憶部に記憶されているモデルの構成が異なる。

【0063】

モデル学習装置３００は、例えば、パーソナルコンピュータ（ＰＣ：Ｐｅｒｓｏｎａｌ
Ｃｏｍｐｕｔｅｒ）であり、ＣＰＵ１１０と、記憶部３２０と、ＲＯＭ／ＲＡＭ１３０と、通信部１４０と、入出力部１５０と、を備えている。モデル学習装置３００の各部は、バスにより相互に接続されている。記憶部３２０は、ハードディスク、フラッシュメモリ、メモリカードなどで構成される記憶媒体である。記憶部３２０は、モデル記憶部３２１と、データセット記憶部１２２と、を有している。

【0064】

モデル記憶部３２１は、学習部１１２による状態方程式の学習のために用いられるモデルを予め記憶している。本実施形態では、モデル記憶部３２１に記憶されたモデルは、入力変数ｖを入力とする全単射な写像Ψと、出力変数ｙを入力とする全単射な写像Φと、を含む状態方程式であって、式（１）により定義される。

【数75】

【0065】

本実施形態では、式（１）に含まれる全単射な写像Ψは、多層ニューラルネットワークを表す以下の式（２）～式（４）によって定義される。

【数76】

【数77】

【数78】

【0066】

本実施形態では、式（１）に含まれる全単射な写像Φは、中間層が式（１３）および式（１４）の少なくとも一方によって表される多層ニューラルネットワークを表す式（１２）～式（１５）によって定義される。本実施形態では、写像Φを定義する多層ニューラルネットワークの中間層は、式（１３）と式（１４）とを交互に用いる。

【数79】

【数80】

【数81】

【数82】

【0067】

モデル学習装置３００におけるモデル学習方法は、第１実施形態のモデル学習方法と同じ方法によって行われる。具体的には、最初に、学習部１１２は、モデル記憶部３２１に記憶されているモデルを取得する。本実施形態では、学習部１１２は、式（２）～式（４）によって定義される写像Ψと、式（１２）～式（１５）によって定義される写像Φとを含む、式（１）のモデルを取得する。その後、学習部１１２は、入出力データセットを取得し、モデルに入力データセットを与えて出力を推定する。学習部１１２は、推定された出力と出力変数データセットとの一致度を評価する。学習部１１２は、一致度が十分でない場合、出力の推定および評価を繰り返す。学習部１１２は、一致度が十分である場合、処理を終了する。

【0068】

以上説明した、本実施形態のモデル学習装置３００によれば、式（１）のモデルに含まれる写像Ψ、Φのそれぞれには、出力変数ｙの変化に影響を与える制御不可能な入力である外生入力ｄが含まれている。これにより、式（１）のモデルは、出力変数ｙの変化に影響を与える制御不可能な外生入力ｄによる影響も考慮した状態方程式となるため、このモデルを用いることで、システムの将来の状態を高精度に予測することができる。したがって、システムを高精度に制御することができるモデルを学習することができる。また、式（２）～式（４）によって定義される多層ニューラルネットワークによって表される写像Ψは、中間層を表す式（３）において、入力変数ｖ^(i-1)が０になると、入力変数ｖ⁽ⁱ⁾も
０となる。すなわち、写像Ψの出力も０となる。また、式（１２）～式（１５）によって定義される多層ニューラルネットワークによって表される写像Φは、中間層が式（１３）および式（１４）の少なくとも一方によって表される。式（１３）では、出力変数ｙの一部であるｎ_c次元の出力変数ｙ_c ^(i-1)が０になると、出力変数ｙ_c ⁽ⁱ⁾も０となる。また、式（１４）では、ｎ_c次元の出力変数ｙ_c ^(i-1)、または、出力変数ｙの一部であるｎ_d次元の出力変数ｙ_d ^(i-1)が０になると、出力変数ｙ_d ⁽ⁱ⁾も０となる。したがって、写像Φの出力の一部も０となる。このように、式（１）で表されるモデルは、式（２）～式（４）によって表される写像Ψと、式（１２）～式（１５）によって表される写像Φとを含むため、特定の入力が０となったときに、対応する出力が０となることが保証される。したがって、モデル学習装置３００は、システムを安定的に制御可能なモデルを学習することができる。

【0069】

また、本実施形態のモデル学習装置１００によれば、写像Ψは、式（２）～式（４）で定義される多層ニューラルネットワークで表される。これにより、式（３）では、入力変数ｖ（ベクトル）の全ての要素が０であれば、式（２）は、０となる。重みＷ_Ψが対角行列である場合、入力変数ｖのｊ番目の要素が０であれば、写像Ψのｊ番目の要素も０となる。写像Φは、式（１２）～式（１５）によって定義される多層ニューラルネットワークによって表される。これにより、例えば、ｎ_c次元の出力変数ｙ_cが０であれば、ｙ_c ^(Lφ⁾も０となる。すなわち、写像Φ（ｙ，ｄ）の添え字ｃに対応する成分が０となる。これらの性質により、式（１）で表されるモデルは、部分空間不変性を有する。具体的には、写像Ψでは重みＷ_Ψが対角行列である場合では、入力変数ｖ、内部変数ｕ，ｘ、および、出力変数ｙのそれぞれを、式（１２）～式（１５）に記載の添え字ｃ，ｄに対応させて、例えば、ｎ_c次元の入力変数ｖ_cとｎ_d次元の入力変数ｖ_dとに分割する。この場合、入力変数ｖ_cが０であるとき、内部変数ｕ_cも０となり、内部変数ｘの時間微分ｘ・が０となるのは内部変数ｘが０のときであることから、内部変数ｘと内部変数ｕとは同値であり、ｘ_cも０となる。したがって、出力変数ｙ_aも０となる。このように、学習部１１２において学習されるモデルは、入力成分が０になると対応する出力成分が０となる。したがって、モデル学習装置３００は、システムを安定的に制御可能なモデルを学習することができる。

【0070】

＜第４実施形態＞
図８は、第４実施形態の制御装置４００の構成を示す模式図である。第４実施形態の制御装置４００は、ＣＰＵが決定部を有する点が異なる。

【0071】

制御装置４００は、車載ＥＣＵ（ＥｌｅｃｔｒｏｎｉｃＣｏｎｔｒｏｌＵｎｉｔ）として実現され得る。本実施形態の制御装置４００は、制御装置４００をシステム５００の制御のために用いることができる。システム５００とは、第１実施形態と同様に、例えば、内燃機関、ハイブリッド機関、パワートレインなどの駆動機関、燃料電池、誘導発電機などである。なお、制御装置４００は、例えば、パーソナルコンピュータであって、システム５００の分析のために用いてもよい。

【0072】

制御装置４００は、ＣＰＵ４１０と、記憶部１２０と、ＲＯＭ／ＲＡＭ１３０と、通信部１４０と、入出力部１５０と、を備えている。制御装置４００の各部は、バスにより相互に接続されている。なお、制御装置４００の機能部のうちの少なくとも一部は、ＡＳＩＣ（ＡｐｐｌｉｃａｔｉｏｎＳｐｅｃｉｆｉｃａｔｉｏｎＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔ）により実現されてもよい。

【0073】

ＣＰＵ４１０は、制御部４１１と、学習部１１２と、決定部４１３と、を備えている。制御部４１１は、第１実施形態の制御部１１１と同様に、ＲＯＭ１３０に格納されているコンピュータプログラムをＲＡＭ１３０に展開して実行することにより、制御装置４００の各部を制御する。学習部２１２は、システム５００の状態を表す出力変数ｙを予測する
ための非線形の状態方程式を学習する。決定部４１３は、学習部１１２が学習した状態方程式を用いて、出力変数ｙの目標値に対応する入力変数ｖの目標値を決定する。制御部４１１は、決定部４１３によって決定された入力変数ｖの目標値をシステム５００に向けて出力する。システム５００は、入力される入力変数ｖの目標値に応じて作動する。

【0074】

以上説明した、本実施形態の制御装置４００によれば、学習部１１２が取得するモデルは、システム５００に入力される入力変数ｖを入力とする全単射な写像Ψと、システム５００から出力される出力変数ｙを入力とする全単射な写像Φと、を含む状態方程式である。このような状態方程式は、写像Ψ、Φのそれぞれを内部変数とすることで、線形化することができるため、非線形な構造をしているモデルを用いた制御問題においても、出力の目標値を達成する最適な入力を求める最適制御の解が一意であることを保証することができる。これにより、制御装置４００は、システム５００を安定的に制御することができる。

【0075】

また、本実施形態の制御装置４００によれば、制御部は、特定の入力が０となったときに、対応する出力が０となることが保証されるモデルを用いて決定される入力変数ｖの目標値を入力することで、システム５００を制御する。これにより、制御装置４００によるシステム５００に対する制御は、意図しないものとなりにくくなる。したがって、制御装置４００は、システム５００を安定的に制御することができる。

【0076】

＜本実施形態の変形例＞
本発明は上記の実施形態に限られるものではなく、その要旨を逸脱しない範囲において種々の態様において実施することが可能であり、例えば次のような変形も可能である。また、上記実施形態において、ハードウェアによって実現されるとした構成の一部をソフトウェアに置き換えるようにしてもよく、逆に、ソフトウェアによって実現されるとした構成の一部をハードウェアに置き換えるようにしてもよい。

【0077】

［変形例１］
上述の実施形態では、モデル学習装置、または、モデル学習装置を備える制御装置の構成の一例を示した。しかしながら、モデル学習装置および制御装置の構成は、種々の変形が可能であり、これらの構成に限定されない。例えば、モデル学習装置および制御装置の少なくとも一方は、ネットワーク上に配置された複数の情報処理装置（サーバ装置や、車載ＥＣＵ等を含む）が協働することによって構成されてもよい。

【0078】

［変形例２］
上述の実施形態では、モデル学習方法（図２参照）、および、予測制御方法（図４参照）の手順の一例を示した。しかしながら、これらの方法は、種々の変形が可能であり、これらの手順に限定されない。例えば、一部のステップを省略してもよく、説明しない他のステップを追加してもよい。また、一部のステップの実行順序を変更してもよい。

【0079】

［変形例３］
上述の実施形態では、式（１）に示す状態方程式に含まれる全単射な写像Ψ，Φのそれぞれについて、例えば、式（２）～式（４）、または、式（５）～式（７）で表される多層ニューラルネットワークによって定義されるとした。しかしながら、写像Ψ、Φのそれぞれの定義は、あくまで一例であり、これらは、任意の形に定義してよい。写像Ψは、入力変数ｖの成分の少なくとも１つが０であるとき、出力成分の少なくとも１つが０となり、写像Φは、出力変数ｙの成分の少なくとも１つが０であるとき、出力成分の少なくとも１つが０となればよい。このとき、内部変数とともに、出力変数ｙの変化に影響を与える制御不可能な外生入力ｄを入力とする写像とすることで、システムの将来の状態を高精度に予測することができるモデルとすることができる。

【0080】

［変形例４］
第１実施形態では、学習部１１２は、モデル記憶部１２１に記憶されているモデルを取得するとき、式（１）の状態方程式に含まれる写像Ψを式（１６）で示す内部変数ｕと定義し、式（１）の状態方程式に含まれる写像Φを式（１７）で示す内部変数ｘと定義することで、式（１）を内部変数ｕ、ｘで示した式（１８）の状態方程式を学習するとした。さらに、第１実施形態では、学習部１１２は、式（１６）～式（１８）を離散時刻ｋにおいて所定の時間ステップΔｔで離散化した式（１９）～式（２１）に示す状態方程式を読み込むとした。これらの方法は、第２～４実施形態においても適用することができる。

【0081】

［変形例５］
第２実施形態では、写像Ψを定義する多層ニューラルネットワークの中間層は、式（９）と式（１０）とを交互に用いるとし、写像Φを定義する多層ニューラルネットワークの中間層は、式（１３）と式（１４）とを交互に用いるとした。第３実施形態では、写像Φを定義する多層ニューラルネットワークの中間層は、式（１３）と式（１４）とを交互に用いるとした。多層ニューラルネットワークの中間層の構成はこれに限定されない。例えば、写像Ψを定義する多層ニューラルネットワークの中間層は、式（９）のみであってもよいし、式（１０）のみであってもよい。また、式（９）と式（１０）とを交互に用いなくてもよいが、式（９）と式（１０）とを交互に用いることが望ましい。写像Φを定義する多層ニューラルネットワークの中間層についても同様である。

【0082】

［変形例６］
第４実施形態では、第１実施形態のモデル学習装置を備える制御装置を説明した。第４実施形態の制御装置が備えるモデル学習装置は、これに限定されない。第２実施形態のモデル学習装置であってもよいし、第３実施形態のモデル学習装置であってもよい。

【0083】

以上、実施形態、変形例に基づき本態様について説明してきたが、上記した態様の実施の形態は、本態様の理解を容易にするためのものであり、本態様を限定するものではない。本態様は、その趣旨並びに特許請求の範囲を逸脱することなく、変更、改良され得ると共に、本態様にはその等価物が含まれる。また、その技術的特徴が本明細書中に必須なものとして説明されていなければ、適宜、削除することができる。

【0084】

（適用例１）
システムに入力される入力変数ｖ（ベクトル）と、前記システムから出力される出力変数ｙ（ベクトル）との関係を表すモデルを学習するモデル学習装置であって、
前記入力変数ｖを用いて前記出力変数ｙを予測するための非線形の状態方程式の学習に用いられるモデルを記憶するモデル記憶部と、
前記モデル記憶部に記憶されているモデルと、前記モデルに対する入力変数データと出力変数データの組を複数含んだ入出力データセットと、を用いて前記状態方程式を学習する学習部と、
を備え、
前記モデルは、前記入力変数ｖを入力とする全単射な写像Ψと、前記出力変数ｙを入力とする全単射な写像Φと、を含む状態方程式であり、
前記写像Ψは、前記入力変数ｖの成分の少なくとも１つが０であるとき、出力成分の少なくとも１つが０となり、
前記写像Φは、前記出力変数ｙの成分の少なくとも１つが０であるとき、出力成分の少なくとも１つが０となる、
モデル学習装置。
（適用例２）
適用例１に記載のモデル学習装置であって、
前記モデルは、式（１）によって定義され、
前記写像Ψは、多層ニューラルネットワークを表す式（２）～式（４）によって定義され、
前記写像Φは、多層ニューラルネットワークを表す式（５）～式（７）によって定義される、
モデル学習装置。

【数83】

【数84】

【数85】

【数86】

【数87】

【数88】

【数89】

【数90】

【数91】

【数92】

【数93】

【数94】

【数95】

【数96】

【数97】

【数98】

【数99】

【数100】

【数101】

（適用例５）
適用例１から適用例４のいずれか一例に記載のモデル学習装置であって、
前記学習部は、式（１６）を離散時刻ｋの時間ステップで離散化した式（１９）とし、式（１７）を離散時刻ｋの時間ステップで離散化した式（２０）とすることで、式（１８）を離散時刻ｋの時間ステップで離散化した式（２１）に示す状態方程式を学習する、
モデル学習装置。

【数102】

【数103】

【数104】

上記式（２１）において、関数Ａ´は、前記関数Ａと同次元の行列である。
（適用例６）
適用例１から適用例５のいずれか一例に記載のモデル学習装置であって、
前記学習部は、
前記モデルに対して、前記入出力データセットのうちの前記入力変数データのセットを与えて出力を推定し、
推定された出力と、前記入出力データセットのうちの前記出力変数データのセットと、の一致度を評価し、
評価の結果に応じて前記モデルの学習パラメータを更新することで、前記状態方程式を学習する、
モデル学習装置。
（適用例７）
システムを制御する制御装置であって、
適用例１から適用例６のいずれか一例に記載のモデル学習装置と、
前記学習部が学習した前記状態方程式を用いて、前記出力変数ｙの目標値に対応する前
記入力変数ｖの目標値を決定する決定部と、
前記決定部によって決定される前記入力変数ｖの目標値を入力することで前記システムを制御する制御部と、を備える、
制御装置。
（適用例８）
システムに入力される入力変数ｖ（ベクトル）と、前記システムから出力される出力変数ｙ（ベクトル）との関係を表すモデルをモデル学習装置によって学習するモデル学習方法であって、
前記入力変数ｖを用いて前記出力変数ｙを予測するための非線形の状態方程式の学習に用いられるモデルを取得する取得工程と、
前記取得工程において取得した前記モデルと、前記モデルに対する入力変数データと出力変数データの組を複数含んだ入出力データセットと、を用いて前記状態方程式を学習する学習工程と、
を備え、
前記モデルは、前記入力変数ｖを入力とする全単射な写像Ψと、前記出力変数ｙを入力とする全単射な写像Φと、を含む状態方程式であり、
前記写像Ψは、前記入力変数ｖの成分の少なくとも１つが０であるとき、出力成分の少なくとも１つが０となり、
前記写像Φは、前記出力変数ｙの成分の少なくとも１つが０であるとき、出力成分の少なくとも１つが０となる、
モデル学習方法。
（適用例９）
システムに入力される入力変数ｖ（ベクトル）と、前記システムから出力される出力変数ｙ（ベクトル）との関係を表すモデルの学習を情報処理装置に実行させるコンピュータプログラムであって、
前記入力変数ｖを用いて前記出力変数ｙを予測するための非線形の状態方程式の学習に用いられるモデルを取得する取得機能と、
前記取得機能によって取得する前記モデルと、前記モデルに対する入力変数データと出力変数データの組を複数含んだ入出力データセットと、を用いて前記状態方程式を学習する学習機能と、を前記情報処理装置に実行させ、
前記モデルは、前記入力変数ｖを入力とする全単射な写像Ψと、前記出力変数ｙを入力とする全単射な写像Φと、を含む状態方程式であり、
前記写像Ψは、前記入力変数ｖの成分の少なくとも１つが０であるとき、出力成分の少なくとも１つが０となり、
前記写像Φは、前記出力変数ｙの成分の少なくとも１つが０であるとき、出力成分の少なくとも１つが０となる、
コンピュータプログラム。

【符号の説明】

【0085】

１００，２００，３００…モデル学習装置
１１２…学習部
１２１，２２１，３２１…モデル記憶部
４００…制御装置
４１３…決定部
５００…システム

【図1】