(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2023074434
(43)【公開日】2023-05-29
(54)【発明の名称】将来状態推定装置
(51)【国際特許分類】
G06Q 50/10 20120101AFI20230522BHJP
【FI】
G06Q50/10
【審査請求】未請求
【請求項の数】15
【出願形態】OL
(21)【出願番号】P 2021187403
(22)【出願日】2021-11-17
(71)【出願人】
【識別番号】000005108
【氏名又は名称】株式会社日立製作所
(74)【代理人】
【識別番号】110001829
【氏名又は名称】弁理士法人開知
(72)【発明者】
【氏名】徳田 勇也
(72)【発明者】
【氏名】矢敷 達朗
(72)【発明者】
【氏名】吉田 卓弥
【テーマコード(参考)】
5L049
【Fターム(参考)】
5L049CC12
(57)【要約】
【課題】連続的な状態の空間内において予測対象の将来状態を高速に推定できる将来状態推定装置を提供する。
【解決手段】記憶装置130は、第1の時間(Δt)経過後に予測対象が第1の状態sから第2の状態s’へ遷移する確率を示す第1の状態遷移確率(状態遷移確率関数τ)が重み付き基底関数の線形結合で表現される状態遷移モデルを記憶する(モデル記憶部131)。演算装置140は、重み付き基底関数のそれぞれの重みを要素とする行列を示す重み行列Λの積和演算によって、第2の時間(Δt×∞)経過後までに予測対象が第1の状態sから第2の状態s’に遷移する確率を示す第2の状態遷移確率(減衰型状態遷移確率関数D)を計算する(将来状態予測演算部142)。
【選択図】
図1
【特許請求の範囲】
【請求項1】
第1の時間経過後に予測対象が第1の状態から第2の状態へ遷移する確率を示す第1の状態遷移確率が重み付き基底関数の線形結合で表現される状態遷移モデルを記憶する記憶装置と、
前記重み付き基底関数のそれぞれの重みを要素とする行列を示す重み行列の積和演算によって、第2の時間経過後までに前記予測対象が前記第1の状態から前記第2の状態に遷移する確率を示す第2の状態遷移確率を計算する演算装置と、
を備える将来状態推定装置。
【請求項2】
請求項1に記載の将来状態推定装置であって、
前記積和演算は、前記重み行列の級数計算であり、
前記第2の時間経過後は、無限時間経過後又は無限ステップ経過後である
ことを特徴とする将来状態推定装置。
【請求項3】
請求項1に記載の将来状態推定装置であって、
前記演算装置は、
前記第2の状態遷移確率に基づいて、前記予測対象を制御するデバイスの最適操作量を計算する
ことを特徴とする将来状態推定装置。
【請求項4】
請求項1に記載の将来状態推定装置であって、
前記演算装置は、
前記予測対象の測定値の時系列から前記重み行列の要素値を計算する
ことを特徴とする将来状態推定装置。
【請求項5】
請求項4に記載の将来状態推定装置であって、
前記演算装置は、
前記重み行列の要素値を用いて前記状態遷移モデルを更新する
ことを特徴とする将来状態推定装置。
【請求項6】
請求項4に記載の将来状態推定装置であって、
前記演算装置は、
前記重み行列の要素値を学習し、
学習した前記重み行列の要素値を用いて前記状態遷移モデルを更新する
ことを特徴とする将来状態推定装置。
【請求項7】
請求項5に記載の将来状態推定装置であって、
出力装置をさらに備え、
前記演算装置は、
更新前の前記状態遷移モデル、更新後の前記状態遷移モデル、更新前と更新後の前記状態遷移モデルの違いのうち、いずれか2つ以上を示す情報を前記出力装置に出力させる
ことを特徴とする将来状態推定装置。
【請求項8】
請求項1に記載の将来状態推定装置であって、
出力装置をさらに備え、
前記演算装置は、
経過時間、経過ステップ、時間の範囲、ステップの範囲のいずれか一つ以上における遷移元の状態から遷移先の状態へ遷移する確率を前記出力装置に出力させる
ことを特徴とする将来状態推定装置。
【請求項9】
請求項1に記載の将来状態推定装置であって、
前記基底関数は、動径基底関数である
ことを特徴とする将来状態推定装置。
【請求項10】
請求項9に記載の将来状態推定装置であって、
前記動径基底関数は、正規分布関数である
ことを特徴とする将来状態推定装置。
【請求項11】
請求項10に記載の将来状態推定装置であって、
前記演算装置は、
第1の時間の整数倍の時間経過後に前記予測対象が前記第1の状態から前記第2の状態へ遷移する確率を前記記憶装置に記憶し、
前記記憶装置に記憶されたそれぞれの確率に時間経過に応じた減衰率のべき乗を乗じた値の和から前記第2の状態遷移確率を計算する
ことを特徴とする将来状態推定装置。
【請求項12】
請求項10に記載の将来状態推定装置であって、
前記演算装置は、
前記正規分布関数の積分値を要素とする変換行列の転置行列と前記重み行列の積に減衰率を乗じた行列を前記記憶装置に記憶し、
単位行列と前記記憶装置に記憶された行列との差分の逆行列に基づいて前記第2の状態遷移確率を計算する
ことを特徴とする将来状態推定装置。
【請求項13】
請求項12に記載の将来状態推定装置であって、
前記演算装置は、
前記重み行列と前記逆行列の積と、ガウス関数行列とのフロベニウス内積から前記第2の状態遷移確率を計算する
ことを特徴とする将来状態推定装置。
【請求項14】
請求項1に記載の将来状態推定装置であって、
前記演算装置は、
プラントに設置され、かつ前記予測対象を制御するデバイスの操作量を計算する
ことを特徴とする将来状態推定装置。
【請求項15】
請求項14に記載の将来状態推定装置であって、
前記重み行列は、行列又はベクトルであり、
前記予測対象は、前記デバイスによって制御される対象もしくは前記対象の周辺環境の物理量である
ことを特徴とする将来状態推定装置。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、将来状態推定装置に関する。
【背景技術】
【0002】
自動車やプラント(発電・産業)の分野で一般的に適用されているモデル予測制御は、操作対象の状態をより遠い将来まで予測できるものほど性能が高い傾向がある。操作対象の将来状態を予測するため、以下のような装置や方法が存在する。
【0003】
特許文献1には、操作対象の挙動を模擬するモデルを用いて将来状態を予測し、その将来状態に適した操作量を計算する方法が開示されている。
【0004】
特許文献2には、制御対象となる工業システムの現在および将来の状態を予測し、目的関数を最大化するよう制御則を最適化する方法が開示されている。
【0005】
特許文献3には、熱反応炉プロセスのような非線形かつ動的なシステムを回帰手法によってモデル化し、モデルによって予測した将来状態を用いて最適な操作量を計算する方法が開示されている。
【0006】
特許文献4は、プラント運用上の制約条件を満たしつつ、目的に応じて制御パラメータを自動的に最適化できると共に、制御パラメータの最適化に要する計算時間を短縮できる制御パラメータ自動調整装置に関する。プラントモデルと強化学習などの機械学習手法を用いて将来状態を考慮した制御則を計算する方法が開示されている。
【0007】
特許文献5には、操作対象の挙動を状態の遷移確率として表現する状態遷移モデルを記録し、そのモデルの無限級数と等価な計算を行うことによって、事前に定義した有限かつ離散的な状態の空間内であれば無限時間先における操作対象の将来状態を確率密度分布の形式で高速に推定する方法が開示されている。
【先行技術文献】
【特許文献】
【0008】
【特許文献1】特開2016-212872号公報
【特許文献2】特開2013-114666号公報
【特許文献3】特開2009-076036号公報
【特許文献4】特開2017-157112号公報
【特許文献5】特開2019-159876号公報
【発明の概要】
【発明が解決しようとする課題】
【0009】
特許文献1、2、3、4の装置や方法は操作対象の挙動を模擬するモデルを用いて将来状態を予測し、その予測した将来状態から最適な制御方法を計算する。より遠い将来状態を予測できるものほど性能が高い傾向があるが、繰り返し計算を用いる手法は予測したい将来状態までの時間が長いほど、予測計算に要する時間も長くなる。そのため、許容可能な時間の範囲内で計算できる有限時間先の将来状態までに計算を留めることが一般的である。
【0010】
特許文献5の装置や方法は離散的な状態の空間内であれば無限時間先における操作対象とその周辺環境の状態を確率密度分布の形式で推定するが、連続的な状態の空間内において無限時間先における操作対象とその周辺環境の状態を確率密度分布で推定する方法について明示していない。
【0011】
そこで、本発明は、連続的な状態の空間内において予測対象の将来状態を高速に推定できる将来状態推定装置を提供することを目的とする。
【課題を解決するための手段】
【0012】
上記目的を達成するために、本発明の将来状態推定装置は、第1の時間経過後に予測対象が第1の状態から第2の状態へ遷移する確率を示す第1の状態遷移確率が重み付き基底関数の線形結合で表現される状態遷移モデルを記憶する記憶装置と、前記重み付き基底関数のそれぞれの重みを要素とする行列を示す重み行列の積和演算によって、第2の時間経過後までに前記予測対象が前記第1の状態から前記第2の状態に遷移する確率を示す第2の状態遷移確率を計算する演算装置と、を備える。
【発明の効果】
【0013】
本発明によれば、連続的な状態の空間内において予測対象の将来状態を高速に推定できる。上記した以外の課題、構成及び効果は、以下の実施形態の説明により明らかにされる。
【図面の簡単な説明】
【0014】
【
図1】実施例1に係る処理装置の構成を表す図である。
【
図3】遷移確率のグラフを模式的に示した図である。
【
図5】
図1に示す処理装置が行う処理のフローを示す図である。
【
図6】実施例2に係る処理装置の構成を表す図である。
【
図7】
図6に示す処理装置が行う処理のフローを示す図である。
【
図8】実施例3に係る第1の表示画面の構成を示す図である。
【
図9】実施例3に係る第2の表示画面の構成を示す図である。
【
図10】実施例3に係る第3の表示画面の構成を示す図である。
【発明を実施するための形態】
【0015】
以下、図面を用いて実施例1~3を説明する。
【0016】
(実施例1)
図1は、本発明の実施例1に係る処理装置100(将来状態推定装置)の一例を表す構成図である。処理装置100は、入力装置110、データ読み込み装置115、出力装置120、記憶装置130、演算装置140を主たる要素として構成されている。
【0017】
このうち入力装置110は、操作者の指示を受け付ける部分であり、ボタン、タッチパネルなどで構成されている。
【0018】
データ読み込み装置115は、処理装置100の外部からデータを受け付ける部分であり、CDドライブ、USB端子、LANケーブル端子、通信装置などで構成されている。
【0019】
出力装置120は、操作者への指示情報、読取画像、読取結果などを出力する装置であり、ディスプレイや通信装置などで構成されている。
【0020】
上記したこれらの構成は標準的なものであり、入力装置110、データ読み込み装置115、出力装置120のいずれかまたはすべてが処理装置100の外部に接続される構成でも良い。
【0021】
記憶装置130は、各種のデータを記憶する部分であり、モデル記憶部131と将来状態予測結果記憶部132から構成されている。このうちモデル記憶部131は、処理装置100で将来状態の予測対象とする物体や現象の挙動を模擬するモデルを保存する部分である。また将来状態予測結果記憶部132は、後述する将来状態予測演算部142の演算結果を保存する部分である。記憶装置130の詳細は後述することにし、ここでは概略機能のみを述べている。
【0022】
演算装置140は、入力装置110、データ読み込み装置115から入力されるデータおよび記憶装置130に記憶されたデータを処理し、その結果を出力装置120に出力または記憶装置130に記録するものであり、以下の処理部(入力制御部141、将来状態予測演算部142、出力制御部143)から構成されている。
【0023】
入力制御部141は、入力装置110またはデータ読み込み装置115から入力されるデータを指令、モデルなどに区分し、記憶装置130や演算装置140の各部へ転送する処理を行なう部分である。
【0024】
将来状態予測演算部142は、モデル記憶部131で記憶したモデルデータから、減衰型状態遷移確率関数を計算し、将来状態予測結果記憶部132に記録する。
【0025】
出力制御部143は、記憶装置130に記憶されたデータを、出力装置120へ出力する部分である。出力先が画面などのときは、読み取り操作が行われる都度結果が出力されるのが好ましい。出力先が通信先などのときは、出力処理は状態遷移確率行列の更新や将来状態予測演算部142の演算が行われる都度でも良いし、何回かのデータをまとめる、あらかじめ定めた時間ごとにまとめるなどして処理しても良い。
【0026】
なお、演算装置140は、例えば、CPU(Central Processing Unit)等のプロセッサで構成され、記憶装置130は、例えば、HDD(Hard Disk Drive)若しくはSSD(Solid State Drive)、又はメモリ等から構成される。プロセッサがメモリ等に記憶されたプログラムを実行することにより、プロセッサとメモリが協働し、後述する種々の機能が実現される。
【0027】
以下、
図1の処理装置100を用いて実行される処理の詳細について説明する。なお以下の説明に当たり、本実施例では将来状態の予測対象とする物体や現象を模擬対象と呼ぶこととする。模擬対象の例として、機械や生物の挙動、自然や物理現象、化学反応、金銭や物価の変動、消費者の需要の変化などがあるが、本実施例では模擬対象をこれらの例に限定しない。
【0028】
本実施例でのモデルの入力は模擬対象の状態と時間経過や、操作、外乱などの影響因子であり、出力は影響因子の影響を受けた後の模擬対象の状態であり、本実施例ではこのモデルを状態遷移モデルと呼ぶこととする。状態遷移モデルなどのモデルは、
図1のモデル記憶部131に記憶されている。また状態遷移モデルは、有限の状態空間内において、無限時間または無限ステップ先における模擬対象の状態を確率密度分布の形式で表現している。
【0029】
モデル記憶部131における状態遷移モデルなどの保存形式は重み付き関数の線形結合の形式であり、例えば状態遷移確率行列や、ニューラルネットワーク、動径基底関数ネットワーク、またはニューラルネットワークや動径基底関数ネットワークの重みが現されている行列またはベクトルが考えられるが、本実施例は模擬対象のモデル保存形式をこれらの例に限定しない。
【0030】
重み付き関数の重みは模擬対象の挙動に応じて事前に設定するか、または模擬対象の挙動を記録した時系列データから、例えばニューラルネットワークなどの最適化手法を用いて自動的に推定してもよい。
【0031】
モデル記憶部131で保存するモデルの形式が無相関の正規分布を基底関数とした動径基底関数ネットワークであった場合の一例を、以下の(1)式に示す。
【0032】
【0033】
(1)式において、τは状態遷移確率関数、sは操作対象に操作を加える前の状態(遷移前状態)、s’は操作対象に操作を加えた後の状態(遷移後の状態)、M1は遷移前状態s方向の基底関数の数、M2は遷移後状態s’方向の基底関数の数、μi(i=1,2,3,…,M1)とμ’j(j=1,2,3,…,M2)は平均値,σi(i=1,2,3,…,M1)とσ’j(j=1,2,3,…,M2)は分散値、λijは基底関数の重み、Λは基底関数の重みλijを保存する行列、Gは基底関数である正規分布関数を保存する行列である。
【0034】
図2は(1)式の基底関数の配置を模式的に示した図である。
図2の場合、基底関数はM1×M2個あり、状態遷移確率τ(s,s’)は基底関数とその重みの積の線形結合で表現する。
【0035】
また、状態遷移確率関数τは一般的に制御対象の運動特性や物理現象を模擬するモデルの一種であり、すべての状態間の遷移確率を保存する関数である。関数τの出力は、事前に設定した刻み時間Δt(またはステップ)が経過した際に、遷移前の状態si(i=1, 2, …, N)から遷移後の状態s’i(i=1,2,…,N)へ遷移する確率P(s’1, s’2, …, s’N|s1, s2, …, sN)である。なお、(1)式の例ではN=1を仮定した計算式である。
【0036】
図3は
図2のように配置した基底関数とその重みの積の線形結合した遷移確率のグラフを模式的に示した図である。各遷移前状態sから最も遷移頻度の高い遷移後状態s’周辺の確率P(s’
1|s
1)は高く、反対に遷移頻度の低い遷移後状態s’周辺の確率P(s’
1|s
1)は低いグラフとなる。
【0037】
本実施例が適用される模擬対象について、無限時間または無限ステップ先における模擬対象とその周辺環境の状態を確率密度分布の形式で推定するにあたり、推定する将来状態までの距離、時間、ステップのいずれか一つ以上に計算時間が依存しないものであってもよい。状態遷移確率P(s’1, s’2, …, s’N|s1, s2, …, sN)が時間に依存しない場合は、影響因子が模擬対象に干渉した量や回数を示すステップuを時間tの代わりに用いても良い。
【0038】
図1に戻って、将来状態予測結果記憶部132は、将来状態予測演算部142の演算結果を保存する部分である。本実施例では将来状態予測結果記憶部132に保存するデータを状態遷移確率級数和行列と呼ぶこととする。状態遷移確率級数和行列とその計算方法については後述する。
【0039】
将来状態予測演算部142は、モデル記憶部131で記録したモデルデータから、状態遷移確率級数和行列を計算し、将来状態予測結果記憶部132に記録する。状態遷移確率級数和行列を計算する方法の一例を、以下の(2)式に示す。なお、(2)式の例ではモデル記憶部131でのモデルの保存形式を状態遷移確率関数τと仮定した。
【0040】
【0041】
(2)式において、Dは減衰型状態遷移確率関数、γは減衰率とよぶ0以上で1未満の定数である。また、τ(L)はΔt×Lの時間が経過した際の、すべての状態間の遷移確率を保存する関数(または行列)である。
【0042】
なお、τ(L)を計算する方法の一例を、以下の(3)式に示す。
【0043】
【0044】
(3)式において、kl(l=1,2,…,L-1)は遷移前状態sから遷移後状態s’までに経由する状態である。τ(L)での遷移確率は状態遷移確率関数τを経由する状態klに関して積分した結果の積である。
【0045】
図4は、(2)式の処理を模式的に示した図であり、経過時間Δtごとの複数の状態遷移確率関数τ(s,s’)について、経過時間Δtごとに減衰していく重み係数γを乗じ、その合計を算出したものである。
【0046】
このように、減衰型状態遷移確率関数Dは、Δt時間経過後の状態遷移確率関数τからΔt×∞時間経過後の状態遷移確率関数τ∞までの和であり、すべての状態間の統計的な近さを保存する行列でもある。また、遠い将来に遷移する状態ほど重みを下げるため、経過時間に応じて減衰率γの分を多く掛けている。
【0047】
現時点における状態遷移確率関数τから∞時間経過後における状態遷移確率関数τ∞までの計算を必要とする(2)式は、実時間以内の計算が困難である。そこで本実施例は(2)式を以下の(4)式に変換したことを特徴とする。(4)式は要するに、無限時間または無限ステップ先における模擬対象とその周辺環境の状態を確率密度分布の形式で推定するにあたり、状態遷移確率行列の級数と等価な計算を行うものである。
【0048】
【0049】
(4)式において、Eは単位行列、Ψは変換行列、tΨは変換行列Ψの転置行列である。(4)式は(2)式と等価の計算式である。(2)式の状態遷移確率関数τから状態遷移確率関数τ∞までの和の計算を、(4)式では(E-γΨ転置Λ)の逆行列に変換することによって、有限時間以内に(2)式と同じ計算結果が得られる。ここで、変換行列Ψが線形独立でない場合は、擬似逆行列を用いても良い。なお、変換行列Ψを計算する方法の一例を、以下の(5)式に示す。
【0050】
【0051】
変換行列Ψは基底関数である正規分布の積分値であり、遷移前状態sや遷移後状態s’に依存しない定数である。
【0052】
このように本実施例は、模擬対象の挙動を模擬するモデルを状態遷移モデルとすることで、τ(L)の計算でΔt×L時間後の状態遷移確率を計算することを可能とした。また、Δt時間経過後の状態遷移確率関数τからΔt×∞時間経過後の状態遷移確率関数τ(∞)までの和をとり、経過時間によって減衰率γによる重み付けによって、Δt×∞時間経過後を考慮した状態遷移確率を、有限時間以内に計算することを可能とした。
【0053】
図5は、処理装置100が行う処理のフローを示す図である。
【0054】
まず処理ステップS1201の処理により、入力制御部141からの指令にもとづいて、データ読み込み装置115から、模擬対象のモデルに関するデータが入力され、そのデータはモデル記憶部131に記録される。
【0055】
つぎに処理ステップS1202の処理により、モデル記憶部131に記録された模擬対象のモデルに関するデータが将来状態予測演算部142に転送され、(4)式に基づいて減衰型状態遷移確率関数Dが計算され、その結果は将来状態予測結果記憶部132に記録される。
【0056】
最後に処理ステップS1203の処理により、将来状態予測結果記憶部132に記録されたデータが出力制御部143へ転送され、出力装置120へ出力される。
【0057】
(実施例2)
図6は、実施例1の処理装置100をモデルベース制御の最適化に拡張した、処理装置101の一例を表す構成図である。処理装置101における模擬対象は、制御対象とその周辺環境の挙動であり、モデル記憶部131に保存するモデルも制御対象とその周辺環境の挙動を模擬する。このように実施例2では、模擬対象が制御対象を含んでいる場合を想定している。
【0058】
処理装置101は、入力装置110、データ読み込み装置115、出力装置120、記憶装置130、演算装置150を主たる要素として構成されている。
【0059】
このうち入力装置110は、操作者の指示を受け付ける部分であり、ボタン、タッチパネルなどで構成されている。
【0060】
データ読み込み装置115は、処理装置100の外部からデータを受け付ける部分であり、CDドライブ、USB端子、LANケーブル端子、通信装置などで構成されている。
【0061】
出力装置120は、操作者への指示情報、読取画像、読取結果などを出力する装置であり、ディスプレイ、CDドライブ、USB端子、LANケーブル端子、通信装置などで構成されている。
【0062】
上記したこれらの構成は標準的なものであり、入力装置110、データ読み込み装置115、出力装置120のいずれかまたはすべてが処理装置100の外部に接続される構成でも良い。
【0063】
記憶装置130は、モデル記憶部131、将来状態予測結果記憶部132、報酬関数記憶部133、制御則記憶部134から構成されている。このうち将来状態予測結果記憶部132については実施例1とほぼ等しい機能のものである。
【0064】
モデル記憶部131は実施例1と等しい機能の場合もあるが、制御においては状態以外に操作量も模擬対象の挙動が変化する場合もある。操作量によって模擬対象の挙動が変化する場合は、モデルに操作量の情報を加えることで、実施例1と同じく減衰型状態遷移が計算できる。
【0065】
報酬関数記憶部133は、目標位置や目標速度などの制御目標を関数、表、ベクトル、行列などの形式で保存する部分である。本実施例ではこの制御目標の情報を有する関数、表、ベクトル、行列などを報酬関数rと呼ぶこととする。本実施例では、本報酬関数Rの出力値は報酬rと呼ぶ。
【0066】
報酬関数が関数形式の場合の一例を(6)式に示す。
【0067】
【0068】
なお、μrは目標状態、σrは目標分散である。(6)式の報酬関数Rは目標状態μrで報酬rが最大となり、目標状態μrから離れるほど小さい報酬rを出力する特徴を持つ、遷移後状態s’に関する正規分布である。高い報酬rを得る状態の範囲は目標分散σrで調整する。なお制御における報酬としては、AI(Artificial Intelligence)における強化学習の際の希望値或は目的関数が例示される。
【0069】
図6に戻って、制御則記憶部134は制御目標に対して最適な制御則を保存する部分である。制御則記憶部134に保存する制御則の一例を(7)式に示す。
【0070】
【0071】
なお、Xは制御則、Vは価値関数、Pは状態遷移確率、aは操作量である。価値関数Vは、目標とする状態sgoalとの近さ(または遷移しやすさを示す統計的な指標)を保存する関数である。価値関数Vの計算方法については後述する。(7)式はすべての操作量aのうち、価値関数Vと状態遷移確率Pの積を遷移後状態s’について積分した値を最大とする操作量aを保存する。
【0072】
図6に戻って、演算装置150は、入力装置110、データ読み込み装置115から入力されるデータおよび記憶装置130に記憶されたデータを処理し、その結果を出力装置120に出力または記憶装置130に記録するものであり、以下の処理部から構成されている。
【0073】
入力制御部151は、入力装置110またはデータ読み込み装置115から入力されるデータを指令、モデル、などに区分し、記憶装置や演算装置の各部へ転送する処理を行なう部分である。
【0074】
将来状態予測演算部152は、実施例1の将来状態予測演算部142と等価である。また、出力制御部153についても、実施例1の出力制御部143と等価である。
【0075】
制御則演算部154は、将来状態予測結果記憶部132で記録した減衰型状態遷移確率関数Dと、報酬関数記憶部133で記録した報酬関数Rから、最適な制御則(最適な操作量a)を計算し、制御則記憶部134に記録する。
【0076】
最適な制御則を計算する方法の一例を以下に示す。本例では、最適な制御則を求めるために以下の2段階で計算する。
【0077】
段階1:先ず、減衰型状態遷移確率関数Dと報酬関数Rで価値関数Vを計算する。価値関数Vは関数以外にも表、ベクトル、行列などの形式で保存してもよく、本実施例において保存形式は限定しない。状態価値関数Vの計算方法の一例を以下の(8)式に示す。
【0078】
【0079】
(8)式に示すように、価値関数Vは減衰型状態遷移確率関数Dと報酬関数Rの積を遷移後状態s’について積分した関数である。価値関数Vの値は目標とする状態sgoalへ遷移しやすい状態ほど高い。本実施例ではこの価値関数Vの出力を価値と呼ぶこととする。また、本実施例の価値関数Vは、強化学習法での状態価値関数の定義と値が等価となる。
【0080】
段階2:次に価値関数Vを用いて、現在の遷移前状態sにおいて最適な操作量aを計算する。最適な操作量aの計算には上記(7)式を用いる。
【0081】
このように上記(8)式で価値を計算することによって、各状態におけるsgoalへの遷移し易さの評価を可能とし、上記(7)式によって最適な操作量aの特定を可能としている。
【0082】
図6に戻って、モデル更新部155は、データ読み込み装置115からモデル記憶部131に記録したモデルデータの更新データが入力された際に、モデルデータを更新データに基づいて修正し、修正したモデルデータをモデル記憶部131に記録する。
【0083】
図7は、処理装置101が行う処理のフローを示す図である。
【0084】
まず
図7の処理ステップS1301では、入力制御部141からの指令にもとづいて、データ読み込み装置115から、模擬対象のモデルに関するデータと報酬関数Rに関するデータが入力され、そのデータはモデル記憶部131と報酬関数記憶部133に記録される。
【0085】
つぎに処理ステップS1302では、モデル記憶部131に記録された模擬対象のモデルに関するデータが将来状態予測演算部142に転送され、(4)式に基づいて減衰型状態遷移確率関数Dが計算され、その結果は将来状態予測結果記憶部132に記録される。
【0086】
つぎに処理ステップS1303では、将来状態予測結果記憶部132に記録された減衰型状態遷移確率関数Dと、報酬関数記憶部133に記録された報酬関数Rが制御則演算部154に転送され、最適な制御則を計算し、その結果を制御則記憶部134に記録する。
【0087】
つぎに処理ステップS1304では、将来状態予測結果記憶部132と制御則記憶部134に記録されたデータが出力制御部143へ転送され、出力装置120へ出力される。
【0088】
つぎに処理ステップS1305では、制御対象の制御を終了するか否かを判定する。制御を継続する場合は処理ステップS1306へ進み、制御を終了する場合はフローも終了となる。
【0089】
つぎに処理ステップS1306では、出力装置120から制御対象に送られた制御則に基づいて、制御対象は操作量aを計算し、操作を実行する。すなわち、制御対象は操作量aに応じた操作を実行する。
【0090】
つぎに処理ステップS1307では、制御対象は操作の実行前と後に計測した制御対象およびその周辺環境の状態をデータ読み込み装置115に対して送信する。
【0091】
つぎに処理ステップS1308では、入力制御部141は、データ読み込み装置115が操作の実行前と後に計測した制御対象およびその周辺環境の状態のデータを受信したか否かを判定する。データを受信した場合、処理ステップS1309へ進み、データを受信しなかった場合は処理ステップS1305へ戻る。
【0092】
処理ステップS1309では、処理ステップS1308の処理においてデータ読み込み装置115が操作の実行前と後に計測した制御対象およびその周辺環境の状態のデータを受信した場合、受信データとモデル記憶部131に記録されるモデルデータがモデル更新部155に転送され、更新されたモデルデータがモデル記憶部131に記録される。その後、処理ステップS1302へ進む。
【0093】
(実施例3)
図8、
図9、
図10は実施例1と実施例2において、出力装置120に表示する画面の一例である。
【0094】
図8は、モデル記憶部131で記録したモデルデータの一例として状態遷移確率関数τを画面に表示したものである。図では、モデルの保存形式の一例として状態遷移確率関数τを、遷移前状態sから遷移後状態s’への遷移確率を関数形式により画面に表示している。遷移確率は本画面から入力装置110を通して更新できるようにしてもよい。
【0095】
図9は、将来状態予測結果記憶部132に保存する減衰型状態遷移確率関数Dを画面に表示した場合の一例である。図では、減衰型状態遷移確率関数Dを、遷移前状態sから遷移後状態s’への関数形式により画面に表示している。
【0096】
図10は、モデル記憶部131で保存するモデルデータを加工したデータとして遷移確率分布Pを表示した場合の一例である。画面では、遷移先の状態s’を横軸にして遷移確率Pを表示している。
【0097】
実施例1~3の主な特徴は、次のようにまとめることもできる。
【0098】
図1に示す将来状態推定装置(処理装置100)は、記憶装置130と演算装置140を備える。記憶装置130は、第1の時間(Δt)経過後に予測対象が第1の状態sから第2の状態s’へ遷移する確率を示す第1の状態遷移確率(状態遷移確率関数τ)が重み付き基底関数の線形結合で表現される状態遷移モデルを記憶する(モデル記憶部131、(1)式)。演算装置140は、重み付き基底関数のそれぞれの重みを要素とする行列を示す重み行列Λの積和演算によって、第2の時間(Δt×∞)経過後までに予測対象が第1の状態sから第2の状態s’に遷移する確率を示す第2の状態遷移確率(減衰型状態遷移確率関数D、(2)式)を計算する(将来状態予測演算部142)。
【0099】
これにより、重積分ではなく重み行列Λの積和演算によって第2の状態遷移確率(減衰型状態遷移確率関数D)を計算することができる。その結果、連続的な状態の空間内において予測対象の将来状態を遷移確率分布の形式で高速に推定できる。
【0100】
本実施例では、積和演算は、重み行列Λの級数計算であり((1)、(2)式)、第2の時間経過後は、無限時間経過後又は無限ステップ経過後である。これにより、無限時間経過後又は無限ステップ経過後の予測対象の状態を高速に推定できる。
【0101】
図6に示す演算装置150は、第2の状態遷移確率(減衰型状態遷移確率関数D)に基づいて、予測対象を制御するデバイスの最適操作量aを計算する(制御則演算部154)。これにより、制御目標に最適な操作量を統計的に推定できる。
【0102】
図1に示す演算装置140は、例えば、ニューラルネットワークなどの最適化手法を用いて、予測対象の測定値の時系列から重み行列Λの要素値λijを計算する。これにより、重み行列Λの要素値λijを状態遷移モデルにフィードバックすることができる。
【0103】
図6に示す演算装置150は、重み行列Λの要素値λijを用いて状態遷移モデルを更新する(モデル更新部155)。演算装置150は、例えば、ディープラーニングを用いて、重み行列Λの要素値λijを学習し、学習した重み行列の要素値を用いて状態遷移モデルを更新してもよい。これにより、状態遷移モデルの精度を向上することができる。
【0104】
図1に示す将来状態推定装置(処理装置100)は、出力装置120を備える。演算装置140は、更新前の状態遷移モデル、更新後の状態遷移モデル、更新前と更新後の状態遷移モデルの違いのうち、いずれか2つ以上を示す情報を出力装置120に出力させてもよい(出力制御部143)。なお、状態遷移モデルは、例えば、
図8に示すように表示される。
【0105】
これにより、更新により状態遷移モデルがどのように変化したかを視覚的に確認することができる。
【0106】
演算装置140は、経過時間、経過ステップ、時間の範囲、ステップの範囲のいずれか一つ以上における遷移元の状態から遷移先の状態へ遷移する確率を出力装置120に出力させてもよい。なお、
図10の例では、指定した経過時間と遷移元の状態における遷移確率が遷移先の状態の連続な関数として表示される。
【0107】
これにより、指定した経過時間における予測対象の遷移確率分布を視覚的に確認することができる。
【0108】
本実施例では、基底関数は、動径基底関数である。これにより、第1の状態遷移確率(状態遷移確率関数τ)を行列で表現することができる。
【0109】
本実施例では、動径基底関数は、正規分布関数である。これにより、例えば、変換行列Ψの要素Ψijが第1の状態sと第2の状態s’に依存しない定数となる。
【0110】
演算装置140は、第1の時間(Δt)の整数(L)倍の時間経過後に予測対象が第1の状態sから第2の状態s’へ遷移する確率を記憶装置130(例えば、メモリ)に記憶し、記憶装置130に記憶されたそれぞれの確率に時間経過に応じた減衰率γのべき乗を乗じた値の和から第2の状態遷移確率(減衰型状態遷移確率関数D、(2)式)を計算する(将来状態予測演算部142)。
【0111】
これにより、重み行列Λの積和演算によって第2の状態遷移確率(減衰型状態遷移確率関数D)を計算することができる。
【0112】
演算装置140は、正規分布関数の積分値を要素Ψijとする変換行列Ψの転置行列tΨと重み行列Λの積に減衰率γを乗じた行列γtΨΛを記憶装置130に記憶し、単位行列Eと記憶装置130に記憶された行列γtΨΛとの差分の逆行列に基づいて第2の状態遷移確率(減衰型状態遷移確率関数D、(4)式)を計算する(将来状態予測演算部142)。
【0113】
これにより、状態sが連続であっても、重み行列Λの積和演算によって第2の状態遷移確率(減衰型状態遷移確率関数D)を計算することができる。
【0114】
詳細には、演算装置140は、重み行列Λと逆行列(E-γtΨΛ)-1の積と、ガウス関数行列Gとのフロベニウス内積から第2の状態遷移確率(減衰型状態遷移確率関数D、(4)式)を計算する(将来状態予測演算部142)。
【0115】
演算装置140は、プラント(例えば、発電プラント、化学プラント等)に設置され、かつ予測対象(温度、圧力等)を制御するデバイス(例えば、蒸気発生器、気化器等)の操作量を計算する。これにより、プラントの生産効率を向上することができる。
【0116】
本実施例では、重み行列Λは、行列であるが、ベクトルであってもよい。なお、1行N列又はN行1列の行列はベクトルということもできる。予測対象は、プラントのデバイスによって制御される対象(例えば、蒸気)もしくは対象(蒸気)の周辺環境(例えば、空気)の物理量(温度、圧力等)である。これにより、周辺環境の将来状態の分布も高速に推定できる。
【0117】
なお、本発明は上記した実施例に限定されるものではなく、様々な変形例が含まれる。例えば、上述した実施例は本発明を分かりやすく説明するために詳細に説明したものであり、必ずしも説明した全ての構成を備えるものに限定されるものではない。また、ある実施例の構成の一部を他の実施例の構成に置き換えることが可能であり、また、ある実施例の構成に他の実施例の構成を加えることも可能である。また、各実施例の構成の一部について、他の構成の追加・削除・置換をすることが可能である。
【0118】
また、上記の各構成、機能等は、それらの一部又は全部を、例えば集積回路で設計する等によりハードウェアで実現してもよい。また、上記の各構成、機能等は、プロセッサがそれぞれの機能を実現するプログラムを解釈し、実行することによりソフトウェアで実現してもよい。各機能を実現するプログラム、テーブル、ファイル等の情報は、メモリや、ハードディスク、SSD等の記録装置、または、ICカード、SDカード、DVD等の記録媒体に置くことができる。
【0119】
なお、本発明の実施例は、以下の態様であってもよい。以下の態様では、事前に定義した有限で連続的な状態の空間内であれば無限時間先における操作対象またはその周辺環境の状態を確率密度分布の形式で高速に推定する手段を提供することを目的とする。
【0120】
[1].操作対象または操作対象の周辺環境の状態遷移確率の特性を重み付き関数の線形結合で表現した状態遷移モデルを保存するモデル記憶部を備え、前記重み付き関数の重みを行列化またはベクトル化した信号を入力とし、重み行列またはベクトルの積和演算によって、操作対象または操作対象の周辺環境の将来状態を確率密度分布の形式で推定することを特徴とした将来状態推定装置。
【0121】
[2].[1]に記載した将来状態推定装置において、前記重み行列またはベクトルの級数計算によって、無限時間または無限ステップ先における操作対象または操作対象の周辺環境の将来状態を確率密度分布の形式で推定することを特徴とした将来状態推定装置。
【0122】
[3].[1]または[2]に記載の将来状態推定装置であって、前記操作対象または前記操作対象の周辺環境の将来状態の確率密度分布に基づいて、最適操作量を計算する最適操作量演算部を備えることを特徴とした将来状態推定装置。
【0123】
[4].[1]から[3]のいずれか1項に記載の将来状態推定装置であって、前記操作対象または前記操作対象の周辺環境の状態遷移の特性またはその特性を含む情報を記録した時系列データから、前記重み行列またはベクトルの各要素値を計算する学習部を備えることを特徴とした将来状態推定装置。
【0124】
[5].[1]から[3]のいずれか1項に記載の将来状態推定装置であって、前記操作対象もしくは前記操作対象の周辺環境の状態遷移の特性またはその特性を含む情報を記録した時系列データから、前記モデル記憶部の情報を更新するモデル更新部を備えることを特徴とする将来状態推定装置。
【0125】
[6].[4]に記載した将来状態推定方法において、前記学習部で計算した前記重み行列またはベクトルの各要素値から、前記モデル記憶部の情報を更新するモデル更新部を備えることを特徴とする将来状態推定装置。
【0126】
[7].表示手段を備える、[1]から[6]のいずれか1項に記載の将来状態推定装置であって、前記表示手段には、更新前のモデル、更新後のモデル、更新前と更新後のモデルの違いに関する情報のいずれか2つ以上を出力することを特徴とする将来状態推定装置。
【0127】
[8].表示手段を備える、[1]から[6]のいずれか1項に記載の将来状態推定装置であって、前記表示手段には、指定した経過時間、経過ステップ、時間の範囲、ステップの範囲のいずれか一つ以上における遷移元の状態から各状態へ遷移する確率を表示することを特徴とする将来状態推定装置。
【0128】
[1]~[8]によれば,予測したい将来状態までの時間に依存することなく,無限時間先の操作対象の将来状態を連続的な状態の確率密度分布の形式で計算できる。この計算結果を用いることで,無限時間先の将来状態を考慮した最適な制御則を計算する方法を提供することができる。また,自動設計の分野では存在し得る全ての経路を考慮した経路の最適化方法や,ファイナンスの分野では遠い将来状態を考慮した価格決定方法,バイオエンジニアリングの分野ではモデル化可能な範囲にある全経路を考慮した代謝経路の最適化方法を提供することができる。
【符号の説明】
【0129】
100…処理装置
101…処理装置
110…入力装置
115…データ読み込み装置
120…出力装置
130…記憶装置
131…モデル記憶部
132…将来状態予測結果記憶部
133…報酬関数記憶部
134…制御則記憶部
140…演算装置
141…入力制御部
142…将来状態予測演算部
143…出力制御部
150…演算装置
151…入力制御部
152…将来状態予測演算部
153…出力制御部
154…制御則演算部
155…モデル更新部