IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社日立製作所の特許一覧

特開2024-176126知的制御装置、知的制御方法および知的制御プログラム
<>
  • 特開-知的制御装置、知的制御方法および知的制御プログラム 図1
  • 特開-知的制御装置、知的制御方法および知的制御プログラム 図2
  • 特開-知的制御装置、知的制御方法および知的制御プログラム 図3
  • 特開-知的制御装置、知的制御方法および知的制御プログラム 図4
  • 特開-知的制御装置、知的制御方法および知的制御プログラム 図5
  • 特開-知的制御装置、知的制御方法および知的制御プログラム 図6
  • 特開-知的制御装置、知的制御方法および知的制御プログラム 図7
  • 特開-知的制御装置、知的制御方法および知的制御プログラム 図8
  • 特開-知的制御装置、知的制御方法および知的制御プログラム 図9
  • 特開-知的制御装置、知的制御方法および知的制御プログラム 図10
  • 特開-知的制御装置、知的制御方法および知的制御プログラム 図11
  • 特開-知的制御装置、知的制御方法および知的制御プログラム 図12
  • 特開-知的制御装置、知的制御方法および知的制御プログラム 図13
  • 特開-知的制御装置、知的制御方法および知的制御プログラム 図14
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024176126
(43)【公開日】2024-12-19
(54)【発明の名称】知的制御装置、知的制御方法および知的制御プログラム
(51)【国際特許分類】
   G05B 23/02 20060101AFI20241212BHJP
【FI】
G05B23/02 R
【審査請求】未請求
【請求項の数】13
【出願形態】OL
(21)【出願番号】P 2023094404
(22)【出願日】2023-06-07
(71)【出願人】
【識別番号】000005108
【氏名又は名称】株式会社日立製作所
(74)【代理人】
【識別番号】110001807
【氏名又は名称】弁理士法人磯野国際特許商標事務所
(72)【発明者】
【氏名】徳田 勇也
(72)【発明者】
【氏名】関合 孝朗
(72)【発明者】
【氏名】堀 嘉成
【テーマコード(参考)】
3C223
【Fターム(参考)】
3C223AA01
3C223BA01
3C223CC01
3C223DD01
3C223EB01
3C223FF04
3C223FF05
3C223FF22
3C223FF23
3C223FF26
3C223FF42
3C223GG01
3C223HH03
3C223HH08
(57)【要約】
【課題】制御性能に関する学習データの不足範囲を特定しつつ、制御性能に関連する学習データの充足性を評価可能とする。
【解決手段】知的制御装置100は、制御対象の運転により得られた学習データを学習し、前記制御対象の挙動を模擬する制御対象モデルを生成するモデル生成部147と、制御対象モデルを用いて、制御対象の状態のうち学習データが不足している範囲を推定する範囲推定部144と、制御対象モデルが初期状態から目標状態まで遷移する遷移確率を算出する遷移確率算出部145と、範囲推定部144が推定した範囲、および、遷移確率算出部145が算出した遷移確率を出力する出力制御部142とを備える。
【選択図】図1
【特許請求の範囲】
【請求項1】
制御対象の運転により得られた学習データを学習し、前記制御対象の挙動を模擬する制御対象モデルを生成するモデル生成部と、
前記制御対象モデルを用いて、前記制御対象の状態のうち学習データが不足している範囲を推定する範囲推定部と、
前記制御対象モデルが初期状態から目標状態まで遷移する遷移確率を算出する遷移確率算出部と、
前記範囲推定部が推定した範囲、および、前記遷移確率算出部が算出した遷移確率を出力する出力制御部と、
を備えることを特徴とする知的制御装置。
【請求項2】
前記遷移確率算出部が算出した前記遷移確率を用いて、前記初期状態から前記目標状態まで遷移する遷移時間、前記制御対象の状態の遷移回数、および目標状態に遷移する確率の内、少なくともいずれか1つを算出する遷移算出部と、
前記遷移算出部の算出結果に基づいて、前記モデル生成部が追加学習すべき学習データの条件を推定する学習データ推定部と、
を備えることを特徴とする請求項1に記載の知的制御装置。
【請求項3】
前記制御対象モデルの状態を離散的な空間に区切り、区切った前記空間ごとに制御対象の操作量を決定する操作量決定部を更に備え、
前記範囲推定部は、前記空間の周囲の操作量の標準偏差に基づいて、学習データが不足している空間を推定する、
ことを特徴とする請求項1に記載の知的制御装置。
【請求項4】
前記学習データは、制御対象の運転データである、
ことを特徴とする請求項3に記載の知的制御装置。
【請求項5】
前記制御対象モデルは、状態遷移確率行列である、
ことを特徴とする請求項3に記載の知的制御装置。
【請求項6】
前記制御対象モデルは、ニューラルネットワークである、
ことを特徴とする請求項3に記載の知的制御装置。
【請求項7】
前記制御対象モデルは、動径基底関数ネットワークである、
ことを特徴とする請求項3に記載の知的制御装置。
【請求項8】
前記制御対象モデルは、ニューラルネットワークの重みが現されている行列またはベクトルである、
ことを特徴とする請求項3に記載の知的制御装置。
【請求項9】
前記制御対象モデルは、動径基底関数ネットワークの重みが現されている行列またはベクトルである、
ことを特徴とする請求項3に記載の知的制御装置。
【請求項10】
前記空間の幅を拡張または縮小し、目標状態に遷移する確率を高める状態分割数調整部、
を備えることを特徴とする請求項3に記載の知的制御装置。
【請求項11】
制御対象の目的を達成する制御則を推定する動作最適化部、
を備えることを特徴とする請求項1に記載の知的制御装置。
【請求項12】
モデル生成部が、制御対象の運転により得られた学習データを学習し、前記制御対象の挙動を模擬する制御対象モデルを生成するステップと、
範囲推定部が、前記制御対象モデルを用いて、前記制御対象の状態のうち学習データが不足している範囲を推定するステップと、
遷移確率算出部が、前記制御対象モデルが初期状態から目標状態まで遷移する遷移確率を算出するステップと、
出力制御部が、前記範囲推定部が推定した範囲、および、前記遷移確率算出部が算出した遷移確率を出力するステップと、
を備えることを特徴とする知的制御方法。
【請求項13】
コンピュータに、
制御対象の運転により得られた学習データを学習し、前記制御対象の挙動を模擬する制御対象モデルを生成する手順、
前記制御対象モデルを用いて、前記制御対象の状態のうち学習データが不足している範囲を推定する手順、
前記制御対象モデルが初期状態から目標状態まで遷移する遷移確率を算出する手順、
前記制御対象の状態のうち学習データが不足している範囲、および、前記遷移確率を出力する手順、
を実行させるための知的制御プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、産業プラントを制御する人工知能技術のデータ充足性評価に係る知的制御装置、知的制御方法および知的制御プログラムに関する。
【背景技術】
【0002】
プラント(発電・産業)や自動車、流通、の分野では一般的に機械学習をはじめとする人工知能技術(AI:Artificial Intelligence)の活用が試みられている。特に産業プラントでは人工知能技術によって、運転データから制御則を最適化することにより、運転効率の改善以外にも高速負荷変化や高速起動などのフレキシブル運転性能の向上に活用されている。これら産業プラント向けの人工知能技術の制御性能は運転データの充足性に強く依存する。
【0003】
そこで、従来の人工知能技術では制御対象のシミュレータを開発することによって、データの充足性と制御性能を評価していた。しかし、制御対象のシミュレータの開発には開発時間が長く、開発コストも高いという課題がある。さらに、人工知能技術の細かいパラメータ調整によって制御性能の向上を試みる場合においても、シミュレータでは計算時間が長く、調整に数日から数週間かかる場合もある。そこで、人工知能技術の算出した制御則から運転データの充足性と制御性能を評価するため、以下のような装置や方法が開発されている。
【0004】
特許文献1では、制御に利用するプロセス値の信号を離散化した空間を定義し、各空間の学習データの最大値、最小値とデータ数によってAI制御の信頼性を評価する技術を公開している。信頼性が低い範囲に遷移した場合は、従来制御に切り替えることで制御の安全性を保障する。
【0005】
特許文献2では、学習用データとしての移動履歴データが供給された場合、既知の経路の移動履歴データであるか、または、未知の経路の移動履歴データであるかを判定し、既知の場合は、既存モデルのパラメータの更新を行い、未知の場合は、新規モデルを生成し、既存モデルと結合した更新モデルを生成する技術を公開している。
【先行技術文献】
【特許文献】
【0006】
【特許文献1】特開2022-093878号公報
【特許文献2】特開2012-008659号公報
【発明の概要】
【発明が解決しようとする課題】
【0007】
特許文献1の装置や方法は空間ごと学習データの最大値、最小値、データ数、データ密度によってAI制御の信頼性を評価する手段が開示されている。これらの手法はデータの不足した空間の特定に有用であり、データの補充範囲の特定に優れている。しかし、定義した空間の全領域のうち、制御性能に関係する範囲はごく一部であるケースも少なくない。例えば、定義した空間の領域のうち9割以上が遷移禁止の空間であり、その空間のデータが存在しない場合でも制御性能に大きく影響しない場合もある。そのため、特許文献1では制御性能に関連するデータの充足性を評価する手段については明示していない。
【0008】
特許文献2の装置や方法は追加したデータを既知のデータか未知のデータを判定することで、新しいデータを追加したときの人工知能技術の学習効率を上げる手段が開示されている。しかし、特許文献1と同様に制御性能の向上に適したデータを補充する手段については明示していない。
【0009】
そこで、本発明は、制御性能に関する学習データの不足範囲を特定しつつ、制御性能に関連する学習データの充足性を評価可能とすることを課題とする。
【課題を解決するための手段】
【0010】
前記した課題を解決するため、本発明の知的制御装置は、制御対象の運転により得られた学習データを学習し、前記制御対象の挙動を模擬する制御対象モデルを生成するモデル生成部と、前記制御対象モデルを用いて、前記制御対象の状態のうち学習データが不足している範囲を推定する範囲推定部と、前記制御対象モデルが初期状態から目標状態まで遷移する遷移確率を算出する遷移確率算出部と、前記範囲推定部が推定した範囲、および、前記遷移確率算出部が算出した遷移確率を出力する出力制御部と、を備えることを特徴とする。
【0011】
本発明の知的制御方法は、モデル生成部が、制御対象の運転により得られた学習データを学習し、前記制御対象の挙動を模擬する制御対象モデルを生成するステップと、範囲推定部が、前記制御対象モデルを用いて、前記制御対象の状態のうち学習データが不足している範囲を推定するステップと、遷移確率算出部が、前記制御対象モデルが初期状態から目標状態まで遷移する遷移確率を算出するステップと、出力制御部が、前記範囲推定部が推定した範囲、および、前記遷移確率算出部が算出した遷移確率を出力するステップと、を備えることを特徴とする。
【0012】
本発明の知的制御プログラムは、制御対象の運転により得られた学習データを学習し、前記制御対象の挙動を模擬する制御対象モデルを生成する手順、前記制御対象モデルを用いて、前記制御対象の状態のうち学習データが不足している範囲を推定する手順、前記制御対象モデルが初期状態から目標状態まで遷移する遷移確率を算出する手順、前記制御対象の状態のうち学習データが不足している範囲、および、前記遷移確率を出力する手順、を実行させるためのものである。
その他の手段については、発明を実施するための形態のなかで説明する。
【発明の効果】
【0013】
本発明によれば、制御性能に関する学習データの不足範囲を特定しつつ、制御性能に関連する学習データの充足性を評価可能となる。
【図面の簡単な説明】
【0014】
図1】第1実施形態に係る知的制御装置の構成を表す図である。
図2】制御対象の構成を示す図である。
図3】蒸気温度と経過時間のグラフである。
図4】状態と操作量との対応を示す図である。
図5】状態と温度と変化率の対応を示す図である。
図6】操作量と弁開度調整量の対応を示す図である。
図7】データ処理のフローチャートである。
図8】制御に係るモード遷移図である。
図9】第2実施形態に係る各状態の最小の制御ステップ数を示す図である。
図10】各状態の最小の制御ステップ数の標準偏差を示す図である。
図11】学習データが欠損した場合の、各状態の最小の制御ステップ数の標準偏差を示す図である。
図12】各状態の最小の制御ステップ数を示す図である。
図13】第3実施形態に係るデータ処理装置の構成を表す図である。
図14】データ処理のフローチャートである。
【発明を実施するための形態】
【0015】
以降、本発明を実施するための形態を、各図を参照して詳細に説明する。
《第1実施形態》
図1は、本発明の第1実施形態に係る知的制御装置100の一例を表す構成図である。知的制御装置100は、入力装置110、データ読み込み装置116、温度センサ209、出力装置120、記憶装置130、演算装置140を主たる要素として構成されたコンピュータである。
【0016】
このうち入力装置110は、操作者の指示を受け付ける部分であり、ボタン、タッチパネルなどで構成されている。
データ読み込み装置116は、知的制御装置100の外部からデータを受け付ける部分であり、光学ドライブ、USB(Universal Serial Bus)端子、LAN(Local Area Network)ケーブル端子、通信装置などで構成されている。
温度センサ209は、制御対象の温度を計測するセンサである。なお、これに限られず、制御対象を計測する圧力センサ、湿度センサ、流量センサなどが設けられていてもよく、限定されない。
【0017】
出力装置120は、操作者への指示情報、読取画像、読取結果などを出力する装置であり、ディスプレイや通信装置で構成されている。
上記したこれらの構成は標準的なものであり、入力装置110、データ読み込み装置116、出力装置120のいずれかまたはすべてが知的制御装置100の外部に接続される構成でもよい。
【0018】
記憶装置130は、各種のデータを記憶する部分であり、運転データ記憶部131とモデル記憶部132、制御則記憶部133、データ不足範囲記憶部134、知的制御プログラム135を格納している。このうち運転データ記憶部131は、データ読み込み装置116から入力された知的制御装置100の制御対象の挙動に関するデータを保存する部分である。また、モデル記憶部132は、知的制御装置100の制御対象の挙動を模擬するモデルを保存する部分である。また、制御則記憶部133は、後述する動作最適化部143の演算結果を保存する部分である。また、データ不足範囲記憶部134は、後述する範囲推定部144の演算結果を保存する部分である。知的制御プログラム135は、演算装置140によって実行されて、入力制御部141、出力制御部142、動作最適化部143、範囲推定部144、遷移確率算出部145、状態分割数調整部146、モデル生成部147、遷移算出部148、学習データ推定部149、操作量決定部150などの各処理部を具現化するものである。記憶装置130は、例えはハードディスクまたは半導体ディスクで構成されている。
記憶装置130の詳細は後述することにし、ここでは概略機能のみを述べている。
【0019】
演算装置140は、入力装置110、データ読み込み装置116から入力されるデータおよび記憶装置130に記憶されたデータを処理し、その結果を出力装置120に出力または記憶装置130に記録するものである。演算装置140は、以下の処理部(入力制御部141、出力制御部142、動作最適化部143、範囲推定部144、遷移確率算出部145、状態分割数調整部146、モデル生成部147、遷移算出部148、学習データ推定部149、操作量決定部150)を含んで構成されている。演算装置140は、例えばCPU(Central Processing Unit)である。
【0020】
入力制御部141は、入力装置110またはデータ読み込み装置116、温度センサ209から入力されるデータを指令、モデルなどに区分し、記憶装置130や演算装置140の各部へ転送する処理を行なう部分である。
【0021】
出力制御部142は、記憶装置130に記憶されたデータを、出力装置120へ出力する部分である。出力制御部142は、その平均値を制御対象モデルの評価結果として、範囲推定部144が推定した学習データ不足の範囲と共に出力装置120に対して出力する。出力先が画面などのときは、読み取り操作が行われる都度結果が出力されるのが好ましい。出力先が通信先などのときは、出力処理は演算装置140の一部またはすべての演算が行われる都度でもよいし、何回かのデータをまとめる、あらかじめ定めた時間ごとにまとめるなどして処理してもよい。
【0022】
動作最適化部143は、運転データ記憶部131から、知的制御装置100の制御対象の目的を達成する制御則を推定し、推定した制御則を制御則記憶部133に保存する。これにより、モデル生成部147は、容易に制御対象の挙動を模擬する制御対象モデルを生成可能である。
【0023】
モデル生成部147は、運転データ記憶部131に格納された運転データまたは制御則記憶部133に格納された制御則から、制御対象の挙動を模擬する制御対象モデルを生成し、この制御対象モデルをモデル記憶部132に保存する。つまりモデル生成部147は、制御対象を運転して得られた運転データを学習データとして学習し、制御対象の動きを模擬する制御対象モデルを生成する。
【0024】
範囲推定部144は、制御対象モデルを用いて、制御対象の状態空間のうち学習データが不足している範囲を推定する。ここで運転データの範囲とは、制御対象の状態バラメータや制御バラメータで示される状態空間の所定範囲のことをいう。
範囲推定部144は、自身の推定結果である学習データが不足している範囲をデータ不足範囲記憶部134に保存する。
【0025】
遷移確率算出部145は、データ不足範囲記憶部134に保存した情報と、運転データ記憶部131、モデル記憶部132、制御則記憶部133のいずれか一つ以上に保存した制御対象の挙動に関する情報から、知的制御装置100の制御対象が初期状態から目標状態に遷移して目的を達成する確率を算出する。制御対象が目的を達成する確率は、制御対象モデルの制御性能を示し、かつ、制御性能に関連する学習データの充足性を示す。これにより、制御性能に関連する学習データの充足性を評価可能である。
【0026】
遷移算出部148は、遷移確率算出部145が算出した遷移確率を用いて、初期状態から目標状態までの遷移時間、制御対象の状態の遷移回数、および目標状態に遷移する確率のうち、少なくともいずれか1つを算出する。
【0027】
学習データ推定部149は、遷移算出部148の算出結果に基づいて、モデル生成部147が追加学習すべき学習データの条件を推定する。これにより、制御性能に関する学習データの不足範囲を特定可能である。
【0028】
操作量決定部150は、制御対象モデルの状態空間を離散的な空間に区切り、区切った空間ごとに制御対象の状態を目標状態とするための最小の制御ステップ数を、各空間の操作量として決定する。範囲推定部144は、制御対象モデルの状態を離散的に区切った空間にて、各空間の周囲の操作量の標準偏差を算出する。これにより範囲推定部144は、学習データが不足している空間を推定する。
【0029】
図2は、制御対象の構成を示す図である。ここでは知的制御装置100で実行される処理の詳細を説明するため、火力発電プラントの蒸気温度制御の例題について説明する。なお、本発明の適用範囲は産業プラントや移動ロボット、自動運転車両などがあるが、本発明では制御対象をこれらの例に限定しない。
【0030】
図2の例題では、火力発電プラント200の蒸気温度を制御する。制御対象の火力発電プラント200は、ボイラドラム201、蒸気配管202,210,211、第1過熱器203、第2過熱器204、蒸気タービン205、スプレー206、調整弁207、スプレー配管208、温度センサ209によって構成される。
過熱された蒸気はボイラドラム201から蒸気配管202を通って第1過熱器203に流入する。蒸気は第1過熱器203の内部を通過することにより過熱されて温度が上昇する。
【0031】
その後、蒸気は、蒸気配管210を通って第2過熱器204に流入する。蒸気は第2過熱器204の内部を通過することによりさらに過熱されて温度が上昇する。その後、蒸気は蒸気配管211を通って蒸気タービン205に流入して、蒸気タービン205を回し、蒸気タービン205に接続された不図示の発電機によって電気が生成される。
【0032】
なお、第1過熱器203と第2過熱器204の中間の蒸気配管210を通過する際に、スプレー206から圧縮水が注入される場合がある。注入された圧縮水は蒸気と混合することにより、上記の温度を低下させる効果がある。温度の低下量は注入される圧縮水の量に依存し、圧縮水の量は、調整弁207の弁開度によって変動する。調整弁207は、圧縮水を通すスプレー配管208に設置されている。なお、蒸気温度の計測は、第2過熱器204の出口の蒸気配管211に設置された温度センサ209によって行われる。蒸気温度制御では、調整弁207の弁開度を操作することによって、温度センサ209で計測される蒸気の温度を所望の温度に制御する。
【0033】
図3は、蒸気温度と経過時間のグラフである。グラフの横軸は、経過時間である。グラフの縦軸は、蒸気温度である。
ここでは、図2の例題における火力発電プラント200の蒸気温度の挙動の例について説明する。例での目標は蒸気温度を500℃かつ、温度変化率を約0℃/制御ステップとする状態sへ遷移することである。また、蒸気の初期温度は495℃、温度変化率は約3℃/制御ステップ(状態s)である。なお、制御ステップとは制御則記憶部133に保存される制御則で操作量を更新するまでの時間であり、制御周期とは別に設定してもよい。
【0034】
以下、図4から図6までによって、制御対象である火力発電プラント200の運転データを説明する。
図4は、状態と操作量との対応を示す図である。
図4の制御則は、プラントの状態毎に操作量を保存するベクトルである。
【0035】
図5は、状態と温度と変化率の対応を示す図である。
図5の状態の定義の例では、蒸気の温度と温度変化率の組み合わせによって状態を定義している。例えば、蒸気温度が499℃で制御ステップごとに3℃ずつ変化している場合は状態sであることを示している。
【0036】
図6は、操作量と弁開度調整量の対応を示す図である。
図6の操作量の定義の例では、操作量aは調整弁207の弁開度を1%下げることを示している。操作量aでは調整弁207の弁開度を維持し、操作量aは調整弁207の弁開度を1%上げることを示している。つまり、操作量によって、調整弁207の弁開度を調整し、よって火力発電プラント200の状態を制御する。
【0037】
図3に戻り説明を続ける。ここでは初期状態が温度494℃、温度変化率が約3℃/制御ステップの状態sから開始し、状態sと状態sを経由することで状態sへ遷移しており、目標の蒸気温度を500℃かつ、温度変化率を約0℃/制御ステップとすることに成功している。ただし、外乱などの影響により状態sから確率的に状態sに遷移するケースがある。例での状態sでは学習データが不足しており、目標状態からは離れてしまうような操作量が出力され、または操作量が推定できない場合がある。なお、状態sでも最短の制御ステップで目標の状態sへ遷移するための計算に必要な学習データは無いが、状態sを経由して目標の状態sへ遷移するための操作量を計算するには充分な学習データが有る。
【0038】
図7は、データ処理のフローチャートである。
知的制御装置100が行う処理のフローを示す図である。本フロー図を図2図3の例題を用いて説明する。
【0039】
まずステップS1201にて、動作最適化部143は、運転データ記憶部131に格納された運転データから、知的制御装置100の制御対象の目的を達成する制御則を推定し、推定した制御則を制御則記憶部133に保存する。図2の例題では強化学習技術をベースに制御則を推定する。強化学習とは、機械学習のひとつの種類であり、システムが試行錯誤を繰り返して、適切な制御方法を学習していく技術のことをいう。
【0040】
そしてステップS1202にて、モデル生成部147は、運転データ記憶部131に格納された運転データから、例えば図8に示すような状態遷移確率で制御対象の挙動を模擬する制御対象モデルを生成し、生成した制御対象モデルをモデル記憶部132に保存する。
【0041】
なお、制御対象の挙動を模擬する制御対象モデルの形式は、例えば状態遷移確率行列や、ニューラルネットワーク、動径基底関数ネットワーク、またはニューラルネットワークや動径基底関数ネットワークの重みが現されている行列またはベクトルが考えられるが、本発明は模擬対象のモデル保存形式をこれらの例に限定しない。
制御対象モデルにニューラルネットワークを採用することにより、学習データを容易に学習可能である。また、制御対象モデルに動径基底関数ネットワークを採用することにより、非線形の問題を解決できる。
【0042】
つぎにステップS1203にて、範囲推定部144は、制御対象が目的を達成するか否かを判定するには、学習データが不足している範囲を推定する。図3の例では状態sが該当する。範囲推定部144は、各範囲と操作量の組み合わせごとに学習データ数をカウントし、その学習データ数が事前に設定した数未満の場合、学習データが不足している範囲として推定する。また、範囲推定部144は、どんなに学習データを増やしても目標状態への遷移手段が無い範囲や、2つ以上の範囲の間で遷移を繰り返すことで目標状態へ遷移できない範囲についても、「学習データが不足している範囲」に含めて推定してもよい。これにより、遷移確率算出部145は、学習データ不足以外の原因によって目標状態へ遷移できない状態に遷移せず、よって目標状態への到達する確率を計算可能となる。
【0043】
なお、学習データ数をカウントする方法以外にも、学習データ数の密度や分布を用いて学習データが不足を判定する方法や、目標状態までの最小の制御ステップ数を用いて学習データが不足を判定する方法などが考えらえるが、本実施形態において学習データが不足している状態を推定する方法はこれらに限定しない。また、学習データが不足している状態の詳細な推定方法の例については、第2実施形態において後述する。
【0044】
図7に戻って説明を続ける。ステップS1204にて、演算装置140は、制御対象の初期状態を設定する。初期状態の設定方法は、事前に登録された初期状態のリストを参照する方法や、遷移経験のある状態からランダムに選定するなどの方法が考えられるが、本発明は初期状態の設定方法をこれらの例に限定しない。
【0045】
つぎにステップS1205にて、遷移確率算出部145は、制御対象の初期状態から目標状態への遷移確率を計算する。遷移確率算出部145は、目標状態への遷移確率の計算方法を説明するために、例えば図8の例を用いる。図8の例では図3と同様に状態sが初期状態であり、状態sが目標の状態である。なお、目標状態が複数ある場合、遷移確率算出部145は、複数の目標状態のうち何れか一つに遷移する確率を求める。
【0046】
遷移確率算出部145は、範囲推定部144で学習データが不足していると評価した状態へ遷移した場合、制御対象に対する制御が失敗したと判定する。図8の例では状態sと状態sが学習データ不足の状態に該当する。
【0047】
図8に示すように、制御対象は、状態sから20%の確率で状態sに遷移する。制御対象は、状態sから40%の確率で状態sに遷移し、状態sから60%の確率で状態sに遷移する。制御対象は、状態sから100%の確率で状態sに遷移する。制御対象は、状態sから100%の確率で状態sに遷移する。制御対象は、状態sから30%の確率で状態sに遷移し、状態sから70%の確率で状態sに遷移する。
【0048】
この場合、総合的に、初期の状態sから目的とする状態sへの遷移確率は56%となり、遷移確率算出部145は、状態sからの制御の評価は「目標状態への到達率56%」を算出する。
【0049】
図7に戻り説明を続ける。ステップS1206にて、演算装置140は、初期状態を評価済みであるか否かを判定する。初期状態が一つしかない場合、または既にすべての初期状態について目標状態への到達率が評価済みの場合(Yes)、処理は、ステップS1207に進む。そうでない場合(No)、処理は、ステップS1203に戻り、演算装置140は、新たな初期状態を設定する。
【0050】
ステップS1207にて、遷移確率算出部145は、すべての初期状態からの目標状態への到達率を集計し、目標状態への到達率の平均値を計算する。
ステップS1208にて、出力制御部142は、その平均値を制御対象モデルの評価結果として、範囲推定部144が推定した学習データ不足の範囲と共に出力装置120に対して出力する。この制御対象モデルの評価結果として目標状態への到達率を出力することにより、制御性能に関連する学習データの充足性を評価可能である。ステップS1208の処理が終了すると、図7の処理は終了する。
【0051】
なお、遷移確率算出部145は、目標状態への到達率の平均値以外でも、最大・最低到達率などの全体の到達率の傾向を示す統計値を、出力装置120に対して出力してもよい。更に、演算装置140は、初期状態から目標状態まで遷移する遷移時間、制御対象の状態の遷移回数などを、出力装置120に対して出力してもよく、限定されない。
【0052】
本発明によれば、シミュレータを用いることなく、人工知能技術の算出した制御則から運転データの充足性と、この運転データに基づく制御性能を評価できる。これにより、制御対象となる新規プラントへの人工知能技術の適応性評価の時間を短縮し、人工知能技術のプラント適用のリードタイムの短縮が期待できる。また、人工知能技術のパラメータ調整の時間を短縮できる。更に学習データが不足している範囲を推定することにより、比較的少ない学習データ数の追加で好適に制御性能を向上できる。
【0053】
《第2実施形態》
第1実施形態では、学習データが不足していると推定した状態の情報を活用して、初期状態から目的とする状態への遷移確率を計算することで、動作最適化部143で計算した制御則を評価した。本実施形態ではデータが不足している状態を、目標状態までの最短の制御ステップ数から推定する手段を説明する。なお、図9図10でデータが十分にそろったケース、図11図12ではデータが不足しているケースを紹介し、これらを比較するすることで手段の詳細を説明する。
【0054】
図9は、図2の例題における蒸気温度制御の問題において、全ての状態から目標の状態(蒸気温度を500℃かつ、温度変化率を約0℃/制御ステップ)までの最小の制御ステップ数と蒸気温度と温度変化率の関係を示す図である。各列は蒸気温度を示し、各行は温度変化率を示している。各セルの内容は、最小の制御ステップ数を示している。この図9は、制御対象モデルの状態空間を示している。各セルはこの状態空間を離散的に区切ったものである。
【0055】
なお、状態の定義は、図5の例と同様に蒸気温度と温度変化率で定義されており、蒸気温度の範囲は492から503℃、温度変化率の範囲は-4.0から4.0℃/制御ステップとした。なお、図9の「-」は、目標状態への遷移手段が無いことを示している。例えば、503℃で4.0℃/制御ステップの状態の場合は、どのような操作量を選択しても、温度が定義範囲を超えてしまうため、目標状態への遷移手段が無い。よって、図9において「-」が最小の制御ステップ数に代わって記載されている。なお、図9ではすべての学習データが十分に存在し、学習データから得られる状態遷移の追加情報が無いと仮定している。
【0056】
図10は、図9の最短の制御ステップ数から標準偏差を計算した図である。各列は蒸気温度を示し、各行は温度変化率を示している。各セルの内容は、周囲のセルの最小の制御ステップ数の標準偏差を示している。
【0057】
範囲推定部144は、制御対象モデルの状態を離散的に区切った空間にて、各空間の周囲の操作量の標準偏差を算出する。これにより、範囲推定部144は、学習データが不足している空間を推定する。
【0058】
標準偏差の計算には近傍(温度±1℃以下、温度変化率±1.0℃/制御ステップ以下)の範囲を対象とする。例えば、「蒸気温度494℃、温度変化率2℃/制御ステップ」と、その近傍状態の最小ステップ数は順に「4,3,5,4,4,3,5,4,4」の計9つであり、これらの標準偏差は0.67である。図9では十分な学習データが存在したため、標準偏差は最大でも2.76である。なお、この標準偏差は、近傍状態と定義する状態の範囲にも依存する。範囲の決定手段は事前に設定する手段などが考えられるが、本発明において範囲の決定手段は限定しない。
【0059】
図11は、図9と同様に目標の状態までの最小の制御ステップ数を表した図である。各列は蒸気温度を示し、各行は温度変化率を示している。各セルの内容は、周囲のセルの最小の制御ステップ数を示している。
しかし、図11のケースは、図9とは異なり、蒸気温度498~502℃、温度変化率1.0℃/制御ステップ以上の範囲および、蒸気温度500~502℃、温度変化率-2.0℃/制御ステップ以上の範囲のいくつかの学習データを欠損させたケースである。学習データの欠損により、例えば蒸気温度496℃、温度変化率2.0℃/制御ステップの状態では、図9での3制御ステップだったのに対して、15制御ステップまで増えている。
【0060】
次に図12は、図11の最小の制御ステップ数から、各空間の周囲の操作量の標準偏差を計算した図である。
図10での標準偏差は最大でも2.76であったのに対し、図12では学習データを欠損させた範囲の標準偏差はすべて3以上の数値であり、最大5.36まで上昇している。
このように、学習データの不足している範囲の状態は標準偏差が高くなる傾向にあるため、標準偏差の高い状態の範囲を、優先的にデータ収集することで、学習データ不足の状態数が減り、制御性能の向上が期待できる。
【0061】
《第3実施形態》
本実施形態では第1実施形態の制御則の評価手段を活用することで、状態を定義する際の分割数を調整する手段を説明する。
第1実施形態では、モデル生成部147で生成した制御対象モデルを評価する手段について説明し、第2実施形態では、学習データ不足の状態を推定する学習データ推定部149について説明した。しかし、制御対象モデルの性能や学習データ不足の定義は、状態を定義する際の分割数にも依存する。そこで、本実施形態では、制御対象モデルを評価結果に基づいて状態を定義する際の分割数を調整する状態分割数調整部146を備えている。
【0062】
図13は、図1における知的制御装置100の演算装置140に、新たに状態分割数調整部146を加え、知的制御装置101としたものである。
状態分割数調整部146は、遷移確率算出部145の出力した「制御対象が目的を達成する確率」を入力とし、新しい状態の分割数を出力する。ここで状態の分割数とは、図5に示したような状態定義において、各状態は各プロセス値の範囲を有しており、状態の分割数を変更することによって状態の総数や、各状態のプロセス値の範囲が変動する。状態分割数調整部146は、操作量決定部150が区切る空間の幅を拡張または縮小させて、目標状態に遷移する確率を高める。
【0063】
図14は、知的制御装置101が行う処理のフローチャートである。本フローチャートは、図4のフローチャートにステップS1209とステップS1210を加えたものである。
ステップS1209では、遷移確率算出部145で計算した目標状態への到達率の平均値を用いて、知的制御装置101の終了判定を実施する。到達率の平均値が、事前に設定した数値以上になった場合や、または収束した場合は、図14の処理を終了する。処理の終了条件を満たしていない場合はステップS1210へ移行する。なお、目標状態への到達率の平均値の入力が初回、またはフローの終了条件の判定に十分に「目標状態への到達率」が入力されていない場合は、ステップS1210へ移行する。
【0064】
ステップS1210にて、状態分割数調整部146は、遷移確率算出部145が計算した目標状態への到達率の平均値を入力として、目標状態に遷移する確率が上昇するように、操作量決定部150が区切る空間の幅を拡張または縮小して、状態の分割数を更新する。その後、処理はステップS1201に戻る。なお、更新の手段としては最急降下法や、確率的勾配降下法などの手段が考えらえるが、本発明ではこれらの最適化手段に限定しない。
【0065】
(変形例)
本発明は上記した実施形態に限定されるものではなく、様々な変形例が含まれる。例えば上記した実施形態は、本発明を分かりやすく説明するために詳細に説明したものであり、必ずしも説明した全ての構成を備えるものに限定されるものではない。ある実施形態の構成の一部を他の実施形態の構成に置き換えることが可能であり、ある実施形態の構成に他の実施形態の構成を加えることも可能である。また、各実施形態の構成の一部について、他の構成の追加・削除・置換をすることも可能である。
【0066】
上記の各構成、機能、処理部、処理手段などは、それらの一部または全部を、例えば集積回路などのハードウェアで実現してもよい。上記の各構成、機能などは、プロセッサがそれぞれの機能を実現するプログラムを解釈して実行することにより、ソフトウェアで実現してもよい。各機能を実現するプログラム、テーブル、ファイルなどの情報は、メモリ、ハードディスク、SSD(Solid State Drive)などの記録装置、または、フラッシュメモリカード、DVD(Digital Versatile Disk)などの記録媒体に置くことができる。
【0067】
各実施形態に於いて、制御線や情報線は、説明上必要と考えられるものを示しており、製品上必ずしも全ての制御線や情報線を示しているとは限らない。実際には、殆ど全ての構成が相互に接続されていると考えてもよい。
【符号の説明】
【0068】
100,101 知的制御装置
110 入力装置
116 データ読み込み装置
120 出力装置
130 記憶装置
131 運転データ記憶部
132 モデル記憶部
133 制御則記憶部
134 データ不足範囲記憶部
135 知的制御プログラム
140 演算装置
141 入力制御部
142 出力制御部
143 動作最適化部
147 モデル生成部
148 遷移算出部
144 範囲推定部
145 遷移確率算出部
146 状態分割数調整部
147 モデル生成部
148 遷移算出部
149 学習データ推定部
150 操作量決定部
200 火力発電プラント
201 ボイラドラム
202,210,211 蒸気配管
203 第1過熱器
204 第2過熱器
205 蒸気タービン
206 スプレー
207 調整弁
208 スプレー配管
209 温度センサ
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11
図12
図13
図14