(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024173121
(43)【公開日】2024-12-12
(54)【発明の名称】運転支援装置、および運転支援方法
(51)【国際特許分類】
G06N 20/00 20190101AFI20241205BHJP
G05B 23/02 20060101ALI20241205BHJP
【FI】
G06N20/00
G05B23/02 T
【審査請求】未請求
【請求項の数】10
【出願形態】OL
(21)【出願番号】P 2023091291
(22)【出願日】2023-06-02
(71)【出願人】
【識別番号】000005108
【氏名又は名称】株式会社日立製作所
(74)【代理人】
【識別番号】110001689
【氏名又は名称】青稜弁理士法人
(72)【発明者】
【氏名】関合 孝朗
(72)【発明者】
【氏名】徳田 勇也
(72)【発明者】
【氏名】堀 嘉成
【テーマコード(参考)】
3C223
【Fターム(参考)】
3C223AA01
3C223BA02
3C223CC02
3C223DD03
3C223EB01
3C223EB05
3C223FF03
3C223FF17
3C223FF22
3C223FF26
3C223FF43
3C223GG03
3C223HH02
3C223HH29
(57)【要約】 (修正有)
【課題】詳細な判定条件を設定することなく学習データの充足度を判定し、学習データが不足している範囲を特定する運転支援装置及び方法を提供する。
【解決手段】方法は、制御対象となるプラントから取得した計測信号に基づいて得られる2以上の学習データ群のうち、第1の学習データ群と該データ群を含む第2の学習データ群の各学習データを用いて学習して夫々の学習結果を生成し、学習データ群間で学習データ量が異なる第1の範囲と、第1の学習データ群における第1の範囲以外の範囲である第2の範囲を特定し、2つの学習結果との差分を分析し、計測信号に基づいて得られる2以上の学習データ群の学習データの充足性を評価する際、第1の範囲に対応する範囲の学習結果と第2の範囲に対応する範囲の学習結果とを特定し、第2の範囲に対応する範囲のうち、2つの学習結果の差分が所定の条件を満たす第3の範囲を、学習データが不足している範囲と評価する。
【選択図】
図2
【特許請求の範囲】
【請求項1】
プロセッサとメモリとを有したコンピュータにより、制御対象となるプラントから取得した計測信号に基づいて、前記プラントの操作方法を学習する運転支援装置であって、
前記プロセッサは、
前記計測信号に基づいて得られる2以上の学習データ群のうち、第1の学習データ群と当該第1の学習データ群を含む第2の学習データ群の各学習データを用いて学習して、前記第1の学習データ群を用いて学習した第1の学習結果と前記第2の学習データ群を用いて学習した第2の学習結果とを生成し、
前記第1の学習データ群と前記第2の学習データ群とで学習データ量が異なる範囲を分析し、前記第1の学習データ群と前記第2の学習データ群とで学習データ量が異なる第1の範囲と、前記第1の学習データ群における前記第1の範囲以外の範囲である第2の範囲を特定する第1の分析を実行し、
前記第1の学習結果と前記第2の学習結果との差分を分析する第2の分析を実行し、
前記第1の分析の結果と前記第2の分析の結果とに基づき、前記計測信号に基づいて得られる2以上の学習データ群の学習データの充足性を評価し、
前記学習データの充足性を評価する際、
前記第1の学習結果及び前記第2の学習結果のうち、前記第1の範囲に対応する範囲の学習結果と前記第2の範囲に対応する範囲の学習結果とを特定し、
前記第2の範囲に対応する範囲のうち、前記第1の学習結果と前記第2の学習結果との差分が所定の条件を満たす第3の範囲を特定し、特定された当該第3の範囲を学習データが不足している範囲と評価する、
ことを特徴とした運転支援装置。
【請求項2】
請求項1に記載の運転支援装置であって、
前記プロセッサは、
前記計測信号と前記計測信号から導かれるデータとが配置されたテーブル形式で、前記プラントの状態を定義し、または前記計測信号と前記計測信号から導かれるデータとを所定の手法でクラスタリングすることにより、前記プラントの状態を定義し、
前記定義した状態から得られるモデルに基づいて、前記プラントの特性を状態遷移行列として計算することにより、前記プラントの操作方法を学習する、
ことを特徴とした運転支援装置。
【請求項3】
請求項2に記載の運転支援装置であって、
前記プロセッサは、
前記状態遷移行列と所定の報酬とから得られる、前記プラントの状態の価値、操作量の予測値、目標状態までの操作回数、所定回数の操作で到達できる前記状態の範囲、の少なくとも1つについて、前記差分を計算する、
ことを特徴とした運転支援装置。
【請求項4】
請求項1に記載の運転支援装置であって、
前記プロセッサは、
前記充足性の評価において、学習データが異なる状態の範囲からの距離が長くなるほど、学習結果への影響を許容する閾値の値を低く設定し、
前記差分が前記閾値の値を超える状態の範囲を、前記学習データが不足している範囲と評価する、
ことを特徴とした運転支援装置。
【請求項5】
請求項4に記載の運転支援装置であって、
前記プロセッサは、
学習結果の変化幅と前記閾値との差に応じて、前記状態の範囲を、カラーマップ、等高線で表示し、または学習結果の変化幅と前記閾値の差が一定以上大きい前記状態の範囲を強調して表示することにより、前記学習データが不足している範囲を提示する、
ことを特徴とした運転支援装置。
【請求項6】
コンピュータにより、制御対象となるプラントから取得した計測信号に基づいて、前記プラントの操作方法を学習する運転支援方法であって、
前記計測信号に基づいて得られる2以上の学習データ群のうち、第1の学習データ群と当該第1の学習データ群を含む第2の学習データ群の各学習データを用いて学習して、
前記第1の学習データ群を用いて学習した第1の学習結果と前記第2の学習データ群を用いて学習した第2の学習結果とを生成し、
前記第1の学習データ群と前記第2の学習データ群とで学習データ量が異なる範囲を分析し、前記第1の学習データ群と前記第2の学習データ群とで学習データ量が異なる第1の範囲と、前記第1の学習データ群における前記第1の範囲以外の範囲である第2の範囲を特定する第1の分析を実行し、
前記第1の学習結果と前記第2の学習結果との差分を分析する第2の分析を実行し、
前記第1の分析の結果と前記第2の分析の結果とに基づき、前記計測信号に基づいて得られる2以上の学習データ群の学習データの充足性を評価し、
前記学習データの充足性を評価する際、
前記第1の学習結果及び前記第2の学習結果のうち、前記第1の範囲に対応する範囲の学習結果と前記第2の範囲に対応する範囲の学習結果とを特定し、
前記第2の範囲に対応する範囲のうち、前記第1の学習結果と前記第2の学習結果との差分が所定の条件を満たす第3の範囲を特定し、特定された当該第3の範囲を学習データが不足している範囲と評価する、
ことを特徴とした運転支援方法。
【請求項7】
請求項6に記載の運転支援方法であって、
前記計測信号と前記計測信号から導かれるデータとが配置されたテーブル形式で、前記プラントの状態を定義し、または前記計測信号と前記計測信号から導かれるデータとを所定の手法でクラスタリングすることにより、前記プラントの状態を定義し、
前記定義した状態から得られるモデルに基づいて、前記プラントの特性を状態遷移行列として計算することにより、前記プラントの操作方法を学習する、
ことを特徴とした運転支援方法。
【請求項8】
請求項7に記載の運転支援方法であって、
前記状態遷移行列と所定の報酬とから得られる、前記プラントの状態の価値、操作量の予測値、目標状態までの操作回数、所定回数の操作で到達できる前記状態の範囲、の少なくとも1つについて、前記差分を計算する、
ことを特徴とした運転支援方法。
【請求項9】
請求項6に記載の運転支援方法であって、
前記充足性の評価において、学習データが異なる状態の範囲からの距離が長くなるほど、学習結果への影響を許容する閾値の値を低く設定し、
前記差分が前記閾値の値を超える状態の範囲を、前記学習データが不足している範囲と評価する、
ことを特徴とした運転支援方法。
【請求項10】
請求項9に記載の運転支援方法であって、
学習結果の変化幅と前記閾値との差に応じて、前記状態の範囲を、カラーマップ、等高線で表示し、または学習結果の変化幅と前記閾値の差が一定以上大きい前記状態の範囲を強調して表示することにより、前記学習データが不足している範囲を提示する、
ことを特徴とした運転支援方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、運転支援装置、および運転支援方法に関する。
【背景技術】
【0002】
近年、産業分野への機械学習技術の適用のニーズが高まり、プロセス制御の分野においても機械学習を適用した制御技術の適用事例が増加している。機械学習を実適用する際には、収集したデータを用いて学習を実施するが、この学習データが不足している場合には最適な制御方法を学習できないという課題がある。そのため、適用分野を問わず、学習データを適切に収集するための技術開発が検討されている。
【0003】
例えば、特許文献1に開示されている学習データ収集装置は、農作物を撮像した画像データにメタデータを付加した学習データを複数含む学習データセットと、検索情報とを対応付けて記憶する学習データ記憶部と、複数の撮像デバイスから収集した画像データと、当該画像データに対応するメタデータとを収集するデータ収集部と、収集した画像データに対応するメタデータと、学習データの充足度の判定条件とに基づいて、学習データが充足されているか否かを判定し、充足されていない場合に、不足している学習データを補完するように、データ収集部に画像データ及びメタデータの収集を要求し、充足されている場合に、学習データセットを対応付けて学習データ記憶部に記憶させる充足処理部とを備える。
【0004】
また、特許文献2に開示されている学習装置は、複数件の学習データで構成され、所定の能力を学習器に機械学習させるための第1の学習データ群を取得する学習データ取得部と、前記第1の学習データ群を利用して、前記学習器の機械学習を実施することで、前記所定の能力を学習した第1の学習器を構築する学習処理部と、前記第1の学習器がサンプルデータに対して前記所定の能力を発揮した結果に基づいて、前記第1の学習器の機械学習に利用した学習データの不足件数の程度を評価する不足件数評価部と、を備える。
【先行技術文献】
【特許文献】
【0005】
【特許文献1】特開2021-144380号公報
【特許文献2】特開2018-190140号公報
【発明の概要】
【発明が解決しようとする課題】
【0006】
上記特許文献1によれば、学習データの充足度を判定条件に基づいて評価し、不足している学習データを特定している。また、特許文献2では、正答率などの指標で学習結果の能力を評価し、学習データの不足件数の程度を求めている。
【0007】
プロセス制御の分野においては、計測しているプロセス値の数が多いこと、機器の運用条件が多岐に渡ることなどから、学習データの充足度を判定する詳細な条件を決定することは難しい。また、学習データを適切に収集するには、学習データの不足件数だけではなく、学習データが不足している範囲に関する情報も取得できることが望ましい。
【0008】
そこで、本発明の目的は、詳細な判定条件を設定することなく学習データの充足度を判定でき、かつ学習データが不足している範囲を特定できる運転支援装置、および運転支援方法を提供することにある。
【課題を解決するための手段】
【0009】
本発明にかかる運転支援装置は、プロセッサとメモリとを有したコンピュータにより、制御対象となるプラントから取得した計測信号に基づいて、前記プラントの操作方法を学習する運転支援装置であって、前記プロセッサは、前記計測信号に基づいて得られる2以上の学習データ群のうち、第1の学習データ群と当該第1の学習データ群を含む第2の学習データ群の各学習データを用いて学習して、前記第1の学習データ群を用いて学習した第1の学習結果と前記第2の学習データ群を用いて学習した第2の学習結果とを生成し、前記第1の学習データ群と前記第2の学習データ群とで学習データ量が異なる範囲を分析し、前記第1の学習データ群と前記第2の学習データ群とで学習データ量が異なる第1の範囲と、前記第1の学習データ群における前記第1の範囲以外の範囲である第2の範囲を特定する第1の分析を実行し、前記第1の学習結果と前記第2の学習結果との差分を分析する第2の分析を実行し、前記第1の分析の結果と前記第2の分析の結果とに基づき、前記計測信号に基づいて得られる2以上の学習データ群の学習データの充足性を評価し、前記学習データの充足性を評価する際、前記第1の学習結果及び前記第2の学習結果のうち、前記第1の範囲に対応する範囲の学習結果と前記第2の範囲に対応する範囲の学習結果とを特定し、前記第2の範囲に対応する範囲のうち、前記第1の学習結果と前記第2の学習結果との差分が所定の条件を満たす第3の範囲を特定し、特定された当該第3の範囲を学習データが不足している範囲と評価する、ことを特徴とした運転支援装置として構成される。
【発明の効果】
【0010】
本発明によれば、詳細な判定条件を設定することなく学習データの充足度を判定でき、かつ学習データが不足している範囲を特定できる。
【図面の簡単な説明】
【0011】
【
図1A】運転支援装置およびこれに関連する装置の構成例を説明するブロック図である。
【
図2】運転支援装置の動作を説明するフローチャート図である。
【
図3A】本実施例の適用対象となるプラントの概要の一例を表した図である。
【
図4】本実施例で用いられる測定信号データベースに保存されるデータの一態様を説明する図である。
【
図5B】学習部の他の一例を説明するための図である。
【
図6A】学習部の動作において扱われるデータや数式を説明するための図である。
【
図6B】学習部の動作において扱われるデータや数式を説明するための図である。
【
図6C】学習部の動作において扱われるデータや数式を説明するための図である。
【
図6D】学習部の動作において扱われるデータや数式を説明するための図である。
【
図6E】学習部の動作の手順を示すフローチャートである。
【
図7A】学習データ分割部、学習データ比較部の動作を説明する図である。
【
図7B】学習データ分割部、学習データ比較部の動作を説明する図である。
【
図8A】学習結果の例を説明する図である(最適操作量の予測値)。
【
図8B】学習結果の例を説明する図である(目標状態までの最小操作回数)。
【
図8C】学習結果の例を説明する図である(状態価値関数の形状)。
【
図9A】目標状態が可変である場合の学習結果の例を説明する図である。
【
図9B】目標状態が可変である場合の学習結果の例を説明する図である(目標状態に追従できる場合)。
【
図9C】目標状態が可変である場合の学習結果の例を説明する図である(目標状態に追従できない場合)。
【
図10A】学習結果比較部の動作を説明する図である。
【
図10B】学習結果比較部の動作を説明する図である。
【
図10C】学習結果比較部の動作を説明する図である。
【
図11A】充足性評価部の動作を説明する図である。
【
図11B】充足性評価部の動作を説明する図である。
【発明を実施するための形態】
【0012】
以下、図面を参照して本発明の実施形態を説明する。実施例は、本発明を説明するための例示であって、説明の明確化のため、適宜、省略および簡略化がなされている。本発明は、他の種々の形態でも実施することが可能である。特に限定しない限り、各構成要素は単数でも複数でも構わない。図面において示す各構成要素の位置、大きさ、形状、範囲などは、発明の理解を容易にするため、実際の位置、大きさ、形状、範囲などを表していない場合がある。このため、本発明は、必ずしも、図面に開示された位置、大きさ、形状、範囲などに限定されない。
【0013】
各種情報の例として、「テーブル」、「リスト」、「キュー」等の表現にて説明することがあるが、各種情報はこれら以外のデータ構造で表現されてもよい。例えば、「XXテーブル」、「XXリスト」、「XXキュー」等の各種情報は、「XX情報」としてもよい。識別情報について説明する際に、「識別情報」、「識別子」、「名」、「ID」、「番号」等の表現を用いるが、これらについてはお互いに置換が可能である。
【0014】
同一あるいは同様の機能を有する構成要素が複数ある場合には、同一の符号に異なる添字を付して説明する場合がある。また、これらの複数の構成要素を区別する必要がない場合には、添字を省略して説明する場合がある。
【0015】
実施例において、プログラムを実行して行う処理について説明する場合がある。ここで、計算機は、プロセッサ(例えばCPU、GPU)によりプログラムを実行し、記憶資源(例えばメモリ)やインターフェースデバイス(例えば通信ポート)等を用いながら、プログラムで定められた処理を行う。そのため、プログラムを実行して行う処理の主体を、プロセッサとしてもよい。同様に、プログラムを実行して行う処理の主体が、プロセッサを有するコントローラ、装置、システム、計算機、ノードであってもよい。プログラムを実行して行う処理の主体は、演算部であれば良く、特定の処理を行う専用回路を含んでいてもよい。ここで、専用回路とは、例えばFPGA(Field Programmable Gate Array)やASIC(Application Specific Integrated Circuit)、CPLD(Complex Programmable Logic Device)等である。
【0016】
プログラムは、プログラムソースから計算機にインストールされてもよい。プログラムソースは、例えば、プログラム配布サーバまたは計算機が読み取り可能な記憶メディアであってもよい。プログラムソースがプログラム配布サーバの場合、プログラム配布サーバはプロセッサと配布対象のプログラムを記憶する記憶資源を含み、プログラム配布サーバのプロセッサが配布対象のプログラムを他の計算機に配布してもよい。また、実施例において、2以上のプログラムが1つのプログラムとして実現されてもよいし、1つのプログラムが2以上のプログラムとして実現されてもよい。
【0017】
本実施例で示す各装置は、例えば、
図1B(コンピュータ概略図)に示すような、CPU1601と、メモリ1602と、HDD(Hard Disk Drive)等の外部記憶装置1603と、CD(Compact Disk)やUSBメモリ等の可搬性を有する記憶媒体1608に対して情報を読み書きする読書装置1607と、マイク、キーボード、マウスといった音声を含む各種情報の入力を受け付ける入力装置1606と、入力され、処理に用いられる各種情報を出力するディスプレイ等の出力装置1605と、通信ネットワークに接続するためのNIC(Network Interface Card)等の通信装置1604と、これらを連結するシステムバス等の内部通信線(システムバスという)1609と、を備えた一般的なコンピュータ1600により実現できる。
図1Bでは、コンピュータ1600が上述した出力装置1605を有する前提で記載したが、本実施例のように、出力装置が外部に設けられ、両者が互いに通信することにより、同様の機能を実現してよい。
【0018】
また、各装置に記憶され、あるいは処理に用いられる様々なデータは、CPU1601がメモリ1602または外部記憶装置1603(例えば、後述する計測信号データベース(図ではDBと記載。以下本文についても同様。)300、学習DB610、学習結果DB620)から読み出して利用することにより実現可能である。また、これらの装置が有する各機能部(例えば、後述する学習データ充足性評価部400、学習データ分割部500、学習部510、学習データ比較部520、学習結果比較部530、充足性評価部540、充足性可視化部700、運転支援装置動作制御部800)は、CPU1601が外部記憶装置1603に記憶されている所定のプログラムをメモリ1602にロードして実行することにより実現可能である。
【0019】
上述した所定のプログラムは、読書装置1607を介して記憶媒体1608から、あるいは、通信装置1604を介してネットワークから、外部記憶装置1603に記憶(ダウンロード)され、それから、メモリ1602上にロードされて、CPU1601により実行されるようにしてもよい。また、読書装置1607を介して、記憶媒体1608から、あるいは通信装置1604を介してネットワークから、メモリ1602上に直接ロードされ、CPU1601により実行されるようにしてもよい。
【0020】
以下では、後述する運転支援装置が、ある1つのコンピュータにより構成される場合を例示するが、これらの機能の全部または一部が、クラウドのような1または複数のコンピュータに分散して設けられ、ネットワークを介して互いに通信することにより同様の機能を実現してもよい。
【0021】
図1Aは、本実施例に係る運転支援装置200、およびこれに関連する装置の構成例を説明するブロック図である。本実施例では、運転支援装置200は、制御装置120や、制御対象である機器110を含むプラント100、及び外部装置900と接続されている。
【0022】
図1Aの運転支援装置200は、一般には、上述したような計算機装置(コンピュータ)により構成されている。つまり、CPUの如き演算装置がプログラムに従って各種処理機能を実行する。
【0023】
その演算装置における処理機能を模式的に示すならば、学習用のデータの充足性を評価する学習データ充足性評価部400、学習データ充足性評価部400での評価結果を可視化する学習データ充足性可視化部700、運転支援装置200全体の動作を制御する運転支援装置動作制御部800を備えたものということができる。また、学習データ充足性評価部400には、学習データ分割部500、学習部510、学習データ比較部520、学習結果比較部530、充足性評価部540を備えている。
【0024】
運転支援装置200における各部の動作である処理機能の詳細については、
図2以降で説明する。なお、上述した各部は、上記のとおりハードウェアとしても実現できる。ここで、本実施例では、各構成要素を「~部」と表現しているが、「~ユニット」などとその表現は問わない。
【0025】
運転支援装置200は、データベースとして計測信号DB300、学習DB610、学習結果DB620を備える。
【0026】
各データベースには、電子化された情報が保存されており、通常電子ファイル(電子データ)と呼ばれる形態で情報が保存される。尚、これらDBについては、運転支援装置200の外部に設け、ネットワークを介して接続可能な構成でもよい。
【0027】
また、運転支援装置200は、外部とのインターフェイスとして、外部入力インターフェイス210及び外部出力インターフェイス220を備える。そして、運転支援装置200は、これらを介して、適用対象であるプラント100、及び外部装置900に接続している。
【0028】
プラント100は、制御装置120と機器110を有して構成される。ここで、機器110が制御装置120にセンサ信号130を送信し、制御装置120が機器110に操作信号140を送信する。
【0029】
外部装置900には、キーボード920やマウス930で実現される外部入力装置910と、画像表示装置940が備えられている。外部装置900は、計算機装置(コンピュータ)に接続されている。また、外部装置900は、端末装置として実現でき、タブレット、スマートフォン、ノートPCなどが含まれる。
【0030】
センサ信号130と操作信号140を含む計測信号1、および外部入力装置910で生成された外部入力信号2は、運転支援装置200に送信される。運転支援装置200では計測信号1、外部入力信号2を処理して外部出力信号14を生成し、画像表示装置940に送信する。
【0031】
運転支援装置200のユーザは、キーボード920、マウス930を操作することで外部入力信号2を生成し、運転支援装置200に保存されているデータを画像表示装置940に表示することができる。画像表示装置940には、例えば、
図4-
図11を用いて、後述するデータベースの態様、演算部の動作結果などを表示可能である。
【0032】
尚、本実施例の運転支援装置200においては、計算機装置を構成する演算装置、およびデータベースDBが運転支援装置200の内部に備えられている例を示している。但し、上述したように、これらの一部の装置を運転支援装置200の外部に配置し、データのみを装置間で通信するようにしてもよい。
【0033】
また、本実施例には、運転支援装置200を用いた方法も含まれることは言うまでもない。また、本実施例では運転支援装置200の適用対象であるプラント100を制御装置120と機器110で構成しているが、この構成以外の設備としても実施可能であることは言うまでもない。
【0034】
また、本実施例では図示していないが、学習部510で学習した結果を制御装置120に送信し、学習結果に従って機器110を制御することも可能である。
【0035】
図2は、運転支援装置200の動作を説明するフローチャート図である。尚、運転支援装置動作制御部800は、運転支援装置200に備えられている演算装置を本フローチャートに従って動作させる役割を持つ。
【0036】
図2における処理ステップ1000では、運転支援装置200は、外部入力インターフェイス210を介して、プラント100から計測信号1を取得し、計測信号3を計測信号データベース300に保存する。計測信号3には、プラント100で測定したセンサ信号130、操作信号140が含まれる。計測信号データベース300に保存されるデータの態様は、
図4を用いて後述する。
【0037】
処理ステップ1010からステップ1060は、運転支援装置200は、学習データ充足性評価部400を動作させて実行する。
【0038】
処理ステップ1010では、運転支援装置200は、学習データ分割部500を動作させて、計測信号データベース300に保存されている計測信号4を複数の学習データ5に分割し、それぞれ学習データデータベース610に保存する。本実施例では、学習データ分割部500が、計測信号4を学習データAと学習データBの2つに分割した場合、すなわち、学習データAを格納する学習データDB610aと、学習データBを格納する学習データDB610bの2つに分割した場合について述べるが、データ分割数は2つに限らず任意の数に分割することもできる。
【0039】
処理ステップ1020では、学習データ充足性評価部400は、学習部510を動作させて、学習データ6の入力に対して学習結果7を出力し、学習結果データベース620に保存する。学習部510の動作内容は、
図5を用いて後述する。
【0040】
処理ステップ1030では、学習データ充足性評価部400は、全学習部が動作、すなわち全ての学習データの組み合わせについて学習部を動作させたかどうかを判定する。判定がYesの場合はステップ1040に進み、判定がNoの場合はステップ1020に戻る。
【0041】
図1Aでは、2種類の学習データについて、学習データ充足性評価部400が学習部510を動作させることを想定している。すなわち、学習部510は、学習データ6a(学習データA)で学習した結果を、学習結果Aとして格納する学習結果DB620aに保存する。また、学習部510は、学習データ6a(学習データA)と学習データ6b(学習データB)とで学習した結果を、学習結果A+Bとして学習結果DB620bに保存する。この場合、
図2のステップ1030では、2種類の学習データの全てに対して学習部510が動作した場合に、判定がYesとなる。
【0042】
また、処理ステップ1010において、データ分割数が2つを超える場合には、学習部では分割したデータを任意に組み合わせた第1の学習データ群と、当該第1の学習データ群に異なるデータ群を追加した第2の学習データ群の各学習データを用いて学習することとなる。
【0043】
次に、処理ステップ1040では、学習データ充足性評価部400は、学習データ比較部520を動作させて、学習データ8の入力に対して学習データ比較結果9を生成して、生成した学習データ比較結果9を充足性評価部540に送信する。学習データ比較部520の詳細は
図6を用いて後述するが、学習データ比較部520は、学習データAと学習データA+Bの分布や学習データ数などを比較する。
【0044】
処理ステップ1050では、学習データ充足性評価部400は、学習結果比較部530を動作させて、学習結果10の入力に対して学習結果比較結果11を生成して、生成した学習結果比較結果11を充足性評価部540に送信する。学習結果比較部530の詳細は
図7A-
図9Cを用いて後述するが、学習結果比較部530は、学習結果Aと学習結果A+Bの違いを分析する。
【0045】
処理ステップ1060では、学習データ充足性評価部400は、充足性評価部540を動作させて、学習データ比較結果9と学習結果比較結果11の入力に対して学習データ充足性評価結果12を生成し、生成した学習データ充足性評価結果12を充足性可視化部700に送信する。充足性評価部540の詳細は、
図10を用いて後述する。
【0046】
処理ステップ1070では、運転支援装置200は、充足性可視化部700を動作させて、学習データ充足性評価結果12の入力に対して学習データ充足性可視化データ13を生成する。そして、充足性可視化部700は、生成した学習データ充足性可視化データ13を、外部出力インターフェイス220を介して、外部出力信号14として画像表示装置940に送信する。画像表示装置940に表示する学習データ充足性可視化データ13の内容は、
図11を用いて後述する。
【0047】
図3Aは、本実施例で適用対象となるプラント100の概要の一例を表した図である。プラント100は、重合反応によりポリマーを製造するバッチプラントである。主要な構成要素は、反応槽111、ジャケット112、攪拌翼113、ポンプ114、バルブ115である。反応槽111には、原料であるモノマーが溶媒と一緒に投入され、開始剤によりモノマーの重合反応が開始される。運転時には、投入されたモノマーなどができるだけ均一になるように攪拌翼113により攪拌される。また、反応槽111に取り付けられた温度調節用のジャケット112には、温度が調節された水がポンプ114で送られ、反応槽内で計測された温度Trが目標となる温度に制御される。
【0048】
次に、反応槽の温度Trの調節方法について詳細に説明する。本実施例では、反応槽内の温度Trをコントロールするために、ジャケット112の入口温度Tcを変更する方式とした。具体的には、計測された温度Trがコントローラ116aに入力され、コントローラ116aは、上記温度Trと上記温度Trの目標値SV1とを比較し、ジャケット入口温度Tcの設定値(SV2)をコントローラ116bに与える。例えば、コントローラ116aは、上記温度Trが上記目標値SV1よりも高ければ、ジャケット入口温度Tcの設定値SV2を下げる方向に調節し、上記温度Trが上記目標値SV1よりも低ければ、ジャケット入口温度Tcの設定値を上げる方向に調節する。コントローラ116bは、ジャケット入口温度Tcの設定値SV2と、温度センサにより計測されたジャケット入口温度Tcの実測値とを比較し、ジャケット入口温度Tcの実測値がジャケット入口温度Tcの設定値SV2に近づくような操作量MVにより、バルブ115a、115bの開度を調節する。
【0049】
尚、
図3Aがプラント100である場合、
図1におけるセンサ信号130は反応槽の温度Tr、ジャケット入口温度Tcであり、操作信号140は操作量MVである。
【0050】
図3Bは、目標情報117の一例を示す図である。本実施例では、反応槽の温度Tr1を時刻t1から時刻t2の間に温度Tr2まで上昇させ、その後、温度Tr2を一定で制御することを目標としている。そのため、反応槽内で計測された温度Trの目標値の時間的な推移が目標情報117として記憶されている。
【0051】
図4は、本実施例で用いられる計測信号データベース300に保存されるデータの一態様を説明する図である。計測信号データベース300には、データ項目毎の時系列データがサンプリング周期毎に保存される。本実施例におけるデータ項目の例としては、センサ信号130である反応槽の温度Tr、ジャケット入口温度Tcや、操作信号140である操作量MVなどが挙げられる。
図4では、例えば、データ項目X1として、反応槽の温度Trが、時刻「0:00」から1分間隔で記憶されていることを示している。ジャケット入口温度Tcや操作量MVなどについても同様に記憶される。
【0052】
図5A、5Bは、学習部510を説明する図である。尚、学習部510は、学習データを用いてプラントの操作方法を学習するアルゴリズムであれば、
図5A、5Bで述べた以外のアルゴリズムを用いても良い。
【0053】
学習部510は、状態遷移モデルを有する。状態遷移モデルは、ある状態からある行動をとった際に遷移する状態を確率付きで定義したモデルである。したがって、状態遷移モデルを作成するためには、まず、状態、行動、遷移時間の3つを定義する必要がある。
【0054】
状態とは、例えば、制御対象が今どうなっているかを表すものである。つまり、状態とは、現時点における制御対象の様子や挙動を表すものであり、例えば、ある時点における反応槽の温度Trが上記状態として挙げられる。また、目標状態とは、目標情報により制御される制御対象の状態を表すものであり、例えば、プラント100の反応槽の温度Trが目標値SV1やSV1’になる状態が挙げられる。本実施例では、一例として、状態を、反応槽の温度Trとその変化量dTrを組合せたテーブル形式で表現した。具体的には、
図5Aに示すように、反応槽の温度Trの最小値Tr_minと最大値Tr_max、及び反応槽の温度Trの変化量dTrの最小値dTr_minと最大値dTr_maxを境界として、それぞれ20分割した400個の状態を定義した。すなわち、
図5Aでは、状態を、計測信号から得られる制御対象の状態を示すデータ(例えば、反応槽の温度Tr)や、当該状態から導かれるデータ(例えば、反応槽の温度Trの変化量dTr)をマトリックス状に配置したテーブル形式で定義している。
【0055】
また、行動は、一例として、反応槽の温度Trを、1℃単位で離散化した設定値への遷移とし、遷移時間は、10秒とした。
【0056】
また、
図5Bに示すように、データクラスタリング技術を用いて状態を表現することも可能である。本実施例では、データクラスタリング技術の一例として、適応共鳴理論を用いた。
図5Bに、適応共鳴理論を用いた場合の状態定義の方法を示す。
図5Aと同様に、横軸を反応槽の温度Tr、縦軸を反応槽の温度Trの変化量dTrとし、過去の運転データを黒丸としてプロットしたものである。
図5Bに示すように、反応槽の温度Trの最小値Tr_min付近から、反応槽の温度Trの最大値Tr_max付近まで昇温するプロセスでは、上記温度Trの変化量dTrが小さな値をとるときは上記温度Trの最小値Tr_min付近または、上記温度Trの最小値Tr_max付近の運転データのみである。そのため、その間の範囲では、上記温度Trの変化量dTrは比較的大きな値となるため、運転データが存在しない範囲RNがある。適応共鳴理論を用いて、破線の円CCで示したように、運転データを一定の塊り毎に分類したカテゴリーを生成する。そのため、運転データがない範囲にカテゴリーは生成されない。したがって、カテゴリーを状態として定義することで、必要な数だけ状態を定義することができる。尚、本実施例ではデータクラスタリング技術として適用共鳴理論を用いた場合について説明したが、ベクトル量子化など、別のデータクラスタリング手法を用いてデータを離散化しても良い。
【0057】
さらに、学習部510は、
図5A、5Bに示した手法を、計測信号から得られる制御対象の状態を示すデータの種類に応じて切り替えてもよい。例えば、学習部510は、反応槽の温度Trの状態を定義する場合には
図5Aに示した手法を用い、反応槽の温度Trの変化量dTrの状態を定義する場合には
図5Bに示した手法を用いてもよい。これにより、上記制御対象の状態を示すデータの種類に応じた相応しい状態の定義が可能となる。
【0058】
あるいは、ある1つの種類の状態を定義する場合でも、定義する時間帯に応じて、これらの手法を切り替えて用いてもよい。これにより、上記制御対象の状態が時間的に異なる特性を有する場合でも、適切な状態の定義が可能となる。
【0059】
次に、
図6A-Eを用いて学習部510の動作を説明する。
図6A-6Dは、学習部510の動作において扱われるデータや数式を説明するための図である。また、
図6Eは、学習部510の動作の手順を示すフローチャートである。学習部510では、状態遷移モデルを用いて無限時間ステップ先のあらゆる将来状態を予測し、最適な制御則を計算する。尚、学習部510は下記で述べる方法に限らず、強化学習、遺伝的アルゴリズムなどの最適操作を学習する方法であれば良い。
【0060】
学習部510では、まず状態遷移モデルを用いて、減衰型状態遷移行列を計算する(ステップ2000)。減衰型状態遷移行列Dを計算する方法の一例を、以下の(1)式に示す。なお、(1)式の例では、モデルの保存形式を状態遷移確率行列Tと仮定した。
D = T + γT2 + γ2T3 + … + γ∞-1T∞ (1)
ここで、γは減衰率とよぶ0以上で1未満の定数である。また、TkはΔt×kの時間が経過した際の、すべての状態間の遷移確率を保存する関数(または行列)である。このように、減衰型状態遷移行列Dは、Δt時間経過後の状態遷移確率行列TからΔt×∞時間経過後の状態遷移確率行列T∞までの和であり、すべての状態間の統計的な近さを保存する行列でもある。また、遠い将来に遷移する状態ほど重みを下げるため、経過時間に応じて減衰率γを掛けている。
【0061】
状態遷移確率行列Tから状態遷移確率行列T∞までの計算を必要とする(1)式は、実時間以内の計算が困難である。そこで(1)式を以下の(2)式に変換する。
D = T (E - γT)-1 (2)
ここで、Eは単位行列である。(2)式は(1)式と等価の計算式である。(1)式の状態遷移確率行列Tから状態遷移確率行列T∞までの和の計算を、(2)式では(E-γT)の逆行列に変換することによって、有限時間以内に(1)式と同じ計算結果が得られる。ここで、状態遷移確率行列Tが線形独立でない場合は、擬似逆行列を用いても良い。また、減衰型状態遷移行列Dの代わりに、減衰型状態遷移行列を各行で正規化した行列を用いても良い。
【0062】
このように、学習部510は、模擬対象の挙動(例えば、反応槽内の温度Trの変化)を模擬するモデルを状態遷移モデルとすることで、Tkの計算でΔt×k時間後の状態遷移確率を計算する。また、学習部510は、Δt時間経過後の状態遷移確率行列TからΔt×∞時間経過後の状態遷移確率行列T∞までの和をとり、経過時間によって減衰率γによる重み付けによって、Δt×∞時間経過後を考慮した状態遷移確率を、有限時間以内に計算する。ステップ2000において、減衰型状態遷移行列が計算されることにより、任意の時刻において、プラントの特性を表すすべての状態間の遷移確率が求められる。
【0063】
次に、学習部510では、報酬関数信号に基づいて最適な制御則を計算する(ステップ2010)。ここで、報酬関数信号は、目標温度や目標温度変化率などの制御目標を、関数、表、ベクトル、行列などの形式で表現される関数である。本実施例では、このベクトルの要素値や、報酬関数の値を報酬と呼ぶ。
【0064】
報酬関数がベクトル形式の場合の一例を、
図6Aに示す。
図6Aでは、状態sは全体を範囲に区切ってn分割した離散空間として扱っており、初期の状態から状態s3へ遷移することを目標とした。ベクトルの要素値は、状態s3を1、その他の状態を0とした。本実施例では、報酬関数をベクトル形式で定義したが、状態が望ましい値に近づくほど報酬の値が高くなるような関数として定義しても良い。
【0065】
そして、学習部510は、減衰型状態遷移行列Dと、報酬関数Rから、最適な制御則を計算する。制御則の一例を、
図6Bに示す。
図6Bでも、状態sは全体を範囲に区切ってn分割した離散空間として扱っており、各状態の範囲に対して最適な操作量ac(c=1,2,…m))が保存されている。最適な操作量acの計算方法については後述する。
【0066】
最適な制御則を計算する方法の一例を、以下に示す。本例では、最適な制御則を求めるために以下の3段階で計算する。
【0067】
段階1:まず、学習部510は、各状態sと報酬関数Rで目標とする状態sgoalとの近さ(または遷移しやすさを示す統計的な指標)を保存する関数を計算する。この関数を、本実施例では状態価値関数Vと呼ぶこととする。また、状態価値関数Vは、関数以外にも表、ベクトル、行列など形式で保存してもよく、本実施例において保存形式は限定しない。状態価値関数Vの計算方法の一例を以下の(3)式に示す。
V = DRtr (3)
上記(3)式に示すように、状態価値関数Vは、減衰型状態遷移行列Dと報酬関数Rの転置行列であるRtrとの積である。例えば、状態価値関数Vは、
図6C示すようなn次元のベクトルとなる。状態価値関数Vの要素値は、目標とする状態sgoalへ遷移しやすい状態ほど高い。本実施例では、この要素値を価値と呼ぶこととする。また、本実施例の状態価値関数Vは、強化学習法での状態価値関数の定義と値が等価となる。
【0068】
段階2:次に、学習部510は、状態価値関数Vを用いて、遷移元の状態siから遷移できる遷移先の状態sjの中で、最も目標とする状態sgoalへ遷移しやすい状態sj*を、遷移元の各状態siについて計算する。状態sj*の計算方法の一例を、以下の(4)式に示す。
sj* = argmax(V(sj)T(si,sj) (4)
ここで、V(sj)は、状態sjにおける価値である。また、T(si,sj)とは、状態遷移確率行列Tにおけるsi行、sj列の要素値であり、状態siから状態sjに遷移する確率である。これらを乗算した(4)式の計算結果の一例を、
図6Dに示す。
【0069】
段階3:最後の段階では、学習部510は、遷移元の各状態siから、段階2で得られた状態sj*へ遷移するために必要な操作量aを計算する。操作量aの計算は、逆モデル(遷移元の状態siと状態sj*とを入力として、対応する操作量aを出力するモデル)を求めることで計算できる。段階3の計算結果は、例えば、
図6Dに示したような制御則が得られる。
【0070】
このように、学習部510は、上記(3)式で価値を計算することによって、各状態におけるsgoalへの遷移のし易さについて評価することができる。学習部510は、上記(4)式によって、Δt時間経過によって遷移できる状態のうち、最もsgoalへ遷移し易い状態sj*を特定し、上述した逆モデルによって、状態sj*へ遷移するための操作量aを特定している。
【0071】
図7A、7Bは、学習データ分割部500、学習データ比較部520の動作を説明する図である。尚、
図7A、7Bにおける縦軸、横軸は状態であり、
図5A、5Bと同様に、反応槽の温度Trとその変化量dTrである。
【0072】
図7Aは、学習データ分割部500で分割したデータが存在している範囲を説明する図である。ステップ1010において説明したように、学習データ分割部500では、計測信号を、「データA」と「データB」の2つに分割する。学習データ分割部500は、「データA」である第1の学習データ、「データA+データB」である第2の学習データを学習部510に入力して、それぞれ学習させる。
【0073】
尚、
図7Aでは、データを2つに分割した場合について説明したが、分割数や学習データの組み合わせは任意に設定できる。例えば、学習データ分割部500が、「データA」「データB」「データC」に分割する。そして、学習部510が、第1の学習データを「データA」、第2の学習データを「データA+B」として学習し、その後、第1の学習データを「データA」、第2の学習データを「データA+B+C」として学習し、それぞれの結果で後の処理を実施するなど、分割数や学習データの組み合わせは任意に設定できる。
【0074】
図7Bは、学習データ比較部520の動作を説明する図であり、状態空間における学習データ数に差のある範囲を示している。第1の学習データと第2の学習データの違いは、「データB」の有無であるので、
図7Bは、「データB」の存在する範囲701が示されることになる。尚、
図7Bでは、学習データ数に差のある範囲を可視化しているが、升目の中に学習データ数の差を表示することや、学習データ数の差をカラーマップで表示するようにしても良い。
【0075】
また、状態定義にデータクラスタリングを用いた場合は、学習データ比較部520では、各カテゴリーに属する学習データ数の差、学習データが存在するカテゴリー番号の違いなどを求め、その結果を
図7Bと同様な方法で表示することもできる。
【0076】
図8A~8C、
図9A~9Cは、学習結果620の例を説明する図である。
【0077】
図8Aは、最適操作量の予測値を説明する図である。本図は、
図7A、7Bで示した状態空間の一部を抜粋して拡大した図である。本図は、
図6Bで示した状態と操作量の関係について、縦軸と横軸を状態として数値化して図示したものであり、各状態空間の最適操作の傾向を可視化した結果である。本結果を確認することで、状態と最適操作の関係を把握できる。
図8Aでは、例えば、目標とする状態sgoalとなる状態s3(数値「0」)となるためには、状態s1(数値「-2」)において操作量「2」が必要であり、状態s2(数値「-3」)において操作量「3」が必要であり、状態s3(数値「-5」)において操作量「5」が必要であることを示している。このような可視化により、ユーザは、目標とする状態sgoalまでに、どのような操作量が、あとどの程度必要であるのかを、容易かつ直観的に把握することができるようになる。
【0078】
図8Bは、目標状態までの最小操作回数を説明する図であり、各状態空間からスタートして、目標状態にたどり着くまでに必要な操作回数を可視化した画面である。数字が0の場合は、その状態から直接目標状態に遷移できることを示す。また、数字の無い状態空間は目標状態へのルートは存在しないことを示している。
図8Bでは、例えば、目標とする状態sgoalとなる状態s3(数値「0」)となるためには、状態s1(数値「8」)において8回の操作が必要であり、状態s2(数値「1」)において1回の操作が必要であり、状態s3(数値「10」)において10回の操作が必要であることを示している。
【0079】
このような可視化により、ユーザは、目標とする状態sgoalまでに、あとどの程度の回数の操作が必要であるのかを、容易かつ直観的に把握することができるようになる。また、直接目標状態に遷移できる状態の範囲を、一見して把握することができるようになる。尚、
図8A、8Bでは、数字で学習結果620を表現しているが、等高線図、カラーマップ等で学習結果620を表現し、これらの学習結果620を画像表示装置940に表示することもできる。
【0080】
また、
図8Cは、状態価値関数の形状を説明する図であり、状態を離散化した場合の状態とその状態における価値の関係を示した図である。
図8Cに示した関係は、例えば、
図6Cを用いて説明したように、学習部510により算出された状態価値関数Vに基づいて図示することができる。
図8Cでは、例えば、範囲801で示す状態s3が、状態価値観数の値が最も高いことを示している。このような可視化により、ユーザは、状態価値観数の値が最も高い状態や、状態間における価値の関係を、容易かつ直観的に把握することができるようになる。
【0081】
図9A~9Cは、目標状態が可変である場合の学習結果620の例である。
図9Aに示すように、目標状態がS500からS501に変化する時間の間に、所定の回数(N回)の操作が可能である場合の例で説明する。
図9B、9Cは、異なる学習データで学習した学習結果の例であり、S500からスタートしてN回の操作で到達できる範囲901、902を示している。
図9Bに示すように、状態S500からN回の操作で到達可能な範囲901に状態S501が含まれている場合は、目標状態の変化に追従できる。
【0082】
一方、
図9Cに示すように、N回の操作で到達可能な範囲902に状態S501が含まれない場合は、目標状態に追従できないことを意味する。このように、ある目標状態から異なる目標状態に目標状態が変化する場合において、変化前後の目標状態と、所定の操作量で到達可能な状態の範囲とを表示することで、ユーザは、どの程度の操作量で操作すれば、変化する目標状態に追従できるのかを、容易かつ直観的に把握することができるようになる。
図9A、9Bでは、変化前後の目標状態と、所定の操作量で到達可能な状態の範囲とを重畳表示しているが、これらを対応付けて別個の表示画面や表示領域に表示させる等、他の態様でユーザに提示してもよい。
【0083】
このように、本実施例における学習結果620には、様々な形態で学習結果が保存されており、
図8A~8C、
図9A~9Cで述べた以外の結果を保存するようにしても良い。
【0084】
図10A~10Cは、学習結果比較部530の動作を説明する図であり、状態価値関数の形状を比較した場合の例である。学習結果比較部530では、「データA」での学習結果と「データA+B」での学習結果を比較し、その違いを分析する。
【0085】
図10Aは、「データA」で学習した時の状態価値関数の形状であり、
図10B、10Cは、「データA+B」で学習した時の結果例である。学習データが十分である場合は、
図10Bに示すように、データが同じ状態の範囲における学習結果の信頼性が高く、関数形状はあまり変化しない。上記データが同じ範囲とは、
図10Bにおいて、データBが追加された範囲1010以外の範囲1020である。当該範囲では、データAでの学習結果(点線)と、データA+Bでの学習結果(実線)との間ではほとんど差がない。そのため、追加されたデータBのベースとなるデータAの全ての範囲で学習データが十分であることがわかる。このことは、「データA」により学習したときの学習結果と、「データA+B」で再学習したときの学習結果とを比べた場合、データBの追加に伴って上記範囲1020における学習結果に与える影響がほとんどなく、学習結果に対する信頼性が高いことを示している。
【0086】
一方、学習データが不十分である場合は、
図10Cに示すように、データが同じ状態の範囲における学習結果の信頼性が低く、関数形状は大きく変化する。
図11でも説明するが、本実施例の充足性評価部540では、
図10Cの右側の範囲のように、学習データが同じ状態の範囲において、学習結果が一定程度異なる範囲を、学習データ不足範囲と判断する。すなわち、
図10Cにおいて、データBが追加された範囲1030以外の範囲1040a、1040bのうち、当該範囲1040aでは、データAでの学習結果(点線)と、データA+Bでの学習結果(実線)との間ではほとんど差がなく、追加されたデータBのベースとなるデータAの当該範囲で学習データが十分であることがわかる。
【0087】
一方、上記範囲1040bでは、データAでの学習結果(点線)と、データA+Bでの学習結果(実線)との間で一定程度以上の差が生じており、当該範囲1040bでは学習データが不十分であることがわかる。このことは、「データA」により学習したときの学習結果と、「データA+B」で再学習したときの学習結果とを比べた場合、「データB」の追加に伴って、上記範囲1040bにおける学習結果に与える影響が一定以上あり、当該範囲における学習結果に対する信頼性が低いことを示している。学習結果比較部530は、このような範囲を、ユーザが視認可能な態様で提示することにより、ユーザは、どの状態の範囲に対する学習データが不足しているのかを、容易かつ直観的に把握することができるようになる。
【0088】
図11A、11Bは、充足性評価部540の動作を説明する図である。充足性評価部540では、
図10A~10Cを用いて説明したような学習データが同じ範囲において、学習結果の変化幅が、学習結果への影響を許容する閾値よりも高い範囲を学習データ不足範囲とする。閾値の設定方法は種々考えられるが、
図11A、11Bでは、学習データが異なる状態の範囲からの距離が長くなるほど、閾値の値を低く設定した場合について説明する。
【0089】
図11Aは、学習データが十分な場合、すなわちデータ不足範囲がない場合、
図11Bは、データ不足範囲が存在する場合の例である。
【0090】
学習データが十分な場合は、
図11Aに示すように、学習データを追加した状態の範囲(
図11Aに示す2点鎖線の左側の範囲)から右側に離れる程、学習結果に与える影響が小さくなる。充足性評価部540は、上記学習データを追加した状態の範囲から離れる範囲の状態ほど、学習結果に影響を与えていると判断するための閾値THを、小さく設定する。
【0091】
一方、学習データが不十分な場合は、
図11Bに示すように、学習データを追加した状態の範囲(
図11Bに示す2点鎖線の左側の範囲)から右側に離れても、学習結果に与える影響が大きくなる範囲が存在する。
図11Bでは、学習データを追加した状態の範囲に近接する範囲1100aのほか、学習データを追加した状態の範囲から一定程度離れた範囲1100bにおいて、学習データの追加によって、一定程度以上の影響を受けている範囲があることを示している。
【0092】
充足性評価部540は、学習結果の変化幅が閾値THよりも高い範囲を、学習データ不足範囲(
図11Bでは、範囲R1、R2)と判断する。充足性可視化部700は、上記判断された範囲を可視化して画像表示装置940に表示する。
図11Bでは、上記範囲1100a、1100bを、他の範囲とは識別可能な態様で画像表示装置940に表示する。
【0093】
この際、充足性可視化部700は、学習結果の変化幅と閾値THとの差に応じて範囲をカラーマップ、等高線等で表示することや、学習結果の変化幅と閾値THとの差が一定以上大きい範囲を強調して表示しても良い。これにより、プラントの運転員であるユーザは、データの不足範囲を容易かつ直観的に把握でき、本実施例の運転支援装置を用いることで不足データの収集を促すことが可能となる。
【0094】
以上、図面を用いて本実施例について説明したが、本実施例における運転支援装置は、
図1、2、10A~10C、11A、11B等を用いて説明したように、プロセッサとメモリとを有したコンピュータにより、制御対象となるプラントから取得した計測信号に基づいて、上記プラントの操作方法を学習する運転支援装置200であって、上記プロセッサは、上記計測信号に基づいて得られる2以上の学習データ群のうち、第1の学習データ群(例えば、学習データDB610a)と当該第1の学習データ群を含む第2の学習データ群(例えば、学習データDB610b)の各学習データを用いて学習して、上記第1の学習データ群を用いて学習した第1の学習結果と上記第2の学習データ群を用いて学習した第2の学習結果とを生成し、上記第1の学習データ群と上記第2の学習データ群とで学習データ量が異なる範囲を分析し、上記第1の学習データ群と上記第2の学習データ群とで学習データ量が異なる第1の範囲(例えば、
図10Cに示した範囲1030)と、上記第1の学習データ群における上記第1の範囲以外の範囲である第2の範囲(例えば、
図10Cに示した範囲1040a、1040b)を特定する第1の分析(例えば、
図2に示したステップ1010~1030)を実行し、上記第1の学習結果(例えば、学習結果DB620a)と、上記第2の学習結果(例えば、学習結果DB620b)との差分を分析する第2の分析(例えば、
図2に示したステップ1040、1050)を実行し、上記第1の分析の結果と上記第2の分析の結果とに基づき、上記計測信号に基づいて得られる2以上の学習データ群の学習データの充足性を評価し、上記学習データの充足性を評価する際、上記第1の学習結果及び上記第2の学習結果のうち、上記第1の範囲に対応する範囲の学習結果と上記第2の範囲に対応する範囲の学習結果とを特定し、上記第2の範囲に対応する範囲のうち、上記第1の学習結果と上記第2の学習結果との差分が所定の条件を満たす第3の範囲(例えば、
図11Bに示した範囲1100a、1100b)を特定し、特定された当該第3の範囲を学習データが不足している範囲と評価する。
【0095】
したがって、従来技術のように、ユーザは、詳細な判定条件の設定を必要とすることなく学習データの充足度を判定でき、かつ学習データが不足している範囲を特定できる。
【0096】
これまで、バッチプロセスの制御において、事前に取得した運転データを用いた学習により、ベテラン運転員の手動操作を模倣するプラントの操作方法を自動的に獲得する技術が望まれていたが、学習用のデータが足りない場合、最適な操作方法を学習できない問題があった。本実施例では、データ不足範囲では学習結果の信頼性が低くなることや、別の範囲にデータを追加して再学習すると学習結果が変化することに着目し、学習データが不足している範囲を可視化している。これにより、学習データを取得すべき範囲をユーザに提示し、その範囲の学習データの取得を促すことができる。
【0097】
また、
図5A、5B等を用いて説明したように、上記プロセッサは、上記計測信号(例えば、反応槽の温度Tr)と上記計測信号から導かれるデータ(例えば、反応槽の温度Trの変化量dTr)とが配置されたテーブル形式で、上記プラントの状態を定義し、または上記計測信号と上記計測信号から導かれるデータとを所定の手法(例えば、適応共鳴理論)でクラスタリングすることにより、上記プラントの状態を定義し、上記定義した状態から得られるモデル(状態遷移モデル)に基づいて、上記プラントの特性を状態遷移行列として計算することにより、上記プラントの操作方法を学習する。これにより、計測信号の種類に応じて適切に状態を定義することができる。
【0098】
また、
図8C、8A、8B、
図9A~9C等を用いて説明したように、上記プロセッサは、上記状態遷移行列と所定の報酬(例えば、報酬関数信号)とから得られる、上記プラントの状態の価値、操作量の予測値、目標状態までの操作回数、所定回数の操作で到達できる上記状態の範囲、の少なくとも1つについて、上記差分を計算する。これにより、これらのデータについての学習結果の差分をユーザに提示できるようになる。
【0099】
また、
図11A、11B等を用いて説明したように、上記プロセッサは、上記充足性の評価において、学習データが異なる状態の範囲からの距離が長くなるほど、学習結果への影響を許容する閾値(例えば、
図11A、11Bに示した閾値TH)の値を低く設定し、上記差分が上記閾値の値を超える状態の範囲を、上記学習データが不足している範囲(例えば、
図11Bに示した範囲1100a、1100b)と評価する。これにより、閾値との関係を考慮した上で、学習データを取得すべき範囲をユーザに提示し、その範囲の学習データの取得を促すことができる。
【0100】
また、
図11A、11B等を用いて説明したように、上記プロセッサは、学習結果の変化幅と上記閾値との差に応じて、上記状態の範囲を、カラーマップ、等高線で表示し、または学習結果の変化幅と上記閾値の差が一定以上大きい上記状態の範囲を強調して表示することにより、上記学習データが不足している範囲を提示してもよい。これにより、ユーザは、学習データを取得すべき範囲を、より一層、容易かつ直観的に把握することができる。
【0101】
本発明は、上記実施の形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化したり、上記実施の形態に開示されている複数の構成要素を適宜組み合わせて実施することができる。
【符号の説明】
【0102】
1・・・計測信号、2・・・外部入力信号、3・・・計測信号、4・・・計測信号、5・・・学習データ、6・・・学習データ、7・・・学習結果、8・・・学習データ、9・・・学習データ比較結果、10・・・学習結果、11・・・学習結果比較結果、12・・・学習データ充足性評価結果、13・・・学習データ充足性可視化データ、14・・・外部出力信号、100・・・プラント、110・・・機器、120・・・制御装置、130・・・センサ信号、140・・・操作信号、200・・・運転支援装置、210・・・外部入力インターフェイス、220・・・外部出力インターフェイス、300・・・計測信号データベース、400・・・学習データ充足性評価部、500・・・学習データ分割部、510・・・学習部、520・・・学習データ比較部、530・・・学習結果比較部、540・・・充足性評価部、610・・・学習データデータベース、620・・・学習結果データベース、700・・・充足性可視化部、800・・・運転支援装置動作制御部、900・・・外部装置、910・・・外部入力装置、920・・・キーボード、930・・・マウス、940・・・画像表示装置