特許6962868 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社日立製作所の特許一覧

特許6962868教師データ生成装置および教師データ生成方法

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】6962868

(24)【登録日】2021年10月18日

(45)【発行日】2021年11月5日

(54)【発明の名称】教師データ生成装置および教師データ生成方法

(51)【国際特許分類】

G05B 13/02 20060101AFI20211025BHJP

B21B 37/28 20060101ALI20211025BHJP

B21C 51/00 20060101ALI20211025BHJP

B21B 38/02 20060101ALI20211025BHJP

G06N 20/00 20190101ALI20211025BHJP

【ＦＩ】

G05B13/02 L

B21B37/28 130

B21C51/00 L

B21B38/02

G06N20/00

【請求項の数】10

【全頁数】23

(21)【出願番号】特願2018-109221(P2018-109221)

(22)【出願日】2018年6月7日

(65)【公開番号】特開2019-212146(P2019-212146A)

(43)【公開日】2019年12月12日

【審査請求日】2020年3月13日

(73)【特許権者】

【識別番号】000005108

【氏名又は名称】株式会社日立製作所

(74)【代理人】

【識別番号】110000279

【氏名又は名称】特許業務法人ウィルフォート国際特許事務所

(72)【発明者】

【氏名】高田敬規

(72)【発明者】

【氏名】服部哲

(72)【発明者】

【氏名】田内佑樹

【審査官】大古健一

(56)【参考文献】

【文献】特開平８−１１７８２７（ＪＰ，Ａ）

【文献】特開平５−２６１４１９（ＪＰ，Ａ）

【文献】特開２００２−２５１５９８（ＪＰ，Ａ）

【文献】特開平７−２４６４１１（ＪＰ，Ａ）

【文献】米国特許第５２１２７６５（ＵＳ，Ａ）

(58)【調査した分野】（Int.Cl.，ＤＢ名）

Ｇ０５Ｂ１／００−７／０４

Ｇ０５Ｂ１１／００−１３／０４

Ｇ０５Ｂ１７／００−１７／０２

Ｇ０５Ｂ２１／００−２１／０２

Ｂ２１Ｂ３７／００−３７／７８

Ｂ２１Ｃ５１／００

Ｂ２１Ｂ３８／００−３８／１２

Ｇ０６Ｎ３／００−３／１２

Ｇ０６Ｎ７／０８−９９／００

(57)【特許請求の範囲】

【請求項1】

プラントに関する状態に基づいて前記プラントを操作するプラント制御に関する状態量と制御機構の操作量とを含むプラント運転実績データを分析し、前記プラント制御を行う人工知能の学習に用いる教師データを生成する教師データ生成装置であって、
前記プラント運転実績データに基づいて、所定の開始時刻から所定の抽出時間幅の期間に行われた操作に対する結果の評価値を算出し、前記評価値を用いて教師データの生成可否を判定し、前記教師データの生成可と判定したとき、前記開始時刻における前記状態量に基づいて算出した教師データの入力部と、前記開始時刻から所定の抽出時間幅の期間における前記操作量に基づいて算出した教師データの出力部と、を含む教師データを抽出する新教師データ抽出装置と、
前記新教師データ抽出装置で抽出された前記教師データをデータベースに格納する教師データデータベース更新装置と、
を有し、
前記プラント制御は、前記プラントのフィードバック制御であり、
前記抽出時間幅は、前記状態を改善するための複数回にわたる操作に要する時間であり、
前記評価値は、前記開始時刻から前記抽出時間幅の期間に行われた複数回の操作に対する結果の評価であり、
前記新教師データ抽出装置は、前記開始時刻から所定の遅れ時間が経過した時刻から前記抽出時間幅の期間における前記状態量の変化を基に前記評価値を算出する、
教師データ生成装置。

【請求項2】

前記教師データデータベース更新装置は、所定の教師データ保管最大数を上限として前記教師データを前記データベースに格納する、
請求項１に記載の教師データ生成装置。

【請求項3】

前記教師データデータベース更新装置は、前記データベース内の教師データの個数が前記教師データ保管最大数に達している場合、前記データベース内の教師データと前記新教師データ抽出装置により新たに抽出された１つの教師データとを合わせた新たな教師データの集合の中で他の教師データとの入力部同士の距離で類似度を評価し、前記入力部同士の距離が最も小さい２つの教師データを前記類似度の評価が最も低い組合せとして特定し、これら２つの教師データのうち前記評価値が悪い方を取り除き、残りの教師データを前記データベースに格納する、
請求項２に記載の教師データ生成装置。

【請求項4】

プラントに関する状態に基づいて前記プラントを操作するプラント制御に関する状態量と制御機構の操作量とを含むプラント運転実績データを分析し、前記プラント制御を行う人工知能の学習に用いる教師データを生成する教師データ生成装置であって、
前記プラント運転実績データに基づいて、所定の開始時刻から所定の抽出時間幅の期間に行われた操作に対する結果の評価値を算出し、前記評価値を用いて教師データの生成可否を判定し、前記教師データの生成可と判定したとき、前記開始時刻における前記状態量に基づいて算出した教師データの入力部と、前記開始時刻から所定の抽出時間幅の期間における前記操作量に基づいて算出した教師データの出力部と、を含む教師データを抽出する新教師データ抽出装置と、
前記新教師データ抽出装置で抽出された前記教師データを、所定の教師データ保管最大数を上限としてデータベースに格納する教師データデータベース更新装置と、
を有し、
前記教師データデータベース更新装置は、
前記データベース内の教師データの個数が前記教師データ保管最大数に達している場合、前記データベース内の教師データと前記新教師データ抽出装置により新たに抽出された１つの教師データとを合わせた教師データの集合の中から他の教師データとの入力部同士の距離が最も小さい２つの教師データを特定し、これら２つの教師データのうち前記評価値が悪い方を取り除き、残りの教師データを前記データベースに格納するものであり、
前記他の教師データとの入力部同士の距離について前記入力部の目標値との距離が小さい教師データが優先的に残るように重み付けし、重み付け後の前記距離が最も小さい２つの教師データを特定する、
教師データ生成装置。

【請求項5】

前記抽出時間幅は、前記制御機構毎に設定された基準操作量と前記制御機構の動作速度とを用いて算出される操作時間に基づいて定まる時間幅である、
請求項１に記載の教師データ生成装置。

【請求項6】

前記プラントが圧延機であり、
前記状態量が、前記圧延機に設けられた形状検出器で検出される板形状状態量であり、
前記操作量が、前記圧延機に設けられた形状制御機構の操作量である、
請求項１に記載の教師データ生成装置。

【請求項7】

前記新教師データ抽出装置は、前記プラント運転実績データにおける、前記圧延機の運転速度が所定速度以上のときのデータを用いて前記教師データを生成する、
請求項６に記載の教師データ生成装置。

【請求項8】

前記新教師データ抽出装置は、前記評価値が所定の評価閾値以上であるとき、前記教師データの生成可と判定する、
請求項１に記載の教師データ生成装置。

【請求項9】

前記新教師データ抽出装置は、前記評価値が所定の評価閾値以上であり、かつ、前記操作量が所定の操作閾値以上であるとき、教師データの生成が可であると判定する、
請求項１に記載の教師データ生成装置。

【請求項10】

プラントに関する状態に基づいて前記プラントを操作するプラント制御に関する状態量と制御機構の操作量を含むプラント運転実績データを分析し、前記プラント制御を行う人工知能の学習に用いる教師データを生成する教師データ生成方法であって、
コンピュータが、
前記プラント運転実績データに基づいて、所定の開始時刻から所定の抽出時間幅の期間に行われた操作に対する結果の評価値を算出し、
前記評価値を用いて教師データの生成可否を判定し、
前記教師データの生成可と判定したとき、前記開始時刻における前記状態量に基づいて算出した教師データの入力部と、前記開始時刻から所定の抽出時間幅の期間における前記操作量に基づいて算出した教師データの出力部と、を含む教師データを抽出し、
前記抽出された教師データをデータベースに格納するものであり、
前記プラント制御は、前記プラントのフィードバック制御であり、
前記抽出時間幅は、前記状態を改善するための複数回にわたる操作に要する時間であり、
前記評価値は、前記開始時刻から前記抽出時間幅の期間に行われた複数回の操作に対する結果の評価であり、
前記コンピュータは、前記開始時刻から所定の遅れ時間が経過した時刻から前記抽出時間幅の期間における前記状態量の変化を基に前記評価値を算出する、
教師データ生成方法。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、実時間のフィードバック制御を行うニューラルネットワーク等の人工知能の機械学習に用いる教師データを生成する技術に関する。

【背景技術】

【0002】

各種のプラントにおいては、所望の制御結果を得るために各種制御理論に基づいたプラント制御が実施されている。

【0003】

プラントの一例として圧延機が挙げられる。圧延機の制御においては、例えば、板の波打ち状態を制御する形状制御を対象とした制御理論として、ファジィ制御およびニューロ・ファジィ制御が適用されてきた。ファジィ制御は、クーラントを利用した形状制御に適用されている。ニューロ・ファジィ制御は、センヂミア圧延機の形状制御に適用されている。

【0004】

特許文献１には、ニューロ・ファジィ制御を適用した形状制御が開示されている。特許文献１には、形状検出器で検出された実績形状パターンと目標形状パターンの差と、予め設定された基準形状パターンとの類似割合を求め、その類似割合に基づき、予め設定された基準形状パターンに対する制御操作端操作量によって表現された制御ルールにより操作端に対する制御出力量を求める技術が開示されている。

【0005】

図１４は、特許文献１に開示されたセンヂミア圧延機の形状制御を実現する構成を示すブロック図である。本図は特許文献１の図１に相当する。

【0006】

上述したように、センヂミア圧延機の形状制御では、ニューロ・ファジィ制御が用いられる。図１４の例では、圧延機を制御する制御機構は、パターン認識機構５１と、制御演算機構５３とを有している。圧延機には、形状検出器５２が設けられている。

【0007】

形状検出器５２は、圧延の対象となる板の実形状を検出する。複数の基準形状パターンが予め定められており、パターン認識機構５１は、形状検出器５２にて検出された実形状に対してパターン認識を行い、実形状がどの基準形状パターンに最も近いか判定する。

【0008】

図１５は、特許文献１に開示された、形状パターンとそれに対する制御パターンおよび制御方法との関係を定めた制御ルールの一例を示す図である。本図は特許文献１の図９に相当する。

【0009】

形状検出器５２は、例えば、板の実形状が、図１５に示されたどの形状パターン（基準形状パターン）に最も近いか判定する。制御演算機構５３は、図１５に示された制御ルールを参照し、板の実形状が最も近い形状パターンに対応する制御パターンおよび制御方法に基づき制御操作端操作量を決定し、その操作量で圧延機への制御を実施する。

【0010】

具体的には、パターン認識機構５１は、形状検出器５２にて検出した実形状と目標形状（εｒｅｆ）との差分（Δε）が、図１５の１〜８のどの形状パターン（ε）に最も近いかを演算により求める。制御演算機構５３は、形状検出器５２が求めた実形状に最も近い形状パターンに対応する制御方法を選択し、実行する。

【0011】

特許文献１の手法においては、圧延中にオペレータに手動操作を行ってもらい、その手動操作を利用して制御ルールが適切かどうかを検証することがある。しかし、制御ルールが現実に則していない場合、圧延機により圧延された板が予想に反した形状変化を示す場合がある。これは、機械的特性の検討不足、圧延機の操業状態、または機械条件の変化の１つ以上が原因である。

【0012】

予め設定した制御ルールが適切なルールとなっているか否かを検証するには様々な条件を考慮する必要があり、それらを考慮した手動制御による制御ルールの検証は容易ではない。そのため、制御ルールは、一度設定されると、圧延機の制御に明らかな不具合が生じない限り、検証されたり修正されたりせずそのまま使用され続ける場合が多い。

【0013】

操業条件の変化等で制御ルールが現実に則したものでなくなってくることがある。制御ルールが現実に則したものでなくなってきたとき、制御ルールを検証し、改善しなければ、ある程度以上の制御精度を出すことは困難である。

【0014】

しかし、一旦形状制御が動作してしまうと、オペレータによる手動操作は制御にとって外乱となるため、オペレータは手動操作をしなくなる。そのため、新たな制御ルールをオペレータの手動制御の介入により見つけていくのは困難である。

【0015】

また、圧延機で今まで扱っていなかったような新しい規格の圧延材を圧延する場合、制御ルールをその材料にあわせて設定するのは困難である。

【0016】

以上のように、従来の形状制御においては、予め設定された制御ルールを修正するのは困難であった。これに対して、圧延機の制御にニューラルネットワーク等の人工知能（ＡｒｔｉｆｉｃｉａｌＩｎｔｅｌｌｉｇｅｎｃｅ、以下、「ＡＩ」ともいう。）を適用し、機械学習により形状パターンと操作方法の制御ルールを自動的に修正することが考えられる。

【先行技術文献】

【特許文献】

【0017】

【特許文献1】特許２８０４１６１号公報

【発明の概要】

【発明が解決しようとする課題】

【0018】

しかしながら、プラントをＡＩで制御しながら、その結果を用いた機械学習により制御ルールを改善していく手法では、ＡＩによる制御を開始してから、制御ルールが十分に改善されるまでの期間においては、制御が不完全となり、プラントへ悪影響を与えるリスクがある。

【0019】

既存の制御ルールを教師データとしてＡＩに学習させたり、制御シミュレーションで制御ルールを改善しようとしたりしても、人間が経験的に判断して対処したときに得られるような十分な性能の改善は期待できない。

【0020】

本発明のひとつの目的は、人工知能によるプラントの制御を開始して早期の段階から高精度の制御を実現可能にする技術を提供することである。

【課題を解決するための手段】

【0021】

本発明のひとつの態様に係る教師データ生成装置は、プラントに関する状態に基づいて前記プラントを操作するプラント制御に関する状態量と制御機構の操作量とを含むプラント運転実績データを分析し、前記プラント制御を行う人工知能の学習に用いる教師データを生成する教師データ生成装置であって、前記プラント運転実績データに基づいて、所定の開始時刻から所定の抽出時間幅の期間に行われた操作に対する結果の評価値を算出し、前記評価値を用いて教師データの生成可否を判定し、前記教師データの生成可と判定したとき、前記開始時刻における前記状態量に基づいて算出した教師データの入力部と、前記開始時刻から所定の抽出時間幅の期間における前記操作量に基づいて算出した教師データの出力部と、を含む教師データを抽出する新教師データ抽出装置と、前記新教師データ抽出装置で抽出された前記教師データをデータベースに格納する教師データデータベース更新装置と、を有する。

【発明の効果】

【0022】

上記態様によれば、プラントの運転実績データから、人工知能の学習用教師データデータベースを構築することが出来る。そのため、リアルタイムのプラント制御に適用するＡＩに、過去のプラント運転実績データを用いてオフライン状態で、制御ルールを学習させておくことが可能となり、その性能についてもオフラインで検証しておくことが可能となる。これにより、制御の信頼性を高め、ＡＩを用いたリアルタイム制御の適用を実現できるようになる。

【0023】

また、所定の抽出時間幅で操作結果を評価するので、プラント制御の運転実績データに含まれるノイズと操作に対する状態検出の遅れとの影響を低減して教師データを生成できる。そのため、蓄積された膨大な運転実績データから得た教師データを用いてニューラルネットワーク等のＡＩの機械学習を行うことにより、ＡＩによるプラント制御の開始早期の段階から高精度の制御を実現可能にする。

【図面の簡単な説明】

【0024】

【図1】実施例に係るプラント制御装置の概要を示す図である。

【図2】図１のプラント制御装置が有する新教師データ抽出装置の構成の一例を示す図である。

【図3】図１のプラント制御装置が有する教師データデータベース更新装置の構成の一例を示す図である。

【図4】プラント運転速度パターンについて示す図である。

【図5】板形状状態量の一例を示す図である。

【図6】操作機器状態量Ｐｊ（ｔ）の時間推移の一例を示す図である。

【図7】操作後状態変化の時間遅れについて説明する図である。

【図8】形状評価値Ｖ（ｔ）の時間変化の一例を示す図である。

【図9】教師データ価値の演算の様子の一例をグラフを用いて模式的に示す図である。

【図10】教師データＴ（ｎ）を教師データ価値Ｖａｌ（ｎ）によって、大きいものから順に並び替える様子の一例を示す表である。

【図11】更新教師データカウンターＮｕｄの決定方法を説明する図である。

【図12】時間遅れを模式的に示す図である。

【図13】操作量収集区間と形状評価区間とを模式的に示す図である。

【図14】従来のセンヂミア圧延機の形状制御を示す図。

【図15】図１４のセンヂミア圧延機の形状制御における制御ルールを示す図。

【発明を実施するための形態】

【0025】

はじめに、本実施形態に含まれる基本概念について説明する。

【0026】

プラント制御において、モデル化できない実現象や過去の経験に基づく操作者のノウハウ等は、プラントの過去の運転実績データに含まれている。そのため、過去のプラントの運転実績データを収集し、オフラインで制御ルールを抽出し、抽出した制御ルールを教師データとして用いて学習させることが、最適なプラント制御に効果的である。制御ルールとは、形状出力（状態量）と操作（操作量）とを関連付けた情報である。ここで、予め蓄積された過去のプラント運転実績データに基づいて生成した教師データを用いてオフラインでＡＩに機械学習させた結果を実機に適用する実施手順を以下に示す。
（１）プラントの運転実績データを収集する。
（２）プラントの運転実績データからＡＩの機械学習に用いる教師データを抽出する。
（３）教師データを用いたＡＩの機械学習を実施する。
（４）検証用教師データを用いたＡＩの機械学習の結果を検証する。
（５）シミュレーション等による学習済みＡＩの制御性能を検証する。
（６）プラント実機によるリアルタイム制御性能を検証する。

【0027】

本実施形態は上記（２）に着目している。その後、（３）〜（６）を実施することで、実プラントへ適用する前段階で制御性能を検証することが可能となる。

【0028】

本実施形態では、プラントの運転実績データからから制御ルールを生成し、生成された制御ルールを評価する。そして、評価結果の良好な制御ルールに基づいて新たな教師データを生成する。

【0029】

プラントの運転実績データにはノイズが含まれており、制御系に対する外乱の影響も多々ある。本実施形態は、これらノイズや外乱の影響を抑え、効果的に運転実績データから教師データを生成することができる。

【0030】

本実施形態は、プラントの運転実績データのうち一定の操作量があったものの中から、評価結果の良好な制御ルールを抽出して、教師データを生成するものである。本実施形態では、制御結果の時間遅れのばらつきの影響を抑え、制御によるプラント状態の変化を適切に評価して、評価の良好な制御ルールを抽出することができる。

【0031】

本実施形態では、プラントの運転実績データから生成される制御ルールを用いて、ＡＩの機械学習に用いる教師データを保管した学習用教師データデータベースを構築する。本実施形態は、制御ルールに基づいて生成された新たな教師データによって既存の学習用教師データデータベースを更新することができる。

【0032】

ニューラルネットワーク等のＡＩを用いた実績データから学習した結果に基づく制御は、学習したデータに基づく帰納的手法であるため、学習したデータの対応できる範囲以外では、制御の信頼性が低くなる。本発明は、制御の対応可能範囲を広げる為に、ＡＩの学習用教師データデータベースの対応できる状態の幅を広げ、より多くの状態に対応した制御ルールによって学習用教師データデータベースが構築されるように、それぞれの制御ルールの価値を演算する機能を持つ。

【0033】

学習用教師データデータベースに保管される教師データ数が多くなると、教師データを用いた機械学習の計算量が多くなり、計算時間も長くなってしまう。本実施形態では、この学習に要する計算量と計算時間を一定に保つために、学習用教師データデータベースの教師データ数を管理して、一定数を超えてからは、新たな教師データを追加する際に、最も価値の低い教師データを新たな教師データで更新する。すなわち、本実施形態は、教師データ数を一定数に保つことができる。

【0034】

本実施形態では、プラントの運転実績データに含まれるノイズの影響および、操作と状態変化の時間遅れのばらつきの影響を低減させる工夫として、操作と状態変化の値を測定する時間を広げる。

【0035】

ノイズの影響について考えると、形状制御の制御周期は、０．５秒〜数秒の範囲であり、１周期あたりに制御できる形状制御機構の動作範囲はそれほど大きくない。圧延機の形状制御機構（ＡＳ−Ｕ、ＩＭＲ）は動作可能範囲が数ｍｍである。一方で、一定の圧延状態であっても、形状は一定量変化し続けている。これは、材料と圧延機の間の力の伝達や、油の引き込み、材料の品質のばらつきなどによって、製品の伸び度合いが常に変動し続けていることによる。これを形状評価する際のノイズとして考慮する。このため、制御一周期の小さな操作で起こる形状の小さな変化に対して、常に発生している変化の方が大きくなってしまうことがあり、操作に対する純粋な形状変化成分のみを取り出すことは難しい。これら課題に対する手段として、ある一定期間での操作結果の総和として形状を評価し、評価した結果をその期間内で実施された操作に配分することを考える。このとき、ノイズの影響を除くため、形状評価にデッドバンド（評価対象外とする範囲）を設けて、デッドバンドに含まれる場合は形状変化なしとみなす。

【0036】

時間遅れについて考えると、圧延機において、形状制御は周期的に行われ、形状制御を行ったあとに実際に発生した形状変化を検出するまでに時間遅れがある。さらに一定周期後には新たな制御が行われるので、実際に発生した形状変化はある１周期の形状変化だけではなく、一連の操作による効果の重ねあわせによるものと考えられる。このような時間遅れの理由として、形状制御機構によって圧延された箇所が測定位置に達するまでの遅れ（移動遅れ）、形状制御機構への操作入力から形状制御機構が動作完了するまでの遅れ（動作遅れ）、形状制御機構が動作完了してから圧延状態が安定するまでの遅れ（圧延安定化遅れ）、などが考えられる。図１２に、これら遅れのイメージを示す。上記移動遅れは、圧延鋼板などの圧延対象物の移動速度により決定される。上記動作遅れは、形状制御機構の動作中の形状変化を考慮する必要がある。上記圧延安定化遅れは不確定要素である。そのため、形状制御機構の操作に応じた形状変化は、操作入力からある遅れをもって段階的に発生する。

【0037】

本実施形態では、オフラインの運転実績データからは、制御に有用な効果のあった操作を含む制御ルールのみを抽出して教師データの生成に用いる。このとき、制御周期内での操作機器（すなわち形状制御機構）の動作量が小さいと、操作量自体にノイズがあり、状態変化量にもノイズの影響があり、操作の評価が不確実になる。また、操作と状態変化の時間的関係も正確でない可能性があり、誤った関係を抽出してしまう可能性が高い。これに対して、データを１周期で比較するのではなく、複数周期を含む形状評価区間（図１３）に設定することで、大きな操作に対する大きな状態量の変化を評価することができる。また、時間遅れのばらつきの影響も、抽出時間の始まりと終わりだけになるので、割合として抑制が可能である。

【0038】

また、教師データの更新方法として、複数周期を含む操作量収集区間に発生した操作量の総和を用いて制御ルールを生成し、新たな教師データとしてデータベースに追加することが考えられる。この場合、操作量の総和を、１周期の制御ルールとする為の規格化が必要となる。つまり、操作量の総和を１周期に動かせる機構の動作範囲内に収まるように規格化すればよい。また、形状変化の時間遅れを考慮して、形状変化直前の操作の重みを低くして、他の操作には均等に配分するのが適切と考えられる。形状の評価区間と操作量の収集区間を時間遅れ分だけずらす。図１３に、形状評価区間と操作収集区間とのイメージを示す。

【0039】

有限の実績データの集合で多くの状態に対応可能なＡＩを構築するために教師データの網羅性を高める。そのため、教師データを価値によって順位付けし、順位の低いものから教師データを削除していく。このとき、順位付けの基準として教師データ間の近似度合いを測ることにより、近似度合いが高い教師データほど価値が低いと考えて、できるだけ多くの状態に対応可能な学習用教師データデータベースの作成を実施させることができる。

【0040】

新たな教師データを追加するとき、既存の教師データを含めた価値による順位づけをして、順位の低い物を消去する。このとき、教師データとしての価値は、他に似たルールが無いこと（近似度合い）、および、操作に対する効果が大きいこと（効果度合い）、とする。順位付けの指標として近似度合いである教師データ間の距離を算出し、算出した距離に基づいて最も距離が近い２つの教師データを抽出して、これら２つの教師データの効果度合いとしての各教師データの操作結果評価値を比較して、消去する教師データを決定する。

【0041】

教師データ間の距離は、学習用教師データデータベースに保管されている一の教師データについて他の全ての教師データとの距離を算出してその最小値（最小距離ｄ）とする。教師データ間の距離は、教師データの入力データ（形状偏差）と出力データ（操作量）の偏差の２乗平方を取り、それぞれ重み付けして足し合わせる。上記にて算出した最小距離ｄによって教師データを順位付けし、最下位の教師データを学習用教師データデータベースから消去する。このとき、最小距離ｄとなる教師データは必ず２つ存在するので、操作結果評価値の低い方を削除する。さらには、上記方法では操作結果評価値が良好であると偶発的に誤って判定された教師データが削除されず残り続けてしまうことがある。このような事態を防ぐために、操作結果評価値は新たな教師データを一定回数更新する度に、所定の係数Ｋ（０＜Ｋ＜１）を乗じて減少させていくこととしてもよい。

【0042】

先の例において、新たな教師データとして採用される制御ルールは、例えば、（状態量）｜（操作量）として表現できる。このとき、操作結果評価値に応じて、操作量を補正し、学習用データとして追加するようにしてもよい。すなわち、
操作結果評価値が良好の場合 … （状態量）｜（操作量）×α （α＞１）
操作結果評価値が普通の場合 … （状態量）｜（操作量）×β （０＜β＜１）
操作結果評価値が不良の場合 … （状態量）｜（操作量）×γ （０＜γ＜＜１）
としてもよい。

【0043】

プラント制御において、入力状態がほぼ同じでも出力が変化してくることがあり、最適状態に近づいたときにも同様である。最適状態を保持するために、最適状態近傍の小さな領域での細かな出力の変化に対応することが重要となる。そのため、本実施形態では、最適状態からの距離で教師データの価値を重みづけすることにより、最適状態近くの教師データの密度を高くし、最適状態から離れたところの教師データの密度を低くしていくような管理が可能である。

【0044】

本実施形態は、以上のような機能を備えた収集したプラント運転実績データから生成した制御ルールに基づいてＡＩの機械学習に用いる教師データを生成する手法に関するものである。

【0045】

本実施形態によれば、プラントの運転実績データから、人工知能の学習用教師データデータベースを構築することが出来る。そのため、リアルタイムのプラント制御に適用するＡＩに、過去のプラント運転実績データを用いてオフライン状態で、制御ルールを学習させておくことが可能となり、その性能についてもオフラインで検証しておくことが可能となる。これにより、制御の信頼性を高め、ＡＩを用いたリアルタイム制御の適用を実現できるようになる。

【0046】

また、本実施形態によれば、ノイズを含み、操作と操作した結果の時間遅れにばらつきがあるようなプラントの運転実績データから、操作結果を適切に評価し、ＡＩに学習させる事で効果的な制御を実施することが期待される、良好な制御ルールを持った新たな教師データを抽出できる。膨大なプラント運転実績データからＡＩ学習用の教師データデータベースの構築が可能で、プラント運転実績データのデータが多ければ多いほどＡＩを用いた制御精度を高められる。また、教師データ数を一定に保つことが出来るため、ＡＩの学習に要する計算時間が膨れ上がることを抑制できる。

【0047】

（実施例）
以下に、実施例に係る教師データ生成装置の構成について、各図面を参照して説明する。

【0048】

本実施例に係る教師データ生成装置は、プラントに関する状態に基づいて前記プラントを操作するプラント制御に関する状態量と制御機構の操作量を含むプラント運転実績データを分析し、前記プラント制御を行う人工知能の学習に用いる教師データを生成する。

【0049】

図１に、実施例に係る教師データ生成装置の概略機能ブロックを示す。図１の教師データ生成装置は、新教師データ抽出装置２０と、教師データデータベース更新装置３１と、を有している。教師データ生成装置は、コンピュータを有して構成されており、このコンピュータが、記憶装置に記憶されているプログラムをコンピュータが実行することによって新教師データ抽出装置２０および教師データデータベース更新装置３１として機能する。教師データ生成装置によって生成される教師データは、ＡＩとしてのニューラルネットワークを有するプラント制御装置の学習に用いられる。

【0050】

新教師データ抽出装置２０は、プラント運転実績データデータベースＤＢ５（以下、単に「運転実績ＤＢ５」という）に保管されているプラント運転実績データとしての運転速度ｖ（ｔ）と板形状状態量Ｓ（ｔ）と操作機器状態量Ｏ（ｔ）を参照して、新教師データＴｎｅｗを作成する。ｔは時刻または時刻に準じるパラメータを示す。

【0051】

教師データデータベース更新装置３１は、新教師データ抽出装置２０から新教師データＴｎｅｗを取得する。また、教師データデータベース更新装置３１は、ニューラルネット学習用教師データデータベースＤＢ２（以下、単に「教師ＤＢ２」という）に保管されている教師データ数カウンターＮと教師データＴ（１），…，Ｔ（Ｎ）を取得する。そして、教師データデータベース更新装置３１は、取得した教師データ数カウンターＮと教師データＴ（１），…，Ｔ（Ｎ）を更新して、教師ＤＢ２に上書きする。教師データ数カウンターＮは、教師データＴが追加される毎に１から順に教師データ保管最大数ＮＭＡＸまでカウントアップされる。

【0052】

図２に、新教師データ抽出装置２０の概略機能ブロックを示す。新教師データ抽出装置２０は、実績データ読込み速度条件設定部２００、実績データ読込みカウンター設定部２０１、教師データ入力部状態量読込み部２０２、実績データノイズ対策抽出時間幅設定部２０３、教師データ出力部操作量読込み部２０４、操作後状態量変化遅れ時間設定部２０５、操作結果評価部２０６、新教師データ生成条件設定部２０７、新教師データ生成判定部２０８、新教師データ生成部２０９を主たる要素として構成されている。

【0053】

実績データ読込みカウンター設定部２０１は、運転実績ＤＢ５から運転速度ｖ（ｔ）を取得し、実績データ読込みカウンターｔを設定する。具体的には、実績データ読込みカウンター設定部２０１は、実績データ読み込みカウンターｔを始めから進めながら運転実績ＤＢ５に保管されている運転速度ｖ（ｔ）を順に読込む。すなわち、運転速度ｖ（ｔ）を時刻の最も早いもの（時間的に古いもの）から順に読込む。そして、以下の読込み条件を満足したときに、そのときの実績データ読込みカウンターｔを出力する。

【0054】

図４に、本実施例において対象とするセンジミア圧延機の運転速度パターンを示す。実績データ読込みカウンター設定部２０１は、実績データ読込み速度条件設定部２００で設定した実績データ読込み速度条件ＴＨｖ（すなわち、教師データとして抽出する条件速度である教師データ抽出速度ＴＨｖ）以上かつ運転速度が一定期間保持されていることを上記読込み条件として、実績データ読込みカウンターｔを出力する。

【0055】

教師データ入力部状態量読込み部２０２は、実績データ読込みカウンター設定部２０１によって出力された実績データ読込みカウンターｔを用いて、運転実績ＤＢ５から板形状状態量Ｓ（ｔ）を読込む。本実施例において、板形状状態量Ｓ（ｔ）は、時刻ｔにおいて形状検出器によって検出された板形状実績値ｓｐｆｂと、目標板形状ｓｐｒｅｆと、を含んでいる。

【0056】

図５に、実績データ読込みカウンターｔ（ｔ＝開始時刻ｔ１）における板形状状態量Ｓ（ｔ１）の一例を示す。図５において、ＤＳはドライブサイドを示し、ＷＳはワークサイドを示す。上段のグラフは、横軸に板幅方向の形状検出器の位置ｉ｛ｉ＝１，…，Ｃｈ｝を示し、縦軸に形状検出器によって検出された板形状実績値ｓｐｆｂ（ｉ）と目標板形状ｓｐｒｅｆ（ｉ）を示す。ここで、Ｃｈは、板幅方向で使用された形状検出器の総数を示す。下段のグラフは、横軸に板幅方向の形状検出器の位置ｉを示し、縦軸に形状偏差ｓｐｄｅｖ（ｉ）を示す。形状偏差ｓｐｄｅｖ（ｉ）は、以下の式（１）によって求められる。以下の式（２）に、時刻ｔ１における、板幅方向の形状偏差ｓｐｄｅｖ（ｉ）の集合である教師データ入力部Ｔｉｎ（ｔ１）を示す。

【数1】

【0057】

教師データ出力部操作量読込み部２０４は、実績データ読込みカウンター設定部２０１からの実績データ読込みカウンターｔと実績データノイズ対策抽出時間幅設定部２０３から取得した抽出時間幅ｔｂａｎｄ［ｓｅｃ］とを用いて、運転実績ＤＢ５より操作機器状態量Ｏ（ｔ）〜Ｏ（ｔ＋ｔｂａｎｄ）を読込む。本実施例において、操作機器状態量Ｏ（ｔ）は、時刻ｔにおける各操作機器の操作機器状態量Ｐｊ（ｔ）｛ｊは形状制御機構の番号を示す、ｊ＝１，…，１０｝を含んでいる。

【0058】

図６に操作機器状態量Ｐｊ（ｔ）の時間推移の一例を示す。Ｐｊ（ｔ）は、時刻ｔにおける形状制御機構（番号ｊ）の操作量を示す。本実施例においては、各番号ｊは下段のグラフの横軸に示すように各形状操作機構に対応づけられている。すなわち、番号１〜７で示す形状操作機構は「ＡＳ−Ｕ＃１」〜「ＡＳ−Ｕ＃７」である。番号８で示す形状操作機構は「ＴｏｐＩＭＲｓｈｉｆｔ」であり、番号９で示す形状操作機構は「ＢｏｔＩＭＲｓｈｉｆｔ」である。番号１０で示す形状操作機構は「Ｌｅｖｅｌｉｎｇ」である。

【0059】

実績データノイズ対策抽出時間幅設定部２０３で設定した抽出時間幅ｔｂａｎｄとＰｊ（ｔ）とから、時刻ｔにおける形状制御機構（番号ｊ）の形状制御機構操作量Ｏｊ（ｔ）を以下の式（３）によって求める。ここで、ｔｃｙｃは、実績データサンプリング周期を示す。

【数2】

【0060】

ここで、抽出時間幅ｔｂａｎｄは、形状を改善する操作に要する平均的な時間を設定する。形状がノイズの影響ではなく、操作によって改善できたと判断できる基準は±５［Ｉ−ｕｎｉｔ］程度であり、その為に必要な各形状制御機構の操作時間ｔｊは、以下のパラメータを用いて、式（４）〜（６）によって求めることができる。
ＣＡ：ＡＳ−Ｕ基準操作量［ｍｍ／Ｉ−ｕｎｉｔ］
ＶＡ：ＡＳ−Ｕ動作速度［ｍｍ／ｓｅｃ］
ＣＩ：ＩＭＲｓｈｉｆｔ基準操作量［ｍｍ／Ｉ−ｕｎｉｔ］
ＶＩ：ＩＭＲｓｈｉｆｔ動作速度［ｍｍ／ｓｅｃ］
ＣＬ：Ｌｅｖｅｌｉｎｇ基準操作量［ｍｍ／Ｉ−ｕｎｉｔ］
ＶＬ：Ｌｅｖｅｌｉｎｇ動作速度［ｍｍ／ｓｅｃ］

【数3】

【0061】

ここで、各形状制御機構の基準操作量は、形状（状態量）への影響が等しくなる各形状制御機構の操作量であり、各形状制御機構の操作量に対する形状の変化量を試験することによって決定できる。抽出時間幅ｔｂａｎｄは、ｔｊの最大時間を設定するが、実際には操作した効果のばらつき、複数回の操作の間隔を考慮するため、以下の式（７）に示すように、数倍した時間（係数βを乗じた時間）を設定する。

【数4】

【0062】

ここでは、操作によって改善できたと判断できる基準は５［Ｉ−ｕｎｉｔ］としたが、実際の圧延状況に応じて適当に変更して良い。また、ｔｂａｎｄについては、一定以上の操作が続いている間とする等、必要に応じて本例とは他の方法でその値を選択することも可能である。

【0063】

形状制御機構操作量Ｏｊ（ｔ）は、上述ＣＡ、ＣＩおよびＣＬを用い、教師データ出力部Ｔｏｕｔ（ｔ１）を以下の式（８）によって求める。

【数5】

【0064】

ＣＡ、ＣＩおよびＣＬを用いることにより、それぞれの操作量の重みを標準化（規格化）して扱うことが出来る。

【0065】

操作結果評価部２０６は、実績データ読込みカウンター設定部２０１からの実績データ読込みカウンターｔ、実績データノイズ対策抽出時間幅設定部２０３からの抽出時間幅ｔｂａｎｄ、操作後状態量変化遅れ時間設定部２０５からの遅れ時間Δｔを用いて、運転実績ＤＢ５から板形状状態量Ｓ（ｔ）を読込む。

【0066】

図７に、圧延した鋼板の板形状検出の時間遅れを示す。上作業ロール１と下作業ロール２で圧延された被圧延材４の板形状は、圧延方向に距離Ｌ進んだ位置にある形状検出器３によって検出される。そのため、被圧延材４における圧延された箇所の形状が形状検出器で検出されるまでの遅れ時間Δｔは、操作後状態量変化遅れ時間設定部２０５によって、被圧延材４が進む速度である運転速度ｖ（ｔ）を用いて以下の式（９）によって求められる。

【数6】

【0067】

操作結果評価は、操作前後の板形状状態量を元に求められる。板形状状態量は、形状偏差ｓｐｄｅｖ（ｉ）を元に評価を行うものとし、たとえば以下の式によって実績データ読込みカウンターｔに示される時刻ｔおける形状評価値Ｖ（ｔ）を演算する。

【数7】

【0068】

図８のグラフは、形状評価値Ｖ（ｔ）の時間変化を示す。実績データ読込みカウンターｔ（ｔ＝ｔ１）における操作結果評価値Ｔｖ（ｔ１）は、形状評価値Ｖ（ｔ１）、抽出時間幅ｔｂａｎｄ、遅れ時間Δｔを元に、以下の式（１１）によって求める。

【数8】

【0069】

新教師データ生成判定部２０８においては、操作結果評価部２０６からの操作結果評価値Ｔｖ（ｔ）、新教師データ生成条件設定部２０７からの新教師データ生成形状評価値条件ＴＨＴ、新教師データ生成操作量条件ＴＨＯを元に、以下の式（１２）によって新教師データ生成フラグｆＴを決定する。

【数9】

【0070】

操作結果評価値Ｔｖ（ｔ１）が新教師データ生成形状評価値条件ＴＨＴより小さいか、または、各形状制御機構の形状制御機構操作量Ｏｊ（ｔ１）の最大値がＴＨＯより小さいとき、新教師データ生成フラグｆＴ＝０とする。つまり、圧延による形状変化が小さいか、または、形状制御機構の操作量が小さいとき、新教師データ生成フラグｆＴ＝０として、新教師データＴｎｅｗを生成しない。

【0071】

操作結果評価値Ｔｖ（ｔ１）が新教師データ生成形状評価値条件ＴＨＴ以上で、かつ、各形状制御機構の形状制御機構操作量Ｏｊ（ｔ１）の最大値がＴＨＯ以上のとき、新教師データ生成フラグｆＴ＝１とする。つまり、圧延による形状変化が大きく、かつ、形状制御機構の操作量が大きいとき、新教師データ生成フラグｆＴ＝として、新教師データＴｎｅｗを生成する。

【0072】

なお、操作結果評価値Ｔｖ（ｔ１）のみ判定して、新教師データ生成フラグｆＴを設定するようにしてもよい。つまり、ｆＴ＝０（Ｔｖ（ｔ１）＜ＴＨＴのとき）、ｆＴ＝１（Ｔｖ（ｔ１）≧ＴＨＴのとき）、としてもよい。

【0073】

ここで、新教師データ生成形状評価値条件ＴＨＴは、板形状状態量が改善した場合を抽出するための条件であり、ノイズなどによる一時的な変化ではなく、操作によって明らかに形状が改善したと判断できる基準を設定する。経験的に、１つの形状検出器あたり±５［Ｉ−ｕｎｉｔ］の変化、形状評価値Ｖ（ｔ）としては１０／Ｃｈ［Ｉ−ｕｎｉｔ］程度が適当と考えられる。これらを考慮し、新教師データ生成形状評価値条件ＴＨＴを以下の式（１３）で示すものとする。

【数10】

【0074】

また、新教師データ生成操作量条件ＴＨＯは、実際はほとんど操作がされていないにも関わらず、操作以外の影響で形状評価値が変化した場合を除くために設定する。１つの形状検出器あたり±５［Ｉ−ｕｎｉｔ］の変化に相当する操作量を判定の基準とする。

【数11】

【0075】

上記では、新教師データ生成形状評価値条件ＴＨＴおよび新教師データ生成操作量条件ＴＨＯについて、１０／Ｃｈ［Ｉ−ｕｎｉｔ］、１つの形状検出器あたり±５［Ｉ−ｕｎｉｔ］等の数値を用いたが、これらの数値は圧延状態に応じて適当に変更してよい。

【0076】

新教師データ生成部２０９は、新教師データ生成判定部２０８からの新教師データ生成フラグｆＴ、教師データ入力部状態量読込み部２０２からの教師データ入力部Ｔｉｎ（ｔ）、教師データ出力部操作量読込み部２０４からの教師データ出力部Ｔｏｕｔ（ｔ）、操作結果評価部２０６からの操作結果評価値Ｔｖ（ｔ）を元に、新教師データＴｎｅｗを生成する。

【0077】

新教師データ生成フラグｆＴが０の場合は、新教師データＴｎｅｗを生成しないものとして、実績データ読込みカウンター設定部２０１に対して、次の実績データ読込み要求する。

【0078】

新教師データ生成フラグｆＴが１の場合は、新教師データＴｎｅｗを生成するものとして、以下の式に基づいて新教師データＴｎｅｗを作成する。

【数12】

【0079】

図３に、教師データデータベース更新装置３１の概略機能ブロックを示す。教師データデータベース更新装置３１は、教師データデータベースデータ読込み部３１１、教師データデータ保管数設定部３１２、教師データデータベース更新方法判定部３１３、教師データ更新部３１４、教師データ価値演算部３１５、更新教師データ決定部３１６を主たる要素として構成されている。

【0080】

教師データデータ保管数設定部３１２では、教師ＤＢ２に保管する教師データ保管最大数ＮＭＡＸを設定する。

【0081】

教師データデータベースデータ読込み部３１１は、教師ＤＢ２に保管された教師データ数カウンターＮと教師データＴ（ｎ）を読み込む。

【0082】

教師データデータベース更新方法判定部３１３は、教師データデータ保管数設定部３１２からの教師データ保管最大数ＮＭＡＸ、教師データデータベースデータ読込み部３１１からの教師データ数カウンターＮより、更新方法フラグｆｌａｇｕｄを設定する。

【数13】

【0083】

教師データ更新部３１４は、教師データデータベースデータ読込み部３１１からの教師データＴ（１），…，Ｔ（Ｎ）、教師データデータベース更新方法判定部３１３からの更新方法フラグｆｌａｇｕｄ、新教師データ抽出装置２０からの新教師データＴｎｅｗ、をもとに更新後の教師データＴ’（１），…，Ｔ’（Ｎ）と教師データ数カウンターＮ’を作成し、教師ＤＢ２に上書きする。

【0084】

更新方法フラグｆｌａｇｕｄが１の場合、つまり、教師ＤＢ２に保管されている教師データＴの数Ｎが教師データ保管最大数ＮＭＡＸより小さい場合、以下の式（１８）〜（２０）により更新後の教師データＴ’（１），…，Ｔ’（Ｎ）と教師データ数カウンターＮ’を求める。

【数14】

【0085】

すなわち、更新方法フラグｆｌａｇｕｄが１の場合、教師データＴ（１），…，Ｔ（Ｎ）をそのまま更新後の教師データＴ’（１），…，Ｔ’（Ｎ）とし、更新後の教師データＴ’（Ｎ＋１）として新教師データＴｎｅｗを追加して、教師ＤＢ２に格納する。

【0086】

更新方法フラグｆｌａｇｕｄが２の場合、つまり、教師ＤＢ２に保管されている教師データＴの数Ｎが教師データ保管最大数ＮＭＡＸと等しく、これ以上教師データＴの数を増加させない場合、更新教師データ決定部３１６からの更新教師データカウンターＮｕｄを用いて、以下の式（２１）〜（２４）により更新後の教師データＴ’（１），…，Ｔ’（Ｎ）と教師データ数カウンターＮ’を求める。

【数15】

【0087】

この場合、始めに、教師データ価値演算部３１５は、教師データ更新部３１４から読み出した教師データＴ（１），…，Ｔ（Ｎ）にＴ（Ｎ＋１）（＝Ｔｎｅｗ）を追加して（式（２１））、これら教師データＴを元に教師データ価値Ｖａｌ（１），…，Ｖａｌ（Ｎ＋１）を演算する。教師データ価値演算部３１５は、限られた教師データＴで、対応できる入力状態の領域を広げるため、教師データの価値は教師データ入力部Ｔｉｎの状態量が他と異なっていることを価値が高い（良い評価）とし、似通っていることを価値が低い（悪い評価）として求める。

【0088】

図９は教師データ価値Ｖａｌの演算の様子をグラフを用いて模式的に示している。教師データ入力部Ｔｉｎ（ｎ）は、上記式（２）に示すように、形状検出器の総数（すなわち検出ゾーン数）であるＣｈ次元の値であるが、ここでは説明のため二次元（ｓｐ（１）とｓｐ（２））の値とした。ここで、教師データＴ（ｍ）の教師データ価値Ｖａｌ（ｍ）は、他の教師データＴとの距離のうちの最小値として、以下の式（２５）〜（２８）を用いて求める。

【数16】

【0089】

ここで、ｓｐ（ｉ）ｎはｎ番目の教師データの第ｉゾーン（ｉ番目の形状検出器に対応する検出ゾーン）における形状偏差ｓｐｄｅｖ（ｉ）を示す。ｄｉｎ（ｎ，ｍ）はｎ番目の教師データとｍ番目の教師データの入力部状態量の距離を示す。ｄｉｎ０（ｎ）はｎ番目の教師データと最適な状態０（すなわちｓｐ（ｉ）座標系の原点であり、形状偏差ｓｐｄｅｖ（ｉ）が０となる目標値である）との距離を示す。ｄｉｎ０（ｍ）はｍ番目の教師データと最適な状態０との距離を示す。各教師データ間の距離を、各教師データと最適な状態０との距離で割ることで、最適な状態０の近辺において、教師データ出力部Ｔｏｕｔの操作量の方向が細かく変化することを考慮に入れることができる。

【0090】

そして、更新教師データ決定部３１６は、教師データ更新部３１４からの教師データＴ（１），…，Ｔ（Ｎ＋１）、教師データ価値演算部３１５からの教師データ価値Ｖａｌ（１），…，Ｖａｌ（Ｎ＋１）を基に更新教師データカウンターＮｕｄを決定する。更新教師データカウンターＮｕｄは、更新すべき教師データＴ（最も価値の低い教師データＴ）を特定するカウンターである。

【0091】

図１０、図１１は更新教師データカウンターＮｕｄの決定方法を説明する図である。図１０に示す表のように、教師データＴ（ｎ）を教師データ価値Ｖａｌ（ｎ）によって、大きいものから順に並び替える。ここで、並び替え後ｋ番目の教師データ番号をｎ（ｋ）とする。このように並び替えた時、図１１で示すように最も価値が小さくなる２つの教師データの組が決定される。こうして得られた、Ｎ番とＮ＋１番との教師データの操作結果評価値Ｔｖを比較することにより、以下のようにして更新教師データカウンターＮｕｄを決定する。

【数17】

【0092】

このようにして決定した更新教師データカウンターＮｕｄで特定される教師データＴ’（Ｎｕｄ）を新教師データＴｎｅｗで更新し、残りの教師データＴ’（ｎ）については、教師データ更新部３１４から読み出した教師データＴ（ｎ）（但し、ｎ≠Ｎｕｄ）のままとして、教師ＤＢ２を上書きする。最初に追加した教師データＴ（Ｎ＋１）は、単に教師データ価値Ｖａｌの並び替えに用いるだけのものであるので、教師ＤＢ２に書き込むことなく破棄する。

【0093】

以上のようにして、本実施例の教師データ生成装置は、教師ＤＢ２の構築および更新を行う。

【0094】

以上より、本実施形態によれば、プラント運転実績データに基づいて、所定の開始時刻ｔ１から所定の抽出時間幅ｔｂａｎｄの期間に行われた操作に対する結果の評価値である操作結果評価値Ｔｖを算出する。操作結果評価値Ｔｖを用いて新教師データＴｎｅｗの生成可否を判定する。教師データＴの生成可と判定したとき、開始時刻ｔ１における板形状状態量Ｓ（ｔ）に基づいて算出した教師データ入力部Ｔｉｎと、開始時刻ｔ１から所定の抽出時間幅ｔｂａｎｄの期間における操作機器状態量Ｏ（ｔ）に基づいて算出した教師データ出力部Ｔｏｕｔと、を含む教師データＴを抽出し、抽出された教師データＴを教師ＤＢ２に格納する。このようにしたことから、プラントの運転実績データから、ＡＩの教師ＤＢ２を構築することが出来る。そのため、リアルタイムのプラント制御に適用するＡＩに、過去のプラント運転実績データを用いてオフライン状態で、制御ルールを学習させておくことが可能となり、その性能についてもオフラインで検証しておくことが可能となる。これにより、制御の信頼性を高め、ＡＩを用いたリアルタイム制御の適用を実現できるようになる。

【0095】

所定の抽出時間幅ｔｂａｎｄで操作結果を評価するので、プラント制御の運転実績データに含まれるノイズと操作に対する状態検出の遅れとの影響を低減して教師データＴを生成できる。そのため、蓄積された膨大な運転実績データから得た教師データＴを用いてニューラルネットワーク等のＡＩの機械学習を行うことにより、ＡＩによるプラント制御の開始早期の段階から高精度の制御を実現可能にする。

【0096】

また、教師データデータベース更新装置３１は、所定の教師データ保管最大数ＮＭＡＸを上限として教師データＴを教師ＤＢ２に格納する。このようにすることで、教師データの個数を一定に保つことができる。そのため、ＡＩの機械学習に要する時間を一定に抑え、当該時間が膨れ上がることを抑制できる。

【0097】

また、教師データデータベース更新装置３１は、教師ＤＢ２内の教師データＴの個数が教師データ保管最大数ＮＭＡＸに達している場合、教師ＤＢ２内の教師データＴと新教師データ抽出装置２０により新たに抽出された１つの新教師データＴｎｅｗとを合わせた教師データの集合の中から他の教師データとの入力部同士の距離が最も小さい２つの教師データを特定する。そして、これら２つの教師データのうち操作結果評価値Ｔｖが悪い方を取り除き、残りの教師データＴを教師ＤＢ２に格納する。このようにすることで、入力部の距離が近い教師データ、すなわち、互いに似ている教師データを優先的に取り除くことができる。そのため、互いに似ていない教師データが残ることになるので、様々な状態に対する教師データにより機械学習を行い、広い範囲で好ましい制御を行うＡＩを生成することができる。

【0098】

また、教師データデータベース更新装置３１は、他の教師データとの入力部同士の距離について教師データ入力部Ｔｉｎの目標値との距離が小さい教師データＴが優先的に残るように重み付けし、重み付け後の距離が最も小さい２つの教師データＴを特定する。このようにすることで、教師データ入力部Ｔｉｎの目標値（つまり、最適な操作状態）の付近では精度の高い細かい制御が求められるところ、教師データ入力部Ｔｉｎの距離の重み付けにより、目標値の近辺に優先的に教師データを残すことで、ＡＩの目標値近辺での制御の精度を高めることができる。

【0099】

また、抽出時間幅ｔｂａｎｄは、形状制御機構毎に設定された基準操作量ＣＡ、ＣＩ、ＣＬと形状制御機構の動作速度ＶＡ、ＶＩ、ＶＬとを用いて算出される操作時間ｔｊに基づいて定まる時間幅である。このようにすることで、抽出時間幅ｔｂａｎｄに、形状を改善する操作に要する平均的な時間を設定することができるので、ノイズおよび操作に対する時間遅れの影響を効果的に低減することができる。

【0100】

また、プラントが圧延機であり、プラント運転実績データの状態量が、圧延機に設けられた形状検出器で検出される板形状状態量であり、操作量が、圧延機に設けられた形状制御機構の操作量である。このようにすることで、プラントとしての圧延機を制御するＡＩの機械学習に用いる教師データＴを生成することができる。

【0101】

また、新教師データ抽出装置２０は、プラント運転実績データにおける、圧延機の運転速度ｖが所定の実績データ読込み速度条件ＴＨｖ以上のときのデータを用いて教師データＴを生成する。このようにすることで、圧延機が運転されているときの運転実績データを用いて、適切な教師データを生成することができる。

【0102】

また、新教師データ抽出装置２０は、操作結果評価値Ｔｖが所定の評価閾値である新教師データ生成形状評価値条件ＴＨＴ以上であり、かつ、形状制御機構操作量Ｏｊが所定の操作閾値である新教師データ生成操作量条件ＴＨＯ以上であるとき、教師データＴの生成が可であると判定する。このようにすることで、圧延による形状変化が大きく、かつ、形状制御機構の操作量が大きいときの運転実績データを用いて教師データを生成するので、ノイズの影響を低減してプラントの操作による状態変化を適切に反映した教師データを生成することができる。なお、新教師データ抽出装置２０は、操作結果評価値Ｔｖが所定の評価閾値である新教師データ生成形状評価値条件ＴＨＴ以上であるとき、教師データＴの生成が可であると判定してもよい。このようにすることで、教師データＴの生成可否をより簡易的に判定できる。

【0103】

なお、本発明は、上記実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化することができる。また、上記実施形態に開示されている複数の構成要素の適宜な組み合わせにより、種々の発明を形成することができる。例えば、実施形態に示される全構成要素からいくつかの構成要素を削除してもよい。さらに、異なる実施形態にわたる構成要素を適宜組み合わせてもよい。

【符号の説明】

【0104】

２０…新教師データ抽出装置、２００…実績データ読込み速度条件設定部、２０１…実績データ読込みカウンター設定部、２０２…教師データ入力部状態量読込み部、２０３…実績データノイズ対策抽出時間幅設定部、２０４…教師データ出力部操作量読込み部、２０５…操作後状態量変化遅れ時間設定部、２０６…操作結果評価部、２０７…新教師データ生成条件設定部、２０８…新教師データ生成判定部、２０９…新教師データ生成部、３１…教師データデータベース更新装置、３１１…教師データデータベースデータ読込み部、３１２…教師データデータ保管数設定部、３１３…教師データデータベース更新方法判定部、３１４…教師データ更新部、３１５…教師データ価値演算部、３１６…更新教師データ決定部、ＤＢ２…ニューラルネット学習用教師データデータベース、ＤＢ５…プラント運転実績データデータベース、Ｎ、Ｎ’…教師データ数カウンター、ＮＭＡＸ…教師データ保管最大数、Ｎｕｄ…更新教師データカウンター、Ｔ、Ｔ’…教師データ、Ｔｎｅｗ…新教師データ、Ｖａｌ…教師データ価値、ｆｌｇｕｄ…更新方法フラグ、ｆＴ…新教師データ生成フラグ、Ｔｉｎ…教師データ入力部、Ｔｏｕｔ…教師データ出力部、ｖ…運転速度、Ｓ…板形状状態量、Ｏ…操作機器状態量、ｔｂａｎｄ…抽出時間幅、Ｖ…形状評価値、Ｔｖ…操作結果評価値、ＴＨＴ…新教師データ生成形状評価値条件、ＴＨＯ…新教師データ生成操作量条件

【図1】