(58)【調査した分野】(Int.Cl.,DB名)
プラントに関する状態に基づいて前記プラントを操作するプラント制御に関する状態量と制御機構の操作量とを含むプラント運転実績データを分析し、前記プラント制御を行う人工知能の学習に用いる教師データを生成する教師データ生成装置であって、
前記プラント運転実績データに基づいて、所定の開始時刻から所定の抽出時間幅の期間に行われた操作に対する結果の評価値を算出し、前記評価値を用いて教師データの生成可否を判定し、前記教師データの生成可と判定したとき、前記開始時刻における前記状態量に基づいて算出した教師データの入力部と、前記開始時刻から所定の抽出時間幅の期間における前記操作量に基づいて算出した教師データの出力部と、を含む教師データを抽出する新教師データ抽出装置と、
前記新教師データ抽出装置で抽出された前記教師データをデータベースに格納する教師データデータベース更新装置と、
を有し、
前記プラント制御は、前記プラントのフィードバック制御であり、
前記抽出時間幅は、前記状態を改善するための複数回にわたる操作に要する時間であり、
前記評価値は、前記開始時刻から前記抽出時間幅の期間に行われた複数回の操作に対する結果の評価であり、
前記新教師データ抽出装置は、前記開始時刻から所定の遅れ時間が経過した時刻から前記抽出時間幅の期間における前記状態量の変化を基に前記評価値を算出する、
教師データ生成装置。
前記教師データデータベース更新装置は、前記データベース内の教師データの個数が前記教師データ保管最大数に達している場合、前記データベース内の教師データと前記新教師データ抽出装置により新たに抽出された1つの教師データとを合わせた新たな教師データの集合の中で他の教師データとの入力部同士の距離で類似度を評価し、前記入力部同士の距離が最も小さい2つの教師データを前記類似度の評価が最も低い組合せとして特定し、これら2つの教師データのうち前記評価値が悪い方を取り除き、残りの教師データを前記データベースに格納する、
請求項2に記載の教師データ生成装置。
プラントに関する状態に基づいて前記プラントを操作するプラント制御に関する状態量と制御機構の操作量を含むプラント運転実績データを分析し、前記プラント制御を行う人工知能の学習に用いる教師データを生成する教師データ生成方法であって、
コンピュータが、
前記プラント運転実績データに基づいて、所定の開始時刻から所定の抽出時間幅の期間に行われた操作に対する結果の評価値を算出し、
前記評価値を用いて教師データの生成可否を判定し、
前記教師データの生成可と判定したとき、前記開始時刻における前記状態量に基づいて算出した教師データの入力部と、前記開始時刻から所定の抽出時間幅の期間における前記操作量に基づいて算出した教師データの出力部と、を含む教師データを抽出し、
前記抽出された教師データをデータベースに格納するものであり、
前記プラント制御は、前記プラントのフィードバック制御であり、
前記抽出時間幅は、前記状態を改善するための複数回にわたる操作に要する時間であり、
前記評価値は、前記開始時刻から前記抽出時間幅の期間に行われた複数回の操作に対する結果の評価であり、
前記コンピュータは、前記開始時刻から所定の遅れ時間が経過した時刻から前記抽出時間幅の期間における前記状態量の変化を基に前記評価値を算出する、
教師データ生成方法。
【背景技術】
【0002】
各種のプラントにおいては、所望の制御結果を得るために各種制御理論に基づいたプラント制御が実施されている。
【0003】
プラントの一例として圧延機が挙げられる。圧延機の制御においては、例えば、板の波打ち状態を制御する形状制御を対象とした制御理論として、ファジィ制御およびニューロ・ファジィ制御が適用されてきた。ファジィ制御は、クーラントを利用した形状制御に適用されている。ニューロ・ファジィ制御は、センヂミア圧延機の形状制御に適用されている。
【0004】
特許文献1には、ニューロ・ファジィ制御を適用した形状制御が開示されている。特許文献1には、形状検出器で検出された実績形状パターンと目標形状パターンの差と、予め設定された基準形状パターンとの類似割合を求め、その類似割合に基づき、予め設定された基準形状パターンに対する制御操作端操作量によって表現された制御ルールにより操作端に対する制御出力量を求める技術が開示されている。
【0005】
図14は、特許文献1に開示されたセンヂミア圧延機の形状制御を実現する構成を示すブロック図である。本図は特許文献1の
図1に相当する。
【0006】
上述したように、センヂミア圧延機の形状制御では、ニューロ・ファジィ制御が用いられる。
図14の例では、圧延機を制御する制御機構は、パターン認識機構51と、制御演算機構53とを有している。圧延機には、形状検出器52が設けられている。
【0007】
形状検出器52は、圧延の対象となる板の実形状を検出する。複数の基準形状パターンが予め定められており、パターン認識機構51は、形状検出器52にて検出された実形状に対してパターン認識を行い、実形状がどの基準形状パターンに最も近いか判定する。
【0008】
図15は、特許文献1に開示された、形状パターンとそれに対する制御パターンおよび制御方法との関係を定めた制御ルールの一例を示す図である。本図は特許文献1の
図9に相当する。
【0009】
形状検出器52は、例えば、板の実形状が、
図15に示されたどの形状パターン(基準形状パターン)に最も近いか判定する。制御演算機構53は、
図15に示された制御ルールを参照し、板の実形状が最も近い形状パターンに対応する制御パターンおよび制御方法に基づき制御操作端操作量を決定し、その操作量で圧延機への制御を実施する。
【0010】
具体的には、パターン認識機構51は、形状検出器52にて検出した実形状と目標形状(εref)との差分(Δε)が、
図15の1〜8のどの形状パターン(ε)に最も近いかを演算により求める。制御演算機構53は、形状検出器52が求めた実形状に最も近い形状パターンに対応する制御方法を選択し、実行する。
【0011】
特許文献1の手法においては、圧延中にオペレータに手動操作を行ってもらい、その手動操作を利用して制御ルールが適切かどうかを検証することがある。しかし、制御ルールが現実に則していない場合、圧延機により圧延された板が予想に反した形状変化を示す場合がある。これは、機械的特性の検討不足、圧延機の操業状態、または機械条件の変化の1つ以上が原因である。
【0012】
予め設定した制御ルールが適切なルールとなっているか否かを検証するには様々な条件を考慮する必要があり、それらを考慮した手動制御による制御ルールの検証は容易ではない。そのため、制御ルールは、一度設定されると、圧延機の制御に明らかな不具合が生じない限り、検証されたり修正されたりせずそのまま使用され続ける場合が多い。
【0013】
操業条件の変化等で制御ルールが現実に則したものでなくなってくることがある。制御ルールが現実に則したものでなくなってきたとき、制御ルールを検証し、改善しなければ、ある程度以上の制御精度を出すことは困難である。
【0014】
しかし、一旦形状制御が動作してしまうと、オペレータによる手動操作は制御にとって外乱となるため、オペレータは手動操作をしなくなる。そのため、新たな制御ルールをオペレータの手動制御の介入により見つけていくのは困難である。
【0015】
また、圧延機で今まで扱っていなかったような新しい規格の圧延材を圧延する場合、制御ルールをその材料にあわせて設定するのは困難である。
【0016】
以上のように、従来の形状制御においては、予め設定された制御ルールを修正するのは困難であった。これに対して、圧延機の制御にニューラルネットワーク等の人工知能(Artificial Intelligence、以下、「AI」ともいう。)を適用し、機械学習により形状パターンと操作方法の制御ルールを自動的に修正することが考えられる。
【発明を実施するための形態】
【0025】
はじめに、本実施形態に含まれる基本概念について説明する。
【0026】
プラント制御において、モデル化できない実現象や過去の経験に基づく操作者のノウハウ等は、プラントの過去の運転実績データに含まれている。そのため、過去のプラントの運転実績データを収集し、オフラインで制御ルールを抽出し、抽出した制御ルールを教師データとして用いて学習させることが、最適なプラント制御に効果的である。制御ルールとは、形状出力(状態量)と操作(操作量)とを関連付けた情報である。ここで、予め蓄積された過去のプラント運転実績データに基づいて生成した教師データを用いてオフラインでAIに機械学習させた結果を実機に適用する実施手順を以下に示す。
(1)プラントの運転実績データを収集する。
(2)プラントの運転実績データからAIの機械学習に用いる教師データを抽出する。
(3)教師データを用いたAIの機械学習を実施する。
(4)検証用教師データを用いたAIの機械学習の結果を検証する。
(5)シミュレーション等による学習済みAIの制御性能を検証する。
(6)プラント実機によるリアルタイム制御性能を検証する。
【0027】
本実施形態は上記(2)に着目している。その後、(3)〜(6)を実施することで、実プラントへ適用する前段階で制御性能を検証することが可能となる。
【0028】
本実施形態では、プラントの運転実績データからから制御ルールを生成し、生成された制御ルールを評価する。そして、評価結果の良好な制御ルールに基づいて新たな教師データを生成する。
【0029】
プラントの運転実績データにはノイズが含まれており、制御系に対する外乱の影響も多々ある。本実施形態は、これらノイズや外乱の影響を抑え、効果的に運転実績データから教師データを生成することができる。
【0030】
本実施形態は、プラントの運転実績データのうち一定の操作量があったものの中から、評価結果の良好な制御ルールを抽出して、教師データを生成するものである。本実施形態では、制御結果の時間遅れのばらつきの影響を抑え、制御によるプラント状態の変化を適切に評価して、評価の良好な制御ルールを抽出することができる。
【0031】
本実施形態では、プラントの運転実績データから生成される制御ルールを用いて、AIの機械学習に用いる教師データを保管した学習用教師データデータベースを構築する。本実施形態は、制御ルールに基づいて生成された新たな教師データによって既存の学習用教師データデータベースを更新することができる。
【0032】
ニューラルネットワーク等のAIを用いた実績データから学習した結果に基づく制御は、学習したデータに基づく帰納的手法であるため、学習したデータの対応できる範囲以外では、制御の信頼性が低くなる。本発明は、制御の対応可能範囲を広げる為に、AIの学習用教師データデータベースの対応できる状態の幅を広げ、より多くの状態に対応した制御ルールによって学習用教師データデータベースが構築されるように、それぞれの制御ルールの価値を演算する機能を持つ。
【0033】
学習用教師データデータベースに保管される教師データ数が多くなると、教師データを用いた機械学習の計算量が多くなり、計算時間も長くなってしまう。本実施形態では、この学習に要する計算量と計算時間を一定に保つために、学習用教師データデータベースの教師データ数を管理して、一定数を超えてからは、新たな教師データを追加する際に、最も価値の低い教師データを新たな教師データで更新する。すなわち、本実施形態は、教師データ数を一定数に保つことができる。
【0034】
本実施形態では、プラントの運転実績データに含まれるノイズの影響および、操作と状態変化の時間遅れのばらつきの影響を低減させる工夫として、操作と状態変化の値を測定する時間を広げる。
【0035】
ノイズの影響について考えると、形状制御の制御周期は、0.5秒〜数秒の範囲であり、1周期あたりに制御できる形状制御機構の動作範囲はそれほど大きくない。圧延機の形状制御機構(AS−U、IMR)は動作可能範囲が数mmである。一方で、一定の圧延状態であっても、形状は一定量変化し続けている。これは、材料と圧延機の間の力の伝達や、油の引き込み、材料の品質のばらつきなどによって、製品の伸び度合いが常に変動し続けていることによる。これを形状評価する際のノイズとして考慮する。このため、制御一周期の小さな操作で起こる形状の小さな変化に対して、常に発生している変化の方が大きくなってしまうことがあり、操作に対する純粋な形状変化成分のみを取り出すことは難しい。これら課題に対する手段として、ある一定期間での操作結果の総和として形状を評価し、評価した結果をその期間内で実施された操作に配分することを考える。このとき、ノイズの影響を除くため、形状評価にデッドバンド(評価対象外とする範囲)を設けて、デッドバンドに含まれる場合は形状変化なしとみなす。
【0036】
時間遅れについて考えると、圧延機において、形状制御は周期的に行われ、形状制御を行ったあとに実際に発生した形状変化を検出するまでに時間遅れがある。さらに一定周期後には新たな制御が行われるので、実際に発生した形状変化はある1周期の形状変化だけではなく、一連の操作による効果の重ねあわせによるものと考えられる。このような時間遅れの理由として、形状制御機構によって圧延された箇所が測定位置に達するまでの遅れ(移動遅れ)、形状制御機構への操作入力から形状制御機構が動作完了するまでの遅れ(動作遅れ)、形状制御機構が動作完了してから圧延状態が安定するまでの遅れ(圧延安定化遅れ)、などが考えられる。
図12に、これら遅れのイメージを示す。上記移動遅れは、圧延鋼板などの圧延対象物の移動速度により決定される。上記動作遅れは、形状制御機構の動作中の形状変化を考慮する必要がある。上記圧延安定化遅れは不確定要素である。そのため、形状制御機構の操作に応じた形状変化は、操作入力からある遅れをもって段階的に発生する。
【0037】
本実施形態では、オフラインの運転実績データからは、制御に有用な効果のあった操作を含む制御ルールのみを抽出して教師データの生成に用いる。このとき、制御周期内での操作機器(すなわち形状制御機構)の動作量が小さいと、操作量自体にノイズがあり、状態変化量にもノイズの影響があり、操作の評価が不確実になる。また、操作と状態変化の時間的関係も正確でない可能性があり、誤った関係を抽出してしまう可能性が高い。これに対して、データを1周期で比較するのではなく、複数周期を含む形状評価区間(
図13)に設定することで、大きな操作に対する大きな状態量の変化を評価することができる。また、時間遅れのばらつきの影響も、抽出時間の始まりと終わりだけになるので、割合として抑制が可能である。
【0038】
また、教師データの更新方法として、複数周期を含む操作量収集区間に発生した操作量の総和を用いて制御ルールを生成し、新たな教師データとしてデータベースに追加することが考えられる。この場合、操作量の総和を、1周期の制御ルールとする為の規格化が必要となる。つまり、操作量の総和を1周期に動かせる機構の動作範囲内に収まるように規格化すればよい。また、形状変化の時間遅れを考慮して、形状変化直前の操作の重みを低くして、他の操作には均等に配分するのが適切と考えられる。形状の評価区間と操作量の収集区間を時間遅れ分だけずらす。
図13に、形状評価区間と操作収集区間とのイメージを示す。
【0039】
有限の実績データの集合で多くの状態に対応可能なAIを構築するために教師データの網羅性を高める。そのため、教師データを価値によって順位付けし、順位の低いものから教師データを削除していく。このとき、順位付けの基準として教師データ間の近似度合いを測ることにより、近似度合いが高い教師データほど価値が低いと考えて、できるだけ多くの状態に対応可能な学習用教師データデータベースの作成を実施させることができる。
【0040】
新たな教師データを追加するとき、既存の教師データを含めた価値による順位づけをして、順位の低い物を消去する。このとき、教師データとしての価値は、他に似たルールが無いこと(近似度合い)、および、操作に対する効果が大きいこと(効果度合い)、とする。順位付けの指標として近似度合いである教師データ間の距離を算出し、算出した距離に基づいて最も距離が近い2つの教師データを抽出して、これら2つの教師データの効果度合いとしての各教師データの操作結果評価値を比較して、消去する教師データを決定する。
【0041】
教師データ間の距離は、学習用教師データデータベースに保管されている一の教師データについて他の全ての教師データとの距離を算出してその最小値(最小距離d)とする。教師データ間の距離は、教師データの入力データ(形状偏差)と出力データ(操作量)の偏差の2乗平方を取り、それぞれ重み付けして足し合わせる。上記にて算出した最小距離dによって教師データを順位付けし、最下位の教師データを学習用教師データデータベースから消去する。このとき、最小距離dとなる教師データは必ず2つ存在するので、操作結果評価値の低い方を削除する。さらには、上記方法では操作結果評価値が良好であると偶発的に誤って判定された教師データが削除されず残り続けてしまうことがある。このような事態を防ぐために、操作結果評価値は新たな教師データを一定回数更新する度に、所定の係数K(0<K<1)を乗じて減少させていくこととしてもよい。
【0042】
先の例において、新たな教師データとして採用される制御ルールは、例えば、(状態量)|(操作量)として表現できる。このとき、操作結果評価値に応じて、操作量を補正し、学習用データとして追加するようにしてもよい。すなわち、
操作結果評価値が良好の場合 … (状態量)|(操作量)×α (α>1)
操作結果評価値が普通の場合 … (状態量)|(操作量)×β (0<β<1)
操作結果評価値が不良の場合 … (状態量)|(操作量)×γ (0<γ<<1)
としてもよい。
【0043】
プラント制御において、入力状態がほぼ同じでも出力が変化してくることがあり、最適状態に近づいたときにも同様である。最適状態を保持するために、最適状態近傍の小さな領域での細かな出力の変化に対応することが重要となる。そのため、本実施形態では、最適状態からの距離で教師データの価値を重みづけすることにより、最適状態近くの教師データの密度を高くし、最適状態から離れたところの教師データの密度を低くしていくような管理が可能である。
【0044】
本実施形態は、以上のような機能を備えた収集したプラント運転実績データから生成した制御ルールに基づいてAIの機械学習に用いる教師データを生成する手法に関するものである。
【0045】
本実施形態によれば、プラントの運転実績データから、人工知能の学習用教師データデータベースを構築することが出来る。そのため、リアルタイムのプラント制御に適用するAIに、過去のプラント運転実績データを用いてオフライン状態で、制御ルールを学習させておくことが可能となり、その性能についてもオフラインで検証しておくことが可能となる。これにより、制御の信頼性を高め、AIを用いたリアルタイム制御の適用を実現できるようになる。
【0046】
また、本実施形態によれば、ノイズを含み、操作と操作した結果の時間遅れにばらつきがあるようなプラントの運転実績データから、操作結果を適切に評価し、AIに学習させる事で効果的な制御を実施することが期待される、良好な制御ルールを持った新たな教師データを抽出できる。膨大なプラント運転実績データからAI学習用の教師データデータベースの構築が可能で、プラント運転実績データのデータが多ければ多いほどAIを用いた制御精度を高められる。また、教師データ数を一定に保つことが出来るため、AIの学習に要する計算時間が膨れ上がることを抑制できる。
【0047】
(実施例)
以下に、実施例に係る教師データ生成装置の構成について、各図面を参照して説明する。
【0048】
本実施例に係る教師データ生成装置は、プラントに関する状態に基づいて前記プラントを操作するプラント制御に関する状態量と制御機構の操作量を含むプラント運転実績データを分析し、前記プラント制御を行う人工知能の学習に用いる教師データを生成する。
【0049】
図1に、実施例に係る教師データ生成装置の概略機能ブロックを示す。
図1の教師データ生成装置は、新教師データ抽出装置20と、教師データデータベース更新装置31と、を有している。教師データ生成装置は、コンピュータを有して構成されており、このコンピュータが、記憶装置に記憶されているプログラムをコンピュータが実行することによって新教師データ抽出装置20および教師データデータベース更新装置31として機能する。教師データ生成装置によって生成される教師データは、AIとしてのニューラルネットワークを有するプラント制御装置の学習に用いられる。
【0050】
新教師データ抽出装置20は、プラント運転実績データデータベースDB5(以下、単に「運転実績DB5」という)に保管されているプラント運転実績データとしての運転速度v(t)と板形状状態量S(t)と操作機器状態量O(t)を参照して、新教師データTnewを作成する。tは時刻または時刻に準じるパラメータを示す。
【0051】
教師データデータベース更新装置31は、新教師データ抽出装置20から新教師データTnewを取得する。また、教師データデータベース更新装置31は、ニューラルネット学習用教師データデータベースDB2(以下、単に「教師DB2」という)に保管されている教師データ数カウンターNと教師データT(1),…,T(N)を取得する。そして、教師データデータベース更新装置31は、取得した教師データ数カウンターNと教師データT(1),…,T(N)を更新して、教師DB2に上書きする。教師データ数カウンターNは、教師データTが追加される毎に1から順に教師データ保管最大数NMAXまでカウントアップされる。
【0052】
図2に、新教師データ抽出装置20の概略機能ブロックを示す。新教師データ抽出装置20は、実績データ読込み速度条件設定部200、実績データ読込みカウンター設定部201、教師データ入力部状態量読込み部202、実績データノイズ対策抽出時間幅設定部203、教師データ出力部操作量読込み部204、操作後状態量変化遅れ時間設定部205、操作結果評価部206、新教師データ生成条件設定部207、新教師データ生成判定部208、新教師データ生成部209を主たる要素として構成されている。
【0053】
実績データ読込みカウンター設定部201は、運転実績DB5から運転速度v(t)を取得し、実績データ読込みカウンターtを設定する。具体的には、実績データ読込みカウンター設定部201は、実績データ読み込みカウンターtを始めから進めながら運転実績DB5に保管されている運転速度v(t)を順に読込む。すなわち、運転速度v(t)を時刻の最も早いもの(時間的に古いもの)から順に読込む。そして、以下の読込み条件を満足したときに、そのときの実績データ読込みカウンターtを出力する。
【0054】
図4に、本実施例において対象とするセンジミア圧延機の運転速度パターンを示す。実績データ読込みカウンター設定部201は、実績データ読込み速度条件設定部200で設定した実績データ読込み速度条件THv(すなわち、教師データとして抽出する条件速度である教師データ抽出速度THv)以上かつ運転速度が一定期間保持されていることを上記読込み条件として、実績データ読込みカウンターtを出力する。
【0055】
教師データ入力部状態量読込み部202は、実績データ読込みカウンター設定部201によって出力された実績データ読込みカウンターtを用いて、運転実績DB5から板形状状態量S(t)を読込む。本実施例において、板形状状態量S(t)は、時刻tにおいて形状検出器によって検出された板形状実績値spfbと、目標板形状sprefと、を含んでいる。
【0056】
図5に、実績データ読込みカウンターt(t=開始時刻t1)における板形状状態量S(t1)の一例を示す。
図5において、DSはドライブサイドを示し、WSはワークサイドを示す。上段のグラフは、横軸に板幅方向の形状検出器の位置i{i=1,…,Ch}を示し、縦軸に形状検出器によって検出された板形状実績値spfb(i)と目標板形状spref(i)を示す。ここで、Chは、板幅方向で使用された形状検出器の総数を示す。下段のグラフは、横軸に板幅方向の形状検出器の位置iを示し、縦軸に形状偏差spdev(i)を示す。形状偏差spdev(i)は、以下の式(1)によって求められる。以下の式(2)に、時刻t1における、板幅方向の形状偏差spdev(i)の集合である教師データ入力部Tin(t1)を示す。
【数1】
【0057】
教師データ出力部操作量読込み部204は、実績データ読込みカウンター設定部201からの実績データ読込みカウンターtと実績データノイズ対策抽出時間幅設定部203から取得した抽出時間幅tband[sec]とを用いて、運転実績DB5より操作機器状態量O(t)〜O(t+tband)を読込む。本実施例において、操作機器状態量O(t)は、時刻tにおける各操作機器の操作機器状態量Pj(t){jは形状制御機構の番号を示す、j=1,…,10}を含んでいる。
【0058】
図6に操作機器状態量Pj(t)の時間推移の一例を示す。Pj(t)は、時刻tにおける形状制御機構(番号j)の操作量を示す。本実施例においては、各番号jは下段のグラフの横軸に示すように各形状操作機構に対応づけられている。すなわち、番号1〜7で示す形状操作機構は「AS−U#1」〜「AS−U#7」である。番号8で示す形状操作機構は「Top IMR shift」であり、番号9で示す形状操作機構は「Bot IMR shift」である。番号10で示す形状操作機構は「Leveling」である。
【0059】
実績データノイズ対策抽出時間幅設定部203で設定した抽出時間幅tbandとPj(t)とから、時刻tにおける形状制御機構(番号j)の形状制御機構操作量Oj(t)を以下の式(3)によって求める。ここで、tcycは、実績データサンプリング周期を示す。
【数2】
【0060】
ここで、抽出時間幅tbandは、形状を改善する操作に要する平均的な時間を設定する。形状がノイズの影響ではなく、操作によって改善できたと判断できる基準は±5[I−unit]程度であり、その為に必要な各形状制御機構の操作時間tjは、以下のパラメータを用いて、式(4)〜(6)によって求めることができる。
CA:AS−U基準操作量[mm/I−unit]
VA:AS−U動作速度[mm/sec]
CI:IMR shift基準操作量[mm/I−unit]
VI:IMR shift動作速度[mm/sec]
CL:Leveling基準操作量[mm/I−unit]
VL:Leveling動作速度[mm/sec]
【数3】
【0061】
ここで、各形状制御機構の基準操作量は、形状(状態量)への影響が等しくなる各形状制御機構の操作量であり、各形状制御機構の操作量に対する形状の変化量を試験することによって決定できる。抽出時間幅tbandは、tjの最大時間を設定するが、実際には操作した効果のばらつき、複数回の操作の間隔を考慮するため、以下の式(7)に示すように、数倍した時間(係数βを乗じた時間)を設定する。
【数4】
【0062】
ここでは、操作によって改善できたと判断できる基準は5[I−unit]としたが、実際の圧延状況に応じて適当に変更して良い。また、tbandについては、一定以上の操作が続いている間とする等、必要に応じて本例とは他の方法でその値を選択することも可能である。
【0063】
形状制御機構操作量Oj(t)は、上述CA、CIおよびCLを用い、教師データ出力部Tout(t1)を以下の式(8)によって求める。
【数5】
【0064】
CA、CIおよびCLを用いることにより、それぞれの操作量の重みを標準化(規格化)して扱うことが出来る。
【0065】
操作結果評価部206は、実績データ読込みカウンター設定部201からの実績データ読込みカウンターt、実績データノイズ対策抽出時間幅設定部203からの抽出時間幅tband、操作後状態量変化遅れ時間設定部205からの遅れ時間Δtを用いて、運転実績DB5から板形状状態量S(t)を読込む。
【0066】
図7に、圧延した鋼板の板形状検出の時間遅れを示す。上作業ロール1と下作業ロール2で圧延された被圧延材4の板形状は、圧延方向に距離L進んだ位置にある形状検出器3によって検出される。そのため、被圧延材4における圧延された箇所の形状が形状検出器で検出されるまでの遅れ時間Δtは、操作後状態量変化遅れ時間設定部205によって、被圧延材4が進む速度である運転速度v(t)を用いて以下の式(9)によって求められる。
【数6】
【0067】
操作結果評価は、操作前後の板形状状態量を元に求められる。板形状状態量は、形状偏差spdev(i)を元に評価を行うものとし、たとえば以下の式によって実績データ読込みカウンターtに示される時刻tおける形状評価値V(t)を演算する。
【数7】
【0068】
図8のグラフは、形状評価値V(t)の時間変化を示す。実績データ読込みカウンターt(t=t1)における操作結果評価値Tv(t1)は、形状評価値V(t1)、抽出時間幅tband、遅れ時間Δtを元に、以下の式(11)によって求める。
【数8】
【0069】
新教師データ生成判定部208においては、操作結果評価部206からの操作結果評価値Tv(t)、新教師データ生成条件設定部207からの新教師データ生成形状評価値条件THT、新教師データ生成操作量条件THOを元に、以下の式(12)によって新教師データ生成フラグfTを決定する。
【数9】
【0070】
操作結果評価値Tv(t1)が新教師データ生成形状評価値条件THTより小さいか、または、各形状制御機構の形状制御機構操作量Oj(t1)の最大値がTHOより小さいとき、新教師データ生成フラグfT=0とする。つまり、圧延による形状変化が小さいか、または、形状制御機構の操作量が小さいとき、新教師データ生成フラグfT=0として、新教師データTnewを生成しない。
【0071】
操作結果評価値Tv(t1)が新教師データ生成形状評価値条件THT以上で、かつ、各形状制御機構の形状制御機構操作量Oj(t1)の最大値がTHO以上のとき、新教師データ生成フラグfT=1とする。つまり、圧延による形状変化が大きく、かつ、形状制御機構の操作量が大きいとき、新教師データ生成フラグfT=として、新教師データTnewを生成する。
【0072】
なお、操作結果評価値Tv(t1)のみ判定して、新教師データ生成フラグfTを設定するようにしてもよい。つまり、fT=0(Tv(t1)<THTのとき)、fT=1(Tv(t1)≧THTのとき)、としてもよい。
【0073】
ここで、新教師データ生成形状評価値条件THTは、板形状状態量が改善した場合を抽出するための条件であり、ノイズなどによる一時的な変化ではなく、操作によって明らかに形状が改善したと判断できる基準を設定する。経験的に、1つの形状検出器あたり±5[I−unit]の変化、形状評価値V(t)としては10/Ch[I−unit]程度が適当と考えられる。これらを考慮し、新教師データ生成形状評価値条件THTを以下の式(13)で示すものとする。
【数10】
【0074】
また、新教師データ生成操作量条件THOは、実際はほとんど操作がされていないにも関わらず、操作以外の影響で形状評価値が変化した場合を除くために設定する。1つの形状検出器あたり±5[I−unit]の変化に相当する操作量を判定の基準とする。
【数11】
【0075】
上記では、新教師データ生成形状評価値条件THTおよび新教師データ生成操作量条件THOについて、10/Ch[I−unit]、1つの形状検出器あたり±5[I−unit]等の数値を用いたが、これらの数値は圧延状態に応じて適当に変更してよい。
【0076】
新教師データ生成部209は、新教師データ生成判定部208からの新教師データ生成フラグfT、教師データ入力部状態量読込み部202からの教師データ入力部Tin(t)、教師データ出力部操作量読込み部204からの教師データ出力部Tout(t)、操作結果評価部206からの操作結果評価値Tv(t)を元に、新教師データTnewを生成する。
【0077】
新教師データ生成フラグfTが0の場合は、新教師データTnewを生成しないものとして、実績データ読込みカウンター設定部201に対して、次の実績データ読込み要求する。
【0078】
新教師データ生成フラグfTが1の場合は、新教師データTnewを生成するものとして、以下の式に基づいて新教師データTnewを作成する。
【数12】
【0079】
図3に、教師データデータベース更新装置31の概略機能ブロックを示す。教師データデータベース更新装置31は、教師データデータベースデータ読込み部311、教師データデータ保管数設定部312、教師データデータベース更新方法判定部313、教師データ更新部314、教師データ価値演算部315、更新教師データ決定部316を主たる要素として構成されている。
【0080】
教師データデータ保管数設定部312では、教師DB2に保管する教師データ保管最大数NMAXを設定する。
【0081】
教師データデータベースデータ読込み部311は、教師DB2に保管された教師データ数カウンターNと教師データT(n)を読み込む。
【0082】
教師データデータベース更新方法判定部313は、教師データデータ保管数設定部312からの教師データ保管最大数NMAX、教師データデータベースデータ読込み部311からの教師データ数カウンターNより、更新方法フラグflagudを設定する。
【数13】
【0083】
教師データ更新部314は、教師データデータベースデータ読込み部311からの教師データT(1),…,T(N)、教師データデータベース更新方法判定部313からの更新方法フラグflagud、新教師データ抽出装置20からの新教師データTnew、をもとに更新後の教師データT’(1),…,T’(N)と教師データ数カウンターN’を作成し、教師DB2に上書きする。
【0084】
更新方法フラグflagudが1の場合、つまり、教師DB2に保管されている教師データTの数Nが教師データ保管最大数NMAXより小さい場合、以下の式(18)〜(20)により更新後の教師データT’(1),…,T’(N)と教師データ数カウンターN’を求める。
【数14】
【0085】
すなわち、更新方法フラグflagudが1の場合、教師データT(1),…,T(N)をそのまま更新後の教師データT’(1),…,T’(N)とし、更新後の教師データT’(N+1)として新教師データTnewを追加して、教師DB2に格納する。
【0086】
更新方法フラグflagudが2の場合、つまり、教師DB2に保管されている教師データTの数Nが教師データ保管最大数NMAXと等しく、これ以上教師データTの数を増加させない場合、更新教師データ決定部316からの更新教師データカウンターNudを用いて、以下の式(21)〜(24)により更新後の教師データT’(1),…,T’(N)と教師データ数カウンターN’を求める。
【数15】
【0087】
この場合、始めに、教師データ価値演算部315は、教師データ更新部314から読み出した教師データT(1),…,T(N)にT(N+1)(=Tnew)を追加して(式(21))、これら教師データTを元に教師データ価値Val(1),…,Val(N+1)を演算する。教師データ価値演算部315は、限られた教師データTで、対応できる入力状態の領域を広げるため、教師データの価値は教師データ入力部Tinの状態量が他と異なっていることを価値が高い(良い評価)とし、似通っていることを価値が低い(悪い評価)として求める。
【0088】
図9は教師データ価値Valの演算の様子をグラフを用いて模式的に示している。教師データ入力部Tin(n)は、上記式(2)に示すように、形状検出器の総数(すなわち検出ゾーン数)であるCh次元の値であるが、ここでは説明のため二次元(sp(1)とsp(2))の値とした。ここで、教師データT(m)の教師データ価値Val(m)は、他の教師データTとの距離のうちの最小値として、以下の式(25)〜(28)を用いて求める。
【数16】
【0089】
ここで、sp(i)nはn番目の教師データの第iゾーン(i番目の形状検出器に対応する検出ゾーン)における形状偏差spdev(i)を示す。din(n,m)はn番目の教師データとm番目の教師データの入力部状態量の距離を示す。din0(n)はn番目の教師データと最適な状態0(すなわちsp(i)座標系の原点であり、形状偏差spdev(i)が0となる目標値である)との距離を示す。din0(m)はm番目の教師データと最適な状態0との距離を示す。各教師データ間の距離を、各教師データと最適な状態0との距離で割ることで、最適な状態0の近辺において、教師データ出力部Toutの操作量の方向が細かく変化することを考慮に入れることができる。
【0090】
そして、更新教師データ決定部316は、教師データ更新部314からの教師データT(1),…,T(N+1)、教師データ価値演算部315からの教師データ価値Val(1),…,Val(N+1)を基に更新教師データカウンターNudを決定する。更新教師データカウンターNudは、更新すべき教師データT(最も価値の低い教師データT)を特定するカウンターである。
【0091】
図10、
図11は更新教師データカウンターNudの決定方法を説明する図である。
図10に示す表のように、教師データT(n)を教師データ価値Val(n)によって、大きいものから順に並び替える。ここで、並び替え後k番目の教師データ番号をn(k)とする。このように並び替えた時、
図11で示すように最も価値が小さくなる2つの教師データの組が決定される。こうして得られた、N番とN+1番との教師データの操作結果評価値Tvを比較することにより、以下のようにして更新教師データカウンターNudを決定する。
【数17】
【0092】
このようにして決定した更新教師データカウンターNudで特定される教師データT’(Nud)を新教師データTnewで更新し、残りの教師データT’(n)については、教師データ更新部314から読み出した教師データT(n)(但し、n≠Nud)のままとして、教師DB2を上書きする。最初に追加した教師データT(N+1)は、単に教師データ価値Valの並び替えに用いるだけのものであるので、教師DB2に書き込むことなく破棄する。
【0093】
以上のようにして、本実施例の教師データ生成装置は、教師DB2の構築および更新を行う。
【0094】
以上より、本実施形態によれば、プラント運転実績データに基づいて、所定の開始時刻t1から所定の抽出時間幅tbandの期間に行われた操作に対する結果の評価値である操作結果評価値Tvを算出する。操作結果評価値Tvを用いて新教師データTnewの生成可否を判定する。教師データTの生成可と判定したとき、開始時刻t1における板形状状態量S(t)に基づいて算出した教師データ入力部Tinと、開始時刻t1から所定の抽出時間幅tbandの期間における操作機器状態量O(t)に基づいて算出した教師データ出力部Toutと、を含む教師データTを抽出し、抽出された教師データTを教師DB2に格納する。このようにしたことから、プラントの運転実績データから、AIの教師DB2を構築することが出来る。そのため、リアルタイムのプラント制御に適用するAIに、過去のプラント運転実績データを用いてオフライン状態で、制御ルールを学習させておくことが可能となり、その性能についてもオフラインで検証しておくことが可能となる。これにより、制御の信頼性を高め、AIを用いたリアルタイム制御の適用を実現できるようになる。
【0095】
所定の抽出時間幅tbandで操作結果を評価するので、プラント制御の運転実績データに含まれるノイズと操作に対する状態検出の遅れとの影響を低減して教師データTを生成できる。そのため、蓄積された膨大な運転実績データから得た教師データTを用いてニューラルネットワーク等のAIの機械学習を行うことにより、AIによるプラント制御の開始早期の段階から高精度の制御を実現可能にする。
【0096】
また、教師データデータベース更新装置31は、所定の教師データ保管最大数NMAXを上限として教師データTを教師DB2に格納する。このようにすることで、教師データの個数を一定に保つことができる。そのため、AIの機械学習に要する時間を一定に抑え、当該時間が膨れ上がることを抑制できる。
【0097】
また、教師データデータベース更新装置31は、教師DB2内の教師データTの個数が教師データ保管最大数NMAXに達している場合、教師DB2内の教師データTと新教師データ抽出装置20により新たに抽出された1つの新教師データTnewとを合わせた教師データの集合の中から他の教師データとの入力部同士の距離が最も小さい2つの教師データを特定する。そして、これら2つの教師データのうち操作結果評価値Tvが悪い方を取り除き、残りの教師データTを教師DB2に格納する。このようにすることで、入力部の距離が近い教師データ、すなわち、互いに似ている教師データを優先的に取り除くことができる。そのため、互いに似ていない教師データが残ることになるので、様々な状態に対する教師データにより機械学習を行い、広い範囲で好ましい制御を行うAIを生成することができる。
【0098】
また、教師データデータベース更新装置31は、他の教師データとの入力部同士の距離について教師データ入力部Tinの目標値との距離が小さい教師データTが優先的に残るように重み付けし、重み付け後の距離が最も小さい2つの教師データTを特定する。このようにすることで、教師データ入力部Tinの目標値(つまり、最適な操作状態)の付近では精度の高い細かい制御が求められるところ、教師データ入力部Tinの距離の重み付けにより、目標値の近辺に優先的に教師データを残すことで、AIの目標値近辺での制御の精度を高めることができる。
【0099】
また、抽出時間幅tbandは、形状制御機構毎に設定された基準操作量CA、CI、CLと形状制御機構の動作速度VA、VI、VLとを用いて算出される操作時間tjに基づいて定まる時間幅である。このようにすることで、抽出時間幅tbandに、形状を改善する操作に要する平均的な時間を設定することができるので、ノイズおよび操作に対する時間遅れの影響を効果的に低減することができる。
【0100】
また、プラントが圧延機であり、プラント運転実績データの状態量が、圧延機に設けられた形状検出器で検出される板形状状態量であり、操作量が、圧延機に設けられた形状制御機構の操作量である。このようにすることで、プラントとしての圧延機を制御するAIの機械学習に用いる教師データTを生成することができる。
【0101】
また、新教師データ抽出装置20は、プラント運転実績データにおける、圧延機の運転速度vが所定の実績データ読込み速度条件THv以上のときのデータを用いて教師データTを生成する。このようにすることで、圧延機が運転されているときの運転実績データを用いて、適切な教師データを生成することができる。
【0102】
また、新教師データ抽出装置20は、操作結果評価値Tvが所定の評価閾値である新教師データ生成形状評価値条件THT以上であり、かつ、形状制御機構操作量Ojが所定の操作閾値である新教師データ生成操作量条件THO以上であるとき、教師データTの生成が可であると判定する。このようにすることで、圧延による形状変化が大きく、かつ、形状制御機構の操作量が大きいときの運転実績データを用いて教師データを生成するので、ノイズの影響を低減してプラントの操作による状態変化を適切に反映した教師データを生成することができる。なお、新教師データ抽出装置20は、操作結果評価値Tvが所定の評価閾値である新教師データ生成形状評価値条件THT以上であるとき、教師データTの生成が可であると判定してもよい。このようにすることで、教師データTの生成可否をより簡易的に判定できる。
【0103】
なお、本発明は、上記実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化することができる。また、上記実施形態に開示されている複数の構成要素の適宜な組み合わせにより、種々の発明を形成することができる。例えば、実施形態に示される全構成要素からいくつかの構成要素を削除してもよい。さらに、異なる実施形態にわたる構成要素を適宜組み合わせてもよい。