(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024076040
(43)【公開日】2024-06-05
(54)【発明の名称】プログラム、制御装置、および制御方法
(51)【国際特許分類】
G06N 20/00 20190101AFI20240529BHJP
B29B 7/72 20060101ALI20240529BHJP
G05B 13/02 20060101ALI20240529BHJP
G05B 11/36 20060101ALI20240529BHJP
【FI】
G06N20/00
B29B7/72
G05B13/02 L
G05B11/36 J
【審査請求】未請求
【請求項の数】13
【出願形態】OL
(21)【出願番号】P 2022187397
(22)【出願日】2022-11-24
(71)【出願人】
【識別番号】000006035
【氏名又は名称】三菱ケミカル株式会社
(74)【代理人】
【識別番号】100165179
【弁理士】
【氏名又は名称】田▲崎▼ 聡
(74)【代理人】
【識別番号】100142309
【弁理士】
【氏名又は名称】君塚 哲也
(74)【代理人】
【識別番号】100140774
【弁理士】
【氏名又は名称】大浪 一徳
(72)【発明者】
【氏名】三木 啓史
(72)【発明者】
【氏名】志賀 祐太
【テーマコード(参考)】
4F201
5H004
【Fターム(参考)】
4F201AM23
4F201BA01
4F201BC02
4F201BD05
4F201BK02
4F201BK13
4F201BK74
5H004GA30
5H004GB01
5H004GB15
5H004HA01
5H004HA08
5H004HB01
5H004HB08
5H004KD61
(57)【要約】
【課題】混練物における異物量や、樹脂の練り具合等の評価値の制御に最適な混練条件の決定することが可能なプログラム、制御装置、および制御方法を提供することである。
【解決手段】混練物を製造する混練機を制御するためのプログラムであって、コンピュータで実行されることで、前記混練機の操作量と前記混練物に含まれる異物量とを含む状態データを取得し、前記異物量と前記混練機に関する制約条件とに基づいて定義された報酬関数に基づき強化学習された第1モデルに対して、取得された前記状態データを入力し、取得された前記状態データが入力された前記第1モデルの出力結果に基づいて、前記混練機に対して適用すべき操作量を決定する、プログラム。
【選択図】
図3
【特許請求の範囲】
【請求項1】
混練物を製造する混練機を制御するためのプログラムであって、コンピュータで実行されることで、
前記混練機の操作量と前記混練物に含まれる異物量とを含む状態データを取得し、
前記異物量と前記混練機に関する制約条件とに基づいて定義された報酬関数に基づき強化学習された第1モデルに対して、取得された前記状態データを入力し、
取得された前記状態データが入力された前記第1モデルの出力結果に基づいて、前記混練機に対して適用すべき操作量を決定する、
プログラム。
【請求項2】
前記第1モデルは、ある時間における前記状態データと次の時間において前記混練機に対して適用すべき操作量とが入力されたときに、前記次の時間における前記異物量の推定値が出力されるように学習された第2モデルの出力データを用いて、強化学習される、
請求項1に記載のプログラム。
【請求項3】
前記第2モデルは、過去に取得されたある時間における前記状態データと次の時間における前記操作量との組み合わせに対して、前記次の時間における前記異物量がラベル付けられた教師データを用いて、機械学習される、
請求項2に記載のプログラム。
【請求項4】
前記第1モデルは、前記状態データが入力されたときに、前記報酬関数により算出される報酬が大きくなるように更新された方策に従い、前記混練機に対して適用すべき操作量を出力するように強化学習される、
請求項1から3のいずれか一項に記載のプログラム。
【請求項5】
前記報酬関数は、前記異物量が少なくなるほど前記報酬が大きくなり、前記異物量が多くなるほど前記報酬が小さくなるように定義される、
請求項4に記載のプログラム。
【請求項6】
前記報酬関数は、前記混練機に関する制約条件に違反すると前記報酬が小さくなるように定義される、或いは、前記混練機に関する制約条件から逸脱するほど前記報酬が小さくなるように定義される、
請求項4に記載のプログラム。
【請求項7】
前記混練機に関する制約条件は、前記混練機を用いて作業を行う現場における過去の経験に基づいて定義される、
請求項1から3のいずれか一項に記載のプログラム。
【請求項8】
前記混練機に関する制約条件は、前記混練機の設備または前記混練物の生産に関する条件に基づいて定義される、
請求項1から3のいずれか一項に記載のプログラム。
【請求項9】
前記報酬関数は、ステップ関数、1次関数、および2次関数のいずれかにより定義される、
請求項1から3のいずれか一項に記載のプログラム。
【請求項10】
前記第1モデルは、連続値制御アルゴリズムを用いて強化学習される、
請求項1から3のいずれか一項に記載のプログラム。
【請求項11】
さらに、決定された前記混練機に対して適用すべき操作量を、表示部に表示させる、
請求項1から3のいずれか一項に記載のプログラム。
【請求項12】
混練物を製造する混練機を制御するための制御装置であって、
前記混練機の操作量と前記混練物に含まれる異物量とを含む状態データを取得する取得部と、
前記異物量と前記混練機に関する制約条件とに基づいて定義された報酬関数に基づき強化学習された第1モデルに対して、取得された前記状態データを入力し、取得された前記状態データが入力された前記第1モデルの出力結果に基づいて、前記混練機に対して適用すべき操作量を決定する決定部と、
を備える、制御装置。
【請求項13】
混練物を製造する混練機を制御するための制御方法であって、コンピュータを用いて、
前記混練機の操作量と前記混練物に含まれる異物量とを含む状態データを取得し、
前記異物量と前記混練機に関する制約条件とに基づいて定義された報酬関数に基づき強化学習された第1モデルに対して、取得された前記状態データを入力し、
取得された前記状態データが入力された前記第1モデルの出力結果に基づいて、前記混練機に対して適用すべき操作量を決定する、
制御方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、混練物を製造する混練機を制御するためのプログラム、制御装置、および制御方法に関する。
【背景技術】
【0002】
従来、高分子材料等の混練物を製造する混練機において、混練物の品質を向上させるための技術についての研究が進められている。例えば、特許文献1には、混練機の混練条件を決定するために、機械学習の1つである強化学習によって混練条件を学習したモデルを用いる手法が開示されている。この手法では、混練条件を状態変数として取得し、取得された状態変数に基づいて混練条件の決定結果に対する報酬が計算され、計算された報酬に基づいて、状態変数から混練条件が決定される。
【先行技術文献】
【特許文献】
【0003】
【発明の概要】
【発明が解決しようとする課題】
【0004】
強化学習技術を用いる場合、混練機の製造プロセスに適した高精度な学習モデルを準備することが重要となる。特許文献1は、強化学習としてQ学習を採用している。しかしながら、Q学習では離散的な制御しか行うことができないため、連続性のある制御が必要となる混練機の製造プロセスに適用するとモデルの精度に問題が生じる場合があった。また、強化学習においては、報酬の与え方がモデルの精度に大きな影響を及ぼすことが知られているが、混練機の製造プロセスを考慮した報酬の与え方については検討がなされていなかった。
【0005】
また、モデルの生成に要する時間や労力を低減させることも求められている。特許文献1では、実設備から直接得られたデータを用いて強化学習を行っている。しかしながら、このような実設備から得られたデータを用いる場合、様々な種類のデータを得るために設備の稼働条件を都度調整する必要があり、モデルの準備に時間を要してしまっていた。
【0006】
本発明の目的は、混練物における異物量や、樹脂の練り具合等の評価値の制御に最適な制御条件を決定することが可能なプログラム、制御装置、および制御方法を提供することである。
【課題を解決するための手段】
【0007】
(1)本発明の一態様のプログラムは、混練物を製造する混練機を制御するためのプログラムであって、コンピュータで実行されることで、前記混練機の操作量と前記混練物に含まれる異物量とを含む状態データを取得し、前記異物量と前記混練機に関する制約条件とに基づいて定義された報酬関数に基づき強化学習された第1モデルに対して、取得された前記状態データを入力し、取得された前記状態データが入力された前記第1モデルの出力結果に基づいて、前記混練機に対して適用すべき操作量を決定する。
【0008】
(2)上記の(1)のプログラムにおいて、前記第1モデルは、ある時間における前記状態データと次の時間において前記混練機に対して適用すべき操作量とが入力されたときに、前記次の時間における前記異物量の推定値が出力されるように学習された第2モデルの出力データを用いて、強化学習されるものである。
【0009】
(3)上記の(2)のプログラムにおいて、前記第2モデルは、過去に取得されたある時間における前記状態データと次の時間における前記操作量との組み合わせに対して、前記次の時間における前記異物量がラベル付けられた教師データを用いて、機械学習されるものである。
【0010】
(4)上記の(1)から(3)のいずれかのプログラムにおいて、前記第1モデルは、前記状態データが入力されたときに、前記報酬関数により算出される報酬が大きくなるように更新された方策に従い、前記混練機に対して適用すべき操作量として出力するように強化学習されるものである。
【0011】
(5)上記の(1)から(4)のいずれかのプログラムにおいて、前記報酬関数は、前記異物量が少なくなるほど前記報酬が大きくなり、前記異物量が多くなるほど前記報酬が小さくなるように定義されるものである。
【0012】
(6)上記の(1)から(5)のいずれかのプログラムにおいて、前記報酬関数は、前記混練機に関する制約条件に違反すると前記報酬が小さくなるように定義される、或いは、前記混練機に関する制約条件から逸脱するほど前記報酬が小さくなるように定義されるものである。
【0013】
(7)上記の(1)から(6)のいずれかのプログラムにおいて、前記混練機に関する制約条件は、前記混練機を用いて作業を行う現場における過去の経験に基づいて定義されるものである。
【0014】
(8)上記の(1)から(6)のいずれかのプログラムにおいて、前記混練機に関する制約条件は、前記混練機の設備または前記混練物の生産に関する条件に基づいて定義されるものである。
【0015】
(9)上記の(1)から(8)のいずれかのプログラムにおいて、前記報酬関数は、ステップ関数、1次関数、および2次関数のいずれかにより定義されるものである。
【0016】
(10)上記の(1)から(9)のいずれかのプログラムにおいて、前記第1モデルは、連続値制御アルゴリズムを用いて強化学習されるものである。
【0017】
(11)上記の(1)から(10)のいずれかのプログラムにおいて、さらに、決定された前記混練機に対して適用すべき操作量を、表示部に表示させるものである。
【0018】
(12)本発明の他の態様の制御装置は、混練物を製造する混練機を制御するための制御装置であって、前記混練機の操作量と前記混練物に含まれる異物量とを含む状態データを取得する取得部と、前記異物量と前記混練機に関する制約条件とに基づいて定義された報酬関数に基づき強化学習された第1モデルに対して、取得された前記状態データを入力し、取得された前記状態データが入力された前記第1モデルの出力結果に基づいて、前記混練機に対して適用すべき操作量を決定する決定部と、を備える。
【0019】
(13)本発明の一態様の制御方法は、混練物を製造する混練機を制御するための制御方法であって、コンピュータを用いて、前記混練機の操作量と前記混練物に含まれる異物量とを含む状態データを取得し、前記異物量と前記混練機に関する制約条件とに基づいて定義された報酬関数に基づき強化学習された第1モデルに対して、取得された前記状態データを入力し、取得された前記状態データが入力された前記第1モデルの出力結果に基づいて、前記混練機に対して適用すべき操作量を決定する。
【発明の効果】
【0020】
本発明のプログラム、制御装置、および制御方法によれば、混練物における異物量や、樹脂の練り具合等の評価値の制御に最適な制御条件を決定することが可能となる。また、強化学習モデルである第1モデルの学習時において、環境に教師あり学習による第2モデルを適用することで高速に強化学習を進めることが可能である。また、第1モデルでは、連続値制御アルゴリズムを利用することで、連続的な制御を行うことが可能となる。さらに、第1モデルにおいて、操作量に対して報酬関数を設定することで、好ましくない操作を抑制することが可能となるとともに、現場の知見を報酬関数に反映することが可能となる。
【図面の簡単な説明】
【0021】
【
図1】実施形態に係る混練機Kにおける処理工程の一例を示す概略図である。
【
図2】実施形態に係る混練工程P3において用いられる機器構成の一例を示す図である。
【
図3】実施形態に係る制御装置1の構成の一例を示す機能ブロック図である。
【
図4】実施形態に係る環境モデルM1の学習処理の一例を示すフローチャートである。
【
図5】実施形態に係る教師データのセットを説明する図である。
【
図6】実施形態に係る制御モデルM2の学習処理の一例を示すフローチャートである。
【
図7】実施形態に係る強化学習の流れを説明する図である。
【
図8A】実施形態に係る報酬関数をステップ関数で定義した場合を説明する図である。
【
図8B】実施形態に係る報酬関数を1次関数で定義した場合を説明する図である。
【
図8C】実施形態に係る報酬関数を2次関数で定義した場合を説明する図である。
【
図9】実施形態に係る制御モデルM2を用いた運用処理について一例を示すフローチャートである。
【
図10】実施形態に係るメイン操作指示画面PG1の一例を示す図である。
【
図11】実施形態に係る時系列データ画面(状態予測画面)PG2の一例を示す図である。
【
図12】実施形態に係る設定画面PG3の一例を示す図である。
【
図13A】実施形態に係る制御モデルM2(ステップ関数)の評価結果を示す図である。
【
図13B】実施形態に係る制御モデルM2(1次関数)の評価結果を示す図である。
【
図13C】実施形態に係る制御モデルM2(2次関数)の評価結果を示す図である。
【発明を実施するための形態】
【0022】
以下、本発明の実施形態のプログラム、制御装置、および制御方法(以下「プログラム等」という)を、図面を参照して説明する。実施形態のプログラム等は、高分子材料等の混練物を製造する混練機を制御対象とするものである。実施形態のプログラム等は、混練物の品質を決める上での重要な要因となる混練物に含まれる「異物量」に着目し、この異物量や、樹脂の練り具合等の評価値の制御に最適な制御条件の決定を支援する。尚、下記実施形態により本発明が限定されるものではない。また、下記実施形態における構成要素には、当業者が容易に想定できるもの、実質的に同一のもの、いわゆる均等の範囲のものが含まれる。さらに、下記実施形態で開示した構成要素は適宜組み合わせることが可能である。
【0023】
[混練機Kの構成]
図1は、実施形態に係る混練機Kにおける処理工程の一例を示す概略図である。混練機Kは、例えば、連続プロセス式のスクリュー混練機である。混練機Kは、例えば、1軸又は2軸のスクリューを有する溶融混練機である。混練機Kは、高分子材料等の原料から、最終製品であるフィルム状の混練物を、ロッド単位(巻き)で生成する。混練機Kにおける処理工程には、例えば、計量工程P1、配合工程P2、混練工程P3、熱入工程P4、金属検出工程P5、カレンダー工程P6、冷却工程P7、厚さ計測工程P8、欠点検出工程P9、トリマー工程P10、および巻取工程P11が含まれる。
図1では、カレンダー工程を一例として挙げているが、カレンダー工程のかわりに延伸工程を含む処理工程や、樹脂組成物ペレット製造等の処理工程にも好適に用いることができる。
【0024】
例えば、計量工程P1では、原材料(ヴァージン材料)および原材料(再生材料)の受入が行われ、時間あたりの供給量を制御することにより、原材料が混練機Kに投入される。配合工程P2では、ヴァージン材料と再生材料とが配合された原材料が生成される。各原材料の重量(割合)、各原材料におけるヴァージン材料および再生材料の各重量(割合)は、後述する制御装置1により制御される。
【0025】
続いて、混練工程P3では、原材料に対して混練が行われる。
図2は、実施形態に係る混練工程P3において用いられる機器構成の一例を示す図である。この混練工程P3では、フィード部Fと、第1混練部N1及び第2混練部N2とを備える機器が使用される。配合工程P2において配合された原材料は、フィード部FにおいてシリンダーC内に供給され、スクリューSの回転動作によって粉体状体に粉砕されながらフィード部Fから第1混練部N1、第2混練部N2に送られ混練される。この間、スクリューSから原材料に対して熱が供給され、さらなる熱供給により原材料が可塑化状態とされる。第2混練部N2から押し出された原材料が次の熱入工程P4に送られる。スクリューSの回転数および温度、シリンダーCの温度は、後述する制御装置1により制御される。
【0026】
続いて、熱入工程P4では、混練工程P3において混練された原材料に対して、熱入れが行われる。次に、金属検出工程P5では、混練物に含まれるある一定以上の大きさの金属の検出及び除去が行われる。次に、カレンダー工程P6、冷却工程P7において原材料に対する製膜処理が行われる。次に、厚さ計測工程P8では、製膜された混練物に対して、例えば、β線厚さ計により厚さ計測が行われる。次に、欠点検出工程P9では、カメラ等を用いて、製膜された混練物に含まれる異物の検査が行われ、トリマー工程P10では、製膜された混練物に対して、トリマー処理が行われる。最後に、巻取工程P11では、製膜されたフィルム状の混練物の巻き取りが行われてロッド単位の最終品が生成される。
【0027】
上記の一連の工程では、様々な種類の異物が発生しうる。このような異物には、例えば、炭化物、金属物、繊維異物等が含まれる。炭化物は、原材料が長時間熱を受けることで熱劣化して樹脂焦げしたものである。例えば、混練機Kの製造プロセスでは、原材料にポリ塩化ビニル(PVC)が含まれている場合、PVCは、熱分解温度と加工温度とが近いため、このような炭化物が生じやすい。金属物は、例えば、混練機Kに含まれる金属部品が摩耗により削られたものである。繊維異物は、原材料や上記の工程において混入したゴミ等である。本実施形態では、特に、この混練工程P3において発生する異物量を低減させるために最適な制御条件を決定する。
【0028】
[制御装置1の構成]
次に、混練機Kの動作を制御するための制御装置1について説明する。
図3は、実施形態に係る制御装置1の構成の一例を示す機能ブロック図である。制御装置1は、通信ネットワークNWを介して、混練機Kおよび検査機IM(異物検査機)と通信可能に接続されている。通信ネットワークNWは、例えば、LAN(Local1 Area Network)、WAN(Wide Area Network)、インターネット、無線基地局等を含む。尚、制御装置1は、通信ネットワークNWを介して、他のサーバ装置(検査データ記録サーバ,運転データ記録サーバ等)に接続されてもよい。
【0029】
制御装置1は、例えば、混練機Kおよび検査機IMを管理する管理者や、混練機Kおよび検査機IMを現場で操作する現場作業者等のユーザによって操作される。制御装置1は、例えば、パーソナルコンピューター、タブレット端末装置、スマートフォン、専用機器等を用いて実現される。
【0030】
制御装置1は、例えば、制御部10と、通信インターフェース20と、表示部30と、入力インターフェース40と、記憶部50とを備える。通信インターフェース20は、混練機K等との通信を実行するためのNIC等である。
【0031】
表示部30は、各種の情報を表示する。例えば、表示部30は、ユーザによる各種操作を受け付けるGUI(Graphical User Interface)等を表示する。表示部30は、例えば、液晶ディスプレイ、有機EL(Electroluminescence)ディスプレイ、タッチパネル等である。尚、表示部30は、制御装置1とは別体に設けられ、制御装置1と通信を行うことで、各種の情報を表示してもよい。また、表示部30は、タッチパネルにより実現される場合、入力インターフェース40の機能を兼ね備えるものであってよい。
【0032】
入力インターフェース40は、ユーザによる各種の入力操作を受け付け、受け付けた入力操作の内容を示す電気信号を制御部10に出力する。入力インターフェース40は、例えば、キーボード、マウス、タッチパネル等により実現される。
【0033】
制御部10は、例えば、取得部11と、第1学習部12と、第2学習部13と、決定部14と、表示制御部15と、混練機制御部16とを備える。制御部10の各機能部は、CPU(Central Processing Unit)、GPU(Graphics Processing Unit)等のコンピュータが予め記憶部50(非一過性の記憶媒体を備える記憶装置)に格納されたプログラムを実行することによって実現される。また、制御部10の機能部の一部または全部は、LSI(Large Scale Integration)やASIC(Application Specific Integrated Circuit)、FPGA(Field-Programmable Gate Array)等のハードウェアによって実現されてもよい。
【0034】
取得部11は、通信ネットワークNWを介して、混練機Kの状態データおよび検査機IMの検査データを取得し、状態データSDとして記憶部50に格納する。状態データSDは、例えば、混練機Kを制御するための運転データOD(操作量)、混練物に対して行われた検査結果を示す検査データID等を含む。運転データODは、例えば、各原材料の重量、スクリューSの回転数、スクリューSの温度、シリンダーCの温度(複数の場合は、シリンダー1(例えば、混練機K入口側のシリンダー)、シリンダー2(例えば、混練機K出口側のシリンダー)等の各温度)を含む。検査データIDは、例えば、欠点検出工程P9において検出される混練物に含まれる異物量等を含む。異物量は、例えば、異物特徴量という指標値で管理される。異物特徴量は、各異物の大きさに応じて割り振られたランクと、ランクごとの重みとに基づいて定義される。例えば、異物特徴量は、ランクごとの異物の数に対して重みを乗じたものの合計の数値として定義される。取得部11は、「取得部」の一例である。すなわち、取得部11は、混練機Kの操作量と混練物に含まれる異物量とを含む状態データを取得する。
【0035】
第1学習部12は、過去に取得された状態データを教師データとして学習処理を行うことで環境モデルM1を生成し、記憶部50に格納する。環境モデルM1は、過去に取得されたある時間(時刻)における状態データおよび次の時間(時刻)における操作量に対して、次の時間における異物量が正解データとしてラベル付けられた教師データを用いて、機械学習される。このように生成された環境モデルM1は、ある時間における状態データと次の時間において混練機に対して適用すべき操作量(実行すべき操作)とが入力されたときに、次の時間における異物量の推定値が出力されるように学習される。
【0036】
環境モデルM1は、実世界における混練機Kの応答をアルゴリズムで再現し、ブラックボックスな応答を教師あり学習を使って再現(オフラインシミュレーション環境)するためのモデルである。環境モデルM1は、例えば、勾配ブースティング決定木(XGBoost)によって、ある時間の状態と行動とを与えると、次の時間の状態を予測する。環境モデルM1では、マルコフ決定過程に基づいて、直前の状態のみを説明変数に利用し、また、非非線形な予測が可能な勾配ブースティング決定木を利用する。環境モデルM1は、「第2モデル」の一例である。第1学習部12の処理の詳細については後述する。
【0037】
第2学習部13は、異物量と混練機Kに関する制約条件とに基づいて定義された報酬関数に基づき強化学習を行うことで制御モデルM2を生成し、記憶部50に格納する。制御モデルM2は、ある時間の状態データが入力されたときに、報酬関数により算出される報酬を大きくする操作を、混練機Kに対して実行すべき操作として出力するように学習される。
【0038】
第2学習部13は、強化学習のアルゴリズムのうち、連続値の操作に対応可能なアルゴリズムを用いて、強化学習を行う。対応可能なアルゴリズムは、例えば、PPO(Proximal Policy Optimization)等のActor-Criticを用いたアルゴリズムである。PPOは、行動を決定するActorと行動を評価するCriticを導入し、報酬が大きくなる方策の確率分布をニューラルネットワークにより学習していくActor Criticを応用したモデルである。PPOでは、新旧の方策の比率をある範囲に制限し学習を安定化させる。対応可能なアルゴリズムは、例えば、A2C/A3C、DDPG等であってもよい。制御モデルM2は、「第1モデル」の一例である。第2学習部13の処理の詳細については後述する。
【0039】
決定部14は、制御モデルM2を用いて、ある時間の状態データから、次の時間(ステップ)において混練機Kに対して実行すべき操作(行動)を決定する。決定部14は、「決定部」の一例である。すなわち、決定部14は、異物量と混練機Kに関する制約条件とに基づいて定義された報酬関数に基づき強化学習された第1モデル(制御モデルM2)に対して、取得された状態データを入力し、取得された状態データが入力された第1モデルの出力結果に基づいて、混練機Kに対して適用すべき操作量を決定する。決定部14の処理の詳細については後述する。
【0040】
表示制御部15は、決定部14によって決定された混練機Kに対して適用すべき操作量の情報を含む操作指示画面等を、表示部30に表示させるための制御を行う。また、表示制御部15は、ユーザからの各種入力および指示を受け付けるためのGUIを、表示部30に表示させる。表示制御部15の処理の詳細については後述する。
【0041】
混練機制御部16は、通信ネットワークNWを介して、混練機Kの各種操作量を制御するための制御信号を混練機Kに送信するものであってもよいが、表示部30に表示された操作指示画面を確認したユーザにより混練機Kに入力された指示に基づいて、混練機Kの各種操作量が設定されてもよい。混練機制御部16の処理の詳細については後述する。
【0042】
記憶部50は、例えば、状態データSD、環境モデルM1、制御モデルM2等を記憶する。記憶部50は、例えば、HDD(Hard Disk Drive)、RAM(Random Access Memory)、フラッシュメモリ等の記憶装置である。尚、記憶部50は、NAS(Network Attached Storage)や外部ストレージサーバ装置といった通信ネットワークNWを介して接続される他の記憶装置によって実現されてもよい。
【0043】
[環境モデルM1の学習処理]
以下、制御装置1による環境モデルM1の学習処理について説明する。
図4は、実施形態に係る環境モデルM1の学習処理の一例を示すフローチャートである。
図4に示す処理は、例えば、ユーザが入力インターフェース40を介して、環境モデルM1の学習処理の実行指示を入力したときに開始される。尚、記憶部50には、過去に取得された状態データのセットが格納されているものとする。
【0044】
まず、取得部11は、記憶部50から過去に取得された状態データSDのセットを取得する(ステップS101)。
【0045】
次に、第1学習部12は、取得された状態データSDを用いて、教師データのセットを生成する(ステップS103)。
図5は、実施形態に係る教師データのセットを説明する図である。教師データのセットには、教師データTD1、教師データTD2・・・が含まれる。教師データTD1は、ある時間t-1における運転データ((1)から(6))および検査データ((7))と、次の時間tにおける運転データ((8)から(13))とを説明変数とし、これに対して次の時間tにおける検査データ((14))を目的変数としたものである。同様に、教師データTD2は、ある時間tにおける運転データ((1)から(6))および検査データ((7))と、次の時間t+1における運転データ((8)から(13))とを説明変数とし、次の時間t+1における検査データ((14))を目的変数としたものである。同様に、時間t+nと、時間t+n+1との組み合わせにおいて、教師データが生成される。尚、時間tはあるロットの混練物を生成する時間であり、時間t+1は次のロットの混練物を生成する時間であってよい。
【0046】
次に、第1学習部12は、上記のように準備された教師データのセットを用いて、教師あり学習を行い、環境モデルM1を生成する(ステップS105)。すなわち、第1学習部12は、過去に取得されたある時間における状態データおよび次の時間における状態データに対して、次の状態における異物量がラベル付けられた教師データを用いて、機械学習を行う。このように生成された環境モデルM1は、ある時間における状態データと次の時間において混練機に対して適用すべき操作量とが入力されたときに、次の時間における異物量の推定値が出力するように学習される。以上により本フローチャートの処理が完了する。
【0047】
尚、上記においては、ある時間における運転データ((1)から(6))および検査データ((7))と、次の時間における運転データ((8)から(13))との全ての項目を説明変数とする場合を例に挙げて説明したが、これに限られない。例えば、特徴量エンジニアリングや多重共線性回避の技術に基づいて、(1)から(13)の説明変数の中から相関係数の高い組み合わせの一方を排除したものを教師データとしてもよい。
【0048】
[制御モデルM2の学習処理]
以下、制御装置1による制御モデルM2の学習処理について説明する。
図6は、実施形態に係る制御モデルM2の学習処理の一例を示すフローチャートである。
図6に示す処理は、例えば、ユーザが入力インターフェース40を介して、制御モデルM2の学習処理の実行指示を入力したときに開始される。尚、記憶部50には、過去に取得された状態データのセットおよび学習済みの環境モデルM1が格納されているものとする。
【0049】
まず、取得部11は、記憶部50から、過去に取得されたある時間t-1(初期値)の状態データを取得する(ステップS201)。
【0050】
次に、第2学習部13は、取得された時間t-1(初期値)の状態データをエージェント(行動主体)に与えることで、次の時間tにおいて混練機Kに対して実行すべき操作(行動)を選択する(ステップS203)。
図7は、実施形態に係る強化学習の流れを説明する図である。エージェントAGは、学習開始後の初期はランダムに行動を選択するが、学習が進むと、将来的な報酬和が最大となる行動を選択するように、行動を決定するための方策を更新していく。
【0051】
次に、第2学習部13は、取得された時間t-1の状態データと、選択された時間tの行動とを含むデータセットDS1を、環境モデルM1に入力する(ステップS205)。この結果、第2学習部13は、環境モデルM1の出力として、時間tにおける異物特徴量の推定値を取得する(ステップS207)。第2学習部13は、取得した時間tにおける異物特徴量と、算出した報酬rtとを、エージェントAGに与える(ステップS209)。
【0052】
次に、第2学習部13は、終了条件を満たすか否かを判定する(ステップS211)。終了条件は、ユーザ等によって予め定められる。終了条件としては、上記のステップS204からS209の一連の処理の繰り返し回数(エピソード数)や学習時間、異物特徴量の上限値等が設定される。第2学習部13は、終了条件を満たさないと判定した場合(ステップS211;NO)、直前の処理のステップS203でエージェントAGにより選択された行動(時間t)を、時間tの状態データとして取得する(ステップS213)。その後、第2学習部13は、ステップS203からS211の処理を再度繰り返す。一方、第2学習部13は、終了条件を満たすと判定した場合(ステップS211;YES)、学習処理を終了する。
【0053】
すなわち、制御モデルM2(第1モデル)は、ある時間における状態データと次の時間において混練機Kに対して適用すべき操作量とが入力されたときに、次の時間における異物量の推定値が出力されるように学習された第2モデルの出力データを用いて、強化学習される。環境モデルM1(第2モデル)は、過去に取得されたある時間における状態データと次の時間における操作量との組み合わせに対して、次の時間における異物量がラベル付けられた教師データを用いて、機械学習される。
【0054】
[報酬関数]
上記の制御モデルM2の学習処理において使用される報酬関数の設計について以下説明する。本実施形態の報酬関数(報酬r)は、以下の式(1)ように定義される。すなわち、報酬rは、異物量という観点に加えて、現場の経験からの制約条件や生産/設備の制約条件の観点が報酬関数に反映される。
【0055】
報酬r=r異物+r制約1+r制約2+・・・式(1)
【0056】
上記式(1)の「r異物」の項は、異物量に基づく報酬を示す。「r異物」の項は、例えば、異物特徴量に(-1×係数)を乗じた値を報酬に加えることで、異物特徴量が少ない場合に報酬が大きくなる様に定義される。
【0057】
上記式(1)の「r制約1」、「r制約2」、・・・の各々の項は、現場の経験からの制約条件や生産/設備の制約条件に基づく報酬を示す。現場の経験からの制約条件としては、例えば、熱の発生に影響のあるシリンダー温度、スクリュー温度及びスクリュー回転数を同時に上げる操作を行った場合、上げた分だけマイナスの報酬(ペナルティ)を与えるように定義される。生産/設備の制約条件としては、再生材料とヴァージン材料との合計量がX±上下限値を超えていた場合、超過分だけマイナスの報酬(ペナルティ)を与えることや、操作項目について生産/設備の条件管理上下限値を超えていた場合、設定したルールに基づきマイナスの報酬(ペナルティ)を与えるように定義される。
【0058】
本実施形態では、上記のマイナスの報酬(ペナルティ)を与える場合の報酬の大きさに関して、複数のパターンの報酬関数を用いた強化学習が行われる。例えば、ステップ関数、1次関数、および2次関数の3つのパターンの報酬関数を定義する。
図8Aから
図8Cは、実施形態に係る3つのパターンの報酬関数を示す図である。
図8Aは、報酬関数をステップ関数で定義した場合を説明する図である。この例では、ある状態量(例えば、ある操作項目についての操作量)が、上下限値を超えた時に一定のペナルティが与えられる。
図8Bは、報酬関数を1次関数で定義した場合を説明する図である。この例では、ある状態量が、上下限の中心から離れるにつれて1次関数的にペナルティを増加させる。
図8Cは、報酬関数を2次関数で定義した場合を説明する図である。この例では、ある状態量が、上下限の中心から離れるにつれて2次関数的にペナルティを増加させる。
【0059】
例えば、第2学習部13は、上記の強化学習において、報酬関数の定義を異ならせた3つの制御モデルM2を生成し、記憶部50に保管する。
【0060】
すなわち、制御モデルM2(第1モデル)は、状態データが入力されたときに、報酬関数により算出される報酬が大きくなるように更新された方策に従い、混練機Kに対して適用すべき操作量を出力するように強化学習される。報酬関数は、異物量が少なくなるほど報酬が大きくなり、異物量が多くなるほど報酬が小さくなるように定義される。報酬関数は、混練機Kに関する制約条件に違反すると報酬が小さくなるように定義される、或いは、混練機Kに関する制約条件から逸脱するほど報酬が小さくなるように定義される。混練機Kに関する制約条件は、混練機を用いて作業を行う現場における過去の経験に基づいて定義される。混練機Kに関する制約条件は、混練機Kの設備または混練物の生産に関する条件に基づいて定義される。報酬関数は、ステップ関数、1次関数、および2次関数のいずれかにより定義される。
【0061】
[制御モデルM2を用いた運用処理]
以下、制御装置1による制御モデルM2を用いた運用処理について説明する。
図9は、実施形態に係る制御モデルM2を用いた運用処理について一例を示すフローチャートである。
図9に示す処理は、例えば、ユーザが入力インターフェース40を介して、運用処理の実行指示を入力したときに開始される。尚、記憶部50には、学習済みの制御モデルM2が格納されているものとする。
【0062】
まず、取得部11は、混練機Kから現在の時間tの状態データを取得する(ステップS301)。尚、現在の時間tの状態データ(検査データ、運転データ)が、他のサーバ装置(検査データ記録サーバ、運転データ記録サーバ)に保管されている場合には、取得部11は、この他のサーバ装置から状態データを取得してもよい。
【0063】
次に、決定部14は、取得された時間tの状態データを制御モデルM2に入力する(エージェントに与える)(ステップS303)。この結果、決定部14は、制御モデルM2の出力に基づいて、次の時間t+1において混練機Kに対して実行すべき操作(行動)を決定する(ステップS305)。
【0064】
次に、表示制御部15は、決定された混練機Kに対して実行すべき操作(行動)の情報を含むメイン操作指示画面を、表示部30に表示させる(ステップS307)。
図10は、実施形態に係るメイン操作指示画面PG1の一例を示す図である。
図10に示すメイン操作指示画面PG1では、プルダウンメニューPDを操作することで、学習モデル(例えば、報酬関数の定義を異ならせた制御モデルM2のいずれか1つ)を選択させることができる。モデルの選択操作に応じて、次の時間t+1において混練機Kに対して実行すべき操作(操作量)が領域AR1に表示される。また、トレンド表示ボタンB1が押下されると、表示制御部15は、時系列データ画面(状態予測画面)を、表示部30に表示させる。
【0065】
図11は、実施形態に係る時系列データ画面(状態予測画面)PG2の一例を示す図である。
図11に示す時系列データ画面(状態予測画面)PG2では、複数の学習モデルの異物特徴量の予測結果が示される。ユーザは、この時系列データ画面(状態予測画面)PG2において、最も好ましいモデルを選択することができる。
【0066】
図10におけるメイン操作指示画面PG1の設定ボタンB2、または
図11に示す時系列データ画面(状態予測画面)PG2の設定ボタンB3がユーザにより押下された場合、
図12に示す設定画面PG3に画面が遷移する。設定画面PG3は、記憶部50に複数登録されている学習モデル(制御モデルM2)を選択するための学習モデル読込・学習モデル決定ボタンおよび学習モデルのリセットを行う学習モデルリセットボタンを有する。
図10のメイン操作指示画面PG1では1ロットが巻き上がると外部から信号を受け取り、選択された学習モデル(制御モデルM2)の出力に基づいて決定された、次の時間t+1において混練機Kに対して適用すべき操作量を示す制御信号を、混練機Kに出力する(ステップS309)。これにより、混練機Kにおいて、制御信号に基づく混練条件の設定が行われる。尚、混練機制御部16による制御信号の出力は行われず、現場作業者に対する決定された運転データの通知のみが実施され、混練機Kへの設定は現場作業者が行うようにしてもよい。
図11の時系列データ画面(状態予測画面)PG2では時系列データ取得ボタンにより選択された学習モデル(制御モデルM2)の出力に基づいて決定された次の時刻t+1以降において、混練機Kに対して適用すべき操作量と時刻t+1以降の異物特徴量の推移が表示される。これによりユーザは学習モデルが予測する異物特徴量の低減を確認することが出来る。以上により、本フローチャートの処理が終了する。
【0067】
[モデル評価(シミュレーション結果)]
報酬関数としてステップ関数、1次関数、2次関数を設定した制御モデルM2の評価を実施した。
図13Aは、実施形態に係る制御モデルM2(ステップ関数)の評価結果を示す図である。
図13Bは、実施形態に係る制御モデルM2(1次関数)の評価結果を示す図である。
図13Cは、実施形態に係る制御モデルM2(2次関数)の評価結果を示す図である。
図13Aから13Cにおいて、棒グラフBGは異物特徴量を示し、グラフL1はヴァージン材料の供給量を示し、グラフL2は再生材料の供給量を示し、グラフL3は、スクリュー回転数を示し、グラフL4はスクリュー温度を示し、グラフL5はシリンダー1(混練機K入口側のシリンダー)温度を示し、グラフL6はシリンダー2(混練機K出口側のシリンダー)温度を示す。
【0068】
図13Aから13Cのいずれの結果においても、シミュレーション上での評価では短期的には全ての制御モデルM2で異物特徴量を減少させることが出来た。また、10ロット先まで評価すると、
図13Aに示す制御モデルM2(ステップ関数)で異物特徴量が増大した。また、
図13Cに示す制御モデルM2(2次関数)が最も安定して異物特徴量を低減出来ていることが確認できた。
【0069】
以上において説明した実施形態によれば、混練物における異物量や、樹脂の練り具合等の評価値の制御に最適な混練条件を決定することが可能となる。また、強化学習モデルである制御モデルM2の学習時において、環境に教師あり学習による環境モデルM1を適用することで高速で学習を進めることが可能である。また、制御モデルM2では、例えば、連続値制御アルゴリズムを利用することで連続的な制御を行うことが可能となる。連続値制御アルゴリズムとしては、特にActor-Criticを用いたアルゴリムが好ましい。さらに、制御モデルM2において、操作量に対して報酬関数を設定することで好ましくない操作を抑制することが可能となるとともに、現場の知見を報酬関数に反映することが可能となる。
【0070】
以上、本発明を具体的な実施形態に即して説明したが、各実施形態は例として提示されたものであり、本発明の範囲を限定するものではない。本明細書に記載された各実施形態は、発明の効果が奏される範囲内で、様々に変形することができ、かつ、実施可能な範囲内で、他の実施形態により説明された特徴と組み合わせることができる。
【符号の説明】
【0071】
1…制御装置、10…制御部、11…取得部、12…第1学習部、13…第2学習部、14…決定部、15…表示制御部、16…混練機制御部、20…通信インターフェース、30…表示部、40…入力インターフェース、50…記憶部、K…混練機、F…フィード部、S…スクリュー、C…シリンダー、N1…第1混練部、N2…第2混練部