特開2024-76040 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 三菱レイヨン株式会社の特許一覧

特開2024-76040プログラム、制御装置、および制御方法

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8A
8B
8C
9
10
11
12
13A
13B
13C

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2024076040

(43)【公開日】2024-06-05

(54)【発明の名称】プログラム、制御装置、および制御方法

(51)【国際特許分類】

G06N 20/00 20190101AFI20240529BHJP

B29B 7/72 20060101ALI20240529BHJP

G05B 13/02 20060101ALI20240529BHJP

G05B 11/36 20060101ALI20240529BHJP

【ＦＩ】

G06N20/00

B29B7/72

G05B13/02 L

G05B11/36 J

【審査請求】未請求

【請求項の数】13

【出願形態】ＯＬ

(21)【出願番号】P 2022187397

(22)【出願日】2022-11-24

(71)【出願人】

【識別番号】000006035

【氏名又は名称】三菱ケミカル株式会社

(74)【代理人】

【識別番号】100165179

【弁理士】

【氏名又は名称】田▲崎▼ 聡

(74)【代理人】

【識別番号】100142309

【弁理士】

【氏名又は名称】君塚哲也

(74)【代理人】

【識別番号】100140774

【弁理士】

【氏名又は名称】大浪一徳

(72)【発明者】

【氏名】三木啓史

(72)【発明者】

【氏名】志賀祐太

【テーマコード（参考）】

4F201

5H004

【Ｆターム（参考）】

4F201AM23

4F201BA01

4F201BC02

4F201BD05

4F201BK02

4F201BK13

4F201BK74

5H004GA30

5H004GB01

5H004GB15

5H004HA01

5H004HA08

5H004HB01

5H004HB08

5H004KD61

(57)【要約】

【課題】混練物における異物量や、樹脂の練り具合等の評価値の制御に最適な混練条件の決定することが可能なプログラム、制御装置、および制御方法を提供することである。
【解決手段】混練物を製造する混練機を制御するためのプログラムであって、コンピュータで実行されることで、前記混練機の操作量と前記混練物に含まれる異物量とを含む状態データを取得し、前記異物量と前記混練機に関する制約条件とに基づいて定義された報酬関数に基づき強化学習された第１モデルに対して、取得された前記状態データを入力し、取得された前記状態データが入力された前記第１モデルの出力結果に基づいて、前記混練機に対して適用すべき操作量を決定する、プログラム。
【選択図】図３

【特許請求の範囲】

【請求項1】

混練物を製造する混練機を制御するためのプログラムであって、コンピュータで実行されることで、
前記混練機の操作量と前記混練物に含まれる異物量とを含む状態データを取得し、
前記異物量と前記混練機に関する制約条件とに基づいて定義された報酬関数に基づき強化学習された第１モデルに対して、取得された前記状態データを入力し、
取得された前記状態データが入力された前記第１モデルの出力結果に基づいて、前記混練機に対して適用すべき操作量を決定する、
プログラム。

【請求項2】

前記第１モデルは、ある時間における前記状態データと次の時間において前記混練機に対して適用すべき操作量とが入力されたときに、前記次の時間における前記異物量の推定値が出力されるように学習された第２モデルの出力データを用いて、強化学習される、
請求項１に記載のプログラム。

【請求項3】

前記第２モデルは、過去に取得されたある時間における前記状態データと次の時間における前記操作量との組み合わせに対して、前記次の時間における前記異物量がラベル付けられた教師データを用いて、機械学習される、
請求項２に記載のプログラム。

【請求項4】

前記第１モデルは、前記状態データが入力されたときに、前記報酬関数により算出される報酬が大きくなるように更新された方策に従い、前記混練機に対して適用すべき操作量を出力するように強化学習される、
請求項１から３のいずれか一項に記載のプログラム。

【請求項5】

前記報酬関数は、前記異物量が少なくなるほど前記報酬が大きくなり、前記異物量が多くなるほど前記報酬が小さくなるように定義される、
請求項４に記載のプログラム。

【請求項6】

前記報酬関数は、前記混練機に関する制約条件に違反すると前記報酬が小さくなるように定義される、或いは、前記混練機に関する制約条件から逸脱するほど前記報酬が小さくなるように定義される、
請求項４に記載のプログラム。

【請求項7】

前記混練機に関する制約条件は、前記混練機を用いて作業を行う現場における過去の経験に基づいて定義される、
請求項１から３のいずれか一項に記載のプログラム。

【請求項8】

前記混練機に関する制約条件は、前記混練機の設備または前記混練物の生産に関する条件に基づいて定義される、
請求項１から３のいずれか一項に記載のプログラム。

【請求項9】

前記報酬関数は、ステップ関数、１次関数、および２次関数のいずれかにより定義される、
請求項１から３のいずれか一項に記載のプログラム。

【請求項10】

前記第１モデルは、連続値制御アルゴリズムを用いて強化学習される、
請求項１から３のいずれか一項に記載のプログラム。

【請求項11】

さらに、決定された前記混練機に対して適用すべき操作量を、表示部に表示させる、
請求項１から３のいずれか一項に記載のプログラム。

【請求項12】

混練物を製造する混練機を制御するための制御装置であって、
前記混練機の操作量と前記混練物に含まれる異物量とを含む状態データを取得する取得部と、
前記異物量と前記混練機に関する制約条件とに基づいて定義された報酬関数に基づき強化学習された第１モデルに対して、取得された前記状態データを入力し、取得された前記状態データが入力された前記第１モデルの出力結果に基づいて、前記混練機に対して適用すべき操作量を決定する決定部と、
を備える、制御装置。

【請求項13】

混練物を製造する混練機を制御するための制御方法であって、コンピュータを用いて、
前記混練機の操作量と前記混練物に含まれる異物量とを含む状態データを取得し、
前記異物量と前記混練機に関する制約条件とに基づいて定義された報酬関数に基づき強化学習された第１モデルに対して、取得された前記状態データを入力し、
取得された前記状態データが入力された前記第１モデルの出力結果に基づいて、前記混練機に対して適用すべき操作量を決定する、
制御方法。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、混練物を製造する混練機を制御するためのプログラム、制御装置、および制御方法に関する。

【背景技術】

【0002】

従来、高分子材料等の混練物を製造する混練機において、混練物の品質を向上させるための技術についての研究が進められている。例えば、特許文献１には、混練機の混練条件を決定するために、機械学習の１つである強化学習によって混練条件を学習したモデルを用いる手法が開示されている。この手法では、混練条件を状態変数として取得し、取得された状態変数に基づいて混練条件の決定結果に対する報酬が計算され、計算された報酬に基づいて、状態変数から混練条件が決定される。

【先行技術文献】

【特許文献】

【0003】

【特許文献1】特許第６８８６５５２号公報

【発明の概要】

【発明が解決しようとする課題】

【0004】

強化学習技術を用いる場合、混練機の製造プロセスに適した高精度な学習モデルを準備することが重要となる。特許文献１は、強化学習としてＱ学習を採用している。しかしながら、Ｑ学習では離散的な制御しか行うことができないため、連続性のある制御が必要となる混練機の製造プロセスに適用するとモデルの精度に問題が生じる場合があった。また、強化学習においては、報酬の与え方がモデルの精度に大きな影響を及ぼすことが知られているが、混練機の製造プロセスを考慮した報酬の与え方については検討がなされていなかった。

【0005】

また、モデルの生成に要する時間や労力を低減させることも求められている。特許文献１では、実設備から直接得られたデータを用いて強化学習を行っている。しかしながら、このような実設備から得られたデータを用いる場合、様々な種類のデータを得るために設備の稼働条件を都度調整する必要があり、モデルの準備に時間を要してしまっていた。

【0006】

本発明の目的は、混練物における異物量や、樹脂の練り具合等の評価値の制御に最適な制御条件を決定することが可能なプログラム、制御装置、および制御方法を提供することである。

【課題を解決するための手段】

【0007】

（１）本発明の一態様のプログラムは、混練物を製造する混練機を制御するためのプログラムであって、コンピュータで実行されることで、前記混練機の操作量と前記混練物に含まれる異物量とを含む状態データを取得し、前記異物量と前記混練機に関する制約条件とに基づいて定義された報酬関数に基づき強化学習された第１モデルに対して、取得された前記状態データを入力し、取得された前記状態データが入力された前記第１モデルの出力結果に基づいて、前記混練機に対して適用すべき操作量を決定する。

【0008】

（２）上記の（１）のプログラムにおいて、前記第１モデルは、ある時間における前記状態データと次の時間において前記混練機に対して適用すべき操作量とが入力されたときに、前記次の時間における前記異物量の推定値が出力されるように学習された第２モデルの出力データを用いて、強化学習されるものである。

【0009】

（３）上記の（２）のプログラムにおいて、前記第２モデルは、過去に取得されたある時間における前記状態データと次の時間における前記操作量との組み合わせに対して、前記次の時間における前記異物量がラベル付けられた教師データを用いて、機械学習されるものである。

【0010】

（４）上記の（１）から（３）のいずれかのプログラムにおいて、前記第１モデルは、前記状態データが入力されたときに、前記報酬関数により算出される報酬が大きくなるように更新された方策に従い、前記混練機に対して適用すべき操作量として出力するように強化学習されるものである。

【0011】

（５）上記の（１）から（４）のいずれかのプログラムにおいて、前記報酬関数は、前記異物量が少なくなるほど前記報酬が大きくなり、前記異物量が多くなるほど前記報酬が小さくなるように定義されるものである。

【0012】

（６）上記の（１）から（５）のいずれかのプログラムにおいて、前記報酬関数は、前記混練機に関する制約条件に違反すると前記報酬が小さくなるように定義される、或いは、前記混練機に関する制約条件から逸脱するほど前記報酬が小さくなるように定義されるものである。

【0013】

（７）上記の（１）から（６）のいずれかのプログラムにおいて、前記混練機に関する制約条件は、前記混練機を用いて作業を行う現場における過去の経験に基づいて定義されるものである。

【0014】

（８）上記の（１）から（６）のいずれかのプログラムにおいて、前記混練機に関する制約条件は、前記混練機の設備または前記混練物の生産に関する条件に基づいて定義されるものである。

【0015】

（９）上記の（１）から（８）のいずれかのプログラムにおいて、前記報酬関数は、ステップ関数、１次関数、および２次関数のいずれかにより定義されるものである。

【0016】

（１０）上記の（１）から（９）のいずれかのプログラムにおいて、前記第１モデルは、連続値制御アルゴリズムを用いて強化学習されるものである。

【0017】

（１１）上記の（１）から（１０）のいずれかのプログラムにおいて、さらに、決定された前記混練機に対して適用すべき操作量を、表示部に表示させるものである。

【0018】

（１２）本発明の他の態様の制御装置は、混練物を製造する混練機を制御するための制御装置であって、前記混練機の操作量と前記混練物に含まれる異物量とを含む状態データを取得する取得部と、前記異物量と前記混練機に関する制約条件とに基づいて定義された報酬関数に基づき強化学習された第１モデルに対して、取得された前記状態データを入力し、取得された前記状態データが入力された前記第１モデルの出力結果に基づいて、前記混練機に対して適用すべき操作量を決定する決定部と、を備える。

【0019】

（１３）本発明の一態様の制御方法は、混練物を製造する混練機を制御するための制御方法であって、コンピュータを用いて、前記混練機の操作量と前記混練物に含まれる異物量とを含む状態データを取得し、前記異物量と前記混練機に関する制約条件とに基づいて定義された報酬関数に基づき強化学習された第１モデルに対して、取得された前記状態データを入力し、取得された前記状態データが入力された前記第１モデルの出力結果に基づいて、前記混練機に対して適用すべき操作量を決定する。

【発明の効果】

【0020】

本発明のプログラム、制御装置、および制御方法によれば、混練物における異物量や、樹脂の練り具合等の評価値の制御に最適な制御条件を決定することが可能となる。また、強化学習モデルである第１モデルの学習時において、環境に教師あり学習による第２モデルを適用することで高速に強化学習を進めることが可能である。また、第１モデルでは、連続値制御アルゴリズムを利用することで、連続的な制御を行うことが可能となる。さらに、第１モデルにおいて、操作量に対して報酬関数を設定することで、好ましくない操作を抑制することが可能となるとともに、現場の知見を報酬関数に反映することが可能となる。

【図面の簡単な説明】

【0021】

【図1】実施形態に係る混練機Ｋにおける処理工程の一例を示す概略図である。

【図2】実施形態に係る混練工程Ｐ３において用いられる機器構成の一例を示す図である。

【図3】実施形態に係る制御装置１の構成の一例を示す機能ブロック図である。

【図4】実施形態に係る環境モデルＭ１の学習処理の一例を示すフローチャートである。

【図5】実施形態に係る教師データのセットを説明する図である。

【図6】実施形態に係る制御モデルＭ２の学習処理の一例を示すフローチャートである。

【図7】実施形態に係る強化学習の流れを説明する図である。

【図8A】実施形態に係る報酬関数をステップ関数で定義した場合を説明する図である。

【図8B】実施形態に係る報酬関数を１次関数で定義した場合を説明する図である。

【図8C】実施形態に係る報酬関数を２次関数で定義した場合を説明する図である。

【図9】実施形態に係る制御モデルＭ２を用いた運用処理について一例を示すフローチャートである。

【図10】実施形態に係るメイン操作指示画面ＰＧ１の一例を示す図である。

【図11】実施形態に係る時系列データ画面（状態予測画面）ＰＧ２の一例を示す図である。

【図12】実施形態に係る設定画面ＰＧ３の一例を示す図である。

【図13A】実施形態に係る制御モデルＭ２（ステップ関数）の評価結果を示す図である。

【図13B】実施形態に係る制御モデルＭ２（１次関数）の評価結果を示す図である。

【図13C】実施形態に係る制御モデルＭ２（２次関数）の評価結果を示す図である。

【発明を実施するための形態】

【0022】

以下、本発明の実施形態のプログラム、制御装置、および制御方法（以下「プログラム等」という）を、図面を参照して説明する。実施形態のプログラム等は、高分子材料等の混練物を製造する混練機を制御対象とするものである。実施形態のプログラム等は、混練物の品質を決める上での重要な要因となる混練物に含まれる「異物量」に着目し、この異物量や、樹脂の練り具合等の評価値の制御に最適な制御条件の決定を支援する。尚、下記実施形態により本発明が限定されるものではない。また、下記実施形態における構成要素には、当業者が容易に想定できるもの、実質的に同一のもの、いわゆる均等の範囲のものが含まれる。さらに、下記実施形態で開示した構成要素は適宜組み合わせることが可能である。

【0023】

［混練機Ｋの構成］
図１は、実施形態に係る混練機Ｋにおける処理工程の一例を示す概略図である。混練機Ｋは、例えば、連続プロセス式のスクリュー混練機である。混練機Ｋは、例えば、１軸又は２軸のスクリューを有する溶融混練機である。混練機Ｋは、高分子材料等の原料から、最終製品であるフィルム状の混練物を、ロッド単位（巻き）で生成する。混練機Ｋにおける処理工程には、例えば、計量工程Ｐ１、配合工程Ｐ２、混練工程Ｐ３、熱入工程Ｐ４、金属検出工程Ｐ５、カレンダー工程Ｐ６、冷却工程Ｐ７、厚さ計測工程Ｐ８、欠点検出工程Ｐ９、トリマー工程Ｐ１０、および巻取工程Ｐ１１が含まれる。図１では、カレンダー工程を一例として挙げているが、カレンダー工程のかわりに延伸工程を含む処理工程や、樹脂組成物ペレット製造等の処理工程にも好適に用いることができる。

【0024】

例えば、計量工程Ｐ１では、原材料（ヴァージン材料）および原材料（再生材料）の受入が行われ、時間あたりの供給量を制御することにより、原材料が混練機Ｋに投入される。配合工程Ｐ２では、ヴァージン材料と再生材料とが配合された原材料が生成される。各原材料の重量（割合）、各原材料におけるヴァージン材料および再生材料の各重量（割合）は、後述する制御装置１により制御される。

【0025】

続いて、混練工程Ｐ３では、原材料に対して混練が行われる。図２は、実施形態に係る混練工程Ｐ３において用いられる機器構成の一例を示す図である。この混練工程Ｐ３では、フィード部Ｆと、第１混練部Ｎ１及び第２混練部Ｎ２とを備える機器が使用される。配合工程Ｐ２において配合された原材料は、フィード部ＦにおいてシリンダーＣ内に供給され、スクリューＳの回転動作によって粉体状体に粉砕されながらフィード部Ｆから第１混練部Ｎ１、第２混練部Ｎ２に送られ混練される。この間、スクリューＳから原材料に対して熱が供給され、さらなる熱供給により原材料が可塑化状態とされる。第２混練部Ｎ２から押し出された原材料が次の熱入工程Ｐ４に送られる。スクリューＳの回転数および温度、シリンダーＣの温度は、後述する制御装置１により制御される。

【0026】

続いて、熱入工程Ｐ４では、混練工程Ｐ３において混練された原材料に対して、熱入れが行われる。次に、金属検出工程Ｐ５では、混練物に含まれるある一定以上の大きさの金属の検出及び除去が行われる。次に、カレンダー工程Ｐ６、冷却工程Ｐ７において原材料に対する製膜処理が行われる。次に、厚さ計測工程Ｐ８では、製膜された混練物に対して、例えば、β線厚さ計により厚さ計測が行われる。次に、欠点検出工程Ｐ９では、カメラ等を用いて、製膜された混練物に含まれる異物の検査が行われ、トリマー工程Ｐ１０では、製膜された混練物に対して、トリマー処理が行われる。最後に、巻取工程Ｐ１１では、製膜されたフィルム状の混練物の巻き取りが行われてロッド単位の最終品が生成される。

【0027】

上記の一連の工程では、様々な種類の異物が発生しうる。このような異物には、例えば、炭化物、金属物、繊維異物等が含まれる。炭化物は、原材料が長時間熱を受けることで熱劣化して樹脂焦げしたものである。例えば、混練機Ｋの製造プロセスでは、原材料にポリ塩化ビニル（ＰＶＣ）が含まれている場合、ＰＶＣは、熱分解温度と加工温度とが近いため、このような炭化物が生じやすい。金属物は、例えば、混練機Ｋに含まれる金属部品が摩耗により削られたものである。繊維異物は、原材料や上記の工程において混入したゴミ等である。本実施形態では、特に、この混練工程Ｐ３において発生する異物量を低減させるために最適な制御条件を決定する。

【0028】

［制御装置１の構成］
次に、混練機Ｋの動作を制御するための制御装置１について説明する。図３は、実施形態に係る制御装置１の構成の一例を示す機能ブロック図である。制御装置１は、通信ネットワークＮＷを介して、混練機Ｋおよび検査機ＩＭ（異物検査機）と通信可能に接続されている。通信ネットワークＮＷは、例えば、ＬＡＮ（Local1 Area Network）、ＷＡＮ（Wide Area Network）、インターネット、無線基地局等を含む。尚、制御装置１は、通信ネットワークＮＷを介して、他のサーバ装置（検査データ記録サーバ，運転データ記録サーバ等）に接続されてもよい。

【0029】

制御装置１は、例えば、混練機Ｋおよび検査機ＩＭを管理する管理者や、混練機Ｋおよび検査機ＩＭを現場で操作する現場作業者等のユーザによって操作される。制御装置１は、例えば、パーソナルコンピューター、タブレット端末装置、スマートフォン、専用機器等を用いて実現される。

【0030】

制御装置１は、例えば、制御部１０と、通信インターフェース２０と、表示部３０と、入力インターフェース４０と、記憶部５０とを備える。通信インターフェース２０は、混練機Ｋ等との通信を実行するためのＮＩＣ等である。

【0031】

表示部３０は、各種の情報を表示する。例えば、表示部３０は、ユーザによる各種操作を受け付けるＧＵＩ（Graphical User Interface）等を表示する。表示部３０は、例えば、液晶ディスプレイ、有機ＥＬ（Electroluminescence）ディスプレイ、タッチパネル等である。尚、表示部３０は、制御装置１とは別体に設けられ、制御装置１と通信を行うことで、各種の情報を表示してもよい。また、表示部３０は、タッチパネルにより実現される場合、入力インターフェース４０の機能を兼ね備えるものであってよい。

【0032】

入力インターフェース４０は、ユーザによる各種の入力操作を受け付け、受け付けた入力操作の内容を示す電気信号を制御部１０に出力する。入力インターフェース４０は、例えば、キーボード、マウス、タッチパネル等により実現される。

【0033】

制御部１０は、例えば、取得部１１と、第１学習部１２と、第２学習部１３と、決定部１４と、表示制御部１５と、混練機制御部１６とを備える。制御部１０の各機能部は、ＣＰＵ（Central Processing Unit）、ＧＰＵ（Graphics Processing Unit）等のコンピュータが予め記憶部５０（非一過性の記憶媒体を備える記憶装置）に格納されたプログラムを実行することによって実現される。また、制御部１０の機能部の一部または全部は、ＬＳＩ（Large Scale Integration）やＡＳＩＣ（Application Specific Integrated Circuit）、ＦＰＧＡ（Field-Programmable Gate Array）等のハードウェアによって実現されてもよい。

【0034】

取得部１１は、通信ネットワークＮＷを介して、混練機Ｋの状態データおよび検査機ＩＭの検査データを取得し、状態データＳＤとして記憶部５０に格納する。状態データＳＤは、例えば、混練機Ｋを制御するための運転データＯＤ（操作量）、混練物に対して行われた検査結果を示す検査データＩＤ等を含む。運転データＯＤは、例えば、各原材料の重量、スクリューＳの回転数、スクリューＳの温度、シリンダーＣの温度（複数の場合は、シリンダー１（例えば、混練機Ｋ入口側のシリンダー）、シリンダー２（例えば、混練機Ｋ出口側のシリンダー）等の各温度）を含む。検査データＩＤは、例えば、欠点検出工程Ｐ９において検出される混練物に含まれる異物量等を含む。異物量は、例えば、異物特徴量という指標値で管理される。異物特徴量は、各異物の大きさに応じて割り振られたランクと、ランクごとの重みとに基づいて定義される。例えば、異物特徴量は、ランクごとの異物の数に対して重みを乗じたものの合計の数値として定義される。取得部１１は、「取得部」の一例である。すなわち、取得部１１は、混練機Ｋの操作量と混練物に含まれる異物量とを含む状態データを取得する。

【0035】

第１学習部１２は、過去に取得された状態データを教師データとして学習処理を行うことで環境モデルＭ１を生成し、記憶部５０に格納する。環境モデルＭ１は、過去に取得されたある時間（時刻）における状態データおよび次の時間（時刻）における操作量に対して、次の時間における異物量が正解データとしてラベル付けられた教師データを用いて、機械学習される。このように生成された環境モデルＭ１は、ある時間における状態データと次の時間において混練機に対して適用すべき操作量（実行すべき操作）とが入力されたときに、次の時間における異物量の推定値が出力されるように学習される。

【0036】

環境モデルＭ１は、実世界における混練機Ｋの応答をアルゴリズムで再現し、ブラックボックスな応答を教師あり学習を使って再現(オフラインシミュレーション環境)するためのモデルである。環境モデルＭ１は、例えば、勾配ブースティング決定木（ＸＧＢｏｏｓｔ）によって、ある時間の状態と行動とを与えると、次の時間の状態を予測する。環境モデルＭ１では、マルコフ決定過程に基づいて、直前の状態のみを説明変数に利用し、また、非非線形な予測が可能な勾配ブースティング決定木を利用する。環境モデルＭ１は、「第２モデル」の一例である。第１学習部１２の処理の詳細については後述する。

【0037】

第２学習部１３は、異物量と混練機Ｋに関する制約条件とに基づいて定義された報酬関数に基づき強化学習を行うことで制御モデルＭ２を生成し、記憶部５０に格納する。制御モデルＭ２は、ある時間の状態データが入力されたときに、報酬関数により算出される報酬を大きくする操作を、混練機Ｋに対して実行すべき操作として出力するように学習される。

【0038】

第２学習部１３は、強化学習のアルゴリズムのうち、連続値の操作に対応可能なアルゴリズムを用いて、強化学習を行う。対応可能なアルゴリズムは、例えば、ＰＰＯ（Proximal Policy Optimization）等のＡｃｔｏｒ－Ｃｒｉｔｉｃを用いたアルゴリズムである。ＰＰＯは、行動を決定するＡｃｔｏｒと行動を評価するＣｒｉｔｉｃを導入し、報酬が大きくなる方策の確率分布をニューラルネットワークにより学習していくＡｃｔｏｒＣｒｉｔｉｃを応用したモデルである。ＰＰＯでは、新旧の方策の比率をある範囲に制限し学習を安定化させる。対応可能なアルゴリズムは、例えば、Ａ２Ｃ／Ａ３Ｃ、ＤＤＰＧ等であってもよい。制御モデルＭ２は、「第１モデル」の一例である。第２学習部１３の処理の詳細については後述する。

【0039】

決定部１４は、制御モデルＭ２を用いて、ある時間の状態データから、次の時間（ステップ）において混練機Ｋに対して実行すべき操作（行動）を決定する。決定部１４は、「決定部」の一例である。すなわち、決定部１４は、異物量と混練機Ｋに関する制約条件とに基づいて定義された報酬関数に基づき強化学習された第１モデル（制御モデルＭ２）に対して、取得された状態データを入力し、取得された状態データが入力された第１モデルの出力結果に基づいて、混練機Ｋに対して適用すべき操作量を決定する。決定部１４の処理の詳細については後述する。

【0040】

表示制御部１５は、決定部１４によって決定された混練機Ｋに対して適用すべき操作量の情報を含む操作指示画面等を、表示部３０に表示させるための制御を行う。また、表示制御部１５は、ユーザからの各種入力および指示を受け付けるためのＧＵＩを、表示部３０に表示させる。表示制御部１５の処理の詳細については後述する。

【0041】

混練機制御部１６は、通信ネットワークＮＷを介して、混練機Ｋの各種操作量を制御するための制御信号を混練機Ｋに送信するものであってもよいが、表示部３０に表示された操作指示画面を確認したユーザにより混練機Ｋに入力された指示に基づいて、混練機Ｋの各種操作量が設定されてもよい。混練機制御部１６の処理の詳細については後述する。

【0042】

記憶部５０は、例えば、状態データＳＤ、環境モデルＭ１、制御モデルＭ２等を記憶する。記憶部５０は、例えば、ＨＤＤ（Hard Disk Drive）、ＲＡＭ（Random Access Memory）、フラッシュメモリ等の記憶装置である。尚、記憶部５０は、ＮＡＳ（Network Attached Storage）や外部ストレージサーバ装置といった通信ネットワークＮＷを介して接続される他の記憶装置によって実現されてもよい。

【0043】

［環境モデルＭ１の学習処理］
以下、制御装置１による環境モデルＭ１の学習処理について説明する。図４は、実施形態に係る環境モデルＭ１の学習処理の一例を示すフローチャートである。図４に示す処理は、例えば、ユーザが入力インターフェース４０を介して、環境モデルＭ１の学習処理の実行指示を入力したときに開始される。尚、記憶部５０には、過去に取得された状態データのセットが格納されているものとする。

【0044】

まず、取得部１１は、記憶部５０から過去に取得された状態データＳＤのセットを取得する（ステップＳ１０１）。

【0045】

次に、第１学習部１２は、取得された状態データＳＤを用いて、教師データのセットを生成する（ステップＳ１０３）。図５は、実施形態に係る教師データのセットを説明する図である。教師データのセットには、教師データＴＤ１、教師データＴＤ２・・・が含まれる。教師データＴＤ１は、ある時間ｔ－１における運転データ（（１）から（６））および検査データ（（７））と、次の時間ｔにおける運転データ（（８）から（１３））とを説明変数とし、これに対して次の時間ｔにおける検査データ（（１４））を目的変数としたものである。同様に、教師データＴＤ２は、ある時間ｔにおける運転データ（（１）から（６））および検査データ（（７））と、次の時間ｔ＋１における運転データ（（８）から（１３））とを説明変数とし、次の時間ｔ＋１における検査データ（（１４））を目的変数としたものである。同様に、時間ｔ＋ｎと、時間ｔ＋ｎ＋１との組み合わせにおいて、教師データが生成される。尚、時間ｔはあるロットの混練物を生成する時間であり、時間ｔ＋１は次のロットの混練物を生成する時間であってよい。

【0046】

次に、第１学習部１２は、上記のように準備された教師データのセットを用いて、教師あり学習を行い、環境モデルＭ１を生成する（ステップＳ１０５）。すなわち、第１学習部１２は、過去に取得されたある時間における状態データおよび次の時間における状態データに対して、次の状態における異物量がラベル付けられた教師データを用いて、機械学習を行う。このように生成された環境モデルＭ１は、ある時間における状態データと次の時間において混練機に対して適用すべき操作量とが入力されたときに、次の時間における異物量の推定値が出力するように学習される。以上により本フローチャートの処理が完了する。

【0047】

尚、上記においては、ある時間における運転データ（（１）から（６））および検査データ（（７））と、次の時間における運転データ（（８）から（１３））との全ての項目を説明変数とする場合を例に挙げて説明したが、これに限られない。例えば、特徴量エンジニアリングや多重共線性回避の技術に基づいて、（１）から（１３）の説明変数の中から相関係数の高い組み合わせの一方を排除したものを教師データとしてもよい。

【0048】

［制御モデルＭ２の学習処理］
以下、制御装置１による制御モデルＭ２の学習処理について説明する。図６は、実施形態に係る制御モデルＭ２の学習処理の一例を示すフローチャートである。図６に示す処理は、例えば、ユーザが入力インターフェース４０を介して、制御モデルＭ２の学習処理の実行指示を入力したときに開始される。尚、記憶部５０には、過去に取得された状態データのセットおよび学習済みの環境モデルＭ１が格納されているものとする。

【0049】

まず、取得部１１は、記憶部５０から、過去に取得されたある時間ｔ－１（初期値）の状態データを取得する（ステップＳ２０１）。

【0050】

次に、第２学習部１３は、取得された時間ｔ－１（初期値）の状態データをエージェント（行動主体）に与えることで、次の時間ｔにおいて混練機Ｋに対して実行すべき操作（行動）を選択する（ステップＳ２０３）。図７は、実施形態に係る強化学習の流れを説明する図である。エージェントＡＧは、学習開始後の初期はランダムに行動を選択するが、学習が進むと、将来的な報酬和が最大となる行動を選択するように、行動を決定するための方策を更新していく。

【0051】

次に、第２学習部１３は、取得された時間ｔ－１の状態データと、選択された時間ｔの行動とを含むデータセットＤＳ１を、環境モデルＭ１に入力する（ステップＳ２０５）。この結果、第２学習部１３は、環境モデルＭ１の出力として、時間ｔにおける異物特徴量の推定値を取得する（ステップＳ２０７）。第２学習部１３は、取得した時間ｔにおける異物特徴量と、算出した報酬ｒｔとを、エージェントＡＧに与える（ステップＳ２０９）。

【0052】

次に、第２学習部１３は、終了条件を満たすか否かを判定する（ステップＳ２１１）。終了条件は、ユーザ等によって予め定められる。終了条件としては、上記のステップＳ２０４からＳ２０９の一連の処理の繰り返し回数（エピソード数）や学習時間、異物特徴量の上限値等が設定される。第２学習部１３は、終了条件を満たさないと判定した場合（ステップＳ２１１；ＮＯ）、直前の処理のステップＳ２０３でエージェントＡＧにより選択された行動（時間ｔ）を、時間ｔの状態データとして取得する（ステップＳ２１３）。その後、第２学習部１３は、ステップＳ２０３からＳ２１１の処理を再度繰り返す。一方、第２学習部１３は、終了条件を満たすと判定した場合（ステップＳ２１１；ＹＥＳ）、学習処理を終了する。

【0053】

すなわち、制御モデルＭ２（第１モデル）は、ある時間における状態データと次の時間において混練機Ｋに対して適用すべき操作量とが入力されたときに、次の時間における異物量の推定値が出力されるように学習された第２モデルの出力データを用いて、強化学習される。環境モデルＭ１（第２モデル）は、過去に取得されたある時間における状態データと次の時間における操作量との組み合わせに対して、次の時間における異物量がラベル付けられた教師データを用いて、機械学習される。

【0054】

［報酬関数］
上記の制御モデルＭ２の学習処理において使用される報酬関数の設計について以下説明する。本実施形態の報酬関数（報酬ｒ）は、以下の式（１）ように定義される。すなわち、報酬ｒは、異物量という観点に加えて、現場の経験からの制約条件や生産／設備の制約条件の観点が報酬関数に反映される。

【0055】

報酬ｒ＝ｒ_異物＋ｒ_制約１＋ｒ_制約２＋・・・式（１）

【0056】

上記式（１）の「ｒ_異物」の項は、異物量に基づく報酬を示す。「ｒ_異物」の項は、例えば、異物特徴量に（－１×係数）を乗じた値を報酬に加えることで、異物特徴量が少ない場合に報酬が大きくなる様に定義される。

【0057】

上記式（１）の「ｒ_制約１」、「ｒ_制約２」、・・・の各々の項は、現場の経験からの制約条件や生産／設備の制約条件に基づく報酬を示す。現場の経験からの制約条件としては、例えば、熱の発生に影響のあるシリンダー温度、スクリュー温度及びスクリュー回転数を同時に上げる操作を行った場合、上げた分だけマイナスの報酬（ペナルティ）を与えるように定義される。生産／設備の制約条件としては、再生材料とヴァージン材料との合計量がＸ±上下限値を超えていた場合、超過分だけマイナスの報酬（ペナルティ）を与えることや、操作項目について生産／設備の条件管理上下限値を超えていた場合、設定したルールに基づきマイナスの報酬（ペナルティ）を与えるように定義される。

【0058】

本実施形態では、上記のマイナスの報酬（ペナルティ）を与える場合の報酬の大きさに関して、複数のパターンの報酬関数を用いた強化学習が行われる。例えば、ステップ関数、１次関数、および２次関数の３つのパターンの報酬関数を定義する。図８Ａから図８Ｃは、実施形態に係る３つのパターンの報酬関数を示す図である。図８Ａは、報酬関数をステップ関数で定義した場合を説明する図である。この例では、ある状態量（例えば、ある操作項目についての操作量）が、上下限値を超えた時に一定のペナルティが与えられる。図８Ｂは、報酬関数を１次関数で定義した場合を説明する図である。この例では、ある状態量が、上下限の中心から離れるにつれて１次関数的にペナルティを増加させる。図８Ｃは、報酬関数を２次関数で定義した場合を説明する図である。この例では、ある状態量が、上下限の中心から離れるにつれて２次関数的にペナルティを増加させる。

【0059】

例えば、第２学習部１３は、上記の強化学習において、報酬関数の定義を異ならせた３つの制御モデルＭ２を生成し、記憶部５０に保管する。

【0060】

すなわち、制御モデルＭ２（第１モデル）は、状態データが入力されたときに、報酬関数により算出される報酬が大きくなるように更新された方策に従い、混練機Ｋに対して適用すべき操作量を出力するように強化学習される。報酬関数は、異物量が少なくなるほど報酬が大きくなり、異物量が多くなるほど報酬が小さくなるように定義される。報酬関数は、混練機Ｋに関する制約条件に違反すると報酬が小さくなるように定義される、或いは、混練機Ｋに関する制約条件から逸脱するほど報酬が小さくなるように定義される。混練機Ｋに関する制約条件は、混練機を用いて作業を行う現場における過去の経験に基づいて定義される。混練機Ｋに関する制約条件は、混練機Ｋの設備または混練物の生産に関する条件に基づいて定義される。報酬関数は、ステップ関数、１次関数、および２次関数のいずれかにより定義される。

【0061】

［制御モデルＭ２を用いた運用処理］
以下、制御装置１による制御モデルＭ２を用いた運用処理について説明する。図９は、実施形態に係る制御モデルＭ２を用いた運用処理について一例を示すフローチャートである。図９に示す処理は、例えば、ユーザが入力インターフェース４０を介して、運用処理の実行指示を入力したときに開始される。尚、記憶部５０には、学習済みの制御モデルＭ２が格納されているものとする。

【0062】

まず、取得部１１は、混練機Ｋから現在の時間tの状態データを取得する（ステップＳ３０１）。尚、現在の時間tの状態データ（検査データ、運転データ）が、他のサーバ装置（検査データ記録サーバ、運転データ記録サーバ）に保管されている場合には、取得部１１は、この他のサーバ装置から状態データを取得してもよい。

【0063】

次に、決定部１４は、取得された時間ｔの状態データを制御モデルＭ２に入力する（エージェントに与える）（ステップＳ３０３）。この結果、決定部１４は、制御モデルＭ２の出力に基づいて、次の時間ｔ＋１において混練機Ｋに対して実行すべき操作（行動）を決定する（ステップＳ３０５）。

【0064】

次に、表示制御部１５は、決定された混練機Ｋに対して実行すべき操作（行動）の情報を含むメイン操作指示画面を、表示部３０に表示させる（ステップＳ３０７）。図１０は、実施形態に係るメイン操作指示画面ＰＧ１の一例を示す図である。図１０に示すメイン操作指示画面ＰＧ１では、プルダウンメニューＰＤを操作することで、学習モデル（例えば、報酬関数の定義を異ならせた制御モデルＭ２のいずれか１つ）を選択させることができる。モデルの選択操作に応じて、次の時間ｔ＋１において混練機Ｋに対して実行すべき操作（操作量）が領域ＡＲ１に表示される。また、トレンド表示ボタンＢ１が押下されると、表示制御部１５は、時系列データ画面（状態予測画面）を、表示部３０に表示させる。

【0065】

図１１は、実施形態に係る時系列データ画面（状態予測画面）ＰＧ２の一例を示す図である。図１１に示す時系列データ画面（状態予測画面）ＰＧ２では、複数の学習モデルの異物特徴量の予測結果が示される。ユーザは、この時系列データ画面（状態予測画面）ＰＧ２において、最も好ましいモデルを選択することができる。

【0066】

図１０におけるメイン操作指示画面ＰＧ１の設定ボタンＢ２、または図１１に示す時系列データ画面（状態予測画面）ＰＧ２の設定ボタンＢ３がユーザにより押下された場合、図１２に示す設定画面ＰＧ３に画面が遷移する。設定画面ＰＧ３は、記憶部５０に複数登録されている学習モデル（制御モデルＭ２）を選択するための学習モデル読込・学習モデル決定ボタンおよび学習モデルのリセットを行う学習モデルリセットボタンを有する。図１０のメイン操作指示画面ＰＧ１では１ロットが巻き上がると外部から信号を受け取り、選択された学習モデル（制御モデルＭ２）の出力に基づいて決定された、次の時間ｔ＋１において混練機Ｋに対して適用すべき操作量を示す制御信号を、混練機Ｋに出力する（ステップＳ３０９）。これにより、混練機Ｋにおいて、制御信号に基づく混練条件の設定が行われる。尚、混練機制御部１６による制御信号の出力は行われず、現場作業者に対する決定された運転データの通知のみが実施され、混練機Ｋへの設定は現場作業者が行うようにしてもよい。図１１の時系列データ画面（状態予測画面）ＰＧ２では時系列データ取得ボタンにより選択された学習モデル（制御モデルＭ２）の出力に基づいて決定された次の時刻ｔ＋１以降において、混練機Ｋに対して適用すべき操作量と時刻ｔ＋１以降の異物特徴量の推移が表示される。これによりユーザは学習モデルが予測する異物特徴量の低減を確認することが出来る。以上により、本フローチャートの処理が終了する。

【0067】

［モデル評価（シミュレーション結果）］
報酬関数としてステップ関数、１次関数、２次関数を設定した制御モデルＭ２の評価を実施した。図１３Ａは、実施形態に係る制御モデルＭ２（ステップ関数）の評価結果を示す図である。図１３Ｂは、実施形態に係る制御モデルＭ２（１次関数）の評価結果を示す図である。図１３Ｃは、実施形態に係る制御モデルＭ２（２次関数）の評価結果を示す図である。図１３Ａから１３Ｃにおいて、棒グラフＢＧは異物特徴量を示し、グラフＬ１はヴァージン材料の供給量を示し、グラフＬ２は再生材料の供給量を示し、グラフＬ３は、スクリュー回転数を示し、グラフＬ４はスクリュー温度を示し、グラフＬ５はシリンダー１（混練機Ｋ入口側のシリンダー）温度を示し、グラフＬ６はシリンダー２（混練機Ｋ出口側のシリンダー）温度を示す。

【0068】

図１３Ａから１３Ｃのいずれの結果においても、シミュレーション上での評価では短期的には全ての制御モデルＭ２で異物特徴量を減少させることが出来た。また、１０ロット先まで評価すると、図１３Ａに示す制御モデルＭ２（ステップ関数）で異物特徴量が増大した。また、図１３Ｃに示す制御モデルＭ２（２次関数）が最も安定して異物特徴量を低減出来ていることが確認できた。

【0069】

以上において説明した実施形態によれば、混練物における異物量や、樹脂の練り具合等の評価値の制御に最適な混練条件を決定することが可能となる。また、強化学習モデルである制御モデルＭ２の学習時において、環境に教師あり学習による環境モデルＭ１を適用することで高速で学習を進めることが可能である。また、制御モデルＭ２では、例えば、連続値制御アルゴリズムを利用することで連続的な制御を行うことが可能となる。連続値制御アルゴリズムとしては、特にＡｃｔｏｒ－Ｃｒｉｔｉｃを用いたアルゴリムが好ましい。さらに、制御モデルＭ２において、操作量に対して報酬関数を設定することで好ましくない操作を抑制することが可能となるとともに、現場の知見を報酬関数に反映することが可能となる。

【0070】

以上、本発明を具体的な実施形態に即して説明したが、各実施形態は例として提示されたものであり、本発明の範囲を限定するものではない。本明細書に記載された各実施形態は、発明の効果が奏される範囲内で、様々に変形することができ、かつ、実施可能な範囲内で、他の実施形態により説明された特徴と組み合わせることができる。

【符号の説明】

【0071】

１…制御装置、１０…制御部、１１…取得部、１２…第１学習部、１３…第２学習部、１４…決定部、１５…表示制御部、１６…混練機制御部、２０…通信インターフェース、３０…表示部、４０…入力インターフェース、５０…記憶部、Ｋ…混練機、Ｆ…フィード部、Ｓ…スクリュー、Ｃ…シリンダー、Ｎ１…第１混練部、Ｎ２…第２混練部

【図1】