IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社日本製鋼所の特許一覧

<>
  • 特許-連続混練装置及びその制御方法 図1
  • 特許-連続混練装置及びその制御方法 図2
  • 特許-連続混練装置及びその制御方法 図3
  • 特許-連続混練装置及びその制御方法 図4
  • 特許-連続混練装置及びその制御方法 図5
  • 特許-連続混練装置及びその制御方法 図6
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-06-03
(45)【発行日】2024-06-11
(54)【発明の名称】連続混練装置及びその制御方法
(51)【国際特許分類】
   B29B 7/72 20060101AFI20240604BHJP
   B29B 7/42 20060101ALI20240604BHJP
   B29B 7/48 20060101ALI20240604BHJP
   B29C 45/78 20060101ALI20240604BHJP
   B29C 48/92 20190101ALI20240604BHJP
【FI】
B29B7/72
B29B7/42
B29B7/48
B29C45/78
B29C48/92
【請求項の数】 10
(21)【出願番号】P 2020175848
(22)【出願日】2020-10-20
(65)【公開番号】P2022067240
(43)【公開日】2022-05-06
【審査請求日】2023-07-10
(73)【特許権者】
【識別番号】000004215
【氏名又は名称】株式会社日本製鋼所
(74)【代理人】
【識別番号】100103894
【弁理士】
【氏名又は名称】家入 健
(72)【発明者】
【氏名】前西 隆一郎
(72)【発明者】
【氏名】田中 蒼麻
【審査官】関口 貴夫
(56)【参考文献】
【文献】特開2007-276189(JP,A)
【文献】特開2020-152097(JP,A)
【文献】特開2013-256062(JP,A)
【文献】特開2006-289781(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
B29B 7/00
B29C 45/00-45/84
B29C 48/00-48/96
(57)【特許請求の範囲】
【請求項1】
シリンダと、
前記シリンダに収容されたスクリューと、
前記シリンダの外周面を覆うように、前記シリンダの長手方向に沿って並べて設けられた複数の環状ヒータと、
前記シリンダにおいて前記複数の環状ヒータのそれぞれによって加熱される部位の温度を測定する複数の温度センサと、
前記複数の温度センサのそれぞれによる測定温度に基づいて、前記複数の環状ヒータのそれぞれをフィードバック制御する制御部と、を備え、
前記シリンダに投入された樹脂ペレットを、前記複数の環状ヒータによって加熱しつつ、前記スクリューによって混練する連続混練装置であって、
前記制御部は、前記複数の環状ヒータのそれぞれについて、
前記測定温度から算出した制御偏差に基づいて、現在の状態と以前に選択した行動に対する報酬とを決定し、
状態と行動との組み合わせである制御条件を前記報酬に基づいて更新すると共に、更新された制御条件から前記現在の状態に対応した最適な行動を選択する強化学習を行いつつ、
前記最適な行動に基づいて、対象の環状ヒータを制御
前記強化学習において、
状態は、制御偏差の値の所定の範囲を表し、前記現在の状態は、前記算出した制御偏差を含む状態であり、
前記算出した制御偏差の絶対値が、前記以前の制御偏差の絶対値よりも小さければ、報酬を増やし、前記以前と同じ状態において前記以前に選択した行動を選択され易くし、
前記算出した制御偏差の絶対値が、前記以前の制御偏差の絶対値よりも大きければ、報酬を減らし、前記以前と同じ状態において前記以前に選択した行動を選択され難くする、
連続混練装置。
【請求項2】
前記行動が、前記対象の環状ヒータの出力の変更である、
請求項1に記載の連続混練装置。
【請求項3】
前記行動が、前記対象の環状ヒータの出力を制御するPIDコントローラのパラメータの変更である、
請求項1に記載の連続混練装置。
【請求項4】
前記複数の温度センサのそれぞれは、熱電対である、
請求項1~3のいずれか一項に記載の連続混練装置。
【請求項5】
前記熱電対は、前記複数の環状ヒータのそれぞれに形成された貫通孔に挿通され、前記シリンダに接触するように設けられている、
請求項4に記載の連続混練装置。
【請求項6】
シリンダと、
前記シリンダに収容されたスクリューと、
前記シリンダの外周面を覆うように、前記シリンダの長手方向に沿って並べて設けられた複数の環状ヒータと、
前記シリンダにおいて前記複数の環状ヒータのそれぞれによって加熱される部位の温度を測定する複数の温度センサと、
前記複数の温度センサのそれぞれによる測定温度に基づいて、前記複数の環状ヒータのそれぞれをフィードバック制御する制御部と、を備え、
前記シリンダに投入された樹脂ペレットを、前記複数の環状ヒータによって加熱しつつ、前記スクリューによって混練する連続混練装置の制御方法であって、
前記制御部は、前記複数の環状ヒータのそれぞれについて、
(a)前記測定温度から算出した制御偏差に基づいて、現在の状態と以前に選択した行動に対する報酬とを決定し、
(b)状態と行動との組み合わせである制御条件を前記報酬に基づいて更新すると共に、更新された制御条件から前記現在の状態に対応した最適な行動を選択する強化学習を行いつつ、
(c)前記最適な行動に基づいて、対象の環状ヒータを制御
前記工程(a)及び(b)を含む前記強化学習において、
状態は、制御偏差の値の所定の範囲を表し、前記現在の状態は、前記算出した制御偏差を含む状態であり、
前記算出した制御偏差の絶対値が、前記以前の制御偏差の絶対値よりも小さければ、報酬を増やし、前記以前と同じ状態において前記以前に選択した行動を選択され易くし、
前記算出した制御偏差の絶対値が、前記以前の制御偏差の絶対値よりも大きければ、報酬を減らし、前記以前と同じ状態において前記以前に選択した行動を選択され難くする、
連続混練装置の制御方法。
【請求項7】
前記工程(b)において選択する前記行動が、前記対象の環状ヒータの出力の変更である、
請求項6に記載の連続混練装置の制御方法。
【請求項8】
前記工程(b)において選択する前記行動が、前記対象の環状ヒータの出力を制御するPIDコントローラのパラメータの変更である、
請求項6に記載の連続混練装置の制御方法。
【請求項9】
前記複数の温度センサのそれぞれは、熱電対である、
請求項6~8のいずれか一項に記載の連続混練装置の制御方法。
【請求項10】
前記熱電対は、前記複数の環状ヒータのそれぞれに形成された貫通孔に挿通され、前記シリンダに接触するように設けられている、
請求項9に記載の連続混練装置の制御方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は連続混練装置及びその制御方法に関する。
【背景技術】
【0002】
樹脂の射出成形装置及び押出成形装置は、シリンダに投入された樹脂ペレットをヒータによって加熱しつつ、スクリューによって混練する連続混練装置を備えている。例えば、特許文献1には、測定温度に基づいてヒータをフィードバック制御する連続混練装置を備えた射出成形装置が開示されている。
【先行技術文献】
【特許文献】
【0003】
【文献】特開2009-172822号公報
【発明の概要】
【発明が解決しようとする課題】
【0004】
発明者は、測定温度に基づいてヒータをフィードバック制御する連続混練装置の開発に際し、様々な課題を見出した。
その他の課題と新規な特徴は、本明細書の記述及び添付図面から明らかになるであろう。
【課題を解決するための手段】
【0005】
一実施の形態に係る連続混練装置では、制御部は、複数の環状ヒータのそれぞれについて、測定温度から算出した制御偏差に基づいて、現在の状態と以前に選択した行動に対する報酬とを決定し、状態と行動との組み合わせである制御条件を報酬に基づいて更新すると共に、更新された制御条件から現在の状態に対応した最適な行動を決定し、最適な行動に基づいて、対象の環状ヒータを制御する。
【発明の効果】
【0006】
前記一実施の形態によれば、優れた連続混練装置を提供できる。
【図面の簡単な説明】
【0007】
図1】実施の形態1に係る連続混練装置及びそれを備えた射出成形装置の構成を示す模式的断面図である。
図2】実施の形態1に係る連続混練装置及びそれを備えた射出成形装置の構成を示す模式的断面図である。
図3】実施の形態1に係る連続混練装置及びそれを備えた射出成形装置の構成を示す模式的断面図である。
図4】実施の形態1に係る制御部70の構成を示すブロック図である。
図5】実施の形態1に係る連続混練装置の制御方法を示すフローチャートである。
図6】実施の形態2に係る制御部70の構成を示すブロック図である。
【発明を実施するための形態】
【0008】
以下、具体的な実施の形態について、図面を参照しながら詳細に説明する。但し、以下の実施の形態に限定される訳ではない。また、説明を明確にするため、以下の記載及び図面は、適宜簡略化されている。
【0009】
(実施の形態1)
<連続混練装置の構成>
まず、図1図3を参照して、実施の形態1に係る連続混練装置及びそれを備えた射出成形装置の構成について説明する。図1図3は、実施の形態1に係る連続混練装置及びそれを備えた射出成形装置の構成を示す模式的断面図である。
なお、当然のことながら、図1図3に示した右手系xyz直交座標は、構成要素の位置関係を説明するための便宜的なものである。通常、z軸正向きが鉛直上向き、xy平面が水平面であり、図面間で共通である。
【0010】
図1図3に示すように、実施の形態1に係る連続混練装置10は、シリンダ11、スクリュー12、ホッパ13、環状ヒータ14、温度センサ60、及び制御部70を備えている。射出成形装置は、連続混練装置10に加え、固定型21及び可動型22を備えている。
図1は、射出成形装置において、金型(固定型21及び可動型22)のキャビティCへ溶融樹脂82を射出する直前の様子を示している。
図2は、射出成形装置において、金型のキャビティCへの溶融樹脂82の射出が完了した様子を示している。
図3は、射出成形装置において、金型から樹脂成形品83を取り出した様子を示している。
【0011】
シリンダ11は、x軸方向に延設された筒状部材である。
スクリュー12は、x軸方向に延設され、シリンダ11に回転可能に収容されている。図示しないが、スクリュー12には、例えば、減速機を介してモータが回転駆動源として連結される。さらに、スクリュー12は、図示しないアクチュエータによってx軸方向に移動できる。図2に示すように、スクリュー12がx軸負方向に前進することによって、溶融樹脂82が金型(固定型21及び可動型22)の内部に射出される。
【0012】
ホッパ13は、図3に示した樹脂成形品83の原料である樹脂ペレット81をシリンダ11の内部に投入するための筒状部材である。ホッパ13は、シリンダ11のx軸正方向側端部の上側に設けられている。
環状ヒータ14は、シリンダ11の外周面を覆うように、シリンダ11の長手方向(x軸方向)に沿って並べて設けられている。図1図3に示した例では、ホッパ13よりも先端側(x軸負方向側)に、4つの環状ヒータ14が設けられている。複数の環状ヒータ14のそれぞれは、制御部70によって個別に制御される。
【0013】
温度センサ60は、シリンダ11において複数の環状ヒータ14のそれぞれによって加熱される部位の温度を測定する。温度センサ60は、例えば熱電対である。図1図3に示した例では、各温度センサ60は、環状ヒータ14に形成された貫通孔に挿通され、シリンダ11に接触するように設けられている。
【0014】
制御部70は、各温度センサ60による測定温度に基づいて、対応する各環状ヒータ14をフィードバック制御しつつ、各環状ヒータ14の制御条件を学習する。より具体的には、制御部70は、各温度センサ60による測定温度が、それぞれ設定温度(目標温度)に近付くように、各環状ヒータ14の出力を制御する。
なお、制御部70のより詳細な構成及び動作については、後述する。
【0015】
実施の形態1に係る連続混練装置10では、ホッパ13から供給された樹脂ペレット81は、シリンダ11の内部において環状ヒータ14によって加熱されつつ、回転するスクリュー12によって混練される。樹脂ペレット81は、加熱されると共に、スクリュー12の根元部から先端部に向かって(x軸負方向に)押し出されることによって圧縮され、溶融樹脂82に変化する。
【0016】
固定型21は連続混練装置10の先端に固定されたダイスである。他方、可動型22は、図示しない駆動源によって駆動され、x軸方向にスライド移動可能なダイスである。可動型22がx軸正方向に移動し、固定型21に当接することにより、図1に示すように、固定型21と可動型22との間に製造される樹脂成形品83(図3参照)の形状に応じたキャビティCが形成される。
【0017】
次に、図2に示すように、スクリュー12がx軸負方向に前進し、このキャビティCに溶融樹脂82が充填されることにより、樹脂成形品83(図3参照)が成形される。
そして、図3に示すように、スクリュー12がx軸正方向に後退すると共に、可動型22がx軸負方向に移動し、固定型21から離型することにより、樹脂成形品83が取り出される。
【0018】
<比較例に係る制御部70の構成>
比較例に係る連続混練装置は、図1図3に示した実施の形態1に係る連続混練装置と同様の全体構成を有している。比較例では、制御部70が、PID制御を用いて、各温度センサ60から取得した温度に基づいて、対応する各環状ヒータ14をフィードバック制御する。PID制御の場合、プロセス条件を変更する度に、パラメータを調整する必要がある。通常、作業者が試行錯誤してパラメータを調整するため、パラメータ調整に多大な時間及び樹脂材料を要するという問題があった。
【0019】
<実施の形態1に係る制御部70の構成>
次に、図4を参照して、実施の形態1に係る制御部70の構成についてより詳細に説明する。図4は、実施の形態1に係る制御部70の構成を示すブロック図である。図4に示すように、実施の形態1に係る制御部70は、状態観測部71、制御条件学習部72、記憶部73、制御信号出力部74を備えている。
【0020】
なお、制御部70を構成する各機能ブロックは、ハードウェア的には、CPU(Central Processing Unit)、メモリ、その他の回路で構成することができ、ソフトウェア的には、メモリにロードされたプログラムなどによって実現することができる。従って、各機能ブロックは、コンピュータのハードウェアやソフトウェアやそれらの組み合わせによって色々な形態で実現できる。
【0021】
状態観測部71は、各温度センサ60から取得した温度の測定値pvから、環状ヒータ14毎の制御偏差を算出する。制御偏差は、目標値と測定値pvとの差分である。ここで、目標値は、各環状ヒータ14に設定された目標温度である。他方、測定値pvは、対象の環状ヒータ14に対応した温度センサ60から取得した温度の測定値である。
【0022】
そして、状態観測部71は、各環状ヒータ14について、算出した制御偏差に基づいて、現在の状態stと以前(例えば前回)に選択した行動acに対する報酬rwとを決定する。
状態stは、無限に取り得る制御偏差の値を有限個に区分するために予め設定されている。説明のための簡易な例としては、制御偏差errとした場合、-4.0℃≦err<-3.0℃を状態st1、-3.0℃≦err<-2.0℃を状態st2、-2.0℃≦err<-1.0℃を状態st3、-1.0℃≦err<1.0℃を状態st4、1.0℃≦err≦2.0℃を状態st5、2.0℃≦err≦3.0℃を状態st6、3.0℃≦err≦4.0℃を状態st7、4.0℃≦err≦5.0℃を状態st8などと設定される。実際には、より細分化された多数の状態stが設定される場合が多い。
【0023】
報酬rwは、以前の状態stにおいて選択した行動acを評価するための指標である。
具体的には、算出した現在の制御偏差の絶対値が、以前の制御偏差の絶対値よりも小さくなっていれば、状態観測部71は、以前に選択した行動acが適切であると判断し、例えば報酬rwを正の値とする。換言すると、以前と同じ状態stにおいて前回選択した行動acが再度選択され易くなるように、報酬rwが決定される。
【0024】
反対に、算出した現在の制御偏差の絶対値が、以前の制御偏差の絶対値よりも大きくなっていれば、状態観測部71は、以前に選択した行動acが不適切であると判断し、例えば報酬rwを負の値とする。換言すると、以前と同じ状態stにおいて前回選択した行動acが再度選択され難くなるように、報酬rwが決定される。
なお、報酬rwの具体例については後述する。また、報酬rwの値は適宜決定することができる。例えば、報酬rwの値が常に正の値であってもよく、報酬rwの値が常に負の値であってもよい。
【0025】
制御条件学習部72は、各環状ヒータ14について、強化学習を行う。具体的には、制御条件学習部72は、制御条件(学習結果)を報酬rwに基づいて更新すると共に、更新された制御条件から現在の状態stに対応した最適な行動acを選択する。制御条件は、状態stと行動acとの組み合わせである。上述の状態st1~st8に対応した簡易な制御条件(学習結果)を表1に示す。図4の例では、制御条件学習部72は、更新した制御条件ccを例えばメモリである記憶部73に格納すると共に、記憶部73から制御条件ccを読み出して更新する。
【0026】
【表1】
【0027】
表1は、強化学習の一例であるQ学習による制御条件(学習結果)を示している。表1の最上行には上述の8つの状態st1~st8が示されている。すなわち、2~9列目の各列が8つの状態st1~st8を示している。他方、表1の最左列には5つの行動ac1~ac5が示されている。すなわち、2~6列目の各行が、5つの行動ac1~ac5を示している。
【0028】
ここで、表1の例では、環状ヒータ14への出力(例えば電圧)を1.0%減らす行動を行動ac1(出力変化:-1%)と設定している。環状ヒータ14への出力(例えば電圧)を0.5%減らす行動を行動ac2(出力変化:-0.5%)と設定している。環状ヒータ14への出力を維持する行動を行動ac3(出力変化:0%)と設定している。環状ヒータ14への出力を0.5%増やす行動を行動ac4(出力変化:+0.5%)と設定している。環状ヒータ14への出力を1.0%増やす行動を行動ac5(出力変化:+1.0%)と設定している。表1の例は、あくまでも説明のための簡易な例であって、実際には、より細分化された多数の行動acが設定される場合が多い。
【0029】
表1において状態stと行動acとの組み合わせから定まる値は、価値Q(st、ac)と呼ばれる。価値Qは、初期値が与えられた後、公知の更新式を利用して報酬rwに基づいて順次更新される。価値Qの初期値は、例えば図4に示す学習条件に含まれる。学習条件は、例えば作業者によって入力される。価値Qの初期値は記憶部73に格納されていてもよく、例えば過去の学習結果を初期値として用いてもよい。また、図4に示す学習条件には、例えば表1に示した状態st1~st8及び行動ac1~ac5も含まれる。
【0030】
表1における状態st7を例に、価値Qについて説明する。状態st7では、制御偏差が3.0℃以上4.0℃未満であるため、対象環状ヒータ14による加熱温度が高過ぎる。そのため、対象環状ヒータ14の出力を減らす必要がある。従って、制御条件学習部72による学習の結果、環状ヒータ14への出力を減少させる行動ac1、ac2の価値Qが大きくなっている。一方、環状ヒータ14への出力を増加させる行動ac4、ac5の価値Qは小さくなっている。
【0031】
表1の例において、例えば制御偏差が3.5℃である場合、状態stは状態st7である。そのため、制御条件学習部72は、状態st7において価値Qが最大であって最適な行動ac2を選択し、制御信号出力部74へ出力する。
制御信号出力部74は、入力された行動ac2に基づいて、環状ヒータ14へ出力する制御信号ctrを0.5%減らす。制御信号ctrは例えば電圧信号である。
【0032】
そして、次回の制御偏差の絶対値が今回の制御偏差の絶対値3.5℃よりも小さければ、状態観測部71は、今回の状態st7における行動ac2の選択が適切であると判断し、正の値の報酬rwを出力する。そのため、制御条件学習部72は、状態st7における行動ac2の価値+3.6を報酬rwに応じて増やすように制御条件を更新する。その結果、状態st7の場合、制御条件学習部72は、引き続き行動ac2を選択する。
【0033】
一方、次回の制御偏差の絶対値が今回の制御偏差の絶対値3.5℃よりも大きければ、状態観測部71は、今回の状態st7における行動ac2の選択が不適切であると判断し、負の値の報酬rwを出力する。そのため、制御条件学習部72は、状態st7における行動ac2の価値+3.6を報酬rwに応じて減らすように制御条件を更新する。その結果、状態st7における行動ac2の価値が行動ac1の価値+2.6よりも小さくなると、状態st7の場合、制御条件学習部72は、行動ac2に代えて行動ac1を選択する。
【0034】
なお、制御条件を更新するタイミングは、次回に限らず、タイムラグなどを考慮して適宜決定すればよい。また、学習初期段階では、学習を促進するために、ランダムに行動acを選択してもよい。さらに、表1では、簡易なQ学習による強化学習について説明したが、学習アルゴリズムについては、Q学習、AC(Actor-Critic)法、TD学習、モンテカルロ法など様々あるが、何ら限定されるものではない。例えば、状態st及び行動acの数が増えて組み合わせ爆発が発生する場合は、AC法などを用いるなど状況によって選定すればよい。
【0035】
また、AC法では、方策関数として確率分布関数を用いる場合が多い。その確率分布関数は、正規分布関数に限らず、例えば、簡単化を目的としてシグモイド関数、ソフトマックス関数などを用いてもよい。シグモイド関数は、ニューラルネットワークで最も使用される関数である。強化学習は、ニューラルネットワークと同じ機械学習の1つであるため、シグモイド関数を採用できる。また、シグモイド関数は、関数自体も簡単であり、扱い易いという利点もある。
以上の通り、学習アルゴリズムや用いる関数は様々であるが、プロセスに対して最適なものを適宜選定すればよい。
【0036】
以上に説明した通り、実施の形態1に係る連続混練装置では、PID制御を用いていないため、そもそもプロセス条件の変更に伴うパラメータ調整が不要である。また、制御部70が、強化学習によって、制御条件(学習結果)を報酬rwに基づいて更新すると共に、更新された制御条件から現在の状態stに対応した最適な行動acを選択する。そのため、プロセス条件を変更した場合でも、比較例に比べ、調整に要する時間及び樹脂材料を抑制することができる。
【0037】
なお、実施の形態1に係る連続混練装置10は、射出成形装置に限らず、押出成形装置にも使用できる。押出成形装置では、連続混練装置10における射出動作が不要なため、スクリュー12がx軸方向に移動できなくてもよい。連続混練装置10におけるその他の構成は、射出成形装置でも押出成形装置でも略同様である。
【0038】
<連続混練装置の制御方法>
次に、図5を参照して、実施の形態1に係る連続混練装置の制御方法の詳細について説明する。図5は、実施の形態1に係る連続混練装置の制御方法を示すフローチャートである。図5の説明においては、図4も適宜参照する。
【0039】
まず、図5に示すように、図4に示した制御部70の状態観測部71は、各環状ヒータ14について、対応する温度センサ60による測定温度から制御偏差を算出する。そして、算出した制御偏差に基づいて、現在の状態stと以前に選択した行動acに対する報酬rwとを決定する(ステップS1)。なお、制御開始時には、以前(例えば前回)に選択した行動acが存在せず、報酬rwを決定することができないため、現在すなわち制御開始時の状態stのみを決定する。
【0040】
次に、図5に示すように、制御部70の制御条件学習部72は、状態stと行動acとの組み合わせである制御条件を報酬rwに基づいて更新する。そして、更新された制御条件から現在の状態stに対応した最適な行動acを選択する(ステップS2)。なお、制御開始時には、制御条件は初期値のまま更新されないが、制御開始時の状態stに対応した最適な行動acを選択する。
そして、図5に示すように、制御部70の制御信号出力部74は、制御条件学習部72が選択した最適な行動acに基づいて、環状ヒータ14に制御信号ctrを出力する(ステップS3)。
【0041】
樹脂成形品83の製造が終了していなければ(ステップS4NO)、ステップS1に戻って制御を継続する。一方、樹脂成形品83の製造が終了したら(ステップS4YES)、制御を終了する。すなわち、樹脂成形品83の製造が終了するまで、ステップS1~S3を繰り返す。
【0042】
以上に説明した通り、実施の形態1に係る連続混練装置10では、PID制御を用いていないため、そもそもプロセス条件の変更に伴うパラメータ調整が不要である。また、コンピュータを用いた強化学習によって、制御条件(学習結果)を報酬rwに基づいて更新すると共に、更新された制御条件から現在の状態stに対応した最適な行動acを選択する。そのため、プロセス条件を変更した場合でも、比較例に比べ、調整に要する時間及び樹脂材料を抑制することができる。
【0043】
(実施の形態2)
次に、図6を参照して、実施の形態2に係る連続混練装置について説明する。実施の形態2に係る連続混練装置の全体構成は、図1図3に示した実施の形態1に係る連続混練装置の全体構成と同様であるため、説明を省略する。実施の形態2に係る連続混練装置は、制御部70の構成が実施の形態1に係る連続混練装置と異なる。
【0044】
図6は、実施の形態2に係る制御部70の構成を示すブロック図である。図6に示すように、実施の形態2に係る制御部70は、状態観測部71、制御条件学習部72、記憶部73、PIDコントローラ74aを備えている。すなわち、実施の形態2に係る制御部70は、図4に示した実施の形態1に係る制御部70における制御信号出力部74として、PIDコントローラ74aを備えている。PIDコントローラ74aも制御信号出力部の一形態である。
【0045】
状態観測部71は、実施の形態1と同様に、各環状ヒータ14について、算出した制御偏差errに基づいて、現在の状態stと以前に選択した行動acに対する報酬rwとを決定する。そして、状態観測部71は、現在の状態stと報酬rwとを制御条件学習部72に出力する。さらに、実施の形態2に係る状態観測部71は、算出した制御偏差errをPIDコントローラ74aに出力する。
【0046】
制御条件学習部72も、実施の形態1と同様に、各環状ヒータ14について、強化学習を行う。具体的には、制御条件学習部72は、制御条件(学習結果)を報酬rwに基づいて更新すると共に、更新された制御条件から現在の状態stに対応した最適な行動acを選択する。ここで、実施の形態1では、制御条件学習部72が選択する行動acの内容が、環状ヒータ14への出力を直接変更することである。これに対し、実施の形態2では、制御条件学習部72が選択する行動acの内容が、PIDコントローラ74aのパラメータを変更することである。
【0047】
図6に示すように、制御条件学習部72から出力された行動acに基づいて、PIDコントローラ74aのパラメータが逐次変更される。他方、PIDコントローラ74aは、入力された制御偏差errに基づいて、環状ヒータ14へ制御信号ctrを出力する。制御信号ctrは例えば電圧信号である。
その他の構成は、実施の形態1と同様であるから説明を省略する。
【0048】
以上に説明した通り、実施の形態2に係る連続混練装置では、PID制御を用いているため、プロセス条件の変更に伴うパラメータ調整が必要である。実施の形態2に係る連続混練装置では、制御部70が、強化学習によって、制御条件(学習結果)を報酬rwに基づいて更新すると共に、更新された制御条件から現在の状態stに対応した最適な行動acを選択する。ここで、強化学習における行動acが、PIDコントローラ74aのパラメータの変更である。そのため、プロセス条件を変更した場合でも、比較例に比べ、パラメータ調整に要する時間及び樹脂材料を抑制することができる。
【0049】
以上、本発明者によってなされた発明を実施の形態に基づき具体的に説明したが、本発明は既に述べた実施の形態に限定されるものではなく、その要旨を逸脱しない範囲において種々の変更が可能であることはいうまでもない。
【符号の説明】
【0050】
10 連続混練装置
11 シリンダ
12 スクリュー
13 ホッパ
14 環状ヒータ
21 固定型
22 可動型
60 温度センサ
70 制御部
71 状態観測部
72 制御条件学習部
73 記憶部
74 制御信号出力部
74a PIDコントローラ
81 樹脂ペレット
82 溶融樹脂
83 樹脂成形品
C キャビティ
図1
図2
図3
図4
図5
図6