IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社日本製鋼所の特許一覧

特開2025-2550射出成形機、射出成形機の制御方法、射出成形機の制御プログラム
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2025002550
(43)【公開日】2025-01-09
(54)【発明の名称】射出成形機、射出成形機の制御方法、射出成形機の制御プログラム
(51)【国際特許分類】
   B29C 45/78 20060101AFI20241226BHJP
   B22D 17/02 20060101ALI20241226BHJP
   B22D 17/32 20060101ALI20241226BHJP
   B22D 17/20 20060101ALI20241226BHJP
   G05B 13/02 20060101ALI20241226BHJP
【FI】
B29C45/78
B22D17/02 B
B22D17/32 Z
B22D17/20 J
G05B13/02 L
【審査請求】未請求
【請求項の数】20
【出願形態】OL
(21)【出願番号】P 2023102794
(22)【出願日】2023-06-22
(71)【出願人】
【識別番号】000004215
【氏名又は名称】株式会社日本製鋼所
(74)【代理人】
【識別番号】100107928
【弁理士】
【氏名又は名称】井上 正則
(74)【代理人】
【識別番号】110003362
【氏名又は名称】弁理士法人i.PARTNERS特許事務所
(72)【発明者】
【氏名】金石 暁典
【テーマコード(参考)】
4F206
5H004
【Fターム(参考)】
4F206AM19
4F206AP05
4F206AR06
4F206AR11
4F206AR16
4F206JA07
4F206JL02
4F206JM01
4F206JM04
4F206JN03
4F206JN11
4F206JP13
4F206JP17
4F206JQ46
5H004HA01
5H004HB01
5H004KB01
5H004KD61
(57)【要約】      (修正有)
【課題】優れたフィードバック制御が可能な射出成形機、当該射出成形機の制御方法及びそのプログラムを提供する。
【解決手段】被温調部の温度を調節するための温調装置を所定の制御周期でフィードバック制御する射出成形機であって、被温調部の温度を測定するセンサと、センサによる現制御周期における測定温度及び予め設定された設定目標温度に基づいて、制御偏差を算出する偏差算出部704と、算出された制御偏差から、以前の制御周期における温調装置の制御に対する報酬を決定し、該報酬及び制御偏差に基づいて、学習パラメータを算出する学習部706と、算出された学習パラメータと制御偏差とに基づく正規分布を用いて、温調装置の操作量を算出する操作量算出部707とを備え、学習部706は、正規分布に基づく値であり学習パラメータの正負に関する正負補正値により、学習パラメータを補正する。
【選択図】図6
【特許請求の範囲】
【請求項1】
被温調部の温度を調節するための温調装置を所定の制御周期でフィードバック制御する射出成形機であって、
前記被温調部の温度を測定するセンサと、
前記センサによる現制御周期における測定温度及び予め設定された設定目標温度に基づいて、制御偏差を算出する偏差算出部と、
前記偏差算出部により算出された制御偏差から、以前の制御周期における前記温調装置の制御に対する報酬を決定し、該報酬及び前記制御偏差に基づいて、学習パラメータを算出する学習部と、
前記学習部により算出された学習パラメータと前記制御偏差とに基づく正規分布を用いて、前記温調装置の操作量を算出する操作量算出部と
を備え、
前記学習部は、前記正規分布に基づく値であり前記学習パラメータの正負に関する正負補正値により、前記学習パラメータを補正する
ことを特徴とする射出成形機。
【請求項2】
前記操作量算出部は、前記学習パラメータと前記制御偏差とに基づいて仮の第1操作量を算出し、該仮の第1操作量と前記学習パラメータとに基づいて前記正規分布を算出し、該正規分布から仮の第2操作量を選択し、該仮の第2操作量に基づいて、前記操作量を算出する
ことを特徴とする請求項1記載の射出成形機。
【請求項3】
前記操作量算出部は、前記学習パラメータと前記制御偏差とに基づいて仮の第1操作量を算出し、該仮の第1操作量と前記学習パラメータとに基づいて前記正規分布を算出し、該正規分布から仮の第2操作量を選択し、該仮の第2操作量を前記操作量に決定する
ことを特徴とする請求項1記載の射出成形機。
【請求項4】
前記学習部は、前記仮の第2操作量から、前記仮の第1操作量を減算することにより、前記正負補正値を算出する
ことを特徴とする請求項2または請求項3記載の射出成形機。
【請求項5】
前記操作量算出部は、前記操作量を、前記仮の第2操作量に対して以前の制御周期において算出された操作量を加えることより算出する
ことを特徴とする請求項2記載の射出成形機。
【請求項6】
前記設定目標温度と比較して制御偏差を抑制可能なフィルタ目標温度を、前記設定目標温度に基づいて算出する目標温度算出部を更に備え、
前記偏差算出部は、前記目標温度算出部により算出された前記フィルタ目標温度と前記測定温度との差分を前記制御偏差として算出する
ことを特徴とする請求項1記載の射出成形機。
【請求項7】
前記目標温度算出部は、前記フィルタ目標温度を、前記測定温度が第1温度閾値未満では温度と経過時間との関係が第1の直線状となるように変化させ、前記第1温度閾値以上、第2温度閾値未満では前記関係が曲線状となるように変化させ、前記第2温度閾値以上では前記関係が前記第1の直線状よりも傾きの程度が小さい第2の直線状となるように変化させる
ことを特徴とする請求項6記載の射出成形機。
【請求項8】
前記補正部は、前記測定温度が第1温度閾値未満では、前記温調装置の温度を変化させて前記操作量が所定の割合となった際の測定温度と経過時間とを含む実測データに基づいて、測定温度を縦軸、経過時間を横軸とし、その傾きを最小二乗法により求め、求められた傾きを所定の補正係数により補正した補正傾き値に基づいて、前記フィルタ目標温度を算出する
ことを特徴とする請求項7記載の射出成形機。
【請求項9】
前記補正部は、前記測定温度が前記第1温度閾値以上、前記第2温度閾値未満では、前記設定目標温度をゲインとし、前記設定目標温度から前記第1温度閾値を減算して得られる切替温度を前記補正傾き値の絶対値で除した値を時定数とした一次遅れの伝達関数に従い、前記フィルタ目標温度を算出する
ことを特徴とする請求項7記載の射出成形機。
【請求項10】
前記補正部は、前記測定温度が前記第2温度閾値以上では、単位時間当たりの温度変化を規定する所定の温度変化条件に基づいて、前記フィルタ目標温度を算出する
ことを特徴とする請求項7記載の射出成形機。
【請求項11】
前記報酬は、前記制御偏差の絶対値が所定の偏差閾値以下である場合、前記制御偏差の絶対値が前記所定の偏差閾値を超える場合よりも高い
ことを特徴とする請求項1記載の射出成形機。
【請求項12】
前記制御偏差を所定の範囲内に制限する制限部
を更に備え、
前記学習部は、前記制限部により制限された制御偏差を用いて、前記報酬の決定、前記学習パラメータの算出を行う
ことを特徴とする請求項1記載の射出成形機。
【請求項13】
前記学習部は、制御偏差の数値範囲が複数設定され、該複数の数値範囲毎に状態価値が設定されている状態価値関数に基づいて、現制御周期における制御偏差に対応する状態価値を選択し、該状態価値に基づいて前記学習パラメータを算出する
ことを特徴とする請求項1記載の射出成形機。
【請求項14】
前記操作量算出部は、平均を前記仮の第1操作量、標準偏差を学習パラメータに基づき算出される数値として前記正規分布を算出する
ことを特徴とする請求項2または請求項3記載の射出成形機。
【請求項15】
前記制御偏差に基づいて、所定の強化学習停止条件が満たされるか否かを判定する判定部を更に備え、
前記判定部により前記所定の強化学習停止条件が満たされると判定された場合、前記学習部による前記学習パラメータの算出が停止され、
前記操作量算出部は、1制御周期前の操作量に基づいて積分値を算出し、該積分値と、現制御周期の制御偏差と、予め記憶されている所定の制御パラメータとを用いて操作量を算出する
ことを特徴とする請求項1記載の射出成形機。
【請求項16】
前記学習部により算出された学習パラメータと前記制御偏差とに基づく正規分布を用いて前記操作量を算出する制御と、前記制御偏差と、予め記憶されている所定の制御パラメータとを用いて操作量を算出する制御とを、前記射出成形機のユーザに選択可能に提示する提示部
を更に備えることを特徴とする請求項1記載の射出成形機。
【請求項17】
前記測定温度と経過時間との関係を示すグラフを少なくとも含むログを記憶する記憶部と、
前記ログをユーザに提示する提示部と
を更に備えることを特徴とする請求項1記載の射出成形機。
【請求項18】
前記温調装置が前記被温調部を加熱する加熱装置である場合、前記操作量算出部により算出される操作量に応じて、前記被温調部は昇温し、
前記温調装置が前記被温調部を冷却する冷却装置である場合、前記操作量算出部により算出される操作量に応じて、前記被温調部は降温する
ことを特徴とする請求項1記載の射出成形機。
【請求項19】
被温調部の温度を調節するための温調装置を所定の制御周期でフィードバック制御する射出成形機の制御方法であって、
前記射出成形機の制御装置が、
前記被温調部の温度を測定するセンサによる、現制御周期における測定温度と、予め設定された設定目標温度とに基づいて、制御偏差を算出し、
算出された制御偏差から、以前の制御周期における前記温調装置の制御に対する報酬を決定し、該報酬及び前記制御偏差に基づいて、前記温調装置の制御に関する学習パラメータを算出し、
算出された学習パラメータと前記制御偏差とに基づく正規分布を用いて、前記温調装置の操作量を算出し、
前記学習パラメータは、前記正規分布に基づく値であり前記学習パラメータの正負に関する正負補正値により補正される
ことを特徴とする射出成形機の制御方法。
【請求項20】
被温調部の温度を調節するための温調装置を所定の制御周期でフィードバック制御する射出成形機の制御プログラムであって、
コンピュータを
前記被温調部の温度を測定するセンサによる現制御周期における測定温度と、予め設定された設定目標温度とに基づいて、制御偏差を算出する偏差算出部と、
前記偏差算出部により算出された制御偏差から、以前の制御周期における前記温調装置の制御に対する報酬を決定し、該報酬及び前記制御偏差に基づいて、学習パラメータを算出する学習部と、
前記学習部により算出された学習パラメータと前記制御偏差とに基づく正規分布を用いて、前記温調装置の操作量を算出する操作量算出部
として機能させ、
前記学習部は、前記正規分布に基づく値であり前記学習パラメータの正負に関する正負補正値により、前記学習パラメータを補正する
ことを特徴とする射出成形機の制御プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明の実施形態は、射出成形機、当該射出成形機の制御方法及びそのプログラムに関する。
【背景技術】
【0002】
従来、射出成形機は、シリンダ内に投入された樹脂ペレットをヒータ及びスクリュにより溶融可塑化した後に金型に射出することでプラスチック製品を得る。このような射出成形機のヒータは、センサから得られるヒータの測定温度に基づくPID(Proportional-Integral-Differential)制御等のフィードバック制御により操作量が算出され、算出された操作量に応じて制御されることが一般的である。近年、このようなフィードバック制御における操作量の算出に、AI(Artificial intelligence)アルゴリズム、特に機械学習を取り入れる試みがなされている。例えば、PID制御により操作量を算出するためのパラメータである比例、積分、微分ゲイン等を機械学習により最適な値となるようAIに学習させる技術がある。
【先行技術文献】
【特許文献】
【0003】
【特許文献1】特開2022-67240号公報
【発明の概要】
【発明が解決しようとする課題】
【0004】
本発明の実施形態が解決しようとする課題は、従来よりも優れたフィードバック制御が可能な技術を提供することである。
【課題を解決するための手段】
【0005】
一実施形態は、被温調部の温度を調節するための温調装置を所定の制御周期でフィードバック制御する射出成形機であって、前記被温調部の温度を測定するセンサと、前記センサによる現制御周期における測定温度及び予め設定された設定目標温度に基づいて、制御偏差を算出する偏差算出部と、前記偏差算出部により算出された制御偏差から、以前の制御周期における前記温調装置の制御に対する報酬を決定し、該報酬及び前記制御偏差に基づいて、学習パラメータを算出する学習部と、前記学習部により算出された学習パラメータと前記制御偏差とに基づく正規分布を用いて、前記温調装置の操作量を算出する操作量算出部とを備え、前記学習部は、前記正規分布に基づく値であり前記学習パラメータの正負に関する正負補正値により、前記学習パラメータを補正することを特徴とする。
【図面の簡単な説明】
【0006】
図1】第1の実施形態に係る射出成形機を模式的に示す概略縦断面図である。
図2】第1の実施形態に係る射出成形機のヒータを対象とするフィードバック制御に関する制御系を説明するためのブロック図である。
図3】第1の実施形態に係る制御装置による強化学習を説明するためのブロック図である。
図4】第1の実施形態に係る状態価値テーブルを示す図である。
図5】第1の実施形態に係る制御装置のハードウェア構成を示すブロック図である。
図6】第1の実施形態に係る制御装置の機能構成を示すブロック図である。
図7】第1の実施形態に係る学習フィードバック制御処理を示すフローチャートである。
図8】第1の実施形態に係る操作量算出処理を示すフローチャートである。
図9】第1の実施形態に係る強化学習処理を示すフローチャートである。
図10】第1の実施形態に係る学習パラメータ更新処理を示すフローチャートである。
図11】第1の実施形態に係る学習停止用操作量算出処理を示すフローチャートである。
図12】第1の実施形態に係るフィルタ目標温度を説明するための図である。
図13】第1の実施形態に係るフィルタ目標温度の効果を説明するための図である。
図14】第1の実施形態に係るフィルタ目標温度算出処理を示すフローチャートである。
図15】比較例に係る強化学習を用いた1回目のフィードバック制御の結果として得られる、パラメータθの大きさと経過時間との関係及び測定温度と経過時間との関係を説明するための図である。
図16】比較例に係る強化学習を用いた10回目のフィードバック制御の結果として得られる、パラメータθの大きさと経過時間との関係及び測定温度と経過時間との関係を説明するための図である。
図17】比較例に係る強化学習を用いたn回目のフィードバック制御の結果として得られる、パラメータθの大きさと経過時間との関係及び測定温度と経過時間との関係を説明するための図である。
図18】第1の実施形態に係る1回目の学習フィードバック制御処理の結果として得られる、学習パラメータθの大きさと経過時間との関係及び測定温度と経過時間との関係を説明するための図である。
図19】第1の実施形態に係る10回目の学習フィードバック制御処理の結果として得られる、学習パラメータθの大きさと経過時間との関係及び測定温度と経過時間との関係を説明するための図である。
図20】第1の実施形態に係るn回目の学習フィードバック制御処理の結果として得られる、学習パラメータθの大きさと経過時間との関係及び測定温度と経過時間との関係を説明するための図である。
図21】第1の実施形態の応用例に係るタイバー及び金型を示す概略縦断面図である。
図22】第1の実施形態の応用例に係る冷却装置を対象とした学習フィードバック制御処理により得られる処理結果を説明するための図である。
図23】第2の実施形態に係る制御装置の機能構成を示すブロック図である。
図24】第2の実施形態に係る操作量算出処理を示すフローチャートである。
【発明を実施するための形態】
【0007】
以下、本発明の実施形態について図面を参照しつつ説明する。なお、本明細書及び図面において、実質的に同一の機能を有する構成要素については、同一の符号が付される。
【0008】
<第1の実施形態>
(射出成形機の構成)
本実施形態に係る射出成形機の構成について説明する。図1は、本実施形態に係る射出成形機を模式的に示す概略縦断面図である。
【0009】
図1に示されるように、本実施形態に係る射出成形機1は、ペレット状の樹脂材料を溶融するために搬送方向に延在するシリンダ2を備える。シリンダ2は、温調対象となる被温調部であり、その樹脂材料の搬送方向上流側(図中右側)端部に樹脂材料が投入されるホッパ3が設けられる。シリンダ2内には、樹脂材料を溶融混練すると共に搬送方向下流側に位置するシリンダ2の先端部へ搬送する1軸又は2軸のスクリュ4が回動自在に設けられる。シリンダ2の先端部は、搬送方向上流側よりも縮径されており、不図示の金型が取り付けられている。スクリュ4が搬送方向に高速で前進することにより、シリンダ2内で溶融可塑化された樹脂材料がシリンダ2の先端部から金型に射出される。射出された樹脂材料は、金型に応じた形状のプラスチック部品となる。
【0010】
シリンダ2には、温調装置として、その外周を囲繞する環状のヒータ(例えばバンドヒータ)5が、搬送方向に沿って複数設けられている。複数のヒータ5は、それぞれ不図示のヒータ電源から自身に対応するSSR(Solid State Relay)を介して電力が供給される。なお、複数のヒータ5への電力供給は、SSRに限定されるものではなく、有接点リレーを介して行われるようにしてもよい。複数のヒータ5は、それぞれ電力が供給されることにより、シリンダ2における当接部分を加熱する。シリンダ2は、これら複数のヒータ5により延在方向に沿って異なる温度に加熱され得る。一般的に、搬送方向上流側から下流側にかけてシリンダ2の温度が高くなるように、複数のヒータ5のそれぞれが制御される。複数のヒータ5近傍には、それぞれ温度センサ6が対応して設けられている。
【0011】
複数の温度センサ6のそれぞれは、シリンダ2において対応するヒータ5によって加熱される部位の温度を測定する。複数の温度センサ6のそれぞれは、例えば対応するヒータ5に形成された貫通孔に挿通され、シリンダ2に接触する。温度センサ6は、例えば熱電対として構成される。
【0012】
複数のヒータ5及び複数の温度センサ6は、それぞれ制御装置7により制御可能に接続されている。制御装置7は、温度センサ6から取得した測定温度に基づいて、複数のヒータ5をフィードバック制御する。フィードバック制御により、ヒータ5は、ユーザによって事前に設定された目標温度となるように温度が調整される。当該目標温度は、以後設定目標温度と称する。また、制御装置7は、スクリュ4の回動駆動及び進退動を行う不図示の駆動装置を制御する。なお、本実施形態においては、スクリュ4に関する制御についての詳細な説明は省略する。
【0013】
本実施形態に係る制御装置7によるヒータ5のフィードバック制御について、詳細に説明する。図2は、本実施形態に係る射出成形機のヒータを対象とするフィードバック制御に関する制御系を説明するためのブロック図である。
【0014】
(制御装置7の制御系)
図2に示されるように、本実施形態に係る制御装置7は、偏差(制御偏差)εに基づくフィードバック制御として、PID制御によりヒータ5を制御する。本実施形態においては、PID制御は、速度型のPID制御である。当該制御によりヒータ5は、予め射出成形機1のユーザにより設定された設定目標温度Tsvとなるように調整される。偏差εは、設定目標温度Tsvと、温度センサ6から得られたヒータ5の測定温度Tpvとの差分である。なお、本実施形態においては、設定目標温度Tsvがフィルタ目標温度に補正され、PID制御及び強化学習に用いられる。フィルタ目標温度についての詳細は後述する。
【0015】
ヒータ5の設定目標温度Tsvへの調整は、PID制御の出力及び後述する強化学習結果として操作量uが算出され、操作量uに基づく制御信号がヒータ5に入力されることでなされる。なお、このPID制御は、各ヒータ5に対して個別に行われる。PID制御は、ヒータなどの制御対象の特性が変更される度に、パラメータを調整する必要がある。調整されるパラメータとしては、比例帯(または比例ゲイン)、積分ゲイン、及び微分ゲインが挙げられる。以後、これらのゲインを制御パラメータと称する。制御装置7は、これらの制御パラメータの調整を、偏差εに基づく強化学習を用いて行う。強化学習により、制御パラメータを調整するための後述する学習パラメータが調整され、行動aとしてPID制御の操作量uが出力される。これにより、ユーザが試行錯誤して制御パラメータを調整するといった作業が必要なくなる。つまり作業時間の大幅な短縮が可能となる。
【0016】
(強化学習)
強化学習について簡単に説明する。強化学習は、学習及び意志決定を行うエージェントと、エージェントにより影響を受けるエージェント以外の環境とから構築されるものが知られている。例えば、エージェントはAI、環境は射出成形機で表すとヒータに対応すると考えることができる。エージェントは、状態sと報酬rから、方策πに従って、例えば制御パラメータや操作量等の行動aを決定する。状態sは環境から来る例えば温度等の値である。報酬rは、エージェントが最大化したい数値や目標である。方策πは、行動aのふるまい方が定義されたものである。
【0017】
各制御周期を個別に示す時間ステップをtとし、この時間ステップに決定された行動aをa[t]とすると、行動a[t]が環境に働きかけ、環境は次の時間ステップに新しい状態s[t+1]に遷移する。状態s[t+1]により、新しい報酬r[t+1]が観測される。エージェントは、より高い新しい報酬r[t+1]が得られるよう、次の時間ステップの行動a[t+1]を決定する。強化学習は、このような繰り返しが行われることにより、より良い行動aが出力されるように学習が進む。
【0018】
図3は、本実施形態に係る制御装置による強化学習を説明するためのブロック図である。図4は、本実施形態に係る状態価値テーブルを示す図である。
【0019】
本実施形態に係る制御装置7は、強化学習として図3に示されるようなActor-Critic手法を用いる。Actor-Critic手法では、エージェント81及び環境82から構築される。エージェント81は、アクター(行動器)811とクリティック(評価器)812とを有する。本実施形態においては、エージェント81が制御装置7、環境82がヒータ5に対応し、アクター811、クリティック812が制御装置7のプログラムに対応する。アクター811は、比例帯、積分ゲイン、微分ゲイン等の制御パラメータを調整し、調整された各種制御パラメータに基づき、方策を更新し、方策に従って行動aとして操作量を出力する。
【0020】
なお、ヒータ5は制御装置7により制御される対象であって、温度センサ6によりヒータ5の測定温度Tpvが出力される。そのため、制御装置7はヒータ5から状態s、報酬rを得るものではない。状態s、報酬rは測定温度Tpvに基づいて制御装置7が算出する。同様に、制御パラメータは制御装置7により算出され、方策の更新に用いられる。また、方策に従って操作量が算出される。算出された操作量は、制御信号としてヒータ5に入力される。
【0021】
アクター811は方策πに従って行動aを選択する。ここでの方策πは、状態sにより行動aが選択される確率の確率分布(正規分布)を示す確率的方策である。クリティック812は、行動aを行った後に新しい状態sを評価し、行動aの実行結果が期待されたものより良好であるか否かを判断する。評価結果は、TD(Temporal Difference)誤差δの形式で表現される。換言すれば、TD誤差は、ある行動aの良否を評価する値となる。クリティック812は、状態sがどれほど良いかを表現する関数である状態価値関数Vを用いてTD誤差δを出力する。出力されたTD誤差δは、方策πの更新に用いられると共に、状態価値関数Vの更新、後述する学習パラメータの更新にも用いられる。
【0022】
状態価値関数Vは、制御装置7に予め記憶されるものであり、図4に示されるようにテーブル形式で表現することができる。以後、当該テーブルを状態価値テーブルと称する。状態価値テーブルでは、複数の状態s毎に状態sの価値(状態価値)を示す数値が対応付けられる。つまり、出力された状態sが状態価値テーブルにおけるどの状態に対応するかで、状態価値関数Vが決定される。
【0023】
本実施形態においては、偏差εが状態sとして扱われる。このことから、状態価値テーブルの中央部分に-εth≦ε≦εthの区間(以後、閾値区間と称する)が設けられる。εthは、所定の偏差閾値を示す。状態価値テーブルは、閾値区間の左右に、偏差の値nごとに区切りが設けられて2N+1個の状態に区分けされる。ただし、n>εthである。状態sが示す偏差が、閾値区間内にある場合が最も良い状態にあるとして、最も高い状態価値の値が状態価値、報酬、TD誤差に基づき算出(更新)される。概ね、閾値区間から離れる、つまり状態価値テーブルの図4中左右方向に位置する区間程、状態価値が低下するように値が設定される。ただし、必ずしも閾値区間から離れる程状態価値が低くなるものではない。閾値区間から離れる区間であっても、近接する区間よりも状態価値が高まる区間も設定される可能性はある。なお、状態sが示す偏差が閾値区間内にある場合に最も高い状態価値の値が算出されると説明したが、これは学習中期~後期であって、学習数回目等の学習初期の段階では閾値区間内が最も高い状態価値の値でない可能性はある。
【0024】
本実施形態において状態価値関数Vの更新は、適格度トレースを用いて全ての状態sに対して実行される。状態価値関数Vの更新が全状態に対して行われることにより、過去に遡って関係した状態価値を纏めて更新できる。そのため、効率的に学習、具体的には制御パラメータを算出するための学習パラメータθの調整を行うことができる。以上に説明した、TD誤差の算出、適格度トレースの算出、及び状態価値関数Vの更新、学習パラメータθについての詳細は後述する。
【0025】
(制御装置7のハードウェア構成)
図5は、本実施形態に係る制御装置のハードウェア構成を示すブロック図である。図5に示されるように、本実施形態に係る制御装置7は、CPU(Central Processing Unit)71、RAM(Random Access Memory)72、記憶装置73、ユーザI/F(InterFace)74、及び入出力I/F75を備える。
【0026】
CPU71は、揮発性の記憶領域であるRAM72上に展開されるBIOS(Basic Input/Output System)、OS(Operating System)、汎用アプリケーションや、後述する学習フィードバック制御処理のための制御プログラム等の各種プログラムを実行し、制御装置7の制御を行う。
【0027】
記憶装置73は、ROM(Read Only Memory)等を含む不揮発性の記憶領域である。記憶装置73には、HDD(Hard disk drive)やSSD(Solid State Drive)等の記憶装置が含まれてもよい。記憶装置73には、学習フィードバック制御処理において用いられる各種パラメータや、過去の実測データ、算出される各物理量等のデータが格納される。また、記憶装置73には、強化学習の学習結果を示すログが格納されてもよい。
【0028】
ユーザI/F74は、射出成形機1を使用するユーザへの入力画面の提示や、ユーザからの入力を受け付ける。また、ユーザI/F74は、学習フィードバック制御処理の結果としてログをユーザに視認可能に提示する。ログは、例えばヒータ温度と経過時間との関係を示すグラフが含まれる。ユーザI/F74は、例えばディスプレイ、当該ディスプレイ上の特定の位置を指定するマウス等のポインティングデバイス、文字及び特定の機能等が割り当てられたキーが配列されたキーボード等を含む。ユーザI/F74は、タッチパネルディスプレイとして構成されてもよい。
【0029】
入出力I/F75は、制御装置7に関する信号やデータの入出力を行う。例えば入出力I/F75は、制御装置7からの制御信号に基づいて、PWM(Pulse Width Modulation)信号をSSRに入力することでヒータ5への指令値としての電力を供給する基板を含む。なお、当該基板は、接続された温度センサ6から返される熱起電力から測定温度を取得し、これを制御装置7に出力する。また、入出力I/F75は、ヒータ5の電源である不図示のヒータ電源に対してON/OFFの制御信号を送信する。
【0030】
(制御装置7の機能構成)
図6は、本実施形態に係る制御装置の機能構成を示すブロック図である。図6に示されるように、本実施形態に係る制御装置7は、表示部701と、取得部702と、目標温度算出部703と、偏差算出部704と、制限部705と、学習部706と、操作量算出部707と、出力部708とを機能として有する。これら機能は、CPU71やRAM72等の前述したハードウェア資源が協働することにより実現され、これらの機能により後述する学習フィードバック制御処理が実行される。
【0031】
表示部701は、ユーザI/F74としてのディスプレイに、ヒータ5の制御方法をユーザに選択可能に表示する。表示部701は、例えば本実施形態に係る学習フィードバック制御処理及び標準PID制御処理のいずれを実行するかの選択ボタンと、選択された処理の開始ボタンとを含む選択画面をディスプレイに表示させる。標準PID制御処理については後述する。当該選択画面には、ヒータ5に電力を供給するヒータ電源のON/OFFボタンを含めるようにしてもよい。また、表示部701は、ディスプレイに、学習フィードバック制御処理の結果のログを表示する。
【0032】
取得部702は、ユーザが選択したヒータ5の制御方法や、ユーザが入力した設定目標温度、温度センサ6からの測定温度を取得する。目標温度算出部703は、設定目標温度と比較して算出される制御偏差を抑制可能なフィルタ目標温度を、前記設定目標温度に基づいて算出する。偏差算出部704は、フィルタ目標温度と、測定温度との差分を偏差(制御偏差)εとして算出する。上記のとおりフィルタ目標温度は設定目標温度に基づくものである。したがって換言すれば、偏差算出部704は、測定温度及び設定目標温度に基づいて、偏差εを算出している。
【0033】
制限部705は、強化学習に関して用いられる偏差εを所定の範囲内に制限する。学習部706は、上述したActor-Critic手法を用いた強化学習を行い、制御周期毎に学習パラメータの更新、制御パラメータの算出を行う。操作量算出部707は、操作量の算出を行う。出力部708は、算出された操作量を制御信号としてヒータ5に出力し、ヒータ5の温度を制御する。判定部709は、学習フィードバック制御処理に係る各種判定処理を行う。これら各種機能の詳細な説明は、以下に説明する学習フィードバック制御処理の説明の際に行う。
【0034】
(学習フィードバック制御処理)
次に、制御装置7が実行する学習フィードバック制御処理について、詳細に説明する。図7は、本実施形態に係る学習フィードバック制御処理を示すフローチャートである。学習フィードバック制御処理は、表示部701により表示されたヒータ5の制御方法の選択画面において、学習フィードバック制御処理が選択され、開始ボタン押下されたことをトリガとして実行される。
【0035】
図7に示されるように、先ず、判定部709は、学習フィードバック制御処理を実行するためにヒータ電源がONとなっているか否かを判定する(S101)。ヒータ電源がONであると判定された場合(S101,YES)、操作量算出処理が実行される(S102)。操作量算出処理については後述する。一方、ヒータ電源がOFFであると判定された場合(S101,NO)、所定時間後に再度ヒータ電源がONとなっているか否かが判定される。
【0036】
操作量算出処理後、判定部709は、学習フィードバック制御処理を停止させる停止信号を取得部702が取得したか否かを判定する(S103)。停止信号は、例えば表示部701が学習フィードバック制御処理中に当該処理の停止を実行する停止ボタンを常時ディスプレイに表示し、当該ボタンが選択された場合に取得される。その他、学習フィードバック制御処理中に、ヒータ5の制御方法の選択画面において、標準PID制御処理が選択された場合に停止信号が取得されるようにしてもよい。
【0037】
停止信号を取得部702が取得した場合(S103,YES)、学習フィードバック制御処理は終了となる。学習フィードバック制御処理後は、停止ボタンが選択された場合はヒータ5の制御が停止される。一方、標準PID制御処理が選択された場合は、学習フィードバック制御処理から標準PID制御処理に切り替わる。一方、停止信号を取得部702が取得していない場合(S103,NO)、ステップS101の処理が実行される。このS101~S103の処理が1制御周期を表し、以降、停止信号が取得されるまで繰り返される。1制御周期は、例えば125ms等である。
【0038】
(操作量算出処理)
上述した操作量算出処理について説明する。図8は、本実施形態に係る操作量算出処理を示すフローチャートである。図8に示されるように、先ず判定部709は、強化学習により学習される上述した学習パラメータθが初期化されているか否かを判定する(S201)。学習パラメータθが初期化されていないと判定された場合(S201,NO)、判定部709は、学習パラメータθを初期化し(S202)、ユーザにより予め設定された設定目標温度Tsvに変更があったか否かを判定する(S203)。
【0039】
一方、学習パラメータθが初期化されていると判定された場合(S201,YES)、ステップS203の処理が実行される。このように学習パラメータθが初期化されていない場合に初期化を行うことにより、新たな学習フィードバック制御処理が実行される際に誤った学習パラメータθが流用されることはない。なお、強化学習において更新された状態価値関数V等の各種数値を含む、強化学習結果が初期化されるようにしてもよい。
【0040】
設定目標温度Tsvに変更がなかったと判定された場合(S203,NO)、取得部702は、温度センサ6から測定温度Tpvを取得する(S204)。測定温度Tpvの取得後、偏差算出部704は、後述するフィルタ目標温度Tdsvと取得された測定温度Tpvとの差分から偏差εを算出する(S205)。なお、フィルタ目標温度Tdsvが算出されていない場合は、代わりに測定温度Tpvが用いられてもよい。
【0041】
偏差εの算出後、判定部709は、現制御周期が2ステップ目以降であるか否か、換言すれば現制御周期よりも前の制御周期が存在したか否かを判定する(S206)。現制御周期が2ステップ目以降であると判定された場合(S206,YES)、判定部709は、強化学習を停止するか否かを判定する(S207)。強化学習の停止の判定は、偏差に関する所定の強化学習停止条件が満たされたか否かにより判定される。例えば、次式が満たされてから所定時間経過した場合、強化学習停止条件が満たされたと判定される。
【0042】
【数1】
【0043】
上記(1)式におけるTsvは設定目標温度、Tpvは測定温度、εthは偏差閾値である。つまり偏差εの絶対値が偏差閾値εth未満となった場合、所定時間後に学習停止となる。学習停止の条件を満たして即時学習が停止されると、オーバーシュートに対応する学習が行えない可能性がある。そのため、所定時間経過するまで学習が継続されることが好ましい。なお、(1)式における偏差閾値εthは、状態価値テーブルにおける偏差閾値の値を用いてもよく、当該偏差閾値とは異なる値としてもよい。
【0044】
(1)式が満たされないとして強化学習を停止しないと判定された場合(S207,NO)、学習パラメータの更新や、各種制御パラメータが算出される強化学習処理が実行される(S208)。強化学習処理については後述する。
【0045】
強化学習処理後、操作量算出部707は、強化学習処理により算出された各種制御パラメータと偏差εとに基づいて、現制御周期における仮の第1操作量μを算出する(S209)。仮の第1操作量μは、次式により求められる。
【0046】
【数2】
【0047】
上記(2)式における、P、K、及びKは、強化学習処理により算出される制御パラメータである比例帯、積分ゲイン、微分ゲインを示す。Δtは、制御周期(サンプリング周期)を示す。[t]は制御周期を固有に示す時間ステップを示す。なお、本実施形態に係る(2)式には、比例帯Pを用いて100/Pが組み込まれているが、これに代わり比例ゲインKを組み込んでもよい。同様に、積分ゲインKに代わり積分時間1/Tiを組み込んでもよい。
【0048】
仮の第1操作量μ算出後、操作量算出部707は、算出された仮の第1操作量μに基づいて正規分布を算出(更新)する(S210)。本実施形態に係る正規分布は、仮の第1操作量μを平均μ、学習パラメータから算出される標準偏差σから形成される。この正規分布は、次式により表現できる。
【0049】
【数3】
【0050】
上記(3)式における、Δuは任意の値、πは円周率を示す。expはネイピア数eと同義の数学記号であり、例えばe=2.7程度である。上記(3)式によれば、Δuにある値を代入するとそれに対応した選ばれる確率f(Δu)を求めることができる。Δuと平均μの値が近ければ近いほど選ばれる確率は上昇する。標準偏差σは次式により求められる。
【0051】
【数4】
【0052】
上記(4)式における、σH、σLは、それぞれ標準偏差σが取り得る最大値、最小値を示す。θσは強化学習処理により算出、更新される学習パラメータθの一種であり、正規分布の広がりである標準偏差σに対応するパラメータを示す。つまり、正規分布は、偏差に基づく仮の第1操作量μ及び学習パラメータθσに基づくものであると言える。学習パラメータθσは、本実施形態においては方策を更新するパラメータの一部であり、後述するように強化学習により調整される。当該学習パラメータθσの算出方法は後述する。
【0053】
正規分布の算出後、操作量算出部707は、上記の正規分布を用いて仮の第2操作量Δuを1つ選択する(S211)。上記のとおり、仮の第2操作量Δuは、平均μが選択される確率が最も高い。なお、選択された仮の第2操作量Δuは、ヒータ5の操作量ではなく、操作量の変化量に相当する。したがって、仮の第2操作量Δu選択後、操作量算出部707は、1制御周期前、つまり現制御周期の直前の制御周期における操作量u[t-1]に対して仮の第2操作量Δuを加算することにより、現制御周期の操作量u[t]を算出する(S212)。つまり操作量uは、次式により求められる。
【0054】
【数5】
【0055】
上記(5)式におけるu[t-1]は1制御周期前の操作量を示す。なお、1制御周期前の操作量が算出されていない場合は、仮の第2操作量Δuが現制御周期の操作量u[t]となる。
【0056】
操作量u[t]算出後、出力部708は、操作量u[t]を制御信号として入出力I/Fを介してヒータ5に出力し、操作量u[t]に応じたヒータ5の温度制御を行う(S213)。ヒータ5の温度制御後、学習部706は、強化学習に関するパラメータを更新する(S214)。当該パラメータは、制御パラメータや、方策π等、現制御周期における強化学習処理にて算出したパラメータや、操作量u、仮の第2操作量Δu、仮の第1操作量μ等の学習パラメータの算出に必要なパラメータである。なお、当該操作量uは、次制御周期においては操作量u[t-1]として扱われる。
【0057】
強化学習に関するパラメータ更新後、目標温度算出部703によるフィルタ目標温度算出処理が実行される(S215)。フィルタ目標温度算出処理については後述する。フィルタ目標温度算出処理後、操作量算出部707は、ヒータ制御に関するパラメータを更新する(S216)。当該パラメータは、現制御周期において算出した、PID制御に用いられる偏差εと、強化学習に用いられる偏差εである。これらの偏差の違いについては後述する。ヒータ制御に関するパラメータ更新後、操作量算出処理は終了となる。
【0058】
ステップS207の処理において、(1)式が満たされるとして強化学習を停止すると判定された場合(S207,YES)、学習停止用操作量算出処理が実行される(S217)。学習停止用操作量算出処理については後述する。
【0059】
また、ステップS206の処理において、現制御周期が2ステップ目以降でないと判定された場合(S206,NO)、ステップS215の処理が実行される。ここで2制御周期待つ理由は、上記(2)式に示されるように、速度型のPID制御では微分項が2階微分となっているためである。
【0060】
また、ステップS203において、設定目標温度に変更があったと判定された場合(S203,YES)、目標温度算出部703は、以前の制御周期におけるフィルタ目標温度算出処理により算出されたフィルタ目標温度を全てリセットし(S218)、ステップS204の処理が実行される。フィルタ目標温度のリセットの際、フィルタ目標温度算出に用いた各種計算式もリセットとなる。
【0061】
(強化学習処理)
上述した強化学習処理について説明する。図9は、本実施形態に係る強化学習処理を示すフローチャートである。図9に示されるように、先ず学習部706は、Actor-Critic手法における状態sを算出する(S301)。なお、状態sは現制御周期における偏差、つまり、フィルタ目標温度Tdsvと測定温度Tpvとの偏差に基づく状態番号として管理される。状態番号は、上述した状態価値テーブルにおける各閾値区間を一意に示すものである。したがって、状態sは、例えば偏差が1.5や1.4であれば状態番号2、偏差が2.5であれば状態番号1等として扱われ、状態価値関数Vの決定に関与する。
【0062】
状態sの算出後、学習部706は、報酬rを算出する(S302)。報酬rは次式により求められる。
【0063】
【数6】
【0064】
上記(6)式における、εは現制御周期における偏差、εthは、所定の偏差閾値である。この偏差閾値は、状態価値テーブルにおける偏差閾値の値を用いてもよく、(1)式における偏差閾値の値を用いてもよく、これらとは異なる値としてもよい。上記(6)式によれば、偏差の絶対値が偏差閾値εth以下であれば良い報酬(最大の報酬)、それ以外は悪い報酬(最小の報酬)が与えられることとなる。本実施形態において報酬rは、偏差により決定される。そのため、報酬rは、ヒータ5の制御の結果に対する報酬とも言える。なお、報酬rは、ユーザや制御装置7の設計者が達成したい目標について自由に実装してよい。
【0065】
報酬r算出後、判定部709は、学習開始から1制御周期経過したか否かを判定する(S303)。この判定は、パラメータθの更新で1制御周期前の状態sを要求するために待機することを目的としている。学習開始から1制御周期経過したと判定された場合(S303,YES)、学習パラメータ更新処理が実行される(S304)。学習パラメータ更新処理については後述する。学習パラメータ更新処理実行後、学習部706は、学習パラメータ更新処理により更新(算出)された各種学習パラメータθに基づいて、各種制御パラメータを算出し(S305)、強化学習処理が終了となる。
【0066】
各種制御パラメータの算出方法について説明する。ここで算出される制御パラメータは、上記(2)式における、比例帯P、積分ゲインK、及び微分ゲインKである。それぞれの制御パラメータは、以下の(7)~(9)式により求められる。
【0067】
【数7】
【数8】
【数9】
【0068】
なお、上記(7)~(9)式における、Pbmax、Kimax、Kdmaxは、それぞれの制御パラメータがとれる最大値を示し、換言すれば、各制御パラメータが出すことができる操作量の最大値である。expはネイピア数eと同義の数学記号であり、例えばe=2.7程度である。θPb、θKi、θKdは、各制御パラメータを算出するための学習パラメータθである。
【0069】
具体的には、学習パラメータθPbは比例帯に対応する学習パラメータである。学習パラメータθKiは積分ゲインに対応するパラメータである。学習パラメータθKdは微分ゲインに対応するパラメータである。これら学習パラメータθは、後述する学習パラメータ更新処理により算出される。εは強化学習における偏差を示す。
【0070】
なお、本実施形態においては、PID制御に用いられる偏差εと、強化学習に用いられる偏差εとで値が異なる場合がある。これは、強化学習で学習パラメータθの更新に用いられる偏差εが後述するように制限処理により制限されるためである。
【0071】
一方、学習開始から1制御周期経過していないと判定された場合(S303,NO)、ステップS305の処理が実行される。ここでの各種制御パラメータの算出に用いられる学習パラメータθは、既存のPID制御の手法にて算出するようにしてもよい。
【0072】
(学習パラメータ更新処理)
学習パラメータ更新処理について説明する。図10は、本実施形態に係る学習パラメータ更新処理を示すフローチャートである。
【0073】
図10に示されるように、先ず学習部706は、TD誤差δを算出する(S401)。TD誤差δは、次式により求められる。
【0074】
【数10】
【0075】
上記(10)式において、rは上述した報酬の値を示す。γは割引率を示す。V(s)は設定された状態sに基づいて、図4に示される状態価値テーブルから選択された状態価値関数を示す。tは制御周期における各時間ステップを示す。
【0076】
TD誤差δ算出後、学習部706は、クリティック812側の適格度トレースDの更新を行う(S402)。適格度トレースDは、例えば公知の累積トレースや入れ替え更新トレースなどが利用可能である。
【0077】
適格度トレースDの更新後、学習部706は、状態価値関数Vの更新を行う(S403)。状態価値関数Vの更新は、次式を用いて行われる。
【0078】
【数11】
【0079】
上記(11)式において、右辺のV(s)は1制御周期前の状態価値関数を示す。αはクリティック812における学習率を示す。また、(11)式におけるsは、全ての状態sを示しており、(11)式によれば、1ステップで全状態について更新が行われる。
【0080】
状態価値関数Vの更新後、制限部705は、学習パラメータθの更新に用いられる偏差εの値を、適宜制限する制限処理を行う(S404)。制限処理には、予め記憶装置73等に記憶される所定の最大閾値と所定の最小閾値とが用いられる。最大閾値は例えば2、最小閾値は例えば-2などと設定され、適宜設定変更可能である。制限部705は、偏差εが最大閾値を超える値である場合は、偏差εを最大閾値に変更する。同様に、偏差εが最小閾値未満の値である場合は、偏差εを最小閾値に変更する。これらの変更により、偏差εは最大閾値から最小閾値までの範囲内に制限される。なお、説明上、偏差εが変更されなかった場合であっても、当該偏差εを「制限処理後の偏差」と称する。
【0081】
制限処理後、学習部706は、各種学習パラメータθの算出、更新を行う(S405)。各種学習パラメータθの算出方法について説明する。学習パラメータθは、上述したθPb、θKi、θKd及びθσである。これらを区別しない場合、学習パラメータθと表現する。なお、添え字は、対応する制御パラメータを区別しない場合に用いる。学習パラメータθは、次式により求められる。
【0082】
【数12】
【0083】
上記(12)式において、右辺のθは1制御周期前の学習パラメータを示す。αはアクター811における学習率であり、学習パラメータθをどれだけ大きく動かすかを示す固定の数値である。学習率αは、設定変更可能である。これは、上述したクリティック812における学習率αにおいても同様である。δはTD誤差を示す。Dはアクター811における適格度トレースを示す。適格度トレースDは、次式により求められる。
【0084】
【数13】
【0085】
上記(13)式において、右辺のDは1制御周期前の適格度トレースDを示す。γは割引率を示す。λθはアクター811におけるトレース減衰パラメータを示す。eは、適格度を示す。γλθは、0.9~0.8前後の値をとることが好ましい。したがって適格度トレースDは、制御周期毎にγλθ分だけ値が小さくなる。適格度eは、次式により求められる。
【0086】
【数14】
【0087】
上記(14)式において、πは方策であり正規分布を示す。ここでの方策πは、仮の第1操作量μ(平均μ)と(4)式に示されるような標準偏差σとに基づく上述した正規分布である。例えばこの方策πを数式で表現すると、(3)式における左辺がf(Δu)ではなく、π(Δu,ε,θ)に置き換わった式となる(ただし、θ=θPb、θKi、θKd、θσとする)。なお、このような左辺が置き換えられた式においても、右辺のπは(3)式と同様に円周率である。適格度eの算出方法は各学習パラメータによって異なる。学習パラメータθPb、θKi、θKd、θσのそれぞれの適格度は、次の(15)~(18)式によりそれぞれ求められる。
【0088】
【数15】
【数16】
【数17】
【数18】
【0089】
上記(15)~(18)式において、偏差εは、制限処理後の偏差を示す。Δuは、1制御周期前の仮の第2操作量を示す。μは、1制御周期前の仮の第1操作量を示す。
【0090】
上記(15)~(18)式における(Δu-μ)の項は、時間ステップによってはプラスの値やマイナスの値をとる。このことから、(Δu-μ)の項は、学習パラメータθの更新向き、つまり正負に関する正負補正値を示している。その他、学習パラメータθの正負に関する正負補正値としては、TD誤差δと偏差εがある。
【0091】
上記(15)~(18)式による上記4つの学習パラメータθの算出、更新後、学習パラメータ更新処理は終了となる。これら4つの学習パラメータθが制御周期毎に更新されることで強化学習の学習が進むこととなる。なお、算出された4つの学習パラメータθは、上記のステップS305の処理で制御パラメータの算出に用いられる。
【0092】
なお、適格度eは、(14)式に示されるように偏微分により求めることができる。したがって、(15)~(18)式に限定するものではない。また、これらの式における比例帯を比例ゲインとした場合でも、適格度eは偏微分を行うことで求めることができる。同様に、積分ゲインを積分時間としてもよい。
【0093】
なお、(18)式に含まれる値σHは、省くようにしてもよい。この有無はパラメータの変化の大きさのみに影響し、パラメータの変化の方向(正負)には影響しないためである。省く場合、パラメータの変化の大きさは学習率αの方で調整が可能である。ただし、(17)式に含まれる、「2ε[t-1]」の「2」なる値は、省くことが好ましくない。それは、省かれることでパラメータの変化の方向に影響が及ぶためである。
【0094】
(学習停止用操作量算出処理)
学習停止用操作量算出処理について説明する。図11は、本実施形態に係る学習停止用操作量算出処理を示すフローチャートである。当該算出処理では、強化学習により学習される学習パラメータθを用いることなく、制御パラメータ及び操作量が算出される。
【0095】
図11に示されるように、先ず判定部709は、積分値が初期化済であるか否かを判定する(S501)。積分値は次式により求められる。
【0096】
【数19】
【0097】
ここでのεは、制限処理されていない偏差を示す。積分値が初期化済でないと判定された場合(S501,NO)、判定部709は、記憶されている積分値を初期化する(S502)。初期化後、操作量算出部707は、積分初期値を算出する(S503)。積分初期値は、強化学習中の操作量(1制御周期前の操作量)=(標準PIDの式)とし、これを標準PIDの積分値について解くことにより求められる。積分初期値の算出後、操作量算出部707は、1制御周期前の操作量を現制御周期の操作量として出力部708に渡す(S504)。その後、学習停止用操作量算出処理は終了となる。
【0098】
一方、積分値が初期化済であると判定された場合(S501,YES)、操作量算出部707は、既に算出されている積分初期値を用いて、標準PID制御での操作量の算出を行う(S505)。積分初期値の算出及び積分初期値を用いた操作量の算出がなされることにより、速度型PIDから標準PID(位置型PID)へのバンプレスな切り替えが可能となる。操作量uは、次式により求められる。
【0099】
【数20】
【0100】
上記(20)式において、Kp’、T、Tは、予め記憶されている制御パラメータであり、標準PID制御での比例ゲイン、積分ゲイン、微分ゲインを示す。操作量の算出後、学習停止用操作量算出処理は終了となる。なお、PID制御則は、プロセスの特性に応じて適宜変更するようにしてもよい。
【0101】
(フィルタ目標温度算出処理)
フィルタ目標温度算出処理について説明する前に、フィルタ目標温度について説明する。図12は、本実施形態に係るフィルタ目標温度を説明するための図である。図13は、フィルタ目標温度の効果を説明するための図である。図12及び図13におけるTsvは設定目標温度、Tpvは測定温度、Tdsvはフィルタ目標温度、tは時間、Tは温度を示す。
【0102】
フィルタ目標温度Tdsvは、設定目標温度Tsvが偏差の変動に適した値となるように補正される。当該補正によりフィルタ目標温度Tdsvは、図12に示されるように、直線や曲線で表現されるように算出される。具体的には、フィルタ目標温度は、温度と経過時間との関係が、第1の直線状を示すように温度が上昇する第1直線状態91、曲線状を示すように温度が上昇する曲線状態92、第1直線状態91よりも昇温の程度が小さい第2の直線状を示すように温度が上昇する第2直線状態93の形式をとって変動する。フィルタ目標温度Tdsvを用いて操作量uを算出することにより、図13に示されるように、測定温度Tpvとフィルタ目標温度Tdsvとの偏差を設定目標温度Tsvと比較して小さくした状態でフィードバック制御を継続させることができる。当該偏差は、例えば10や20程度となる。したがって、制御開始時と制御終了時の偏差の値にそれほど大きな差は発生しない。
【0103】
一方、フィルタ目標温度Tdsvを用いない場合、制御当初は偏差が例えば160~180前後等、極めて大きな偏差となる。このような大きな偏差は、ヒータ5のオーバーシュートにも繋がる可能性がある。これはヒータ5の温度が制御当初は常温であり、設定目標温度が180~200℃等の高温で設定されるためである。
【0104】
このような特有の効果を有するフィルタ目標温度Tdsvの算出方法について説明する。図14は、本実施形態に係るフィルタ目標温度算出処理を示すフローチャートである。
【0105】
図14に示されるように、先ず判定部709は、現制御周期のフィルタ目標温度Tdsvが第1直線状態91にあるか否かを判定する(S601)。この判定は、測定温度Tpvが第1温度閾値未満か否かにより判定される。第1温度閾値は、設定目標温度Tsvから所定の第1判定温度減算した値である。第1判定温度は、例えば15℃~40℃等が挙げられる。設定目標温度Tsvが200℃、第1判定温度が30℃とすると、第1温度閾値は170℃となる。測定温度Tpvが170℃未満であれば、フィルタ目標温度Tdsvが第1直線状態91と判定される。第1判定温度は、射出成形機1、特にヒータ5の性能等に応じて適宜変更することが好ましい。
【0106】
フィルタ目標温度Tdsvが第1直線状態91にあると判定された場合(S601,YES)、目標温度算出部703は、傾きSa(補正傾き値)を算出する(S602)。傾きSaの算出には、記憶装置73に予め記憶された実測データが用いられる。実測データは、ヒータ5を常温から昇温させ、操作量が所定%(例えば70~100%)時のヒータ5の温度と、その時刻データとを含む。実測データは、適度なゲインでPID制御させた際の目標温度も含む。なお、実測データは、本射出成形機1または同種の射出成形機を用いて取得することが好ましい。また、操作量が所定%と説明したが、この割合は射出成形機1、特にヒータ5の性能等に応じて適宜設定すればよい。
【0107】
目標温度算出部703は、実測データに基づいて、先ず最小二乗法でy=ax+bの傾きaの値を求める。この傾きaの値は、単位時間当たりの温度の上昇の程度を示す数値である。目標温度算出部703は、全ヒータ5に対して傾きaの値を求める処理を行い、最も傾きaの値が小さいものを採用する。なお、最も傾きaの値が小さいものが好ましいが、傾きaの平均値等、傾きaに基づく値であってもよい。採用後、目標温度算出部703は、傾きaに基づいて、傾きSaを算出する。傾きSaは、フィルタ目標温度Tdsvが上昇するように現制御周期におけるフィルタ目標温度Tdsvを補正する際に用いられる。傾きSaは、採用した傾きaに対して補正をする項もしくは係数を有する式を用いて算出することができる。その補正は傾きaを単に定数倍する係数、または、設定目標温度Tsvと傾きaを求める際に設定した目標温度との差に基づく関数により求まる係数、またはそのどちらも有する形式で構成される。その関数とは、例えば設定目標温度Tsvと傾きaを求める際に設定した目標温度との差に比例する関数、二乗に比例する関数などが挙げられる。一例としては、次式が挙げられる。
【0108】
【数21】
【0109】
上記(21)式において、Isvは傾きaを求める際に利用した目標温度(実測データに含まれる目標温度)を示す。Xaは、傾きaを緩和するための係数を示す。例えばXaは、0.1~1.0等の値が代入される。Yaは、100℃あたり所定%傾きaを緩和するための係数を示す。例えばYaは、100℃あたり15%傾きaを緩和するために0.15/100が代入される。なお、傾きaを緩和する割合は15%に限定するものではなく、射出成形機1、特にヒータ5の性能等に応じて、例えば5%~50%等、適宜設定すればよい。また、(21)式の各係数が変わらない限り、一度計算したSaは、再利用可能である。
【0110】
傾きSa算出後、目標温度算出部703は、傾きSaに従い、フィルタ目標温度Tdsvが上昇するようにフィルタ目標温度Tdsvを補正する(S603)。なお、フィルタ目標温度Tdsvが算出されていない場合は、目標温度算出部703は初期値として制御開始時のヒータ5の測定温度Tpvを上昇させ、上昇させた測定温度Tpvをフィルタ目標温度Tdsvとする。上昇後、フィルタ目標温度算出処理は終了となる。
【0111】
一方、フィルタ目標温度Tdsvが第1直線状態91にないと判定された場合(S601,NO)、判定部709は、現制御周期のフィルタ目標温度Tdsvが曲線状態92にあるか否かを判定する(S604)。この判定は、測定温度Tpvが第1温度閾値以上、第2温度閾値未満か否かにより判定される。第2温度閾値は、設定目標温度Tsvから所定の第2判定温度減算した値である。第2判定温度としては例えば0~0.9℃等が挙げられる。設定目標温度Tsvが200℃、第2判定温度が0.5℃とすると、第2温度閾値は199.5℃となる。測定温度Tpvが第1温度閾値以上、199.5℃未満であれば、フィルタ目標温度Tdsvが曲線状態92と判定される。第2判定温度は、0.5℃に限定するものではなく、ヒータ5の性能等に応じて適宜変更することが好ましい。
【0112】
フィルタ目標温度Tdsvが曲線状態92にあると判定された場合(S604,YES)、目標温度算出部703は、一次遅れ[K/(Ts+1)]に従い、フィルタ目標温度Tdsvが上昇するようにフィルタ目標温度Tdsvを補正する(S605)。つまり、本実施形態においては、曲線状態92とはフィルタ目標温度Tdsvが一次遅れ系の出力となるように上昇する。上昇後、フィルタ目標温度算出処理は終了となる。一次遅れの式におけるKはゲイン、Tは時定数を示す。ゲインKは、設定目標温度Tsvとして求めることができる。時定数Tは、第1判定温度/傾きSaとして求めることができる。なお、この一次遅れの入力はステップ入力(常時1)となる。また、上記のとおり、一次遅れは、ステップ応答が使用されているが、ステップ入力に限ったものではなく、ヒータ5の性能等に応じて、その入力は適宜変更してもよい。また、一次遅れに限らず、二次遅れとしてもよい。
【0113】
一方、フィルタ目標温度Tdsvが曲線状態92にないと判定された場合、即ち、フィルタ目標温度Tdsvが第2直線状態93にあると判定された場合(S604,NO)、目標温度算出部703は、昇温条件(温度変化条件)に従い上昇するようフィルタ目標温度Tdsvを補正する(S606)。昇温条件は、所定秒数で所定温度上昇させる、つまり単位時間当たりの上昇温度が規定されたものである。例えば、70~100秒で0~0.9℃上昇させるといった条件が定義される。昇温条件は、これらの値に限定するものではなく、射出成形機1、特にヒータ5の性能等に応じて適宜変更することが好ましい。フィルタ目標温度Tdsvの補正後、フィルタ目標温度算出処理は終了となる。
【0114】
(比較例と本実施形態との対比)
図15は、比較例に係る強化学習を用いた1回目のフィードバック制御の結果として得られる、パラメータθの大きさと経過時間との関係及び測定温度と経過時間との関係を説明するための図である。図16は、比較例に係る強化学習を用いた10回目のフィードバック制御の結果として得られる、パラメータθの大きさと経過時間との関係及び測定温度と経過時間との関係を説明するための図である。図17は、比較例に係る強化学習を用いたn回目のフィードバック制御の結果として得られる、パラメータθの大きさと経過時間との関係及び測定温度と経過時間との関係を説明するための図である。図18は、本実施形態に係る1回目の学習フィードバック制御処理の結果として得られる、学習パラメータθの大きさと経過時間との関係及び測定温度と経過時間との関係を説明するための図である。図19は、本実施形態に係る10回目の学習フィードバック制御処理の結果として得られる、学習パラメータθの大きさと経過時間との関係及び測定温度と経過時間との関係を説明するための図である。図20は、本実施形態に係るn回目の学習フィードバック制御処理の結果として得られる、学習パラメータθの大きさと経過時間との関係及び測定温度と経過時間との関係を説明するための図である。
【0115】
なお、図15図17においては、図中上側のグラフに、あるゲインを算出するための、あるパラメータθの時間経過における値の変化が示される。同様に、図18図20においては、図中上側のグラフに、ある制御パラメータを算出するための、ある学習パラメータθの時間経過における値の変化が示される。これらのグラフにおいては、横軸に時間、縦軸に当該パラメータθの大きさが示される。また、図15図20においては、図中下側のグラフに、測定温度Tpvの時間経過における変化が示される。当該グラフにおいては、横軸に時間、縦軸に温度が示される。
【0116】
比較例に係る強化学習を用いたフィードバック制御では、公知の強化学習により各種ゲイン算出のためのパラメータθが算出され、当該パラメータθに基づいて各種ゲインが算出される。算出されたゲインに基づいて、公知のPID+フィードフォワード制御により、ヒータ5が制御される。
【0117】
本実施形態に係る学習フィードバック制御処理とは異なる制御を行う場合、図15図17に示されるように、パラメータθが正の値のみをとり、結果一方的に増大している。これは、学習回数が増加するに従い顕著である。当該パラメータθの増大により、n回目の学習では測定温度Tpvが大きく設定目標温度Tsvを超えるオーバーシュートが発生している。
【0118】
一方、図18図20に示されるように、本実施形態に係る学習フィードバック制御処理を行う場合、1回目や10回目では学習パラメータθの値は正の値のみでなく適宜負の値もとる。したがって学習パラメータθが過度に増大することがない。学習パラメータθは、n回目では安定した値となる。その結果、1回目、10回目、n回目いずれにおいて、測定温度Tpvは目標温度Tsv近傍に良好に収まり、オーバーシュートも生じていない。また、測定温度Tpvが目標温度Tsvに到達する時間および定常状態となる時間も、比較例よりも早いことがわかる。このようなパラメータθや測定温度Tpvの時間変化は、上述したログとして記憶装置73に記憶される。当該ログは、表示部701により、ユーザI/F74としてのディスプレイに表示することができる。ログがディスプレイに表示されることにより、ユーザは容易に学習結果を把握することができる。
【0119】
以上に説明した本実施形態によれば、オーバーシュートの発生を低減でき、従来よりも優れたフィードバック制御が可能となる。特に、操作量uの算出および学習パラメータθの更新に正規分布を用いることが高い効果を奏している。具体的には、操作量uの算出に正規分布に基づく仮の第2操作量Δuが用いられる。また、強化学習における学習パラメータθの算出にΔu-μの項、つまり正規分布の効果を示す項が用いられる。これらにより、学習パラメータθが正の方向や、負の方向に適宜動くこととなる。
【0120】
オーバーシュートは、図15図17に示されるように、ゲイン算出のためのパラメータθが正の方向にのみ動く強化学習が継続されることで高い確率で生じる。一方、上述した特徴によれば、学習パラメータθが正の方向、負の方向に適宜動くことにより、オーバーシュートの発生を低減することが可能となる。オーバーシュートの発生を低減することができるため、延いては射出成形機1が樹脂材料を溶融・混錬可能な状態に達するまでの時間を短縮することができる。
【0121】
また、本実施形態によれば、強化学習において学習パラメータθの更新に用いられる偏差の大きさに制限をかけることができる。当該制限により、制御開始時と目標温度付近とにおいて、それぞれ学習パラメータθの更新時の値に極端な差が発生することを防止できる。したがってオーバーシュート発生の更なる低減効果を奏することができる。この効果は、偏差閾値以下であれば、最大の報酬、それ以外は最小の報酬を与えるように報酬rが算出される特徴により、一層強力なものとなる。
【0122】
また、本実施形態によれば、設定目標温度Tsvに基づくフィルタ目標温度Tdsvを用いて操作量uの算出、学習パラメータθの更新が行われる。これにより、制御開始時に100を優に超えるような偏差が算出されることを防止できると共に、設定目標温度前で偏差の符号が変わることを生じさせることができる。したがって、学習パラメータθの過度な増大が避けられ、オーバーシュート発生の低減効果を奏することができる。
【0123】
さらに、本実施形態によれば、学習フィードバック制御処理後または処理中に、表示部701により図18図20に示されるパラメータθや測定温度と経過時間との関係をディスプレイにログとして表示することができる。当該ログを閲覧することにより、ユーザは例えばオーバーシュートが発生していないことなどを容易に視認することができる。
【0124】
なお、本実施形態においては、フィードバック制御の対象は、シリンダ2に設けられたヒータ5であると説明した。しかしながら、例えばシリンダ2の先端に被温調部としてのノズル部を設け、ノズル部周囲に設けられた温調装置としてのノズルヒータを制御対象としてもよい。測定温度を取得できるのであれば、いかなるヒータであっても制御対象とすることができる。
【0125】
また、被温調部としては、シリンダ2やノズル以外にも、金型、タイバー等が挙げられる。金型には、射出成形機1で温度制御するタイプと、射出成形機1外部で温度制御するタイプとがある。本実施形態に係る学習フィードバック制御処理は、それらの金型についても対応可能である。射出成形機1で温度制御するタイプは、例えばホットランナ金型が挙げられる。例えば、学習フィードバック制御処理により、シリンダ2のノズル部と同じ温度となるようにホットランナ金型に取り付けられたヒータを同じく取り付けられたセンサの測定結果に基づいて制御する。この場合、目標温度がノズル部の温度となる。
【0126】
一方、射出成形機1外部で温度制御するタイプとしては、金型全体が油等の流体により加熱されるものがある。この場合、制御装置7の入出力I/F75が外部の温調器と通信可能に接続され、学習フィードバック制御処理により温調器を制御することで金型の温度制御を行う。当該温調器は、流体の加熱、金型に対する給排、金型の温度測定の機能を含む。制御装置7は、学習フィードバック制御処理により算出される操作量を温調器に入力し、温調器からの測定温度を取得する。
【0127】
また、被温調部がタイバーである場合、タイバーを介して金型の温度制御を行うことができる。図21は、本実施形態の応用例に係るタイバー及び金型を示す概略縦断面図である。図21に示されるように、タイバー21は樹脂材料の搬送方向に延在する長尺の部材であり、高い熱伝導性を有する金属から主に構成される。ここでのタイバー21は、4つ設けられており、2つの金型24のうちの一方が取り付けられた固定盤22における搬送方向に直交する面の四隅に一端部がそれぞれ連結される。また、4つのタイバー21は、2つの金型24のうちの他方が取り付けられた可動盤23における搬送方向に直交する面の四隅にそれぞれ挿通している。可動盤23は、タイバー21に沿って摺動可能に構成されている。可動盤23が固定盤22に接近し互いの金型24が当接した状態において型締めがなされ、金型24内に樹脂等が充填されることで成形品が得られる。可動盤23は、例えばトグル式、直圧式、ダイレクトロック式等の方式で可動される。
【0128】
4つのタイバー21のそれぞれには、ヒータ5及び温度センサ6が対をなして設けられており、タイバー21、固定盤22、及び可動盤23を介して金型24を加熱することができる。したがって、このようなタイバー21であっても、ヒータ5及び温度センサ6が設けられているため、本実施形態に係る学習フィードバック制御処理が可能である。
【0129】
また、本実施形態においては、ヒータ等の加熱装置を対象とした学習フィードバック制御処理を説明した。しかしながら、学習フィードバック制御処理は、冷却装置を対象としてもよい。冷却装置としては、例えばヒータ5により加熱されたシリンダ2からの伝熱により加熱された状態にあるホッパ3の下部を冷却するものが挙げられる。このような冷却装置は、主に水等の流体を用いてホッパ3の下部を冷却する。冷却装置に対する操作量は、流体の流量を調節する電磁弁等の弁体の開度に相当する。
【0130】
この場合、学習フィードバック制御処理は、図22に示されるように、アンダーシュートが生じないようにホッパ3の下部を冷却し、測定温度Tpvが設定目標温度Tsvに達してこれが維持されるような処理となる。つまり、当該処理は、測定温度Tpvが低下することを目指すものであるため、ヒータ5を対象とした学習フィードバック制御処理の真逆の処理と言える。なお、冷却装置は、ホッパ3の下部を冷却するものに限定するものではなく、例えば金型を冷却する冷却装置等、要部を冷却可能なものであればどのようなものであってもよい。
【0131】
また、この場合、目標値フィルタについては、下記の通り算出してもよい。第1直線状態、つまりステップS604に対応する処理においては、補正後の傾きSaが負の方向(マイナス値)に変換される。なお、この負の方向変換する方法以外に、制御対象を目標温度よりも高い温度(常温でなくてもよい)からPID制御で降温制御を行い、操作量が所定%(例えば70~100%)時の制御対象の温度と、その時刻データから最小二乗法を用いて傾きa(負の値)を算出し、該傾きaから傾きSaを算出しても良い。傾きaから傾きSaを算出する方法は、上述した方法を流用可能である。負の方向への変換は第2直線状態、つまりステップS606に対応する処理においても同様であり、傾きが負の方向に変換される。具体的には、降温条件(温度変化条件)として、所定秒数で所定温度降温させることが定義される。また、曲線状態、つまりステップS605に対応する処理おいては、一次遅れのゲインは昇温する場合と同様でよいものの、時定数が第1判定温度/傾きSa(絶対値)となる。
【0132】
また、学習部706による強化学習処理により制御パラメータが算出されると説明したが、制御パラメータの算出は操作量算出部707が行うようにしても良い。つまり強化学習に制御パラメータの算出を組み込まなくてもよい。
【0133】
また、本実施形態においては、表示部701が、本実施形態に係るフィードバック制御処理の選択ボタンと、標準PID制御処理の選択ボタンとを選択画面としてディスプレイに表示する。仮に標準PID制御処理の選択ボタンが選択された場合、ステップS505の処理である、標準PID制御での操作量算出が行われるようにしてもよい。この場合、ユーザは、例えば比例帯または比例ゲインの値、積分ゲインの値、微分ゲインの値、目標温度を入力可能である。各種ゲインの値が入力された場合は、標準PID制御にて入力されたゲインに基づき操作量が算出される。
【0134】
<第2の実施形態>
本実施形態では、第1の実施形態とは異なり、学習フィードバック制御に組み込まれたPID制御が、速度型ではなく、位置型である制御装置及びその処理動作を説明する。
【0135】
図23は、本実施形態に係る制御装置の機能構成を示すブロック図である。本実施形態に係る制御装置7Aは、学習部706に代わり学習部706Aを有し、操作量算出部707に代わり操作量算出部707Aを有する点で第1の実施形態に係る制御装置7と異なる。学習部706Aは、位置型のPID制御に関する方策πや学習パラメータθ、制御パラメータを算出、更新する強化学習を行う点が、第1の実施形態に係る学習部706と異なる。操作量算出部707Aは、位置型のPID制御に関する操作量を算出する操作量算出処理を行う点が、第1の実施形態に係る操作量算出部707と異なる。
【0136】
図24は、本実施形態に係る操作量算出処理を示すフローチャートである。操作量算出部707Aは、ステップS209において、強化学習処理により算出された各種制御パラメータと偏差εとに基づいて、現制御周期における仮の第1操作量μを算出する点は操作量算出部707と同様である。しかしながら、操作量算出部707Aは、仮の第1操作量μを、次式により求める。
【0137】
【数22】
【0138】
上記(22)式における各制御パラメータは、本実施形態に係る学習部706Aにより実行される強化学習においても、上記(4)式及び(7)~(9)式により求めることができる。
【0139】
また、速度型のPID制御では、仮の第1操作量μ等に基づく正規分布から、仮の第2の操作量Δuが選択されるが、位置型のPID制御では、当該Δuが操作量uとなる。つまり、正規分布から選択された値が操作量uとなる。
【0140】
このことから、本実施形態に係る操作量算出処理では、ステップS212に代わり、ステップS212Aが組み込まれている点で第1の実施形態に係る操作量算出処理と異なる。ステップS212Aでは、操作量算出部707Aは、仮の第2操作量Δu選択後、選択した仮の第2操作量Δuを、現制御周期の操作量u[t]と決定する。
【0141】
また、本実施形態に係る学習部706Aにより実行される強化学習では、方策πは次式と定義される。
【0142】
【数23】
【0143】
上記(23)式において、右辺のπは円周率を示す。学習パラメータθ、適格度トレースD、適格度e等のパラメータ規則は、上記(12)~(14)式により求められる。
【0144】
学習部706Aは、学習パラメータθPb、θKi、θKd、θσのそれぞれの適格度を、次の(24)~(27)式によりそれぞれ求める。
【0145】
【数24】
【数25】
【数26】
【数27】
【0146】
なお、上記(24)~(26)式に含まれる100/PbmaxやKimax、Δt等の勾配の向き(パラメータの正負の変化の方向)に関係の無い要素は、省くようにしてもよい。これは上記(15)~(17)式においても同様である。
【0147】
以上に説明した本実施形態によれば、位置型のPID制御であっても学習フィードバック制御処理に組み込むことができる。
【0148】
なお、第1及び第2の実施形態として説明した学習フィードバック制御処理は、PID制御を組み込んだものである。しかしながら、PID制御に代わりP制御やPI制御、PD制御が組み込まれてもよい。これらの場合、各制御において使用しないゲイン(例えばPI制御を行う場合は微分ゲイン)については、当然ながら強化学習は行われない。また、位置型のPID制御を、その派生形である比例微分先行型PID制御や微分先行型PIDとして学習フィードバック制御処理に組み込むこともできる。これらの場合、通常操作量の算出に偏差が利用されるが、先行している比例・微分項に関しては測定温度が利用される点が異なる以外、第2の実施形態に係る学習フィードバック制御処理と同様の処理となる。
【0149】
また、学習フィードバック制御処理は、P,PI,PD,及びPID制御のいずれかに対して、フィードフォワード制御が加えられた処理であってもよい。学習フィードバック制御処理にフィードフォワード制御を組み込む場合、調整される制御パラメータとしては、フィードフォワード項が挙げられる。つまり、(2)式や(22)式に対してフィードフォワード項uffが加えられることで仮の第1操作量が算出される。フィードフォワード項uffは、強化学習により算出、更新される学習パラメータθuffを用いて算出することができる。学習パラメータθuffを算出・更新するための適格度euffは、(14)式に示されるように偏微分により求めることができる。
【0150】
上述した各実施形態において、制御装置7の各種機能を実現する制御プログラムは、制御装置7に予めインストールされているものとして説明した。しかしながら、制御プログラムをインストール可能な形式又は実行可能な形式のファイル等でコンピュータにより読み取り可能な記録媒体に記録して提供するように構成してもよい。ここで記憶媒体とは、磁気テープ、磁気ディスク(ハードディスクドライブ等)、光ディスク(CD-ROM、DVDディスク等)、光磁気ディスク(MO等)、フラッシュメモリ等、制御装置7に対し脱着可能な媒体や、さらにネットワークを介することで伝送可能な媒体等、上述した制御装置7としてのコンピュータで読み取りや実行が可能な全ての媒体を含む。なお、ネットワークを介することで伝送可能な媒体としては、例えばインターネット等のネットワークに接続された外部サーバ等のコンピュータ上に格納されたものが挙げられ、これがネットワーク経由で提供される。なお、制御装置7の少なくとも一部の機能(例えば学習部706等)を射出成形機1の外部のサーバ等により構築するようにし、ネットワークを介した通信によりサーバからデータ(学習部706であれば操作量u等)が射出成形機1に提供されるようにしてもよい。
【0151】
発明の複数の実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これらの新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これらの実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。
【符号の説明】
【0152】
1 射出成形機
2 シリンダ(被温調部)
5 ヒータ(温調装置)
6 温度センサ
7 制御装置
73 記憶装置(記憶部)
701 表示部(提示部)
703 目標温度算出部
704 偏差算出部
705 制限部
706,706A 学習部
707,707A 操作量算出部
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11
図12
図13
図14
図15
図16
図17
図18
図19
図20
図21
図22
図23
図24