(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2022144124
(43)【公開日】2022-10-03
(54)【発明の名称】強化学習方法、コンピュータプログラム、強化学習装置及び成形機
(51)【国際特許分類】
B29C 45/76 20060101AFI20220926BHJP
B22D 17/32 20060101ALI20220926BHJP
【FI】
B29C45/76
B22D17/32 Z
【審査請求】未請求
【請求項の数】10
【出願形態】OL
(21)【出願番号】P 2021044999
(22)【出願日】2021-03-18
(71)【出願人】
【識別番号】000004215
【氏名又は名称】株式会社日本製鋼所
(74)【代理人】
【識別番号】100114557
【弁理士】
【氏名又は名称】河野 英仁
(74)【代理人】
【識別番号】100078868
【弁理士】
【氏名又は名称】河野 登夫
(72)【発明者】
【氏名】平野 峻之
【テーマコード(参考)】
4F206
【Fターム(参考)】
4F206AP02
4F206AP05
4F206AP06
4F206AP10
4F206JA07
4F206JL02
4F206JP11
4F206JP13
4F206JP17
4F206JP18
4F206JP30
4F206JQ88
4F206JT40
(57)【要約】
【課題】製造装置の製造条件を調整する学習器の強化学習において、探索範囲を一定範囲に制限することなく、しかも安全に最適な製造条件を探索して学習器を強化学習させることができる強化学習方法を提供する。
【解決手段】製造装置の状態を観測して得られる観測データに基づいて製造装置の製造条件を調整する第1エージェントと、第1エージェントと異なる方式で観測データ及び製造条件の関係を表した関数モデル又は関数近似器を有する第2エージェントとを備える学習器の強化学習方法であって、強化学習中の第1エージェントが探索する製造条件を、観測データ及び第2エージェントの関数モデル又は関数近似器を用いて調整し、調整された製造条件により製造装置が製造した製品の状態に応じた報酬データを算出し、観測データと、算出された報酬データとに基づいて、第1エージェント及び第2エージェントを強化学習させる。
【選択図】
図3
【特許請求の範囲】
【請求項1】
製造装置の状態を観測して得られる観測データに基づいて該製造装置の製造条件を調整する第1エージェントと、該第1エージェントと異なる方式で前記観測データ及び前記製造条件の関係を表した関数モデル又は関数近似器を有する第2エージェントとを備える学習器の強化学習方法であって、
強化学習中の前記第1エージェントが探索する前記製造条件を、前記観測データ及び前記第2エージェントの前記関数モデル又は関数近似器を用いて調整し、
調整された前記製造条件により前記製造装置が製造した製品の状態に応じた報酬データを算出し、
前記観測データと、算出された前記報酬データとに基づいて、前記第1エージェント及び前記第2エージェントを強化学習させる
強化学習方法。
【請求項2】
前記観測データ及び前記第2エージェントの前記関数モデル又は関数近似器を用いて、前記製造条件の探索範囲を算出し、
強化学習中の前記第1エージェントが探索する前記製造条件が、算出された前記探索範囲の範囲外である場合、探索する前記製造条件を前記探索範囲内の前記製造条件に変更する
請求項1に記載の強化学習方法。
【請求項3】
前記観測データ及び前記第2エージェントの前記関数モデル又は関数近似器を用いて、前記製造条件の前記探索範囲を算出するための閾値を取得し、
取得した閾値、前記観測データ及び前記第2エージェントの前記関数モデル又は関数近似器を用いて、前記製造条件の前記探索範囲を算出する
請求項2に記載の強化学習方法。
【請求項4】
強化学習中の前記第1エージェントが探索する前記製造条件が、所定探索範囲の範囲外である場合、探索する前記製造条件を前記所定探索範囲及び算出された前記探索範囲内の前記製造条件に変更する
請求項2又は請求項3に記載の強化学習方法。
【請求項5】
前記第1エージェントが探索する前記製造条件が前記第2エージェントにより調整された場合、前記第1エージェントの探索範囲からの外れ度合いに応じて、マイナス報酬を加算して前記報酬データを算出する
請求項1~請求項4のいずれか1項に記載の強化学習方法。
【請求項6】
前記製造装置は成形機である
請求項1~請求項5のいずれか1項に記載の強化学習方法。
【請求項7】
前記製造装置は射出成形機であり、
前記製造条件は、金型内樹脂温度、ノズル温度、シリンダ温度、ホッパ温度、型締力、射出速度、射出加速度、射出ピーク圧力、射出ストローク、シリンダ先端樹脂圧、逆防リング着座状態、保圧切替圧力、保圧切替速度、保圧切替位置、保圧完了位置、クッション位置、計量背圧、計量トルク、計量完了位置、スクリュ後退速度、サイクル時間、型閉時間、射出時間、保圧時間、計量時間又は型開時間を含み、
前記報酬データは、前記射出成形機の観測データ又は、前記射出成形機によって製造された成形品の不良度に基づいて算出されるデータである
請求項6に記載の強化学習方法。
【請求項8】
製造装置の状態を観測して得られる観測データに基づいて該製造装置の製造条件を調整する第1エージェントと、該第1エージェントと異なる方式で前記観測データ及び前記製造条件の関係を表した関数モデル又は関数近似器を有する第2エージェントとを備える学習器を、コンピュータに強化学習させるためのコンピュータプログラムであって、
前記コンピュータに、
強化学習中の前記第1エージェントが探索する前記製造条件を、前記観測データ及び前記第2エージェントの前記関数モデル又は関数近似器を用いて調整し、
調整された前記製造条件により前記製造装置が製造した製品の状態に応じた報酬データを算出し、
前記観測データと、算出された前記報酬データとに基づいて、前記第1エージェント及び前記第2エージェントを強化学習させる
処理を実行させるためのコンピュータプログラム。
【請求項9】
製造装置の状態を観測して得られる観測データに基づいて該製造装置の製造条件を調整する学習器を強化学習させる強化学習装置であって、
前記学習器は、
前記観測データに基づいて前記製造装置の前記製造条件を調整する第1エージェントと、
該第1エージェントと異なる方式で前記観測データ及び前記製造条件の関係を用いて表した関数モデル又は関数近似器を有する第2エージェントと
強化学習中の前記第1エージェントが探索する前記製造条件を、前記観測データ及び前記第2エージェントの前記関数モデル又は関数近似器を用いて調整する調整部と
を備え、
更に、調整された前記製造条件により前記製造装置が製造した製品の状態に応じた報酬データを算出する報酬算出部を備え、
前記学習器は、
前記観測データと、前記報酬算出部にて算出された前記報酬データとに基づいて、前記第1エージェント及び前記第2エージェントを強化学習させる
強化学習装置。
【請求項10】
請求項9に記載の強化学習装置と、
前記第1エージェントによって調整された前記製造条件を用いて動作する製造装置と
を備える成形機。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、強化学習方法、コンピュータプログラム、強化学習装置及び成形機に関する。
【背景技術】
【0002】
強化学習により、射出成形機の成形条件を適切に調整することができる射出成形機システムがある(例えば、特許文献1)。
【先行技術文献】
【特許文献】
【0003】
【発明の概要】
【発明が解決しようとする課題】
【0004】
しかしながら、強化学習における成形条件の探索によって、行動として不適な成形条件が設定され、射出成形機の異常動作が機器及びオペレータに不測の不利益を与えるおそれがある。かかる問題は、製造装置一般が有する問題である。
【0005】
本開示の目的は、製造装置の製造条件を調整する学習器の強化学習において、探索範囲を一定範囲に制限することなく、しかも安全に最適な製造条件を探索して学習器を強化学習させることができる強化学習方法、コンピュータプログラム、強化学習装置及び成形機を提供することにある。
【課題を解決するための手段】
【0006】
本態様に係る強化学習方法は、製造装置の状態を観測して得られる観測データに基づいて該製造装置の製造条件を調整する第1エージェントと、該第1エージェントと異なる方式で前記観測データ及び前記製造条件の関係を表した関数モデル又は関数近似器を有する第2エージェントとを備える学習器の強化学習方法であって、強化学習中の前記第1エージェントが出力する前記製造条件を、前記観測データ及び前記第2エージェントの前記関数モデル又は関数近似器を用いて調整し、調整された前記製造条件により前記製造装置が製造した製品の状態に応じた報酬データを算出し、前記観測データと、算出された前記報酬データとに基づいて、前記第1エージェント及び前記第2エージェントを強化学習させる。
【0007】
本態様に係るコンピュータプログラムは、製造装置の状態を観測して得られる観測データに基づいて該製造装置の製造条件を調整する第1エージェントと、該第1エージェントと異なる方式で前記観測データ及び前記製造条件の関係を表した関数モデル又は関数近似器を有する第2エージェントとを備える学習器を、コンピュータに強化学習させるためのコンピュータプログラムであって、前記コンピュータに、強化学習中の前記第1エージェントが出力する前記製造条件を、前記観測データ及び前記第2エージェントの前記関数モデル又は関数近似器を用いて調整し、調整された前記製造条件により前記製造装置が製造した製品の状態に応じた報酬データを算出し、前記観測データと、算出された前記報酬データとに基づいて、前記第1エージェント及び前記第2エージェントを強化学習させる処理を実行させる。
【0008】
本態様に係る強化学習装置は、製造装置の状態を観測して得られる観測データに基づいて該製造装置の製造条件を調整する学習器を強化学習させる強化学習装置であって、前記学習器は、前記観測データに基づいて前記製造装置の前記製造条件を調整する第1エージェントと、該第1エージェントと異なる方式で前記観測データ及び前記製造条件の関係を表した関数モデル又は関数近似器を有する第2エージェントと強化学習中の前記第1エージェントが探索する前記製造条件を、前記観測データ及び前記第2エージェントの前記関数モデル又は関数近似器を用いて調整する調整部とを備え、更に、調整された前記製造条件により前記製造装置が製造した製品の状態に応じた報酬データを算出する報酬算出部を備え、前記学習器は、前記観測データと、前記報酬算出部にて算出された前記報酬データとに基づいて、前記第1エージェント及び前記第2エージェントを強化学習させる。
【0009】
本態様に係る成形機は、上記強化学習装置と、前記第1エージェントによって調整された前記製造条件を用いて動作する製造装置とを備える。
【発明の効果】
【0010】
本発明によれば、製造装置の製造条件を調整する学習器の強化学習において、探索範囲を一定範囲に制限することなく、しかも安全に最適な製造条件を探索して学習器を強化学習させることができる。
【図面の簡単な説明】
【0011】
【
図1】実施形態1に係る成形機システムの構成例を説明する模式図である。
【
図2】実施形態1に係る成形機システムの構成例を示すブロック図である。
【
図3】実施形態1に係る成形機システムの機能ブロック図である。
【
図4】関数モデル及び探索範囲を示す概念図である。
【
図5】プロセッサの処理手順を示すフローチャートである。
【
図6】実施形態2に係る探索範囲の調整処理手順を示すフローチャートである。
【発明を実施するための形態】
【0012】
本発明の実施形態に係る強化学習方法、コンピュータプログラム、強化学習装置及び製造装置の具体例を、以下に図面を参照しつつ説明する。以下に記載する実施形態の少なくとも一部を任意に組み合わせてもよい。なお、本発明はこれらの例示に限定されるものではなく、特許請求の範囲によって示され、特許請求の範囲と均等の意味及び範囲内でのすべての変更が含まれることが意図される。
【0013】
図1は実施形態1に係る成形機システムの構成例を説明する模式図、
図2は実施形態1に係る成形機システムの構成例を示すブロック図、
図3は実施形態1に係る成形機システムの機能ブロック図である。本実施形態1に係る成形機システムは、製造条件調整装置1を有する成形機(製造装置)2と、測定部3とを備える。
【0014】
成形機2は、例えば射出成形機、中空成形機、フィルム成形機、押出機、二軸スクリュ押出機、紡糸押出機、造粒機、マグネシウム射出成形機等である。以下、本実施形態1では成形機2が射出成形機であるものとして説明する。成形機2は、射出装置21と、当該射出装置21の前方に配置される型締装置22と、成形機2の動作を制御する制御装置23とを備える。
【0015】
射出装置21は、加熱シリンダと、当該加熱シリンダ内で回転方向と軸方向とに駆動可能に設けられているスクリュと、当該スクリュを回転方向に駆動する回転モータと、スクリュを軸方向に駆動するモータ等から構成されている。
【0016】
型締装置22は、金型を開閉させ、射出装置21から射出された溶融樹脂が金型に充填される際、金型が開かないように金型を締め付けるトグル機構と、当該トグル機構を駆動するモータとを備える。
【0017】
制御装置23は、射出装置21及び型締装置22の動作を制御する。本実施形態1に係る制御装置23は、製造条件調整装置1を備える。製造条件調整装置1は、成形機2の成形条件に係る複数のパラメータを調整する装置であり、特に本実施形態1に係る製造条件調整装置1は、成形品の不良度が低減されるようにパラメータを調整する機能を有する。
【0018】
成形機2には、金型内樹脂温度、ノズル温度、シリンダ温度、ホッパ温度、型締力、射出速度、射出加速度、射出ピーク圧力、射出ストローク、シリンダ先端樹脂圧、逆防リング着座状態、保圧切替圧力、保圧切替速度、保圧切替位置、保圧完了位置、クッション位置、計量背圧、計量トルク、計量完了位置、スクリュ後退速度、サイクル時間、型閉時間、射出時間、保圧時間、計量時間、型開時間等の成形条件を定めるパラメータが設定され、当該パラメータに従って動作する。最適なパラメータは成形機2の環境、成形品によって異なる。
【0019】
測定部3は、成形機2による成形が実行された際、実成形に係る物理量を測定する装置である。測定部3は、測定処理によって得られた物理量データを製造条件調整装置1へ出力する。物理量には、温度、位置、速度、加速度、電流、電圧、圧力、時間、画像データ、トルク、力、歪、消費電力等がある。
【0020】
測定部3によって測定される情報は、例えば成形品情報、成形条件(測定値)、周辺機器設定値(測定値)、雰囲気情報等を含む。当該周辺機器は、成形機2と連動するシステムを構成する機器であり、型締装置22ないし金型を含む。周辺機器は、例えば、成形品取出装置(ロボット)、インサート品挿入装置、入子挿入装置、インモールド成形の箔送り装置、フープ成形用フープ送り装置、ガスアシスト成形用ガス注入装置、超臨界流体を用いた発泡成形用のガス注入装置や長繊維注入装置、LIM成形用材混合装置、成形品のバリ取り装置、ランナ切断装置、成形品重量計、成形品強度試験機、成形品の光学検査装置、成形品撮影装置及び画像処理装置、成形品運搬用ロボット等である。
【0021】
成形品情報は、例えば成形品を撮像して得たカメラ画像、レーザ変位センサにて得た成形品の変形量、光学的計測器にて得られた成形品の色度、輝度等の光学的計測値、重量計にて計測された成形品の重量、強度計測器にて測定された成形品の強度等の情報を含む。成形品情報は、成形品が正常であるか否か、不良タイプ、不良の程度を表現しており、報酬の計算にも利用される。
成形条件は、温度計、圧力計、速度測定器、加速度測定器、位置センサ、タイマ、重量計等を用いて測定して得た、金型内樹脂温度、ノズル温度、シリンダ温度、ホッパ温度、型締力、射出速度、射出加速度、射出ピーク圧力、射出ストローク、シリンダ先端樹脂圧、逆防リング着座状態、保圧切替圧力、保圧切替速度、保圧切替位置、保圧完了位置、クッション位置、計量背圧、計量トルク、計量完了位置、スクリュ後退速度、サイクル時間、型閉時間、射出時間、保圧時間、計量時間、型開時間等の情報を含む。
周辺機器設定値は、温度計、計量器等を用いて測定して得た、固定値設定された金型温度、変動値設定された金型温度、ペレット供給量等の情報を含む。
雰囲気情報は、温度計、湿度計、流量計等を用いて得た雰囲気温度、雰囲気湿度、対流に関する情報(レイノルズ数等)等の情報を含む。
測定部3は、その他、金型開き量、バックフロー量、タイバー変形量、ヒータ加熱率を測定しても良い。
【0022】
製造条件調整装置1は、コンピュータであり、
図2に示すようにハードウェア構成としてプロセッサ11(強化学習装置)、記憶部12及び操作部13等を備える。プロセッサ11は、CPU(Central Processing Unit)、マルチコアCPU、GPU(Graphics Processing Unit)、GPGPU(General-purpose computing on graphics processing units)、TPU(Tensor Processing Unit)、ASIC(Application Specific Integrated Circuit)、FPGA(Field-Programmable Gate Array)、NPU(Neural Processing Unit)等の演算回路、ROM(Read Only Memory)、RAM(Random Access Memory)等の内部記憶装置、I/O端子等を有する。プロセッサ11は、後述の記憶部12が記憶するコンピュータプログラム12aを実行することにより、物理量取得部14、制御部15、学習器16として機能する。なお、製造条件調整装置1の各機能部は、ソフトウェア的に実現しても良いし、一部又は全部をハードウェア的に実現しても良い。
【0023】
記憶部12は、ハードディスク、EEPROM(Electrically Erasable Programmable ROM)、フラッシュメモリ等の不揮発性メモリである。記憶部12は、学習器16の強化学習処理、パラメータの調整処理をコンピュータに実行させるためのコンピュータプログラム12aを記憶している。
【0024】
本実施形態1に係るコンピュータプログラム12aは、記録媒体4にコンピュータ読み取り可能に記録されている態様でも良い。記憶部12は、図示しない読出装置によって記録媒体4から読み出されたコンピュータプログラム12aを記憶する。記録媒体4はフラッシュメモリ等の半導体メモリである。また、記録媒体4はCD(Compact Disc)-ROM、DVD(Digital Versatile Disc)-ROM、BD(Blu-ray(登録商標)Disc)等の光ディスクでも良い。更に、記録媒体4は、フレキシブルディスク、ハードディスク等の磁気ディスク、磁気光ディスク等であっても良い。更にまた、図示しない通信網に接続されている図示しない外部サーバから本実施形態1に係るコンピュータプログラム12aをダウンロードし、記憶部12に記憶させても良い。
【0025】
操作部13は、タッチパネル、ソフトキー、ハードキー、キーボード、マウス等の入力装置である。
【0026】
物理量取得部14は、成形機2による成形が実行されたときに測定部3にて測定され、出力された物理量データを取得する。物理量取得部14は、取得した物理量データを制御部15へ出力する。
【0027】
制御部15は、
図3に示すように、観測部15a及び報酬算出部15bを有する。観測部15aには、測定部3から出力された物理量データが入力される。
【0028】
観測部15aは、物理量データを分析することによって成形機2及び成形品の状態を観測し、観測して得た観測データを学習器16の第1エージェント16a及び第2エージェント16bへ出力する。物理量データは情報量が大きいため、観測部15aは、物理量データの情報を圧縮した観測データを生成すると良い。観測データは、成形機2の状態、成形品の状態等を示す情報である。
例えば、観測部15aは、カメラ画像及びレーザ変位センサの計測値に基づいて、成形品の外観的特徴を示す特徴量、成形品の寸法、面積、体積、光学部品(成形品)の光軸ずれ量等を示す観測データを算出する。また、観測部15aは、射出速度、射出圧力、保圧等の時系列波形データに対して前処理を実行し、当該時系列波形データの特徴量を観測データとして抽出すると良い。なお、時系列波形の時系列データ、時系列波形を表した画像データを観測データとしても良い。
また、観測部15aは、物理量データを分析することによって成形品の不良度を算出し、算出して得た不良度を報酬算出部15bへ出力する。不良度は、例えば、バリの面積、ショートの面積、ヒケ・反り・ねじれ等の変形量、ウェルドラインの長さ、シルバーストリークの大きさ、ジェッティングの程度、フローマークの大きさ、色ムラによる色の変化量等である。また、不良度は、成形機から得られる観測データの、良品時の基準となる観測データからの変化量としてもよい。
【0029】
報酬算出部15bは、観測部15aから出力された不良度に基づいてパラメータの良し悪しの基準になる報酬データを算出し、算出して得た報酬データを学習器16の第1エージェント16a及び第2エージェント16bへ出力する。
また、後述するように、第1エージェント16aから出力された行動a1が、第2エージェント16bから出力された探索範囲外であった場合には、その外れ度合いに応じてマイナス報酬を加算するように構成してもよい。つまり、第2エージェント16bから出力された探索範囲に対する、第1エージェント16aから出力された行動a1の外れ度合いが大きい程、より大きなマイナス報酬(より絶対値が大きなマイナス報酬)を加算することによって報酬データを算出してもよい。
【0030】
学習器16は、
図3に示すように、第1エージェント16aと、第2エージェント16bと、調整部16cとを備える。第1エージェント16aと、第2エージェント16bとは異なる方式のエージェントである。第1エージェント16aは、第2エージェント16bに比べて複雑なモデルである。第1エージェント16aは、第2エージェント16bに比べて、表現力が豊かなモデルである。言い換えると、第1エージェント16aは、第2エージェント16bに比べて、強化学習によって、より最適なパラメータ調整を実現することが可能なモデルである。
第1エージェント16aにより得られる成形条件の探索範囲は、第2エージェント16bに比べて広いが、成形機2の異常動作により成形機2及びオペレータの不測の不利益を与えるおそれがある。一方、第2エージェント16bの探索範囲は、第1エージェント16aに比べて狭いが、成形機2の異常動作が発生する可能性は低い。
【0031】
第1エージェント16aは、例えば、DQN、A3C、D4PG等の深層ニューラルネットワークを有する強化学習モデル、PlaNet、SLAC等のモデルベースの強化学習モデル等である。
深層ニューラルネットワークを有する強化学習モデルの場合、第1エージェント16aは、DQN(Deep Q-Network)を備え、観測データが示す成形機2の状態sに基づいて、当該状態sに応じた行動a1を決定する。DQNは、観測データ示す状態sが入力された場合、複数の行動a1それぞれの価値を出力するニューラルネットワークモデルである。複数の行動a1は、成形条件に対応する。価値の高い行動a1は、成形機2に設定すべき適切な成形条件を表している。行動a1により成形機2は他の状態へ遷移する。状態遷移後、第1エージェント16aは、報酬算出部15bで算出された報酬を受け取り、収益、つまり報酬の累積が最大になるように第1エージェント16aを学習させる。
より具体的には、DQNは、入力層、中間層及び出力層を有する。入力層は、状態s、つまり観測データが入力される複数のノードを備える。出力層は、複数の行動a1にそれぞれ対応し、入力された状態sにおける当該行動a1の価値Q(s,a1)を出力する複数のノードを備える。行動a1は成形条件に係るパラメータの値に対応するものであってもよいし、変更量であってもよい。ここでは行動a1はパラメータ値であるものとする。
状態s、行動a1と、当該行動により得られた報酬rに基づいて、下記式(1)で表される価値Qを教師データとして、DQNを特徴付ける各種重み係数を調整することにより、第1エージェント16aのDQNを強化学習させることができる。
Q(s,a1)←Q(s,a1)+α(r+γmaxQ(snext,a1next)-Q(s,a1))・・・(1)
但し、
s:状態
a1:行動
α:学習係数
r:報酬
γ:割引率
maxQ(snext,a1next):次に取り得る行動に対するQ値のうち最大値
【0032】
モデルベースの強化学習モデルの場合、第1エージェント16aは、状態表現マップを備え、状態表現マップを行動決定の指針として用いてパラメータ(行動a1)を決定する。第1エージェント16aは、状態表現マップを用いて、観測データが示す成形機2の状態sに基づいて、当該状態に応じたパラメータ(行動a1)を決定する。状態表現マップは、例えば、観測データ(状態s)と、パラメータ(行動a1)とが入力された場合、当該状態sでパラメータ(行動a1)をとることに対する報酬rと、次状態s´への状態遷移確率(確信度)Ptとを出力するモデルである。報酬rは、状態sにおいて、あるパラメータ(行動a)を設定したときに得られる成形品が正常である否かを示す情報といえる。行動a1は、当該状態にある場合、成形機2に設定すべきパラメータである。行動a1により成形機2は他の状態へ遷移する。状態遷移後、第1エージェント16aは、報酬算出部15bで算出された報酬を受け取り、状態表現マップを更新する。
【0033】
第2エージェント16bは、観測データ及び成形条件に係るパラメータの関係を表した関数モデル又は関数近似器を有する。関数モデルは、例えば、解釈可能なドメイン知識により規定することができる関数モデルである。関数モデルは、例えば、多項式関数、指数関数、対数関数、三角関数等による近似や、一様分布、多項分布、ガウス分布、混合ガウス分布(GGM: Gaussian Mixture Model)等の確率分布による近似によるものである。関数モデルは、線形関数であってもよいし、非線形関数であってもよい。また、ヒストグラムやカーネル密度推定によって分布を規定してもよいし、近傍法、決定木、シャローなニューラルネット等の関数近似器を用いて第2エージェント16bを構成してもよい。
【0034】
図4は、関数モデル及び探索範囲を示す概念図である。第2エージェント16bの関数モデルは、例えば観測データ(状態s)と、成形条件に係るパラメータ(行動a2)とを入力として、最適確率を返す関数である。最適確率は、当該状態sにおける行動a2が最適である確率であり、不良度又は報酬から算出される。
図4に示すグラフの横軸は成形条件に係る一のパラメータ(観測データ及び他のパラメータを固定)、縦軸は観測データが示す状態及びパラメータの最適確率を示している。第2エージェント16bの関数モデルに観測データ及び報酬を与えることにより、最適な成形条件の候補となるパラメータ範囲を、探索範囲として算出することができる。探索範囲の設定方法は特に限定されるものではないが、例えば所定の信頼区間、例えば95%信頼区間である。また、一のパラメータ(観測データ及び他のパラメータを固定)に対する最適確率のグラフが経験的にガウス分布に規定できる場合、2σで表される信頼区間を当該一のパラメータの探索範囲としてもよい。
第2エージェント16bを関数近似器で構成する場合も同様にして探索範囲を設定することができる。
【0035】
第1エージェント16aの代わりに所定の探索範囲内でランダムに行動をさせることによって、第2エージェント16bの学習は、第1エージェント16aの学習よりも前に行ってもよい。事前に第2エージェント16bのみを学習させることで、より安全かつ広範囲に第1エージェント16aを学習させることができる。
【0036】
調整部16cは、強化学習中の第1エージェント16aが探索するパラメータ(行動a1)を、第2エージェント16bによって算出された探索範囲に基づいて調整し、調整後のパラメータ(行動a)を出力する。
【0037】
以下、本実施形態1に係る強化学習方法の詳細を説明する。
[強化学習処理]
図5は、プロセッサ11の処理手順を示すフローチャートである。成形機2にはパラメータの初期値が設定され、実成形が行われているものとする。
まず、測定部3は、成形機2が成形を実行したときに、当該成形機2及び成形品に係る物理量を測定し、測定して得た物理量データを制御部15へ出力する(ステップS11)。
【0038】
制御部15は、測定部3から出力された物理量データを取得し、取得した物理量データに基づく観測データを生成し、生成した観測データを学習器16の第1エージェント16a及び第2エージェント16bへ出力する(ステップS12)。
【0039】
学習器16の第1エージェント16aは、観測部15aから出力された観測データを取得し、観測データに基づいて、成形機2のパラメータを調整するためのパラメータ(行動a1)を算出し(ステップS13)、算出されたパラメータ(行動a1)を調整部16cへ出力する(ステップS14)。第1エージェント16aは、運用時(推論時)には、最適な行動a1を選択し、学習時には、第1エージェント16aを強化学習するため、探索的な行動a1を決定するとよい。また、第1エージェント16aは、行動価値が高い程、又は未探索の行動a1である程、値が小さく、現在の成形条件からの変更量が大きい程、値が大きくなるような目的関数を用いて、当該目的関数の値が小さい行動a1を選択するようにしてもよい。
【0040】
学習器16の第2エージェント16bは、観測部15aから出力された観測データを取得し、観測データに基づいて、パラメータの探索範囲を示す探索範囲データを算出し(ステップS15)、算出された探索範囲データを調整部16cへ出力する(ステップS16)。
【0041】
学習器16の調整部16cは、第1エージェント16aから出力されたパラメータを、第2エージェント16bから出力された探索範囲内になるように調整する(ステップS17)。つまり、調整部16cは、第1エージェント16aから出力されたパラメータが第2エージェント16bから出力された探索範囲内にあるか否かを判定する。そして、パラメータが探索範囲外であると判定した場合、探索範囲内になるようにパラメータを変更する。パラメータが探索範囲内である場合、第1エージェント16aから出力されたパラメータをそのまま採用する。
調整部16cは、調整後のパラメータ(行動a)を成形機2へ出力する(ステップS18)。
【0042】
成形機2は、パラメータによって成形条件を調整し、調整後の成形条件に従って成形処理を行う。成形機2の動作及び成形品に係る物理量は測定部3に入力される。成形処理は複数回、繰り返し行われても良い。測定部3は、成形機2が成形を実行したときに、当該成形機2及び成形品に係る物理量を測定し、測定して得た物理量データを制御部15の観測部15aへ出力する(ステップS19)。
【0043】
制御部15の観測部15aは、測定部3から出力された物理量データを取得し、取得した物理量データに基づく観測データを生成し、生成した観測データを学習器16の第1エージェント16a及び第2エージェント16bへ出力する(ステップS20)。また、報酬算出部15bは、測定部3にて測定された物理量データに基づいて、成形品の不良度に応じて定まる報酬データを算出し、算出した報酬データを学習器16へ出力する(ステップS21)。ただし、第1エージェント16aから出力された行動a1が、探索範囲外であった場合には、その外れ度合いに応じてマイナス報酬を加算する。つまり、第2エージェント16bから出力された探索範囲に対する、第1エージェント16aから出力された行動a1の外れ度合いが大きい程、より大きなマイナス報酬(より絶対値が大きなマイナス報酬)を加算することによって報酬データが算出される。
【0044】
第1エージェント16aは、観測部15aから出力された観測データと、報酬算出部15bから出力された報酬データとに基づいて、モデルを更新する(ステップS22)。第1エージェント16aがDQNの場合、上記式(1)で表される価値を教師データとして、DQNを学習させる。
【0045】
第2エージェント16bは、観測部15aから出力された観測データと、報酬算出部15bから出力された報酬データとに基づいて、モデルを更新する(ステップS23)。第2エージェント16bは、例えば、最小二乗法、最尤推定法、ベイズ推定等を用いて、関数モデル又は関数近似器を更新すれば良い。
【0046】
このように構成された実施形態1に係る強化学習方法によれば、成形機2の成形条件件を調整する学習器16の強化学習において、探索範囲を一定範囲に制限することなく、しかも安全に最適な成形条件を探索して学習器16を強化学習させることができる。
具体的には、本実施形態1に係る学習器16は、第2エージェント16bに比べて、最適な成形条件を学習する能力が高い第1エージェント16aを用いて、最適な成形条件を強化学習することができる。
また、第1エージェント16aにより得られる成形条件の探索範囲は、第2エージェント16bに比べて広く、成形機2の異常動作により成形機2及びオペレータの不測の不利益を与えるおそれがあるが、調整部16cは、ユーザーの事前知識によって規定された関数や分布が反映された第2エージェント16bが示す安全な探索範囲に制限することができるため、第1エージェント16aは、安全に最適な成形条件を探索して強化学習することができる。
【0047】
なお、本実施形態1では、射出成形機の成形条件を強化学習により調整する例を説明したが、本発明の適用範囲はこれに限定されるものではない。例えば、本発明に係る製造条件調整、強化学習方法及びコンピュータプログラム12aを用いて、押出機、フィルム成形機等の成形機2、その他の製造装置の製造条件を強化学習により調整するように構成してもよい。
【0048】
また、本実施形態1では、製造条件調整装置1及び強化学習装置を成形機2に備える例を説明したが、製造条件調整装置1又は強化学習装置を成形機2と別体で構成してもよい。また、強化学習方法、パラメータ調整処理をクラウドで実行するように構成してもよい。
【0049】
更に、学習器16が2つのエージェントを備える例を説明したが、3つ以上のエージェントを備えてもよい。第1エージェント16aと、異なる関数モデル又は関数近似器を有する複数の第2エージェント16b,16b…を備えるように構成してもよい。調整部16cは、強化学習中の第1エージェント16aが出力するパラメータを、複数の第2エージェント16b,16b…によって算出された探索範囲に基づいて調整する。なお、複数の第2エージェント16b,16b…によって算出された探索範囲の論理和又は論理積にて探索範囲を算出し、第1エージェント16aが出力するパラメータを当該探索範囲内に収まるように調整するとよい。
【0050】
(実施形態2)
実施形態2に係る成形機システムは、パラメータの探索範囲の調整方法が実施形態2と異なる。成形機システムのその他の構成は、実施形態1に係る成形機システムと同様であるため、同様の箇所には同じ符号を付し、詳細な説明を省略する。
【0051】
図6は、実施形態2に係る探索範囲の調整処理手順を示すフローチャートである。
図5に示すステップS17において、プロセッサ11は、以下の処理を実行する。プロセッサ11は、探索範囲調整用の閾値を取得する(ステップS31)。閾値は、例えば、
図4に示すような信頼区間を定める数値(%)、σ区間等である。制御部15又は調整部16cは、例えば、操作部13を介して閾値を取得する。オペレータは操作部13を操作することによって、閾値を入力することができ、探索範囲の許容度を調整することができる。
【0052】
次いで、第1エージェント16aは、観測データにより成形条件に係るパラメータを算出する(ステップS32)。そして、第2エージェント16bにより、ステップS31で取得した閾値で定まる探索範囲を算出する(ステップS33)。
【0053】
次いで、調整部16cは、第1エージェント16aによって算出されたパラメータがステップS33で算出された探索範囲内であるか否かを判定する(ステップS34)。パラメータがステップS33で算出された探索範囲外であると判定した場合(ステップS34:NO)、調整部16cは、パラメータが探索範囲内になるように調整する(ステップS35)。例えば、調整部16cは、探索範囲内であり、かつステップS32で算出されたパラメータに最も近い値に変更する。
【0054】
ステップS34でパラメータが探索範囲内であると判定された場合(ステップS34:YES)、又はステップS35の処理を終えた場合、調整部16cは、ステップS32で算出されたパラメータが所定探索範囲内であるか否かを判定する(ステップS36)。所定探索範囲は、予め定められた数値範囲であり、記憶部12が記憶している。所定探索範囲は、パラメータが取り得る値を定めるものであり、所定探索範囲外は設定不可の数値範囲である。
【0055】
パラメータが所定探索範囲内であると判定した場合(ステップS36:YES)、調整部16cは、ステップS18の処理を実行する。パラメータが所定探索範囲外であると判定した場合(ステップS36:NO)、調整部16cは、パラメータが所定探索範囲内になるように調整する(ステップS37)。例えば、調整部16cは、ステップS33で算出された探索範囲及び所定探索範囲の範囲内であり、かつステップS32で算出されたパラメータに最も近い値に変更する。
【0056】
実施形態2に係る強化学習方法によれば、第2エージェント16bによる探索範囲の制限強度を自由に調整することができる。つまり、成形機2の異常動作をある程度許容して、より最適な成形条件を積極的に探索して第1エージェント16aを強化学習させるか、成形機2の正常動作を優先して第1エージェント16aを強化学習させるかを選択ないし調整することができる。
【0057】
また、第2エージェント16bの学習結果、又は探索範囲調整用の閾値によっては、第2エージェント16bにより算出される探索範囲が不適当な範囲となるおそれがあるが、所定探索範囲を設定することにより、安全に成形条件を探索して学習器16を強化学習させることができる。
【0058】
(変形例)
実施形態2では、主にオペレータが閾値を設定することによって、第2エージェント16bによる探索範囲の制限強度を調整する例を説明したが、調整部16cが自動で閾値を調整するように構成してもよい。例えば、第1エージェント16aの学習が進み、所定割合以上、報酬が所定値以上である場合、調整部16cは、第2エージェント16bによって算出される探索範囲が広がるように閾値を変更するように構成してもよい。逆に所定割合以上、報酬が所定値未満である場合、調整部16cは、第2エージェント16bによって算出される探索範囲が狭くなるように閾値を変更するように構成してもよい。
【0059】
定期的に第2エージェント16bによって算出される探索範囲が変化するように閾値を変更するように構成してもよい。例えば、調整部16cは、10回中1回、探索範囲が広がるように閾値を変更し、10回中9回は、安全性を重視して探索範囲が狭くなるように閾値を変更するとよい。
【0060】
また、実施形態2では、閾値により第2エージェント16bによる探索範囲の制限強度を調整する例を説明したが、調整部16cは、オペレータの操作により、また所定の条件を満たした場合、第2エージェント16bによる探索範囲の制限を解除するように構成してもよい。例えば、第1エージェント16aの学習が進み、所定割合以上、報酬が所定値以上である場合、調整部16cは、第2エージェント16bによる探索範囲の制限を解除してもよい。また、調整部16cは所定の頻度で第2エージェント16bによる探索範囲の制限を解除してもよい。
【符号の説明】
【0061】
1 製造条件調整装置
2 成形機
3 測定部
4 記録媒体
11 プロセッサ
12 記憶部
12a コンピュータプログラム
13 操作部
14 物理量取得部
15 制御部
15a 観測部
15b 報酬算出部
16 学習器
16a 第1エージェント
16b 第2エージェント
16c 調整部