特開2022-144124 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

青山学院大学 (神奈川県相模原市中央区淵野辺)

▶ 株式会社日本製鋼所の特許一覧

特開2022-144124強化学習方法、コンピュータプログラム、強化学習装置及び成形機

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2022144124

(43)【公開日】2022-10-03

(54)【発明の名称】強化学習方法、コンピュータプログラム、強化学習装置及び成形機

(51)【国際特許分類】

B29C 45/76 20060101AFI20220926BHJP

B22D 17/32 20060101ALI20220926BHJP

【ＦＩ】

B29C45/76

B22D17/32 Z

【審査請求】未請求

【請求項の数】10

【出願形態】ＯＬ

(21)【出願番号】P 2021044999

(22)【出願日】2021-03-18

(71)【出願人】

【識別番号】000004215

【氏名又は名称】株式会社日本製鋼所

(74)【代理人】

【識別番号】100114557

【弁理士】

【氏名又は名称】河野英仁

(74)【代理人】

【識別番号】100078868

【弁理士】

【氏名又は名称】河野登夫

(72)【発明者】

【氏名】平野峻之

【テーマコード（参考）】

4F206

【Ｆターム（参考）】

4F206AP02

4F206AP05

4F206AP06

4F206AP10

4F206JA07

4F206JL02

4F206JP11

4F206JP13

4F206JP17

4F206JP18

4F206JP30

4F206JQ88

4F206JT40

(57)【要約】

【課題】製造装置の製造条件を調整する学習器の強化学習において、探索範囲を一定範囲に制限することなく、しかも安全に最適な製造条件を探索して学習器を強化学習させることができる強化学習方法を提供する。
【解決手段】製造装置の状態を観測して得られる観測データに基づいて製造装置の製造条件を調整する第１エージェントと、第１エージェントと異なる方式で観測データ及び製造条件の関係を表した関数モデル又は関数近似器を有する第２エージェントとを備える学習器の強化学習方法であって、強化学習中の第１エージェントが探索する製造条件を、観測データ及び第２エージェントの関数モデル又は関数近似器を用いて調整し、調整された製造条件により製造装置が製造した製品の状態に応じた報酬データを算出し、観測データと、算出された報酬データとに基づいて、第１エージェント及び第２エージェントを強化学習させる。
【選択図】図３

【特許請求の範囲】

【請求項1】

製造装置の状態を観測して得られる観測データに基づいて該製造装置の製造条件を調整する第１エージェントと、該第１エージェントと異なる方式で前記観測データ及び前記製造条件の関係を表した関数モデル又は関数近似器を有する第２エージェントとを備える学習器の強化学習方法であって、
強化学習中の前記第１エージェントが探索する前記製造条件を、前記観測データ及び前記第２エージェントの前記関数モデル又は関数近似器を用いて調整し、
調整された前記製造条件により前記製造装置が製造した製品の状態に応じた報酬データを算出し、
前記観測データと、算出された前記報酬データとに基づいて、前記第１エージェント及び前記第２エージェントを強化学習させる
強化学習方法。

【請求項2】

前記観測データ及び前記第２エージェントの前記関数モデル又は関数近似器を用いて、前記製造条件の探索範囲を算出し、
強化学習中の前記第１エージェントが探索する前記製造条件が、算出された前記探索範囲の範囲外である場合、探索する前記製造条件を前記探索範囲内の前記製造条件に変更する
請求項１に記載の強化学習方法。

【請求項3】

前記観測データ及び前記第２エージェントの前記関数モデル又は関数近似器を用いて、前記製造条件の前記探索範囲を算出するための閾値を取得し、
取得した閾値、前記観測データ及び前記第２エージェントの前記関数モデル又は関数近似器を用いて、前記製造条件の前記探索範囲を算出する
請求項２に記載の強化学習方法。

【請求項4】

強化学習中の前記第１エージェントが探索する前記製造条件が、所定探索範囲の範囲外である場合、探索する前記製造条件を前記所定探索範囲及び算出された前記探索範囲内の前記製造条件に変更する
請求項２又は請求項３に記載の強化学習方法。

【請求項5】

前記第１エージェントが探索する前記製造条件が前記第２エージェントにより調整された場合、前記第１エージェントの探索範囲からの外れ度合いに応じて、マイナス報酬を加算して前記報酬データを算出する
請求項１～請求項４のいずれか１項に記載の強化学習方法。

【請求項6】

前記製造装置は成形機である
請求項１～請求項５のいずれか１項に記載の強化学習方法。

【請求項7】

前記製造装置は射出成形機であり、
前記製造条件は、金型内樹脂温度、ノズル温度、シリンダ温度、ホッパ温度、型締力、射出速度、射出加速度、射出ピーク圧力、射出ストローク、シリンダ先端樹脂圧、逆防リング着座状態、保圧切替圧力、保圧切替速度、保圧切替位置、保圧完了位置、クッション位置、計量背圧、計量トルク、計量完了位置、スクリュ後退速度、サイクル時間、型閉時間、射出時間、保圧時間、計量時間又は型開時間を含み、
前記報酬データは、前記射出成形機の観測データ又は、前記射出成形機によって製造された成形品の不良度に基づいて算出されるデータである
請求項６に記載の強化学習方法。

【請求項8】

製造装置の状態を観測して得られる観測データに基づいて該製造装置の製造条件を調整する第１エージェントと、該第１エージェントと異なる方式で前記観測データ及び前記製造条件の関係を表した関数モデル又は関数近似器を有する第２エージェントとを備える学習器を、コンピュータに強化学習させるためのコンピュータプログラムであって、
前記コンピュータに、
強化学習中の前記第１エージェントが探索する前記製造条件を、前記観測データ及び前記第２エージェントの前記関数モデル又は関数近似器を用いて調整し、
調整された前記製造条件により前記製造装置が製造した製品の状態に応じた報酬データを算出し、
前記観測データと、算出された前記報酬データとに基づいて、前記第１エージェント及び前記第２エージェントを強化学習させる
処理を実行させるためのコンピュータプログラム。

【請求項9】

製造装置の状態を観測して得られる観測データに基づいて該製造装置の製造条件を調整する学習器を強化学習させる強化学習装置であって、
前記学習器は、
前記観測データに基づいて前記製造装置の前記製造条件を調整する第１エージェントと、
該第１エージェントと異なる方式で前記観測データ及び前記製造条件の関係を用いて表した関数モデル又は関数近似器を有する第２エージェントと
強化学習中の前記第１エージェントが探索する前記製造条件を、前記観測データ及び前記第２エージェントの前記関数モデル又は関数近似器を用いて調整する調整部と
を備え、
更に、調整された前記製造条件により前記製造装置が製造した製品の状態に応じた報酬データを算出する報酬算出部を備え、
前記学習器は、
前記観測データと、前記報酬算出部にて算出された前記報酬データとに基づいて、前記第１エージェント及び前記第２エージェントを強化学習させる
強化学習装置。

【請求項10】

請求項９に記載の強化学習装置と、
前記第１エージェントによって調整された前記製造条件を用いて動作する製造装置と
を備える成形機。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、強化学習方法、コンピュータプログラム、強化学習装置及び成形機に関する。

【背景技術】

【0002】

強化学習により、射出成形機の成形条件を適切に調整することができる射出成形機システムがある（例えば、特許文献１）。

【先行技術文献】

【特許文献】

【0003】

【特許文献1】特開２０１９－１６６７０２号公報

【発明の概要】

【発明が解決しようとする課題】

【0004】

しかしながら、強化学習における成形条件の探索によって、行動として不適な成形条件が設定され、射出成形機の異常動作が機器及びオペレータに不測の不利益を与えるおそれがある。かかる問題は、製造装置一般が有する問題である。

【0005】

本開示の目的は、製造装置の製造条件を調整する学習器の強化学習において、探索範囲を一定範囲に制限することなく、しかも安全に最適な製造条件を探索して学習器を強化学習させることができる強化学習方法、コンピュータプログラム、強化学習装置及び成形機を提供することにある。

【課題を解決するための手段】

【0006】

本態様に係る強化学習方法は、製造装置の状態を観測して得られる観測データに基づいて該製造装置の製造条件を調整する第１エージェントと、該第１エージェントと異なる方式で前記観測データ及び前記製造条件の関係を表した関数モデル又は関数近似器を有する第２エージェントとを備える学習器の強化学習方法であって、強化学習中の前記第１エージェントが出力する前記製造条件を、前記観測データ及び前記第２エージェントの前記関数モデル又は関数近似器を用いて調整し、調整された前記製造条件により前記製造装置が製造した製品の状態に応じた報酬データを算出し、前記観測データと、算出された前記報酬データとに基づいて、前記第１エージェント及び前記第２エージェントを強化学習させる。

【0007】

本態様に係るコンピュータプログラムは、製造装置の状態を観測して得られる観測データに基づいて該製造装置の製造条件を調整する第１エージェントと、該第１エージェントと異なる方式で前記観測データ及び前記製造条件の関係を表した関数モデル又は関数近似器を有する第２エージェントとを備える学習器を、コンピュータに強化学習させるためのコンピュータプログラムであって、前記コンピュータに、強化学習中の前記第１エージェントが出力する前記製造条件を、前記観測データ及び前記第２エージェントの前記関数モデル又は関数近似器を用いて調整し、調整された前記製造条件により前記製造装置が製造した製品の状態に応じた報酬データを算出し、前記観測データと、算出された前記報酬データとに基づいて、前記第１エージェント及び前記第２エージェントを強化学習させる処理を実行させる。

【0008】

本態様に係る強化学習装置は、製造装置の状態を観測して得られる観測データに基づいて該製造装置の製造条件を調整する学習器を強化学習させる強化学習装置であって、前記学習器は、前記観測データに基づいて前記製造装置の前記製造条件を調整する第１エージェントと、該第１エージェントと異なる方式で前記観測データ及び前記製造条件の関係を表した関数モデル又は関数近似器を有する第２エージェントと強化学習中の前記第１エージェントが探索する前記製造条件を、前記観測データ及び前記第２エージェントの前記関数モデル又は関数近似器を用いて調整する調整部とを備え、更に、調整された前記製造条件により前記製造装置が製造した製品の状態に応じた報酬データを算出する報酬算出部を備え、前記学習器は、前記観測データと、前記報酬算出部にて算出された前記報酬データとに基づいて、前記第１エージェント及び前記第２エージェントを強化学習させる。

【0009】

本態様に係る成形機は、上記強化学習装置と、前記第１エージェントによって調整された前記製造条件を用いて動作する製造装置とを備える。

【発明の効果】

【0010】

本発明によれば、製造装置の製造条件を調整する学習器の強化学習において、探索範囲を一定範囲に制限することなく、しかも安全に最適な製造条件を探索して学習器を強化学習させることができる。

【図面の簡単な説明】

【0011】

【図1】実施形態１に係る成形機システムの構成例を説明する模式図である。

【図2】実施形態１に係る成形機システムの構成例を示すブロック図である。

【図3】実施形態１に係る成形機システムの機能ブロック図である。

【図4】関数モデル及び探索範囲を示す概念図である。

【図5】プロセッサの処理手順を示すフローチャートである。

【図6】実施形態２に係る探索範囲の調整処理手順を示すフローチャートである。

【発明を実施するための形態】

【0012】

本発明の実施形態に係る強化学習方法、コンピュータプログラム、強化学習装置及び製造装置の具体例を、以下に図面を参照しつつ説明する。以下に記載する実施形態の少なくとも一部を任意に組み合わせてもよい。なお、本発明はこれらの例示に限定されるものではなく、特許請求の範囲によって示され、特許請求の範囲と均等の意味及び範囲内でのすべての変更が含まれることが意図される。

【0013】

図１は実施形態１に係る成形機システムの構成例を説明する模式図、図２は実施形態１に係る成形機システムの構成例を示すブロック図、図３は実施形態１に係る成形機システムの機能ブロック図である。本実施形態１に係る成形機システムは、製造条件調整装置１を有する成形機（製造装置）２と、測定部３とを備える。

【0014】

成形機２は、例えば射出成形機、中空成形機、フィルム成形機、押出機、二軸スクリュ押出機、紡糸押出機、造粒機、マグネシウム射出成形機等である。以下、本実施形態１では成形機２が射出成形機であるものとして説明する。成形機２は、射出装置２１と、当該射出装置２１の前方に配置される型締装置２２と、成形機２の動作を制御する制御装置２３とを備える。

【0015】

射出装置２１は、加熱シリンダと、当該加熱シリンダ内で回転方向と軸方向とに駆動可能に設けられているスクリュと、当該スクリュを回転方向に駆動する回転モータと、スクリュを軸方向に駆動するモータ等から構成されている。

【0016】

型締装置２２は、金型を開閉させ、射出装置２１から射出された溶融樹脂が金型に充填される際、金型が開かないように金型を締め付けるトグル機構と、当該トグル機構を駆動するモータとを備える。

【0017】

制御装置２３は、射出装置２１及び型締装置２２の動作を制御する。本実施形態１に係る制御装置２３は、製造条件調整装置１を備える。製造条件調整装置１は、成形機２の成形条件に係る複数のパラメータを調整する装置であり、特に本実施形態１に係る製造条件調整装置１は、成形品の不良度が低減されるようにパラメータを調整する機能を有する。

【0018】

成形機２には、金型内樹脂温度、ノズル温度、シリンダ温度、ホッパ温度、型締力、射出速度、射出加速度、射出ピーク圧力、射出ストローク、シリンダ先端樹脂圧、逆防リング着座状態、保圧切替圧力、保圧切替速度、保圧切替位置、保圧完了位置、クッション位置、計量背圧、計量トルク、計量完了位置、スクリュ後退速度、サイクル時間、型閉時間、射出時間、保圧時間、計量時間、型開時間等の成形条件を定めるパラメータが設定され、当該パラメータに従って動作する。最適なパラメータは成形機２の環境、成形品によって異なる。

【0019】

測定部３は、成形機２による成形が実行された際、実成形に係る物理量を測定する装置である。測定部３は、測定処理によって得られた物理量データを製造条件調整装置１へ出力する。物理量には、温度、位置、速度、加速度、電流、電圧、圧力、時間、画像データ、トルク、力、歪、消費電力等がある。

【0020】

測定部３によって測定される情報は、例えば成形品情報、成形条件（測定値）、周辺機器設定値（測定値）、雰囲気情報等を含む。当該周辺機器は、成形機２と連動するシステムを構成する機器であり、型締装置２２ないし金型を含む。周辺機器は、例えば、成形品取出装置（ロボット）、インサート品挿入装置、入子挿入装置、インモールド成形の箔送り装置、フープ成形用フープ送り装置、ガスアシスト成形用ガス注入装置、超臨界流体を用いた発泡成形用のガス注入装置や長繊維注入装置、ＬＩＭ成形用材混合装置、成形品のバリ取り装置、ランナ切断装置、成形品重量計、成形品強度試験機、成形品の光学検査装置、成形品撮影装置及び画像処理装置、成形品運搬用ロボット等である。

【0021】

成形品情報は、例えば成形品を撮像して得たカメラ画像、レーザ変位センサにて得た成形品の変形量、光学的計測器にて得られた成形品の色度、輝度等の光学的計測値、重量計にて計測された成形品の重量、強度計測器にて測定された成形品の強度等の情報を含む。成形品情報は、成形品が正常であるか否か、不良タイプ、不良の程度を表現しており、報酬の計算にも利用される。
成形条件は、温度計、圧力計、速度測定器、加速度測定器、位置センサ、タイマ、重量計等を用いて測定して得た、金型内樹脂温度、ノズル温度、シリンダ温度、ホッパ温度、型締力、射出速度、射出加速度、射出ピーク圧力、射出ストローク、シリンダ先端樹脂圧、逆防リング着座状態、保圧切替圧力、保圧切替速度、保圧切替位置、保圧完了位置、クッション位置、計量背圧、計量トルク、計量完了位置、スクリュ後退速度、サイクル時間、型閉時間、射出時間、保圧時間、計量時間、型開時間等の情報を含む。
周辺機器設定値は、温度計、計量器等を用いて測定して得た、固定値設定された金型温度、変動値設定された金型温度、ペレット供給量等の情報を含む。
雰囲気情報は、温度計、湿度計、流量計等を用いて得た雰囲気温度、雰囲気湿度、対流に関する情報（レイノルズ数等）等の情報を含む。
測定部３は、その他、金型開き量、バックフロー量、タイバー変形量、ヒータ加熱率を測定しても良い。

【0022】

製造条件調整装置１は、コンピュータであり、図２に示すようにハードウェア構成としてプロセッサ１１（強化学習装置）、記憶部１２及び操作部１３等を備える。プロセッサ１１は、ＣＰＵ（Central Processing Unit）、マルチコアＣＰＵ、ＧＰＵ（Graphics Processing Unit）、ＧＰＧＰＵ（General-purpose computing on graphics processing units）、ＴＰＵ（Tensor Processing Unit）、ＡＳＩＣ（Application Specific Integrated Circuit）、ＦＰＧＡ（Field-Programmable Gate Array）、ＮＰＵ（Neural Processing Unit）等の演算回路、ＲＯＭ（Read Only Memory）、ＲＡＭ（Random Access Memory）等の内部記憶装置、Ｉ／Ｏ端子等を有する。プロセッサ１１は、後述の記憶部１２が記憶するコンピュータプログラム１２ａを実行することにより、物理量取得部１４、制御部１５、学習器１６として機能する。なお、製造条件調整装置１の各機能部は、ソフトウェア的に実現しても良いし、一部又は全部をハードウェア的に実現しても良い。

【0023】

記憶部１２は、ハードディスク、ＥＥＰＲＯＭ（Electrically Erasable Programmable ROM）、フラッシュメモリ等の不揮発性メモリである。記憶部１２は、学習器１６の強化学習処理、パラメータの調整処理をコンピュータに実行させるためのコンピュータプログラム１２ａを記憶している。

【0024】

本実施形態１に係るコンピュータプログラム１２ａは、記録媒体４にコンピュータ読み取り可能に記録されている態様でも良い。記憶部１２は、図示しない読出装置によって記録媒体４から読み出されたコンピュータプログラム１２ａを記憶する。記録媒体４はフラッシュメモリ等の半導体メモリである。また、記録媒体４はＣＤ（Compact Disc）－ＲＯＭ、ＤＶＤ（Digital Versatile Disc）－ＲＯＭ、ＢＤ（Blu-ray(登録商標)Disc）等の光ディスクでも良い。更に、記録媒体４は、フレキシブルディスク、ハードディスク等の磁気ディスク、磁気光ディスク等であっても良い。更にまた、図示しない通信網に接続されている図示しない外部サーバから本実施形態１に係るコンピュータプログラム１２ａをダウンロードし、記憶部１２に記憶させても良い。

【0025】

操作部１３は、タッチパネル、ソフトキー、ハードキー、キーボード、マウス等の入力装置である。

【0026】

物理量取得部１４は、成形機２による成形が実行されたときに測定部３にて測定され、出力された物理量データを取得する。物理量取得部１４は、取得した物理量データを制御部１５へ出力する。

【0027】

制御部１５は、図３に示すように、観測部１５ａ及び報酬算出部１５ｂを有する。観測部１５ａには、測定部３から出力された物理量データが入力される。

【0028】

観測部１５ａは、物理量データを分析することによって成形機２及び成形品の状態を観測し、観測して得た観測データを学習器１６の第１エージェント１６ａ及び第２エージェント１６ｂへ出力する。物理量データは情報量が大きいため、観測部１５ａは、物理量データの情報を圧縮した観測データを生成すると良い。観測データは、成形機２の状態、成形品の状態等を示す情報である。
例えば、観測部１５ａは、カメラ画像及びレーザ変位センサの計測値に基づいて、成形品の外観的特徴を示す特徴量、成形品の寸法、面積、体積、光学部品（成形品）の光軸ずれ量等を示す観測データを算出する。また、観測部１５ａは、射出速度、射出圧力、保圧等の時系列波形データに対して前処理を実行し、当該時系列波形データの特徴量を観測データとして抽出すると良い。なお、時系列波形の時系列データ、時系列波形を表した画像データを観測データとしても良い。
また、観測部１５ａは、物理量データを分析することによって成形品の不良度を算出し、算出して得た不良度を報酬算出部１５ｂへ出力する。不良度は、例えば、バリの面積、ショートの面積、ヒケ・反り・ねじれ等の変形量、ウェルドラインの長さ、シルバーストリークの大きさ、ジェッティングの程度、フローマークの大きさ、色ムラによる色の変化量等である。また、不良度は、成形機から得られる観測データの、良品時の基準となる観測データからの変化量としてもよい。

【0029】

報酬算出部１５ｂは、観測部１５ａから出力された不良度に基づいてパラメータの良し悪しの基準になる報酬データを算出し、算出して得た報酬データを学習器１６の第１エージェント１６ａ及び第２エージェント１６ｂへ出力する。
また、後述するように、第１エージェント１６ａから出力された行動ａ１が、第２エージェント１６ｂから出力された探索範囲外であった場合には、その外れ度合いに応じてマイナス報酬を加算するように構成してもよい。つまり、第２エージェント１６ｂから出力された探索範囲に対する、第１エージェント１６ａから出力された行動ａ１の外れ度合いが大きい程、より大きなマイナス報酬（より絶対値が大きなマイナス報酬）を加算することによって報酬データを算出してもよい。

【0030】

学習器１６は、図３に示すように、第１エージェント１６ａと、第２エージェント１６ｂと、調整部１６ｃとを備える。第１エージェント１６ａと、第２エージェント１６ｂとは異なる方式のエージェントである。第１エージェント１６ａは、第２エージェント１６ｂに比べて複雑なモデルである。第１エージェント１６ａは、第２エージェント１６ｂに比べて、表現力が豊かなモデルである。言い換えると、第１エージェント１６ａは、第２エージェント１６ｂに比べて、強化学習によって、より最適なパラメータ調整を実現することが可能なモデルである。
第１エージェント１６ａにより得られる成形条件の探索範囲は、第２エージェント１６ｂに比べて広いが、成形機２の異常動作により成形機２及びオペレータの不測の不利益を与えるおそれがある。一方、第２エージェント１６ｂの探索範囲は、第１エージェント１６ａに比べて狭いが、成形機２の異常動作が発生する可能性は低い。

【0031】

第１エージェント１６ａは、例えば、ＤＱＮ、Ａ３Ｃ、Ｄ４ＰＧ等の深層ニューラルネットワークを有する強化学習モデル、ＰｌａＮｅｔ、ＳＬＡＣ等のモデルベースの強化学習モデル等である。
深層ニューラルネットワークを有する強化学習モデルの場合、第１エージェント１６ａは、ＤＱＮ（Deep Q-Network）を備え、観測データが示す成形機２の状態ｓに基づいて、当該状態ｓに応じた行動ａ１を決定する。ＤＱＮは、観測データ示す状態ｓが入力された場合、複数の行動ａ１それぞれの価値を出力するニューラルネットワークモデルである。複数の行動ａ１は、成形条件に対応する。価値の高い行動ａ１は、成形機２に設定すべき適切な成形条件を表している。行動ａ１により成形機２は他の状態へ遷移する。状態遷移後、第１エージェント１６ａは、報酬算出部１５ｂで算出された報酬を受け取り、収益、つまり報酬の累積が最大になるように第１エージェント１６ａを学習させる。
より具体的には、ＤＱＮは、入力層、中間層及び出力層を有する。入力層は、状態ｓ、つまり観測データが入力される複数のノードを備える。出力層は、複数の行動ａ１にそれぞれ対応し、入力された状態ｓにおける当該行動ａ１の価値Ｑ（ｓ，ａ１）を出力する複数のノードを備える。行動ａ１は成形条件に係るパラメータの値に対応するものであってもよいし、変更量であってもよい。ここでは行動ａ１はパラメータ値であるものとする。
状態ｓ、行動ａ１と、当該行動により得られた報酬ｒに基づいて、下記式（１）で表される価値Ｑを教師データとして、ＤＱＮを特徴付ける各種重み係数を調整することにより、第１エージェント１６ａのＤＱＮを強化学習させることができる。
Ｑ（ｓ，ａ１）←Ｑ（ｓ，ａ１）＋α（ｒ＋γｍａｘＱ（ｓｎｅｘｔ，ａ１ｎｅｘｔ）－Ｑ（ｓ，ａ１））・・・（１）
但し、
ｓ：状態
ａ１：行動
α：学習係数
ｒ：報酬
γ：割引率
ｍａｘＱ（ｓｎｅｘｔ，ａ１ｎｅｘｔ）：次に取り得る行動に対するＱ値のうち最大値

【0032】

モデルベースの強化学習モデルの場合、第１エージェント１６ａは、状態表現マップを備え、状態表現マップを行動決定の指針として用いてパラメータ（行動ａ１）を決定する。第１エージェント１６ａは、状態表現マップを用いて、観測データが示す成形機２の状態ｓに基づいて、当該状態に応じたパラメータ（行動ａ１）を決定する。状態表現マップは、例えば、観測データ（状態ｓ）と、パラメータ（行動ａ１）とが入力された場合、当該状態ｓでパラメータ（行動ａ１）をとることに対する報酬ｒと、次状態ｓ´への状態遷移確率（確信度）Ｐｔとを出力するモデルである。報酬ｒは、状態ｓにおいて、あるパラメータ（行動ａ）を設定したときに得られる成形品が正常である否かを示す情報といえる。行動ａ１は、当該状態にある場合、成形機２に設定すべきパラメータである。行動ａ１により成形機２は他の状態へ遷移する。状態遷移後、第１エージェント１６ａは、報酬算出部１５ｂで算出された報酬を受け取り、状態表現マップを更新する。

【0033】

第２エージェント１６ｂは、観測データ及び成形条件に係るパラメータの関係を表した関数モデル又は関数近似器を有する。関数モデルは、例えば、解釈可能なドメイン知識により規定することができる関数モデルである。関数モデルは、例えば、多項式関数、指数関数、対数関数、三角関数等による近似や、一様分布、多項分布、ガウス分布、混合ガウス分布（GGM: Gaussian Mixture Model）等の確率分布による近似によるものである。関数モデルは、線形関数であってもよいし、非線形関数であってもよい。また、ヒストグラムやカーネル密度推定によって分布を規定してもよいし、近傍法、決定木、シャローなニューラルネット等の関数近似器を用いて第２エージェント１６ｂを構成してもよい。

【0034】

図４は、関数モデル及び探索範囲を示す概念図である。第２エージェント１６ｂの関数モデルは、例えば観測データ（状態ｓ）と、成形条件に係るパラメータ（行動ａ２）とを入力として、最適確率を返す関数である。最適確率は、当該状態ｓにおける行動ａ２が最適である確率であり、不良度又は報酬から算出される。図４に示すグラフの横軸は成形条件に係る一のパラメータ（観測データ及び他のパラメータを固定）、縦軸は観測データが示す状態及びパラメータの最適確率を示している。第２エージェント１６ｂの関数モデルに観測データ及び報酬を与えることにより、最適な成形条件の候補となるパラメータ範囲を、探索範囲として算出することができる。探索範囲の設定方法は特に限定されるものではないが、例えば所定の信頼区間、例えば９５％信頼区間である。また、一のパラメータ（観測データ及び他のパラメータを固定）に対する最適確率のグラフが経験的にガウス分布に規定できる場合、２σで表される信頼区間を当該一のパラメータの探索範囲としてもよい。
第２エージェント１６ｂを関数近似器で構成する場合も同様にして探索範囲を設定することができる。

【0035】

第１エージェント１６ａの代わりに所定の探索範囲内でランダムに行動をさせることによって、第２エージェント１６ｂの学習は、第１エージェント１６ａの学習よりも前に行ってもよい。事前に第２エージェント１６ｂのみを学習させることで、より安全かつ広範囲に第１エージェント１６ａを学習させることができる。

【0036】

調整部１６ｃは、強化学習中の第１エージェント１６ａが探索するパラメータ（行動ａ１）を、第２エージェント１６ｂによって算出された探索範囲に基づいて調整し、調整後のパラメータ（行動ａ）を出力する。

【0037】

以下、本実施形態１に係る強化学習方法の詳細を説明する。
［強化学習処理］
図５は、プロセッサ１１の処理手順を示すフローチャートである。成形機２にはパラメータの初期値が設定され、実成形が行われているものとする。
まず、測定部３は、成形機２が成形を実行したときに、当該成形機２及び成形品に係る物理量を測定し、測定して得た物理量データを制御部１５へ出力する（ステップＳ１１）。

【0038】

制御部１５は、測定部３から出力された物理量データを取得し、取得した物理量データに基づく観測データを生成し、生成した観測データを学習器１６の第１エージェント１６ａ及び第２エージェント１６ｂへ出力する（ステップＳ１２）。

【0039】

学習器１６の第１エージェント１６ａは、観測部１５ａから出力された観測データを取得し、観測データに基づいて、成形機２のパラメータを調整するためのパラメータ（行動ａ１）を算出し（ステップＳ１３）、算出されたパラメータ（行動ａ１）を調整部１６ｃへ出力する（ステップＳ１４）。第１エージェント１６ａは、運用時（推論時）には、最適な行動ａ１を選択し、学習時には、第１エージェント１６ａを強化学習するため、探索的な行動ａ１を決定するとよい。また、第１エージェント１６ａは、行動価値が高い程、又は未探索の行動ａ１である程、値が小さく、現在の成形条件からの変更量が大きい程、値が大きくなるような目的関数を用いて、当該目的関数の値が小さい行動ａ１を選択するようにしてもよい。

【0040】

学習器１６の第２エージェント１６ｂは、観測部１５ａから出力された観測データを取得し、観測データに基づいて、パラメータの探索範囲を示す探索範囲データを算出し（ステップＳ１５）、算出された探索範囲データを調整部１６ｃへ出力する（ステップＳ１６）。

【0041】

学習器１６の調整部１６ｃは、第１エージェント１６ａから出力されたパラメータを、第２エージェント１６ｂから出力された探索範囲内になるように調整する（ステップＳ１７）。つまり、調整部１６ｃは、第１エージェント１６ａから出力されたパラメータが第２エージェント１６ｂから出力された探索範囲内にあるか否かを判定する。そして、パラメータが探索範囲外であると判定した場合、探索範囲内になるようにパラメータを変更する。パラメータが探索範囲内である場合、第１エージェント１６ａから出力されたパラメータをそのまま採用する。
調整部１６ｃは、調整後のパラメータ（行動ａ）を成形機２へ出力する（ステップＳ１８）。

【0042】

成形機２は、パラメータによって成形条件を調整し、調整後の成形条件に従って成形処理を行う。成形機２の動作及び成形品に係る物理量は測定部３に入力される。成形処理は複数回、繰り返し行われても良い。測定部３は、成形機２が成形を実行したときに、当該成形機２及び成形品に係る物理量を測定し、測定して得た物理量データを制御部１５の観測部１５ａへ出力する（ステップＳ１９）。

【0043】

制御部１５の観測部１５ａは、測定部３から出力された物理量データを取得し、取得した物理量データに基づく観測データを生成し、生成した観測データを学習器１６の第１エージェント１６ａ及び第２エージェント１６ｂへ出力する（ステップＳ２０）。また、報酬算出部１５ｂは、測定部３にて測定された物理量データに基づいて、成形品の不良度に応じて定まる報酬データを算出し、算出した報酬データを学習器１６へ出力する（ステップＳ２１）。ただし、第１エージェント１６aから出力された行動a１が、探索範囲外であった場合には、その外れ度合いに応じてマイナス報酬を加算する。つまり、第２エージェント１６ｂから出力された探索範囲に対する、第１エージェント１６ａから出力された行動a１の外れ度合いが大きい程、より大きなマイナス報酬（より絶対値が大きなマイナス報酬）を加算することによって報酬データが算出される。

【0044】

第１エージェント１６ａは、観測部１５ａから出力された観測データと、報酬算出部１５ｂから出力された報酬データとに基づいて、モデルを更新する（ステップＳ２２）。第１エージェント１６ａがＤＱＮの場合、上記式（１）で表される価値を教師データとして、ＤＱＮを学習させる。

【0045】

第２エージェント１６ｂは、観測部１５ａから出力された観測データと、報酬算出部１５ｂから出力された報酬データとに基づいて、モデルを更新する（ステップＳ２３）。第２エージェント１６ｂは、例えば、最小二乗法、最尤推定法、ベイズ推定等を用いて、関数モデル又は関数近似器を更新すれば良い。

【0046】

このように構成された実施形態１に係る強化学習方法によれば、成形機２の成形条件件を調整する学習器１６の強化学習において、探索範囲を一定範囲に制限することなく、しかも安全に最適な成形条件を探索して学習器１６を強化学習させることができる。
具体的には、本実施形態１に係る学習器１６は、第２エージェント１６ｂに比べて、最適な成形条件を学習する能力が高い第１エージェント１６ａを用いて、最適な成形条件を強化学習することができる。
また、第１エージェント１６ａにより得られる成形条件の探索範囲は、第２エージェント１６ｂに比べて広く、成形機２の異常動作により成形機２及びオペレータの不測の不利益を与えるおそれがあるが、調整部１６ｃは、ユーザーの事前知識によって規定された関数や分布が反映された第２エージェント１６ｂが示す安全な探索範囲に制限することができるため、第１エージェント１６ａは、安全に最適な成形条件を探索して強化学習することができる。

【0047】

なお、本実施形態１では、射出成形機の成形条件を強化学習により調整する例を説明したが、本発明の適用範囲はこれに限定されるものではない。例えば、本発明に係る製造条件調整、強化学習方法及びコンピュータプログラム１２ａを用いて、押出機、フィルム成形機等の成形機２、その他の製造装置の製造条件を強化学習により調整するように構成してもよい。

【0048】

また、本実施形態１では、製造条件調整装置１及び強化学習装置を成形機２に備える例を説明したが、製造条件調整装置１又は強化学習装置を成形機２と別体で構成してもよい。また、強化学習方法、パラメータ調整処理をクラウドで実行するように構成してもよい。

【0049】

更に、学習器１６が２つのエージェントを備える例を説明したが、３つ以上のエージェントを備えてもよい。第１エージェント１６ａと、異なる関数モデル又は関数近似器を有する複数の第２エージェント１６ｂ，１６ｂ…を備えるように構成してもよい。調整部１６ｃは、強化学習中の第１エージェント１６ａが出力するパラメータを、複数の第２エージェント１６ｂ，１６ｂ…によって算出された探索範囲に基づいて調整する。なお、複数の第２エージェント１６ｂ，１６ｂ…によって算出された探索範囲の論理和又は論理積にて探索範囲を算出し、第１エージェント１６ａが出力するパラメータを当該探索範囲内に収まるように調整するとよい。

【0050】

（実施形態２）
実施形態２に係る成形機システムは、パラメータの探索範囲の調整方法が実施形態２と異なる。成形機システムのその他の構成は、実施形態１に係る成形機システムと同様であるため、同様の箇所には同じ符号を付し、詳細な説明を省略する。

【0051】

図６は、実施形態２に係る探索範囲の調整処理手順を示すフローチャートである。図５に示すステップＳ１７において、プロセッサ１１は、以下の処理を実行する。プロセッサ１１は、探索範囲調整用の閾値を取得する（ステップＳ３１）。閾値は、例えば、図４に示すような信頼区間を定める数値（％）、σ区間等である。制御部１５又は調整部１６ｃは、例えば、操作部１３を介して閾値を取得する。オペレータは操作部１３を操作することによって、閾値を入力することができ、探索範囲の許容度を調整することができる。

【0052】

次いで、第１エージェント１６ａは、観測データにより成形条件に係るパラメータを算出する（ステップＳ３２）。そして、第２エージェント１６ｂにより、ステップＳ３１で取得した閾値で定まる探索範囲を算出する（ステップＳ３３）。

【0053】

次いで、調整部１６ｃは、第１エージェント１６ａによって算出されたパラメータがステップＳ３３で算出された探索範囲内であるか否かを判定する（ステップＳ３４）。パラメータがステップＳ３３で算出された探索範囲外であると判定した場合（ステップＳ３４：ＮＯ）、調整部１６ｃは、パラメータが探索範囲内になるように調整する（ステップＳ３５）。例えば、調整部１６ｃは、探索範囲内であり、かつステップＳ３２で算出されたパラメータに最も近い値に変更する。

【0054】

ステップＳ３４でパラメータが探索範囲内であると判定された場合（ステップＳ３４：ＹＥＳ）、又はステップＳ３５の処理を終えた場合、調整部１６ｃは、ステップＳ３２で算出されたパラメータが所定探索範囲内であるか否かを判定する（ステップＳ３６）。所定探索範囲は、予め定められた数値範囲であり、記憶部１２が記憶している。所定探索範囲は、パラメータが取り得る値を定めるものであり、所定探索範囲外は設定不可の数値範囲である。

【0055】

パラメータが所定探索範囲内であると判定した場合（ステップＳ３６：ＹＥＳ）、調整部１６ｃは、ステップＳ１８の処理を実行する。パラメータが所定探索範囲外であると判定した場合（ステップＳ３６：ＮＯ）、調整部１６ｃは、パラメータが所定探索範囲内になるように調整する（ステップＳ３７）。例えば、調整部１６ｃは、ステップＳ３３で算出された探索範囲及び所定探索範囲の範囲内であり、かつステップＳ３２で算出されたパラメータに最も近い値に変更する。

【0056】

実施形態２に係る強化学習方法によれば、第２エージェント１６ｂによる探索範囲の制限強度を自由に調整することができる。つまり、成形機２の異常動作をある程度許容して、より最適な成形条件を積極的に探索して第１エージェント１６ａを強化学習させるか、成形機２の正常動作を優先して第１エージェント１６ａを強化学習させるかを選択ないし調整することができる。

【0057】

また、第２エージェント１６ｂの学習結果、又は探索範囲調整用の閾値によっては、第２エージェント１６ｂにより算出される探索範囲が不適当な範囲となるおそれがあるが、所定探索範囲を設定することにより、安全に成形条件を探索して学習器１６を強化学習させることができる。

【0058】

（変形例）
実施形態２では、主にオペレータが閾値を設定することによって、第２エージェント１６ｂによる探索範囲の制限強度を調整する例を説明したが、調整部１６ｃが自動で閾値を調整するように構成してもよい。例えば、第１エージェント１６ａの学習が進み、所定割合以上、報酬が所定値以上である場合、調整部１６ｃは、第２エージェント１６ｂによって算出される探索範囲が広がるように閾値を変更するように構成してもよい。逆に所定割合以上、報酬が所定値未満である場合、調整部１６ｃは、第２エージェント１６ｂによって算出される探索範囲が狭くなるように閾値を変更するように構成してもよい。

【0059】

定期的に第２エージェント１６ｂによって算出される探索範囲が変化するように閾値を変更するように構成してもよい。例えば、調整部１６ｃは、１０回中１回、探索範囲が広がるように閾値を変更し、１０回中９回は、安全性を重視して探索範囲が狭くなるように閾値を変更するとよい。

【0060】

また、実施形態２では、閾値により第２エージェント１６ｂによる探索範囲の制限強度を調整する例を説明したが、調整部１６ｃは、オペレータの操作により、また所定の条件を満たした場合、第２エージェント１６ｂによる探索範囲の制限を解除するように構成してもよい。例えば、第１エージェント１６ａの学習が進み、所定割合以上、報酬が所定値以上である場合、調整部１６ｃは、第２エージェント１６ｂによる探索範囲の制限を解除してもよい。また、調整部１６ｃは所定の頻度で第２エージェント１６ｂによる探索範囲の制限を解除してもよい。

【符号の説明】

【0061】

１製造条件調整装置
２成形機
３測定部
４記録媒体
１１プロセッサ
１２記憶部
１２ａコンピュータプログラム
１３操作部
１４物理量取得部
１５制御部
１５ａ観測部
１５ｂ報酬算出部
１６学習器
１６ａ第１エージェント
１６ｂ第２エージェント
１６ｃ調整部

【図1】