(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B1)
(11)【特許番号】
(24)【登録日】2025-05-30
(45)【発行日】2025-06-09
(54)【発明の名称】制御システム、学習装置、推論装置及びコントローラ
(51)【国際特許分類】
B26D 5/30 20060101AFI20250602BHJP
B65H 35/08 20060101ALI20250602BHJP
B65H 7/02 20060101ALI20250602BHJP
【FI】
B26D5/30 A
B65H35/08
B65H7/02
(21)【出願番号】P 2024559316
(86)(22)【出願日】2024-04-26
(86)【国際出願番号】 JP2024016612
【審査請求日】2024-10-04
【早期審査対象出願】
(73)【特許権者】
【識別番号】000006013
【氏名又は名称】三菱電機株式会社
(74)【代理人】
【識別番号】100095407
【氏名又は名称】木村 満
(74)【代理人】
【氏名又は名称】八島 耕司
(74)【代理人】
【識別番号】100147924
【氏名又は名称】美恵 英樹
(74)【代理人】
【識別番号】100148149
【氏名又は名称】渡邉 幸男
(74)【代理人】
【識別番号】100181618
【氏名又は名称】宮脇 良平
(74)【代理人】
【識別番号】100174388
【氏名又は名称】龍竹 史朗
(72)【発明者】
【氏名】前田 一樹
(72)【発明者】
【氏名】寺田 啓
(72)【発明者】
【氏名】▲高▼橋 陽
【審査官】豊島 唯
(56)【参考文献】
【文献】特開2000-203533(JP,A)
【文献】特開2001-075255(JP,A)
【文献】特表2010-515638(JP,A)
【文献】特開2000-062997(JP,A)
【文献】特開昭55-145545(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
B26D 5/00 - 5/38
B65H 35/08
B65H 7/02
(57)【特許請求の範囲】
【請求項1】
搬送路上を移動する被加工物の位置を検出する検出部と、
前記被加工物に加工を行う加工部を駆動する駆動部と、
前記駆動部を制御するコントローラと、
前記検出部からの検出信号を前記コントローラへ出力するリモートI/Oと、を備え、
前記コントローラは、
前記検出信号に基づいて前記被加工物の未来の位置を推定するカルマンフィルタと、
推定された前記被加工物の未来の位置に基づいて前記加工部による加工タイミングを生成するタイミング生成部と、
前記被加工物の未来の位置を線形外挿により推定する線形外挿器と、
前記カルマンフィルタと前記線形外挿器のいずれか一方を選択して、推定された前記被加工物の未来の位置を前記タイミング生成部へ出力する切り替え器と、
を備え、前記加工タイミングを前記リモートI/Oを介して前記駆動部に送信する、
制御システム。
【請求項2】
前記コントローラは、
前記被加工物の移動が加速あるいは減速状態であるとき、前記カルマンフィルタを選択し、前記被加工物の移動が定速状態であるとき、前記線形外挿器を選択することを前記切り替え器に指示する、
請求項
1に記載の制御システム。
【請求項3】
前記コントローラは、
前記被加工物の移動状態を前記被加工物の速度、加速度又は躍度から判断して、前記切り替え器に選択を指示する、
請求項
2に記載の制御システム。
【請求項4】
前記被加工物は、シート状部材であり、
前記加工部は、前記シート状部材を切断するカッターである、
請求項1から
3のいずれか1項に記載の制御システム。
【請求項5】
前記検出部は、前記被加工物に設けられたマークを検出することによりマーク検出信号を発生するマーク検出センサである、
請求項1から
3のいずれか1項に記載の制御システム。
【請求項6】
搬送路上を移動する被加工物の位置を検出する検出部と、前記被加工物に加工を行う加工部を駆動する駆動部と、前記駆動部を制御するコントローラと、前記検出部からの検出信号を前記コントローラへ出力するリモートI/Oと、を備え、前記コントローラは、前記検出信号に基づいて前記被加工物の未来の位置を推定するカルマンフィルタと、推定された前記被加工物の未来の位置に基づいて前記加工部による加工タイミングを生成するタイミング生成部と、を備え、前記加工タイミングを前記リモートI/Oを介して前記駆動部に送信する制御システムにおける
前記被加工物の位置、速度及び加速度と、
前記カルマンフィルタのパラメータと、を含む学習用データを取得するデータ取得部と、
前記学習用データを用いて、
前記被加工物の位置、速度及び加速度から最も精度の高い切断結果を取得するための
前記カルマンフィルタのパラメータを推論するための学習済モデルを生成するモデル生成部と、
を備える学習装置。
【請求項7】
搬送路上を移動する被加工物の位置を検出する検出部と、前記被加工物に加工を行う加工部を駆動する駆動部と、前記駆動部を制御するコントローラと、前記検出部からの検出信号を前記コントローラへ出力するリモートI/Oと、を備え、前記コントローラは、前記検出信号に基づいて前記被加工物の未来の位置を推定するカルマンフィルタと、推定された前記被加工物の未来の位置に基づいて前記加工部による加工タイミングを生成するタイミング生成部と、を備え、前記加工タイミングを前記リモートI/Oを介して前記駆動部に送信する制御システムにおける
前記被加工物の現在の位置、速度及び加速度を取得するデータ取得部と、
前記被加工物の位置、速度及び加速度から最も精度の高い切断結果を取得するための
前記カルマンフィルタのパラメータを推論するための学習モデルを用いて、前記被加工物の現在の位置、速度及び加速度から前記カルマンフィルタのパラメータを出力する推論部と、
を備える推論装置。
【請求項8】
搬送路上を移動する被加工物の位置を検出する検出部からの検出信号がリモートI/Oを介して入力され、前記被加工物に加工を行う加工部を駆動する駆動部を制御するコントローラであって、
前記検出信号に基づいて前記被加工物の未来の位置を推定するカルマンフィルタと、
推定された前記被加工物の未来の位置に基づいて前記加工部による加工タイミングを生成するタイミング生成部と、
前記被加工物の未来の位置を線形外挿により推定する線形外挿器と、
前記カルマンフィルタと前記線形外挿器のいずれか一方を選択して、推定された前記被加工物の未来の位置を前記タイミング生成部へ出力する切り替え器と、
を備え、前記加工タイミングを前記リモートI/Oを介して前記駆動部に送信する、
コントローラ。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、制御システム、学習装置、推論装置及びコントローラに関するものである。
【背景技術】
【0002】
包装機、印刷機など巻き出し軸と巻取り軸で構成される装置における被加工対象物の切断工程では、高速で移動する被加工対象物にあらかじめ印刷されたレジマークと呼ばれる印を光学センサで読取り後、一定位置通過後にモータを伴う機器により切断が行われる。ここで、読取り位置と切断位置は離れているため、レジマークを検出して読取りを行った時刻での装置状態を基に、未来の位置を推定することが必要である。
【0003】
特許文献1は、搬送されるウェブ部材を切断する回転部材の上流側にマーク検出器を配設し、マーク検出器の検出信号を演算制御部に送信し、速度指令とマーク検出信号とから送り長を演算し、切断処理のタイミングの位相を調整することを開示する。
【先行技術文献】
【特許文献】
【0004】
【発明の概要】
【発明が解決しようとする課題】
【0005】
しかしながら、従来において未来の位置の推定は、線形外挿により行われるため、等速領域以外の加減速領域では推定精度が悪く、カット位置にずれが生じる欠点がある。また、フィルタを自由に切り替えることができないため、異なる条件に応じて最適な外挿方法を選択することができず、生産品品質を向上できない欠点がある。
【0006】
本開示は、上述の事情に鑑みてなされたものであり、加減速領域において線形外挿を上回る未来の位置の推定精度を出すことを目的とする。
【課題を解決するための手段】
【0007】
上記目的を達成するために、本開示の制御システムは、搬送路上を移動する被加工物の位置を検出する検出部と、被加工物に加工を行う加工部を駆動する駆動部と、駆動部を制御するコントローラと、検出部からの検出信号をコントローラへ出力するリモートI/Oと、を備え、コントローラは、検出信号に基づいて被加工物の未来の位置を推定するカルマンフィルタと、推定された被加工物の未来の位置に基づいて加工部による加工タイミングを生成するタイミング生成部と、被加工物の未来の位置を線形外挿により推定する線形外挿器と、カルマンフィルタと線形外挿器のいずれか一方を選択して、推定された被加工物の未来の位置をタイミング生成部へ出力する切り替え器と、を備え、加工タイミングをリモートI/Oを介して駆動部に送信する。
【発明の効果】
【0008】
本開示によれば、被加工物の未来の位置を推定するカルマンフィルタを用いることにより、加減速領域において線形外挿を上回る未来の位置の推定精度を出すことができる。
【図面の簡単な説明】
【0009】
【
図1】本開示の第1の実施の形態に係る制御装置の構成を示す図
【
図2】本開示の第1の実施の形態に係る制御装置のコントローラの機能的構成を示す図
【
図4】加速期間においてカルマンフィルタ及び線形外挿器を用いて算出した推定値の波形図
【
図5】本開示の第1の実施の形態に係る制御装置のコントローラのハードウェア構成を示す図
【
図6】本開示の第2の実施の形態に係る学習装置の構成を示すグラフ
【
図7】本開示の第2の実施の形態に係る学習処理の動作を示すフローチャート
【
図8】本開示の第2の実施の形態に係る推論装置の構成を示す図
【
図9】本開示の第2の実施の形態に係る切断位置の判断処理の動作を示すフローチャート
【発明を実施するための形態】
【0010】
(第1の実施の形態)
以下、図面を参照しながら、本開示の第1の実施の形態に係る制御システム100を説明する。各図面においては、同一又は同等の部分に同一の符号を付す。
【0011】
図1は、第1の実施の形態に係る制御システム100を示す構成図である。制御システム100は、巻出し軸1と、巻取り軸2と、巻出し軸1及び巻取り軸2の間で搬送される包装紙、印画紙、フィルム等のシート状部材である被加工物3と、被加工物3を切断するカッター4と、カッター4が設けられた外周面を搬送方向に沿って回転する円筒状のロータ5と、ロータ5を回転駆動させるサーボモータ6と、サーボモータ6を駆動するサーボアンプ7と、被加工物3の表面に設けられたマーク8を読取ってカットタイミングの算出開始信号を生成するためのマークセンサ9と、被加工物3の移動を検出するエンコーダ10と、マークセンサ9及びエンコーダ10の検出信号を受け取るリモートI/O11と、被加工物3の切断位置を推定して切断を制御するコントローラ12と、を備える。コントローラ12、リモートI/O11及びサーボアンプ7は、通信回線13で接続されている。なお、カッター4は、本開示の加工部の一例であり、サーボモータ6は、本開示の駆動部の一例であり、マークセンサ9及びエンコーダ10は、本開示の検出部の一例である。
【0012】
巻出し軸1には、被加工物3がロール状に巻かれており、巻取り軸2の回転によって被加工物3は繰り出される。巻取り軸2は、巻出し軸1から繰り出された被加工物3を巻き取る。巻出し軸1から繰り出された被加工物3は、巻出し軸1及び巻取り軸2の回転によって、カッター4が設けられたロータ5に向かって搬送される。
【0013】
被加工物3の表面の端には、搬送方向に一定の長さ毎に黒塗りのマーク8が設けられている。マーク8は、被加工物3のカット位置を示しており、点線は、マーク8からカッター4で切断した場合のカット線を示している。なお、カット線は、説明のため図面に示したものであって、実際の被加工物3の表面には設けられていない。
【0014】
カッター4は、被加工物3を切断し、ロータ5の外周面に回転軸に平行に設けられている。ロータ5は、サーボモータ6の回転によって、外周面が被加工物3と対向する位置において被加工物3の搬送方向に沿って回転する。カッター4は、ロータ5の回転により、被加工物3と対向する位置に達すると被加工物3に当接して被加工物3を切断する。
【0015】
サーボモータ6は、サーボアンプ7により駆動され、サーボアンプ7は、記憶された動作パラメータにしたがってサーボモータ6を制御する。なお、本実施の形態において、回転モータを使ってカッター4の付いたロータ5を回転させることにより被加工物3を切断する構成を開示しているが、これに限らず、例えば、リニアモータによってカッター4を被加工物3の搬送方向に沿って平行に移動する構成としてもよい。
【0016】
リモートI/O11は、マークセンサ9及びエンコーダ10から入力される信号を受け付ける。マークセンサ9は、被加工物3の搬送路の上方であって、ロータ5よりも搬送路の上流側に離れて配置され、被加工物3の表面に設けられたマーク8を検出する光センサである。エンコーダ10は、被加工物3の搬送路上に配置され、被加工物3の移動に応じて連続してパルスを出力する。リモートI/O11は、コントローラ12との間で通信を行い、コントローラ12から送られてくる指示にしたがって動作する。リモートI/O11は、マークセンサ9及びエンコーダ10から入力された信号をコントローラ12に送信する。また、リモートI/O11は、コントローラ12からの指示にしたがってサーボアンプ7に信号を出力する。
【0017】
コントローラ12は、例えばPLC(プログラマブル・ロジック・コントローラ)である。コントローラ12は、マークセンサ9及びエンコーダ10の検出信号を受け取ることにより、被加工物3の現在位置を取得する。取得された現在位置に基づいて、コントローラ12は、被加工物3の未来の予測位置を求め、被加工物3を切断する位置を予測し、被加工物3のカットタイミングを指示する信号をリモートI/O11に出力する。
【0018】
図2に、コントローラ12の内部処理を表した機能構成を示す。コントローラ12は、エンコーダパルスをカウントするパルスカウンタ21と、パルスカウンタ21のカウント値を出力する方向を切り替える切り替え器22と、被加工物3の未来位置を予測する推定器であるカルマンフィルタ23及び線形外挿器24と、被加工物3を切断するカットタイミング信号を生成するタイミング生成部25と、を備える。
【0019】
パルスカウンタ21には、リモートI/O11からマークセンサ9の出力であるマーク検出信号とエンコーダ10の出力であるエンコーダパルスが入力される。パルスカウンタ21は、マーク検出信号を受け取ったタイミングを開始タイミングとして、エンコーダパルスをカウントして被加工物3の現在位置を示す現在位置信号を取得し、切り替え器22へ出力する。
【0020】
切り替え器22は、入力された現在位置信号の出力先を選択して出力する。切り替え器22の出力先として、カルマンフィルタ23と線形外挿器24がそれぞれ接続されている。切り替え器22は、切り替え信号にしたがって出力先をカルマンフィルタ23又は線形外挿器24に切り替える。切り替え信号の出力タイミングは、ユーザによって予め設定されている。
【0021】
カルマンフィルタ23及び線形外挿器24は、切り替え器22より入力された現在位置信号に基づいて、被加工物3の未来の位置を推定演算する。線形外挿器24は、現在位置と過去の位置を直線で結び、その直線を使用して線形外挿することにより、未来の位置を推定する。線形外挿は、演算が簡単で速く、リソースをあまり必要としないメリットを有する。しかしながら、曲線的に変化するデータパターンの場合、正確に未来の位置を推定することができない。これに対して、カルマンフィルタ23は、曲線的に変化するデータパターンであっても精度よく未来の位置を推定することができる。
【0022】
図3はカルマンフィルタ23の詳細を示す。カルマンフィルタ23は、遅延器31と、予測器32と、平滑器33と、を備えている。遅延器31は、前回サンプリングの状態推定値を1サンプリングの間保持して、今回のサンプリングに出力する。ここで状態推定値には、平滑値及び平滑誤差共分散行列が含まれる。予測器32は、遅延器31より得られた1サンプリング前の平滑値及び平滑誤差共分散行列を用いて、予測値及び予測誤差共分散行列を算出する。ここで算出された予測値及び予測誤差共分散行列は、平滑器33に出力される。平滑器33は、観測データとして、マーク検出信号及びエンコーダパルスより求められた現在位置信号を取得して、フィルタゲイン、平滑値及び平滑誤差共分散行列を算出する。これらフィルタゲイン、平滑値及び平滑誤差共分散行列の算出にあたっては、マーク検出信号及びエンコーダパルスより求められた現在位置信号に加えて、予測器32の処理結果が供され、さらに平滑器33の処理結果は、遅延器31に戻されるようになっている。未来位置予測器34は、平滑器33より得られた平滑位置及び平滑速度ベクトルより、Nサンプリング後の未来位置を外挿法により算出する。
【0023】
搬送路上を移動する被加工物3は、予め定められた速度マップにしたがった速度で移動する。ここで、速度マップとして、例えば、移動開始直後の期間において定められた速度に達するまで加速される加速期間と、定められた速度に達すると、その速度を維持する定速期間と、速度を減速する減速期間が、それぞれ設けられているものとする。ここで、加速期間においてカルマンフィルタ23及び線形外挿器24を用いて算出した推定値の波形を
図4に示す。
図4において、aは、カルマンフィルタ23として線形カルマンフィルタを用いて算出した推定値を示し、bは、線形外挿器24を用いて算出した推定値を示す。これより、加減速を伴う領域では、線形外挿器24を用いて算出した推定値より、カルマンフィルタ23を用いて算出した推定値の方が滑らかな推定結果を生成する。したがって、被加工物3の位置が曲線的に変化する加減速期間においては、カルマンフィルタ23を用いることにより、精度よく未来の位置を推定することができる。これに対して、被加工物3の位置が直線的に変化する定速期間においては、線形外挿器24を用いても精度の高い推定を行うことができる。したがって、定速期間において、線形外挿器24を用いることにより、演算速度、リソースの負担等を考慮しつつ、精度よく未来の位置を推定することができる。そこで、ユーザは、切り替え信号の出力タイミングの設定において、被加工物3が加速して移動する加速期間及び減速して移動する減速期間では、カルマンフィルタ23を選択する設定を行い、被加工物3が定速で移動する定速期間では、線形外挿器24を選択する設定を行う。なお、加減速期間、定速期間については、速度マップを参照することによって判断してもよいし、エンコーダパルスから速度、加速度あるいは躍度を求めることによって判断してもよい。
【0024】
タイミング生成部25は、カルマンフィルタ23又は線形外挿器24により推定した未来の予測位置情報をもとに被加工物3を切断する目標タイミングを生成する。具体的には、タイミング生成部25は、推定された未来の予測位置を被加工物3の搬送速度で除算することにより被加工物3の切断位置までの到達時間を算出し、さらに到達時間が何クロック後になるかを算出する。生成されたカットタイミング信号は、リモートI/O11を通じてサーボアンプ7へ出力される。サーボアンプ7は、カットタイミング信号に基づいてロータ5の回転を制御し、カッター4にて被加工物3の切断を行う。
【0025】
コントローラ12は、ハードウェア的には、
図5に示すように、制御プログラムにしたがってデータを処理するプロセッサ41と、プロセッサのワークエリアとして機能する主記憶部42と、データを長期間にわたって記憶するための補助記憶部43と、データ入力を受け付ける入力部44と、データを出力する出力部45と、他の装置と通信する通信部46と、表示部47と、これらの要素を相互に接続するバスと、を備える。補助記憶部43には、プロセッサが実行するカットタイミングを制御する制御プログラムが記憶されている。入力部44は、リモートI/O11から送信されてくるマークセンサ9及びエンコーダ10から入力される信号を受信し、プロセッサ41に提供する。
【0026】
(第2の実施の形態)
より精度よく将来の位置を推定するためには、カルマンフィルタ23に用いる機械モデル、カルマンゲイン等のパラメータの設定値が現実の機械の物理量と一致する必要がある。一般に複雑な機械に対するそれらの同定は困難となり実験的に求めることがある。本実施の形態では、被加工物3の位置、速度及び加速度を入力として学習することで、切断の精度を報酬として最適なカルマンフィルタ23のパラメータを求める。学習は、強化学習(Q学習)の機械学習によって行う。
【0027】
図6は、制御システム100に関する機械学習装置の構成図である。学習装置201は、データ取得部202、モデル生成部203を備える。
【0028】
データ取得部202は、行動Aとしてカルマンフィルタ23のパラメータ、状態Sとして被加工物3の位置、速度及び加速度を学習用データとして取得する。
【0029】
モデル生成部203は、行動Aとしてカルマンフィルタ23のパラメータを含むとともに、状態Sとして被加工物3の位置、速度及び加速度を含む学習用データに基づいて、最適な行動Aとして最も精度の高い切断結果を取得するためのカルマンフィルタ23のパラメータを学習する。すなわち、制御システム100の状態Sである被加工物3の位置、速度及び加速度から最適な行動Aであるカルマンフィルタ23のパラメータを推論する学習済モデルを生成する。
【0030】
モデル生成部203が用いる学習アルゴリズムは教師あり学習、教師なし学習、強化学習等の公知のアルゴリズムを用いることができる。一例として、強化学習(Reinforcement Learning)を適用した場合について説明する。強化学習では、ある環境内におけるエージェント(行動主体)が、現在の状態(環境のパラメータ)を観測し、取るべき行動を決定する。エージェントの行動により環境が動的に変化し、エージェントには環境の変化に応じて報酬が与えられる。エージェントはこれを繰り返し、一連の行動を通じて報酬が最も多く得られる行動方針を学習する。強化学習の代表的な手法として、Q学習(Q-learning)やTD学習(TD-learning)が知られている。例えば、Q学習の場合、行動価値関数Q(s,a)の一般的な更新式は式(1)で表される。
【0031】
【0032】
式(1)において、stは時刻tにおける環境の状態を表し、atは時刻tにおける行動を表す。行動atにより、状態はst+1に変わる。rt+1はその状態の変化によってもらえる報酬を表し、γは割引率を表し、αは学習係数を表す。なお、γは0<γ≦1、αは0<α≦1の範囲とする。行動Aが行動atとなり、状態Sが状態stとなり、時刻tの状態stにおける最良の行動atを学習する。
【0033】
式(1)で表される更新式は、時刻t+1における最もQ値の高い行動aの行動価値Qが、時刻tにおいて実行された行動aの行動価値Qよりも大きければ、行動価値Qを大きくし、逆の場合は、行動価値Qを小さくする。換言すれば、時刻tにおける行動aの行動価値Qを、時刻t+1における最良の行動価値に近づけるように、行動価値関数Q(s,a)を更新する。それにより、ある環境における最良の行動価値が、それ以前の環境における行動価値に順次伝播していくようになる。
【0034】
上記のように、強化学習によって学習済モデルを生成する場合、モデル生成部203は、報酬計算部204と、関数更新部205と、を備えている。
【0035】
報酬計算部204は、行動Aであるカルマンフィルタ23のパラメータ、状態Sである被加工物3の位置、速度及び加速度に基づいて報酬を計算する。報酬計算部204は、報酬基準として被加工物3の切断結果、すなわち被加工物3を切断した位置が予め定められた最適切断位置からどれだけ離れているかの誤差範囲に基づいて、報酬rを計算する。したがって、被加工物3の切断結果が基準の誤差範囲であるかを報酬基準とする。被加工物3の切断結果が基準の誤差範囲内である報酬増大基準の場合には報酬rを増大させ(例えば「1」の報酬を与える。)、他方、被加工物3の切断結果が基準の誤差範囲を超える報酬減少基準の場合には報酬rを低減する(例えば「-1」の報酬を与える。)。
【0036】
関数更新部205は、報酬計算部204によって計算される報酬に従って、最適な行動Aを決定するための関数を更新し、学習済モデル記憶部206に出力する。例えばQ学習の場合、式(1)で表される行動価値関数Q(st,at)を最適な行動Aを算出するための関数として用いる。
【0037】
以上のような学習を繰り返し実行する。学習済モデル記憶部206は、関数更新部205によって更新された行動価値関数Q(st,at)、すなわち、学習済モデルを記憶する。
【0038】
次に、
図7を用いて、学習装置201が学習する処理について説明する。
図7は学習装置201の学習処理に関するフローチャートである。
【0039】
ステップS11において、データ取得部202は行動Aであるカルマンフィルタ23のパラメータ、状態Sである被加工物3の位置、速度及び加速度を学習用データとして取得する。
【0040】
ステップS12において、モデル生成部203は行動A、状態Sに基づいて報酬を計算する。具体的には、報酬計算部204は、行動A、状態Sを取得し、予め定められた報酬基準に基づいて報酬を増加させるか又は報酬を減じるかを判断する。
【0041】
報酬計算部204は、報酬を増大させると判断した場合(ステップS12:Yes)に、ステップS13において報酬を増大させる。一方、報酬計算部204は、報酬を減少させると判断した場合(ステップS12:No)に、ステップS14において報酬を減少させる。
【0042】
ステップS15において、関数更新部205は、報酬計算部204によって計算された報酬に基づいて、学習済モデル記憶部206が記憶する式(1)で表される行動価値関数Q(st,at)を更新する。
【0043】
学習装置201は、以上のステップS11からS15までのステップを繰り返し実行し、生成された行動価値関数Q(st,at)を学習済モデルとして記憶する。
【0044】
本実施の形態に係る学習装置201は、学習済モデルを学習装置201の外部に設けられた学習済モデル記憶部206に記憶するものとしたが、学習済モデル記憶部206を学習装置201の内部に備えていてもよい。
【0045】
図8は制御システム100に関する推論装置301の構成図である。推論装置301は、データ取得部302、推論部303を備える。
【0046】
データ取得部302は状態Sである被加工物3の位置、速度及び加速度を取得する。
【0047】
推論部303は、学習済モデルを利用して最適な行動Aであるカルマンフィルタ23のパラメータを推論する。すなわち、この学習済モデルにデータ取得部302が取得した状態Sを入力することで、状態Sに適した最適な行動Aを推論することができる。なお、ここで入力される状態Sは被加工物3の現在の位置、速度及び加速度を含むデータである。
【0048】
なお、本実施の形態では、制御システム100に関する学習装置201のモデル生成部203で学習した学習済モデルを用いて最適な行動Aを出力するものとして説明したが、他の制御システム100から学習済モデルを取得し、この学習済モデルに基づいて最適な行動Aを出力するようにしてもよい。
【0049】
次に、
図9を用いて、学習装置201を使って最適な行動A、すなわち最適なカルマンフィルタ23のパラメータを得て最適な切断位置を判断するための処理を説明する。
【0050】
ステップS21において、データ取得部302は状態Sを取得する。
【0051】
ステップS22において、推論部303は学習済モデル記憶部206に記憶された学習済モデルに状態Sを入力し、最適な行動Aを得る。推論部303は得られた最適な行動Aを制御システム100のコントローラ12に出力する(ステップS23)。
【0052】
ステップS24において、コントローラ12は、出力された最適な行動A、すなわち精度の高い切断結果を取得可能なカルマンフィルタ23のパラメータを用いて、被加工物3の最適な切断位置を判断する。
【0053】
なお、本実施の形態では、推論部303が用いる学習アルゴリズムに強化学習を適用した場合について説明したが、これに限られるものではない。学習アルゴリズムについては、強化学習以外にも、教師あり学習、教師なし学習、又は半教師あり学習等を適用することも可能である。
【0054】
また、モデル生成部203に用いられる学習アルゴリズムとしては、カルマンフィルタ23のパラメータそのものの抽出を学習する、深層学習(Deep Learning)を用いることもでき、他の公知の方法、例えばニューラルネットワーク、遺伝的プログラミング、機能論理プログラミング、サポートベクターマシンなどに従って機械学習を実行してもよい。
【0055】
なお、学習装置201及び推論装置301は、例えば、ネットワークを介して制御システム100のコントローラ12に接続され、この制御システム100とは別個の装置であってもよい。また、学習装置201及び推論装置301は、コントローラ12に内蔵されていてもよい。さらに、学習装置201及び推論装置301は、クラウドサーバ上に存在していてもよい。
【0056】
また、モデル生成部203は、複数の制御システム100から取得される学習用データを用いて、最適な行動Aを学習するようにしてもよい。なお、モデル生成部203は、同一のエリアで使用される複数の制御システム100から学習用データを取得してもよいし、異なるエリアで独立して動作する複数の制御システム100から収集される学習用データを利用して最適な行動Aを学習してもよい。また、学習用データを収集する制御システム100を途中で対象に追加又は対象から除去することも可能である。さらに、ある制御システム100に関して最適な行動Aを学習した学習装置201を、これとは別の制御システム100に適用し、当該別の制御システム100に関して最適な行動Aを再学習して更新してもよい。
【0057】
上記の実施の形態では、カルマンフィルタ23として、システムのモデルが線形であるため、線形カルマンフィルタが用いられる。これに対して、非線形モデルを扱う場合、カルマンフィルタ23として、非線形カルマンフィルタを用いることにより、精度のよい位置推定が可能である。また、線形モデルであるか非線形モデルであるか不明である場合、カルマンフィルタ23として、拡張カルマンフィルタを用いることにより、両モデルに対応した位置推定が可能である。また、これら複数のカルマンフィルタをカルマンフィルタ23として備え、切り替え器22により切り替えてもよい。また、この切り替えは、エンコーダパルスから速度、加速度あるいは躍度を求めることによって判断してもよい。
【0058】
上記の実施の形態では、被加工物3の加工として切断することについて説明したが、これに限らず、例えば、被加工物3に印刷することについて適用してもよい。
【0059】
本開示は、本開示の広義の精神と範囲を逸脱することなく、様々な実施の形態及び変形が可能とされるものである。また、上述した実施の形態は、本開示を説明するためのものであり、本開示の範囲を限定するものではない。つまり、本開示の範囲は、実施の形態ではなく、請求の範囲によって示される。そして、請求の範囲内及びそれと同等の開示の意義の範囲内で施される様々な変形が、本開示の範囲内とみなされる。
【産業上の利用可能性】
【0060】
本開示は、搬送路上を移動する被加工物の位置に基づいて被加工物に加工を行う加工位置を制御する制御システムに広く適用することができる。
【符号の説明】
【0061】
1 巻出し軸、2 巻取り軸、3 被加工物、4 カッター、5 ロータ、6 サーボモータ、7 サーボアンプ、8 マーク、9 マークセンサ、10 エンコーダ、11 リモートI/O、12 コントローラ、13 通信回線、21 パルスカウンタ、22 切り替え器、23 カルマンフィルタ、24 線形外挿器、25 タイミング生成部、31 遅延器、32 予測器、33 平滑器、34 未来位置予測器、41 プロセッサ、42 主記憶部、43 補助記憶部、44 入力部、45 出力部、46 通信部、47 表示部、100 制御システム、201 学習装置、202 データ取得部、203 モデル生成部、204 報酬計算部、205 関数更新部、206 学習済モデル記憶部、301 推論装置、302 データ取得部、303 推論部。
【要約】
制御システムは、搬送路上を移動する被加工物の位置を検出する検出部と、被加工物に加工を行う加工部を駆動する駆動部と、駆動部を制御するコントローラ(12)と、検出部からの検出信号をコントローラ(12)へ出力するリモートI/Oと、を備え、コントローラ(12)は、検出信号に基づいて被加工物の未来の位置を推定するカルマンフィルタ(23)と、推定された被加工物の未来の位置に基づいて加工部による加工タイミングを生成するタイミング生成部(25)と、を備え、加工タイミングをリモートI/Oを介して駆動部に送信する。