(58)【調査した分野】(Int.Cl.,DB名)
加工条件設定部に設定された加工条件に応じて加工電源、加工液の制御を行い、上下ノズル間で張架したワイヤ状電極と被加工物の間に電圧を印加して放電を発生させると共に、前記ワイヤ状電極と被加工物を相対移動させて前記被加工物の加工を行うワイヤ放電加工機において、
前記加工に係る環境を示す情報である環境情報を記憶する環境情報記憶部と、
前記加工条件の調整対象パラメータと該調整対象パラメータの調整量を機械学習する加工条件調整装置と、
を備え、
前記加工条件調整装置は、
前記加工における加工状態を示す情報である状態データを取得する状態観測部と、
報酬条件を記憶する報酬条件記憶部と、
前記状態データと前記報酬条件に基づいて報酬を計算する報酬計算部と、
加工条件調整を機械学習する加工条件調整学習部と、
前記加工条件調整学習部による前記加工条件調整の機械学習結果と、前記状態データおよび前記環境情報に基づいて、加工条件調整の対象パラメータとその調整量を調整行動として決定し、該調整行動に基づいて前記加工条件設定部に設定された加工条件を調整し、調整後の加工条件を出力する加工条件調整部と、
を有し、
前記加工条件調整学習部は、前記調整行動と、出力された前記調整後の加工条件に基づく加工動作後の前記状態観測部により取得された前記状態データと、前記報酬計算部が計算した前記報酬と、に基づいて前記加工条件調整を機械学習する、
を備えたことを特徴とするワイヤ放電加工機。
加工条件設定部に設定された加工条件に応じて加工電源、加工液の制御を行い、上下ノズル間で張架したワイヤ状電極と被加工物の間に電圧を印加して放電を発生させると共に、前記ワイヤ状電極と被加工物を相対移動させて前記被加工物の加工を行うワイヤ放電加工機による加工条件調整を機械学習した加工条件調整装置であって、
前記加工条件調整の関数などで表現された学習結果を不揮発性メモリに記憶する学習結果記憶部と、
前記加工における加工状態を示す情報である状態データを取得する状態観測部と、
前記学習結果記憶部に記憶された学習結果と、前記状態観測部で観測した前記状態データとに基づいて加工条件調整の対象パラメータとその調整量またはその調整後の値を決定し、加工条件を調整する加工条件調整部と、
を備えたことを特徴とする加工条件調整装置。
【発明の概要】
【発明が解決しようとする課題】
【0005】
しかしながら、加工条件や仕上げ代の調整ができるようになるためには経験が必要であり、作業者の技量によっては加工条件や仕上げ代を調整するのに時間が掛かるという課題があった。また、上記した方法は追加工や再加工を行うことが前提となっており、追加の作業が発生することによる手間が掛かるという課題があった。
【0006】
そこで本発明の目的は、被加工物の加工における加工状態に応じた加工条件の自動調整が可能なワイヤ放電加工機を提供することである。
【課題を解決するための手段】
【0007】
本発明では、環境情報、位置情報、加工情報に基づく機械学習を行って、加工データが基準値データと合うように各種加工条件の調整を行うワイヤ放電加工機を提供する。
【0008】
そして、本願の請求項1に係る発明は、加工条件設定部に設定された加工条件に応じて加工電源、加工液の制御を行い、上下ノズル間で張架したワイヤ状電極と被加工物の間に電圧を印加して放電を発生させると共に、前記ワイヤ状電極と被加工物を相対移動させて前記被加工物の加工を行うワイヤ放電加工機において、前記加工に係る環境を示す情報である環境情報を記憶する環境情報記憶部と、前記加工条件の調整対象パラメータと該調整対象パラメータの調整量を機械学習する加工条件調整装置と、を備え、前記加工条件調整装置は、前記加工における加工状態を示す情報である状態データを取得する状態観測部と、報酬条件を記憶する報酬条件記憶部と、前記状態データと前記報酬条件に基づいて報酬を計算する報酬計算部と、加工条件調整を機械学習する加工条件調整学習部と、前記加工条件調整学習部による前記加工条件調整の機械学習結果と、前記状態データおよび前記環境情報に基づいて、加工条件調整の対象パラメータとその調整量を調整行動として決定し、該調整行動に基づいて前記加工条件設定部に設定された加工条件を調整し、調整後の加工条件を出力する加工条件調整部と、を有し、前記加工条件調整学習部は、前記調整行動と、出力された前記調整後の加工条件に基づく加工動作後の前記状態観測部により取得された前記状態データと、前記報酬計算部が計算した前記報酬と、に基づいて前記加工条件調整を機械学習する、を備えたことを特徴とするワイヤ放電加工機である。
【0009】
本願の請求項2に係る発明は、前記状態データは、前記被加工物に対する前記ワイヤ状電極の位置情報を少なくとも含む、ことを特徴とする請求項1に記載のワイヤ放電加工機である。
【0010】
本願の請求項3に係る発明は、前記状態データは、加工電圧、加工電流、加工速度、放電回数、加工液量、加工液圧、短絡の発生、断線の発生のうちの少なくとも一つを含む、ことを特徴とする請求項1または2に記載のワイヤ放電加工機である。
【0011】
本願の請求項4に係る発明は、前記報酬条件記憶部は、前記加工条件設定部に設定された加工条件で加工した場合の加工電圧、加工電流、加工速度の基準値データを記憶する、ことを特徴とする請求項1〜3のいずれか1つに記載のワイヤ放電加工機である。
【0012】
本願の請求項5に係る発明は、前記状態データは、少なくとも加工電圧、加工電流、加工速度を含み、前記報酬計算部は、前記状態データに含まれる加工電圧、加工電流、加工速度が前記加工条件設定部に設定された加工条件に基づいて得られる基準値データに近づく場合にプラスの報酬を与える、ことを特徴とする請求項1〜4のいずれか1つに記載のワイヤ放電加工機である。
【0013】
本願の請求項6に係る発明は、前記状態データは、少なくとも加工電圧、加工電流、加工速度、短絡の発生、断線の発生を含み、前記報酬計算部は、前記状態データに含まれる加工電圧、加工電流、加工速度が前記加工条件設定部に設定された加工条件に基づいて得られる基準値データから遠ざかる場合、または、前記状態データに含まれる短絡および断線のうちの少なくとも1つの事象が発生した場合にマイナスの報酬を与える、ことを特徴とする請求項1〜5のいずれか1つに記載のワイヤ放電加工機である。
【0014】
本願の請求項7に係る発明は、少なくとも1つの他のワイヤ放電加工機と接続されており、前記他のワイヤ放電加工機との間で機械学習の結果を相互に交換または共有する、ことを特徴とする請求項1〜6のいずれか1つに記載のワイヤ放電加工機である。
【0015】
本願の請求項8に係る発明は、加工条件設定部に設定された加工条件に応じて加工電源、加工液の制御を行い、上下ノズル間で張架したワイヤ状電極と被加工物の間に電圧を印加して放電を発生させると共に、前記ワイヤ状電極と被加工物を相対移動させて前記被加工物の加工を行うワイヤ放電加工機による加工条件調整を機械学習した加工条件調整装置であって、前記加工条件調整の
関数などで表現された学習結果を
不揮発性メモリに記憶する学習結果記憶部と、前記加工における加工状態を示す情報である状態データを取得する状態観測部と、前記学習結果記憶部に記憶された学習結果と、前記状態観測部で観測した前記状態データとに基づいて加工条件調整の対象パラメータとその調整量またはその調整後の値を決定し、加工条件を調整する加工条件調整部と、を備えたことを特徴とする加工条件調整装置である。
【発明の効果】
【0016】
本発明において、機械学習によって加工エネルギーの差異がなくなるように加工条件を調整することによって、加工の安定性や再現性が高まり、追加工や再加工を行う必要がなくなる。また、複数のワイヤ放電加工機の各データを共有して機械学習に利用することで、より優れた結果を得られる機械学習をワイヤ放電加工機ごとに実現することが可能となる。
【発明を実施するための形態】
【0018】
以下、本発明の実施形態を図面と共に説明する。
本発明では、被加工物を加工するワイヤ放電加工機に対して人工知能となる機械学習器を導入し、ワイヤ放電加工機での被加工物の加工状態に対する印加電圧の電圧値や印加時間、休止時間、加工液の供給量などの加工条件の調整に関する機械学習を行うことで、加工状態に応じて加工条件が最適なものになるように調整を行うようにする。本発明では、機械学習器が加工条件調整装置として動作する。
【0019】
上記したように、ワイヤ放電加工においては設定された加工条件で得られる現実の加工速度や加工精度は、被加工物を置いたテーブル上の位置や機械の経年変化、機差などによって変化する。例えば、
図1に示すように、同じ穴径の丸穴を加工しようとして同一の加工条件で加工を行った場合であっても、<1>の位置、<2>の位置、<3>の位置では加工エネルギーの違いが生じて各位置で加工した丸穴の大きさが異なる場合がある。
図2は、
図1の各穴の加工において計測される電圧、電流、速度の値をグラフとして示したものである。
図2(a)に示すように、同一の加工条件で加工を行った場合であっても、設定した加工条件で決まる電圧、電流、速度の値(基準値データ)と、実際の加工時に<1>の位置、<2>の位置、<3>の位置での加工時の電圧、電流、速度の値とに差が生じ、結果として各位置で加工した丸穴の大きさが異なってしまう。そこで、ワイヤ放電加工機での被加工物の加工時の加工状態を示すデータ(環境情報、位置情報、加工情報)に基づいて、加工条件の調整を機械学習する機械学習器を導入し、機械学習の結果に基づいて自動的に加工条件の調整を行うようにする。
以下では、本発明で導入する機械学習について簡単に説明する。
【0020】
<1.機械学習>
一般に、機械学習には教師あり学習や教師なし学習など、その目的や条件によって様々なアルゴリズムに分類されている。本発明では被加工物を加工するワイヤ放電加工機における加工条件の調整の学習を目的としており、ワイヤ放電加工機から出力される電圧値、電流値、加工速度、各軸の座標値、被加工物情報などの加工状態に対してどのような行動(加工条件の調整)をすることが正しいのかを明示的に示すことが困難であることを考慮して、報酬を与えるだけで機械学習器が目標到達のための行動を自動的に学習する強化学習のアルゴリズムを採用する。
【0021】
図3は、強化学習アルゴリズムの基本的な概念を説明する図である。強化学習においては、学習する主体となるエージェント(機械学習器)と、制御対象となる環境(制御対象システム)とのやりとりにより、エージェント学習と行動が進められる。より具体的には、(1)エージェントはある時点における環境の状態s
tを観測し、(2)観測結果と過去の学習に基づいて自分が取れる行動a
tを選択して行動a
tを実行し、(3)行動a
tが実行されることで環境の状態s
tが次の状態s
t+1へと変化し、(4)行動a
tの結果としての状態の変化に基づいてエージェントが報酬r
t+1を受け取り、(5)エージェントが状態s
t、行動a
t、報酬r
t+1および過去の学習の結果に基づいて学習を進める、といったやりとりがエージェントと環境の間で行われる。
【0022】
上記した(5)における学習では、エ−ジェントは将来取得できる報酬の量を判断するための基準となる情報として、観測された状態s
t,行動a
t,報酬r
t+1のマッピングを獲得する。例えば、各時刻において取り得る状態の個数がm、取り得る行動の個数がnとすると、行動を繰り返すことによって状態s
tと行動a
tの組に対する報酬r
t+1を記憶するm×nの2次元配列が得られる。
そして、上記得られたマッピングに基づいて現在の状態や行動がどのくらい良いのかを示す関数である価値関数(評価関数)を用い、行動を繰り返す中で価値関数(評価関数)を更新していくことにより状態に対する最適な行動を学習していく。
【0023】
状態価値関数は、ある状態s
tがどのくらい良い状態であるのかを示す価値関数である。状態価値関数は、状態を引数とする関数として表現され、行動を繰り返す中での学習において、ある状態における行動に対して得られた報酬や、該行動により移行する未来の状態の価値などに基づいて更新される。状態価値関数の更新式は強化学習のアルゴリズムに応じて定義されており、例えば、強化学習アルゴリズムの1つであるTD学習においては、状態価値関数は以下の数1式で定義される。なお、数1式においてαは学習係数、γは割引率と呼ばれ、0<α≦1、0<γ≦1の範囲で定義される。
【0025】
また、行動価値関数は、ある状態s
tにおいて行動a
tがどのくらい良い行動であるのかを示す価値関数である。行動価値関数は、状態と行動を引数とする関数として表現され、行動を繰り返す中での学習において、ある状態における行動に対して得られた報酬や、該行動により移行する未来の状態における行動の価値などに基づいて更新される。行動価値関数の更新式は強化学習のアルゴリズムに応じて定義されており、例えば、代表的な強化学習アルゴリズムの1つであるQ学習においては、行動価値関数は以下の数2式で定義される。なお、数2式においてαは学習係数、γは割引率と呼ばれ、0<α≦1、0<γ≦1の範囲で定義される。
【0027】
なお、学習結果としての価値関数(評価関数)を記憶する方法としては、近似関数を用いる方法や、配列を用いる方法以外にも、例えば状態sが多くの状態を取るような場合には状態s
t、行動a
tを入力として価値(評価)を出力する多値出力のSVMやニューラルネットワーク等の教師あり学習器を用いる方法などがある。
【0028】
そして、上記した(2)における行動の選択においては、過去の学習によって作成された価値関数(評価関数)を用いて現在の状態s
tにおいて将来にわたっての報酬(r
t+1+r
t+2+…)が最大となる行動a
t(状態価値関数を用いている場合には、もっとも価値の高い状態へ移るための行動、行動価値関数を用いている場合には該状態において最も価値の高い行動)を選択する。なお、エージェントの学習中には学習の進展を目的として(2)における行動の選択において一定の確率でランダムな行動を選択することもある(εグリーディ法)。
【0029】
このように、(1)〜(5)を繰り返すことで学習が進められる。ある環境において学習が終了した後に、新たな環境におかれた場合でも追加の学習を行うことでその環境に適応するように学習を進めることができる。したがって、本発明のようにワイヤ放電加工機での被加工物の加工における加工条件の調整の決定に適用することで、被加工物の設置位置を変更したり、新しいワイヤ放電加工機に適用したりした場合であっても、過去の加工条件の調整の学習に、新たな環境における追加の学習をすることで、加工条件の調整の学習を短時間で行うことが可能となる。
【0030】
また、強化学習においては、複数のエージェントをネットワークなどを介して接続したシステムとし、エージェント間で状態s、行動a、報酬rなどの情報を共有してそれぞれの学習に利用することで、それぞれのエージェントが他のエージェントの環境も考慮して学習をする分散強化学習を行うことで効率的な学習を行うことができる。本発明においても、複数の環境(ワイヤ放電加工機)を制御する複数のエージェント(機械学習器)がネットワークなどを介して接続された状態で分散機械学習を行うことで、ワイヤ放電加工機での被加工物の加工における加工条件の調整の学習を効率的に行わせることができるようになる。
【0031】
なお、強化学習のアルゴリズムとしては、Q学習、SARSA法、TD学習、AC法など様々な手法が周知となっているが、本発明に適用する方法としていずれの強化学習アルゴリズムを採用してもよい。上記したそれぞれの強化学習アルゴリズムは周知なので、本明細書における各アルゴリズムの詳細な説明は省略する。
以下では、機械学習器を導入した本発明のワイヤ放電加工機について、具体的な実施形態に基づいて説明する。
【0032】
<2.実施形態>
図4は、本発明の一実施形態における機械学習器を導入したワイヤ放電加工機における加工条件の調整の機械学習に関するイメージを示す図である。本発明では、機械学習器が加工条件調整装置として動作する。なお、
図4には本実施形態におけるワイヤ放電加工機における機械学習の説明に必要な構成のみを示している。
【0033】
本実施形態において、機械学習器20が環境(<1.機械学習>で説明した状態s
t)を特定するための情報として、加工対象となる被加工物の板厚、被加工物の材質、加工に用いるワイヤのワイヤ径、ワイヤを張架する上下ノズルと被加工物との距離を示すノズル隙間などの環境情報、ワイヤ放電加工機の各軸の座標値である位置情報、および、被加工物加工時に測定される実電圧値、実電流値、加工速度、放電回数、加工液の液圧、および短絡/断線の発生などの加工情報を機械学習器20に対して入力している。これら各値は、ワイヤ放電加工機1の各部から取得されたデータ、および制御部10、加工電源2から取得されたデータである。
【0034】
本実施形態では、機械学習器20が環境に対して出力するもの(<1.機械学習>で説明した行動a
t)として、ワイヤ放電加工機での加工時における極間電圧の電圧値や印加時間、休止時間、加工液の供給量などの加工条件の調整を出力データとしている。
【0035】
また本実施形態では、機械学習器20に対して与えられる報酬(<1.機械学習>で説明した報酬r
t)として、電圧値、電流値、加工速度値の基準値データとの接近または乖離(プラス報酬、マイナス報酬)、短絡/断線の発生(マイナス報酬)などを採用する。電圧値、電流値、加工速度値の基準値データについては、加工を開始する前に設定されている加工条件に基づいてあらかじめ理論的な電圧値、電流値、加工速度値の基準値データを決定しておく。なお、いずれのデータに基づいて報酬を決定するのかについては、オペレータが適宜設定するようにしてもよい。
【0036】
更に、本実施形態では、機械学習器20は上記した入力データ、出力データ、報酬に基づいて機械学習を行う。機械学習においては、ある時刻tにおいて、入力データの組み合わせにより状態s
tが定義され、定義された状態s
tに対して行われる加工条件の調整が行動a
tとなり、そして、行動a
tにより加工条件の調整が行われた結果として新たに得られた入力データに基づいて評価計算された値が報酬r
t+1となり、これを<1.機械学習>で説明したように、機械学習のアルゴリズムに応じた価値関数(評価関数)の更新式に当てはめることにより学習を進める。
【0037】
以下では、ワイヤ放電加工機1の機能ブロック図に基づいて説明する。
図5は、本実施形態のワイヤ放電加工機の機能ブロック図である。本実施形態のワイヤ放電加工機1は、ワイヤを支持する上下ノズルと被加工物を載置したテーブルとを相対移動させる複数の軸を備え、上下ノズルにより支持されるワイヤと被加工物との間の電位差によって生じる放電により被加工物を加工する加工機である。なお、これら各構成はワイヤ放電加工機の一般的な構成であり、本発明における機械学習の動作の説明には特段必要ではないので、本明細書での詳細な説明は省略する。ワイヤ放電加工機1は、ワイヤと被加工物との間に印加される電圧を制御する加工電源2、ワイヤ放電加工機1の各軸や加工電源2を含む全体をプログラム等に基づいて制御すると共にワイヤ放電加工機1の各部から加工状況などのデータを取得する制御部10、および機械学習を行う人工知能となる機械学習器20を備える。
図5に示した構成を、
図3に示した強化学習における要素と対比すると、機械学習器20がエージェントに対応し、ワイヤ放電加工機1が備える軸や制御部10などを含む全体が環境に対応する。
【0038】
制御部10は、図示しないメモリから読み出されたプログラムを解析し、解析結果として得られた制御データに基づいてワイヤ放電加工機1の軸を制御して被加工物の加工を行う。通常のワイヤ放電加工機では、作業者などにより設定されて環境情報記憶部11に記憶されたワイヤ径、被加工物板厚、材質、ノズル隙間などの環境情報の設定値、加工条件記憶部12に記憶された極間電圧の電圧値や印加時間、休止時間、加工液の供給量などの加工条件の設定値などに基づいて制御部10が加工電源2を制御するが、本発明においては、加工条件については機械学習器20が加工条件記憶部12に記憶された加工条件の設定値に基づいて学習結果に基づく加工条件の調整を行い、該調整結果に基づいて制御部10が加工電源2を制御する。
【0039】
また、制御部10は、ワイヤ放電加工機1に設けられた各構成から加工状態に係るデータを収集し、環境情報記憶部11に記憶された環境情報、加工条件記憶部12に記憶された加工条件の設定値と共に機械学習器20に対して通知する。加工状態に係るデータとしては、ワイヤ放電加工機1の各軸の座標値である位置情報、および、被加工物加工時に測定される実電圧値、実電流値、加工速度値、放電回数、加工液の液圧、および短絡/断線の発生などの加工情報等が挙げられる。
【0040】
機械学習を行う機械学習器20は、状態観測部21、状態データ記憶部22、報酬条件記憶部23、報酬計算部24、加工条件調整学習部25、学習結果記憶部26、加工条件調整部27を備える。機械学習器20は、ワイヤ放電加工機1内に備えてもよいし、ワイヤ放電加工機1外のパソコン等に備えるようにしてもよい。
【0041】
状態観測部21は、制御部10を介してワイヤ放電加工機1における加工状態に係るデータを観測して機械学習器20内に取得する機能手段である。加工状態に係るデータとしては、上記したワイヤ径、被加工物板厚、材質、ノズル隙間などの環境情報、ワイヤ放電加工機の各軸の座標値である位置情報、および、被加工物加工時に測定される実電圧値、実電流値、加工速度値、放電回数、加工液の液圧、および短絡/断線の発生などの加工情報などがある。
【0042】
状態データ記憶部22は加工状態に係るデータを入力して記憶し、記憶した該加工状態に係るデータを報酬計算部24や加工条件調整学習部25に対して出力する機能手段である。入力される加工状態に係るデータは、最新の加工運転で取得したデータでも、過去の加工運転で取得したデータでも構わない。また、他のワイヤ放電加工機1や集中管理システム30に記憶された加工状態に係るデータを入力して記憶したり、出力したりすることも可能である。
【0043】
報酬条件記憶部23は、作業者などにより設定された機械学習における報酬を与える条件を記憶するための機能手段である。本実施形態においては、報酬条件記憶部23には設定された報酬を与える条件の他に、制御部10が備える加工条件記憶部12に設定されている加工条件に基づいて得られる理論的な電圧値、電流値、加工速度値の基準値データを記憶している。報酬にはプラスの報酬とマイナスの報酬があり、適宜設定が可能である。報酬条件記憶部23への入力は集中管理システムで使用しているパソコンやタブレット端末等からでも構わないが、ワイヤ放電加工機1が備える図示しないMDI機器を介して入力できるようにすることで、より簡便に設定することが可能となる。
報酬計算部24は、報酬条件記憶部23で設定された条件に基づいて状態観測部21または状態データ記憶部22から入力された加工状態に係るデータを分析し、計算された報酬を加工条件調整学習部25に出力する。
【0044】
以下に、本実施形態における報酬条件記憶部23で設定する報酬条件の例を示す。
●[報酬1:電圧値、電流値、加工速度値と基準値データとの接近または乖離(プラス報酬、マイナス報酬)]
被加工物の加工時に測定された極間の実電圧値や実電流値、加工速度(ワイヤと被加工物の相対的な移動速度)の各値が、前回の加工条件の調整(時刻t−1における加工条件の調整)により基準値データとして設定されている実電圧値、実電流値、加工速度値に近づいた場合に、その度合いに応じてプラスの報酬を与える。
一方で、前回の加工条件の調整により基準値データとして設定されている実電圧値、実電流値、加工速度から乖離した場合に、その度合いに応じてマイナスの報酬を与える。
報酬を算出する際には、実電圧値や実電流値、加工速度のそれぞれの接近量および乖離量に対して各値に重みづけするようにしてもよい。また、基準値データの数値との差に応じて重みの付け方を変えるようにしてもよい。
【0045】
●[報酬2:短絡/断線の発生(マイナス報酬)]
ワイヤ放電加工機1での被加工物の加工において、短絡または断線が発生した場合にマイナスの報酬を与える。
【0046】
加工条件調整学習部25は、入力データなどを含む加工状態に係るデータと、自身が行ったワイヤ放電加工機1の加工条件の調整結果、および報酬計算部24で計算された報酬とに基づいて機械学習(強化学習)を行う。
【0047】
ここで、加工条件調整学習部25が行う機械学習においては、ある時刻tにおける加工状態に係るデータの組み合わせにより状態s
tが定義され、定義された状態s
tに応じて加工条件の調整量を決定することが行動a
tとなり、後述する加工条件調整部27により加工条件記憶部12から取得された加工条件の調整を行い該調整結果が出力され、そして、調整された加工条件に基づいてワイヤ放電加工機1の加工電源2が制御されて被加工物の加工が行われ、その結果として得られたデータに基づいて前記報酬計算部24で計算された値が報酬r
t+1となる。学習に用いられる価値関数については、適用する学習アルゴリズムに応じて決定する。例えば、Q学習を用いる場合には、上記した数2式に従って行動価値関数Q(s
t,a
t)を更新することにより学習を進めるようにすれば良い。
【0048】
図6のフローチャートを用いて、加工条件調整学習部25が行う機械学習の流れを説明する。
●[ステップSA01]機械学習が開始されると、状態観測部21がワイヤ放電加工機1の加工状態に係るデータを取得する。
●[ステップSA02]加工条件調整学習部25は、状態観測部21が取得した加工状態に係るデータに基づいて現在の状態S
tを特定する。
【0049】
●[ステップSA03]加工条件調整学習部25は、過去の学習結果とステップSA02で特定した状態S
tに基づいて行動a
t(加工条件の調整)を選択する。
●[ステップSA04]ステップSA03で選択された行動a
tを実行する。
【0050】
●[ステップSA05]状態観測部21が、ワイヤ放電加工機1の状態を示す加工状態に係るデータを取得する。この段階においては、ワイヤ放電加工機1の状態は時刻tから時刻t+1への時間的推移と共にステップSA04で実行された行動a
tによって変化している。
●[ステップSA06]ステップSA05で取得された評価結果のデータに基づいて、報酬計算部24が報酬r
t+1を算出する。
●[ステップSA07]ステップSA02で特定された状態S
t、ステップSA03で選択された行動a
t、ステップSA06で算出された報酬r
t+1に基づいて、加工条件調整学習部25が機械学習を進め、ステップSA02へ戻る。
【0051】
図5に戻って、学習結果記憶部26は、加工条件調整学習部25が学習した結果を記憶する。また、加工条件調整学習部25が学習結果を再使用する際には、記憶している学習結果を加工条件調整学習部25に出力する。学習結果の記憶には、上述したように、利用する機械学習アルゴリズムに応じた価値関数を、近似関数や、配列、又は多値出力のSVMやニューラルネットワーク等の教師あり学習器などにより記憶するようにすれば良い。
なお、学習結果記憶部26に、他のワイヤ放電加工機1や集中管理システム30が記憶している学習結果を入力して記憶させたり、学習結果記憶部26が記憶している学習結果を他のワイヤ放電加工機1や集中管理システム30に対して出力したりすることも可能である。
【0052】
加工条件調整部27は、加工条件調整学習部25が学習した結果と現在の加工状態に係るデータとに基づいて加工条件の調整量を決定する。ここでいう加工条件の調整量の決定が、機械学習に用いられる行動aに相当する。加工条件の調整は、例えば、加工条件を構成する各パラメータの変更量を組み合わせたものを選択可能な行動(行動1:電圧値=−5%,行動2:印加時間=+1%,…)として用意しておき、過去の学習結果に基づいて将来に得られる報酬が最も大きくなる行動を選択するようにしてもよく、また、複数の加工条件の項目を同時に調整する行動を用意するようにしてもよい。更に、上記したεグリーディ法を採用し、所定の確率でランダムな行動を選択することで加工条件調整学習部25の学習の進展を図るようにしてもよい。
その後、加工条件調整部27は、決定された加工条件の調整量に基づいて加工条件記憶部12から取得された加工条件を調整し、調整結果となる加工条件を加工電源2に対して設定する。そして、加工条件調整部27が調整した加工条件に基づいて制御部10により加工電源2の制御が行われる。
【0053】
その後、再び現在のワイヤ放電加工機1の状況の取得が機械学習器20により行われ、入力された加工状態に係るデータを使用して学習を繰り返すことにより、より優れた学習結果を得ることができる。
このようにして機械学習器20が学習した結果として、ワイヤ放電加工機1での被加工物の加工において加工状態に応じた加工条件の調整が行われるようになった段階で機械学習器20による学習が完了する。
【0054】
上記学習が完了した学習データを用いて実際にワイヤ放電加工機で加工する際には、機械学習器20は新たな学習を行なわないようにして学習完了時の学習データをそのまま使用して繰り返し運転をするようにしてもよい。
また、学習が完了した機械学習器20(または、他の機械学習器20の完了した学習データを学習結果記憶部26に複写した機械学習器20)を他のワイヤ放電加工機1に取付けて、学習完了時の学習データをそのまま使用して繰り返し運転をするようにしてもよい。
更に、学習が完了した機械学習器20の学習機能を有効にしたままで他のワイヤ放電加工機1に取付けて、被加工物の加工を続けることで、ワイヤ放電加工機毎に異なる個体差や経年変化などを更に学習させ、当該ワイヤ放電加工機にとってより良い加工条件の調整を探索しながら運転することも可能である。
【0055】
ワイヤ放電加工機1の機械学習器20は単独で機械学習をするようにしてもよいが、複数のワイヤ放電加工機1がそれぞれ外部との通信手段を更に備えると、それぞれの状態データ記憶部22が記憶した加工状態に係るデータや学習結果記憶部26が記憶した学習結果を送受信して共有することが可能となり、より効率良く機械学習を行うことができる。例えば、所定の範囲内で加工条件を変動させて学習する際に、複数のワイヤ放電加工機1において異なる調整量を所定の範囲内でそれぞれ変動させて加工しながら、それぞれのワイヤ放電加工機1の間で加工状態に係るデータや学習データをやり取りすることにより並列して学習を進めるようにすることで効率的に学習させることができる。
このように複数のワイヤ放電加工機1の間でやり取りする際には、通信は集中管理システム30等のホストコンピュータを経由しても、直接ワイヤ放電加工機1同士が通信しても構わないし、クラウドを使用しても構わないが、大量のデータを取り扱う場合があるため、なるべく通信速度が速い通信手段が好ましい。
【0056】
以上、本発明の実施の形態について説明したが、本発明は上述した実施の形態の例のみに限定されることなく、適宜の変更を加えることにより様々な態様で実施することができる。