特許7436702 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ ファナック株式会社の特許一覧

特許7436702機械学習装置、制御装置、及び機械学習方法

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】

(24)【登録日】2024-02-13

(45)【発行日】2024-02-22

(54)【発明の名称】機械学習装置、制御装置、及び機械学習方法

(51)【国際特許分類】

B23K 26/00 20140101AFI20240214BHJP

B23Q 15/00 20060101ALI20240214BHJP

G05B 19/4155 20060101ALI20240214BHJP

G16Y 10/25 20200101ALI20240214BHJP

【ＦＩ】

B23K26/00 P

B23Q15/00 301H

G05B19/4155 V

G16Y10/25

【請求項の数】 10

(21)【出願番号】P 2022557413

(86)(22)【出願日】2021-10-06

(86)【国際出願番号】 JP2021037047

(87)【国際公開番号】W WO2022080215

(87)【国際公開日】2022-04-21

【審査請求日】2023-05-12

(31)【優先権主張番号】P 2020172337

(32)【優先日】2020-10-13

(33)【優先権主張国・地域又は機関】JP

(73)【特許権者】

【識別番号】390008235

【氏名又は名称】ファナック株式会社

(74)【代理人】

【識別番号】100106002

【弁理士】

【氏名又は名称】正林真之

(74)【代理人】

【識別番号】100165157

【弁理士】

【氏名又は名称】芝哲央

(74)【代理人】

【識別番号】100160794

【弁理士】

【氏名又は名称】星野寛明

(72)【発明者】

【氏名】八木順

【審査官】松田長親

(56)【参考文献】

【文献】特開２０１７－１６４８０１（ＪＰ，Ａ）

【文献】特開２０１８－１２０４５３（ＪＰ，Ａ）

【文献】特開２０２０－１２１３３８（ＪＰ，Ａ）

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｂ２３Ｋ２６／００－２６／７０

Ｇ０５Ｂ１９／４１５５

(57)【特許請求の範囲】

【請求項1】

レーザ加工機において、加工対象物の加工を制御するための少なくともレーザ走査の待機時間を含む加工条件の機械学習を行う機械学習装置であって、
複数の加工条件から加工条件を行動として選択し、前記レーザ加工機に行動を出力する行動出力部と、
前記行動により加工された加工対象物の加工状態を撮影した画像データを状態情報として取得する状態取得部と、
少なくとも前記状態取得部により取得した前記状態情報に基づいて算出される前記加工状態の加工精度及び前記レーザ走査の待機時間に基づいて報酬を算出する報酬算出部と、
前記状態取得部により取得した前記状態情報、及び前記報酬算出部により算出した前記報酬に基づいて前記加工条件の機械学習を行う学習部と、を備える機械学習装置。

【請求項2】

前記加工状態は、加工開始から加工終了までの間の加工途中の１つ以上の加工状態を含み、前記加工条件は、前記加工途中の加工状態にそれぞれ対応する加工条件を含む、請求項１に記載の機械学習装置。

【請求項3】

前記状態取得部により取得した前記状態情報に基づいて算出される前記加工状態の加工精度により前記行動の状態報酬を算出する状態報酬算出部と、
前記行動に含まれる少なくともレーザ走査の待機時間に基づいて算出する前記行動の行動報酬を算出する行動報酬算出部と、
を備え、
前記報酬算出部は、前記状態報酬と、前記行動報酬と、に基づいて前記行動の報酬を算出する、請求項１又は請求項２に記載の機械学習装置。

【請求項4】

前記状態報酬算出部は、前記状態取得部により取得した前記状態情報を、加工精度の高い加工対象物の加工状態を撮影した画像データのみに基づいて学習したオートエンコーダに入力して出力される再構築画像データに基づいて、前記加工状態の加工精度を算出する、請求項３に記載の機械学習装置。

【請求項5】

前記行動出力部は、複数の加工条件から１つの加工条件を行動として選択するための方策に基づいて前記レーザ加工機に行動を出力し、
前記学習部は、前記状態取得部により取得した複数の前記状態情報と、前記報酬算出部により算出した複数の行動報酬と、に基づいて、前記方策の評価及び改善を行う、
請求項１から請求項４のいずれか１項に記載の機械学習装置。

【請求項6】

前記学習部による学習結果に基づいて、前記加工条件を前記レーザ加工機に対して出力する最適化行動出力部を備える、請求項１から請求項５のいずれか１項に記載の機械学習装置。

【請求項7】

複数個の前記機械学習装置が、ネットワークを介して前記加工条件の機械学習を分散して実行する請求項１から請求項６のいずれか１項に記載の機械学習装置。

【請求項8】

前記学習部は、アクター・クリティック法による強化学習を行う、請求項１から請求項７のいずれか１項に記載の機械学習装置。

【請求項9】

請求項１から請求項８のいずれか１項に記載の機械学習装置と、
前記加工条件に基づいて、レーザ加工機を制御する制御部と、
を備えた制御装置。

【請求項10】

コンピュータにより実現される、レーザ加工機において、加工対象物の加工を制御するための少なくともレーザ走査の待機時間を含む加工条件の機械学習を行う機械学習方法であって、
複数の加工条件から加工条件を行動として選択し、前記レーザ加工機に行動を出力し、
前記行動により加工された加工対象物の加工状態を撮影した画像データを状態情報として取得し、
少なくとも取得された前記状態情報に基づいて算出される前記加工状態の加工精度及び前記レーザ走査の待機時間に基づいて報酬を算出し、
取得された前記状態情報、及び算出された前記報酬に基づいて前記加工条件の機械学習を行う
機械学習方法。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、機械学習装置、制御装置、及び機械学習方法に関する。

【背景技術】

【0002】

近年の持続可能な開発目標（ＳｕｓｔａｉｎａｂｌｅＤｅｖｅｌｏｐｍｅｎｔＧｏａｌｓ：ＳＤＧｓ）の策定により自動車や輸送機産業等では省エネルギーが重要課題となっている。そのため、自動車や輸送機産業等では電動化、軽量化に向けた取り組みが加速している。
例えば、軽量化を図るうえで、ＣＦＲＰ（ＣａｒｂｏｎＦｉｂｅｒＲｅｉｎｆｏｒｃｅｄＰｌａｓｔｉｃｓ：炭素繊維強化プラスチック）は軽量で強度が高いため適材であるとして利用が検討されている。しかし、ＣＦＲＰはその特性上、接触工具による切断が難しい（熱影響、素材構造の破壊や剥離、工具磨耗等）。そこで、レーザによる高速かつ高品位な加工が期待されている。
超短パルスレーザ（例えば、パルス幅がフェムト（１０^－１５）秒単位のフェムト秒パルスレーザ等）を使用する高品位加工、微細加工、アブレーション加工等の熱影響を抑えたＣＦＲＰの切断技術（リモート切断よりもさらに熱影響が少ない）が知られている。例えば、特許文献１参照。

【先行技術文献】

【特許文献】

【0003】

【文献】特開２０１７－１３１９５６号公報

【発明の概要】

【発明が解決しようとする課題】

【0004】

ところで、超短パルスレーザによる熱影響を抑えた切断加工は一度の走査では切断できないため、何度も繰り返し走査する。このとき、同一箇所を繰り返し走査するが、ＣＦＲＰへの熱影響が増加することによる加工精度の低下を避けるため、前回のレーザ走査からあえて時間を空けて（待機して）走査する必要がある。これにより、（走査時間＋待機時間）×繰り返し回数の加工時間を要し、生産効率が低くなる。
そこで、最適な加工条件を選定することにより、間接的に走査時間を短縮することに繋がる技術は提案されてきたが、待機時間を最小化して加工時間を短縮する技術はまだ提案されていない。
また、加工対象となるＣＦＲＰは用途に応じて、様々な種類（繊維形態や樹脂素材）のものが開発されており、材料毎に最適化された加工条件が選定される。このため、無数にある加工条件に対して最小の待機時間を求める必要がある。

【0005】

そこで、高い加工精度を維持したまま、待機時間を最小化して加工時間を短縮することが望まれている。

【課題を解決するための手段】

【0006】

（１）本開示の機械学習装置の一態様は、レーザ加工機において、加工対象物の加工を制御するための少なくともレーザ走査の待機時間を含む加工条件の機械学習を行う機械学習装置であって、複数の加工条件から加工条件を行動として選択し、前記レーザ加工機に行動を出力する行動出力部と、前記行動により加工された加工対象物の加工状態を撮影した画像データを状態情報として取得する状態取得部と、少なくとも前記状態取得部により取得した前記状態情報に基づいて算出される前記加工状態の加工精度及び前記レーザ走査の待機時間に基づいて報酬を算出する報酬算出部と、前記状態取得部により取得した前記状態情報、及び前記報酬算出部により算出した前記報酬に基づいて前記加工条件の機械学習を行う学習部と、を備える。

【0007】

（２）本開示の制御装置の一態様は、（１）の機械学習装置と、前記加工条件に基づいて、レーザ加工機を制御する制御部と、を備える。

【0008】

（３）本開示の機械学習方法の一態様は、コンピュータにより実現される、レーザ加工機において、加工対象物の加工を制御するための少なくともレーザ走査の待機時間を含む加工条件の機械学習を行う機械学習方法であって、複数の加工条件から加工条件を行動として選択し、前記レーザ加工機に行動を出力し、前記行動により加工された加工対象物の加工状態を撮影した画像データを状態情報として取得し、少なくとも取得された前記状態情報に基づいて算出される前記加工状態の加工精度及び前記レーザ走査の待機時間に基づいて報酬を算出し、取得された前記状態情報、及び算出された前記報酬に基づいて前記加工条件の機械学習を行う。

【発明の効果】

【0009】

一態様によれば、高い加工精度を維持したまま、待機時間を最小化して加工時間を短縮することができる。

【図面の簡単な説明】

【0010】

【図1】一実施形態に係る数値制御システムの機能的構成例を示す機能ブロック図である。

【図2】アクター・クリティック法による強化学習のアルゴリズムの基本的な概念を説明する図である。

【図3】機械学習装置の機能的構成例を示す機能ブロック図である。

【図4】更新された待機時間の行動方策の確率分布の一例を示す図である。

【図5】一実施形態における機械学習時の機械学習装置２０の動作を示すフローチャートである。

【図6】最適化行動出力部による最適化行動情報の生成時の動作を示すフローチャートである。

【図7】アクター・クリティックベースの深層強化学習器の一例を示す図である。

【図8】数値制御システムの構成の一例を示す図である。

【発明を実施するための形態】

【0011】

以下、本開示の一実施形態について、図面を用いて説明する。ここでは、フェムト秒パルスレーザを有するレーザ加工機を例示する。
また、レーザ加工機（フェムト秒パルスレーザ）を用いてＣＦＲＰ等の加工対象物を複数回レーザ走査して高品位加工、微細加工、アブレーション加工等により熱影響を抑えた穴加工、溝加工、切断等（以下、簡単のため「精度加工」ともいう）を行う際に、複数回のレーザ走査のうち予め設定された所定のレーザ走査（例えば、１回目、５回目、１０回目等のレーザ走査）毎に学習する場合を例示する。なお、本発明は、複数回のレーザ走査のうち最後のレーザ走査における１回の学習や、複数回のレーザ走査それぞれにおける学習に対しても適用可能である。
なお、以下の本実施形態の説明において、特に断らない限り、機械学習装置は、同じ材料、及び同じ加工形状である加工対象物の加工毎に機械学習する。
＜一実施形態＞
図１は、一実施形態に係る数値制御システムの機能的構成例を示す機能ブロック図である。
図１に示すように、数値制御システム１は、レーザ加工機１０、及び機械学習装置２０を有する。

【0012】

レーザ加工機１０、及び機械学習装置２０は、図示しない接続インタフェースを介して互いに直接接続されてもよい。また、レーザ加工機１０、及び機械学習装置２０は、ＬＡＮ（ＬｏｃａｌＡｒｅａＮｅｔｗｏｒｋ）やインターネット等の図示しないネットワークを介して相互に接続されていてもよい。この場合、レーザ加工機１０、及び機械学習装置２０は、かかる接続によって相互に通信を行うための図示しない通信部を備えている。なお、後述するように、数値制御装置１０１は、工作機械１０に含まれるが、工作機械１０と異なる装置でもよい。また、数値制御装置１０１は、機械学習装置２０を含んでもよい。

【0013】

レーザ加工機１０は、当業者にとって公知のレーザ加工機であり、前述したようにフェムト秒パルスレーザ１００を含む。なお、本実施例では、レーザ加工機１０は、数値制御装置１０１を含み、数値制御装置１０１からの動作指令に基づいて動作する構成を例示する。また、レーザ加工機１０は、カメラ１０２を含み、後述する数値制御装置１０１の制御指示に基づいてフェムト秒パルスレーザ１００により精度加工された加工対象物の加工状態をカメラ１０２に撮影させ、撮影された画像データを数値制御装置１０１に出力する構成を例示する。数値制御装置１０１及びカメラ１０２をレーザ加工機１０から独立させてもよい。

【0014】

数値制御装置１０１は、当業者にとって公知の数値制御装置であり、数値制御装置１０１に含まれるプロセッサ等の制御部（図示しない）を含む。制御部（図示しない）は、ＣＡＤ／ＣＡＭ装置等の外部装置（図示しない）から取得した加工プログラムに基づいて動作指令を生成し、生成した動作指令をレーザ加工機１０に送信する。これにより、数値制御装置１０１は、レーザ加工機１０による高品位加工、微細加工、アブレーション加工等の精度加工動作を制御する。
数値制御装置１０１は、レーザ加工機１０の動作を制御している間、レーザ加工機１０に含まれる図示しないフェムト秒パルスレーザのレーザ出力、送り速度、及びレーザ走査の待機時間等の加工条件を、複数回（例えば、１０回等）のレーザ走査のうち１回目、５回目、及び１０回目のレーザ走査毎に、後述する機械学習装置２０に出力してもよい。換言すれば、数値制御装置１０１は、加工途中、すなわち１回目及び５回目それぞれにおける加工対象物の加工状態に対応する加工条件を、後述する機械学習装置２０に出力してもよい。
また、数値制御装置１０１は、１つの加工対象物を精度加工するにあたり図示しないフェムト秒パルスレーザで当該加工対象物上を複数回（例えば、１０回等）レーザ走査させることから、例えば１回目、５回目及び１０回目のレーザ走査毎にカメラ１０２に加工対象物の加工状態を撮影させるようにしてもよい。数値制御装置１０１は、カメラ１０２により撮影された画像データの状態情報を、上述した加工条件とともに後述する機械学習装置２０に出力するようにしてもよい。

【0015】

設定装置１１１は、直近のレーザ加工機１０による高品位加工、微細加工、アブレーション加工等の精度加工動作に基づいて後述する機械学習装置２０から取得した行動としてのレーザ走査毎の待機時間を含む加工条件を、次の加工対象物の精度加工にあたりレーザ加工機１０に設定する。
なお、設定装置１１１は、数値制御装置１０１の制御部（図示しない）等のコンピュータで構成することができる。
また、設定装置１１１は、数値制御装置１０１と異なる装置でもよい。

【0016】

＜機械学習装置２０＞
機械学習装置２０は、数値制御装置１０１が加工プログラムを実行することで、レーザ加工機１０を動作させたとき、加工対象物を精度加工するレーザ走査毎にレーザ走査の待機時間を含む加工条件を強化学習する装置である。
機械学習装置２０に含まれる各機能ブロックの説明に先立って、まず強化学習として例示するアクター・クリティック法による強化学習の基本的な仕組みについて説明する。ただし、後述するように、強化学習はアクター・クリティック法による強化学習に限定されない。

【0017】

図２は、アクター・クリティック法による強化学習のアルゴリズムの基本的な概念を説明する図である。
図２に示すアクター・クリティック法における、アクターとクリティックの相互作用の順序について簡単に説明する。（１）アクターは、環境から状態ｓ_ｔを受け取る（エージェントの状態がｓ_ｔになる）。（２）エージェントは、アクターに与えられている行動方策π_ｔに基づき行動ａ_ｔを選択する。（３）時間がｔからｔ＋１に経過後に、クリティックは、エージェントの行動ａ_ｔの結果として、報酬ｒ_ｔ＋１を受け取る。（４）クリティックは、後述する数３式を用いてＴＤ（ＴｅｍｐｏｒａｌＤｉｆｆｅｒｅｎｃｅ）誤差を計算する。（５）アクターは、ＴＤ誤差の値に応じて、行動方策π_ｔの確率分布を、後述する数４式で更新する。（６）クリティックは、後述する数１式で状態価値関数を更新する。
より具体的には、アクター・クリティック法による強化学習では、図２に示すように、価値関数とは独立に、方策を表現する構造を別に持っている。すなわち、アクター・クリティック法による強化学習は、当業者に公知のＴＤ法の１種であり、行動方策π_ｔ（ｓ_ｔ，ａ_ｔ）に基づいて行動を選択する機構のアクター（行動器）と、アクターが現在利用している行動方策π_ｔ（ｓ_ｔ，ａ_ｔ）に対する評価を行う機構のクリティック（評価器）と、の２つの機構に分離して強化学習をモデル化している。
具体的には、アクター・クリティック法による強化学習では、例えば、或る時刻ｔにおける状態が状態ｓ_ｔのとき、状態ｓ_ｔがどのくらい良い状態であるのかを示す状態価値関数Ｖ^π（ｓ_ｔ）の更新式は、数１式のように表すことができる。

【数1】

ここで、γは、０＜γ≦１のパラメータで、割引率と呼ばれる。また、αは、ステップサイズパラメータ（学習係数）で、０＜α≦１の範囲とする。また、ｒ_ｔ＋１＋γＶ^π（ｓ_ｔ＋１）－Ｖ^π（ｓ_ｔ）は、ＴＤ誤差δ_ｔと呼ばれる。
なお、状態価値関数Ｖ^π（ｓ_ｔ）の更新式は、或る時刻ｔに対する実際の収益Ｒ_ｔ（＝ｒ_ｔ＋１＋γＶ（ｓ_ｔ＋１））を用いて、数２式のように表すことができる。

【数2】

また、上述のＴＤ誤差δ_ｔは、数３式のように、行動価値関数Ｑ^π（ｓ，ａ）から状態価値関数Ｖ^π（ｓ）を引いた、すなわち「行動のみ」の価値を示すアドバンテージ関数Ａ（ｓ，ａ）を示す。

【数3】

換言すれば、アクター・クリティック法による強化学習では、ＴＤ誤差δ_ｔ（アドバンテージ関数Ａ（ｓ，ａ））は、行った行動ａ_ｔを評価するために用いられる。すなわち、ＴＤ誤差δ_ｔ（アドバンテージ関数Ａ（ｓ，ａ））が正の値の場合、行った行動は価値を高めたことになるため、より選択されるように、逆に、ＴＤ誤差δ_ｔ（アドバンテージ関数Ａ（ｓ，ａ））が負の値の場合、行った行動は価値を低めたことになるため、選択されないようにする。
そうするために、アクターが状態ｓで行動ａを取る確率をｐ（ｓ，ａ）とする場合、行動方策π_ｔ（ｓ，ａ）の確率分布は、ｓｏｆｔｍａｘ関数を用いて、数４式のように表すことができる。

【数4】

そして、アクターは、数５式に基づいて確率ｐ（ｓ，ａ）の学習を行い、数４式の行動方策π_ｔ（ｓ，ａ）の確率分布を状態の価値が最大となるように更新する。

【数5】

ここで、βは正のステップサイズパラメータである。
また、クリティックは、数１式に基づいて状態価値関数Ｖ^π（ｓ_ｔ）を更新する。

【0018】

以上説明をしたアクター・クリティック法による強化学習を機械学習装置２０が行う。具体的には、機械学習装置２０は、複数回のレーザ走査のうち所定のレーザ走査（例えば、１回目、５回目、及び１０回目のレーザ走査）において撮影された加工対象物の加工状態の画像データの状態情報と、所定のレーザ走査の待機時間を含む加工条件と、を状態ｓ_ｔとして、当該状態ｓ_ｔに係る所定のレーザ走査の待機時間を含む加工条件の設定／変更を状態ｓ_ｔに対する行動ａ_ｔとして選択する、状態価値関数Ｖ^π（ｓ_ｔ）及び行動方策π_ｔ（ｓ_ｔ，ａ_ｔ）を学習する。
以下の説明では、加工開始から加工終了までのレーザ走査の回数として１０回とし、所定のレーザ走査の加工対象物の加工状態の画像データとして、１回目、５回目、及び１０回目のレーザ走査後に撮影された画像データを例示する。また、所定のレーザ走査の待機時間として、１回目のレーザ走査の待機時間、５回目のレーザ走査の待機時間、及び１０回目のレーザ走査の待機時間を例示する。なお、加工開始から加工終了までのレーザ走査の回数が１０回以外の複数回で、所定のレーザ走査の待機時間が、１回目、５回目、１０回目以外の場合でも、機械学習装置２０の動作は同様であり説明を省略する。

【0019】

機械学習装置２０は、カメラ１０２により撮影された１回目、５回目、及び１０回目のレーザ走査後の画像データと、１回目、５回目、及び１０回目のレーザ走査の待機時間を含む加工条件と、を含む状態情報（状態データ）ｓを観測して、行動ａを決定する。機械学習装置２０は、行動ａをするたびに報酬が返ってくる。機械学習装置２０は、将来にわたっての報酬の合計が最大になるように最適な行動ａを試行錯誤的に探索する。そうすることで、機械学習装置２０は、１回目、５回目、及び１０回目のレーザ走査後の画像データと、１回目、５回目、及び１０回目のレーザ走査の待機時間を含む加工条件と、を含む状態ｓに対して、最適な行動ａ（すなわち、「１回目のレーザ走査の待機時間」、「５回目のレーザ走査の待機時間」、及び「１０回目のレーザ走査の待機時間」）を選択することが可能となる。

【0020】

図３は、機械学習装置２０の機能的構成例を示す機能ブロック図である。
上述した強化学習を行うために、図３に示すように、機械学習装置２０は、状態取得部２１、記憶部２２、学習部２３、行動出力部２４、最適化行動出力部２５、及び制御部２６を備える。また、学習部２３は、前処理部２３１、第１学習部２３２、状態報酬算出部２３３、行動報酬算出部２３４、報酬算出部２３５、第２学習部２３６、及び行動決定部２３７を備える。制御部２６は、状態取得部２１、学習部２３、行動出力部２４、及び最適化行動出力部２５の動作を制御する。

【0021】

次に、機械学習装置２０の機能ブロックについて説明する。最初に記憶部２２について説明する。
記憶部２２は、ＳＳＤ（ＳｏｌｉｄＳｔａｔｅＤｒｉｖｅ）やＨＤＤ（ＨａｒｄＤｉｓｋＤｒｉｖｅ）等であり、各種の制御用プログラムとともに、目標データ２２１、及び画像データ２２２を記憶してもよい。
目標データ２２１は、レーザ加工機１０により精度加工された加工対象物であって、目標となる加工精度を有した複数の様々な加工対象物のカメラ１０２により撮影された画像データを加工結果として予め格納する。そして、目標データ２２１に格納された複数の画像データは、後述する第１学習部２３２に含まれる学習モデル（例えば、オートエンコーダ）を生成するために使用される。なお、目標となる加工精度で精度加工された加工対象物の加工時間は、特に気にすることなく、ゆっくり綺麗に加工するものとする。
本実施例では、目標データ２２１として、機械学習の対象とする、１回目、５回目、及び１０回目のレーザ走査後の加工対象物の加工状態を撮影した画像データであって、目標となる加工精度を有した画像データを予め収集して、記憶部２２に記憶する。そうすることで、後述する第１学習部２３２は、入出力にこれらの目標データを与えて学習することで、目標とする加工精度を有した画像データに含まれる特徴を学習する。そうすることで、第１学習部２３２により生成されるオートエンコーダに、目標とする加工精度を有した画像データを入力した場合、そのデータを正確に復元できるようになる。逆に、目標とする加工精度を有していない画像データを入力した場合、そのデータを正確に復元できない。これにより、後述するように、入力データと出力データとの誤差を算出することで、加工精度の良否の判断を行うことができる。
これに対して、画像データ２２２は、機械学習のために、レーザ走査の待機時間を含む複数の加工条件をそれぞれ適用して得られた、レーザ加工機１０により加工された加工対象物であって、カメラ１０２により撮影された１回目、５回目、及び１０回目のレーザ走査後の画像データを加工条件等に対応づけて格納する。

【0022】

上述したように、第１学習部２３２は、強化学習を行う際に、１回目、５回目、及び１０回目のレーザ走査後の画像データに基づいて、それぞれの処理加工結果の精度を算出するためのオートエンコーダを予め生成するものであるため、次に、第１学習部２３２の機能について説明する。
第１学習部２３２は、例えば、当業者にとって公知の手法（オートエンコーダ）を用いて、予め目標データ２２１に格納されている目標データの画像データを入力データ及び出力データとして１回目、５回目、及び１０回目のレーザ走査後の画像データ毎に予め機械学習し、１回目、５回目、及び１０回目のそれぞれ目標とする加工精度を有する画像データ毎に生成された１回目、５回目、及び１０回目に対応するオートエンコーダを有する。
後述するように、第２学習部２３６は、記憶部２２の画像データ２２２に記憶された、レーザ加工機１０により精度加工された加工対象物の１回目、５回目、及び１０回目のレーザ走査後の画像データのそれぞれを、１回目、５回目、及び１０回目の画像データ毎のオートエンコーダに入力することで、１回目、５回目、及び１０回目のレーザ走査後の画像データそれぞれに対する再構築画像を、後述する状態報酬算出部２３３に出力することができる。

【0023】

状態取得部２１は、図２のアクター・クリティック法による機械学習の（１）の機能部であり、カメラ１０２により撮影された１回目、５回目、及び１０回目のレーザ走査後の加工対象物の加工状態を示す画像データと、１回目、５回目、及び１０回目のレーザ走査の待機時間を含む加工条件と、を含む状態データｓを、数値制御装置１０１から取得する。この状態データｓは、強化学習における、環境状態ｓに相当する。
状態取得部２１は、取得した状態データｓを記憶部２２に出力する。

【0024】

学習部２３は、図２のアクター・クリティック法による機械学習の（２）から（６）の機能部であり、或る時刻ｔの状態データ（環境状態）ｓ_ｔの下で、或る行動ａ_ｔを選択する場合のアクター・クリティック法による強化学習における状態価値関数Ｖ^π（ｓ_ｔ）及び行動方策π_ｔ（ｓ_ｔ，ａ_ｔ）を学習する部分である。具体的には、学習部２３は、前処理部２３１、第１学習部２３２、状態報酬算出部２３３、行動報酬算出部２３４、報酬算出部２３５、第２学習部２３６、及び行動決定部２３７を有する。
なお、学習部２３は、学習を継続するかどうかを判断する。学習を継続するかどうかは、例えば、機械学習を始めてからの試行回数が最大試行回数に達したかどうか、又は、機械学習を始めてからの経過時間が所定時間を超えた(又は以上)かどうかに基づいて判断することができる。

【0025】

前処理部２３１は、画像データ２２２に格納されているカメラ１０２により撮影された現在精度加工されている加工対象物の１回目、５回目、及び１０回目のレーザ走査後の画像データを、後述する第１学習部２３２により生成された各オートエンコーダに入力するために、画像データからピクセル情報のデータに変換したり、画像データのサイズを整えたりする前処理を行う。

【0026】

状態報酬算出部２３３は、図２のアクター・クリティック法による機械学習の（３）の機能部であり、状態取得部２１により取得した状態情報に基づいて算出されるカメラ１０２により撮影された１回目、５回目、及び１０回目のレーザ走査後の画像データが示す加工状態の加工精度により行動の状態報酬を算出する。
具体的には、状態報酬算出部２３３は、例えば、第１学習部２３２により生成された各オートエンコーダに入力された１回目、５回目、及び１０回目のレーザ走査後の画像データそれぞれと、１回目、５回目、及び１０回目のレーザ走査後の画像データそれぞれに対応する再構築画像と、の誤差を算出する。状態報酬算出部２３３は、算出されたそれぞれの誤差の絶対値のマイナスの値を、１回目、５回目、及び１０回目のレーザ走査における行動の状態報酬ｒ１_ｓ、ｒ２_ｓ、ｒ３_ｓとして算出する。そして、状態報酬算出部２３３は、算出した状態報酬ｒ１_ｓ、ｒ２_ｓ、ｒ３_ｓを記憶部２２に記憶するようにしてもよい。ここで、誤差の算出は、任意の誤差関数を適用してもよい。

【0027】

行動報酬算出部２３４は、行動に含まれる少なくともレーザ走査の待機時間に基づいて算出する行動の行動報酬を算出する。
具体的には、行動報酬算出部２３４は、行動として決定された１回目、５回目、及び１０回目のレーザ走査の待機時間の値に応じて報酬を計算する。すなわち、行動報酬算出部２３４は、１回目、５回目、及び１０回目それぞれのレーザ走査の待機時間が短いほど（「０」に近いほど）良い報酬となるように、レーザ走査の待機時間の値を行動報酬ｒ１_ａ、ｒ２_ａ、ｒ３_aとして算出する。そして、行動報酬算出部２３４は、算出した行動報酬ｒ１_ａ、ｒ２_ａ、ｒ３_aを記憶部２２に記憶するようにしてもよい。

【0028】

報酬算出部２３５は、少なくとも状態取得部２１により取得した状態情報に基づいて算出される加工状態の加工精度及びレーザ走査の待機時間に基づいて或る状態ｓの下で、行動ａを選択した場合の報酬を算出する。
具体的には、報酬算出部２３５は、例えば、状態報酬算出部２３３により算出された１回目のレーザ走査の状態報酬ｒ１_ｓと、行動報酬算出部２３４により算出された行動報酬ｒ１_ａと、を例えば重み付け加算して報酬ｒ１を算出する。このように、状態報酬ｒ１_ｓと行動報酬ｒ１_ａとを重み付け加算することにより、加工状態の加工精度とレーザ走査の待機時間との両方の影響を反映した報酬ｒ１を算出することができる。
同様に、報酬算出部２３５は、状態報酬算出部２３３により算出された５回目のレーザ走査の状態報酬ｒ２_ｓと、行動報酬算出部２３４により算出された行動報酬ｒ２_ａと、を重み付け加算して報酬ｒ２を算出する。また、報酬算出部２３５は、状態報酬算出部２３３により算出された１０回目のレーザ走査の状態報酬ｒ３_ｓと、行動報酬算出部２３４により算出された行動報酬ｒ３_ａと、を重み付け加算して報酬ｒ３を算出する。
なお、報酬算出部２３５は、状態報酬ｒ１_ｓ、ｒ２_ｓ、ｒ３_ｓそれぞれと行動報酬ｒ１_ａ、ｒ２_ａ、ｒ３_aそれぞれとを単純に加算して報酬ｒ１、ｒ２、ｒ３を算出してもよく、状態報酬ｒ１_ｓ、ｒ２_ｓ、ｒ３_ｓそれぞれと行動報酬ｒ１_ａ、ｒ２_ａ、ｒ３_aとを変数とする関数を用いて報酬ｒ１、ｒ２、ｒ３を算出してもよい。

【0029】

第２学習部２３６は、上述したように、図２のアクター・クリティック法による強化学習の（４）から（６）の機能部であり、状態取得部２１により取得した複数の状態情報と、報酬算出部２３５により算出した複数の報酬ｒ１、ｒ２、ｒ３と、に基づいて、方策の評価及び更新を行う。

【0030】

具体的には、第２学習部２３６は、例えば、１回目のレーザ走査後の状態ｓ１_ｔに対する状態価値関数Ｖ^π１（ｓ１_ｔ）と、１回目のレーザ走査後の状態ｓ１_ｔに対する行動方策π_１ｔ（ｓ１_ｔ，ａ１_ｔ）を計算する。また、第２学習部２３６は、５回目のレーザ走査後の状態ｓ２_ｔに対する状態価値関数Ｖ^π２（ｓ２_ｔ）と、５回目のレーザ走査後の状態ｓ２_ｔに対する行動方策π_２ｔ（ｓ２_ｔ，ａ２_ｔ）を計算する。また、第２学習部２３６は、１０回目のレーザ走査後の状態ｓ３_ｔに対する状態価値関数Ｖ^π３（ｓ３_ｔ）と、１０回目のレーザ走査後の状態ｓ３_ｔに対する行動方策π_３ｔ（ｓ３_ｔ，ａ３_ｔ）を計算する。
そして、第２学習部２３６は、図２の（４）で説明したように、１回目のレーザ走査後の収益Ｒ１（＝ｒ１_ｔ＋ｒ１_ｔ－１＋…＋ｒ１_０）と算出した状態価値関数Ｖ^π１（ｓ１_ｔ）との差、すなわち状態ｓ１_ｔにおける数３式のＴＤ誤差δ_ｔを計算する。第２学習部２３６は、図２の（５）で説明したように、アクターとして、計算された状態ｓ１_ｔのＴＤ誤差δ_ｔに応じて行動方策π_１ｔ（ｓ１_ｔ，ａ１_ｔ）を更新する。
また、第２学習部２３６は、５回目のレーザ走査後の収益Ｒ２（＝ｒ２_ｔ＋ｒ２_ｔ－１＋…＋ｒ２_０）と算出した状態価値関数Ｖ^π２（ｓ２_ｔ）との差、すなわち状態ｓ２_ｔにおけるＴＤ誤差δ_ｔを計算する。第２学習部２３６は、アクターとして、計算された状態ｓ２_ｔのＴＤ誤差δ_ｔに応じて行動方策π_２ｔ（ｓ２_ｔ，ａ２_ｔ）を更新する。また、第２学習部２３６は、１０回目のレーザ走査後の収益Ｒ３（＝ｒ３_ｔ＋ｒ３_ｔ－１＋…＋ｒ３_０）と算出した状態価値関数Ｖ^π３（ｓ３_ｔ）との差、すなわち状態ｓ３_ｔにおけるＴＤ誤差δ_ｔを計算する。第２学習部２３６は、アクターとして、計算された状態ｓ３_ｔのＴＤ誤差δ_ｔに応じて行動方策π_３ｔ（ｓ３_ｔ，ａ３_ｔ）を更新する。
また、第２学習部２３６は、図２の（６）で説明したように、クリティックとして、計算された状態ｓ１_ｔのＴＤ誤差δ_ｔに応じて、状態価値関数Ｖ^π１（ｓ１_ｔ）を更新する。また、第２学習部２３６は、クリティックとして、計算された状態ｓ２_ｔのＴＤ誤差δ_ｔ）に応じて、状態価値関数Ｖ^π２（ｓ２_ｔ）を更新する。また、第２学習部２３６は、クリティックとして、計算された状態ｓ３_ｔのＴＤ誤差δ_ｔに応じて、状態価値関数Ｖ^π３（ｓ３_ｔ）を更新する。
図４は、更新された待機時間の行動方策π_１ｔ（ｓ１_ｔ，ａ１_ｔ）、π_２ｔ（ｓ２_ｔ，ａ２_ｔ）、π_３ｔ（ｓ３_ｔ，ａ３_ｔ）の確率分布の一例を示す図である。
なお、図４は、待機時間の行動方策の確率分布を示すが、第２学習部２３６は、加工条件に含まれる待機時間、レーザ出力、送り速度等の毎に行動方策の確率分布を更新してもよく、加工条件に含まれる待機時間、レーザ出力、送り速度等を全てまとめて１つの分布にして更新してもよい。

【0031】

行動決定部２３７は、図２のアクター・クリティック法による機械学習のうち（２）の機能部であり、１回目の状態ｓ１_ｔ、５回目の状態ｓ２_ｔ、１０回目の状態ｓ３_ｔそれぞれに対応する改善された確率的方策π_１ｔ（ｓ１_ｔ，ａ１_ｔ）、π_２ｔ（ｓ２_ｔ，ａ２_ｔ）、π_３ｔ（ｓ３_ｔ，ａ３_ｔ）に基づいて、行動ａ１_ｔ、ａ２_ｔ、ａ３_ｔをそれぞれ決定する。行動決定部２３７は、決定した行動ａ１_ｔ、ａ２_ｔ、ａ３_ｔを記憶部２２に記憶する。そして、後述する行動出力部２４は、記憶部２２から行動ａ１_ｔ、ａ２_ｔ、ａ３_ｔを取得する。
具体的には、行動決定部２３７は、例えば、図４に示す更新された各行動方策π_１ｔ（ｓ１_ｔ，ａ１_ｔ）、π_２ｔ（ｓ２_ｔ，ａ２_ｔ）、π_３ｔ（ｓ３_ｔ，ａ３_ｔ）の確率分布に基づいて行動ａ１_ｔ、ａ２_ｔ、ａ３_ｔをそれぞれ決定する。

【0032】

行動出力部２４は、図２のアクター・クリティック法による機械学習のうち（２）の機能部であり、学習部２３から出力される行動ａ１_ｔ、ａ２_ｔ、ａ３_ｔをレーザ加工機１０に対して出力する部分である。行動出力部２４は、例えば行動情報としての、更新された「１回目のレーザ走査の待機時間」、「５回目のレーザ走査の待機時間」、「１０回目のレーザ走査の待機時間」の値を含む加工条件を、レーザ加工機１０に出力するようにしてもよい。これにより、数値制御装置１０１は、受信して更新された「１回目のレーザ走査の待機時間」、「５回目のレーザ走査の待機時間」、「１０回目のレーザ走査の待機時間」の加工条件に基づいて、レーザ加工機１０の動作を制御する。

【0033】

最適化行動出力部２５は、学習部２３による学習結果に基づいて、「１回目のレーザ走査の待機時間」、「５回目のレーザ走査の待機時間」、「１０回目のレーザ走査の待機時間」の値を含む加工条件をレーザ加工機１０に対して出力する。
具体的には、最適化行動出力部２５は、記憶部２２に記憶されている行動方策π_１ｔ（ｓ１_ｔ，ａ１_ｔ）と、行動方策π_２ｔ（ｓ２_ｔ，ａ２_ｔ）と、行動方策π_３ｔ（ｓ３_ｔ，ａ３_ｔ）と、を取得する。行動方策π_１ｔ（ｓ１_ｔ，ａ１_ｔ）と、行動方策π_２ｔ（ｓ２_ｔ，ａ２_ｔ）と、行動方策π_３ｔ（ｓ３_ｔ，ａ３_ｔ）と、は、上述したように第２学習部２３６が機械学習を行うことにより更新したものである。そして、最適化行動出力部２５は、行動方策π_１ｔ（ｓ１_ｔ，ａ１_ｔ）と、行動方策π_２ｔ（ｓ２_ｔ，ａ２_ｔ）と、行動方策π_３ｔ（ｓ３_ｔ，ａ３_ｔ）と、に基づいて、行動情報を生成し、生成した行動情報をレーザ加工機１０に対して出力する。この最適化行動情報には、行動出力部２４が出力する行動情報と同様に、改善された「１回目のレーザ走査の待機時間」、「５回目のレーザ走査の待機時間」、「１０回目のレーザ走査の待機時間」の値を示す情報が含まれる。

【0034】

以上、機械学習装置２０に含まれる機能ブロックについて説明した。
これらの機能ブロックを実現するために、機械学習装置２０は、ＣＰＵ等の演算処理装置を備える。また、機械学習装置２０は、アプリケーションソフトウェアやＯＳ（ＯｐｅｒａｔｉｎｇＳｙｓｔｅｍ）等の各種の制御用プログラムを格納したＨＤＤ等の補助記憶装置や、演算処理装置がプログラムを実行する上で一時的に必要とされるデータを格納するためのＲＡＭといった主記憶装置も備える。

【0035】

そして、機械学習装置２０において、演算処理装置が補助記憶装置からアプリケーションソフトウェアやＯＳを読み込み、読み込んだアプリケーションソフトウェアやＯＳを主記憶装置に展開させながら、これらのアプリケーションソフトウェアやＯＳに基づいた演算処理を行なう。また、この演算結果に基づいて、機械学習装置２０が備える各種のハードウェアを制御する。これにより、本実施形態の機能ブロックは実現される。つまり、本実施形態は、ハードウェアとソフトウェアが協働することにより実現することができる。

【0036】

機械学習装置２０については機械学習に伴う演算量が多いため、例えば、パーソナルコンピュータにＧＰＵ（ＧｒａｐｈｉｃｓＰｒｏｃｅｓｓｉｎｇＵｎｉｔｓ）を搭載し、ＧＰＧＰＵ（Ｇｅｎｅｒａｌ－ＰｕｒｐｏｓｅｃｏｍｐｕｔｉｎｇｏｎＧｒａｐｈｉｃｓＰｒｏｃｅｓｓｉｎｇＵｎｉｔｓ）と呼ばれる技術により、ＧＰＵを機械学習に伴う演算処理に利用するようにすると高速処理できるようになるのでよい。さらには、より高速な処理を行うために、このようなＧＰＵを搭載したコンピュータを複数台用いてコンピュータ・クラスターを構築し、このコンピュータ・クラスターに含まれる複数のコンピュータにて並列処理を行うようにしてもよい。

【0037】

次に、図２のアクター・クリティック法による強化学習、及び図５のフローチャートを参照して本実施形態における機械学習時の機械学習装置２０の動作について説明をする。
図５は、一実施形態における機械学習時の機械学習装置２０の動作を示すフローチャートである。なお、前述したように、第１学習部２３２により、１回目、５回目、及び１０回目のレーザ走査後の画像データに基づいて、それぞれの処理加工結果の精度を算出するためのオートエンコーダは予め生成されているものとする。

【0038】

ステップＳ１０において、行動出力部２４は、図２の（２）で説明したように、行動をレーザ加工機１０に対して出力する。

【0039】

ステップＳ１１において、状態取得部２１は、図２の（１）で説明したように、レーザ加工機１０の状態として、レーザ加工機１０のカメラ１０２により撮影された１回目のレーザ走査後の画像データと、レーザ走査の待機時間を含む加工条件と、を含む状態データｓ１_ｔ、５回目のレーザ走査後の画像データと、レーザ走査の待機時間を含む加工条件と、を含む状態データｓ２_ｔ、及び１０回目のレーザ走査後の画像データと、レーザ走査の待機時間を含む加工条件と、を含む状態データｓ３_ｔを、数値制御装置１０１から取得する。

【0040】

ステップＳ１２において、報酬算出部２３５は、図２の（３）で説明したように、ステップＳ１１で取得された状態データｓ１_ｔ、ｓ２_ｔ、ｓ３_ｔに基づいて算出される加工状態の加工精度及びレーザ走査の待機時間に基づいて各状態データｓ１_ｔ、ｓ２_ｔ、ｓ３_ｔの下で、行動を選択した場合の報酬ｒ１、ｒ２、ｒ３を算出する。
具体的には、第２学習部２３６は、第１学習部２３２により生成された各オートエンコーダにステップＳ１１で取得された状態データｓ１_ｔ、ｓ２_ｔ、ｓ３_ｔの画像データそれぞれを入力し、状態データｓ１_ｔ、ｓ２_ｔ、ｓ３_ｔの画像データに対する再構築画像をそれぞれ出力する。状態報酬算出部２３３は、入力された状態データｓ１_ｔ、ｓ２_ｔ、ｓ３_ｔの画像データそれぞれと、出力された状態データｓ１_ｔ、ｓ２_ｔ、ｓ３_ｔの画像データに対する再構築画像それぞれと、の誤差を算出し、算出された誤差それぞれの絶対値のマイナスの値を、各状態データｓ１_ｔ、ｓ２_ｔ、ｓ３_ｔの状態報酬ｒ１_ｓ、ｒ２_ｓ、ｒ３_ｓとして算出する。また、行動報酬算出部２３４は、各状態データｓ１_ｔ、ｓ２_ｔ、ｓ３_ｔの待機時間が短いほど（「０」に近いほど）良い報酬となるように、レーザ走査の待機時間の値を行動報酬ｒ１_ａ、ｒ２_ａ、ｒ３_ａとして計算する。そして、報酬算出部２３５は、状態データｓ１_ｔ、ｓ２_ｔ、ｓ３_ｔ毎に、状態報酬算出部２３３により計算された状態報酬ｒ１_ｓ、ｒ２_ｓ、ｒ３_ｓそれぞれと、行動報酬算出部２３４により計算された行動報酬ｒ１_ａ、ｒ２_ａ、ｒ３_ａそれぞれと、を重み付け加算して報酬ｒ１_ｔ、ｒ２_ｔ、ｒ３_ｔを算出する。

【0041】

ステップＳ１３において、第２学習部２３６は、各状態（状態データ）ｓ１_ｔ、ｓ２_ｔ、ｓ３_ｔに対する状態価値関数Ｖ^π１（ｓ１_ｔ）、Ｖ^π２（ｓ２_ｔ）、Ｖ^π３（ｓ３_ｔ）と、行動方策π_１ｔ（ｓ１_ｔ，ａ１_ｔ）、行動方策π_２ｔ（ｓ２_ｔ，ａ２_ｔ）、行動方策π_３ｔ（ｓ３_ｔ，ａ３_ｔ）と、を計算する。そして、第２学習部２３６は、図２の（４）で説明したように、各状態（状態データ）ｓ１_ｔ、ｓ２_ｔ、ｓ３_ｔにおける収益Ｒ１、Ｒ２、Ｒ３それぞれと、計算した状態価値関数Ｖ^π１（ｓ１_ｔ）、状態価値関数Ｖ^π２（ｓ２_ｔ）、状態価値関数Ｖ^π３（ｓ３_ｔ）それぞれとの差を、各状態（状態データ）ｓ１_ｔ、ｓ２_ｔ、ｓ３_ｔにおけるＴＤ誤差δ_ｔとして計算する。

【0042】

ステップＳ１４において、第２学習部２３６は、図２の（５）で説明したように、アクターとして、ステップＳ１３で計算された各状態（状態データ）ｓ１_ｔ、ｓ２_ｔ、ｓ３_ｔのＴＤ誤差δ_ｔに応じて、行動方策π_１ｔ（ｓ１_ｔ，ａ１_ｔ）、行動方策π_２ｔ（ｓ２_ｔ，ａ２_ｔ）、行動方策π_３ｔ（ｓ３_ｔ，ａ３_ｔ）を更新する。また、第２学習部２３６は、図２の（６）で説明したように、クリティックとして、ステップＳ１３で計算された各状態（状態データ）ｓ１_ｔ、ｓ２_ｔ、ｓ３_ｔのＴＤ誤差δ_ｔに応じて、状態価値関数Ｖ^π１（ｓ１_ｔ）、状態価値関数Ｖ^π２（ｓ２_ｔ）、状態価値関数Ｖ^π３（ｓ３_ｔ）を更新する。

【0043】

ステップＳ１５において、行動決定部２３７は、図２の（２）で説明したように、１回目の状態ｓ１_ｔ、５回目の状態ｓ２_ｔ、１０回目の状態ｓ３_ｔそれぞれに対応する更新された確率的方策π_１ｔ（ｓ１_ｔ，ａ１_ｔ）、π_２ｔ（ｓ２_ｔ，ａ２_ｔ）、π_３ｔ（ｓ３_ｔ，ａ３_ｔ）に基づいて、行動ａ１_ｔ、ａ２_ｔ、ａ３_ｔをそれぞれ決定する。

【0044】

ステップＳ１６において、学習部２３は、機械学習を始めてからの試行回数が最大試行回数に到達したかどうかを判断する。最大試行回数は予め設定しておく。試行回数が最大試行回数に到達した場合、処理は終了する。試行回数が最大試行回数に到達していない場合、処理はステップＳ１７に進む。

【0045】

ステップＳ１７において、学習部２３は試行回数をカウントアップし、処理はステップＳ１０に戻る。

【0046】

なお、図５のフローは、試行回数が最大試行回数に到達したときに処理を終了させているが、ステップＳ１０からステップＳ１６の処理に係る時間を、機械学習を始めてから累積した時間が、予め設定された最大経過時間を超えた（又は以上になった）ことを条件として処理を終了するようにしてもよい。

【0047】

以上、図５を参照して説明した動作により、本実施形態では、高い加工精度を維持したまま、待機時間を最小化して加工時間を短縮するための行動情報を生成するための行動方策π_１ｔ（ｓ１_ｔ，ａ１_ｔ）、π_２ｔ（ｓ２_ｔ，ａ２_ｔ）、π_３ｔ（ｓ３_ｔ，ａ３_ｔ）を生成することができる。

【0048】

次に、図６のフローチャートを参照して、最適化行動出力部２５による最適化行動情報の生成時の動作について説明をする。
ステップＳ２１において、最適化行動出力部２５は、記憶部２２に記憶している行動方策π_１ｔ（ｓ１_ｔ，ａ１_ｔ）、π_２ｔ（ｓ２_ｔ，ａ２_ｔ）、π_３ｔ（ｓ３_ｔ，ａ３_ｔ）を取得する。行動方策π_１ｔ（ｓ１_ｔ，ａ１_ｔ）、π_２ｔ（ｓ２_ｔ，ａ２_ｔ）、π_３ｔ（ｓ３_ｔ，ａ３_ｔ）は、上述したように学習部２３がアクター・クリティック法による強化学習を行うことにより更新したものである。

【0049】

ステップＳ２２において、最適化行動出力部２５は、行動方策π_１ｔ（ｓ１_ｔ，ａ１_ｔ）、π_２ｔ（ｓ２_ｔ，ａ２_ｔ）、π_３ｔ（ｓ３_ｔ，ａ３_ｔ）に基づいて、最適化行動情報を生成し、生成した最適化行動情報をレーザ加工機１０に対して出力する。

【0050】

以上のように、機械学習装置２０は、高い加工精度を維持したまま、待機時間を最小化して加工時間を短縮することができる。

【0051】

以上、一実施形態について説明したが、機械学習装置２０は、上述の実施形態に限定されるものではなく、目的を達成できる範囲での変形、改良等を含む。

【0052】

＜変形例１＞
上述の実施形態では、機械学習装置２０は、数値制御装置１０１と異なる装置として例示したが、機械学習装置２０の一部又は全部の機能を、数値制御装置１０１が備えるようにしてもよい。
あるいは、機械学習装置２０の状態取得部２１、学習部２３、行動出力部２４、最適化行動出力部２５、及び制御部２６の一部又は全部を、例えば、サーバが備えるようにしてもよい。また、クラウド上で仮想サーバ機能等を利用して、機械学習装置２０の各機能を実現してもよい。
さらに、機械学習装置２０は、機械学習装置２０の各機能を適宜複数のサーバに分散される、分散処理システムとしてもよい。

【0053】

＜変形例２＞
また例えば、上述の実施形態では、機械学習装置２０は、状態データとして１回目、５回目、及び１０回目のレーザ走査後の３つとしたが、これに限定されない。例えば、機械学習装置２０は、１つの状態データでもよく、２つ以上の状態データでもよい。
機械学習装置２０は、例えば、状態データを１つとする場合、レーザ加工機１０による全ての走査が終了した１０回目のレーザ走査後の画像データと、レーザ走査の待機時間を含む加工条件と、を状態データｓ１_ｔとしてもよい。そうすることで、機械学習装置２０は、加工対象のワーク毎に待機時間を最小化して加工時間を短縮することができる。

【0054】

＜変形例３＞
また例えば、上述の実施形態では、機械学習装置２０（第２学習部２３６）は、アクター・クリティック法による強化学習を用いたが、これに限定されない。例えば、機械学習装置２０（第２学習部２３６）は、アクター・クリティック法を適用するに際して深層学習を実装してもよい。アクター・クリティック法の深層学習として、当業者にとって公知のＡ２Ｃ（ＡｄｖａｎｔａｇｅＡｃｔｏｒ－Ｃｒｉｔｉｃ）やＡ３Ｃ（ＡｓｙｎｃｈｒｏｎｏｕｓＡｄｖａｎｔａｇｅＡｃｔｏｒ－Ｃｒｉｔｉｃ）等のニューラルネットワークを用いたアクター・クリティックベースの深層強化学習器を用いてもよい。なお、Ａ２Ｃ又はＡ３Ｃについては、例えば、以下の非特許文献に詳細な記載がある。
図７は、アクター・クリティックベースの深層強化学習器の一例を示す図である。
図７に示すように、アクター・クリティックベースの深層強化学習器は、前処理された画像データ２２２の画像データ（状態データ）の状態ｓ_１～ｓ_ｎを入力して、行動ａ_１～ａ_ｍ毎にアドバンテージ関数値（ＴＤ誤差δ_ｔ）を出力するアクターと、状態価値関数Ｖ（ｓ）を出力するクリティックと、を含む（ｎ、ｍは正の整数）。アクター・クリティックベースの深層強化学習器のアクターは、出力されたアドバンテージ関数値（ＴＤ誤差δ_ｔ）をｓｏｆｔｍａｘ関数により確率に変換し、その分布を確率的方策として記憶部２２に保存してもよい。
なお、重みθ^１ _ｓ１～θ^１ _ｓｎは、各状態ｓ_１～ｓ_ｎの状態価値関数Ｖ（ｓ）を計算するためのパラメータであり、重みθ^１ _ｓ１～θ^１ _ｓｎの更新量ｄθ^１ _ｓ１～ｄθ^１ _ｓｎは、勾配降下法に基づく「アドバンテージ関数の二乗誤差」を用いた勾配である。また、重みθ^２ _ｓ１～θ^２ _ｓｎは、各状態ｓ_１～ｓ_ｎの行動方策π（ｓ，ａ）を計算するためのパラメータであり、重みθ^２ _ｓ１～θ^２ _ｓｎの更新量ｄθ^２ _ｓ１～ｄθ^２ _ｓｎは、方策勾配法に基づく「方策×アドバンテージ関数」の勾配である。

【0055】

＜非特許文献＞
「Asynchronous Methods for Deep Reinforcement Learning」、Volodymyr Mnih著、［ｏｎｌｉｎｅ］〈ＵＲＬ：https://arxiv.org/pdf/1602.01783.pdf〉

【0056】

＜変形例４＞
また例えば、上述の実施形態では、数値制御システム１において、１つのレーザ加工機１０と、１つの機械学習装置２０と、が通信可能に接続されたが、これに限定されない。例えば、図８に示すように、制御システム１は、１つのレーザ加工機１０と、ｍ個の機械学習装置２０Ａ（１）～２０Ａ（ｍ）とが、ネットワーク５０を介して接続されてもよい（ｍは２以上の整数）。この場合、機械学習装置２０Ａ（ｊ）の記憶部２２に格納された目標データ２２１及び画像データ２２２は、他の機械学習装置２０Ａ（ｋ）との間で共有されるようにしてもよい（ｊ、ｋは１からｍの整数であり、ｋ≠ｊ）。目標データ２２１及び画像データ２２２を機械学習装置２０Ａ（１）－２０Ａ（ｍ）で共有するようにすれば、各機械学習装置２０Ａにて分散して強化学習を行うことが可能となるので、強化学習の効率を向上させることが可能となる。
なお、機械学習装置２０Ａ（１）－２０Ａ（ｍ）の各々は、図１の機械学習装置２０に対応する。

【0057】

＜変形例５＞
また例えば、上述の実施形態では、機械学習装置２０は、レーザ加工機１０によるＣＦＲＰ等の加工対象物を複数回レーザ走査して高品位加工、微細加工、アブレーション加工等により穴加工、溝加工、切断等の精度加工に対して適用したが、これに限定されない。例えば、機械学習装置２０は、均一に敷き詰められた金属粉末に対してガルバノメーターミラーを介してレーザを照射することで照射部分のみの金属粉末を溶融して凝固（又は焼結）させ、当該照射を繰り返して積層することにより３次元の複雑な形状の加工対象物を生成する、レーザ加工機１０によるレーザ積層造形加工に対して適用してもよい。この場合の加工条件には、レーザ走査の待機時間に替えて、積層後の待機時間が、走査間隔、積層の厚さ等とともに含まれてもよい。

【0058】

＜変形例６＞
また例えば、上述の実施形態では、機械学習装置２０（第２学習部２３６）は、アクター・クリティック法による強化学習を用いたが、これに限定されない。例えば、機械学習装置２０（第２学習部２３６）は、或る環境の状態ｓの下で、行動ａを選択する行動価値関数Ｑ（ｓ，ａ）を学習する方法であるＱ学習（Ｑ－ｌｅａｒｎｉｎｇ）を用いてもよい。
Ｑ学習では、或る状態ｓのとき、取り得る行動ａのなかから、行動価値関数Ｑ（ｓ，ａ）の値が最も高い行動ａを最適な行動として選択することを目的とする。

【0059】

しかしながら、Ｑ学習を最初に開始する時点では、状態ｓと行動ａとの組合せについて、行動価値関数Ｑ（ｓ，ａ）の正しい値は全く分かっていない。そこで、エージェントは、或る状態ｓの下で様々な行動ａを選択し、その時の行動ａに対して、与えられる報酬に基づいて、より良い行動の選択をすることにより、正しい行動価値関数Ｑ（ｓ，ａ）を学習していく。

【0060】

また、将来にわたって得られる報酬の合計を最大化したいので、最終的にＱ（ｓ，ａ）＝Ｅ［Σ（γ^ｔ）ｒ_ｔ］となるようにすることを目指す。ここでＥ［］は期待値を表し、ｔは時刻、γは後述する割引率と呼ばれるパラメータ、ｒ_ｔは時刻ｔにおける報酬、Σは時刻ｔによる合計である。この式における期待値は、最適な行動に従って状態変化した場合の期待値である。しかしＱ学習の過程において最適な行動が何であるのかは不明であるので、様々な行動を行うことにより、探索しながら強化学習をする。このような行動価値関数Ｑ（ｓ，ａ）の更新式は、例えば、次の数６式により表すことができる。

【0061】

【数6】

上記の数６式において、ｓ_ｔは、時刻ｔにおける環境の状態を表し、ａ_ｔは、時刻ｔにおける行動を表す。行動ａ_ｔにより、状態はｓ_ｔ＋１に変化する。ｒ_ｔ＋１は、その状態の変化により得られる報酬を表している。また、ｍａｘの付いた項は、状態ｓ_ｔ＋１の下で、その時に分かっている最もＱ値の高い行動ａを選択した場合のＱ値にγを乗じたものになる。ここで、γは、０＜γ≦１のパラメータで、割引率と呼ばれる。また、αは、ステップサイズパラメータ（学習係数）で、０＜α≦１の範囲とする。

【0062】

上述した数６式は、試行ａ_ｔの結果、返ってきた報酬ｒ_ｔ＋１を元に、状態ｓ_ｔにおける行動ａ_ｔの行動価値関数Ｑ（ｓ_ｔ，ａ_ｔ）を更新する方法を表している。
この更新式は、状態ｓ_ｔにおける行動ａ_ｔの行動価値関数Ｑ（ｓ_ｔ，ａ_ｔ）よりも、行動ａ_ｔによる次の状態ｓ_ｔ＋１における最良の行動の価値ｍａｘ_ａＱ（ｓ_ｔ＋１，ａ）の方が大きければ、Ｑ（ｓ_ｔ，ａ_ｔ）を大きくし、逆に小さければ、Ｑ（ｓ_ｔ，ａ_ｔ）を小さくすることを示している。つまり、或る状態における或る行動の価値を、それによる次の状態における最良の行動の価値に近づける。ただし、その差は、割引率γと報酬ｒ_ｔ＋１のあり方により変わってくるが、基本的には、ある状態における最良の行動の価値が、それに至る１つ前の状態における行動の価値に伝播していく仕組みになっている。

【0063】

ここで、Ｑ学習では、すべての状態行動ペア（ｓ，ａ）についてのＱ（ｓ，ａ）のテーブルを作成して、学習を行う方法がある。しかし、すべての状態行動ペアのＱ（ｓ，ａ）の値を求めるには状態数が多すぎて、Ｑ学習が収束するのに多くの時間を要してしまう場合がある。

【0064】

そこで、公知のＤＱＮ（ＤｅｅｐＱ－Ｎｅｔｗｏｒｋ）と呼ばれる技術を利用するようにしてもよい。具体的には、行動価値関数Ｑを適当なニューラルネットワークを用いて構成し、ニューラルネットワークのパラメータを調整することにより、行動価値関数Ｑを適当なニューラルネットワークで近似することにより行動価値関数Ｑ（ｓ，ａ）の値を算出するようにしてもよい。ＤＱＮを利用することにより、Ｑ学習が収束するのに要する時間を短くすることが可能となる。なお、ＤＱＮについては、例えば、以下の非特許文献に詳細な記載がある。

【0065】

＜非特許文献＞
「Human-level control through deep reinforcement learning」、Volodymyr Mnih著［ｏｎｌｉｎｅ］、［平成２９年１月１７日検索］、インターネット〈ＵＲＬ：http://files.davidqiu.com/research/nature14236.pdf〉

【0066】

なお、一実施形態における、機械学習装置２０に含まれる各機能は、ハードウェア、ソフトウェア又はこれらの組み合わせによりそれぞれ実現することができる。ここで、ソフトウェアによって実現されるとは、コンピュータがプログラムを読み込んで実行することにより実現されることを意味する。

【0067】

機械学習装置２０に含まれる各構成部は、電子回路等を含むハードウェア、ソフトウェア又はこれらの組み合わせにより実現することができる。ソフトウェアによって実現される場合には、このソフトウェアを構成するプログラムが、コンピュータにインストールされる。また、これらのプログラムは、リムーバブルメディアに記録されてユーザに配布されてもよいし、ネットワークを介してユーザのコンピュータにダウンロードされることにより配布されてもよい。また、ハードウェアで構成する場合、上記の装置に含まれる各構成部の機能の一部又は全部を、例えば、ＡＳＩＣ（ＡｐｐｌｉｃａｔｉｏｎＳｐｅｃｉｆｉｃＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔ）、ゲートアレイ、ＦＰＧＡ（ＦｉｅｌｄＰｒｏｇｒａｍｍａｂｌｅＧａｔｅＡｒｒａｙ）、ＣＰＬＤ（ＣｏｍｐｌｅｘＰｒｏｇｒａｍｍａｂｌｅＬｏｇｉｃＤｅｖｉｃｅ）等の集積回路（ＩＣ）で構成することができる。

【0068】

プログラムは、様々なタイプの非一時的なコンピュータ可読媒体（Ｎｏｎ－ｔｒａｎｓｉｔｏｒｙｃｏｍｐｕｔｅｒｒｅａｄａｂｌｅｍｅｄｉｕｍ）を用いて格納され、コンピュータに供給することができる。非一時的なコンピュータ可読媒体は、様々なタイプの実体のある記録媒体（Ｔａｎｇｉｂｌｅｓｔｏｒａｇｅｍｅｄｉｕｍ）を含む。非一時的なコンピュータ可読媒体の例は、磁気記録媒体（例えば、フレキシブルディスク、磁気テープ、ハードディスクドライブ）、光磁気記録媒体（例えば、光磁気ディスク）、ＣＤ－ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）、ＣＤ－Ｒ、ＣＤ－Ｒ／Ｗ、半導体メモリ（例えば、マスクＲＯＭ、ＰＲＯＭ（ＰｒｏｇｒａｍｍａｂｌｅＲＯＭ）、ＥＰＲＯＭ（ＥｒａｓａｂｌｅＰＲＯＭ）、フラッシュＲＯＭ、ＲＡＭ）を含む。また、プログラムは、様々なタイプの一時的なコンピュータ可読媒体（Ｔｒａｎｓｉｔｏｒｙｃｏｍｐｕｔｅｒｒｅａｄａｂｌｅｍｅｄｉｕｍ）によってコンピュータに供給されてもよい。一時的なコンピュータ可読媒体の例は、電気信号、光信号、及び電磁波を含む。一時的なコンピュータ可読媒体は、電線及び光ファイバ等の有線通信路、又は、無線通信路を介して、プログラムをコンピュータに供給できる。

【0069】

なお、記録媒体に記録されるプログラムを記述するステップは、その順序に沿って時系列的に行われる処理はもちろん、必ずしも時系列的に処理されなくとも、並列的あるいは個別に実行される処理をも含むものである。

【0070】

以上を換言すると、本開示の機械学習装置、制御装置、及び機械学習方法は、次のような構成を有する各種各様の実施形態を取ることができる。

【0071】

（１）本開示の機械学習装置２０は、レーザ加工機１０において、加工対象物の加工を制御するための少なくともレーザ走査の待機時間を含む加工条件の機械学習を行う機械学習装置であって、複数の加工条件から加工条件を行動として選択し、レーザ加工機１０に行動を出力する行動出力部２４と、行動により加工された加工対象物の加工状態を撮影した画像データを状態情報として取得する状態取得部２１と、少なくとも状態取得部２１により取得した状態情報に基づいて算出される加工状態の加工精度及びレーザ走査の待機時間に基づいて報酬を算出する報酬算出部２３５と、状態取得部２１により取得した状態情報、及び報酬算出部２３５により算出した報酬に基づいて加工条件の機械学習を行う学習部２３と、を備える。
この機械学習装置２０によれば、高い加工精度を維持したまま、待機時間を最小化して加工時間を短縮することができる。

【0072】

（２）（１）に記載の機械学習装置２０において、加工状態は、加工開始から加工終了までの間の加工途中の１つ以上の加工状態を含み、加工条件は、加工途中の加工状態にそれぞれ対応する加工条件を含んでもよい。
そうすることで、機械学習装置２０は、加工精度の向上を図ることができる。

【0073】

（３）（１）又は（２）に記載の機械学習装置２０において、状態取得部２１により取得した状態情報に基づいて算出される加工状態の加工精度により行動の状態報酬を算出する状態報酬算出部２３３と、行動に含まれる少なくともレーザ走査の待機時間に基づいて算出する行動の行動報酬を算出する行動報酬算出部２３４と、を備え、報酬算出部２３５は、状態報酬と、行動報酬と、に基づいて行動の報酬を算出してもよい。
そうすることで、機械学習装置２０は、加工精度とレーザ走査の待機時間に応じた報酬を精度良く算出することができる。

【0074】

（４）（３）に記載の機械学習装置２０において、状態報酬算出部２３３は、状態取得部２１により取得した状態情報を、加工精度の高い加工対象物の加工状態を撮影した画像データのみに基づいて学習したオートエンコーダに入力して出力される再構築画像データに基づいて、加工状態の加工精度を算出する。
そうすることで、機械学習装置２０は、加工精度に応じた状態報酬を精度良く算出することができる。

【0075】

（５）（１）から（４）のいずれかに記載の機械学習装置２０において、行動出力部２４は、複数の加工条件から１つの加工条件を行動として選択するための方策に基づいてレーザ加工機１０に行動を出力し、学習部２３は、状態取得部２１により取得した複数の状態情報と、報酬算出部２３５により算出した複数の行動報酬と、に基づいて、方策の評価及び改善を行ってもよい。
そうすることで、機械学習装置２０は、最適な行動を選択することができる。

【0076】

（６）（１）から（５）のいずれかに記載の機械学習装置２０において、学習部２３による学習結果に基づいて、加工条件をレーザ加工機１０に対して出力する最適化行動出力部を備えてもよい。
そうすることで、機械学習装置２０は、最適な加工条件を出力することができる。

【0077】

（７）（１）から（６）のいずれかに記載の機械学習装置２０Ａにおいて、複数個の機械学習装置２０Ａが、ネットワーク５０を介して加工条件の機械学習を分散して実行してもよい。
そうすることで、機械学習装置２０Ａは、強化学習の効率を向上させることができる。

【0078】

（８）（１）から（７）のいずれかに記載の機械学習装置２０において、学習部２３は、アクター・クリティック法による強化学習を行ってもよい。
そうすることで、機械学習装置２０は、より精度良く待機時間を最小化して加工時間を短縮することができる。

【0079】

（９）本開示の数値制御装置１０１は、（１）から（６）のいずれかに記載の機械学習装置２０と、加工条件に基づいて、レーザ加工機１０を制御する制御部と、を備える。
この数値制御装置１０１によれば、（１）と同様の効果を奏することができる。

【0080】

（１０）本開示の機械学習方法は、コンピュータにより実現される、レーザ加工機１０において、加工対象物の加工を制御するための少なくともレーザ走査の待機時間を含む加工条件の機械学習を行う機械学習方法であって、複数の加工条件から加工条件を行動として選択し、レーザ加工機１０に行動を出力し、行動により加工された加工対象物の加工状態を撮影した画像データを状態情報として取得し、少なくとも取得された状態情報に基づいて算出される加工状態の加工精度及びレーザ走査の待機時間に基づいて報酬を算出し、取得された状態情報、及び算出された報酬に基づいて加工条件の機械学習を行う。
この機械学習方法によれば、（１）と同様の効果を奏することができる。

【符号の説明】

【0081】

１数値制御システム
１０レーザ加工機
１０１数値制御装置
１０２カメラ
２０機械学習装置
２１状態取得部
２２記憶部
２３学習部
２３１前処理部
２３２第１学習部
２３３状態報酬算出部
２３４行動報酬算出部
２３５報酬算出部
２３６第２学習部
２３７行動決定部
２４行動出力部
２５最適化行動出力部

【図1】