特許7509866 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ ファナック株式会社の特許一覧

特許7509866機械学習装置、制御装置及び機械学習方法

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】

(24)【登録日】2024-06-24

(45)【発行日】2024-07-02

(54)【発明の名称】機械学習装置、制御装置及び機械学習方法

(51)【国際特許分類】

G05B 13/02 20060101AFI20240625BHJP

H02P 29/00 20160101ALI20240625BHJP

【ＦＩ】

G05B13/02 L

H02P29/00

【請求項の数】 10

(21)【出願番号】P 2022515338

(86)(22)【出願日】2021-04-08

(86)【国際出願番号】 JP2021014870

(87)【国際公開番号】W WO2021210483

(87)【国際公開日】2021-10-21

【審査請求日】2022-11-21

(31)【優先権主張番号】P 2020072174

(32)【優先日】2020-04-14

(33)【優先権主張国・地域又は機関】JP

(73)【特許権者】

【識別番号】390008235

【氏名又は名称】ファナック株式会社

(74)【代理人】

【識別番号】100106002

【弁理士】

【氏名又は名称】正林真之

(74)【代理人】

【識別番号】100165157

【弁理士】

【氏名又は名称】芝哲央

(74)【代理人】

【識別番号】100160794

【弁理士】

【氏名又は名称】星野寛明

(72)【発明者】

【氏名】恒木亮太郎

(72)【発明者】

【氏名】猪飼聡史

【審査官】稲垣浩司

(56)【参考文献】

【文献】特開２０２０－５７２１１（ＪＰ，Ａ）

【文献】特開平９－５０３０３（ＪＰ，Ａ）

【文献】特開２０１７－３４８５２（ＪＰ，Ａ）

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｇ０５Ｂ１３／０２

Ｈ０２Ｐ２９／００

(57)【特許請求の範囲】

【請求項1】

モータを制御するサーボ制御装置に設けられた、少なくとも１つのフィルタの係数とフィードバックゲインとの少なくとも一方を最適化する機械学習を行う機械学習装置であって、
前記フィルタの係数と前記フィードバックゲインとの少なくとも一方、及び前記サーボ制御装置の入出力ゲインと入出力の位相遅れを含む状態情報を取得する状態情報取得部と、
前記状態情報に含まれる前記係数及び前記フィードバックゲインの少なくとも一方の調整情報を含む行動情報を出力する行動情報出力部と、
複素平面上の（－１，０）を内側に含み、所定のゲイン余裕及び位相余裕を通る閉曲線の内側を、前記入出力ゲインと前記入出力の位相遅れとから算出したナイキスト軌跡が通るかどうかに基づいて報酬を求めて出力する報酬出力部と、
前記報酬出力部により出力される報酬の値と、前記状態情報と、前記行動情報とに基づいて価値関数を更新する価値関数更新部と、
を備えた機械学習装置。

【請求項2】

前記報酬出力部は、前記閉曲線と前記ナイキスト軌跡との間の距離に基づいて報酬を求めて出力する、請求項１に記載の機械学習装置。

【請求項3】

前記閉曲線は円である、請求項１又は２に記載の機械学習装置。

【請求項4】

前記報酬出力部は、前記報酬にカットオフ周波数に基づいて計算される報酬を加えた合計の報酬を出力する、請求項１から３のいずれか１項に記載の機械学習装置。

【請求項5】

前記報酬出力部は、前記報酬に閉ループ特性に基づいて計算される報酬を加えた合計の報酬を出力する、請求項１から３のいずれか１項に記載の機械学習装置。

【請求項6】

前記報酬出力部は、前記報酬に、前記入出力ゲインと予め計算された規範となるゲインとの比較により計算される報酬を加えた合計の報酬を出力する、請求項１から３のいずれか１項に記載の機械学習装置。

【請求項7】

前記入出力ゲインと前記入出力の位相遅れとは、周波数特性算出装置によって算出され、
前記周波数特性算出装置は、周波数が変わる正弦波の入力信号と、前記サーボ制御装置の速度フィードバック情報とを用いて、前記入出力ゲインと前記入出力の位相遅れとを算出する、請求項１から６のいずれか１項に記載の機械学習装置。

【請求項8】

前記価値関数更新部により更新された価値関数に基づいて、前記係数及び前記フィードバックゲインの少なくとも一方の調整情報を出力する最適化行動情報出力部を備えた、請求項１から７のいずれか１項に記載の機械学習装置。

【請求項9】

請求項１から請求項８のいずれか１項に記載の機械学習装置と、
少なくとも１つのフィルタ、及びフィードバックゲインを設定する制御部を有する、モータを制御するサーボ制御装置と、
前記サーボ制御装置における、前記サーボ制御装置の入出力ゲインと入出力の位相遅れとを算出する周波数特性算出装置と、
を備えた制御装置。

【請求項10】

モータを制御するサーボ制御装置に設けられた、少なくとも１つのフィルタの係数とフィードバックゲインとの少なくとも一方を最適化する機械学習を行う機械学習装置の機械学習方法であって、
前記フィルタの係数と前記フィードバックゲインとの少なくとも一方、及び前記サーボ制御装置の入出力ゲインと入出力の位相遅れを含む状態情報を取得し、
前記状態情報に含まれる前記係数及び前記フィードバックゲインの少なくとも一方の調整情報を含む行動情報を出力し、
複素平面上の（－１，０）を内側に含み、所定のゲイン余裕及び位相余裕を通る閉曲線の内側を、前記入出力ゲインと前記入出力の位相遅れとから算出したナイキスト軌跡が通るかどうかに基づいて報酬を求めて出力し、
前記報酬の値と、前記状態情報と、前記行動情報とに基づいて価値関数を更新する、機械学習方法。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、モータを制御するサーボ制御装置に設けられた少なくとも１つのフィルタの係数とフィードバックゲインとの少なくとも一方を最適化する機械学習を行う機械学習装置、この機械学習装置を含む制御装置、及び機械学習方法に関する。

【背景技術】

【0002】

位置偏差等に基づいてフィルタの係数及び速度制御部のゲインを機械学習する機械学習装置が、例えば特許文献１に記載されている。
具体的には、特許文献１には、サーボモータを制御する制御部のパラメータと、位置指令とトルク指令の少なくとも一方の補正値とを変更する変更部を備えるサーボモータ制御装置に対して、機械学習を行う機械学習装置であって、所定のプログラムをサーボモータ制御装置に実行させることにより、位置指令と、位置偏差を含むサーボ状態と、パラメータと補正値の組み合わせと、を含む状態情報を取得する状態情報取得手段と、状態情報に含まれるパラメータと補正値との組み合わせの調整情報を含む行動情報を出力する行動情報出力手段と、状態情報に含まれる前記位置偏差に基づく、強化学習における報酬の値を出力する報酬出力手段と、報酬出力手段により出力される報酬の値と、状態情報と、行動情報とに基づいて価値関数を更新する価値関数更新手段と、を備える機械学習装置が記載されている。
更に特許文献１には、サーボモータ制御装置の制御部は、位置指令に基づいて速度指令を生成する位置制御部と、位置制御部から出力される速度指令に基づいてトルク指令を生成する速度制御部と、速度制御部から出力されるトルク指令の所定周波数範囲の周波数の信号を減衰させるフィルタとを備え、変更部は、行動情報に基づいて位置制御部と速度制御部との少なくとも一方のゲイン、フィルタのフィルタ係数、及び位置指令又はトルク指令に加えるトルクオフセット値と摩擦補正値との少なくとも一方を変更することが記載されている。

【0003】

また、フィルタ部の出力信号のノイズ成分、ノイズ量及び入力信号に対する応答性の少なくとも１つに基づいて、フィルタ部に関連付けられる条件を学習する機械学習装置が、例えば特許文献２に記載されている。
具体的には、特許文献２には、アナログの入力信号をフィルタするフィルタ部に関連付けられる条件を学習する機械学習装置であって、フィルタ部の出力信号のノイズ成分、ノイズ量及び入力信号に対する応答性のうちの少なくとも１つから構成される状態変数を観測する状態観測部と、状態変数によって構成される訓練データセットに従って、フィルタ部に関連付けられる条件を学習する学習部と、を備えることを特徴とする機械学習装置が記載されている。

【先行技術文献】

【特許文献】

【0004】

【文献】特開２０１９－１２８８３０号公報

【文献】特開２０１７－３４８５２号公報

【発明の概要】

【発明が解決しようとする課題】

【0005】

速度ゲイン又はフィルタを調整する際、安定余裕の目安として位相余裕及びゲイン余裕で評価することが行われている。しかし、位相余裕とゲイン余裕とを別々に評価するとそれぞれの評価は“点”での評価になるため、これらの指標を機械学習の評価関数に導入しても、測定の揺らぎなどの影響を受けやすい。
よって、位相余裕とゲイン余裕との両方を考慮して速度ゲイン及びフィルタの少なくとも一方を調整することが望まれている。

【課題を解決するための手段】

【0006】

（１）本開示の一態様は、モータを制御するサーボ制御装置に設けられた、少なくとも１つのフィルタの係数とフィードバックゲインとの少なくとも一方を最適化する機械学習を行う機械学習装置であって、
前記フィルタの係数と前記フィードバックゲインとの少なくとも一方、及び前記サーボ制御装置の入出力ゲインと入出力の位相遅れを含む状態情報を取得する状態情報取得部と、
前記状態情報に含まれる前記係数及び前記フィードバックゲインの少なくとも一方の調整情報を含む行動情報を出力する行動情報出力部と、
複素平面上の（－１，０）を内側に含み、所定のゲイン余裕及び位相余裕を通る閉曲線の内側を、前記入出力ゲインと前記入出力の位相遅れとから算出したナイキスト軌跡が通るかどうかに基づいて報酬を求めて出力する報酬出力部と、
前記報酬出力部により出力される報酬の値と、前記状態情報と、前記行動情報とに基づいて価値関数を更新する価値関数更新部と、
を備えた機械学習装置である。

【0007】

（２）本開示の他の態様は、上記（１）の機械学習装置と、
少なくとも１つのフィルタ、及びフィードバックゲインを設定する制御部を有する、モータを制御するサーボ制御装置と、
前記サーボ制御装置における、前記サーボ制御装置の入出力ゲインと入出力の位相遅れとを算出する周波数特性算出装置と、
を備えた制御装置である。

【0008】

（３）本開示の更に他の態様は、モータを制御するサーボ制御装置に設けられた、少なくとも１つのフィルタの係数とフィードバックゲインとの少なくとも一方を最適化する機械学習を行う機械学習装置の機械学習方法であって、
前記フィルタの係数と前記フィードバックゲインとの少なくとも一方、及び前記サーボ制御装置の入出力ゲインと入出力の位相遅れを含む状態情報を取得し、
前記状態情報に含まれる前記係数及び前記フィードバックゲインの少なくとも一方の調整情報を含む行動情報を出力し、
複素平面上の（－１，０）を内側に含み、所定のゲイン余裕及び位相余裕を通る閉曲線の内側を、前記入出力ゲインと前記入出力の位相遅れとから算出したナイキスト軌跡が通るかどうかに基づいて報酬を求めて出力し、
前記報酬の値と、前記状態情報と、前記行動情報とに基づいて価値関数を更新する、機械学習方法である。

【発明の効果】

【0009】

本開示の各態様によれば、位相余裕とゲイン余裕との両方を考慮してフィードバックゲイン及びフィルタの係数の少なくとも一方を調整することができ、測定の揺らぎなどの影響を受けることなく、サーボ系の安定性を確保しつつ、応答性を高くすることができる。

【図面の簡単な説明】

【0010】

【図1】本開示の一実施形態の機械学習装置を含む制御装置を示すブロック図である。

【図2】本開示の一実施形態の機械学習部を示すブロック図である。

【図3】複素平面上にナイキスト軌跡、単位円、及びゲイン余裕と位相余裕を通る円を示す図である。

【図4】ゲイン余裕と位相余裕、及びゲイン余裕と位相余裕を通る円の説明図である。

【図5】閉ループのボーデ線図である。

【図6】閉ループの規範モデルを示すブロック線図である。

【図7】規範モデルのサーボ制御部と、学習前及び学習後のサーボ制御部との入出力ゲインの周波数特性を示す特性図である。

【図8】本実施形態におけるＱ学習時の機械学習部の動作を示すフローチャートである。

【図9】本発明の一実施形態の機械学習部の最適化行動情報出力部の動作を説明するフローチャートである。

【図10】複数のフィルタを直接接続してフィルタを構成した例を示すブロック図である。

【図11】制御装置の他の構成例を示すブロック図である。

【発明を実施するための形態】

【0011】

以下、本開示の実施形態について図面を用いて詳細に説明する。

【0012】

図１は本開示の一実施形態の機械学習装置を含む制御装置を示すブロック図である。
制御装置１０は、サーボ制御部１００、周波数生成部２００、周波数特性算出部３００及び機械学習部４００を備えている。サーボ制御部１００はサーボ制御装置に対応し、周波数特性算出部３００は周波数特性算出装置に対応し、機械学習部４００は機械学習装置に対応する。
なお、周波数生成部２００、周波数特性算出部３００及び機械学習部４００のうちの一つ又は複数は、サーボ制御部１００の内に設けてもよい。周波数特性算出部３００は、機械学習部４００内に設けられてもよい。

【0013】

サーボ制御部１００は、減算器１１０、速度制御部１２０、フィルタ１３０、電流制御部１４０、及びモータ１５０を備えている。減算器１１０、速度制御部１２０、フィルタ１３０、電流制御部１４０、及びモータ１５０は、閉ループとなる速度フィードバックループのサーボ系を構成する。モータ１５０は、直線運動をするリニアモータ、回転軸を有するモータ等を用いることができる。モータ１５０によって駆動される対象は、例えば、工作機械、ロボット、産業機械の機構部である。モータ１５０は、工作機械、ロボット、産業機械等の一部として設けられてもよい。制御装置１０は、工作機械、ロボット、産業機械等の一部として設けられてもよい。

【0014】

減算器１１０は、入力された速度指令と速度フィードバックされた検出速度との差を求め、その差を速度偏差として速度制御部１２０に出力する。

【0015】

速度制御部１２０は、速度偏差に積分ゲインＫ１ｖを乗じて積分した値と、速度偏差に比例ゲインＫ２ｖを乗じた値とを加算して、トルク指令としてフィルタ１３０に出力する。速度制御部１２０はフィードバックゲインを設定する制御部となる。

【0016】

フィルタ１３０は、特定の周波数成分を減衰させるフィルタで、例えばノッチフィルタ、ローパスフィルタ又はバンドストップフィルタが用いられる。モータ１５０で駆動される機構部を有する工作機械等の機械では共振点が存在し、サーボ制御部１００で共振が増大する場合がある。ノッチフィルタ等のフィルタは、共振を低減することができる。フィルタ１３０の出力は、トルク指令として電流制御部１４０に出力される。
数式１（以下に数１として示す）は、フィルタ１３０としてのノッチフィルタの伝達関数Ｆ(ｓ)を示す。パラメータは係数ω_ｃ、τ、δを示す。
数式１の係数δは、減衰係数、係数ω_ｃは中心角周波数、係数τは比帯域である。中心周波数をｆｃ、帯域幅をｆｗとすると、係数ω_ｃはω_ｃ＝２πｆｃ、係数τはτ＝ｆｗ／ｆｃで表される。

【数1】

【0017】

電流制御部１４０は、トルク指令に基づいてモータ１５０を駆動するための電流指令を生成し、その電流指令をモータ１５０に出力する。
モータ１５０がリニアモータの場合、可動部の位置は、モータ１５０に設けられたリニアスケール（図示せず）によって検出され、位置検出値を微分することで速度検出値を求め、求められた速度検出値は速度フィードバックとして減算器１１０に入力される。
モータ１５０が回転軸を有するモータの場合、回転角度位置は、モータ１５０に設けられたロータリーエンコーダ（図示せず）によって検出され、速度検出値は速度フィードバックとして減算器１１０に入力される。
以上のようにサーボ制御部１００は構成されるが、速度制御部１２０のゲインの最適なゲイン、及びフィルタ１３０の最適なパラメータの少なくとも１つを機械学習するために、制御装置１０は、周波数生成部２００、周波数特性算出部３００及び機械学習部４００を更に備える。

【0018】

周波数生成部２００は、周波数を変化させながら正弦波信号を速度指令として、サーボ制御部１００の減算器１１０及び周波数特性算出部３００に出力する。

【0019】

周波数特性算出部３００は、周波数生成部２００で生成された、入力信号となる速度指令（正弦波）と、ロータリーエンコーダ（図示せず）から出力された出力信号となる検出速度（正弦波）又はリニアスケールから出力される出力信号となる検出位置の積分（正弦波）とを用いて、速度指令により規定される各周波数ごとに、入力信号と出力信号との振幅比（入出力ゲイン）と位相遅れとを求める。

【0020】

機械学習部４００は、周波数特性算出部３００から出力される入出力ゲイン（振幅比）及び位相遅れを用いて、速度制御部１２０の積分ゲインＫ１ｖ及び比例ゲインＫ２ｖのうちの１つ又は両方のゲイン、及びフィルタ１３０の伝達関数の係数ω_ｃ、τ、δの少なくとも一方を機械学習（以下、学習という）する。機械学習部４００による学習は出荷前に行われるが、出荷後に再学習を行ってもよい。
以下、機械学習部４００の構成及び動作の詳細について更に説明する。以下の説明ではモータ１５０によって工作機械の機構部が駆動される場合を例にとって説明する。

【0021】

＜機械学習部４００＞
以下の説明では、機械学習部４００が強化学習を行う場合について説明するが、機械学習部４００が行う学習は特に強化学習に限定されず、例えば、教師あり学習を行う場合にも本発明は適用可能である。

【0022】

機械学習部４００に含まれる各機能ブロックの説明に先立って、まず強化学習の基本的な仕組みについて説明する。エージェント（本実施形態における機械学習部４００に相当）は、環境の状態を観測し、ある行動を選択し、当該行動に基づいて環境が変化する。環境の変化に伴って、何らかの報酬が与えられ、エージェントはより良い行動の選択（意思決定）を学習する。
教師あり学習が、完全な正解を示すのに対して、強化学習における報酬は、環境の一部の変化に基づく断片的な値であることが多い。このため、エージェントは、将来にわたっての報酬の合計を最大にするように行動を選択するように学習する。

【0023】

このように、強化学習では、エージェントは、行動を学習することにより、環境に行動が与える相互作用を踏まえて適切な行動を学習、すなわち将来的に得られる報酬を最大にするための学習する方法を学ぶ。これは、本実施形態において、エージェントが、例えば、機械端の振動を抑制するための行動情報を選択するという、未来に影響をおよぼすような行動を獲得できることを表している。

【0024】

ここで、強化学習としては、任意の学習方法を用いることができるが、以下の説明では、或る環境の状態Ｓの下で、行動Ａを選択する価値Ｑ（Ｓ，Ａ）を学習する方法であるＱ学習（Q-learning）を用いる場合を例にとって説明をする。
Ｑ学習では、或る状態Ｓのとき、取り得る行動Ａのなかから、価値Ｑ（Ｓ，Ａ）の最も高い行動Ａを最適な行動として選択することを目的とする。

【0025】

しかしながら、エージェントは、Ｑ学習を最初に開始する時点では、状態Ｓと行動Ａとの組合せについて、価値Ｑ（Ｓ，Ａ）の正しい値は全く分かっていない。そこで、エージェントは、或る状態Ｓの下で様々な行動Ａを選択し、その時の行動Ａに対して、与えられる報酬に基づいて、より良い行動の選択をすることにより、正しい価値Ｑ（Ｓ，Ａ）を学習していく。

【0026】

また、エージェントは、将来にわたって得られる報酬の合計を最大化したいので、最終的にＱ（Ｓ，Ａ）＝Ｅ［Σ（γ^ｔ）ｒ_ｔ］となるようにすることを目指す。ここでＥ［］は期待値を表し、ｔは時刻、γは後述する割引率と呼ばれるパラメータ、ｒ_ｔは時刻ｔにおける報酬、Σは時刻ｔによる合計である。この式における期待値は、最適な行動に従って状態変化した場合の期待値である。しかしＱ学習の過程において最適な行動が何であるのかは不明であるので、エージェントは、様々な行動を行うことにより、探索しながら強化学習をする。このような価値Ｑ（Ｓ，Ａ）の更新式は、例えば、次の数式２（以下に数２として示す）により表すことができる。

【0027】

【数2】

【0028】

上記の数式２において、Ｓ_ｔは、時刻ｔにおける環境の状態を表し、Ａ_ｔは、時刻ｔにおける行動を表す。行動Ａ_ｔにより、状態はＳ_ｔ＋１に変化する。ｒ_ｔ＋１は、その状態の変化により得られる報酬を表している。また、ｍａｘの付いた項は、状態Ｓ_ｔ＋１の下で、その時に分かっている最もＱ値の高い行動Ａを選択した場合のＱ値にγを乗じたものになる。ここで、γは、０＜γ≦１のパラメータで、割引率と呼ばれる。また、αは、学習係数で、０＜α≦１の範囲とする。

【0029】

上述した数式２は、試行Ａ_ｔの結果、返ってきた報酬ｒ_ｔ＋１を元に、状態Ｓ_ｔにおける行動Ａ_ｔの価値Ｑ（Ｓ_ｔ，Ａ_ｔ）を更新する方法を表している。
この更新式は、状態Ｓ_ｔにおける行動Ａ_ｔの価値Ｑ（Ｓ_ｔ，Ａ_ｔ）よりも、行動Ａ_ｔによる次の状態Ｓ_ｔ＋１における最良の行動の価値ｍａｘ_ａＱ（Ｓ_ｔ＋１，Ａ）の方が大きければ、Ｑ（Ｓ_ｔ，Ａ_ｔ）を大きくし、逆に小さければ、Ｑ（Ｓ_ｔ，Ａ_ｔ）を小さくすることを示している。つまり、更新式は、或る状態における或る行動の価値を、それによる次の状態における最良の行動の価値に近づける。ただし、その差は、割引率γと報酬ｒ_ｔ＋１のあり方により変わってくるが、基本的には、ある状態における最良の行動の価値が、それに至る一つ前の状態における行動の価値に伝播していく仕組みになっている。

【0030】

ここで、Ｑ学習では、すべての状態行動ペア（Ｓ，Ａ）についてのＱ（Ｓ，Ａ）のテーブルを作成して、学習を行う方法がある。しかし、この学習方法を用いると、すべての状態行動ペアのＱ（Ｓ，Ａ）の値を求めるには状態数が多すぎて、Ｑ学習が収束するのに多くの時間を要してしまう場合がある。

【0031】

そこで、公知のＤＱＮ（Deep Q-Network）と呼ばれる技術を利用するようにしてもよい。具体的には、ＤＱＮを利用して、価値関数Ｑを適当なニューラルネットワークを用いて構成し、ニューラルネットワークのパラメータを調整することにより、価値関数Ｑを適当なニューラルネットワークで近似することにより価値Ｑ（Ｓ，Ａ）の値を算出するようにしてもよい。ＤＱＮを利用することにより、Ｑ学習が収束するのに要する時間を短くすることが可能となる。なお、ＤＱＮについては、例えば、以下の非特許文献に詳細な記載がある。

【0032】

＜非特許文献＞
「Human-level control through deep reinforcement learning」、Volodymyr Mnih1著［ｏｎｌｉｎｅ］、［平成２９年１月１７日検索］、インターネット〈ＵＲＬ：http://files.davidqiu.com/research/nature14236.pdf〉

【0033】

以上説明をしたＱ学習を機械学習部４００が行う。具体的には、機械学習部４００は、速度制御部１２０の積分ゲインＫ１ｖと比例ゲインＫ２ｖ、フィルタ１３０の伝達関数の各係数ω_ｃ、τ、δの値、及び周波数特性算出部３００から出力された入出力ゲイン（振幅比）と位相遅れを状態Ｓとして、当該状態Ｓに係る、速度制御部１２０の積分ゲインＫ１ｖと比例ゲインＫ２ｖ、及びフィルタ１３０の伝達関数の各係数ω_ｃ、τ、δの値の調整を行動Ａとして選択する価値Ｑを学習する。

【0034】

機械学習部４００は、速度制御部１２０の積分ゲインＫ１ｖと比例ゲインＫ２ｖ、及びフィルタ１３０の伝達関数の各係数ω_ｃ、τ、δに基づいて、前述した周波数が変化する正弦波である速度指令を用いてサーボ制御部１００を駆動することで周波数特性算出部３００から得られた、各周波数ごとの入出力ゲインと位相遅れとを含む状態情報Ｓを観測して、行動Ａを決定する。機械学習部４００は、行動Ａをするたびに報酬が返ってくる。
機械学習部４００は、例えば、将来にわたっての報酬の合計が最大になるように最適な行動Ａを試行錯誤的に探索する。そうすることで、機械学習部４００は、速度制御部１２０の積分ゲインＫ１ｖと比例ゲインＫ２ｖ、及びフィルタ１３０の伝達関数の各係数ω_ｃ、τ、δに基づいて、周波数が変化する正弦波である速度指令を用いてサーボ制御部１００を駆動することで周波数特性算出部３００から得られた、各周波数ごとの入出力ゲインと位相遅れとを含む状態Ｓに対して、最適な行動Ａ（すなわち、速度制御部１２０の積分ゲインＫ１ｖと比例ゲインＫ２ｖ、及びフィルタ１３０の伝達関数の最適な係数ω_ｃ、τ、δ）を選択することが可能となる。

【0035】

すなわち、機械学習部４００は、学習された価値関数Ｑに基づいて、或る状態Ｓに係る速度制御部１２０の積分ゲインＫ１ｖと比例ゲインＫ２ｖ、及びフィルタ１３０の伝達関数の各係数ω_ｃ、τ、δに対して適用される行動Ａのうち、Ｑの値が最大となるような行動Ａを選択する。そして、機械学習部４００は、Ｑの値が最大となるような行動Ａを選択することで、周波数が変化する正弦波信号を生成するプログラムを実行することで生ずるサーボ制御部１００の安定余裕が所定の値以上となるような行動Ａ（すなわち、速度制御部１２０の積分ゲインＫ１ｖと比例ゲインＫ２ｖ、及び／又はフィルタ１３０の伝達関数の各係数ω_ｃ、τ、δ）を選択することが可能となる。

【0036】

図２は本開示の一実施形態の機械学習部４００を示すブロック図である。
上述した強化学習を行うために、図２に示すように、機械学習部４００は、状態情報取得部４０１、学習部４０２、行動情報出力部４０３、価値関数記憶部４０４、及び最適化行動情報出力部４０５を備える。学習部４０２は報酬出力部４０２１、価値関数更新部４０２２、及び行動情報生成部４０２３を備える。

【0037】

状態情報取得部４０１は、速度制御部１２０の積分ゲインＫ１ｖと比例ゲインＫ２ｖ、及びフィルタ１３０の伝達関数の各係数ω_ｃ、τ、δに基づいて、速度指令（正弦波）を用いてサーボ制御部１００を駆動することで得られた、入出力ゲイン（振幅比）と位相遅れとを含む状態Ｓを周波数特性算出部３００から取得する。この状態情報Ｓは、Ｑ学習における、環境状態Ｓに相当する。
状態情報取得部４０１は、取得した状態情報Ｓを学習部４０２に対して出力する。

【0038】

なお、最初にＱ学習を開始する時点での速度制御部１２０の積分ゲインＫ１ｖと比例ゲインＫ２ｖ、及びフィルタ１３０の伝達関数の各係数ω_ｃ、τ、δは、予めユーザが生成する。本実施形態では、機械学習部４００が、ユーザが作成した、速度制御部１２０の積分ゲインＫ１ｖと比例ゲインＫ２ｖ、及び／又はフィルタ１３０の伝達関数の各係数ω_ｃ、τ、δの初期設定値を、強化学習により最適なものに調整する。
なお、積分ゲインＫ１ｖ、比例ゲインＫ２ｖ、及び係数ω_ｃ、τ、δは予め操作者が工作機械を調整している場合には、調整済の値を初期値として機械学習してもよい。

【0039】

学習部４０２は、或る環境状態Ｓの下で、ある行動Ａを選択する場合の価値Ｑ（Ｓ，Ａ）を学習する部分である。

【0040】

まず、学習部４０２の報酬出力部４０２１について説明する。
報酬出力部４０２１は、或る状態Ｓの下で、行動Ａを選択した場合の報酬を求める部分である。

【0041】

速度フィードバックループは、減算器１１０と、伝達関数Ｈの開ループの回路とから構成される。開ループの回路は、図１に示した、速度制御部１２０、フィルタ１３０、電流制御部１４０、及びモータ１５０によって構成される。ある周波数ω_０のときの速度フィードバックループの入出力ゲインをｃ、位相遅れをθとしたとき、閉ループ周波数特性Ｇ（ｊω_０）はｃ・ｅ^ｊθとなる。閉ループ周波数特性Ｇ（ｊω_０）は、開ループ周波数特性Ｈ（ｊω_０）を用いて、Ｇ（ｊω_０）＝Ｈ（ｊω_０）／（１＋Ｈ（ｊω_０））と示される。よって、ある周波数ω_０のときの開ループ周波数特性Ｈ（ｊω_０）は、Ｈ（ｊω_０）＝Ｇ（ｊω_０）／（１－Ｇ（ｊω_０））＝ｃ・ｅ^ｊθ／（１－ｃ・ｅ^ｊθ）で求めることができる。

【0042】

報酬出力部４０２１は、積分ゲインＫ１ｖと比例ゲインＫ２ｖ、及び係数ω_ｃ、τ、δに基づいて、周波数が変化する速度指令（正弦波）を用いてサーボ制御部１００を駆動することで得られた入出力ゲインと位相遅れを状態情報取得部４０１から得る。変化する周波数をωとしたとき、開ループ周波数特性Ｈ（ｊω）は、上述したように、関係式Ｈ（ｊω）＝Ｇ（ｊω）／（１－Ｇ（ｊω））で求めることができる。報酬出力部４０２１は、状態情報取得部４０１から得られた入出力ゲインと位相遅れとを用い、開ループ周波数特性Ｈ（ｊω）を複素平面に描画することでナイキスト軌跡を作成する。
初期状態のナイキスト軌跡は、ユーザが設定した積分ゲインＫ１ｖと比例ゲインＫ２ｖ、及び係数ω_ｃ、τ、δに基づいて、速度指令（正弦波）を用いてサーボ制御部１００を駆動することで得られる。Ｑ学習の過程におけるナイキスト軌跡は、積分ゲインＫ１ｖと比例ゲインＫ２ｖ、及び／又は係数ω_ｃ、τ、δを修正し、速度指令（正弦波）を用いてサーボ制御部１００を駆動することで得られる。図３は複素平面上にナイキスト軌跡、単位円、及びゲイン余裕と位相余裕を通る円を示す図である。図３は、初期状態のナイキスト軌跡（点線）及び比例ゲインと積分ゲインをそれぞれ１．５倍したときのナイキスト軌跡（実線）を示している。図４はゲイン余裕と位相余裕、及びゲイン余裕と位相余裕を通る円の説明図である。

【0043】

ユーザは、予め開ループの回路１００Ａのゲイン余裕と位相余裕の値を設定する。図３及び図４に示すように、複素平面上に（－１，０）を通る単位円を描くと、実軸上にユーザが設定したゲイン余裕を示し、単位円上にユーザが設定した位相余裕を示すことができる。

【0044】

報酬出力部４０２１は、複素平面上に、（－１，０）を内側に含み、実軸上のゲイン余裕と単位円上の位相余裕を通る閉曲線を作成する。
以下の説明では、図３及び図４に示すように、閉曲線を円とし、円の半径を半径ｒ、円とナイキスト軌跡との最短距離を最短距離ｄとして説明する。ここでは最短距離ｄは、円の中心（図４の黒点）とナイキスト軌跡との最短距離とするが、これに限定されず、例えば円の外周とナイキスト軌跡との最短距離としてもよい。
なお、閉曲線は、円に限定されず、円以外の閉曲線、例えば菱形、四角形、又は楕円等であってもよい。

【0045】

報酬出力部４０２１は、最短距離ｄが半径ｒより小さく（ｄ＜ｒ）、ナイキスト軌跡が閉曲線の内側を通る場合は負の値の報酬を与える。一方、報酬出力部４０２１は、最短距離ｄが半径ｒと等しいか又は大きく（ｄ≧ｒ）、ナイキスト軌跡が円の内側を通らない場合はゼロ又は正の値の報酬を与える。

【0046】

機械学習部４００は、上記のように報酬を与えることで、円の内側をナイキスト軌跡が通らず、ゲイン余裕及び位相余裕をユーザの設定した値以上となる、速度制御部１２０の積分ゲインＫ１ｖと比例ゲインＫ２ｖ、及びフィルタ１３０の伝達関数の係数ω_ｃ、τ、δを試行錯誤的に探索する。

【0047】

以上説明した例では、ナイキスト軌跡が閉曲線となる円の内側を通るかどうかを、円とナイキスト軌跡との最短距離に基づいて決めているが、この方法に限定されず他の方法を用いてもよく、例えば、ナイキスト軌跡が閉曲線となる円の外周と接する又は円と交わるか否かによって判断してもよい。

【0048】

（応答速度を考慮した例）
円上（ｄ＝ｒ）、又は円の外側（ｄ＞ｒ）をナイキスト軌跡が通る場合に、ナイキスト軌跡が円から離れるほどゲイン余裕と位相余裕は大きくなりサーボ系の安定度は増すが、フィードバックゲインが低下し応答速度は低下する。
そこで、報酬出力部４０２１は、ユーザが決めたゲイン余裕と位相余裕以上で、フィードバックゲインをできる限り大きくなるように報酬を与えることが望ましい。以下、報酬出力部４０２１が、ユーザが決めたゲイン余裕と位相余裕以上で、フィードバックゲインをできる限り大きくするように報酬を決める方法の３つの例について説明する。

【0049】

（１）カットオフ周波数に基づいて報酬を決める方法
報酬出力部４０２１は、積分ゲインＫ１ｖと比例ゲインＫ２ｖ、及び係数ω_ｃ、τ、δに基づいて、速度指令（正弦波）を用いてサーボ制御部１００を駆動することで得られた、閉ループの入出力ゲイン（振幅比）と位相遅れからボーデ線図を作成する。図５は、閉ループのボーデ線図の一例を示す。
カットオフ周波数は、例えば、ボーデ線図のゲイン特性が－３ｄＢとなる周波数、又は位相特性が－１８０度となる周波数である。図５ではゲイン特性が－３ｄＢとなる周波数をカットオフ周波数として示している。

【0050】

報酬出力部４０２１は、カットオフ周波数が大きくなるように報酬を決める。
具体的には、報酬出力部４０２１は、積分ゲインＫ１ｖと比例ゲインＫ２ｖ、及び／又は係数ω_ｃ、τ、δを修正し、修正前の状態Ｓから状態Ｓ´となった場合にカットオフ周波数ｆcutが大きくなるか、同じか又は小さくなるかで報酬を決める。以下の説明において、状態Ｓのときのカットオフ周波数ｆcutをｆcut（Ｓ）、状態Ｓ´のときのカットオフ周波数ｆcutをｆcut（Ｓ´）と記載する。

【0051】

状態Ｓから状態Ｓ´となった場合に、カットオフ周波数ｆcutが大きくなったとき、報酬出力部４０２１は、カットオフ周波数ｆcut（Ｓ´）＞カットオフ周波数ｆcut（Ｓ）として、正の値の報酬を与える。
状態Ｓから状態Ｓ´となった場合に、カットオフ周波数ｆcutが変わらないとき、報酬出力部４０２１は、カットオフ周波数ｆcut（Ｓ´）＝カットオフ周波数ｆcut（Ｓ）として、ゼロの値の報酬を与える。
状態Ｓから状態Ｓ´となった場合に、カットオフ周波数ｆcutが小さくなったとき、報酬出力部４０２１は、カットオフ周波数ｆcut（Ｓ´）＜カットオフ周波数ｆcut（Ｓ）として、負の値の報酬を与える。

【0052】

以上のように報酬を決めることで、機械学習部４００は、ナイキスト軌跡が円上又は円の外側を通る場合に、カットオフ周波数ｆcutが大きくなるように速度制御部１２０の積分ゲインＫ１ｖと比例ゲインＫ２ｖ、及び／又はフィルタ１３０の伝達関数の係数ω_ｃ、τ、δを試行錯誤的に探索する。
カットオフ周波数ｆcutが大きくなることで、フィードバックゲインが増大し応答速度は速くなる。

【0053】

（２）閉ループ特性に基づいて報酬を決める方法
報酬出力部４０２１は、積分ゲインＫ１ｖと比例ゲインＫ２ｖ、及び係数ω_ｃ、τ、δに基づいて、速度指令（正弦波）を用いてサーボ制御部１００を駆動することで得られた、閉ループの入出力ゲイン（振幅比）と位相遅れから、閉ループの伝達関数Ｇ（ｊω）を求める。報酬出力部４０２１は、予め設定された周波数領域での評価関数ｆとして、ｆ＝Σ｜１－Ｇ（ｊω）｜^２を適用することができる。
報酬出力部４０２１は、評価関数ｆの値が小さくなるように報酬を決める。
具体的には、報酬出力部４０２１は、積分ゲインＫ１ｖと比例ゲインＫ２ｖ、及び／又は係数ω_ｃ、τ、δを修正し、修正前の状態Ｓから状態Ｓ´となった場合に、評価関数ｆの値が小さくなるか、同じか又は大きくなるかで報酬を決める。以下の説明において、状態Ｓのときの評価関数ｆの値をｆ（Ｓ）、状態Ｓ´のときの評価関数ｆの値をｆ（Ｓ´）と記載する。
評価関数ｆの値が小さくなれば、図５に示す閉ループのボーデ線図のカット周波数が大きくなる。

【0054】

状態Ｓから状態Ｓ´となった場合に、評価関数ｆの値が小さくなったとき、報酬出力部４０２１は、評価関数の値ｆ（Ｓ´）＜評価関数の値ｆ（Ｓ）として、正の値の報酬を与える。
状態Ｓから状態Ｓ´となった場合に、評価関数ｆの値が変わらないとき、報酬出力部４０２１は、評価関数の値ｆ（Ｓ´）＝評価関数の値ｆ（Ｓ）として、ゼロの値の報酬を与える。
状態Ｓから状態Ｓ´となった場合に、評価関数ｆの値が大きくなったとき、報酬出力部４０２１は、評価関数の値ｆ（Ｓ´）＞評価関数の値ｆ（Ｓ）として、負の値の報酬を与える。

【0055】

以上のように報酬を決めることで、機械学習部４００は、ナイキスト軌跡が円上又は円の外側を通る場合に、評価関数ｆの値が小さくなるように速度制御部１２０の積分ゲインＫ１ｖと比例ゲインＫ２ｖ、及びフィルタ１３０の伝達関数の係数ω_ｃ、τ、δを試行錯誤的に探索する。
評価関数ｆの値が小さくなることで、フィードバックゲインが増大し応答速度は速くなる。

【0056】

（３）最短距離ｄが半径ｒに近づくように報酬を決める方法
円上（ｄ＝ｒ）、又は円の外側（ｄ＞ｒ）をナイキスト軌跡が通る場合に、ナイキスト軌跡が閉曲線に近づくように報酬を決める。
具体的には、報酬出力部４０２１は、積分ゲインＫ１ｖと比例ゲインＫ２ｖ、及び／又は係数ω_ｃ、τ、δを修正し、修正前の状態Ｓから状態Ｓ´となった場合に、円の中心とナイキスト軌跡との最短距離ｄが小さくなるか、同じか、又は大きくなるかで報酬を決める。以下の説明において、状態Ｓのときの最短距離ｄをｄ（ｓ）、状態Ｓ´のときの最短距離ｄをｄ（ｓ´）と記載する。

【0057】

状態Ｓから状態Ｓ´となった場合に、最短距離ｄが小さくなったとき、報酬出力部４０２１は、最短距離ｄ（Ｓ´）＜最短距離ｄ（Ｓ）として、正の値の報酬を与える。
状態Ｓから状態Ｓ´となった場合に、最短距離ｄが変わらないとき、報酬出力部４０２１は、最短距離ｄ（Ｓ´）＝最短距離ｄ（Ｓ）として、ゼロの値の報酬を与える。
状態Ｓから状態Ｓ´となった場合に、最短距離ｄが大きくなったとき、報酬出力部４０２１は、最短距離ｄ（Ｓ´）＞最短距離ｄ（Ｓ）として、負の値の報酬を与える。

【0058】

以上のように報酬を決めることで、機械学習部４００は、ナイキスト軌跡が円上を通る又は円の外周に近づくように速度制御部１２０の積分ゲインＫ１ｖと比例ゲインＫ２ｖ、及び／又はフィルタ１３０の伝達関数の係数ω_ｃ、τ、δを試行錯誤的に探索する。
ナイキスト軌跡が円上を通る又は円の外周に近づくことで、フィードバックゲインが増大し応答速度は速くなる。
最短距離ｄの情報に基づいて報酬を決める方法は上記の方法に限定されず、他の方法を適用することができる。

【0059】

（共振を考慮した例）
円上（ｄ＝ｒ）、又は円の外側（ｄ＞ｒ）をナイキスト軌跡が通る場合でも、制御対象となる機械の機械端の共振により入出力ゲインが増大する場合がある。
そこで、報酬出力部４０２１は、ユーザが決めたゲイン余裕と位相余裕以上で、共振を抑制するように報酬を決めることが望ましい。以下、開ループ特性と規範モデルとの比較により報酬を決める方法について説明する。

【0060】

以下、報酬出力部４０２１が、作成した周波数特性における各周波数ごとの入出力ゲインが規範モデルの入出力ゲインよりも大きい場合に、負の報酬を与える動作について図６及び図７を用いて説明する。

【0061】

報酬出力部４０２１は、入出力ゲインの規範モデルを保存している。規範モデルは、共振のない理想的な特性を有するサーボ制御部のモデルである。規範モデルは、例えば、図６に示すモデルのイナーシャＪａ、トルク定数Ｋ_ｔ、比例ゲインＫ_ｐ、積分ゲインＫ_Ｉ、微分ゲインＫ_Ｄから計算で求めることができる。イナーシャＪａはモータイナーシャと機械イナーシャとの加算値である。

【0062】

図７は、規範モデルのサーボ制御部と、学習前及び学習後のサーボ制御部１００との入出力ゲインの周波数特性を示す特性図である。図７の特性図に示すように、規範モデルは、一定の入出力ゲイン以上、例えば、－２０ｄＢ以上での理想的な入出力ゲインとなる周波数領域である領域ＦＡと、一定の入出力ゲイン未満となる周波数領域である領域ＦＢとを備えている。図７の領域ＦＡにおいて、規範モデルの理想的な入出力ゲインを曲線ＭＣ_１（太線）で示す。図７の領域ＦＢにおいて、規範モデルの理想的な仮想入出力ゲインを曲線ＭＣ_１１（破線の太線）で示し、規範モデルの入出力ゲインを一定値として直線ＭＣ_１２（太線）で示す。図７の領域ＦＡ及びＦＢにおいて、学習前及び学習後のサーボ制御部との入出力ゲインの曲線を、それぞれ曲線ＲＣ_１、ＲＣ_２で示す。

【0063】

報酬出力部４０２１は、領域ＦＡでは、作成した周波数特性における各周波数ごとの入出力ゲインの学習前の曲線ＲＣ_１が規範モデルの理想的な入出力ゲインの曲線ＭＣ_１を超えた場合は、負の報酬を与える。
入出力ゲインが十分小さくなる周波数を超える領域ＦＢでは、学習前の入出力ゲインの曲線ＲＣ_１が規範モデルの理想的な仮想入出力ゲインの曲線ＭＣ_１１を超えたとしても安定性への影響が小さくなる。そのため領域ＦＢでは、上述したように、規範モデルの入出力ゲインは、理想的なゲイン特性の曲線ＭＣ_１１ではなく、一定値の入出力ゲイン（例えば、－２０ｄＢ）の直線ＭＣ_１２を用いる。しかし、学習前の測定した入出力ゲインの曲線ＲＣ_１が一定値の入出力ゲインの直線ＭＣ_１2を超えた場合には、不安定になる可能性があるため、報酬出力部４０２１は、報酬として負の値を与える。

【0064】

なお、入出力ゲインのゲインを調整する場合、行動情報出力部４０３は、速度制御部１２０の積分ゲインＫ１ｖと比例ゲインＫ２ｖ、及び／又はフィルタ１３０の伝達関数の係数ω_ｃ、τ、δを調整する。フィルタ１３０の特性は、フィルタ１３０の帯域幅ｆｗによって、ゲイン及び位相が変わり、フィルタ１３０の減衰係数ｋによって、ゲイン及び位相が変わる。よって、行動情報出力部４０３は、フィルタ１３０の係数を調整することで入出力ゲインのゲインを調整することができる。

【0065】

報酬出力部４０２１は、最短距離ｄが半径ｒより小さく（ｄ＜ｒ）、ナイキスト軌跡が閉曲線の内側を通る場合で負の値の報酬を与えた場合は、この負の値の報酬を価値関数更新部４０２２に出力する。報酬出力部４０２１は、最短距離ｄが半径ｒと等しいか又は大きく（ｄ≧ｒ）、ナイキスト軌跡が円の内側を通らない場合で正の値の報酬を与えた場合は、この正の値の報酬を価値関数更新部４０２２に出力する。
報酬出力部４０２１は、応答速度を考慮した３つの例又は共振を考慮した例で報酬を与えた場合は、この報酬に、ナイキスト軌跡が円の内側を通らない場合に与えられる正の値の報酬を加えた合計の報酬を価値関数更新部４０２２に出力する。

【0066】

なお、報酬を加算する場合、報酬に重みを与えてもよい。例えば、サーボ系の安定性を重視する場合は、ナイキスト軌跡が円の内側を通らない場合に与えられる正の値の報酬は、応答速度を考慮した３つの例又は共振を考慮した例で与える報酬よりも重要度を高くするような重みを与えることができる。
以上、報酬出力部４０２１について説明した。

【0067】

価値関数更新部４０２２は、状態Ｓと、行動Ａと、行動Ａを状態Ｓに適用した場合の状態Ｓ´と、上記のようにして求めた報酬と、に基づいてＱ学習を行うことにより、価値関数記憶部４０４が記憶する価値関数Ｑを更新する。
価値関数Ｑの更新は、オンライン学習で行ってもよく、バッチ学習で行ってもよく、ミニバッチ学習で行ってもよい。
オンライン学習は、或る行動Ａを現在の状態Ｓに適用することにより、状態Ｓが新たな状態Ｓ´に遷移する都度、即座に価値関数Ｑの更新を行う学習方法である。また、バッチ学習は、或る行動Ａを現在の状態Ｓに適用することにより、状態Ｓが新たな状態Ｓ´に遷移することを繰り返すことにより、学習用のデータを収集し、収集した全ての学習用データを用いて、価値関数Ｑの更新を行う学習方法である。更に、ミニバッチ学習は、オンライン学習と、バッチ学習の中間的な、ある程度学習用データが溜まるたびに価値関数Ｑの更新を行う学習方法である。

【0068】

行動情報生成部４０２３は、現在の状態Ｓに対して、Ｑ学習の過程における行動Ａを選択する。行動情報生成部４０２３は、Ｑ学習の過程において、速度制御部１２０の積分ゲインＫ１ｖと比例ゲインＫ２ｖ、及び／又はフィルタ１３０の伝達関数の各係数ω_ｃ、τ、δを修正する動作（Ｑ学習における行動Ａに相当）を行わせるために、行動情報Ａを生成して、生成した行動情報Ａを行動情報出力部４０３に対して出力する。
より具体的には、行動情報生成部４０２３は、例えば、状態Ｓに含まれる、速度制御部１２０の積分ゲインＫ１ｖと比例ゲインＫ２ｖ、及び／又はフィルタ１３０の伝達関数の各係数ω_ｃ、τ、δに対して行動Ａに含まれる、速度制御部１２０の積分ゲインＫ１ｖと比例ゲインＫ２ｖ、及びフィルタ１３０の伝達関数の各係数ω_ｃ、τ、δをインクレメンタルに加算又は減算する。

【0069】

なお、行動情報生成部４０２３は、速度制御部１２０の積分ゲインＫ１ｖと比例ゲインＫ２ｖ、及びフィルタ１３０の各係数ω_ｃ、τ、δは全てを修正するように行動情報Ａを生成してもよいが、一部の係数を修正するように行動情報Ａを生成してもよい。フィルタ１３０の各係数ω_ｃ、τ、δを修正する場合、例えば、共振を生ずる中心周波数ｆｃは見つけやすく、中心周波数ｆｃは特定しやすい。そこで、行動情報生成部４０２３は、中心周波数ｆｃを仮に固定して、帯域幅ｆｗ及び減衰係数δを修正、すなわち、係数ω_ｃ（＝２πｆｃ）を固定し、係数τ（＝ｆｗ／ｆｃ）と及び減衰係数δを修正する動作を行わせるために、行動情報Ａを生成して、生成した行動情報Ａを行動情報出力部４０３に対して出力してもよい。

【0070】

また、行動情報生成部４０２３は、現在の推定される行動Ａの価値の中で、最も価値Ｑ（Ｓ，Ａ）の高い行動Ａ´を選択するグリーディ法や、ある小さな確率εでランダムに行動Ａ´選択し、それ以外では最も価値Ｑ（Ｓ，Ａ）の高い行動Ａ´を選択するεグリーディ法といった公知の方法により、行動Ａ´を選択する方策を取るようにしてもよい。

【0071】

行動情報出力部４０３は、学習部４０２から出力される行動情報Ａを速度制御部１２０及びフィルタ１３０に対して送信する部分である。上述したように、この行動情報に基づいて、現在の状態Ｓ、すなわち現在設定されている、速度制御部１２０の積分ゲインＫ１ｖと比例ゲインＫ２ｖ、及び／又は各係数ω_ｃ、τ、δを微修正することで、現在の状態Ｓは、次の状態Ｓ´（すなわち修正された、速度制御部１２０の積分ゲインＫ１ｖと比例ゲインＫ２ｖ、及び／又はフィルタ１３０の各係数）に遷移する。

【0072】

価値関数記憶部４０４は、価値関数Ｑを記憶する記憶装置である。価値関数Ｑは、例えば状態Ｓ、行動Ａ毎にテーブル（以下、行動価値テーブルと呼ぶ）として格納されてもよい。価値関数記憶部４０４に記憶された価値関数Ｑは、価値関数更新部４０２２により更新される。また、価値関数記憶部４０４に記憶された価値関数Ｑは、他の機械学習部４００との間で共有されるようにしてもよい。価値関数Ｑを複数の機械学習部４００で共有するようにすれば、各機械学習部４００は、分散して強化学習を行うことが可能となるので、強化学習の効率を向上させることが可能となる。

【0073】

最適化行動情報出力部４０５は、価値関数更新部４０２２がＱ学習を行うことにより更新した価値関数Ｑに基づいて、価値Ｑ（Ｓ，Ａ）が最大となる動作を速度制御部１２０及びフィルタ１３０に行わせるための行動情報Ａ（以下、「最適化行動情報」と呼ぶ）を生成する。
より具体的には、最適化行動情報出力部４０５は、価値関数記憶部４０４が記憶している価値関数Ｑを取得する。この価値関数Ｑは、上述したように価値関数更新部４０２２がＱ学習を行うことにより更新したものである。そして、最適化行動情報出力部４０５は、価値関数Ｑに基づいて、行動情報を生成し、生成した行動情報を速度制御部１２０及び／又はフィルタ１３０に対して出力する。この最適化行動情報には、行動情報出力部４０３がＱ学習の過程において出力する行動情報と同様に、速度制御部１２０の積分ゲインＫ１ｖと比例ゲインＫ２ｖ、及び／又はフィルタ１３０の伝達関数の各係数ω_ｃ、τ、δを修正する情報が含まれる。

【0074】

速度制御部１２０では、この行動情報に基づいて積分ゲインＫ１ｖと比例ゲインＫ２ｖが修正され、フィルタ１３０では、この行動情報に基づいて伝達関数の各係数ω_ｃ、τ、δが修正される。
機械学習部４００は、以上の動作で、速度制御部１２０の積分ゲインＫ１ｖと比例ゲインＫ２ｖ及び／又はフィルタ１３０の伝達関数の各係数ω_ｃ、τ、δの最適化を行い、サーボ制御部１００の安定余裕が所定の値以上となるように動作させることができる。
また、機械学習部４００は、以上の動作で、速度制御部１２０の積分ゲインＫ１ｖと比例ゲインＫ２ｖ及び／又はフィルタ１３０の伝達関数の各係数ω_ｃ、τ、δの最適化を行い、サーボ制御部１００の安定余裕が所定の値以上とするとともに、フィードバックゲインを大きくして応答速度を高める、及び／又は共振を抑制するように動作させることができる。
以上のように、本開示の機械学習部４００を利用することで、速度制御部１２０のゲイン及びフィルタ１３０のパラメータ調整を簡易化することができる。

【0075】

以上、制御装置１０に含まれる機能ブロックについて説明した。
これらの機能ブロックを実現するために、制御装置１０は、ＣＰＵ（Central Processing Unit）等の演算処理装置を備える。また、制御装置１０は、アプリケーションソフトウェアやＯＳ（Operating System）等の各種の制御用プログラムを格納したＨＤＤ（Hard Disk Drive）等の補助記憶装置や、演算処理装置がプログラムを実行する上で一時的に必要とされるデータを格納するためのＲＡＭ（Random Access Memory）といった主記憶装置も備える。

【0076】

そして、制御装置１０において、演算処理装置が補助記憶装置からアプリケーションソフトウェアやＯＳを読み込み、読み込んだアプリケーションソフトウェアやＯＳを主記憶装置に展開させながら、これらのアプリケーションソフトウェアやＯＳに基づいた演算処理を行なう。また、この演算結果に基づいて、各装置が備える各種のハードウェアを制御する。これにより、本実施形態の機能ブロックは実現される。つまり、本実施形態は、ハードウェアとソフトウェアが協働することにより実現することができる。

【0077】

機械学習部４００については機械学習に伴う演算量が多いため、例えば、パーソナルコンピュータがＧＰＵ（Graphics Processing Units）を搭載し、ＧＰＧＰＵ（General-Purpose computing on Graphics Processing Units）と呼ばれる技術により、ＧＰＵを機械学習に伴う演算処理に利用するようにすると高速処理できるようになる。更には、より高速な処理を行うために、このようなＧＰＵを搭載したコンピュータを複数台用いてコンピュータ・クラスターを構築し、このコンピュータ・クラスターに含まれる複数のコンピュータにて並列処理を行うようにしてもよい。

【0078】

次に、図８のフローチャートを参照して本実施形態におけるＱ学習時の機械学習部４００の動作について説明をする。以下に説明するフローチャートは、サーボ系の安定性を高めるために、機械学習部４００が、ナイキスト軌跡が閉曲線の内側を通るか否かにより報酬を与えた後に、応答速度を高めるためにカットオフ周波数に基づいて報酬を与えるように学習を行う動作について説明する。

【0079】

ステップＳ１１において、状態情報取得部４０１が、サーボ制御部１００及び周波数生成部２００から最初の状態情報Ｓを取得する。取得した状態情報は、価値関数更新部４０２２や行動情報生成部４０２３に対して出力される。上述したように、この状態情報Ｓは、Ｑ学習における状態に相当する情報である。

【0080】

最初にＱ学習を開始する時点での状態Ｓ_０における、入出力ゲイン（振幅比）Ｇｓ（Ｓ_０）、及び位相遅れΘｓ（Ｓ_０）は、周波数が変化する正弦波である速度指令を用いてサーボ制御部１００を駆動することで、周波数特性算出部３００から得られる。速度指令と検出速度は周波数特性算出部３００に入力され、周波数特性算出部３００から出力される、入出力ゲイン（振幅比）Ｇｓ（Ｓ_０）、及び位相遅れΘｓ（Ｓ_０）が、順次、状態情報取得部４０１に最初の状態情報として入力される。速度制御部１２０の積分ゲインＫ１ｖと比例ゲインＫ２ｖ、及びフィルタ１３０の伝達関数の各係数ω_ｃ、τ、δの初期値は予めユーザが生成し、状態情報取得部４０１に対して積分ゲインＫ１ｖと比例ゲインＫ２ｖ、及び係数ω_ｃ、τ、δの初期値が最初の状態情報として送られる。

【0081】

ステップＳ１２において、行動情報生成部４０２３は新たな行動情報Ａを生成し、生成した新たな行動情報Ａを、行動情報出力部４０３を介して速度制御部１２０及び／又はフィルタ１３０に対して出力する。行動情報生成部４０２３は前述した方策に基づいて、新たな行動情報Ａを出力する。なお、行動情報Ａを受信したサーボ制御部１００は、受信した行動情報に基づいて現在の状態Ｓに係る、速度制御部１２０の積分ゲインＫ１ｖと比例ゲインＫ２ｖ、及び／又はフィルタ１３０の伝達関数の各係数ω_ｃ、τ、δを修正した状態Ｓ´により、周波数が変化する正弦波である速度指令を用いてモータ１５０を駆動する。上述したように、この行動情報は、Ｑ学習における行動Ａに相当するものである。

【0082】

ステップＳ１３において、状態情報取得部４０１は、新たな状態Ｓ´における、入出力ゲイン（振幅比）Ｇｓ(Ｓ´）と位相遅れΘｓ（Ｓ´）、速度制御部１２０の積分ゲインＫ１ｖと比例ゲインＫ２ｖ、及びフィルタ１３０から伝達関数の各係数ω_ｃ、τ、δを新たな状態情報として取得する。取得した新たな状態情報は、報酬出力部４０２１に対して出力される。

【0083】

ステップＳ１４において、報酬出力部４０２１は、報酬出力部４０２１は、周波数特性算出部３００から出力された入出力ゲイン（振幅比）と位相遅れのデータに基づいて、開ループ周波数特性Ｈ（ｊω）を求める。そして、報酬出力部４０２１は、開ループ周波数特性Ｈ（ｊω）を複素平面に描画することでナイキスト軌跡を作成する。報酬出力部４０２１は、複素平面上に、（－１，０）を内側に含み、実軸上のゲイン余裕と単位円上の位相余裕を通る閉曲線を作成し、最短距離ｄが半径ｒより小さいか（ｄ＜ｒ）否か（ｄ≧ｒ）を判断する。

【0084】

ステップＳ１４において、報酬出力部４０２１が、最短距離ｄが半径ｒより小さいと判断した場合は（ｄ＜ｒ）、ステップＳ１５において、報酬出力部４０２１は、報酬を負の値とし、ステップＳ１２に戻る。
ステップＳ１４において、報酬出力部４０２１が、最短距離ｄが半径ｒと等しいか大きいと判断した場合は（ｄ≧ｒ）、ステップＳ１６において、報酬出力部４０２１は、報酬をゼロの値とし、ステップＳ１７に移る。

【0085】

ステップＳ１７において、報酬出力部４０２１は、カットオフ周波数ｆcutの大小関係、すなわち、カットオフ周波数ｆcutが大きくなるか、同じか、又は小さくなるかを判断する。なお、状態Ｓのときのカットオフ周波数ｆcutをｆcut（Ｓ）、状態Ｓ´のときのカットオフ周波数ｆcutをｆcut（Ｓ´）と記載する。

【0086】

ステップＳ１７で、報酬出力部４０２１が、カットオフ周波数ｆcut（Ｓ´）＞カットオフ周波数ｆcut（Ｓ）と判断したときは、ステップＳ１８において、報酬出力部４０２１は正の値の報酬を与える。
ステップＳ１７で、報酬出力部４０２１がカットオフ周波数ｆcut（Ｓ´）＝カットオフ周波数ｆcut（Ｓ）と判断したときは、ステップＳ１９において、報酬出力部４０２１はゼロの値の報酬を与える。
ステップＳ１７で、報酬出力部４０２１がカットオフ周波数ｆcut（Ｓ´）＜カットオフ周波数ｆcut（Ｓ）と判断したときは、ステップＳ２０において、報酬出力部４０２１は負の値の報酬を与える。

【0087】

ステップＳ１８、ステップＳ１９及びステップＳ２０の何れかが終了すると、ステップＳ２１において、報酬出力部４０２１は、ステップＳ１６で与えられた報酬とステップＳ１８、ステップＳ１９及びステップＳ２０のいずれかにて与えられた報酬を加算する。

【0088】

次に、ステップＳ２２において、ステップＳ２１にて算出された合計の報酬の値に基づいて、価値関数更新部４０２２が、価値関数記憶部４０４に記憶している価値関数Ｑを更新する。そして、再度ステップＳ１２に戻り、上述した処理を繰り返すことにより、価値関数Ｑは適切な値に収束していく。なお、上述した処理を、所定回数繰り返したことや、所定時間繰り返したことを条件として処理を終了するようにしてもよい。
なお、ステップＳ２２はオンライン更新を例示しているが、オンライン更新に替えてバッチ更新又はミニバッチ更新に置き換えてもよい。

【0089】

以上、図８を参照して説明した動作により、本実施形態では、機械学習部４００を利用することで、速度制御部１２０の積分ゲインＫ１ｖと比例ゲインＫ２ｖ、及び／又はフィルタ１３０の伝達関数の各係数ω_ｃ、τ、δの調整のための、適切な価値関数を得ることができ、速度制御部１２０の積分ゲインＫ１ｖと比例ゲインＫ２ｖ、及び／又はフィルタ１３０の伝達関数の各係数ω_ｃ、τ、δの最適化を簡易化することができる、という効果を奏する。
次に、図９のフローチャートを参照して、最適化行動情報出力部４０５による最適化行動情報の生成時の動作について説明をする。
まず、ステップＳ２３において、最適化行動情報出力部４０５は、価値関数記憶部４０４に記憶している価値関数Ｑを取得する。価値関数Ｑは、上述したように価値関数更新部４０２２がＱ学習を行うことにより更新したものである。

【0090】

ステップＳ２４において、最適化行動情報出力部４０５は、この価値関数Ｑに基づいて、最適化行動情報を生成し、生成した最適化行動情報を速度制御部１２０及び／又はフィルタ１３０に対して出力する。

【0091】

また、図９を参照して説明した動作により、本実施形態では、機械学習部４００により学習することにより求められる価値関数Ｑに基づいて、最適化行動情報を生成し、この最適化行動情報に基づいて、現在設定されている、速度制御部１２０の積分ゲインＫ１ｖと比例ゲインＫ２ｖ、及び／又はフィルタ１３０の伝達関数の各係数ω_ｃ、τ、δの調整を簡易化するとともに、サーボ制御部１００の安定を図るとともに、応答速度を上げることができる。

【0092】

なお、上述した図８及び図９を用いて説明した動作は、サーボ系の安定性を高めるために、ナイキスト軌跡が閉曲線の内側を通るか否かにより報酬を与えた後に、応答速度を高める上述した方法（１）によりカットオフ周波数に基づいて報酬を与える動作であったが、本実施形態では、応答速度を高めるために、閉ループ特性に基づいて報酬を決める方法（２）又は最短距離ｄが半径ｒに近づくように報酬を決める方法（３）を用いてもよい。

【0093】

また、本実施形態では、サーボ系の安定性を高めるために、ナイキスト軌跡が閉曲線の内側を通るか否かにより報酬を与えた後に、上述した、共振を考慮した例で説明したように、共振を抑制するために開ループ特性と規範モデルとの比較により報酬を決める方法を用いてもよい。

【0094】

上記の制御装置に含まれる各構成部は、ハードウェア、ソフトウェア又はこれらの組み合わせにより実現することができる。また、上記の制御装置に含まれる各構成部のそれぞれの協働により行なわれるサーボ制御方法も、ハードウェア、ソフトウェア又はこれらの組み合わせにより実現することができる。ここで、ソフトウェアによって実現されるとは、コンピュータがプログラムを読み込んで実行することにより実現されることを意味する。

【0095】

プログラムは、様々なタイプの非一時的なコンピュータ可読媒体(non-transitory computer readable medium)を用いて格納され、コンピュータに供給することができる。非一時的なコンピュータ可読媒体は、様々なタイプの実体のある記録媒体(tangible storage medium)を含む。非一時的なコンピュータ可読媒体の例は、磁気記録媒体（例えば、ハードディスクドライブ）、光磁気記録媒体（例えば、光磁気ディスク）、ＣＤ－ＲＯＭ(Read Only Memory)、ＣＤ－Ｒ、ＣＤ－Ｒ／Ｗ、半導体メモリ（例えば、マスクＲＯＭ、ＰＲＯＭ(Programmable ROM)、ＥＰＲＯＭ(Erasable PROM)、フラッシュＲＯＭ、ＲＡＭ(random access memory）)を含む。また、プログラムは、様々なタイプの一時的なコンピュータ可読媒体(transitory computer readable medium)によってコンピュータに供給されてもよい。

【0096】

上述した実施形態は、本発明の好適な実施形態ではあるが、上記実施形態のみに本発明の範囲を限定するものではなく、本発明の要旨を逸脱しない範囲において種々の変更を施した形態での実施が可能である。

【0097】

上述した実施形態では、１つのフィルタを設けた場合について説明したが、フィルタ１３０はそれぞれ異なる周波数帯域に対応する複数個のフィルタを直列に接続することで構成してもよい。図１０は複数のフィルタを直接接続してフィルタを構成した例を示すブロック図である。図１０において、ｍ個（ｍは２以上の自然数）の共振点がある場合に、フィルタ１３０は、ｍ個のフィルタ１３０－１～１３０－ｍを直列接続して構成する。ｍ個のフィルタ１３０－１～１３０－ｍのそれぞれの係数ω_ｃ、τ、δについて、最適値を機械学習により求めていく。

【0098】

また、制御装置の構成は図１の構成以外にも以下の構成がある。
＜機械学習部がサーボ制御部の外部に設けられた変形例＞
図１１は制御装置の他の構成例を示すブロック図である。図１１に示す制御装置１０Ａが、図１に示した制御装置１０と異なる点は、ｎ（ｎは２以上の自然数）個のサーボ制御部１００－１～１００－ｎが、ネットワーク５００を介してｎ個の機械学習部４００－１～４００－ｎに接続されていること、及びサーボ制御部１００－１～１００－ｎが、それぞれ周波数生成部２００と周波数特性算出部３００を備えていることである。機械学習部４００－１～４００－ｎは図２に示した機械学習部４００と同じ構成を有している。サーボ制御部１００－１～１００－ｎはそれぞれサーボ制御装置に対応しており、また機械学習部４００－１～４００－ｎはそれぞれ機械学習装置に対応している。なお、周波数生成部２００と周波数特性算出部３００の一方又は両方をサーボ制御部１００－１～１００－ｎの外に設けてもよいことは勿論である。

【0099】

ここで、サーボ制御部１００－１と、機械学習部４００－１とは１対１の組とされて、通信可能に接続されている。サーボ制御部１００－２～１００－ｎと、機械学習部４００－２～４００－ｎとについても、サーボ制御部１００－１と機械学習部４００－１と同様に接続される。図１１では、サーボ制御部１００－１～１００－ｎと、機械学習部４００－１～４００－ｎとのｎ個の組は、ネットワーク５００を介して接続されているが、サーボ制御部１００－１～１００－ｎと、機械学習部４００－１～４００－ｎとのｎ個の組は、それぞれの組のサーボ制御部と機械学習部とが接続インタフェースを介して直接接続されてもよい。これらサーボ制御部１００－１～１００－ｎと機械学習部４００－１～４００－ｎとのｎ個の組は、例えば同じ工場に複数組設置されていてもよく、それぞれ異なる工場に設置されていてもよい。

【0100】

なお、ネットワーク５００は、例えば、工場内に構築されたＬＡＮ（Local Area Network）、インターネット、公衆電話網、或いは、これらの組み合わせである。ネットワーク５００における具体的な通信方式又は、有線接続および無線接続のいずれであるか等については、特に限定されない。

【0101】

＜システム構成の自由度＞
上述した実施形態では、サーボ制御部１００－１～１００－ｎと、機械学習部４００－１～４００－ｎとはそれぞれ１対１の組とされて通信可能に接続されているが、例えば１台の機械学習部が複数のサーボ制御部とネットワーク５００を介して通信可能に接続され、各サーボ制御部の機械学習を実施するようにしてもよい。
その際、１台の機械学習部の各機能を、適宜複数のサーバに分散する、分散処理システムとしてもよい。また、クラウド上で仮想サーバ機能等を利用して、１台の機械学習部の各機能を実現してもよい。

【0102】

また、ｎ台の同じ型名、同一仕様、又は同一シリーズのサーボ制御部１００－１～１００－ｎとそれぞれ対応するｎ個の機械学習部４００－１～４００－ｎがあった場合に、制御装置１０Ａは、各機械学習部４００－１～４００－ｎにおける学習結果を共有するように構成されてもよい。そうすることで、より最適なモデルを構築することが可能となる。

【0103】

本開示による機械学習装置、制御装置及び機械学習方法は、上述した実施形態を含め、次のような構成を有する各種各様の実施形態を取ることができる。
（１）モータ（例えば、モータ１５０）を制御するサーボ制御装置（例えば、サーボ制御部１００）に設けられた、少なくとも１つのフィルタ（例えば、フィルタ１３０）の係数とフィードバックゲインとの少なくとも一方を最適化する機械学習を行う機械学習装置（例えば、機械学習部４００）であって、
前記フィルタの係数と前記フィードバックゲインとの少なくとも一方、及び前記サーボ制御装置の入出力ゲインと入出力の位相遅れを含む状態情報を取得する状態情報取得部（例えば、状態情報取得部４０１）と、
前記状態情報に含まれる前記係数及び前記フィードバックゲインの少なくとも一方の調整情報を含む行動情報を出力する行動情報出力部（例えば、行動情報出力部４０３）と、
複素平面上の（－１，０）を内側に含み、所定のゲイン余裕及び位相余裕を通る閉曲線の内側を、前記入出力ゲインと前記入出力の位相遅れとから算出したナイキスト軌跡が通るかどうかに基づいて報酬を求めて出力する報酬出力部（例えば、報酬出力部４０２１）と、
前記報酬出力部により出力される報酬の値と、前記状態情報と、前記行動情報とに基づいて価値関数を更新する価値関数更新部（価値関数更新部４０２２）と、
を備えた機械学習装置。
この機械学習装置によれば、位相余裕とゲイン余裕との両方を考慮してフィードバックゲイン及びフィルタの係数の少なくとも一方を調整することができ、サーボ系の安定度を高めることができる。

【0104】

（２）前記報酬出力部は、前記閉曲線と前記ナイキスト軌跡との間の距離に基づいて報酬を求めて出力する、上記（１）に記載の機械学習装置。

【0105】

（３）前記閉曲線は円である、上記（１）又は（２）に記載の機械学習装置。

【0106】

（４）前記報酬出力部は、前記報酬にカットオフ周波数に基づいて計算される報酬を加えた合計の報酬を出力する、上記（１）から（３）のいずれかに記載の機械学習装置。
この機械学習装置によれば、フィードバックゲインを大きくして応答速度を高めることが可能となる。

【0107】

（５）前記報酬出力部は、前記報酬に閉ループ特性に基づいて計算される報酬を加えた合計の報酬を出力する、上記（１）から（３）のいずれかに記載の機械学習装置。
この機械学習装置によれば、フィードバックゲインを大きくして応答速度を高めることが可能となる。

【0108】

（６）前記報酬出力部は、前記報酬に、前記入出力ゲインと予め計算された規範となるゲインとの比較により計算される報酬を加えた合計の報酬を出力する、上記（１）から（３）のいずれかに記載の機械学習装置。
この機械学習装置によれば、共振を抑制することが可能となる。

【0109】

（７）前記入出力ゲインと前記入出力の位相遅れとは、周波数特性算出装置（例えば、周波数特性算出部３００）によって算出され、
前記周波数特性算出装置は、周波数が変わる正弦波の入力信号と、前記サーボ制御装置の速度フィードバック情報とを用いて、前記入出力ゲインと前記入出力の位相遅れとを算出する、上記（１）から（６）のいずれかに記載の機械学習装置。

【0110】

（８）前記価値関数更新部により更新された価値関数に基づいて、前記係数及び前記フィードバックゲインの少なくとも一方の調整情報を出力する最適化行動情報出力部（例えば、最適化行動情報出力部４０５）を備えた上記（１）から（７）のいずれかに記載の機械学習装置。

【0111】

（９）上記（１）から（８）のいずれかに記載の機械学習装置（機械学習部４００）と、
少なくとも１つのフィルタ、及びフィードバックゲインを設定する制御部（例えば、速度制御部１２０）を有する、モータを制御するサーボ制御装置（例えば、サーボ制御部１００）と、
前記サーボ制御装置における、前記サーボ制御装置の入出力ゲインと入出力の位相遅れとを算出する周波数特性算出装置（例えば、周波数特性算出部３００）と、
を備えた制御装置。
この制御装置によれば、位相余裕とゲイン余裕との両方を考慮してフィードバックゲイン及びフィルタの係数の少なくとも一方を調整することができ、サーボ系の安定度を高めることができる。

【0112】

（１０）モータ（例えば、モータ１５０）を制御するサーボ制御装置（例えば、サーボ制御部１００）に設けられた、少なくとも１つのフィルタ（例えば、フィルタ１３０）の係数とフィードバックゲインとの少なくとも一方を最適化する機械学習を行う機械学習装置（例えば、機械学習部４００）の機械学習方法であって、
前記フィルタの係数と前記フィードバックゲインとの少なくとも一方、及び前記サーボ制御装置の入出力ゲインと入出力の位相遅れを含む状態情報を取得し、
前記状態情報に含まれる前記係数及び前記フィードバックゲインの少なくとも一方の調整情報を含む行動情報を出力し、
複素平面上の（－１，０）を内側に含み、所定のゲイン余裕及び位相余裕を通る閉曲線の内側を、前記入出力ゲインと前記入出力の位相遅れとから算出したナイキスト軌跡が通るかどうかに基づいて報酬を求めて出力し、
前記報酬の値と、前記状態情報と、前記行動情報とに基づいて価値関数を更新する、機械学習方法。
この機械学習方法によれば、位相余裕とゲイン余裕との両方を考慮してフィードバックゲイン及びフィルタの係数の少なくとも一方を調整することができ、サーボ系の安定度を高めることができる。

【符号の説明】

【0113】

１０、１０Ａ制御装置
１００、１００－１～１００－ｎサーボ制御部
１１０減算器
１２０速度制御部
１３０フィルタ
１４０電流制御部
１５０モータ
２００周波数生成部
３００周波数特性算出部
４００、４００－１～４００－ｎ機械学習部
４０１状態情報取得部
４０２学習部
４０３行動情報出力部
４０４価値関数記憶部
４０５最適化行動情報出力部
５００ネットワーク

【図1】