特許6140236 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ ファナック株式会社の特許一覧

特許6140236機械学習装置及び電動機用着磁装置

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】6140236

(24)【登録日】2017年5月12日

(45)【発行日】2017年5月31日

(54)【発明の名称】機械学習装置及び電動機用着磁装置

(51)【国際特許分類】

H01F 13/00 20060101AFI20170522BHJP

G06N 99/00 20100101ALI20170522BHJP

H02K 15/03 20060101ALN20170522BHJP

【ＦＩ】

H01F13/00 300

G06N99/00 150

!H02K15/03 H

【請求項の数】4

【全頁数】11

(21)【出願番号】特願2015-194541(P2015-194541)

(22)【出願日】2015年9月30日

(65)【公開番号】特開2017-69435(P2017-69435A)

(43)【公開日】2017年4月6日

【審査請求日】2016年9月14日

【早期審査対象出願】

(73)【特許権者】

【識別番号】390008235

【氏名又は名称】ファナック株式会社

(74)【代理人】

【識別番号】100099759

【弁理士】

【氏名又は名称】青木篤

(74)【代理人】

【識別番号】100092624

【弁理士】

【氏名又は名称】鶴田準一

(74)【代理人】

【識別番号】100114018

【弁理士】

【氏名又は名称】南山知広

(74)【代理人】

【識別番号】100151459

【弁理士】

【氏名又は名称】中村健一

(72)【発明者】

【氏名】舟久保誠

【審査官】小池秀介

(56)【参考文献】

【文献】特開平１１−２５２８７３（ＪＰ，Ａ）

【文献】国際公開第２０１２／０３２７７６（ＷＯ，Ａ１）

【文献】特開２０１０−２５８６２７（ＪＰ，Ａ）

【文献】特開２０００−１３７７１７（ＪＰ，Ａ）

【文献】特開平０８−２１０８０６（ＪＰ，Ａ）

【文献】特開２００９−２６８１９１（ＪＰ，Ａ）

【文献】特開平０９−１６８２６０（ＪＰ，Ａ）

【文献】中間隼人、田中直樹、山田訓，３種類のセンサを持つロボット制御へのモジュール型強化学習の適用，社団法人電子情報通信学会信学技法ＮＣ，日本，社団法人電子情報通信学会，２００９年３月，１０８巻４８０号，３０１−３０６ページ

【文献】吉原輝、関和広、上原邦昭，ニュース記事の時間的特性を考慮した株価動向予測，情報処理学会研究報告数理モデル化と問題解決，情報処理学会，２０１５年２月２４日，２０１５−ＭＰＳ−１０２巻４号，１−６ページ

(58)【調査した分野】（Int.Cl.，ＤＢ名）

Ｇ０１Ｄ５／００−５／２５２

５／３９／−５／６２

Ｇ０６Ｎ９９／００

Ｈ０１Ｆ７／００−７／０２

１３／００

Ｈ０２Ｋ１／１７

１／２７

１５／０３

(57)【特許請求の範囲】

【請求項1】

着磁ヨーク及び巻線部を有する着磁器の巻線温度、巻線抵抗値、電流値、及びロータ磁束密度を観測する状態観測部と、
前記状態観測部より取得した前記ロータ磁束密度から報酬を計算する報酬計算部と、
前記ロータ磁束密度と目標とする磁束密度から計算される着磁率、前記巻線温度、及び前記巻線抵抗値に基づいて行動価値テーブルを更新する学習部と、
を有し、
前記学習部が、前記状態観測部で観測された状態変数を多層構造で演算し、前記行動価値テーブルをリアルタイムで更新することを特徴とする機械学習装置。

【請求項2】

前記学習部の行動価値テーブルに基づいて電圧指令値を決定する意思決定部を、さらに備える、請求項１に記載の機械学習装置。

【請求項3】

他の機械学習装置の学習部で更新された行動価値テーブルを用いて自己の行動価値テーブルを更新する、請求項１または２に記載の機械学習装置。

【請求項4】

請求項１乃至３のいずれか一項に記載の機械学習装置と、
着磁ヨーク及び巻線部を備える着磁器と、
を具備する電動機用着磁装置。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、機械学習装置及び電動機用着磁装置に関し、特に、所望の着磁率を得るための最適な電流を流すように電圧指令を決定する機能を有する機械学習装置及び電動機用着磁装置に関する。

【背景技術】

【0002】

永久磁石の磁化を行うためには、磁石素材が有する最大磁束密度の飽和点に達する強度の磁界を与える必要があり、そのために着磁器が用いられる。着磁器は、磁石素材が磁性を得るための磁界を発生させる着磁ヨーク及び巻線部を備えている。着磁器の一例として、コンデンサを充電し、コンデンサに蓄えたエネルギーを着磁ヨークに放電することによって強い磁場を発生させるコンデンサ式着磁器が知られている。

【0003】

図１に、従来の着磁器の回路の例を示す（例えば、特許文献１）。従来の着磁器は、交流電圧の位相を制御する位相制御回路１００１と、電圧を昇圧する昇圧トランス１００２と、昇圧電圧を整流する整流回路１００３と、整流された電圧によって充電される充電コンデンサＣ₁と、充電コンデンサＣ₁に並列に接続された着磁用スイッチング素子であるＳＣＲ₁と、着磁巻線Ｌ₁と、を有する。従来の着磁器では、ＳＣＲ₁を点弧パルスで導通させることによって、着磁巻線Ｌ₁に着磁電流を供給する。充電コンデンサＣ₁の充電電圧がゼロになる時点から着磁巻線Ｌ₁に発生する逆起電力によってフライホイールダイオードＤ₁に循環電流を流す。フライホイールダイオードＤ₁の循環電流により巻線の発熱を回避して、逆起電力エネルギーを回生している。

【0004】

また、従来の着磁器を用いて磁石素材であるロータを着磁する際には、一定の電圧で電流を流すようにしている。しかしながら、ロータの着磁を多数連続で行う場合、着磁器の着磁巻線を構成する銅線が徐々に高温になることによって抵抗値が増加し、着磁巻線に流れる電流が減少する。その結果としてロータの着磁率が低下し、高い着磁率を維持することが難しくなるという問題があった。さらに、ロータの着磁率が低下することによって、モータのトルクが減少するという問題が生じていた。

【先行技術文献】

【特許文献】

【0005】

【特許文献1】特開２００６−１７３４４７号公報

【発明の概要】

【発明が解決しようとする課題】

【0006】

本発明は、ロータの製造品質の安定性を向上させるとともに、電動機のトルクの安定性を向上させる着磁器を提供することを目的とする。

【課題を解決するための手段】

【0007】

本発明の一実施例に係る機械学習装置は、着磁ヨーク及び巻線部を有する着磁器の巻線温度、巻線抵抗値、電流値、及びロータ磁束密度を観測する状態観測部と、状態観測部より取得したロータ磁束密度から報酬を計算する報酬計算部と、ロータ磁束密度と目標とする磁束密度から計算される着磁率、巻線温度、及び巻線抵抗値に基づいて行動価値テーブルを更新する学習部と、を有することを特徴とする。

【0008】

本発明の一実施例に係る電動機用着磁装置は、上記機械学習装置と、着磁ヨーク及び巻線部を備える着磁器と、を具備することを特徴とする。

【発明の効果】

【0009】

本発明の一実施例に係る機械学習装置及び電動機用着磁装置によれば、ロータの製造品質の安定性を向上させるとともに、電動機のトルクの安定性を向上させる着磁器を提供することができる。

【図面の簡単な説明】

【0010】

【図1】従来の着磁器の回路図である。

【図2】本発明の実施例に係る機械学習装置の構成図である。

【図3】ニューロンのモデルを示す模式図である。

【図4】３層のニューラルネットワークモデルを示す模式図である。

【図5】本発明の実施例に係る機械学習装置の動作手順を説明するためのフローチャートである。

【図6】本発明の実施例に係る機械学習装置を用いる前後における着磁率の変化を表すグラフである。

【発明を実施するための形態】

【0011】

以下、図面を参照して、本発明に係る機械学習装置及び電動機用着磁装置について説明する。

【0012】

図２は、本発明の実施例に係る機械学習装置の構成図である。本発明の実施例に係る機械学習装置１０は、状態観測部１と、報酬計算部２と、学習部３と、を備える。

【0013】

状態観測部１は、着磁ヨーク及び巻線部を有する着磁器２０の巻線温度、巻線抵抗値、電流値、及びロータ磁束密度を観測する。ただし、これらのパラメータは一例であって他のパラメータを観測するようにしてもよい。

【0014】

報酬計算部２は、状態観測部１より取得したロータ磁束密度から報酬を計算する。報酬の計算方法については後述する。

【0015】

学習部３は、ロータ磁束密度と目標とする磁束密度から計算される着磁率、巻線温度、及び巻線抵抗値に基づいて行動価値テーブルを更新する。行動価値テーブルの更新方法については後述する。

【0016】

機械学習装置１０は、学習部３の行動価値テーブルに基づいて電圧指令値を決定する意思決定部４をさらに備えることが好ましい。

【0017】

本実施例では、巻線抵抗値Ｒを一定とするのではなく、着磁器２０において検出した巻線温度Ｔａに基づいて巻線抵抗値が変化するものとして巻線抵抗値Ｒを補正する。補正後の巻線抵抗値Ｒ_aは以下の銅線の抵抗式で求められる。
Ｒ_a＝（２３４．５＋Ｔ_a）／（２３４．５＋Ｔ₀）×Ｒ₀
ただし、Ｒ₀［Ω］は基準温度Ｔ₀［℃］における基準抵抗値、２３４.５は銅の温度係数である。本実施例では、補正巻線抵抗値Ｒ_aが所望の磁束密度を得るための電流を決定するための抵抗値として用いられる。

【0018】

次に、報酬の計算方法について説明する。一例として、報酬計算部２は、着磁率が目的とする着磁率の規定範囲を超えて大きいか又は小さいときにマイナスの報酬を与え、着磁率が目的とする着磁率の規定範囲内であるときにプラスの報酬を与えるようにしてもよい。例えば、目標とする着磁率の規定範囲を９５〜１００％と仮定する。このとき、得られた着磁率が９０％であれば、目標とする着磁率の規定範囲外であるので、報酬計算部２はマイナス報酬を与える。一方、得られた着磁率が９８％であれば、目標とする着磁率の規定範囲内であるので、報酬計算部２はプラス報酬を与える。

【0019】

学習部３が、状態観測部１で観測された状態変数を多層構造で演算し、行動価値テーブルをリアルタイムで更新することが好ましい。ここで、状態変数を多層構造で演算する方法として、例えば、図４に示すような多層ニューラルネットワークを用いることができる。

【0020】

ここで、図２に示される機械学習装置１０について詳細に説明する。機械学習装置１０は、装置に入力されるデータの集合から、その中にある有用な規則や知識表現、判断基準などを解析により抽出し、その判断結果を出力するとともに、知識の学習を行う機能を有する。その手法は様々であるが、大別すれば「教師あり学習」、「教師なし学習」、「強化学習」に分けられる。さらに、これらの手法を実現するうえで、特徴量そのものの抽出を学習する、「深層学習」と呼ばれる手法がある。

【0021】

「教師あり学習」は、ある入力と結果（ラベル）のデータの組を大量に学習装置に与えることで、それらのデータセットにある特徴を学習し、入力から結果を推定するモデル、即ち、その関係性を帰納的に獲得することができる。本実施形態においては、巻線抵抗値及び巻線温度から着磁率を推定する部分などに用いることが出来る。後述のニューラルネットワークなどのアルゴリズムを用いて実現することができる。

【0022】

「教師なし学習」とは、入力データのみを大量に学習装置に与えることで、入力データがどのような分布をしているか学習し、対応する教師出力データを与えなくても、入力データに対して圧縮、分類、整形などを行う装置を学習する手法である。それらのデータセットにある特徴を似た者どうしにクラスタリングすることなどができる。この結果を使って、何らかの基準を設けてそれを最適にするような出力の割り当てを行うことで、出力の予測を実現することができる。また「教師なし学習」と「教師あり学習」との中間的な問題設定として、「半教師あり学習」と呼ばれるものもあり、一部のみ入力と出力のデータの組が存在し、それ以外は入力のみのデータである場合がこれに当たる。本実施形態においては、実際に着磁器を動作させなくても取得することが出来るデータを教師なし学習で利用し、学習を効率的に行うことが出来る。

【0023】

強化学習の問題を以下のように設定する。
・着磁器は環境の状態を観測し、行動を決定する。
・環境は何らかの規則に従って変化し、さらに自分の行動が、環境に変化を与えることもある。
・行動するたびに報酬信号が帰ってくる。
・最大化したいのは将来にわたっての（割引）報酬の合計である。
・行動が引き起こす結果を全く知らない、または不完全にしか知らない状態から学習はスタートする。着磁器は実際に動作して初めて、その結果をデータとして得ることが出来る。つまり、試行錯誤しながら最適な行動を探索する必要がある。
・人間の動作を真似るように事前学習（前述の教師あり学習や、逆強化学習といった手法）した状態を初期状態として、良いスタート地点から学習をスタートさせることもできる。

【0024】

「強化学習」とは、判定や分類だけではなく、行動を学習することにより、環境に行動が与える相互作用を踏まえて適切な行動を学習、即ち、将来的に得られる報酬を最大にするための学習を行う方法である。このことは、本実施形態において、未来に影響を及ぼすような行動を獲得できることを表している。例えばＱ学習の場合で説明を続けるが、それに限るものではない。

【0025】

Ｑ学習は、或る環境状態ｓの下で、行動ａを選択する価値Ｑ（ｓ，ａ）を学習する方法である。つまり、或る状態ｓのとき、価値Ｑ（ｓ，ａ）の最も高い行動ａを最適な行動として選択すればよい。しかし、最初は状態ｓと行動ａとの組合せについて、価値Ｑ（ｓ，ａ）の正しい値は全く分かっていない。そこで、エージェント（行動主体）は、或る状態ｓの下で様々な行動ａを選択し、その時の行動ａに対して報酬が与えられる。それにより、エージェントはより良い行動の選択、すなわち正しい価値Ｑ（ｓ，ａ）を学習していく。

【0026】

行動の結果、将来にわたって得られる報酬の合計を最大化したいので、最終的にＱ（ｓ，ａ）＝Ｅ［Σγ^tｒ_t］となるようにすることを目指す（期待値は最適な行動に従って状態変化したときについてとる。もちろん、それは分かっていないので、探索しながら学習しなければならない）。そのような価値Ｑ（ｓ，ａ）の更新式は、例えば次式により表すことができる。

【0027】

【数1】

【0028】

ここで、ｓ_tは時刻ｔにおける環境の状態を表し、ａ_tは時刻ｔにおける行動を表す。行動ａ_tにより、状態はｓ_t+1に変化する。ｒ_t+1は、その状態の変化により貰える報酬を表している。また、ｍａｘの付いた項は、状態ｓ_t+1の下で、その時に分かっている最もＱ値の高い行動ａを選択した場合のＱ値にγを乗じたものになる。γは、０＜γ≦１のパラメータで、割引率と呼ばれる。αは学習係数で、０＜α≦１の範囲とする。

【0029】

この式は、試行ａ_tの結果帰ってきた報酬ｒ_t+1を元に、状態ｓ_tにおける行動ａ_tの評価値Ｑ（ｓ_t，ａ_t）を更新する方法を表している。状態ｓにおける行動ａの評価値Ｑ（ｓ_t，ａ_t）よりも、報酬ｒ_t+1＋行動ａによる次の状態における最良の行動ｍａｘａの評価値Ｑ（ｓ_t+1，ｍａｘａ_t+1）の方が大きければ、Ｑ（ｓ_t，ａ_t）を大きくするし、反対に小さければ、Ｑ（ｓ_t，ａ_t）も小さくする事を示している。つまり、或る状態における或る行動の価値を、結果として即時帰ってくる報酬と、その行動による次の状態における最良の行動の価値に近付けるようにしている。

【0030】

Ｑ（ｓ，ａ）の計算機上での表現方法は、すべての状態行動ペア（ｓ，ａ）に対して、その値をテーブル（行動価値テーブル）として保持しておく方法と、Ｑ（ｓ，ａ）を近似するような関数を用意する方法がある。後者の方法では、前述の更新式は、確率勾配降下法などの手法で近似関数のパラメータを調整していくことで実現することが出来る。近似関数としては、後述のニューラルネットワークを用いることが出来る。

【0031】

教師あり学習、教師なし学習、及び強化学習での価値関数の近似アルゴリズムとして、ニューラルネットワークを用いることができる。ニューラルネットワークは、たとえば図３に示すようなニューロンのモデルを模したニューラルネットワークを実現する演算装置及びメモリ等で構成される。図３は、ニューロンのモデルを示す模式図である。

【0032】

図３に示すように、ニューロンは、複数の入力ｘ（ここでは一例として、入力ｘ₁〜入力ｘ₃）に対する出力ｙを出力するものである。各入力ｘ₁〜ｘ₃には、この入力ｘに対応する重みｗ（ｗ₁〜ｗ₃）が掛けられる。これにより、ニューロンは、次の式により表現される出力ｙを出力する。なお、入力ｘ、出力ｙ及び重みｗは、すべてベクトルである。

【数2】

ここで、θはバイアスであり、ｆ_kは活性化関数である。

【0033】

次に、上述したニューロンを組み合わせた３層の重みを有するニューラルネットワークについて、図４を参照して説明する。図４は、Ｄ１〜Ｄ３の３層の重みを有するニューラルネットワークを示す模式図である。

【0034】

図４に示すように、ニューラルネットワークの左側から複数の入力ｘ（ここでは一例として、入力ｘ１〜入力ｘ３）が入力され、右側から結果ｙ（ここでは一例として、結果ｙ１〜結果ｙ３）が出力される。

【0035】

具体的には、入力ｘ１〜入力ｘ３は、３つのニューロンＮ１１〜Ｎ１３の各々に対して対応する重みが掛けられて入力される。これらの入力に掛けられる重みはまとめてＷ１と標記されている。

【0036】

ニューロンＮ１１〜Ｎ１３は、それぞれ、Ｚ１１〜Ｚ１３を出力する。これらのＺ１１〜Ｚ１３はまとめて特徴ベクトルＺ１と標記され、入力ベクトルの特徴量を抽出したベクトルとみなすことができる。この特徴ベクトルＺ１は、重みＷ１と重みＷ２との間の特徴ベクトルである。

【0037】

Ｚ１１〜Ｚ１３は、２つのニューロンＮ２１，Ｎ２２の各々に対して対応する重みが掛けられて入力される。これらの特徴ベクトルに掛けられる重みは、まとめてＷ２と標記されている。

【0038】

ニューロンＮ２１，Ｎ２２は、それぞれ、Ｚ２１，Ｚ２２を出力する。これらは、まとめて特徴ベクトルＺ２と標記されている。この特徴ベクトルＺ２は、重みＷ２と重みＷ３との間の特徴ベクトルである。

【0039】

特徴ベクトルＺ２１，Ｚ２２は、３つのニューロンＮ３１〜Ｎ３３の各々に対して対応する重みが掛けられて入力される。これらの特徴ベクトルに掛けられる重みは、まとめてＷ３と標記されている。

【0040】

最後に、ニューロンＮ３１〜Ｎ３３は、それぞれ、結果ｙ１〜結果ｙ３を出力する。

【0041】

ニューラルネットワークの動作には、学習モードと価値予測モードとがあり、学習モードにおいて学習データセットを用いて重みＷを学習し、そのパラメータを用いて予測モードにおいて着磁器の行動判断を行う（便宜上、予測と書いたが、検出、分類、推論など多様なタスクが可能である）。

【0042】

予測モードで実際に着磁器を動かして得られたデータを即時学習し、次の行動に反映させる（オンライン学習）ことも、あらかじめ収集しておいたデータ群を用いてまとめた学習を行い、以降はずっとそのパラメータで検知モードを行う（バッチ学習）こともできる。その中間的な、ある程度データが溜まるたびに学習モードを挟むということも可能である。

【0043】

重みＷ１〜Ｗ３は、誤差逆伝搬法（バックプロパゲーション）により学習可能なものである。誤差の情報は、右側から入り左側に流れる。誤差逆伝搬法は、各ニューロンについて、入力ｘが入力されたときの出力ｙと真の出力ｙ（教師）との差分を小さくするように、それぞれの重みを調整（学習）する手法である。

【0044】

このようなニューラルネットワークは、３層以上にさらに層を増やすことも可能である（深層学習と称される）。入力の特徴抽出を段階的に行い、結果を回帰する演算装置を、教師データのみから自動的に獲得することが可能である。

【0045】

そこで、本実施形態の機械学習装置１０は、上述のＱ学習を実施すべく、図２に示されるように状態観測部１、学習部３、および意思決定部４を備えている。但し、本発明に適用される機械学習方法は、Ｑ学習に限定されるものではない。たとえば教師あり学習を適用する場合、価値関数は学習モデル、報酬は誤差に対応する。

【0046】

図２に示すように、着磁器２０における状態には、行動で間接的に変化する状態と、行動で直接的に変化する状態とがある。行動で間接的に変化する状態には、巻線抵抗値、巻線温度、着磁率が含まれる。行動で直接的に変化する状態には、電流値が含まれる。

【0047】

学習部３は更新式及び報酬に基づいて、行動価値テーブルの中から現在の状態変数及び取り得る行動に対応する行動価値を更新する。

【0048】

機械学習装置１０がネットワークを介して着磁器２０に接続されており、状態観測部１は、ネットワークを介して、現在の状態変数を取得するように構成してもよい。また、機械学習装置１０は、クラウドサーバに存在することが好ましい。

【0049】

機械学習装置１０は、電動機用着磁装置に内蔵されていてもよい。即ち、電動機用着磁装置が、機械学習装置１０と、着磁ヨーク及び巻線部を備える着磁器２０と、を具備するようにしてもよい。

【0050】

また、図２に示した例では、自己の機械学習装置の学習部で更新された行動価値テーブルを用いて自己の行動価値テーブルを更新する例を示したが、このような例には限られない。即ち、自己の機械学習装置とは別の他の機械学習装置の学習部で更新された行動価値テーブルを用いて自己の行動価値テーブルを更新するようにしてもよい。

【0051】

次に、本発明の実施例に係る機械学習装置の動作について説明する。図５に本発明の実施例に係る機械学習装置の動作手順を説明するためのフローチャートを示す。

【0052】

まず、ステップＳ１０１において、着磁器２０の各種状態を状態観測部１で観測する。即ち、状態観測部１は、着磁器２０が検出した巻線温度、巻線抵抗値、電流値、及びロータ磁束密度を観測する。

【0053】

次に、ステップＳ１０２において、報酬計算部２が観測した状態から報酬を計算する。例えば、報酬計算部２は、着磁率が目標とする着磁率の規定範囲外であるときにマイナスの報酬を与え、着磁率が目標とする着磁率の規定範囲内であるときにプラスの報酬を与える。

【0054】

次に、ステップＳ１０３において、学習部３が観測した状態と報酬から行動価値を学習する。

【0055】

次に、ステップＳ１０４において、状態及び行動価値に基づいて、意思決定部４で最適なパラメータ（行動）を決定する。例えば、所望の着磁率を得るためのパラメータ（巻線温度、巻線抵抗値、電流値）を決定する。

【0056】

次に、ステップＳ１０５において、パラメータ（行動）により状態が変化する。即ち、着磁器２０が、所望の着磁率を得るための電流値を生じさせる電圧指令を決定する。

【0057】

以上のようにして、行動で直接的に変化する状態である着磁率が目標値に到達する。本発明によるパラメータの調整例を図６（ａ）及び（ｂ）に示す。図６（ａ）及び（ｂ）は、それぞれ、本発明の実施例に係る機械学習装置によるパラメータの調整前後の着磁率の特性を示すグラフである。図６（ａ）は、パラメータの値を調整する前において、複数のサンプルを製造した場合の電圧、電流、及び着磁率の推移を表す。図６（ｂ）は、本発明によってパラメータの値を調整した場合において、複数のサンプルを製造した場合の電圧、電流、及び着磁率の推移を表す。なお、縦軸は任意目盛である。

【0058】

図６（ａ）に示すように、パラメータを調整しない場合には、サンプル数が増えるに従って電流が低下し、着磁率が減少する。これは、サンプル数が増えるに従って巻線温度が高くなり、巻線を構成する銅線の抵抗が増大し、電圧を一定とした場合に巻線に流れる電流が減少するためである。

【0059】

一方、本発明の実施例に係る電動機用着磁装置によれば、サンプル数が増えるにしたがって高くなる銅線の抵抗を考慮して、着磁率が目的の規定範囲に入るような電流値が得られるように電圧指令を調整しているので、着磁率の安定性を向上させることができる。

【0060】

以上説明したように、本発明の実施例に係る機械学習装置及び電動機用着磁装置によれば、機械学習によって、所望の着磁率に対して、着磁器のパラメータを自動調整することができ、着磁率の安定性を向上させることができる。

【符号の説明】

【0061】

１状態観測部
２報酬計算部
３学習部
４意思決定部
１０機械学習装置
２０着磁器

【図1】