【文献】
中間隼人、田中直樹、山田訓,3種類のセンサを持つロボット制御へのモジュール型強化学習の適用,社団法人 電子情報通信学会 信学技法NC,日本,社団法人 電子情報通信学会,2009年 3月,108巻480号,301−306ページ
【文献】
吉原輝、関和広、上原邦昭,ニュース記事の時間的特性を考慮した株価動向予測,情報処理学会研究報告数理モデル化と問題解決,情報処理学会,2015年 2月24日,2015−MPS−102巻4号,1−6ページ
(58)【調査した分野】(Int.Cl.,DB名)
【背景技術】
【0002】
永久磁石の磁化を行うためには、磁石素材が有する最大磁束密度の飽和点に達する強度の磁界を与える必要があり、そのために着磁器が用いられる。着磁器は、磁石素材が磁性を得るための磁界を発生させる着磁ヨーク及び巻線部を備えている。着磁器の一例として、コンデンサを充電し、コンデンサに蓄えたエネルギーを着磁ヨークに放電することによって強い磁場を発生させるコンデンサ式着磁器が知られている。
【0003】
図1に、従来の着磁器の回路の例を示す(例えば、特許文献1)。従来の着磁器は、交流電圧の位相を制御する位相制御回路1001と、電圧を昇圧する昇圧トランス1002と、昇圧電圧を整流する整流回路1003と、整流された電圧によって充電される充電コンデンサC
1と、充電コンデンサC
1に並列に接続された着磁用スイッチング素子であるSCR
1と、着磁巻線L
1と、を有する。従来の着磁器では、SCR
1を点弧パルスで導通させることによって、着磁巻線L
1に着磁電流を供給する。充電コンデンサC
1の充電電圧がゼロになる時点から着磁巻線L
1に発生する逆起電力によってフライホイールダイオードD
1に循環電流を流す。フライホイールダイオードD
1の循環電流により巻線の発熱を回避して、逆起電力エネルギーを回生している。
【0004】
また、従来の着磁器を用いて磁石素材であるロータを着磁する際には、一定の電圧で電流を流すようにしている。しかしながら、ロータの着磁を多数連続で行う場合、着磁器の着磁巻線を構成する銅線が徐々に高温になることによって抵抗値が増加し、着磁巻線に流れる電流が減少する。その結果としてロータの着磁率が低下し、高い着磁率を維持することが難しくなるという問題があった。さらに、ロータの着磁率が低下することによって、モータのトルクが減少するという問題が生じていた。
【発明を実施するための形態】
【0011】
以下、図面を参照して、本発明に係る機械学習装置及び電動機用着磁装置について説明する。
【0012】
図2は、本発明の実施例に係る機械学習装置の構成図である。本発明の実施例に係る機械学習装置10は、状態観測部1と、報酬計算部2と、学習部3と、を備える。
【0013】
状態観測部1は、着磁ヨーク及び巻線部を有する着磁器20の巻線温度、巻線抵抗値、電流値、及びロータ磁束密度を観測する。ただし、これらのパラメータは一例であって他のパラメータを観測するようにしてもよい。
【0014】
報酬計算部2は、状態観測部1より取得したロータ磁束密度から報酬を計算する。報酬の計算方法については後述する。
【0015】
学習部3は、ロータ磁束密度と目標とする磁束密度から計算される着磁率、巻線温度、及び巻線抵抗値に基づいて行動価値テーブルを更新する。行動価値テーブルの更新方法については後述する。
【0016】
機械学習装置10は、学習部3の行動価値テーブルに基づいて電圧指令値を決定する意思決定部4をさらに備えることが好ましい。
【0017】
本実施例では、巻線抵抗値Rを一定とするのではなく、着磁器20において検出した巻線温度Taに基づいて巻線抵抗値が変化するものとして巻線抵抗値Rを補正する。補正後の巻線抵抗値R
aは以下の銅線の抵抗式で求められる。
R
a=(234.5+T
a)/(234.5+T
0)×R
0
ただし、R
0[Ω]は基準温度T
0[℃]における基準抵抗値、234.5は銅の温度係数である。本実施例では、補正巻線抵抗値R
aが所望の磁束密度を得るための電流を決定するための抵抗値として用いられる。
【0018】
次に、報酬の計算方法について説明する。一例として、報酬計算部2は、着磁率が目的とする着磁率の規定範囲を超えて大きいか又は小さいときにマイナスの報酬を与え、着磁率が目的とする着磁率の規定範囲内であるときにプラスの報酬を与えるようにしてもよい。例えば、目標とする着磁率の規定範囲を95〜100%と仮定する。このとき、得られた着磁率が90%であれば、目標とする着磁率の規定範囲外であるので、報酬計算部2はマイナス報酬を与える。一方、得られた着磁率が98%であれば、目標とする着磁率の規定範囲内であるので、報酬計算部2はプラス報酬を与える。
【0019】
学習部3が、状態観測部1で観測された状態変数を多層構造で演算し、行動価値テーブルをリアルタイムで更新することが好ましい。ここで、状態変数を多層構造で演算する方法として、例えば、
図4に示すような多層ニューラルネットワークを用いることができる。
【0020】
ここで、
図2に示される機械学習装置10について詳細に説明する。機械学習装置10は、装置に入力されるデータの集合から、その中にある有用な規則や知識表現、判断基準などを解析により抽出し、その判断結果を出力するとともに、知識の学習を行う機能を有する。その手法は様々であるが、大別すれば「教師あり学習」、「教師なし学習」、「強化学習」に分けられる。さらに、これらの手法を実現するうえで、特徴量そのものの抽出を学習する、「深層学習」と呼ばれる手法がある。
【0021】
「教師あり学習」は、ある入力と結果(ラベル)のデータの組を大量に学習装置に与えることで、それらのデータセットにある特徴を学習し、入力から結果を推定するモデル、即ち、その関係性を帰納的に獲得することができる。本実施形態においては、巻線抵抗値及び巻線温度から着磁率を推定する部分などに用いることが出来る。後述のニューラルネットワークなどのアルゴリズムを用いて実現することができる。
【0022】
「教師なし学習」とは、入力データのみを大量に学習装置に与えることで、入力データがどのような分布をしているか学習し、対応する教師出力データを与えなくても、入力データに対して圧縮、分類、整形などを行う装置を学習する手法である。それらのデータセットにある特徴を似た者どうしにクラスタリングすることなどができる。この結果を使って、何らかの基準を設けてそれを最適にするような出力の割り当てを行うことで、出力の予測を実現することができる。また「教師なし学習」と「教師あり学習」との中間的な問題設定として、「半教師あり学習」と呼ばれるものもあり、一部のみ入力と出力のデータの組が存在し、それ以外は入力のみのデータである場合がこれに当たる。本実施形態においては、実際に着磁器を動作させなくても取得することが出来るデータを教師なし学習で利用し、学習を効率的に行うことが出来る。
【0023】
強化学習の問題を以下のように設定する。
・着磁器は環境の状態を観測し、行動を決定する。
・環境は何らかの規則に従って変化し、さらに自分の行動が、環境に変化を与えることもある。
・行動するたびに報酬信号が帰ってくる。
・最大化したいのは将来にわたっての(割引)報酬の合計である。
・行動が引き起こす結果を全く知らない、または不完全にしか知らない状態から学習はスタートする。着磁器は実際に動作して初めて、その結果をデータとして得ることが出来る。つまり、試行錯誤しながら最適な行動を探索する必要がある。
・人間の動作を真似るように事前学習(前述の教師あり学習や、逆強化学習といった手法)した状態を初期状態として、良いスタート地点から学習をスタートさせることもできる。
【0024】
「強化学習」とは、判定や分類だけではなく、行動を学習することにより、環境に行動が与える相互作用を踏まえて適切な行動を学習、即ち、将来的に得られる報酬を最大にするための学習を行う方法である。このことは、本実施形態において、未来に影響を及ぼすような行動を獲得できることを表している。例えばQ学習の場合で説明を続けるが、それに限るものではない。
【0025】
Q学習は、或る環境状態sの下で、行動aを選択する価値Q(s,a)を学習する方法である。つまり、或る状態sのとき、価値Q(s,a)の最も高い行動aを最適な行動として選択すればよい。しかし、最初は状態sと行動aとの組合せについて、価値Q(s,a)の正しい値は全く分かっていない。そこで、エージェント(行動主体)は、或る状態sの下で様々な行動aを選択し、その時の行動aに対して報酬が与えられる。それにより、エージェントはより良い行動の選択、すなわち正しい価値Q(s,a)を学習していく。
【0026】
行動の結果、将来にわたって得られる報酬の合計を最大化したいので、最終的にQ(s,a)=E[Σγ
tr
t]となるようにすることを目指す(期待値は最適な行動に従って状態変化したときについてとる。もちろん、それは分かっていないので、探索しながら学習しなければならない)。そのような価値Q(s,a)の更新式は、例えば次式により表すことができる。
【0028】
ここで、s
tは時刻tにおける環境の状態を表し、a
tは時刻tにおける行動を表す。行動a
tにより、状態はs
t+1に変化する。r
t+1は、その状態の変化により貰える報酬を表している。また、maxの付いた項は、状態s
t+1の下で、その時に分かっている最もQ値の高い行動aを選択した場合のQ値にγを乗じたものになる。γは、0<γ≦1のパラメータで、割引率と呼ばれる。αは学習係数で、0<α≦1の範囲とする。
【0029】
この式は、試行a
tの結果帰ってきた報酬r
t+1を元に、状態s
tにおける行動a
tの評価値Q(s
t,a
t)を更新する方法を表している。状態sにおける行動aの評価値Q(s
t,a
t)よりも、報酬r
t+1+行動aによる次の状態における最良の行動max aの評価値Q(s
t+1,max a
t+1)の方が大きければ、Q(s
t,a
t)を大きくするし、反対に小さければ、Q(s
t,a
t)も小さくする事を示している。つまり、或る状態における或る行動の価値を、結果として即時帰ってくる報酬と、その行動による次の状態における最良の行動の価値に近付けるようにしている。
【0030】
Q(s,a)の計算機上での表現方法は、すべての状態行動ペア(s,a)に対して、その値をテーブル(行動価値テーブル)として保持しておく方法と、Q(s,a)を近似するような関数を用意する方法がある。後者の方法では、前述の更新式は、確率勾配降下法などの手法で近似関数のパラメータを調整していくことで実現することが出来る。近似関数としては、後述のニューラルネットワークを用いることが出来る。
【0031】
教師あり学習、教師なし学習、及び強化学習での価値関数の近似アルゴリズムとして、ニューラルネットワークを用いることができる。ニューラルネットワークは、たとえば
図3に示すようなニューロンのモデルを模したニューラルネットワークを実現する演算装置及びメモリ等で構成される。
図3は、ニューロンのモデルを示す模式図である。
【0032】
図3に示すように、ニューロンは、複数の入力x(ここでは一例として、入力x
1〜入力x
3)に対する出力yを出力するものである。各入力x
1〜x
3には、この入力xに対応する重みw(w
1〜w
3)が掛けられる。これにより、ニューロンは、次の式により表現される出力yを出力する。なお、入力x、出力y及び重みwは、すべてベクトルである。
【数2】
ここで、θはバイアスであり、f
kは活性化関数である。
【0033】
次に、上述したニューロンを組み合わせた3層の重みを有するニューラルネットワークについて、
図4を参照して説明する。
図4は、D1〜D3の3層の重みを有するニューラルネットワークを示す模式図である。
【0034】
図4に示すように、ニューラルネットワークの左側から複数の入力x(ここでは一例として、入力x1〜入力x3)が入力され、右側から結果y(ここでは一例として、結果y1〜結果y3)が出力される。
【0035】
具体的には、入力x1〜入力x3は、3つのニューロンN11〜N13の各々に対して対応する重みが掛けられて入力される。これらの入力に掛けられる重みはまとめてW1と標記されている。
【0036】
ニューロンN11〜N13は、それぞれ、Z11〜Z13を出力する。これらのZ11〜Z13はまとめて特徴ベクトルZ1と標記され、入力ベクトルの特徴量を抽出したベクトルとみなすことができる。この特徴ベクトルZ1は、重みW1と重みW2との間の特徴ベクトルである。
【0037】
Z11〜Z13は、2つのニューロンN21,N22の各々に対して対応する重みが掛けられて入力される。これらの特徴ベクトルに掛けられる重みは、まとめてW2と標記されている。
【0038】
ニューロンN21,N22は、それぞれ、Z21,Z22を出力する。これらは、まとめて特徴ベクトルZ2と標記されている。この特徴ベクトルZ2は、重みW2と重みW3との間の特徴ベクトルである。
【0039】
特徴ベクトルZ21,Z22は、3つのニューロンN31〜N33の各々に対して対応する重みが掛けられて入力される。これらの特徴ベクトルに掛けられる重みは、まとめてW3と標記されている。
【0040】
最後に、ニューロンN31〜N33は、それぞれ、結果y1〜結果y3を出力する。
【0041】
ニューラルネットワークの動作には、学習モードと価値予測モードとがあり、学習モードにおいて学習データセットを用いて重みWを学習し、そのパラメータを用いて予測モードにおいて着磁器の行動判断を行う(便宜上、予測と書いたが、検出、分類、推論など多様なタスクが可能である)。
【0042】
予測モードで実際に着磁器を動かして得られたデータを即時学習し、次の行動に反映させる(オンライン学習)ことも、あらかじめ収集しておいたデータ群を用いてまとめた学習を行い、以降はずっとそのパラメータで検知モードを行う(バッチ学習)こともできる。その中間的な、ある程度データが溜まるたびに学習モードを挟むということも可能である。
【0043】
重みW1〜W3は、誤差逆伝搬法(バックプロパゲーション)により学習可能なものである。誤差の情報は、右側から入り左側に流れる。誤差逆伝搬法は、各ニューロンについて、入力xが入力されたときの出力yと真の出力y(教師)との差分を小さくするように、それぞれの重みを調整(学習)する手法である。
【0044】
このようなニューラルネットワークは、3層以上にさらに層を増やすことも可能である(深層学習と称される)。入力の特徴抽出を段階的に行い、結果を回帰する演算装置を、教師データのみから自動的に獲得することが可能である。
【0045】
そこで、本実施形態の機械学習装置10は、上述のQ学習を実施すべく、
図2に示されるように状態観測部1、学習部3、および意思決定部4を備えている。但し、本発明に適用される機械学習方法は、Q学習に限定されるものではない。たとえば教師あり学習を適用する場合、価値関数は学習モデル、報酬は誤差に対応する。
【0046】
図2に示すように、着磁器20における状態には、行動で間接的に変化する状態と、行動で直接的に変化する状態とがある。行動で間接的に変化する状態には、巻線抵抗値、巻線温度、着磁率が含まれる。行動で直接的に変化する状態には、電流値が含まれる。
【0047】
学習部3は更新式及び報酬に基づいて、行動価値テーブルの中から現在の状態変数及び取り得る行動に対応する行動価値を更新する。
【0048】
機械学習装置10がネットワークを介して着磁器20に接続されており、状態観測部1は、ネットワークを介して、現在の状態変数を取得するように構成してもよい。また、機械学習装置10は、クラウドサーバに存在することが好ましい。
【0049】
機械学習装置10は、電動機用着磁装置に内蔵されていてもよい。即ち、電動機用着磁装置が、機械学習装置10と、着磁ヨーク及び巻線部を備える着磁器20と、を具備するようにしてもよい。
【0050】
また、
図2に示した例では、自己の機械学習装置の学習部で更新された行動価値テーブルを用いて自己の行動価値テーブルを更新する例を示したが、このような例には限られない。即ち、自己の機械学習装置とは別の他の機械学習装置の学習部で更新された行動価値テーブルを用いて自己の行動価値テーブルを更新するようにしてもよい。
【0051】
次に、本発明の実施例に係る機械学習装置の動作について説明する。
図5に本発明の実施例に係る機械学習装置の動作手順を説明するためのフローチャートを示す。
【0052】
まず、ステップS101において、着磁器20の各種状態を状態観測部1で観測する。即ち、状態観測部1は、着磁器20が検出した巻線温度、巻線抵抗値、電流値、及びロータ磁束密度を観測する。
【0053】
次に、ステップS102において、報酬計算部2が観測した状態から報酬を計算する。例えば、報酬計算部2は、着磁率が目標とする着磁率の規定範囲外であるときにマイナスの報酬を与え、着磁率が目標とする着磁率の規定範囲内であるときにプラスの報酬を与える。
【0054】
次に、ステップS103において、学習部3が観測した状態と報酬から行動価値を学習する。
【0055】
次に、ステップS104において、状態及び行動価値に基づいて、意思決定部4で最適なパラメータ(行動)を決定する。例えば、所望の着磁率を得るためのパラメータ(巻線温度、巻線抵抗値、電流値)を決定する。
【0056】
次に、ステップS105において、パラメータ(行動)により状態が変化する。即ち、着磁器20が、所望の着磁率を得るための電流値を生じさせる電圧指令を決定する。
【0057】
以上のようにして、行動で直接的に変化する状態である着磁率が目標値に到達する。本発明によるパラメータの調整例を
図6(a)及び(b)に示す。
図6(a)及び(b)は、それぞれ、本発明の実施例に係る機械学習装置によるパラメータの調整前後の着磁率の特性を示すグラフである。
図6(a)は、パラメータの値を調整する前において、複数のサンプルを製造した場合の電圧、電流、及び着磁率の推移を表す。
図6(b)は、本発明によってパラメータの値を調整した場合において、複数のサンプルを製造した場合の電圧、電流、及び着磁率の推移を表す。なお、縦軸は任意目盛である。
【0058】
図6(a)に示すように、パラメータを調整しない場合には、サンプル数が増えるに従って電流が低下し、着磁率が減少する。これは、サンプル数が増えるに従って巻線温度が高くなり、巻線を構成する銅線の抵抗が増大し、電圧を一定とした場合に巻線に流れる電流が減少するためである。
【0059】
一方、本発明の実施例に係る電動機用着磁装置によれば、サンプル数が増えるにしたがって高くなる銅線の抵抗を考慮して、着磁率が目的の規定範囲に入るような電流値が得られるように電圧指令を調整しているので、着磁率の安定性を向上させることができる。
【0060】
以上説明したように、本発明の実施例に係る機械学習装置及び電動機用着磁装置によれば、機械学習によって、所望の着磁率に対して、着磁器のパラメータを自動調整することができ、着磁率の安定性を向上させることができる。