(58)【調査した分野】(Int.Cl.,DB名)
【発明の概要】
【発明が解決しようとする課題】
【0005】
上述したように、積層コアは、例えば、ティーチペンダントを利用してハンド部によるコアシートの把持および移動経路等をロボット制御部に記憶させ、あるいは、所定のプログラムを実行させることにより行っている。このような手法により製造された積層コアには、所定のずれ(積層誤差)が含まれるため、より高精度の積層コアを製造するには、例えば、型枠治具を使用している。
【0006】
しかしながら、型枠治具は、製造する積層コアの種類毎に異なるため、複数の型枠治具を準備することになり、また、同じ型枠治具を長期間継続して使用すると、その寸法や形状が微妙に変化してくるため、製造された積層コアの形状にも影響が出る。
【0007】
本発明の目的は、上述した従来技術の課題に鑑み、高品位な積層コアを継続的に製造することができる機械学習器、積層コア製造装置、積層コア製造システムおよび機械学習方法の提供にある。
【課題を解決するための手段】
【0008】
本発明に係る第1実施形態によれば、複数枚のコアシートを積層して積層コアを製造する積層コア製造装置の動作を学習する機械学習器であって、前記コアシートおよび前記積層コア製造装置の状態を観測する状態観測部と、前記状態観測部により観測された状態量に基づいて、前記コアシートを積層する操作量を更新する学習部と、を備える機械学習器が提供される。
【0009】
前記状態観測部は、前記コアシートの形状データ、前記積層コア製造装置の動作データ、および、前記積層コア製造装置により前記コアシートが積層される時間データの少なくとも1つの状態量を観測し、前記学習部は、前記状態観測部により観測された前記コアシートの形状データ、前記積層コア製造装置の動作データ、および、前記コアシートが積層される時間データの少なくとも1つの状態量に基づいて、前記コアシートを積層する操作量を更新するのが好ましい。
【0010】
前記積層コア製造装置は、ハンド部もしくは作業空間を見渡せる個所にロボットビジョンが設けられたロボットを含み、前記状態観測部は、前記ロボットビジョンから、前記コアシートの形状データを受け取ることができる。前記積層コア製造装置は、さらに、前記ハンド部の変位または角度を指令して前記ロボットの動作を制御するロボット制御部を含み、前記状態観測部は、前記ロボット制御部から、前記積層コア製造装置の動作データ、および、前記コアシートが積層される時間データを受け取るのが好ましい。
【0011】
前記状態観測部は、前記ロボット制御部から出力される前記ハンド部の速度ゲインおよび位置ゲイン、ならびに、前記コアシートが積層される時間のデータを取得することができる。前記機械学習器は、さらに、前記学習部が学習した前記操作量を参照して、前記積層コア製造装置の動作を決定する意思決定部を備えるのが好ましい。
【0012】
前記学習部は、前記状態観測部の出力に基づいて報酬を計算する報酬計算部と、前記状態観測部および前記報酬計算部の出力に基づいて、前記コアシートを積層して積層コアを製造する動作の価値を定める価値関数を、前記報酬に応じて更新する価値関数更新部と、を備えることができる。また、前記学習部は、前記状態観測部の出力、および、入力された教師データに基づいて誤差を計算する誤差計算部と、前記状態観測部および前記誤差計算部の出力に基づいて、前記コアシートを積層して積層コアを製造する動作の誤差を定める誤差モデルを更新する誤差モデル更新部と、を備えることもできる。前記機械学習器は、ニューラルネットワークを有してもよい。
【0013】
本発明に係る第2実施形態によれば、所定形状のコアシートを、1枚ずつまたは複数枚ずつ掴んで積層して積層コアを製造する積層コア製造装置であって、前記コアシートを把持するハンド部に設けられたロボットビジョンにより、前記コアシートの寸法を検出して前記積層コアを製造する積層コア製造装置が提供される。前記積層コア製造装置は、さらに、機械学習器を備えるのが好ましい。
【0014】
本発明に係る第3実施形態によれば、所定形状のコアシートを、1枚ずつまたは複数枚ずつ掴んで積層して積層コアを製造する積層コア製造装置であって、機械学習器を備え、前記コアシートを把持するハンド部に設けられたロボットビジョンにより、前記コアシートの寸法を検出して前記積層コアを製造する積層コア製造装置を複数備える積層コア製造システムであって、前記機械学習器は、それぞれの前記積層コア製造装置に設けられ、複数の前記積層コア製造装置に設けられた複数の前記機械学習器は、通信媒体を介して相互にデータを共有または交換するようになっている積層コア製造システムが提供される。前記機械学習器は、クラウドサーバ上に存在してもよい。
【0015】
本発明に係る第4実施形態によれば、複数枚のコアシートを積層して積層コアを製造する積層コア製造装置の動作を学習する機械学習方法であって、前記コアシートおよび前記積層コア製造装置の状態を観測し、前
記観測された状態量に基づいて、前記コアシートを積層する操作量を更新する機械学習方法が提供される。前記コアシートおよび前記積層コア製造装置の状態を観測
するのは、前記コアシートの形状データ、前記積層コア製造装置の動作データ、および、前記積層コア製造装置により前記コアシートが積層される時間データの少なくとも1つの状態量を観測し、前記コアシートを積層する操作量の更新は、観測された前記コアシートの形状データ、前記積層コア製造装置の動作データ、および、前記コアシートが積層される時間データの少なくとも1つの状態量に基づいて行うのが好ましい。
【発明の効果】
【0016】
本発明に係る機械学習器、積層コア製造装置、積層コア製造システムおよび機械学習方法によれば、高品位な積層コアを継続的に製造することができるという効果を奏する。
【発明を実施するための形態】
【0018】
まず、本発明に係る機械学習器、積層コア製造装置、積層コア製造システムおよび機械学習方法の実施形態を詳述する前に、積層コア製造装置の例およびその課題を、
図7〜
図9を参照して説明する。
図7は、積層コア製造装置の一例を概略的に示すブロック図であり、
図8は、
図7に示す積層コア製造装置により積層コアを製造する一例を説明するための図である。
図7において、参照符号100は積層コア製造装置、101はロボット(作業ロボット)、111はロボット101のハンド部、112はロボット101を制御するロボット制御部、そして、103は積層コアを示す。
【0019】
図7に示されるように、本例の積層コア103の製造は、ロボット制御部112の出力で制御されるロボット101のハンド部111により、例えば、
図8に示されるような複数のコアシート131-1,131-2,…131-kを積み上げて積層コア103を製造する。ここで、ロボット101は、例えば、6軸多関節型ロボットであり、ロボット101およびハンド部111の各駆動軸は、ロボット制御部112によって制御される。
【0020】
また、ロボット101は、例えば、コアシート131(131-1,131-2,…,131-k)を所定個所から把持して積み上げ、積層コア103を製造する。なお、ロボット101によるコアシート131の積層は、例えば、図示しないティーチペンダントを利用してハンド部111によるコアシート131の把持および移動経路等をロボット制御部112に記憶させ、あるいは、ロボット制御部112に対してコアシート131を把持,移動および積層する所定のプログラムを実行させることにより行う。
【0021】
しかしながら、上述した積層コア103の製造方法では、
図8に示されるように、積層される複数のコアシート131-1,131-2,…,131-kの位置がばらつくため、製造された積層コア103には、例えば、X+ΔXおよびY+ΔYの誤差範囲が含まれることになる。
【0022】
図9は、
図7に示す積層コア製造装置により積層コアを製造する他の例を説明するための図であり、型枠治具130を使用して積層コア103を製造する場合を示す。すなわち、
図9に示されるように、本例の積層コアの製造は、型枠治具130の内面により積層される複数のコアシート131-1,131-2,…,131-kを積層後、積層状態の寸法ばらつきを抑えられるようになっている。しかしながら、型枠治具130は、製造する積層コア103の種類毎に異なるため、複数の型枠治具130を準備することになる。また、同じ型枠治具130を長期間継続して使用すると、型枠治具130の寸法や形状が微妙に変化してくるため、製造された積層コア103の形状にも影響が出る。
【0023】
このように、
図7に示すような積層コア製造装置100により積層コア103を製造する場合、型枠治具130が無いと、高品位な積層コア103の設計が難しくなり、また、型枠治具130を用いて積層コア103を製造する場合でも、長期間に渡って同じ品質の積層コア103を製造するのが困難であり、さらに、製造する積層コア103の種類ごとに型枠治具130を準備することになるといった様々な問題がある。
【0024】
以下、本発明に係る機械学習器、積層コア製造装置、積層コア製造システムおよび機械学習方法の実施形態を、添付図面を参照して詳述する。ここで、各図面において、同じ部材には同じ参照符号が付されている。また、異なる図面において同じ参照符号が付されたものは同じ機能を有する構成要素であることを意味するものとする。なお、理解を容易にするために、これらの図面は縮尺を適宜変更している。
【0025】
図1は、本発明に係る積層コア製造装置の一実施形態を概略的に示すブロック図であり、
図2は、
図1に示す積層コア製造装置におけるロボットビジョンにより得られるコアシート形状の一例を示す図である。
図1に示されるように、本実施形態の積層コア製造装置10は、ハンド部11を有するロボット1、機械学習器2、ロボット制御部12およびロボットビジョン13を含む。ロボット1は、例えば、6軸多関節型ロボットであり、ロボット1およびハンド部11のそれぞれの駆動軸は、ロボット制御部12によって制御される。
【0026】
ロボット1は、コアシート31を1枚ずつ、あるいは、複数枚ずつ把持して積層し、積層コア3を製造する。なお、
図1において、ハンド部11は、コアシート31を2本の爪で把持するように描かれているが、例えば、負圧によりコアシート31を吸着する吸着式ハンド等であってもよい。また、ハンド部11には、ロボットビジョン13が設けられていて、コアシート31の形状を認識、すなわち、
図2に示されるような、コアシート31のXおよびYの寸法等を検出可能になっている。
【0027】
なお、
図1において、ロボットビジョン13の装着個所は、ハンド部11とされているが、これは単なる例であり、作業空間を見渡せる個所であれば、ハンド部11に限定されるものではない。また、ロボットビジョン13の設置数も1つに限定されず、複数個所あるいは複数個設けることができるのはいうまでもない。
【0028】
ロボット制御部12は、ハンド部11の変位または角度を指令してロボット1の動作を制御する。状態観測部21は、ロボットビジョン13からのコアシート31の形状データ、ならびに、ロボット制御部12からの積層コア製造装置10(ロボット1)の動作データおよびコアシート31が積層される時間データの少なくとも1つを受け取る。すなわち、状態観測部21は、ロボット制御部12から出力されるハンド部11の速度ゲインおよび位置ゲイン、ならびに、コアシート31が積層される時間のデータを取得する。
【0029】
機械学習器2は、積層コア製造装置10の動作を学習するためのもので、コアシート31および積層コア製造装置10の状態を観測する状態観測部21と、状態観測部21により観測された状態量に基づいてコアシート31を積層する操作量を更新する学習部22と、学習部22が学習した操作量を参照して積層コア製造装置10の動作を決定する意思決定部25と、を含む。
【0030】
学習部22は、状態観測部21により観測されたコアシート31の形状データ、積層コア製造装置10の動作データ、および、コアシート31が積層される時間データの少なくとも1つの状態量に基づいて、コアシート31を積層するための操作量を更新する。すなわち、学習部22は、状態観測部21の出力に基づいて報酬を計算する報酬計算部23と、状態観測部21および報酬計算部23の出力に基づいて、コアシート31を積層して積層コア3を製造する動作の価値を定める価値関数を、報酬に応じて更新する価値関数更新部24と、を含む。また、意思決定部25は、学習部22が学習した操作量を参照して、積層コア製造装置10(ロボット1)の動作を決定して、ロボット制御部12へ出力する。これにより、ロボット制御部12は、更新された価値関数による速度ゲイン(更新値)および位置ゲイン(更新値)に基づいてハンド部13(ロボット1)の制御を行い、コアシート31を積層して積層コア3を製造する。
【0031】
ここで、機械学習器について、説明する。機械学習器は、装置に入力されるデータの集合から、その中にある有用な規則や知識表現、判断基準などを解析により抽出し、その判断結果を出力するとともに、知識の学習(機械学習)を行う機能を有する。機械学習の手法は様々であるが、大別すれば、例えば、「教師あり学習」、「教師なし学習」および「強化学習」に分けられる。さらに、これらの手法を実現するうえで、特徴量そのものの抽出を学習する、「深層学習(ディープラーニング:Deep Learning)」と呼ばれる手法がある。
【0032】
なお、
図1に示す機械学習器2は、「強化学習」を適用したものであり、また、
図6を参照して後述する機械学習器4は、「教師あり学習」を適用したものである。これらの機械学習(機械学習器2,4)は、汎用の計算機若しくはプロセッサを用いることもできるが、例えば、GPGPU(General-Purpose computing on Graphics Processing Units)や大規模PCクラスター等を適用すると、より高速処理が可能になる。
【0033】
まず、教師あり学習とは、教師データ、すなわち、ある入力と結果(ラベル)のデータの組を大量に機械学習器2に与えることで、それらのデータセットにある特徴を学習し、入力から結果を推定するモデル(誤差モデル)、すなわち、その関係性を帰納的に獲得するものである。例えば、後述のニューラルネットワークなどのアルゴリズムを用いて実現することが可能である。
【0034】
また、教師なし学習とは、入力データのみを大量に学習装置に与えることで、入力データがどのような分布をしているか学習し、対応する教師出力データを与えなくても、入力データに対して圧縮・分類・整形などを行う装置で学習する手法である。例えば、それらのデータセットにある特徴を、似た者どうしにクラスタリングすることなどができる。この結果を使って、何らかの基準を設けてそれを最適化するような出力の割り当てを行うことにより、出力の予測を実現すること
ができる。
【0035】
なお、教師なし学習と教師あり学習との中間的な問題設定として、半教師あり学習と呼ばれるものもあり、これは、例えば、一部のみ入力と出力のデータの組が存在し、それ以外は入力のみのデータである場合が対応する。本実施形態においては、実際にロボットを動かさなくても取得することができるデータ(画像データやシミュレーションのデータ等)を教師なし学習で利用することにより、学習を効率的に行うことが可能になる。
【0036】
次に、強化学習について、説明する。まず、強化学習の問題設定として、次のように考える。
・ロボットは、環境の状態を観測し、行動を決定する。
・環境は、何らかの規則に従って変化し、さらに、自分の行動が、環境に変化を与えることもある。
・行動するたびに、報酬信号が帰ってくる。
・最大化したいのは、将来にわたっての(割引)報酬の合計である。
・行動が引き起こす結果を全く知らない、または、不完全にしか知らない状態から学習はスタートする。すなわち、ロボットは、実際に行動して初めて、その結果をデータとして得ることができる。つまり、試行錯誤しながら最適な行動を探索する必要がある。
・人間の動作を真似るように、事前学習(前述の教師あり学習や、逆強化学習といった手法)した状態を初期状態として、良いスタート地点から学習をスタートさせることもできる。
【0037】
ここで、強化学習とは、判定や分類だけではなく、行動を学習することにより、環境に行動が与える相互作用を踏まえて適切な行動を学習、すなわち、将来的に得られる報酬を最大にするための学習する方法を学ぶものである。以下に、例として、Q学習の場合で説明を続けるが、Q学習に限定されるものではない。
【0038】
Q学習は、或る環境状態sの下で、行動aを選択する価値Q(s,a)を学習する方法である。つまり、或る状態sのとき、価値Q(s,a)の最も高い行動aを最適な行動として選択すればよい。しかし、最初は、状態sと行動aとの組合せについて、価値Q(s,a)の正しい値は全く分かっていない。そこで、エージェント(行動主体)は、或る状態sの下で様々な行動aを選択し、その時の行動aに対して、報酬が与えられる。それにより、エージェントは、より良い行動の選択、すなわち、正しい価値Q(s,a)を学習していく。
【0039】
さらに、行動の結果、将来にわたって得られる報酬の合計を最大化したいので、最終的にQ(s,a)=E[Σ(γ
t)r
t]となるようにすることを目指す。ここでE[]は期待値を表し、tは時刻、γは後述する割引率と呼ばれるパラメータ、r
tは時刻tにおける報酬、Σは時刻tによる合計である。この式における期待値は、最適な行動に従って状態変化したときについてとるものとし、それは、分かっていないので、探索しながら学習することになる。このような価値Q(s,a)の更新式は、例えば、次の式(1)により表すことができる。
【0040】
【数1】
上記の式(1)において、s
tは、時刻tにおける環境の状態を表し、a
tは、時刻tにおける行動を表す。行動a
tにより、状態はs
t+1に変化する。r
t+1は、その状態の変化により得られる報酬を表している。また、maxの付いた項は、状態s
t+1の下で、その時に分かっている最もQ値の高い行動aを選択した場合のQ値にγを乗じたものになる。ここで、γは、0<γ≦1のパラメータで、割引率と呼ばれる。また、αは、学習係数で、0<α≦1の範囲とする。
【0041】
上述した式(1)は、試行a
tの結果、帰ってきた報酬r
t+1を元に、状態s
tにおける行動a
tの評価値Q(s
t,a
t)を更新する方法を表している。すなわち、状態sにおける行動aの評価値Q(s
t,a
t)よりも、報酬r
t+1と行動aによる次の状態における最良の行動max aの評価値Q(s
t+1,max a
t+1)の合計の方が大きければ、Q(s
t,a
t)を大きくし、反対に小さければ、Q(s
t,a
t)を小さくすることを示している。つまり、或る状態における或る行動の価値を、結果として即時帰ってくる報酬と、その行動による次の状態における最良の行動の価値に近付けるようにしている。
【0042】
ここで、Q(s,a)の計算機上での表現方法は、すべての状態行動ペア(s,a)に対して、その値をテーブルとして保持しておく方法と、Q(s,a)を近似するような関数を用意する方法がある。後者の方法では、前述の式(1)は、確率勾配降下法などの手法で近似関数のパラメータを調整していくことにより、実現することができる。なお、近似関数としては、後述のニューラルネットワークを用いることができる。
【0043】
また、教師あり学習、教師なし学習の誤差モデル、あるいは、強化学習での価値関数の近似アルゴリズムとして、ニューラルネットワークを用いることができる。
図3は、ニューロンのモデルを模式的に示す図であり、
図4は、
図3に示すニューロンを組み合わせて構成した三層のニューラルネットワークを模式的に示す図である。すなわち、ニューラルネットワークは、例えば、
図3に示すようなニューロンのモデルを模した演算装置およびメモリ等で構成される。
【0044】
図3に示されるように、ニューロンは、複数の入力x(
図3では、一例として入力x1〜入力x3)に対する出力(結果)yを出力するものである。各入力x(x1,x2,x3)には、この入力xに対応する重みw(w1,w2,w3)が掛けられる。これにより、ニューロンは、次の式(2)により表現される結果yを出力する。なお、入力x、結果yおよび重みwは、すべてベクトルである。また、下記の式(2)において、θは、バイアスであり、f
kは、活性化関数である。
【数2】
【0045】
図4を参照して、
図3に示すニューロンを組み合わせて構成した三層のニューラルネットワークを説明する。
図4に示されるように、ニューラルネットワークの左側から複数の入力x(ここでは、一例として、入力x1〜入力x3)が入力され、右側から結果y(ここでは、一例として、結果y1〜入力y3)が出力される。具体的に、入力x1,x2, x3は、3つのニューロンN11〜N13の各々に対して、対応する重みが掛けられて入力される。これらの入力に掛けられる重みは、まとめて
W1と表記されている。
【0046】
ニューロンN11〜N13は、それぞれ、z11〜z13を出力する。
図4において、これらz11〜z13は、まとめて特徴ベクトル
Z1と表記され、入力ベクトルの特徴量を抽出したベクトルとみなすことができる。この特徴ベクトル
Z1は、重み
W1と重み
W2との間の特徴ベクトルである。z11〜z13は、2つのニューロンN21およびN22の各々に対して、対応する重みが掛けられて入力される。これらの特徴ベクトルに掛けられる重みは、まとめて
W2と表記されている。
【0047】
ニューロンN21,N22は、それぞれz21,z22を出力する。
図4において、これらz21,z22は、まとめて特徴ベクトル
Z2と表記されている。この特徴ベクトル
Z2は、重み
W2と重み
W3との間の特徴ベクトルである。z21,z22は、3つのニューロンN31〜N33の各々に対して、対応する重みが掛けられて入力される。これらの特徴ベクトルに掛けられる重みは、まとめて
W3と表記されている。
【0048】
最後に、ニューロンN31〜N33は、それぞれ、結果y1〜結果y3を出力する。ニューラルネットワークの動作には、学習モードと価値予測モードとがある。例えば、学習モードにおいて、学習データセットを用いて重みWを学習し、そのパラメータを用いて予測モードにおいて、ロボットの行動判断を行う。なお、便宜上、予測と書いたが、検出・分類・推論など多様なタスクが可能なのはいうまでもない。
【0049】
ここで、予測モードで実際にロボットを動かして得られたデータを即時学習し、次の行動に反映させる(オンライン学習)ことも、予め収集しておいたデータ群を用いてまとめた学習を行い、以降はずっとそのパラメータで検知モードを行う(バッチ学習)こともできる。あるいは、その中間的な、ある程度データが溜まるたびに学習モードを挟むということも可能である。
【0050】
また、重み
W1〜
W3は、誤差逆伝搬法(誤差逆転伝播法:バックプロパゲーション:Backpropagation)により学習可能なものである。なお、誤差の情報は、右側から入り左側に流れる。誤差逆伝搬法は、各ニューロンについて、入力xが入力されたときの出力yと真の出力y(教師)との差分を小さくするように、それぞれの重みを調整(学習)する手法である。
【0051】
このようなニューラルネットワークは、三層以上に、さらに層を増やすことも可能である(深層学習と称される)。また、入力の特徴抽出を段階的に行い、結果を回帰する演算装置を、教師データのみから自動的に獲得することも可能である。そこで、本実施形態の機械学習器2は、上述のQ学習を実施すべく、
図1に示されるように、状態観測部21、学習部22、および、意思決定部25を備えている。ただし、本発明に適用される機械学習方法は、Q学習に限定されないのは前述した通りである。すなわち、機械学習器で用いることができる手法である「教師あり学習」、「教師なし学習」、「半教師あり学習」および「強化学習」等の様々な手法が適用可能である。
【0052】
次に、本実施形態の積層コア製造装置における機械学習器2の動作の一例を説明する。
図5は、
図1に示す積層コア製造装置における機械学習器の動作の一例を示すフローチャートである。
図5に示されるように、機械学習が開始(学習スタート)すると、行動価値テーブルに基づいてコアシート31を積層する(ステップST1)。すなわち、ロボット制御部12は、行動価値テーブル(価値関数)による速度ゲインおよび位置ゲインに基づいて、ハンド部11の変位,角度等(操作量)を指令し、ロボット1に対してコアシート31の積層処理を行わせる。
【0053】
状態観測部21は、例えば、ロボット制御部12から速度ゲイン,位置ゲインおよび積層時間の情報、ならびに、ロボットビジョン13の出力に基づく寸法測定値を取得する(ステップST2)。さらに、
積層コア3の寸法が許容公差範囲内か(ステップST3)、および、積層時間を前回試行時より短縮できたか(ステップST4)を判定する。すなわち、ステップST3において、
積層コア3の寸法が許容公差範囲内ではない(ST3:NO)と判定すると、ステップST7に進んでマイナス報酬を設定し、一方、
積層コア3の寸法が許容公差範囲内である(ST3:YES)と判定すると、ステップST4に進んで、上述したステップ
ST2のコアシート31を積層するのに要した積層時間が前回試行時の積層時間よりも短縮することができたかどうかの判定を行う。
【0054】
すなわち、ステップST4において、積層時間を前回試行時より短縮できた(ST4:YES)と判定すると、ステップST5に進んで、プラス報酬を設定し、一方、積層時間を前回試行時より短縮できなかった(ST4:NO)と判定すると、ステップST6に進んで、報酬なし(零報酬)を設定する。そして、ステップST8において、ステップST5〜ST7における「プラス報酬」,「報酬なし」および「マイナス報酬」による報酬計算を行い、行動価値テーブルを更新し(ステップST9)、ステップST1に戻り、同様の処理を繰り返す。これにより、高品位な積層コアを長期間に渡って継続的に製造することが可能になる。
【0055】
以上において、ハンド部11により積層するコアシート31の数は、1枚に限定されるものではない。すなわち、1回のハンド部11の動作により、所定形状のコアシート31を、1枚ずつまたは複数枚ずつ積層して積層コアを製造する。なお、コアシート31を積層するためのハンド部11は、
図1に示すような2本の爪で1枚または複数枚のコアシート31を把持するものに限定されないのは前述した通りである。
【0056】
また、状態観測部21が取得(観測)する速度ゲイン,位置ゲイン,積層時間および寸法測定値(状態量)は、これらのものに限定されず、他の様々なデータであってもよい。さらに、コアシート31の寸法測定値は、例えば、ロボットビジョン13からの画像データから求めることができるが、このとき、知られている様々な処理を適用することができる。なお、ステップST5〜ST7における「プラス報酬」,「報酬なし」および「マイナス報酬」の値(大きさ)は、様々な条件(例えば、許容公差の大きさやコアシートの形状,材質および精度等)に応じて適切なものが選ばれるのはいうまでもない。
【0057】
図6は、本発明に係る積層コア製造装置の他の実施形態を概略的に示すブロック図であり、教師あり学習を適用したものを示す。
図6と、前述した
図1の比較から明らかなように、
図6に示す教師あり学習を適用した積層コア製造装置10’は、
図1に示すQ学習(強化学習)を適用した積層コア製造装置10において、教師データ(結果(ラベル)付きデータ)が提供されるようになっている。
【0058】
図6に示されるように、教師あり学習を適用した積層コア製造装置10’における機械学習器4は、状態観測部41と、学習部42と、意思決定部45と、を備える。学習部42は、誤差計算部43と、誤差モデル更新部44と、を含む。なお、本実施形態の積層コア製造装置10’においても、機械学習器4は、行動価値テーブル(価値関数)による速度ゲインおよび位置ゲインに基づいて、ハンド部11の変位,角度等の操作量を学習して出力する。
【0059】
すなわち、
図6に示す教師あり学習を適用した積層コア製造装置10’において、誤差計算部43および誤差モデル更新部44は、それぞれ、
図1に示すQ学習を適用した積層コア製造装置10における報酬計算部23および価値関数更新部24に対応する。なお、他の構成、例えば、ロボット1,ロボット制御部12およびロボットビジョン13等の構成は、前述した
図1と同様であり、その説明は省略する。また、意思決定部45も、
図1のものと同様であり、その説明は省略する。また、
図6においても、ロボットビジョン13の装着個所は、ハンド部11に限定されず、作業空間を見渡せる個所に設置してもよく、さらに、ロボットビジョン13の数も1つに限定されず、複数個所あるいは複数個設けることができる。
【0060】
誤差計算部43は、状態観測部41の出力および教師データを受け取って、結果(ラベル)付きデータと学習部42に実装されている誤差モデルの出力との誤差を計算する。ここで、教師データは、例えば、コアシート31(積層コア3)の形状やロボット1による処理が同一の場合、ロボット1に作業を行わせる所定日の前日までに得られた結果(ラベル)付きデータを保持し、その所定日に、結果(ラベル)付きデータを誤差計算部43に提供することができる。
【0061】
あるいは、積層コア製造装置10’の外部で行われたシミュレーション等により得られたデータ、または、他の積層コア製造装置の結果(ラベル)付きデータを、メモリカードや通信回線により、その積層コア製造装置10’の誤差計算部43に提供することも可能である。さらに、結果(ラベル)付きデータ(教師データ)を、例えば、学習部42に内蔵したフラッシュメモリ(Flash Memory)等の不揮発性メモリに保持し、その不揮発性メモリに保持された結果(ラベル)付きデータを、そのまま学習部42で使用することもできる。
【0062】
以上、において、積層コア製造装置10(10’)を複数備えた積層コア製造システムを考えた場合、例えば、機械学習器2(4)は、積層コア製造装置10(10’)毎にそれぞれ設けられ、複数の積層コア製造装置10(10’)に設けられた複数の機械学習器2(4)は、通信媒体を介して相互にデータを共有または交換することが可能である。また、機械学習器2(4)は、クラウドサーバ上に存在させることも可能である。
【0063】
以上、実施形態を説明したが、ここに記載したすべての例や条件は、発明および技術に適用する発明の概念の理解を助ける目的で記載されたものであり、特に記載された例や条件は発明の範囲を制限することを意図するものではない。また、明細書のそのような記載は、発明の利点および欠点を示すものでもない。発明の実施形態を詳細に記載したが、各種の変更、置き換え、変形が発明の精神および範囲を逸脱することなく行えることが理解されるべきである。