特開2023-180813 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ パナソニックＩＰマネジメント株式会社の特許一覧

特開2023-180813学習装置および処理装置

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2023180813

(43)【公開日】2023-12-21

(54)【発明の名称】学習装置および処理装置

(51)【国際特許分類】

B25J 13/00 20060101AFI20231214BHJP

G06N 20/00 20190101ALI20231214BHJP

【ＦＩ】

B25J13/00 Z

G06N20/00

【審査請求】未請求

【請求項の数】5

【出願形態】ＯＬ

(21)【出願番号】P 2022094417

(22)【出願日】2022-06-10

(71)【出願人】

【識別番号】314012076

【氏名又は名称】パナソニックＩＰマネジメント株式会社

(74)【代理人】

【識別番号】110002952

【氏名又は名称】弁理士法人鷲田国際特許事務所

(72)【発明者】

【氏名】小松真弓

(72)【発明者】

【氏名】岡田雅司

(72)【発明者】

【氏名】奥村亮

【テーマコード（参考）】

3C707

【Ｆターム（参考）】

3C707BS12

3C707JU03

3C707KS17

3C707KS21

3C707KS33

3C707KT01

3C707KV01

3C707KV18

3C707KW03

3C707KW05

3C707LU06

3C707LU09

3C707LV15

3C707LW12

(57)【要約】

【課題】ロボットアームを制御するモデルを容易に作成する学習装置および処理装置を提供する。
【解決手段】ロボットアームを制御する制御指令値を出力するためのモデルを作成する学習装置であって、ロボットアームの動作情報と、動作情報に対応するロボットアームの作業フェーズと、ロボットアームの制御指令値とを取得データとして取得するデータ取得部と、取得データの動作情報および作業フェーズに基づき、動作情報を入力とし、作業フェーズを出力する前段モデルを機械学習の処理を実行して作成する第一の学習処理部と、取得データを作業フェーズに基づき複数のグループに分類した状態データを生成するデータ処理部と、状態データに基づき、動作情報を入力とし、ロボットアームの制御指令値を出力する後段モデルをグループ毎に機械学習の処理を実行して作成する第二の学習処理部と、を備える。
【選択図】図２

【特許請求の範囲】

【請求項1】

ロボットアームを制御する制御指令値を出力するためのモデルを作成する学習装置であって、
前記ロボットアームの動作情報と、前記動作情報に対応する前記ロボットアームの作業フェーズと、前記ロボットアームの制御指令値とを取得データとして取得するデータ取得部と、
前記取得データの前記動作情報および前記作業フェーズに基づき、前記動作情報を入力とし、前記作業フェーズを出力する前段モデルを機械学習の処理を実行して作成する第一の学習処理部と、
前記取得データを前記作業フェーズに基づき複数のグループに分類した状態データを生成するデータ処理部と、
前記状態データに基づき、前記動作情報を入力とし、前記ロボットアームの制御指令値を出力する後段モデルを前記グループ毎に機械学習の処理を実行して作成する第二の学習処理部と、を備える、学習装置。

【請求項2】

前記データ処理部は、時系列で前記動作情報および前記作業フェーズが並ぶ前記取得データを前記複数のグループに分割することで前記状態データを生成する、
請求項１に記載の学習装置。

【請求項3】

前記第一の学習処理部は、前記取得データの前記制御指令値において力制御の有無が切り替わるタイミングに基づき、前記作業フェーズを前記複数のグループに分類して出力するように前記前段モデルを作成する、
請求項１に記載の学習装置。

【請求項4】

前記第二の学習処理部は、前記作業フェーズの数と同数以上である複数の学習部を含み、
前記第二の学習処理部は、前記複数の学習部のそれぞれにおいて前記状態データに基づき機械学習の処理を実行する、
請求項１～３のいずれか１項に記載の学習装置。

【請求項5】

ロボットアームを制御するためのデータを処理する処理装置であって、
前記ロボットアームの動作情報を取得するデータ取得部と、
前記ロボットアームの動作情報と前記ロボットアームの作業フェーズとの関係を機械学習して生成された前段モデルに、取得された前記動作情報を入力して前記作業フェーズを出力する第一の処理部と、
前記ロボットアームの作業フェーズを複数のグループに分類して、前記動作情報と前記ロボットアームの制御指令値との関係を前記グループ毎に機械学習して生成された後段モデルに、取得された前記動作情報を、前記第一の処理部から出力された前記作業フェーズに基づき入力して前記制御指令値を出力する第二の処理部と、を備える、処理装置。

【発明の詳細な説明】

【技術分野】

【0001】

本開示は、学習装置および処理装置に関する。

【背景技術】

【0002】

部品の嵌め合いを行う場合など、力センサを備えたロボットで力制御を行う場合がある。力制御の方式としては、インピーダンス制御やハイブリッド制御などがあるが、これらのパラメータを近年、機械学習によって調整する手法が開示されている。

【0003】

例えば、特許文献１には、産業用ロボットのマニピュレータの制御に関する各パラメータの自動調整を機械学習で行う機能をもつ制御装置が開示されている。

【先行技術文献】

【特許文献】

【0004】

【特許文献1】特開２０２０－５５０９５号公報

【発明の概要】

【発明が解決しようとする課題】

【0005】

しかしながら、特許文献１に示す制御装置は、力制御を行うかどうかという判断を含むロボットアームの動作を学習できていないため、ロボットアームを適切に制御するモデルを作成することが困難であった。

【0006】

本開示は、ロボットアームを制御するモデルを容易に作成する学習装置および処理装置を提供することを目的とする。

【課題を解決するための手段】

【0007】

本開示の一態様に係る学習装置は、ロボットアームを制御する制御指令値を出力するためのモデルを作成する学習装置であって、ロボットアームの動作情報と、動作情報に対応するロボットアームの作業フェーズと、ロボットアームの制御指令値とを取得データとして取得するデータ取得部と、取得データの動作情報および作業フェーズに基づき、動作情報を入力とし、作業フェーズを出力する前段モデルを機械学習の処理を実行して作成する第一の学習処理部と、取得データを作業フェーズに基づき複数のグループに分類した状態データを生成するデータ処理部と、状態データに基づき、動作情報を入力とし、ロボットアームの制御指令値を出力する後段モデルをグループ毎に機械学習の処理を実行して作成する第二の学習処理部と、を備える。

【0008】

本開示の一態様に係る処理装置は、ロボットアームを制御するためのデータを処理する処理装置であって、ロボットアームの動作情報を取得するデータ取得部と、ロボットアームの動作情報とロボットアームの作業フェーズとの関係を機械学習して生成された前段モデルに、取得された動作情報を入力して作業フェーズを出力する第一の処理部と、ロボットアームの作業フェーズを複数のグループに分類して、動作情報とロボットアームの制御指令値との関係をグループ毎に機械学習して生成された後段モデルに、取得された動作情報を、第一の処理部から出力された作業フェーズに基づき入力して制御指令値を出力する第二の処理部と、を備える。

【発明の効果】

【0009】

本開示によれば、ロボットアームを制御するモデルを容易に作成することが可能となる。

【図面の簡単な説明】

【0010】

【図1】実施形態１に係る学習装置とロボットアームの構成の一例を示す図である。

【図2】実施形態１に係る機械学習装置の構成の一例を示すブロック図である。

【図3】実施形態１に係る制御装置の構成の一例を示すブロック図である。

【図4】実施形態１に係るロボットアームによるピンの嵌合作業の一例を示す図である。

【図5】実施形態１に係る嵌合作業のタスクに合わせて組み合わされた制御の一例を示す図である。

【図6】実施形態１の動作の一例を示すフローチャートである。

【図7】実施形態１に係る前段モデルに入力される入力値の一例を示す図である。

【図8】実施形態１に係る前段モデルから出力される出力値の一例を示す図である。

【図9】実施形態１に係るデータ前処理部で生成された状態データの一例を示す図である。

【図10】実施形態２に係る処理装置を備えた制御装置の構成の一例を示すブロック図である。

【図11】実施形態２の動作の一例を示すフローチャートである。

【発明を実施するための形態】

【0011】

（実施形態１）
図１は、本開示の実施形態１に係る学習装置を備えるロボットアーム１の構成の一例を示す。ロボットアーム１は、ロボットアーム本体３０と、制御装置２０とを含む。

【0012】

ロボットアーム本体３０は、土台部３１と、第２関節部３２－１と、第１リンク３３と、第３関節部３２－２と、第２リンク３４と、第４関節部３２－３と、第３リンク３５と、第５関節部３２－４と、第６関節部３２－５と、ハンド３８とを含む。

【0013】

土台部３１は、ロボットアーム本体３０の各部を支持するもので、ロボットアーム本体３０の基端部に配置されている。

【0014】

第２関節部３２－１は、土台部３１上に配置され、土台部３１に対して回転可能に設けられている。

【0015】

第１リンク３３は、延在形状を有し、基端部が延在方向と直交する軸の周りに回転可能に第２関節部３２－１に接続されている。

【0016】

第３関節部３２－２は、第１リンク３３の先端部に配置され、第１リンク３３の延在方向に対して直交する軸の周りに回転可能に設けられている。

【0017】

第２リンク３４は、延在形状を有し、基端部が第３関節部３２－２に接続されている。すなわち、第２リンク３４は、第３関節部３２－２を介して、第１リンク３３に回転可能に接続されている。

【0018】

第４関節部３２－３は、第２リンク３４の先端部に配置され、第２リンク３４の延在方向に対して直交する軸の周りに回転可能に設けられている。

【0019】

第３リンク３５は、延在形状を有し、基端部が第４関節部に接続されている。すなわち、第３リンク３５は、第４関節部を介して、第２リンク３４に回転可能に接続されている。

【0020】

第５関節部３２－４は、第３リンク３５の先端部に配置され、第３リンク３５の延在方向に対して直交する軸の周りに回転可能に設けられている。

【0021】

第６関節部３２－５は、第５関節部３２－４に取り付けられている。すなわち、第６関節部３２－５は、第５関節部３２－４を介して第３リンク３５に回転可能に配置されている。また、第６関節部３２－５は、第５関節部３２－４の回転軸に直交する回転軸を有し、その回転軸の周りに回転可能に設けられている。

【0022】

ハンド３８は、作業対象のワーク４０を把持するもので、第６関節部３２－５に接続されている。ハンド３８には、力センサ３７が配置され、この力センサ３７でハンド３８にかかる力を計測することが出来る。

【0023】

なお、土台部３１、第２関節部３２－１、第３関節部３２－２、第４関節部３２－３、第５関節部３２－４、第６関節部３２－５をまとめて関節部３２と称す。

【0024】

図２は、実施形態１に係る制御装置２０の構成を示すブロック図である。

【0025】

制御装置２０は、機械学習を行う機械学習装置１０を含む。制御装置２０は、例えば、パーソナルコンピュータ（ＰＣ）などから構成してもよい。

【0026】

機械学習装置１０は、データ取得部７と、取得データ記憶部８と、データ前処理部９と、第一の学習処理部１１と、データ処理部１２と、第二の学習処理部１３と、を含む。ここで、入力装置５およびセンサ６がデータ取得部７に接続され、このデータ取得部７が取得データ記憶部８を介してデータ前処理部９に接続されている。また、データ前処理部９は、第一の学習処理部１１に接続されると共に、データ処理部１２を介して第二の学習処理部１３に接続されている。

【0027】

データ取得部７は、ロボットアーム１の動作情報と、そのロボットアーム１の動作情報に対応する作業フェーズと、動作情報に対応するロボットアーム１の制御指令値とを含む取得データを入力装置５およびセンサ６から取得する。

【0028】

ここで、ロボットアーム１の動作情報は、ロボットアーム１の動作量を表す情報であり、例えば、ロボットアーム１にかかる力およびモーメント、ロボットアーム１の関節角度および手先位置などを含んでもよい。また、ロボットアーム１の作業フェーズは、ロボットアーム１による一連の作業を複数のタスクに区分けしたときに、それぞれのタスクを識別するものであり、例えば番号などの記号で表されてもよい。作業フェーズは、例えば、ロボットアーム１の力制御の有無が切り替わるタイミングに基づいて設定してもよい。例えば、データ取得部７は、一連の作業において入力装置５またはセンサ６などから入力されるロボットアーム１の力制御の有無（例えばＯＮ／ＯＦＦ）に基づいて、作業フェーズが切り替わるタイミングを算出し、そのタイミングに基づいて各動作情報に対応する作業フェーズを取得してもよい。また、データ取得部７は、動作情報に対応する作業フェーズを入力装置５から直接的に取得してもよい。また、ロボットアーム１の制御指令値は、例えば、位置目標値、インピーダンス制御のＯＮ／ＯＦＦ、力制御のＯＮ／ＯＦＦ、インピーダンスパラメータ、力制御の目標値などを含んでもよい。

【0029】

なお、入力装置５は、ユーザが取得データなどを入力するための装置である。また、センサ６は、ロボットアーム１に配置されたセンサであり、例えば、ロボットアーム１の力センサ３７などを含んでもよい。

【0030】

取得データ記憶部８は、データ取得部７で取得された取得データを順次記憶する。なお、取得データは、作業の時系列に従ってデータ（例えば、動作情報、作業フェーズ）が並ぶ時系列データである。

【0031】

データ前処理部９は、取得データ記憶部８に記憶された取得データに対して、機械学習のための前処理を実行する。前処理は、例えば、ダウンサンプリングや学習データに対するノイズの付加、時系列の方向の後補間などを含んでもよい。

【0032】

第一の学習処理部１１は、学習部１４と、学習データ記憶部１６とを含む。学習部１４は、データ前処理部９で前処理された取得データの動作情報および作業フェーズに基づき、ロボットアーム１の動作情報を入力とし、ロボットアーム１の作業フェーズを出力する前段モデルを、機械学習の処理を実行して作成する。学習データ記憶部１６は、学習部１４で学習された結果、例えば前段モデルを記憶する。

【0033】

データ処理部１２は、データ前処理部９で前処理された取得データの作業フェーズに基づき、データ前処理部９で前処理された取得データを複数のグループに分類して状態データを生成する。データ処理部１２は、例えば、作業の時系列に従ってデータが並ぶ取得データを、作業フェーズで分類されたグループに分割することで状態データを生成してもよい。

【0034】

第二の学習処理部１３は、データ処理部１２で生成された状態データに基づき、ロボットアーム１の動作情報を入力とし、ロボットアーム１の制御指令値を出力する後段モデルを、グループ毎に機械学習の処理を実行して作成する。例えば、第二の学習処理部１３は、学習部１３－１、学習部１３－２、学習部１３－３、学習部１３－４を含んでもよい。

【0035】

学習部１３－１は、データ処理部１２で区分けされたタスクＡの状態データに基づいて第１後段モデルを作成する。学習部１３－２は、データ処理部１２で区分けされたタスクＢの状態データに基づいて第２後段モデルを作成する。学習部１３－３は、データ処理部１２で区分けされたタスクＣの状態データに基づいて第３後段モデルを作成する。学習部１３－４は、データ処理部１２で区分けされたタスクＤの状態データに基づいて第４後段モデルを作成する。

【0036】

ここで、第二の学習処理部１３は、例えば、ロボットアーム１の手先位置、力センサ値を入力とし、ロボットアーム１の位置目標値、インピーダンス制御のＯＮ／ＯＦＦ、力制御のＯＮ／ＯＦＦ、インピーダンスパラメータ、力制御の目標値を出力とする後段モデルを作成してもよい。

【0037】

図３は、制御装置２０のハードウェア構成を示す。

【0038】

制御装置２０は、バスＢを介して相互接続される記憶部１７と、プロセッサ１８と、ユーザインタフェース（ＵＩ）１９とを有する。

【0039】

なお、制御装置２０における後述される各種機能及び処理を実現するプログラム又は指示は、ネットワークなどを介し何れかの外部装置からダウンロードされてもよいし、ＣＤ－ＲＯＭ（ＣｏｍｐａｃｔＤｉｓｋ－ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）、フラッシュメモリ等の着脱可能な記憶媒体から提供されてもよい。

【0040】

記憶部１７は、例えば、ランダムアクセスメモリ、フラッシュメモリ、ハードディスクドライブなどの１つ以上の非一時的な記憶媒体（ｎｏｎ－ｔｒａｎｓｉｔｏｒｙｓｔｏｒａｇｅｍｅｄｉｕｍ）によって実現され、インストールされたプログラム又は指示と共に、プログラム又は指示の実行に用いられるファイル、データ等を格納する。

【0041】

プロセッサ１８は、１つ以上のプロセッサコアから構成されうる１つ以上のＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）、ＧＰＵ（ＧｒａｐｈｉｃｓＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）、処理回路（ｐｒｏｃｅｓｓｉｎｇｃｉｒｃｕｉｔｒｙ）等によって実現されてもよい。プロセッサ１８は、記憶部１７に格納されたプログラム、指示、当該プログラム若しくは指示を実行するのに必要なパラメータなどのデータ等に従って、後述される制御装置２０の各種機能及び処理を実行する。

【0042】

ＵＩ１９は、キーボード、マウス、カメラ、マイクロフォン等の入力装置、ディスプレイ、スピーカ、ヘッドセット、プリンタ等の出力装置、タッチパネル等の入出力装置から構成されてもよく、ユーザと制御装置２０との間のインタフェースを実現する。例えば、ユーザは、ディスプレイ又はタッチパネルに表示されたＧＵＩ（ＧｒａｐｈｉｃａｌＵｓｅｒＩｎｔｅｒｆａｃｅ）をキーボード、マウス等を用いて操作し、制御装置２０を操作してもよい。

【0043】

なお、上述したハードウェア構成は単なる一例であり、本開示による制御装置２０は、他の何れか適切なハードウェア構成により実現されてもよい。

【0044】

次に、ロボットアーム１の一連の作業について一例を挙げて説明する。

【0045】

図４に、ピン（ワーク４０）の嵌合作業を実施するロボットアーム１を示す。このロボットアーム１は、スタート位置から部品４１の穴４２の近くにワーク４０を移動させるタスクＡと、穴４２の近くにおいて部品４１の表面上にワーク４０を当接させるタスクＢと、その当接位置から穴４２までワーク４０を部品４１に押し当てながら移動させるタスクＣと、ワーク４０を穴４２に嵌めこむタスクＤとを順次実施する。このように、ロボットアーム１は、位置制御、インピーダンス制御および力制御を含む制御が可能であり、ワーク４０の嵌合作業のタスクに合わせて、制御の組み合わせが予め作成される。

【0046】

図５に、嵌合作業のタスクに合わせて組み合わされた制御の一例を示す。タスクＡでは、ロボットアーム１のインピーダンス制御および力制御は、両者ともにＯＦＦの状態である。タスクＣでは、ｘｙ方向、すなわち部品４１の表面に沿った移動方向におけるインピーダンス制御はＯＮの状態である。また、タスクＣでは、部品４１の表面上にワーク４０を押しつけて移動するため、ｚ方向の力制御もＯＮの状態である。このように、タスクＡ～Ｄは、インピーダンス制御（間接的力制御）や力制御（直接的力制御）などを含む広義の力制御において、ＯＮ／ＯＦＦの切り替わりが発生する。このため、タスクは、例えば、広義の力制御においてＯＮ／ＯＦＦの切り替わりが発生するタイミングを基準に分類してもよい。

【0047】

なお、インピーダンス制御は、例えば、Ｆ＝Ｍｘ^２＋Ｄｘ＋Ｋの式を満たすように力によってロボットアーム１の手先位置の目標値を決定する制御手法としてもよい。ここで、上記式において、Ｆは力センサ３７で検出した力、Ｍ、Ｄ、Ｋは図５に示すインピーダンスパラメータ、ｘはロボットアーム１の手先位置の目標値である。上記式は、方向別に設定してもよい。また、図５の例では、Ｋは未使用である。

【0048】

力制御は、方向別の力が目標とした力になるようにロボットアーム１を動作させる制御方法である。タスクＢでは、力制御目標値が５であるため、ワーク４０を部品４１の表面上に押しつける力が５Ｎとなるようにロボットアーム１の手先をｚ方向（上下方向）に移動させて、押しつけ力を調整する。すなわち、タスクＢでは、力制御がＯＮとなる。

【0049】

次に、図６に示すフローチャートを参照して本実施形態の動作について説明する。

【0050】

まず、ティーチングペンダント等を使い、人がロボットを操作しながらタスクＡ～Ｄの制御を順番に実施して、ロボットアーム１でワーク４０の嵌合を行う。タスクＡ～Ｄが成功するように、図５に示すインピーダンスパラメータや力制御の目標値を調整しながらロボットアーム１の位置及びタスクＡ～Ｄの切り替えを人が操作する。そして、ワーク４０の嵌合が成功したデータを収集する。この収集したデータは、ロボットアーム１の動作情報と、ロボットアーム１の動作情報に対応する制御指令値とを含む。具体的には、収集したデータは、ロボットアーム１の手先位置、力センサ３７の検出値、ロボットアーム１の手先目標位置、インピーダンス制御のＯＮ／ＯＦＦ、力制御のＯＮ／ＯＦＦ、インピーダンスパラメータ、力制御の目標値などを含んでもよい。これらのデータは、入力装置５またはセンサ６からデータ取得部７に出力される。

【0051】

入力装置５またはセンサ６から出力されたロボットアーム１の動作情報のデータは、ステップＳ１で、取得データとしてデータ取得部７で取得される。また、データ取得部７は、ロボットアーム１の動作情報の変化（例えば力制御のＯＮ／ＯＦＦ）に基づいて、動作情報に対応する作業フェーズを取得データとして取得する。データ取得部７は、取得データを取得データ記憶部８に記憶させる。

【0052】

続いて、データ前処理部９が、取得データ記憶部８に記憶された取得データに対して、機械学習のための前処理を実行する。前処理は、例えば、ダウンサンプリング、学習データに対するノイズの付加、または時系列の方向の後補間などを含んでもよい。データ前処理部９は、前処理を施した取得データを第一の学習処理部１１とデータ処理部１２にそれぞれ出力する。

【0053】

データ前処理部９から第一の学習処理部１１に出力された前処理後の取得データは、第一の学習処理部１１の学習部１４に入力される。学習部１４は、ステップＳ２で、取得データに基づき、ロボットアーム１の動作情報を入力とし、ロボットアーム１の作業フェーズを出力する前段モデルを、機械学習の処理を実行して作成する。

【0054】

例えば、学習部１４は、タスクＡ～Ｄの動作情報が時系列で並んだ取得データのうち、ロボットアーム１の手先位置と力センサ値を入力値とし、タスク番号（作業フェーズ）を出力とする前段モデルを作成してもよい。これにより、ロボットアーム１の手先位置情報と力センサ３７の力情報とから現在のタスク番号を推定する前段モデルを容易に作成することができる。

【0055】

このとき、学習部１４は、例えば、取得データの制御指令値において力制御の有無が切り替わるタイミングに基づき、作業フェーズを複数のグループに分類して出力するように前段モデルを作成してもよい。これにより、作業フェーズを確実に分類することができる。

【0056】

なお、機械学習は、例えば、模倣学習などを用いてもよい。また、学習部１４は、入力装置５から入力されるロボットアーム１の作業フェーズを教師データとして機械学習の処理を実行してもよい。また、タスク番号は、タスクＡ～Ｄをそれぞれ識別する番号であり、作業フェーズを表す記号を示している。このようにして、第一の学習処理部１１は、作業フェーズを出力する前段モデルを作成する。学習部１４で作成された前段モデルを含む学習結果は、学習データ記憶部１６に記憶される。

【0057】

図７に、前段モデルに対する入力値の一例を示す。ここで、ｘ、ｙ、ｚは、ロボットアーム１の手先位置、Ｔφ、Ｔθ、Ｔψは、ロボットアーム１の手先トルクを示している。例えば、入力値が前段モデルに入力されると、その入力値に応じた作業フェーズが、入力値の最終列に付加された状態で前段モデルから出力されてもよい。図８に、前段モデルの出力の一例を示す。このように、前段モデルは、作業フェーズを示すタスク番号を入力値の最終列に付加してもよい。

【0058】

一方、データ前処理部９から出力された前処理後の取得データは、データ処理部１２にも入力される。データ処理部１２は、ステップＳ３で、第一の学習処理部１１から入力された作業フェーズに基づき、データ前処理部９から入力された取得データを複数のグループに分類した状態データを生成する。

【0059】

例えば、データ処理部１２は、取得データを複数のグループに分割した状態データを生成してもよい。図９に、データ処理部１２で生成された状態データの一例を示す。このように、データ処理部１２は、作業の時系列に従ってロボットアーム１の動作情報および作業フェーズが並ぶ取得データを、作業フェーズで分類された複数のグループに分割してもよい。このとき、データ処理部１２は、第一の学習処理部１１と同様に、取得データの制御指令値において力制御の有無が切り替わるタイミングに基づき、取得データを複数のグループに分割してもよい。なお、図９は、図８に示したタスク番号に基づき取得データを分割したものである。データ処理部１２は、生成した状態データを第二の学習処理部１３に出力する。

【0060】

続いて、第二の学習処理部１３は、ステップＳ４で、データ処理部１２で生成された状態データに基づき、ロボットアーム１の動作情報を入力とし、ロボットアーム１の制御指令値を出力する後段モデルを、グループ毎に機械学習の処理を実行して作成する。

【0061】

第二の学習処理部１３は、例えば、データ処理部１２で生成された状態データのうち、タスクＡの状態データを学習部１３－１に、タスクＢの状態データを学習部１３－２に、タスクＣの状態データを学習部１３－３に、タスクＤの状態データを学習部１３－４にそれぞれ入力してもよい。学習部１３－１～１３－４は、入力された状態データに対して機械学習の処理をそれぞれ実行し、タスクＡ～Ｄにそれぞれ対応する第１後段モデル～第４後段モデルを作成する。ここで、後段モデルに入力される動作情報は、例えば、ロボットアーム１の手先位置、力センサ値などを含んでもよい。また、後段モデルから出力される制御指令値は、例えば、位置目標値、インピーダンス制御のＯＮ／ＯＦＦ、力制御のＯＮ／ＯＦＦ、インピーダンスパラメータ、力制御の目標値などを含んでもよい。学習部１３－１～１３－４は、作成した第１後段モデル～第４後段モデルを、図示しない学習データ記憶部に記憶する。

【0062】

これにより、ロボットアーム１は、現在のタスクに応じた位置目標値、インピーダンス制御のＯＮ／ＯＦＦ、力制御のＯＮ／ＯＦＦ、インピーダンス制御パラメータ、力制御の目標値を後段モデルから得ることが出来る。なお、機械学習は、例えば、模倣学習などの教師あり学習手法を用いてもよい。また、学習部１３－１～１３－４は、入力装置５から入力されるロボットアーム１の制御指令値を教師データとして機械学習の処理を実行してもよい。また、学習部１３－１～１３－４は、作業フェーズの数と同数に限られるものではない。例えば、第二の学習処理部１３は、作業フェーズの数と同数以上である複数の学習部を含んでもよい。

【0063】

このように、データ処理部１２が、作業フェーズに基づき、取得データを複数のグループに分類した状態データを生成し、第二の学習処理部１３が、その状態データに基づき、動作情報を入力とし、ロボットアーム１の制御指令値を出力する後段モデルをグループ毎に機械学習の処理を実行して作成する。これにより、力制御を行う時間と行わない時間が混在する一連のタスクＡ～Ｄについて、ロボットアーム１を制御するモデルを容易に作成することができる。

【0064】

また、データ処理部１２は、時系列で動作情報および作業フェーズが並ぶ取得データを作業フェーズで分類された複数のグループに分割することで状態データを生成する。これにより、第二の学習処理部１３においてロボットアーム１を制御するモデルをより容易に作成することができる。

【0065】

また、第二の学習処理部１３は、作業フェーズの数と同数以上である複数の学習部１３－１～１３－４のそれぞれにおいて状態データに基づき機械学習の処理を実行する。これにより、ロボットアーム１を制御するモデルをより容易に作成することができる。

【0066】

以上により、ロボットアーム１が、インピーダンス制御や力制御のＯＮ／ＯＦＦを含むワーク４０の嵌合の一連の動作を、人が操作したロボットアーム１の動作から学習することが出来る。

【0067】

本実施形態によれば、データ処理部１２が、作業フェーズに基づき、取得データを複数のグループに分類した状態データを生成し、第二の学習処理部１３が、その状態データに基づき、動作情報を入力とし、ロボットアーム１の制御指令値を出力する後段モデルをグループ毎に機械学習の処理を実行して作成する。これにより、力制御を行う時間と行わない時間が混在する一連のタスクＡ～Ｄについて、ロボットアーム１を制御するモデルを容易に作成することができる。

【0068】

（実施形態２）
以下、本開示の実施形態２について説明する。ここでは、上記の実施形態１との相違点を中心に説明し、上記の実施形態１との共通点については、共通の参照符号を使用して、その詳細な説明を省略する。

【0069】

実施形態２は、実施形態１で作成された前段モデルおよび後段モデルを処理装置に搭載し、この処理装置で処理されたデータに基づいてロボットアーム１を制御するものである。

【0070】

図１０は、実施形態２に係る処理装置を備えた制御装置２０の構成を示すブロック図である。

【0071】

制御装置２０は、制御部２１と、処理装置２２とを含む。制御部２１は、処理装置２２から出力される制御指令値に基づき、ロボットアーム１を制御する。処理装置２２は、データ取得部２３と、取得データ記憶部２４と、第一の処理部２５と、第二の処理部２６と、を含む。ここで、入力装置５およびセンサ６がデータ取得部２３に接続され、このデータ取得部２３が取得データ記憶部２４と第一の処理部２５を介して第二の処理部２６に接続されている。また、取得データ記憶部２４は、第二の処理部２６に直接的に接続されている。そして、第二の処理部２６が、制御部２１を介してロボットアーム１に接続されている。

【0072】

データ取得部２３は、ロボットアーム１の動作情報を取得する。データ取得部２３は、例えば、入力装置５およびセンサ６から動作情報を取得してもよい。なお、ロボットアーム１の動作情報は、ロボットアーム１の動作量を表す情報であり、例えば、ロボットアーム１にかかる力およびモーメント、ロボットアーム１の関節角度および手先位置などを含んでもよい。

【0073】

取得データ記憶部２４は、データ取得部２３で取得された取得データを順次記憶する。

【0074】

第一の処理部２５は、意思決定部２７と、学習データ記憶部２８とを含む。学習データ記憶部２８は、実施形態１の学習部１４で学習された結果を記憶する。例えば、学習データ記憶部２８は、ロボットアーム１の動作情報とロボットアーム１の作業フェーズとの関係を機械学習して生成された前段モデルを記憶する。意思決定部２７は、学習データ記憶部２８に記憶された前段モデルに、取得データ記憶部２４に記憶された動作情報を入力して、その動作情報に対応する作業フェーズ（例えばタスク番号）を出力する。

【0075】

第二の処理部２６は、ロボットアーム１の作業フェーズを複数のグループに分類して、動作情報と制御指令値との関係をグループ毎に機械学習して生成された後段モデル、すなわち実施形態１の第二の学習処理部１３で学習された第１後段モデル～第４後段モデルを、図示しない学習データ記憶部に記憶する。そして、第二の処理部２６は、第一の処理部２５から出力された作業フェーズに基づき、取得データ記憶部２４に記憶された動作情報を第１後段モデル～第４後段モデルに入力して、ロボットアーム１の制御指令値を出力する。

【0076】

第二の処理部２６は、例えば、意思決定部２９－１～２９－４を含んでもよい。意思決定部２９－１は、第一の処理部２５からタスクＡが出力された場合に、ロボットアーム１の動作情報を第１後段モデルに入力して、タスクＡに対応する制御指令値を出力する。意思決定部２９－２は、第一の処理部２５からタスクＢが出力された場合に、ロボットアーム１の動作情報を第２後段モデルに入力して、タスクＢに対応する制御指令値を出力する。意思決定部２９－３は、第一の処理部２５からタスクＣが出力された場合に、ロボットアーム１の動作情報を第３後段モデルに入力して、タスクＣに対応する制御指令値を出力する。意思決定部２９－４は、第一の処理部２５からタスクＤが出力された場合に、ロボットアーム１の動作情報を第４後段モデルに入力して、タスクＤに対応する制御指令値を出力する。
また、処理装置２２は、取得データ記憶部２４と第一の処理部２５および第二の処理部２６との間に、実施形態１と同様のデータ前処理部を含んでもよい。

【0077】

なお、制御装置２０のハードウェア構成は、実施形態１と同様であるため説明を省略する。

【0078】

次に、図１１に示すフローチャートを参照して本実施形態の動作について説明する。

【0079】

まず、ロボットアーム１が起動されて、ロボットアーム１に備えられた関節角のエンコーダや力センサ３７などを含むセンサ６から、処理装置２２のデータ取得部２３にロボットアーム１の動作情報が出力される。なお、エンコーダ値は、ロボットアーム１の手先位置に変換した状態でデータ取得部２３に出力されてもよい。また、ペグ嵌合の場合には、例えば、ロボットアーム１の手先位置と力センサ値がデータ取得部２３に出力されてもよい。

【0080】

これにより、データ取得部２３は、ステップＳ２１で、現在のロボットアーム１の動作情報を取得する。このとき、データ取得部２３は、学習時のようにタスクＡ～Ｄ毎に区分けされたデータではなく、１作業毎のデータ（タスクＡ～Ｄが連続したデータ）を取得することになる。データ取得部２３は、ロボットアーム１の動作情報、例えばロボットアーム１の手先位置と力センサ値を取得すると、その動作情報を取得データ記憶部２４に記憶する。

【0081】

続いて、第一の処理部２５が、取得データ記憶部２４に記憶されたロボットアーム１の手先位置情報と力センサ値を意思決定部２７に入力する。そして、意思決定部２７は、ステップＳ２２で、学習データ記憶部２８に記憶された前段モデルに、ロボットアーム１の手先位置情報と力センサ値を入力して、動作情報に対応するタスク番号（作業フェーズ）を出力する。このようにして、ロボットアーム１の動作情報に対するタスク番号が決定すると、意思決定部２７は、そのタスク番号を第二の処理部２６に出力する。

【0082】

第二の処理部２６は、第一の処理部２５からタスク番号を入力すると共に、そのタスク番号に対応するロボットアーム１の動作情報を取得データ記憶部２４から入力する。そして、第二の処理部２６は、ステップＳ２３で、タスク番号に対応する後段モデルにロボットアーム１の動作情報を入力して、ロボットアーム１の制御指令値を出力する。

【0083】

具体的には、第二の処理部２６は、意思決定部２９－１～２９－４のうち、第一の処理部２５から出力されたタスク番号に対応する意思決定部を選択し、その対応する意思決定部にロボットアーム１の動作情報を入力する。ここで、第二の処理部２６は、タスクＡに対応する意思決定部２９－１を選択し、その意思決定部２９－１にロボットアーム１の動作情報を入力したものとする。

【0084】

意思決定部２９－１は、ロボットアーム１の動作情報、例えばロボットアーム１の手先位置情報と力センサ値が入力されると、その動作情報をタスクＡに対応する第１後段モデルに入力して、ロボットアーム１の制御指令値を出力する。制御指令値としては、例えば、位置目標値、インピーダンス制御のＯＮ／ＯＦＦ、力制御のＯＮ／ＯＦＦ，インピーダンスパラメータ、力制御の目標値などが挙げられる。意思決定部２９－１は、出力したロボットアーム１の制御指令値を制御部２１に出力する。

【0085】

制御部２１は、ロボットアーム１の制御指令値を入力すると、ステップＳ２４で、その制御指令値に基づきロボットアーム１を制御する。例えば、制御部２１は、制御指令値に基づきロボットアーム１のモータ指令値を算出し、そのモータ指令値に基づいてロボットアーム１の関節部３２にあるモータを駆動してもよい。

【0086】

以上により、第一の処理部２５に記憶された前段モデルおよび第二の処理部２６に記憶された後段モデルに基づいて、インピーダンス制御のＯＮ／ＯＦＦや力制御のＯＮ／ＯＦＦなどを制御し、ピンを嵌合するようにロボットアーム１を動作させることが出来る。

【0087】

以上、実施形態２によれば、第一の処理部２５が、ロボットアーム１の手先位置と力センサ３７の出力である力センサ値を前段モデルに入力することにより、一連のピン嵌合作業において分割されたタスクＡ～Ｄの中から、適切な１つのタスクを選択する。そして、第二の処理部２６が、第一の処理部２５で選択されたタスクに対応する後段モデルを使用してロボットアーム１の制御指令値、例えば位置目標値、力制御のＯＮ／ＯＦＦを出力する。

【0088】

従来、ロボットアーム１は、力制御がＯＮ／ＯＦＦになるタイミングで動作が大きく変化するため、一つのモデルで制御指令を出力することは困難であった。そこで、本開示では、タスクＡ～Ｄに対応する後段モデルを用いてロボットアーム１の制御指令値を算出するため、制御指令値を高精度に算出することができる。

【0089】

また、単純にタスクごとにモデルを作った場合、例えばスライドから嵌め合いに移行するタイミングを、人の操作であればピンが穴に引っかかったことを察知して動作の切り替えを行うことが出来る。しかしながら、ロボットアーム１で自動化したときに、その動作の移行を自動化するための条件を設定することが難しく、単純にタスクごとにモデルを作ってもタスクの切り替えタイミングを決めるのが困難であった。そこで、本開示では、第一の処理部２５が、ロボットアーム１の一連の動作からタスクの切り替えタイミングを学習するため、タスクの移行タイミングを容易に出力することができる。

【0090】

なお、上記の実施の形態１および２は、以下の変形例が採用できる。

【0091】

（１）力検出は、手先に取り付けた力センサ３７で検出されたが、これに限られるものではない。例えば、各関節に取り付けたトルクセンサで力検出してもよい。また、トルクセンサを用いて手先に掛かる力を推定してもよい。このとき、手先で力制御してもよいし、トルクそのものを力制御してもよい。また、この両方の情報を併用してもよい。

【0092】

（２）データ取得部７および２３にロボットアーム１の手先位置を入力したが、ロボットアーム１の各関節角度を入力してもよい。例えば、データ取得部７および２３に各関節角度を入力し、制御指令値として各関節角度目標値が出力されてもよい。また、この両方の情報を併用してもよい。

【0093】

以上、本開示の具体例を詳細に説明したが、これらは例示にすぎず、請求の範囲を限定するものではない。請求の範囲に記載の技術には、以上に例示した具体例を様々に変形、変更したものが含まれる。

【産業上の利用可能性】

【0094】

本開示の学習装置は、作業用ロボットに広く適用することができる。

【符号の説明】

【0095】

１ロボットアーム
５入力装置
６センサ
７，２３データ取得部
８，２４取得データ記憶部
９データ前処理部
１０機械学習装置
１１第一の学習処理部
１２データ処理部
１３第二の学習処理部
１４，１３－１～１３－４学習部
１６学習データ記憶部
１７記憶部
１８プロセッサ
１９ユーザインタフェース
２０制御装置
２１制御部
２２処理装置
２５第一の処理部
２６第二の処理部
２７，２９－１～２９－４意思決定部
２８学習データ記憶部
３０ロボットアーム本体
３１土台部
３２－１第２関節部
３２－２第３関節部
３２－３第４関節部
３２－４第５関節部
３２－５第６関節部
３３第１リンク
３４第２リンク
３５第３リンク
３７力センサ
３８ハンド
４０ワーク
４１部品
４２穴

【図1】