特開2022-128896 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 住友重機械工業株式会社の特許一覧

特開2022-128896ピッキング装置及び学習装置

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2022128896

(43)【公開日】2022-09-05

(54)【発明の名称】ピッキング装置及び学習装置

(51)【国際特許分類】

B25J 13/08 20060101AFI20220829BHJP

【ＦＩ】

B25J13/08 Z

【審査請求】未請求

【請求項の数】8

【出願形態】ＯＬ

(21)【出願番号】P 2021027362

(22)【出願日】2021-02-24

(71)【出願人】

【識別番号】000002107

【氏名又は名称】住友重機械工業株式会社

(74)【代理人】

【識別番号】100105887

【弁理士】

【氏名又は名称】来山幹雄

(72)【発明者】

【氏名】宮澤宣嗣

【テーマコード（参考）】

3C707

【Ｆターム（参考）】

3C707AS04

3C707KS03

3C707KS31

3C707KS34

3C707KT02

3C707KX06

3C707LS15

3C707LV12

3C707LV19

3C707LW12

(57)【要約】

【課題】学習モデルの精度を高めることが可能なピッキング装置及び学習装置を提供する。
【解決手段】力覚センサが対象物に接触し、対象物の位置及び姿勢を推定する基礎となる接触情報を得る。ピッキング機構が対象物を掴む。制御装置が、力覚センサから取得した接触情報に基づいて、ピッキング機構を制御する。制御装置の事前学習部が、シミュレータを用いて生成した学習用データセットを用いてピッキング動作の学習モデルを事前学習する。ピッキング制御部が、事前学習した学習モデルを用いて力覚センサ及びピッキング機構を制御することによりピッキング動作を行う。追加学習部が、実際のピッキング動作で得られたデータセットを用いてピッキング動作の学習モデルを追加学習する。
【選択図】図９

【特許請求の範囲】

【請求項1】

対象物に接触し、対象物の位置及び姿勢を推定する基礎となる接触情報を得る力覚センサと、
対象物を掴むピッキング機構と、
前記力覚センサから取得した接触情報に基づいて、前記ピッキング機構を制御する制御装置と
を備え、
前記制御装置は、
シミュレータを用いて生成した学習用データセットを用いてピッキング動作の学習モデルを事前学習する事前学習部と、
事前学習した学習モデルを用いて前記力覚センサ及び前記ピッキング機構を制御することによりピッキング動作を行うピッキング制御部と、
実際のピッキング動作で得られたデータセットを用いてピッキング動作の学習モデルを追加学習する追加学習部と
を含むピッキング装置。

【請求項2】

前記事前学習部は、対象物の形状を定義する形状定義データに基づいて対象物の位置及び姿勢を推定する位置姿勢推定学習モデルを事前学習し、
前記制御装置は、前記力覚センサから得られた接触情報を前記位置姿勢推定学習モデルへの入力として用い、対象物の位置及び姿勢を推定する位置姿勢推定部を、さらに含み、
前記ピッキング制御部は、前記位置姿勢推定部で推定された位置及び姿勢に基づいて前記ピッキング機構の動作を制御し、
前記追加学習部は、前記力覚センサから得られた接触情報、及び前記ピッキング制御部による前記ピッキング機構の動作の成否に基づいて、前記位置姿勢推定学習モデルの追加学習を行う請求項１に記載のピッキング装置。

【請求項3】

前記制御装置は、前記ピッキング機構の動作において失敗の頻度が基準値を超えると、前記追加学習部による追加学習を実行するようにユーザに通知する位置姿勢推定学習モデル評価部を、さらに含む請求項２に記載のピッキング装置。

【請求項4】

前記制御装置は、
対象物から非接触で取得した情報に基づいて、対象物の位置及び姿勢の複数の候補を出力する位置姿勢候補出力部と、
対象物の位置及び姿勢の複数の候補を入力とし、前記力覚センサの接触経路を出力とする接触経路決定学習モデルを用い、前記位置姿勢候補出力部から出力された複数の候補に基づいて前記力覚センサの接触経路を決定する接触経路決定部と、
前記位置姿勢候補出力部から出力された対象物の位置及び姿勢の複数の候補、及び当該複数の候補に対して決定された接触経路を用いて、前記接触経路決定学習モデルを学習する接触経路決定学習部と
を、さらに含む請求項１乃至３のいずれか１項に記載のピッキング装置。

【請求項5】

前記接触経路決定学習部は、
対象物の位置及び姿勢の複数の候補の集合を「状態」とし、複数の接触経路による接触動作を「行動」とし、対象物の位置及び姿勢の候補が減少した数を「報酬」とする強化学習、及び
対象物の位置及び姿勢の複数の候補、及びユーザが指定した接触経路に基づく模倣学習の少なくとも一方を行う請求項４に記載のピッキング装置。

【請求項6】

前記制御装置は、
対象物のそれぞれについて、ピッキングが成功するまでに前記力覚センサを接触させた回数を計数し、接触回数が基準値を超えると、前記接触経路決定学習モデルの学習を実行するように、ユーザに通知する接触経路決定学習モデル評価部を、さらに有する請求項４または５に記載のピッキング装置。

【請求項7】

前記制御装置は、対象物の形状を定義する形状定義データの入力を受ける形状定義データ取得部を、さらに有する請求項１乃至６のいずれか１項に記載のピッキング装置。

【請求項8】

シミュレータを用いて生成した学習用データセットを用いてピッキング動作の学習モデルを事前学習し、
事前学習した学習モデルを用いて、対象物に接触して接触情報を得る力覚センサ及び対象物を掴むピッキング機構を制御して行ったピッキング動作で得られたデータセットを用いてピッキング動作の学習モデルを追加学習する学習装置。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、対象物を掴むピッキング装置、及びピッキング動作を機械学習する学習装置に関する。

【背景技術】

【0002】

下記の特許文献１に、対象物の映像と、対象物への接触位置の計測結果とから、対象物の姿勢を認識してピッキングを行うシステムが開示されている。特許文献１に開示されたシステムにおいては、対象物の映像と、対象物への接触による計測情報とを併用することで、ビニール袋や緩衝材に包まれた対象物の位置の認識を可能としている。

【0003】

下記の特許文献２に、シミュレータを用いて機械学習のための学習用データセットを生成し、この学習用データセットを用いて機械学習を行うピッキング装置が開示されている。

【先行技術文献】

【特許文献】

【0004】

【特許文献1】特開２０１７－１３６６７７号公報

【特許文献2】特開２０２０―８２３２２号公報

【発明の概要】

【発明が解決しようとする課題】

【0005】

実際のピッキング動作で用いられる学習モデルに入力するデータは、実環境において対象物に実際に接触して収集されたデータである。シミュレータを用いて生成した学習用データセットに、実環境において対象物に接触したときに発生する摩擦等を再現することが困難である。このため、学習モデルの精度を高めることが困難である。

【0006】

本発明の目的は、学習モデルの精度を高めることが可能なピッキング装置及び学習装置を提供することである。

【課題を解決するための手段】

【0007】

本発明の一観点によると、
対象物に接触し、対象物の位置及び姿勢を推定する基礎となる接触情報を得る力覚センサと、
対象物を掴むピッキング機構と、
前記力覚センサから取得した接触情報に基づいて、前記ピッキング機構を制御する制御装置と
を備え、
前記制御装置は、
シミュレータを用いて生成した学習用データセットを用いてピッキング動作の学習モデルを事前学習する事前学習部と、
事前学習した学習モデルを用いて前記力覚センサ及び前記ピッキング機構を制御することによりピッキング動作を行うピッキング制御部と、
実際のピッキング動作で得られたデータセットを用いてピッキング動作の学習モデルを追加学習する追加学習部と
を含むピッキング装置が提供される。

【0008】

本発明の他の観点によると、
シミュレータを用いて生成した学習用データセットを用いてピッキング動作の学習モデルを事前学習し、
事前学習した学習モデルを用いて、対象物に接触して接触情報を得る力覚センサ及び対象物を掴むピッキング機構を制御して行ったピッキング動作で得られたデータセットを用いてピッキング動作の学習モデルを追加学習する学習装置が提供される。

【発明の効果】

【0009】

実際のピッキング動作で得られたデータセットを用いて学習モデルを追加学習することにより、シミュレータを用いた事前学習で構築された学習モデルの精度を高めることができる。

【図面の簡単な説明】

【0010】

【図1】図１は、実施例によるピッキング装置のブロック図である。

【図2】図２Ａは、対象物の例として六角ナットの形状を定義するＣＡＤデータを平面上に示した図であり、図２Ｂは、ＣＡＤモデルの表面に位置する複数の参照点ｐを、平面上に表した図である。

【図3】図３は、複数の代表参照点ｐ＿ｉを示す模式図である。

【図4】図４は、事前学習で用いられる座標変換の一例を示す模式図である。

【図5】図５は、位置姿勢推定追加学習部が追加学習を実行する手順を示すフローチャートである。

【図6】図６は、接触経路決定強化学習部が強化学習を実行する手順を示すフローチャートである。

【図7】図７は、接触経路決定模倣学習部が模倣学習を実行する手順を示すフローチャートである。

【図8】図８は、模倣学習時に出力装置に出力された図形及び画像の一例を示す図である。

【図9】図９は、追加学習運用モードにおけるピッキング装置の動作を示すフローチャートである。

【図10】図１０は、学習モードにおけるピッキング装置の動作を示すフローチャートである。

【発明を実施するための形態】

【0011】

図１～図１０を参照して、本願発明の一実施例によるピッキング装置について説明する。
図１は、実施例によるピッキング装置のブロック図である。実施例によるピッキング装置は、制御装置１０、ピッキング機構４０、出力装置５１、入力装置５２、及び撮像装置５３を備えている。ピッキング機構４０は、多関節型ロボットアーム４１、その先端に取り付けられた把持部４２及び力覚センサ４３を含む。なお、力覚センサ４３は、把持部４２を移動させる多関節型ロボットアーム４１とは異なる他のロボットアームに取り付けてもよい。

【0012】

撮像装置５３は、ピッキングの対象物を撮像し、画像データを取得する。この画像データから、対象物の大まかな位置を把握することができる。撮像装置５３で撮像された画像データが、制御装置１０に入力される。なお、撮像装置５３に代えて、対象物の位置や姿勢の候補を求めるための情報を非接触で取得する装置を用いてもよい。例えば、二次元の画像に加えて画像上の奥行の情報が得られるデプスセンサを用いてもよい。

【0013】

入力装置５２は、制御装置１０に種々のデータやコマンドを入力するためのものであり、例えば、キーボード、ポインティングデバイス、タッチパネル、通信装置、リムーバブルメディア読取装置等で実現される。入力装置５２に入力されたデータ、コマンド等は、制御装置１０に入力される。出力装置５１は、制御装置１０からの制御により種々のデータ、画像、通知情報等を出力するためのものであり、例えばディスプレイ、通信装置、リムーバブルメディア書込装置等で実現される。

【0014】

多関節型ロボットアーム４１は、制御装置１０からの制御によって、把持部４２を任意の姿勢で支持し、かつ任意の経路で移動させることができる。把持部４２は、制御装置１０からの制御によって、対象物を掴む動作及び離す動作を行う。さらに、多関節型ロボットアーム４１は、制御装置１０からの制御によって、力覚センサ４３を、任意の姿勢で支持し、かつ任意の経路で移動させることができる。

【0015】

力覚センサ４３は接触子を備えており、接触子が対象物の表面に接触したときに、接触箇所からの反力の情報を取得する。接触情報には、接触点の位置を特定する情報、及び接触点からの反力の向きを特定する情報が含まれる。反力の向きは、接触子が接触した面の法線の方向とほぼ等しい。力覚センサ４３は、非常に小さな反力を受けた時点で停止することで、対象物を移動させることなく接触情報を取得することができる。接触情報は、対象物の位置及び姿勢を推定するための基礎情報として利用される。

【0016】

制御装置１０は、中央処理ユニット（ＣＰＵ）、ＲＡＭ、不揮発性メモリ、インタフェース部等を備えたコンピュータで構成される。不揮発性メモリに、ＣＰＵが実行するプログラムが格納されている。後述する制御装置１０の種々の機能は、ＣＰＵがプログラムを実行することによって実現される。

【0017】

次に、制御装置１０の種々の機能について説明する。
［形状定義データ取得部］
形状定義データ取得部１１が、ピッキングの対象となる対象物の形状を定義する形状定義データを取得する。形状定義データは、例えばＣＡＤデータであり、入力装置５２から入力される。形状定義データ取得部１１は、取得した形状定義データをＲＡＭに格納する。

【0018】

図２Ａは、対象物の例として六角ナットの形状を定義するＣＡＤデータを平面上に示した図である。六角ナットの表面が、複数の三角形要素で表されている。ＣＡＤデータで定義された三次元形状をＣＡＤモデルという。

【0019】

［事前学習部］
事前学習部１２（図１）が、シミュレータを用いて位置姿勢推定学習モデル３１の学習を行う。具体的には、形状定義データ取得部１１で取得された形状定義データに基づいて、位置姿勢推定学習モデル３１の学習を行う。位置姿勢推定学習モデル３１は、力覚センサ４３から接触情報が入力されると、対象物の位置及び姿勢を推定した結果を出力する。以下、事前学習部１２の機能について説明する。

【0020】

事前学習部１２は、形状定義データに基づいて、ＣＡＤモデルの表面に位置する複数の参照点ｐを定義する。例えば、数千個の参照点ｐを定義する。

【0021】

図２Ｂは、ＣＡＤモデルの表面に定義された複数の参照点ｐを、平面上に表した図である。参照点ｐが、黒色のドットで表されている。事前学習部１２は、複数の参照点ｐから代表参照点ｐ＿ｉを抽出する。ここで、ｉは代表参照点に付される通し番号である。例えば、代表参照点ｐ＿ｉは、５～１０個程度である。

【0022】

図３は、複数の代表参照点ｐ＿ｉを示す模式図である。事前学習部１２は、代表参照点ｐ＿ｉのそれぞれについて、代表参照点ｐ＿ｉが属する面の法線ベクトルｆ＿ｉを求める。複数の代表参照点ｐ＿ｉと法線ベクトルｆ＿ｉとを含むデータ集合｛ｐ＿ｉ，ｆ＿ｉ｜ｉ＝１，２，・・・ｋ｝が得られる。ここで、ｋは代表参照点ｐ＿ｉの個数である。得られたデータ集合を、並進ｔ、回転ｒを表すベクトルにて座標変換する。並進ｔ及び回転ｒによって、対象物の位置及び姿勢が特定される。本明細書において、並進ｔ及び回転ｒを定義するベクトルを、位置姿勢ベクトル｛ｔ，ｒ｝ということとする。

【0023】

図４は、事前学習で用いられる座標変換の一例を示す模式図である。代表参照点ｐ＿ｉ及び法線ベクトルｆ＿ｉを、並進ｔ、回転ｒで定義される位置姿勢ベクトルで座標変換することにより、変換後の代表参照点ｐ’＿ｉ、及び変換後の法線ベクトルｆ’＿ｉが得られる。変換後の代表参照点ｐ’＿ｉ、及び変換後の法線ベクトルｆ’＿ｉは、例えば多関節型ロボットアーム４１の基部を基準としたロボット座標系で表される。

【0024】

事前学習部１２（図１）は、変換後のデータ集合｛ｐ’＿ｉ，ｆ’＿ｉ｜ｉ＝１，２，・・・ｋ｝と、その変換に用いた並進ｔ及び回転ｒで定義される位置姿勢ベクトル｛ｔ，ｒ｝とを一つの学習用データセットとし、複数の学習用データセットを生成する。このとき、位置姿勢ベクトル｛ｔ，ｒ｝は、ランダムに生成する。一例として、生成する学習用データセットの個数を百万個程度とする。

【0025】

生成された複数の学習用データセットを使用して、事前学習を行う。例えば、変換後のデータ集合｛ｐ’＿ｉ，ｆ’＿ｉ｜ｉ＝１，２，・・・ｋ｝を入力とし、位置姿勢ベクトル｛ｔ，ｒ｝を出力として、位置姿勢推定学習モデル３１を学習する。具体的には、位置姿勢推定学習モデル３１のニューラルネットワークのパラメータを決定する。変換後のデータ集合｛ｐ’＿ｉ，ｆ’＿ｉ｜ｉ＝１，２，・・・ｋ｝の各要素は、力覚センサ４３によって得られる接触情報の接触位置及び反力の方向に対応する。

【0026】

［位置姿勢候補出力部］
位置姿勢候補出力部１３が、撮像装置５３で撮像された対象物の画像データを取得し、画像データを解析することにより、対象物の位置及び姿勢の複数の候補を出力する。位置及び姿勢の複数の候補は、それぞれ位置姿勢ベクトル｛ｔ，ｒ｝で特定される。出力した複数の候補は、ＲＡＭ等に格納される。

【0027】

［接触経路決定部］
接触経路決定部１４が、位置姿勢候補出力部１３が出力した複数の候補を、接触経路決定学習モデル３２への入力として用い、力覚センサ４３を対象物に接触させるための力覚センサ４３の接触経路を決定する。接触経路は、力覚センサ４３を移動させる経路、及び力覚センサ４３の姿勢を指定する情報を含む。

【0028】

接触経路決定学習モデル３２が学習済ではない場合、接触経路決定部１４は、例えば、対象物の位置及び姿勢の複数の候補の最小包含球を求め、最小包含球の中心に向かう複数の経路を、接触経路として決定する。

【0029】

［接触情報取得部］
接触情報取得部１５が、力覚センサ４３が対象物に接触したときの接触情報を取得する。接触情報には、接触した位置の情報と、力覚センサ４３が対象物から受ける反力の向きを示す情報を含む。力覚センサ４３を対象物に接触させる動作を接触動作という。

【0030】

［位置姿勢推定部］
位置姿勢推定部１６が、複数回の接触動作によって接触情報取得部１５で取得された複数の接触情報を、位置姿勢推定学習モデル３１への入力として用い、対象物の位置及び姿勢を推定する。

【0031】

［ピッキング制御部］
ピッキング制御部１７が、位置姿勢推定部１６で推定された対象物の位置及び姿勢に基づいてピッキング機構４０を制御することにより、把持部４２で対象物をピッキングする。さらに、ピッキング制御部１７は、対象物のピッキングに成功したか否かの情報を出力する。ピッキングの成否は、ピッキング動作後の把持部４２（図１）の複数の指の相対位置関係から判定することができる。

【0032】

［位置姿勢推定追加学習部］
位置姿勢推定追加学習部１８が、実際のピッキング動作で得られた情報を用いて、位置姿勢推定学習モデル３１の追加学習を行う。実際の運用中に追加学習を行うか否かは、ユーザが指令することができる。

【0033】

図５は、位置姿勢推定追加学習部１８が追加学習を実行する手順を示すフローチャートである。位置姿勢推定追加学習部１８は、ピッキング動作が成功したか否かを判定する（ステップＳＡ１）。ピッキング動作が失敗した場合には、位置姿勢推定学習モデル３１の追加学習は行わない。ピッキング動作が成功した場合には、位置姿勢推定部１６が位置姿勢推定学習モデル３１への入力として用いた複数の接触情報、及びその接触情報が入力されたときに出力された位置姿勢ベクトル｛ｔ，ｒ｝を、新たな学習用データセットとして蓄積する（ステップＳＡ２）。

【0034】

蓄積済の学習用データセットの量が基準値以下の場合には、位置姿勢推定追加学習を終了する（ステップＳＡ３）。蓄積済の学習用データセットの量が基準値を超えた場合には、蓄積されている学習用データセットの接触情報を入力とし、位置姿勢ベクトル｛ｔ，ｒ｝を出力として、位置姿勢推定学習モデル３１を追加学習する。

【0035】

［接触経路決定強化学習部］
接触経路決定強化学習部１９（図１）が、接触経路決定学習モデル３２の強化学習を行う。具体的には、接触経路決定学習モデル３２のニューラルネットワークのパラメータを生成する。以下、図６を参照して、接触経路決定強化学習部１９が行う強化学習の手順について説明する。

【0036】

図６は、接触経路決定強化学習部１９が強化学習を実行する手順を示すフローチャートである。まず、接触経路決定強化学習部１９は、位置姿勢候補出力部１３から対象物の位置及び姿勢の複数の候補を取得する（ステップＳＢ１）。複数の候補から、任意の一つの接触経路を決定する（ステップＳＢ２）。例えば、複数の候補が存在し得る領域の最小包含球を求め、この最小包含球の中心に向かう任意の１つの経路を接触経路として決定する。

【0037】

接触経路を決定したら、その接触経路で力覚センサ４３を移動させ、接触動作を行う（ステップＳＢ３）。接触動作の結果から候補を絞り込み、報酬を算出する（ステップＳＢ４）。例えば、位置及び姿勢のある候補が、接触動作で力覚センサ４３が接触することなく通過した領域に位置する場合、その候補は棄却される。さらに、接触点を中心とし、対象物の最大寸法を半径とする球の外側に位置する候補も、棄却される。１回の接触動作によって棄却された候補の数を報酬とする。

【0038】

ステップＢ２からステップＳＢ４までの手順を所定回数繰り返す（ステップＳＢ５）。その後、ステップＳＢ１で取得した複数の候補の集合を入力とし、合計の報酬が高くなる複数の接触経路を出力として、接触経路決定学習モデル３２を学習する（ステップＳＢ６）。すなわち、接触経路決定強化学習部１９は、対象物の位置及び姿勢の複数の候補の集合を「状態」とし、複数の接触経路による接触動作を「行動」とし、対象物の位置及び姿勢の候補が減少した数を「報酬」として強化学習を行う。

【0039】

［接触経路決定模倣学習部］
接触経路決定模倣学習部２０が、接触経路決定学習モデル３２の模倣学習を行う。以下、図７及び図８を参照して、接触経路決定模倣学習部２０が行う模倣学習の手順について説明する。

【0040】

図７は、接触経路決定模倣学習部２０が模倣学習を実行する手順を示すフローチャートである。まず、接触経路決定模倣学習部２０は、位置姿勢候補出力部１３から対象物の位置及び姿勢の複数の候補、及びその候補を出力した元となる画像データを取得する（ステップＳＣ１）。これらのデータの取得後、出力装置５１に、複数の候補の図形と画像とを重ねて表示する（ステップＳＣ２）。

【0041】

図８は、出力装置５１に出力された図形及び画像の一例を示す図である。対象物の実際の画像６０が表示され、画像６０に重なるように複数の候補６１が波線で表示されている。さらに、力覚センサ４３の接触経路を指定するための接触経路指定用矢印６２が表示されている。ユーザは、ポインタ６３を移動させて接触経路指定用矢印６２の位置及び方向を修正することにより、接触経路を指定する。なお、画像６０、複数の候補６１を示す図形、及び接触経路指定用矢印６２は、ポインタ６３を操作することにより、三次元的に回転させることができる。ユーザは、接触経路指定用矢印６２の調整を完了したら、決定ボタン６４をクリックまたはタップすることにより、接触経路を指定する（ステップＳＣ３）。

【0042】

接触経路が指定されたら、接触経路決定模倣学習部２０は、対象物の位置及び姿勢の複数の候補、及びユーザが指定した接触経路に基づいて、接触経路決定学習モデル３２の模倣学習を行う（ステップＳＣ４）。

【0043】

［位置姿勢推定学習モデル評価部］
位置姿勢推定学習モデル評価部２１（図１）が、位置姿勢推定学習モデル３１の評価を行う。具体的には、位置姿勢推定部１６が位置姿勢推定学習モデル３１を用いて対象物の位置及び姿勢を推定し、推定結果に基づいてピッキング制御部１７がピッキング動作を行ったときのピッキングの成否の頻度を求める。把持の失敗の頻度が基準値を超えると、位置姿勢推定追加学習部１８による追加学習を実行するようにユーザに通知する。この通知は、例えば出力装置５１にメッセージを表示することにより行う。

【0044】

［接触経路決定学習モデル評価部］
接触経路決定学習モデル評価部２２が、接触経路決定学習モデル３２の評価を行う。具体的には、対象物のそれぞれについて、接触経路決定学習モデル評価部２２は、ピッキングが成功するまでに力覚センサ４３を接触させた回数を計数し、接触回数が基準値を超えると、接触経路決定学習モデル３２の学習を実行するように、ユーザに通知する。この通知は、例えば出力装置５１にメッセージを表示することにより行う。

【0045】

本実施例によるピッキング装置は、運用モードと学習モードとのいずれかのモードで動作する。運用モードには、追加学習運用モードと一般運用モードとの２つのモードが含まれる。ピッキング装置をどのモードで動作させるかは、ユーザが、入力装置５２を操作することにより制御装置１０に指令する。

【0046】

［運用モード］
図９を参照して、追加学習運用モードにおけるピッキング装置の動作について説明する。図９は、追加学習運用モードにおけるピッキング装置の動作を示すフローチャートである。

【0047】

まず、ユーザが、ピッキングの対象物が新規のものか否かを判定する（ステップＳＤ１）。対象物が新規である場合、ユーザは入力装置５２（図１）を操作して、事前学習の実行を制御装置１０に指示する。事前学習の実行が指示されると、形状定義データ取得部１１が形状定義データ（図２Ａ）を取得する（ステップＳＤ２）。取得した形状定義データに基づいて、事前学習部１２（図１）が、位置姿勢推定学習モデル３１の事前学習を行う（ステップＳＤ３）。

【0048】

ピッキングの対象物が新規のものではなく、すでに位置姿勢推定学習モデル３１の事前学習が完了している場合、またはステップＳＤ３で事前学習が終了したら、位置姿勢候補出力部１３（図１）が、対象物の画像データを取得し、画像解析を行うことにより、対象物の位置及び姿勢の複数の候補を出力する（ステップＳＤ４）。

【0049】

複数の候補が出力されたら、接触経路決定部１４（図１）が力覚センサ４３の所定の複数の接触経路を決定し、接触情報取得部１５が所定の複数回の接触動作を行う（ステップＳＤ５）。決定する接触経路の数及び接触動作の回数は予め設定されており、例えば３回である。その後、位置姿勢推定部１６（図１）が、接触動作によって得られた複数の接触情報に基づいて、位置姿勢推定学習モデル３１を用いて対象物の位置及び姿勢を推定する（ステップＳＤ６）。

【0050】

次に、ピッキング制御部１７が、推定された位置及び姿勢に基づいてピッキング機構４０を制御することにより、ピッキング動作を行う（ステップＳＤ７）。ピッキングに成功した場合は、位置姿勢推定追加学習部１８が、図５に示した追加学習を行う（ステップＳ９）。なお、図５のステップＳＡ１が、図９のステップＳＤ８と共通である。

【0051】

ステップＳＤ７でピッキングに失敗した場合は、ステップＳＤ５の接触動作を再度実行する。この時、前回までの接触動作で対象物の位置及び姿勢の候補が絞り込まれているため、接触経路決定部１４は、前回までの接触動作の接触経路とは異なる複数の接触経路を決定する。接触情報取得部１５は、新たに決定された複数の接触経路に基づいて複数回の接触動作を行い、接触情報を取得する。ステップＳＤ６において、位置姿勢推定部１６は、前回までの接触動作及び今回の接触動作で取得されたすべての接触情報を用いて、対象物の位置及び姿勢を推定する。利用する接触情報の数が多くなるため、対象物の位置及び姿勢の推定精度が高まる。

【0052】

ピッキング装置が一般運用モードで運用されている場合には、追加学習（ステップＳＤ９）を実行しない。

【0053】

［学習モード］
次に、図１０を参照して、学習モードにおけるピッキング装置の動作について説明する。図１０は、学習モードにおけるピッキング装置の動作を示すフローチャートである。

【0054】

ステップＳＤ１からステップＳＤ４までの手順は、追加学習運転モード（図９）のステップＳＤ１からステップＳＤ４までの手順と同一である。ステップＳＤ４の後、制御装置１０は、ユーザから指令されている学習方法に応じて強化学習及び模倣学習の一方を実行する。どちらの学習方法を実行するかは、予めユーザが選択し、入力装置５２から制御装置１０に、選択された学習方法が指令されている。

【0055】

強化学習が選択されている場合は、接触経路決定強化学習部１９（図１）が、図６に示した手順で強化学習を実行する（ステップＳＥ１）。なお、図６に示したステップＳＢ１では、図１０のステップＳＤ４で位置姿勢候補出力部１３（図１）が出力した位置及び姿勢の候補を、接触経路決定強化学習部１９が取得する。

【0056】

模倣学習が選択されている場合は、接触経路決定模倣学習部２０（図１）が、図７に示した手順で模倣学習を実行する（ステップＳＥ２）。図７のステップＳＣ１では、接触経路決定模倣学習部２０は、図１０のステップＳＤ４で位置姿勢候補出力部１３が取得した画像データ、及び位置姿勢候補出力部１３が出力した位置及び姿勢の候補を取得する。

【0057】

制御装置１０は、強化学習または模倣学習を行った後、追加学習運用モード（図９）のステップＳＤ５からステップＳＤ９までの手順と同一の手順を実行する。

【0058】

次に、上記実施例の優れた効果について説明する。
上記実施例では、事前学習部１２（図１）が図２Ａに示したＣＡＤデータを用いて多数の学習用データセットを生成する。このため、対象物の準備、及び実際のピッキング動作を行うことなく、位置姿勢推定学習モデル３１（図１）を学習することができる。

【0059】

さらに、位置姿勢推定追加学習部１８（図１）が、実際のピッキング動作から取得されたデータセット（接触情報と、推定された位置及び姿勢）を用いて、位置姿勢推定学習モデル３１を追加学習するため、実環境に適合した位置姿勢推定学習モデル３１を構築することができる。例えば、力覚センサ４３が対象物の表面に接触した時に力覚センサ４３が対象物から受ける反力の方向が、摩擦等の影響により表面の法線方向からずれる場合がある。事前学習では、図３に示したように、反力の方向が対象物の表面の法線方向であると仮定して位置姿勢推定学習モデル３１を学習しているため、実環境で発生する摩擦等が再現されていない。このため、事前学習のみで学習した位置姿勢推定学習モデル３１を用いた場合、推定精度が低下してしまう場合がある。上記実施例では、実環境から得られたデータセットを用いて追加学習を行うため、位置姿勢推定学習モデル３１の推定精度を高めることができる。

【0060】

接触経路決定部１４が、強化学習及び模倣学習の少なくとも一方の学習方法で学習された接触経路決定学習モデル３２を用いて力覚センサ４３の接触経路を決定する。このため、位置姿勢推定部１６が高い精度で位置及び姿勢を推定するための好適な接触情報を、位置姿勢推定部１６に提供することができる。さらに、ピッキング成功までの接触回数を少なくすることができる。これにより、スループットを高めることが可能になる。

【0061】

さらに、学習モード（図１０）でピッキング装置を動作させることにより、接触経路決定強化学習部１９及び接触経路決定模倣学習部２０を含む接触経路決定学習部が、接触経路決定学習モデル３２を学習する。このため、接触経路決定学習モデル３２を用いて、ピッキングに成功するまでの接触回数がより少なくなるような好ましい接触経路を決定することができる。

【0062】

位置姿勢推定学習モデル評価部２１が、位置姿勢推定学習モデル３１の推定精度を評価し、推定精度が低い場合には追加学習を行うように、ユーザに通知する。具体的には、ピッキング失敗の頻度が基準地を超えた場合に、追加学習を行うようにユーザに通知する。このため、ユーザは位置姿勢推定学習モデル３１の追加学習を行うか否かを容易に判断することができる。

【0063】

さらに、接触経路決定学習モデル評価部２２が、接触経路決定学習モデル３２を用いて決定される接触経路の適切度を評価する。具体的には、ピッキング完了までの接触回数が基準値より多い場合には、決定される接触経路の適切度が低いと判定される。この場合、接触経路決定学習モデル評価部２２が、接触経路決定学習モデル３２を学習させるようにユーザに通知する。これにより、ユーザは、接触経路決定学習モデル３２を学習させるか否かを容易に判断することができる。

【0064】

上述の実施例は例示であり、本発明は上述の実施例に制限されるものではない。例えば、種々の変更、改良、組み合わせ等が可能なことは当業者に自明であろう。

【符号の説明】

【0065】

１０制御装置
１１形状定義データ取得部
１２事前学習部
１３位置姿勢候補出力部
１４接触経路決定部
１５接触情報取得部
１６位置姿勢推定部
１７ピッキング制御部
１８位置姿勢推定追加学習部
１９接触経路決定強化学習部
２０接触経路決定模倣学習部
２１位置姿勢推定学習モデル評価部
２２接触経路決定学習モデル評価部
３１位置姿勢推定学習モデル
３２接触経路決定学習モデル
４０ピッキング機構
４１多関節型ロボットアーム
４２把持部
４３力覚センサ
５１出力装置
５２入力装置
５３撮像装置
６０対象物の画像
６１位置及び姿勢の候補
６２接触経路指定用矢印
６３ポインタ
６４決定ボタン

【図1】