IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 住友重機械工業株式会社の特許一覧

<>
  • 特許-ピッキング装置及びプログラム 図1
  • 特許-ピッキング装置及びプログラム 図2
  • 特許-ピッキング装置及びプログラム 図3
  • 特許-ピッキング装置及びプログラム 図4
  • 特許-ピッキング装置及びプログラム 図5
  • 特許-ピッキング装置及びプログラム 図6
  • 特許-ピッキング装置及びプログラム 図7
  • 特許-ピッキング装置及びプログラム 図8
  • 特許-ピッキング装置及びプログラム 図9
  • 特許-ピッキング装置及びプログラム 図10
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-09-26
(45)【発行日】2024-10-04
(54)【発明の名称】ピッキング装置及びプログラム
(51)【国際特許分類】
   B25J 13/08 20060101AFI20240927BHJP
【FI】
B25J13/08 Z
【請求項の数】 8
(21)【出願番号】P 2021027362
(22)【出願日】2021-02-24
(65)【公開番号】P2022128896
(43)【公開日】2022-09-05
【審査請求日】2023-07-14
(73)【特許権者】
【識別番号】000002107
【氏名又は名称】住友重機械工業株式会社
(74)【代理人】
【識別番号】100105887
【弁理士】
【氏名又は名称】来山 幹雄
(72)【発明者】
【氏名】宮澤 宣嗣
【審査官】稲垣 浩司
(56)【参考文献】
【文献】特開2018-202550(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
B25J 1/00 - 21/02
(57)【特許請求の範囲】
【請求項1】
対象物に接触し、対象物の位置及び姿勢を推定する基礎となる接触情報を得る力覚センサと、
対象物を掴むピッキング機構と、
前記力覚センサから取得した接触情報に基づいて、前記ピッキング機構を制御する制御装置と
を備え、
前記制御装置は、
シミュレータを用いて生成した学習用データセットを用いてピッキング動作の学習モデルを事前学習する事前学習部と、
事前学習した学習モデルを用いて前記力覚センサ及び前記ピッキング機構を制御することによりピッキング動作を行うピッキング制御部と、
実際のピッキング動作で得られたデータセットを用いてピッキング動作の学習モデルを追加学習する追加学習部と
を含み、
前記事前学習部は、対象物の形状を定義する形状定義データに基づいて対象物の位置及び姿勢を推定する位置姿勢推定学習モデルを事前学習し、
前記制御装置は、前記力覚センサから得られた接触情報を前記位置姿勢推定学習モデルへの入力として用い、対象物の位置及び姿勢を推定する位置姿勢推定部を、さらに含み、
前記ピッキング制御部は、前記位置姿勢推定部で推定された位置及び姿勢に基づいて前記ピッキング機構の動作を制御し、
前記追加学習部は、前記力覚センサから得られた接触情報、及び前記ピッキング制御部による前記ピッキング機構の動作の成否に基づいて、前記位置姿勢推定学習モデルの追加学習を行うピッキング装置。
【請求項2】
前記制御装置は、前記ピッキング機構の動作において失敗の頻度が基準値を超えると、前記追加学習部による追加学習を実行するようにユーザに通知する位置姿勢推定学習モデル評価部を、さらに含む請求項に記載のピッキング装置。
【請求項3】
対象物に接触し、対象物の位置及び姿勢を推定する基礎となる接触情報を得る力覚センサと、
対象物を掴むピッキング機構と、
前記力覚センサから取得した接触情報に基づいて、前記ピッキング機構を制御する制御装置と
を備え、
前記制御装置は、
シミュレータを用いて生成した学習用データセットを用いてピッキング動作の学習モデルを事前学習する事前学習部と、
事前学習した学習モデルを用いて前記力覚センサ及び前記ピッキング機構を制御することによりピッキング動作を行うピッキング制御部と、
実際のピッキング動作で得られたデータセットを用いてピッキング動作の学習モデルを追加学習する追加学習部と
対象物から非接触で取得した情報に基づいて、対象物の位置及び姿勢の複数の候補を出力する位置姿勢候補出力部と、
対象物の位置及び姿勢の複数の候補を入力とし、前記力覚センサの接触経路を出力とする接触経路決定学習モデルを用い、前記位置姿勢候補出力部から出力された複数の候補に基づいて前記力覚センサの接触経路を決定する接触経路決定部と、
前記位置姿勢候補出力部から出力された対象物の位置及び姿勢の複数の候補、及び当該複数の候補に対して決定された接触経路を用いて、前記接触経路決定学習モデルを学習する接触経路決定学習部と
を含むピッキング装置。
【請求項4】
前記接触経路決定学習部は、
対象物の位置及び姿勢の複数の候補の集合を「状態」とし、複数の接触経路による接触動作を「行動」とし、対象物の位置及び姿勢の候補が減少した数を「報酬」とする強化学習、及び
対象物の位置及び姿勢の複数の候補、及びユーザが指定した接触経路に基づく模倣学習の少なくとも一方を行う請求項に記載のピッキング装置。
【請求項5】
前記制御装置は、
対象物のそれぞれについて、ピッキングが成功するまでに前記力覚センサを接触させた回数を計数し、接触回数が基準値を超えると、前記接触経路決定学習モデルの学習を実行するように、ユーザに通知する接触経路決定学習モデル評価部を、さらに有する請求項3または4に記載のピッキング装置。
【請求項6】
前記制御装置は、対象物の形状を定義する形状定義データの入力を受ける形状定義データ取得部を、さらに有する請求項1乃至5のいずれか1項に記載のピッキング装置。
【請求項7】
対象物に接触し、対象物の位置及び姿勢を推定する基礎となる接触情報を得る力覚センサと、対象物を掴むピッキング機構とを含むピッキング装置を制御するコンピュータに、
前記力覚センサから取得した接触情報に基づいて、前記ピッキング機構を制御する機能と、
シミュレータを用いて生成した学習用データセットを用いてピッキング動作の学習モデルを事前学習する機能と、
事前学習した学習モデルを用いて前記力覚センサ及び前記ピッキング機構を制御することによりピッキング動作を行う機能と、
実際のピッキング動作で得られたデータセットを用いてピッキング動作の学習モデルを追加学習する機能と、
対象物の形状を定義する形状定義データに基づいて対象物の位置及び姿勢を推定する位置姿勢推定学習モデルを事前学習する機能と、
前記力覚センサから得られた接触情報を前記位置姿勢推定学習モデルへの入力として用い、対象物の位置及び姿勢を推定する位置姿勢推定機能と、
前記位置姿勢推定機能によって推定された位置及び姿勢に基づいて前記ピッキング機構の動作を制御する機能と、
前記力覚センサから得られた接触情報、及び前記ピッキング機構を制御したときの動作の成否に基づいて、前記位置姿勢推定学習モデルの追加学習を行う機能と
を実現させるプログラム。
【請求項8】
対象物に接触し、対象物の位置及び姿勢を推定する基礎となる接触情報を得る力覚センサと、対象物を掴むピッキング機構とを含むピッキング装置を制御するコンピュータに、
前記力覚センサから取得した接触情報に基づいて、前記ピッキング機構を制御する機能と、
シミュレータを用いて生成した学習用データセットを用いてピッキング動作の学習モデルを事前学習する機能と、
事前学習した学習モデルを用いて前記力覚センサ及び前記ピッキング機構を制御することによりピッキング動作を行う機能と、
実際のピッキング動作で得られたデータセットを用いてピッキング動作の学習モデルを追加学習する機能と、
対象物から非接触で取得した情報に基づいて、対象物の位置及び姿勢の複数の候補を出力する位置姿勢候補出力機能と、
対象物の位置及び姿勢の複数の候補を入力とし、前記力覚センサの接触経路を出力とする接触経路決定学習モデルを用い、前記位置姿勢候補出力機能によって出力された複数の候補に基づいて前記力覚センサの接触経路を決定する機能と、
前記位置姿勢候補出力機能によって出力された対象物の位置及び姿勢の複数の候補、及び当該複数の候補に対して決定された接触経路を用いて、前記接触経路決定学習モデルを学習する機能と
を実現させるプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、対象物を掴むピッキング装置、及びプログラムに関する。
【背景技術】
【0002】
下記の特許文献1に、対象物の映像と、対象物への接触位置の計測結果とから、対象物の姿勢を認識してピッキングを行うシステムが開示されている。特許文献1に開示されたシステムにおいては、対象物の映像と、対象物への接触による計測情報とを併用することで、ビニール袋や緩衝材に包まれた対象物の位置の認識を可能としている。
【0003】
下記の特許文献2に、シミュレータを用いて機械学習のための学習用データセットを生成し、この学習用データセットを用いて機械学習を行うピッキング装置が開示されている。
【先行技術文献】
【特許文献】
【0004】
【文献】特開2017-136677号公報
【文献】特開2020―82322号公報
【発明の概要】
【発明が解決しようとする課題】
【0005】
実際のピッキング動作で用いられる学習モデルに入力するデータは、実環境において対象物に実際に接触して収集されたデータである。シミュレータを用いて生成した学習用データセットに、実環境において対象物に接触したときに発生する摩擦等を再現することが困難である。このため、学習モデルの精度を高めることが困難である。
【0006】
本発明の目的は、学習モデルの精度を高めることが可能なピッキング装置及びプログラムを提供することである。
【課題を解決するための手段】
【0007】
本発明の一観点によると、
対象物に接触し、対象物の位置及び姿勢を推定する基礎となる接触情報を得る力覚センサと、
対象物を掴むピッキング機構と、
前記力覚センサから取得した接触情報に基づいて、前記ピッキング機構を制御する制御装置と
を備え、
前記制御装置は、
シミュレータを用いて生成した学習用データセットを用いてピッキング動作の学習モデルを事前学習する事前学習部と、
事前学習した学習モデルを用いて前記力覚センサ及び前記ピッキング機構を制御することによりピッキング動作を行うピッキング制御部と、
実際のピッキング動作で得られたデータセットを用いてピッキング動作の学習モデルを追加学習する追加学習部と
を含み、
前記事前学習部は、対象物の形状を定義する形状定義データに基づいて対象物の位置及び姿勢を推定する位置姿勢推定学習モデルを事前学習し、
前記制御装置は、前記力覚センサから得られた接触情報を前記位置姿勢推定学習モデルへの入力として用い、対象物の位置及び姿勢を推定する位置姿勢推定部を、さらに含み、
前記ピッキング制御部は、前記位置姿勢推定部で推定された位置及び姿勢に基づいて前記ピッキング機構の動作を制御し、
前記追加学習部は、前記力覚センサから得られた接触情報、及び前記ピッキング制御部による前記ピッキング機構の動作の成否に基づいて、前記位置姿勢推定学習モデルの追加学習を行うピッキング装置が提供される。
【0008】
本発明の他の観点によると、
対象物に接触し、対象物の位置及び姿勢を推定する基礎となる接触情報を得る力覚センサと、
対象物を掴むピッキング機構と、
前記力覚センサから取得した接触情報に基づいて、前記ピッキング機構を制御する制御装置と
を備え、
前記制御装置は、
シミュレータを用いて生成した学習用データセットを用いてピッキング動作の学習モデルを事前学習する事前学習部と、
事前学習した学習モデルを用いて前記力覚センサ及び前記ピッキング機構を制御することによりピッキング動作を行うピッキング制御部と、
実際のピッキング動作で得られたデータセットを用いてピッキング動作の学習モデルを追加学習する追加学習部と
対象物から非接触で取得した情報に基づいて、対象物の位置及び姿勢の複数の候補を出力する位置姿勢候補出力部と、
対象物の位置及び姿勢の複数の候補を入力とし、前記力覚センサの接触経路を出力とする接触経路決定学習モデルを用い、前記位置姿勢候補出力部から出力された複数の候補に基づいて前記力覚センサの接触経路を決定する接触経路決定部と、
前記位置姿勢候補出力部から出力された対象物の位置及び姿勢の複数の候補、及び当該複数の候補に対して決定された接触経路を用いて、前記接触経路決定学習モデルを学習する接触経路決定学習部と
を含むピッキング装置が提供される。
【発明の効果】
【0009】
実際のピッキング動作で得られたデータセットを用いて学習モデルを追加学習することにより、シミュレータを用いた事前学習で構築された学習モデルの精度を高めることができる。
【図面の簡単な説明】
【0010】
図1図1は、実施例によるピッキング装置のブロック図である。
図2図2Aは、対象物の例として六角ナットの形状を定義するCADデータを平面上に示した図であり、図2Bは、CADモデルの表面に位置する複数の参照点pを、平面上に表した図である。
図3図3は、複数の代表参照点p_iを示す模式図である。
図4図4は、事前学習で用いられる座標変換の一例を示す模式図である。
図5図5は、位置姿勢推定追加学習部が追加学習を実行する手順を示すフローチャートである。
図6図6は、接触経路決定強化学習部が強化学習を実行する手順を示すフローチャートである。
図7図7は、接触経路決定模倣学習部が模倣学習を実行する手順を示すフローチャートである。
図8図8は、模倣学習時に出力装置に出力された図形及び画像の一例を示す図である。
図9図9は、追加学習運用モードにおけるピッキング装置の動作を示すフローチャートである。
図10図10は、学習モードにおけるピッキング装置の動作を示すフローチャートである。
【発明を実施するための形態】
【0011】
図1図10を参照して、本願発明の一実施例によるピッキング装置について説明する。
図1は、実施例によるピッキング装置のブロック図である。実施例によるピッキング装置は、制御装置10、ピッキング機構40、出力装置51、入力装置52、及び撮像装置53を備えている。ピッキング機構40は、多関節型ロボットアーム41、その先端に取り付けられた把持部42及び力覚センサ43を含む。なお、力覚センサ43は、把持部42を移動させる多関節型ロボットアーム41とは異なる他のロボットアームに取り付けてもよい。
【0012】
撮像装置53は、ピッキングの対象物を撮像し、画像データを取得する。この画像データから、対象物の大まかな位置を把握することができる。撮像装置53で撮像された画像データが、制御装置10に入力される。なお、撮像装置53に代えて、対象物の位置や姿勢の候補を求めるための情報を非接触で取得する装置を用いてもよい。例えば、二次元の画像に加えて画像上の奥行の情報が得られるデプスセンサを用いてもよい。
【0013】
入力装置52は、制御装置10に種々のデータやコマンドを入力するためのものであり、例えば、キーボード、ポインティングデバイス、タッチパネル、通信装置、リムーバブルメディア読取装置等で実現される。入力装置52に入力されたデータ、コマンド等は、制御装置10に入力される。出力装置51は、制御装置10からの制御により種々のデータ、画像、通知情報等を出力するためのものであり、例えばディスプレイ、通信装置、リムーバブルメディア書込装置等で実現される。
【0014】
多関節型ロボットアーム41は、制御装置10からの制御によって、把持部42を任意の姿勢で支持し、かつ任意の経路で移動させることができる。把持部42は、制御装置10からの制御によって、対象物を掴む動作及び離す動作を行う。さらに、多関節型ロボットアーム41は、制御装置10からの制御によって、力覚センサ43を、任意の姿勢で支持し、かつ任意の経路で移動させることができる。
【0015】
力覚センサ43は接触子を備えており、接触子が対象物の表面に接触したときに、接触箇所からの反力の情報を取得する。接触情報には、接触点の位置を特定する情報、及び接触点からの反力の向きを特定する情報が含まれる。反力の向きは、接触子が接触した面の法線の方向とほぼ等しい。力覚センサ43は、非常に小さな反力を受けた時点で停止することで、対象物を移動させることなく接触情報を取得することができる。接触情報は、対象物の位置及び姿勢を推定するための基礎情報として利用される。
【0016】
制御装置10は、中央処理ユニット(CPU)、RAM、不揮発性メモリ、インタフェース部等を備えたコンピュータで構成される。不揮発性メモリに、CPUが実行するプログラムが格納されている。後述する制御装置10の種々の機能は、CPUがプログラムを実行することによって実現される。
【0017】
次に、制御装置10の種々の機能について説明する。
[形状定義データ取得部]
形状定義データ取得部11が、ピッキングの対象となる対象物の形状を定義する形状定義データを取得する。形状定義データは、例えばCADデータであり、入力装置52から入力される。形状定義データ取得部11は、取得した形状定義データをRAMに格納する。
【0018】
図2Aは、対象物の例として六角ナットの形状を定義するCADデータを平面上に示した図である。六角ナットの表面が、複数の三角形要素で表されている。CADデータで定義された三次元形状をCADモデルという。
【0019】
[事前学習部]
事前学習部12(図1)が、シミュレータを用いて位置姿勢推定学習モデル31の学習を行う。具体的には、形状定義データ取得部11で取得された形状定義データに基づいて、位置姿勢推定学習モデル31の学習を行う。位置姿勢推定学習モデル31は、力覚センサ43から接触情報が入力されると、対象物の位置及び姿勢を推定した結果を出力する。以下、事前学習部12の機能について説明する。
【0020】
事前学習部12は、形状定義データに基づいて、CADモデルの表面に位置する複数の参照点pを定義する。例えば、数千個の参照点pを定義する。
【0021】
図2Bは、CADモデルの表面に定義された複数の参照点pを、平面上に表した図である。参照点pが、黒色のドットで表されている。事前学習部12は、複数の参照点pから代表参照点p_iを抽出する。ここで、iは代表参照点に付される通し番号である。例えば、代表参照点p_iは、5~10個程度である。
【0022】
図3は、複数の代表参照点p_iを示す模式図である。事前学習部12は、代表参照点p_iのそれぞれについて、代表参照点p_iが属する面の法線ベクトルf_iを求める。複数の代表参照点p_iと法線ベクトルf_iとを含むデータ集合{p_i,f_i|i=1,2,・・・k}が得られる。ここで、kは代表参照点p_iの個数である。得られたデータ集合を、並進t、回転rを表すベクトルにて座標変換する。並進t及び回転rによって、対象物の位置及び姿勢が特定される。本明細書において、並進t及び回転rを定義するベクトルを、位置姿勢ベクトル{t,r}ということとする。
【0023】
図4は、事前学習で用いられる座標変換の一例を示す模式図である。代表参照点p_i及び法線ベクトルf_iを、並進t、回転rで定義される位置姿勢ベクトルで座標変換することにより、変換後の代表参照点p’_i、及び変換後の法線ベクトルf’_iが得られる。変換後の代表参照点p’_i、及び変換後の法線ベクトルf’_iは、例えば多関節型ロボットアーム41の基部を基準としたロボット座標系で表される。
【0024】
事前学習部12(図1)は、変換後のデータ集合{p’_i,f’_i|i=1,2,・・・k}と、その変換に用いた並進t及び回転rで定義される位置姿勢ベクトル{t,r}とを一つの学習用データセットとし、複数の学習用データセットを生成する。このとき、位置姿勢ベクトル{t,r}は、ランダムに生成する。一例として、生成する学習用データセットの個数を百万個程度とする。
【0025】
生成された複数の学習用データセットを使用して、事前学習を行う。例えば、変換後のデータ集合{p’_i,f’_i|i=1,2,・・・k}を入力とし、位置姿勢ベクトル{t,r}を出力として、位置姿勢推定学習モデル31を学習する。具体的には、位置姿勢推定学習モデル31のニューラルネットワークのパラメータを決定する。変換後のデータ集合{p’_i,f’_i|i=1,2,・・・k}の各要素は、力覚センサ43によって得られる接触情報の接触位置及び反力の方向に対応する。
【0026】
[位置姿勢候補出力部]
位置姿勢候補出力部13が、撮像装置53で撮像された対象物の画像データを取得し、画像データを解析することにより、対象物の位置及び姿勢の複数の候補を出力する。位置及び姿勢の複数の候補は、それぞれ位置姿勢ベクトル{t,r}で特定される。出力した複数の候補は、RAM等に格納される。
【0027】
[接触経路決定部]
接触経路決定部14が、位置姿勢候補出力部13が出力した複数の候補を、接触経路決定学習モデル32への入力として用い、力覚センサ43を対象物に接触させるための力覚センサ43の接触経路を決定する。接触経路は、力覚センサ43を移動させる経路、及び力覚センサ43の姿勢を指定する情報を含む。
【0028】
接触経路決定学習モデル32が学習済ではない場合、接触経路決定部14は、例えば、対象物の位置及び姿勢の複数の候補の最小包含球を求め、最小包含球の中心に向かう複数の経路を、接触経路として決定する。
【0029】
[接触情報取得部]
接触情報取得部15が、力覚センサ43が対象物に接触したときの接触情報を取得する。接触情報には、接触した位置の情報と、力覚センサ43が対象物から受ける反力の向きを示す情報を含む。力覚センサ43を対象物に接触させる動作を接触動作という。
【0030】
[位置姿勢推定部]
位置姿勢推定部16が、複数回の接触動作によって接触情報取得部15で取得された複数の接触情報を、位置姿勢推定学習モデル31への入力として用い、対象物の位置及び姿勢を推定する。
【0031】
[ピッキング制御部]
ピッキング制御部17が、位置姿勢推定部16で推定された対象物の位置及び姿勢に基づいてピッキング機構40を制御することにより、把持部42で対象物をピッキングする。さらに、ピッキング制御部17は、対象物のピッキングに成功したか否かの情報を出力する。ピッキングの成否は、ピッキング動作後の把持部42(図1)の複数の指の相対位置関係から判定することができる。
【0032】
[位置姿勢推定追加学習部]
位置姿勢推定追加学習部18が、実際のピッキング動作で得られた情報を用いて、位置姿勢推定学習モデル31の追加学習を行う。実際の運用中に追加学習を行うか否かは、ユーザが指令することができる。
【0033】
図5は、位置姿勢推定追加学習部18が追加学習を実行する手順を示すフローチャートである。位置姿勢推定追加学習部18は、ピッキング動作が成功したか否かを判定する(ステップSA1)。ピッキング動作が失敗した場合には、位置姿勢推定学習モデル31の追加学習は行わない。ピッキング動作が成功した場合には、位置姿勢推定部16が位置姿勢推定学習モデル31への入力として用いた複数の接触情報、及びその接触情報が入力されたときに出力された位置姿勢ベクトル{t,r}を、新たな学習用データセットとして蓄積する(ステップSA2)。
【0034】
蓄積済の学習用データセットの量が基準値以下の場合には、位置姿勢推定追加学習を終了する(ステップSA3)。蓄積済の学習用データセットの量が基準値を超えた場合には、蓄積されている学習用データセットの接触情報を入力とし、位置姿勢ベクトル{t,r}を出力として、位置姿勢推定学習モデル31を追加学習する。
【0035】
[接触経路決定強化学習部]
接触経路決定強化学習部19(図1)が、接触経路決定学習モデル32の強化学習を行う。具体的には、接触経路決定学習モデル32のニューラルネットワークのパラメータを生成する。以下、図6を参照して、接触経路決定強化学習部19が行う強化学習の手順について説明する。
【0036】
図6は、接触経路決定強化学習部19が強化学習を実行する手順を示すフローチャートである。まず、接触経路決定強化学習部19は、位置姿勢候補出力部13から対象物の位置及び姿勢の複数の候補を取得する(ステップSB1)。複数の候補から、任意の一つの接触経路を決定する(ステップSB2)。例えば、複数の候補が存在し得る領域の最小包含球を求め、この最小包含球の中心に向かう任意の1つの経路を接触経路として決定する。
【0037】
接触経路を決定したら、その接触経路で力覚センサ43を移動させ、接触動作を行う(ステップSB3)。接触動作の結果から候補を絞り込み、報酬を算出する(ステップSB4)。例えば、位置及び姿勢のある候補が、接触動作で力覚センサ43が接触することなく通過した領域に位置する場合、その候補は棄却される。さらに、接触点を中心とし、対象物の最大寸法を半径とする球の外側に位置する候補も、棄却される。1回の接触動作によって棄却された候補の数を報酬とする。
【0038】
ステップB2からステップSB4までの手順を所定回数繰り返す(ステップSB5)。その後、ステップSB1で取得した複数の候補の集合を入力とし、合計の報酬が高くなる複数の接触経路を出力として、接触経路決定学習モデル32を学習する(ステップSB6)。すなわち、接触経路決定強化学習部19は、対象物の位置及び姿勢の複数の候補の集合を「状態」とし、複数の接触経路による接触動作を「行動」とし、対象物の位置及び姿勢の候補が減少した数を「報酬」として強化学習を行う。
【0039】
[接触経路決定模倣学習部]
接触経路決定模倣学習部20が、接触経路決定学習モデル32の模倣学習を行う。以下、図7及び図8を参照して、接触経路決定模倣学習部20が行う模倣学習の手順について説明する。
【0040】
図7は、接触経路決定模倣学習部20が模倣学習を実行する手順を示すフローチャートである。まず、接触経路決定模倣学習部20は、位置姿勢候補出力部13から対象物の位置及び姿勢の複数の候補、及びその候補を出力した元となる画像データを取得する(ステップSC1)。これらのデータの取得後、出力装置51に、複数の候補の図形と画像とを重ねて表示する(ステップSC2)。
【0041】
図8は、出力装置51に出力された図形及び画像の一例を示す図である。対象物の実際の画像60が表示され、画像60に重なるように複数の候補61が波線で表示されている。さらに、力覚センサ43の接触経路を指定するための接触経路指定用矢印62が表示されている。ユーザは、ポインタ63を移動させて接触経路指定用矢印62の位置及び方向を修正することにより、接触経路を指定する。なお、画像60、複数の候補61を示す図形、及び接触経路指定用矢印62は、ポインタ63を操作することにより、三次元的に回転させることができる。ユーザは、接触経路指定用矢印62の調整を完了したら、決定ボタン64をクリックまたはタップすることにより、接触経路を指定する(ステップSC3)。
【0042】
接触経路が指定されたら、接触経路決定模倣学習部20は、対象物の位置及び姿勢の複数の候補、及びユーザが指定した接触経路に基づいて、接触経路決定学習モデル32の模倣学習を行う(ステップSC4)。
【0043】
[位置姿勢推定学習モデル評価部]
位置姿勢推定学習モデル評価部21(図1)が、位置姿勢推定学習モデル31の評価を行う。具体的には、位置姿勢推定部16が位置姿勢推定学習モデル31を用いて対象物の位置及び姿勢を推定し、推定結果に基づいてピッキング制御部17がピッキング動作を行ったときのピッキングの成否の頻度を求める。把持の失敗の頻度が基準値を超えると、位置姿勢推定追加学習部18による追加学習を実行するようにユーザに通知する。この通知は、例えば出力装置51にメッセージを表示することにより行う。
【0044】
[接触経路決定学習モデル評価部]
接触経路決定学習モデル評価部22が、接触経路決定学習モデル32の評価を行う。具体的には、対象物のそれぞれについて、接触経路決定学習モデル評価部22は、ピッキングが成功するまでに力覚センサ43を接触させた回数を計数し、接触回数が基準値を超えると、接触経路決定学習モデル32の学習を実行するように、ユーザに通知する。この通知は、例えば出力装置51にメッセージを表示することにより行う。
【0045】
本実施例によるピッキング装置は、運用モードと学習モードとのいずれかのモードで動作する。運用モードには、追加学習運用モードと一般運用モードとの2つのモードが含まれる。ピッキング装置をどのモードで動作させるかは、ユーザが、入力装置52を操作することにより制御装置10に指令する。
【0046】
[運用モード]
図9を参照して、追加学習運用モードにおけるピッキング装置の動作について説明する。図9は、追加学習運用モードにおけるピッキング装置の動作を示すフローチャートである。
【0047】
まず、ユーザが、ピッキングの対象物が新規のものか否かを判定する(ステップSD1)。対象物が新規である場合、ユーザは入力装置52(図1)を操作して、事前学習の実行を制御装置10に指示する。事前学習の実行が指示されると、形状定義データ取得部11が形状定義データ(図2A)を取得する(ステップSD2)。取得した形状定義データに基づいて、事前学習部12(図1)が、位置姿勢推定学習モデル31の事前学習を行う(ステップSD3)。
【0048】
ピッキングの対象物が新規のものではなく、すでに位置姿勢推定学習モデル31の事前学習が完了している場合、またはステップSD3で事前学習が終了したら、位置姿勢候補出力部13(図1)が、対象物の画像データを取得し、画像解析を行うことにより、対象物の位置及び姿勢の複数の候補を出力する(ステップSD4)。
【0049】
複数の候補が出力されたら、接触経路決定部14(図1)が力覚センサ43の所定の複数の接触経路を決定し、接触情報取得部15が所定の複数回の接触動作を行う(ステップSD5)。決定する接触経路の数及び接触動作の回数は予め設定されており、例えば3回である。その後、位置姿勢推定部16(図1)が、接触動作によって得られた複数の接触情報に基づいて、位置姿勢推定学習モデル31を用いて対象物の位置及び姿勢を推定する(ステップSD6)。
【0050】
次に、ピッキング制御部17が、推定された位置及び姿勢に基づいてピッキング機構40を制御することにより、ピッキング動作を行う(ステップSD7)。ピッキングに成功した場合は、位置姿勢推定追加学習部18が、図5に示した追加学習を行う(ステップS9)。なお、図5のステップSA1が、図9のステップSD8と共通である。
【0051】
ステップSD7でピッキングに失敗した場合は、ステップSD5の接触動作を再度実行する。この時、前回までの接触動作で対象物の位置及び姿勢の候補が絞り込まれているため、接触経路決定部14は、前回までの接触動作の接触経路とは異なる複数の接触経路を決定する。接触情報取得部15は、新たに決定された複数の接触経路に基づいて複数回の接触動作を行い、接触情報を取得する。ステップSD6において、位置姿勢推定部16は、前回までの接触動作及び今回の接触動作で取得されたすべての接触情報を用いて、対象物の位置及び姿勢を推定する。利用する接触情報の数が多くなるため、対象物の位置及び姿勢の推定精度が高まる。
【0052】
ピッキング装置が一般運用モードで運用されている場合には、追加学習(ステップSD9)を実行しない。
【0053】
[学習モード]
次に、図10を参照して、学習モードにおけるピッキング装置の動作について説明する。図10は、学習モードにおけるピッキング装置の動作を示すフローチャートである。
【0054】
ステップSD1からステップSD4までの手順は、追加学習運転モード(図9)のステップSD1からステップSD4までの手順と同一である。ステップSD4の後、制御装置10は、ユーザから指令されている学習方法に応じて強化学習及び模倣学習の一方を実行する。どちらの学習方法を実行するかは、予めユーザが選択し、入力装置52から制御装置10に、選択された学習方法が指令されている。
【0055】
強化学習が選択されている場合は、接触経路決定強化学習部19(図1)が、図6に示した手順で強化学習を実行する(ステップSE1)。なお、図6に示したステップSB1では、図10のステップSD4で位置姿勢候補出力部13(図1)が出力した位置及び姿勢の候補を、接触経路決定強化学習部19が取得する。
【0056】
模倣学習が選択されている場合は、接触経路決定模倣学習部20(図1)が、図7に示した手順で模倣学習を実行する(ステップSE2)。図7のステップSC1では、接触経路決定模倣学習部20は、図10のステップSD4で位置姿勢候補出力部13が取得した画像データ、及び位置姿勢候補出力部13が出力した位置及び姿勢の候補を取得する。
【0057】
制御装置10は、強化学習または模倣学習を行った後、追加学習運用モード(図9)のステップSD5からステップSD9までの手順と同一の手順を実行する。
【0058】
次に、上記実施例の優れた効果について説明する。
上記実施例では、事前学習部12(図1)が図2Aに示したCADデータを用いて多数の学習用データセットを生成する。このため、対象物の準備、及び実際のピッキング動作を行うことなく、位置姿勢推定学習モデル31(図1)を学習することができる。
【0059】
さらに、位置姿勢推定追加学習部18(図1)が、実際のピッキング動作から取得されたデータセット(接触情報と、推定された位置及び姿勢)を用いて、位置姿勢推定学習モデル31を追加学習するため、実環境に適合した位置姿勢推定学習モデル31を構築することができる。例えば、力覚センサ43が対象物の表面に接触した時に力覚センサ43が対象物から受ける反力の方向が、摩擦等の影響により表面の法線方向からずれる場合がある。事前学習では、図3に示したように、反力の方向が対象物の表面の法線方向であると仮定して位置姿勢推定学習モデル31を学習しているため、実環境で発生する摩擦等が再現されていない。このため、事前学習のみで学習した位置姿勢推定学習モデル31を用いた場合、推定精度が低下してしまう場合がある。上記実施例では、実環境から得られたデータセットを用いて追加学習を行うため、位置姿勢推定学習モデル31の推定精度を高めることができる。
【0060】
接触経路決定部14が、強化学習及び模倣学習の少なくとも一方の学習方法で学習された接触経路決定学習モデル32を用いて力覚センサ43の接触経路を決定する。このため、位置姿勢推定部16が高い精度で位置及び姿勢を推定するための好適な接触情報を、位置姿勢推定部16に提供することができる。さらに、ピッキング成功までの接触回数を少なくすることができる。これにより、スループットを高めることが可能になる。
【0061】
さらに、学習モード(図10)でピッキング装置を動作させることにより、接触経路決定強化学習部19及び接触経路決定模倣学習部20を含む接触経路決定学習部が、接触経路決定学習モデル32を学習する。このため、接触経路決定学習モデル32を用いて、ピッキングに成功するまでの接触回数がより少なくなるような好ましい接触経路を決定することができる。
【0062】
位置姿勢推定学習モデル評価部21が、位置姿勢推定学習モデル31の推定精度を評価し、推定精度が低い場合には追加学習を行うように、ユーザに通知する。具体的には、ピッキング失敗の頻度が基準地を超えた場合に、追加学習を行うようにユーザに通知する。このため、ユーザは位置姿勢推定学習モデル31の追加学習を行うか否かを容易に判断することができる。
【0063】
さらに、接触経路決定学習モデル評価部22が、接触経路決定学習モデル32を用いて決定される接触経路の適切度を評価する。具体的には、ピッキング完了までの接触回数が基準値より多い場合には、決定される接触経路の適切度が低いと判定される。この場合、接触経路決定学習モデル評価部22が、接触経路決定学習モデル32を学習させるようにユーザに通知する。これにより、ユーザは、接触経路決定学習モデル32を学習させるか否かを容易に判断することができる。
【0064】
上述の実施例は例示であり、本発明は上述の実施例に制限されるものではない。例えば、種々の変更、改良、組み合わせ等が可能なことは当業者に自明であろう。
【符号の説明】
【0065】
10 制御装置
11 形状定義データ取得部
12 事前学習部
13 位置姿勢候補出力部
14 接触経路決定部
15 接触情報取得部
16 位置姿勢推定部
17 ピッキング制御部
18 位置姿勢推定追加学習部
19 接触経路決定強化学習部
20 接触経路決定模倣学習部
21 位置姿勢推定学習モデル評価部
22 接触経路決定学習モデル評価部
31 位置姿勢推定学習モデル
32 接触経路決定学習モデル
40 ピッキング機構
41 多関節型ロボットアーム
42 把持部
43 力覚センサ
51 出力装置
52 入力装置
53 撮像装置
60 対象物の画像
61 位置及び姿勢の候補
62 接触経路指定用矢印
63 ポインタ
64 決定ボタン
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10