(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-01-15
(45)【発行日】2024-01-23
(54)【発明の名称】ロボットハンドのワーク持ち方探索装置および該方法
(51)【国際特許分類】
B25J 13/00 20060101AFI20240116BHJP
B25J 13/08 20060101ALI20240116BHJP
【FI】
B25J13/00 Z
B25J13/08 A
(21)【出願番号】P 2022558688
(86)(22)【出願日】2020-10-28
(86)【国際出願番号】 JP2020040531
(87)【国際公開番号】W WO2022091269
(87)【国際公開日】2022-05-05
【審査請求日】2023-02-08
(73)【特許権者】
【識別番号】000010076
【氏名又は名称】ヤマハ発動機株式会社
(74)【代理人】
【識別番号】100115381
【氏名又は名称】小谷 昌崇
(74)【代理人】
【識別番号】100111453
【氏名又は名称】櫻井 智
(72)【発明者】
【氏名】飛田 直生
【審査官】仁木 学
(56)【参考文献】
【文献】特開2018-118343(JP,A)
【文献】特開2019-123075(JP,A)
【文献】特開2016-083705(JP,A)
【文献】特開2003-340760(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
B25J 1/00 - 21/02
(57)【特許請求の範囲】
【請求項1】
ロボットハンドでワークを持つ場合に、置かれているワークの載置状態に対し適した持ち方を見出せるロボットハンドのワーク持ち方探索装置であって、
前記ワークの載置状態に基づいて前記ロボットハンドで前記ワークを持つ持ち方を生成する持ち方生成処理を実行する持ち方生成部と、
前記持ち方生成部で生成した持ち方で前記ワークを前記ロボットハンドで持つ把持処理を実行するハンド制御部と、
前記ロボットハンドで前記ワークを持った後に、所定の運動を前記ロボットハンドに実施させる運動実施処理を実行する運動実施部と、
前記運動実施部で前記ロボットハンドに前記所定の運動させた後に、前記持ち方を評価する評価指標を求める評価指標処理を実行する評価指標部と、
前記持ち方生成部、前記ハンド制御部、前記運動実施部および前記評価指標部それぞれに、前記持ち方生成処理、前記把持処理、前記運動実施処理および前記評価指標処理を、所定の複数回、実行させる繰返し処理部とを備え、
前記持ち方生成部は、前記所定の複数回の実行において、異なる持ち方を生成
し、
さらに、前記ロボットハンドで持った前記ワークの姿勢を検出する姿勢検出部を備え、
前記評価指標部は、前記所定の運動を実施する前に前記姿勢検出部で検出した前記ワークの姿勢である運動前姿勢、および、前記所定の運動を実施した後に前記姿勢検出部で検出した前記ワークの姿勢である運動後姿勢に基づいて前記評価指標を求める、
ロボットハンドのワーク持ち方探索装置。
【請求項2】
ロボットハンドでワークを持つ場合に、置かれているワークの載置状態に対し適した持ち方を見出せるロボットハンドのワーク持ち方探索装置であって、
前記ワークの載置状態に基づいて前記ロボットハンドで前記ワークを持つ持ち方を生成する持ち方生成処理を実行する持ち方生成部と、
前記持ち方生成部で生成した持ち方で前記ワークを前記ロボットハンドで持つ把持処理を実行するハンド制御部と、
前記ロボットハンドで前記ワークを持った後に、所定の運動を前記ロボットハンドに実施させる運動実施処理を実行する運動実施部と、
前記運動実施部で前記ロボットハンドに前記所定の運動させた後に、前記持ち方を評価する評価指標を求める評価指標処理を実行する評価指標部と、
前記持ち方生成部、前記ハンド制御部、前記運動実施部および前記評価指標部それぞれに、前記持ち方生成処理、前記把持処理、前記運動実施処理および前記評価指標処理を、所定の複数回、実行させる繰返し処理部とを備え、
前記持ち方生成部は、前記所定の複数回の実行において、異なる持ち方を生成し、
前記評価指標を求めるための複数の特徴点が前記ワークに設定され、
前記複数の特徴点それぞれに前記評価指標を求める際の重みが設定され、
前記評価指標部は、前記複数の特徴点それぞれについて前記重みを用いて各評価指標を求める、
ロボットハンドのワーク持ち方探索装置。
【請求項3】
前記評価指標部は、さらに、前記複数の特徴点それぞれについて求めた各評価指標の平均値を最終的な評価指標として求める、
請求項
2に記載のロボットハンドのワーク持ち方探索装置。
【請求項4】
さらに、前記所定の運動を入力する入力部を備え、
前記運動実施部は、前記入力部で入力された前記所定の運動を実施する、
請求項1ないし請求項3の何れか1項に記載のロボットハンドのワーク持ち方探索装置。
【請求項5】
さらに、前記持ち方生成部で生成した持ち方、前記所定の運動、および、前記評価指標部で求めた評価指標に基づいて前記持ち方を機械学習する機械学習部を備え、
前記繰返し処理部は、前記所定の複数回の実行において、さらに、前記機械学習部に機械学習させる、
請求項1
ないし請求項4の何れか1項に記載のロボットハンドのワーク持ち方探索装置。
【請求項6】
前記機械学習は、Q学習の強化学習であり、
前記機械学習部は、機械学習後の運用中も、機械学習中の学習率よりも低い学習率で機械学習する、
請求項
5に記載のロボットハンドのワーク持ち方探索装置。
【請求項7】
機械学習後の運用中では、前記持ち方生成部に代え、前記機械学習部が前記ワークの載置状態に基づいて前記持ち方を生成し、
前記機械学習後の運用中において、前記ロボットハンドで前記ワークを持つごとに、前記機械学習部で生成した持ち方、前記運用での運動、および、前記評価指標部で求めた評価指標を互いに対応付けて記憶する実績情報記憶部をさらに備え、
前記機械学習部は、前記機械学習後の所定のタイミングで、前記実績情報記憶部に互いに対応付けて記憶された前記機械学習部で生成した持ち方、前記運用での運動、および、前記評価指標部で求めた評価指標を用いて再機械学習する、
請求項
5に記載のロボットハンドのワーク持ち方探索装置。
【請求項8】
ロボットハンドでワークを持つ場合に、置かれているワークの載置状態に対し適した持ち方を見出せるロボットハンドのワーク持ち方探索方法であって、
前記ワークの載置状態に基づいて前記ロボットハンドで前記ワークを持つ持ち方を生成する持ち方生成工程と、
前記持ち方生成工程で生成した持ち方で前記ワークを前記ロボットハンドで持つハンド制御工程と、
前記ロボットハンドで前記ワークを持った後に、所定の運動を前記ロボットハンドに実施させる運動実施工程と、
前記運動実施工程で前記ロボットハンドに前記所定の運動させた後に、前記持ち方を評価する評価指標を求める評価指標工程とを備え、
前記持ち方生成工程、前記ハンド制御工程、前記運動実施工程および前記評価指標工程を、所定の複数回、実行し、
前記持ち方生成工程は、前記所定の複数回の実行において、異なる持ち方を生成
し、
さらに、前記ロボットハンドで持った前記ワークの姿勢を検出する姿勢検出工程を備え、
前記評価指標工程は、前記所定の運動を実施する前に前記姿勢検出工程で検出した前記ワークの姿勢である運動前姿勢、および、前記所定の運動を実施した後に前記姿勢検出工程で検出した前記ワークの姿勢である運動後姿勢に基づいて前記評価指標を求める、
ロボットハンドのワーク持ち方探索方法。
【請求項9】
ロボットハンドでワークを持つ場合に、置かれているワークの載置状態に対し適した持ち方を見出せるロボットハンドのワーク持ち方探索方法であって、
前記ワークの載置状態に基づいて前記ロボットハンドで前記ワークを持つ持ち方を生成する持ち方生成工程と、
前記持ち方生成工程で生成した持ち方で前記ワークを前記ロボットハンドで持つハンド制御工程と、
前記ロボットハンドで前記ワークを持った後に、所定の運動を前記ロボットハンドに実施させる運動実施工程と、
前記運動実施工程で前記ロボットハンドに前記所定の運動させた後に、前記持ち方を評価する評価指標を求める評価指標工程とを備え、
前記持ち方生成工程、前記ハンド制御工程、前記運動実施工程および前記評価指標工程を、所定の複数回、実行し、
前記持ち方生成工程は、前記所定の複数回の実行において、異なる持ち方を生成し、
前記評価指標を求めるための複数の特徴点が前記ワークに設定され、
前記複数の特徴点それぞれに前記評価指標を求める際の重みが設定され、
前記評価指標工程は、前記複数の特徴点それぞれについて前記重みを用いて各評価指標を求める、
ロボットハンドのワーク持ち方探索方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、ロボットハンドでワークを持つ場合に、より適した持ち方を見出せるロボットハンドのワーク持ち方探索装置およびワーク持ち方探索方法に関する。
【背景技術】
【0002】
近年、省人化や効率向上等のために、様々な産業分野でロボットの導入が進んでいる。前記導入に当たって、ロボットがそのロボットハンドでワークを確実に持つことができることが重要な要件の1つである。このロボットハンドでワークを持つ技術として、例えば、特許文献1に開示された技術がある。
【0003】
この特許文献1に開示された機械学習装置は、バラ積みされた状態を含む、乱雑に置かれた複数のワークからハンド部によって前記ワークを取り出すロボットの動作を学習する機械学習装置であって、前記ワーク毎の少なくとも三次元マップを計測する三次元計測器の出力データを観測する状態量観測部と、前記ハンド部によって前記ワークを取り出す前記ロボットの取り出し動作の結果を取得する動作結果取得部と、前記状態量観測部からの出力および前記動作結果取得部からの出力を受け取って、前記ワークの前記取り出し動作を学習する学習部と、を備え、前記状態量観測部は、さらに、前記三次元計測器の出力に基づいて、前記ワーク毎の三次元位置を計算する座標計算部の出力データも観測し、前記学習部(22)は、前記動作結果取得部の出力である前記ワークの取り出しの成否の判定結果に基づいて報酬を計算する報酬計算部と、前記ワークの前記取り出し動作の価値を定める価値関数を有し、前記報酬に応じて前記価値関数を更新する価値関数更新部と、を備える。前記特許文献1によれば、この機械学習装置は、バラ積みされた状態を含む、乱雑に置かれたワークを取り出すときのロボットの最適な動作を人間の介在無しに学習でき、乱雑に置かれた複数のワークからハンド部によって前記ワークを取り出すことができる。
【0004】
ところで、例えば、ワークが、ぬいぐるみ、人形、はさみおよび本等の、可動部分や回転軸を持つものである場合、ロボットハンドが前記ワークを掴んだ後に、前記ワークの姿勢や形状が変化してしまう虞がある。また例えば、ワークが、ボルト、カンおよびビン等の、低い摩擦力の箇所を有する滑り易いものである場合や、ワークが、偏った重心を有する箱等の、回転やずれを生じ易いものである場合、ロボットハンドが前記ワークを掴んだ後に、前記ワークの姿勢が変化してしまう虞がある。
【0005】
ロボットハンドがワークを掴んだ後に、前記ワークの姿勢や形状が変化してしまうと、例えば、前記ワークを組み付ける場合、位置合わせに不都合が生じ、前記組み付けが難しくなってしまう。また例えば、前記ワークがロボットハンドによって所定の場所に置かれた場合、姿勢変化により想定の姿勢で置かれなくなるため、次工程のロボットハンドが前記ワークを掴めなくなってしまう虞や掴み方の自由度が低減してしまう虞がある。
【0006】
前記特許文献1に開示された機械学習装置は、乱雑に置かれた複数のワークからハンド部によって前記ワークを取り出すことができるが、掴んだ後におけるワークの姿勢変化を考慮していない。
【先行技術文献】
【特許文献】
【0007】
【発明の概要】
【0008】
本発明は、上述の事情に鑑みて為された発明であり、その目的は、ロボットハンドでワークを持つ場合に、掴んだ後におけるワークの姿勢変化を低減できる持ち方を見出せるロボットハンドのワーク持ち方探索装置およびワーク持ち方探索方法を提供することである。
【0009】
本発明にかかる、ロボットハンドのワーク持ち方探索装置およびワーク持ち方探索方法は、ワークの載置状態に基づいてロボットハンドでワークを持つ持ち方を生成し、この生成した持ち方で前記ワークを前記ロボットハンドで持ち、その後に、所定の運動を前記ロボットハンドに実施させた後に、前記持ち方を評価する評価指標を求める処理を、異なる持ち方を生成しながら、所定の複数回、実行する。これにより、上記ロボットハンドのワーク持ち方探索装置および該方法は、ワークの載置状態に対し、様々な複数の持ち方に対する複数の評価指標を求めることができるから、前記ワークの載置状態に対し、ロボットハンドでワークを持つ場合に、掴んだ後におけるワークの姿勢変化を低減できる持ち方を見出せる。
【0010】
上記並びにその他の本発明の目的、特徴及び利点は、以下の詳細な記載と添付図面から明らかになるであろう。
【図面の簡単な説明】
【0011】
【
図1】実施形態におけるロボットハンドのワーク持ち方探索装置の構成を示すブロック図である。
【
図2】前記ワーク持ち方探索装置で用いられる評価指標の一例を説明するための図である。
【
図3】評価指標の演算および機械学習に関する前記ワーク持ち方探索装置の全体的な動作を示すフローチャートである。
【
図4】評価指標の演算に関する前記ワーク持ち方探索装置の動作を示すフローチャートである。
【
図5】ロボットハンドでワークを持った様子を説明するための図である。
【
図6】前記ワークに設定される特徴点を説明するための図である。
【
図7】一例として、姿勢変化が無い場合において、評価指標の演算手法を説明するための図である。
【
図8】他の一例として、姿勢変化が有る場合において、評価指標の演算手法を説明するための図である。
【
図9】ワークに評価指標を求める部分を制限する変形形態を説明するための図である。
【
図10】一例として、制限部分で姿勢変化が無い場合において、評価指標の演算手法を説明するための図である。
【
図11】他の一例として、制限部分で姿勢変化が有る場合において、評価指標の演算手法を説明するための図である。
【
図12】ロボットハンドでワークを持った後に実施される所定の運動を入力して設定する他の変形形態において、運動入力画面を説明するための図である。
【
図13】一連のロボット動作における持ち方を見出す他の変形形態を説明するための図である。
【発明を実施するための形態】
【0012】
以下、図面を参照して、本発明の1または複数の実施形態が説明される。しかしながら、発明の範囲は、開示された実施形態に限定されない。なお、各図において同一の符号を付した構成は、同一の構成であることを示し、適宜、その説明を省略する。本明細書において、総称する場合には添え字を省略した参照符号で示し、個別の構成を指す場合には添え字を付した参照符号で示す。
【0013】
実施形態におけるロボットハンドのワーク持ち方探索装置は、ロボットハンドでワークを持つ場合に、置かれているワークの載置状態に対し適した持ち方を見出せる装置である。このワーク持ち方探索装置は、前記ワークの載置状態に基づいて前記ロボットハンドで前記ワークを持つ持ち方を生成する持ち方生成処理を実行する持ち方生成部と、前記持ち方生成部で生成した持ち方で前記ワークを前記ロボットハンドで持つ把持処理を実行するハンド制御部と、前記ロボットハンドで前記ワークを持った後に、所定の運動を前記ロボットハンドに実施させる運動実施処理を実行する運動実施部と、前記運動実施部で前記ロボットハンドに前記所定の運動させた後に、前記持ち方を評価する評価指標を求める評価指標処理を実行する評価指標部と、前記持ち方生成部、前記ハンド制御部、前記運動実施部および前記評価指標部それぞれに、前記持ち方生成処理、前記把持処理、前記運動実施処理および前記評価指標処理を、所定の複数回、実行させる繰返し処理部とを備え、前記持ち方生成部は、前記所定の複数回の実行において、異なる持ち方を生成する。そして、本実施形態では、前記ワーク持ち方探索装置は、前記持ち方生成部で生成した持ち方、および、前記評価指標部で求めた評価指標に基づいて前記持ち方を機械学習する機械学習部を備え、前記繰り返し処理部は、前記所定の複数回の実行において、さらに、前記機械学習部に機械学習させる。このようなワーク持ち方探索装置について、以下、より具体的に説明する。
【0014】
図1は、実施形態におけるロボットハンドのワーク持ち方探索装置の構成を示すブロック図である。
図2は、前記ワーク持ち方探索装置で用いられる評価指標の一例を説明するための図である。
【0015】
実施形態におけるロボットハンドのワーク持ち方探索装置(以下、「ワーク持ち方探索装置」と適宜に略記する)Dは、例えば、
図1に示すように、ロボット1と、第1ワーク検出部2と、第2ワーク検出部3と、制御処理部4と、入力部5と、出力部6と、インターフェース部(IF部)7と、記憶部8とを備える。
【0016】
ロボット1は、制御処理部4に接続され、制御処理部4の制御に従って、所定の作業(動作、運動)を行う機械装置であり、例えば、ロボット本体11と、ロボットハンド12とを備える。ロボット本体11は、例えば、制御処理部4に接続され、制御処理部4の制御に従って動く6軸多関節型ロボットであり、その先端部分に、ロボットハンド12を備える。ロボットハンド12は、ロボット本体11を介して制御処理部4に接続され、制御処理部4の制御に従ってワークWKを持ったり、放したりできる機構である。ロボットハンド12は、例えば、後述の
図5に示すように、一対の第1および第2指部121、122と、これら第1および第2指部を支持する支持部123と、支持部123とロボット本体11の前記先端部分とを繋ぐ連結部124とを備える。この
図5に示す例では、第1および第2指部121、122は、それぞれ、一方向に延びた板状部材である。支持部123は、少なくとも第1および第2指部121、122の各一方端部(例えば各先端部分)を離接可能に、第1および第2指部121、122の各他方端部(例えば各元部分)で、連結されている。ロボットハンド12は、第1および第2指部121、122の各一方端部を接近させることで、所定の把持力でワークWKを持つことができ、第1および第2指部121、122の各一方端を離すことで、ワークWKを放すことができる。連結部124の一方端は、支持部123に連結され、その他方端は、図示を省略するが、回転可能にロボット本体11の前記先端部分に連結されている。ロボットハンド12は、連結部124を回転軸にロボット本体11に対し回転できる。
【0017】
第1ワーク検出部2は、制御処理部4に接続され、制御処理部4の制御に従って、ロボットハンド12で持ったワークWKを検出する装置である。第1ワーク検出部2は、例えば、撮像装置(いわゆるデジタルカメラ)や、LiDAR(Light Detection and Ranging)等である。
【0018】
第2ワーク検出部3は、制御処理部4に接続され、制御処理部4の制御に従って、載置台に置かれたワークWKを検出する装置である。第2ワーク検出部3は、第1ワーク検出部2と同様に、例えば、撮像装置や、LiDAR等である。このため、検出方向(撮像方向や走査方向)を変更可能に構成することによって、第1ワーク検出部2および第2ワーク検出部3は、兼用され、1個の撮像装置やLiDAR等で構成してもよい。
【0019】
入力部5は、制御処理部4に接続され、例えば当該ワーク持ち方探索装置Dの動作開始を指示するコマンド等の各種コマンド、および、ワーク持ち方探索装置Dの稼働を行う上で必要な各種データをワーク持ち方探索装置Dに入力する装置であり、例えば、所定の機能を割り付けられた複数の入力スイッチ、キーボードおよびマウス等である。
【0020】
出力部6は、制御処理部4に接続され、制御処理部4の制御に従って、入力部5から入力されたコマンドやデータ、および、ワークWKを持って所定の運動を行うことによって求められた評価指標EV等を出力する装置であり、例えばCRTディスプレイ、LCD(液晶表示装置)および有機ELディスプレイ等の表示装置やプリンタ等の印刷装置等である。
【0021】
なお、入力部5および出力部6は、タッチパネルより構成されてもよい。このタッチパネルを構成する場合において、入力部5は、例えば抵抗膜方式や静電容量方式等の操作位置を検出して入力する位置入力装置であり、出力部6は、表示装置である。このタッチパネルでは、表示装置の表示面上に位置入力装置が設けられ、表示装置に入力可能な1または複数の入力内容の候補が表示され、ユーザが、入力したい入力内容を表示した表示位置に触れると、位置入力装置によってその位置が検出され、検出された位置に表示された表示内容がユーザの操作入力内容としてワーク持ち方探索装置Dに入力される。このようなタッチパネルでは、ユーザは、入力操作を直感的に理解し易いので、ユーザにとって取り扱い易いワーク持ち方探索装置Dが提供される。
【0022】
IF部7は、制御処理部4に接続され、制御処理部4の制御に従って、例えば、外部の機器との間でデータを入出力する回路であり、例えば、シリアル通信方式であるRS-232Cのインターフェース回路、Bluetooth(登録商標)規格を用いたインターフェース回路、および、USB規格を用いたインターフェース回路等である。また、IF部7は、例えば、データ通信カードや、IEEE802.11規格等に従った通信インターフェース回路等の、外部の機器と通信信号を送受信する通信インターフェース回路であってもよい。
【0023】
記憶部8は、制御処理部4に接続され、制御処理部4の制御に従って、各種の所定のプログラムおよび各種の所定のデータを記憶する回路である。前記各種の所定のプログラムには、例えば、制御処理プログラム等が含まれ、前記制御処理プログラムには、ワーク持ち方探索装置Dの各部1~3、5~8を当該各部の機能に応じてそれぞれ制御する制御プログラムや、第2ワーク検出部3の検出結果に基づいて例えば載置台等に置かれているワークWKの載置状態を認識するワーク認識プログラムや、第1ワーク検出部2の検出結果に基づいてロボットハンド12で持っているワークWKの姿勢を認識するワーク姿勢認識プログラムや、前記ワークWKの載置状態に基づいてロボットハンド12でワークWKを持つ持ち方を生成する持ち方生成処理を実行する持ち方生成プログラムや、前記持ち方生成プログラムで生成した持ち方でワークWKをロボットハンド12で持つ把持処理を実行し、ロボットハンド12でワークWKを持った後に、所定の運動をロボットハンド12に実施させる運動実施処理を実行するロボット制御プログラムや、前記ロボット制御プログラムでロボットハンド12に前記所定の運動させた後に、前記持ち方を評価する評価指標EVを求める評価指標処理を実行する評価指標プログラムや、前記持ち方生成処理、前記把持処理、前記運動実施処理および前記評価指標処理を、所定の複数回、実行する繰返し処理プログラム等が含まれる。本実施形態では、前記制御処理プログラムには、さらに、前記持ち方生成プログラムで生成した持ち方、前記所定の運動、および、前記評価指標プログラムで求めた評価指標に基づいて前記持ち方を機械学習する機械学習プログラムが含まれ、前記繰返し処理プログラムは、前記所定の複数回の実行において、さらに、前記機械学習プログラムに機械学習させる。前記各種の所定のデータには、指標変換情報や、運動情報や、実績情報等の各プログラムを実行する上で必要なデータ等が含まれる。記憶部8は、例えば不揮発性の記憶素子であるROM(Read Only Memory)や書き換え可能な不揮発性の記憶素子であるEEPROM(Electrically Erasable Programmable Read Only Memory)等を備える。記憶部8は、比較的大容量のハードディスク装置を備えてよい。記憶部8は、前記所定のプログラムの実行中に生じるデータ等を記憶するいわゆる制御処理部4のワーキングメモリとなるRAM(Random Access Memory)等を含む。そして、前記指標変換情報、運動情報および実績情報それぞれを記憶するために。記憶部8は、指標変換情報記憶部81,運動情報記憶部82および実績情報記憶部83を機能的に備える。
【0024】
指標変換情報記憶部81は、指標変換情報を記憶するものである。前記指標変換情報は、持ち方を評価する評価指標EVを求める際に用いられる情報である。本実施形態では、前記評価指標EVは、前記所定の運動を実施する前におけるワークWKの姿勢である運動前姿勢、および、前記所定の運動を実施した後における前記ワークWKの姿勢である運動後姿勢に基づいて求められる。より具体的には、前記評価指標EVは、前記運動前姿勢に対する前記運動後姿勢のずれ量に基づいて求められる。このため、前記指標変換情報は、前記運動前姿勢と前記運動後姿勢とのずれ量と前記評価指標EVの値とを対応付けた情報であってよいが、本実施形態では、前記評価指標EVが重みWTで重み付けされて求められるので、前記指標変換情報は、前記運動前姿勢と前記運動後姿勢とのずれ量と前記重み付け前の評価指標evの値とを対応付けた情報である。前記指標変換情報は、前記評価指標プログラムに組み込まれることで、指標変換情報記憶部81に記憶されてよく、あるいは、入力部5からユーザ(オペレータ)によって入力されることで、指標変換情報記憶部81に記憶されてよい。一例では、
図2に示すように、ズレ量が略無い場合((ずれ量)<1[mm])では、評価指標evは、100とされ、ズレ量が小さい場合(1[mm]≦(ずれ量)<5[mm])では、評価指標evは、70とされ、ズレ量が中程度である場合(5[mm]≦(ずれ量)≦10[mm])では、評価指標evは、40とされ、ズレ量が大きい場合(10[mm]、(ずれ量))では、評価指標evは、0とされ、ロボットハンド12がワークWKを掴み損ねたり落としたり等のズレ量が検出不能である場合(特徴点検出不能(失敗))では、評価指標evは、-50とされる。
【0025】
運動情報記憶部82は、前記所定の運動を表す運動情報を記憶するものである。前記所定の運動は、例えば、ロボットハンド12を所定の一方向に所定の速度で所定の時間だけ移動する速度運動、ロボットハンド12を所定の一方向に所定の加速度で所定の時間だけ移動する加速度運動、ロボットハンド12を所定の角度範囲で所定の速度(または所定の角速度)または所定の加速度(または所定の角加速度)で所定の時間だけ回転する回転運動、および、前記ロボットハンドを所定の振幅で周波数(または周期)で所定の時間だけ振動する振動運動、のうちの少なくとも1つを含む。前記所定の運動が前記速度運動である場合には、前記運動情報は、所定の一方向、所定の速度および所定の時間である。前記所定の運動が前記加速度運動である場合には、前記運動情報は、所定の一方向、所定の加速度および所定の時間である。前記所定の運動が前記回転運動である場合には、前記運動情報は、所定の振幅、所定の速度(所定の角速度)または所定の加速度(所定の角加速度および所定の時間である。前記所定の運動が前記振動運動である場合には、前記運動情報は、所定の振幅、所定の周波数および所定の時間である。前記運動情報は、予め、適宜に設定され、運動情報記憶部82に記憶される。
【0026】
実績情報記憶部83は、実績情報を記憶するものである。前記実績情報は、後述のように、機械学習後に、ロボット1を実際に運用した場合に生じる(得られる)、ワークの載置状態、持ち方および運動(運用での動作)であり、実績情報記憶部83は、これらを互いに対応付けて実績情報として記憶する。前記持ち方は、ロボットハンド12でワークWKを掴む把持位置および把持力で表される(定義される)。
【0027】
制御処理部4は、ワーク持ち方探索装置Dの各部1~3、5~8を当該各部の機能に応じてそれぞれ制御し、様々な持ち方で評価指標EVを求め、本実施形態では、さらに機械学習するための回路である。制御処理部4は、例えば、CPU(Central Processing Unit)およびその周辺回路を備えて構成される。制御処理部4は、前記制御処理プログラムが実行されることによって、制御部41、ワーク認識部42、持ち方生成部43、ロボット制御部44、ワーク姿勢認識部45、評価指標部46、機械学習部47および繰返し処理部48を機能的に備える。
【0028】
制御部41は、ワーク持ち方探索装置Dの各部1~3、5~8を当該各部の機能に応じてそれぞれ制御し、ワーク持ち方探索装置Dの全体制御を司るものである。
【0029】
ワーク認識部42は、第2ワーク検出部3の検出結果に基づいて例えば載置台等に置かれているワークWKの載置状態を認識するものである。例えば、第2ワーク検出部3が撮像装置である場合に、ワーク認識部42は、前記撮像装置で撮像したワークWKの画像(第1ワーク画像)からエッジを抽出することによって、ワークWKの輪郭を検出してワークWKの載置状態を認識する。
【0030】
持ち方生成部43は、ワークWKの載置状態に基づいてロボットハンド12でワークWKを持つ持ち方を生成する持ち方生成処理を実行するものである。例えば、持ち方生成部43は、前記ワークWKの載置状態に対し、ロボットハンド12で可能な把持範囲(
図5に示す例では第1および第2指部121、122の最大間隔以下の範囲)内において無作為(ランダム)に、ロボットハンド12でワークWKを掴む把持位置を設定し、ロボットハンド12で可能な把持力範囲内において無作為(ランダム)に、ロボットハンド12でワークWKを持つ把持力を設定することで、持ち方(把持位置および把持力)を生成する。
【0031】
ロボット制御部44は、ロボット1が所定の作業を実施するように、ロボット1を制御するものである。前記所定の作業には、持ち方生成部43で生成した持ち方でワークWKをロボットハンド12で持つ把持処理、および、ロボットハンド12でワークWKを持った後に、運動情報記憶部82に記憶された運動情報で表される所定の運動をロボットハンド12に実施させる運動実施処理が含まれる。すなわち、本実施形態では、ロボット制御部44は、前記把持処理を実行し、前記運動実施処理を実行する。なお、ロボット制御部44は、前記持ち方生成部で生成した持ち方で前記ワークを前記ロボットハンドで持つ把持処理を実行するハンド制御部の一例に相当し、そして、前記ロボットハンドで前記ワークを持った後に、所定の運動を前記ロボットハンドに実施させる運動実施処理を実行する運動実施部の一例にも相当する。
【0032】
ワーク姿勢認識部45は、第1ワーク検出部2の検出結果に基づいてロボットハンド12で持っているワークWKの姿勢を認識するものである。例えば、第1ワーク検出部2が撮像装置である場合に、ワーク姿勢認識部45は、前記撮像装置で撮像したワークWKの画像(第2ワーク画像)からエッジを抽出することによって、ワークWKの輪郭を検出してワークWKの姿勢を認識する。本実施形態では、評価指標EVは、後述するように、ワークWKに設定された複数の特徴点SMにおける各ずれ量に基づいて求められるので、ワーク姿勢認識部45は、前記ワークWKの輪郭から複数の特徴点SMを抽出し、これら複数の特徴点SMの各位置を求めることでワークWKの姿勢を認識する。前記複数の特徴点SMは、ワークWKの姿勢を表せるように。適宜に設定される。例えば、ワークWKの可動部分ごとに特徴点が設定される。なお、第1ワーク検出部2およびワーク姿勢認識部45は、前記ロボットハンドで持った前記ワークの姿勢を検出する姿勢検出部の一例に相当する。本実施形態では、ワーク姿勢認識部45は、さらに、ロボットハンド12がワークWKを把持しているか否かを判定する。ワーク姿勢認識部45は、例えば、前記撮像装置で撮像したワークWKの画像にワークWK(ワークWKの一部または全部)が写り込んでいるか否かを判定することによって、ロボットハンド12がワークWKを把持しているか否かを判定できる。この場合では、ワークWKの形状が予め記憶部8に記憶され、ワークWKの画像から前記ワークWKの形状が探索され、ワークWKの画像にワークWKが写り込んでいるか否かの判定に前記ワークWKの形状が利用される。
【0033】
評価指標部46は、ロボット制御部でロボットハンド12に前記所定の運動させた後に、前記持ち方を評価する評価指標EVを求める評価指標処理を実行するものである。より具体的には、本実施形態では、評価指標部46は、運動前姿勢および運動後姿勢に基づいて前記評価指標EVを求める。前記運動前姿勢は、前記所定の運動を実施する前に、第1ワーク検出部2の検出結果に基づいてワーク姿勢認識部45で認識したワークWKの姿勢である。前記運動後姿勢は、前記所定の運動を実施した後に、第1ワーク検出部2の検出結果に基づいてワーク姿勢認識部45で認識したワークWKの姿勢である。より詳しくは、評価指標部46は、運動前姿勢に対する運動後姿勢のずれ量を求め、この求めたずれ量を評価指標EVに換算する。本実施形態では、前記評価指標EVを求めるための複数の特徴点SMがワークWKに設定され、ロボット1の作業目的に応じて、姿勢変化を許容し難いワークWKの部分や、姿勢変化を許容し易いワークWKの部分等の、各特徴点SMの重要度が異なる観点から、前記複数の特徴点SMそれぞれに前記評価指標EVを求める際の重みWTが設定され、前記複数の特徴点SMそれぞれについて前記重みWTを用いて各評価指標EVが求められる。このため、本実施形態では、評価指標部46は、複数の特徴点SMそれぞれについて、互いに対応する、ワーク姿勢認識部45で認識したワークWKの運動前姿勢における特徴点SMの位置と、ワーク姿勢認識部45で認識したワークWKの運動後姿勢における特徴点SMの位置とのずれ量を求め、この求めた特徴点SMのずれ量を、指標変換情報記憶部81に記憶されている指標変換情報に用いて前記重み付け前の評価指標evに変換し、これによって複数の特徴点SMにおける複数の一時的な評価指標EVtを求める。そして、評価指標部46は、複数の特徴点SMそれぞれについて、当該特徴点SMに対応する重みWTを、当該特徴点SMの一時的な評価指標EVtに乗算することによって、前記複数の特徴点SMにおける各評価指標EVを求める。さらに、本実施形態では、評価指標部46は、前記複数の特徴点SMそれぞれについて求めた各評価指標EVの平均値を最終的な評価指標EVrとして求める。
【0034】
機械学習部47は、持ち方生成部43で生成した持ち方、前記所定の運動、および、評価指標部46で求めた評価指標EV(本実施形態では最終的な評価指標EVr)に基づいて前記持ち方を機械学習するものである。本実施形態では、機械学習には、いわゆるQ学習の強化学習が利用される。強化学習では、その時点で貰える報酬ではなく、将来にわたる価値が最大化される。Q学習は、一般に、次式1によって表される。
【0035】
【0036】
ここで、Q(s、a)は、状態sにおいて、行動aをとった場合の価値(Q値)である。sは、時刻tの状態であり、s’は、時刻t+1の状態である。aは、時刻tの行動であり、a’は、時刻t+1の行動である。状態sは、行動aにより状態s’に変化する。R(s、a)は、その状態変化により得られる報酬(状態sにおいて、行動aをとった場合に得られる報酬)である。a’を下部に付したmaxQ(s’、a’)は、現在推定される価値の最大値である。αは、学習率(0<α≦1)であり、γは、割引率(0<γ≦1)である。
【0037】
本実施形態では、状態sに前記所定の運動を割り当て、行動aに前記持ち方(把持位置および把持力)を割り当て、報酬Rに前記最終的な評価指標EVrを割り当てることで、Q学習が利用される。学習率αおよび割引率γは、適宜に設定され、例えば、学習率αは、0.1や0.2等に設定され、割引率γは、0.8や0.9等に設定される。
【0038】
機械学習部47には、機械学習により、ワークWKの載置状態および前記所定の運動に対する持ち方を出力する機械学習モデルが生成される。
【0039】
繰返し処理部48は、前記持ち方生成処理、前記把持処理、前記運動実施処理および前記評価指標処理を、予め設定された所定の複数回(評価回数、機械学習回数)、実行させるものである。本実施形態では、さらに、繰返し処理部48は、前記所定の複数回の実行において、さらに、機械学習部47に機械学習させる。持ち方生成部43は、前記所定の複数回の実行において、異なる持ち方を生成する。本実施形態では、上述のように、無作為(ランダム)に持ち方が生成されることで、前記所定の複数回の実行において、異なる持ち方が生成される。なお、持ち方が無作為に生成されるので、偶然、同じ持ち方が生成されることがあり得るが、繰り返し実行する回数を大きくすることで、無視できる。
【0040】
これらワーク持ち方探索装置Dにおける制御処理部4、入力部5、出力部6、IF部7および記憶部8は、例えば、タワー型やデスクトップ型等のコンピュータによって構成可能である。
【0041】
次に、ワーク持ち方探索装置Dの動作について説明する。
図3は、評価指標の演算および機械学習に関する前記ワーク持ち方探索装置の全体的な動作を示すフローチャートである。
図4は、評価指標の演算に関する前記ワーク持ち方探索装置の動作を示すフローチャートである。
図5は、ロボットハンドでワークを持った様子を説明するための図である。
図6は、前記ワークに設定される特徴点を説明するための図である。
図6Aは、ワークWKを示し、
図6Bは、
図6Aに示すワークWKに設定される6個の第1ないし第6特徴点SM1~SM6を示す。
図7は、一例として、姿勢変化が無い場合において、評価指標の演算手法を説明するための図である。
図7Aは、紙面左側に運動前姿勢における6個の特徴点SM1b~SM6bを示し、紙面右側に運動後姿勢における6個の特徴点SM1a~SM6aを示す。
図7Bは、第1ないし第6特徴点SM1~SM6における各一時的な評価指標(一時評価指標)および各評価指標、ならびに、第1持ち方におけるワークWKの最終的な評価指標を示す。
図8は、他の一例として、姿勢変化が有る場合において、評価指標の演算手法を説明するための図である。
図8Aは、紙面左側に運動前姿勢における6個の特徴点SM1b~SM6bを示し、紙面右側に運動後姿勢における6個の特徴点SM1a~SM6aを示す。
図8Bは、第1ないし第6特徴点SM1~SM6における各一時的な評価指標(一時評価指標)および各評価指標、ならびに、第2持ち方におけるワークWKの最終的な評価指標を示す。
【0042】
上記構成のワーク持ち方探索装置Dは、その電源が投入されると、必要な各部の初期化を実行し、その稼働を始める。ワーク持ち方探索装置Dでは、その制御処理プログラムの実行によって、制御処理部4には、制御部41、ワーク認識部42、持ち方生成部43、ロボット制御部44、ワーク姿勢認識部45、評価指標部46、機械学習部47および繰返し処理部48が機能的に構成される。
【0043】
なお、説明の簡単化のため、ここでは、前記所定の運動は、ロボットハンド12を所定の一方向に所定の速度で所定の時間だけ移動する速度運動であり、運動情報として運動情報記憶部82に記憶されているとする。また、前記所定の運動に対応付けて持ち方生成部43で生成される持ち方の範囲(把持範囲および把持力範囲)が設定(制限)されてもよい。また、繰返し処理部48が繰り返す回数も記憶部8に記憶されているとする。
【0044】
まず、載置台等にワークWKが所定の載置状態で置かれる。例えば、ユーザ(オペレータ)によってワークWKが前記所定の載置状態で置かれる。あるいは、例えば、他のロボットが用意され、前記他のロボットによってワークWKが前記所定の載置状態で置かれる。このため、このワークWKの持ち方探索処理や機械学習では、第2ワーク検出部3およびワーク認識部42が省略できる。なお、前記所定の載置状態は、記憶部8に予め記憶される。
【0045】
続いて、
図3において、ワーク持ち方探索装置Dは、制御処理部4の持ち方生成部43によって、前記ワークWKの載置状態に基づいてロボットハンド12でワークWKを持つ持ち方を生成する持ち方生成処理を実行する(S1)。より具体的には、持ち方生成部43は、前記ワークWKの載置状態に対し、無作為にワークWKの持ち方(把持位置および把持力)を生成する。一例では、ワークWKは、
図6Aに示す人型の人形である。
【0046】
次に、ワーク持ち方探索装置Dは、制御処理部4のロボット制御部44によって、処理S1で持ち方生成部43によって生成した持ち方でワークWKをロボットハンド12で持つ把持処理を実施する(S2)。例えば、
図5に示すように、人形のワークWKがロボットハンド12によってその体幹で把持される。
【0047】
次に、ワーク持ち方探索装置Dは、第1ワーク検出部2によって、処理S2で把持されたワークWKを検出する(S3)。例えば、
図6Aに示す人形のワークWKに対し、第1ワーク検出部2によって、ワークWKの画像が生成される。
【0048】
次に、ワーク持ち方探索装置Dは、制御処理部4のワーク姿勢認識部45によって、処理S2によってロボットハンド12がワークWKを把持しているか否かを判定する(S4)。より具体的には、ワーク姿勢認識部45は、処理S3における運動前のワークWKの検出結果に基づいてロボットハンド12がワークWKを把持しているか否かを判定する。より詳しくは、ワーク姿勢認識部45は、処理S3で運動前のワークWKが検出されている場合、この例ではワークWKの画像にワークWK(ワークWKの一部または全部)が写り込んでいる場合には、ロボットハンド12がワークWKを把持していると判定し(Yes)、ワーク持ち方探索装置Dは、次に、処理S5を実行する。一方、評価指標部46は、処理S3で運動前のワークWKが検出されていない場合、この例ではワークWKの画像にワークWKが写り込んでいない場合には、ロボットハンド12がワークWKを把持していないと判定し(Yes)、ワーク持ち方探索装置Dは、次に、処理S9を実行する。
【0049】
前記処理S5では、ワーク持ち方探索装置Dは、制御処理部4のロボット制御部44によって、運動情報記憶部82に記憶された運動情報で表される所定の運動をロボットハンド12に実施させる運動実施処理を実行する。
【0050】
次に、ワーク持ち方探索装置Dは、第1ワーク検出部2によって、処理S3と同様に、処理S5で所定の運動を実施した後のワークWKを検出する(S6)。
【0051】
次に、ワーク持ち方探索装置Dは、ワーク姿勢認識部45によって、処理S4と同様に、ロボットハンド12がワークWKを把持しているか否かを判定する(S7)。この判定の結果、ロボットハンド12がワークWKを把持している場合(Yes)には、ワーク持ち方探索装置Dは、次に、処理S8を実行する。一方、前記判定の結果、ロボットハンド12がワークWKを把持していない場合(No)には、ワーク持ち方探索装置Dは、次に、処理S9を実行する。
【0052】
前記処理S8では、ワーク持ち方探索装置Dは、制御処理部4の評価指標部46によって、把持が成功した場合の評価指標EV(本実施形態では最終的な評価指標EVr)を求め、次に、処理S10を実行する。
【0053】
より具体的には、
図4に示すように、まず、ワーク持ち方探索装置Dは、ワーク姿勢認識部45によって、処理S3で検出した第1ワーク検出部2の検出結果に基づいてワークWKの運動前姿勢を抽出する(S21)。より具体的には、ワーク姿勢認識部45は、処理S3で生成したワークWKの画像からエッジを抽出することによって、ワークWKの輪郭を検出し、前記抽出したワークWKの輪郭から複数の特徴点SMを抽出し、これら複数の特徴点SMの各位置を求めることでワークWKの姿勢を認識する。
【0054】
例えば、
図6Aに示す人形のワークWKの場合、
図6Bに示すように、頭部の左右先端部それぞれが第1および第2特徴点SM1、SM2とされ、左右手先部それぞれが第3および第4特徴点SM3、SM4とされ、左右足先部それぞれが第5および第6特徴点SM5、SM6とされ、ワーク姿勢認識部45によって、
図7Aおよび
図8Aそれぞれの紙面左側に示すように、前記ワークの画像から、これら6個の第1ないし第6特徴点SM1b~SM6bの各位置が運動前姿勢として求められる。なお、
図7、
図8、
図10および
図11において、運動前姿勢の特徴点SMには、添え字bがさらに付され、運動後姿勢の特徴点SMには、添え字aがさらに付されている。
【0055】
次に、ワーク持ち方探索装置Dは、ワーク姿勢認識部45によって、処理S21と同様に、処理S5で検出した第1ワーク検出部2の検出結果に基づいてワークWKの運動後姿勢を抽出する(S22)。
【0056】
例えば、ワーク姿勢認識部45によって、
図7Aおよび
図8Aそれぞれの紙面右側に示すように、ワークWKの画像から、6個の第1ないし第6特徴点SM1a~SM6aの各位置が運動後姿勢として求められる。
図7Aには、第1持ち方でロボットハンド12によりワークWKを持ち、前記速度運動を実施した場合における運動前姿勢および運動後姿勢が示され、
図8Aには、第1持ち方とは異なる第2持ち方でロボットハンド12によりワークWKを持ち、前記速度運動を実施した場合における運動前姿勢および運動後姿勢が示されている。特徴点SMの位置は、例えば、画素位置で表され、運動前姿勢を検出するためにワークWKの画像を生成する際(処理S3の実行の際)と、運動後姿勢を検出するためにワークWKの画像を生成する際(処理S5の実行の際)とで、第1ワーク検出部2は、同一の検出位置(撮像位置)でワークWKの画像を生成する。
【0057】
次に、ワーク持ち方探索装置Dは、評価指標部46によって、運動前姿勢に対する運動後姿勢のずれ量を求める(S23)。より具体的には、評価指標部46は、複数の特徴点SMそれぞれについて、互いに対応する、処理S21で求めたワークWKの運動前姿勢における特徴点SMbの位置と、処理S22で求めたワークWKの運動後姿勢における特徴点SMaの位置とのずれ量を求める。
【0058】
次に、ワーク持ち方探索装置Dは、評価指標部46によって、処理S23で求めたずれ量から評価指標EVを求める(S24)。より具体的には、評価指標部46は、複数の特徴点SMそれぞれについて、当該特徴点SMのずれ量を、指標変換情報記憶部81に記憶されている指標変換情報に用いて前記重み付け前の評価指標evに変換することで、当該特徴点SMの一時的な評価指標EVtを求め、当該特徴点SMに対応する重みWTを、当該特徴点SMの一時的な評価指標EVtに乗算することで、前記複数の特徴点SMにおける各評価指標EVを求める。
【0059】
そして、ワーク持ち方探索装置Dは、評価指標部46によって、前記複数の特徴点SMそれぞれについて求めた各評価指標EVの平均値を最終的な評価指標EVrとして求め(S25)、処理S8を終了する。
【0060】
例えば、
図7Aに示す例では、6個の第1ないし第6特徴点SM1~SM6は、それぞれ、運動前姿勢に対する運動後姿勢にずれが無く、
図2に示す指標変換情報では、
図7Bに示すように、第1ないし第6特徴点SM1~SM6における各一時的な評価指標(一時評価指標)EVt1~EVt6は、それぞれ、100とされる。
図7Bおよび
図8Bに示す例では、第1および第2特徴点SM1、SM2の第1および第2重みWT1、WT2は、それぞれ、1.0に設定され、第3ないし第6特徴点SM3~SM6の第3ないし第6重みWT3~WT6は、それぞれ、0.7に設定されている。このため、第1および第2特徴点SM1、SM2の各評価指標EV1、EV2は、それぞれ、100(=100×1.0)と求められ、第3ないし第6特徴点SM3~SM6の各評価指標EV3~EV6は、それぞれ、70(=100×0.7)と求められる。したがって、前記第1持ち方における最終的な評価指標EVrは、80(=(100+100+70+70+70+70)/6)と求められる。
【0061】
一方、
図8Aに示す例では、6個の第1ないし第6特徴点SM1~SM6は、それぞれ、運動前姿勢に対する運動後姿勢にずれが有り、
図2に示す指標変換情報では、
図8Bに示すように、第1および第2特徴点SM1、SM2における各一時的な評価指標(一時評価指標)EVt1、EVt2は、それぞれ、70とされ、第3特徴点SM3における一時的な評価指標EVt3は、40とされ、第4特徴点SM4における一時的な評価指標EVt4は、70とされ、第5特徴点SM5における一時的な評価指標EVt5は、40とされ、第6特徴点SM6における一時的な評価指標EVt6は、0とされる。第1および第2特徴点SM1、SM2における各評価指標EV1、EV2は、それぞれ、70(=70×1.0)とされ、第3特徴点SM3における評価指標EV3は、28(=40×0.7)とされ、第4特徴点SM4における評価指標EV4は、49(=70×0.7)とされ、第5特徴点SM5における評価指標EV5は、28(=40×0.7)とされ、第6特徴点SM6における評価指標EV6は、0(=0×0.7)とされる。したがって、前記第2持ち方における最終的な評価指標EVrは、40(≒(70+70+28+49+28+0)/6)と求められる。
【0062】
前記第1持ち方と前記第2持ち方とを比較すると、前記第1持ち方における最終的な評価指標EVr;80は、前記第2持ち方における最終的な評価指標EVr;40より高い(大きい)。このため、前記第1持ち方における最終的な評価指標EVr;80および前記第2持ち方における最終的な評価指標EVr;40が出力部6から出力され、ユーザが参照することにより、ユーザは、前記第1持ち方が、前記第2持ち方より、掴んだ後におけるワークの姿勢変化を低減できる持ち方であると判断できる。
【0063】
ワーク持ち方探索装置Dは、後述のように、様々な持ち方に対し、最終的な評価指標EVrを求めるので、これら様々な持ち方に対する各最終的な評価指標EVrが出力部6から出力され、ユーザが参照することにより、ユーザは、掴んだ後におけるワークの姿勢変化を低減できる持ち方を見出すことができる。
【0064】
図3に戻って、前記処理S9では、ワーク持ち方探索装置Dは、評価指標部46によって、処理S8と同様に、把持が失敗した場合の評価指標を求め、次に、処理S10を実行する。
図2および
図6に示す例では、評価指標部46は、第1ないし第6特徴点SM1~SM6それぞれの一時的な各評価指標EVt1~EVt6を-50とし、これら一時的な各評価指標EVt1~EVt6に、第1ないし第6特徴点SM1~SM6それぞれの各重みWT1~WT6を乗算することによって、第1ないし第6特徴点SM1~SM6それぞれの各評価指標EV1~EV6を求め、これらの平均値を求めることによって失敗した場合の持ち方における最終的な評価指標EVr;-40(=(-50-50-35-35-35-35)/6)を求める。
【0065】
前記処理S10では、ワーク持ち方探索装置Dは、制御処理部4の機械学習部47によって、処理S1で持ち方生成部43によって生成した持ち方、前記所定の運動、および、処理S8または処理S9で評価指標部46によって求めた評価指標EV(本実施形態では最終的な評価指標EVr)に基づいて、Q学習の強化学習で機械学習する。より具体的には、機械学習部47は、Q学習の式1に、状態sに前記所定の運動を割り当て、行動aに前記持ち方を割り当て、報酬Rに前記最終的な評価指標EVrを割り当てることで、機械学習する。
【0066】
次に、ワーク持ち方探索装置Dは、制御処理部4の繰返し処理部48によって、前記所定の複数回の実行が終了しているか否かを判定する(S11)。この判定の結果、前記所定の複数回の実行が終了していない場合(No)には、繰返し処理部48は、前記持ち方生成処理、前記把持処理、前記運動実施処理および前記評価指標処理を繰り返すために、処理を処理S1に戻す。前記判定の結果、前記所定の複数回の実行が終了している場合(Yes)には、繰返し処理部48は、本処理を終了する。
【0067】
このような各処理によって、1個の速度運動に対し、様々な持ち方が評価され、機械学習が実施される。上述のように、様々な持ち方における各最終的な評価指標EVrを出力部6に出力するように、ワーク持ち方探索装置Dが構成されることで、ユーザがこれら様々な持ち方における各最終的な評価指標EVrを参照することにより、ユーザは、掴んだ後におけるワークの姿勢変化を低減できる持ち方を見出すことができる。
【0068】
そして、実際には、必要に応じて、様々な複数の方向に様々な複数の速度で様々な複数の時間だけ移動する様々な複数の速度運動に対し、ワーク持ち方探索装置Dは、様々な持ち方を評価し、機械学習を実施する。同様に、必要に応じて、様々な複数の方向に様々な複数の加速度で様々な複数の時間だけ移動する様々な複数の加速度運動に対し、ワーク持ち方探索装置Dは、様々な持ち方を評価し、機械学習を実施する。同様に、必要に応じて、様々な複数の角度範囲で様々な複数の速度(または複数の角速度)または様々な複数の加速度(または複数の角加速度)で様々な複数の時間だけ回転する様々な複数の回転運動に対し、ワーク持ち方探索装置Dは、様々な持ち方を評価し、機械学習を実施する。同様に、必要に応じて、様々な複数の振幅で様々な複数の周波数で様々な複数の時間だけ振動する様々な複数の振動運動に対し、ワーク持ち方探索装置Dは、様々な持ち方を評価し、機械学習を実施する。
【0069】
そして、機械学習後の運用では、ロボット1の運動(動作)が設定され、載置台等にワークWKが置かれると、第2ワーク検出部3およびワーク認識部42により、ワークWKの載置状態が認識され、ワークWKの載置状態および前記設定されたロボット1の運動に対する持ち方が機械学習モデルで求められ、求めた持ち方で持つように、ロボットハンド12が制御され、前記設定されたロボット1の運動が実施される。
【0070】
以上説明したように、実施形態におけるワーク持ち方探索装置Dおよびこれに実装されたワーク持ち方探索方法は、持ち方生成処理、把持処理、運動実施処理および評価指標処理を、所定の複数回、実行させることで、ワークWKの載置状態に対し、様々な複数の持ち方に対する複数の評価指標EV、本実施形態では最終的な評価指標EVrを求めることができるから、ユーザが各評価指標EVrを比較することで、前記ワークWKの載置状態に対し、ロボットハンド12でワークWKを持つ場合に、掴んだ後におけるワークWKの姿勢変化を低減できる持ち方を見出せる。
【0071】
上記ワーク持ち方探索装置Dおよびワーク持ち方探索方法は、機械学習部47を備え、前記機械学習部47を機械学習するので、機械学習後の機械学習部47から、前記ワークWKの載置状態に対し、ロボットハンド12でワークWKを持つ場合に、掴んだ後におけるワークWKの姿勢変化を低減できる持ち方を出力できる。
【0072】
上記ワーク持ち方探索装置Dおよびワーク持ち方探索方法は、運動前姿勢に対する運動後姿勢の姿勢変化量で評価指標を求めることができる。
【0073】
上記ワーク持ち方探索装置Dおよびワーク持ち方探索方法は、ワークWKに設定された複数の特徴点SMごとに重みWTを設定し、前記複数の特徴点SMそれぞれについて前記重みWTを用いて各評価指標EVを求めるので、姿勢変化を許容し難い特徴点SMの重みWTを姿勢変化を許容し易い特徴点SMの重みWTよりも大きくすることで、姿勢変化の許容性を考慮した、前記掴んだ後におけるワークWKの姿勢変化を低減できる持ち方を見出せる。
【0074】
上記ワーク持ち方探索装置Dおよびワーク持ち方探索方法は、最終的な評価指標EVrを求めることで、前記複数の特徴点SMに対する全体的な評価指標を求めることができる。
【0075】
なお、上述の実施形態では、ユーザが様々な持ち方における各最終的な評価指標EVrを参照し、比較することにより、ユーザが、掴んだ後におけるワークの姿勢変化を低減できる持ち方を見出したが、ワーク持ち方探索装置Dが掴んだ後におけるワークの姿勢変化を低減できる持ち方を探索するように構成されてもよい。この場合では、ワーク持ち方探索装置Dは、前記所定の複数回の実行によって求められた複数の持ち方における複数の評価指標、上述では複数の最終的な評価指標EVrを比較し、前記複数の持ち方の中から、最も高い評価指標(最も高い最終的な評価指標EVr)となる持ち方を探索する持ち方探索部を、さらに、制御処理部4に機能的に備える。
【0076】
また、上述の実施形態では、ワークWKの全体に対し、運動前姿勢に対する運動後姿勢のずれ量が求められて評価指標が求められたが、ワークWKの一部に対し、運動前姿勢に対する運動後姿勢のずれ量が求められて評価指標が求められてもよい。このようなワーク持ち方探索装置Dでは、入力部5には、前記評価指標を求める対象領域が入力され、評価指標部46は、入力部5から入力された対象領域における評価指標を求める。すなわち、評価指標部46は、入力部5から入力された対象領域内の特徴点における運動前姿勢と運動後姿勢とのずれ量に基づいて前記評価指標を求める。これによれば、ワークWKの一部に着目してワークWKの姿勢変化を評価でき、前記ワークWKの一部を除く他の部分における姿勢変化が無視できる。
【0077】
図9は、ワークに評価指標を求める部分を制限する変形形態を説明するための図である。
図9Aは、制限部分を説明するための図であり、ワークWKの運動前姿勢を示す。
図9Bは、
図9Aに示す運動前姿勢に対する、制限部分で姿勢変化が無い場合におけるワークWKの運動後姿勢を示し、
図9Cは、
図9Aに示す運動前姿勢に対する、制限部分で姿勢変化が無い場合におけるワークWKの運動後姿勢を示す。
図10は、一例として、制限部分で姿勢変化が無い場合において、評価指標の演算手法を説明するための図である。
図10Aは、紙面左側に
図9Aに示す運動前姿勢における6個の特徴点SM1b~SM6bを示し、紙面右側に
図9Bに示す運動後姿勢における6個の特徴点SM1a~SM6aを示す。
図10Bは、第1ないし第6特徴点SM1~SM6における各一時的な評価指標(一時評価指標)および各評価指標、ならびに、第3持ち方におけるワークWKの最終的な評価指標を示す。
図11は、他の一例として、制限部分で姿勢変化が有る場合において、評価指標の演算手法を説明するための図である。
図11Aは、紙面左側に
図9Aに示す運動前姿勢における6個の特徴点SM1b~SM6bを示し、紙面右側に
図9Cに示す運動後姿勢における6個の特徴点SM1a~SM6aを示す。
図11Bは、第1ないし第6特徴点SM1~SM6における各一時的な評価指標(一時評価指標)および各評価指標、ならびに、前記第3持ち方と異なる第4持ち方におけるワークWKの最終的な評価指標を示す。
【0078】
例えば、第1ワーク検出部2が撮像装置である場合に、上述の処理S3の実行後であって処理S4の実行前に、ワーク持ち方探索装置Dは、制御処理部4によって、第1ワーク検出部2としての撮像装置で生成したワークWKの画像を出力部6に出力し、
図9Aに示すように、ユーザは、ワークWKの画像を参照し、ワークWKにおける対象領域ARを入力部5から入力し、ワーク持ち方探索装置Dは、制御処理部4によって、ワークWKにおける対象領域ARの入力を受け付け、取得する。
図9Aに示す例では、ワークWKの頭部が対象領域ARとして入力され、ワークWKの第1ないし第6特徴点SM1~SM6のうちの前記入力された対象領域ARに対応する第1および第2特徴点SM1、SM2が指定される。
【0079】
そして、処理S8では、まず、上述のように、処理S21および処理S22の各処理が実施される。例えば、
図9Aに示すワークWKの場合、処理S21では、ワーク姿勢認識部45によって、
図10Aおよび
図11Aそれぞれの紙面左側に示すように、前記ワークWKの画像から、6個の第1ないし第6特徴点SM1b~SMbの各位置が運動前姿勢として求められる。処理S22では、
図9Bに示すワークWKの場合では、ワーク姿勢認識部45によって、
図10Aの紙面右側に示すように、前記ワークWKの画像から、6個の第1ないし第6特徴点SM1a~SM6aの各位置が運動前姿勢として求められ,
図9Cに示すワークWKの場合では、ワーク姿勢認識部45によって、
図11Aの紙面右側に示すように、前記ワークWKの画像から、6個の第1ないし第6特徴点SM1a~SM6aの各位置が運動前姿勢として求められる。
【0080】
なお、上述では、処理S21および処理S22の各処理において、ワークWKにおける全ての特徴点SMの各位置が求められたが、前記対象領域ARに対応する第1および第2特徴点SM1、SM2の各位置のみが求められてもよい。
【0081】
処理S8の処理S23では、ワーク持ち方探索装置Dは、評価指標部46によって、前記対象領域ARにおけるワークWKの運動前姿勢に対する運動後姿勢のずれ量を求める。より具体的には、評価指標部46は、前記対象領域ARに対応する複数の特徴点SMそれぞれについて、互いに対応する、処理S21で求めたワークWKの運動前姿勢における特徴点SMbの位置と、処理S22で求めたワークWKの運動後姿勢における特徴点SMaの位置とのずれ量を求める。
【0082】
処理S8の処理S24では、ワーク持ち方探索装置Dは、評価指標部46によって、処理S23で求めたずれ量から評価指標EVを求める。より具体的には、評価指標部46は、前記対象領域ARに対応する複数の特徴点SMそれぞれについて、当該特徴点SMのずれ量を、指標変換情報記憶部81に記憶されている指標変換情報に用いて前記重み付け前の評価指標evに変換することによって、当該特徴点SMの一時的な評価指標EVtを求め、当該特徴点SMに対応する重みWTを、当該特徴点SMの一時的な評価指標EVtに乗算することによって、前記対象領域ARに対応する複数の特徴点SMにおける各評価指標EVを求める。
【0083】
処理S8の処理S25では、ワーク持ち方探索装置Dは、評価指標部46によって、前記対象領域ARに対応する複数の特徴点SMそれぞれについて求めた各評価指標EVの平均値を最終的な評価指標EVrとして求める。
【0084】
例えば、
図10Aに示す例では、
図9Aおよび
図9Bに示す対象領域ARに対応する2個の第1および第2特徴点SM1、SM2は、それぞれ、運動前姿勢に対する運動後姿勢にずれが無く、
図2に示す指標変換情報では、
図10Bに示すように、第1および第2特徴点SM1、SM2における各一時的な評価指標(一時評価指標)EVt1、EVt2は、それぞれ、100とされ、第1および第2特徴点SM1、SM2の第1および第2重みWT1、WT2を乗じた第1および第2特徴点SM1、SM2の各評価指標EV1、EV2は、それぞれ、100(=100×1.0)と求められ、前記第3持ち方における最終的な評価指標EVrは、100(=(100+100)/2)と求められる。
【0085】
一方、
図11Aに示す例では、
図9Aおよび
図9Bに示す対象領域ARに対応する2個の第1および第2特徴点SM1、SM2は、それぞれ、それぞれ、運動前姿勢に対する運動後姿勢にずれが有り、
図2に示す指標変換情報では、
図11Bに示すように、第1および第2特徴点SM1、SM2における各一時的な評価指標(一時評価指標)EVt1、EVt2は、それぞれ、40および0とされ、第1および第2特徴点SM1、SM2の第1および第2重みWT1、WT2を乗じた第1および第2特徴点SM1、SM2の各評価指標EV1、EV2は、それぞれ、40(=40×1.0)および0(=0×1.0)と求められ、前記第4持ち方における最終的な評価指標EVrは、20(=(400+0)/2)と求められる。
【0086】
前記第3持ち方と前記第4持ち方とを比較すると、前記第3持ち方における最終的な評価指標EVr;100は、前記第4持ち方における最終的な評価指標EVr;20より高い(大きい)。このため、前記第3持ち方における最終的な評価指標EVr;100および前記第4持ち方における最終的な評価指標EVr;20が出力部6から出力され、ユーザが参照することにより、ユーザは、前記第3持ち方が、前記第4持ち方より、掴んだ後におけるワークの姿勢変化を低減できる持ち方であると判断できる。
【0087】
また、上述の実施形態では、運動前姿勢と運動後姿勢とのずれ量は、ワークWKの特徴点SMの位置のずれ量で求められたが、これに限定されず、例えば、LiDAR等でワークWKを点群データで検出し、運動前姿勢におけるワークWKを表す点群と運動後姿勢におけるワークWKを表す点群とでマッチングを行って一致度を求めることによって求められてもよい((ずれ量)=(一致度))。この場合では、前記一致度と前記重み付け前の評価指標evとが対応付けられ、前記一致度が前記重み付け前の評価指標evに変換される。
【0088】
また、上述の実施形態では、前記運動情報は、予め、適宜に設定され、運動情報記憶部82に記憶されたが、ユーザが入力できるように、ワーク持ち方探索装置Dが構成されてもよい。このようなワーク持ち方探索装置Dでは、入力部5には、所定の運動が入力され、この入力された前記所定の運動が運動情報として運動情報記憶部82に記憶される。そして、
図3および
図4に示す上述の各処理が実施される際に、この入力部5から入力された前記所定の運動が、運動実施部の一例であるロボット制御部44によって実施される。
【0089】
図12は、ロボットハンドでワークを持った後に実施される所定の運動を入力して設定する他の変形形態において、運動入力画面を説明するための図である。
【0090】
所定の運動を入力部5から入力する際に、例えば、
図12に示す運動入力画面9が出力部6に表示され、ユーザは、この運動入力画面9を用いて前記所定の運動を入力部5から入力する。
【0091】
この運動入力画面9は、運動の種類ごとに入力領域が設けられており、速度運動を入力するための第1入力領域91-1と、加速度運動を入力するための第2入力領域91-2と、回転運動を入力するための第3入力領域91-3と、振動運動を入力するための第4入力領域91-4とを備える。第1入力領域91-1は、速度運動を入力するか否かを設定する第1チェックボックス92-1と、速度運動の内容を入力するための第1内容設定領域93-1とを備える。第1内容設定領域93-1には、速度を高速、中速、低速およびカスタムそれぞれに設定するための4個のラジオボタン931-1~931-4と、速度をカスタムに設定した場合の数値を入力するための速度入力欄932と、速度運動の時間を入力するための時間入力欄933とを備える。高速、中速および低速には、それぞれ、適宜なデフォルト値が設定されている。ユーザは、前記所定の運動として速度運動を入力する場合では、第1チェックボックス92-1に、入力部5を用いてチェックを入れ、速度を中速に設定する場合では、中速のラジオボタン931-2を、入力部5を用いて選択し、時間入力欄933に、入力部5を用いて数値を入力する。これによって前記所定の運動として速度運動が入力され、その内容が入力され、運動情報として運動情報記憶部82に記憶される。同様に、第2入力領域91-2は、加速度運動を入力するか否かを設定する第2チェックボックス92-2と、加速度運動の内容を入力するための第2内容設定領域93-2とを備え、第3入力領域91-3は、回転運動を入力するか否かを設定する第3チェックボックス92-3と、回転運動の内容を入力するための第3内容設定領域93-3とを備え、第4入力領域91-4は、振動運動を入力するか否かを設定する第4チェックボックス92-4と、振動運動の内容を入力するための第4内容設定領域93-4とを備える。
【0092】
また、上述の実施形態において、ロボット1の運用で得られた実績を用いて機械学習後の機械学習部47が機械学習されてもよい。
【0093】
例えば、上述のワーク持ち方探索装置Dにおいて、機械学習部47は、機械学習後の運用中も、機械学習中の学習率よりも低い学習率で機械学習してもよい。この場合では、運用の動作前に運動前姿勢を検出するために、第1ワーク検出部2でワークWKが検出され、運用の動作後に運動後姿勢を検出するために、第1ワーク検出部2でワークWKが検出される。このようなワーク持ち方探索装置Dは、運用中の実績を機械学習部47に反映でき、学習率を低くすることで、比較的に不都合な持ち方を実施しても機械学習部47に与える影響を低減できるから、前記掴んだ後におけるワークの姿勢変化の低減劣化を抑制できる。
【0094】
例えば、上述のワーク持ち方探索装置Dにおいて、機械学習後の運用中では、持ち方生成部43に代え、前記機械学習部47がワークWKの載置状態に基づいて持ち方を生成し、実績情報記憶部83は、前記機械学習後の運用中において、ロボットハンド12でワークWKを持つごとに、機械学習部47で生成した持ち方、前記運用での運動(動作)、および、評価指標部46で求めた評価指標EV(上述では、最終的な評価指標EVr)を互いに対応付けて実績情報として記憶し、前記機械学習後の予め設定された所定のタイミング(例えば1週間ごとや1ヶ月ごと等)で、実績情報記憶部83に互いに対応付けて記憶された前記機械学習部47で生成した持ち方、前記運用での運動(動作)、および、前記評価指標部46で求めた評価指標EV(上述では、最終的な評価指標EVr)を用いて再機械学習する。この場合でも、運用の動作前に運動前姿勢を検出するために、第1ワーク検出部2でワークWKが検出され、運用の動作後に運動後姿勢を検出するために、第1ワーク検出部2でワークWKが検出される。このようなワーク持ち方探索装置Dは、運用による実績を纏めて機械学習できる。特に、実績の中から比較的に不都合な持ち方を除くことができ、この比較的に不都合な持ち方を除いた実績で機械学習が実施できる。
【0095】
また、上述の実施形態において、前記所定の運動は、例えば、一種類の運動で内容の異なる複数の運動の組み合わせであってもよく、あるいは例えば、速度運動、加速度運動、回転運動および振動運動のうちの複数の組み合わせであってよく、あるいは、例えば、これら上述の組み合わせであってよい。
【0096】
図13は、一連のロボット動作における持ち方を見出す他の変形形態を説明するための図である。例えば、前記所定の運動は、
図13に示すように、持ち方生成部43で生成した持ち方(把持位置、把持力)でワークWKを掴んだ後に、第1時間だけ第1速度で上昇する第1運動PT1と、ワークWKの載置場所からコンベアCVまで第2時間だけ第1加速度で移動する第2運動PT2と、第3時間だけ第2速度で降下する第3運動PT3と、コンベアCVからワークWKの載置場所まで第4時間だけ第2加速度で移動する第4運動PT4とからなる。このように前記所定の運動を設定することで、工程間の移動におけるワークWKの持ち方を評価できる。
【0097】
本明細書は、上記のように様々な態様の技術を開示しているが、そのうち主な技術を以下に纏める。
【0098】
一態様にかかるロボットハンドの持ち方探索装置は、ロボットハンドでワークを持つ場合に、置かれているワークの載置状態に対し適した持ち方を見出せる装置であって、前記ワークの載置状態に基づいて前記ロボットハンドで前記ワークを持つ持ち方を生成する持ち方生成処理を実行する持ち方生成部と、前記持ち方生成部で生成した持ち方で前記ワークを前記ロボットハンドで持つ把持処理を実行するハンド制御部と、前記ロボットハンドで前記ワークを持った後に、所定の運動を前記ロボットハンドに実施させる運動実施処理を実行する運動実施部と、前記運動実施部で前記ロボットハンドに前記所定の運動させた後に、前記持ち方を評価する評価指標を求める評価指標処理を実行する評価指標部と、前記持ち方生成部、前記ハンド制御部、前記運動実施部および前記評価指標部それぞれに、前記持ち方生成処理、前記把持処理、前記運動実施処理および前記評価指標処理を、所定の複数回、実行させる繰返し処理部とを備え、前記持ち方生成部は、前記所定の複数回の実行において、異なる持ち方を生成する。好ましくは、上述のロボットハンドの持ち方探索装置において、前記持ち方は、前記ロボットハンドで前記ワークを掴む把持位置および把持力で表される(定義される)。好ましくは、上述のロボットハンドの持ち方探索装置において、前記所定の運動は、前記ロボットハンドを所定の一方向に所定の速度で所定の時間だけ移動する速度運動、前記ロボットハンドを所定の一方向に所定の加速度で所定の時間だけ移動する加速度運動、前記ロボットハンドを所定の角度範囲で所定の速度(または所定の角速度)または所定の加速度(または所定の角加速度)で所定の時間だけ回転する回転運動、および、前記ロボットハンドを所定の振幅範囲で所定の周波数(または周期)で所定の時間だけ振動する振動運動、のうちの少なくとも1つを含む。
【0099】
このようなロボットハンドの持ち方探索装置は、持ち方生成処理、把持処理、運動実施処理および評価指標処理を、所定の複数回、実行させることで、ワークの載置状態に対し、様々な複数の持ち方に対する複数の評価指標を求めることができるから、各評価指標を比較することで、前記ワークの載置状態に対し、ロボットハンドでワークを持つ場合に、掴んだ後におけるワークの姿勢変化を低減できる持ち方を見出せる。
【0100】
他の一態様では、上述のロボットハンドの持ち方探索装置において、さらに、前記持ち方生成部で生成した持ち方、前記所定の運動、および、前記評価指標部で求めた評価指標に基づいて前記持ち方を機械学習する機械学習部を備え、前記繰返し処理部は、前記所定の複数回の実行において、さらに、前記機械学習部に機械学習させる。好ましくは、上述のロボットハンドの持ち方探索装置において、前記機械学習は、強化学習である。好ましくは、前記強化学習は、Q学習である。
【0101】
このようなロボットハンドのワーク持ち方探索装置は、機械学習部をさらに備え、前記機械学習部を機械学習するので、機械学習後の機械学習部から、前記ワークの載置状態に対し、ロボットハンドでワークを持つ場合に、掴んだ後におけるワークの姿勢変化を低減できる持ち方を出力できる。
【0102】
他の一態様では、これら上述のロボットハンドの持ち方探索装置において、さらに、前記ロボットハンドで持った前記ワークの姿勢を検出する姿勢検出部を備え、前記評価指標部は、前記所定の運動を実施する前に前記姿勢検出部で検出した前記ワークの姿勢である運動前姿勢、および、前記所定の運動を実施した後に前記姿勢検出部で検出した前記ワークの姿勢である運動後姿勢に基づいて前記評価指標を求める。
【0103】
このようなロボットハンドのワーク持ち方探索装置は、運動前姿勢に対する運動後姿勢の姿勢変化量で評価指標を求めることができる。
【0104】
他の一態様では、これら上述のロボットハンドの持ち方探索装置において、さらに、前記所定の運動を入力する入力部を備え、前記運動実施部は、前記入力部で入力された前記所定の運動を実施する。
【0105】
このようなロボットハンドのワーク持ち方探索装置は、入力部をさらに備えるので、ユーザが所定の運動を設定できる。特に、ロボットハンドを運用する状況を考慮した前記所定の運動をユーザが設定できる。
【0106】
他の一態様では、これら上述のロボットハンドの持ち方探索装置において、前記評価指標を求めるための複数の特徴点が前記ワークに設定され、前記複数の特徴点それぞれに前記評価指標を求める際の重みが設定され、前記評価指標部は、前記複数の特徴点それぞれについて前記重みを用いて各評価指標を求める。
【0107】
このようなロボットハンドのワーク持ち方探索装置は、ワークに設定された複数の特徴点ごとに重みを設定し、前記複数の特徴点それぞれについて前記重みを用いて各評価指標を求めるので、姿勢変化を許容し難い特徴点の重みを、姿勢変化を許容し易い特徴点の重みよりも大きくすることで、姿勢変化の許容性を考慮した、前記掴んだ後におけるワークの姿勢変化を低減できる持ち方を見出せる。
【0108】
他の一態様では、上述のロボットハンドの持ち方探索装置において、前記評価指標部は、さらに、前記複数の特徴点それぞれについて求めた各評価指標の平均値を最終的な評価指標として求める。
【0109】
このようなロボットハンドのワーク持ち方探索装置は、前記複数の特徴点に対する全体的な評価指標を求めることができる。
【0110】
他の一態様では、これら上述のロボットハンドの持ち方探索装置において、前記機械学習は、Q学習の強化学習であり、前記機械学習部は、機械学習後の運用中も、機械学習中の学習率よりも低い学習率で機械学習する。
【0111】
このようなロボットハンドのワーク持ち方探索装置は、運用中の実績を機械学習部に反映でき、学習率を低くすることで、比較的に不都合な持ち方を実施しても機械学習部に与える影響を低減できるから、前記掴んだ後におけるワークの姿勢変化の低減劣化を抑制できる。
【0112】
他の一態様では、これら上述のロボットハンドの持ち方探索装置において、機械学習後の運用中では、前記持ち方生成部に代え、前記機械学習部が前記ワークの載置状態に基づいて前記持ち方を生成し、前記機械学習後の運用中において、前記ロボットハンドで前記ワークを持つごとに、前記機械学習部で生成した持ち方、前記運用での運動、および、前記評価指標部で求めた評価指標を互いに対応付けて記憶する実績情報記憶部をさらに備え、前記機械学習部は、前記機械学習後の所定のタイミングで、前記実績情報記憶部に互いに対応付けて記憶された前記機械学習部で生成した持ち方、前記運用での運動、および、前記評価指標部で求めた評価指標を用いて再機械学習する。
【0113】
このようなロボットハンドのワーク持ち方探索装置は、運用による実績を纏めて機械学習できる。特に、実績の中から比較的に不都合な持ち方を除くことができ、この比較的に不都合な持ち方を除いた実績で機械学習が実施できる。
【0114】
一態様にかかるロボットハンドの持ち方探索方法は、ロボットハンドでワークを持つ場合に、置かれているワークの載置状態に対し適した持ち方を見出せる方法であって、前記ワークの載置状態に基づいて前記ロボットハンドで前記ワークを持つ持ち方を生成する持ち方生成工程と、前記持ち方生成工程で生成した持ち方で前記ワークを前記ロボットハンドで持つハンド制御工程と、前記ロボットハンドで前記ワークを持った後に、所定の運動を前記ロボットハンドに実施させる運動実施工程と、前記運動実施工程で前記ロボットハンドに前記所定の運動させた後に、前記持ち方を評価する評価指標を求める評価指標工程とを備え、前記持ち方生成工程、前記ハンド制御工程、前記運動実施工程および前記評価指標工程を、所定の複数回、実行し、前記持ち方生成工程は、前記所定の複数回の実行において、異なる持ち方を生成する。
【0115】
このようなロボットハンドの持ち方探索方法は、持ち方生成工程、ハンド制御工程、運動実施工程および評価指標工程を、所定の複数回、実行させることで、ワークの載置状態に対し、様々な複数の持ち方に対する複数の評価指標を求めることができるから、ユーザが各評価指標を比較することで、前記ワークの載置状態に対し、ロボットハンドでワークを持つ場合に、掴んだ後におけるワークの姿勢変化を低減できる持ち方を見出せる。
【0116】
本発明を表現するために、上述において図面を参照しながら実施形態を通して本発明を適切且つ十分に説明したが、当業者であれば上述の実施形態を変更および/または改良することは容易に為し得ることであると認識すべきである。したがって、当業者が実施する変更形態または改良形態が、請求の範囲に記載された請求項の権利範囲を離脱するレベルのものでない限り、当該変更形態または当該改良形態は、当該請求項の権利範囲に包括されると解釈される。
【産業上の利用可能性】
【0117】
本発明によれば、ロボットハンドでワークを持つ場合に、より適した持ち方を見出せるロボットハンドのワーク持ち方探索装置およびワーク持ち方探索方法が提供できる。