特開2025-6470 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ トヨタ自動車株式会社の特許一覧

特開2025-6470ロボット制御システム及びピッキング方法

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2025006470

(43)【公開日】2025-01-17

(54)【発明の名称】ロボット制御システム及びピッキング方法

(51)【国際特許分類】

B25J 13/08 20060101AFI20250109BHJP

【ＦＩ】

B25J13/08 A

【審査請求】未請求

【請求項の数】4

【出願形態】ＯＬ

(21)【出願番号】P 2023107283

(22)【出願日】2023-06-29

(71)【出願人】

【識別番号】000003207

【氏名又は名称】トヨタ自動車株式会社

(74)【代理人】

【識別番号】100103894

【弁理士】

【氏名又は名称】家入健

(72)【発明者】

【氏名】赤池聖公

【テーマコード（参考）】

3C707

【Ｆターム（参考）】

3C707AS01

3C707BS10

3C707DS01

3C707KS05

3C707KS17

3C707KT01

3C707KT04

3C707LS20

3C707LT12

3C707LV07

3C707LW12

3C707MT03

3C707MT04

(57)【要約】

【課題】ピッキングロボットにおいて制御負荷を低減させつつロボットアームを精確に制御する。
【解決手段】ロボット制御システムは、オフラインティーチングによって生成したオフライン制御指令値に基づく、ロボットアームのオフライン制御時のピッキング機構の位置（第１位置）とロボットアームのオンライン制御時のピッキング機構の位置とのズレ量を示すズレ情報と、オフライン制御指令値と、ロボットアームの特性情報と含むデータを入力し、ズレ量が最小になるように深層強化機械学習を実行することで、オンライン制御時の学習制御指令値を生成する。ロボット制御システムは、第１位置と学習制御指令値に基づくオンライン制御時のピッキング機構の位置（第３位置）とのズレ量を示す情報である更新ズレ情報を入力データの一部として入力し、第１位置と第３位置とのズレ量が最小になるように深層強化機械学習を実行することで、学習制御指令値を更新する。
【選択図】図１

【特許請求の範囲】

【請求項1】

ピッキング機構を有するロボットアームで物品をピッキングするピッキングロボットについて、シミュレーションによるオフラインティーチングによって生成された前記ロボットアームを制御する制御指令値であるオフライン制御指令値に基づいて、オフラインで前記ロボットアームを制御したときの前記ピッキング機構の位置である第１位置と、前記オフライン制御指令値に基づいて実際にオンラインで前記ロボットアームを制御したときの前記ピッキング機構の位置である第２位置と、について、前記第１位置と前記第２位置とのズレ量を示す情報であるズレ情報を取得する取得部と、
前記オフライン制御指令値と前記ズレ情報と前記ロボットアームの動作特性を示す特性情報と含むデータを入力データとして、前記第１位置と前記第２位置とのズレ量が最小になるように深層強化機械学習を実行することで、前記ロボットアームを実際にオンラインで制御する制御指令値である学習制御指令値を生成する生成部と、
を備え、
前記取得部は、前記第１位置と、前記学習制御指令値に基づいて実際にオンラインで前記ロボットアームを制御したときの前記ピッキング機構の位置である第３位置とのズレ量を示す情報である更新ズレ情報を取得し、
前記生成部は、前記更新ズレ情報を前記入力データの一部として入力し、前記第１位置と前記第３位置とのズレ量が最小になるように前記深層強化機械学習を実行することで、前記学習制御指令値を更新する、
ロボット制御システム。

【請求項2】

前記特性情報の少なくとも一部の情報は、前記ロボットアームに備えられた前記動作特性を検出するセンサで、実際にオンラインで前記ロボットアームを制御したときに検出されたセンサ値である、
請求項１に記載のロボット制御システム。

【請求項3】

前記入力データは、前記ロボットアームに備えられた動作状態を検出するセンサで、実際にオンラインで前記ロボットアームを制御したときに検出されたセンサ値を含む、
請求項１又は２に記載のロボット制御システム。

【請求項4】

請求項１又は２に記載のロボット制御システムで前記ピッキングロボットを制御し、前記物品をピッキングするピッキング方法。

【発明の詳細な説明】

【技術分野】

【0001】

本開示は、ロボット制御システム及びピッキング方法に関する。

【背景技術】

【0002】

特許文献１には、物品を把持するロボットハンドがロボットアームに装着され、ピッキングを行うアームロボットに対して、シミュレーションによるオフラインティーチングによって制御値を生成する技術が開示されている。特許文献１に記載の技術では、生成した制御値に基づいて実際にオンラインでロボットアームを制御し、センサによって検出した実際のロボットアームの位置に基づき補正制御を行っている。

【先行技術文献】

【特許文献】

【0003】

【特許文献1】特許第６９０５１４７号公報

【発明の概要】

【発明が解決しようとする課題】

【0004】

しかしながら、特許文献１に記載の技術では、毎回、センサによって検出した実際のロボットアームの位置に基づき補正制御を行う必要があり、制御負荷が増大してしまう。よって、ピッキングロボットにおいて、制御負荷を低減させつつロボットアームを精確に制御できるようにする技術の開発が望まれる。

【課題を解決するための手段】

【0005】

本開示に係るロボット制御システムは、ピッキング機構を有するロボットアームで物品をピッキングするピッキングロボットについて、シミュレーションによるオフラインティーチングによって生成された前記ロボットアームを制御する制御指令値であるオフライン制御指令値に基づいて、オフラインで前記ロボットアームを制御したときの前記ピッキング機構の位置である第１位置と、前記オフライン制御指令値に基づいて実際にオンラインで前記ロボットアームを制御したときの前記ピッキング機構の位置である第２位置と、について、前記第１位置と前記第２位置とのズレ量を示す情報であるズレ情報を取得する取得部と、前記オフライン制御指令値と前記ズレ情報と前記ロボットアームの動作特性を示す特性情報と含むデータを入力データとして、前記第１位置と前記第２位置とのズレ量が最小になるように深層強化機械学習を実行することで、前記ロボットアームを実際にオンラインで制御する制御指令値である学習制御指令値を生成する生成部と、を備え、前記取得部は、前記第１位置と、前記学習制御指令値に基づいて実際にオンラインで前記ロボットアームを制御したときの前記ピッキング機構の位置である第３位置とのズレ量を示す情報である更新ズレ情報を取得し、前記生成部は、前記更新ズレ情報を前記入力データの一部として入力し、前記第１位置と前記第３位置とのズレ量が最小になるように前記深層強化機械学習を実行することで、前記学習制御指令値を更新する、ものである。

【0006】

本開示に係るピッキング方法は、前記ロボット制御システムで前記ピッキングロボットを制御し、前記物品をピッキングするピッキング方法である。

【発明の効果】

【0007】

本開示によれば、ピッキングロボットにおいて、制御負荷を低減させつつロボットアームを精確に制御できる。

【図面の簡単な説明】

【0008】

【図1】実施の形態に係るロボット制御システムの一構成例を示すブロック図である。

【図2】図１のロボット制御システムにおける処理の概要を説明するための図である。

【図3】図２におけるオフラインのピッキングロボットと実機のピッキングロボットとのピッキング機構の位置のズレを説明するための図である。

【図4】図１のロボット制御システムにおける処理例を説明するためのフロー図である。

【図5】図１のロボット制御システムにおける他の処理例を説明するためのフロー図である。

【図6】図１のロボット制御システムにおける更なる他の処理例を説明するためのフロー図である。

【発明を実施するための形態】

【0009】

以下、発明の実施の形態を通じて本発明を説明するが、特許請求の範囲に係る発明を以下の実施の形態に限定するものではない。また、実施の形態で説明する構成の全てが課題を解決するための手段として必須であるとは限らない。

【0010】

（実施の形態）
まず、図１～図３を用いて、本実施の形態に係るロボット制御システム（以下、本システム）の一例について説明する。図１は、本システムの一構成例を示すブロック図である。図２は、図１に示す本システムにおける処理の概要を説明するための図である。図３は、図２におけるオフラインのピッキングロボットと実機のピッキングロボットとのピッキング機構の位置のズレを説明するための図である。

【0011】

図１に示すように、本システム１は、例えば、ロボットアームで物品をピッキングするピッキングロボット１０と、情報処理装置２０とを備える。以下、ピッキングロボットを単にロボットと称し、ロボットアームを単にアームと称し、物品をワークと称する。ロボット１０は、例えば、制御部１１、駆動制御部１２、駆動部１３、センサ群１４、入力部１５、及び記憶部１６を備える。ロボット１０は、図２で例示するように、アーム１５０で台Ｍ又は地面等に載置されたワークＷをピッキングするロボットである。アーム１５０は、把持機構等のピッキング機構１５１を備えるとともに、１又は複数の関節部分のそれぞれを構成する複数の関節機構を備える。各関節機構は、回動、伸縮等によって可動する。無論、把持機構も関節機構を備えることができる。ロボット１０は、ピッキング機構１５１によりワークＷを拾い上げて任意の場所にそのワークＷを置くことができる。

【0012】

ロボット１０は、図２においてアーム１５０が６軸で回動するロボットの外観の一例を図示しているが、その形状をはじめ、関節機構の数、位置、形状、種類、ピッキング機構１５１の形状、種類などは問わない。ピッキング機構１５１は、以下に例を挙げるようにワークＷを把持する把持機構であればよい。但し、ピッキング機構１５１は、ワークが金属である場合には永久磁石又は電磁力の磁力によりワークを吸着する機構でもよく、その場合、ピッキング機構１５１はワークとの吸着面を平面などとしておいてもよい。

【0013】

制御部１１は、駆動制御部１２、センサ群１４、入力部１５、及び記憶部１６を制御する。制御部１１は、例えば、ＣＰＵ（Central Processing Unit）等のプロセッサ、作業用メモリ、及び不揮発性の記憶装置などで構成されるコンピュータによって実現されることができる。この記憶装置にプロセッサによって実行される制御プログラムを格納しておき、プロセッサがその制御プログラムを作業用メモリに読み出して実行することで、制御部１１の機能を果たすことができる。この記憶装置は、記憶部１６を利用することもできる。無論、制御部１１は、専用の制御回路として構成されてもよい。

【0014】

以下では、図１に示したように、制御部１１、入力部１５、及び記憶部１６がロボット１０の本体に内蔵される例を挙げて説明する。但し、制御部１１、入力部１５、及び記憶部１６は、ロボット１０の本体と離間した位置に配されたコンピュータ等のコントローラに備えられてもよい。その場合、ロボット１０の本体とコントローラとが有線又は無線で通信可能となっていれば、コントローラからのロボット１０の制御は可能である。

【0015】

駆動制御部１２は、制御部１１からの制御に従い、駆動部１３を制御する。駆動部１３は、関節機構を駆動して、関節機構を介して接続された複数の部品を相対的に回動させたり、部品を伸縮させたりするなどの動作をさせるモータ等のアクチュエータなどで構成されることができる。図２及び図３では、回動の方向を矢印で示すように６つの関節機構における回動軸で回動可能で、またピッキング機構１５１の把持部１５２，１５３でワークＷの把持が可能な例を挙げる。駆動部１３は、各関節機構に１又は複数備えられるが、説明の簡略化のために駆動部１３が関節機構につき１つ備えられる例を挙げる。なお、ロボット１０に関節機構以外の機構が設けられる場合には、駆動部１３はその機構の駆動のためにも備えられる。

【0016】

センサ群１４は、各駆動部１３あるいは各関節機構などに設けられた複数のセンサである。センサ群１４には、例えば、ピッキング機構１５１又はその付近に設けられたカメラ等のセンサ１４ａが含まれる。センサ１４ａは、ワークＷを認識するために配される。

【0017】

入力部１５は、情報処理装置２０などから情報を入力する部位である。記憶部１６は、制御部１１から情報の読み書きが可能な記憶装置とすることができ、後述する学習モデル１７等を記憶しておくことができる。制御部１１は、上記の制御プログラムの一部として、学習モデル１７による学習を実行するためのプログラムを含むとよい。

【0018】

情報処理装置２０は、例えば、入力部２２、出力部２３、及び記憶部２４と、それらを制御する制御部２１とを備える。制御部２１は、例えば、プロセッサ、作業用メモリ、及び不揮発性の記憶装置などで構成されるコンピュータによって実現されることができる。この記憶装置にプロセッサによって実行される制御プログラムを格納しておき、プロセッサがその制御プログラムを作業用メモリに読み出して実行することで、制御部２１の機能を果たすことができる。この記憶装置は、記憶部２４を利用することもできる。

【0019】

入力部２２は、外部の装置から、後述するシミュレーションプログラム２５によるシミュレーションで必要な情報を入力し、シミュレーション時に読み出し可能な状態で記憶部２４に記憶させる。以下、シミュレーションプログラム２５を単にプログラム２５と称す。出力部２３は、シミュレーションの結果を示す結果情報を、ネットワークを介してロボット１０へ出力する。無論、結果情報は可搬記録媒体へ出力し、可搬記録媒体を介してロボット１０へ入力してもよい。記憶部２４は、プログラム２５等を記憶しておくことができる。制御部２１は、上記の制御プログラムの一部として、プログラム２５によるシミュレーションを実行するためのプログラムを含むとよい。

【0020】

本システム１では、深層強化学習を用い、オフラインティーチ後の実機のロボット１０におけるピッキング機構１５１の位置ズレを抑制する。具体的に図２、図３を用いて説明する。以下、プログラム２５における、ロボット１０、アーム１５０、ピッキング機構１５１に対応するモデルを、それぞれロボット２５ａ、アーム２５０、ピッキング機構２５１として説明する。同様に、プログラム２５における把持部１５２，１５３、センサ１４ａ、台Ｍ、ワークＷに対応するモデルを、それぞれ把持部２５２，２５３、センサ２５４、台Ｍｓ、ワークＷｓとして説明する。ロボット２５ａはロボット１０の製造前のプログラム２５上のモデルとするが、ロボット１０の製造後のモデルであってもよい。なお、図２では便宜上、学習モデル１７及び制御部１１をロボット１０の外部に描いているが、実際には図１に示す通りである。

【0021】

まず、情報処理装置２０の制御部２１が、ロボット２５ａについて、プログラム２５を実行することでオフラインティーチングによるシミュレーションを実行し、アーム２５０を制御する制御指令値であるオフライン制御指令値を生成する。オフライン制御指令値は最適な制御指令値として生成される。制御部２１は、オフライン制御指令値を生成する生成部を備えると言える。オフライ制御指令値は、各関節機構を駆動するための複数の駆動部１３を駆動する制御指令値を含むとよい。オフライン制御指令値は、実際には、あるワークＷｓの存在する目標位置を指定して、その目標位置に向かうように制御するためのオフライン制御指令値を指すとよい。制御部２１は、例えば想定しうる複数の目標位置のそれぞれ、即ち設置位置の異なる複数のワークＷｓのそれぞれに対する複数のオフライン制御指令値を生成しておくとよい。

【0022】

また、制御部２１は、プログラム２５により第１位置の出力も行う。第１位置は、オフライン制御指令値に基づいてオフラインでアーム２５０を制御したときのピッキング機構２５１の位置であり、例えば図３の把持部２５２，２５３の中点Ｈ２で示される座標である。ピッキング機構２５１の位置は、例えば、ワークＷｓをピッキングするようにアーム２５０を制御したときのピッキング位置とするとよい。より具体的には、ピッキング機構２５１の位置は、把持を開始する手前の、ワークＷｓとの距離又は位置関係が予め定められた距離又は位置関係となったときの位置としてもよいし、ワークＷｓを把持した位置としてもよい。制御部２１は、結果情報であるオフライン制御値及び第１位置をロボット１０へ出力するように、出力部２３へ指示する。

【0023】

プログラム２５による結果情報の算出例を挙げる。制御部２１は、プログラム２５を読み出すことにより、例えば、次のような物体認識処理部２１１、把持点探索部２１２、及び経路生成部２１３を構成する。換言すれば、プログラム２５は、各部２１１～２１３の機能を制御部２１に実現させるためのプログラムを含むことができる。物体認識処理部２１１は、センサ２５４でのワークＷｓの認識についての処理を行い、ワークＷｓが認識された場合、そのワークＷｓの位置を把持点探索部２１２へ渡す。把持点探索部２１２は、受け取ったワークＷｓの位置と現在のピッキング機構２５１の位置とに基づき、ワークＷｓにおける把持位置である把持点を探索し、探索した把持点を経路生成部２１３に渡す。ワークＷｓにおける把持位置は、例えば、把持時にピッキング機構２５１に当接する位置の中心などとして規定しておくとよい。経路生成部２１３は、把持点からピッキング機構２５１の移動経路を生成し、把持点探索部２１２へ渡す。把持点探索部２１２と経路生成部２１３とは、上述のように情報のやり取りを行いながら、探索した把持点への移動経路の生成を繰り返し、最適な把持点及び移動経路を決定する。最適な把持点及び移動経路は、例えば最速でワークＷｓを把持できるような把持点及び移動経路として決定される。

【0024】

経路生成部２１３は、決定した移動経路で決定した把持点までピッキング機構２５１を移動させるための、アーム２５０の各関節機構のそれぞれに対応する複数の駆動部についての駆動の角度、速度、加速度、及びトルクを示すオフライン制御指令値を生成する。なお、これら駆動部についての駆動の角度は関節の角度を指し、駆動の速度、加速度、及びトルクはそれぞれ関節を動かせる速度、加速度、及びトルクを指す。なお、後述の駆動部１３の駆動の角度等についても同様である。オフライン制御指令値は、現在の位置から把持点へ向かうまでの時系列の制御指令値としてもよい。経路生成部２１３は、各ワークＷｓの位置、つまり各目標位置に対し、決定された最適な把持点、最適なオフライン制御指令値を、それぞれ第１位置、オフライン制御値として、ロボット１０へ出力するように出力部２３へ指示する。経路生成部２１３は、第１位置及びオフライン制御値とともに、その算出元となった目標位置、及び、上記現在のピッキング機構２５１の位置であるピッキング機構２５１の駆動前の位置を、結果情報に含めて出力するように指示を行うとよい。

【0025】

制御部１１の構成例について説明する。制御部１１は、例えば、物体認識処理部２１１、把持点探索部２１２、及び経路生成部２１３にそれぞれ対応する処理を行う物体認識処理部１１１、把持点探索部１１２、及び経路生成部１１３を備える。各部１１１～１１３の機能は、例えば、プロセッサにより実行される上記の制御プログラムに各部１１１～１１３の処理を実行するプログラムを含むことで実現できる。

【0026】

物体認識処理部１１１は、センサ１４ａでワークＷを認識する。把持点探索部１１２は、認識されたワークＷの位置と現在のピッキング機構１５１の位置とに基づき、ワークＷにおける把持位置である把持点を探索する。経路生成部１１３は、探索された把持点からピッキング機構１５１の移動経路を生成する。把持点探索部１１２と経路生成部１１３とは、情報のやり取りを行いながら、探索した把持点への移動経路の生成を繰り返し、最適な把持点及び移動経路を、例えば最速でワークＷを把持できる把持点及び移動経路として決定する。経路生成部１１３は、決定した移動経路で決定した把持点までピッキング機構１５１を移動させるための、アーム１５０の各関節機構のそれぞれに対応する駆動部１３についての駆動の角度、速度、加速度、及びトルクを示す制御指令値を生成する。生成された制御指令値であるオンライン制御指令値は、現在の位置から把持点へ向かうまでの時系列の制御指令値としてもよい。経路生成部１１３は、ワークＷについて生成したオンライン制御指令値に基づき、アーム１５０の駆動部１３を制御するよう駆動制御部１２に指示を送る。

【0027】

ロボット１０の制御部１１は、このような構成を備えるとともに、第１位置と第２位置とのズレ量を示す情報の取得も行う。つまり、ロボット１０は、ズレ情報を取得する取得部を備えると言える。また、ズレ情報は、第１位置と第２位置とのズレの距離又は距離及び方向を示すズレ量を算出した結果を示す情報として取得するとよいが、第１位置を示す情報及び第２位置を示す情報として取得してもよい。

【0028】

第１位置は、入力部１５が上記結果情報の一部として受信する。なお、制御部１１は、情報処理装置２０から入力部１５で受信した結果情報を一時的に記憶部１６へ記憶させておくとよい。第２位置は、制御部１１が情報処理装置２０から入力部１５で受信したオフライン制御指令値に基づいて、実際にオンラインでアーム１５０を制御したときのピッキング機構１５１の位置である。第２位置は、センサ群１４によって検出されたセンサ値として得るとよい。第２位置は、ロボット２５ａのピッキング機構２５１に対応する、ロボット１０のピッキング機構１５１の位置であり、例えば図３の把持部１５２，１５３の中点Ｈ１で示される座標である。但し、中点Ｈ１は、中点Ｈ２からズレることがある。しかし、本実施の形態では後述の深層強化機械学習によりこのズレを低減できる。

【0029】

オフライン制御指令値に基づく制御の例、並びに第２位置の検出例について説明する。
物体認識処理部１１１は、センサ１４ａでのワークＷの認識についての処理を行う。把持点探索部１１２は、認識されたワークＷの位置と現在のピッキング機構１５１の位置とに基づき、ワークＷにおける把持位置である把持点を探索し、探索した把持点及び現在のピッキング機構１５１の位置を経路生成部１１３に渡す。経路生成部１１３は、把持点探索部１１２と情報のやり取りを行いながら最適な把持点及び移動経路を決定し、情報処理装置２０から受信して記憶部１６に記憶されたオフライン制御指令値の中から、把持点及び現在のピッキング機構１５１の位置に対応するオフライン制御指令値を検索する。経路生成部１１３は、この検索した結果のオフライン制御指令値に基づきアーム１５０の駆動部１３を制御するよう駆動制御部１２に指示を送る。第２位置は、この指示に従い駆動部１３が駆動した後の、ピッキング機構１５１の位置としてセンサ群１４により検知される。また、対象となる他のワークＷの位置、つまり対象となる他の目標位置についても同様に、現在のピッキング機構１５１の位置に基づき選択されたオフライン制御指令値で駆動部１３の制御が実行され、第２位置がセンサ群１４により検知される。制御部１１は、このようにして複数の目標位置についての第２位置をセンサ群１４から取得する。

【0030】

次いで、制御部１１は、上述のようにして取得されたオフライン制御指令値とズレ情報と後述の特性情報と含むデータを、入力データとして学習モデル１７へ入力する。制御部１１は、このような入力データから、第１位置と第２位置とのズレ量が最小になるように学習モデル１７で深層強化機械学習を実行する。

【0031】

制御部１１は、この深層強化機械学習により、アーム１５０を実際にオンラインで制御する制御指令値を生成する。ここで生成された制御指令値を学習制御指令値と称す。学習モデル１７は、ＤＱＮ（Deep Q-Network）で強化学習を行うモデルとすることができるが、深層強化学習モデルであれば、そのアルゴリズムや階層数などは問わない。学習制御指令値は、各関節機構を駆動するための複数の駆動部１３を駆動する制御指令値を含むとよい。制御部１１は、学習モデル１７を用いてこのような学習制御指令値を生成する生成部を備えると言える。学習制御指令値についても、オフライン制御指令値と同様の考え方で複数の目標位置に対して生成されるとよい。つまり、制御部１１は、例えば設置位置の異なる複数のワークＷのそれぞれに対する複数の学習制御指令値を生成しておくとよい。

【0032】

入力データの一部として学習モデル１７に入力される特性情報は、アーム１５０の動作特性を示す情報である。特性情報は、例えば、回動軸などに駆動部１３として設けられるモータのモータ特性、関節機構又は駆動部１３に含まれるギヤのバックラッシ、アーム１５０の剛性などを示す情報とすることができる。なお、ロボット１０にモータ以外のアクチュエータが備えられる場合には、モータ特性の代わりにアクチュエータ特性を示す情報を特性情報として入力するとよい。アーム１５０の剛性は、例えば、アーム１５０全体の剛性としてもよいし、アーム１５０を構成する各アーム部材の剛性としてもよい。

【0033】

また、特性情報は、少なくともその一部が現在の動作特性を示す情報とするとよい。具体的には、特性情報の少なくとも一部の情報は、アーム１５０に備えられた動作特性を検出する１又は複数のセンサで、実際にオンラインでアーム１５０を制御したときに検出されたセンサ値とするとよい。上記１又は複数のセンサはセンサ群１４に含まれる。このように、センサ群１４により特性情報を検出した結果であるセンサ値を入力データに含むことで、ロボット１０の経年変化等も考慮して現在のアーム１５０の特性までを反映した学習制御指令値を生成することができる。

【0034】

また、入力データは、アーム１５０に備えられた動作状態を検出する１又は複数のセンサで、実際にオンラインでアーム１５０を制御したときに検出されたセンサ値を含むようにしてもよい。上記１又は複数のセンサはセンサ群１４に含まれる。センサ群１４は、例えば動作状態として、関節機構における角度、速度、加速度、及びトルクを示す情報を検出する。このように、センサ群１４により動作状態を検出した結果であるセンサ値を入力データに含むことで、動作状態までを反映した学習制御指令値を生成することができる。

【0035】

また、制御部１１は、第１位置と第３位置とのズレ量を示す情報である更新ズレ情報を取得する。第３位置は、学習制御指令値に基づいて実際にオンラインでアーム１５０を制御したときのピッキング機構１５１の位置である。制御部１１は、学習モデル１７に入力するために、このような更新ズレ情報を取得する取得部を備えると言える。また、更新ズレ情報は、第１位置と第３位置とのズレの距離又は距離及び方向を示すズレ量を算出した結果を示す情報として取得するとよいが、第１情報は既に学習モデル１７へ入力済みであるため、更新ズレ情報は第３位置を示す情報として取得してもよい。

【0036】

第３位置の検出処理も、基本的には第２位置の検出処理と同様の手順でなされる。但し、第３位置は、オフライン制御指令値の代わりに学習制御指令値に基づいて駆動部１３の制御がなされた後、センサ群１４によりピッキング機構１５１の位置として検出される。

【0037】

さらに、制御部１１は、更新ズレ情報を入力データの一部として更に入力し、第１位置と第３位置とのズレ量が最小になるように深層強化機械学習を実行することで、学習制御指令値を更新する。この再学習には、入力データの一部として学習時に得た学習制御指令値も入力してもよい。制御部１１は、学習モデル１７を用いてこのような学習制御指令値の更新値を生成する生成部を備えると言える。

【0038】

次に、図４を用いて、本実施の形態に係るロボット制御方法について説明する。図４は図１に示す本システムにおける処理例を説明するためのフロー図である。このロボット制御方法は、例えば次のような第１生成ステップ、第１取得ステップ、第２生成ステップ、第２取得ステップ、及び更新ステップを備える。第１生成ステップは情報処理装置２０が実行するステップであり、その他のステップはロボット１０が実行するステップである。

【0039】

第１生成ステップは、ロボット２５ａのアーム２５０を制御するオフライン制御指令値をシミュレーションによるオフラインティーチングによって生成するステップである。具体的には、情報処理装置２０の制御部２１が、アーム２５０を備えたロボット２５ａに対してシミュレーションによるオフラインティーチングを実施する（ステップＳ１）。制御部２１は、このティーチングにより、アーム２５０の駆動部を制御する角度、速度、加速度、トルクを示すオフライン制御指令値を生成し、ロボット１０に送信し、ロボット１０が、そのオフライン制御指令値を取得する（ステップＳ２）。例えば、ロボット１０は、アーム２５０のある駆動部について、オフライン制御指令値Ｉａを学習モデル１７への入力用に取得し、他の駆動部についても同様にオフライン制御指令値を取得する。

【0040】

第１取得ステップは、第１位置と第２位置とのズレ量を示すズレ情報を取得する。具体的には、制御部１１は、そのオフライン制御指令値で実機である自身を動作させたときのオフラインで動作したときとのズレ量を示すズレ情報を取得する（ステップＳ３）。例えば、制御部１１は、アーム２５０のある駆動部について、第１位置Ｉｂを学習モデル１７への入力用に取得し、他の駆動部についても同様に第１位置を取得する。さらに制御部１１は、アーム２５０のある駆動部に対応する駆動部１３について、オフライン制御指令値で駆動部１３を制御したときの第２位置を、センサ群１４により取得し、他の駆動部１３についても同様に第２位置を取得する。

【0041】

また、ステップＳ３において、制御部１１は、センサ群１４により、オフライン制御指令値で駆動部１３を制御したときの、各関節機構に対応する各駆動部１３の角度、速度、加速度、トルクを検出し、それらの検出結果である関節情報を取得する。

【0042】

第２生成ステップは、オフライン制御指令値とズレ情報と特性情報と含むデータを入力データとして、第１位置と第２位置とのズレ量が最小になるように深層強化機械学習を実行する。この学習により、アーム１５０を実際にオンラインで制御する学習制御指令値が生成される。具体的には、制御部１１は、センサ群１４により各回動軸のモータのモータ特性、ギヤのバックラッシ、アーム１５０の各アーム部材の剛性を示す特性情報を取得する（ステップＳ４）。特性情報と関節情報とは同時に取得してもよい。次いで、制御部１１は、取得した全てのデータを深層強化学習モデルである学習モデル１７へ入力し、機械学習を実行する（ステップＳ５）。この機械学習により、ズレ量とその原因が学習され、ズレ量が最小となる学習制御指令値が生成される。

【0043】

第２取得ステップは、第１位置と第３位置とのズレ量を示す更新ズレ情報を取得する。具体的には、制御部１１は、ステップＳ５で生成された学習制御指令値に基づきアーム１５０を含むロボット１０を制御し（ステップＳ６）、その制御でロボット１０が動作したときについて、オフラインとのズレ量を示す更新ズレ情報と各関節情報とを取得する（ステップＳ７）。例えば、制御部１１は、更新ズレ情報として第３位置Ｉｄを学習モデル１７への入力用に取得する。なお、制御部１１は、さらに、アーム１５０のある駆動部１３について、学習制御指令値Ｉｃを学習モデル１７への入力用に記憶部１６に保持し、他の駆動部１３についても同様に学習制御指令値を保持しておいてもよい。各関節情報は、ステップＳ３と同様に取得される。

【0044】

更新ステップは、更新ズレ情報を入力データの一部として入力し、第１位置と第３位置とのズレ量が最小になるように深層強化機械学習を実行することで、学習制御指令値を更新する。具体的には、制御部１１は、ステップＳ７で取得した更新ズレ情報や各関節情報を含む全てのデータを学習モデル１７へ入力し再学習を実行する（ステップＳ８）。再学習の対象となる全てのデータとは、既にステップＳ５で入力されたデータも含めてもよい。この機械学習により、ズレ量とその原因が再度学習され、更新ズレ量が最小となる、更新された学習制御指令値Ｏａが生成される。そして、制御部１１は、対象となるワークＷについての最適な把持点及び現在のピッキング機構１５１の位置に対応するステップＳ８で生成された更新後の学習制御指令値Ｏａをオンライン制御指令値として使用して、アーム１５０を含むロボット１０を制御して動作させ（ステップＳ９）、処理を終了する。

【0045】

以上、本実施の形態によれば、ロボット１０において、オフラインティーチでの結果と実機での結果のズレを抑制すること、即ちアーム１５０を精確に制御することができ、これにより、ロボット１０の設置位置での人による調整作業を減らすことができる。さらに、本実施の形態によれば、駆動部１３の駆動制御が、更新後の学習制御指令値を用いたデータに基づく駆動制御であるため、ルールベースの駆動制御のようにズレ量に対する動的な補正制御を行う必要がないため、ロボット１０の制御負荷を低減させることができる。

【0046】

また、上述のようなロボット制御方法でロボット１０を制御し、ワークＷをピッキングするピッキング方法を採用することで、即ち上述のようなロボット１０でワークＷをピッキングすることで、経年劣化等が存在した場合でも精確にワークＷをピッキングできる。

【0047】

比較例として、オフラインティーチングを利用せずに、オンラインティーチングのみで対応することも想定される。しかし、この比較例では、実際にロボット１０のような実機が完成し、且つ対象となるワークＷ、各ワークＷとの配置関係を含めその実機の使用環境が整ってからしか、ティーチングできない。よって、この比較例では、使用環境が変わる度にオンラインでのティーチ作業が必要であり、リードタイムが長くなり、工数もかかるため、コストが嵩む。また、比較例の技術では、経年劣化などロボットのハードウェアの状態が変わる度に、例えば各軸のモータ特性や、ギヤのバックラッシ、アーム剛性などの特性情報が変わる度に、オンラインでのティーチ作業が必要である。これに対し、本実施の形態では、これらの比較例のような問題を解消することができる。

【0048】

なお、本発明は上記実施形態に限られたものではなく、趣旨を逸脱しない範囲で適宜変更することが可能である。
例えば、各回動軸のアクチュエータやギヤのバックラッシによる影響が少なく、アーム１５０を構成する各アーム部材の剛性が主なズレの原因である場合には、次のような処理を行うとよい。つまり、学習モデル１７に入力される特性情報は、例えば、アーム１５０の剛性を示す情報を含み、モータ特性やギヤのバックラッシを示す情報を含めなくてもよい。この場合、機械学習により、ズレ量の原因として、各アーム部材の剛性が学習されることになり、ズレ量が最小になるように、各アーム部材の剛性を考慮した更新学習制御指令値が生成されることになる。一方で、アーム１５０を構成する各アーム部材が高剛性であるものの、モータやギヤが廉価でモータ特性やギヤのバックラッシのバラつきが大きい場合には、次のような処理を行うとよい。つまり、学習モデル１７に入力される特性情報は、例えば、モータ特性やギヤのバックラッシを示す情報を含み、アーム１５０の剛性を示す情報を含めなくてもよい。この場合、機械学習により、ズレ量の原因として、モータ特性とギヤのバックラッシが学習されることになり、ズレ量が最小になるように、モータ属性及びギヤのバックラッシを考慮した更新学習制御指令値が生成されることになる。

【0049】

また、再学習は、一度きりに限らない。図５及び図６はいずれも、図１に示す本システム１における他の処理例を説明するためのフロー図である。図５に示すように、制御部１１は、ステップＳ９の処理後、所定期間又は所定回数、アーム１５０を動作させたか否かを判定し（ステップＳ１０）、ＹＥＳとなった段階でステップＳ４へ戻り、現在の特性情報等に基づく再学習を行う。これにより、所定期間又は所定回数動作がなされる度に、学習制御指令値を更新できる。また、図６に示すように、制御部１１は、ステップＳ９の処理後、ピッキングミスが発生したか否かを判定し（ステップＳ１１）、ＹＥＳとなった段階でステップＳ４へ戻り、現在の特性情報等に基づく再学習を行う。これにより、ピッキングミスが発生した段階で、学習制御指令値を更新できる。ピッキングミスの発生は、カメラ等のセンサにより、ワークＷをピッキングできなかったことを検出すること、あるいはピッキング目的外のワークＷにピッキング機構１５１が接触してしまったことを検出することができる。また、ステップＳ１０，Ｓ１１の双方の判定を組み込み、いずれかの事象が発生した段階でステップＳ４へ戻るようにしてもよい。

【符号の説明】

【0050】

１ロボット制御システム、１０ピッキングロボット、１１、２１制御部、１２駆動制御部、１３駆動部、１４センサ群、１５、２２入力部、１６、２４記憶部、１７学習モデル、２３出力部、２５シミュレーションプログラム

【図1】

【図2】

【図3】

【図4】

【図5】

【図6】

知財求人

知財求人お知らせサービス

知財のニュースを調べる
- 知財ニュース
- 知財周辺ニュース
企業の特許を調べる
知財のセミナーを調べる
知財,特許事務所への求職・転職
特許事務所をさがす
弁理士試験を受ける
- 年の弁理士試験情報
- 弁理士試験の合格率など統計
知財の法律をしらべる
期限日をしらべる
- 今日に対して意見書・補正書の期限
- 今日に対して審査請求期限日
知財の判決をしらべる
コンテンツ・リンク
運営会社
プレスの皆様へ
- お問い合わせ
ユーザーの皆様
- お問い合わせ・フィードバック
広告掲載を希望の皆様へ
- 広告掲載について
- 求人広告の掲載について

IP Force 特許公報掲載プロジェクト 2022.1.31 β版