特開2022-187984 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ ファナック株式会社の特許一覧

特開2022-187984モジュール化ニューラルネットワークを用いた把持学習

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11
12

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2022187984

(43)【公開日】2022-12-20

(54)【発明の名称】モジュール化ニューラルネットワークを用いた把持学習

(51)【国際特許分類】

B25J 13/00 20060101AFI20221213BHJP

【ＦＩ】

B25J13/00 Z

【審査請求】未請求

【請求項の数】37

【出願形態】ＯＬ

【外国語出願】

(21)【出願番号】P 2022073175

(22)【出願日】2022-04-27

(31)【優先権主張番号】17/342,069

(32)【優先日】2021-06-08

(33)【優先権主張国・地域又は機関】US

(71)【出願人】

【識別番号】390008235

【氏名又は名称】ファナック株式会社

(74)【代理人】

【識別番号】100099759

【弁理士】

【氏名又は名称】青木篤

(74)【代理人】

【識別番号】100123582

【弁理士】

【氏名又は名称】三橋真二

(74)【代理人】

【識別番号】100112357

【弁理士】

【氏名又は名称】廣瀬繁樹

(72)【発明者】

【氏名】ファンヨンシアン

【テーマコード（参考）】

3C707

【Ｆターム（参考）】

3C707AS04

3C707KS03

3C707KS04

3C707KS21

3C707KT03

3C707KT06

3C707KX10

3C707LS15

3C707LS20

3C707LV07

3C707LV14

3C707LW12

3C707LW15

3C707MT08

3C707NS02

(57)【要約】

【課題】高次元のニューラルネットワークを低入力次元のニューラルネットワークにモジュール化する方法の提供。
【解決手段】方法は、取り出すべき部品の画像に基づく、完全自由度のロボット把持動作の生成に適している。一例では、第１及び第２のネットワークはそれぞれ、把持位置次元及び回転次元を符号化する。第１のネットワークは、把持回転の任意の値に対して把持品質が最大になる位置を予測するように訓練される。第２のネットワークは、第１のネットワークからの位置でのみ探索しながら、最大の把持品質を特定するように訓練される。故に２つのネットワークが集合的に最適な把持を特定する一方で、各ネットワークの探索空間は削減される。多くの把持の位置及び回転は、積ではなく、評価された位置及び回転の和の探索量で評価可能である。一部の用途では、３つのニューラルネットワークを含め、任意の適切な方法で次元を分離できる。
【選択図】図１

【特許請求の範囲】

【請求項1】

ロボットの把持計算方法であって、
所望のロボットの把持自由度の組を、２つの相互に排他的な、グループ化された次元の組に分割するステップと、
プロセッサ及びメモリを備えたコンピュータ上で実行される、直列に連結された２つのニューラルネットワークを提供するステップであって、第１のニューラルネットワークは、グループ化された次元の第１の組をエンコードし、前記第１のニューラルネットワークの後に直列に配置された第２のニューラルネットワークは、前記第１の組及びグループ化された次元の第２の組の双方をエンコードする、ステップと、
教師あり学習を使用して前記ニューラルネットワークを個別に訓練するステップであって、前記第１のニューラルネットワークは、グループ化された前記第１の組の目標値を特定するために、最大マージン法を使用して訓練される、ステップと、
前記ニューラルネットワークを推定モードで実行するステップであって、対象物のパイルを表す深度画像が提供され、各ニューラルネットワークは、対応するグループ化された次元の組のみを探索して前記目標値を特定し、前記第１のニューラルネットワークからの前記目標値は、前記第２のニューラルネットワークによって入力として使用される、ステップと、
前記ニューラルネットワークの出力を組み合わせて、前記ロボットの把持自由度の値を提供するステップと、
を含む、方法。

【請求項2】

前記ロボットの把持自由度の前記値を用いて、対象物を把持するロボットを制御するステップをさらに含む、請求項１に記載の方法。

【請求項3】

前記所望のロボットの把持自由度の組は、グループ化された次元の前記第１の組のｘ及びｙの水平方向位置次元と、グループ化された次元の前記第２の組のｚの鉛直方向位置とを含む、請求項１に記載の方法。

【請求項4】

前記所望のロボットの把持自由度の組は、グループ化された次元の前記第１の組のｘ、ｙ及びｚの位置次元と、グループ化された次元の前記第２の組のグリッパ回転角、グリッパ幅又はその双方とを含む、請求項１に記載の方法。

【請求項5】

前記所望のロボットの把持自由度の組は、グループ化された次元の前記第１の組のｘ、ｙ及びｚの位置次元と、グループ化された次元の前記第２の組の３つの回転次元とを含む、請求項１に記載の方法。

【請求項6】

前記第１のニューラルネットワークの前に直列に配置された第３のニューラルネットワークをさらに含み、前記第３のニューラルネットワークは、グループ化された次元の第３の組のみをエンコードし、前記第１のニューラルネットワーク及び前記第２のニューラルネットワークの双方はグループ化された次元の前記第３の組をエンコードする、請求項１に記載の方法。

【請求項7】

前記所望のロボットの把持自由度の組は、グループ化された次元の前記第１の組のｘ、ｙ及びｚの位置次元と、グループ化された次元の前記第２の組のグリッパ回転角及びグリッパ幅と、グループ化された次元の前記第３の組の２つの把持アプローチ方向次元とを含む、請求項６に記載の方法。

【請求項8】

前記第１のニューラルネットワークは、画像データ入力を受信して画像データ出力を提供する完全畳み込みネットワークであり、前記第２のニューラルネットワークは、画像データ入力を受信してスカラーデータ出力を提供する畳み込みニューラルネットワークである、請求項１に記載の方法。

【請求項9】

前記ニューラルネットワークの訓練は、各ネットワークに複数のトレーニングサンプルを提供することを含み、各トレーニングサンプルは、対象物のパイルの訓練深度画像と、１つ以上の対応する訓練把持とを含み、各訓練把持は把持品質及び前記ロボットの把持自由度を含む、請求項１に記載の方法。

【請求項10】

前記トレーニングサンプルはデータ生成システムによって提供され、該データ生成システムは、グリッパによる複数の対象物の安定した把持を計算し、前記対象物のランダムなパイルを含む物理環境をシミュレートし、前記対象物のランダムなパイルに適用された前記安定した把持を評価し、前記対象物のランダムなパイルとそれらに対応する、成功したシミュレートされた把持との深度画像を出力する、請求項９に記載の方法。

【請求項11】

前記最大マージン法は、グループ化された次元の前記第２の組の目標値の任意の１つの組み合わせに対する把持品質の最適値を含む、グループ化された次元の前記第１の組の目標値を特定することを含む、請求項１に記載の方法。

【請求項12】

前記ニューラルネットワークを推定モードで実行するステップは、前記第１のニューラルネットワークによってグループ化された次元の前記第１の組の最大マージン目標値を前記第１のニューラルネットワークで特定することと、対象物のパイルを表す前記深度画像及びグループ化された次元の前記第１の組の前記目標値の双方を使用して、前記第２のニューラルネットワークによってグループ化された次元の前記第２の組の目標値を前記第２のニューラルネットワークで特定することと、を含む、請求項１に記載の方法。

【請求項13】

前記ニューラルネットワークの訓練及び前記ニューラルネットワークの推定モードでの実行に使用されるデータ準備手法は、深度画像のレイヤーを前記第１のニューラルネットワークに提供することと、回転されトリミングされた深度画像パッチを前記第２のニューラルネットワークに提供することとを含む、請求項１に記載の方法。

【請求項14】

ロボットの把持計算方法であって、
所望のロボットの把持自由度の組を、３つの相互に排他的な、グループ化された次元の組に分割するステップと、
プロセッサ及びメモリを備えたコンピュータ上で実行される、直列に連結された３つのニューラルネットワークを提供するステップであって、第１のニューラルネットワークは、グループ化された次元の第１の組をエンコードし、前記第１のニューラルネットワークの後に直列に配置された第２のニューラルネットワークは、前記第１の組及びグループ化された次元の第２の組の双方をエンコードし、前記第２のニューラルネットワークの後に直列に配置された第３のニューラルネットワークは、前記第１の組及び前記第２の組の双方、並びにグループ化された次元の第３の組をエンコードする、ステップと、
教師あり学習を使用して前記ニューラルネットワークを個別に訓練するステップであって、前記第１のニューラルネットワークは、グループ化された前記第１の組の目標値を特定するために最大マージン法を使用して訓練され、前記第２のニューラルネットワークは、グループ化された前記第２の組の目標値を特定するために、前記最大マージン法を使用して訓練される、ステップと、
前記ニューラルネットワークを推定モードで実行するステップであって、対象物のパイルを表す深度画像が提供され、各ニューラルネットワークは、対応するグループ化された次元の組のみを探索して前記目標値を特定し、各ニューラルネットワークからの前記目標値は、直列の下流の他のニューラルネットワークによって入力として使用される、ステップと、
前記ニューラルネットワークの出力を組み合わせて、前記ロボットの把持自由度の値を提供するステップと、
を含む、方法。

【請求項15】

前記ロボットの把持自由度の前記値を用いて、対象物を把持するロボットを制御するステップをさらに含む、請求項１４に記載の方法。

【請求項16】

前記所望のロボットの把持自由度の組は、グループ化された次元の前記第１の組の２つの把持アプローチ方向次元と、グループ化された次元の前記第２の組のｘ、ｙ及びｚの把持位置次元と、グループ化された次元の前記第３の組のグリッパ回転角及びグリッパ幅とを含む、請求項１４に記載の方法。

【請求項17】

前記把持アプローチ方向次元を前記第１のニューラルネットワークで特定することは、前記深度画像に関連する点群を、複数のランダムにサンプリングされたアプローチ方向からの合成深度画像に変換することと、前記ランダムにサンプリングされたアプローチ方向の各々の把持品質を予測することとを含む、請求項１６に記載の方法。

【請求項18】

前記把持位置次元を前記第２のニューラルネットワークで特定することは、入力として選択されたアプローチ方向に関連する合成深度画像を使用することと、前記選択されたアプローチ方向に垂直な方向に複数のスライスを切断することで前記合成深度画像内の高さをエンコードすることと、各スライスの把持品質マップを生成することと、最良の把持品質点を選択することとを含む、請求項１６に記載の方法。

【請求項19】

前記グリッパ回転角及びグリッパ幅を前記第３のニューラルネットワークで特定することは、入力として選択されたアプローチ方向及び把持位置に関連する合成深度画像を使用することと、前記把持位置周りの複数の異なるグリッパ角における前記深度画像からの複数の画像パッチをトリミングすることと、各画像パッチの把持品質を特定することと、最高の把持品質を有する画像パッチを選択することとを含む、請求項１６に記載の方法。

【請求項20】

前記所望のロボットの把持自由度の組は、グループ化された次元の前記第１の組の２つの把持アプローチ方向次元と、グループ化された次元の前記第２の組のｘ及びｙの水平方向位置次元並びにグリッパ回転角と、グループ化された次元の前記第３の組のｚの鉛直方向位置及びグリッパ幅とを含む、請求項１４に記載の方法。

【請求項21】

前記第２のニューラルネットワークは、画像データ入力を受信して画像データ出力を提供する完全畳み込みネットワークであり、前記第３のニューラルネットワークは、画像データ入力を受信してスカラーデータ出力を提供する畳み込みニューラルネットワークである、請求項１４に記載の方法。

【請求項22】

前記ニューラルネットワークの訓練は、各ニューラルネットワークに複数のトレーニングサンプルを提供することを含み、各トレーニングサンプルは、対象物のパイルの訓練深度画像と、１つ以上の対応する訓練把持とを含み、各訓練把持は把持品質及びロボットの把持自由度を含む、請求項１４に記載の方法。

【請求項23】

【請求項24】

前記最大マージン法は、グループ化された次元の前記第２の組及び前記第３の組の目標値の任意の組み合わせに対する把持品質の最適値を含む、グループ化された次元の前記第１の組の前記目標値を特定することと、グループ化された次元の前記第３の組の目標値の任意の組み合わせに対する把持品質の最適値を含む、グループ化された次元の前記第２の組の前記目標値を特定することと、を含む、請求項１４に記載の方法。

【請求項25】

前記ニューラルネットワークを推定モードで実行するステップは、グループ化された次元の前記第１の組の最大マージン目標値を前記第１のニューラルネットワークで特定することと、対象物のパイルを表す前記深度画像及びグループ化された次元の前記第１の組の前記目標値の双方を使用して、グループ化された次元の前記第２の組の目標値を前記第２のニューラルネットワークで特定することと、グループ化された次元の前記第２の組の最大マージン目標値を前記第２のニューラルネットワークで特定することと、対象物のパイルを表す前記深度画像並びにグループ化された次元の前記第１の組及び前記第２の組の前記目標値の双方を使用して、グループ化された次元の前記第３の組の目標値を前記第３のニューラルネットワークで特定することと、を含む、請求項１４に記載の方法。

【請求項26】

ロボットで対象物を把持するためのシステムであって、
実際のロボット操作中に物品のパイルの深度画像を提供する１つ以上の３次元カメラと、
プロセッサ及びメモリを有するコンピュータと、を備え、前記コンピュータは、
所望のロボットの把持自由度の組を、２つの相互に排他的な、グループ化された次元の組に分割し、
直列に連結された２つのニューラルネットワークを、第１のニューラルネットワークがグループ化された次元の第１の組をエンコードするように、かつ前記第１のニューラルネットワークの後に直列に配置された第２のニューラルネットワークが前記第１の組及びグループ化された次元の第２の組の双方をエンコードするように実行し、
前記第１のニューラルネットワークが、グループ化された前記第１の組の目標値を特定するために最大マージン法を使用して訓練されるように、教師あり学習を使用して前記ニューラルネットワークを個別に訓練し、
各ニューラルネットワークが対応するグループ化された次元の組のみを探索して該組の目標値を特定し、前記第１のニューラルネットワークからの前記目標値が前記第２のニューラルネットワークによって入力として使用されるように、前記１つ以上の３次元カメラからの深度画像を用いて前記ニューラルネットワークを推定モードで実行し、
前記ニューラルネットワークの出力を組み合わせて、前記ロボットの把持自由度の値を提供するように構成され、
前記システムは、
前記コンピュータと通信可能であり、該コンピュータから前記ロボットの把持自由度を受信するロボット制御装置と、
前記ロボット制御装置からの指令に基づいて目標対象物を把持して移動するグリッパを備えたロボットと、
を備える、システム。

【請求項27】

前記所望のロボットの把持自由度の組は、グループ化された次元の前記第１の組のｘ及びｙの水平方向位置次元と、グループ化された次元の前記第２の組のｚの鉛直方向位置とを含む、請求項２６に記載のシステム。

【請求項28】

前記所望のロボットの把持自由度の組は、グループ化された次元の前記第１の組のｘ、ｙ及びｚの位置次元と、グループ化された次元の前記第２の組のグリッパ回転角、グリッパ幅又はその双方とを含む、請求項２６に記載のシステム。

【請求項29】

前記所望のロボットの把持自由度の組は、グループ化された次元の前記第１の組のｘ、ｙ及びｚの位置次元と、グループ化された次元の前記第２の組の３つの回転次元とを含む、請求項２６に記載のシステム。

【請求項30】

【請求項31】

前記所望のロボットの把持自由度の組は、グループ化された次元の前記第１の組のｘ、ｙ及びｚの位置次元と、グループ化された次元の前記第２の組のグリッパ回転角及びグリッパ幅と、グループ化された次元の前記第３の組の２つの把持アプローチ方向次元とを含む、請求項３０に記載のシステム。

【請求項32】

前記第１のニューラルネットワークは、画像データ入力を受信して画像データ出力を提供する完全畳み込みネットワークであり、前記第２のニューラルネットワークは、画像データ入力を受信してスカラーデータ出力を提供する畳み込みニューラルネットワークである、請求項２６に記載のシステム。

【請求項33】

前記ニューラルネットワークの訓練は、各ネットワークに複数のトレーニングサンプルを提供することを含み、各トレーニングサンプルは、対象物のパイルの訓練深度画像と、１つ以上の対応する訓練把持とを含み、各訓練把持は把持品質及び前記ロボットの把持自由度を含む、請求項２６に記載のシステム。

【請求項34】

【請求項35】

前記最大マージン法は、グループ化された次元の前記第２の組の目標値の任意の１つの組み合わせに対する把持品質の最適値を含む、グループ化された次元の前記第１の組の目標値を特定することを含む、請求項２６に記載のシステム。

【請求項36】

【請求項37】

前記ニューラルネットワークの訓練及び前記ニューラルネットワークの推定モードでの実行に使用されるデータ準備手法は、深度画像のレイヤーを前記第１のニューラルネットワークに提供することと、回転されトリミングされた深度画像パッチを前記第２のニューラルネットワークに提供することとを含む、請求項２６に記載のシステム。

【発明の詳細な説明】

【技術分野】

【0001】

本開示は、広くは、高次元ニューラルネットワークを、より低い入力次元の２つ以上のニューラルネットワークに分離する方法に関し、特には、把持の自由度（ＤＯＦ）を複数のグループに分解するモジュール化ニューラルネットワークを用いたロボット把持学習技術に関し、グループ分けされた自由度の組の各々は、特別に設計されたデータを使用するニューラルネットワークによって個別に探索され、単一の大規模なニューラルネットワークよりもはるかに効率的に完全な自由度の把持計算を提供する。

【背景技術】

【0002】

産業用ロボットを使用して、製造、組み立て、及び材料移動の操作を幅広く実行することはよく知られている。そのようなアプリケーションの１つは、ロボットがビンから個々の部品を取り出し、各部品をコンベヤ又は輸送コンテナに配置する等のピックアンドプレース操作である。このアプリケーションの例では、成形又は機械加工された部品がビン内に落とされてランダムな位置及び向きに配置され、ロボットが、各部品をピックアップして予め定義された向き（ポーズ）でコンベヤ上に配置し、該コンベヤは梱包又はさらなる処理のために部品を搬送する。ビン内の部品の種類や他の要因によって、フィンガータイプのグラスパ又はサクションタイプのグリッパをロボットツールとして使用することができる。ビジョンシステム（１つ以上のカメラ）は、典型的には、ビン内の個々の部品の位置及び向きを識別するために使用される。

【発明の概要】

【発明が解決しようとする課題】

【0003】

訓練されたニューラルネットワークシステムを使用して、ビン内の部品の把持命令を計算することは当技術分野で周知である。しかし、既存のニューラルネットワーク把持学習システムは、それらの実際の使用を制限する欠点を抱えている。既知のシステムの１つは、トップダウンの把持候補を画像パッチ内にエンコードし、ネットワークを訓練して、複数の把持候補の品質を予測する。このシステムは、把持候補の計算に長時間を要し、平行顎グリッパのトップダウン（垂直）把持しか生成できない。さらに、このシステムは、ビン内の部品のランダムな寄せ集めではなく、個々の分離された部品／対象物でのみ訓練されるため、雑然とした環境での部品間の干渉の影響を予測することはできない。

【0004】

別の周知のシステムは、元の深度画像を取得して各ピクセルの質を出力するようにネットワークを訓練することにより、時間のかかる把持候補計算の要件を除去する。しかしこのシステムは、各画像に含まれるピクセル数が多いため、各ピクセルを正確に予測することはできない。故にこのシステムは、上述のシステムほど正確ではない。さらに、このシステムは、グリッパの角度／幅のエンコードが曖昧であるため、ビン内の部品に典型的な、密集し雑然とした環境を扱うことができない。さらにこのシステムは、ストレートなトップダウンの把持ソリューションしか生成できない。最後に、このシステムは、深さを予測することなく、ロボットのグリッパをビン内の隣接する部品間に押し込み、グリッパ又は部品に損傷を与える可能性がある。

【0005】

さらに別の既存のシステムは、単一のネットワークで６自由度の把持を決定することを企図している。しかしこのシステムは、把持評価ネットワークでの乱雑な把持環境（部品のパイル等）を扱うことができず、ニューラルネットワークでの把持評価の後に、把持改良ステップを必要とする。

【0006】

上記の状況に照らして、高次元の学習ニューラルネットワークを２つ以上の低次元のネットワークに分解する方法が望まれ、この方法は十分な自由度の把持計画やその他の用途に適用可能である。

【課題を解決するための手段】

【0007】

本開示の教示に従って、高次元のニューラルネットワークを、２つ以上の低入力次元のニューラルネットワークに分離又はモジュール化する方法が、説明され図示される。開示されるネットワークモジュール化方法は、ビン内の取り出すべき部品の画像に基づく完全自由度（full-DOF）のロボット把持動作の生成に特に適している。一例では、第１のネットワークが把持位置次元をエンコードし、第２のネットワークが把持回転次元をエンコードする。第１のネットワークは、把持回転の任意の値に対して把持品質が最大となる位置を予測するために訓練される。第２のネットワークは、第１のネットワークから予め特定された位置のみでの探索をしつつ、最大把持品質を特定するために訓練される。このようにして、２つのネットワークは最適把持を共同して特定する一方で、各ネットワークの次元探索空間は著しく減少する。特に、多数の把持位置及び把持回転は、評価された位置及び回転の積ではなく、それらの和に等しい探索の総数で評価できる。ネットワーク間の次元の分離は、特定の用途に最適になるように設計可能であり、いくつかの用途では、２つではなく３つのニューラルネットワークを含む。

【0008】

開示された装置及び方法の追加の特徴は、添付の図面と併せて、以下の説明及び特許請求の範囲から明らかになるであろう。

【図面の簡単な説明】

【0009】

【図1】本開示の実施形態に係る、分離されたニューラルネットワークを用いて完全自由度の把持を計算するロボットの部品取り出しシステムのブロック図である。

【0010】

【図2】単一の大規模ニューラルネットワークを使用して高自由度のロボット作業を計算する従来技術と、分断されたニューラルネットワークに自由度が分離される本開示の技術とを対比する図である。

【0011】

【図3】本開示の実施形態に係る、最大マージンネットワークモジュール化アプローチを使用して探索次元を分離し、さらに初期の探索空間から最大条件を見出す方法を示す多次元探索空間の図である。

【0012】

【図4】本開示の実施形態に係る、ニューラルネットワークのモジュール化技術のトレーニングフェーズのステップを示すブロック図である。

【0013】

【図5】本開示の実施形態に係る、３Ｄ深度画像データがどのように深度層のセットに処理され、図４のトレーニングフェーズで提供されるかを示すグラフである。

【0014】

【図6】本開示の実施形態に係る、図５の特定の深度層の深度画像層であって、図４のトレーニングフェーズで提供される深度画像層の図である。

【0015】

【図7】本開示の実施形態に係る、ニューラルネットワークモジュール化技術の推定フェーズにおけるステップのブロック図である。

【0016】

【図8】本開示の実施形態に係る、３自由度の把持探索問題に適用されるニューラルネットワークモジュール化技術のブロック図である。

【0017】

【図9】本開示の実施形態に係る、２つのニューラルネットワークを使用した、５自由度の把持探索問題に適用されるニューラルネットワークモジュール化技術のブロック図である。

【0018】

【図10】本開示の実施形態に係る、個々の対象物の把持最適化とクラスター化された対象物の変動及び干渉シミュレーションとの組み合わせを使用して、図９に示すタイプのモジュール化された把持学習ネットワークを訓練するための方法の図である。

【0019】

【図11】本開示の実施形態に係る、３つのニューラルネットワークを使用した、７自由度の把持探索問題に適用されるニューラルネットワークモジュール化技術のブロック図である。

【0020】

【図12】本開示の実施形態に係る、高次元のロボット作業を、直列に接続された２つ以上の低次元のニューラルネットワークにモジュール化する方法のフローチャート図である。

【発明を実施するための形態】

【0021】

モジュール化されたニューラルネットワークを用いたロボット把持学習を対象とした本開示の実施形態の以下の説明は、本質的に単なる例示であり、開示された装置及び技術、又はそれらのアプリケーション若しくは使用を制限することを意図するものではない。

【0022】

ソースから部品を取り出して搬送先に配置するために、産業用ロボットを使用することは周知である。ある一般的用途では、部品は、鋳造又は成形されたばかりの部品で満たされたビン等のビン内に供給される。部品で満たされたビン内の個々の部品を、リアルタイムで認識して把持するようにロボットを教示することは、常に困難であった。従来の方法では、構造的環境内でロボットに手動で教示する。非構造的環境での高次元タスクの場合、パターン認識用に訓練されたニューラルネットワークを使用した深層学習により、堅牢な把持スキルを習得することが望まれる。

【0023】

しかし、高次元のロボットタスクを学習するには、学習ベースの方法では通常、高次元の状態／動作をエンコードし、高次元の動作空間で探索する必要がある。例えば、６自由度（ＤＯＦ）の一般的なビンピッキングタスクを学習するには、ニューラルネットワークは、動作空間で探索する前に、高次元の観測及び６自由度の把持動作をエンコードする必要がある。このことは、ネットワークを複雑にし、計算負荷を重くする場合がある。

【0024】

高次元学習の課題に関して、２つの周知の既存の方法は、探索を４次元に減らし、トップダウン方式で把持のアプローチ方向を制限する。また、これらの学習ベースの方法は、（時間のかかる把持候補計算の要件のために）十分に高速ではないか、（ニューラルネットワークでは困難な、あまりにも多くの次元を予測しようとするために）十分に正確ではない。さらに別の既存の方法は、６自由度の把持提案に単一のニューラルネットワークを使用するが、この方法は探索の複雑さが高く、その後の把持の改良が必要であり、ビン内の部品に典型的な雑然とした対象物環境を処理できない。

【0025】

既存の方法及びシステムの欠点を克服するために、本開示は、大規模な高次元ニューラルネットワークを、２つ又は３つの低次元の小さなネットワークにモジュール化又はデカップリングするための技術を説明する。このニューラルネットワークのモジュール化手法を使用すると、ネットワークのパフォーマンス及び効率を大幅に向上させつつ、探索の精度を維持できる。開示されたニューラルネットワークモジュール化技術の１つの用途は、ロボットによる部品把持であり、ここでは把持のすべての自由度（ＤＯＦ）が、部品で満たされたビンの画像から計算され、計算された把持は品質閾値を超える。

【0026】

図１は、本開示の一実施形態に係る、完全な自由度（ｆｕｌｌ－ＤＯＦ）の把持を計算するために、分離されたニューラルネットワークを使用するロボット部品ピッキングシステムのブロック図である。図１に示すシステムは、開示されたニューラルネットワークのモジュール化技術を使用可能な例示的アプリケーションを説明するために提供される。グリッパ１０２を有するロボット１００は、ワークスペース内で動作し、ロボット１００は部品又は対象物体を第１の場所（ビン）から第２の場所（コンベヤ）に移動させる。

【0027】

ロボット１００の動作はコントローラ１１０によって制御され、コントローラ１１０は通常、ケーブル１１２を介してロボット１００と通信する。コントローラ１１０は、ロボット１００に関節動作指令を提供し、当技術分野で周知のように、ロボット１００の関節のエンコーダから関節位置データを受信する。またコントローラ１１０は、グリッパの回転角度及び幅を含む、グリッパ１０２の動作を制御するための指令、及び把持（ｇｒｉｐ）／解放（ｕｎｇｒｉｐ）指令を提供する。

【0028】

コンピュータ１２０は、コントローラ１１０と通信している。コンピュータ１２０は、３次元（３Ｄ）カメラ画像に基づいて把持提案を計算するためのニューラルネットワークで構成されたプロセッサ及びメモリ／ストレージを含む。一実施形態では、実行モード又は推定モードでニューラルネットワークを実行しているコンピュータ１２０は、ニューラルネットワークを以前に訓練したのと同じコンピュータである。別の実施形態では、ニューラルネットワークは、異なるコンピュータ上で訓練され、ライブのロボット把持操作で使用するためにコンピュータ１２０に提供される。

【0029】

一対の３Ｄカメラ１３０及び１３２は、有線接続又は無線でコンピュータ１２０と通信し、作業空間の画像を提供する。特に、カメラ１３０／１３２は、ビン１５０内の物体１４０の画像を提供する。カメラ１３０／１３２からの画像（深度データを含む）は、ビン１５０内の物体１４０の位置及び姿勢を定義する点群データを提供する。異なる視点を有する２つの３Ｄカメラ１３０及び１３２がある場合、任意の適切な視点から、ビン１５０内の物体１４０の３Ｄ深度マップを計算又は投影することが可能である。別の実施形態では、３Ｄカメラのうちの１つ（１３０）のみが使用され、例えば、直接垂直な視線に向けられる。

【0030】

ロボット１００に対するビン１５０の位置は既知であるため、ビン１５０内の場所で物体１４０の把持が計算されるとき、ロボット１００は把持を実行するためにグリッパ１０２を制御することができる。ロボット１００のタスクは、ビン１５０から物体１４０の１つを拾い上げ、その物体をコンベヤ１６０に移動することである。図示例では、ロボット１００のグリッパ１０２によって把持された個々の部品１４２が選択され、経路１８０に沿ってコンベヤ１６０に移動させられる。

【0031】

各部品のピッキング操作について、コンピュータ１２０は、カメラ１３０／１３２から、ビン１５０内の物体１４０の１つ以上の画像を受信する。コンピュータ１２０は、カメラ画像から、ビン１５０内の物体１４０のパイルの１つ以上の深度マップを計算する。コンピュータ１２０上で実行されるニューラルネットワークは、深度マップを使用して、ビン１５０内の個々の物体について高品質の完全自由度の把持を決定する。例えば、物体のパイルの頂部の物体は、その側面のかなりの部分が露出しており、周囲に物体がないので、良好な把持候補となるであろう。

【0032】

以下に詳述する技術に従って物体（物体１４２等）が高品質把持のための位置にあると識別されると、コンピュータ１２０は、個々の物体把持データをコントローラ１１０に提供し、次にコントローラ１１０は、ロボット１００に対して物体を把持して動かすように指令する。コンピュータ１２０によってコントローラ１１０に提供される個々の物体把持データは、好ましくは、把持目標点の３Ｄ座標、グリッパ１０２が従うべきアプローチ角度、並びにグリッパの回転角及び幅（又は全ての指の位置）を含む。

【0033】

コントローラ１１０は、個々の物体把持データを使用して、識別された物体（例えば、物体１４２）をグリッパ１０２に把持させ、衝突のない経路（経路１８０）に沿って目的の場所に物体を移動させるロボット動作指令を計算することができる。コンベヤ１６０の代わりに、目的地は、物体が個々のコンパートメントに配置される輸送コンテナ、又は物体が後続の操作でさらに処理される他の表面若しくは装置であってもよい。

【0034】

物体１４２がコンベヤ１６０に移動された後は、物体１４０のパイルが変化するので、新しい画像データがカメラ１３０／１３２によって提供される。次にコンピュータ１２０は、訓練されたニューラルネットワークを使用して、新しい画像データに基づいて、把持する新しい目標物体を識別しなければならない。ロボット１００が物体１４０の１つを動かして次の物体を拾い上げることができるのと同じ速さで物体の識別及び経路計算をリアルタイムで実行する必要があるので、新しい目標物体はコンピュータ１２０によって非常に迅速に識別されなければならない。低次元のモジュール化されたニューラルネットワークによって提供される効率的な探索により、この把持アプリケーションで必要とされる高速把持計算が可能になる。

【0035】

図１のシステムにおける上述のアプリケーションは、好ましくは、コンピュータ１２０からの７自由度（ＤＯＦ）の把持提案を使用する。一実施形態では、７自由度は、アプローチ方向のための２自由度（ロボットグリッパの下向きｚ方向ユニットと組み合わされたｘ及びｙ成分）と、把持位置（ｘ／ｙ／ｚ座標）のための３自由度と、グリッパの回転／スピン角度及びグリッパ幅のための２以上の自由度とを含む。部品で満たされたビンの画像に基づく７自由度の把持提案を提供するために、コンピュータ１２０は、開示されたニューラルネットワークモジュール化技術を有利に使用して、把持探索次元を２つ又は３つのネットワークに分離することができる。開示されたニューラルネットワークのモジュール化の一般的な概念を以下に説明し、続いてロボット把持アプリケーションに適用されるネットワークのモジュール化の例を説明する。

【0036】

図２は、単一の大規模ニューラルネットワークを使用して高自由度ロボットタスクを計算するための従来技術と、自由度が分離されたニューラルネットワークに分離される本開示の技術とを対比する図である。図２以降のいくつかの図では、ニューラルネットワークによって評価される次元の概念は、位置次元ｐ及び回転次元ｒについて説明される。例えば、グリッパの幅を無視すると、ロボットのグリッパの位置及び姿勢は、３つの位置自由度（ｘ／ｙ／ｚ）（ｐ）と、３つの回転自由度（ヨー／ピッチ／ロール、又は、アプローチ方向を記述する２つの角度プラス回転角、又はオイラー角若しくは他の適切な角度）（ｒ）とによって完全に記述可能である。

【0037】

図２のボックス２１０には、ニューラルネットワークを使用して把持を計算するための従来のアプローチが示される。単一のニューラルネットワーク２２０は、３つの位置次元ｐ及び３つの回転次元ｒを含む６自由度の全てをエンコードするために使用される。一例では、ニューラルネットワーク２２０は、手動で識別された単一の物体の品質把持の候補とともに、物体のパイルの深度画像を使用して訓練される。実行フェーズ（展開フェーズ又は推定フェーズとも呼ばれ、訓練されたニューラルネットワークを使用してライブのロボット操作での把持を決定する）では、ライン２３０での入力は、グリッパの位置及び回転｛ｐ，ｒ｝の双方を含む、完全自由度の把持の品質を推測するのに十分な環境データを含む深度画像である。ライン２３２での出力は、提案された最適なグリッパの位置及び回転（ｐ^＊，ｒ^＊）の双方を含む、提案された個々の物体の品質把持の次元である。

【0038】

ボックス２１０内のニューラルネットワーク２２０は、把持｛ｐ，ｒ｝に関連する入力環境データによって定義されるグリッパのポーズの６つの次元をエンコードし、実行フェーズで、深度画像を探索して６次元全ての最適条件（ｐ^＊，ｒ^＊）を特定しようとする。この多くの次元をエンコードして探索するニューラルネットワークは非常に複雑（多くのレイヤー）になり、その結果、訓練及び探索が非常に遅くなり、探索結果が不正確又は曖昧になり得る。

【0039】

図２のボックス２５０には、ニューラルネットワークを使用して把持を計算するための新しいアプローチが示される。上述の従来のアプローチのように単一のニューラルネットワークを使用して多事の全ての次元を計算するのではなく、２つのニューラルネットワーク（２６０及び２７０）が使用される。第１のニューラルネットワーク２６０では、ライン２５２における入力環境データを使用して、第１のニューラルネットワーク２６０が最適な把持（最大把持品質メトリック）をもたらす位置次元値ｐ^＊を３つの回転次元ｒの全ての値にわたって探索できるように、３つの位置次元ｐがエンコードされる。第２のニューラルネットワーク２７０では、ライン２５２からの元の入力データに加えてライン２６２の最適な位置次元値ｐ^＊を使用して、全ての位置及び回転の次元｛ｐ，ｒ｝がエンコードされる。しかし実行フェーズでは、ネットワーク２７０は、最適な把持をもたらす位置値ｐ^＊を備えるので、第２のニューラルネットワーク２７０は回転次元ｒを探索するだけでよい。ライン２７２における出力は、提案された最適なグリッパの位置及び回転（ｐ^＊，ｒ^＊）の双方を含む、個々の物体の提案された品質把持の次元である。

【0040】

【0041】

図３は、本開示の一実施形態に係る、最大マージンネットワークモジュール化アプローチを使用して探索次元を分離し、元の探索空間から最大条件を見出す方法を示す多次元探索空間の図である。次元ｐ及びｒにわたる結合探索空間は、グリッド３１０によって表される。グリッド３１０は、探索空間を視覚的に表し、列はｐの値（ｐ_０，ｐ_１，…，ｐ_ｉ）を示し、行はｒの値（ｒ_０，ｒ_１，…，ｒ_ｊ）を示す。グリッド３１０の各セル内のドットのサイズは、ｐ及びｒのその特定の組み合わせに対する把持品質Ｑ（ｒ，ｐ）の値を表す。ドットが大きいほど、把持品質が高いことを示す。

【0042】

前に説明したように、ｐ及びｒが把持（グリッパポーズ）の位置及び回転の次元を表す場合、ｐ及びｒの各々が３つの次元又は自由度を含む。従って、最適な把持候補を見出すためには、ｐ及びｒの多くの異なる値を探索する必要があることは容易に想像できる。つまり、ｉ及びｊの値は少なくとも数百になる可能性がある。例えば、ｐのｘ、ｙ及びｚ寸法がそれぞれ１０のインクリメントに分割されている場合、ｐの次元サイズは１０×１０×１０＝１０００になる。グリッド３１０の探索が単一のニューラルネットワーク（図２のネットワーク２２０等）によって実行される場合、その探索は、ｉ・ｊ回（ｉにｊを乗算したもの）実行されねばならない。これにより探索スペースが非常に大きくなり、その結果、ニューラルネットワークが非常に複雑で低速になる。グリッド３１０の探索が２つの低次元ニューラルネットワーク（図２のネットワーク２６０及び２７０等）によって実行される場合、その探索はｉ＋ｊ回実行する必要があるが、その数ははるかに小さい。これにより、以下に詳述するように、非常に簡単で高速なニューラルネットワークソリューションが実現する。

【0043】

また上述したように、本開示は、１つの大きくて高次元のニューラルネットワークを２つ（又はそれ以上）のより単純なニューラルネットワークに分離（モジュール化）するための技術を規定する。１つの大きなニューラルネットワークを２つのより単純なニューラルネットワークに分離するための鍵は、第１のニューラルネットワークをエンコードして、対応するｒの値のうちの１つにおいて、全体で最大の把持品質をもたらす値ｐ^＊を見出すことであり、これにより第２のニューラルネットワークは、ｐの最適な位置でｒ次元を探索することができる。以下は、この手法の説明である。

【0044】

【0045】

ボックス３２０内の第２のニューラルネットワーク（３４０で表示）がｐ^＊＝ｐ_ｉにおいてｒの全ての値を探索してＱの最大値を特定すると、ｐの他の全ての値は隠される。故に第２のニューラルネットワークは、ｒ_０で発生するｐ^＊＝ｐ_ｉの最大把持品質を見出す。グリッド３１０の目視検査は、（ｒ_０，ｐ_ｉ）での把持品質が全体的な最大把持品質ではないことを明らかにしている。従って、ボックス３２０に示される通常のマージン手法は、ニューラルネットワークのモジュール化で使用されたときに最大値を確実に見出すことはできない。

【0046】

【0047】

ボックス３５０内の第２のニューラルネットワーク（３７０で表示）がｐ^＊＝ｐ_０においてｒの全ての値を探索してＱの最大値を特定すると、ｐの他の全ての値は隠される。故に第２のニューラルネットワークは、ｒ_ｊで発生するｐ^＊＝ｐ_０の最大把持品質を見出す。グリッド３１０の目視検査は、（ｒ_ｊ，ｐ_０）での把持品質が実際に全体的な最大把持品質であることを明らかにしている。従って、ボックス３５０に示される最大マージン法は、ニューラルネットワークのモジュール化で使用されたときに最大値をもたらす１次元（ｐ^＊）の目標値を見出すことができる。

【0048】

ボックス３５０内の第２のニューラルネットワーク３７０は、ｐ^＊＝ｐ_０においてのみｒを探索し、ｐの他の全ての値は隠されるため、第２のニューラルネットワークの探索は、グリッド３１０の全ての次元に亘る単一のニューラルネットワークよりも、（ｊのファクターによって）はるかに高速である。ニューラルネットワークの探索パフォーマンスにおけるこの大幅な改善は、ロボット制御をサポートするために物品のパイルの画像に対応する把持提案をリアルタイムで計算する必要があるロボット把持アプリケーションでは非常に重要である。

【0049】

【0050】

図４は、本開示の実施形態による、ニューラルネットワークモジュール化技術の訓練フェーズにおけるステップのブロック図である。ボックス４００は、第１のニューラルネットワーク４１０の訓練に使用されるステップを含む。ボックス４５０は、第２のニューラルネットワーク４６０の訓練に使用されるステップを含む。図４の第１（４１０）及び第２（４６０）のニューラルネットワークは、上述の図３の第１及び第２のニューラルネットワークと同様に作用する。

【0051】

ボックス４００及び４５０の上部に概略的に示されるように、第１のニューラルネットワーク４１０は、グループ化された次元ｐをエンコードし、それにより第１のニューラルネットワークは、｛ｐ｝の環境を記述する入力データに基づいて、ｐ^＊（いくつかのｒの値において最大品質が得られるｐの値）を予測する。次に第２のニューラルネットワーク４６０は、以前に特定されたｐ^＊における全てのｒの環境を定義する入力データに基づいて全ての次元（ｐ，ｒ）を符号化し、最大把持品質が存在する値（ｐ^＊，ｒ^＊）を特定する。

【0052】

第１のニューラルネットワーク４１０を訓練するために、４２０及び４３０で示されるように先ず最大マージンデータが準備される。４２０で示される入力データＩ_ｒ（ｐ）は、動作ｐを一義的にエンコードする状態を表す。動作ｒは非表示になっているため、Ｉ_ｒ（ｐ）はｐの関数である。４３０で示される出力データＱ_ｒ（ｐ）は、最大マージン法（図３に関して上述）を使用してｒ方向に沿って投影される品質Ｑ（ｒ，ｐ）である。４３０での出力データＱ_ｒ（ｐ）は、以下でさらに説明する把持品質マップの形式で提供される。Ｑ_ｒ（ｐ）は、ｒを非表示にし、ｐのみの関数である。品質は第１のニューラルネットワーク４１０の出力であるが、Ｑ_ｒ（ｐ）データはネットワークトレーニングの入力として提供される。把持タスクの場合、４２０及び４３０に示すように、Ｉ_ｒ（ｐ）は様々なｐの情報（例えば深さ）を表し、Ｑ_ｒ（ｐ）は特定のｐにおける様々なｒの最大品質である。図５及び図６は、入力データＩ_ｒ（ｐ）、把持品質データＱ_ｒ（ｐ）、及びそれらの間の関係をさらに示しており、この関係は、訓練を通じて最終的に第１のニューラルネットワーク４１０内にエンコードされる。

【0053】

図５は、本開示の一実施形態に従い、３Ｄ深度画像データがどのようにして深度レイヤーの組に処理され、図４のトレーニングフェーズで提供されるかを示すグラフ５００である。特定の３Ｄ深度画像（図４の４２０に示す）の場合、複数の深度画像レイヤーが、第１のニューラルネットワーク４１０を訓練するための入力データＩ_ｒ（ｐ）として提供される。グラフ５００では、ｘ軸５１０は３Ｄ深度画像の１つの水平寸法を表し、ｚ軸５２０は深度画像の垂直寸法を表す（例えば、ｚ軸５２０は、部品で満たされたビンの高さであり得る）。３Ｄ深度画像のｙ軸５１２は、グラフ５００の「ページ内（への方向）」である。曲線５３０は、ｘ－ｚ平面における部品のパイルの集合的な高さを示す。換言すれば、曲線５３０は、ｘ－ｚ平面における部品のパイルの断面の頂部である。

【0054】

３Ｄ深度画像は、各々が異なる高さ（ｚ_０，ｚ_１，…，ｚ_ｉ，…，ｚ_Ｎ）である複数のレイヤーに分割可能である。線５４０で表される高さｚ_０は、深度画像（例えば部品のパイル）の最高点を示す。高さｚ_０に対して１つの深度画像レイヤーが提供され、これは、ｚ_０レベル（最高高さの物品）からｚ_Ｎレベル（ビンの底部）までの全て物品を含む完全な深度マップを示す。ｚ_０の深度画像レイヤーでは、深度画像のｚ座標の基準原点がｚ_０に設定されているため、深度画像内の全てが負のｚ座標になる。線５４２で表される高さｚ_１は、深度画像の上部より僅か下方のレベルを示す。高さｚ_１には、別の深度画像レイヤーが提供される。これも、ｚ_０レベルから底部のｚ_Ｎレベルまでの全ての物品を含む深度マップを示す。但し、ｚ_１深度画像レイヤーでは、深度画像のｚ座標の基準原点がｚ_１に設定されているため、深度画像のｚ_１より上方の全てが正のｚ座標になり、深度画像のｚ_１より下方の全てが負のｚ座標になる。同様に、深度画像レイヤーは、追加のレベルｚ_ｉ（線５４４で示す）に提供される。各深度画像レイヤーは、部品のパイル全体の完全な深度画像であるが、各深度画像レイヤーは、ｚ方向に異なる原点を持つ。異なるレベルでスライスして複数の深度画像レイヤーを提供することにより、ニューラルネットワーク４１０の訓練においてｚ方向がエンコードされる。ｘ及びｙのエンコーディング（符号化）は、各レイヤーの２次元情報によって自然に行われる。これを図６に示す。

【0055】

曲線５３０は、形状特徴５５０及び５６０を有する。形状特徴５５０及び５６０は、深度マップのハイスポットであり、これらは１つ以上の部品の存在によって部品のパイルがより高くなる場所を示す。形状特徴５５０及び５６０は、後述するように、深度画像及び把持品質マップの形状で現れる。

【0056】

図６は、本開示の実施形態に係る、図５の特定の深度レイヤーとしての深度画像レイヤー６００の図であり、図４のトレーニングフェーズで提供される。深度画像レイヤー６００において、ｘ軸５１０は、図５のｘ軸５１０に対応し、ｙ軸５１２は、図５のｙ軸５１２に対応する。換言すれば、深度画像レイヤー６００はトップダウンの深度画像であり、図５のｚ軸５２０は図６において「ページから出てくる方向」である。

【0057】

深度画像層６００は、図５の形状特徴５５０及び５６０にそれぞれ対応する形状６２０及び６３０を含む。形状６２０及び６３０は、中央で最も暗く、最も高いｚ座標を示し、図５の形状特徴５５０及び５６０のピークに対応する。深度画像レイヤー６００が高さｚ_ｉのものである場合、深度画像のｚ座標の基準原点がｚ_１に設定され、深度画像のｚ_１（線５４４）より上方の全てが正のｚ座標になり、深度画像のｚ_１（線５４４）より下方の全てが負のｚ座標になる。同様に、図４の４３０に示される品質マップも、レイヤー又はスライスにスタックされる。品質マップ４３０の各レイヤーは、高さｚ_ｉの影付き領域５７０内等、深度画像の現在のレイヤーに近い把持候補を示す。例えば、高さｚ_ｉの品質マップには、形状６２０及び６３０の中央の品質把持が含まれるが、高さｚ_Ｎの品質マップには、そのレベルの深度画像内に把持可能な形状特徴がないため、品質把持が含まれない可能性がある。品質マップ４３０で提供される把持候補は、ヒューリスティック等の従来の方法によって手動で生成されてもよいし、グリッパ／部品最適化計算とそれに続く物理環境（部品のパイル）シミュレーションを使用して自動的に生成されてもよい。

【0058】

第１のニューラルネットワーク４１０（図４のボックス４００内）を訓練するための最大マージンデータの準備を要約すると、特定の物品のパイルに対して、点群又は他の深度マップデータ（３Ｄカメラ等）を使用して、（複数のレイヤーにおける）深度画像４２０及び対応する品質マップ４３０（各深度画像レイヤーの様々な点での把持品質を指定する）を提供する。前述の手順は、様々な物品のパイル（好ましくは数千）に対して実行される。図４の４２０及び４３０に示され、さらに図５－図６に詳細に示されるように、最大マージンデータが準備された後、第１のニューラルネットワーク４１０が訓練される。トレーニングステップは、ボックス４００の下部に示されており、ここでは、第１のニューラルネットワーク４１０は、環境画像データ入力Ｉ_ｒ（ｐ）に基づいて把持品質Ｑ_ｒ（ｐ）を予測するように訓練される。データが準備されれば、第１のニューラルネットワークの訓練は簡単かつ高速である。把持品質（第１のニューラルネットワーク４１０の出力）がトレーニングデータとして提供されるため、ボックス４００に示される訓練は教師あり学習として知られている。

【0059】

第２のニューラルネットワーク４６０（図４）を訓練するために、全ての次元ｒ及びｐをエンコードするためにデータが準備される。先ず、第１のニューラルネットワーク４１０を訓練するために使用される（複数のレイヤーにおける）深度画像４２０が、対応する品質マップ４３０（各深度画像レイヤーでの把持品質及び位置を指定する）とともに、４７０で示すように組み合わされる。画像４２０の各々は、特定の深度画像レイヤーに関連する品質把持の位置でエンコードされる。その結果は、４８０で示される入力データＩ（ｒ，ｐ）であり、これは、複数の深度画像トリミング（４８２、４８４、４８６、…）を含み、各トリミングは、品質マップ４３０によって定義されるようにトリミングされ回転させられた深度画像４２０のうちの１つの一部である。

【0060】

把持用途に関し、４８０で示される入力データＩ（ｒ，ｐ）（深度画像は４８２、４８４、４８６、…をトリミングする）では、ｐはトリミング中心（深度画像レイヤー上の位置からのｘ及びｙ、並びにそのレイヤーの深さ原点からのｚ）によってエンコードされ、ｒはトリミング角度によってエンコードされ、ｐ及びｒの双方は品質マップ４３０から決定される。最良のビンピッキング能力を提供するために、非垂直の把持方向を可能にすることがしばしば有利である。把持のアプローチ方向（すなわち、非垂直アプローチ方向）は、異なる視野角の深度画像４２０（４７０で再び使用される）を供給することによって、第１及び第２のニューラルネットワーク（４１０／４６０）においてエンコードされ得る。図１に示すように、異なる視野角の深度画像は、異なる位置及び向きを持つ２つの３Ｄカメラから取得した点群データから計算可能である。

【0061】

出力データＱ（ｒ，ｐ）は、４９０で表示され、これには、各深度画像のトリミング４８２／４８４／４８６に関連付けられた品質メトリック値が含まれる。品質メトリックは、品質マップ４３０での各把持のための外部トレーニングデータソース（図１０に関してさらに後述される）によっても提供される。故に出力データＱ（ｒ，ｐ）は、第２のニューラルネットワーク４６０のためのトレーニングデータとして利用可能である。把持について、出力データＱ（ｒ，ｐ）は、把持動作ｒ及びｐに関連する品質を表すスカラー値である。第２のニューラルネットワーク４６０は、全ての動作次元ｒ及びｐをエンコードするが、第１のニューラルネットワーク４１０によって実行されるｐ次元の符号化のために、推定時にｒ方向を探索する必要があるだけである。図４の４８０及び４９０に示されるように、ジョイント（ｒ及びｐ）の入力データが準備された後、第２のニューラルネットワーク４６０が訓練される。トレーニング段階は、ボックス４５０の下部に示され、ここでは、第２のニューラルネットワーク４６０は、環境画像データ入力Ｉ（ｒ，ｐ）に基づいて把持品質Ｑ（ｒ，ｐ）を予測するために訓練される。

【0062】

第１のニューラルネットワーク４１０は、「イメージイン／イメージアウト」アプリケーションに最適な完全畳み込みネットワーク（ＦＣＮ）であり得る。第２のニューラルネットワーク４６０は、出力の低次元コンテンツのために高精度が可能である「イメージイン／スカラーアウト」アプリケーションに最適な畳み込みニューラルネットワーク（ＣＮＮ）であり得る。第１のニューラルネットワーク４１０及び第２のニューラルネットワーク４６０の双方は、教師あり学習を使用して訓練され、このことは、ネットワークからの所望の出力データ（第１のニューラルネットワーク４１０からの品質マップ４３０、及び第２のニューラルネットワークからの把持品質メトリック４９０）が、訓練のための入力として提供されることを意味する。図４のボックス４００及び４５０に示され、かつ上述したトレーニング手順に従って、ニューラルネットワーク４１０及び４６０が訓練され、図１に示すタイプのライブロボット操作で使用できるようになる。

【0063】

図７は、本開示の実施形態に係る、ニューラルネットワークモジュール化技術の推定フェーズにおけるステップのブロック図である。推定フェーズ（展開フェーズ又は実行フェーズとしても知られている）では、ニューラルネットワーク４１０及び４６０を、３Ｄ深度画像を分析して品質把持候補の推奨事項を提供するために、ライブロボット部品ピッキング操作で使用する。ここでも、ロボットによる部品ピッキング（３Ｄ深度画像からの把持決定）は、高次元のタスクを２つ以上の低次元のネットワークに分離するためのニューラルネットワークのモジュール化の一例に過ぎないことが強調される。

【0064】

図４に示され、上述のように訓練されたニューラルネットワーク４１０及び４６０は、図７に示される推定フェーズで使用される。ニューラルネットワーク４１０及び４６０は独立して訓練されるが、それらは推定時に接続されて、全次元の動作を決定する。推定フェーズでネットワークを実行するにはいくつかのステップがあり、ボックス７００は第１のニューラルネットワーク４１０を含むステップを有し、ボックス７５０は第２のニューラルネットワーク４６０を含むステップを有する。

【0065】

ボックス７００において、第１のステップは、ｐをエンコードする入力データＩ_ｒ（ｐ）を準備することである。把持用途では、Ｉ_ｒ（ｐ）は異なるｐに関連付けられた深度画像とすることができる。エンコード方法及びネットワーク構造に応じて、様々な入力／出力タイプが可能である。図示されている把持例では、複数の深度画像レイヤーが７１０において深度エンコーディングのために提供され、完全畳み込みネットワーク構造が使用される。従って入力は、図４－図６に関して前述したように、様々な高さ又はレイヤー（ｐをｚでエンコードする）を中心とする深度画像（ｘ及びｙでｐをエンコードする水平スライス）である。

【0066】

【0067】

【0068】

【0069】

図７に示されて上述されたモジュール化されたニューラルネットワーク４１０及び４６０が何を行ったかをもう一度説明する。７１０に示される入力データを使用して、第１のニューラルネットワーク４１０は最大マージン値ｐ^＊を見出し、この値ｐ^＊は、探索空間全体で最大の個々の把持品質を有する位置次元ｐの値である。次に、値ｐ^＊を入力として使用して、第２のニューラルネットワーク４６０は値ｒ^＊を見出し、この値ｒ^＊は、位置次元がｐ^＊に制約されたときに最大の把持品質を持つ回転次元ｒの値である。連結された次元（ｒ^＊，ｐ^＊）は、完全な６自由度ロボットによる物品の把持を定義する。開示されたニューラルネットワークの分離により、ｐ空間の探索をｒ空間の探索から切り離すことができ、その結果、探索空間のサイズが劇的に減少する（次元サイズｉ及びｊの積ではなく和になる）。

【0070】

図４－７に示される前述の説明及び実施例は、ロボット部品ピッキング操作のための物品の高品質の完全自由度把持を見出すアプリケーションの例に関して説明された。上述したように、これは、開示されたネットワークモジュール化技術の単なる一例のアプリケーションである。この手法は、一般に、高次元のニューラルネットワークを２つ以上の低入力次元のネットワークにモジュール化して、はるかに高速に実行するために適用可能である。いくつかの特定の把持アプリケーションについては、以下でさらに説明する。

【0071】

図８は、本開示の一実施形態に係る、３自由度把持探索問題に適用される開示されたニューラルネットワークモジュール化技術のブロック図である。図８に示す例では、物品のパイルの３Ｄ深度画像から、比較的単純な３自由度把持が特定される。計算すべき３自由度は、把持点のｘ、ｙ及びｚの位置である。この例では、回転は計算しない。単一のネットワークで３自由度を計算するのではなく、計算を２つのニューラルネットワークにモジュール化できる。第１のニューラルネットワークは最高品質の把持のｘ及びｙ座標を計算し、第２のニューラルネットワークはｚ座標を計算する。

【0072】

ボックス８００は、第１のニューラルネットワーク８１０並びにそれに関連する入力及び出力データを含む。１つ以上の３Ｄカメラからのような深度画像８２０が、入力として提供される。トレーニングフェーズでは、教師あり学習のために、対応する最高品質の把持位置も提供される。多くの深度画像８２０を使用する訓練を通じて、第１のニューラルネットワーク８１０は、最良の把持品質に対応するように深度画像８２０の形状特徴からｘ及びｙをエンコードすることを学習する。推定フェーズでは、深度画像８２０が第１のニューラルネットワーク８１０に提供され、ｘ及びｙ次元で最高品質の把持位置を示す単一の品質マップ８３０が出力される。すなわち第１のニューラルネットワーク８１０は、Ｑ_ｚ（ｘｙ）の最大マージンをエンコードする。第１のニューラルネットワーク８１０は、矢印８４０で示されるように、推定フェーズにおいて第２のニューラルネットワーク８６０に最良の把持位置（ｘ^＊ｙ^＊）のｘ－ｙ次元を提供する。

【0073】

【0074】

最終出力把持位置（ｘ^＊ｙ^＊ｚ^＊）は、第１のニューラルネットワーク８１０によって特定された最良のｘ及びｙ次元と、第２のニューラルネットワーク８６０によって特定された最良のｚ次元とを含む。最終出力把持位置（ｘ^＊ｙ^＊ｚ^＊）は、ロボット制御装置に提供され、ロボット制御装置は、特定された座標で部品を把持するための指令をロボットに提供する。部品が把持された後、新しい深度画像がニューラルネットワーク８１０及び８６０に提供され、新たな最良の把持位置の座標が計算される。

【0075】

３自由度把持探索を２つのネットワークにモジュール化する（一方のネットワークで２つの次元を探索し、他方のネットワークで１つの次元を探索する）ことにより、全体的な探索性能が改善される。例えば、ｘ及びｙ次元がそれぞれかなり粗い２０×２０グリッドに分割され、ｚ次元が１０レイヤーに分割されている場合を考える。開示されたネットワークモジュール化技術を使用して、第１のニューラルネットワーク８１０がサイズ２０×２０＝４００の空間を探索し、第２のニューラルネットワーク８６０がサイズ１０の空間を探索すると、結果として得られるモジュール化された探索空間のサイズは４００＋１０＝４１０となる。３つの次元全てが単一のネットワークで探索された場合は、そのネットワークの探索空間のサイズは２０×２０×１０＝４０００になる。

【0076】

図９は、本開示の実施形態に係る、２つのニューラルネットワークを使用した、５自由度把持探索問題に適用されるニューラルネットワークモジュール化技術のブロック図である。図９に示す例では、部品のパイルの３Ｄ深度画像から５自由度の把持が特定される。計算すべき５自由度には、グリッパの幅及びグリッパの回転角に加えて、把持点のｘ、ｙ及びｚの位置が含まれる。この例では、アプローチ角度は計算されず、トップダウンの垂直方向アプローチが想定されている。単一のネットワークで５の自由度を計算するのではなく、開示された方法を使用して、計算を２つのニューラルネットワークにモジュール化できる。ここでは第１のニューラルネットワークは、最高品質の把持のｘ／ｙ／ｚ座標を計算し、第２のニューラルネットワークは、グリッパの幅（ｗ）及びグリッパの回転角（θ）を、最大化された最終的な把持品質とともに計算する。

【0077】

３Ｄ深度画像９１０（例えば、ビン内の物品のパイルを示す）は、把持提案ネットワーク９２０に提供される。把持提案ネットワーク９２０は、完全畳み込みネットワーク（ＦＣＮ）であり、入力（深度画像９１０）としての画像を受信し、出力としての画像（把持品質マップ９３０）を提供する。把持品質マップ９３０は、畳み込みニューラルネットワーク（ＣＮＮ）である把持ランキングネットワーク９４０に提供され、ネットワーク９４０は、画像を受信し、スカラーデータ（グリッパの幅及び回転角）を提供する。把持ランク付けネットワーク９４０からのグリッパの幅及び回転角（９５０で示す）は、把持提案ネットワーク９２０によって作成された把持品質マップ９３０からの最良の把持位置（ｘ／ｙ／ｚ）と組み合わされる。加えて、これは、ロボット制御装置によって使用される５自由度の把持の定義（ｘ／ｙ／ｚ／ｗ／θ）を提供する。

【0078】

前に詳述したように、把持提案ネットワーク９２０及び把持ランキングネットワーク９４０は、先ず教師あり学習を使用して訓練され、次に推定モードで動作される。訓練において、把持提案ネットワーク９２０は、深度画像及び対応する把持品質マップを有する。把持ランキングネットワーク９４０は、把持提案ネットワーク９２０に提供される深度画像及び対応する品質マップを、グリッパの幅／回転角及び最終的な把持品質の所望の出力とともに提供することによって訓練される。この訓練を実行するための自動化された方法については、図１０に関して以下でさらに説明する。

【0079】

推定モードでは、把持提案ネットワーク９２０は、深度画像のみを有し（そして出力として品質マップを提供し）、一方、把持ランキングネットワーク９４０は、入力として深度画像及び対応する品質マップを有する（そしてグリッパの幅／回転角と、品質マップから選択された最高品質把持の位置に関連する最終的な把持品質出力とを提供する）。

【0080】

図９の５自由度把持探索を２つのネットワークにモジュール化する（一方のネットワークで３つの次元を探索し、他方のネットワークで２つの次元を探索する）ことにより、全体的な探索性能が改善される。例えば、ｘ及びｙ次元がそれぞれかなり粗い２０×２０グリッドに分割され、ｚ次元が１０レイヤーに分割され、グリッパ幅が１０の位置を有し、グリッパ角度が２０の位置を有する場合を考える。開示されたネットワークモジュール化技術を使用して、第１のニューラルネットワーク９２０がサイズ２０×２０×１０＝４０００の空間を探索し、第２のニューラルネットワーク９４０がサイズ１０×２０＝２００の空間を探索すると、結果として得られるモジュール化された探索空間のサイズは４０００＋２００＝４２００となる。５つの次元全てが単一のネットワークで探索された場合は、そのネットワークの探索空間のサイズは４０００×２００＝８０００００になる。

【0081】

図１０は、本開示の一実施形態に係る、個々の物品把持最適化及びクラスター化物品変動の組み合わせと干渉シミュレーションとを使用して、図９に示されるタイプのモジュール化された把持学習ネットワークを訓練するための方法の図である。図１０に示すトレーニング方法のステップは、後にロボット動作の制御に使用されるロボット制御装置以外のコンピュータを使用して「オフライン」環境で実行可能であり、図９のニューラルネットワーク９２０及び９４０を訓練するための把持データを生成する非常に効率的な手段を提供する。

【0082】

ボックス１０１０の第１のデータ準備ステップでは、データベース内の個々の物品の自動把持探索が示される。グリッパ１０１４による物品１０１２の複数の把持が図示されている。解析対象の部品の３Ｄソリッドモデル又はサーフェスモデルが、ジオメトリ及び操作パラメータ（指の関節の位置、関節の角度範囲等）を含むグリッパデータとともに提供される。反復最適化手法を使用して、部品の形状及びグリッパのパラメータに基づいてロバストな把持候補が作成される。ボックス１０１０に示すステップは、特定のグリッパ（グリッパ１０１４）による個々の部品（物品１０１２）のための複数の品質把持の位置及び向きを提供する。これらの把持ポーズは、多くの異なるグリッパを使用して、多くの異なる部品に対して自動的に計算できる。

【0083】

ボックス１０２０での第２のデータ準備ステップでは、変動及び干渉を考慮に入れて、ロバストな把持シミュレーションが実行される。このステップでは、物品のストリームがビンに転がり込み、様々な位置、方向及び絡み合いを持つ物品のパイルにランダムに堆積するのをシミュレートすることにより、物品がさらにランダムに密集したクラスターにサンプリングされる。シミュレートされたパイル内の各物品のポーズは既知であるため、以前に生成された（ボックス１０１０からの）把持をテストして、シミュレートされた実世界の条件（絡み合い及び干渉）でのそれらの有効性を判断することができる。このようにして以前に生成された各把持の成功は、シミュレートされた物品のパイルの３Ｄ深度画像を、以前に生成された把持とともに使用してテストされる。ボックス１０２０に示されるステップは、実際の部品及び画像を使用せずに、完全に数学的シミュレーションを使用して実行される物理環境シミュレーションである。シミュレートされた深度画像、把持位置品質マップ、把持ポーズ、及び成功率（ボックス１０２２にまとめて示される）が保存され、後に図９の把持学習ネットワークのトレーニングに使用される。これらは以下の図１０に示されている。

【0084】

上述され、ボックス１０１０及び１０２０に示される把持の最適化及びシミュレーションは、２０２０年９月１０日に出願され、タイトルを「一般的グリッパによる把持学習のための効率的データ生成（EFFICIENT DATA GENERATION FOR GRASP LEARNING WITH GENERAL GRIPPERS）とする米国特許出願第１７／０１６，７３１号に開示されており、この出願は本出願と出願人が共通しており、本参照によりその全体が本明細書に組み込まれる。

【0085】

図９の把持学習ネットワークは、図１０のボックス１０３０に示される。以下は、自動的に生成把持データをどのように使用して、モジュール化されたニューラルネットワークを訓練するかを説明するが、これには、ボックス１０２２からのデータを使用して把持提案ネットワーク９２０及び把持ランキングネットワーク９４０を別個に訓練することが含まれる。

【0086】

把持提案ネットワーク９２０の訓練は、入力として深度画像９１０を必要とする。深度画像９１０は、ボックス１０２２から提供可能であり、深度画像９１０は、物理環境シミュレーションによる物品のパイルを表す。教師あり学習のために、把持提案ネットワーク９２０のトレーニングはまた、異なるピクセル位置での把持品質を表す把持品質マップ９３０を必要とする。また品質マップ９３０は、ボックス１０２２から提供され、品質マップは物理的環境シミュレーションから計算される。ボックス１０２０に示される物理的環境シミュレーションは、何度も（数千回）実行することができ、各ランダムシミュレーションは、物品の異なるランダムなパイルを提供し、その結果、把持提案ネットワーク９２０を訓練するための深度画像９１０及び対応する品質マップ９３０の十分な量及び多様性がもたらされる。

【0087】

次に、把持ランキングネットワーク９４０が訓練される。このネットワークは、様々な角度（品質マップ９３０から準備される）での深度画像トリミングを入力として使用し、線９５０で示すようなグリッパ回転角（θ）及びグリッパ幅（ｗ）を、対応する把持品質とともに出力し、ボックス１０２２からのシミュレーション結果をトレーニング（教師あり学習）の基礎として使用する。グリッパ回転角及びグリッパ幅が含まれているため、ボックス９６０の出力は５つの把持自由度を含む。明確化のために再度述べるが、ボックス１０１０の把持最適化方法は、特定のグリッパを使用して、物品に対して多くの異なる把持を生成する。ボックス１０２０の物理環境シミュレーション方法は、ランダムに生成された物品のパイルに適用された異なる把持ポーズのための把持品質シミュレーション結果を生成する。そして物理環境シミュレーションの出力は、把持提案ネットワーク９２０及び把持ランキングネットワーク９４０を訓練するために使用される。

【0088】

図１０に示すような２つのニューラルネットワーク（９２０、９４０）の訓練に続き、訓練されたニューラルネットワーク（９２０、９４０）を使用してロボット把持システムの実際に稼働し、図９に関して上述したように、深度画像入力に基づいて把持を決定し、ロボットを制御する。ボックス１０１０及び１０２０に示されるデータ生成ステップは、図９の５自由度把持システム／方法だけでなく、モジュール化されたより少ない（例えば３自由度の）把持ネットワークや、より多い（例えば７自由度）の複雑なものにも適用できる。

【0089】

図１１は、本開示の一実施形態に係る、３つのニューラルネットワークを使用した、７自由度把持探索問題に適用されるニューラルネットワークモジュール化技術のブロック図である。図１１のシステムでは、７つの把持自由度は、アプローチ方向の選択（２自由度）、把持位置の選択（３自由度）並びにグリッパの方向及び幅の選択（２自由度）を含む。上述した３自由度及び５自由度のニューラルネットワークシステムと同様に、図１１に示すニューラルネットワークは、先ずトレーニングされ、次に推定モードで使用されて、図１に示されるようなロボットによる実際の部品把持操作中に把持計算を実行する。

【0090】

ボックス１１１０は、方法の第１フェーズのステップであり、最良のアプローチ方向を選択する。例えば、一対の３Ｄカメラからのビン内の部品画像であり得る入力シーン１１１２が与えられると、関連する点群は、合成画像１１２２を生成するために、方向符号化ボックス１１２０によって複数のサンプリングされたアプローチ方向に投影される。入力シーン１１１２の画像は、深度情報を含み、これにより方向符号化ボックス１１２０のアルゴリズムが、複数のランダムに選択された投影視点から見た合成表面画像を生成することが可能になる。換言すれば、ロボットのグリッパが特定の方向から接近した場合、その方向からの３Ｄ表面画像はどのように見えるか？これらの合成画像は、ランダムにサンプリングされた多くの異なる投影角度について作成され、合成画像１１２２内に提供される。投影角度は、ロボットが接近できる方向の制限内にある。

【0091】

アプローチ方向提案ネットワーク１１３０は、合成画像１１２２で提案された各アプローチ方向から把持する際の全体的な品質を予測するために使用される。換言すれば、ネットワーク１１３０では、把持は非表示であり、最良の把持品質を含むアプローチ方向は、上述した最大マージン手法を使用して決定される。アプローチ方向は、２つのベクトルｖ_１及びｖ_２として定義され、これらは、極座標系の方位角及び仰角、又は３次元のアプローチ方向ベクトルを定義する他の成分であり得る。選択されたアプローチ方向（ｖ_１，ｖ_２）は、アプローチ方向ベクトル１１３８として保存され、後にロボット制御装置によって使用される。最適なアプローチ方向に関連付けられた深度画像も保存され、次のフェーズで使用される。

【0092】

ボックス１１４０には、最良の把持位置を決定する、方法の第２フェーズのステップが含まれる。上で選択された最適なアプローチ方向１１３８に関連付けられた（画像セット１１２２からの）合成深度画像である、深度画像１１４２が提供される。深度画像１１４２は、スライス切断ボックス１１５０において異なる高さでスライスに切断され、把持位置提案ネットワーク１１６０に送信される。把持位置提案ネットワーク１１６０は、１１６４で示すように、かつ図４に関して上述したように、異なる高さの画像スライスの品質マップを生成する。換言すれば、ネットワーク１１６０は、グリッパの幅及び角度を隠し、定義されたアプローチ角度が与えられると、位置の関数として把持品質をエンコードする。品質マップ１１６４は、アプローチ方向１１３８が与えられると、特定の位置（ｘ，ｙ，ｚ）を選択した結果として生じる把持の品質を示す。最高品質の把持位置の３Ｄ座標は１１６８に格納され、次のブロックの入力として提供され、後にロボット制御装置によって使用される。

【0093】

ボックス１１７０には、把持の角度（θ）及び幅（ｗ）を決定する、方法の第３の最終フェーズのステップが含まれる。所望のアプローチ方向１１３８（ｖ_１，ｖ_２）及び上で選択された所望の把持位置１１６８（ｘ，ｙ，ｚ）に関連する深度画像である、深度画像１１７２が提供される。ボックス１１８０において、画像パッチは、１１６８に格納された最高品質の把持位置の周りに異なる角度でトリミングされる。これらの画像パッチ（１１８２）は、評価された各画像パッチの品質及び幅（１１９４）を出力するために、把持ランキングネットワーク１１９０に送られる。最高品質に対応する把持の角度（θ）及び幅（ｗ）が選択され、１１９８に保存される。

【0094】

１１３８に格納された所望のアプローチ方向（２自由度のｖ_１、ｖ_２）、１１６８に格納された最適な把持位置（３自由度のｘ、ｙ、ｚ）、及び１１９８に格納された最良の把持幅／角度（２自由度のｗ、θ）は、１１９９で示すように、実行のためにロボット制御装置に送信される。つまり、ロボット制御装置は、アプローチ方向、把持位置、及び把持幅／角度の情報から計算されたロボット動作指令を使用して、ビンから部品を把持するようにロボットに指示する。次にロボットは、部品を所定の場所（コンベヤ又は輸送コンテナ等）に配置する。次にこの方法は、新たな入力シーン１１１２の新しい画像が提供されるボックス１１１０に戻り、把持選択ステップ及びロボットの実行が繰り返される。

【0095】

図１１に示すような７自由度の把持探索アプリケーションのための３つのニューラルネットワークの使用は、多くの利点を提供する。アプローチ方向提案ネットワーク１１３０は、トップダウンの垂直把持の制約を排除することにより、巧妙な把持を可能にする。把持位置提案ネットワーク１１６０は、把持位置の３つの自由度を、これらの次元を他の自由度とは別個に計算することにより、高速に計算する。把持ランキングネットワーク１１９０は、畳み込みニューラルネットワークのスカラー出力に固有の精度を提供する。さらに、７自由度の把持探索において、１つの大きなニューラルネットワークの代わりに３つのニューラルネットワークを使用すると、探索空間のサイズが数桁減少し、それに応じて探索速度が向上する。なお図１１に示すシステムは、入力として画像を取得し、出力として画像を提供するニューラルネットワーク１１３０及び１１６０に完全畳み込みネットワーク（ＦＣＮ）を使用して、さらに、スカラーデータ出力を提供するニューラルネットワーク１１９０に畳み込みニューラルネットワーク（ＣＮＮ）を使用して、様々なタイプのニューラルネットワークの長所を活用するように設計されている。

【0096】

図８－１１に関して上述した実施例（３自由度、５自由度及び７自由度の把持）は、異なる把持アプリケーションにおいて、開示されたニューラルネットワークモジュール化技術によって提供される能力および柔軟性を示す。開示されたニューラルネットワークのモジュール化技術は、把持以外の他のアプリケーション、つまりニューラルネットワークのエンコーディング及び高次元タスクの計算が必要なアプリケーションで使用可能であることを再度強調する。

【0097】

図１２は、本開示の一実施形態に係る、低次元の２つ以上のニューラルネットワークを使用して多次元パターン認識問題を解決するための方法のフローチャート図１２００である。ボックス１２１０において、解決すべき問題（ニューラルネットワークパターン認識での解決に適した多次元探索問題）が定義され、問題の次元がグループ化された次元の組に分割される。このことは、前の説明及び図面で何度も説明されている。図２－７では、６自由度の把持問題が位置次元ｐ（ｘ，ｙ，ｚ）及び回転次元ｒ（ｒ１，ｒ２，ｒ３）に分割されている。他の例では、３自由度及び５自由度の把持探索が２組のグループ化された次元に分割され、７自由度の把持探索が３組のグループ化された次元に分割されている。

【0098】

ボックス１２２０では、２つ以上のニューラルネットワークが提供され、ボックス１２１０からのグループ化された次元の組のそれぞれに対して１つのニューラルネットワークが提供される。ニューラルネットワークは、前の図に示すように（推定モードのために）直列に連結され、広く説明された。ニューラルネットワークは、図１のコンピュータ１２０等のコンピュータで実行される。各ニューラルネットワークは、自らのグループの次元の組に加えて、直列の上流にある他のニューラルネットワークからのグループ化された次元の組をエンコードする。例えば、図２－４では、第１のニューラルネットワークはｐ次元をエンコードし、第２のネットワークはｐ次元及びｒ次元の双方をエンコードする。図１１の３つのネットワークの実施例では、第１のネットワークはアプローチ方向の自由度をエンコードし、第２のネットワークはアプローチ方向に関連する把持位置の自由度をエンコードし、第３のネットワークは把持位置及びアプローチ方向に関連するグリッパの角度及び幅の自由度をエンコードする。

【0099】

ボックス１２３０において、２つ以上のニューラルネットワークは、教師あり学習を使用して個別に訓練される。教師あり学習手法では、各ネットワークに多数のトレーニング例を提供し、各例は、ネットワークの入力及び所望の出力の双方を含む。例えば、図４では、第１のニューラルネットワーク４１０は、（複数のレイヤーにおける）深度画像４２０及び対応する（各深度画像レイヤーの様々な点での把持品質を指定する）品質マップ４３０を提供することによって訓練され、第２のニューラルネットワーク４６０は、回転されトリミングされた深度画像４８０及び品質メトリック出力データ４９０を提供することによって訓練される。２ネットワークシステムでは、第１のネットワークは、そのグループ化された次元の組をエンコードするように訓練される一方で、グループ化された次元の残りの組を非表示にしつつ、図３及び４に関連してまず説明された最大マージン法を使用する。３ネットワークシステムでは、最初の２つのネットワークが訓練のために最大マージン法を使用できる。最大マージン法では、ニューラルネットワークは、出力変数（品質等）の最適値を持つ、対応するグループ化された次元の組の目標値を見出す。目標値は、直列の下流にある他のニューラルネットワークによる入力として使用される。

【0100】

ボックス１２４０において、ニューラルネットワークは、問題の環境を定義する入力が提供される推定モードで実行され、各ニューラルネットワークは、対応するグループ化された次元の組のみを探索して目標値を見出す。各ニューラルネットワークから出力された目標値は、直列の下流にある他のニューラルネットワークによる入力として使用される。例えば、２ネットワークシステムでは、入力深度画像は第１のニューラルネットワークに提供される唯一の入力であり、高品質把持の位置座標（グループ化された次元の第１の組）の目標値を持つ把持品質マップ出力を計算するために第１のニューラルネットワークによって使用される。次に、入力深度画像及び品質マップが第２のニューラルネットワークへの入力として提供され（トリミングや回転によってさらに処理され）、高品質把持の回転の目標値（グループ化された次元の第２の組）を計算するために第２のニューラルネットワークによって使用される。

【0101】

ボックス１２５０において、２つ以上のニューラルネットワークの出力が組み合わされて最終出力を提供する。ボックス１２４０に関して説明した２つのネットワークの例では、最高品質のメトリック値が選択され、次に、グループ化された次元の第２の組の対応する目標値が、（第１のニューラルネットワークからの）グループ化された次元の第１の組の目標値と組み合わされて、完全な最終出力が生成される。深度画像による把持探索の場合、最終出力は、最高品質の把持に対応する次元又は自由度が連結された組である。

【0102】

高次元ロボットタスクを学習するためのニューラルネットワークモジュール化の開示された方法は、周知の方法に勝る多くの利点を提供する。開示された方法の１つの大きな利点は、高次元の動作空間（例えば、５以上の自由度）での探索が回避されることによる高速計算である。上述のように、探索次元を２つ又は３つのニューラルネットワークに分離すると、計算速度が数桁向上する。この複雑さの軽減及び速度の向上により、既存の方法では現実的でなかった高次元のタスクを計算できるようになる。

【0103】

異なるニューラルネットワークの探索空間の分離により、画像入力／画像出力計算のための完全畳み込みネットワーク、及び最終的なスカラー出力計算に使用される畳み込みニューラルネットワーク等、各タスクについてニューラルネットワークのタイプを最適に選択することが可能になる。さらに、ネットワークの設計及びパフォーマンスは明確かつ分析が容易である。開示された技術では、各ネットワークは、制御動作空間の別々の部分を探索し、各ネットワークは、他のネットワークから独立して訓練される。従って、各ネットワークのパフォーマンスは、他のネットワークからの出力を考慮せずに個別に分析できる。ネットワークの分離又はモジュール化は、最大マージン法を使用して、あるネットワークのグループ化された次元の組をエンコードし、他を非表示にすることで可能になる。

【0104】

これまでの説明を通じて、様々なコンピュータ及び制御装置が記載され暗示された。これらのコンピュータ及び制御装置のソフトウェアアプリケーション及びモジュールは、プロセッサ及びメモリモジュールを有する１つ又は複数のコンピューティングデバイスで実行されることを理解されたい。特に、これには、物品の把持を実行するロボットを制御するロボット制御装置１１０と、コンピュータ１２０と、ニューラルネットワークの訓練及び推定／実行に使用される他の任意のコンピュータとに含まれるプロセッサが含まれる。具体的には、コンピュータ内のプロセッサは、把持学習又は他のニューラルネットワークアプリケーションのための、前述の開示を通して説明された方法で、画像解析、ニューラルネットワークの訓練及び実行を行うように構成される。

【0105】

開示されたモジュール化ニューラルネットワークを用いたロボット把持学習の技術の複数の例示的な態様及び実施形態が説明されたが、当業者は、それらの修正、並べ替え、追加及びサブコンビネーションを認識するであろう。従って、添付の特許請求の範囲及び請求項は、それらの真の精神及び範囲内にあるそのような修正、並べ替え、追加及びサブコンビネーションの全てを含むと解釈すべきである。

【図1】