特許7217727 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

青山学院大学 (神奈川県相模原市中央区淵野辺)

▶ 株式会社エクサウィザーズの特許一覧

特許7217727制御装置、把持システム、方法、およびプログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】

(24)【登録日】2023-01-26

(45)【発行日】2023-02-03

(54)【発明の名称】制御装置、把持システム、方法、およびプログラム

(51)【国際特許分類】

B25J 13/08 20060101AFI20230127BHJP

【ＦＩ】

B25J13/08 A

【請求項の数】 9

(21)【出願番号】P 2020124576

(22)【出願日】2020-07-21

(65)【公開番号】P2022021147

(43)【公開日】2022-02-02

【審査請求日】2022-10-27

【早期審査対象出願】

(73)【特許権者】

【識別番号】517255566

【氏名又は名称】株式会社エクサウィザーズ

(74)【代理人】

【識別番号】110000338

【氏名又は名称】弁理士法人ＨＡＲＡＫＥＮＺＯＷＯＲＬＤＰＡＴＥＮＴ＆ＴＲＡＤＥＭＡＲＫ

(72)【発明者】

【氏名】サヒリモハッメド

(72)【発明者】

【氏名】浅谷学嗣

【審査官】杉山悟史

(56)【参考文献】

【文献】特開２００９－１７２６８５（ＪＰ，Ａ）

【文献】特開２０１９－１８８５１６（ＪＰ，Ａ）

【文献】特開２０１９－０９３４６１（ＪＰ，Ａ）

【文献】特開２０２０－０８２２１７（ＪＰ，Ａ）

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｂ２５Ｊ１／００～２１／０２

(57)【特許請求の範囲】

【請求項1】

物体を被写体として含む画像を取得する取得部と、
前記画像を入力とする推測モデルを用いて、前記物体の複数の把持候補位置を推測する推測部と、
前記複数の把持候補位置を参照して、把持装置に前記物体を把持させる把持位置を決定する決定部と
を備え、
前記推測モデルから出力される情報は、前記複数の把持候補位置の各々を特定する前記画像上の領域を示す情報を含み、
前記決定部は、前記複数の把持候補位置の各々について、前記画像上の領域と、前記画像上で前記物体を示す物体領域との関係性に応じた評価値を算出し、算出した評価値を参照して前記把持位置を決定する、制御装置。

【請求項2】

物体を被写体として含む画像を取得する取得部と、
前記画像を入力とする推測モデルを用いて、前記物体の複数の把持候補位置を推測する推測部と、
前記複数の把持候補位置を参照して、把持装置に前記物体を把持させる把持位置を決定する決定部と、
を備え、
前記推測モデルから出力される情報は、前記複数の把持候補位置の各々を特定する前記画像上の領域を示す情報を含み、
前記決定部は、前記複数の把持候補位置の各々を、前記画像上の領域と、前記画像上で前記物体を示す物体領域との関係性に応じて修正し、修正後の前記複数の把持候補位置を参照して、前記把持位置を決定する、制御装置。

【請求項3】

前記関係性は、前記画像上の領域の面積と当該領域において前記物体領域が占める部分領域の面積との関係、前記画像上の領域が沿う第１方向と前記部分領域が沿う第２方向との関係、および前記画像上の領域の中心と前記部分領域の中心との関係、のうち一部または全部を含む、
請求項１または２に記載の制御装置。

【請求項4】

前記推測モデルから出力される情報は、前記複数の把持候補位置の各々に関する把持成功確率を含み、
前記決定部は、前記把持成功確率を参照して前記把持位置を決定する、
請求項１から３の何れか１項に記載の制御装置。

【請求項5】

請求項１から４の何れか１項に記載の制御装置と、
前記画像を撮像する撮像装置と、
前記把持装置と、を備えた把持システムであって、
前記制御装置は、前記決定部が決定した把持位置において前記物体を把持するよう前記把持装置を制御する制御部をさらに備える、把持システム。

【請求項6】

前記推測モデルを、機械学習により生成する学習装置、をさらに備えている、請求項５に記載の把持システム。

【請求項7】

１または複数のコンピュータが実行する方法であって、
物体を被写体として含む画像を取得するステップと、
前記画像を入力とする推測モデルを用いて、前記物体の複数の把持候補位置を推測するステップと、
前記複数の把持候補位置を参照して、把持装置に前記物体を把持させる把持位置を決定するステップと、を含み、
前記推測モデルから出力される情報は、前記複数の把持候補位置の各々を特定する前記画像上の領域を示す情報を含み、
前記決定するステップは、前記複数の把持候補位置の各々について、前記画像上の領域と、前記画像上で前記物体を示す物体領域との関係性に応じた評価値を算出し、算出した評価値を参照して前記把持位置を決定する、方法。

【請求項8】

１または複数のコンピュータが実行する方法であって、
物体を被写体として含む画像を取得するステップと、
前記画像を入力とする推測モデルを用いて、前記物体の複数の把持候補位置を推測するステップと、
前記複数の把持候補位置を参照して、把持装置に前記物体を把持させる把持位置を決定するステップと、を含み、
前記推測モデルから出力される情報は、前記複数の把持候補位置の各々を特定する前記画像上の領域を示す情報を含み、
前記決定するステップは、前記複数の把持候補位置の各々を、前記画像上の領域と、前記画像上で前記物体を示す物体領域との関係性に応じて修正し、修正後の前記複数の把持候補位置を参照して、前記把持位置を決定する、方法。

【請求項9】

請求項１から４の何れか１項に記載の制御装置として１または複数のコンピュータを機能させるためのプログラムであって、上記各部として１または複数のコンピュータを機能させるためのプログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、物体において把持装置に把持させる部分を決定する技術に関する。

【背景技術】

【0002】

物体において把持装置に把持させる部分を決定する技術が知られている。例えば、特許文献１に記載された技術は、物体を撮像した画像から物体の輪郭線を検出し、輪郭線を所定量外側にオフセットさせたオフセット線に基づいて、把持装置に把持させる把持位置を決定する。

【先行技術文献】

【特許文献】

【0003】

【文献】特開２０２０－８２２１７号公報（２０２０年６月４日公開）

【発明の概要】

【発明が解決しようとする課題】

【0004】

特許文献１に記載された技術は、物体において把持装置に把持させる把持位置をさらに精度よく決定するよう改善する余地がある。

【0005】

本発明の一態様は、物体において把持装置に把持させる把持位置を精度よく決定する技術を実現することを目的とする。

【課題を解決するための手段】

【0006】

上記の課題を解決するために、本発明の一態様に係る制御装置は、物体を被写体として含む画像を取得する取得部と、前記画像を入力とする推測モデルを用いて、前記物体の複数の把持候補位置を推測する推測部と、前記複数の把持候補位置を参照して、把持装置に前記物体を把持させる把持位置を決定する決定部と、を備えている。

【0007】

本発明の一態様に係る制御装置は、コンピュータによって実現してもよく、この場合には、コンピュータを前記制御装置が備える各部（ソフトウェア要素）として動作させることにより前記制御装置をコンピュータにて実現させるプログラム、およびそれを記録したコンピュータ読み取り可能な記録媒体も、本発明の範疇に入る。

【発明の効果】

【0008】

本発明の一態様によれば、物体において把持装置に把持させる把持位置を精度よく決定する技術を実現することができる。

【図面の簡単な説明】

【0009】

【図1】本発明の一実施形態に係る把持システムの概略を示すブロック図である。

【図2】本発明の一実施形態に係る把持システムを構成する各装置の機能的な構成を示すブロック図である。

【図3】本発明の一実施形態に係る把持システムが実行する処理の流れを示すフローチャートである。

【図4】把持対象物を選択する処理の具体例を説明する図である。

【図5】推測モデルに入力される画像の具体例を説明する図である。

【図6】推測モデルの構成例を模式的に示す図である。

【図7】バウンディングボックスを説明する模式図である。

【図8】本発明の一実施形態に係る把持システムが推測モデルを生成する処理の流れを示すフローチャートである。

【図9】教師データとして用いられる画像の一例を示す模式図である。

【図10】把持位置を決定する処理の詳細な流れを示すフローチャートである。

【図11】把持位置を決定する処理の変形例を示すフローチャートである。

【図12】バウンディングボックスと物体領域との関係性を説明する模式図である。

【図13】把持位置を決定する処理の他の変形例を示すフローチャートである。

【図14】把持候補位置を修正する処理の具体例を説明する図である。

【図15】本発明の一実施形態に係る把持システムを構成する各装置の物理的構成を例示したブロック図である。

【発明を実施するための形態】

【0010】

〔実施形態〕
以下、本発明の一実施形態に係る把持システム１について説明する。

【0011】

＜把持システム１の概要＞
図１は、本発明の一実施形態に係る把持システム１の概略を示すブロック図である。図１に示すように、把持システム１は、制御装置１０と、学習装置２０と、ロボットアーム３０と、撮像装置４０とを含む。把持システム１は、載置台ｗの上に載置された物体（ｏｂｊ１、またはｏｂｊ２）を把持するようロボットアーム３０を制御するシステムである。

【0012】

制御装置１０は、学習装置２０、ロボットアーム３０、および撮像装置４０と、それぞれ通信可能に接続される。ロボットアーム３０は、本発明における把持装置の一例である。例えば、制御装置１０と各装置とは、ネットワークを介して接続される。この場合、ネットワークは、有線ＬＡＮ（Local Area Network）、無線ＬＡＮ、インターネット、公衆回線網、モバイルデータ通信網、またはこれらの組み合わせである。

【0013】

なお、図１に示す例では、制御装置１０および学習装置２０は、ネットワークを介して通信可能に接続された物理的に異なる装置であるが、これは本実施形態を限定するものではない。例えば、制御装置１０および学習装置２０は、物理的に１つのコンピュータによって一体に形成されていてもよい。また、図１に示す例では、制御装置１０およびロボットアーム３０は、ネットワークを介して通信可能に接続された物理的に異なる装置であるが、これは本実施形態を限定するものではない。例えば、制御装置１０は、ロボットアーム３０に内蔵されていてもよい。また、図１に示す例では、ロボットアーム３０および撮像装置４０は、物理的に連結された異なる装置であるが、これは本実施形態を限定するものではない。例えば、撮像装置４０は、ロボットアーム３０に内蔵されていてもよい。

【0014】

また、図１に示す例では、把持システム１が、ロボットアーム３０および撮像装置４０を１つずつ含んでいるが、これは本実施形態を限定するものではない。把持システム１は、複数のロボットアーム３０および複数の撮像装置４０を含んでいてもよい。また、図１に示す例では、１つのロボットアーム３０に対して１つの撮像装置４０が設けられているが、これは本実施形態を限定するものではない。把持システム１において、１つのロボットアーム３０に対応して複数の撮像装置４０が設けられていてもよいし、複数のロボットアーム３０に対応して１つの撮像装置４０が設けられていてもよい。

【0015】

把持システム１において、制御装置１０は、物体を被写体として含む画像を取得し、取得した画像を入力とする推測モデルを用いて、当該物体の複数の把持候補位置を推測する。また、制御装置１０は、推測した複数の把持候補位置を参照して、ロボットアーム３０に物体を把持させる把持位置を決定する。

【0016】

（物体を被写体として含む画像）
物体を被写体として含む画像とは、物体が撮像されることにより生成された画像である。本実施形態において、当該画像は、少なくとも１つの物体を被写体として含む。例えば、撮像装置４０が物体ｏｂｊ１を撮像した画像、物体ｏｂｊ２を撮像した画像、および物体ｏｂｊ１、ｏｂｊ２の両方を撮像した画像は、それぞれ、物体を被写体として含む画像の一例である。

【0017】

（把持候補位置、および把持位置）
把持候補位置とは、ロボットアーム３０に物体を把持させる把持位置の候補である。把持位置とは、現実空間に存在する物体において、当該物体をロボットアーム３０に把持させる把持部分の現実空間における位置である。本実施形態では、把持位置および把持候補位置は、画像上の領域によって特定される。換言すると、当該画像上の領域は、把持部分の現実空間における位置を画像上において示す領域である。画像上の領域の詳細については後述する。

【0018】

＜把持システム１の効果＞
把持システム１によれば、推測モデルを用いて推測した複数の把持候補位置を参照して把持位置を決定するので、物体において把持装置に把持させる把持位置を精度よく決定することができる。

【0019】

＜把持システム１の機能的な構成＞
続いて、把持システム１を構成する各装置の機能的な構成について説明する。図２は、各装置の機能的な構成を示すブロック図である。

【0020】

（制御装置１０の機能的な構成）
図２に示すように、制御装置１０は、制御部１１と、記憶部１２とを含む。制御部１１は、取得部１１１と、推測部１１２と、決定部１１３とを含む。

【0021】

取得部１１１は、物体を被写体として含む画像を取得する。

【0022】

推測部１１２は、推測モデル２２１を用いて、物体の複数の把持候補位置を推測する。本実施形態では、推測モデル２２１は、学習装置２０によってあらかじめ生成され、学習装置２０に記憶されている。推測部１１２は、学習装置２０に画像を送信することにより、当該画像を入力として推測モデル２２１から出力される情報を、学習装置２０から受信する。推測モデル２２１の詳細については後述する。

【0023】

決定部１１３は、複数の把持候補位置を参照して、ロボットアーム３０に把持させる把持位置を決定する。

【0024】

記憶部１２は、制御部１１が参照する各種データを記憶する。

【0025】

（学習装置２０の機能的な構成）
図２に示すように、学習装置２０は、制御部２１と、記憶部２２とを含む。制御部２１は、学習部２１１を含む。

【0026】

学習部２１１は、物体を被写体として含む画像を入力とする推測モデル２２１であって、物体の複数の把持候補位置を推測するために用いる推測モデル２２１を、機械学習により生成する。推測モデル２２１の詳細については後述する。学習部２１１は、制御装置１０から画像を受信すると、当該画像を推測モデル２２１に入力し、推測モデル２２１から出力される情報を、制御装置１０に対して送信する。

【0027】

記憶部２２は、制御部２１が参照する各種データを記憶する。また、記憶部２２は、学習部２１１が生成した推測モデル２２１を記憶する。

【0028】

（ロボットアーム３０の構成）
ロボットアーム３０は、制御装置１０の制御に基づいて、物体を把持する把持動作を実行する。具体的には、図１および図２に示すように、ロボットアーム３０は、複数の回転軸を有する多関節ロボットであり、台座部３１と、ベース部３２と、アーム部３３と、ハンド部３４とを含む。

【0029】

台座部３１は、ロボットアーム３０の設置面に設置される。設置面とは、例えば、床であるが、これに限られない。台座部３１は、制御装置１０の制御に基づいて設置面を移動可能であり得る。例えば、台座部３１は、設置面に接する車輪を有していてもよい。

【0030】

ベース部３２は、台座部３１に対し、旋回可能に連結される。

【0031】

アーム部３３は、複数のアームを含む。各アームの基端部は、ベース部３２または他のアームの先端部に対して、定められた軸まわりに回転可能に連結される。また、アーム部３３の先端にはハンド部３４が、定められた軸まわりに回転可能に接続される。また、アーム部３３の先端付近には、撮像装置４０が連結される。

【0032】

ハンド部３４は、一対の指部３４ａ、３４ｂを含む。ハンド部３４は、制御部１１の制御に基づいて、指部３４ａ、３４ｂを互いに離れるように開く動作と、互いに接近するよう閉じる動作とを行う。上述したロボットアーム３０の把持動作は、ハンド部３４の開閉により実現される。

【0033】

ロボットアーム３０は、制御部１１の制御に基づいて、台座部３１の移動、ベース部３２の旋回、および各アームの回転の一部または全部を実行することにより、ハンド部３４を所望の位置に移動する。

【0034】

（撮像装置４０の構成）
撮像装置４０は、制御装置１０の制御に基づいて、載置台ｗの上に載置された物体ｏｂｊ１およびｏｂｊ２の一部または全部を撮像した画像を生成する。例えば、撮像装置４０の撮像方向および画角は、載置台ｗの上を撮像範囲とするよう、制御装置１０の制御に基づいて変更される。

【0035】

＜把持システム１の処理＞
以上のように構成された把持システム１が実行する処理の流れについて、図３を参照して説明する。図３は、把持システム１が実行する処理の流れを示すフローチャートである。

【0036】

（ステップＳ１０１）
ステップＳ１０１において、制御装置１０の取得部１１１は、物体を被写体として含む画像を取得する。例えば、取得部１１１は、撮像装置４０から、載置台ｗ上を撮像した画像を取得する。図４に示す画像Ｇ１０１は、当該ステップにおいて取得された画像の一例である。画像Ｇ１０１は、載置台ｗ上に載置された物体ｏｂｊ１およびｏｂｊ２を被写体として含んでいる。

【0037】

（ステップＳ１０２）
ステップＳ１０２において、制御部１１は、取得部１１１によって取得された画像から、１または複数の物体を検出する。画像に被写体として含まれる物体を検出する手法には、公知の手法を適用可能である。図４に示す画像Ｇ１０２は、制御部１１によって検出された物体を模式的に示している。この例では、制御部１１は、画像Ｇ１０２において、物体ｏｂｊ１を含む領域Ｒ１、および物体ｏｂｊ２を含む領域Ｒ２を検出している。

【0038】

（ステップＳ１０３）
ステップＳ１０３において、制御部１１は、画像から検出した１または複数の物体のうち、把持対象の物体を選択する。把持対象の物体を選択する条件は、予め定められている。例えば、制御部１１は、画像において占める面積に関する条件（例えば、最も大きい）を満たす物体を、把持対象として選択してもよい。また、例えば、制御部１１は、画像における位置に関する条件（例えば、中央に最も近い、右下に最も近い、等）を満たす物体を、把持対象として選択してもよい。図４に示す画像Ｇ１０３は、把持対象として選択された物体を模式的に示している。この例では、画像における位置が右下に最も近いとの条件が適用されている。つまり、領域Ｒ１および領域Ｒ２のうち、領域Ｒ１が画像の右下に最も近い。そこで、制御部１１は、領域Ｒ１に含まれる物体ｏｂｊ１を把持対象として選択している。ただし、把持対象の物体を選択する条件は、これらに限られない。

【0039】

（ステップＳ１０４）
ステップＳ１０４において、制御部１１は、把持対象として選択した物体に応じて、当該物体の把持開始位置までの経路を生成する。具体的には、制御部１１は、当該物体の現実空間における位置に応じて、把持開始位置を決定する。把持開始位置は、把持動作開始時の現実空間におけるロボットアーム３０の位置である。また、制御部１１は、ロボットアーム３０の現実空間における現在位置から把持開始位置までの経路を生成する。把持開始位置までの経路を生成する手法には、公知の技術を適用可能である。

【0040】

（ステップＳ１０５）
ステップＳ１０５において、制御部１１は、ロボットアーム３０を、決定した経路にしたがって移動させるよう制御する。

【0041】

（ステップＳ１０６）
ステップＳ１０６において、取得部１１１は、推測モデル２２１に入力する画像を、撮像装置４０から取得する。推測モデル２２１に入力する画像は、把持対象として選択した物体を含む画像である。具体的には、取得部１１１は、撮像範囲に選択した物体を含むように、撮像装置４０の撮像方向および画角の一方または両方を制御する。例えば、撮影方向および画角は、撮像範囲に、選択した物体が含まれるとともに選択しなかった物体が含まれないよう制御されることが好ましい。ただし、これは、本実施形態を限定するものではない。例えば、選択した物体と選択しなかった物体とが近接している場合等では、撮像範囲に、選択した物体とともに選択しなかった物体が含まれていてもよい。また、制御部１１は、当該撮像範囲を撮像するよう撮像装置４０を制御する。また、取得部１１１は、撮像装置４０から、当該撮像範囲を撮像した画像を取得する。

【0042】

図５は、当該ステップにおいて取得される、推測モデル２２１に入力する画像の一例を示す図である。図５に示す画像Ｇ１０４は、ステップＳ１０３で選択した物体ｏｂｊ１を被写体として含み、選択しなかった物体ｏｂｊ２を被写体として含まない。

【0043】

（ステップＳ１０７）
ステップＳ１０７において、推測部１１２は、推測モデル２２１を用いて、画像に被写体として含まれる物体の複数の把持候補位置を推測する。具体的には、推測部１１２は、ステップＳ１０６で取得した画像を、学習装置２０に送信する。学習装置２０は、受信した画像を推測モデル２２１に入力し、推測モデル２２１から出力される情報を、制御装置１０に送信する。制御装置１０は、受信した情報が示す複数の把持候補位置を、推測した把持候補位置として取得する。

【0044】

（推測モデル２２１）
ここで、推測モデル２２１の詳細について説明する。推測モデル２２１は、物体を被写体として含む画像を入力として、当該物体における複数の把持候補位置の各々を少なくとも示す情報を出力するよう、機械学習により生成された学習済みのモデルである。推測モデル２２１から出力される情報は、複数の把持候補位置の各々を特定する画像上の領域を示す情報を含む。

【0045】

本実施形態では、推測モデル２２１は、ＣＮＮ（Convolutional Neural Network、畳み込みニューラルネットワーク）である。図６は、推測モデル２２１の構成例を模式的に示す図である。

【0046】

図６に示すように、推測モデル２２１は、入力層Ｌ０と、畳み込み層Ｌ１～Ｌ５と、全結合層Ｌ６～Ｌ８とを含む。全結合層Ｌ８は出力層であり、３つのサブレイヤＬ８－１～Ｌ８－３を含む。

【0047】

物体ｏｂｊ１を被写体として含む画像Ｇは、入力層Ｌ０に入力される。画像Ｇに被写体として含まれる物体ｏｂｊ１は、把持対象として選択された物体ｏｂｊ１である。画像Ｇは、把持対象として選択されなかった物体ｏｂｊ２を含まない。

【0048】

図６に示すように、サブレイヤＬ８－１から出力される出力情報ｇ１は、把持候補位置ＣＰ１を示す情報と、把持成功確率ｐ１を示す情報とを含む。サブレイヤＬ８－２から出力される出力情報ｇ２は、把持候補位置ＣＰ２を示す情報と、把持成功確率ｐ２を示す情報とを含む。サブレイヤＬ８－３から出力される出力情報ｇ３は、把持候補位置ＣＰ３を示す情報と、把持成功確率ｐ３を示す情報とを含む。把持候補位置ＣＰ１～ＣＰ３は、それぞれ、異なる位置を示す。ただし、これらを特に区別する必要がない場合には、単に出力情報ｇ、把持候補位置ＣＰ、および把持成功確率ｐとも記載する。出力層Ｌ８におけるサブレイヤＬ８－１～Ｌ８－３の個数は、推測モデル２２１を用いて推測される把持候補位置ＣＰの個数に対応している。図６に示す例では、当該個数が３であるが、これは、本実施形態を限定するものではない。サブレイヤの個数、すなわち、推測される把持候補位置ＣＰの個数は、２であってもよいし、４以上であってもよい。

【0049】

（把持候補位置、バウンディングボックス）
把持候補位置ＣＰは、画像Ｇ上の領域によって特定される。本実施形態では、把持候補位置ＣＰを特定する領域の形状は、矩形である。当該矩形領域を、以降、バウンディングボックスとも記載する。

【0050】

ここで、推測モデル２２１から出力される出力情報ｇは、次式（１）によって表される。

【0051】

ｇ＝｛ｘ，ｙ，θ，ｈ，ｗ，ｐ｝・・・（１）
式（１）に含まれる６つのパラメータのうち５つｘ，ｙ，θ，ｈ，およびｗは、バウンディングボックスを表している。当該６つのパラメータのうち他の１つｐは、当該バウンディングボックスが示す把持候補位置ＣＰにおける把持成功確率を示す。把持成功確率ｐとは、当該把持候補位置ＣＰにおいてロボットアーム３０に把持動作を実行させた場合に物体ｏｂｊ１の把持に成功する確率である。

【0052】

図７は、バウンディングボックスを説明する模式図である。図７に示すバウンディングボックスＢＢは、中心Ｃの座標（ｘ，ｙ）、傾きθ、短辺の長さｈ、および長辺の長さｗによって特定される。ここでは、傾きθは、ｘ軸に対する長辺の傾きを示している。ただし、傾きθは、画像Ｇに規定されるその他の軸を基準として表されたものであってもよい。

【0053】

バウンディングボックスＢＢの２つの短辺は、把持動作の開始前に指部３４ａおよび３４ｂを配置する位置を示す。具体的には、２つの短辺のうち辺ｂ１は、指部３４ａを配置する範囲を示す。辺ｂ２は、指部３４ｂを配置する範囲を示す。

【0054】

バウンディングボックスＢＢの長辺の長さｗは、上述した配置位置に配置された指部３４ａおよび３４ｂ間の距離を表している。つまり、バウンディングボックスＢＢは、長辺が長いほど、把持動作の開始前にハンド部３４を大きく開く必要があることを表す。

【0055】

（ステップＳ１０８）
ステップＳ１０８において、決定部１１３は、複数の把持候補位置ＣＰを参照して、ロボットアーム３０に物体を把持させる把持位置を決定する。決定した把持位置は、上述したバウンディングボックスＢＢで表される。当該ステップの詳細については後述する。

【0056】

（ステップＳ１０９）
ステップＳ１０９において、制御部１１は、決定した把持位置において物体を把持するようロボットアーム３０を制御する。具体的には、制御部１１は、決定した把持位置にハンド部３４を配置し、ロボットアーム３０に把持動作を実行させる。

【0057】

例えば、図７に示すバウンディングボックスＢＢが、決定した把持位置を表しているとする。この場合、制御部１１は、バウンディングボックスＢＢの２つの短辺に対応する現実空間の配置位置を算出する。また、制御部１１は、バウンディングボックスＢＢの長辺の長さｗに対応する現実空間の距離を算出する。次に、制御部１１は、指部３４ａおよび３４ｂを、算出した距離だけ開くとともに算出した配置位置に配置するよう制御する。その後、制御部１１は、ロボットアーム３０を制御して把持動作を実行させる。具体的には、制御部１１は、指部３４ａおよび３４ｂを閉じるようハンド部３４を制御することにより、ロボットアーム３０に物体を把持させる。

【0058】

＜推測モデル２２１の生成処理＞
次に、ステップＳ１０７で用いる推測モデル２２１を生成する生成処理について説明する。図８は、推測モデル２２１を生成する処理の詳細な流れを示すフローチャートである。

【0059】

（ステップＳ２０１）
ステップＳ２０１において、学習装置２０の学習部２１１は、教師データとして用いる１または複数の画像を取得する。各画像は、物体を被写体として含む。また、各画像には、複数の把持候補位置ＣＰおよびその把持成功確率ｐをそれぞれ示す情報が関連付けられている。

【0060】

また、学習部２１１は、取得した各画像に事前処理を施してから、教師データとして用いる。また、学習部２１１は、取得した各画像にデータオーギュメンテーション処理を施すことにより、教師データとして用いる画像の数を増加させる。

【0061】

（事前処理）
例えば、取得された各画像がＲＧＢ形式であるとする。この場合、学習部２１１は、（ｉ）各画像に対して、グレースケール形式に変換する事前処理を行ってもよい。また、学習部２１１は、（ｉｉ）各画像に対して、エッジを検出する事前処理を行ってもよい。また、学習部２１１は、各画像に対して、（ｉ）、（ｉｉ）を組み合わせた事前処理を行ってもよい。なお、学習部２１１は、事前処理を行うことなく、（ｉｉｉ）元のＲＧＢ形式の各画像を教師データとして用いてもよい。

【0062】

一例として、学習部２１１は、ＲＧＢ形式からＧＧＧ形式に変換した各画像を教師データとして用いてもよい。ここで、ＧＧＧ形式とは、３つのチャンネル（Ｇ、Ｇ、およびＧ）の各々にグレースケール画像を格納した形式である。各チャンネルが表すグレースケール画像は、同一のＲＧＢ形式の画像から生成された、互いに異なるグレースケール画像である。例えば、あるチャンネルが示すグレースケール画像は、他のチャンネルが示すグレースケール画像の明度を変更したものであってもよい。また、各チャンネルが示すグレースケール画像は、元のＲＧＢ形式の画像に対して、互いに異なるグレースケール変換処理を施すことにより生成されたものであってもよい。

【0063】

また、他の例として、学習部２１１は、ＲＧＢ形式からＣＣＧ形式に変換した各画像を教師データとして用いてもよい。ここで、ＣＣＧ形式とは、３つのチャンネルのうち２つのチャンネルの各々にエッジ画像を格納し、他の１つのチャンネル（Ｇ）にグレースケール画像を格納した形式である。例えば、２つのチャンネル（Ｃ、およびＣ）の各々が示すエッジ画像は、元のＲＧＢ形式の画像に対して、互いに異なるエッジ検出処理を施すことにより生成されたものであってもよい。

【0064】

（データオーギュメンテーション）
図９は、教師データとして用いられる画像の一例を示す模式図である。図９において、画像Ｇ２～Ｇ８は、画像Ｇ１に対してデータオーギュメンテーション処理を施して生成した画像である。

【0065】

ここで、画像Ｇ１は、学習部２１１が取得した画像（例えば、ＲＧＢ形式）、または、上述した事前処理を施した画像（例えば、ＧＧＧ形式、またはＧＧＧ形式）である。画像Ｇ１は、物体ｏｂｊ２を被写体として含む。また、画像Ｇ１には、５つの把持候補位置ＣＰを示すバウンディングボックスＢＢ１１～ＢＢ１５が関連付けられている。また、図示はしていないが、各バウンディングボックスＢＢ１～ＢＢ１５には、それぞれ、把持成功確率ｐが関連付けられている。

【0066】

具体的には、画像Ｇ２は、画像Ｇ１を水平反転させることにより生成された画像である。画像Ｇ２に対して関連付けられるバウンディングボックスＢＢ２１～ＢＢ２５は、画像Ｇ１上に示されたバウンディングボックスＢＢ１１～ＢＢ１５を同様に水平反転させることにより生成される。

【0067】

また、画像Ｇ３は、画像Ｇ１を垂直反転させることにより生成された画像である。画像Ｇ３に対して関連付けられるバウンディングボックスＢＢ３１～ＢＢ３５は、画像Ｇ１上に示されたバウンディングボックスＢＢ１１～ＢＢ１５を同様に垂直反転させることにより生成される。

【0068】

また、画像Ｇ４は、画像Ｇ１を回転させることにより生成された画像である。画像Ｇ４に対して関連付けられるバウンディングボックスＢＢ４１～ＢＢ４５は、画像Ｇ１上に示されたバウンディングボックスＢＢ１１～ＢＢ１５を同様に回転させることにより生成される。

【0069】

また、画像Ｇ５は、画像Ｇ１を移動させることにより生成された画像である。画像Ｇ５に対して関連付けられるバウンディングボックスＢＢ５１～ＢＢ５５は、画像Ｇ１上に示されたバウンディングボックスＢＢ１１～ＢＢ１５を同様に移動させることにより生成される。

【0070】

また、画像Ｇ６は、画像Ｇ１を拡大することにより生成された画像である。画像Ｇ６に対して関連付けられるバウンディングボックスＢＢ６１～ＢＢ６５は、画像Ｇ１上に示されたバウンディングボックスＢＢ１１～ＢＢ１５を同様に拡大することにより生成される。

【0071】

また、画像Ｇ７は、画像Ｇ１を縮小することにより生成された画像である。画像Ｇ７に対して関連付けられるバウンディングボックスＢＢ７１～ＢＢ７５は、画像Ｇ１上に示されたバウンディングボックスＢＢ１１～ＢＢ１５を同様に縮小することにより生成される。

【0072】

また、画像Ｇ８は、画像Ｇ１から切り出すことにより生成された画像である。画像Ｇ８に対して関連付けられるバウンディングボックスＢＢ８１～ＢＢ８５は、画像Ｇ１上に示されたバウンディングボックスＢＢ１１～ＢＢ１５から同様に切り出すことにより生成される。

【0073】

学習部２１１は、このように、取得した画像Ｇ１に対して事前処理およびデータオーギュメンテーション処理を施した画像Ｇ１～Ｇ８を、教師データとして用いる。

【0074】

（ステップＳ２０２）
図６のステップＳ２０２において、学習部２１１は、各画像について、関連付けられた複数の把持候補位置ＣＰのうち所定数を正解として選択する。所定数は、推測モデル２２１から出力する把持候補位置ＣＰの個数であり、ここでは、３である。また、所定数の把持候補位置ＣＰを選択する手法は、ここでは、ランダムであるとするが、その他の手法により所定数の把持候補位置ＣＰを選択してもよい。図９の例では、学習部２１１は、各画像Ｇｉ（ｉ＝１、２、・・・、８）について、バウンディングボックスＢＢｉ１～ＢＢｉ５のうちランダムに３つを正解として選択する。

【0075】

（ステップＳ２０３）
ステップＳ２０３において、学習部２１１は、ステップＳ２０２で選択した複数の把持候補位置ＣＰを正解として、推測モデル２２１を学習させる。具体的には、学習部２１１は、画像Ｇ１～Ｇ８をそれぞれ入力として、正解として選択した３つのバウンディングボックスＢＢおよびその把持成功確率ｐを出力するよう、推測モデル２２１を学習させる。

【0076】

（ステップＳ２０４）
ステップＳ２０４において、学習部２１１は、学習を終了するか否かを判断する。ステップＳ２０４でＮｏと判断された場合、学習部２１１は、ステップＳ２０２からの処理を繰り返す。例えば、ステップＳ２０４では、繰り返し回数が閾値を超えたか否かに基づいて、学習を終了するか否かを判断してもよい。また、ステップＳ２０４では、入力装置を介して入力されるユーザの指示に基づいて、学習を終了するか否かを判断してもよい。

【0077】

ここで、繰り返し処理においてステップＳ２０２でランダムに選択される所定数の把持候補位置ＣＰは、前回のステップＳ２０２で選択された所定数の把持候補位置ＣＰとは異なる可能性が高い。したがって、学習装置２０は、同一の画像について正解となる把持候補位置ＣＰの組み合わせを変えながら学習を繰り返すことができ、推測モデル２２１の推測精度を向上させることができる。

【0078】

＜把持位置の決定処理＞
次に、ステップＳ１０８における把持位置の決定処理の詳細について説明する。図１０は、把持位置の決定処理の詳細な流れを示すフローチャートである。

【0079】

（ステップＳ３０１）
ステップＳ３０１において、推測部１１２は、複数の把持候補位置ＣＰの各々に関する把持成功確率ｐを取得する。具体的には、推測部１１２は、ステップＳ１０７において推測モデル２２１から出力された出力情報ｇを参照し、当該出力情報ｇに含まれる把持成功確率ｐを取得すればよい。

【0080】

（ステップＳ３０２）
ステップＳ３０２において、決定部１１３は、把持成功確率ｐを参照して把持位置を決定する。例えば、決定部１１３は、把持成功確率ｐが最大の把持候補位置ＣＰを、把持位置として決定する。

【0081】

以上のように、本実施形態に係る把持システム１は、推測モデル２２１を用いて複数の把持候補位置ＣＰおよび各位置の把持成功確率ｐを推測し、そのうち、把持成功確率ｐが最大の把持候補位置ＣＰを把持位置として決定する。これにより、把持システム１は、物体においてロボットアーム３０に把持させる把持位置として、把持に成功する可能性がより高い把持位置を決定することができる。

【0082】

〔変形例２〕
上述した実施形態に係る把持システム１は、決定部１１３による把持位置の決定処理を、以下の通り変形することが可能である。

【0083】

決定部１１３は、複数の把持候補位置ＣＰの各々について、当該把持候補位置ＣＰを特定する画像上の領域（バウンディングボックスＢＢ）と、画像上で物体を示す物体領域との関係性に応じた評価値を算出する。また、決定部１１３は、算出した評価値を参照して把持位置を決定する。ここで、バウンディングボックスＢＢと物体領域との関係性とは、（ｉ）バウンディングボックスＢＢの面積と、当該バウンディングボックスＢＢにおいて物体領域が占める部分領域の面積との関係、（ｉｉ）バウンディングボックスＢＢが沿う第１方向と、上述した部分領域が沿う第２方向との関係、および（ｉｉｉ）バウンディングボックスＢＢの中心と、上述した部分領域の中心との関係、のうち一部または全部を含む。これらの関係性の詳細については後述する。

【0084】

本変形例に係る把持システム１では、図２のステップＳ１０８における把持位置の決定処理が、以下のように変形される。図１１は、本変形例における把持位置の決定処理の詳細な流れを示すフローチャートである。制御装置１０の決定部１１３は、ステップＳ１０７で得られた複数の把持候補位置ＣＰの各々について、ステップＳ４０１～Ｓ４０５の処理を実行する。

【0085】

（ステップＳ４０１）
ステップＳ４０１において、決定部１１３は、当該把持候補位置ＣＰを特定するバウンディングボックスＢＢと上述した部分領域との関係を表す情報を求める。具体的には、決定部１１３は、当該関係を表す情報として、面積比α２を算出する。

【0086】

図１２は、バウンディングボックスＢＢと物体領域ＡＡとの関係性を説明するための模式図である。図１２において、面積比α２は、バウンディングボックスＢＢの面積に対する部分領域Ａの面積の割合である。部分領域Ａは、物体領域ＡＡ（太線で囲まれた領域）のうち、バウンディングボックスＢＢに含まれる部分である。決定部１１３は、バウンディングボックスＢＢにおける部分領域Ａを検出し、面積比α２を算出する。面積比α２は、次式（２）によって算出される。

【0087】

α２＝[部分領域Ａの面積]／［ｗ＊ｈ］・・・（２）
式（２）において、「／」は除算を表し、「＊」は乗算を表す。ｗ、ｈは、バウンディングボックスＢＢの長辺および短辺の長さである。式（２）により算出される面積比α２がとりうる範囲は、０以上１以下である。

【0088】

ここで、上述した面積比α２は、当該バウンディングボックスＢＢが特定する把持候補位置ＣＰを評価する指標となる。具体的には、面積比α２は、把持動作速度に影響を与える。

【0089】

例えば、面積比α２が小さいほど、把持動作速度が遅くなると考えられる。ここで、把持動作速度とは、指部３４ａ、３４ｂが閉じる動作を開始してから物体表面に接触するまでの時間の長さである。面積比α２が小さいほど、バウンディングボックスＢＢの少なくとも一方の短辺から部分領域Ａの境界線までの距離が長くなり、指部３４ａ、３４ｂの少なくとも一方が物体表面に接触するまでの時間が長くなる。

【0090】

したがって、面積比α２が大きいほど、把持動作速度が向上するため、把持候補位置ＣＰの評価が高くなる。

【0091】

（ステップＳ４０２）
ステップＳ４０２において、決定部１１３は、当該把持候補位置ＣＰを特定するバウンディングボックスＢＢについて、バウンディングボックスＢＢが沿う第１方向と部分領域Ａが沿う第２方向との関係を表す情報を求める。具体的には、決定部１１３は、当該関係を表す情報として、把持角度α３を算出する。図１２に示す例では、把持角度α３は、第１方向ｄ１と第２方向ｄ２とがなす角度である。把持角度α３は、次式（３）により算出される。

【0092】

【数1】

ここで、「・」は内積を表す。また、「｜ｄ１｜」は、第１方向ｄ１（ベクトルｄ１）の大きさを表し、「｜ｄ２｜」は、第２方向ｄ２（ベクトルｄ２）の大きさを表す。

【0093】

把持角度α３を算出するため、決定部１１３は、第１方向ｄ１として、バウンディングボックスＢＢの長辺が沿う方向を検出する。第１方向ｄ１は、ロボットアーム３０が把持動作を行う方向（ここでは、ハンド部３４の指部３４ａ、３４ｂの開閉方向）に相当する。また、決定部１１３は、第２方向ｄ２として、部分領域Ａが沿う方向を検出する。第２方向ｄ２は、把持候補位置ＣＰにおける物体の軸方向に相当する。第２方向ｄ２を検出する手法としては、画像を用いて物体の軸方向を検出する公知の技術を採用可能である。なお、第１方向ｄ１および第２方向ｄ２は、上述したα３が０以上π／２以下となるように検出されるものとする。

【0094】

ここで、上述した把持角度α３は、当該バウンディングボックスＢＢが特定する把持候補位置ＣＰを評価する指標となる。例えば、当該把持角度α３がπ／２に近いほど、ハンド部３４の開閉方向と物体ｏｂｊの軸方向とが直交に近くなり、把持が容易になると考えられる。また、把持角度α３が０に近いほど、ハンド部３４の開閉方向と物体ｏｂｊの軸方向とが並行に近くなり、把持が難しくなると考えられる。したがって、把持角度α３が大きいほど、把持候補位置ＣＰの評価が高くなる。

【0095】

（ステップＳ４０３）
ステップＳ４０３において、決定部１１３は、当該把持候補位置ＣＰを特定するバウンディングボックスＢＢについて、当該バウンディングボックスＢＢの中心と部分領域Ａの中心との関係を表す情報を求める。具体的には、決定部１１３は、これらの中心間の関係を表す情報として、中心距離α４を求める。図１２に示す例では、中心距離α４は、バウンディングボックスＢＢの中心Ｃ１と部分領域Ａの中心Ｃ２との距離である。中心距離α４は、次式（４）によって算出される。

【0096】

【数2】

ここで、図１２に示すように、ｘ１，ｙ１は中心Ｃ１の座標であり、ｘ２，ｙ２は中心Ｃ２の座標である。式（４）によって算出される中心距離α４がとりうる範囲は、０以上である。

【0097】

決定部１１３は、中心Ｃ１の座標（ｘ１，ｙ１）として、当該バウンディングボックスＢＢを示す６つのパラメータに含まれるパラメータｘ，ｙの値を取得する。また、決定部１１３は、中心Ｃ２の座標（ｘ２，ｙ２）として、物体ｏｂｊの重心に相当する画像Ｇ上の座標を検出する。重心に相当する座標を検出する手法としては、画像を用いて物体の重心を検出する公知の技術を採用可能である。

【0098】

ここで、中心距離α４は、当該バウンディングボックスＢＢが特定する把持候補位置ＣＰを評価する指標となる。例えば、中心距離α４が０に近いほど、指部３４ａ、３４ｂを開いた状態のハンド部３４の中心付近に物体が存在する可能性が高い。このため、把持が容易になると考えられる。したがって、中心距離α４が小さいほど、把持候補位置ＣＰの評価が高くなる。

【0099】

（ステップＳ４０４）
ステップＳ４０４において、決定部１１３は、当該把持候補位置ＣＰを特定するバウンディングボックスＢＢについて把持成功確率α１を取得する。決定部１１３は、ステップＳ１０７において推測モデル２２１から出力される出力情報ｇを参照して、把持成功確率ｐを取得すればよい。

【0100】

（ステップＳ４０５）
ステップＳ４０５において、決定部１１３は、当該把持候補位置ＣＰを評価する評価値αを算出する。評価値αは、次式（５）によって算出される。

【0101】

α＝ｗ１＊α１＋ｗ２＊α２＋ｗ３＊α３＋ｗ４＊α４・・・（５）
ここで、ｗ１、ｗ２、ｗ３、ｗ４は、重み付け係数である。また、「＊」は乗算を表す。ここでは、本実施形態では、評価値は大きいほど評価が高い、すなわち、大きいほど把持が容易であるとする。この場合、把持成功確率α１は大きいほど評価が高いため、係数ｗ１は正である。また、面積比α２は大きいほど評価が高いため、係数ｗ２は正である。また、把持角度α３は大きい（π／２に近い）ほど評価が高いため、係数ｗ３は正である。また、中心距離α４は小さい（０に近い）ほど評価が高いため、係数ｗ４は負である。なお、評価値を算出する計算式は、上述した式（５）に限定されない。

【0102】

各把持候補位置ＣＰについてステップＳ４０１～Ｓ４０５の処理が完了すると、次のステップＳ４０６の処理が実行される。

【0103】

（ステップＳ４０６）
ステップＳ４０６において、決定部１１３は、評価値αを参照して把持位置を決定する。例えば、決定部１１３は、評価値αが最大の把持候補位置ＣＰを、把持位置として決定する。

【0104】

以上のように、本変形例に係る把持システム１は、推測モデル２２１を用いて複数の把持候補位置ＣＰを推測してそれぞれの評価値を算出し、そのうち、評価値が最大の把持候補位置ＣＰを把持位置として決定する。これにより、把持システム１は、物体においてロボットアーム３０に把持させる把持位置として、評価がより高い把持位置を決定することができる。

【0105】

〔変形例３〕
上述した実施形態に係る把持システム１は、決定部１１３による把持位置の決定処理を、以下の通り変形することが可能である。

【0106】

決定部１１３は、複数の把持候補位置ＣＰの各々を、当該把持候補位置ＣＰを特定する画像上の領域（バウンディングボックスＢＢ）と、画像上で物体を示す物体領域ＡＡとの関係性に応じて修正する。また、決定部１１３は、修正後の複数の把持候補位置ＣＰを参照して、把持位置を決定する。ここで、バウンディングボックスＢＢと物体領域ＡＡとの関係性については、変形例２において図１２を参照して説明した通りである。

【0107】

本変形例に係る把持システム１では、図２のステップＳ１０８における把持位置の決定処理が、以下のように変形される。

【0108】

図１３は、本変形例における把持位置の決定処理の詳細な流れを示すフローチャートである。また、図１４は、当該決定処理の各ステップにおける処理の具体例を説明する図である。なお、以下の説明では、「把持候補位置ＣＰを修正する」ことを、単に「バウンディングボックスＢＢを修正する」、とも記載する。

【0109】

（ステップＳ５０１）
図１３に示すステップＳ５０１において、制御装置１０の決定部１１３は、ステップＳ１０７で得られた複数の把持候補位置ＣＰのうち、面積比α２が所定範囲外の把持候補位置ＣＰを除外する。これにより、決定部１１３は、推測モデル２２１から得られた複数の把持候補位置ＣＰのうちノイズの可能性が高いものを除去する。

【0110】

ここで、面積比α２は、把持候補位置ＣＰが、推測モデル２２１が出力したノイズであるか否かを判断する指標ともなる。例えば、面積比α２が１に近い場合、指部３４ａ、３４ｂの配置位置が物体の表面に近いため、ハンド部３４と物体とが干渉する可能性があり、物体を把持できない可能性が高い。また、例えば、面積比α２が０に近い場合、ハンド部３４により把持される部分が小さすぎるため、物体を把持できない可能性が高い。換言すると、面積比α２が１または０に近い把持候補位置ＣＰは、推測モデル２２１から出力されたノイズであるとみなすことができる。

【0111】

具体的には、決定部１１３は、各把持候補位置ＣＰを特定するバウンディングボックスＢＢについて、変形例２のステップＳ４０１と同様に動作して面積比α２を算出する。また、決定部１１３は、面積比α２が次式（６）を満たさないバウンディングボックスＢＢを除外する。

【0112】

ｒ１≦α２≦ｒ２（ただし、０＜ｒ１＜ｒ２＜１）・・・（６）
式（６）において、ｒ１およびｒ２は、所定範囲の下限および上限を示す定数である。下限ｒ１の一例として、０．２が考えられる。また、上限ｒ２の一例として、０．８が考えられる。ただし、ｒ１およびｒ２は、上述した値に限られない。

【0113】

当該ステップの処理の一例を、図１４を参照して説明する。図１４に示す画像Ｇ１１には、ステップＳ１０７において推測された複数の把持候補位置ＣＰを特定するバウンディングボックスＢＢ１～ＢＢ８が図示されている。なお、図１４に示す例では、推測モデル２２１は、８つの把持候補位置ＣＰを示す情報を出力するよう学習されている。

【0114】

ここで、バウンディングボックスＢＢ１には、物体ｏｂｊ１を示す物体領域ＡＡが含まれていないため、面積比α２として０が算出される。また、バウンディングボックスＢＢ２は、物体ｏｂｊ１を示す物体領域ＡＡに包含されているため、面積比α２として１が算出される。したがって、当該ステップにおいて、決定部１１３は、バウンディングボックスＢＢ１およびＢＢ２を除外する。図１４に示す画像Ｇ１２は、ステップＳ５０１で除外されずに残った６つのバウンディングボックスＢＢ３～ＢＢ８を示している。

【0115】

前述したように、面積比α２が１または０に近い場合、そのような把持候補位置ＣＰは、推測モデル２２１から出力されたノイズの可能性がある。したがって、当該ステップの処理により、ノイズの可能性が高い把持候補位置ＣＰが除外される。

【0116】

（ステップＳ５０２）
図１３に示すステップＳ５０２において、決定部１１３は、ステップＳ５０１で残った１または複数の把持候補位置ＣＰのうち、所定値以上となるよう把持候補位置ＣＰの把持角度α３を修正する。具体的には、決定部１１３は、各把持候補位置ＣＰを特定するバウンディングボックスＢＢ３～ＢＢ８について、変形例２のステップＳ４０２と同様に動作して把持角度α３を算出する。また、決定部１１３は、把持角度α３が次式（７）を満たさないバウンディングボックスＢＢについて、その第１方向ｄ１を修正することにより把持角度α３を修正する。

【0117】

α３≦θ１（ただし、０＜θ１＜π／２）・・・（７）
θ１は、把持角度α３を修正するか否かを判定するための閾値であり、例えば、π／４である。ただし、θ１の値は、これに限られない。

【0118】

当該ステップの処理の一例を、図１４を参照して説明する。図１４に示す画像Ｇ１２において、バウンディングボックスＢＢ７は、把持角度α３がθ１（π／４）より小さいとする。そこで、決定部１１３は、バウンディングボックスＢＢ７が沿う第１方向ｄ１を、把持角度α３がθ１以上となるよう修正する。図１４に示す画像Ｇ１３は、当該ステップの処理後のバウンディングボックスＢＢ３～ＢＢ８を示している。画像Ｇ１３では、バウンディングボックスＢＢ７の把持角度α３が、θ１（π／４）以上であるπ／２に修正されている。

【0119】

前述したように、把持角度α３がπ／２に近いほど把持が容易になり、０に近いほど把持が難しくなると考えられる。したがって、当該ステップの処理により、把持角度α３が適切でない把持候補位置ＣＰについて、当該把持角度α３が改善される。

【0120】

（ステップＳ５０３）
図１３に示すステップＳ５０３において、決定部１１３は、ステップＳ５０２の処理後の各把持候補位置ＣＰについて、所定値以上となるよう面積比α２を修正する。具体的には、決定部１１３は、各把持候補位置ＣＰを特定するバウンディングボックスＢＢ３～ＢＢ８について、変形例２のステップＳ４０１と同様に動作して面積比α２を算出する。また、決定部１１３は、面積比α２が次式（８）を満たさないバウンディングボックスＢＢを縮小することにより、面積比α２を修正する。

【0121】

α２≧ｒ３（ただし、ｒ１＜ｒ３＜ｒ２）・・・（８）
ｒ３は、面積比α２を修正するか否かを判定するための閾値であり、例えば、０．５である。ただし、ｒ３の値は、これに限られない。

【0122】

当該ステップの処理の一例を、図１４を参照して説明する。図１４に示す画像Ｇ１３において、６つのバウンディングボックスＢＢ３～ＢＢ８の各面積比α２は、全て所定値ｒ３未満であるとする。この場合、決定部１１３は、バウンディングボックスＢＢ３～ＢＢ８をそれぞれ縮小して、面積比α２がｒ３以上となるようにする。ここでは、決定部１１３は、バウンディングボックスＢＢ３～ＢＢ８各々について、短辺および長辺を縮小している。なお、決定部１１３は、短辺および長辺を縮小する際に、アスペクト比を維持してもよいし、維持しなくてもよい。また、決定部１１３は、バウンディングボックスＢＢ３～ＢＢ８各々または何れかについて、短辺および長辺の一方を縮小し、他方を拡縮しなくてもよい。また、バウンディングボックスＢＢ３～ＢＢ８の各々を縮小する基準点は、中心Ｃ１であってもよいし、それ以外の点であってもよい。図１４に示す画像Ｇ１４は、当該ステップの処理後のバウンディングボックスＢＢ３～ＢＢ８を示している。画像Ｇ１４では、バウンディングボックスＢＢ３～ＢＢ８の長辺および短辺の長さが、画像Ｇ１２における長さより縮小され、それぞれ面積比α２が所定値ｒ３以上となっている。

【0123】

前述したように、面積比α２が小さいと、把持動作速度が遅くなる。したがって、当該ステップの処理により、修正された把持候補位置ＣＰにおいて、把持動作速度が改善される。

【0124】

（ステップＳ５０４）
ステップＳ５０４において、決定部１１３は、ステップＳ５０３の処理後の各把持候補位置ＣＰについて、把持角度α３を修正する。具体的には、決定部１１３は、バウンディングボックスＢＢ３～ＢＢ８がそれぞれ沿う第１方向ｄ１を修正し、把持角度α３を全て最適値（例えば、π／２）にする。これにより、全ての把持候補位置ＣＰについて、把持角度α３が最適化される。

【0125】

なお、決定部１１３は、ステップＳ５０２の処理を省略してもよい。この場合、決定部１１３は、ステップＳ５０４の処理を、ステップＳ５０３の処理の前に実行してもよい。

【0126】

（ステップＳ５０５）
ステップＳ５０５において、決定部１１３は、修正後の複数の把持候補位置ＣＰのうち、それぞれの把持成功確率ｐを参照して何れかを把持位置として決定する。なお、決定部１１３は、ステップＳ１０７において推測モデル２２１から出力される出力情報ｇを参照して、把持成功確率ｐを取得すればよい。具体的には、決定部１１３は、ステップＳ５０１～Ｓ５０４の処理が施されたバウンディングボックスＢＢ３～ＢＢ８のうち、把持成功確率ｐが最大のものを選択する。

【0127】

以上のように、本変形例に係る把持システム１は、推測モデル２２１を用いて複数の把持候補位置ＣＰを推測してそれぞれを修正し、修正した複数の把持候補位置ＣＰのうち把持成功確率ｐが最大の把持候補位置ＣＰを把持位置として決定する。これにより、把持システム１は、物体においてロボットアーム３０に把持させる把持位置として、把持成功確率ｐがより高く、かつ、より容易に把持可能な把持位置を決定することができる。

【0128】

〔その他の変形例〕
なお、上述した実施形態および各変形例において、ステップＳ１０８における把持位置の決定処理では、把持成功確率ｐまたは評価値αが最大の把持候補位置ＣＰを、把持位置として決定する例について説明した。ただし、決定部１１３は、把持成功確率ｐまたは評価値αが必ずしも最大の把持候補位置ＣＰを把持位置として決定しなくてもよい。例えば、決定部１１３は、把持成功確率ｐまたは評価値αが閾値以上の把持候補位置ＣＰのうち何れかを把持位置として選択してもよい。

【0129】

また、上述した実施形態および各変形例において、推測モデル２２１が、ＣＮＮによって生成された学習済みモデルである例について説明した。ただし、推測モデル２２１は、その他の深層学習アルゴリズムによって生成されてもよい。例えば、推測モデル２２１を生成するアルゴリズムは、例えば、ＲＮＮ：Recurrent Neural Network、ＧＡＮ：Generative Adversarial Network等であってもよいが、これらに限られない。

【0130】

〔把持システム１の物理的構成〕
図１５は、把持システム１を構成する各装置の物理的構成を例示したブロック図である。

【0131】

（制御装置１０の物理的構成）
制御装置１０は、図１５に示すように、バス１１０と、プロセッサ１０１と、主メモリ１０２と、補助メモリ１０３と、通信インタフェース１０４と、入出力インタフェース１０５とを備えたコンピュータによって構成可能である。プロセッサ１０１、主メモリ１０２、補助メモリ１０３、通信インタフェース１０４、および入出力インタフェース１０５は、バス１１０を介して互いに接続されている。入出力インタフェース１０５には、入力装置１０６および出力装置１０７が接続されている。

【0132】

プロセッサ１０１としては、例えば、ＣＰＵ（Central Processing Unit）、マイクロプロセッサ、デジタルシグナルプロセッサ、マイクロコントローラ、またはこれらの組み合わせ等が用いられる。

【0133】

主メモリ１０２としては、例えば、半導体ＲＡＭ（random access memory）等が用いられる。

【0134】

補助メモリ１０３としては、例えば、フラッシュメモリ、ＨＤＤ（Hard Disk Drive）、ＳＳＤ（Solid State Drive）、またはこれらの組み合わせ等が用いられる。補助メモリ１０３には、上述した制御装置１０の動作をプロセッサ１０１に実行させるためのプログラムが格納されている。プロセッサ１０１は、補助メモリ１０３に格納されたプログラムを主メモリ１０２上に展開し、展開したプログラムに含まれる各命令を実行する。

【0135】

通信インタフェース１０４は、ネットワークに接続するインタフェースである。通信インタフェース１０４は、当該ネットワークを介して学習装置２０、ロボットアーム３０、および撮像装置４０のそれぞれとの通信を行う。

【0136】

入出力インタフェース１０５としては、例えば、ＵＳＢ（Universal Serial Bus）インタフェース、赤外線やBluetooth（登録商標）等の近距離通信インタフェース、またはこれらの組み合わせが用いられる。

【0137】

入力装置１０６としては、例えば、キーボード、マウス、タッチパッド、マイク、又はこれらの組み合わせ等が用いられる。出力装置１０７としては、例えば、ディスプレイ、プリンタ、スピーカ、又はこれらの組み合わせが用いられる。

【0138】

この例で、プロセッサ１０１および通信インタフェース１０４は、制御部１１を実現するハードウェア要素の一例である。また、主メモリ１０２および補助メモリ１０３は、記憶部１２を実現するハードウェア要素の一例である。

【0139】

（学習装置２０の物理的構成）
学習装置２０は、図１５に示すように、バス２１０と、プロセッサ２０１と、主メモリ２０２と、補助メモリ２０３と、通信インタフェース２０４とを備えたコンピュータによって構成可能である。プロセッサ２０１、主メモリ２０２、補助メモリ２０３、および通信インタフェース２０４は、バス２１０を介して互いに接続されている。

【0140】

プロセッサ２０１としては、例えば、ＣＰＵ（Central Processing Unit）、マイクロプロセッサ、デジタルシグナルプロセッサ、マイクロコントローラ、ＧＰＵ（Graphics Processing Unit）またはこれらの組み合わせ等が用いられる。

【0141】

主メモリ２０２としては、例えば、半導体ＲＡＭ（random access memory）等が用いられる。

【0142】

補助メモリ２０３としては、例えば、フラッシュメモリ、ＨＤＤ（Hard Disk Drive）、ＳＳＤ（Solid State Drive）、またはこれらの組み合わせ等が用いられる。補助メモリ２０３には、上述した学習装置２０の動作をプロセッサ２０１に実行させるためのプログラムが格納されている。プロセッサ２０１は、補助メモリ２０３に格納されたプログラムを主メモリ２０２上に展開し、展開したプログラムに含まれる各命令を実行する。

【0143】

通信インタフェース２０４は、ネットワークに接続するインタフェースである。通信インタフェース２０４は、当該ネットワークを介して制御装置１０との通信を行う。

【0144】

この例で、プロセッサ２０１および通信インタフェース２０４は、制御部２１を実現するハードウェア要素の一例である。また、主メモリ２０２および補助メモリ２０３は、記憶部２２を実現するハードウェア要素の一例である。

【0145】

本発明は上述した各実施形態に限定されるものではなく、請求項に示した範囲で種々の変更が可能であり、異なる実施形態にそれぞれ開示された技術的手段を適宜組み合わせて得られる実施形態についても本発明の技術的範囲に含まれる。

【0146】

〔まとめ〕
本発明の一態様に係る制御装置は、物体を被写体として含む画像を取得する取得部と、前記画像を入力とする推測モデルを用いて、前記物体の複数の把持候補位置を推測する推測部と、前記複数の把持候補位置を参照して、把持装置に前記物体を把持させる把持位置を決定する決定部と、を備えている。

【0147】

上記構成により、推測モデルを用いて推測した複数の把持候補位置を参照して把持位置を決定するので、把持位置を精度よく決定することができる。

【0148】

上述した一態様に係る制御装置において、前記推測モデルから出力される情報は、前記複数の把持候補位置の各々を特定する前記画像上の領域を示す情報を含み、前記決定部は、前記複数の把持候補位置の各々について、前記画像上の領域と、前記画像上で前記物体を示す物体領域との関係性に応じた評価値を算出し、算出した評価値を参照して前記把持位置を決定する、ことが好ましい。

【0149】

上記構成により、各把持候補位置と物体との関係性が反映された評価値を参照するので、把持位置をより精度よく決定することができる。

【0150】

上述した一態様に係る制御装置において、前記推測モデルから出力される情報は、前記複数の把持候補位置の各々を特定する前記画像上の領域を示す情報を含み、前記決定部は、前記複数の把持候補位置の各々を、前記画像上の領域と、前記画像上で前記物体を示す物体領域との関係性に応じて修正し、修正後の前記複数の把持候補位置を参照して、前記把持位置を決定する、ことが好ましい。

【0151】

上記構成により、物体との関係性に応じて修正した各把持候補位置を参照するので、把持位置をより精度よく決定することができる。

【0152】

上述した一態様に係る制御装置において、前記関係性は、前記画像上の領域の面積と当該領域において前記物体領域が占める部分領域の面積との関係、前記画像上の領域が沿う第１方向と前記部分領域が沿う第２方向との関係、および前記画像上の領域の中心と前記部分領域の中心との関係、のうち一部または全部を含む、ことが好ましい。

【0153】

上記構成において、画像上の領域と部分領域との関係が適切でない場合、当該把持候補位置は、把持が難しい把持位置を示している可能性がある。また、第１方向および第２方向の関係が適切でない場合、当該把持候補位置は、把持が難しい把持角度を示している可能性がある。また、画像上の領域の中心と物体領域の中心との関係が適切でない場合、当該把持候補位置は、把持が難しい把持位置を示している可能性がある。したがって、上記構成により、より確実に把持を維持できる把持位置を決定することが可能となる。

【0154】

上述した一態様に係る制御装置において、前記推測モデルから出力される情報は、前記複数の把持候補位置の各々に関する把持成功確率を含み、前記決定部は、前記把持成功確率を参照して前記把持位置を決定する、ことが好ましい。

【0155】

上記構成により、把持成功確率を参照するので、把持位置をより精度よく決定することができる。

【0156】

本発明の一態様に係る把持システムは、上述した制御装置と、前記画像を撮像する撮像装置と、前記把持装置と、を備え、制御装置は、前記決定部が決定した把持位置において前記物体を把持するよう前記把持装置を制御する制御部をさらに備える。

【0157】

上記構成により、把持装置に物体をより確実に把持させることができる。

【0158】

上述した本発明の一態様に係る把持システムは、前記推測モデルを、機械学習により生成する学習装置、をさらに備えている。

【0159】

上記構成により、把持位置をより精度よく決定するための推測モデルを生成することができる。

【0160】

本発明の一態様に係る方法は、１または複数のコンピュータが実行する方法であって、物体を被写体として含む画像を取得するステップと、前記画像を入力とする推測モデルを用いて、前記物体の複数の把持候補位置を推測するステップと、前記複数の把持候補位置を参照して、把持装置に前記物体を把持させる把持位置を決定するステップと、を含む。

【0161】

上記構成により、上述した制御装置と同様の効果を奏する。

【0162】

本発明の一態様に係るプログラムは、上述した制御装置として１または複数のコンピュータを機能させるためのプログラムであって、上記各部として１または複数のコンピュータを機能させる。

【0163】

上記構成により、上述した制御装置と同様の効果を奏する。

【0164】

【符号の説明】

【0165】

１把持システム
１０制御装置
２０学習装置
１１、２１制御部
１２、２２記憶部
１１１取得部
１１２推測部
１１３決定部
２１１学習部
２２１推測モデル
３０ロボットアーム
４０撮像装置
１０１、２０１プロセッサ
１０２、２０２主メモリ
１０３、２０３補助メモリ
１０４、２０４通信インタフェース
１０５入出力インタフェース
１０６入力装置
１０７出力装置
１１０、２１０バス

【図1】