特開2023-173603 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

青山学院大学 (神奈川県相模原市中央区淵野辺)

▶ セイコーエプソン株式会社の特許一覧

特開2023-173603物体の位置姿勢を認識する方法、システム、及び、コンピュータープログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8A
8B
9

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2023173603

(43)【公開日】2023-12-07

(54)【発明の名称】物体の位置姿勢を認識する方法、システム、及び、コンピュータープログラム

(51)【国際特許分類】

G06T 7/73 20170101AFI20231130BHJP

G06T 7/593 20170101ALI20231130BHJP

G01B 11/00 20060101ALI20231130BHJP

G01B 11/26 20060101ALI20231130BHJP

【ＦＩ】

G06T7/73

G06T7/593

G01B11/00 A

G01B11/26 H

【審査請求】未請求

【請求項の数】7

【出願形態】ＯＬ

(21)【出願番号】P 2022085963

(22)【出願日】2022-05-26

(71)【出願人】

【識別番号】000002369

【氏名又は名称】セイコーエプソン株式会社

(74)【代理人】

【識別番号】110000028

【氏名又は名称】弁理士法人明成国際特許事務所

(72)【発明者】

【氏名】林正樹

【テーマコード（参考）】

2F065

5L096

【Ｆターム（参考）】

2F065AA25

2F065AA53

2F065BB05

2F065DD03

2F065DD06

2F065FF01

2F065FF02

2F065FF05

2F065FF07

2F065FF08

2F065FF09

2F065HH05

2F065HH06

2F065HH07

2F065HH11

2F065JJ03

2F065JJ26

2F065MM01

2F065MM06

2F065MM13

2F065MM23

2F065PP04

2F065PP22

2F065QQ21

2F065QQ24

2F065QQ31

5L096AA02

5L096AA06

5L096AA09

5L096BA05

5L096BA18

5L096CA05

5L096CA27

5L096DA02

5L096FA02

5L096FA37

5L096FA66

5L096FA67

5L096FA69

5L096GA51

5L096HA09

5L096HA11

5L096JA09

5L096JA11

5L096KA04

5L096KA15

(57)【要約】（修正有）

【課題】深度推定器で深度を正しく推定できない場合にも、物体の位置姿勢を正しく認識する方法、システム及びコンピュータプログラムを提供する。
【解決手段】物体の位置姿勢を認識する方法は、カメラを用いて物体の物体画像を生成する工程Ｓ３０１と、物体画像を入力とし物体画像内の推定深度を出力とする深度推定器を用いて、物体の推定深度を求める工程Ｓ３０２と、物体画像から抽出される物体画像特徴量と、物体画像と、の少なくとも一方を入力とし推定深度の使用可否を出力とする識別器を用いて、推定深度の使用可否を決定する工程Ｓ３０４と、推定深度が使用可である場合には、推定深度と物体画像とを用いて物体の位置姿勢を認識する工程Ｓ３０６と、推定深度が使用不可である場合には、深度センサーを用いて物体の測定深度を求め、測定深度を用いて物体の位置姿勢を認識する工程Ｓ３０８と、を含む。
【選択図】図９

【特許請求の範囲】

【請求項1】

物体の位置姿勢を認識する方法であって、
（ａ）カメラを用いて前記物体を撮影することによって、物体画像を生成する工程と、
（ｂ）前記物体画像を入力とし前記物体画像内の推定深度を出力とする深度推定器を用いて、前記物体の推定深度を求める工程と、
（ｃ）前記物体画像から抽出される物体画像特徴量と、前記物体画像と、のうちの少なくとも一方を入力とし前記推定深度の使用可否を出力とする識別器を用いて、前記推定深度の使用可否を決定する工程と、
（ｄ）前記推定深度が使用可である場合には、前記推定深度と前記物体画像とを用いて前記物体の位置姿勢を認識する工程と、
（ｅ）前記推定深度が使用不可である場合には、深度センサーを用いて前記物体の測定深度を求め、前記測定深度と前記物体画像とを用いて前記物体の位置姿勢を認識する工程と、
を含む、方法。

【請求項2】

請求項１に記載の方法であって、
前記深度推定器を用いて前記推定深度を求める処理は、前記深度センサーを用いて前記測定深度を求める処理に比べて低精度かつ高速である、方法。

【請求項3】

請求項１に記載の方法であって、
前記工程（ａ）～（ｅ）の前に、前記深度推定器の学習を行う第１学習工程と、前記識別器の学習を行う第２学習工程と、を含み、
前記第１学習工程と前記第２学習工程のそれぞれは、前記物体の位置姿勢に応じてロボットによる前記物体のピッキング作業を行いながら学習用データを収集する工程を含む、方法。

【請求項4】

請求項３に記載の方法であって、
前記第１学習工程は、
（１ａ）前記カメラで前記物体を撮影することによって、第１学習用画像を生成する工程と、
（１ｂ）前記深度センサーを用いて、前記物体の第１学習用測定深度を求める工程と
（１ｃ）前記第１学習用測定深度と前記第１学習用画像とを用いて前記物体の位置姿勢を認識し、前記ロボットによる前記物体のピッキング作業を実行する工程と、
（１ｄ）前記工程（１ａ）～（１ｃ）を複数回実行することによって、前記第１学習用画像と前記第１学習用測定深度をそれぞれ含む複数の第１学習用データを生成する工程と、
（１ｅ）前記複数の第１学習用データを用いて、前記深度推定器の学習を実行する工程と、
を含む、方法。

【請求項5】

請求項３に記載の方法であって、
前記第２学習工程は、
（２ａ）前記カメラで前記物体を撮影することによって、第２学習用画像を生成する工程と、
（２ｂ）前記深度推定器を用いて、前記第２学習用画像から第２学習用推定深度を求める工程と、
（２ｃ）前記深度センサーを用いて、前記物体の第２学習用測定深度を求める工程と、
（２ｄ）前記第２学習用測定深度と前記第２学習用画像とを用いて前記物体の位置姿勢を認識し、前記ロボットによる前記物体のピッキング作業を実行する工程と、
（２ｅ）前記第２学習用推定深度と前記第２学習用測定深度との差分に応じて、前記第２学習用推定深度の使用可否を示すラベルを決定する工程と、
（２ｆ）前記識別器が前記物体画像特徴量を入力とするように構成されている場合に、前記第２学習用画像の学習用画像特徴量を抽出する工程と、
（２ｇ）前記工程（２ａ）～（２ｆ）を複数回実行することによって、前記ラベルと、前記学習用画像特徴量及び前記第２学習用画像の少なくとも一方と、をそれぞれ含む複数の第２学習用データを生成する工程と、
（２ｈ）前記複数の第２学習用データを用いて、前記識別器の学習を実行する工程と、
を含む、方法。

【請求項6】

物体の位置姿勢を認識するシステムであって、
前記物体を撮影するカメラと、
前記物体の深度を測定する深度センサーと、
前記物体の位置姿勢の認識処理を実行する認識部と、
を備え、
前記認識部は、
（ａ）前記カメラを用いて前記物体を撮影することによって、物体画像を生成する処理と、
（ｂ）前記物体画像を入力とし前記物体画像内の推定深度を出力とする深度推定器を用いて、前記物体の推定深度を求める処理と、
（ｃ）前記物体画像から抽出される物体画像特徴量と、前記物体画像と、のうちの少なくとも一方を入力とし前記推定深度の使用可否を出力とする識別器を用いて、前記推定深度の使用可否を決定する処理と、
（ｄ）前記推定深度が使用可である場合には、前記推定深度と前記物体画像とを用いて前記物体の位置姿勢を認識する処理と、
（ｅ）前記推定深度が使用不可である場合には、前記深度センサーを用いて前記物体の測定深度を求め、前記測定深度と前記物体画像とを用いて前記物体の位置姿勢を認識する処理と、
を実行する、システム。

【請求項7】

物体の位置姿勢を認識する処理をプロセッサーに実行させるコンピュータープログラムであって、
（ａ）カメラを用いて前記物体を撮影することによって、物体画像を生成する処理と、
（ｂ）前記物体画像を入力とし前記物体画像内の推定深度を出力とする深度推定器を用いて、前記物体の推定深度を求める処理と、
（ｃ）前記物体画像から抽出される物体画像特徴量と、前記物体画像と、のうちの少なくとも一方を入力とし前記推定深度の使用可否を出力とする識別器を用いて、前記推定深度の使用可否を決定する処理と、
（ｄ）前記推定深度が使用可である場合には、前記推定深度と前記物体画像とを用いて前記物体の位置姿勢を認識する処理と、
（ｅ）前記推定深度が使用不可である場合には、深度センサーを用いて前記物体の測定深度を求め、前記測定深度と前記物体画像とを用いて前記物体の位置姿勢を認識する処理と、
を前記プロセッサーに実行させる、コンピュータープログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本開示は、物体の位置姿勢を認識する方法、システム、及び、コンピュータープログラムに関する。

【背景技術】

【0002】

カメラを用いて物体の位置姿勢を認識して、ロボットでピッキング作業を行うロボットシステムが知られている。一般に、物体を認識する際には、通常の画像のみでなく、深度情報を利用する場合が多い。特許文献１には、深層学習による深度推定器を利用して、ステレオ画像や単眼画像から深度を推定する技術が開示されている。この技術では、１枚の撮影画像から深度を高速に取得できる。

【先行技術文献】

【特許文献】

【0003】

【特許文献1】国際公開第２０２０／２３０２１４号

【発明の概要】

【発明が解決しようとする課題】

【0004】

しかしながら、上記従来技術では、教師画像と大きく異なる画像を深度推定器に入力したときには、深度を正しく推定できないという問題があった。

【課題を解決するための手段】

【0005】

本開示の第１の形態によれば、物体の位置姿勢を認識する方法が提供される。この方法は、（ａ）カメラを用いて前記物体を撮影することによって、物体画像を生成する工程と、（ｂ）前記物体画像を入力とし前記物体画像内の推定深度を出力とする深度推定器を用いて、前記物体の推定深度を求める工程と、（ｃ）前記物体画像から抽出される物体画像特徴量と、前記物体画像と、のうちの少なくとも一方を入力とし前記推定深度の使用可否を出力とする識別器を用いて、前記推定深度の使用可否を決定する工程と、（ｄ）前記推定深度が使用可である場合には、前記推定深度と前記物体画像とを用いて前記物体の位置姿勢を認識する工程と、（ｅ）前記推定深度が使用不可である場合には、深度センサーを用いて前記物体の測定深度を求め、前記測定深度と前記物体画像とを用いて前記物体の位置姿勢を認識する工程と、を含む。

【0006】

本開示の第２の形態によれば、物体の位置姿勢を認識するシステムが提供される。このシステムは、前記物体を撮影するカメラと、前記物体の深度を測定する深度センサーと、前記物体の位置姿勢の認識処理を実行する認識部と、を備える。前記認識部は、（ａ）前記カメラを用いて前記物体を撮影することによって、物体画像を生成する処理と、（ｂ）前記物体画像を入力とし前記物体画像内の推定深度を出力とする深度推定器を用いて、前記物体の推定深度を求める処理と、（ｃ）前記物体画像から抽出される物体画像特徴量と、前記物体画像と、のうちの少なくとも一方を入力とし前記推定深度の使用可否を出力とする識別器を用いて、前記推定深度の使用可否を決定する処理と、（ｄ）前記推定深度が使用可である場合には、前記推定深度と前記物体画像とを用いて前記物体の位置姿勢を認識する処理と、（ｅ）前記推定深度が使用不可である場合には、前記深度センサーを用いて前記物体の測定深度を求め、前記測定深度と前記物体画像とを用いて前記物体の位置姿勢を認識する処理と、を実行する。

【0007】

本開示の第３の形態によれば、物体の位置姿勢を認識する処理をプロセッサーに実行させるコンピュータープログラムが提供される。このコンピュータープログラムは、（ａ）カメラを用いて前記物体を撮影することによって、物体画像を生成する処理と、（ｂ）前記物体画像を入力とし前記物体画像内の推定深度を出力とする深度推定器を用いて、前記物体の推定深度を求める処理と、（ｃ）前記物体画像から抽出される物体画像特徴量と、前記物体画像と、のうちの少なくとも一方を入力とし前記推定深度の使用可否を出力とする識別器を用いて、前記推定深度の使用可否を決定する処理と、（ｄ）前記推定深度が使用可である場合には、前記推定深度と前記物体画像とを用いて前記物体の位置姿勢を認識する処理と、（ｅ）前記推定深度が使用不可である場合には、深度センサーを用いて前記物体の測定深度を求め、前記測定深度と前記物体画像とを用いて前記物体の位置姿勢を認識する処理と、を前記プロセッサーに実行させる。

【図面の簡単な説明】

【0008】

【図1】実施形態におけるロボットシステムの構成を示す説明図。

【図2】実施形態における情報処理装置の機能ブロック図。

【図3】深度推定器の機能を示す説明図。

【図4】特徴量抽出部と識別器の機能を示す説明図。

【図5】認識部の機能を示す説明図。

【図6】物体の位置姿勢認識処理の全体手順を示すフローチャート。

【図7】ステップＳ１００の詳細な処理手順を示すフローチャート。

【図8A】ステップＳ２００の詳細な処理手順を示すフローチャート。

【図8B】ステップＳ２００の詳細な処理手順を示すフローチャート。

【図9】ステップＳ３００の詳細な処理手順を示すフローチャート。

【発明を実施するための形態】

【0009】

図１は、一実施形態におけるロボットシステムの一例を示す説明図である。このロボットシステムは、ロボット１００と、ロボット１００を制御する制御装置２００と、情報処理装置３００と、カメラ４１０と、深度センサー４２０と、作業台５００とを備える。情報処理装置３００は、例えばパーソナルコンピューターである。

【0010】

ロボット１００は、基台１１０と、ロボットアーム１２０と、を備えている。ロボットアーム１２０の先端部であるアームエンド１２２には、エンドエフェクターとしてのロボットハンド１５０が装着されている。ロボットハンド１５０は、ワークＷＫを把持することが可能なグリッパーや吸着パッドとして実現可能である。ロボットハンド１５０の先端部には、ロボット１００の制御点としてのＴＣＰ(Tool Center Point)が設定されている。なお、制御点ＴＣＰは、任意の位置に設定可能である。

【0011】

ロボットアーム１２０は、６つの関節Ｊ１～Ｊ６で順次接続されている。これらの関節Ｊ１～Ｊ６のうち、３つの関節Ｊ２，Ｊ３，Ｊ５は曲げ関節であり、他の３つの関節Ｊ１，Ｊ４，Ｊ６はねじり関節である。本実施形態では６軸ロボットを例示しているが、複数の関節を有する任意のロボットアーム機構を有するロボットを用いることが可能である。また、本実施形態のロボット１００は、垂直多関節ロボットであるが、水平多関節ロボットを使用してもよい。

【0012】

作業台５００には、第１トレイ５１０と第２トレイ５２０が設置されている。第１トレイ５１０には、複数のワークＷＫが収容される。第２トレイ５２０は、第１トレイ５１０から取り出されたワークＷＫを載置する場所として使用される。ロボット１００は、第１トレイ５１０からワークＷＫを取り出して、第２トレイ５２０に載置する作業を実行する。この際、ワークＷＫは、第２トレイ５２０内の予め定められた位置に、予め定められた姿勢で載置される。この作業を正確に行うため、ワークＷＫの位置姿勢の認識が実行される。ワークＷＫを「物体」とも呼ぶ。本実施形態では、同一仕様の複数の物体の位置姿勢を認識するが、仕様が異なる複数の物体の位置姿勢を認識する場合も本開示の内容を適用可能である。

【0013】

第１トレイ５１０の上方には、第１トレイ５１０内のワークＷＫの画像を撮影するカメラ４１０が設置されている。カメラ４１０で撮影された画像と、深度センサー４２０で測定された深度は、ワークＷＫの３次元的な位置及び姿勢を求めるために使用される。ワークＷＫの３次元的な位置及び姿勢を、以下では「位置姿勢」又は「物体の位置姿勢」と呼ぶ。

【0014】

カメラ４１０としては、例えば、ステレオカメラや単眼カメラを用いることができる。本実施形態では、カメラ４１０としてステレオ方式のＲＧＢカメラを用いる。後述するように、カメラ４１０で撮影された画像から、深度推定器を用いて深度を推定することが可能である。深度センサー４２０としては、深度推定器を用いて得られる推定深度よりも高精度に深度を測定できるセンサーを用いることが好ましい。このような深度センサー４２０としては、例えば、位相シフト法や空間コード法などのパターン投影法を利用したセンサーを利用可能である。パターン投影法を用いる場合には、視野内にパターンを投影するためのプロジェクターを有するセンサーが利用される。なお、カメラ４１０と深度センサー４２０を一体化したＲＧＢＤカメラを用いてもよい。ＲＧＢＤカメラは、ＲＧＢ画像を撮影するＲＧＢカメラと、深度画像（Depth image）を撮影するＤカメラと、を有するカメラである。

【0015】

図１には、ワールド座標系Σｗと、ロボット座標系Σｒと、カメラ座標系Σｃと、センサー座標系Σｓとが示されている。ワールド座標系ΣｗのＸ軸とＹ軸は水平方向の軸であり、Ｚ軸は鉛直方向の軸である。他の座標系についは、３つの座標軸を区別する符号は省略されている。ロボット座標系Σｒは、ロボット１００の予め定められた位置を座標原点とする直交座標系である。カメラ座標系Σｃは、カメラ４１０の予め定められた位置を座標原点とする直交座標系である。センサー座標系Σｓは、深度センサー４２０の予め定められた位置を座標原点とする直交座標系である。センサー座標系Σｓとカメラ座標系Σｃとの相対関係は既知であり、深度センサー４２０の視野内における深度は、カメラ４１０で撮影された画像内の画素位置に対応付けられる。また、カメラ４１０は予め校正されており、座標系Σｗ，Σｒ，Σｃのそれぞれにおける位置及び姿勢は、座標変換によって互いに変換可能である。

【0016】

図２は、情報処理装置３００の機能を示すブロック図である。情報処理装置３００は、プロセッサー３１０と、メモリー３２０と、インターフェイス回路３３０と、を有している。インターフェイス回路３３０には、入力デバイス３４０と表示デバイス３５０が接続されており、また、制御装置２００とカメラ４１０と深度センサー４２０も接続されている。

【0017】

プロセッサー３１０は、認識部６１０及びロボット制御実行部６２０としての機能を有する。認識部６１０は、カメラ４１０と深度センサー４２０を用いて、ワークＷＫの位置及び姿勢を認識する。認識部６１０は、深度推定器６１２と特徴量抽出部６１４と識別器６１６と位置姿勢認識部６１８の機能を含む。深度推定器６１２は、カメラ４１０で撮影した画像を入力として、画像内の深度を推定する処理を実行する。特徴量抽出部６１４は、カメラ４１０で撮影した画像から、予め定められた画像特徴量を抽出する。識別器６１６は、深度推定器６１２で得られた推定深度が、物体の位置姿勢の認識に使用できるか否かを識別する。位置姿勢認識部６１８は、推定深度又は測定深度と、物体の画像とを用いて、物体の位置姿勢を認識する処理を実行する。ロボット制御実行部６２０は、認識された物体の位置姿勢を利用して、物体のピッキング作業を実行する。認識部６１０とロボット制御実行部６２０の機能は、メモリー３２０に格納されたコンピュータープログラムをプロセッサー３１０が実行することによってそれぞれ実現される。但し、認識部６１０とロボット制御実行部６２０の機能の一部又は全部をハードウェア回路で実現してもよい。

【0018】

メモリー３２０には、ワークＷＫの外形を表すＣＡＤデータＣＤと、ワークＷＫの位置姿勢の算出に使用するテンプレートＴＰと、第１学習用データＬＤ１と、第２学習用データＬＤ２と、ロボット制御プログラムＲＰが格納される。第１学習用データＬＤ１は、深度推定器６１２の学習に用いられる教師データを含んでいる。第２学習用データＬＤ２は、識別器６１６の学習に用いられる教師データを含んでいる。ロボット制御プログラムＲＰは、ロボット１００を動作させる複数の命令で構成される。

【0019】

図３は、深度推定器６１２の機能を示す説明図である。本実施形態のカメラ４１０はステレオカメラなので、２つの画像Ｍ１，Ｍ２を含む物体画像ＩＭを作成する。「物体画像ＩＭ」とは、１つ以上のワークＷＫを含む撮像画像を意味する。深度推定器６１２は、カメラ４１０で撮影される任意の撮像画像を入力として、その撮像画像内の推定深度Ｄｅ（ｉ，ｊ）を出力する。（ｉ，ｊ）は、推定深度Ｄｅの２次元座標を示す。推定深度Ｄｅ（ｉ，ｊ）は、物体画像ＩＭと同じ解像度を有していることが好ましいが、物体画像ＩＭと異なる解像度を有していてもよい。

【0020】

深度推定器６１２は、機械学習モデルとして構成することができる。深度推定器６１２としては、例えば、上述した特許文献１に開示された深度推定器を用いてもよく、或いは、特許文献１の従来技術として説明されている非特許文献１（Iro Laina, Christian Rupprecht, Vasileios Belagianis, Federico Tombari, and Nassir Navab, "Deeper Depth Prediction with Fully Convolutional Residual Networks", In Proc. International Conference on 3D Vision (3DV), pp. 239-248, 2016）のFigure 1に開示されたニューラルネットワークを用いてもよい。更に、"End-to-End Learning of Geometry and Context for Deep Stereo Regression" (https://arxiv.org/abs/1703.04309) に記載されたステレオ深度推定を行うニューラルネットワーク構成を用いてもよい。この構成では、左右画像から特徴量を抽出する第１のネットワークと、視差を推定する第２のネットワークを接続して、最後に視差から深度に変換している（https://qiita.com/minh33/items/1cbcba8f40841997938f）。また、https://www.omron.com/jp/ja/technology/omrontechnics/2021/20211119-taniai.htmlni の「学習型のステレオマッチング」に記載されているニューラルネットワークを用いてもよい。

【0021】

図４は、特徴量抽出部６１４と識別器６１６の機能を示す説明図である。特徴量抽出部６１４は、物体画像ＩＭから物体画像特徴量Ｆｏを抽出する。物体画像特徴量Ｆｏとしては、例えば、物体画像ＩＭ内の輝度分布を表す指標を使用できる。輝度分布を表す指標を用いる理由は、外光の影響によって物体画像ＩＭの輝度が大きく変わると、物体画像ＩＭから得られる推定深度の精度が低下することが想定されるからである。本実施形態では、物体画像特徴量Ｆｏとして、輝度値ヒストグラムを用いる。１枚のＲＧＢ画像から得られる輝度値ヒストグラムは、Ｎを２以上の整数としたとき、ＲＧＢ画像の輝度値をＮ個のビンｆ_１～ｆ_Ｎにわけて集計したピクセル数Ｎｐを示す。物体画像ＩＭは２枚の画像Ｍ１，Ｍ２を含んでいるので、物体画像特徴量Ｆｏは２Ｎ個の特徴量を含んでいる。なお、輝度値ヒストグラム以外の画像特徴量を物体画像特徴量Ｆｏとして用いてもよい。例えば、輝度の平均値や分散のような輝度分布を表す他の指標を物体画像特徴量Ｆｏとして用いてもよい。また、画像のノイズ量を表す指標を物体画像特徴量Ｆｏとして用いてもよい。画像のノイズ量を表す指標としては、例えば、エッジ量や、画像を離散フーリエ変換して得られる複数の周波数成分を用いることが可能である。

【0022】

識別器６１６は、物体画像特徴量Ｆｏと物体画像ＩＭの少なくとも一方を入力として、深度推定器６１２で得られる推定深度Ｄｅの使用可否を示す識別結果ＤＲを出力する。識別器６１６は、機械学習モデルとして構成することができる。識別器６１６を構成する機械学習モデルとしては、決定木や、サポートベクターマシン（ＳＶＭ）、ランダムフォレスト、畳み込みニューラルネットワーク、ロジスティック回帰などの種々の分類モデルを使用可能である。

【0023】

図５は、認識部６１０の機能を示す説明図である。深度推定器６１２は、カメラ４１０で得られた物体画像ＩＭ（ｉ，ｊ）から推定深度Ｄｅ（ｉ，ｊ）を生成する。一方、深度センサー４２０は、深度測定を行うことによって測定深度Ｄｓ（ｉ，ｊ）を生成する。深度センサー４２０は、深度推定器６１２よりも高精度で深度が得られるものを使用することが好ましい。例えば、位相シフト法や空間コード法などのパターン投影法を利用した深度センサー４２０は、複数回の撮影を行うので処理に長時間を要するが、高精度に深度を測定できる。一方、深度推定器６１２は、深度センサー４２０よりも処理時間が短く、高速に深度が得られるものとすることが好ましい。また、深度推定器６１２は、ステレオブロックマッチングよりも高精度に深度が得られるものとすることが好ましい。推定深度Ｄｅ（ｉ，ｊ）と測定深度Ｄｓ（ｉ，ｊ）は、異なる解像度を有していてもよいが、本実施形態では、物体画像ＩＭ（ｉ，ｊ）と同じ解像度を有するものと仮定する。特徴量抽出部６１４は、物体画像ＩＭ（ｉ，ｊ）から物体画像特徴量Ｆｏを抽出する。識別器６１６は、物体画像特徴量Ｆｏと物体画像ＩＭの少なくとも一方を入力として、深度推定器６１２で得られる推定深度Ｄｅ（ｉ，ｊ）の使用可否を示す識別結果ＤＲを出力する。

【0024】

位置姿勢認識部６１８は、識別結果ＤＲに応じて、推定深度Ｄｅ（ｉ，ｊ）と測定深度Ｄｓ（ｉ，ｊ）のいずれかを選択的に使用して、物体の位置姿勢Ｐ(x, y, z, u, v, w)を認識する。この認識処理には、物体画像ＩＭも使用される。図５に描かれているスイッチＳＷは、位置姿勢認識部６１８による深度の選択機能を表している。なお、カメラ４１０の視野内に複数のワークが含まれている場合には、位置姿勢認識部６１８は、そのうちの少なくとも１つのワークについて、位置姿勢Ｐを認識することが好ましい。

【0025】

物体の位置姿勢Ｐ(x, y, z, u, v, w)は、例えば、ロボット座標系Σｒにおける位置(x, y, z)と姿勢(u, v, w)で表現される。姿勢(u, v, w)は、３軸廻りの回転角度で表される。なお、ロボット座標系Σｒの代わりに、ワールド座標系Σｗなどの他の座標系で物体の位置姿勢を表現するようにしてもよい。物体の位置姿勢Ｐの算出処理は、例えばテンプレートマッチングを利用して行われる。すなわち、物体のＣＡＤデータを用いて、物体の位置姿勢をシミュレーションすることによって、複数の位置姿勢毎にテンプレートＴＰを予め作成しておく。位置姿勢認識部６１８は、物体画像ＩＭと推定深度Ｄｅ又は測定深度Ｄｓから点群を算出し、点群に対してテンプレートマッチングを行うことによって物体を検出し、その位置姿勢Ｐを認識又は推定する。点群とは、３次元座標値で表現される点の集合である。なお、テンプレートマッチングの代わりに、他の方法を用いて物体の位置姿勢Ｐを認識してもよい。例えば、畳み込みニューラルネットワークなどの機械学習モデルを用いて物体の位置姿勢Ｐを認識してもよい。

【0026】

図６は、ロボット１００のピッキング作業において実行される物体の位置姿勢の認識処理の全体手順を示すフローチャートである。ステップＳ１００では、認識部６１０が、深度センサー４２０で測定された測定深度Ｄｓを用いて物体の位置姿勢を認識し、更に、深度推定器６１２の学習を実行する。ステップＳ２００では、認識部６１０が、深度センサー４２０で測定された測定深度Ｄｓと、深度推定器６１２で得られた推定深度Ｄｅをそれぞれ用いて物体の位置姿勢を認識し、更に、識別器６１６の学習を実行する。ステップＳ３００では、認識部６１０が、識別器６１６の識別結果に応じて、深度推定器６１２で得られた推定深度Ｄｅと深度センサー４２０で測定された測定深度Ｄｓのいずれかを選択的に用いて、物体の位置姿勢を認識する。

【0027】

ステップＳ１００を「第１学習工程」とも呼び、ステップＳ２００を「第２学習工程」とも呼ぶ。第１学習工程と第２学習工程では、ロボット１００による物体のピッキング作業を行いながら学習用データを収集することが好ましい。こうすれば、物体のピッキング作業を実際に行いながら深度推定器６１２と識別器６１６の学習をそれぞれ実行できる。また、ばら積みされた複数の物体をピッキングする場合には、１つの物体をピッキングすると、次の物体の位置姿勢を認識するための新たなシーンとなる。従って、ばら積みされた複数の物体を１つずつピッキングしながら学習用データを順次収集することができる。また、物体が多いシーンと少ないシーンでは物体の深度が異なるので、異なる深度についての学習用データを作成できるという利点がある。以下では、ステップＳ１００，Ｓ２００，Ｓ３００の詳細手順を順に説明する。

【0028】

図７は、ステップＳ１００の詳細な処理手順を示すフローチャートである。ステップＳ１０１では、認識部６１０が、カメラ４１０を用いて物体を撮影することによって、物体画像ＩＭを生成する。ステップＳ１０２では、認識部６１０が、深度センサー４２０を用いた測定を行うことによって、測定深度Ｄｓを取得する。ステップＳ１０３では、位置姿勢認識部６１８が、測定深度Ｄｓを用いて物体の位置姿勢を認識する。即ち、位置姿勢認識部６１８は、測定深度Ｄｓと物体画像ＩＭとを用いて物体の位置姿勢を認識する。ステップＳ１０４では、ロボット制御実行部６２０が、物体の位置姿勢を用いて物体のピッキング作業を実行する。なお、ステップＳ１０４は省略してもよい。

【0029】

ステップＳ１０５では、認識部６１０が、第１学習用データＬＤ１が十分に蓄積されたか否かを判断する。第１学習用データＬＤ１は、深度推定器６１２の学習に用いられる学習データであり、物体画像ＩＭと測定深度Ｄｓとを含んでいる。第１学習用データＬＤ１が十分に蓄積されていない場合には、ステップＳ１０６に進み、認識部６１０が、物体画像ＩＭと測定深度Ｄｓを含むデータセットを第１学習用データＬＤ１としてメモリー３２０に保存する。その後、ステップＳ１０１に戻ってステップＳ１０１以降の処理が再度実行される。一方、第１学習用データＬＤ１が十分に蓄積された場合には、ステップＳ１０７に進み、認識部６１０が、第１学習用データＬＤ１を用いて深度推定器６１２の学習を実行する。なお、図７に示したステップの実行順序は一例であり、必要に応じて変更してもよい。例えば、深度推定器６１２の学習は、第１学習用データＬＤ１の新たなデータセットが得られる度に実行するものとしてもよい。この場合にも、複数のデータセットを含む第１学習用データＬＤ１を用いて深度推定器６１２の学習を実行する点ではステップＳ１０７の処理と等価である。ステップＳ１０７における学習が終了すると、ステップＳ１００の処理も終了する。なお、ステップＳ１０７における学習は、バックグラウンド処理として実行することが好ましい。この場合に、ステップＳ１０７は、後述するステップＳ２００と並行して実行してもよい。

【0030】

図８Ａと図８Ｂは、ステップＳ２００の詳細な処理手順を示すフローチャートである。ステップＳ２０１～Ｓ２０４は、図７のステップＳ１０１～Ｓ１０４と同じである。即ち、ステップＳ２０１では、認識部６１０が、カメラ４１０を用いて物体を撮影することによって、物体画像ＩＭを生成する。ステップＳ２０２では、認識部６１０が、深度センサー４２０を用いた測定を行うことによって、測定深度Ｄｓを取得する。ステップＳ２０３では、位置姿勢認識部６１８が、測定深度Ｄｓを用いて物体の位置姿勢Ｐｓを認識する。なお、「位置姿勢Ｐｓ」は、測定深度Ｄｓを用いて認識された位置姿勢Ｐ(x, y, z, u, v, w)であることを意味している。ステップＳ２０４では、ロボット制御実行部６２０が、物体の位置姿勢Ｐｓを用いて物体のピッキング作業を実行する。なお、ステップＳ２０４は省略してもよい。

【0031】

ステップＳ２０５では、認識部６１０が、深度推定器６１２を用いて、物体画像ＩＭから推定深度Ｄｅを取得する。ステップＳ２０６では、位置姿勢認識部６１８が、推定深度Ｄｅを用いて物体の位置姿勢Ｐｅを認識する。なお、「位置姿勢Ｐｅ」は、推定深度Ｄｅを用いて認識された位置姿勢Ｐ(x, y, z, u, v, w)であることを意味している。ステップＳ２０７では、特徴量抽出部６１４が、物体画像ＩＭから物体画像特徴量Ｆｏを抽出する。

【0032】

図８ＢのステップＳ２１１では、認識部６１０が、測定深度Ｄｓと推定深度Ｄｅの差が、規定値以下か否かを判定する。測定深度Ｄｓと推定深度Ｄｅの差分ΔＤは、例えば次式で算出される。
ΔD＝Σ|Ds(i,j) - De(i,j)| …（１）
ここで、Σは深度Ｄｓ．Ｄｅの２次元座標（i,j）の全範囲に亘って加算を行う演算を示している。なお、差分の絶対値を加算した値を用いる代わりに、差分の絶対値を平均した値を差分ΔＤとして用いてもよい。或いは、測定深度Ｄｓと推定深度Ｄｅのユークリッド距離を、差分ΔＤとして用いてもよい。

【0033】

深度の差分ΔＤが予め定められた規定値以下の場合には、ステップＳ２１２において推定深度Ｄｅを使用可と判定して、ステップＳ２１４に進む。一方、深度の差分ΔＤが規定値を超える場合には、ステップＳ２１３において推定深度Ｄｅを使用不可と判定して、後述するステップＳ２１７に進む。

【0034】

ステップＳ２１４では、認識部６１０が、測定深度Ｄｓを用いて得られた位置姿勢Ｐｓと、推定深度Ｄｅを用いて得られた位置姿勢Ｐｅの差分が、規定値以下か否かを判定する。この規定値は、上述したステップＳ２１１で用いられた規定値とは独立に設定される。位置姿勢Ｐｓ，Ｐｅの差は、例えば、それぞれの位置姿勢Ｐｓ，Ｐｅを６次元ベクトルと見なして、その距離として算出できる。位置姿勢Ｐｓ，Ｐｅの差分が予め定められた規定値以下の場合には、ステップＳ２１５において推定深度Ｄｅを使用可と判定して、ステップＳ２１７に進む。一方、位置姿勢Ｐｓ，Ｐｅの差分が規定値を超える場合には、ステップＳ２１６において推定深度Ｄｅを使用不可と判定して、ステップＳ２１７に進む。これらのステップＳ２１１～Ｓ２１６の処理は、深度の差分ΔＤと位置姿勢Ｐｓ，Ｐｅの差分の両方がそれぞれの規定値以下の場合に推定深度Ｄｅを使用可と判定し、深度の差分ΔＤと位置姿勢Ｐｓ，Ｐｅの差分の少なくとも一方が規定値を超える場合に推定深度Ｄｅを使用不可と判定する処理である。なお、ステップＳ２１１～Ｓ２１３の処理と、ステップＳ２１４～Ｓ２１６の処理の一方を省略してもよい。但し、深度の誤差を直接的に評価する処理として、少なくともステップＳ２１１～Ｓ２１３の処理を実行することが好ましい。認識部６１０は、ステップＳ２１１～Ｓ２１６の処理により、推定深度Ｄｅと測定深度Ｄｓとの差分ΔＤに応じて、推定深度Ｄｅの使用可否を示すラベルを決定する。

【0035】

ステップＳ２１７では、認識部６１０が、第２学習用データＬＤ２が十分に蓄積されたか否かを判断する。第２学習用データＬＤ２は、識別器６１６の学習に用いられる学習データであり、物体画像ＩＭと物体画像特徴量Ｆｏの少なくとも一方と、推定深度Ｄｅの使用可否を示すラベルと、を含んでいる。但し、識別器６１６の入力として物体画像ＩＭをしない場合には、物体画像ＩＭを第２学習用データＬＤ２として保存する必要は無い。識別器６１６の入力として物体画像特徴量Ｆｏをしない場合には、物体画像特徴量Ｆｏは不要であり、上述したステップＳ２０７も省略可能である。

【0036】

第２学習用データＬＤ２が十分に蓄積されていない場合には、ステップＳ２１８に進み、認識部６１０が、物体画像ＩＭと物体画像特徴量Ｆｏの少なくとも一方と、推定深度Ｄｅの使用可否を示すラベルと、を含むデータセットを第２学習用データＬＤ２としてメモリー３２０に保存する。その後、図８ＡのステップＳ２０１に戻ってステップＳ２０１以降の処理が再度実行される。一方、第２学習用データＬＤ２が十分に蓄積された場合には、ステップＳ２１９に進み、認識部６１０が、第２学習用データＬＤ２を用いて識別器６１６の学習を実行する。なお、図８Ａ及び図８Ｂに示したステップの実行順序は一例であり、必要に応じて変更してもよい。例えば、識別器６１６の学習は、第２学習用データＬＤ２の新たなデータセットが得られる度に実行するものとしてもよい。この場合にも、複数のデータセットを含む第２学習用データＬＤ２を用いて識別器６１６の学習を実行する点ではステップＳ２１９の処理と等価である。ステップＳ２１９における学習が終了すると、ステップＳ２００の処理も終了する。なお、ステップＳ２０５～Ｓ２０７，Ｓ２１１～Ｓ２１９は、バックグラウンド処理として実行することが好ましい。

【0037】

図９は、ステップＳ３００の詳細な処理手順を示すフローチャートである。図９の処理は、図５で説明した処理と同じである。ステップＳ３０１では、認識部６１０が、カメラ４１０を用いて物体を撮影することによって、物体画像ＩＭを生成する。ステップＳ３０２では、認識部６１０が、深度推定器６１２を用いて、物体画像ＩＭから推定深度Ｄｅを取得する。ステップＳ３０３では、特徴量抽出部６１４が、物体画像ＩＭから物体画像特徴量Ｆｏを抽出する。ステップＳ３０４では、認識部６１０が、識別器６１６を用いて、物体画像特徴量Ｆｏと物体画像ＩＭの少なくとも一方から推定深度Ｄｅの使用可否を識別する。

【0038】

推定深度Ｄｅが使用可である場合には、ステップＳ３０５からステップＳ３０６に進み、位置姿勢認識部６１８が、推定深度Ｄｅを用いて物体の位置姿勢を認識する。一方、推定深度Ｄｅが使用可である場合には、ステップＳ３０５からステップＳ３０７に進み、認識部６１０が、深度センサー４２０を用いて測定深度Ｄｓを取得する。ステップＳ３０８では、位置姿勢認識部６１８が、測定深度Ｄｓを用いて物体の位置姿勢を認識する。なお、図５で説明したように、位置姿勢の認識には物体画像ＩＭも使用される。ステップＳ３０９では、ロボット制御実行部６２０が、物体の位置姿勢を用いて物体のピッキング作業を実行する。なお、ステップＳ３０２～Ｓ３０４の処理に要する時間は、ステップＳ３０７における深度測定に要する時間よりも短いことが好ましい。こうすれば、推定深度Ｄｅを用いて位置姿勢の認識処理を効率良く行うことができる。なお、図９に示したステップの実行順序は一例であり、必要に応じて変更してもよい。

【0039】

以上のように、上記実施形態では、識別器６１６によって推定深度Ｄｅが使用可と識別された場合には、推定深度Ｄｅを用いて物体の位置姿勢を認識するので、十分な精度で高速に物体の位置姿勢を認識できる。また、推定深度Ｄｅが使用不可と識別された場合には、深度センサー４２０で測定した測定深度Ｄｓを用いて物体の位置姿勢を認識するので、高精度に位置姿勢を認識できる。なお、本開示の内容は、ロボット以外の装置において物体の位置姿勢を認識する処理にも適用可能である。

【0040】

・他の形態：
本開示は、上述した実施形態に限られるものではなく、その趣旨を逸脱しない範囲において種々の形態で実現することができる。例えば、本開示は、以下の形態（aspect）によっても実現可能である。以下に記載した各形態中の技術的特徴に対応する上記実施形態中の技術的特徴は、本開示の課題の一部又は全部を解決するために、あるいは、本開示の効果の一部又は全部を達成するために、適宜、差し替えや、組み合わせを行うことが可能である。また、その技術的特徴が本明細書中に必須なものとして説明されていなければ、適宜、削除することが可能である。

【0041】

（１）本開示の第１の形態によれば、物体の位置姿勢を認識する方法が提供される。この方法は、（ａ）カメラを用いて前記物体を撮影することによって、物体画像を生成する工程と、（ｂ）前記物体画像を入力とし前記物体画像内の推定深度を出力とする深度推定器を用いて、前記物体の推定深度を求める工程と、（ｃ）前記物体画像から抽出される物体画像特徴量と、前記物体画像と、のうちの少なくとも一方を入力とし前記推定深度の使用可否を出力とする識別器を用いて、前記推定深度の使用可否を決定する工程と、（ｄ）前記推定深度が使用可である場合には、前記推定深度と前記物体画像とを用いて前記物体の位置姿勢を認識する工程と、（ｅ）前記推定深度が使用不可である場合には、深度センサーを用いて前記物体の測定深度を求め、前記測定深度と前記物体画像とを用いて前記物体の位置姿勢を認識する工程と、を含む。
この方法によれば、深度推定器を用いて得られる推定深度が使用可と識別された場合には、その推定深度を用いて、十分な精度で高速に物体の位置姿勢を認識できる。また、推定深度が使用不可と識別された場合には、深度センサーで測定した測定深度を用いて物体の位置姿勢を認識するので、高精度に位置姿勢を認識できる。

【0042】

（２）上記方法において、前記深度推定器を用いて前記推定深度を求める処理は、前記深度センサーを用いて前記測定深度を求める処理に比べて低精度かつ高速であるものとしてもよい。
この方法によれば、深度推定器と深度センサーの特徴を生かして十分な精度及び速度で物体の位置姿勢を認識できる。

【0043】

（３）上記方法において、前記工程（ａ）～（ｅ）の前に、前記深度推定器の学習を行う第１学習工程と、前記識別器の学習を行う第２学習工程と、を含み、前記第１学習工程と前記第２学習工程のそれぞれは、前記物体の位置姿勢に応じてロボットによる前記物体のピッキング作業を行いながら学習用データを収集する工程を含むものとしてもよい。
この方法によれば、物体のピッキング作業を実際に行いながら深度推定器と識別器の学習を実行できる。

【0044】

（４）上記方法において、前記第１学習工程は、（１ａ）前記カメラで前記物体を撮影することによって、第１学習用画像を生成する工程と、（１ｂ）前記深度センサーを用いて、前記物体の第１学習用測定深度を求める工程と（１ｃ）前記第１学習用測定深度と前記第１学習用画像とを用いて前記物体の位置姿勢を認識し、前記ロボットによる前記物体のピッキング作業を実行する工程と、（１ｄ）前記工程（１ａ）～（１ｃ）を複数回実行することによって、前記第１学習用画像と前記第１学習用測定深度をそれぞれ含む複数の第１学習用データを生成する工程と、（１ｅ）前記複数の第１学習用データを用いて、前記深度推定器の学習を実行する工程と、を含むものとしてもよい。
この方法によれば、物体のピッキング作業を行いながら深度推定器の学習を適切に実行できる。

【0045】

（５）上記方法において、前記第２学習工程は、（２ａ）前記カメラで前記物体を撮影することによって、第２学習用画像を生成する工程と、（２ｂ）前記深度推定器を用いて、前記第２学習用画像から第２学習用推定深度を求める工程と、（２ｃ）前記深度センサーを用いて、前記物体の第２学習用測定深度を求める工程と、（２ｄ）前記第２学習用測定深度と前記第２学習用画像とを用いて前記物体の位置姿勢を認識し、前記ロボットによる前記物体のピッキング作業を実行する工程と、（２ｅ）前記第２学習用推定深度と前記第２学習用測定深度との差分に応じて、前記第２学習用推定深度の使用可否を示すラベルを決定する工程と、（２ｆ）前記識別器が前記物体画像特徴量を入力とするように構成されている場合に、前記第２学習用画像の学習用画像特徴量を抽出する工程と、（２ｇ）前記工程（２ａ）～（２ｆ）を複数回実行することによって、前記ラベルと、前記学習用画像特徴量及び前記第２学習用画像の少なくとも一方と、をそれぞれ含む複数の第２学習用データを生成する工程と、（２ｈ）前記複数の第２学習用データを用いて、前記識別器の学習を実行する工程と、
を含むものとしてもよい。
この方法によれば、物体のピッキング作業を行いながら識別器の学習を適切に実行できる。

【0046】

（６）本開示の第２の形態によれば、物体の位置姿勢を認識するシステムが提供される。このシステムは、前記物体を撮影するカメラと、前記物体の深度を測定する深度センサーと、前記物体の位置姿勢の認識処理を実行する認識部と、を備える。前記認識部は、（ａ）前記カメラを用いて前記物体を撮影することによって、物体画像を生成する処理と、（ｂ）前記物体画像を入力とし前記物体画像内の推定深度を出力とする深度推定器を用いて、前記物体の推定深度を求める処理と、（ｃ）前記物体画像から抽出される物体画像特徴量と、前記物体画像と、のうちの少なくとも一方を入力とし前記推定深度の使用可否を出力とする識別器を用いて、前記推定深度の使用可否を決定する処理と、（ｄ）前記推定深度が使用可である場合には、前記推定深度と前記物体画像とを用いて前記物体の位置姿勢を認識する処理と、（ｅ）前記推定深度が使用不可である場合には、前記深度センサーを用いて前記物体の測定深度を求め、前記測定深度と前記物体画像とを用いて前記物体の位置姿勢を認識する処理と、を実行する。

【0047】

（７）本開示の第３の形態によれば、物体の位置姿勢を認識する処理をプロセッサーに実行させるコンピュータープログラムが提供される。このコンピュータープログラムは、（ａ）カメラを用いて前記物体を撮影することによって、物体画像を生成する処理と、（ｂ）前記物体画像を入力とし前記物体画像内の推定深度を出力とする深度推定器を用いて、前記物体の推定深度を求める処理と、（ｃ）前記物体画像から抽出される物体画像特徴量と、前記物体画像と、のうちの少なくとも一方を入力とし前記推定深度の使用可否を出力とする識別器を用いて、前記推定深度の使用可否を決定する処理と、（ｄ）前記推定深度が使用可である場合には、前記推定深度と前記物体画像とを用いて前記物体の位置姿勢を認識する処理と、（ｅ）前記推定深度が使用不可である場合には、深度センサーを用いて前記物体の測定深度を求め、前記測定深度と前記物体画像とを用いて前記物体の位置姿勢を認識する処理と、を前記プロセッサーに実行させる。

【0048】

本開示は、上記以外の種々の形態で実現することも可能である。例えば、ロボットとロボット制御装置とを備えたロボットシステム、ロボット制御装置の機能を実現するためのコンピュータープログラム、そのコンピュータープログラムを記録した一時的でない記録媒体（non-transitory storage medium）等の形態で実現することができる。

【符号の説明】

【0049】

１００…ロボット、１１０…基台、１２０…ロボットアーム、１２２…アームエンド、１５０…ロボットハンド、２００…制御装置、３００…情報処理装置、３１０…プロセッサー、３２０…メモリー、３３０…インターフェイス回路、３４０…入力デバイス、３５０…表示デバイス、４１０…カメラ、４２０…深度センサー、５００…作業台、５１０…第１トレイ、５２０…第２トレイ、６１０…認識部、６１２…深度推定器、６１４…特徴量抽出部、６１６…識別器、６１８…位置姿勢認識部、６２０…ロボット制御実行部

【図1】