(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2022047508
(43)【公開日】2022-03-24
(54)【発明の名称】複数の透明対象物の三次元検出
(51)【国際特許分類】
G06T 7/70 20170101AFI20220316BHJP
G06T 7/11 20170101ALI20220316BHJP
G06T 7/00 20170101ALI20220316BHJP
【FI】
G06T7/70 Z
G06T7/11
G06T7/00 350C
【審査請求】未請求
【請求項の数】20
【出願形態】OL
【外国語出願】
(21)【出願番号】P 2021138803
(22)【出願日】2021-08-27
(31)【優先権主張番号】17/018,141
(32)【優先日】2020-09-11
(33)【優先権主張国・地域又は機関】US
(71)【出願人】
【識別番号】390008235
【氏名又は名称】ファナック株式会社
(74)【代理人】
【識別番号】100099759
【弁理士】
【氏名又は名称】青木 篤
(74)【代理人】
【識別番号】100123582
【弁理士】
【氏名又は名称】三橋 真二
(74)【代理人】
【識別番号】100112357
【弁理士】
【氏名又は名称】廣瀬 繁樹
(72)【発明者】
【氏名】トー タン
(72)【発明者】
【氏名】加藤 哲朗
【テーマコード(参考)】
5L096
【Fターム(参考)】
5L096AA06
5L096BA05
5L096CA02
5L096DA01
5L096DA02
5L096EA05
5L096EA15
5L096EA16
5L096EA35
5L096FA16
5L096FA67
5L096FA69
5L096GA30
5L096HA11
5L096KA04
(57)【要約】 (修正有)
【課題】一群の対象物の中の透明対象物等の対象物の三次元姿勢を取得して、ロボットが対象物を取出すことを可能にするシステム及び方法を提供する。
【解決手段】システム30における方法は、カメラを使用して対象物の二次元赤緑青カラー(RGB)画像32を取得することと、RGB画像から特徴を抽出し、セグメンテーション画像58内の対象物が同一のラベルを有するようにセグメンテーション画像内のピクセルにラベルを割当てる、深層学習畳み込みニューラルネットワークを使用して画像セグメンテーション処理を実行することによって、RGB画像のセグメンテーション画像を生成することと、を含む。また、方法は、セグメンテーション画像を対象物のうちの1つ含む、複数の切取り画像60に分離することと、各切取り画像内の各対象物の三次元姿勢72を推定することと、三次元姿勢を単一の姿勢画像に結合することと、を含む。
【選択図】
図2
【特許請求の範囲】
【請求項1】
一群の対象物の中の対象物の三次元姿勢を取得するための方法であって、前記方法は、
カメラを使用して前記対象物の二次元赤緑青カラー(RGB)画像を取得することと、
前記RGB画像から特徴を抽出し、セグメンテーション画像内の対象物が同一のラベルを有するように前記セグメンテーション画像内のピクセルにラベルを割当てる、画像セグメンテーション処理を実行することにより、前記RGB画像のセグメンテーション画像を生成することと、
前記セグメンテーション画像を複数の切取り画像に分離することであって、各切取り画像が前記対象物のうちの1つを含む、ことと、
各切取り画像内の各対象物の前記三次元姿勢を推定することと、
前記三次元姿勢を単一の姿勢画像に結合することと、
を含む、方法。
【請求項2】
セグメンテーション画像を生成することは、深層学習マスクR-CNN(畳み込みニューラルネットワーク)を使用することを含む、請求項1に記載の方法。
【請求項3】
セグメンテーション画像を生成することは、複数のバウンディングボックスを提供することと、前記バウンディングボックスを前記抽出された特徴に位置合わせすることと、前記対象物を取囲むバウンディングボックスを含むバウンディングボックス画像を提供することと、を含む、請求項1に記載の方法。
【請求項4】
セグメンテーション画像を生成することは、対象物が各バウンディングボックスに存在する可能性を決定することを含む、請求項3に記載の方法。
【請求項5】
セグメンテーション画像を生成することは、対象物に関連付けられていない前記バウンディングボックス画像内の各バウンディングボックスからピクセルを除去することを含む、請求項3に記載の方法。
【請求項6】
セグメンテーション画像を生成することは、前記セグメンテーション画像内の各対象物が同一のラベルを有するように前記セグメンテーション画像内のピクセルにラベルを割当てることを含む、請求項1に記載の方法。
【請求項7】
各対象物の前記三次元姿勢を推定することは、ニューラルネットワークを使用して前記二次元画像から前記対象物上の複数の特徴を抽出することと、前記対象物上の特徴点の位置の可能性を特定する、前記抽出された特徴のそれぞれについてヒートマップを生成することと、前記ヒートマップからの前記特徴点と前記二次元画像とを組み合わせた特徴点画像を提供することと、前記特徴点画像を使用して前記対象物の前記三次元姿勢を推定することと、を含む、請求項1に記載の方法。
【請求項8】
各対象物の前記三次元姿勢を推定することは、前記特徴点画像を前記対象物の三次元仮想モデルと比較することを含む、請求項7に記載の方法。
【請求項9】
各対象物の前記三次元姿勢を推定することは、Perspective-n-pointアルゴリズムを使用することを含む、請求項8に記載の方法。
【請求項10】
前記対象物は透明である、請求項1に記載の方法。
【請求項11】
前記一群の対象物は異なる形状を有する対象物を含む、請求項1に記載の方法。
【請求項12】
前記方法はロボットシステムにおいて採用され、前記対象物はロボットによって取出されている、請求項1に記載の方法。
【請求項13】
一群の透明対象物の中の透明対象物の三次元姿勢を取得して、ロボットが前記対象物を取出すことを可能にするための方法であって、前記方法は、
カメラを使用して前記対象物の二次元赤緑青カラー(RGB)画像を取得することと、
前記RGB画像から特徴を抽出し、セグメンテーション画像内の対象物が同一のラベルを有するように前記セグメンテーション画像内のピクセルにラベルを割当てる、深層学習畳み込みニューラルネットワークを使用して画像セグメンテーション処理を実行することにより、前記RGB画像のセグメンテーション画像を生成することと、
前記セグメンテーション画像を複数の切取り画像に分離することであって、各切取り画像が記対象物のうちの1つを含む、ことと、
各切取り画像内の各対象物の前記三次元姿勢を推定することと、
前記三次元姿勢を単一の姿勢画像に結合することであって、カラー画像を取得することと、セグメンテーション画像を生成することと、前記セグメンテーション画像を分離することと、各対象物の三次元姿勢を推定することと、前記三次元姿勢を結合することとは、前記ロボットが対象物を前記一群の対象物から取出す度に実行される、ことと、
を含む、方法。
【請求項14】
セグメンテーション画像を生成することは、同じ方向を有する複数の垂直に整列されたバウンディングボックスを提供することと、スライドウィンドウテンプレートを使用して前記バウンディングボックスを前記抽出された特徴に位置合わせすることと、前記対象物を取囲むバウンディングボックスを含むバウンディングボックス画像を提供することと、対象物が各バウンディングボックスに存在する可能性を決定することと、対象物に関連付けられていない各バウンディングボックスからピクセルを除去することと、前記バウンディングボックス内の各対象物の中心ピクセルを特定することと、を含む、請求項13に記載の方法。
【請求項15】
各対象物の前記三次元姿勢を推定することは、ニューラルネットワークを使用して二次元画像から前記対象物上の複数の特徴を抽出することと、前記対象物上の特徴点の位置の可能性を特定する、前記抽出された特徴のそれぞれについてヒートマップを生成することと、前記ヒートマップからの前記特徴点と前記二次元画像とを結合した特徴点画像を提供することと、前記特徴点画像を前記対象物の三次元仮想モデルと比較することにより、前記特徴点画像を使用して前記対象物の前記三次元姿勢を推定することと、を含む、請求項13に記載の方法。
【請求項16】
各対象物の前記三次元姿勢を推定することは、Perspective-n-pointアルゴリズムを使用することを含む、請求項15に記載の方法。
【請求項17】
前記カメラは二次元カメラ又は三次元カメラである、請求項13に記載の方法。
【請求項18】
一群の対象物の中の対象物の三次元姿勢を取得するためのロボットシステムであって、前記システムは、
前記対象物の二次元赤緑青カラー(RGB)画像を提供するカメラと、
前記RGB画像から特徴を抽出し、セグメンテーション画像内の各対象物が同一のラベルを有するように前記セグメンテーション画像内のピクセルにラベルを割当てる、画像セグメンテーション処理を実行することにより、前記対象物のセグメンテーション画像を生成する深層学習畳み込みニューラルネットワークと、
前記セグメンテーション画像を複数の切取り画像に分離するための手段であって、各切取り画像は前記対象物のうちの1つを含む、手段と、
各切取り画像内の各対象物の前記三次元姿勢を推定するための手段と、
前記三次元姿勢を単一の姿勢画像に結合するための手段と、
を備える、システム。
【請求項19】
深層学習ニューラルネットワークは、同じ方向を有する複数の垂直に整列されたバウンディングボックスを提供し、スライドウィンドウテンプレートを使用して前記抽出された特徴に前記バウンディングボックスを位置合わせし、前記対象物を取囲むバウンディングボックスを含むバウンディングボックス画像を提供し、対象物が各バウンディングボックスに存在する可能性を決定し、対象物に関連付けられていない各バウンディングボックスからピクセルを除去し、前記バウンディングボックス内の各対象物の中心ピクセルを特定する、請求項18に記載のシステム。
【請求項20】
各対象物の前記三次元姿勢を推定するための手段は、ニューラルネットワークを使用して二次元画像から前記対象物上の複数の特徴を抽出し、前記対象物上の特徴点の位置の前記可能性を特定する、前記抽出された特徴のそれぞれについてヒートマップを生成し、前記ヒートマップからの前記特徴点と前記二次元画像とを結合する特徴点画像を提供し、前記特徴点画像を前記対象物の三次元仮想モデルと比較することによって前記特徴点画像を使用して前記対象物の前記三次元姿勢を推定する、請求項18に記載のシステム。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、概して、対象物の三次元姿勢を取得するためのシステム及び方法に関し、より具体的には、一群の対象物の一部である対象物の三次元姿勢を取得するロボットシステムに関する。ここで、システムは、対象物のRGB画像を取得し、画像セグメンテーションを使用して画像を区分けし、対象物のセグメンテーション画像を切取り、セグメンテーション画像内の各対象物の三次元姿勢を取得するために学習ベースのニューラルネットワークを使用する。
【背景技術】
【0002】
ロボットは、ピックアンドプレース動作を含む多数のタスクを実行する。ここで、ロボットは、対象物を取出して、収集容器等のある位置からコンベヤベルト等の別の位置へ移動させる。ここで、容器内の、対象物の三次元姿勢として知られた、対象物の位置及び方向は僅かに異なる。このため、ロボットが対象物を効果的に取出すために、ロボットは対象物の三次元姿勢を知る必要があることが多い。容器から取出されている対象物の三次元姿勢を特定するために、幾つかのロボットシステムは、容器の二次元赤緑青カラー(RGB)画像と容器の二次元グレースケール深度マップ画像とを生成する三次元カメラを採用する。ここで、深度マップ画像の各ピクセルは、カメラから特定の対象物までの距離を規定する値を有する。即ち、ピクセルが対象物に近いほど、その値は低くなる。深度マップ画像は、カメラの視野内の点群内の点までの距離測定値を特定する。ここで、点群は、特定の座標系によって規定されたデータ点の集合体であり、各点は、x、y及びz値を有している。しかし、ロボットが取出している対象物が透明であると、光が対象物の表面から正確に反射されず、カメラが生成した点群は有効ではなく、深度画像が信頼できないため、取出すべき対象物を確実に特定できない。
【0003】
2020年4月3日に提出され、本出願の譲受人に譲渡され、参照により本書に援用される、「二次元カメラによる三次元姿勢推定」と題する米国特許出願第16/839,274号では、二次元カメラからの二次元画像と、取出されている透明な対象物の三次元姿勢を特定できる学習ベースのニューラルネットワークとを使用して対象物の三次元姿勢を取得するためのロボットシステムを開示する。ニューラルネットワークは、二次元画像から対象物上の複数の特徴を抽出し、色表現によって対象物上の特徴点の位置の可能性(probability)を特定する、抽出された特徴のそれぞれについてヒートマップを生成する。この方法は、二次元画像上のヒートマップから特徴点を含む特徴点画像を提供し、特徴点画像と対象物の三次元仮想CADモデルとを比較することによって対象物の三次元姿勢を推定する。言い換えると、投影された特徴点がモデル内で画像内の予測された特徴点と一致するようにCADモデルを最適に回転して平行移動するために最適化アルゴリズムが採用される。
【0004】
前述のように、米国特許出願第16/839,274号のロボットシステムは、ロボットが取出している対象物の画像上の複数の特徴点を予測する。しかし、ロボットが容器内の対象物等の一群の対象物から対象物を選択的に取出している場合、画像には複数の対象物があり、各対象物は複数の予測された特徴を有するであろう。このため、CADモデルを回転させると、その予測された特徴点が異なる対象物上の予測された特徴点と一致する可能性があるため、処理が単一の対象物の姿勢を確実に特定するのを妨げている。
【発明の概要】
【0005】
以下の考察では、ロボットが対象物を取出すことを可能にするために対象物の三次元姿勢を取得するためのシステム及び方法を開示し説明する。この方法は、カメラを使用して対象物の二次元赤緑青カラー(RGB)画像を取得することと、RGB画像から特徴を抽出し、セグメンテーション画像内の対象物が同一のラベルを有するようにセグメンテーション画像内のピクセルにラベルを割当てる、深層学習畳み込みニューラルネットワークを使用して画像セグメンテーション処理を実行することによってRGB画像のセグメンテーション画像を生成することと、を含む。また、この方法は、セグメンテーション画像を複数の切取られた画像に分離することであって、各切取られた画像が対象物のうちの1つを含む、ことと、各切取られた画像内の各対象物の三次元姿勢を推定することと、三次元姿勢を単一の姿勢画像に結合することとを含む。カラー画像を取得するステップと、セグメンテーション画像を生成するステップと、セグメンテーション画像を分離するステップと、各対象物の三次元姿勢を推定するステップと、三次元姿勢を結合するステップとは、ロボットが一群の対象物から対象物を取出す度に実行される。
【0006】
本開示の追加の特徴が、添付の図面と併せて、以下の説明及び添付の特許請求の範囲から明らかになるであろう。
【図面の簡単な説明】
【0007】
【
図1】対象物を容器から取出すロボットを含むロボットシステムの図である。
【
図2】
図1に示すロボットシステム内の容器から対象物を取出すための容器取出システムの概略ブロック図である。
【
図3】
図2に示すシステムから分離されたセグメンテーションモジュールの概略ブロック図である。
【
図4】対象物の二次元セグメンテーション画像とニューラルネットワークとを使用して対象物の三次元姿勢を推定するために訓練されたニューラルネットワークを使用するための学習ベースのニューラルネットワーク処理を示す流れ図である。
【
図5】
図4に示す処理において対象物の三次元姿勢推定を決定するためのPerspective-n-point(PnP)処理を示す図である。
【
図6】それぞれが複数の対象物を有する複数のカテゴリを含むセグメンテーション画像の図である。
【発明を実施するための形態】
【0008】
本開示の実施形態についての以下の考察は、一群の透明対象物内にある対象物の三次元姿勢を取得するロボットシステムを対象とし、このシステムは、対象物のRGB画像を取得し、画像セグメンテーションを使用して画像を区分けし、対象物のセグメンテーション画像を切取り、区分けされた対象物の三次元姿勢を取得するために学習ベースのニューラルネットワークを使用する。本質的に単なる例示であり、本発明又はその用途又は使用を制限することを全く意図してない。例えば、このシステム及び方法は一群の透明対象物内にある透明対象物の位置及び方向を特定する用途を有する。しかし、このシステム及び方法は他の用途を有することもある。
【0009】
図1は、容器18から例えば透明ボトル等の対象物16を個別に取出す様子を示したエンドエフェクタ14を有するロボット12を含むロボットシステム10の図である。システム10は本書の考察から利益を得られる任意のタイプのロボットシステムを表すよう意図され、ロボット12はその目的に適した任意のロボットでよい。カメラ20は、容器18の上面(top down)画像を取得するために位置決めされ、ロボット12の動作を制御するロボットコントローラ22に画像を提供する。対象物16は透明である場合があるため、コントローラ22は容器18内の対象物16の位置を特定するために深度マップ画像に頼れない。従って、カメラ20からのRGB画像のみが使用されるため、カメラ20は二次元又は三次元カメラでよい。
【0010】
ロボット12が対象物16を効果的に把持して取出すためには、対象物16を把持する前に、エンドエフェクタ14を適切な位置及び方向に位置決めできる必要がある。以下で詳細に考察するように、ロボットコントローラ22は、ロボット12が正確な深度マップ画像に頼る必要なく対象物16を取出すことを可能にするアルゴリズムを採用する。より具体的には、アルゴリズムは、カメラ20からのRGB画像内のピクセルの異なる色を使用して画像セグメンテーション処理を実行する。画像セグメンテーションは、同一のラベルを有するピクセルが特定の特性を共有するように、画像内の全ピクセルにラベルを割当てる処理である。このため、セグメンテーション処理はどのピクセルが対象物16のうちのどれに属するかを予測する。
【0011】
最新の画像セグメンテーション技術は、深層学習技術が採用される場合がある。深層学習は、特定の実世界の環境を、増大する複雑な概念の階層として表すことによってより優れた学習性能を提供する特定のタイプの機械学習である。深層学習は、典型的には、非線形処理を実行するニューラルネットワークの複数の層を含むソフトウェア構成を採用する。ここで、連続する各層は前の層からの出力を受取る。一般に、層は、センサからの生データを受取る入力層と、データから抽象的な特徴を抽出する幾つかの隠れ層と、隠れ層からの特徴抽出に基づいて特定の事柄を特定する出力層と、を含む。ニューラルネットワークは、ある事柄が正しいかどうかの可能性(probability)を得るためにノードへの入力が乗算される「重み」をそれぞれ有するニューロン又はノードを含む。より具体的には、ノードのそれぞれは、入力の幾らかの比率であるそのノードの出力を生成するためにノードへの入力が乗算される浮動小数点数である重みを有する。重みは、ニューラルネットワークに教師あり処理の下で既知のデータのセットを分析させることによって、及び、ネットワークが正しい出力の最高の可能性を得られるようにコスト関数を最小化することを通じて、最初に「訓練される」か、又は設定される。
【0012】
図2は、対象物16を容器18から取出すように動作するロボットシステム10におけるコントローラ22の一部である容器取出システム30の概略ブロック図である。システム30は、カメラ20からの容器18の上面図の二次元RGB画像32を受取る。ここで、対象物16が画像32に示されている。画像32は、画像セグメンテーション処理を実行するセグメンテーションモジュール36に提供される。ここで、各ピクセルは特定のラベルを割当てられ、同じ対象物16に関連付けられたピクセルは同一のラベルを有する。
【0013】
図3は、システム30から分離されたモジュール36の概略ブロック図である。RGB画像32は、画像32から重要な特徴を抽出するフィルタリング処理を実行する特徴抽出モジュール40に提供され、これは背景及びノイズを除去する。例えば、モジュール40は、画像32から、勾配、エッジ、輪郭、基本形状等を抽出する学習ベースのニューラルネットワークを含み、モジュール40は、既知の方法でRGB画像32の抽出された特徴画像44を提供する。特徴画像44は、ニューラルネットワークを使用して、画像44内の特定された特徴を分析して、画像44内の対象物16の位置を決定する領域提案モジュール50に提供される。特に、モジュール50は、異なるサイズの50個から100個のボックス等の幾つかのバウンディングボックス、即ち、対象物16が画像48内の特定の位置に存在する可能性(probability)を特定するために使用される種々の長さと幅を有するボックスを提供する、訓練されたニューラルネットワークを含む。本実施形態では、バウンディングボックスはいずれも垂直ボックスであり、モジュール50の複雑さを軽減するのに役立つ。領域提案モジュール50は、当業者によく知られているスライド検索ウィンドウテンプレートを採用する。ここで、全てのバウンディングボックスを含む検索ウィンドウが、対象物16のうちの1つの存在の可能性を特定する特徴を探索するために、特徴画像44上を、例えば、画像44の左上から画像44の右下へ移動する。
【0014】
スライドウィンドウ検索は、画像44内の予測された対象物をそれぞれ取囲む幾つかのバウンディングボックス52を含むバウンディングボックス画像54を生成する。ここで、画像54内のバウンディングボックス52の数は、ロボット12が容器18から対象物16のうちの1つを取除くたびに減少する。モジュール50は、各ボックス52の中心位置(x、y)、幅(w)、及び高さ(h)をパラメータ化し、対象物16がボックス52の中に存在することの0%から100%の間の予測信頼値を提供する。画像54は、ピクセルがバウンディングボックス52のそれぞれの中の対象物16に属するかどうかを、ニューラルネットワークを使用して推定して、対象物16の一部ではないボックス52の中の背景ピクセルを除去する、バイナリセグメンテーションモジュール56に提供される。ボックス52のそれぞれの中の画像54内の残りのピクセルには、特定の対象物16の値を割当てられ、その結果、色等の異なる特徴によって対象物16を特定する二次元セグメンテーション画像58が生成される。このため、説明した画像セグメンテーション処理は、深層学習マスクR-CNN(畳み込みニューラルネットワーク)の修正された形態である。次に、画像58の中の区分けされた対象物は、対象物16のうちの1つのみを有する切取り画像60として、画像58内で特定された対象物16のそれぞれを分離するために切取られる。
【0015】
次に、切取り画像60のそれぞれは、その画像60内の対象物16の三次元姿勢推定を実行して、例えば、米国特許出願第16/839,274号の方法と同じ方法で推定された三次元姿勢72を取得する別個の三次元姿勢推定モジュール70に送出される。
図4はモジュール70において動作するアルゴリズムを示す流れ
図80であり、このモジュールは特定の切取り画像60内の対象物16の三次元姿勢を推定するために訓練されたニューラルネットワークを使用する学習ベースのニューラルネットワーク78を採用する。画像60は、入力層84と、複数の連続する残余ブロック層86及び88と、に提供され、残余ブロック層は、フィルタリング処理を使用して、画像60内の対象物16上の可能性のある特徴点の勾配、エッジ、輪郭等の特徴抽出を提供するコントローラ22内のAIソフトウェアにて動作するニューラルネットワーク78内のフィードフォワードループを含む。抽出された特徴を含む画像は、抽出された特徴から取得された可能性のある特徴点を、特徴点毎に1つずつ、一連のヒートマップ92として規定するニューラルネットワーク78内の複数の連続する畳み込み層90に提供される。一連のヒートマップは、ヒートマップ92の色に基づいて特徴点が対象物16上のどこに存在するかの尤度を示す。画像94は、全てのヒートマップ92から全ての特徴点について特徴点96を含む対象物16の画像60を使用して生成される。ここで、各特徴点96は、その特徴点についてヒートマップ92の色に基づいて信頼値を割当てられ、特定の閾値を超える信頼値を有していないそれらの特徴点96は使用されない。
【0016】
次に、画像94は、姿勢推定プロセッサ98において同じ特徴点を有する対象物16の仮の又は仮想の三次元CADモデルと比較されて、対象物14の推定された三次元姿勢72を提供する。画像94をCADモデルと比較するための1つの適切なアルゴリズムは、当技術分野においてPerspective-n-point(PnP)として知られている。一般に、PnP処理は、ワールド座標系における対象物の一組のn個の三次元点と、カメラ20からの画像内の三次元点に対応する二次元投影とが与えられると、較正されたカメラに対する対象物の姿勢を推定する。姿勢は、カメラ座標系に対する対象物の回転(ロール、ピッチ及びヨー)と、三次元平行移動とから構成される6自由度(DOF)を含む。
【0017】
図5は、対象物16の三次元姿勢を取得するために、本例においてPnP処理をどのように実装できるかを示す
図100である。
図100は、地上較正又は実位置での対象物16を表す三次元対象物106を示す。対象物106は、カメラ20を表すカメラ112によって観察され、二次元画像平面110上に二次元対象物画像108として投影される。ここで、対象物画像108は画像94を表し、画像108上の点102は点96を表すニューラルネットワーク78によって予測された特徴点である。また、
図100は、カメラ112の前にランダムに配置され、平面110上に二次元モデル画像116として投影され、投影された特徴点118も含む、特徴点96と同じ位置に特徴点104を有する対象物16の仮想三次元CADモデル114を示す。CADモデル114は、カメラ112の前で回転及び平行移動され、これが、モデル画像116上の特徴点118のそれぞれと、対象物画像108上の対応する特徴点102との間の距離を最小化する、即ち、画像116及び108を位置合わせする試みにおいて、モデル画像116を回転及び平行移動する。モデル画像116は、可能な限り最良に対象物画像108と位置合わせされた時点で、カメラ112に対するCADモデル114の姿勢が対象物16の推定された三次元姿勢72である。
【0018】
この分析は、画像108と画像116との間の対応する特徴点のうちの1つについて式(1)によって表される。ここで、式(1)は、画像108と画像116の全ての特徴点について使用される。
【数1】
ここで、ViはCADモデル114の特徴点104のうちの1つであり、viはモデル画像116の対応する投影された特徴点102であり、aiは対象物画像108上の特徴点102のうちの1つであり、Rは回転量であり、Tはカメラ112に対するCADモデル114の平行移動量であり、記号’は転置ベクトルであり、∀は指数iを有する任意の特徴点を指す。式(1)を最適化解法で解くことにより、最適な回転量及び平行移動量を計算できるため、対象物16の三次元姿勢72の推定を提供する。
【0019】
全ての三次元姿勢72が単一の画像74に結合され、ロボット12は対象物16のうちの1つを選択して取出す。ロボット12が対象物16を取出して移動した時点で、カメラ20は、容器18の新たな画像を取得して、次の対象物16を取出す。この処理は、全ての対象物16が取出されるまで継続する。
【0020】
上記の考察は、同じタイプ又はカテゴリの対象物を有する一群の対象物の中の対象物、即ち、透明ボトルの三次元姿勢を特定することについて説明する。しかし、上記の処理は、異なるタイプ又はカテゴリの対象物を有する一群の対象物の中の対象物の三次元姿勢を特定する用途を有する。これは、あるカテゴリの区分けされた対象物126、即ち、ボトルと、別のカテゴリの区分けされた対象物128、即ち、マグカップとを含む、
図6に示すセグメンテーション画像124によって図示される。
【0021】
当業者によって充分に理解されるように、本開示を説明するために本書で考察された幾つかの種々のステップ及び処理は、電気的現象を使用してデータを操作したり、及び/又は変換したりする、コンピュータ、プロセッサ又は他の電子計算装置によって実行される動作を指す場合がある。それらのコンピュータ及び電子装置は、コンピュータ又はプロセッサによって実行できる種々のコード又は実行可能命令を含む実行可能プログラムが記憶された非一時的なコンピュータ可読媒体を含む種々の揮発性メモリ及び/又は不揮発性メモリを採用する場合がある。ここで、メモリ及び/又はコンピュータ可読媒体は、あらゆる形態及びタイプのメモリ及び他のコンピュータ可読媒体を含んでもよい。
【0022】
前述の考察は、本開示の単なる例示的な実施形態を開示し説明される。当業者は、そのような考察及び添付の図面及び特許請求の範囲から、以下の特許請求の範囲で規定される開示の精神及び範囲から逸脱することなく、種々の変更、修正及び変形を施すことができることを容易に認識するであろう。
【外国語明細書】