(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2022181173
(43)【公開日】2022-12-07
(54)【発明の名称】透明物体のビンピッキング
(51)【国際特許分類】
G06T 7/73 20170101AFI20221130BHJP
B25J 13/08 20060101ALI20221130BHJP
G06T 7/00 20170101ALI20221130BHJP
【FI】
G06T7/73
B25J13/08 A
G06T7/00 350C
【審査請求】未請求
【請求項の数】20
【出願形態】OL
【外国語出願】
(21)【出願番号】P 2022068052
(22)【出願日】2022-04-18
(31)【優先権主張番号】17/329,513
(32)【優先日】2021-05-25
(33)【優先権主張国・地域又は機関】US
(71)【出願人】
【識別番号】390008235
【氏名又は名称】ファナック株式会社
(74)【代理人】
【識別番号】100099759
【弁理士】
【氏名又は名称】青木 篤
(74)【代理人】
【識別番号】100123582
【弁理士】
【氏名又は名称】三橋 真二
(74)【代理人】
【識別番号】100112357
【弁理士】
【氏名又は名称】廣瀬 繁樹
(72)【発明者】
【氏名】タン トー
(72)【発明者】
【氏名】加藤 哲朗
【テーマコード(参考)】
3C707
5L096
【Fターム(参考)】
3C707AS04
3C707BS10
3C707KS36
3C707KT03
3C707KT06
3C707LW12
5L096AA02
5L096AA06
5L096AA09
5L096BA05
5L096CA02
5L096DA02
5L096FA02
5L096FA62
5L096FA67
5L096FA69
5L096GA30
5L096GA34
5L096HA08
5L096HA11
5L096JA11
(57)【要約】
【課題】正確な深度マップ画像に依存することなく、物体の貯蔵容器からロボットによってピックアップされる透明物体などの物体を識別できるシステム及び方法の提供を図る。
【解決手段】方法は、3Dカメラを使用して物体の2D赤緑青(RGB)カラー画像及び2D深度マップ画像を取得することを含み、深度マップ画像の中のピクセルにカメラから物体までの距離を識別する値が割り当てられる。方法は、RGB画像から特徴を抽出してセグメント化画像の中の物体が同じラベルを持つようにピクセルにラベルを割り当てる画像セグメント化プロセスを実施するディープラーニングマスクR-CNN(畳み込みニュートラルネットワーク)を使用して、物体のセグメント化画像を生成する。方法は、その後、セグメント化画像及び深度マップ画像を使用して物体をピックアップするための場所を識別する。
【選択図】
図2
【特許請求の範囲】
【請求項1】
物体群から1つの物体をピックアップする方法であって、前記方法が、
3Dカメラを使用して前記物体の2D赤緑青(RGB)カラー画像を取得することと、
前記3Dカメラを使用して前記物体の2D深度マップ画像を取得することであって、前記深度マップ画像の中のピクセルに、前記カメラから前記物体までの距離を識別する値が割り当てられる、取得することと、
前記RGB画像から特徴を抽出して前記セグメント化画像の中の各物体が同じラベルを持つように前記セグメント化画像の中のピクセルにラベルを割り当てる画像セグメント化プロセスを実施することによって、前記物体のセグメント化画像を生成することと、
前記セグメント化画像及び前記深度マップ画像を使用して前記物体をピックアップするための場所を識別することと、
を含む、方法。
【請求項2】
セグメント化画像を生成することが、ディープラーニングマスクR-CNN(畳み込みニュートラルネットワーク)を使用することを含む、請求項1に記載の方法。
【請求項3】
セグメント化画像を生成することが、前記物体の1つが特定の場所に存在する確率を識別するバウンディングボックスを前記抽出された特徴から生成することを含む、請求項1に記載の方法。
【請求項4】
バウンディングボックスを生成することが、領域提案プロセスを使用することを含む、請求項3に記載の方法。
【請求項5】
セグメント化画像を生成することが、どのような画像ピクセルがどのようなバウンディングボックスに属するかを測定するバイナリセグメント化を与えることを含む、請求項3に記載の方法。
【請求項6】
前記物体をピックアップするための場所を識別することが、前記セグメント化画像の中の前記物体の中心ピクセルを識別することと、前記セグメント化画像及び前記深度マップ画像を使用して前記中心ピクセルのx-y-z座標を計算することと、を含む、請求項1に記載の方法。
【請求項7】
前記物体をピックアップするための場所を識別することが、前記物体をピックアップするためのx-y-z把持位置を測定することを含む、請求項6に記載の方法。
【請求項8】
前記物体をピックアップするための場所を識別することが、前記カメラから前記中央ピクセルまでの光線方向によって画定される前記物体をピックアップするための把持方向を識別することを含む、請求項7に記載の方法。
【請求項9】
前記光線方向がピンホールカメラモデルによって測定される、請求項8に記載の方法。
【請求項10】
前記物体をピックアップするための場所を識別することが、前記把持位置及び前記把持方向を使用して前記物体をピックアップするための把持ポーズを測定することを含む、請求項8に記載の方法。
【請求項11】
前記物体がロボットによってピックアップされ、前記把持ポーズがロボットエンドエフェクタのポーズを決定する、請求項10に記載の方法。
【請求項12】
更に、前記エンドエフェクタに関して衝突制限を与える、請求項11に記載の方法。
【請求項13】
カラー画像の取得、深度マップ画像の取得及びセグメント化画像の生成が、前記物体群から1つの物体がピックアップされるたびに実施される、請求項1に記載の方法。
【請求項14】
前記物体が透明である、請求項1に記載の方法。
【請求項15】
前記物体が複数の形状を有する、請求項1に記載の方法。
【請求項16】
ロボットを使用して透明物体群から1つの透明物体をピックアップする方法であって、前記方法が、
3Dカメラを使用して前記物体の2D赤緑青(RGB)カラー画像を取得することと、
前記3Dカメラを使用して前記物体の2D深度マップ画像を取得することであって、前記深度マップ画像の中のピクセルに、前記カメラから前記物体までの距離を識別する値が割り当てられる、取得することと、
前記RGB画像から特徴を抽出して前記セグメント化画像の中の各物体が同じラベルを持つように前記セグメント化画像の中のピクセルにラベルを割り当てるディープラーニングマスクR-CNN(畳み込みニュートラルネットワーク)を使用する画像セグメント化プロセスを実施することによって、前記物体のセグメント化画像を生成することと、
前記セグメント化画像及び前記深度マップ画像を使用して前記物体をピックアップするための場所を識別することであって、カラー画像の取得、深度マップ画像の取得、セグメント化画像の生成及び前記物体をピックアップするための場所の識別が、前記ロボットによって前記物体群から1つの物体がピックアップされるごとに実施される、識別することと、
を含む、方法。
【請求項17】
セグメント化画像を生成することが、領域提案プロセスを使用して前記物体の1つが特定の場所に存在する確率を識別するバウンディングボックスを前記抽出された特徴から生成することと、どのような画像ピクセルがどのようなボンディングボックスに属するかを測定するバイナリセグメント化を与えることと、を含む、請求項16に記載の方法。
【請求項18】
前記物体をピックアップするための場所を識別することが、前記セグメント化画像の中の前記物体の中心ピクセルを識別することと、前記セグメント化画像及び前記深度マップ画像を使用して前記中心ピクセルのx-y-z座標を計算することと、前記物体をピックアップするための前記ロボットのx-y-z把持位置を測定すること、ピンホールカメラモデルを使用して前記カメラから前記中心ピクセルまでの光線方向によって画定される前記物体をピックアップするための前記ロボットの把持方向を識別することと、前記把持位置及び前記把持方向を使用して前記物体をピックアップするための前記ロボットの把持ポーズを測定することと、を含む、請求項16に記載の方法。
【請求項19】
ロボットを使用して物体群から1つの物体をピックアップするためのロボットシステムであって、前記システムが、
前記物体の2D赤緑青(RGB)カラー画像及び2D深度マップ画像を与える3Dカメラと、
前記RGB画像から特徴を抽出して前記セグメント化画像の中の各物体が同じラベルを持つように前記セグメント化画像の中のピクセルにラベルを割り当てる画像セグメント化プロセスを実施することによって、前記物体のセグメント化画像を生成するディープラーニングマスクR-CNN(畳み込みニュートラルネットワーク)と、
前記セグメント化画像及び前記深度マップ画像を使用して前記物体をピックアップするための場所を識別するための手段であって、カラー画像の取得、深度マップ画像の取得、セグメント化画像の生成及び前記物体をピックアップするための場所の識別が、前記ロボットによって前記物体群から1つの物体がピックアップされるごとに実施される、手段と、
を備える、システム。
【請求項20】
前記物体をピックアップするための場所を識別するための前記手段が、前記セグメント化画像の中の前記物体の中心ピクセルを識別し、前記セグメント化画像及び前記深度マップ画像を使用して前記中心ピクセルのx-y-z座標を計算し、前記物体をピックアップするための前記ロボットのx-y-z把持位置を測定し、ピンホールカメラモデルを使用して前記カメラから前記中心ピクセルまでの光線方向によって画定される前記物体をピックアップするための前記ロボットの把持方向を識別し、前記把持位置及び前記把持方向を使用して前記物体をピックアップするための前記ロボットの把持ポーズを測定する、請求項19に記載のシステム。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、概略的にロボットによって物体の貯蔵容器(bin)からピックアップされる物体を識別するためのシステム及び方法、特にロボットによって物体の貯蔵容器からピックアップされる透明物体などの物体を識別するためのシステム及び方法に関する。方法は、貯蔵容器の画像の中のあらゆるピクセルにラベルを割り当てる画像セグメント化プロセスを採用する。
【背景技術】
【0002】
ロボットは、ピックアンドプレース作業を含む多数のタスクを実施する。ロボットは貯蔵容器など1つの場所から物体をピックアップし、ここからコンベアベルトなど別の場所へ物体を移動する。貯蔵容器からピックアップされる物体を識別するために、いくつかのロボットシステムは、貯蔵容器の2D赤緑青(RGB)カラー画像及び貯蔵容器の2Dグレースケール深度マップ画像を生成する3Dカメラを採用し、深度マップ画像の各ピクセルは、カメラから特定の物体までの距離を画定する値を持つ。即ち、ピクセルが物体に近いほど、その値は低くなる。深度マップ画像は、カメラの視野の中で点群の点までの距離測定値を識別する。点群は、特定の座標系によって画定されるデータ点の集合であり、各点はx、y及びz値を有する。
【0003】
このために2タイプの点群分析がある。即ち、モデルフリー点群分析と、モデルベース点群分析である。モデルフリー点群分析は、カメラから直角方向に点群の中の点クラスタを識別し、クラスタを相互に対してセグメント化することを含み、各点群セグメントが物体として識別される。モデルベース点群分析は、物体のCADモデルからテンプレートを生成し、その後点群においてテンプレートを検索することを含む。但し、ロボットによってピックアップされる物体が透明である場合、光は物体を通過して伝播し、物体の表面から効果的に反射されない。したがって、カメラによって生成された点群は、物体の効果的な表現ではなく、深度マップ画像は信頼できず、ピックアップされる物体を適切に識別できない。
【発明の概要】
【0004】
以下の考察では、物体の貯蔵容器からロボットによってピックアップされる物体を識別するためのシステム及び方法を開示し、説明する。方法は、3Dカメラを使用して物体の2D赤緑青(RGB)カラー画像及び2D深度マップ画像を取得することを含み、深度マップ画像の中のピクセルには、カメラから物体までの距離を識別する値が割り当てられる。方法は、RGB画像から特徴を抽出するセグメント化画像の中の物体が同じラベルを持つようにピクセルにラベルを割り当てる画像セグメント化プロセスを実施するディープラーニングマスクR-CNN(畳み込みニュートラルネットワーク)を使用して、物体のセグメント化画像を生成する。方法は、その後、セグメント化画像及び深度マップ画像を使用して物体をピックアップするための場所を識別する。カラー画像の取得、深度マップ画像の取得、セグメント化画像の生成及び物体をピックアップするための場所の識別は、ロボットによって物体群から物体がピックアップされるたびに実施される。
【0005】
本開示の付加的特徴は、添付図面と一緒に下記の説明及び請求項から明らかになる。
【図面の簡単な説明】
【0006】
【
図1】
図1は、貯蔵容器から物体をピックアップしているロボットを含むロボットシステムの図である。
【
図2】
図2は、
図1のロボットシステムにおいて貯蔵容器から物体をピックアップするためのビンピッキング(bin picking:バラ積み取出し)システムの概略的ブロック図である。
【
図3】
図3は、
図2に示すシステムから分離されたセグメント化モジュールの概略的ブロック図である。
【発明を実施するための形態】
【0007】
本開示の実施形態についての以下の考察は、物体の貯蔵容器からロボットによってピックアップされる物体を識別するためのシステム及び方法に関するものであり、方法は、貯蔵容器の画像の中のあらゆるピクセルにラベルを割り当てる画像セグメント化プロセスを採用する。以下の考察は、単に例示的であり、本発明又はその応用又は使用を限定することを意図しない。例えば、システム及び方法は、ロボットによってピックアップされる透明物体を識別するための用途を有する。但し、システム及び方法は、他の用途を持つことができる。
【0008】
図1は、図において物体16例えば透明ボトルを貯蔵容器18からピックアップしているエンドエフェクタ14を有するロボット12を含むロボットシステム10の図である。システム10は、本明細書の考察を利用できる任意のタイプのロボットシステムを表すことを意図し、ロボット12は、前記目的に適する任意のロボットとすることができる。3Dカメラ20は、貯蔵容器18の上から下までの画像を撮って、ロボット12の動きを制御するロボットコントローラ22へ画像を与えるように位置付けられる。物体16は透明である可能性があるので、コントローラ22は、貯蔵容器18の中の物体16の場所を識別するためにカメラ20によって提供された深度マップ画像を信頼できない可能性がある。
【0009】
下でさらに詳しく論じるように、ロボットコントローラ22は、ロボット12が正確な深度マップ画像に依存する必要なく物体16をピックアップすることができるようにするアルゴリズムを採用する。より具体的には、アルゴリズムは、3Dカメラ20からのRGB画像の中のピクセルの様々な色を使用して画像セグメント化プロセスを実施する。画像セグメント化は、同じラベルを持つピクセルが特定の特性を共有するように画像の中のあらゆるピクセルにラベルを割り当てるプロセスである。したがって、セグメント化プロセスは、どのピクセルがどの物体16に属するかを予測する。
【0010】
現代の画像セグメント化法は、ディープラーニングテクノロジーを採用できる。ディープラーニングは、特定の現実世界環境を増加する複合概念の階層として表すことによって、より大きな学習性能を与える特殊なタイプの機械学習である。ディープラーニングは、典型的に、非線形処理を実施する数層のニュートラルネットワークを含むソフトウェア構造を採用し、各連続層は、その前の層から出力を受け取る。概略的に、層は、センサから生データを受け取る入力層、データから抽象的特徴を抽出する多数の隠れた層、及び隠れた層からの特徴抽出に基づいて特定のものを識別する出力層、を含む。ニュートラルネットワークは、各々「重み」を持つニューロン又はノードを含み、「重み」に、あるものが正確か否かの確率を得るためにノードへの入力が掛けられる。より具体的には、ノードの各々は、浮動小数点数である重みを有し、これにノードへの入力が掛けられて、そのノードに関する出力(入力のある程度の割合である)を生成する。重みは、ネットワークが最高確率の正確な出力を取得できるようにするために、まず、監視された処理の下でコスト関数を最小限に抑えて既知のデータセットをニュートラルネットワークに分析させることによって、「トレーニングされる」又は設定される。
【0011】
図2は、貯蔵容器18から物体16をピックアップするために作動するロボットシステム10の中のコントローラ22の一部であるビンピッキングシステム30の概略的ブロック図である。システム30は、貯蔵容器18の上面からの2D(二次元)RGB画像32及び貯蔵容器18の上面からの2D深度マップ画像34を、カメラ20から受け取るが、深度マップ画像34は、物体16が透明である可能性があるので、信頼できない可能性がある。画像32は、画像セグメント化プロセスを実施するセグメント化モジュール36へ与えられ、ここで、画像32の中の各ピクセルに特定のラベルが割り当てられ、同じ物体16に関連付けられるピクセルは同じラベルを有する。
【0012】
図3は、システム30から分離されたモジュール36の概略的ブロック図である。RGB画像32は、画像32から特徴を抽出するフィルタリングプロセスを実施する特徴抽出モジュール42へ与えられる。例えば、モジュール42は、画像32からグラディエント、エッジ、輪郭、基本形状などを抽出する学習ベースのニュートラルネットワークを含むことができ、RGB画像32の抽出特徴画像44を既知の様式で与える。特徴画像44は、領域提案モジュール50へ与えられ、領域提案モジュールは、ニュートラルネットワークを使用してRGB画像32の識別された特徴を分析し、物体16の1つが画像54の中のバウンディングボックス52の場所に存在する確率を識別するバウンディングボックス画像54の中の多数のバウンディングボックス52を提案又は識別する。バウンディングボックス画像54は、ニュートラルネットワークを使用してあるピクセルがバウンディングボックス54の1つに属するか否かを推定するバイナリセグメント化モジュール56へ与えられる。ピクセルには、特定の物体16について、色など様々な印(indicia)によって物体16を識別する2Dセグメント化画像58が生成されるように、値が割り当てられる。上述のような画像セグメント化プロセスは、したがって、ディープラーニングマスクR-CNN(畳み込みニュートラルネットワーク)の修正形である。
【0013】
x-yピクセル座標を有する2Dセグメント化画像58は、その後、画像58の中の物体16の1つの中心ピクセルのx-y座標を測定する中心ピクセルモジュール60へ与えられ、ここで、物体16がピックアップされる順番の予設定されたプロセスがまず与えられる。選択された物体16の識別された中心ピクセルは、深度マップ画像34と一緒に、物体16の中心ピクセルのx-y-zデカルト座標を計算するデカルト座標モジュール62へ与えられる。深度マップ画像34は、予測は非常に信頼できるものではないが、現実世界における各ピクセルの場所を推定又は予測する。前記物体16の中心ピクセルのx-y-z座標は、その後、エンドエフェクタ14を位置付けるための把持位置モジュール64のx-y-z把持位置を識別するために使用される。選択された物体16の中心ピクセルのx-y座標は、例えば当業者には周知のピンホールカメラモデルを使用してカメラ24から物体16の中心ピクセルまでの光線方向に基づいてロボット12の把持方向即ちロール、ピッチ及びヨーを測定する把持方向モジュール66へ送られる。物体16をピックアップするときのエンドエフェクタ14の動きは、光線方向に沿って移動し、これと整列する。深度マップ画像34は、カメラ24と物体16との間の正確な距離を示すことができないので、カメラ24からの光線方向を測定する必要がある。
【0014】
エンドエフェクタ14の把持位置及びエンドエフェクタ14の把持方向は、把持ポーズモジュール68において結合されて、エンドエフェクタ14の把持ポーズを与え、把持ポーズは、光線方向に沿って物体16までのエンドエフェクタ14のアプローチ方向を与えるために、エンドエフェクタ14のx-y-z座標及びヨー、ピッチ及びロール位置を含む。衝突チェックモジュール70は、把持ポーズが、算定された光線方向に沿って貯蔵容器18の底部とエンドエフェクタ14を衝突させるか否かを、測定する。貯蔵容器18の底までの距離は既知である。把持ポーズが光線方向に沿って貯蔵容器18との衝突を生じる場合、安全バッファモジュール72において安全バッファが生成されて、光線方向に沿ったロボット12の移動を制限する。
【0015】
エンドエフェクタ14が光線方向に沿って移動するとき、エンドエフェクタは、最終的にピックアップされる物体16に接触し、この実施形態において、エンドエフェクタ14は、物体16をピックアップするために真空カップ(図示せず)を使用する。接触検出モジュール74は、真空における圧力差を検出することによって、真空カップが物体16と接触したことを検出する。ロボット12は、その動きを停止し、ピックアップモジュール76において物体16をピックアップするか、又はバッファ距離に到達し、この場合物体16をピックアップしない。物体16がピックアップされロボット12によって移動されると、カメラ20は、次の物体16をピックアップするために貯蔵容器18の新たな画像を撮る。このプロセスは、物体16の全てがピックアップされるまで継続される。
【0016】
当業者には分かるように、本開示を説明するために本明細書において論じられる様々なステップ及びプロセスは、電気現象を使用してデータを操作及び/又は変換するコンピュータ、プロセッサ又はその他の電子計算デバイスによって実施される作業を意味することができる。これらのコンピュータ及び電子デバイスは、各種コード又はコンピュータ又はプロセッサによって実施できる実行可能命令を含む実行可能なプログラムが記憶された非一時的コンピュータ可読媒体を含む様々な揮発性及び/又は非揮発性メモリを採用できる。メモリ及び/又はコンピュータ可読媒体は、あらゆる形式及びタイプのメモリ及び他のコンピュータ可読媒体を含むことができる。
【0017】
前述の考察は、本開示の単なる例示的な実施形態を開示し説明される。当業者は、そのような考察及び添付の図面及び特許請求の範囲から、以下の特許請求の範囲で規定される開示の精神及び範囲から逸脱することなく、種々の変更、修正及び変形を施すことができることを容易に認識するであろう。
【外国語明細書】