(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2023113572
(43)【公開日】2023-08-16
(54)【発明の名称】AIデパレタイジングのための不良の検出及び修復
(51)【国際特許分類】
G06T 7/00 20170101AFI20230808BHJP
B25J 13/08 20060101ALI20230808BHJP
B25J 19/04 20060101ALI20230808BHJP
【FI】
G06T7/00 C
G06T7/00 350C
B25J13/08 A
B25J19/04
【審査請求】未請求
【請求項の数】20
【出願形態】OL
【外国語出願】
(21)【出願番号】P 2022208010
(22)【出願日】2022-12-26
(31)【優先権主張番号】17/649,811
(32)【優先日】2022-02-03
(33)【優先権主張国・地域又は機関】US
(71)【出願人】
【識別番号】390008235
【氏名又は名称】ファナック株式会社
(74)【代理人】
【識別番号】100099759
【弁理士】
【氏名又は名称】青木 篤
(74)【代理人】
【識別番号】100123582
【弁理士】
【氏名又は名称】三橋 真二
(74)【代理人】
【識別番号】100112357
【弁理士】
【氏名又は名称】廣瀬 繁樹
(72)【発明者】
【氏名】タン トー
(72)【発明者】
【氏名】加藤 哲朗
【テーマコード(参考)】
3C707
5L096
【Fターム(参考)】
3C707AS01
3C707KS03
3C707KS04
3C707KT03
3C707LV07
3C707LW15
5L096AA02
5L096AA06
5L096AA09
5L096BA05
5L096DA01
5L096FA02
5L096FA66
5L096FA67
5L096FA69
5L096GA40
5L096GA51
5L096HA11
(57)【要約】
【課題】処理画像の不良を検出し修正するシステム及び方法を実現する。
【解決手段】
画像内で不正確に描写されたボックスを識別する方法は、3Dカメラを使用してボックスの2DのRGB画像及びボックスの2D深度マップ画像を取得する。深度マップ画像内のピクセルにはカメラからボックスまでの距離の識別値が割り当てられる。画像セグメンテーションプロセスを行うことでニューラルネットワークを使用してボックスのセグメンテーション画像を生成する。RGB画像から特徴を抽出し、セグメンテーション画像内の各ボックスが同じラベルを有しかつセグメンテーション画像内の異なるボックスが異なるラベルを有するようRGB画像内のピクセルにラベルを割り当ててボックスをセグメント化する。セグメンテーション画像を分析して画像セグメンテーションプロセスがセグメンテーション画像内のボックスを正確にセグメント化できなかったか否かを決定する。
【選択図】
図2
【特許請求の範囲】
【請求項1】
不正確に描写された対象物を前記対象物のグループの画像内で識別し修正する方法であって、前記方法は、
3Dカメラを使用して、前記対象物の2D赤緑青(RGB)カラー画像を取得することと、
前記3Dカメラを使用して、前記対象物の2D深度マップ画像を取得することであって、前記深度マップ画像内のピクセルには、前記カメラから前記対象物までの距離を識別する値が割り当てられる、ことと、
前記RGB画像及び前記深度マップ画像を処理して、前記対象物の処理画像を生成することと、
前記処理画像を分析して、前記対象物が、前記処理画像内で正確に描写されているかどうかを決定することと、
前記RGB画像及び前記深度マップ画像の処理が、前記処理画像内で前記対象物を正確に描写できなかったことを、前記処理画像の分析が決定する場合、前記処理画像をユーザインタフェースに送信することであって、前記ユーザインタフェースは、ユーザが前記処理画像を修正することを可能にする、ことと、
正確な処理画像、不良の処理画像、及び、修正処理画像を記憶することと、
前記記憶された正確な処理画像、不良の処理画像、及び、修正処理画像を使用して、前記RGB画像及び前記深度マップ画像の前記処理を訓練することと、
訓練された処理画像を新しいRGB及び深度マップ画像に適用することと、を含む、方法。
【請求項2】
前記対象物はボックスであり、前記RGB画像及び前記深度マップ画像の処理は、画像セグメンテーションプロセスを行うことによって、ニューラルネットワークを使用して前記ボックスのセグメンテーション画像を生成することを含み、前記画像セグメンテーションプロセスは、前記RGB画像から特徴を抽出し、前記セグメンテーション画像内の各ボックスが同じラベルを有しかつ前記セグメンテーション画像内の異なるボックスが異なるラベルを有するように前記RGB画像内のピクセルにラベルを割り当てることによって前記ボックスをセグメント化する、請求項1に記載の方法。
【請求項3】
前記処理画像の分析は、前記セグメンテーション画像内の前記ボックスの前記ラベルを分析して、前記セグメンテーション画像内のボックスが異なるラベルで識別されていないかを決定することによって、検出が見落とされたボックスを識別することを含む、請求項2に記載の方法。
【請求項4】
セグメンテーション画像の生成は、前記セグメンテーション画像内のラベリングされた各ボックスの周囲にバウンディングボックスを提供することを含み、異なるラベルで識別されなかった前記セグメンテーション画像内の前記ボックスは、バウンディングボックスを有していない、請求項3に記載の方法。
【請求項5】
前記セグメンテーション画像内の前記ボックスの前記ラベルの分析は、前記深度マップ画像から、同じ距離値を有する各バウンディングボックス内の前記ピクセルをカウントすることと、所定の閾値よりも高いピクセルカウントが複数ある場合、バウンディングボックス内に複数のボックスがあることを決定することと、を含む、請求項4に記載の方法。
【請求項6】
前記処理画像の分析は、部分的にセグメント化されたボックスを識別することを含む、請求項2に記載の方法。
【請求項7】
セグメンテーション画像の生成は、前記セグメンテーション画像内の各ボックスの周囲の複数のバウンディングボックスに、各バウンディングボックスが前記セグメンテーション画像内のボックスを識別している様々な度合の信頼度を提供することを含み、前記セグメンテーション画像の分析は、前記セグメンテーション画像内の各ボックスの周囲の前記複数のバウンディングボックスの重複交差比を観察することを含み、所定の低い交差比は、前記画像内の部分的にセグメント化されたボックスを示す、請求項6に記載の方法。
【請求項8】
セグメンテーション画像の生成は、前記セグメンテーション画像内の各ボックスの周囲にバウンディングボックスを提供することを含み、前記セグメンテーション画像の分析は、前記セグメンテーション画像内の各バウンディングボックスのサイズを見て、境界ボックスが所定の最大サイズのボックスよりも大きいかどうか、または、所定の最小サイズのボックスよりも小さいかどうかを決定することによって、前記セグメンテーション画像内のセグメント化されたボックスが、前記最大または最小サイズのボックスよりも大きいまたは小さいかどうかを識別することを含む、請求項1に記載の方法。
【請求項9】
前記処理画像の分析は、ボックスが空のパレット上に配置される前に、空のパレットの深度マップ画像を取得することによって空のパレットを識別することと、前記空のパレットの深度マップ画像を、前記3Dカメラからの前記深度マップ画像と比較することと、閾値よりも高い充分な数のピクセルが同じ距離を示す場合、前記空のパレットを識別することと、を含む、請求項1に記載の方法。
【請求項10】
ボックスのグループの画像内で不正確に描写されたボックスを識別する方法であって、前記方法は、どのボックスを掴みあげるかを識別するためにロボットによって使用され、前記方法は、
3Dカメラを使用して、前記ボックスの2D赤緑青(RGB)カラー画像を取得することと、
前記3Dカメラを使用して、前記ボックスの2D深度マップ画像を取得することであって、前記深度マップ画像内のピクセルには、前記カメラから前記ボックスまでの距離を識別する値が割り当てられる、ことと、
画像セグメンテーションプロセスを行うことによって、ニューラルネットワークを使用して前記ボックスのセグメンテーション画像を生成することであって、前記画像セグメンテーションプロセスは、前記RGB画像から特徴を抽出し、前記セグメンテーション画像内の各ボックスが同じラベルを有しかつ前記セグメンテーション画像内の異なるボックスが異なるラベルを有するように前記RGB画像内のピクセルにラベルを割り当てることによって前記ボックスをセグメント化し、セグメンテーション画像の生成は、前記セグメンテーション画像内のラベリングされた各ボックスの周囲にバウンディングボックスを提供することを含む、ことと、
前記セグメンテーション画像内の前記ボックスの前記ラベルを分析して、前記セグメンテーション画像内のボックスが異なるラベルで識別されていないかを決定することによって、前記セグメンテーション画像内で検出が見落とされたボックスを識別することであって、異なるラベルで識別されなかった前記セグメンテーション画像内の前記ボックスは、バウンディングボックスを有していない、ことと、を含む、方法。
【請求項11】
前記セグメンテーション画像内の前記ボックスの前記ラベルの分析は、前記深度マップ画像から、同じ距離値を有する各バウンディングボックス内の前記ピクセルをカウントすることと、所定の閾値よりも高いピクセルカウントが複数ある場合、バウンディングボックス内に複数のボックスがあることを決定することと、を含む、請求項10に記載の方法。
【請求項12】
前記セグメンテーション画像内のボックスが異なるラベルで識別されていない場合、前記セグメンテーション画像をユーザインタフェースに送信することを更に含み、前記ユーザは、異なるラベルで前記ボックスを手動で識別する、請求項10に記載の方法。
【請求項13】
正確なセグメンテーション画像、不良のセグメンテーション画像、及び、修正セグメンテーション画像を記憶することと、前記記憶された正確なセグメンテーション画像、不良のセグメンテーション画像、及び、修正セグメンテーション画像を使用して、前記ニューラルネットワークを訓練することと、を更に含む、請求項10に記載の方法。
【請求項14】
ボックスのグループの画像内で不正確に描写されたボックスを識別する方法であって、前記方法は、どのボックスを掴みあげるかを識別するためにロボットによって使用され、前記方法は、
3Dカメラを使用して、前記ボックスの2D赤緑青(RGB)カラー画像を取得することと、
前記3Dカメラを使用して、前記ボックスの2D深度マップ画像を取得することであって、前記深度マップ画像内のピクセルには、前記カメラから前記ボックスまでの距離を識別する値が割り当てられる、ことと、
画像セグメンテーションプロセスを行うことによって、ニューラルネットワークを使用して前記ボックスのセグメンテーション画像を生成することであって、前記画像セグメンテーションプロセスは、前記RGB画像から特徴を抽出し、前記セグメンテーション画像内の各ボックスが同じラベルを有しかつ前記セグメンテーション画像内の異なるボックスが異なるラベルを有するように前記RGB画像内のピクセルにラベルを割り当てることによって前記ボックスをセグメント化し、セグメンテーション画像の生成は、前記セグメンテーション画像内の各ボックスの周囲の複数のバウンディングボックスに、各バウンディングボックスが前記セグメンテーション画像内のボックスを識別している様々な度合の信頼度を提供することを含む、ことと、
前記セグメンテーション画像内の各ボックスの周囲の前記複数のバウンディングボックスの重複交差比を観察することによって、前記セグメンテーション画像内の部分的にセグメント化されたボックスを識別することであって、所定の低い交差比は、前記画像内の部分的にセグメント化されたボックスを示す、ことと、を含む、方法。
【請求項15】
前記セグメンテーション画像内の部分的にセグメント化されたボックスが識別された場合、前記セグメンテーション画像をユーザインタフェースに送信することを更に含み、前記ユーザは、前記部分的にセグメント化されたボックスを手動で識別する、請求項14に記載の方法。
【請求項16】
正確なセグメンテーション画像、不良のセグメンテーション画像、及び、修正セグメンテーション画像を記憶することと、前記記憶された正確なセグメンテーション画像、不良のセグメンテーション画像、及び、修正セグメンテーション画像を使用して、前記ニューラルネットワークを訓練することと、を更に含む、請求項15に記載の方法。
【請求項17】
対象物のグループの画像内で不正確に描写された対象物を識別するロボットシステムであって、前記システムは、どの対象物を掴みあげるかを識別するためにロボットによって使用され、前記システムは、
ボックスの2D赤緑青(RGB)カラー画像及び2D深度マップ画像を提供する3Dカメラと、
前記RGB画像及び前記深度マップ画像を処理して、前記対象物の処理画像を生成する手段と、
前記処理画像を分析して、前記対象物が、前記処理画像内で正確に描写されているかどうかを決定する手段と、
前記RGB画像及び前記深度マップ画像の処理が、前記処理画像内で前記対象物を正確に描写できなかったことを、前記処理画像の分析が決定する場合、前記処理画像をユーザインタフェースに送信する手段であって、前記ユーザインタフェースは、ユーザが前記処理画像を修正することを可能にする、手段と、
正確な処理画像、不良の処理画像、及び、修正処理画像を記憶する手段と、
前記記憶された正確な処理画像、不良の処理画像、及び、修正処理画像を使用して、前記RGB画像及び前記深度マップ画像の前記処理を訓練する手段と、
訓練された処理画像を新しいRGB及び深度マップ画像に適用する手段と、を備える、システム。
【請求項18】
前記対象物はボックスであり、前記処理画像を分析する前記手段は、画像セグメンテーションプロセスを行うことによって、前記ボックスのセグメンテーション画像を生成する深層学習畳み込みニューラルネットワークを採用し、前記画像セグメンテーションプロセスは、前記RGB画像及び前記深度マップ画像から特徴を抽出し、前記画像内の前記抽出された特徴を結合し、前記セグメンテーション画像内の各ボックスが同じラベルを有しかつ前記セグメンテーション画像内の異なるボックスが異なるラベルを有するように前記セグメンテーション画像内のピクセルにラベルを割り当てる、請求項17に記載のシステム。
【請求項19】
前記処理画像を分析する前記手段は、前記セグメンテーション画像内の前記ボックスの前記ラベルを分析して、前記セグメンテーション画像内のボックスが異なるラベルで識別されていないかを決定することによって、検出が見落とされたボックスを識別し、前記深層学習畳み込みニューラルネットワークは、前記セグメンテーション画像内のラベリングされた各ボックスの周囲にバウンディングボックスを提供し、異なるラベルで識別されなかった前記セグメンテーション画像内の前記ボックスは、バウンディングボックスを有していない、請求項18に記載のシステム。
【請求項20】
前記処理画像を分析する前記手段は、部分的にセグメント化されたボックスを識別し、前記深層学習畳み込みニューラルネットワークは、前記セグメンテーション画像内の各ボックスの周囲の複数のバウンディングボックスに、各バウンディングボックスが前記セグメンテーション画像内のボックスを識別している様々な度合の信頼度を提供し、前記処理画像を分析する前記手段は、前記セグメンテーション画像内の各ボックスの周囲の前記複数のバウンディングボックスの重複交差比を観察し、所定の低い交差比は、前記画像内の部分的にセグメント化されたボックスを示す、請求項18に記載のシステム。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は概して、処理画像の不良を検出し修正するシステム及び方法、より具体的には、ニューラルネットワークによって生成されるセグメンテーション画像の不良を検出し修正するシステム及び方法に関し、セグメンテーション画像は、ボックスの山からロボットによって掴みあげられるボックスを識別する特定の用途を有する。
【背景技術】
【0002】
ロボットは、ピックアンドプレース操作を含む多数の商用タスクを行う。当該ピックアンドプレース操作では、ロボットは、ある位置から別の位置へ対象物を掴みあげ移動させる。例えば、ロボットは、パレットからボックスを掴みあげ、そのボックスをコンベヤーベルト上に配置し得る。ここで、ロボットは、ボックスを保持するために吸盤を有するエンドエフェクタを採用することが多い。ロボットが効果的にボックスを掴みあげるためには、ロボットは、掴みあげるボックスの幅、長さ、及び、高さを認識する必要があり、当該幅、長さ、及び、高さは、ピックアンドプレース操作の前にロボットコントローラに入力される。しかしながら、多くの場合、同じパレット上にあるボックスのサイズは異なっており、それにより、ピックアンドプレース操作中にボックスのサイズをロボットに入力するのは非効率となる。ボックスはまた、同じ高さに並べて配置され得る。この場合、これらのボックスが別々のボックスであるか、または、単一の大きいボックスであるかを区別するのは困難である。
【0003】
2020年9月9日に出願され、本出願の譲受人に譲渡され、その内容を参照により本明細書に援用される、「Mix-Size Depalletizing」と題された米国特許出願第17/015,817号は、ボックスの山からロボットによって掴みあげられるボックスを識別するシステム及び方法を開示している。当該方法は、3Dカメラを使用して、ボックスの2D赤緑青(RGB)カラー画像及びボックスの2D深度マップ画像を取得することを含む。ここで、深度マップ画像内のピクセルには、カメラからボックスまでの距離を識別する値が割り当てられる。当該方法は、画像セグメンテーションプロセスを行うことによって、ボックスのセグメンテーション画像を生成する修正深層学習マスクR-CNN(畳み込みニューラルネットワーク)を採用する。当該画像セグメンテーションプロセスは、RGB画像から特徴を抽出し、画像内の抽出された特徴を結合し、セグメンテーション画像内の各ボックスのピクセルが同じラベルを有しかつセグメンテーション画像内の異なるボックスのピクセルが異なるラベルを有するように特徴画像内のピクセルにラベルを割り当てる。次に、当該方法は、セグメンテーション画像を使用してボックスを掴みあげる位置を識別する。
【0004】
817号出願に開示される方法は、画像フィルタリングステップ、領域提案ステップ、及び、バイナリセグメンテーションステップのために深層学習ニューラルネットワークを採用する。深層学習は、特定の現実世界の環境を、増大する複雑な概念の階層として表すことによって、より優れた学習性能を提供する特定の種類の機械学習である。深層学習は通常、非線形処理を行ういくつかの層のニューラルネットワークを含むソフトウェア構造を採用する。ここで、連続する各層は、前の層からの出力を受け取る。当該層は概して、センサからの生データを受け取る入力層、データから抽象的な特徴を抽出するいくつかの隠れ層、及び、隠れ層からの特徴抽出に基づいて特定の事柄を識別する出力層を含む。
【0005】
ニューラルネットワークは、ある事が正しいかどうかの可能性を得るためにノードへの入力が乗算される「重み」を各々有するニューロンまたはノードを含む。より具体的には、ノードの各々は、入力のいくらかの比率であるそのノードの出力を生成するためにノードへの入力が乗算される浮動小数点数である重みを有する。重みは、教師あり処理の下、一式の既知のデータをニューラルネットワークに分析させることによって、及び、ネットワークが正しい出力の最高の可能性を得られるようにコスト関数を最小化することを通じて、最初に「訓練される」か、または、設定される。
【0006】
深層学習ニューラルネットワークは多くの場合、画像内の対象物の視覚的な検出及び分類のための画像特徴抽出及び変換を提供するために採用される。ここで、動画または画像のストリームは、対象物を識別及び分類し、対象物をより良く認識するためのプロセスを通じて学習するために、ネットワークによって分析され得る。ニューラルネットワーク内の層数及び当該層内のノード数は、ネットワークの複雑さ、計算時間、及び、性能精度を決定する。ニューラルネットワークの複雑さは、ネットワーク内の層数、当該層内のノード数、または、その両方を低減することによって低減され得る。しかしながら、ニューラルネットワークの複雑さの低減は、ニューラルネットワークの学習の精度を低減する。ここで、層内のノード数の低減は、ネットワーク内の層数の低減よりも精度面での利点を有することが示されている。
【0007】
このような種類の深層学習ニューラルネットワークは、著しいデータ処理を必要とし、データ駆動である、すなわち、ニューラルネットワークを訓練するために多くのデータが必要とされる。例えば、ロボットがボックスを掴みあげるために、ニューラルネットワークは、ボックスの訓練データセットから特定のサイズ及び形状のボックスを識別するように訓練される。ここで、より多くのボックスが、より多くのデータを訓練するために使用され、必要とされる。しかしながら、ロボットのエンドユーザは、訓練データセットの一部ではなかった異なるサイズ及び形状のボックスを掴みあげる必要があり得る。更に、単一のボックスにおける異なるテクスチャー及びボックスにおけるラベリングは、不良検出を生成し得る。したがって、ニューラルネットワークは、このようなボックスを識別するのに必要なセグメンテーション性能を有していない場合がある。この結果、見落とされた検出不良及び部分的なセグメンテーション不良などの異なる種類の不良となり得る。見落とされた検出は、小さめのボックスが大きめのボックスの上部にあり、小さめのボックスがセグメンテーションプロセスによって検出されないときに生じ、それにより、ロボットは最上部のボックスに衝突し得る。ここで、小さめのボックスは、訓練データセットの一部ではない。部分的なセグメンテーションは、ボックスが1つしかない場合に、ボックスにおけるラベルまたは他の特徴が、ニューラルネットワークに2つのボックスをセグメント化させるときに生じ、それにより、ロボットは、中心からずれてボックスを掴みあげ得る。この場合、ボックスが傾けられ、明らかな問題をもたらし得る。
【0008】
上述の問題に対する解決策は、ニューラルネットワークを訓練するために使用される、より多くのボックスまたは特定の種類のボックスを特定のエンドユーザに提供することであり得る。しかしながら、ニューラルネットワークで使用されるセグメンテーションモデルは不完全であり、それにより、ロボット及び他の物への損傷が生じ得るため、ニューラルネットワークを使用しようと思わなくなる。不完全なニューラルネットワークを使用しなければ、モデルを改善するために使用され得る不良サンプルが取得されない、すなわち、ニューラルネットワークを更に訓練し微調整するためのデータが提供されない。
【発明の概要】
【0009】
以下の議論は、例えば、見落とされたボックスの検出及びボックスの部分的な検出などの、ボックスのグループの画像内で不正確に描写されたボックスを識別するシステム及び方法を開示し記載している。当該方法は、3Dカメラを使用して、ボックスの2D赤緑青(RGB)カラー画像及びボックスの2D深度マップ画像を取得する。ここで、深度マップ画像内のピクセルには、カメラからボックスまでの距離を識別する値が割り当てられる。当該方法は、例えば、画像セグメンテーションプロセスを行うことによって、ニューラルネットワークを使用してボックスのセグメンテーション画像を生成する。当該画像セグメンテーションプロセスは、RGB画像から特徴を抽出し、セグメンテーション画像内の各ボックスのピクセルが同じラベルを有しかつセグメンテーション画像内の異なるボックスのピクセルが異なるラベルを有するようにRGB画像内のピクセルにラベルを割り当てることによってボックスをセグメント化する。当該方法は、セグメンテーション画像を分析して、画像セグメンテーションプロセスが、セグメンテーション画像内のボックスを正確にセグメント化できなかったかどうかを決定する。
【0010】
本開示の追加的特徴は、添付の図面と併せて、以下の記載及び付属する特許請求の範囲から明らかになるであろう。
【図面の簡単な説明】
【0011】
【
図1】
図1は、パレットからボックスを掴みあげ、そのボックスをコンベヤーベルト上に配置するロボットを含むロボットシステムを示す図である。
【
図2】
図2は、ロボットによって掴みあげられる対象物を識別するために使用される処理画像内の不良を検出し修正するシステムの概略ブロック図である。
【
図3】
図3は、見落とされた検出不良を示す、パレット上にランダムに配置されたボックスのグループの上面RGBセグメンテーション画像を示す。
【
図4】
図4は、小さめのボックスを上部に有する大きめのボックスの周囲に形成されたバウンディングボックスについての、横軸に距離、縦軸にピクセルの数を有するグラフである。
【
図5】
図5は、部分的なセグメンテーション不良を示す、パレット上にランダムに配置されたボックスのグループの上面RGBセグメンテーション画像を示す。
【発明を実施するための形態】
【0012】
処理画像内の不良を検出し修正するシステム及び方法に関する本開示の実施形態に関する以下の議論は、本質的に単なる例示であり、本発明または本発明の用途若しくは使用を制限することを全く意図しない。例えば、当該システム及び方法は、ロボットによって掴みあげられるボックスを識別する用途を有する。しかしながら、当該システム及び方法は、他の用途を有していてもよい。
【0013】
図1は、パレット20上に配置されたボックス16の山18からボックス16を掴みあげ、ボックス16をコンベヤーベルト22上に配置するように構成されたエンドエフェクタ14を有するロボット12を含むロボットシステム10を示す図である。システム10は、本明細書の議論から利することができる任意の種類のロボットシステムを表すように意図され、ロボット12は、その目的に適した任意のロボットであり得る。3Dカメラ24は、ボックス16の山18の2D上面RBG画像及び深度マップ画像を撮影し、かつロボット12の移動を制御するロボットコントローラ26に当該画像を提供するように配置されている。ボックス16は、パレット20上で異なる向きを有していてもよく、パレット20上で複数の層に積み重ねられていてもよく、異なるサイズを有していてもよい。
【0014】
図2は、ロボット12によって掴みあげられるボックス16などの対象物を識別するために使用される処理画像内の不良を検出し修正するシステム30の概略ブロック図である。システム30は、対象物の上面RGB画像及び2D深度マップ画像を取得する、カメラ24を表す3Dカメラ32を含む。RGB画像及び深度マップ画像は、分析モジュール34に提供される。分析モジュール34は、ロボット12が対象物を掴みあげることができる形式で対象物を識別するように処理画像を提供するのに適した任意の方法で、RGB画像及び2D深度マップ画像に対して処理を行う。非限定的な一例では、分析モジュール34は、画像セグメンテーションプロセスを行うことによって、ボックス16のセグメンテーション画像を生成する修正深層学習マスクR-CNNを採用する817号出願に記載されるセグメンテーションプロセスを行う。当該画像セグメンテーションプロセスは、RGB画像及び深度マップ画像から特徴を抽出し、画像内の抽出された特徴を結合し、セグメンテーション画像内の各ボックスのピクセルが同じラベルを有しかつセグメンテーション画像内の異なるボックスのピクセルが異なるラベルを有するように特徴画像内のピクセルに色などのラベルを割り当てる。
【0015】
図3は、分析モジュール34から出力される、パレット40上にランダムに配置されたボックス38のグループの上面RGBセグメンテーション画像36であり、ボックス38のうちの1つは、大きめのボックス44の上に置かれている小さめのボックス42である。分析モジュール34は、セグメンテーション画像36内のボックス38のセグメント化された位置及び向きを識別し、ロボット12によって掴みあげられる次のボックスとして候補ボックス、例えば、最高のボックスを選択する。
図3は、セグメンテーション画像36内のボックス38の山での最上部の高さにおけるボックス38の周囲のセグメンテーションバウンディングボックス46を示し、各バウンディングボックス46は、同じラベルを有するピクセルの周囲で定義される。明らかなように、小さめのボックス42の周囲にバウンディングボックス46はなく、したがって、見落とされた検出を示している。
【0016】
分析モジュール34は、画像内の不良を識別するために処理画像を不良検出モジュール48に送信する。例えば、上述した特定の実施形態では、モジュール34は、画像36内にバウンディングボックス46を有するボックス38に関する位置及び向き情報を、ボックス38の位置及び向きが正しいか間違っているかを決定する不良検出モジュール48に送信する。不良検出モジュール48はまた、カメラ32からのRGB画像及び深度マップ画像を受信する。不良検出モジュール48は、各々が並列で実行されかつ各々が本明細書で論じられる不良のうちの1つを検出するように動作する、いくつかの不良検出サブモジュール50を含む。
【0017】
不良検出サブモジュール50のうちの1つは、見落とされた検出を識別し得る。深度マップ画像により、不良検出モジュール48は、カメラ32からの画像36内の各ピクセルの距離を決定することができる。画像36内のセグメンテーションバウンディングボックス46内の各ピクセルの距離は、そのセグメンテーションバウンディングボックス46内の全ての他のピクセルとほぼ同じでなければならない。各バウンディングボックス46内のピクセルの各グループの距離を個別に見ることによって、見落とされたボックス検出があるかどうかを決定することができる。
【0018】
図4は、大きめのボックス44の周囲のバウンディングボックス46についての、横軸に距離、縦軸にピクセルの数を有するグラフであり、このようなグラフは、各バウンディングボックス46について生成される。カメラ32からより遠くに離れたピクセル数の高めのピーク60は、大きめのボックス44の周囲のバウンディングボックス46内のピクセルの大部分の距離を識別し、したがって、カメラ32からの大きめのボックス44の距離を提供する。カメラ32により近いピクセル数の低めのピーク62は、カメラ32により近い小さめのボックス42についてのピクセルの距離を識別する。したがって、検出が見落とされたボックスが識別される。グラフが1つのピークのみを有する場合、ボックス38のうちの1つのみが、そのバウンディングボックス46内にある。検出が見落とされたボックス38ではない小さいピークが、見落とされた検出として識別されないように第2のピークを識別するために、閾値が使用されることに留意されたい。
【0019】
不良検出モジュール48内の不良検出サブモジュール50のうちの1つは、単一のボックス38について複数の分離されたバウンディングボックス46がある、部分的なセグメンテーションを識別し得る。分析モジュール34から出力されるバウンディングボックス46の各々は概して、画像36内でボックス38の境界を示す所定の高い可能性、例えば95%の可能性を有するように分析モジュール34によって決定される。しかしながら、分析モジュール34は、ボックス38の境界を示す可能性がより低い、多くのバウンディングボックス46を識別する。それらは、817号出願に開示されるセグメンテーションプロセスでは破棄される。システム30について、分析モジュール34は、可能性がより低いバウンディングボックス46の一部または全てを維持し、それらを不良検出モジュール48に出力する。これは、分析モジュール34から出力される、パレット74上にランダムに配置されたボックス72のグループの上面RGBセグメンテーション画像70を示す
図5によって示される。画像70は、最上層で、バウンディングボックス78によって囲まれた左側のボックス76、バウンディングボックス82によって囲まれた右側のボックス80、及び、いくつかのバウンディングボックス86が示された中間のボックス84を含む。バウンディングボックス78及び82は、互いに重複する実際の複数のバウンディングボックスであり、バウンディングボックス78及び82がそれぞれ、ボックス76及び80の境界を定義している可能性が高いことを示す。したがって、離隔したバウンディングボックス86は、ボックス84の境界が高い信頼度で識別されていないことを示し、817号出願に開示されるセグメンテーションプロセスで、セグメンテーション画像内で複数のボックスとして可能な限りセグメント化され得る。したがって、交差比、すなわち、特定のボックスについてのバウンディングボックスがどのくらい充分に重複しているかを見ることによって、部分的にセグメント化された可能性のあるボックスを識別することができる。
【0020】
不良検出モジュール48内の不良検出サブモジュール50はまた、他の不良を検出することができる。当該他の不良のうちの1つは、空のパレットの検出であり得る。ボックスが空のパレット上に配置される前に、空のパレットの深度マップ画像を取得することによって、その画像が、サブモジュール50のうちの1つにおけるリアルタイムの深度マップ画像と比較され得、閾値よりも高い充分な数のピクセルが同じ距離を示す場合、モジュール48は、全てのボックスが掴みあげられたと認識する。
【0021】
他の不良のうちの別の不良は、セグメンテーション画像内のセグメント化されたボックスが既知の最大または最小サイズのボックスよりも大きいまたは小さいことが識別されたどうかの検出であり得、それは、セグメンテーション画像内の不良のボックス検出である。不良検出サブモジュール50のうちの1つは、セグメンテーション画像内の各バウンディングボックスのサイズを見ることができ、バウンディングボックスが、最大サイズのボックスよりも大きいまたは最小サイズのボックスよりも小さい場合、不良を示すアラームが送信され得る。
【0022】
図2に戻って、どの不良検出サブモジュール50も、上述したような不良を検出しない場合、選択されて掴みあげられる次のボックスの位置及び向きは、作動モジュール90に送信される。作動モジュール90は、そのボックスを掴みあげ、そのボックスをコンベヤー22上に配置するようにロボット12を操作する。次に、システム30は、パレット20から次のボックス16を掴みあげるために、山18の次の上面RGB画像及び深度マップ画像をカメラ32に撮影させる。不良検出サブモジュール50のうちのいずれかまたは一部が特定の不良を検出する場合、作動モジュール90に信号は送信されず、ロボット12は停止する。次に、1つ以上のアラーム信号が、人間ユーザによって監視されているユーザインタフェースコンピュータ及びスクリーンである手動ラベリングモジュール92に送信される。人間ユーザは、分析モジュール34によって生成された処理画像をスクリーン上で見て、不良をもたらしている問題を視覚的に識別する。例えば、人間ユーザは、コンピュータで動作するアルゴリズムを使用して、不良をもたらしているボックスまたは複数のボックスの周囲に適切なバウンディングボックスを描くかまたは描きなおし、次に、調整されたそのRGBセグメンテーション画像を作動モジュール90に送信し得る。それにより、ロボット12は、画像内の手動でラベリングされたボックスを掴みあげる。
【0023】
手動ラベリングボックス92からの不良を含む処理画像、及び、作動モジュール90からの正しいまたは修正された画像は、データベース94に送信されて、システム30が、不良画像、不良画像を修正した画像、及び、不良検出モジュール48からの適切に処理された画像を含むように記憶される。次に、選択されたある時間に、これらの画像は、微調整モジュール96に送信される。微調整モジュール96は、修正された画像、良好な画像、及び、不良画像を使用して、分析モジュール34でニューラルネットワークノードを更に訓練するなどして、分析モジュール34で処理を修正する。したがって、分析モジュール34は、元のデータセットを使用してニューラルネットワークノードを訓練するために使用されなかった可能性があるユーザの設備におけるボックスを掴みあげるように更に訓練され、以前に不良画像を生成したボックスの構成が次に生じるときに不良画像が生成されるのを防ぐように訓練される。
【0024】
当業者には充分に理解されるように、本開示を記載するために本明細書で論じられるいくつかの様々なステップ及びプロセスは、電気的な現象を使用してデータを操作または変換またはその両方を行う、コンピュータ、プロセッサ、または、他の電子計算装置によって行われる動作を指し得る。このようなコンピュータ及び電子装置は、コンピュータまたはプロセッサによって行うことができる様々なコードまたは実行可能命令を含む実行可能プログラムが記憶された非一時的なコンピュータ可読媒体を含む様々な揮発性メモリまたは不揮発性メモリまたはその両方を採用し得る。メモリまたはコンピュータ可読媒体またはその両方は、全ての形式及び種類のメモリ及び他のコンピュータ可読媒体を含み得る。
【0025】
前述の議論は単に、本開示の好ましい実施形態を開示及び記載している。当業者は、このような議論並びに添付の図面及び特許請求の範囲から、以下の特許請求の範囲で定義されるような本開示の精神及び範囲から逸脱することなく、様々な変更、修正、及び、変形が行われ得ることを容易に認識するであろう。
【外国語明細書】