IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ ファナック株式会社の特許一覧

特開2024-108118ニューラルネットワークを適応させる方法
<>
  • 特開-ニューラルネットワークを適応させる方法 図1
  • 特開-ニューラルネットワークを適応させる方法 図2
  • 特開-ニューラルネットワークを適応させる方法 図3
  • 特開-ニューラルネットワークを適応させる方法 図4
  • 特開-ニューラルネットワークを適応させる方法 図5
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024108118
(43)【公開日】2024-08-09
(54)【発明の名称】ニューラルネットワークを適応させる方法
(51)【国際特許分類】
   G06V 10/82 20220101AFI20240802BHJP
   G06V 10/40 20220101ALI20240802BHJP
   G06T 7/00 20170101ALI20240802BHJP
   G06F 18/213 20230101ALI20240802BHJP
   G06N 3/0464 20230101ALI20240802BHJP
   B25J 13/00 20060101ALI20240802BHJP
【FI】
G06V10/82
G06V10/40
G06T7/00 350C
G06F18/213
G06N3/0464
B25J13/00 Z
【審査請求】未請求
【請求項の数】20
【出願形態】OL
【外国語出願】
(21)【出願番号】P 2023205165
(22)【出願日】2023-12-05
(31)【優先権主張番号】18/161,305
(32)【優先日】2023-01-30
(33)【優先権主張国・地域又は機関】US
(71)【出願人】
【識別番号】390008235
【氏名又は名称】ファナック株式会社
(74)【代理人】
【識別番号】100099759
【弁理士】
【氏名又は名称】青木 篤
(74)【代理人】
【識別番号】100123582
【弁理士】
【氏名又は名称】三橋 真二
(74)【代理人】
【識別番号】100112357
【弁理士】
【氏名又は名称】廣瀬 繁樹
(74)【代理人】
【識別番号】100130133
【弁理士】
【氏名又は名称】曽根 太樹
(72)【発明者】
【氏名】トー タン
(72)【発明者】
【氏名】加藤 哲朗
【テーマコード(参考)】
3C707
5L096
【Fターム(参考)】
3C707AS02
3C707BS10
3C707DS01
3C707KS01
3C707KS36
3C707KT01
3C707KT03
3C707KT06
3C707KT11
3C707LW12
3C707LW15
3C707MT10
3C707NS02
5L096AA02
5L096BA05
5L096FA02
5L096HA11
5L096JA11
5L096KA04
(57)【要約】
【課題】画像内の環境に依存しない特徴のみを識別するように特徴抽出ニューラルネットワークを適応させるシステム及び方法を提供する。
【解決手段】方法は、訓練特徴画像が訓練画像によるものであって、テスト特徴画像がテスト画像によるものであることをデータセット分類器ニューラルネットワークが識別する能力の精度を改善するように、データセット分類器ニューラルネットワーク内の重みを修正することを含む。方法はまた、訓練特徴画像が訓練画像によるものであって、テスト特徴画像がテスト画像によるものであることをデータセット分類器ニューラルネットワークが識別する能力の精度を低減するように、特徴抽出ニューラルネットワーク内の重みを修正することを含む。
【選択図】図4
【特許請求の範囲】
【請求項1】
特徴抽出ニューラルネットワークを適応させるシステムであって、前記システムは、
少なくとも1つのプロセッサ、並びにデータ及び実行可能コードを記憶するメモリデバイスを含むコンピュータを備え、前記実行可能コードは、実行されると前記少なくとも1つのプロセッサに対して、
2次元の赤緑青(RGB)訓練画像を使用して前記特徴抽出ニューラルネットワークを訓練することと、
訓練される前記特徴抽出ニューラルネットワークに前記訓練画像を提供することによって訓練特徴画像を生成することと、
前記訓練特徴画像が前記訓練画像によるものであるという識別子と共に、前記訓練特徴画像をデータセット分類器ニューラルネットワークに提供することと、
前記訓練特徴画像が前記訓練画像によるものであることを前記データセット分類器ニューラルネットワークがどれほどの精度で識別したかを観察することと、
前記訓練特徴画像が前記訓練画像によるものであることを前記データセット分類器ニューラルネットワークが識別する能力の精度を改善するように、前記データセット分類器ニューラルネットワーク内の重みを修正することと、
訓練される前記特徴抽出ニューラルネットワークにテスト画像を提供することによってテスト特徴画像を生成することであって、前記テスト画像は、前記訓練画像内の環境に依存する特徴とは異なる環境に依存する特徴と、前記訓練画像内の環境に依存しない特徴と同じであるか又は同様である環境に依存しない特徴と、を含む、ということと、
前記テスト特徴画像が前記テスト画像によるものであるという識別子と共に、前記テスト特徴画像を前記データセット分類器ニューラルネットワークに提供することと、
前記テスト特徴画像が前記テスト画像によるものであることを前記データセット分類器ニューラルネットワークがどれほどの精度で識別したかを観察することと、
前記テスト特徴画像が前記テスト画像によるものであることを前記データセット分類器ニューラルネットワークが識別する前記能力の精度を改善するように、前記データセット分類器ニューラルネットワーク内の前記重みを修正することと、
を行わせる、システム。
【請求項2】
前記少なくとも1つのプロセッサは、
訓練される前記特徴抽出ニューラルネットワークに前記訓練画像を提供することによって訓練特徴画像を再び生成し、
前記訓練特徴画像が前記訓練画像によるものであるという前記識別子を伴うことなく、前記訓練特徴画像を前記データセット分類器ニューラルネットワークに再び提供し、
前記訓練特徴画像が前記訓練画像によるものであることを前記データセット分類器ニューラルネットワークがどれほどの精度で識別したかを再び観察し、
前記訓練特徴画像が前記訓練画像によるものであることを前記データセット分類器ニューラルネットワークが識別する前記能力の精度を低減するように、前記特徴抽出ニューラルネットワーク内の前記重みを修正し、
訓練される前記特徴抽出ニューラルネットワークに前記テスト画像を提供することによってテスト特徴画像を再び生成し、
前記テスト特徴画像が前記テスト画像によるものであるという前記識別子を伴うことなく、前記テスト特徴画像を前記データセット分類器ニューラルネットワークに再び提供し、
前記テスト特徴画像が前記テスト画像によるものであることを前記データセット分類器ニューラルネットワークがどれほどの精度で識別したかを再び観察し、
前記テスト特徴画像が前記テスト画像によるものであることを前記データセット分類器ニューラルネットワークが識別する前記能力の精度を低減するように、前記特徴抽出ニューラルネットワーク内の前記重みを修正する、請求項1に記載のシステム。
【請求項3】
前記データセット分類器ニューラルネットワーク内の前記重みの修正、及び前記特徴抽出ニューラルネットワーク内の前記重みの修正は、交互の順序で繰り返される、請求項2に記載のシステム。
【請求項4】
前記訓練特徴画像が前記訓練画像によるものであって、前記テスト特徴画像が前記テスト画像によるものであったことを前記データセット分類器ニューラルネットワークが識別する前記能力の精度を低減することは、前記訓練特徴画像及び前記テスト特徴画像内の環境に依存しない特徴のみを提供することを含む、請求項2に記載のシステム。
【請求項5】
前記特徴抽出ニューラルネットワークは、物体のセグメンテーション画像を生成するニューラルネットワーク画像分割システムの一部である、請求項1に記載のシステム。
【請求項6】
前記画像分割システムは、前記物体を取り出すロボットを有するロボットシステムの一部である、請求項5に記載のシステム。
【請求項7】
前記物体は、パレット上に位置する箱である、請求項6に記載のシステム。
【請求項8】
前記テスト画像は、前記ロボットシステムが使用される開発環境から提供される、請求項6に記載のシステム。
【請求項9】
前記特徴抽出ニューラルネットワーク及び前記データセット分類器ニューラルネットワークは、深層学習マスクR-CNN(畳み込みニューラルネットワーク)である、請求項1に記載のシステム。
【請求項10】
特徴抽出ニューラルネットワークを適応させる方法であって、
2次元の赤緑青(RGB)訓練画像を使用して前記特徴抽出ニューラルネットワークを訓練することと、
訓練される前記特徴抽出ニューラルネットワークに前記訓練画像を提供することによって訓練特徴画像を生成することと、
前記訓練特徴画像が前記訓練画像によるものであるという識別子と共に、前記訓練特徴画像をデータセット分類器ニューラルネットワークに提供することと、
前記訓練特徴画像が前記訓練画像によるものであることを前記データセット分類器ニューラルネットワークがどれほどの精度で識別したかを観察することと、
前記訓練特徴画像が前記訓練画像によるものであることを前記データセット分類器ニューラルネットワークが識別する能力の精度を改善するように、前記データセット分類器ニューラルネットワーク内の重みを修正することと、
訓練される前記特徴抽出ニューラルネットワークにテスト画像を提供することによってテスト特徴画像を生成することであって、前記テスト画像は、前記訓練画像内の環境に依存する特徴とは異なる環境に依存する特徴と、前記訓練画像内の環境に依存しない特徴と同じであるか又は同様である環境に依存しない特徴と、を含む、ということと、
前記テスト特徴画像が前記テスト画像によるものであるという識別子と共に、前記テスト特徴画像を前記データセット分類器ニューラルネットワークに提供することと、
前記テスト特徴画像が前記テスト画像によるものであることを前記データセット分類器ニューラルネットワークがどれほどの精度で識別したかを観察することと、
前記テスト特徴画像が前記テスト画像によるものであることを前記データセット分類器ニューラルネットワークが識別する前記能力の精度を改善するように、前記データセット分類器ニューラルネットワーク内の前記重みを修正することと、
を含む、方法。
【請求項11】
訓練される前記特徴抽出ニューラルネットワークに前記訓練画像を提供することによって訓練特徴画像を再び生成することと、
前記訓練特徴画像が前記訓練画像によるものであるという前記識別子を伴うことなく、前記訓練特徴画像を前記データセット分類器ニューラルネットワークに再び提供することと、
前記訓練特徴画像が前記訓練画像によるものであることを前記データセット分類器ニューラルネットワークがどれほどの精度で識別したかを再び観察することと、
前記訓練特徴画像が前記訓練画像によるものであることを前記データセット分類器ニューラルネットワークが識別する前記能力の精度を低減するように、前記特徴抽出ニューラルネットワーク内の前記重みを修正することと、
訓練される前記特徴抽出ニューラルネットワークに前記テスト画像を提供することによってテスト特徴画像を再び生成することと、
前記テスト特徴画像が前記テスト画像によるものであるという前記識別子を伴うことなく、前記テスト特徴画像を前記データセット分類器ニューラルネットワークに再び提供することと、
前記テスト特徴画像が前記テスト画像によるものであることを前記データセット分類器ニューラルネットワークがどれほどの精度で識別したかを再び観察することと、
前記テスト特徴画像が前記テスト画像によるものであることを前記データセット分類器ニューラルネットワークが識別する前記能力の精度を低減するように、前記特徴抽出ニューラルネットワーク内の前記重みを修正することと、
を更に含む、請求項10に記載の方法。
【請求項12】
前記データセット分類器ニューラルネットワーク内の前記重みの修正、及び前記特徴抽出ニューラルネットワーク内の前記重みの修正は、交互の順序で繰り返される、請求項11に記載の方法。
【請求項13】
前記訓練特徴画像が前記訓練画像によるものであって、前記テスト特徴画像が前記テスト画像によるものであったことを前記データセット分類器ニューラルネットワークが識別する前記能力の精度を低減することは、前記訓練特徴画像及び前記テスト特徴画像内の環境に依存しない特徴のみを提供することを含む、請求項11に記載の方法。
【請求項14】
前記特徴抽出ニューラルネットワークは、物体のセグメンテーション画像を生成するニューラルネットワーク画像分割システムの一部である、請求項10に記載の方法。
【請求項15】
前記画像分割システムは、前記物体を取り出すロボットを有するロボットシステムの一部である、請求項14に記載の方法。
【請求項16】
前記物体は、パレット上に位置する箱である、請求項15に記載の方法。
【請求項17】
前記テスト画像は、前記ロボットシステムが使用される開発環境から提供される、請求項15に記載の方法。
【請求項18】
前記特徴抽出ニューラルネットワーク及び前記データセット分類器ニューラルネットワークは、深層学習マスクR-CNN(畳み込みニューラルネットワーク)である、請求項10に記載の方法。
【請求項19】
物体のセグメンテーション画像を生成するニューラルネットワーク画像分割システムの一部である特徴抽出ニューラルネットワークを適応させる方法であって、前記画像分割システムは、前記物体を取り出すロボットを有するロボットシステムの一部であって、前記方法は、
2次元の赤緑青(RGB)訓練画像を使用して前記特徴抽出ニューラルネットワークを訓練することと、
訓練される前記特徴抽出ニューラルネットワークに前記訓練画像を提供することによって訓練特徴画像を生成することと、
前記訓練特徴画像が前記訓練画像によるものであるという識別子と共に、前記訓練特徴画像をデータセット分類器ニューラルネットワークに提供することと、
前記訓練特徴画像が前記訓練画像によるものであることを前記データセット分類器ニューラルネットワークがどれほどの精度で識別したかを観察することと、
前記訓練特徴画像が前記訓練画像によるものであることを前記データセット分類器ニューラルネットワークが識別する能力の精度を改善するように、前記データセット分類器ニューラルネットワーク内の重みを修正することと、
訓練される前記特徴抽出ニューラルネットワークにテスト画像を提供することによってテスト特徴画像を生成することであって、前記テスト画像は、前記訓練画像内の環境に依存する特徴とは異なる環境に依存する特徴と、前記訓練画像内の環境に依存しない特徴と同じであるか又は同様である環境に依存しない特徴と、を含む、ということと、
前記テスト特徴画像が前記テスト画像によるものであるという識別子と共に、前記テスト特徴画像を前記データセット分類器ニューラルネットワークに提供することと、
前記テスト特徴画像が前記テスト画像によるものであることを前記データセット分類器ニューラルネットワークがどれほどの精度で識別したかを観察することと、
前記テスト特徴画像が前記テスト画像によるものであることを前記データセット分類器ニューラルネットワークが識別する前記能力の精度を改善するように、前記データセット分類器ニューラルネットワーク内の前記重みを修正することと、
訓練される前記特徴抽出ニューラルネットワークに前記訓練画像を提供することによって訓練特徴画像を再び生成することと、
前記訓練特徴画像が前記訓練画像によるものであるという前記識別子を伴うことなく、前記訓練特徴画像を前記データセット分類器ニューラルネットワークに再び提供することと、
前記訓練特徴画像が前記訓練画像によるものであることを前記データセット分類器ニューラルネットワークがどれほどの精度で識別したかを再び観察することと、
前記訓練特徴画像が前記訓練画像によるものであることを前記データセット分類器ニューラルネットワークが識別する前記能力の精度を低減するように、前記特徴抽出ニューラルネットワーク内の前記重みを修正することと、
訓練される前記特徴抽出ニューラルネットワークに前記テスト画像を提供することによってテスト特徴画像を再び生成することと、
前記テスト特徴画像が前記テスト画像によるものであるという前記識別子を伴うことなく、前記テスト特徴画像を前記データセット分類器ニューラルネットワークに再び提供することと、
前記テスト特徴画像が前記テスト画像によるものであることを前記データセット分類器ニューラルネットワークがどれほどの精度で識別したかを再び観察することと、
前記テスト特徴画像が前記テスト画像によるものであることを前記データセット分類器ニューラルネットワークが識別する前記能力の精度を低減するように、前記特徴抽出ニューラルネットワーク内の前記重みを修正することと、
を含む、方法。
【請求項20】
前記訓練特徴画像が前記訓練画像によるものであって、前記テスト特徴画像が前記テスト画像によるものであったことを前記データセット分類器ニューラルネットワークが識別する前記能力の精度を低減することは、前記訓練特徴画像及び前記テスト特徴画像内の環境に依存しない特徴のみを提供することを含む、請求項19に記載の方法。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、概して、画像内の環境に依存しない特徴のみを識別するように特徴抽出ニューラルネットワークを適応させるシステム及び方法に関し、より具体的には、画像内の環境に依存しない特徴のみを識別するように特徴抽出ニューラルネットワークを適応させ、特徴抽出ニューラルネットワークは、ロボットによって取り出される箱を識別する画像分割システムにおいて提供される、システム及び方法に関する。
【背景技術】
【0002】
関連技術の説明
ロボットは、ピックアンドプレース操作を含む多数の商用作業を行い、当該ピックアンドプレース操作では、ロボットは、ある場所から別の場所へ物体を取り出して移動させる。例えば、ロボットは、パレットから箱を取り出して、当該箱をコンベヤベルト上に配置する場合があって、ここで、ロボットは、箱を保持するために吸盤を有するエンドエフェクタを採用することが多い。ロボットが効果的に箱を取り出すために、ロボットは、取り出す箱の幅、長さ、及び高さを認識する必要があり、当該幅、長さ、及び高さは、ピックアンドプレース操作の前にロボット制御装置に入力される。しかしながら、多くの場合には、同じパレット上にある箱のサイズは異なっており、それにより、ピックアンドプレース操作中に箱のサイズをロボットに入力するのが非効率となる。箱はまた、同じ高さに並べて配置される場合があって、ここで、当該箱が別々の箱であるか、又は単一の大きい箱であるかを区別するのは困難である。現在、ロボットシステムは、リアルタイムで取り出す箱のサイズを決定できない。
【0003】
2020年9月9日に出願され、本出願の譲受人に譲渡され、その内容を参照により本明細書に援用される、Mix-Size Depalletizing(混合サイズデパレタイジング)と題するTe Tangらによる米国特許出願公開第2022/0072712号明細書は、箱の積み重ねからロボットによって取り出される箱を識別するシステム及び方法を開示している。方法は、3Dカメラを使用して、箱の2D(2次元)の赤緑青(RGB)カラー画像及び箱の2D距離画像を取得することを含み、ここで、距離画像内の画素には、カメラから箱までの距離を識別する値が割り当てられる。方法は、訓練される特徴抽出ニューラルネットワークを使用してRGB画像及び距離画像から特徴を抽出する画像分割(セグメンテーション)プロセスを行うことによって箱のセグメンテーション画像を生成し、画像内の抽出特徴を組み合わせ、セグメンテーション画像内の各箱が同じラベルを有するように、特徴画像内の画素にラベルを割り当てる。次いで、方法は、セグメンテーション画像を使用して、箱を取り出す場所を識別する。
【0004】
712号出願で使用される画像分割プロセスは、深層学習技術を採用する。深層学習は、特定の現実世界の環境を、増大する複雑な概念の階層として表すことによって、より優れた学習性能を提供する特定のタイプの機械学習である。深層学習は通常、非線形処理を行ういくつかの層のニューラルネットワークを備えるソフトウェア構造を採用し、ここで、連続する各層は、前の層からの出力を受け取る。概して、当該層は、センサから生データを受け取る入力層と、データから抽象的な特徴を抽出する多数の隠れ層と、隠れ層からの特徴抽出に基づいて特定の事柄を識別する出力層と、を含む。ニューラルネットワークは、ある事が正しいかどうかの確率を得るためにノードへの入力が乗算される「重み」を各々有するニューロン又はノードを含む。より具体的には、ノードの各々は、入力の何らかの割合である当該ノードの出力を生成するためにノードへの入力が乗算される浮動小数点数である重みを有する。重みは、教師あり処理の下、一式の既知のデータをニューラルネットワークに分析させることによって、且つ正しい出力の最高の確率をネットワークが得ることができるようにコスト関数を最小化することにより、最初に「訓練される」か、又は設定される。深層学習ニューラルネットワークは多くの場合に、画像内の物体の視覚的な検出及び分類のために画像特徴抽出及び変換を提供するように採用され、ここで、動画又は画像のストリームは、物体を識別及び分類し、物体をより充分に認識するためのプロセスを通じて学習するために、ネットワークによって分析され得る。したがって、当該タイプのネットワークでは、システムは、同じ処理構成を使用して、特定の物体を検出し、どのようにアルゴリズムが物体を認識できるようになったかに基づいて、異なるように当該特定の物体を分類し得る。
【0005】
712号出願に開示されるタイプの特徴抽出ニューラルネットワークは、一旦訓練されると、本明細書で開発環境と称される現実世界の用途で使用する準備が整っている。特定の開発環境について、ロボットシステムは、識別及び取り出す予定の特定の物体のテスト画像を使用してテストされる。しかしながら、開発環境で取り出される物体を識別するロボット能力のテスト中に使用されるテスト画像は、ロボットシステムにおいてニューラルネットワークの訓練中に使用される訓練画像と著しく異なっている場合があるため、ロボットシステムの性能は不充分となる。例えば、ニューラルネットワークは、パレットから箱を取り出すロボットシステムにおいて採用される場合に、パレット上に位置する箱の多数の訓練画像を使用して訓練されており、ここで、画像内の箱のサイズ及び場所は既知である。ロボットシステムが特定の開発環境で提供される場合に、取り出される箱は、訓練画像内の箱と比べて、例えば、サイズ、形状、テクスチャなどにおいて大きく異なっている場合があるため、開発環境について箱を識別するロボットシステムの能力は、満足のいくものではない場合がある。更に、開発環境自体は、訓練環境と異なっている場合があって、ここで、例えば、照明、環境内の物体の光の反射、影、カメラの視野角、背景の特徴などの差も、テスト画像を識別するロボットシステムの能力を低減し得る。
【発明の概要】
【0006】
以下の説明は、画像内の環境に依存しない特徴のみを識別するように特徴抽出ニューラルネットワークを適応させるシステム及び方法を開示及び記載する。方法は、2次元のRGB訓練画像を使用して特徴抽出ニューラルネットワークを訓練することと、訓練される特徴抽出ニューラルネットワークに訓練画像を提供することによって訓練特徴画像を生成することと、訓練特徴画像が訓練画像によるものであるという識別子と共に、訓練特徴画像をデータセット分類器ニューラルネットワークに提供することと、訓練特徴画像が訓練画像によるものであることをデータセット分類器ニューラルネットワークがどれほどの精度で識別したかを観察することと、訓練特徴画像が訓練画像によるものであったことをデータセット分類器ニューラルネットワークが識別する能力の精度を改善するように、データセット分類器ニューラルネットワーク内の重みを修正することと、を含む。方法はまた、訓練される特徴抽出ニューラルネットワークにテスト画像を提供することによってテスト特徴画像を生成することであって、テスト画像は、訓練画像内の環境に依存する特徴とは異なる、環境に依存する特徴と、訓練画像内の環境に依存しない特徴と同じであるか又は同様である、環境に依存しない特徴と、を含む、ということと、テスト特徴画像がテスト画像によるものであるという識別子と共に、テスト特徴画像をデータセット分類器ニューラルネットワークに提供することと、テスト特徴画像がテスト画像によるものであることをデータセット分類器ニューラルネットワークがどれほどの精度で識別したかを観察することと、テスト特徴画像がテスト画像によるものであることをデータセット分類器ニューラルネットワークが識別する能力の精度を改善するように、データセット分類器ニューラルネットワーク内の重みを修正することと、を含む。方法は、訓練される特徴抽出ニューラルネットワークに訓練画像を提供することによって訓練特徴画像を再び生成することと、訓練特徴画像が訓練画像によるものであるという識別子を伴うことなく、訓練特徴画像をデータセット分類器ニューラルネットワークに再び提供することと、訓練特徴画像が訓練画像によるものであることをデータセット分類器ニューラルネットワークがどれほどの精度で識別したかを再び観察することと、訓練特徴画像が訓練画像によるものであったことをデータセット分類器ニューラルネットワークが識別する能力の精度を低減するように、特徴抽出ニューラルネットワーク内の重みを修正することと、を更に含む。方法はまた、訓練される特徴抽出ニューラルネットワークにテスト画像を提供することによってテスト特徴画像を再び生成することと、テスト特徴画像がテスト画像によるものであるという識別子を伴うことなく、テスト特徴画像をデータセット分類器ニューラルネットワークに再び提供することと、テスト特徴画像がテスト画像によるものであることをデータセット分類器ニューラルネットワークがどれほどの精度で識別したかを再び観察することと、テスト特徴画像がテスト画像によるものであったことをデータセット分類器ニューラルネットワークが識別する能力の精度を低減するように、特徴抽出ニューラルネットワーク内の重みを修正することと、を含む。
【0007】
本開示の追加の特徴は、添付の図面と併せて、以下の説明及び付属する特許請求の範囲から明らかになるであろう。
【図面の簡単な説明】
【0008】
図1図1は、パレットから箱を取り出して、当該箱をコンベヤベルト上に配置するロボットを含むロボットシステムの実例である。
図2図2は、ニューラルネットワーク訓練データセットモジュールの概略ブロック図である。
図3図3は、環境に依存しない特徴を示す訓練データ及びテストデータ間の重複の実例である。
図4図4は、ニューラルネットワークデータセット分類器モジュールの概略ブロック図である。
図5図5は、ニューラルネットワーク特徴抽出適応モジュールの概略ブロック図である。
【発明を実施するための形態】
【0009】
画像内の環境に依存しない特徴のみを識別するように特徴抽出ニューラルネットワークを適応させるシステム及び方法を対象とする本開示の実施形態の以下の説明は、本質的に単なる例示であって、本開示又はその用途若しくは使用を限定することを全く意図していない。例えば、当該システム及び方法は、ロボットによって取り出される箱を識別するために使用されるニューラルネットワークを訓練する用途を有する。しかしながら、当該システム及び方法は、他の用途を有するであろう。
【0010】
図1は、パレット20上に位置する段ボール箱16の積み重ね18から箱16を取り出して、箱16をコンベヤベルト22上に配置するように構成されたエンドエフェクタ14を有するロボット12を含むロボットシステム10の実例である。システム10は、本明細書の説明から利することができる任意のタイプのロボットシステムを表すことを意図したものであって、ロボット12は、その目的に好適な任意のロボットであり得る。3Dカメラ24は、箱16の積み重ね18の2D(2次元)上面RBG画像及び距離画像を撮影し、且つロボット12の移動を制御するロボット制御装置26に当該画像を提供するように位置している。箱16は、パレット20上で異なる向きを有していてもよく、パレット20上で複数の層に積み重ねられていてもよく、異なるサイズを有していてもよい。
【0011】
図2は、712号出願に開示されるタイプのニューラルネットワーク訓練データセットモジュール30の概略ブロック図であって、ニューラルネットワーク訓練データセットモジュール30は、取り出される箱16をロボット12が識別できるように、画像分割(セグメンテーション)を行うニューラルネットワークを訓練する。様々なRGB訓練画像32は、画像32から特徴を抽出するフィルタリングプロセスを行うニューラルネットワーク特徴抽出モジュール34に提供される。例えば、モジュール34は、勾配エッジ、輪郭、基本形状などを画像32から抽出して、訓練画像32の抽出特徴画像36を提供する学習ベースのニューラルネットワークを含み得る。画像36は、領域提案モジュール40に提供され、領域提案モジュール40は、ニューラルネットワークを使用して、訓練画像32内で識別される特徴を分析し、画像36内の箱16の場所を決定する。特に、モジュール40は、様々なサイズの多数のバウンディングボックス、例えば、50個~100個の候補ボックス、すなわち、様々な長さ及び幅を有するボックスを提供するニューラルネットワークを含み、当該ボックスは、段ボール箱16が画像36内の特定の場所に存在する確率を識別するために使用される。領域提案モジュール40は、当業者に周知であるスライディングサーチウィンドウテンプレートを採用し、ここで、箱16のうちの1つの考えられる存在を識別する特徴を探すために、全てのバウンディングボックスを含むサーチウィンドウを特徴画像36上で、例えば、画像36の左上から画像36の右下へ移動させる。
【0012】
スライディングウィンドウサーチは、多数のバウンディングボックス46を含むバウンディングボックス画像44を生成し、バウンディングボックス46の各々は、画像36内で予測される箱を取り囲む。モジュール40は、各ボックス46の中心位置(x,y)、幅(w)、及び高さ(h)をパラメータ化し、箱16がボックス46内に存在する0%と100%との間の予測信頼値を提供する。画像44は、バイナリ分類分割モジュール48に提供され、バイナリ分類分割モジュール48は、ニューラルネットワークを使用して、バウンディングボックス46の各々において画素が箱16に属するかどうかを推定し、箱16の一部ではないボックス46内の背景画素を除去する。異なる特徴、例えば、色によって箱16を識別する2D(2次元)セグメンテーション画像(図示せず)が生成されるように、ボックス46の各々における画像44内の残っている画素に特定の箱16についての値が割り当てられる。記載される画像分割プロセスは、深層学習マスクR-CNN(畳み込みニューラルネットワーク)の修正形態である。
【0013】
上述のように、特定の訓練画像を使用した画像分割ニューラルネットワーク内の重み付きノードの訓練は、特定の開発環境について箱を識別するようにノードを訓練するために充分ではない場合がある。これは、ニューラルネットワークを訓練するために使用される訓練データ52と、特定の開発環境について、訓練されるニューラルネットワークをテストするために使用されるテストデータ54と、を含む実例50によって図3に示される。この例について、訓練データ及びテストデータは、箱のサイズ、形状、テクスチャなどだけでなく、環境の照明、光の反射、影、カメラの視野角、背景の特徴なども含む。説明50は、訓練データ52及びテストデータ54の一部の最小限の重複のみが重複領域56に存在し、したがって、開発環境について訓練データ52を使用して訓練されるロボットシステム10の性能は不充分となることを示す。本明細書の説明に関して、領域56内に入るデータ特徴は、本明細書において、環境に依存しない特徴と称され、この例では、箱16の形状を含むことができ、領域56の外側に入るデータ特徴は、本明細書において、環境に依存する特徴と称され、テクスチャ、照明、環境内の物体の光の反射、影、カメラの視野角、背景の特徴などを含み得る。述べられるように、本開示は、訓練データ52とテストデータ54との間の重複領域56に入るべき環境に依存しない特徴を識別し、当該特徴のみを使用して、特定の開発環境について特徴抽出モジュール34においてニューラルネットワークを更に訓練することを提案する。
【0014】
図4は、ニューラルネットワークデータセット分類器システム60の概略ブロック図であって、ニューラルネットワークデータセット分類器システム60は、特定の開発環境について、例えば、712号出願に開示されるような画像分割プロセスを行う分割モジュール36において使用するデータセット分類器畳み込みニューラルネットワーク62を訓練し、ここで、モジュール30に対する同様の要素は、同じ参照番号によって識別される。システム60は、上述のように訓練画像32によって訓練された後のニューラルネットワーク特徴抽出モジュール34を含む。特徴抽出モジュール34は再び、訓練画像32と同じであるか又は同様である様々な訓練画像68を受け取って、上述の方法で訓練画像68の抽出特徴画像70を生成し、ここで、画像70は、ベクトル72によって識別される訓練画像68内の環境に依存する特徴を定めた様々な訓練画像指標と、ベクトル74によって識別される訓練画像68内の環境に依存しない特徴を定めた様々な訓練画像指標と、を含む。特徴抽出モジュール34はまた、開発環境から取得され収集される様々なテスト画像76を受け取って、上述の方法でテスト画像76の抽出特徴画像78を生成し、ここで、画像78は、ベクトル80によって識別されるテスト画像76内の環境に依存する特徴を定めた様々なテスト画像指標と、ベクトル82によって識別されるテスト画像76内の環境に依存しない特徴を定めた様々なテスト画像指標と、を含む。示されているように、ベクトル72及び80は異なっているため、訓練画像68及びテスト画像76内の環境に依存する特徴が異なっていることを示すが、ベクトル74及び82は同様であるため、訓練画像68及びテスト画像76内の環境に依存しない特徴は同じであるか又は同様であることを示す。
【0015】
次いで、特徴画像70及び78は、開発環境についてデータセット分類器ニューラルネットワーク62を訓練するために使用される。ニューラルネットワーク62は、画像70又は78内の抽出特徴が訓練画像68によるものかテスト画像76によるものかに関する予測子として動作する。分類器ニューラルネットワーク62の訓練段階の間、訓練画像68からの抽出特徴画像70がニューラルネットワーク62に提供される度に、ネットワーク62は、画像70と共に、モジュール34に現在入力されている画像68が訓練画像68であるという、ライン84によって表されるグラウンドトゥルースラベルも受け取る。したがって、ニューラルネットワーク62は、モジュール34に入力されている画像が訓練画像68であることを確実に示しているはずである出力を提供する。この例では、ニューラルネットワーク62からの1又は100%の出力は、画像が訓練画像68であることを示す。ニューラルネットワーク62が、100%であるか又は100%に近い出力を提供しない場合に、モジュール34に入力される次の訓練画像68について、画像70が訓練画像68によるものであるというより優れた表示をネットワーク62が提供するように、ネットワーク62内のノードの重みが調整される。同様に、テスト画像76からの抽出特徴画像78がニューラルネットワーク62に提供される度に、ネットワーク62は、画像78と共に、モジュール34に現在入力されている画像76がテスト画像76であるという、ライン86によって表されるグラウンドトゥルースラベルも受け取る。したがって、ニューラルネットワーク62は、モジュール34に入力されている画像がテスト画像76であることを確実性と共に示しているはずである出力を提供する。この例では、ニューラルネットワーク62からの0又は0%の出力は、画像がテスト画像76であることを示す。ニューラルネットワーク62が、0%であるか又は0%に近い出力を提供しない場合に、モジュール34に入力される次のテスト画像76について、画像78がテスト画像76によるものであるというより充分な表示をネットワーク62が提供するように、ネットワーク62内のノードの重みが調整される。
【0016】
図5は、訓練画像68及びテスト画像76、並びにシステム60によって訓練されているデータ分類器ニューラルネットワーク62を使用して、環境に依存しない特徴だけを提供するように、又はほぼ当該特徴だけを提供するように特徴抽出モジュール34を適応させるか又は訓練するように動作する適応システム90の概略ブロック図であって、ここで、ニューラルネットワーク訓練データセットモジュール30に対する同様の要素は、同じ参照番号によって識別される。訓練画像68又はテスト画像76が特徴抽出モジュール34に送信され、抽出特徴画像92が上述の方法で生成される度に、訓練されるデータ分類器ニューラルネットワーク62は、特徴画像92が訓練画像68によるものであるか又はテスト画像76によるものである確率又は予測値を出力する。その確率値が、50%であるか又は50%に近い場合、すなわち、特徴画像92が訓練画像68から生成されていることを示す100%と、特徴画像92がテスト画像76から生成されていることを示す0%との中間である場合に、ニューラルネットワーク62は、特徴画像92が訓練画像68から生成されているかテスト画像76から生成されているかを認識せず、したがって、特徴画像92は、環境に依存しない特徴のみを含むか又はほぼ当該特徴を含む一方、環境に依存する特徴は、特徴画像92において除外されることが認識される。ニューラルネットワーク62が確率値を出力すると、その値と50%との差は、コスト関数として取得され、次いで、当該コスト関数は、特徴抽出モジュール34においてノードの重みを調整するために使用されるため、モジュール34は次回に、環境に依存しない特徴のみをより優れて出力する。特徴抽出モジュール34が更新されているとき、領域提案モジュール40及び分類分割モジュール48も更新されている。このように、ニューラルネットワーク62及び特徴抽出モジュール34の訓練間の複数の反復は、特徴抽出モジュール34を完全に適応させるように行われ、その結果、その出力は最終的に、約50%となる。
【0017】
様々なコンピュータ及び制御装置が上記において記載及び示唆される。当該コンピュータ及び制御装置のソフトウェアアプリケーション及びモジュールは、プロセッサ並びにデータ及び実行可能コードを記憶するメモリモジュールを有する1つ以上の計算デバイス上で実行されることを理解されたい。また、当業者に充分に理解されるように、本開示を記載するために本明細書で述べられるいくつかの様々なステップ及びプロセスは、電気的な現象を使用してデータを操作及び/又は変換する、コンピュータ、プロセッサ、又は他の電子計算デバイスによって行われる動作を指し得る。当該コンピュータ及び電子デバイスは、コンピュータ又はプロセッサによって行うことができる様々なコード又は実行可能命令を含む実行可能プログラムが記憶された、非一時的なコンピュータが読みとり可能な媒体を含む様々な揮発性メモリ及び/又は不揮発性メモリを採用してもよく、ここで、メモリ及び/又はコンピュータ可読媒体は、全ての形態及びタイプのメモリ及び他のコンピュータ可読媒体を含んでもよい。
【0018】
前述の説明は単に、本開示の好ましい実施形態を開示及び記載している。当業者は、当該説明並びに添付の図面及び特許請求の範囲から、以下の特許請求の範囲で定められるような本開示の趣旨及び範囲から逸脱することなく、様々な変更、修正、及び変形が行われ得ることを容易に認識するであろう。
図1
図2
図3
図4
図5
【外国語明細書】