IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ ベイジン・ジンドン・チアンシ・テクノロジー・カンパニー・リミテッドの特許一覧

特表2024-528419対象検出モデルの更新方法および装置
<>
  • 特表-対象検出モデルの更新方法および装置 図
  • 特表-対象検出モデルの更新方法および装置 図2
  • 特表-対象検出モデルの更新方法および装置 図
  • 特表-対象検出モデルの更新方法および装置 図3
  • 特表-対象検出モデルの更新方法および装置 図4
  • 特表-対象検出モデルの更新方法および装置 図
  • 特表-対象検出モデルの更新方法および装置 図5
  • 特表-対象検出モデルの更新方法および装置 図6
  • 特表-対象検出モデルの更新方法および装置 図7
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2024-07-30
(54)【発明の名称】対象検出モデルの更新方法および装置
(51)【国際特許分類】
   G06T 7/00 20170101AFI20240723BHJP
   G06T 7/55 20170101ALI20240723BHJP
   G06V 10/774 20220101ALI20240723BHJP
【FI】
G06T7/00 350B
G06T7/55
G06V10/774
【審査請求】有
【予備審査請求】未請求
(21)【出願番号】P 2023577672
(86)(22)【出願日】2022-06-17
(85)【翻訳文提出日】2023-12-15
(86)【国際出願番号】 CN2022099510
(87)【国際公開番号】W WO2023020103
(87)【国際公開日】2023-02-23
(31)【優先権主張番号】202110957524.X
(32)【優先日】2021-08-17
(33)【優先権主張国・地域又は機関】CN
(81)【指定国・地域】
【公序良俗違反の表示】
(特許庁注:以下のものは登録商標)
1.JAVA
(71)【出願人】
【識別番号】520208203
【氏名又は名称】ベイジン・ジンドン・チアンシ・テクノロジー・カンパニー・リミテッド
(74)【代理人】
【識別番号】110004222
【氏名又は名称】弁理士法人創光国際特許事務所
(72)【発明者】
【氏名】リウ、 ウェイフェン
(72)【発明者】
【氏名】シャン、 ジチァン
(72)【発明者】
【氏名】フ、 ジンロン
(72)【発明者】
【氏名】チェン、 ユンジャン
(72)【発明者】
【氏名】リウ、 フ
【テーマコード(参考)】
5L096
【Fターム(参考)】
5L096AA06
5L096AA09
5L096BA05
5L096EA39
5L096FA16
5L096FA67
5L096FA69
5L096GA34
5L096GA51
5L096HA11
5L096KA04
(57)【要約】
本開示は、対象検出モデルの更新方法および装置を提供する。この方法の一つの具体的な実施形態は、対象物品の複数の角度での画像データに基づいて、対象物品の3次元モデルを構築するステップと、3次元モデルに基づいて、対象物品を表すための対象物品オブジェクトを含む合成画像を生成するステップと、合成画像をサンプル画像とし、対象物品オブジェクトをラベルとし、トレーニングサンプルを取得し、トレーニングサンプルセットを生成するステップと、トレーニングサンプルセットを用いて対象検出モデルをトレーニングし、更新済みの対象検出モデルを得るステップとを含む。
【選択図】図3

【特許請求の範囲】
【請求項1】
対象検出モデルの更新方法であって、
複数の角度での対象物品の画像データに基づいて、前記対象物品の3次元モデルを構築するステップと、
前記3次元モデルに基づいて、前記対象物品を表すための対象物品オブジェクトを含む合成画像を生成するステップと、
前記合成画像をサンプル画像とし、前記対象物品オブジェクトをラベルとし、トレーニングサンプルを取得し、トレーニングサンプルセットを生成するステップと、
前記トレーニングサンプルセットを用いて前記対象検出モデルをトレーニングして更新済みの対象検出モデルを得るステップと、を含み、
前記対象検出モデルは、入力画像と入力画像中の対象物品オブジェクトに対応する検出結果との間の対応関係を表す、
対象検出モデルの更新方法。
【請求項2】
複数の角度での対象物品の画像データに基づいて、前記対象物品の3次元モデルを構築するステップは、
前記対象検出モデルによる入力画像中の対象物品オブジェクトの検出結果に基づいて、前記対象物品のピッキングタスクを実行するようにピッキングロボットを制御するプロセスにおいて、第1の画像採集装置によって予め設定された情報採集位置にある前記対象物品の複数の角度での2次元画像データおよび3次元画像データを採集するステップと、
前記2次元画像データと前記3次元画像データに基づいて、前記対象物品の3次元モデルを構築するステップと、を含む請求項1に記載の方法。
【請求項3】
前記3次元モデルに基づいて、前記対象物品を表すための対象物品オブジェクトを含む合成画像を生成するステップは、
前記ピッキングロボットに対応する第2の画像採集装置と、前記予め設定された情報採集位置と、前記第1の画像採集装置との間の座標系の対応関係を決定するステップと、
前記座標系の対応関係に基づいて、前記第2の画像採集装置の視点での前記3次元モデルの調整済み3次元モデルを決定するステップと、
前記調整済み3次元モデルと、前記ピッキングロボットのピッキングシーンを表す予め設定された背景画像とに基づいて、前記対象物品に対応する対象物品オブジェクトを含む合成画像を生成するステップと、を含む請求項2に記載の方法。
【請求項4】
前記対象物品の重みを特定するステップをさらに含み、
前記調整済み3次元モデルと、前記ピッキングロボットのピッキングシーンを表す予め設定された背景画像とに基づいて、前記対象物品に対応する対象物品オブジェクトを含む合成画像を生成するステップは、
前記調整済み3次元モデルと、前記予め設定された背景画像と、前記重みと、前記合成画像の予め設定された解像度と、前記第2の画像採集装置のパラメータとに基づいて、前記対象物品に対応する対象物品オブジェクトを含む合成画像を生成するステップと、を含む請求項1に記載の方法。
【請求項5】
前記トレーニングサンプルセットを用いて前記対象検出モデルをトレーニングして更新済みの対象検出モデルを得るステップは、
前記対象検出モデルの検出精度が予め設定された閾値よりも低いと判断したことに応じて、機械学習アルゴリズムによって、前記トレーニングサンプルセットを用いて前記対象検出モデルをトレーニングし、更新済みの対象検出モデルを取得するステップを含む請求項1に記載の方法。
【請求項6】
更新済みの対象検出モデルによって後続の入力画像に対して対象の検出を行い、検出結果を得るステップと、
前記検出結果に基づいて、ピッキングタスクを実行するようにピッキングロボットを制御するステップと、
をさらに含む請求項1~5のいずれか1項に記載の方法。
【請求項7】
対象検出モデルの更新のための装置であって、
複数の角度での対象物品の画像データに基づいて、前記対象物品の3次元モデルを構築するように構成される構築ユニットと、
前記3次元モデルに基づいて、前記対象物品を表すための対象物品オブジェクトを含む合成画像を生成するように構成される画像生成ユニットと、
前記合成画像をサンプル画像とし、前記対象物品オブジェクトをラベルとし、トレーニングサンプルを取得し、トレーニングサンプルセットを生成するように構成されるサンプル生成ユニットと、
前記トレーニングサンプルセットを用いて前記対象検出モデルをトレーニングして更新済みの対象検出モデルを得るように構成される更新ユニットと、を備え、
前記対象検出モデルは、入力画像と入力画像中の対象物品オブジェクトに対応する検出結果との間の対応関係を表す、
対象検出モデルの更新のための装置。
【請求項8】
前記構築ユニットは、さらに
前記対象検出モデルによる入力画像中の対象物品オブジェクトの検出結果に基づいて、前記対象物品のピッキングタスクを実行するようにピッキングロボットを制御するプロセスにおいて、第1の画像採集装置によって予め設定された情報採集位置にある前記対象物品の複数の角度での2次元画像データおよび3次元画像データを採集し、
前記2次元画像データと前記3次元画像データに基づいて、前記対象物品の3次元モデルを構築するように構成される、
請求項7に記載の装置。
【請求項9】
前記画像生成ユニットは、さらに
前記ピッキングロボットに対応する第2の画像採集装置と、前記予め設定された情報採集位置と、前記第1の画像採集装置との間の座標系の対応関係を決定し、
前記座標系の対応関係に基づいて、前記第2の画像採集装置の視点での前記3次元モデルの調整済み3次元モデルを決定し、
前記調整済み3次元モデルと、前記ピッキングロボットのピッキングシーンを表す予め設定された背景画像とに基づいて、前記対象物品に対応する対象物品オブジェクトを含む合成画像を生成するように構成される、
請求項8に記載の装置。
【請求項10】
前記対象物品の重みを特定するように構成される特定ユニットをさらに備え、
前記画像生成ユニットは、さらに
前記調整済み3次元モデルと、前記予め設定された背景画像と、前記重みと、前記合成画像の予め設定された解像度と、前記第2の画像採集装置のパラメータとに基づいて、前記対象物品に対応する対象物品オブジェクトを含む合成画像を生成するように構成される、
請求項7に記載の装置。
【請求項11】
前記更新ユニットは、さらに
前記対象検出モデルの検出精度が予め設定された閾値よりも低いと判断したことに応じて、機械学習アルゴリズムによって、前記トレーニングサンプルセットを用いて前記対象検出モデルをトレーニングし、更新済みの対象検出モデルを取得するように構成される、
請求項7に記載の装置。
【請求項12】
更新済みの対象検出モデルによって後続の入力画像に対して対象の検出を行い、検出結果を得るように構成される取得ユニットと、
前記検出結果に基づいて、ピッキングタスクを実行するようにピッキングロボットを制御するように構成される実行ユニットと、
をさらに備える請求項7~11のいずれか1項に記載の装置。
【請求項13】
プロセッサによって実行されると、請求項1~6のいずれか1項に記載の方法を実現するコンピュータプログラムが格納されているコンピュータ可読媒体。
【請求項14】
1つまたは複数のプロセッサと、
1つまたは複数のプログラムが格納されている記憶装置と、を備える電子機器であって、
前記1つまたは複数のプログラムが前記1つまたは複数のプロセッサによって実行されると、前記1つまたは複数のプロセッサに請求項1~6のいずれか1項に記載の方法を実現させる、電子機器。
【請求項15】
プロセッサによって実行されると、請求項1~6のいずれか1項に記載の方法を実現するコンピュータプログラムを含むコンピュータプログラム製品。
【発明の詳細な説明】
【技術分野】
【0001】
<関連出願の相互参照>
本出願は、2021年8月17日に提出された、出願番号が202110957524.Xで、発明の名称が「対象検出モデル(target detection model)の更新方法および装置」である中国特許出願に基づく優先権を主張し、当該特許出願の全文が引用により本出願に組み込まれる。
【0002】
本開示の実施形態は、コンピュータ技術分野に関し、具体的に対象検出モデルの更新方法および装置に関する。
【背景技術】
【0003】
インテリジェントな自動保管の分野において、ピッキングロボットがピッキングタスクを実行する方法は、良好な応用見通しを有する。ピッキングロボットがピッキングタスクを実行するとは、ピッキングロボットが視覚的に誘導された上で、対象物品(target article)を指定された位置にピッキングすることを指す。高精度な検出対象の検出は、その応用シーンのコア技術の基盤である。深層学習に基づく対象の検出技術は、現在、比較的実用的な技術である。対象を検出するための深層学習の技術は、教師あり学習の範疇に属し、基本的なプロセスは以下のとおりである:(1)事前にバッチでシーンデータを採集すること;(2)データを手動でラベル付けすること;(3)対象検出モデルをトレーニングすること;(4)トレーニングされた対象検出モデルをオンラインアプリケーションに配置すること。対象検出モデルは、通常、適時性の問題を生じることが理解できる。例えば、eコマースのシーンでは、商品の買い替えが頻繁に行われ、早期のデータに基づいてトレーニングされた対象検出モデルの精度は時間の経過とともに劣化する。上記の対象検出モデルを取得するプロセスを再実行すると、モデルの精度を回復させることができるが、その過程には時間と労力がかかる。
【発明の概要】
【0004】
本開示の実施形態は、対象検出モデルの更新方法および装置を提供する。
【0005】
第1の態様では、本開示の実施形態は、対象検出モデルの更新方法であって、複数の角度での対象物品の画像データに基づいて、対象物品の3次元モデルを構築するステップと、3次元モデルに基づいて、対象物品を表すための対象物品オブジェクト(target article object)を含む合成画像を生成するステップと、合成画像をサンプル画像とし、対象物品オブジェクトをラベルとし、トレーニングサンプルを取得し、トレーニングサンプルセットを生成するステップと、トレーニングサンプルセットを用いて対象検出モデルをトレーニングして更新済みの対象検出モデルを得るステップと、を含み、対象検出モデルは、入力画像と入力画像中の対象物品オブジェクトに対応する検出結果との間の対応関係を表す、対象検出モデルの更新方法が提供される。
【0006】
いくつかの実施形態では、複数の角度での対象物品の画像データに基づいて、対象物品の3次元モデルを構築するステップは、対象検出モデルによる入力画像中の対象物品オブジェクトの検出結果に基づいて、対象物品のピッキングタスクを実行するようにピッキングロボットを制御するプロセスにおいて、第1の画像採集装置によって予め設定された情報採集位置にある対象物品の複数の角度での2次元画像データおよび3次元画像データを採集するステップと、2次元画像データと3次元画像データに基づいて、対象物品の3次元モデルを構築するステップと、を含む。
【0007】
いくつかの実施形態では、3次元モデルに基づいて、対象物品を表すための対象物品オブジェクトを含む合成画像を生成するステップは、ピッキングロボットに対応する第2の画像採集装置と、予め設定された情報採集位置と、第1の画像採集装置との間の座標系の対応関係を決定するステップと、座標系の対応関係に基づいて、第2の画像採集装置の視点での3次元モデルの調整済み3次元モデルを決定するステップと、調整済み3次元モデルと、ピッキングロボットのピッキングシーンを表す予め設定された背景画像とに基づいて、対象物品に対応する対象物品オブジェクトを含む合成画像を生成するステップと、を含む。
【0008】
いくつかの実施形態では、上記の方法は、対象物品の重みを特定するステップをさらに含み、上述した調整済み3次元モデルと、ピッキングロボットのピッキングシーンを表す予め設定された背景画像とに基づいて、対象物品に対応する対象物品オブジェクトを含む合成画像を生成するステップは、調整済み3次元モデルと、予め設定された背景画像と、重みと、合成画像の予め設定された解像度と、第2の画像採集装置のパラメータとに基づいて、対象物品に対応する対象物品オブジェクトを含む合成画像を生成するステップと、を含む。
【0009】
いくつかの実施形態では、上述したトレーニングサンプルセットを用いて対象検出モデルをトレーニングして更新済みの対象検出モデルを得るステップは、対象検出モデルの検出精度が予め設定された閾値よりも低いと判断したことに応じて、機械学習アルゴリズムにより、トレーニングサンプルセットを用いて対象検出モデルをトレーニングして、更新済みの対象検出モデルを取得するステップを含む。
【0010】
いくつかの実施形態では、上記の方法は、更新済みの対象検出モデルによって後続の入力画像に対して対象の検出を行い、検出結果を得るステップと、検出結果に基づいて、ピッキングタスクを実行するようにピッキングロボットを制御するステップと、をさらに含む。
【0011】
第2の態様では、本開示の実施形態は、対象検出モデルの更新のための装置であって、複数の角度での対象物品の画像データに基づいて、対象物品の3次元モデルを構築するように構成される構築ユニットと、3次元モデルに基づいて、対象物品を表すための対象物品オブジェクトを含む合成画像を生成するように構成される画像生成ユニットと、合成画像をサンプル画像とし、対象物品オブジェクトをラベルとし、トレーニングサンプルを取得し、トレーニングサンプルセットを生成するように構成されるサンプル生成ユニットと、トレーニングサンプルセットを用いて対象検出モデルをトレーニングして更新済みの対象検出モデルを得るように構成される更新ユニットと、を備え、対象検出モデルは、入力画像と入力画像中の対象物品オブジェクトに対応する検出結果との間の対応関係を表す、対象検出モデルの更新のための装置が提供される。
【0012】
いくつかの実施形態では、構築ユニットは、対象検出モデルによる入力画像中の対象物品オブジェクトの検出結果に基づいて、対象物品のピッキングタスクを実行するようにピッキングロボットを制御するプロセスにおいて、第1の画像採集装置によって予め設定された情報採集位置にある対象物品の複数の角度での2次元画像データおよび3次元画像データを採集し、2次元画像データと3次元画像データに基づいて、対象物品の3次元モデルを構築するようにさらに構成される。
【0013】
いくつかの実施形態では、画像生成ユニットは、ピッキングロボットに対応する第2の画像採集装置と、予め設定された情報採集位置と、第1の画像採集装置との間の座標系の対応関係を決定し、座標系の対応関係に基づいて、第2の画像採集装置の視点での3次元モデルの調整済み3次元モデルを決定し、調整済み3次元モデルと、ピッキングロボットのピッキングシーンを表す予め設定された背景画像とに基づいて、対象物品に対応する対象物品オブジェクトを含む合成画像を生成するようにさらに構成される。
【0014】
いくつかの実施形態では、上記装置は、対象物品の重みを特定するように構成される特定ユニットをさらに備え、画像生成ユニットは、調整済み3次元モデルと、予め設定された背景画像と、重みと、合成画像の予め設定された解像度と、第2の画像採集装置のパラメータとに基づいて、対象物品に対応する対象物品オブジェクトを含む合成画像を生成するようにさらに構成される。
【0015】
いくつかの実施形態では、更新ユニットは、対象検出モデルの検出精度が予め設定された閾値よりも低いと判断したことに応じて、機械学習アルゴリズムにより、トレーニングサンプルセットを用いて対象検出モデルをトレーニングして、更新済みの対象検出モデルを取得するようにさらに構成される。
【0016】
いくつかの実施形態では、上記の装置は、更新済みの対象検出モデルによって後続の入力画像に対して対象の検出を行い、検出結果を得るように構成される取得ユニットと、検出結果に基づいて、ピッキングタスクを実行するようにピッキングロボットを制御するように構成される実行ユニットと、をさらに備える。
【0017】
第3の態様では、本開示の実施形態は、プロセッサによって実行されると、第1の態様のいずれかの実施形態に記載の方法を実現するコンピュータプログラムが格納されているコンピュータ可読媒体が提供される。
【0018】
第4の態様では、本開示の実施形態は、1つまたは複数のプロセッサと、1つまたは複数のプログラムが格納されている記憶装置と、を備える電子機器であって、1つまたは複数のプログラムが1つまたは複数のプロセッサによって実行されると、1つまたは複数のプロセッサに第1の態様のいずれかの実施形態に記載の方法を実現する電子機器が提供される。
【0019】
第5の態様では、本開示の実施形態は、プロセッサによって実行されると、第1の態様のいずれかの実施形態に記載の方法が実現されるコンピュータプログラムを含むコンピュータプログラム製品が提供される。
【図面の簡単な説明】
【0020】
本開示の他の特徴、目的および利点は、以下の図面を参照してなされる非限定的な実施形態に係る詳細な説明を読むことにより、より明らかになる。
図1】本開示の一実施形態を適用可能な例示的なシステムアーキテクチャを示す図である。
図2】本開示の一実施形態を適用可能なもう一つの例示的なシステムアーキテクチャを示す図である。
図3】本開示に係る対象検出モデルの更新方法の一実施形態のフローチャートである。
図4】本実施形態に係る対象検出モデルの更新方法の応用シーンの概略図である。
図5】本開示に係る対象検出モデルの更新方法のもう一つの実施形態のフローチャートである。
図6】本開示に係る対象検出モデルの更新のための装置の一実施形態の構造図である。
図7】本開示の実施形態の実現に適するコンピュータシステムの構造概略図である。
【発明を実施するための形態】
【0021】
以下、図面および実施形態を参照しながら本開示をより詳細に説明する。本明細書に記載される具体的な実施形態は関連発明を説明するためのものにすぎず、当該発明を限定するものではないことを理解すべきである。なお、説明の便宜上、図面には発明に関連する部分のみが示されている。
【0022】
なお、本開示の実施形態および実施形態における特徴は、矛盾を生じない限り、相互に組み合わせることができる。以下、図面および実施形態を参照しながら本開示を詳細に説明する。
【0023】
図1は、本開示に係る対象検出モデルの更新方法および装置が適用可能な例示的なシステムアーキテクチャ100を示している。
【0024】
図1に示すように、システムアーキテクチャ100は、画像採集装置101、102、ネットワーク103、104、制御装置105、およびピッキングロボット106を含んでもよい。画像採集装置101、102と、制御装置105、ピッキングロボット106との間の通信接続は、トポロジーネットワークを構成し、ネットワーク103、104は、画像採集装置101、102と、制御装置105、ピッキングロボット106との間に通信リンクを提供するための媒体となる。ネットワーク103、104は、有線、無線通信リンクまたは光ファイバケーブルなどの様々なタイプの接続を含んでもよい。
【0025】
画像採集装置101、102は、2D画像採集機能、3D画像採集機能、および情報伝送機能を有するハードウェアデバイスまたはソフトウェアであってもよい。画像採集装置101および102がハードウェアである場合、ネットワーク接続、画像取得、インタラクション、表示、処理等の機能をサポートする様々な電子機器であってもよく、2Dカメラ、3Dカメラ、スマートフォン、タブレットコンピュータおよびデスクトップコンピュータなどを含むが、これらに限定されない。画像採集装置101および102がソフトウェアである場合、上記の例示された電子機器にインストールされてもよい。それは、例えば、分散サービスを提供するための複数のソフトウェアまたはソフトウェアモジュールとして実装されてもよく、または単一のソフトウェアまたはソフトウェアモジュールとして実装されてもよい。ここでは特に限定しない。
【0026】
制御装置105は、様々なサービスを提供するサーバであってもよく、例えば、対象検出モデルによる検出すべき画像中の対象物品の検出結果に基づいて、ピッキングタスクを実行するようにピッキングロボットを制御するプロセスにおいて、トレーニングデータを自動的に生成し、対象検出モデルを自動的に更新するサーバであってもよい。例示として、制御装置105は、クラウドサーバであってもよい。具体的には、制御装置105は、対象検出モデルを用いて検出すべき画像中の対象物品の検出結果を取得し、検出結果に基づいてピッキングタスクを実行するようにピッキングロボットを制御し、ピッキングロボットがピッキングタスクを実行するプロセスにおいて、ピッキングされた対象物品の複数の角度での画像データを取得して対象物品の3次元モデルを構築してトレーニングデータを取得し、そのトレーニングデータを用いて対象検出モデルを更新する。
【0027】
なお、制御装置は、ハードウェアであってもよく、ソフトウェアであってもよい。制御装置がハードウェアである場合、複数のサーバから構成される分散サーバクラスターとしても、単一のサーバとしても実装され得る。制御装置は、ソフトウェアである場合、複数のソフトウェアまたはソフトウェアモジュール(例えば、分散サービスを提供するためのソフトウェアまたはソフトウェアモジュール)として実装されてもよいし、単一のソフトウェアまたはソフトウェアモジュールとして実装されてもよい。ここでは特に限定しない。
【0028】
ピッキングロボットは、ピッキング機能を有する様々なロボット、例えば、多自由度ロボットアームであってもよい。
【0029】
本開示の実施形態によって提供される対象検出モデルの更新方法および装置は、複数の角度での対象物品の画像データに基づいて、対象物品の3次元モデルを構築するステップと、3次元モデルに基づいて、対象物品を表すための対象物品オブジェクトを含む合成画像を生成するステップと、合成画像をサンプル画像とし、対象物品オブジェクトをラベルとし、トレーニングサンプルを取得し、トレーニングサンプルセットを生成するステップと、トレーニングサンプルセットを用いて対象検出モデルをトレーニングして更新済みの対象検出モデルを得るステップとにより、トレーニングデータを自動的に生成して、対象検出モデルを自動的に更新する方法が提供され、対象検出モデルの更新の利便性および検出結果の精度が向上される。
【0030】
図2に示すように、対象検出モデルの更新のためのシステムのもう一つの例示的なアーキテクチャ200が示されており、第1の画像採集装置201、第2の画像採集装置202、第3の画像採集装置203、制御装置204、およびピッキングロボット205を含む。
【0031】
第3の画像採集装置203はピッキングステーションに設けられ、ピッキングステーションにピッキングすべき対象物品が収容された通い箱が配置され、第3の画像採集装置203は通い箱内の対象物品に対応する対象オブジェクトを含む画像を採集するように構成される。制御装置204は、第3の画像採集装置203により採集された画像を対象検出モデルの入力画像として検出結果を取得し、その検出結果に基づいてピッキングタスク(対象物品をピッキングステーションからスタッキングステーションへ移動する)を実行するようにピッキングロボットを制御する。
【0032】
第2の画像採集装置202は、ピッキングロボットに対応して設けられる。第1の画像採集装置201は、予め設定された情報採集位置に設けられている。その予め設定された情報採集位置は、ピッキングロボットが対象物品をピッキングする移動過程に通過する任意の位置であってもよい。例えば、予め設定された位置は、ピッキングすべき対象物品が置かれたピッキングステーションの近くに設定される。第1の画像採集装置201は、ピッキングロボットが対象物品をピッキングステーションからスタッキングステーションにピッキングする過程で、ピッキングロボットが対象物品をピッキングして予め設定された情報採集位置に移動したと判断したことに応じて、複数の角度での対象物品の画像データを取得するように構成される。制御装置204は、さらに、複数の角度での対象物品の画像データに基づいて対象物品の3次元モデルを構築してトレーニングデータを生成し、対象検出モデルを更新するように構成される。
【0033】
本開示の実施形態に係る対象検出モデルの更新方法は、制御装置によって実行されるようにしてもよく、これに応じて、対象検出モデルの更新のための装置に含まれる各部分(例えば、各ユニット)が全て制御装置に設けられてもよい。
【0034】
図1における画像採集装置、ネットワーク、制御装置およびピッキングロボットの数はあくまでも例示的なものに過ぎないことを理解すべきである。実現のニーズに応じて、画像採集装置、ネットワーク、制御装置およびピッキングロボットの数を任意に加減してもよい。対象検出モデルの更新方法が動作する電子機器が他の電子機器とデータ伝送を行う必要がない場合、このシステムアーキテクチャは対象検出モデルの更新方法が動作する電子機器(例えば、制御装置)のみを含んでもよい。
【0035】
次に、対象検出モデルの更新方法の一実施形態のフロー300を示す図3を参照し、フロー300は次のステップを含む。
【0036】
ステップ301では、複数の角度での対象物品の画像データに基づいて対象物品の3次元モデルを構築する。
【0037】
本実施形態では、対象検出モデルの更新方法の実行主体(例えば、図1の端末装置またはサーバ)は、有線接続ネットワークまたは無線接続ネットワークを介して、複数の角度での対象物品の画像データを遠隔またはローカルから取得し、さらに、複数の角度での対象物品の画像データに基づいて対象物品の3次元モデルを構築することができる。
【0038】
対象検出モデルは、入力画像と入力画像中の対象物品オブジェクトに対応する検出結果との間の対応関係を表すために使用され、対象物品検出機能を有するニューラルネットワークモデルによりトレーニングされ得る。対象検出モデルは、畳み込みニューラルネットワーク、残差ニューラルネットワーク、再帰型ニューラルネットワークを含むが、これらに限定されない。なお、対象検出モデルは、予めトレーニングされ、ピッキングシーンに適用されたモデルである。
【0039】
検出すべき画像を対象検出モデルに入力することにより、検出すべき画像中の対象物品を示す検出枠を決定することができ、さらに検出すべき画像を取得した画像採集装置(例えば、図2の第3の画像採集装置203)の標定情報に基づいて、実環境におけるピッキングステーション上の対象物品の位置情報を特定することができる。さらに、特定された位置情報によって表される位置にある対象物品をピッキングするようにピッキングロボットを制御することができる。
【0040】
ここで、対象物品は、様々な実体物であってもよい。例示として、対象物品は様々な商品である。
【0041】
画像データには、2D(2-dimension,2次元)画像データと3D画像データとが含まれる。例示として、2D画像データはRGB(red、green、blue,赤、緑、青)画像であり、3D画像データは点群画像データである。
【0042】
本実施形態では、異なる位置にある複数組のカメラにより、複数の角度での対象物品の画像データを採集することができる。各組のカメラには、2Dカメラおよび3Dカメラが含まれる。
【0043】
本実施形態では、上記実行主体は、複数の角度での対象物品の画像データを、3Dモデリングのためのネットワークモデル(例えば、Capturing Reality社発行のReality Capture)に入力して、対象物品の3次元モデルを得ることができる。
【0044】
本実施形態のいくつかのオプション的な実施形態では、上記実行主体は、まず、対象検出モデルによる入力画像中の対象物品オブジェクトの検出結果に基づいて、対象物品のピッキングタスクを実行するようにピッキングロボットを制御するプロセスにおいて、第1の画像採集装置によって予め設定された情報採集位置にある複数の角度での対象物品の2次元画像データおよび3次元画像データを採集し、次に、2次元画像データと3次元画像データに基づいて、対象物品の3次元モデルを構築するようにステップ301を実行してもよい。
【0045】
具体的には、ピッキングステーションとスタッキングステーションとの間には、予め設定された情報採集位置が設けられ、予め設定された情報採集位置の周囲には、複数組のカメラを含む第1の画像採集装置が設けられている。ピッキングロボットは、対象検出モデルの検出結果に基づいて、ピッキングステーションで対象物品をピッキングしてスタッキングステーションへ移動する過程において、第1の画像採集装置によって複数の角度での対象物品の2次元画像データおよび3次元画像データを取得することに供するために、予め設定された情報採集位置に到達したことに応じて、対象物品を予め設定された情報採集位置に一時的に載置する。
【0046】
ステップ302では、3次元モデルに基づいて、対象物品を表すための対象物品オブジェクトを含む合成画像を生成する。
【0047】
本実施形態では、上記実行主体は、3次元モデルに基づいて、対象物品を表すための対象物品オブジェクトを含む合成画像を生成することができる。
【0048】
例示として、上記実行主体は、対象物品の3次元モデルを画像合成ツール(例えば、Keyshot)に入力して、3次元モデルに背景画像を設定して合成画像を得る。具体的には、3次元モデルの異なる角度および/または異なる背景画像に基づいて、同一対象物品の3次元モデルについて複数の合成画像を生成することができる。
【0049】
より真度の高い合成画像を取得し、合成画像から得られたトレーニングデータに基づいて更新された対象検出モデルを、図2に示すようなピッキングロボットのワークステーションの実際のシーンにより適したものにするために、本実施形態のいくつかのオプション的な実施形態では、上記実行主体は、以下のようにして上記ステップ302を実行してもよい。
【0050】
第1に、ピッキングロボットに対応する第2の画像採集装置と、予め設定された情報採集位置と、第1の画像採集装置との間の座標系の対応関係を決定する。
【0051】
第2の画像採集装置、予め設定された情報採集位置および第1の画像採集装置は、対応する座標系を備えている。上記実行主体は、標定アルゴリズムによって、ピッキングロボットに対応する第2の画像採集装置と、予め設定された情報採集位置と、第1の画像採集装置との間の座標系の対応関係を決定することができる。
【0052】
第2に、座標系の対応関係に基づいて、第2の画像採集装置の視点における3次元モデルの調整済み3次元モデルを決定する。
【0053】
3次元モデルをピッキングロボットの対応する第2の画像採集装置の視点に合わせて調整することで、ピッキングロボットのワークステーションの実際のシーンに十分に適合できる。
【0054】
第3に、調整済み3次元モデルと、ピッキングロボットのピッキングシーンを表す予め設定された背景画像とに基づいて、対象物品に対応する対象物品オブジェクトを含む合成画像を生成する。
【0055】
例示として、ピッキングステーションにある対象物品は、通常、通い箱内に配置され、予め設定された背景画像は、空の通い箱に対応する通い箱オブジェクトを含む背景画像であってもよい。これにより、合成画像の真正性をさらに向上させることができる。
【0056】
本実施形態のいくつかのオプション的な実施形態では、上記実行主体は、対象物品の重みを特定することもできる。例示として、予め設定された情報採集位置に、対象物品の重みを取得するための重みセンサが設けられる。
【0057】
本実施形態では、上記実行主体は、次のように上記第3のステップを実行してもよい。
【0058】
調整済み3次元モデルと、予め設定された背景画像と、重みと、合成画像の予め設定された解像度と、第2の画像採集装置のパラメータとに基づいて、対象物品に対応する対象物品オブジェクトを含む合成画像を生成する。
【0059】
ここで、予め設定された解像度は、所望の合成画像の解像度を表すために使用され、第2の画像採集装置のパラメータは、その内部パラメータのデータを表す。
【0060】
具体的には、上記実行主体は、調整済み3次元モデル、予め設定された背景画像、重み、合成画像の予め設定された解像度、第2の画像採集装置のパラメータ等のデータを入力データとして仮想物理エンジンツール(例えば、pybullet)に入力して、合成画像を得る。
【0061】
なお、生成された合成画像は、同種の複数の対象物品オブジェクトを含んでいてもよいし、異なる種類の複数の対象物品オブジェクトを含んでいてもよい。例示として、異なる種類の対象物品は、今までにピッキングされた複数種類の対象物品であってもよい。複数種類の対象物品のピッキング過程において、上記実行主体の得られた各種類の対象物品の調整済み3次元モデルと重み情報に基づいて、仮想物理エンジンツールによって異なる種類の複数の対象物品の合成画像を得ることができ、合成画像からなるトレーニングデータによってより検出精度の高い対象検出モデルをトレーニングして得ることができる。
【0062】
ステップ303では、合成画像をサンプル画像とし、対象物品オブジェクトをラベルとし、トレーニングサンプルを取得し、トレーニングサンプルセットを生成する。
【0063】
本実施形態において、上記実行主体は、合成画像をサンプル画像とし、対象物品オブジェクトをラベルとし、トレーニングサンプルを取得し、トレーニングサンプルセットを生成することができる。
【0064】
合成画像は、3次元モデルに基づいて合成され、その対象物品オブジェクトが自然に取得することができ、それによりラベルに対する手作業のラベリング段階が不要で、対象検出モデルを更新するためのトレーニングサンプルセットを拡張することができる。
【0065】
ステップ304では、トレーニングサンプルセットを用いて対象検出モデルをトレーニングして更新済みの対象検出モデルを得る。
【0066】
本実施形態では、上記実行主体は、トレーニングサンプルセットを用いて対象検出モデルをトレーニングして更新済みの対象検出モデルを得ることができる。
【0067】
具体的には、まず、トレーニングサンプルセットからトレーニングされていないトレーニングサンプルを選択し、選択されたトレーニングサンプル中のサンプル画像を対象検出モデルに入力し、入力されたトレーニングサンプルに対応するラベルを所望の出力とし、対象検出モデルの実際の出力を得る。次に、実際の出力とラベルとの間の損失を計算する。最後に、損失に基づいて勾配を計算し、勾配降下法、確率的勾配降下法に基づいて対象検出モデルのパラメータの更新を行う。
【0068】
上記実行主体は、予め設定された終了条件を満たし、更新済みの対象検出モデルが得られるまでに、上記の更新のプロセスを繰り返して実行してもよい。なお、予め設定された終了条件は、例えば、トレーニング回数が予め設定された回数閾値を超えたこと、トレーニング時間が予め設定された時間閾値を超えたこと、損失が収束していることであってもよい。
【0069】
本実施形態のいくつかのオプション的な実施形態において、上記実行主体は、次のように上記ステップ304を実行してもよい。
【0070】
対象検出モデルの検出精度が予め設定された閾値よりも低いと判断したことに応じて、機械学習アルゴリズムによって、トレーニングサンプルセットを用いて対象検出モデルをトレーニングして、更新済みの対象検出モデルを取得する。
【0071】
ここで、予め設定された閾値は、実際の状況に応じて具体的に設定され得る。例示として、ピッキングタスクによって要求される検出精度が高い場合には、予め設定された閾値をより高く設定してもよいし、ピッキングタスクによって要求される検出精度が高くない場合には、予め設定された閾値をより低く設定してもよい。
【0072】
例示として、上記実行主体は、合成画像を更新されていない対象検出モデルに入力して、対象検出モデルが実際に出力する対象オブジェクトの検出枠を得、さらに、実際に出力された検出枠とラベルに対応する検出枠とのIoU(Intersection-over-Union)を決定し、複数の合成画像に対応するIoUを平均して対象検出モデルの検出精度を決定してもよい。
【0073】
本実施形態のいくつかのオプション的な実施形態では、更新済みの対象検出モデルを取得した後、上記実行主体は、更新済みの対象検出モデルを介して後続の入力画像に対して対象の検出を行い、検出結果を得、検出結果に基づいてピッキングタスクを実行するようにピッキングロボットを制御する。
【0074】
次に、本実施形態に係る対象検出モデルの更新方法の応用シーンの1つの概略図400である図4を参照する。図4の応用シーンでは、画像採集装置401、画像採集装置402、サーバ403、およびピッキングロボット404が含まれ、サーバ403には対象検出モデルが設けられている。画像採集装置401は、ピッキングステーションに設置され、ピッキングステーションにある対象物品を撮影して検出すべき画像を得るとともに、対象検出モデルにより対象の検出を行い、検出結果を得、さらに対象物品をピッキングしてスタッキングステーションに移動するようにピッキングロボットを制御する。ピッキングロボットが対象物品のピッキングタスクを実行する際には、予め設定された情報採集位置にある対象物品の複数の角度での画像データが画像採集装置402によって取得される。複数の角度での画像データを取得した後、サーバは、まず、複数の角度での対象物品の画像データに基づいて、対象物品の3次元モデルを構築する。次に、3次元モデルに基づいて、対象物品を表すための対象物品オブジェクトを含む合成画像を生成する。合成画像をサンプル画像とし、対象物品オブジェクトをラベルとし、トレーニングサンプルを取得し、トレーニングサンプルセットを生成する。次に、トレーニングサンプルセットを用いて対象検出モデルをトレーニングして、更新済みの対象検出モデルを得る。
【0075】
本開示の上記実施形態によって提供される方法は、複数の角度での対象物品の画像データに基づいて、対象物品の3次元モデルを構築するステップと、3次元モデルに基づいて、対象物品を表すための対象物品オブジェクトを含む合成画像を生成するステップと、合成画像をサンプル画像とし、対象物品オブジェクトをラベルとし、トレーニングサンプルを取得し、トレーニングサンプルセットを生成するステップと、トレーニングサンプルセットを用いて対象検出モデルをトレーニングして更新済みの対象検出モデルを得るステップとにより、トレーニングデータを自動的に生成して、対象検出モデルを自動的に更新する方法が提供され、対象検出モデルの更新の利便性および検出結果の精度が向上される。
【0076】
次に、本開示に係る対象検出モデルの更新方法の一実施形態の概略的なフロー500を示す図5を参照する。フロー500は、次のステップを含む。
【0077】
ステップ501では、対象検出モデルによる入力画像中の対象物品オブジェクトの検出結果に基づいて、対象物品のピッキングタスクを実行するようにピッキングロボットを制御するプロセスにおいて、第1の画像採集装置によって予め設定された情報採集位置にある対象物品の複数の角度での2次元画像データ、3次元画像データおよび重みを採集する。
【0078】
ステップ502では、2次元画像データと3次元画像データに基づいて、対象物品の3次元モデルを構築する。
【0079】
ステップ503では、ピッキングロボットに対応する第2の画像採集装置と、予め設定された情報採集位置と、第1の画像採集装置との間の座標系の対応関係を決定する。
【0080】
ステップ504では、座標系の対応関係に基づいて、第2の画像採集装置の視点での3次元モデルの調整済み3次元モデルを決定する。
【0081】
ステップ505では、調整済み3次元モデルと、予め設定された背景画像と、重みと、合成画像の予め設定された解像度と、第2の画像採集装置のパラメータとに基づいて、対象物品に対応する対象物品オブジェクトを含む合成画像を生成する。
【0082】
ステップ506では、合成画像をサンプル画像とし、対象物品オブジェクトをラベルとし、トレーニングサンプルを取得し、トレーニングサンプルセットを生成する。
【0083】
ステップ507では、トレーニングサンプルセットを用いて対象検出モデルをトレーニングして更新済みの対象検出モデルを得る。
【0084】
そのうち、対象検出モデルは、入力画像と入力画像中の対象物品オブジェクトに対応する検出結果との間の対応関係を表すために用いられる。
【0085】
ステップ508では、更新済みの対象検出モデルによって後続の入力画像に対して対象の検出を行い、検出結果を得る。
【0086】
ステップ509では、検出結果に基づいて、ピッキングタスクを実行するようにピッキングロボットを制御する。
【0087】
本実施形態から分かるように、図3に対応する実施形態と比較すると、本実施形態における対象検出モデルの更新方法のフロー500は、合成画像の構築プロセス、更新済みの対象検出モデルの応用プロセスを具体的に説明しており、対象検出モデルに対する閉ループ式持続学習方法が提供され、対象物品の3次元モデルを構築する方式によってトレーニングサンプルセットを作成し、あらゆる形状の対象物品に適用でき、対象検出モデルの普遍性と検出精度が向上される。
【0088】
引き続き図6を参照すると、上記の各図に示された方法の実施態様として、本開示は、対象検出モデルの更新のための装置の一実施形態を提供し、当該装置の実施形態は、図3に示された方法の実施形態に対応しており、当該装置は、具体的に様々な電子機器に適用することができる。
【0089】
図6に示すように、対象検出モデルの更新のための装置は、複数の角度での対象物品の画像データに基づいて、対象物品の3次元モデルを構築するように構成される構築ユニット601と、3次元モデルに基づいて、対象物品を表すための対象物品オブジェクトを含む合成画像を生成するように構成される画像生成ユニット602と、合成画像をサンプル画像とし、対象物品オブジェクトをラベルとし、トレーニングサンプルを取得し、トレーニングサンプルセットを生成するように構成されるサンプル生成ユニット603と、トレーニングサンプルセットを用いて対象検出モデルをトレーニングして更新済みの対象検出モデルを得るように構成される更新ユニット604と、を備え、ここで、対象検出モデルは、入力画像と入力画像中の対象物品オブジェクトに対応する検出結果との間の対応関係を表す。
【0090】
本実施形態のいくつかのオプション的な実施形態では、構築ユニット601は、対象検出モデルによる入力画像中の対象物品オブジェクトの検出結果に基づいて、対象物品のピッキングタスクを実行するようにピッキングロボットを制御するプロセスにおいて、第1の画像採集装置によって予め設定された情報採集位置にある対象物品の複数の角度での2次元画像データおよび3次元画像データを採集し、2次元画像データと3次元画像データに基づいて、対象物品の3次元モデルを構築するようにさらに構成される。
【0091】
本実施形態のいくつかのオプション的な実施形態では、画像生成ユニット602は、ピッキングロボットに対応する第2の画像採集装置、予め設定された情報採集位置と、第1の画像採集装置との間の座標系の対応関係を決定し、座標系の対応関係に基づいて、第2の画像採集装置の視点での3次元モデルの調整済み3次元モデルを決定し、調整済み3次元モデルと、ピッキングロボットのピッキングシーンを表す予め設定された背景画像とに基づいて、対象物品に対応する対象物品オブジェクトを含む合成画像を生成するようにさらに構成される。
【0092】
本実施形態のいくつかのオプション実施形態では、上記装置は、対象物品の重みを特定するように構成される特定ユニット(図示せず)をさらに備え、画像生成ユニット602は、調整済み3次元モデルと、予め設定された背景画像と、重みと、合成画像の予め設定された解像度と、第2の画像採集装置のパラメータとに基づいて、対象物品に対応する対象物品オブジェクトを含む合成画像を生成するようにさらに構成される。
【0093】
本実施形態のいくつかのオプション的な実施形態では、更新ユニット604は、対象検出モデルの検出精度が予め設定された閾値よりも低いと判断したことに応じて、機械学習アルゴリズムによって、トレーニングサンプルセットを用いて対象検出モデルをトレーニングして、更新済みの対象検出モデルを取得するようにさらに構成される。
【0094】
本実施形態のいくつかのオプション実施形態では、上記装置は、上記の装置は、更新済みの対象検出モデルによって後続の入力画像に対して対象の検出を行い、検出結果を得るように構成される取得ユニット(図示せず)と、検出結果に基づいて、ピッキングタスクを実行するようにピッキングロボットを制御するように構成される実行ユニット(図示せず)と、をさらに備える。
【0095】
本実施形態において、対象検出モデルの更新のための装置における構築ユニットは、複数の角度での対象物品の画像データに基づいて、対象物品の3次元モデルを構築するステップと、3次元モデルに基づいて、対象物品を表すための対象物品オブジェクトを含む合成画像を生成するステップと、合成画像をサンプル画像とし、対象物品オブジェクトをラベルとし、トレーニングサンプルを取得し、トレーニングサンプルセットを生成するステップと、トレーニングサンプルセットを用いて対象検出モデル(ここで、対象検出モデルは、入力画像と入力画像中の対象物品オブジェクトに対応する検出結果との間の対応関係を表す)をトレーニングして更新済みの対象検出モデルを得るステップとにより、トレーニングデータを自動的に生成して、対象検出モデルを自動的に更新する装置が提供され、対象検出モデルの更新の利便性および検出結果の精度が向上される。
【0096】
以下、本開示の実施形態を実現するための機器(例えば、図1に示す機器101、102、105、106)に適するコンピュータシステム700の構造概略図を示す図7を参照する。図7に示す機器は、あくまでも一例に過ぎず、本開示の実施形態の機能および使用範囲には如何なる制限をも与えない。
【0097】
図7に示すように、コンピュータシステム700は、読み出し専用メモリ(ROM)702に格納されているプログラムまたは記憶部708からランダムアクセスメモリ(RAM)703にロードされたプログラムによって様々な適当な動作および処理を実行することができるプロセッサ(例えばCPU,中央処理装置)701を備える。RAM603には、システム700の動作に必要な各種のプログラムおよびデータがさらに格納されている。プロセッサ701、ROM702およびRAM703は、バス704を介して互いに接続されている。入/出力(I/O)インターフェース705もバス704に接続されている。
【0098】
キーボード、マウスなどを含む入力部706、陰極線管(CRT)、液晶ディスプレイ(LCD)など、およびスピーカなどを含む出力部707、ハードディスクなどを含む記憶部708、並びにLANカード、モデムなどのネットワークインターフェースカードを含む通信部709は、I/Oインターフェース705に接続されている。通信部709は、例えばインターネットのようなネットワークを介して通信処理を実行する。ドライバ710は、必要に応じてI/Oインターフェース705に接続される。磁気ディスク、光ディスク、光磁気ディスク、半導体メモリなどのリムーバブルメディア711は、そこから読み出されるコンピュータプログラムが必要に応じて記憶部708にインストールされるように、必要に応じてドライブ710に設置されている。
【0099】
特に、本開示の実施形態によれば、上述したフローチャートを参照しながら記載されたプロセスは、コンピュータのソフトウェアプログラムとして実装されてもよい。例えば、本開示の実施形態は、コンピュータ可読媒体に具現化されるコンピュータプログラムを含むコンピュータプログラム製品を備え、当該コンピュータプログラムは、フローチャートで示される方法を実行するためのプログラムコードを含む。かかる実施形態において、当該コンピュータプログラムは通信部709を介して、ネットワークからダウンロードされてインストールされることが可能であり、および/または、リムーバブルメディア711からインストールされることも可能である。当該コンピュータプログラムがプロセッサ701によって実行されると、本開示の方法で限定された上記の機能を実行する。
【0100】
なお、本開示のコンピュータ可読媒体は、コンピュータ可読信号媒体またはコンピュータ可読記憶媒体、またはこれら両者の任意の組み合わせであってもよい。コンピュータ可読記憶媒体は、例えば、電気的、磁気的、光学的、電磁気的、赤外線、または半導体のシステム、装置もしくはデバイス、またはこれらの任意の組み合わせであってもよいが、これらに限定されない。コンピュータ可読記憶媒体のより具体的な例としては、1本または複数本の導線による電気的接続、ポータブルコンピュータディスク、ハードディスク、ランダムアクセスメモリ(RAM)、読み取り専用メモリ(ROM)、消去可能プログラマブル読取り専用メモリ(EPROMもしくはフラッシュメモリ)、光ファイバ、ポータブルコンパクトディスク読み取り専用メモリ(CD-ROM)、光記憶装置、磁気記憶装置、またはこれらの任意の適切な組み合わせを含むことができるが、これらに限定されない。本開示において、コンピュータ可読記憶媒体は、指令実行システム、装置もしくはデバイスによって使用可能な、またはそれらに組み込まれて使用可能なプログラムを包含または格納する任意の有形の媒体であってもよい。本開示において、コンピュータ可読信号媒体は、ベースバンドにおける、または搬送波の一部として伝搬されるデータ信号を含んでもよく、その中にコンピュータ可読プログラムコードが担持されている。かかる伝搬されたデータ信号は、様々な形態をとることができ、電磁信号、光信号、またはこれらの任意の適切な組み合わせを含むが、これらに限定されない。コンピュータ可読信号媒体は、さらにコンピュータ可読記憶媒体以外の任意のコンピュータ可読媒体であってもよい。当該コンピュータ可読媒体は、指令実行システム、装置もしくはデバイスによって使用されるか、またはそれらに組み込まれて使用されるプログラムを、送信、伝搬または伝送することができる。コンピュータ可読媒体に含まれるプログラムコードは任意の適切な媒体で伝送することができ、当該任意の適切な媒体とは、無線、有線、光ケーブル、RFなど、またはこれらの任意の適切な組み合わせを含むが、これらに限定されない。
【0101】
本開示の動作を実行するためのコンピュータプログラムコードは、1種以上のプログラミング言語、またはそれらの組み合わせで作成されることができ、プログラミング言語は、Java、Smalltalk、C++などのような対象指向プログラミング言語と、「C」言語または同様のプログラミング言語などのような従来の手続き型プログラミング言語とを含む。プログラムコードは、完全にユーザのコンピュータで実行されることも、部分的にユーザのコンピュータで実行されることも、単独のソフトウェアパッケージとして実行されることも、部分的にユーザのコンピュータで実行されながら部分的にリモートコンピュータで実行されることも、または完全にリモートコンピュータもしくはサーバで実行されることも可能である。リモートコンピュータの場合、リモートコンピュータは、ローカルエリアネットワーク(LAN)またはワイドエリアネットワーク(WAN)を含む任意の種類のネットワークを介してユーザコンピュータに接続されてもよいし、または(例えば、インターネットサービスプロバイダによるインターネット接続サービスを介して)外部コンピュータに接続されてもよい。
【0102】
図面のうちのフローチャートおよびブロック図は、本開示の様々な実施形態に係る装置、方法およびコンピュータプログラム製品によって実現できるシステムアーキテクチャ、機能および動作を図示している。これについては、フローチャートまたはブロック図における各ブロックは、モジュール、プログラムセグメント、またはコードの一部を表すことができる。当該モジュール、プログラムセグメント、またはコードの一部には、所定のロジック機能を実現するための1つまたは複数の実行可能な指令が含まれている。なお、一部のオプションとなる実施態様においては、ブロックに示されている機能は図面に示されているものとは異なる順序で実行されることも可能である。例えば、連続して示された2つのブロックは、実際には係る機能に応じて、ほぼ並行して実行されてもよく、時には逆の順序で実行されてもよい。さらに注意すべきなのは、ブロック図および/またはフローチャートにおけるすべてのブロック、ならびにブロック図および/またはフローチャートにおけるブロックの組み合わせは、所定の機能または動作を実行する専用のハードウェアベースのシステムで実装されてもよく、または専用のハードウェアとコンピュータ指令との組み合わせで実装されてもよい。
【0103】
本開示の実施形態に記載されたユニットは、ソフトウェアで実装されてもよく、ハードウェアで実装されてもよい。記載されたユニットは、プロセッサに設けられてもよく、例えば、「構築ユニットと、画像生成ユニットと、サンプル生成ユニットと、更新ユニットとを備えるプロセッサ」のように記載されてもよい。ここで、これらのユニットの名称は、ある場合において当該ユニットその自体を限定するものではなく、例えば、更新ユニットは、「トレーニングサンプルセットを用いて対象検出モデルをトレーニングして更新済みの対象検出モデルを得るように構成されるユニット」として記載されてもよい。
【0104】
一方、本開示は、コンピュータ可読媒体を更に提供し、当該コンピュータ可読媒体は、上記実施形態に記載された機器に含まれるものであってもよく、当該機器に実装されずに別体として存在するものであってもよい。上記コンピュータ可読媒体は、1つまたは複数のプログラムが担持され、上記1つまたは複数のプログラムが当該装置によって実行されるとき、対象物品の複数の角度での画像データに基づいて、対象物品の3次元モデルを構築するステップと、3次元モデルに基づいて、対象物品を表すための対象物品オブジェクトを含む合成画像を生成するステップと、合成画像をサンプル画像とし、対象物品オブジェクトをラベルとし、トレーニングサンプルを取得し、トレーニングサンプルセットを生成するステップと、トレーニングサンプルセットを用いて対象検出モデルをトレーニングして更新済みの対象検出モデルを得るステップと、を当該コンピュータに実行させる。ここで、対象検出モデルは、入力画像と入力画像中の対象物品オブジェクトに対応する検出結果との間の対応関係を表す。
【0105】
以上の記載は、本開示の好ましい実施形態、および適用される技術的原理に関する説明に過ぎない。当業者であれば、本開示に係る発明の範囲が、上記の技術的特徴の特定の組み合わせからなる技術案に限定されるものではなく、上記の本開示の趣旨を逸脱しない範囲で、上記の技術的特徴またはそれらの同等の特徴の任意の組み合わせからなる他の技術案も含むべきであることを理解すべきである。例えば、上記の特徴と、本開示に開示された(これに限定されるものではない)類似の機能を持っている技術的特徴とを互いに置き換えてなる技術案が挙げられる。
【図
図2
【図
図3
図4
【図
図5
図6
図7
【手続補正書】
【提出日】2023-12-15
【手続補正1】
【補正対象書類名】特許請求の範囲
【補正対象項目名】全文
【補正方法】変更
【補正の内容】
【特許請求の範囲】
【請求項1】
対象検出モデルの更新方法であって、
複数の角度での対象物品の画像データに基づいて、前記対象物品の3次元モデルを構築するステップと、
前記3次元モデルに基づいて、前記対象物品を表すための対象物品オブジェクトを含む合成画像を生成するステップと、
前記合成画像をサンプル画像とし、前記対象物品オブジェクトをラベルとし、トレーニングサンプルを取得し、トレーニングサンプルセットを生成するステップと、
前記トレーニングサンプルセットを用いて前記対象検出モデルをトレーニングして更新済みの対象検出モデルを得るステップと、を含み、
前記対象検出モデルは、入力画像と入力画像中の対象物品オブジェクトに対応する検出結果との間の対応関係を表す、
対象検出モデルの更新方法。
【請求項2】
複数の角度での対象物品の画像データに基づいて、前記対象物品の3次元モデルを構築するステップは、
前記対象検出モデルによる入力画像中の対象物品オブジェクトの検出結果に基づいて、前記対象物品のピッキングタスクを実行するようにピッキングロボットを制御するプロセスにおいて、第1の画像採集装置によって予め設定された情報採集位置にある前記対象物品の複数の角度での2次元画像データおよび3次元画像データを採集するステップと、
前記2次元画像データと前記3次元画像データに基づいて、前記対象物品の3次元モデルを構築するステップと、を含む請求項1に記載の方法。
【請求項3】
前記3次元モデルに基づいて、前記対象物品を表すための対象物品オブジェクトを含む合成画像を生成するステップは、
前記ピッキングロボットに対応する第2の画像採集装置と、前記予め設定された情報採集位置と、前記第1の画像採集装置との間の座標系の対応関係を決定するステップと、
前記座標系の対応関係に基づいて、前記第2の画像採集装置の視点での前記3次元モデルの調整済み3次元モデルを決定するステップと、
前記調整済み3次元モデルと、前記ピッキングロボットのピッキングシーンを表す予め設定された背景画像とに基づいて、前記対象物品に対応する対象物品オブジェクトを含む合成画像を生成するステップと、を含む請求項2に記載の方法。
【請求項4】
前記対象物品の重みを特定するステップをさらに含み、
前記調整済み3次元モデルと、前記ピッキングロボットのピッキングシーンを表す予め設定された背景画像とに基づいて、前記対象物品に対応する対象物品オブジェクトを含む合成画像を生成するステップは、
前記調整済み3次元モデルと、前記予め設定された背景画像と、前記重みと、前記合成画像の予め設定された解像度と、前記第2の画像採集装置のパラメータとに基づいて、前記対象物品に対応する対象物品オブジェクトを含む合成画像を生成するステップと、を含む請求項に記載の方法。
【請求項5】
前記トレーニングサンプルセットを用いて前記対象検出モデルをトレーニングして更新済みの対象検出モデルを得るステップは、
前記対象検出モデルの検出精度が予め設定された閾値よりも低いと判断したことに応じて、機械学習アルゴリズムによって、前記トレーニングサンプルセットを用いて前記対象検出モデルをトレーニングし、更新済みの対象検出モデルを取得するステップを含む請求項1に記載の方法。
【請求項6】
更新済みの対象検出モデルによって後続の入力画像に対して対象の検出を行い、検出結果を得るステップと、
前記検出結果に基づいて、ピッキングタスクを実行するようにピッキングロボットを制御するステップと、
をさらに含む請求項1~5のいずれか1項に記載の方法。
【請求項7】
対象検出モデルの更新のための装置であって、
複数の角度での対象物品の画像データに基づいて、前記対象物品の3次元モデルを構築するように構成される構築ユニットと、
前記3次元モデルに基づいて、前記対象物品を表すための対象物品オブジェクトを含む合成画像を生成するように構成される画像生成ユニットと、
前記合成画像をサンプル画像とし、前記対象物品オブジェクトをラベルとし、トレーニングサンプルを取得し、トレーニングサンプルセットを生成するように構成されるサンプル生成ユニットと、
前記トレーニングサンプルセットを用いて前記対象検出モデルをトレーニングして更新済みの対象検出モデルを得るように構成される更新ユニットと、を備え、
前記対象検出モデルは、入力画像と入力画像中の対象物品オブジェクトに対応する検出結果との間の対応関係を表す、
対象検出モデルの更新のための装置。
【請求項8】
前記構築ユニットは、さらに
前記対象検出モデルによる入力画像中の対象物品オブジェクトの検出結果に基づいて、前記対象物品のピッキングタスクを実行するようにピッキングロボットを制御するプロセスにおいて、第1の画像採集装置によって予め設定された情報採集位置にある前記対象物品の複数の角度での2次元画像データおよび3次元画像データを採集し、
前記2次元画像データと前記3次元画像データに基づいて、前記対象物品の3次元モデルを構築するように構成される、
請求項7に記載の装置。
【請求項9】
前記画像生成ユニットは、さらに
前記ピッキングロボットに対応する第2の画像採集装置と、前記予め設定された情報採集位置と、前記第1の画像採集装置との間の座標系の対応関係を決定し、
前記座標系の対応関係に基づいて、前記第2の画像採集装置の視点での前記3次元モデルの調整済み3次元モデルを決定し、
前記調整済み3次元モデルと、前記ピッキングロボットのピッキングシーンを表す予め設定された背景画像とに基づいて、前記対象物品に対応する対象物品オブジェクトを含む合成画像を生成するように構成される、
請求項8に記載の装置。
【請求項10】
前記対象物品の重みを特定するように構成される特定ユニットをさらに備え、
前記画像生成ユニットは、さらに
前記調整済み3次元モデルと、前記予め設定された背景画像と、前記重みと、前記合成画像の予め設定された解像度と、前記第2の画像採集装置のパラメータとに基づいて、前記対象物品に対応する対象物品オブジェクトを含む合成画像を生成するように構成される、
請求項に記載の装置。
【請求項11】
前記更新ユニットは、さらに
前記対象検出モデルの検出精度が予め設定された閾値よりも低いと判断したことに応じて、機械学習アルゴリズムによって、前記トレーニングサンプルセットを用いて前記対象検出モデルをトレーニングし、更新済みの対象検出モデルを取得するように構成される、
請求項7に記載の装置。
【請求項12】
更新済みの対象検出モデルによって後続の入力画像に対して対象の検出を行い、検出結果を得るように構成される取得ユニットと、
前記検出結果に基づいて、ピッキングタスクを実行するようにピッキングロボットを制御するように構成される実行ユニットと、
をさらに備える請求項7~11のいずれか1項に記載の装置。
【請求項13】
プロセッサによって実行されると、請求項1~のいずれか1項に記載の方法を実現するコンピュータプログラムが格納されているコンピュータ可読媒体。
【請求項14】
1つまたは複数のプロセッサと、
1つまたは複数のプログラムが格納されている記憶装置と、を備える電子機器であって、
前記1つまたは複数のプログラムが前記1つまたは複数のプロセッサによって実行されると、前記1つまたは複数のプロセッサに請求項1~のいずれか1項に記載の方法を実現させる、電子機器。
【請求項15】
プロセッサによって実行されると、請求項1~のいずれか1項に記載の方法を実現するコンピュータプログラム
【手続補正2】
【補正対象書類名】明細書
【補正対象項目名】0019
【補正方法】変更
【補正の内容】
【0019】
第5の態様では、本開示の実施形態は、プロセッサによって実行されると、第1の態様のいずれかの実施形態に記載の方法が実現されるコンピュータプログラム提供される。
【手続補正3】
【補正対象書類名】明細書
【補正対象項目名】0099
【補正方法】変更
【補正の内容】
【0099】
特に、本開示の実施形態によれば、上述したフローチャートを参照しながら記載されたプロセスは、コンピュータのソフトウェアプログラムとして実装されてもよい。例えば、本開示の実施形態は、コンピュータ可読媒体に具現化されるコンピュータプログラム備え、当該コンピュータプログラムは、フローチャートで示される方法を実行するためのプログラムコードを含む。かかる実施形態において、当該コンピュータプログラムは通信部709を介して、ネットワークからダウンロードされてインストールされることが可能であり、および/または、リムーバブルメディア711からインストールされることも可能である。当該コンピュータプログラムがプロセッサ701によって実行されると、本開示の方法で限定された上記の機能を実行する。
【手続補正4】
【補正対象書類名】明細書
【補正対象項目名】0102
【補正方法】変更
【補正の内容】
【0102】
図面のうちのフローチャートおよびブロック図は、本開示の様々な実施形態に係る装置、方法およびコンピュータプログラムよって実現できるシステムアーキテクチャ、機能および動作を図示している。これについては、フローチャートまたはブロック図における各ブロックは、モジュール、プログラムセグメント、またはコードの一部を表すことができる。当該モジュール、プログラムセグメント、またはコードの一部には、所定のロジック機能を実現するための1つまたは複数の実行可能な指令が含まれている。なお、一部のオプションとなる実施態様においては、ブロックに示されている機能は図面に示されているものとは異なる順序で実行されることも可能である。例えば、連続して示された2つのブロックは、実際には係る機能に応じて、ほぼ並行して実行されてもよく、時には逆の順序で実行されてもよい。さらに注意すべきなのは、ブロック図および/またはフローチャートにおけるすべてのブロック、ならびにブロック図および/またはフローチャートにおけるブロックの組み合わせは、所定の機能または動作を実行する専用のハードウェアベースのシステムで実装されてもよく、または専用のハードウェアとコンピュータ指令との組み合わせで実装されてもよい。
【手続補正書】
【提出日】2024-05-14
【手続補正1】
【補正対象書類名】図面
【補正対象項目名】全図
【補正方法】変更
【補正の内容】
図1
図2
図3
図4
図5
図6
図7
【国際調査報告】