(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2024-11-08
(54)【発明の名称】ターゲットを検出する方法、ターゲットを検出する装置、電子デバイスならびにコンピュータ記憶媒体
(51)【国際特許分類】
G06T 7/70 20170101AFI20241031BHJP
G06T 7/10 20170101ALI20241031BHJP
【FI】
G06T7/70 B
G06T7/10
【審査請求】有
【予備審査請求】未請求
(21)【出願番号】P 2024532488
(86)(22)【出願日】2022-11-17
(85)【翻訳文提出日】2024-05-30
(86)【国際出願番号】 CN2022132660
(87)【国際公開番号】W WO2023098487
(87)【国際公開日】2023-06-08
(32)【優先日】2021-11-30
(33)【優先権主張国・地域又は機関】EP
(81)【指定国・地域】
(71)【出願人】
【識別番号】517291346
【氏名又は名称】シーメンス アクチエンゲゼルシヤフト
【氏名又は名称原語表記】Siemens Aktiengesellschaft
【住所又は居所原語表記】Werner-von-Siemens-Str. 1, D-80333 Muenchen, Germany
(74)【代理人】
【識別番号】100114890
【氏名又は名称】アインゼル・フェリックス=ラインハルト
(74)【代理人】
【識別番号】100098501
【氏名又は名称】森田 拓
(74)【代理人】
【識別番号】100116403
【氏名又は名称】前川 純一
(74)【代理人】
【識別番号】100134315
【氏名又は名称】永島 秀郎
(74)【代理人】
【識別番号】100162880
【氏名又は名称】上島 類
(72)【発明者】
【氏名】ウェイ ヤオ
(72)【発明者】
【氏名】ドン リー
(72)【発明者】
【氏名】チュアンユー ヂャン
【テーマコード(参考)】
5L096
【Fターム(参考)】
5L096CA01
5L096FA66
5L096FA67
5L096FA69
5L096GA10
(57)【要約】
本願の実施形態は、ターゲットを検出する方法、ターゲットを検出する装置、電子デバイスならびにコンピュータ記憶媒体を提供する。この方法は:ターゲット物体を含んでいるターゲットイメージを取得すること;ターゲット物体に対応するセグメンテーションマスクを取得するために、ターゲットイメージに対してインスタンスセグメンテーションを実行すること;セグメンテーションマスクに基づいて、ターゲット物体がターゲットイメージ内に位置するターゲット領域内のターゲットピクセル間の位置関係特徴を取得すること;ターゲット物体に対応する標準物体を含んでいる標準イメージ内のプリセットされた関心領域内の標準ピクセル間の位置関係特徴を取得すること;およびターゲットピクセルと標準ピクセルとの間の対応関係を取得するために、ターゲットピクセル間の位置関係特徴と標準ピクセル間の位置関係特徴とを一致させ、この対応関係に基づいてターゲット物体のポーズ情報を取得することを含んでいる。本願の実施形態によって、ターゲット検出効率が相対的に高くなる。
【特許請求の範囲】
【請求項1】
ターゲットを検出する方法であって、
ターゲット物体を含んでいるターゲットイメージを取得すること(101);
前記ターゲット物体に対応するセグメンテーションマスクを取得するために、前記ターゲットイメージに対してインスタンスセグメンテーションを実行すること(102);
前記セグメンテーションマスクに基づいて、前記ターゲット物体が前記ターゲットイメージ内に位置するターゲット領域内のターゲットピクセル間の位置関係特徴を取得すること(103);
標準イメージ内のターゲット物体のプリセットされた関心領域内の標準ピクセル間の位置関係特徴を取得すること(104);および
前記ターゲットピクセルと前記標準ピクセルとの間の対応関係を取得するために、前記ターゲットピクセル間の前記位置関係特徴と前記標準ピクセル間の前記位置関係特徴とを一致させ、前記対応関係に基づいて前記ターゲット物体のポーズ情報を取得すること(105)を含んでいる、
方法。
【請求項2】
前記セグメンテーションマスクに基づいて、前記ターゲット物体が前記ターゲットイメージ内に位置するターゲット領域内のターゲットピクセル間の位置関係特徴を取得すること(103)は:
複数のターゲットピクセル対を取得するために、前記セグメンテーションマスクに基づいて、前記ターゲット物体が前記ターゲットイメージ内に位置する前記ターゲット領域内の前記ターゲットピクセルを対で組み合わせ、各ターゲットピクセル対に対して、前記ターゲットピクセル対における2つのターゲットピクセル間の位置関係特徴を取得することを含んでおり;
標準イメージ内のターゲット物体のプリセットされた関心領域内の標準ピクセル間の位置関係特徴を取得すること(104)は:
前記標準イメージと、前記標準イメージ内のターゲット物体の前記プリセットされた関心領域とを取得すること;および
複数の標準ピクセル対を取得するために、前記プリセットされた関心領域内の前記標準ピクセルを対で組み合わせ、各標準ピクセル対に対して、前記標準ピクセル対内の2つの標準ピクセル間の位置関係特徴を取得することを含んでいる、請求項1記載の方法。
【請求項3】
各ターゲットピクセル対に対して、前記2つのターゲットピクセル間の距離と、前記2つのターゲットピクセルにそれぞれ対応する法線ベクトル間の角度と、前記2つのターゲットピクセルに対応する前記法線ベクトルと前記2つのターゲットピクセル間の接続線との間の角度とに基づいて、前記ターゲットピクセル対における前記2つのターゲットピクセル間の前記位置関係特徴が取得され;
各標準ピクセル対に対して、前記2つの標準ピクセル間の距離と、前記2つの標準ピクセルにそれぞれ対応する法線ベクトル間の角度と、前記2つの標準ピクセルに対応する前記法線ベクトルと前記2つの標準ピクセル間の接続線との間の角度とに基づいて、前記標準ピクセル対における前記2つの標準ピクセル間の前記位置関係特徴が取得される、請求項2記載の方法。
【請求項4】
前記ターゲット物体に対応するセグメンテーションマスクを取得するために、前記ターゲットイメージに対してインスタンスセグメンテーションを実行すること(102)は:
前記ターゲットイメージを事前トレーニングされたインスタンスセグメンテーションモデルに入力し、前記ターゲット物体に対応する前記セグメンテーションマスクを取得するために、前記インスタンスセグメンテーションモデルを使用することによって、前記ターゲットイメージに対してインスタンスセグメンテーションを実行することを含んでいる、請求項1記載の方法。
【請求項5】
前記インスタンスセグメンテーションモデルは:特徴抽出ネットワーク、特徴融合ネットワーク、領域生成ネットワーク、特徴アライメント層、分類および回帰ネットワークならびにセグメンテーションマスクネットワークを含んでおり;
前記ターゲットイメージを事前トレーニングされたインスタンスセグメンテーションモデルに入力し、前記ターゲット物体に対応する前記セグメンテーションマスクを取得するために、前記インスタンスセグメンテーションモデルを使用することによって、前記ターゲットイメージに対してインスタンスセグメンテーションを実行することは:
前記ターゲットイメージを前記事前トレーニングされたインスタンスセグメンテーションモデルにおいて前記特徴抽出ネットワークに入力し、前記ターゲットイメージに対応する複数のレベルの初期の特徴マップを取得するために、前記特徴抽出ネットワークを使用することによって、前記ターゲットイメージに対してマルチスケール特徴抽出を実行すること;
融合された特徴マップを取得するために、前記特徴融合ネットワークを使用することによって、前記複数のレベルの初期の特徴マップに対して特徴融合を実行すること;
前記融合された特徴マップに基づいて、前記領域生成ネットワークを使用することによって、前記ターゲット物体の初期の領域に関する情報を取得すること;
前記初期の領域に対応し、前記初期の特徴マップにおける領域特徴マップを取得するために、前記初期の領域に関する前記情報に基づいて、前記特徴アライメント層を使用することによって、前記初期の特徴マップに対して特徴抽出を実行すること;
前記領域特徴マップに基づいて、前記分類および回帰ネットワークを使用することによって、前記ターゲット物体のカテゴリ情報および位置情報を取得し;前記領域特徴マップに基づいて、前記セグメンテーションマスクネットワークを使用することによって、前記ターゲット物体に対応する前記セグメンテーションマスクを取得することを含んでいる、請求項4記載の方法。
【請求項6】
融合された特徴マップを取得するために、前記特徴融合ネットワークを使用することによって、前記複数のレベルの初期の特徴マップに対して特徴融合を実行することは:
複数のレベルの初期の次元削減特徴マップを取得するために、前記特徴融合ネットワークを使用することによって、各前記初期の特徴マップに対して畳み込み演算を実行すること;
初期の融合された特徴マップを取得するために、レベルの降順にしたがって、初期の次元削減特徴マップの2つの隣接するレベルごとに、融合処理を順次実行し、前記初期の融合された特徴マップを使用することによって、上位レベルの初期の次元削減特徴マップのサイズが下位レベルの初期の次元削減特徴マップのサイズよりも小さい、前記隣接するレベルの下位レベルの初期の次元削減特徴マップを更新すること;
複数のレベルの次元削減特徴マップを取得するために、各前記初期の融合された特徴マップに対して前記畳み込み演算を実行すること;および
遷移特徴マップを取得するために、レベルの昇順にしたがって、次元削減特徴マップの2つの隣接するレベルごとに、融合処理を順次実行し、融合された特徴マップを取得するために、前記遷移特徴マップおよび前記初期の特徴マップに対して融合処理を実行し、前記融合された特徴マップを使用することによって、上位レベルの次元削減特徴マップのサイズが下位レベルの次元削減特徴マップのサイズよりも小さい、前記隣接するレベルの上位レベルの次元削減特徴マップを更新することを含んでいる、請求項5記載の方法。
【請求項7】
前記特徴抽出ネットワークは、2つの連結された畳み込み層を含み、前の畳み込み層の畳み込みカーネルのサイズは1*1であり、前記前の畳み込み層の畳み込みストライドは1であり、後の畳み込み層の畳み込みストライドは、前記後の畳み込み層の畳み込みカーネルのサイズ以下である、請求項5記載の方法。
【請求項8】
ターゲットを検出する装置であって:
ターゲット物体を含んでいるターゲットイメージを取得するように構成されているターゲットイメージ取得モジュール(601)と;
前記ターゲット物体に対応するセグメンテーションマスクを取得するために、前記ターゲットイメージに対してインスタンスセグメンテーションを実行するよう構成されているセグメンテーションマスク取得モジュール(602)と;
前記セグメンテーションマスクに基づいて、前記ターゲット物体が前記ターゲットイメージ内に位置するターゲット領域内のターゲットピクセル間の位置関係特徴を取得するように構成されている第1の位置関係特徴取得モジュール(603)と;
標準イメージ内のターゲット物体のプリセットされた関心領域内の標準ピクセル間の位置関係特徴を取得するように構成されている第2の位置関係特徴取得モジュール(604)と;
前記ターゲットピクセルと前記標準ピクセルとの間の対応関係を取得するために、前記ターゲットピクセル間の前記位置関係特徴と前記標準ピクセル間の前記位置関係特徴とを一致させ、前記対応関係に基づいて前記ターゲット物体のポーズ情報を取得するように構成されているポーズ情報取得モジュール(605)とを含んでいる、
装置。
【請求項9】
プロセッサ、メモリ、通信インタフェースおよび通信バスを含んでいる電子デバイスであって、
前記プロセッサ、前記メモリおよび前記通信インタフェースは、前記通信バスを使用することによって、相互の通信を完了し、
前記メモリは、少なくとも1つの実行可能な命令を格納するように構成されており、前記実行可能な命令は、請求項1から7までのいずれか1項記載の、ターゲットを検出する方法を前記プロセッサに実施させる、
電子デバイス。
【請求項10】
コンピュータプログラムを格納するコンピュータ記憶媒体であって、
前記コンピュータプログラムは、プロセッサによって実行されると、請求項1から7までのいずれか1項記載の、ターゲットを検出する方法を実装する、
コンピュータ記憶媒体。
【発明の詳細な説明】
【技術分野】
【0001】
本願の実施形態は、イメージ処理技術の分野に関し、特に、ターゲットを検出する方法、ターゲットを検出する装置、電子デバイスならびにコンピュータ記憶媒体に関する。
【0002】
背景
ターゲット検出技術は、この技術の成熟に伴い、様々なシナリオに適用可能である。たとえば、工業生産などの分野では、ターゲット検出技術を介して、インテリジェントロボットを使用することによって、ワークピースを自動的にピッキングし、組み立てることができる。具体的には、まずワークピースを含んでいるイメージが取得されてよく、次に、ターゲットワークピースのポーズ情報(位置情報および姿勢情報)を取得するために、このイメージに対してターゲット検出が実行され、したがって、このポーズ情報にしたがって、インテリジェントロボットがターゲットワークピースを取得し、ターゲットワークピースを組み立てる。
【0003】
既存のターゲットを検出する方法では、使用中の検出効率は比較的低い。したがって、ターゲット検出効率をどのように改善するかは、解決すべき緊急の課題である。
【0004】
概要
これに鑑み、この技術的課題の解決のために、本願の実施形態は、関連技術における比較的低い検出効率の欠陥を解決するために、ターゲットを検出する方法、ターゲットを検出する装置、電子デバイスならびにコンピュータ記憶媒体を提供する。
【0005】
第1の態様によれば、本願の一実施形態によって、ターゲットを検出する方法が提供され、このターゲットを検出する方法は:
ターゲット物体を含んでいるターゲットイメージを取得すること;
ターゲット物体に対応するセグメンテーションマスクを取得するために、ターゲットイメージに対してインスタンスセグメンテーションを実行し;セグメンテーションマスクに基づいて、ターゲット物体がターゲットイメージ内に位置するターゲット領域内のターゲットピクセル間の位置関係特徴を取得すること;
標準イメージ内のターゲット物体のプリセットされた関心領域内の標準ピクセル間の位置関係特徴を取得すること;および
ターゲットピクセルと標準ピクセルとの間の対応関係を取得するために、ターゲットピクセル間の位置関係特徴と標準ピクセル間の位置関係特徴とを一致させ、この対応関係に基づいてターゲット物体のポーズ情報を取得することを含んでいる。
【0006】
任意選択的に、セグメンテーションマスクに基づいて、ターゲット物体がターゲットイメージ内に位置するターゲット領域内のターゲットピクセル間の位置関係特徴を取得することは:
複数のターゲットピクセル対を取得するために、セグメンテーションマスクに基づいて、ターゲット物体がターゲットイメージ内に位置するターゲット領域内のターゲットピクセルを対で組み合わせ、各ターゲットピクセル対に対して、ターゲットピクセル対における2つのターゲットピクセル間の位置関係特徴を取得することを含んでおり;、
標準イメージ内のプリセットされた関心領域内の標準ピクセル間の位置関係特徴を取得することは:
標準イメージと、標準イメージ内のターゲット物体のプリセットされた関心領域とを取得すること;および
複数の標準ピクセル対を取得するために、プリセットされた関心領域内の標準ピクセルを対で組み合わせ、各標準ピクセル対に対して、標準ピクセル対内の2つの標準ピクセル間の位置関係特徴を取得することを含んでいる。
【0007】
任意選択的に、各ターゲットピクセル対に対して、2つのターゲットピクセル間の距離と、2つのターゲットピクセルにそれぞれ対応する法線ベクトル間の角度と、2つのターゲットピクセルに対応する法線ベクトルと2つのターゲットピクセル間の接続線との間の角度とに基づいて、ターゲットピクセル対における2つのターゲットピクセル間の位置関係特徴が取得され;
各標準ピクセル対に対して、2つの標準ピクセル間の距離と、2つの標準ピクセルにそれぞれ対応する法線ベクトル間の角度と、2つの標準ピクセルに対応する法線ベクトルと2つの標準ピクセル間の接続線との間の角度とに基づいて、標準ピクセル対における2つの標準ピクセル間の位置関係特徴が取得される。
【0008】
任意選択的に、ターゲット物体に対応するセグメンテーションマスクを取得するために、ターゲットイメージに対してインスタンスセグメンテーションを実行することは:
ターゲットイメージを事前トレーニングされたインスタンスセグメンテーションモデルに入力し、ターゲット物体に対応するセグメンテーションマスクを取得するために、インスタンスセグメンテーションモデルを使用することによって、ターゲットイメージに対してインスタンスセグメンテーションを実行することを含んでいる。
【0009】
任意選択的に、インスタンスセグメンテーションモデルは:特徴抽出ネットワーク、特徴融合ネットワーク、領域生成ネットワーク、特徴アライメント層、分類および回帰ネットワークならびにセグメンテーションマスクネットワークを含んでおり;
ターゲットイメージを事前トレーニングされたインスタンスセグメンテーションモデルに入力し、ターゲット物体に対応するセグメンテーションマスクを取得するために、インスタンスセグメンテーションモデルを使用することによって、ターゲットイメージに対してインスタンスセグメンテーションを実行することは:
ターゲットイメージを事前トレーニングされたインスタンスセグメンテーションモデルにおいて特徴抽出ネットワークに入力し、ターゲットイメージに対応する複数のレベルの初期の特徴マップを取得するために、特徴抽出ネットワークを使用することによって、ターゲットイメージに対してマルチスケール特徴抽出を実行すること;
融合された特徴マップを取得するために、特徴融合ネットワークを使用することによって、複数のレベルの初期の特徴マップに対して特徴融合を実行すること;
融合された特徴マップに基づいて、領域生成ネットワークを使用することによって、ターゲット物体の初期の領域に関する情報を取得すること;
初期の領域に対応し、初期の特徴マップにおける領域特徴マップを取得するために、初期の領域に関する情報に基づいて、特徴アライメント層を使用することによって、初期の特徴マップに対して特徴抽出を実行すること;
領域特徴マップに基づいて、分類および回帰ネットワークを使用することによって、ターゲット物体のカテゴリ情報および位置情報を取得し;領域特徴マップに基づいて、セグメンテーションマスクネットワークを使用することによって、ターゲット物体に対応するセグメンテーションマスクを取得することを含んでいる。
【0010】
任意選択的に、融合された特徴マップを取得するために、特徴融合ネットワークを使用することによって、複数のレベルの初期の特徴マップに対して特徴融合を実行することは:
複数のレベルの初期の次元削減特徴マップを取得するために、特徴融合ネットワークを使用することによって、各初期の特徴マップに対して畳み込み演算を実行すること;
初期の融合された特徴マップを取得するために、レベルの降順にしたがって、初期の次元削減特徴マップの2つの隣接するレベルごとに、融合処理を順次実行し、初期の融合された特徴マップを使用することによって、上位レベルの初期の次元削減特徴マップのサイズが下位レベルの初期の次元削減特徴マップのサイズよりも小さい、隣接するレベルの下位レベルの初期の次元削減特徴マップを更新すること;
複数のレベルの次元削減特徴マップを取得するために、各初期の融合された特徴マップに対して畳み込み演算を実行すること;および
遷移特徴マップを取得するために、レベルの昇順にしたがって、次元削減特徴マップの2つの隣接するレベルごとに、融合処理を順次実行し、融合された特徴マップを取得するために、遷移特徴マップおよび初期の特徴マップに対して融合処理を実行し、融合された特徴マップを使用することによって、上位レベルの次元削減特徴マップのサイズが下位レベルの次元削減特徴マップのサイズよりも小さい、隣接するレベルの上位レベルの次元削減特徴マップを更新することを含んでいる。
【0011】
任意選択的に、特徴抽出ネットワークは、2つの連結された畳み込み層を含み、前の畳み込み層の畳み込みカーネルのサイズは1*1であり、前の畳み込み層の畳み込みストライドは1であり、後の畳み込み層の畳み込みストライドは、後の畳み込み層の畳み込みカーネルのサイズ以下である。
【0012】
第2の態様によれば、本願の一実施形態によって、ターゲットを検出する装置が提供される。このターゲットを検出する装置は:
ターゲット物体を含んでいるターゲットイメージを取得するように構成されているターゲットイメージ取得モジュールと;
ターゲット物体に対応するセグメンテーションマスクを取得するために、ターゲットイメージに対してインスタンスセグメンテーションを実行するよう構成されているセグメンテーションマスク取得モジュールと;
セグメンテーションマスクに基づいて、ターゲット物体がターゲットイメージ内に位置するターゲット領域内のターゲットピクセル間の位置関係特徴を取得するように構成されている第1の位置関係特徴取得モジュールと;
ターゲット物体に対応する標準物体を含んでいる標準イメージ内のプリセットされた関心領域内の標準ピクセル間の位置関係特徴を取得するように構成されている第2の位置関係特徴取得モジュールと;
ターゲットピクセルと標準ピクセルとの間の対応関係を取得するために、ターゲットピクセル間の位置関係特徴と標準ピクセル間の位置関係特徴とを一致させ、この対応関係に基づいてターゲット物体のポーズ情報を取得するように構成されているポーズ情報取得モジュールとを含んでいる。
【0013】
第3の態様によれば、本願の一実施形態によって、プロセッサ、メモリ、通信インタフェースおよび通信バスを含んでいる電子デバイスが提供され、プロセッサ、メモリおよび通信インタフェースは、通信バスを使用することによって、相互の通信を完了し、メモリは、少なくとも1つの実行可能な命令を格納するように構成されており、実行可能な命令は、第1の態様による、ターゲットを検出する方法をプロセッサに実施させる。
【0014】
第4の態様によれば、本願の一実施形態によって、コンピュータプログラムを格納するコンピュータ記憶媒体が提供され、コンピュータプログラムは、プロセッサによって実行されると、第1の態様もしくは第1の態様における任意の実施形態による、ターゲットを検出する方法を実装する。
【0015】
本願の実施形態は、ターゲットを検出する方法、ターゲットを検出する装置、電子デバイスならびにコンピュータ記憶媒体を提供する。本願の実施形態では、ターゲットイメージ内のターゲット領域内のターゲットピクセル間の位置関係特徴を取得した後、この位置関係特徴は、標準イメージ内のターゲット物体のプリセットされた関心領域内の標準ピクセル間の位置関係特徴と一致し、一致を通じて取得されたターゲットピクセルと標準ピクセルとの間の対応関係に基づいて、ターゲット物体のポーズ情報を取得することができる。プリセットされた関心領域はターゲット物体全体の一部の領域に過ぎないため、プリセットされた関心領域内の標準ピクセル間の位置関係特徴のデータ量は、標準イメージ全体におけるターゲット物体の全てのピクセル間の位置関係特徴に比べて相対的に少ないため、ターゲットピクセル間の位置関係特徴が標準ピクセル間の位置関係特徴と一致する場合には、一致すべき特徴のデータ量も相対的に少なくなる。したがって、一致速度が速くなり、これによってターゲット検出全体の効率が改善される。
【0016】
以降において、本願の実施形態のうちの幾つかの特定の実施形態を、添付の図面を参照して、限定ではなく例示的に説明する。図面における同じ参照番号は、同じもしくは類似の構成要素または部品を示している。当業者は、添付の図面が必ずしも縮尺通りに描かれていないことを理解するはずである。
【図面の簡単な説明】
【0017】
【
図1】本願の一実施形態による、ターゲットを検出する方法の概略的なフローチャートである。
【
図2】本願の一実施形態による位置関係特徴の概略図である。
【
図3】本願の一実施形態による融合された特徴マップの取得の概略的なフローチャートである。
【
図4】既存の特徴抽出ネットワークの畳み込み処理プロセスの概略図である。
【
図5】本願の一実施形態による特徴抽出ネットワークの畳み込み処理プロセスの概略図である。
【
図6】本願の一実施形態による、ターゲットを検出する装置の概略図である。
【0018】
詳細な説明
当業者が本願の技術的解決策をより良く理解できるようにするために、以降では、本願の実施形態における添付の図面を参照して、本願の実施形態の技術的解決策を明確かつ完全に説明する。記載された実施形態は、明らかに、本願の全ての実施形態ではなく、単に幾つかの実施形態に過ぎない。本願の実施形態に基づいて当業者によって取得されるその他全ての実施形態は、本願の実施形態の保護範囲内に含まれるものとする。
【0019】
本願における「第1の」および「第2の」という用語は、名前を区別するためだけのものであり、順序関係を表すものではなく、相対的な重要性を示したり暗示したり、あるいは示された技術的特徴の数を暗黙的に特定したりするものとして理解することはできないことに留意されたい。たとえば、第1のユーザ、第2のユーザおよび第3のユーザは、異なるユーザを区別するためだけのものである。
【0020】
以降において、本願の実施形態の添付の図面を参照して、本願の実施形態の特定の実装をさらに説明する。
【0021】
本願の一実施形態は、ターゲットを検出する方法を提供する。
図1は、本願の一実施形態による、ターゲットを検出する方法の概略的なフローチャートである。
図1に示されているように、この方法は以降のステップを含む。
【0022】
ステップ101.ターゲット物体を含んでいるターゲットイメージを取得する。
【0023】
たとえば、インテリジェントロボットがタスクをピッキングするシナリオでは、ターゲットワークピースを含んでいるイメージがターゲットイメージとして取得されてよい。本願のこの実施形態では、ターゲットイメージを取得する特定の手法は限定されない。
【0024】
ステップ102.ターゲット物体に対応するセグメンテーションマスクを取得するために、ターゲットイメージに対してインスタンスセグメンテーションを実行する。
【0025】
ステップ103.セグメンテーションマスクに基づいて、ターゲット物体がターゲットイメージ内に位置するターゲット領域内のターゲットピクセル間の位置関係特徴を取得する。
【0026】
このステップにおいて、ターゲット領域内のターゲットピクセル間の位置関係特徴は、ターゲット領域内のピクセル間の相対的な位置関係を表す特徴であってよい。位置関係特徴は、ターゲット領域内のピクセルの座標に基づいて取得されてよい。
【0027】
ステップ104.標準イメージ内のターゲット物体のプリセットされた関心領域内の標準ピクセル間の位置関係特徴を取得する。
【0028】
標準イメージは、標準位置における、標準姿勢を有しているターゲット物体に対して取得されるイメージである。標準位置と標準姿勢との両方は、実際の要求に応じてプリセットされてよい。インテリジェントロボットがタスクをピッキングするシナリオが依然として例として使用されている。ターゲット物体が、組み立てられるべき矩形のワークピースであることが仮定され、標準位置は、ロボットがワークピースを組み立てるのに便利なプリセットされた位置、たとえば、組立台上のプリセットされた位置であってよく、標準姿勢は、ロボットがワークピースを組み立てるのに便利なプリセットされた姿勢であってよく、たとえば、ワークピースの長辺が組立台の縁部に対して平行である。相応に、長辺が組立台の縁部に対して平行であり、組立台のプリセットされた位置にあるターゲット物体に対して取得されたイメージが標準イメージであってよい。
【0029】
このステップにおいて、プリセットされた関心領域は、ターゲット物体の特定の属性を表すことができる領域であってよい、またはプリセットされた関心領域は、ターゲット物体を別の非ターゲット物体から区別する特定の領域であってよい。たとえば、ターゲット物体がワークピースである場合、プリセットされた関心領域は、ワークピースを別のワークピースから区別する特定のテクスチャ領域、特定の構造領域、特定のテキスト領域などであってよい。
【0030】
実際の適用において、プリセットされた関心領域は、種々の実際のシナリオにしたがって動的に設定および調整されてよい。本願のこの実施形態では、プリセットされた関心領域の設定様式は限定されない。
【0031】
ターゲット領域内のターゲットピクセル間の位置関係特徴に対応して、標準ピクセル間の位置関係特徴は、プリセットされた関心領域内のピクセル間の相対的な位置関係を表す特徴であってよい。位置関係特徴は、プリセットされた関心領域内のピクセルの座標に基づいて取得されてもよい。
【0032】
ステップ105.ターゲットピクセルと標準ピクセルとの間の対応関係を取得するために、ターゲットピクセル間の位置関係特徴と標準ピクセル間の位置関係特徴とを一致させ、この対応関係に基づいてターゲット物体のポーズ情報を取得する。
【0033】
ターゲット物体のポーズ情報は、ターゲット物体の位置情報および姿勢情報を含む。
【0034】
具体的には、ターゲットピクセルと標準ピクセルとの間の対応関係が取得された後、まず、この対応関係に基づいて、ターゲットイメージ内のターゲット物体の初期のポーズ情報が取得されてよい。具体的には、初期のポーズ情報は、ターゲットイメージ内のターゲット物体の初期の位置情報(初期のターゲット領域)と、標準イメージ内のターゲット物体に対して相対的なターゲットイメージ内のターゲット物体の初期の姿勢情報(初期の角度情報)とを含んでいてよい。次いで、回転させられた初期のターゲット領域を取得するために、初期のターゲット領域を初期の姿勢角度だけ回転させられ;ターゲットイメージにおけるターゲット物体のポーズ情報として、ターゲット物体のより正確な位置情報および姿勢情報を取得するために、ターゲットピクセルと標準ピクセルとの間の対応関係に基づいて初期のターゲット領域と初期の回転角度とが繰り返し調整される。
【0035】
本願の実施形態では、ターゲットイメージ内のターゲット領域内のターゲットピクセル間の位置関係特徴を取得した後、この位置関係特徴は、標準イメージ内のターゲット物体のプリセットされた関心領域内の標準ピクセル間の位置関係特徴と一致し、一致を通じて取得されたターゲットピクセルと標準ピクセルとの間の対応関係に基づいて、ターゲット物体のポーズ情報を取得することができる。プリセットされた関心領域はターゲット物体全体の一部の領域に過ぎないため、プリセットされた関心領域内の標準ピクセル間の位置関係特徴のデータ量は、標準イメージ全体におけるターゲット物体の全てのピクセル間の位置関係特徴に比べて相対的に少ないため、ターゲットピクセル間の位置関係特徴が標準ピクセル間の位置関係特徴と一致する場合には、一致すべき特徴のデータ量も相対的に少なくなる。したがって、一致速度が速くなり、これによってターゲット検出全体の効率が改善される。
【0036】
任意選択的に、本願の一実施形態では、ステップ103が、以降のステップとして、すなわち:
複数のターゲットピクセル対を取得するために、セグメンテーションマスクに基づいて、ターゲット物体がターゲットイメージ内に位置するターゲット領域内のターゲットピクセルを対で組み合わせ、各ターゲットピクセル対に対して、ターゲットピクセル対における2つのターゲットピクセル間の位置関係特徴を取得するステップとして実装されてよい。
【0037】
相応に、ステップ104が、以降のステップとして、すなわち:
標準イメージと、標準イメージ内のターゲット物体のプリセットされた関心領域とを取得し;複数の標準ピクセル対を取得するために、標準イメージ内のプリセットされた関心領域の標準ピクセルを対で組み合わせ、各標準ピクセル対に対して、標準ピクセル対内の2つの標準ピクセル間の位置関係特徴を取得するステップとして実装されてよい。
【0038】
具体的には、2つのターゲットピクセル間の位置関係特徴は、2つのターゲットピクセル間の相対的な位置関係を表す特徴であってよく;相応に、2つの標準ピクセル間の位置関係特徴は、2つの標準ピクセル間の相対的な位置関係を表す特徴であってもよい。
【0039】
任意選択的に、本願の一実施形態では、各ターゲットピクセル対に対して、ターゲットピクセル対における2つのターゲットピクセル間の位置関係特徴は、2つのターゲットピクセル間の距離と、2つのターゲットピクセルにそれぞれ対応する法線ベクトル間の角度と、2つのターゲットピクセルに対応する法線ベクトルと2つのターゲットピクセル間の接続線との間の角度とに基づいて取得され、
各標準ピクセル対に対して、標準ピクセル対における2つの標準ピクセル間の位置関係特徴は、2つの標準ピクセル間の距離と、2つの標準ピクセルにそれぞれ対応する法線ベクトル間の角度と、2つの標準ピクセルに対応する法線ベクトルと2つの標準ピクセル間の接続線との間の角度とに基づいて取得される。
【0040】
具体的には、各ターゲットピクセル対に対して、2つのターゲットピクセル間の距離F1と、2つのターゲットピクセルにそれぞれ対応する法線ベクトル間の角度F2と、2つのターゲットピクセルに対応する法線ベクトルと2つのターゲットピクセル間の接続線との間の角度(F3およびF4)とを使用することによって、4次元ベクトル(F1、F2、F3およびF4)が構築され、ターゲットピクセル対における2つのターゲットピクセル間の位置関係特徴として使用されてよい。
図2は、本願の一実施形態による位置関係特徴の概略図である。
図2において、ターゲットピクセルはそれぞれm1およびm2であり、F1はm1とm2との間の距離である。N1は、m1に対応する法線ベクトルであり、N2は、m2に対応する法線ベクトルであり、F2は、N1とN2との間の角度(ラジアンで表されてよい)である。F3は、N1とF1との間の角度(ラジアンによって表されてよい)である。F4は、N2とF1との間の角度(ラジアンによって表されてよい)である。相応に、ターゲットピクセルm1とターゲットピクセルm2との間の位置関係特徴Fは、(F1、F2、F3およびF4)である。
【0041】
相応に、各標準ピクセル対における2つの標準ピクセル間の位置関係特徴が、この様式で構築されてもよい。詳細はここで再度説明されない。
【0042】
本願のこの実施形態では、ピクセル対における2つのピクセル間の位置関係特徴が、2つのピクセル間の距離と、2つのピクセルにそれぞれ対応する法線ベクトル間の角度と、2つのピクセルに対応する法線ベクトルと2つのピクセル間の接続線との間の角度とに基づいて取得される。すなわち、本願のこの実施形態では、2つのピクセル間の位置関係特徴は、4つの異なる次元共同で表される。したがって、取得された位置関係特徴は、2つのピクセル間の相対的な位置関係をより正確に表すことができ、ターゲットピクセルと標準ピクセルとの間のより正確な対応関係を取得するために、位置関係特徴に基づいて、ターゲットピクセルが標準ピクセルに一致し、これによって、ターゲット検出の精度を改善させることができる。
【0043】
任意選択的に、本願の一実施形態では、ステップ102が、以降のステップとして、すなわち:
ターゲットイメージを事前トレーニングされたインスタンスセグメンテーションモデルに入力し、ターゲット物体に対応するセグメンテーションマスクを取得するために、インスタンスセグメンテーションモデルを使用することによって、ターゲットイメージに対してインスタンスセグメンテーションを実行するステップとして実装されてよい。
【0044】
さらに、本願の一実施形態では、インスタンスセグメンテーションモデルが、特徴抽出ネットワーク、特徴融合ネットワーク、領域生成ネットワーク、特徴アライメント層、分類および回帰ネットワークならびにセグメンテーションマスクネットワークを含んでいてよく、ターゲットイメージを事前トレーニングされたインスタンスセグメンテーションモデルに入力し、ターゲット物体に対応するセグメンテーションマスクを取得するために、インスタンスセグメンテーションモデルを使用することによって、ターゲットイメージに対してインスタンスセグメンテーションを実行することは:
ターゲットイメージを事前トレーニングされたインスタンスセグメンテーションモデルにおいて特徴抽出ネットワークに入力し、ターゲットイメージに対応する複数のレベルの初期の特徴マップを取得するために、特徴抽出ネットワークを使用することによって、ターゲットイメージに対してマルチスケール特徴抽出を実行すること;
融合された特徴マップを取得するために、特徴融合ネットワークを使用することによって、複数のレベルの初期の特徴マップに対して特徴融合を実行すること;
融合された特徴マップに基づいて、領域生成ネットワークを使用することによって、ターゲット物体の初期の領域に関する情報を取得すること;
初期の領域に対応し、初期の特徴マップにおける領域特徴マップを取得するために、初期の領域に関する情報に基づいて、特徴アライメント層を使用することによって、初期の特徴マップに対して特徴抽出を実行すること;
領域特徴マップに基づいて、分類および回帰ネットワークを使用することによって、ターゲット物体のカテゴリ情報および位置情報を取得し、領域特徴マップに基づいて、セグメンテーションマスクネットワークを使用することによって、ターゲット物体に対応するセグメンテーションマスクを取得することを含んでいてよい。
【0045】
任意選択的に、本願の一実施形態では、融合された特徴マップを取得するために、特徴融合ネットワークを使用することによって、複数のレベルの初期の特徴マップに対して特徴融合を実行することが、以降のステップとして、すなわち:
複数のレベルの初期の次元削減特徴マップを取得するために、特徴融合ネットワークを使用することによって、各初期の特徴マップに対して畳み込み演算を実行するステップ;
初期の融合された特徴マップを取得するために、レベルの降順にしたがって、初期の次元削減特徴マップの2つの隣接するレベルごとに、融合処理を順次実行し、初期の融合された特徴マップを使用することによって、上位レベルの初期の次元削減特徴マップのサイズが下位レベルの初期の次元削減特徴マップのサイズよりも小さい、隣接するレベルの下位レベルの初期の次元削減特徴マップを更新するステップ;
複数のレベルの次元削減特徴マップを取得するために、各初期の融合された特徴マップに対して畳み込み演算を実行するステップ;
遷移特徴マップを取得するために、レベルの昇順にしたがって、次元削減特徴マップの2つの隣接するレベルごとに、融合処理を順次実行し、融合された特徴マップを取得するために、遷移特徴マップおよび初期の特徴マップに対して融合処理を実行し、融合された特徴マップを使用することによって、上位レベルの次元削減特徴マップのサイズが下位レベルの次元削減特徴マップのサイズよりも小さい、隣接するレベルの上位レベルの次元削減特徴マップを更新するステップとして実装されてよい。
【0046】
具体的には、
図3は、本願の一実施形態による、融合された特徴マップの取得の概略的なフローチャートである。C1、C2、C3、C4およびC5はそれぞれ、インスタンスセグメンテーションモデル内の特徴抽出ネットワークを使用することによって取得されたターゲットイメージに対応する初期の特徴マップの5つのレベルである。融合された特徴マップを取得するために、特徴融合ネットワークを使用することによって、5つの初期の特徴マップに対して融合処理を実行するプロセスは、以降の通りである。
【0047】
初期の特徴マップのC1レベルは比較的小さな意味情報を含むので、特徴融合は、C2、C3、C4およびC5に基づいて実行されてよい。具体的には、複数のレベルの初期の次元削減特徴マップを取得するために、C2、C3、C4およびC5に対してそれぞれ畳み込み演算(畳み込みカーネルのサイズは1*1であってよい)が実行され、ここで初期の次元削減特徴マップP5を取得するために、C5に対して畳み込み演算が実行される。次いで、初期の融合された特徴マップP4を取得するために、P5と、C4に対応する初期の次元削減特徴マップ(C4に対して畳み込み演算が実行された後に取得された特徴マップ)とがレベルの降順にしたがってまず融合される(初期の次元削減特徴マップと同じサイズの特徴マップを取得するために、融合が実行される前に、P5に対してアップサンプリングが実行される必要があり、次いで、初期の融合された特徴マップP4を取得するために、アップサンプリング後に取得されたP5に対応する要素と、C4に対応する初期の次元削減特徴マップに対応する要素とが加えられてよい)。さらに、C4に対応する初期の次元削減特徴マップが、P4を使用することによって更新される。次いで、初期の融合された特徴マップP3を取得するために、P4と、C3に対応する初期の次元削減特徴マップ(C3に対して畳み込み演算が実行された後に取得された特徴マップ)とが融合される(初期の次元削減特徴マップと同じサイズの特徴マップを取得するために、融合が実行される前に、P4に対してアップサンプリングが実行される必要があり、次いで、初期の融合された特徴マップP3を取得するために、アップサンプリング後に取得されたP4に対応する要素と、C3に対応する初期の次元削減特徴マップに対応する要素とが加えられてよい)。さらに、P6を取得するために、P5に対してダウンサンプリングがさらに実行されてよい。これまでのところ、初期の融合された特徴マップP6、P5、P4およびP3が取得されている。複数のレベルの次元削減特徴マップを取得するために、P6、P5、P4およびP3に対してそれぞれ畳み込み演算が実行され、ここで次元削減特徴マップN2を取得するために、P3に対して畳み込み演算が実行される。次いで、遷移特徴マップを取得するために、N2と、P4に対応する次元削減特徴マップとがレベルの昇順にしたがってまず融合されて、融合された特徴マップN3を取得するために、遷移特徴マップとC3とが融合される。さらに、P4に対応する次元削減特徴マップがN3を使用することによって更新される。遷移特徴マップを取得するために、N3と、P5に対応する次元削減特徴マップとが融合されて、融合された特徴マップN4を取得するために、遷移特徴マップとC4とが融合される。さらに、P5に対応する次元削減特徴マップが、N4を使用することによって更新される。遷移特徴マップを取得するために、N4と、P6に対応する次元削減特徴マップとが融合され、融合された特徴マップN5を取得するために、遷移特徴マップとC5とが融合される。これまでのところ、最終的に融合された特徴マップN2、N3、N4およびN5が取得されている。
【0048】
このプロセスにおいて、2つの異なる特徴マップが融合される場合、まず、アップサンプリングおよび拡大処理が、比較的小さいサイズの特徴マップに対して実行されてよく、したがって、融合されるべき2つの特徴マップが同じサイズを有し、次いで、融合された特徴マップを取得するために、要素が同じサイズの特徴マップ内の対応する位置において加えられてよい。
【0049】
本願の実施形態において提供される特徴融合様式では、取得された融合された特徴マップが、初期の特徴マップに対して複数のレベルの融合処理が実行された後に取得される。たとえば、融合された特徴マップN3は、P3、P4およびC3における特徴を同時に統合し、融合された特徴マップN4は、P4、P5およびC4における特徴を同時に統合し、融合された特徴マップN5は、P5、P6およびC5の特徴を同時に統合する。したがって本願のこの実施形態では、取得された融合された特徴マップは、より多くの特徴、特により小さい特徴を含むことができるため、本願のこの実施形態において提供される、ターゲットを検出する方法は、より高い検出精度を有する。さらに、本願のこの実施形態において提供される、ターゲットを検出する方法は、ノイズ、クラッタおよび部分遮蔽のケースにおいて、より良好なロバスト性も有している。
【0050】
任意選択的に、本願の一実施形態では、特徴抽出ネットワークは、2つの連結された畳み込み層を含み、前の畳み込み層の畳み込みカーネルのサイズは1*1であり、前の畳み込み層の畳み込みストライドは1であり、後の畳み込み層の畳み込みストライドは、後の畳み層の畳み込みカーネルのサイズ以下である。
【0051】
本願の実施形態において提供される特徴抽出ネットワークを使用することによって、より多くの、またより少ない特徴が抽出されてよく、ターゲット検出の精度を改善することができる。
【0052】
以降において、特定の例を使用することによって、本願の実施形態の有利な効果を詳細に説明する。
【0053】
図4は、既存の特徴抽出ネットワークの畳み込み処理プロセスの概略図であり、
図5は、本願の一実施形態による特徴抽出ネットワークの畳み込み処理プロセスの概略図である。具体的には、
【0054】
図4を参照すると、既存の特徴抽出ネットワークは、2つの連結された畳み込み層を含み、前の畳み込み層の畳み込みカーネルH1のサイズは1*1であり、前の畳み込み層の畳み込みストライドは2であり、後の畳み込み層の畳み込みカーネルH2のサイズは3*3であり、後の畳み込みの畳み込みストライドは1である。特徴抽出ネットワークを使用することによって、イメージに対して特徴抽出が実行される。
【0055】
図5を参照すると、本願のこの実施形態における特徴抽出ネットワークは、直列に連結された2つの畳み込み層を含み、前の畳み込み層の畳み込みカーネルは同様にH1であるが、前の畳み込み層の畳み込みストライドは1であり、後の畳み込み層の畳み込みカーネルは同様にH2であるが、後の畳み込み層の畳み込みストライドは2である。特徴抽出ネットワークを使用することによって、イメージに対して特徴抽出が実行される。
【0056】
図4と
図5とを比較することによって、
図4では、先行する畳み込み層を通過する際に、イメージ内の第2列、第4列、第2行および第4行の全てのピクセルが畳み込み中にスキップされる、すなわち、これらのピクセルが畳み込み演算に関与しない、ということが理解できる。しかし、
図5では、先行する畳み込み層を通過する際に、イメージ内の全てのピクセルが畳み込み演算に関与する。したがって、本願のこの実施形態において提供される特徴抽出ネットワークは、既存の特徴抽出ネットワークより多くの、また少ない特徴を提供してよい。したがって、ターゲット検出の精度を改善することができる。
【0057】
複数の実施形態のうちのいずれか1つにおいて提供される、ターゲットを検出する方法に基づいて、本願の一実施形態は、ターゲットを検出する装置を提供する。
図6に示されているように、
図6は、本願の一実施形態による、ターゲットを検出する装置の概略図である。ターゲットを検出する装置60は、ターゲットイメージ取得モジュール601と、セグメンテーションマスク取得モジュール602と、第1の位置関係特徴取得モジュール603と、第2の位置関係特徴取得モジュール604と、ポーズ情報取得モジュール605とを含んでいる。
【0058】
第1のターゲットイメージ取得モジュール601は、ターゲット物体を含んでいるターゲットイメージを取得するように構成されている。
【0059】
セグメンテーションマスク取得モジュール602は、ターゲット物体に対応するセグメンテーションマスクを取得するために、ターゲットイメージに対してインスタンスセグメンテーションを実行するように構成されている。
【0060】
第1の位置関係特徴取得モジュール603は、セグメンテーションマスクに基づいて、ターゲットイメージ内でターゲット物体が位置するターゲット領域内のターゲットピクセル間の位置関係特徴を取得するように構成されている。
【0061】
第2の位置関係特徴取得モジュール604は、ターゲット物体に対応する標準物体を含んでいる標準イメージ内のプリセットされた関心領域内の標準ピクセル間の位置関係特徴を取得するように構成されている。
【0062】
ポーズ情報取得モジュール605は、ターゲットピクセルと標準ピクセルとの間の対応関係を取得し、この対応関係に基づいてターゲット物体のポーズ情報を取得するために、ターゲットピクセル間の位置関係特徴と、標準ピクセル間の位置関係特徴とを一致させるように構成されている。
【0063】
任意選択的に、一実施形態では、第1の位置関係特徴取得モジュール602は、さらに:
複数のターゲットピクセル対を取得するために、セグメンテーションマスクに基づいて、ターゲット物体がターゲットイメージ内に位置するターゲット領域内のターゲットピクセルを対で組み合わせ、各ターゲットピクセル対に対して、ターゲットピクセル対における2つのターゲットピクセル間の位置関係特徴を取得するように構成されている。
【0064】
第2の位置関係特徴取得モジュール603は、さらに、標準イメージと、標準イメージ内のプリセットされた関心領域とを取得し、複数の標準ピクセル対を取得するために、標準イメージ内のプリセットされた関心領域内の標準ピクセルを対にして組み合わせ、各標準ピクセル対に対して、標準ピクセル対内の2つの標準ピクセル間の位置関係特徴を取得するように構成されている。
【0065】
任意選択的に、本願の一実施形態では、各ターゲットピクセル対に対して、ターゲットピクセル対における2つのターゲットピクセル間の位置関係特徴は、2つのターゲットピクセル間の距離と、2つのターゲットピクセルにそれぞれ対応する法線ベクトル間の角度と、2つのターゲットピクセルに対応する法線ベクトルと2つのターゲットピクセル間の接続線との間の角度とに基づいて取得され;
各標準ピクセル対に対して、2つの標準ピクセル間の距離と、2つの標準ピクセルにそれぞれ対応する法線ベクトル間の角度と、2つの標準ピクセルに対応する法線ベクトルと2つの標準ピクセル間の接続線との間の角度とに基づいて、標準ピクセル対における2つの標準ピクセル間の位置関係特徴が取得される。
【0066】
任意選択的に、本願の一実施形態では、セグメンテーションマスク取得モジュール602は、さらに:
ターゲットイメージを事前トレーニングされたインスタンスセグメンテーションモデルに入力し、ターゲット物体に対応するセグメンテーションマスクを取得するために、インスタンスセグメンテーションモデルを使用することによって、ターゲットイメージに対してインスタンスセグメンテーションを実行するように構成されている。
【0067】
任意選択的に、本願の一実施形態では、インスタンスセグメンテーションモデルは、特徴抽出ネットワーク、特徴融合ネットワーク、特徴アライメント層、分類および回帰ネットワーク、ならびにセグメンテーションマスクネットワークを含み、セグメンテーションマスク取得モジュール602は、さらに:
ターゲットイメージを事前トレーニングされたインスタンスセグメンテーションモデルにおいて特徴抽出ネットワークに入力し、ターゲットイメージに対応する複数のレベルの初期の特徴マップを取得するために、特徴抽出ネットワークを使用することによって、ターゲットイメージに対してマルチスケール特徴抽出を実行し;
融合された特徴マップを取得するために、特徴融合ネットワークを使用することによって、複数のレベルの初期の特徴マップに対して特徴融合を実行し;
領域生成ネットワークを使用することによって、融合された特徴マップに基づいて、ターゲット物体の初期の領域に関する情報を取得し;
初期の領域に対応し、初期の特徴マップにおける領域特徴マップを取得するために、初期の領域に関する情報に基づいて、特徴アライメント層を使用することによって、初期の特徴マップに対して特徴抽出を実行し;
分類および回帰ネットワークを使用することによって、領域特徴マップに基づいてターゲット物体のカテゴリ情報および位置情報を取得し、領域特徴マップに基づいて、セグメンテーションマスクネットワークを使用することによって、ターゲット物体に対応するセグメンテーションマスクを取得するように構成されている。
【0068】
任意選択的に、本願の一実施形態では、融合された特徴マップを取得するために、特徴融合ネットワークを使用することによって、複数のレベルの初期の特徴マップに対して特徴融合を実行する場合に、セグメンテーションマスク取得モジュール602は、さらに:
複数のレベルの初期の次元削減特徴マップを取得するために、特徴融合ネットワークを使用することによって、各初期の特徴マップに対して畳み込み演算を実行し;
初期の融合された特徴マップを取得するために、レベルの降順にしたがって、初期の次元削減特徴マップの2つの隣接するレベルごとに融合処理を順次実行し、初期の融合された特徴マップを使用することによって、上位レベルの初期の次元削減特徴マップのサイズが下位レベルの初期の次元削減特徴マップのサイズより小さい、隣接するレベルの下位レベルの初期の次元削減特徴マップを更新し;
複数のレベルの次元削減特徴マップを取得するために、各初期の融合された特徴マップに対して畳み込み演算を実行し;
遷移特徴マップを取得するために、レベルの昇順にしたがって、次元削減特徴マップの2つの隣接するレベルごとに、融合処理を順次実行し、融合された特徴マップを取得するために、遷移特徴マップおよび初期の特徴マップに対して融合処理を実行し、融合された特徴マップを使用することによって、上位レベルの次元削減特徴マップのサイズが下位レベルの次元削減特徴マップのサイズよりも小さい、隣接するレベルの上位レベルの次元削減特徴マップを更新するように構成されている。
【0069】
任意選択的に、本願の一実施形態では、特徴抽出ネットワークは、2つの連結された畳み込み層を含み、前の畳み込み層の畳み込みカーネルのサイズは1*1であり、前の畳み込み層の畳み込みストライドは1であり、後の畳み込み層の畳み込みストライドは、後の畳み層の畳み込みカーネルのサイズ以下である。
【0070】
本願のこの実施形態における、ターゲットを検出する装置は、上述の方法の実施形態による、ターゲットを検出する方法を実装するように構成されており、対応する方法の実施形態の有利な効果を有している。詳細はここで再度、説明されない。さらに、本願のこの実施形態における、ターゲットを検出する装置における各モジュールの機能実装に関して、方法の実施形態における対応する部分の説明を参照することができる。詳細はここで再度、説明されない。
【0071】
複数の実施形態のうちのいずれか1つによる、ターゲットを検出する方法に基づいて、本願の一実施形態は、プロセッサ、メモリ、通信インタフェースおよび通信バスを含んでいる電子デバイスを提供し、プロセッサ、メモリおよび通信インタフェースは、通信バスを使用することによって相互に通信を完了し、メモリは、少なくとも1つの実行可能な命令を格納するように構成されており、実行可能な命令は、プロセッサに、複数の実施形態のうちのいずれか1つによる、ターゲットを検出する方法を実施させる。
【0072】
複数の実施形態のうちのいずれか1つによる、ターゲットを検出する方法に基づいて、本願の一実施形態は、コンピュータ記憶媒体を提供し、このコンピュータ記憶媒体は、コンピュータプログラムを格納しており、コンピュータプログラムは、プロセッサによって実行されるときに、複数の実施形態のうちのいずれか1つによる方法を実装する。
【0073】
実装のニーズに応じて、本願の実施形態の目的を達成するために、本願の実施形態に記載されている各構成要素/ステップを、より多くの構成要素/ステップに分割することができる、または2つ以上の構成要素/ステップもしくは構成要素/ステップの一部の動作を新たな構成要素/ステップに組み合わせることができることに留意されたい。
【0074】
本願の実施形態による方法は、ハードウェアおよびファームウェアで実装可能である、または記録媒体(たとえば、CD ROM、RAM、フロッピーディスク、ハードディスクまたは光磁気ディスク)に格納可能なソフトウェアもしくはコンピュータコードとして実装可能である、またはネットワークからダウンロードされて、リモート記録媒体もしくは非一時的機械可読媒体に格納されたコンピュータコード、およびローカル記録媒体に格納されたコンピュータコードによって実装可能である。したがって、本明細書に記載された方法は、汎用コンピュータ、専用プロセッサ、またはプログラミング可能なハードウェアもしくは専用のハードウェア(たとえば、ASICまたはFPGA)を使用することによって、記録媒体に格納された、そのようなソフトウェアによって処理可能である。コンピュータ、プロセッサ、マイクロプロセッサコントローラまたはプログラマブルハードウェアは、ソフトウェアまたはコンピュータコードを格納することができる、もしくは受け取ることができるストレージコンポーネント(たとえばRAM、ROMまたはフラッシュメモリ)を含んでいると理解されたい。ソフトウェアまたはコンピュータコードが、コンピュータ、プロセッサまたはハードウェアによってアクセスおよび実行されると、本明細書に記載された、ターゲットを検出する方法が実装される。さらに、汎用コンピュータが、本明細書に示された、ターゲットを検出する方法を実装するためのコードにアクセスすると、このコードの実行によって、汎用コンピュータは、本明細書に示された、ターゲットを検出する方法を実施するための専用コンピュータに変わる。
【0075】
さらに、「含む(include)」、「備える(comprise)」という用語、またはこれらの用語の任意の変形が、非排他的な包含をカバーすることを意図していることに留意されたい。したがって、一連の要素を含むプロセス、方法、物品もしくはデバイスは、そのような要素を含むだけでなく、明示的に特定されていない他の要素も含む、またはプロセス、方法、物品もしくはデバイスの固有の要素を含み得る。更なる限定を伴わず、「1つの…を含む」という語句によって定義される要素は、この要素を含む、プロセス、方法、物品もしくはデバイスにおける他の同じ要素を除外しない。
【0076】
当業者は、本明細書において開示された実施形態を参照して説明された例示的なユニットおよび方法ステップが、電子ハードウェア、またはコンピュータソフトウェアと電子ハードウェアとの組み合わせで実装され得ることに気付き得る。これらの機能がハードウェアの様式で実行されるか、またはソフトウェアの様式で実行されるかは、特定の用途および技術的解決策の設計上の制約に関連する。当業者は、各特定の用途に対して、記載された機能を実装するために、種々異なる方法を使用することができるが、この実装が本願の実施形態の範囲を超えると考えられるべきではない。
【0077】
本明細書の実施形態は全て漸進的な様式で記載されており、実施形態における同じ部分または類似の部分については、そのような実施形態を参照し、各実施形態の説明は、他の実施形態との差異に焦点を当てている。特に、システムの実施形態は、基本的に方法の実施形態に類似しており、したがって、簡潔に説明され、関連する部分については、方法の実施形態における部分的な説明が参照され得る。
【0078】
上述の実装は、単に本願の実施形態を説明するために使用されており、本願の実施形態を限定することを意図したものではない。当業者は、本願の実施形態の趣旨および範囲から逸脱することなく、様々な変更および修正を行うことができる。したがって、全ての等価の技術的解決策は、本願の実施形態の範囲にも属し、本願の実施形態の特許保護の範囲は、特許請求の範囲によって定義されるべきである。
【符号の説明】
【0079】
101 ターゲット物体を含んでいるターゲットイメージを取得すること
102 ターゲット物体に対応するセグメンテーションマスクを取得するために、ターゲットイメージに対してインスタンスセグメンテーションを実行すること
103 セグメンテーションマスクに基づいて、ターゲット物体がターゲットイメージ内に位置するターゲット領域内のターゲットピクセル間の位置関係特徴を取得すること
104 ターゲット物体に対応する標準物体を含んでいる標準イメージ内のプリセットされた関心領域内の標準ピクセル間の位置関係特徴を取得すること
105 ターゲットピクセルと標準ピクセルとの間の対応関係を取得するために、ターゲットピクセル間の位置関係特徴と標準ピクセル間の位置関係特徴とを一致させ、この対応関係に基づいてターゲット物体のポーズ情報を取得すること
m1およびm2 ターゲットピクセル
N1 ターゲットピクセルm1に対応する法線ベクトル
N2 ターゲットピクセルm2に対応する法線ベクトル
F ターゲットピクセルm1とターゲットピクセルm2との間の位置関係特徴
F1 2つのターゲットピクセル間の距離
F2 2つのターゲットピクセルにそれぞれ対応する法線ベクトル間の角度
F3およびF4 2つのターゲットピクセルに対応する法線ベクトルと2つのターゲットピクセル間の接続線との間の角度
H1 特徴抽出ネットワークにおける前の畳み込み層の畳み込みカーネル
H2 特徴抽出ネットワークにおける後の畳み込み層の畳み込みカーネル
60 ターゲットを検出する装置
601 ターゲットイメージ取得モジュール
602 セグメンテーションマスク取得モジュール
603 第1の位置関係特徴取得モジュール
604 第2の位置関係特徴取得モジュール
605 ポーズ情報取得モジュール
【国際調査報告】