特表2024-541624 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ シーメンス　アクチエンゲゼルシヤフトの特許一覧

特表2024-541624ターゲットを検出する方法、ターゲットを検出する装置、電子デバイスならびにコンピュータ記憶媒体

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公表特許公報(A)

(11)【公表番号】

(43)【公表日】2024-11-08

(54)【発明の名称】ターゲットを検出する方法、ターゲットを検出する装置、電子デバイスならびにコンピュータ記憶媒体

(51)【国際特許分類】

G06T 7/70 20170101AFI20241031BHJP

G06T 7/10 20170101ALI20241031BHJP

【ＦＩ】

G06T7/70 B

G06T7/10

【審査請求】有

【予備審査請求】未請求

(21)【出願番号】P 2024532488

(86)(22)【出願日】2022-11-17

(85)【翻訳文提出日】2024-05-30

(86)【国際出願番号】 CN2022132660

(87)【国際公開番号】W WO2023098487

(87)【国際公開日】2023-06-08

(31)【優先権主張番号】21211271.8

(32)【優先日】2021-11-30

(33)【優先権主張国・地域又は機関】EP

(81)【指定国・地域】

(71)【出願人】

【識別番号】517291346

【氏名又は名称】シーメンスアクチエンゲゼルシヤフト

【氏名又は名称原語表記】ＳｉｅｍｅｎｓＡｋｔｉｅｎｇｅｓｅｌｌｓｃｈａｆｔ

【住所又は居所原語表記】Ｗｅｒｎｅｒ－ｖｏｎ－Ｓｉｅｍｅｎｓ－Ｓｔｒ．１，Ｄ－８０３３３Ｍｕｅｎｃｈｅｎ，Ｇｅｒｍａｎｙ

(74)【代理人】

【識別番号】100114890

【弁理士】

【氏名又は名称】アインゼル・フェリックス＝ラインハルト

(74)【代理人】

【識別番号】100098501

【弁理士】

【氏名又は名称】森田拓

(74)【代理人】

【識別番号】100116403

【弁理士】

【氏名又は名称】前川純一

(74)【代理人】

【識別番号】100134315

【弁理士】

【氏名又は名称】永島秀郎

(74)【代理人】

【識別番号】100162880

【弁理士】

【氏名又は名称】上島類

(72)【発明者】

【氏名】ウェイヤオ

(72)【発明者】

【氏名】ドンリー

(72)【発明者】

【氏名】チュアンユーヂャン

【テーマコード（参考）】

5L096

【Ｆターム（参考）】

5L096CA01

5L096FA66

5L096FA67

5L096FA69

5L096GA10

(57)【要約】

本願の実施形態は、ターゲットを検出する方法、ターゲットを検出する装置、電子デバイスならびにコンピュータ記憶媒体を提供する。この方法は：ターゲット物体を含んでいるターゲットイメージを取得すること；ターゲット物体に対応するセグメンテーションマスクを取得するために、ターゲットイメージに対してインスタンスセグメンテーションを実行すること；セグメンテーションマスクに基づいて、ターゲット物体がターゲットイメージ内に位置するターゲット領域内のターゲットピクセル間の位置関係特徴を取得すること；ターゲット物体に対応する標準物体を含んでいる標準イメージ内のプリセットされた関心領域内の標準ピクセル間の位置関係特徴を取得すること；およびターゲットピクセルと標準ピクセルとの間の対応関係を取得するために、ターゲットピクセル間の位置関係特徴と標準ピクセル間の位置関係特徴とを一致させ、この対応関係に基づいてターゲット物体のポーズ情報を取得することを含んでいる。本願の実施形態によって、ターゲット検出効率が相対的に高くなる。

【特許請求の範囲】

【請求項1】

ターゲットを検出する方法であって、
ターゲット物体を含んでいるターゲットイメージを取得すること（１０１）；
前記ターゲット物体に対応するセグメンテーションマスクを取得するために、前記ターゲットイメージに対してインスタンスセグメンテーションを実行すること（１０２）；
前記セグメンテーションマスクに基づいて、前記ターゲット物体が前記ターゲットイメージ内に位置するターゲット領域内のターゲットピクセル間の位置関係特徴を取得すること（１０３）；
標準イメージ内のターゲット物体のプリセットされた関心領域内の標準ピクセル間の位置関係特徴を取得すること（１０４）；および
前記ターゲットピクセルと前記標準ピクセルとの間の対応関係を取得するために、前記ターゲットピクセル間の前記位置関係特徴と前記標準ピクセル間の前記位置関係特徴とを一致させ、前記対応関係に基づいて前記ターゲット物体のポーズ情報を取得すること（１０５）を含んでいる、
方法。

【請求項2】

前記セグメンテーションマスクに基づいて、前記ターゲット物体が前記ターゲットイメージ内に位置するターゲット領域内のターゲットピクセル間の位置関係特徴を取得すること（１０３）は：
複数のターゲットピクセル対を取得するために、前記セグメンテーションマスクに基づいて、前記ターゲット物体が前記ターゲットイメージ内に位置する前記ターゲット領域内の前記ターゲットピクセルを対で組み合わせ、各ターゲットピクセル対に対して、前記ターゲットピクセル対における２つのターゲットピクセル間の位置関係特徴を取得することを含んでおり；
標準イメージ内のターゲット物体のプリセットされた関心領域内の標準ピクセル間の位置関係特徴を取得すること（１０４）は：
前記標準イメージと、前記標準イメージ内のターゲット物体の前記プリセットされた関心領域とを取得すること；および
複数の標準ピクセル対を取得するために、前記プリセットされた関心領域内の前記標準ピクセルを対で組み合わせ、各標準ピクセル対に対して、前記標準ピクセル対内の２つの標準ピクセル間の位置関係特徴を取得することを含んでいる、請求項１記載の方法。

【請求項3】

各ターゲットピクセル対に対して、前記２つのターゲットピクセル間の距離と、前記２つのターゲットピクセルにそれぞれ対応する法線ベクトル間の角度と、前記２つのターゲットピクセルに対応する前記法線ベクトルと前記２つのターゲットピクセル間の接続線との間の角度とに基づいて、前記ターゲットピクセル対における前記２つのターゲットピクセル間の前記位置関係特徴が取得され；
各標準ピクセル対に対して、前記２つの標準ピクセル間の距離と、前記２つの標準ピクセルにそれぞれ対応する法線ベクトル間の角度と、前記２つの標準ピクセルに対応する前記法線ベクトルと前記２つの標準ピクセル間の接続線との間の角度とに基づいて、前記標準ピクセル対における前記２つの標準ピクセル間の前記位置関係特徴が取得される、請求項２記載の方法。

【請求項4】

前記ターゲット物体に対応するセグメンテーションマスクを取得するために、前記ターゲットイメージに対してインスタンスセグメンテーションを実行すること（１０２）は：
前記ターゲットイメージを事前トレーニングされたインスタンスセグメンテーションモデルに入力し、前記ターゲット物体に対応する前記セグメンテーションマスクを取得するために、前記インスタンスセグメンテーションモデルを使用することによって、前記ターゲットイメージに対してインスタンスセグメンテーションを実行することを含んでいる、請求項１記載の方法。

【請求項5】

前記インスタンスセグメンテーションモデルは：特徴抽出ネットワーク、特徴融合ネットワーク、領域生成ネットワーク、特徴アライメント層、分類および回帰ネットワークならびにセグメンテーションマスクネットワークを含んでおり；
前記ターゲットイメージを事前トレーニングされたインスタンスセグメンテーションモデルに入力し、前記ターゲット物体に対応する前記セグメンテーションマスクを取得するために、前記インスタンスセグメンテーションモデルを使用することによって、前記ターゲットイメージに対してインスタンスセグメンテーションを実行することは：
前記ターゲットイメージを前記事前トレーニングされたインスタンスセグメンテーションモデルにおいて前記特徴抽出ネットワークに入力し、前記ターゲットイメージに対応する複数のレベルの初期の特徴マップを取得するために、前記特徴抽出ネットワークを使用することによって、前記ターゲットイメージに対してマルチスケール特徴抽出を実行すること；
融合された特徴マップを取得するために、前記特徴融合ネットワークを使用することによって、前記複数のレベルの初期の特徴マップに対して特徴融合を実行すること；
前記融合された特徴マップに基づいて、前記領域生成ネットワークを使用することによって、前記ターゲット物体の初期の領域に関する情報を取得すること；
前記初期の領域に対応し、前記初期の特徴マップにおける領域特徴マップを取得するために、前記初期の領域に関する前記情報に基づいて、前記特徴アライメント層を使用することによって、前記初期の特徴マップに対して特徴抽出を実行すること；
前記領域特徴マップに基づいて、前記分類および回帰ネットワークを使用することによって、前記ターゲット物体のカテゴリ情報および位置情報を取得し；前記領域特徴マップに基づいて、前記セグメンテーションマスクネットワークを使用することによって、前記ターゲット物体に対応する前記セグメンテーションマスクを取得することを含んでいる、請求項４記載の方法。

【請求項6】

融合された特徴マップを取得するために、前記特徴融合ネットワークを使用することによって、前記複数のレベルの初期の特徴マップに対して特徴融合を実行することは：
複数のレベルの初期の次元削減特徴マップを取得するために、前記特徴融合ネットワークを使用することによって、各前記初期の特徴マップに対して畳み込み演算を実行すること；
初期の融合された特徴マップを取得するために、レベルの降順にしたがって、初期の次元削減特徴マップの２つの隣接するレベルごとに、融合処理を順次実行し、前記初期の融合された特徴マップを使用することによって、上位レベルの初期の次元削減特徴マップのサイズが下位レベルの初期の次元削減特徴マップのサイズよりも小さい、前記隣接するレベルの下位レベルの初期の次元削減特徴マップを更新すること；
複数のレベルの次元削減特徴マップを取得するために、各前記初期の融合された特徴マップに対して前記畳み込み演算を実行すること；および
遷移特徴マップを取得するために、レベルの昇順にしたがって、次元削減特徴マップの２つの隣接するレベルごとに、融合処理を順次実行し、融合された特徴マップを取得するために、前記遷移特徴マップおよび前記初期の特徴マップに対して融合処理を実行し、前記融合された特徴マップを使用することによって、上位レベルの次元削減特徴マップのサイズが下位レベルの次元削減特徴マップのサイズよりも小さい、前記隣接するレベルの上位レベルの次元削減特徴マップを更新することを含んでいる、請求項５記載の方法。

【請求項7】

前記特徴抽出ネットワークは、２つの連結された畳み込み層を含み、前の畳み込み層の畳み込みカーネルのサイズは１＊１であり、前記前の畳み込み層の畳み込みストライドは１であり、後の畳み込み層の畳み込みストライドは、前記後の畳み込み層の畳み込みカーネルのサイズ以下である、請求項５記載の方法。

【請求項8】

ターゲットを検出する装置であって：
ターゲット物体を含んでいるターゲットイメージを取得するように構成されているターゲットイメージ取得モジュール（６０１）と；
前記ターゲット物体に対応するセグメンテーションマスクを取得するために、前記ターゲットイメージに対してインスタンスセグメンテーションを実行するよう構成されているセグメンテーションマスク取得モジュール（６０２）と；
前記セグメンテーションマスクに基づいて、前記ターゲット物体が前記ターゲットイメージ内に位置するターゲット領域内のターゲットピクセル間の位置関係特徴を取得するように構成されている第１の位置関係特徴取得モジュール（６０３）と；
標準イメージ内のターゲット物体のプリセットされた関心領域内の標準ピクセル間の位置関係特徴を取得するように構成されている第２の位置関係特徴取得モジュール（６０４）と；
前記ターゲットピクセルと前記標準ピクセルとの間の対応関係を取得するために、前記ターゲットピクセル間の前記位置関係特徴と前記標準ピクセル間の前記位置関係特徴とを一致させ、前記対応関係に基づいて前記ターゲット物体のポーズ情報を取得するように構成されているポーズ情報取得モジュール（６０５）とを含んでいる、
装置。

【請求項9】

プロセッサ、メモリ、通信インタフェースおよび通信バスを含んでいる電子デバイスであって、
前記プロセッサ、前記メモリおよび前記通信インタフェースは、前記通信バスを使用することによって、相互の通信を完了し、
前記メモリは、少なくとも１つの実行可能な命令を格納するように構成されており、前記実行可能な命令は、請求項１から７までのいずれか１項記載の、ターゲットを検出する方法を前記プロセッサに実施させる、
電子デバイス。

【請求項10】

コンピュータプログラムを格納するコンピュータ記憶媒体であって、
前記コンピュータプログラムは、プロセッサによって実行されると、請求項１から７までのいずれか１項記載の、ターゲットを検出する方法を実装する、
コンピュータ記憶媒体。

【発明の詳細な説明】

【技術分野】

【0001】

本願の実施形態は、イメージ処理技術の分野に関し、特に、ターゲットを検出する方法、ターゲットを検出する装置、電子デバイスならびにコンピュータ記憶媒体に関する。

【0002】

背景
ターゲット検出技術は、この技術の成熟に伴い、様々なシナリオに適用可能である。たとえば、工業生産などの分野では、ターゲット検出技術を介して、インテリジェントロボットを使用することによって、ワークピースを自動的にピッキングし、組み立てることができる。具体的には、まずワークピースを含んでいるイメージが取得されてよく、次に、ターゲットワークピースのポーズ情報（位置情報および姿勢情報）を取得するために、このイメージに対してターゲット検出が実行され、したがって、このポーズ情報にしたがって、インテリジェントロボットがターゲットワークピースを取得し、ターゲットワークピースを組み立てる。

【0003】

既存のターゲットを検出する方法では、使用中の検出効率は比較的低い。したがって、ターゲット検出効率をどのように改善するかは、解決すべき緊急の課題である。

【0004】

概要
これに鑑み、この技術的課題の解決のために、本願の実施形態は、関連技術における比較的低い検出効率の欠陥を解決するために、ターゲットを検出する方法、ターゲットを検出する装置、電子デバイスならびにコンピュータ記憶媒体を提供する。

【0005】

第１の態様によれば、本願の一実施形態によって、ターゲットを検出する方法が提供され、このターゲットを検出する方法は：
ターゲット物体を含んでいるターゲットイメージを取得すること；
ターゲット物体に対応するセグメンテーションマスクを取得するために、ターゲットイメージに対してインスタンスセグメンテーションを実行し；セグメンテーションマスクに基づいて、ターゲット物体がターゲットイメージ内に位置するターゲット領域内のターゲットピクセル間の位置関係特徴を取得すること；
標準イメージ内のターゲット物体のプリセットされた関心領域内の標準ピクセル間の位置関係特徴を取得すること；および
ターゲットピクセルと標準ピクセルとの間の対応関係を取得するために、ターゲットピクセル間の位置関係特徴と標準ピクセル間の位置関係特徴とを一致させ、この対応関係に基づいてターゲット物体のポーズ情報を取得することを含んでいる。

【0006】

任意選択的に、セグメンテーションマスクに基づいて、ターゲット物体がターゲットイメージ内に位置するターゲット領域内のターゲットピクセル間の位置関係特徴を取得することは：
複数のターゲットピクセル対を取得するために、セグメンテーションマスクに基づいて、ターゲット物体がターゲットイメージ内に位置するターゲット領域内のターゲットピクセルを対で組み合わせ、各ターゲットピクセル対に対して、ターゲットピクセル対における２つのターゲットピクセル間の位置関係特徴を取得することを含んでおり；、
標準イメージ内のプリセットされた関心領域内の標準ピクセル間の位置関係特徴を取得することは：
標準イメージと、標準イメージ内のターゲット物体のプリセットされた関心領域とを取得すること；および
複数の標準ピクセル対を取得するために、プリセットされた関心領域内の標準ピクセルを対で組み合わせ、各標準ピクセル対に対して、標準ピクセル対内の２つの標準ピクセル間の位置関係特徴を取得することを含んでいる。

【0007】

任意選択的に、各ターゲットピクセル対に対して、２つのターゲットピクセル間の距離と、２つのターゲットピクセルにそれぞれ対応する法線ベクトル間の角度と、２つのターゲットピクセルに対応する法線ベクトルと２つのターゲットピクセル間の接続線との間の角度とに基づいて、ターゲットピクセル対における２つのターゲットピクセル間の位置関係特徴が取得され；
各標準ピクセル対に対して、２つの標準ピクセル間の距離と、２つの標準ピクセルにそれぞれ対応する法線ベクトル間の角度と、２つの標準ピクセルに対応する法線ベクトルと２つの標準ピクセル間の接続線との間の角度とに基づいて、標準ピクセル対における２つの標準ピクセル間の位置関係特徴が取得される。

【0008】

任意選択的に、ターゲット物体に対応するセグメンテーションマスクを取得するために、ターゲットイメージに対してインスタンスセグメンテーションを実行することは：
ターゲットイメージを事前トレーニングされたインスタンスセグメンテーションモデルに入力し、ターゲット物体に対応するセグメンテーションマスクを取得するために、インスタンスセグメンテーションモデルを使用することによって、ターゲットイメージに対してインスタンスセグメンテーションを実行することを含んでいる。

【0009】

任意選択的に、インスタンスセグメンテーションモデルは：特徴抽出ネットワーク、特徴融合ネットワーク、領域生成ネットワーク、特徴アライメント層、分類および回帰ネットワークならびにセグメンテーションマスクネットワークを含んでおり；
ターゲットイメージを事前トレーニングされたインスタンスセグメンテーションモデルに入力し、ターゲット物体に対応するセグメンテーションマスクを取得するために、インスタンスセグメンテーションモデルを使用することによって、ターゲットイメージに対してインスタンスセグメンテーションを実行することは：
ターゲットイメージを事前トレーニングされたインスタンスセグメンテーションモデルにおいて特徴抽出ネットワークに入力し、ターゲットイメージに対応する複数のレベルの初期の特徴マップを取得するために、特徴抽出ネットワークを使用することによって、ターゲットイメージに対してマルチスケール特徴抽出を実行すること；
融合された特徴マップを取得するために、特徴融合ネットワークを使用することによって、複数のレベルの初期の特徴マップに対して特徴融合を実行すること；
融合された特徴マップに基づいて、領域生成ネットワークを使用することによって、ターゲット物体の初期の領域に関する情報を取得すること；
初期の領域に対応し、初期の特徴マップにおける領域特徴マップを取得するために、初期の領域に関する情報に基づいて、特徴アライメント層を使用することによって、初期の特徴マップに対して特徴抽出を実行すること；
領域特徴マップに基づいて、分類および回帰ネットワークを使用することによって、ターゲット物体のカテゴリ情報および位置情報を取得し；領域特徴マップに基づいて、セグメンテーションマスクネットワークを使用することによって、ターゲット物体に対応するセグメンテーションマスクを取得することを含んでいる。

【0010】

任意選択的に、融合された特徴マップを取得するために、特徴融合ネットワークを使用することによって、複数のレベルの初期の特徴マップに対して特徴融合を実行することは：
複数のレベルの初期の次元削減特徴マップを取得するために、特徴融合ネットワークを使用することによって、各初期の特徴マップに対して畳み込み演算を実行すること；
初期の融合された特徴マップを取得するために、レベルの降順にしたがって、初期の次元削減特徴マップの２つの隣接するレベルごとに、融合処理を順次実行し、初期の融合された特徴マップを使用することによって、上位レベルの初期の次元削減特徴マップのサイズが下位レベルの初期の次元削減特徴マップのサイズよりも小さい、隣接するレベルの下位レベルの初期の次元削減特徴マップを更新すること；
複数のレベルの次元削減特徴マップを取得するために、各初期の融合された特徴マップに対して畳み込み演算を実行すること；および
遷移特徴マップを取得するために、レベルの昇順にしたがって、次元削減特徴マップの２つの隣接するレベルごとに、融合処理を順次実行し、融合された特徴マップを取得するために、遷移特徴マップおよび初期の特徴マップに対して融合処理を実行し、融合された特徴マップを使用することによって、上位レベルの次元削減特徴マップのサイズが下位レベルの次元削減特徴マップのサイズよりも小さい、隣接するレベルの上位レベルの次元削減特徴マップを更新することを含んでいる。

【0011】

任意選択的に、特徴抽出ネットワークは、２つの連結された畳み込み層を含み、前の畳み込み層の畳み込みカーネルのサイズは１＊１であり、前の畳み込み層の畳み込みストライドは１であり、後の畳み込み層の畳み込みストライドは、後の畳み込み層の畳み込みカーネルのサイズ以下である。

【0012】

第２の態様によれば、本願の一実施形態によって、ターゲットを検出する装置が提供される。このターゲットを検出する装置は：
ターゲット物体を含んでいるターゲットイメージを取得するように構成されているターゲットイメージ取得モジュールと；
ターゲット物体に対応するセグメンテーションマスクを取得するために、ターゲットイメージに対してインスタンスセグメンテーションを実行するよう構成されているセグメンテーションマスク取得モジュールと；
セグメンテーションマスクに基づいて、ターゲット物体がターゲットイメージ内に位置するターゲット領域内のターゲットピクセル間の位置関係特徴を取得するように構成されている第１の位置関係特徴取得モジュールと；
ターゲット物体に対応する標準物体を含んでいる標準イメージ内のプリセットされた関心領域内の標準ピクセル間の位置関係特徴を取得するように構成されている第２の位置関係特徴取得モジュールと；
ターゲットピクセルと標準ピクセルとの間の対応関係を取得するために、ターゲットピクセル間の位置関係特徴と標準ピクセル間の位置関係特徴とを一致させ、この対応関係に基づいてターゲット物体のポーズ情報を取得するように構成されているポーズ情報取得モジュールとを含んでいる。

【0013】

第３の態様によれば、本願の一実施形態によって、プロセッサ、メモリ、通信インタフェースおよび通信バスを含んでいる電子デバイスが提供され、プロセッサ、メモリおよび通信インタフェースは、通信バスを使用することによって、相互の通信を完了し、メモリは、少なくとも１つの実行可能な命令を格納するように構成されており、実行可能な命令は、第１の態様による、ターゲットを検出する方法をプロセッサに実施させる。

【0014】

第４の態様によれば、本願の一実施形態によって、コンピュータプログラムを格納するコンピュータ記憶媒体が提供され、コンピュータプログラムは、プロセッサによって実行されると、第１の態様もしくは第１の態様における任意の実施形態による、ターゲットを検出する方法を実装する。

【0015】

本願の実施形態は、ターゲットを検出する方法、ターゲットを検出する装置、電子デバイスならびにコンピュータ記憶媒体を提供する。本願の実施形態では、ターゲットイメージ内のターゲット領域内のターゲットピクセル間の位置関係特徴を取得した後、この位置関係特徴は、標準イメージ内のターゲット物体のプリセットされた関心領域内の標準ピクセル間の位置関係特徴と一致し、一致を通じて取得されたターゲットピクセルと標準ピクセルとの間の対応関係に基づいて、ターゲット物体のポーズ情報を取得することができる。プリセットされた関心領域はターゲット物体全体の一部の領域に過ぎないため、プリセットされた関心領域内の標準ピクセル間の位置関係特徴のデータ量は、標準イメージ全体におけるターゲット物体の全てのピクセル間の位置関係特徴に比べて相対的に少ないため、ターゲットピクセル間の位置関係特徴が標準ピクセル間の位置関係特徴と一致する場合には、一致すべき特徴のデータ量も相対的に少なくなる。したがって、一致速度が速くなり、これによってターゲット検出全体の効率が改善される。

【0016】

以降において、本願の実施形態のうちの幾つかの特定の実施形態を、添付の図面を参照して、限定ではなく例示的に説明する。図面における同じ参照番号は、同じもしくは類似の構成要素または部品を示している。当業者は、添付の図面が必ずしも縮尺通りに描かれていないことを理解するはずである。

【図面の簡単な説明】

【0017】

【図1】本願の一実施形態による、ターゲットを検出する方法の概略的なフローチャートである。

【図2】本願の一実施形態による位置関係特徴の概略図である。

【図3】本願の一実施形態による融合された特徴マップの取得の概略的なフローチャートである。

【図4】既存の特徴抽出ネットワークの畳み込み処理プロセスの概略図である。

【図5】本願の一実施形態による特徴抽出ネットワークの畳み込み処理プロセスの概略図である。

【図6】本願の一実施形態による、ターゲットを検出する装置の概略図である。

【0018】

詳細な説明
当業者が本願の技術的解決策をより良く理解できるようにするために、以降では、本願の実施形態における添付の図面を参照して、本願の実施形態の技術的解決策を明確かつ完全に説明する。記載された実施形態は、明らかに、本願の全ての実施形態ではなく、単に幾つかの実施形態に過ぎない。本願の実施形態に基づいて当業者によって取得されるその他全ての実施形態は、本願の実施形態の保護範囲内に含まれるものとする。

【0019】

本願における「第１の」および「第２の」という用語は、名前を区別するためだけのものであり、順序関係を表すものではなく、相対的な重要性を示したり暗示したり、あるいは示された技術的特徴の数を暗黙的に特定したりするものとして理解することはできないことに留意されたい。たとえば、第１のユーザ、第２のユーザおよび第３のユーザは、異なるユーザを区別するためだけのものである。

【0020】

以降において、本願の実施形態の添付の図面を参照して、本願の実施形態の特定の実装をさらに説明する。

【0021】

本願の一実施形態は、ターゲットを検出する方法を提供する。図１は、本願の一実施形態による、ターゲットを検出する方法の概略的なフローチャートである。図１に示されているように、この方法は以降のステップを含む。

【0022】

ステップ１０１．ターゲット物体を含んでいるターゲットイメージを取得する。

【0023】

たとえば、インテリジェントロボットがタスクをピッキングするシナリオでは、ターゲットワークピースを含んでいるイメージがターゲットイメージとして取得されてよい。本願のこの実施形態では、ターゲットイメージを取得する特定の手法は限定されない。

【0024】

ステップ１０２．ターゲット物体に対応するセグメンテーションマスクを取得するために、ターゲットイメージに対してインスタンスセグメンテーションを実行する。

【0025】

ステップ１０３．セグメンテーションマスクに基づいて、ターゲット物体がターゲットイメージ内に位置するターゲット領域内のターゲットピクセル間の位置関係特徴を取得する。

【0026】

このステップにおいて、ターゲット領域内のターゲットピクセル間の位置関係特徴は、ターゲット領域内のピクセル間の相対的な位置関係を表す特徴であってよい。位置関係特徴は、ターゲット領域内のピクセルの座標に基づいて取得されてよい。

【0027】

ステップ１０４．標準イメージ内のターゲット物体のプリセットされた関心領域内の標準ピクセル間の位置関係特徴を取得する。

【0028】

標準イメージは、標準位置における、標準姿勢を有しているターゲット物体に対して取得されるイメージである。標準位置と標準姿勢との両方は、実際の要求に応じてプリセットされてよい。インテリジェントロボットがタスクをピッキングするシナリオが依然として例として使用されている。ターゲット物体が、組み立てられるべき矩形のワークピースであることが仮定され、標準位置は、ロボットがワークピースを組み立てるのに便利なプリセットされた位置、たとえば、組立台上のプリセットされた位置であってよく、標準姿勢は、ロボットがワークピースを組み立てるのに便利なプリセットされた姿勢であってよく、たとえば、ワークピースの長辺が組立台の縁部に対して平行である。相応に、長辺が組立台の縁部に対して平行であり、組立台のプリセットされた位置にあるターゲット物体に対して取得されたイメージが標準イメージであってよい。

【0029】

このステップにおいて、プリセットされた関心領域は、ターゲット物体の特定の属性を表すことができる領域であってよい、またはプリセットされた関心領域は、ターゲット物体を別の非ターゲット物体から区別する特定の領域であってよい。たとえば、ターゲット物体がワークピースである場合、プリセットされた関心領域は、ワークピースを別のワークピースから区別する特定のテクスチャ領域、特定の構造領域、特定のテキスト領域などであってよい。

【0030】

実際の適用において、プリセットされた関心領域は、種々の実際のシナリオにしたがって動的に設定および調整されてよい。本願のこの実施形態では、プリセットされた関心領域の設定様式は限定されない。

【0031】

ターゲット領域内のターゲットピクセル間の位置関係特徴に対応して、標準ピクセル間の位置関係特徴は、プリセットされた関心領域内のピクセル間の相対的な位置関係を表す特徴であってよい。位置関係特徴は、プリセットされた関心領域内のピクセルの座標に基づいて取得されてもよい。

【0032】

ステップ１０５．ターゲットピクセルと標準ピクセルとの間の対応関係を取得するために、ターゲットピクセル間の位置関係特徴と標準ピクセル間の位置関係特徴とを一致させ、この対応関係に基づいてターゲット物体のポーズ情報を取得する。

【0033】

ターゲット物体のポーズ情報は、ターゲット物体の位置情報および姿勢情報を含む。

【0034】

具体的には、ターゲットピクセルと標準ピクセルとの間の対応関係が取得された後、まず、この対応関係に基づいて、ターゲットイメージ内のターゲット物体の初期のポーズ情報が取得されてよい。具体的には、初期のポーズ情報は、ターゲットイメージ内のターゲット物体の初期の位置情報（初期のターゲット領域）と、標準イメージ内のターゲット物体に対して相対的なターゲットイメージ内のターゲット物体の初期の姿勢情報（初期の角度情報）とを含んでいてよい。次いで、回転させられた初期のターゲット領域を取得するために、初期のターゲット領域を初期の姿勢角度だけ回転させられ；ターゲットイメージにおけるターゲット物体のポーズ情報として、ターゲット物体のより正確な位置情報および姿勢情報を取得するために、ターゲットピクセルと標準ピクセルとの間の対応関係に基づいて初期のターゲット領域と初期の回転角度とが繰り返し調整される。

【0035】

本願の実施形態では、ターゲットイメージ内のターゲット領域内のターゲットピクセル間の位置関係特徴を取得した後、この位置関係特徴は、標準イメージ内のターゲット物体のプリセットされた関心領域内の標準ピクセル間の位置関係特徴と一致し、一致を通じて取得されたターゲットピクセルと標準ピクセルとの間の対応関係に基づいて、ターゲット物体のポーズ情報を取得することができる。プリセットされた関心領域はターゲット物体全体の一部の領域に過ぎないため、プリセットされた関心領域内の標準ピクセル間の位置関係特徴のデータ量は、標準イメージ全体におけるターゲット物体の全てのピクセル間の位置関係特徴に比べて相対的に少ないため、ターゲットピクセル間の位置関係特徴が標準ピクセル間の位置関係特徴と一致する場合には、一致すべき特徴のデータ量も相対的に少なくなる。したがって、一致速度が速くなり、これによってターゲット検出全体の効率が改善される。

【0036】

任意選択的に、本願の一実施形態では、ステップ１０３が、以降のステップとして、すなわち：
複数のターゲットピクセル対を取得するために、セグメンテーションマスクに基づいて、ターゲット物体がターゲットイメージ内に位置するターゲット領域内のターゲットピクセルを対で組み合わせ、各ターゲットピクセル対に対して、ターゲットピクセル対における２つのターゲットピクセル間の位置関係特徴を取得するステップとして実装されてよい。

【0037】

相応に、ステップ１０４が、以降のステップとして、すなわち：
標準イメージと、標準イメージ内のターゲット物体のプリセットされた関心領域とを取得し；複数の標準ピクセル対を取得するために、標準イメージ内のプリセットされた関心領域の標準ピクセルを対で組み合わせ、各標準ピクセル対に対して、標準ピクセル対内の２つの標準ピクセル間の位置関係特徴を取得するステップとして実装されてよい。

【0038】

具体的には、２つのターゲットピクセル間の位置関係特徴は、２つのターゲットピクセル間の相対的な位置関係を表す特徴であってよく；相応に、２つの標準ピクセル間の位置関係特徴は、２つの標準ピクセル間の相対的な位置関係を表す特徴であってもよい。

【0039】

任意選択的に、本願の一実施形態では、各ターゲットピクセル対に対して、ターゲットピクセル対における２つのターゲットピクセル間の位置関係特徴は、２つのターゲットピクセル間の距離と、２つのターゲットピクセルにそれぞれ対応する法線ベクトル間の角度と、２つのターゲットピクセルに対応する法線ベクトルと２つのターゲットピクセル間の接続線との間の角度とに基づいて取得され、
各標準ピクセル対に対して、標準ピクセル対における２つの標準ピクセル間の位置関係特徴は、２つの標準ピクセル間の距離と、２つの標準ピクセルにそれぞれ対応する法線ベクトル間の角度と、２つの標準ピクセルに対応する法線ベクトルと２つの標準ピクセル間の接続線との間の角度とに基づいて取得される。

【0040】

具体的には、各ターゲットピクセル対に対して、２つのターゲットピクセル間の距離Ｆ１と、２つのターゲットピクセルにそれぞれ対応する法線ベクトル間の角度Ｆ２と、２つのターゲットピクセルに対応する法線ベクトルと２つのターゲットピクセル間の接続線との間の角度（Ｆ３およびＦ４）とを使用することによって、４次元ベクトル（Ｆ１、Ｆ２、Ｆ３およびＦ４）が構築され、ターゲットピクセル対における２つのターゲットピクセル間の位置関係特徴として使用されてよい。図２は、本願の一実施形態による位置関係特徴の概略図である。図２において、ターゲットピクセルはそれぞれｍ１およびｍ２であり、Ｆ１はｍ１とｍ２との間の距離である。Ｎ１は、ｍ１に対応する法線ベクトルであり、Ｎ２は、ｍ２に対応する法線ベクトルであり、Ｆ２は、Ｎ１とＮ２との間の角度（ラジアンで表されてよい）である。Ｆ３は、Ｎ１とＦ１との間の角度（ラジアンによって表されてよい）である。Ｆ４は、Ｎ２とＦ１との間の角度（ラジアンによって表されてよい）である。相応に、ターゲットピクセルｍ１とターゲットピクセルｍ２との間の位置関係特徴Ｆは、（Ｆ１、Ｆ２、Ｆ３およびＦ４）である。

【0041】

相応に、各標準ピクセル対における２つの標準ピクセル間の位置関係特徴が、この様式で構築されてもよい。詳細はここで再度説明されない。

【0042】

本願のこの実施形態では、ピクセル対における２つのピクセル間の位置関係特徴が、２つのピクセル間の距離と、２つのピクセルにそれぞれ対応する法線ベクトル間の角度と、２つのピクセルに対応する法線ベクトルと２つのピクセル間の接続線との間の角度とに基づいて取得される。すなわち、本願のこの実施形態では、２つのピクセル間の位置関係特徴は、４つの異なる次元共同で表される。したがって、取得された位置関係特徴は、２つのピクセル間の相対的な位置関係をより正確に表すことができ、ターゲットピクセルと標準ピクセルとの間のより正確な対応関係を取得するために、位置関係特徴に基づいて、ターゲットピクセルが標準ピクセルに一致し、これによって、ターゲット検出の精度を改善させることができる。

【0043】

任意選択的に、本願の一実施形態では、ステップ１０２が、以降のステップとして、すなわち：
ターゲットイメージを事前トレーニングされたインスタンスセグメンテーションモデルに入力し、ターゲット物体に対応するセグメンテーションマスクを取得するために、インスタンスセグメンテーションモデルを使用することによって、ターゲットイメージに対してインスタンスセグメンテーションを実行するステップとして実装されてよい。

【0044】

さらに、本願の一実施形態では、インスタンスセグメンテーションモデルが、特徴抽出ネットワーク、特徴融合ネットワーク、領域生成ネットワーク、特徴アライメント層、分類および回帰ネットワークならびにセグメンテーションマスクネットワークを含んでいてよく、ターゲットイメージを事前トレーニングされたインスタンスセグメンテーションモデルに入力し、ターゲット物体に対応するセグメンテーションマスクを取得するために、インスタンスセグメンテーションモデルを使用することによって、ターゲットイメージに対してインスタンスセグメンテーションを実行することは：
ターゲットイメージを事前トレーニングされたインスタンスセグメンテーションモデルにおいて特徴抽出ネットワークに入力し、ターゲットイメージに対応する複数のレベルの初期の特徴マップを取得するために、特徴抽出ネットワークを使用することによって、ターゲットイメージに対してマルチスケール特徴抽出を実行すること；
融合された特徴マップを取得するために、特徴融合ネットワークを使用することによって、複数のレベルの初期の特徴マップに対して特徴融合を実行すること；
融合された特徴マップに基づいて、領域生成ネットワークを使用することによって、ターゲット物体の初期の領域に関する情報を取得すること；
初期の領域に対応し、初期の特徴マップにおける領域特徴マップを取得するために、初期の領域に関する情報に基づいて、特徴アライメント層を使用することによって、初期の特徴マップに対して特徴抽出を実行すること；
領域特徴マップに基づいて、分類および回帰ネットワークを使用することによって、ターゲット物体のカテゴリ情報および位置情報を取得し、領域特徴マップに基づいて、セグメンテーションマスクネットワークを使用することによって、ターゲット物体に対応するセグメンテーションマスクを取得することを含んでいてよい。

【0045】

任意選択的に、本願の一実施形態では、融合された特徴マップを取得するために、特徴融合ネットワークを使用することによって、複数のレベルの初期の特徴マップに対して特徴融合を実行することが、以降のステップとして、すなわち：
複数のレベルの初期の次元削減特徴マップを取得するために、特徴融合ネットワークを使用することによって、各初期の特徴マップに対して畳み込み演算を実行するステップ；
初期の融合された特徴マップを取得するために、レベルの降順にしたがって、初期の次元削減特徴マップの２つの隣接するレベルごとに、融合処理を順次実行し、初期の融合された特徴マップを使用することによって、上位レベルの初期の次元削減特徴マップのサイズが下位レベルの初期の次元削減特徴マップのサイズよりも小さい、隣接するレベルの下位レベルの初期の次元削減特徴マップを更新するステップ；
複数のレベルの次元削減特徴マップを取得するために、各初期の融合された特徴マップに対して畳み込み演算を実行するステップ；
遷移特徴マップを取得するために、レベルの昇順にしたがって、次元削減特徴マップの２つの隣接するレベルごとに、融合処理を順次実行し、融合された特徴マップを取得するために、遷移特徴マップおよび初期の特徴マップに対して融合処理を実行し、融合された特徴マップを使用することによって、上位レベルの次元削減特徴マップのサイズが下位レベルの次元削減特徴マップのサイズよりも小さい、隣接するレベルの上位レベルの次元削減特徴マップを更新するステップとして実装されてよい。

【0046】

具体的には、図３は、本願の一実施形態による、融合された特徴マップの取得の概略的なフローチャートである。Ｃ１、Ｃ２、Ｃ３、Ｃ４およびＣ５はそれぞれ、インスタンスセグメンテーションモデル内の特徴抽出ネットワークを使用することによって取得されたターゲットイメージに対応する初期の特徴マップの５つのレベルである。融合された特徴マップを取得するために、特徴融合ネットワークを使用することによって、５つの初期の特徴マップに対して融合処理を実行するプロセスは、以降の通りである。

【0047】

初期の特徴マップのＣ１レベルは比較的小さな意味情報を含むので、特徴融合は、Ｃ２、Ｃ３、Ｃ４およびＣ５に基づいて実行されてよい。具体的には、複数のレベルの初期の次元削減特徴マップを取得するために、Ｃ２、Ｃ３、Ｃ４およびＣ５に対してそれぞれ畳み込み演算（畳み込みカーネルのサイズは１＊１であってよい）が実行され、ここで初期の次元削減特徴マップＰ５を取得するために、Ｃ５に対して畳み込み演算が実行される。次いで、初期の融合された特徴マップＰ４を取得するために、Ｐ５と、Ｃ４に対応する初期の次元削減特徴マップ（Ｃ４に対して畳み込み演算が実行された後に取得された特徴マップ）とがレベルの降順にしたがってまず融合される（初期の次元削減特徴マップと同じサイズの特徴マップを取得するために、融合が実行される前に、Ｐ５に対してアップサンプリングが実行される必要があり、次いで、初期の融合された特徴マップＰ４を取得するために、アップサンプリング後に取得されたＰ５に対応する要素と、Ｃ４に対応する初期の次元削減特徴マップに対応する要素とが加えられてよい）。さらに、Ｃ４に対応する初期の次元削減特徴マップが、Ｐ４を使用することによって更新される。次いで、初期の融合された特徴マップＰ３を取得するために、Ｐ４と、Ｃ３に対応する初期の次元削減特徴マップ（Ｃ３に対して畳み込み演算が実行された後に取得された特徴マップ）とが融合される（初期の次元削減特徴マップと同じサイズの特徴マップを取得するために、融合が実行される前に、Ｐ４に対してアップサンプリングが実行される必要があり、次いで、初期の融合された特徴マップＰ３を取得するために、アップサンプリング後に取得されたＰ４に対応する要素と、Ｃ３に対応する初期の次元削減特徴マップに対応する要素とが加えられてよい）。さらに、Ｐ６を取得するために、Ｐ５に対してダウンサンプリングがさらに実行されてよい。これまでのところ、初期の融合された特徴マップＰ６、Ｐ５、Ｐ４およびＰ３が取得されている。複数のレベルの次元削減特徴マップを取得するために、Ｐ６、Ｐ５、Ｐ４およびＰ３に対してそれぞれ畳み込み演算が実行され、ここで次元削減特徴マップＮ２を取得するために、Ｐ３に対して畳み込み演算が実行される。次いで、遷移特徴マップを取得するために、Ｎ２と、Ｐ４に対応する次元削減特徴マップとがレベルの昇順にしたがってまず融合されて、融合された特徴マップＮ３を取得するために、遷移特徴マップとＣ３とが融合される。さらに、Ｐ４に対応する次元削減特徴マップがＮ３を使用することによって更新される。遷移特徴マップを取得するために、Ｎ３と、Ｐ５に対応する次元削減特徴マップとが融合されて、融合された特徴マップＮ４を取得するために、遷移特徴マップとＣ４とが融合される。さらに、Ｐ５に対応する次元削減特徴マップが、Ｎ４を使用することによって更新される。遷移特徴マップを取得するために、Ｎ４と、Ｐ６に対応する次元削減特徴マップとが融合され、融合された特徴マップＮ５を取得するために、遷移特徴マップとＣ５とが融合される。これまでのところ、最終的に融合された特徴マップＮ２、Ｎ３、Ｎ４およびＮ５が取得されている。

【0048】

このプロセスにおいて、２つの異なる特徴マップが融合される場合、まず、アップサンプリングおよび拡大処理が、比較的小さいサイズの特徴マップに対して実行されてよく、したがって、融合されるべき２つの特徴マップが同じサイズを有し、次いで、融合された特徴マップを取得するために、要素が同じサイズの特徴マップ内の対応する位置において加えられてよい。

【0049】

本願の実施形態において提供される特徴融合様式では、取得された融合された特徴マップが、初期の特徴マップに対して複数のレベルの融合処理が実行された後に取得される。たとえば、融合された特徴マップＮ３は、Ｐ３、Ｐ４およびＣ３における特徴を同時に統合し、融合された特徴マップＮ４は、Ｐ４、Ｐ５およびＣ４における特徴を同時に統合し、融合された特徴マップＮ５は、Ｐ５、Ｐ６およびＣ５の特徴を同時に統合する。したがって本願のこの実施形態では、取得された融合された特徴マップは、より多くの特徴、特により小さい特徴を含むことができるため、本願のこの実施形態において提供される、ターゲットを検出する方法は、より高い検出精度を有する。さらに、本願のこの実施形態において提供される、ターゲットを検出する方法は、ノイズ、クラッタおよび部分遮蔽のケースにおいて、より良好なロバスト性も有している。

【0050】

任意選択的に、本願の一実施形態では、特徴抽出ネットワークは、２つの連結された畳み込み層を含み、前の畳み込み層の畳み込みカーネルのサイズは１＊１であり、前の畳み込み層の畳み込みストライドは１であり、後の畳み込み層の畳み込みストライドは、後の畳み層の畳み込みカーネルのサイズ以下である。

【0051】

本願の実施形態において提供される特徴抽出ネットワークを使用することによって、より多くの、またより少ない特徴が抽出されてよく、ターゲット検出の精度を改善することができる。

【0052】

以降において、特定の例を使用することによって、本願の実施形態の有利な効果を詳細に説明する。

【0053】

図４は、既存の特徴抽出ネットワークの畳み込み処理プロセスの概略図であり、図５は、本願の一実施形態による特徴抽出ネットワークの畳み込み処理プロセスの概略図である。具体的には、

【0054】

図４を参照すると、既存の特徴抽出ネットワークは、２つの連結された畳み込み層を含み、前の畳み込み層の畳み込みカーネルＨ１のサイズは１＊１であり、前の畳み込み層の畳み込みストライドは２であり、後の畳み込み層の畳み込みカーネルＨ２のサイズは３＊３であり、後の畳み込みの畳み込みストライドは１である。特徴抽出ネットワークを使用することによって、イメージに対して特徴抽出が実行される。

【0055】

図５を参照すると、本願のこの実施形態における特徴抽出ネットワークは、直列に連結された２つの畳み込み層を含み、前の畳み込み層の畳み込みカーネルは同様にＨ１であるが、前の畳み込み層の畳み込みストライドは１であり、後の畳み込み層の畳み込みカーネルは同様にＨ２であるが、後の畳み込み層の畳み込みストライドは２である。特徴抽出ネットワークを使用することによって、イメージに対して特徴抽出が実行される。

【0056】

図４と図５とを比較することによって、図４では、先行する畳み込み層を通過する際に、イメージ内の第２列、第４列、第２行および第４行の全てのピクセルが畳み込み中にスキップされる、すなわち、これらのピクセルが畳み込み演算に関与しない、ということが理解できる。しかし、図５では、先行する畳み込み層を通過する際に、イメージ内の全てのピクセルが畳み込み演算に関与する。したがって、本願のこの実施形態において提供される特徴抽出ネットワークは、既存の特徴抽出ネットワークより多くの、また少ない特徴を提供してよい。したがって、ターゲット検出の精度を改善することができる。

【0057】

複数の実施形態のうちのいずれか１つにおいて提供される、ターゲットを検出する方法に基づいて、本願の一実施形態は、ターゲットを検出する装置を提供する。図６に示されているように、図６は、本願の一実施形態による、ターゲットを検出する装置の概略図である。ターゲットを検出する装置６０は、ターゲットイメージ取得モジュール６０１と、セグメンテーションマスク取得モジュール６０２と、第１の位置関係特徴取得モジュール６０３と、第２の位置関係特徴取得モジュール６０４と、ポーズ情報取得モジュール６０５とを含んでいる。

【0058】

第１のターゲットイメージ取得モジュール６０１は、ターゲット物体を含んでいるターゲットイメージを取得するように構成されている。

【0059】

セグメンテーションマスク取得モジュール６０２は、ターゲット物体に対応するセグメンテーションマスクを取得するために、ターゲットイメージに対してインスタンスセグメンテーションを実行するように構成されている。

【0060】

第１の位置関係特徴取得モジュール６０３は、セグメンテーションマスクに基づいて、ターゲットイメージ内でターゲット物体が位置するターゲット領域内のターゲットピクセル間の位置関係特徴を取得するように構成されている。

【0061】

第２の位置関係特徴取得モジュール６０４は、ターゲット物体に対応する標準物体を含んでいる標準イメージ内のプリセットされた関心領域内の標準ピクセル間の位置関係特徴を取得するように構成されている。

【0062】

ポーズ情報取得モジュール６０５は、ターゲットピクセルと標準ピクセルとの間の対応関係を取得し、この対応関係に基づいてターゲット物体のポーズ情報を取得するために、ターゲットピクセル間の位置関係特徴と、標準ピクセル間の位置関係特徴とを一致させるように構成されている。

【0063】

任意選択的に、一実施形態では、第１の位置関係特徴取得モジュール６０２は、さらに：
複数のターゲットピクセル対を取得するために、セグメンテーションマスクに基づいて、ターゲット物体がターゲットイメージ内に位置するターゲット領域内のターゲットピクセルを対で組み合わせ、各ターゲットピクセル対に対して、ターゲットピクセル対における２つのターゲットピクセル間の位置関係特徴を取得するように構成されている。

【0064】

第２の位置関係特徴取得モジュール６０３は、さらに、標準イメージと、標準イメージ内のプリセットされた関心領域とを取得し、複数の標準ピクセル対を取得するために、標準イメージ内のプリセットされた関心領域内の標準ピクセルを対にして組み合わせ、各標準ピクセル対に対して、標準ピクセル対内の２つの標準ピクセル間の位置関係特徴を取得するように構成されている。

【0065】

任意選択的に、本願の一実施形態では、各ターゲットピクセル対に対して、ターゲットピクセル対における２つのターゲットピクセル間の位置関係特徴は、２つのターゲットピクセル間の距離と、２つのターゲットピクセルにそれぞれ対応する法線ベクトル間の角度と、２つのターゲットピクセルに対応する法線ベクトルと２つのターゲットピクセル間の接続線との間の角度とに基づいて取得され；
各標準ピクセル対に対して、２つの標準ピクセル間の距離と、２つの標準ピクセルにそれぞれ対応する法線ベクトル間の角度と、２つの標準ピクセルに対応する法線ベクトルと２つの標準ピクセル間の接続線との間の角度とに基づいて、標準ピクセル対における２つの標準ピクセル間の位置関係特徴が取得される。

【0066】

任意選択的に、本願の一実施形態では、セグメンテーションマスク取得モジュール６０２は、さらに：
ターゲットイメージを事前トレーニングされたインスタンスセグメンテーションモデルに入力し、ターゲット物体に対応するセグメンテーションマスクを取得するために、インスタンスセグメンテーションモデルを使用することによって、ターゲットイメージに対してインスタンスセグメンテーションを実行するように構成されている。

【0067】

任意選択的に、本願の一実施形態では、インスタンスセグメンテーションモデルは、特徴抽出ネットワーク、特徴融合ネットワーク、特徴アライメント層、分類および回帰ネットワーク、ならびにセグメンテーションマスクネットワークを含み、セグメンテーションマスク取得モジュール６０２は、さらに：
ターゲットイメージを事前トレーニングされたインスタンスセグメンテーションモデルにおいて特徴抽出ネットワークに入力し、ターゲットイメージに対応する複数のレベルの初期の特徴マップを取得するために、特徴抽出ネットワークを使用することによって、ターゲットイメージに対してマルチスケール特徴抽出を実行し；
融合された特徴マップを取得するために、特徴融合ネットワークを使用することによって、複数のレベルの初期の特徴マップに対して特徴融合を実行し；
領域生成ネットワークを使用することによって、融合された特徴マップに基づいて、ターゲット物体の初期の領域に関する情報を取得し；
初期の領域に対応し、初期の特徴マップにおける領域特徴マップを取得するために、初期の領域に関する情報に基づいて、特徴アライメント層を使用することによって、初期の特徴マップに対して特徴抽出を実行し；
分類および回帰ネットワークを使用することによって、領域特徴マップに基づいてターゲット物体のカテゴリ情報および位置情報を取得し、領域特徴マップに基づいて、セグメンテーションマスクネットワークを使用することによって、ターゲット物体に対応するセグメンテーションマスクを取得するように構成されている。

【0068】

任意選択的に、本願の一実施形態では、融合された特徴マップを取得するために、特徴融合ネットワークを使用することによって、複数のレベルの初期の特徴マップに対して特徴融合を実行する場合に、セグメンテーションマスク取得モジュール６０２は、さらに：
複数のレベルの初期の次元削減特徴マップを取得するために、特徴融合ネットワークを使用することによって、各初期の特徴マップに対して畳み込み演算を実行し；
初期の融合された特徴マップを取得するために、レベルの降順にしたがって、初期の次元削減特徴マップの２つの隣接するレベルごとに融合処理を順次実行し、初期の融合された特徴マップを使用することによって、上位レベルの初期の次元削減特徴マップのサイズが下位レベルの初期の次元削減特徴マップのサイズより小さい、隣接するレベルの下位レベルの初期の次元削減特徴マップを更新し；
複数のレベルの次元削減特徴マップを取得するために、各初期の融合された特徴マップに対して畳み込み演算を実行し；
遷移特徴マップを取得するために、レベルの昇順にしたがって、次元削減特徴マップの２つの隣接するレベルごとに、融合処理を順次実行し、融合された特徴マップを取得するために、遷移特徴マップおよび初期の特徴マップに対して融合処理を実行し、融合された特徴マップを使用することによって、上位レベルの次元削減特徴マップのサイズが下位レベルの次元削減特徴マップのサイズよりも小さい、隣接するレベルの上位レベルの次元削減特徴マップを更新するように構成されている。

【0069】

【0070】

本願のこの実施形態における、ターゲットを検出する装置は、上述の方法の実施形態による、ターゲットを検出する方法を実装するように構成されており、対応する方法の実施形態の有利な効果を有している。詳細はここで再度、説明されない。さらに、本願のこの実施形態における、ターゲットを検出する装置における各モジュールの機能実装に関して、方法の実施形態における対応する部分の説明を参照することができる。詳細はここで再度、説明されない。

【0071】

複数の実施形態のうちのいずれか１つによる、ターゲットを検出する方法に基づいて、本願の一実施形態は、プロセッサ、メモリ、通信インタフェースおよび通信バスを含んでいる電子デバイスを提供し、プロセッサ、メモリおよび通信インタフェースは、通信バスを使用することによって相互に通信を完了し、メモリは、少なくとも１つの実行可能な命令を格納するように構成されており、実行可能な命令は、プロセッサに、複数の実施形態のうちのいずれか１つによる、ターゲットを検出する方法を実施させる。

【0072】

複数の実施形態のうちのいずれか１つによる、ターゲットを検出する方法に基づいて、本願の一実施形態は、コンピュータ記憶媒体を提供し、このコンピュータ記憶媒体は、コンピュータプログラムを格納しており、コンピュータプログラムは、プロセッサによって実行されるときに、複数の実施形態のうちのいずれか１つによる方法を実装する。

【0073】

実装のニーズに応じて、本願の実施形態の目的を達成するために、本願の実施形態に記載されている各構成要素／ステップを、より多くの構成要素／ステップに分割することができる、または２つ以上の構成要素／ステップもしくは構成要素／ステップの一部の動作を新たな構成要素／ステップに組み合わせることができることに留意されたい。

【0074】

本願の実施形態による方法は、ハードウェアおよびファームウェアで実装可能である、または記録媒体（たとえば、ＣＤＲＯＭ、ＲＡＭ、フロッピーディスク、ハードディスクまたは光磁気ディスク）に格納可能なソフトウェアもしくはコンピュータコードとして実装可能である、またはネットワークからダウンロードされて、リモート記録媒体もしくは非一時的機械可読媒体に格納されたコンピュータコード、およびローカル記録媒体に格納されたコンピュータコードによって実装可能である。したがって、本明細書に記載された方法は、汎用コンピュータ、専用プロセッサ、またはプログラミング可能なハードウェアもしくは専用のハードウェア（たとえば、ＡＳＩＣまたはＦＰＧＡ）を使用することによって、記録媒体に格納された、そのようなソフトウェアによって処理可能である。コンピュータ、プロセッサ、マイクロプロセッサコントローラまたはプログラマブルハードウェアは、ソフトウェアまたはコンピュータコードを格納することができる、もしくは受け取ることができるストレージコンポーネント（たとえばＲＡＭ、ＲＯＭまたはフラッシュメモリ）を含んでいると理解されたい。ソフトウェアまたはコンピュータコードが、コンピュータ、プロセッサまたはハードウェアによってアクセスおよび実行されると、本明細書に記載された、ターゲットを検出する方法が実装される。さらに、汎用コンピュータが、本明細書に示された、ターゲットを検出する方法を実装するためのコードにアクセスすると、このコードの実行によって、汎用コンピュータは、本明細書に示された、ターゲットを検出する方法を実施するための専用コンピュータに変わる。

【0075】

さらに、「含む（ｉｎｃｌｕｄｅ）」、「備える（ｃｏｍｐｒｉｓｅ）」という用語、またはこれらの用語の任意の変形が、非排他的な包含をカバーすることを意図していることに留意されたい。したがって、一連の要素を含むプロセス、方法、物品もしくはデバイスは、そのような要素を含むだけでなく、明示的に特定されていない他の要素も含む、またはプロセス、方法、物品もしくはデバイスの固有の要素を含み得る。更なる限定を伴わず、「１つの…を含む」という語句によって定義される要素は、この要素を含む、プロセス、方法、物品もしくはデバイスにおける他の同じ要素を除外しない。

【0076】

当業者は、本明細書において開示された実施形態を参照して説明された例示的なユニットおよび方法ステップが、電子ハードウェア、またはコンピュータソフトウェアと電子ハードウェアとの組み合わせで実装され得ることに気付き得る。これらの機能がハードウェアの様式で実行されるか、またはソフトウェアの様式で実行されるかは、特定の用途および技術的解決策の設計上の制約に関連する。当業者は、各特定の用途に対して、記載された機能を実装するために、種々異なる方法を使用することができるが、この実装が本願の実施形態の範囲を超えると考えられるべきではない。

【0077】

本明細書の実施形態は全て漸進的な様式で記載されており、実施形態における同じ部分または類似の部分については、そのような実施形態を参照し、各実施形態の説明は、他の実施形態との差異に焦点を当てている。特に、システムの実施形態は、基本的に方法の実施形態に類似しており、したがって、簡潔に説明され、関連する部分については、方法の実施形態における部分的な説明が参照され得る。

【0078】

上述の実装は、単に本願の実施形態を説明するために使用されており、本願の実施形態を限定することを意図したものではない。当業者は、本願の実施形態の趣旨および範囲から逸脱することなく、様々な変更および修正を行うことができる。したがって、全ての等価の技術的解決策は、本願の実施形態の範囲にも属し、本願の実施形態の特許保護の範囲は、特許請求の範囲によって定義されるべきである。

【符号の説明】

【0079】

１０１ターゲット物体を含んでいるターゲットイメージを取得すること
１０２ターゲット物体に対応するセグメンテーションマスクを取得するために、ターゲットイメージに対してインスタンスセグメンテーションを実行すること
１０３セグメンテーションマスクに基づいて、ターゲット物体がターゲットイメージ内に位置するターゲット領域内のターゲットピクセル間の位置関係特徴を取得すること
１０４ターゲット物体に対応する標準物体を含んでいる標準イメージ内のプリセットされた関心領域内の標準ピクセル間の位置関係特徴を取得すること
１０５ターゲットピクセルと標準ピクセルとの間の対応関係を取得するために、ターゲットピクセル間の位置関係特徴と標準ピクセル間の位置関係特徴とを一致させ、この対応関係に基づいてターゲット物体のポーズ情報を取得すること
ｍ１およびｍ２ターゲットピクセル
Ｎ１ターゲットピクセルｍ１に対応する法線ベクトル
Ｎ２ターゲットピクセルｍ２に対応する法線ベクトル
Ｆターゲットピクセルｍ１とターゲットピクセルｍ２との間の位置関係特徴
Ｆ１２つのターゲットピクセル間の距離
Ｆ２２つのターゲットピクセルにそれぞれ対応する法線ベクトル間の角度
Ｆ３およびＦ４２つのターゲットピクセルに対応する法線ベクトルと２つのターゲットピクセル間の接続線との間の角度
Ｈ１特徴抽出ネットワークにおける前の畳み込み層の畳み込みカーネル
Ｈ２特徴抽出ネットワークにおける後の畳み込み層の畳み込みカーネル
６０ターゲットを検出する装置
６０１ターゲットイメージ取得モジュール
６０２セグメンテーションマスク取得モジュール
６０３第１の位置関係特徴取得モジュール
６０４第２の位置関係特徴取得モジュール
６０５ポーズ情報取得モジュール

【図1】