特表2022-549728 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ ベイジン　センスタイム　テクノロジー　ディベロップメント　カンパニー　リミテッドの特許一覧

特表2022-549728目標検出方法及び装置、電子機器、並びに記憶媒体

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公表特許公報(A)

(11)【公表番号】

(43)【公表日】2022-11-28

(54)【発明の名称】目標検出方法及び装置、電子機器、並びに記憶媒体

(51)【国際特許分類】

G06T 7/00 20170101AFI20221118BHJP

G06V 10/82 20220101ALI20221118BHJP

G06N 3/04 20060101ALI20221118BHJP

【ＦＩ】

G06T7/00 350C

G06V10/82

G06N3/04

【審査請求】有

【予備審査請求】未請求

(21)【出願番号】P 2022519510

(86)(22)【出願日】2019-12-20

(85)【翻訳文提出日】2022-03-28

(86)【国際出願番号】 CN2019127181

(87)【国際公開番号】W WO2021082231

(87)【国際公開日】2021-05-06

(31)【優先権主張番号】201911038042.3

(32)【優先日】2019-10-29

(33)【優先権主張国・地域又は機関】CN

(81)【指定国・地域】

【公序良俗違反の表示】

（特許庁注：以下のものは登録商標）

１．ＳＭＡＬＬＴＡＬＫ

(71)【出願人】

【識別番号】516158057

【氏名又は名称】ベイジンセンスタイムテクノロジーディベロップメントカンパニーリミテッド

(74)【代理人】

【識別番号】110001416

【氏名又は名称】弁理士法人信栄事務所

(72)【発明者】

【氏名】ヤン，クン

(72)【発明者】

【氏名】ヤン，クンリン

(72)【発明者】

【氏名】ホウ，ジュン

(72)【発明者】

【氏名】イー，シュアイ

【テーマコード（参考）】

5L096

【Ｆターム（参考）】

5L096EA03

5L096FA64

5L096GA30

5L096GA51

5L096JA11

(57)【要約】

本開示は、目標検出方法及び装置、電子機器、並びに記憶媒体に関する。前記方法は、処理対象である検出画像を取得することと、前記検出画像の画像特徴に基づいて、目標検出対象に対応するサイズ特徴とコーナー特徴を特定することと、前記サイズ特徴と前記コーナー特徴に基づいて、前記画像特徴から前記目標検出対象に対応する対象特徴を抽出することと、前記対象特徴に基づいて、前記目標検出対象のカテゴリを特定することとを、含むことを特徴とする目標検出方法である。
【選択図】図１

【特許請求の範囲】

【請求項1】

処理対象である検出画像を取得することと、
前記検出画像の画像特徴に基づいて、目標検出対象に対応するサイズ特徴とコーナー特徴を特定することと、
前記サイズ特徴と前記コーナー特徴に基づいて、前記画像特徴から前記目標検出対象に対応する対象特徴を抽出することと、
前記対象特徴に基づいて、前記目標検出対象のカテゴリを特定することとを、含むことを特徴とする目標検出方法。

【請求項2】

前記検出画像の画像特徴に基づいて、目標検出対象に対応するサイズ特徴とコーナー特徴を特定することは、
前記検出画像に対して少なくとも１段の畳み込み処理を行い、前記検出画像の画像特徴を得ることと、
前記検出画像の画像特徴に対してコーナープーリング処理を行い、目標検出対象に対応するサイズ特徴とコーナー特徴を得ることと、を含むことを特徴とする請求項１に記載の方法。

【請求項3】

前記畳み込み処理はアップサンプリング処理とダウンサンプリング処理を含み、
前記検出画像に対して少なくとも１段の畳み込み処理を行い、前記検出画像の画像特徴を得ることは、
前記検出画像に対して少なくとも１段のダウンサンプリング処理を行い、少なくとも１段のダウンサンプリング処理後の第１特徴マップを得ることと、
前記少なくとも１段のダウンサンプリング処理後の第１特徴マップに基づいて、少なくとも１段のアップサンプリング処理後の第２特徴マップを得ることと、
前記少なくとも１段のダウンサンプリング処理後の第１特徴マップと前記少なくとも１段のアップサンプリング処理後の第２特徴マップに基づいて、前記検出画像の画像特徴を得ることと、を含むことを特徴とする請求項２に記載の方法。

【請求項4】

各段の前記ダウンサンプリング処理後に１つの第１特徴マップを出力し、各段の前記アップサンプリング処理後に１つの第２特徴画像を出力し、
前記少なくとも１段のダウンサンプリング処理後の第１特徴マップに基づいて、少なくとも１段のアップサンプリング処理後の第２特徴マップを得ることは、
前記少なくとも１段のアップサンプリング処理のうちの１段目のアップサンプリング処理について、前記少なくとも１段のダウンサンプリング処理のうちの最終段のダウンサンプリング処理後の第１特徴マップを、前記１段目のアップサンプリング処理への入力とすることと、
前記１段目のアップサンプリング処理後に出力された第２特徴マップを得ることと、
前記少なくとも１段のアップサンプリング処理のうちのＮ段目のアップサンプリング処理について、前記Ｎ段目のアップサンプリング処理の直前のアップサンプリング処理後に出力された第２特徴マップ、及び前記Ｎ段目のアップサンプリング処理後に出力された第２特徴マップにマッチングする第１特徴マップを、前記Ｎ段目のアップサンプリング処理への入力とすることと、
前記Ｎ段目のアップサンプリング処理により出力された第２特徴マップを得ることとを含み、ここで、Ｎは１より大きい正の整数であることを特徴とする請求項３に記載の方法。

【請求項5】

前記Ｎ段目のアップサンプリング処理の直前のアップサンプリング処理後に出力された第２特徴マップ、及び前記Ｎ段目のアップサンプリング処理後に出力された第２特徴マップにマッチングする第１特徴マップを、前記Ｎ段目のアップサンプリング処理への入力とすることは、
前記Ｎ段目のアップサンプリング処理の直前のアップサンプリング処理後に出力された第２特徴マップと、前記Ｎ段目のアップサンプリング処理後に出力された第２特徴マップにマッチングする第１特徴マップとを特徴融合させ、前記Ｎ段目のアップサンプリング処理への入力を得ることを特徴とする請求項４に記載の方法。

【請求項6】

前記検出画像の画像特徴に対してコーナープーリング処理を行い、目標検出対象に対応するサイズ特徴とコーナー特徴を得ることは、
前記検出画像の画像特徴に対してコーナープーリング処理を行い、処理結果を得ることと、
第１分岐ネットワークを用いて前記処理結果に対して畳み込み処理を行い、目標検出対象に対応するサイズ特徴を得ることと、
第１分岐ネットワークとチャネル数が異なる第２分岐ネットワークを用いて前記処理結果に対して畳み込み処理を行い、目標検出対象に対応するコーナー特徴を得ることとを含む
ことを特徴とする請求項２に記載の方法。

【請求項7】

前記サイズ特徴と前記コーナー特徴に基づいて、前記画像特徴から前記目標検出対象に対応する対象特徴を抽出することは、
前記サイズ特徴と前記コーナー特徴に基づいて、前記検出画像における前記目標検出対象の画像領域とマッピング関係がある特徴領域を特定することと、
前記画像特徴の特徴領域から前記目標検出対象に対応する対象特徴を抽出することと、を含むことを特徴とする請求項１～６のいずれか１項に記載の方法。

【請求項8】

前記目標検出対象に対応するコーナー特徴は、少なくとも前記目標検出対象に対応する第１コーナー特徴と第２コーナー特徴を含み、
前記目標検出対象に対応するサイズ特徴は、前記目標検出対象の第１コーナー特徴に対応する長さ特徴、幅特徴と、前記目標検出対象の第２コーナー特徴に対応する長さ特徴、幅特徴とを含むことを特徴とする請求項７に記載の方法。

【請求項9】

前記第１コーナー特徴に対応する長さ特徴、幅特徴及び前記第２コーナー特徴に対応する長さ特徴、幅特徴に基づいて、前記検出画像において前記目標検出対象の検出枠を特定することと、
重なり合う任意の２つの検出枠間の交差オーバーユニオンを決定することと、
予め設定された閾値より前記交差オーバーユニオンが大きい場合、前記重なり合う任意の２つの検出枠を１つの検出枠に合併することとをさらに含むことを特徴とする請求項８に記載の方法。

【請求項10】

前記対象特徴に基づいて、前記目標検出対象のカテゴリを特定することは、
前記対象特徴に対して少なくとも１段の畳み込み処理を行い、前記目標検出対象が少なくとも１つの予め設定されたカテゴリに属する確率を得ることと、
前記目標検出対象が少なくとも１つの予め設定されたカテゴリに属する確率に基づいて、前記予め設定されたカテゴリから前記目標検出対象のカテゴリを特定することと、を含むことを特徴とする請求項１～９のいずれか１項に記載の方法。

【請求項11】

処理対象である検出画像を取得する取得モジュールと、
前記検出画像の画像特徴に基づいて、目標検出対象に対応するサイズ特徴とコーナー特徴を特定する特定モジュールと、
前記サイズ特徴と前記コーナー特徴に基づいて、前記画像特徴から前記目標検出対象に対応する対象特徴を抽出する抽出モジュールと、
前記対象特徴に基づいて、前記目標検出対象のカテゴリを特定する分類モジュールとを、含むことを特徴とする目標検出装置。

【請求項12】

前記特定モジュールは具体的に、
前記検出画像に対して少なくとも１段の畳み込み処理を行い、前記検出画像の画像特徴を得、
前記検出画像の画像特徴に対してコーナープーリング処理を行い、目標検出対象に対応するサイズ特徴とコーナー特徴を得ることを特徴とする請求項１１に記載の装置。

【請求項13】

前記畳み込み処理はアップサンプリング処理とダウンサンプリング処理を含み、
前記特定モジュールは具体的に、
前記検出画像に対して少なくとも１段のダウンサンプリング処理を行い、少なくとも１段のダウンサンプリング処理後の第１特徴マップを得、
前記少なくとも１段のダウンサンプリング処理後の第１特徴マップに基づいて、少なくとも１段のアップサンプリング処理後の第２特徴マップを得、
前記少なくとも１段のダウンサンプリング処理後の第１特徴マップと前記少なくとも１段のアップサンプリング処理後の第２特徴マップに基づいて、前記検出画像の画像特徴を得ることを特徴とする請求項１２に記載の装置。

【請求項14】

各段の前記ダウンサンプリング処理後に１つの第１特徴マップを出力し、各段の前記アップサンプリング処理後に１つの第２特徴画像を出力し、
前記特定モジュールは具体的に、
前記少なくとも１段のアップサンプリング処理のうちの１段目のアップサンプリング処理について、前記少なくとも１段のダウンサンプリング処理のうちの最終段のダウンサンプリング処理後の第１特徴マップを、前記１段目のアップサンプリング処理への入力とし、
前記１段目のアップサンプリング処理後に出力された第２特徴マップを得、
前記少なくとも１段のアップサンプリング処理のうちのＮ段目のアップサンプリング処理について、前記Ｎ段目のアップサンプリング処理の直前のアップサンプリング処理後に出力された第２特徴マップ、及び前記Ｎ段目のアップサンプリング処理後に出力された第２特徴マップにマッチングする第１特徴マップを、前記Ｎ段目のアップサンプリング処理への入力とし、
前記Ｎ段目のアップサンプリング処理により出力された第２特徴マップを得、ここで、Ｎは１より大きい正の整数であることを特徴とする請求項１３に記載の装置。

【請求項15】

前記特定モジュールは具体的に、前記Ｎ段目のアップサンプリング処理の直前のアップサンプリング処理後に出力された第２特徴マップと、前記Ｎ段目のアップサンプリング処理後に出力された第２特徴マップにマッチングする第１特徴マップとを特徴融合させ、前記Ｎ段目のアップサンプリング処理への入力を得ることを特徴とする請求項１４に記載の装置。

【請求項16】

前記特定モジュールは具体的に、
前記検出画像の画像特徴に対してコーナープーリング処理を行い、処理結果を得、
第１分岐ネットワークを用いて前記処理結果に対して畳み込み処理を行い、目標検出対象に対応するサイズ特徴を得、
第１分岐ネットワークとチャネル数が異なる第２分岐ネットワークを用いて前記処理結果に対して畳み込み処理を行い、目標検出対象に対応するコーナー特徴を得ることを特徴とする請求項１２に記載の装置。

【請求項17】

前記抽出モジュールは具体的に、
前記サイズ特徴と前記コーナー特徴に基づいて、前記検出画像における前記目標検出対象の画像領域とマッピング関係がある特徴領域を特定し、
前記画像特徴の特徴領域から前記目標検出対象に対応する対象特徴を抽出することを特徴とする請求項１１～１６のいずれか１項に記載の装置。

【請求項18】

【請求項19】

前記第１コーナー特徴に対応する長さ特徴、幅特徴及び前記第２コーナー特徴に対応する長さ特徴、幅特徴に基づいて、前記検出画像において前記目標検出対象の検出枠を特定し、重なり合う任意の２つの検出枠間の交差オーバーユニオンを決定し、予め設定された閾値より前記交差オーバーユニオンが大きい場合、前記重なり合う任意の２つの検出枠を１つの検出枠に合併する合併モジュールをさらに含むことを特徴とする請求項１８に記載の装置。

【請求項20】

前記分類モジュールは具体的に、
前記対象特徴に対して少なくとも１段の畳み込み処理を行い、前記目標検出対象が少なくとも１つの予め設定されたカテゴリに属する確率を得、
前記目標検出対象が少なくとも１つの予め設定されたカテゴリに属する確率に基づいて、前記予め設定されたカテゴリから前記目標検出対象のカテゴリを特定することを特徴とする請求項１１～１９のいずれか１項に記載の装置。

【請求項21】

プロセッサと、
プロセッサが実行可能な命令を記憶するためのメモリと、を含み、
前記プロセッサは、前記メモリに記憶されている命令を呼び出すことにより、請求項１～１０のいずれか１項に記載の方法を実行するように構成されることを特徴とする電子機器。

【請求項22】

コンピュータプログラムコマンドが記憶されているコンピュータ読み取り可能な記憶媒体であって、前記コンピュータプログラムコマンドは、プロセッサにより実行されると、請求項１～１０のいずれか１項に記載の方法を実現させることを特徴とするコンピュータ読み取り可能な記憶媒体。

【請求項23】

コンピュータ読み取り可能なコードを含み、前記コンピュータ読み取り可能なコードが電子機器で動作すると、前記電子機器のプロセッサに請求項１～１０のいずれか１項に記載の方法を実現するためのコマンドを実行させることを特徴とするコンピュータプログラム。

【発明の詳細な説明】

【技術分野】

【0001】

［関連出願の相互参照］
本開示は２０１９年１０月２９日に中国特許庁に出願された第２０１９１１０３８０４２．３号「目標検出方法及び装置、電子機器、並びに記憶媒体」を発明の名称とした中国特許出願の優先権を主張し、その内容全体が引用により本開示に組み込まれる。
［技術分野］
本開示は、コンピュータビジョン技術分野に関し、特に目標検出方法及び装置、電子機器、及び記憶媒体に関する。

【背景技術】

【0002】

コンピュータビジョンはコンピュータ及び関連装置を用いて生体視覚をシミュレーションする技術であり、収集された画像又はビデオを処理することにより、対応するシーンの三次元情報を取得することができる。コンピュータビジョンの一つの適用例として、収集された画像又はビデオを用いて目標検出を行い、目標検出対象のカテゴリ及び画像における位置を特定することができる。

【0003】

現在、目標検出技術では、ニューラルネットワークを用いて目標検出対象のカテゴリ及び位置決めのための検出枠を直接特定することができる。

【発明の概要】

【0004】

本開示は目標検出の技術的解決手段を提案する。

【0005】

本開示の一方面によれば、処理対象である検出画像を取得することと、前記検出画像の画像特徴に基づいて、目標検出対象に対応するサイズ特徴とコーナー特徴を特定することと、前記サイズ特徴と前記コーナー特徴に基づいて、前記画像特徴から前記目標検出対象に対応する対象特徴を抽出することと、前記対象特徴に基づいて、前記目標検出対象のカテゴリを特定することとを、含む目標検出方法を提供する。

【0006】

１つの可能な実施形態では、前記検出画像の画像特徴に基づいて、目標検出対象に対応するサイズ特徴とコーナー特徴を特定することは、前記検出画像に対して少なくとも１段の畳み込み処理を行い、前記検出画像の画像特徴を得ることと、前記検出画像の画像特徴に対してコーナープーリング処理を行い、目標検出対象に対応するサイズ特徴とコーナー特徴を得ることと、を含む。

【0007】

１つの可能な実施形態では、前記畳み込み処理はアップサンプリング処理とダウンサンプリング処理を含み、前記検出画像に対して少なくとも１段の畳み込み処理を行い、前記検出画像の画像特徴を得ることは、前記検出画像に対して少なくとも１段のダウンサンプリング処理を行い、少なくとも１段のダウンサンプリング処理後の第１特徴マップを得ることと、前記少なくとも１段のダウンサンプリング処理後の第１特徴マップに基づいて、少なくとも１段のアップサンプリング処理後の第２特徴マップを得ることと、前記少なくとも１段のダウンサンプリング処理後の第１特徴マップと前記少なくとも１段のアップサンプリング処理後の第２特徴マップに基づいて、前記検出画像の画像特徴を得ることと、を含む。

【0008】

１つの可能な実施形態では、各段の前記ダウンサンプリング処理後に１つの第１特徴マップを出力し、各段の前記アップサンプリング処理後に１つの第２特徴画像を出力し、前記少なくとも１段のダウンサンプリング処理後の第１特徴マップに基づいて、少なくとも１段のアップサンプリング処理後の第２特徴マップを得ることは、前記少なくとも１段のアップサンプリング処理のうちの１段目のアップサンプリング処理について、前記少なくとも１段のダウンサンプリング処理のうちの最終段のダウンサンプリング処理後の第１特徴マップを、前記１段目のアップサンプリング処理への入力とすることと、前記１段目のアップサンプリング処理後に出力された第２特徴マップを得ることと、前記少なくとも１段のアップサンプリング処理のうちのＮ段目のアップサンプリング処理について、前記Ｎ段目のアップサンプリング処理の直前のアップサンプリング処理後に出力された第２特徴マップ、及び前記Ｎ段目のアップサンプリング処理後に出力された第２特徴マップにマッチングする第１特徴マップを、前記Ｎ段目のアップサンプリング処理への入力とすることと、前記Ｎ段目のアップサンプリング処理により出力された第２特徴マップを得ることとを含み、ここで、Ｎは１より大きい正の整数である。

【0009】

１つの可能な実施形態では、前記Ｎ段目のアップサンプリング処理の直前のアップサンプリング処理後に出力された第２特徴マップ、及び前記Ｎ段目のアップサンプリング処理後に出力された第２特徴マップにマッチングする第１特徴マップを、前記Ｎ段目のアップサンプリング処理への入力とすることは、前記Ｎ段目のアップサンプリング処理の直前のアップサンプリング処理後に出力された第２特徴マップと、前記Ｎ段目のアップサンプリング処理後に出力された第２特徴マップにマッチングする第１特徴マップとを特徴融合させ、前記Ｎ段目のアップサンプリング処理への入力を得る。

【0010】

１つの可能な実施形態では、前記検出画像の画像特徴に対してコーナープーリング処理を行い、目標検出対象に対応するサイズ特徴とコーナー特徴を得ることは、前記検出画像の画像特徴に対してコーナープーリング処理を行い、処理結果を得ることと、第１分岐ネットワークを用いて前記処理結果に対して畳み込み処理を行い、目標検出対象に対応するサイズ特徴を得ることと、第１分岐ネットワークとチャネル数が異なる第２分岐ネットワークを用いて前記処理結果に対して畳み込み処理を行い、目標検出対象に対応するコーナー特徴を得ることとを含む。

【0011】

１つの可能な実施形態では、前記サイズ特徴と前記コーナー特徴に基づいて、前記画像特徴から前記目標検出対象に対応する対象特徴を抽出することは、前記サイズ特徴と前記コーナー特徴に基づいて、前記検出画像における前記目標検出対象の画像領域とマッピング関係がある特徴領域を特定することと、前記画像特徴の特徴領域から前記目標検出対象に対応する対象特徴を抽出することと、を含む。

【0012】

１つの可能な実施形態では、前記目標検出対象に対応するコーナー特徴は、少なくとも前記目標検出対象に対応する第１コーナー特徴と第２コーナー特徴を含み、前記目標検出対象に対応するサイズ特徴は、前記目標検出対象の第１コーナー特徴に対応する長さ特徴、幅特徴と、前記目標検出対象の第２コーナー特徴に対応する長さ特徴、幅特徴とを含む。

【0013】

１つの可能な実施形態では、前記第１コーナー特徴に対応する長さ特徴、幅特徴及び前記第２コーナー特徴に対応する長さ特徴、幅特徴に基づいて、前記検出画像において前記目標検出対象の検出枠を特定することと、重なり合う任意の２つの検出枠間の交差オーバーユニオン（Ｉｎｔｅｒｓｅｃｔｉｏｎ－ｏｖｅｒ－Ｕｎｉｏｎ，ＩｏＵ）を決定することと、予め設定された閾値より前記交差オーバーユニオンが大きい場合、前記重なり合う任意の２つの検出枠を１つの検出枠に合併することとをさらに含む。

【0014】

１つの可能な実施形態では、前記対象特徴に基づいて、前記目標検出対象のカテゴリを特定することは、前記対象特徴に対して少なくとも１段の畳み込み処理を行い、前記目標検出対象が少なくとも１つの予め設定されたカテゴリに属する確率を得ることと、前記目標検出対象が少なくとも１つの予め設定されたカテゴリに属する確率に基づいて、前記予め設定されたカテゴリから前記目標検出対象のカテゴリを特定することと、を含む。

【0015】

本開示の一方面によれば、処理対象である検出画像を取得する取得モジュールと、前記検出画像の画像特徴に基づいて、目標検出対象に対応するサイズ特徴とコーナー特徴を特定する特定モジュールと、前記サイズ特徴と前記コーナー特徴に基づいて、前記画像特徴から前記目標検出対象に対応する対象特徴を抽出する抽出モジュールと、前記対象特徴に基づいて、前記目標検出対象のカテゴリを特定する分類モジュールとを、含む目標検出装置を提供する。

【0016】

１つの可能な実施形態では、前記特定モジュールは具体的に、前記検出画像に対して少なくとも１段の畳み込み処理を行い、前記検出画像の画像特徴を得、前記検出画像の画像特徴に対してコーナープーリング処理を行い、目標検出対象に対応するサイズ特徴とコーナー特徴を得る。

【0017】

１つの可能な実施形態では、前記畳み込み処理はアップサンプリング処理とダウンサンプリング処理を含み、前記特定モジュールは具体的に、前記検出画像に対して少なくとも１段のダウンサンプリング処理を行い、少なくとも１段のダウンサンプリング処理後の第１特徴マップを得、前記少なくとも１段のダウンサンプリング処理後の第１特徴マップに基づいて、少なくとも１段のアップサンプリング処理後の第２特徴マップを得、前記少なくとも１段のダウンサンプリング処理後の第１特徴マップと前記少なくとも１段のアップサンプリング処理後の第２特徴マップに基づいて、前記検出画像の画像特徴を得る。

【0018】

１つの可能な実施形態では、各段の前記ダウンサンプリング処理後に１つの第１特徴マップを出力し、各段の前記アップサンプリング処理後に１つの第２特徴画像を出力し、前記特定モジュールは具体的に、前記少なくとも１段のアップサンプリング処理のうちの１段目のアップサンプリング処理について、前記少なくとも１段のダウンサンプリング処理のうちの最終段のダウンサンプリング処理後の第１特徴マップを、前記１段目のアップサンプリング処理への入力とし、前記１段目のアップサンプリング処理後に出力された第２特徴マップを得、前記少なくとも１段のアップサンプリング処理のうちのＮ段目のアップサンプリング処理について、前記Ｎ段目のアップサンプリング処理の直前のアップサンプリング処理後に出力された第２特徴マップ、及び前記Ｎ段目のアップサンプリング処理後に出力された第２特徴マップにマッチングする第１特徴マップを、前記Ｎ段目のアップサンプリング処理への入力とし、前記Ｎ段目のアップサンプリング処理により出力された第２特徴マップを得、ここで、Ｎは１より大きい正の整数である。

【0019】

１つの可能な実施形態では、前記特定モジュールは具体的に、前記Ｎ段目のアップサンプリング処理の直前のアップサンプリング処理後に出力された第２特徴マップと、前記Ｎ段目のアップサンプリング処理後に出力された第２特徴マップにマッチングする第１特徴マップとを特徴融合させ、前記Ｎ段目のアップサンプリング処理への入力を得る。

【0020】

１つの可能な実施形態では、前記特定モジュールは具体的に、前記検出画像の画像特徴に対してコーナープーリング処理を行い、処理結果を得、第１分岐ネットワークを用いて前記処理結果に対して畳み込み処理を行い、目標検出対象に対応するサイズ特徴を得、第１分岐ネットワークとチャネル数が異なる第２分岐ネットワークを用いて前記処理結果に対して畳み込み処理を行い、目標検出対象に対応するコーナー特徴を得る。

【0021】

１つの可能な実施形態では、前記抽出モジュールは具体的に、前記サイズ特徴と前記コーナー特徴に基づいて、前記検出画像における前記目標検出対象の画像領域とマッピング関係がある特徴領域を特定し、前記画像特徴の特徴領域から前記目標検出対象に対応する対象特徴を抽出する。

【0022】

【0023】

１つの可能な実施形態では、前記第１コーナー特徴における対応の長さ特徴、幅特徴及び前記第２コーナー特徴における対応の長さ特徴、幅特徴に基づいて、前記検出画像において前記目標検出対象の検出枠を特定し、重なり合う任意の２つの検出枠間の交差オーバーユニオンを決定し、予め設定された閾値より前記交差オーバーユニオンが大きい場合、前記重なり合う任意の２つの検出枠を１つの検出枠に合併する合併モジュールをさらに含む。

【0024】

１つの可能な実施形態では、前記分類モジュールは具体的に、前記対象特徴に対して少なくとも１段の畳み込み処理を行い、前記目標検出対象が少なくとも１つの予め設定されたカテゴリに属する確率を得、前記目標検出対象が少なくとも１つの予め設定されたカテゴリに属する確率に基づいて、前記予め設定されたカテゴリから前記目標検出対象のカテゴリを特定する。

【0025】

本開示の一方面によれば、プロセッサと、プロセッサが実行可能な命令を記憶するためのメモリと、を含み、前記プロセッサは、上記目標検出方法を実行するように構成される電子機器を提供する。

【0026】

本開示の一方面によれば、コンピュータプログラムコマンドを記憶されているコンピュータ読み取り可能な記憶媒体であって、前記コンピュータプログラムコマンドは、プロセッサにより実行されると、上記目標検出方法を実現させるコンピュータ読み取り可能な記憶媒体を提供する。

【0027】

本開示の一方面によれば、コンピュータ読み取り可能なコードを含み、前記コンピュータ読み取り可能なコードが電子機器で動作すると、前記電子機器のプロセッサに上記目標検出方法を実現するためのコマンドを実行させるコンピュータプログラムを提供する。

【0028】

なお、上述した概略的な説明及び次の詳細な説明は、例示的及び解釈的なものに過ぎず、本開示を限定するものではないと理解すべきである。

【0029】

以下、図面を参考しながら例示的な実施例を詳細に説明することによって、本開示の他の特徴及び方面は明瞭になる。

【図面の簡単な説明】

【0030】

ここで、本明細書の一部として組み込まれる図面は、本開示の実施例に適し、明細書と共に本開示の技術的解決手段の説明に用いられる。

【図1】本開示の実施例に係る目標検出方法のフローチャートを示す。

【図2】本開示の実施例に係る目標検出対象の検出枠のブロック図を示す。

【図3】本開示の実施例に係るニューラルネットワークを用いて目標検出対象のカテゴリを得るブロック図を示す。

【図4】本開示の実施例に係る目標検出装置のブロック図を示す。

【図5】本開示の実施例に係る電子機器の一例のブロック図を示す。

【0031】

以下に、図面を参照しながら本開示の様々な例示的な実施例、特徴および方面を詳細に説明する。図面における同じ符号は同じまたは類似する機能の要素を示す。図面において実施例の様々な方面を示したが、特に断らない限り、比例に従って図面を描く必要がない。

【0032】

ここでの用語「例示的」とは、「例、実施例として用いられることまたは説明的なもの」を意味する。ここで「例示的」に説明されるいかなる実施例は他の実施例より好ましいまたは優れるものであると理解すべきではない。

【0033】

本明細書における用語「及び／又は」は、単に関連対象との関連関係を記述するものであり、３つの関係が存在可能であることを示し、例えば、Ａ及び／又はＢは、Ａのみが存在し、ＡとＢの両方が存在し、Ｂのみが存在するという３つの場合を示してもよい。また、本明細書における用語「少なくとも１つ」は複数のうちのいずれか１つ、又は複数のうちの少なくとも２つの任意の組み合わせを示し、例えば、Ａ、Ｂ、Ｃのうちの少なくとも１つを含むことは、Ａ、Ｂ及びＣからなる集合から選択されたいずれか１つ又は複数の要素を含むことを示してもよい。

【0034】

また、本開示をより効果的に説明するために、以下の具体的な実施形態において様々な具体的な詳細を示す。当業者であれば、本開示は何らかの具体的な詳細がなくても同様に実施できると理解すべきである。いくつかの実施例では、本開示の趣旨を強調するために、当業者が熟知している方法、手段、要素および回路について詳細な説明を行わない。

【0035】

本開示の実施例に係る目標検出方法によれば、まず、処理対象である検出画像を取得し、次に、検出画像の画像特徴に基づいて、目標検出対象に対応するサイズ特徴とコーナー特徴を特定し、そして、サイズ特徴とコーナー特徴に基づいて、画像特徴から目標検出対象に対応する対象特徴を抽出し、その後、目標検出対象に対応する対象特徴に基づいて、目標検出対象のカテゴリを特定してもよい。これにより、目標検出の検出結果を得ることができる。このような方法により、目標検出対象に対応する対象特徴を先に特定し、その後、対応する対象特徴に基づいて目標検出対象を分類することができる。そのため、目標検出において、目標検出対象の対象特徴及び目標検出対象のカテゴリを非並行して特定することができ、より正確な検出結果を得ることができ、検出結果の精度が向上する。

【0036】

関連技術では、目標検出は一般的に、予備検出枠を形成するアンカーを集中的に収集する必要がある。しかし、大量のアンカーには多くの無効なアンカーがあるので、処理時間及びストレージスペースがかかる。なお、関連技術の目標検出プロセスにおいて、目標検出対象の検出枠とカテゴリとは並行して特定されるため、目標検出対象のカテゴリを特定する際に検出枠の情報を考慮することができず、結果として、十分に正確な検出結果を得ることができない。本開示の実施例に係る目標検出方法によれば、目標検出対象のコーナーとサイズを特定することによって目標検出対象の対象特徴を先に特定することができる。大量のアンカーを収集することによる時間及びストレージスペースの浪費を低減させる。さらに、コーナーとサイズに基づいて得られた対象特徴は、２つの目標検出対象が重なり合う場合に、アンカーによって特定された中心点により異なる目標検出対象を区別する難しさを軽減することができる。そのため、本開示の実施例に係る目標検出方法によれば、コーナー特徴によって異なる目標検出対象を区別することができ、アンカーの収集にかかる時間及びストレージスペースを節約することができ、検出結果の取得効率が向上し、且つ正確性が高い検出結果を得ることができる。

【0037】

本発明の実施例に係る情報処理方法は、目標検出が必要な任意のシーンに適用することが可能である。例えば、収集したビデオに対して目標検出を行うシーンに適用して、検出結果に基づいてビデオにおける目標検出対象の軌跡を得てもよい。例えば、セキュリティシーンに適用して、検出結果に基づいて容疑者を認識、追跡してもよい。以下、実施例によって本発明に係る目標検出方法について説明する。

【0038】

図１は本開示の実施例に係る目標検出方法のフローチャートを示す。この目標検出方法は、ユーザ機器（ＵｓｅｒＥｑｕｉｐｍｅｎｔ、ＵＥ）、携帯機器、ユーザ端末、端末、セルラーホン、コードレス電話、パーソナル・デジタル・アシスタント（ＰｅｒｓｏｎａｌＤｉｇｉｔａｌＡｓｓｉｓｔａｎｔ、ＰＤＡ）、手持ち装置、計算装置、車載装置、ウエアラブルデバイス等の端末装置、サーバ又は他の目標検出装置により実行されてもよい。いくつかの可能な実施形態では、この目標検出方法は、プロセッサによって、メモリに記憶されているコンピュータ読取可能な命令を呼び出して実現されてもよい。以下、目標検出装置を実行主体とすることを例として本開示の実施例に係る目標検出方法について説明する。

【0039】

図１に示すように、前記目標検出方法は、以下のステップを含む。

【0040】

ステップＳ１１：処理対象である検出画像を取得する。

【0041】

本開示の実施例では、目標検出装置は、現在のシーンを撮影し、処理対象である検出画像を取得することが可能な画像取得機能を有するものであってもよいし、他の装置によって処理対象である検出画像を取得するものであってもよい。検出画像は、個別に取得された画像であってもよいし、ビデオストリーム内の画像フレームであってもよい。

【0042】

ここで、取得された処理対象である検出画像は、例えば、画像スケーリング、画像強調、画像フィルタなどの前処理が行われた検出画像であってもよい。例えば、検出画像のアスペクト比を変えることなく、検出画像の長辺と短辺を適切なサイズに調整して、前処理された検出画像を得ることができる。

【0043】

ステップＳ１２：前記検出画像の画像特徴に基づいて、目標検出対象に対応するサイズ特徴とコーナー特徴を特定する。

【0044】

本開示の実施例では、ニューラルネットワークを用いて検出画像の画像特徴を抽出することができ、検出画像の画像特徴に基づいて、目標検出対象に対応するサイズ特徴を特定するとともに目標検出対象に対応するコーナー特徴を特定することができる。ここで、目標検出対象は、検出画像において検出する必要がある対象であってもよい。例えば、歩行者、車両、建物、マークなどの対象の画像である。目標検出対象のサイズ特徴は、目標検出対象が位置する画像領域のサイズ特徴を特徴付けることができる。例えば、検出画像における目標検出対象の画像領域は四角形で示されている場合、目標検出対象に対応するサイズ特徴は四角形に対応する長さ特徴及び／又は幅特徴であってもよい。コーナー特徴は、目標検出対象が位置する画像領域の対角点の位置情報を特徴付けることができる。

【0045】

１つの可能な実施形態では、目標検出対象に対応するコーナー特徴は、少なくとも前記目標検出対象に対応する第１コーナー特徴と第２コーナー特徴を含み、前記目標検出対象に対応するサイズ特徴は、前記目標検出対象の第１コーナー特徴に対応する長さ特徴、幅特徴と、前記目標検出対象の第２コーナー特徴に対応する長さ特徴、幅特徴とを含む。

【0046】

この実施形態では、コーナーは第１コーナーと第２コーナーを含んでもよく、第１コーナーと第２コーナーは一対の対角点であってもよい。それに応じて、コーナー特徴は第１コーナー特徴と第２コーナー特徴を含んでもよい。このように、目標検出対象が位置する画像領域の対角点の位置情報を第１コーナー特徴と第２コーナー特徴の組み合わせで示すことにより、異なる目標検出対象を区別しにくいという問題の発生を低減することができる。それに応じて、目標検出対象に対応するサイズ特徴は、第１コーナー特徴における対応の長さ特徴、幅特徴と、第２コーナー特徴における対応の長さ特徴、幅特徴とを含んでもよい。このように、異なるコーナー特徴における対応のサイズ特徴に基づいて、さらに異なる目標検出対象を区別することができる。これにより、目標検出対象に対してより正確な検出結果を得ることができる。

【0047】

ここで、第１コーナーは目標検出対象の左上コーナー又は右下コーナーであってもよい。それに応じて、第２コーナーは目標検出対象に対応する右上コーナー又は左下コーナーであってもよい。第１コーナーと第２コーナーは対角点であってもよく、すなわち、第１コーナーを左上コーナー、第２コーナーを右下コーナーとしてもよいし、第１コーナーを右上コーナー、第２コーナーを左下コーナーとしてもよい。

【0048】

ステップＳ１３：前記サイズ特徴と前記コーナー特徴に基づいて、前記画像特徴から前記目標検出対象に対応する対象特徴を抽出する。

【0049】

本開示の実施例では、目標検出対象に対応するサイズ特徴に基づいて、目標検出対象に対応する画像サイズを特定することができ、目標検出対象に対応するコーナー特徴に基づいて、目標検出対象の検出画像における画像位置を特定することができ、目標検出対象に対応するサイズ特徴とコーナー特徴を組み合わせることにより、目標検出対象に対応する対象特徴を特定することができる。この対象特徴は、検出画像における目標検出対象の画像領域に対応する特徴を特徴付けることができ、この対象特徴は目標検出対象の画像位置を示すものであってもよい。

【0050】

１つの可能な実施形態では、目標検出対象に対応する対象特徴を抽出するとき、サイズ特徴とコーナー特徴に基づいて、検出画像における目標検出対象の画像領域とマッピング関係がある特徴領域を特定し、その後、画像特徴の特徴領域から目標検出対象に対応する対象特徴を抽出することができる。

【0051】

この実施形態では、検出画像に対して特徴抽出を行い、検出画像の画像特徴を得ることができる。この画像特徴は特徴マップとして表してもよい。目標検出対象に対応するサイズ特徴とコーナー特徴に基づいて、この特徴マップにおいて、検出画像における目標検出対象の画像領域に対応する、サイズ特徴とコーナー特徴で示す特徴領域を特定することができる。特徴マップからこの特徴領域の画像特徴を、目標検出対象に対応する対象特徴として抽出してもよい。対象特徴に基づいて、検出画像における目標検出対象の画像領域を特定することができる。

【0052】

１つの可能な実施形態では、第１コーナー特徴における対応の長さ特徴、幅特徴及び第２コーナー特徴における対応の長さ特徴、幅特徴に基づいて、前記検出画像における目標検出対象の検出枠を特定することができ、その後、重なり合う任意の２つの検出枠間の交差オーバーユニオンを決定し、予め設定された閾値より交差オーバーユニオンが大きい場合、重なり合う任意の２つの検出枠を１つの検出枠に合併する。

【0053】

この実施形態では、第１コーナー特徴における対応の長さ特徴、幅特徴は、上記特徴マップにおいて１つの特徴領域を示してもよい。第２コーナー特徴における対応の長さ特徴、幅特徴は、上記特徴マップにおいて１つの特徴領域を示してもよい。第１コーナー特徴が示す特徴領域と第２コーナー特徴が示す特徴領域は同一の特徴領域であってもよく、異なる特徴領域であってもよい。特徴領域と、検出画像における目標検出対象の画像領域との間のマッピング関係に基づいて、検出枠を用いて検出画像における目標検出対象の画像領域を囲むことができる。この検出枠は閉鎖図形であってもよく、例えば、正方形、長方形などの四角形である。検出枠は検出画像における目標検出対象の画像領域を特定することができ、上記コーナー特徴は検出枠の２つの対角点の位置を示すことができ、上記サイズ特徴は検出枠の長さ、幅を示すことができる。

【0054】

ここで、同一の目標検出対象について、複数の検出枠が存在する可能性があり、複数の検出枠同士は重なり合う可能性がある。このため、目標検出対象の検出枠が重なり合う場合、重なり合う任意の２つの検出枠間の交差オーバーユニオンを算出することができる。予め設定された閾値より算出された交差オーバーユニオンが大きければ、この重なり合う２つの検出枠は同一の目標検出対象を標識したと考えられ、重なり合う２つの検出枠のうち大きい方の検出枠を目標検出対象の検出枠とし、小さい方の検出枠を削除するようにしてもよい。または、重なり合う２つの検出枠を合併することで１つの新たな検出枠を形成し、合併前の２つの検出枠を含む新たな検出枠を目標検出対象の検出枠とするようにしてもよい。このように、得られた検出枠をさらに選別し、１つの目標検出対象が１つの検出枠に対応するように、同一の目標検出対象の検出枠を合併することができる。

【0055】

図２は本開示の実施例に係る目標検出対象の検出枠のブロック図を示す。第１コーナーを左上コーナーとすることを例として、第１コーナー特徴、第１コーナー特徴における対応の長さ特徴、幅特徴に基づいて、図２に示す検出枠を形成することができる。

【0056】

ステップＳ１４：前記対象特徴に基づいて、前記目標検出対象のカテゴリを特定する。

【0057】

本開示の実施例では、ニューラルネットワークを用いて、抽出された対象特徴に対してさらに特徴抽出を行うことができる。例えば、対象特徴に対して畳み込み処理、正規化処理などを行い、目標検出対象のカテゴリを得ることができる。例えば、この目標検出対象は車両、歩行者、建物、公共施設などのカテゴリに属する。これにより、対象特徴に基づいて目標検出対象のカテゴリを得、検出画像における目標検出対象に対する目標検出を実現することができる。

【0058】

本開示の実施例では、まず、検出画像の画像特徴により、目標検出対象に対応するサイズ特徴とコーナー特徴を特定する。次に、サイズ特徴とコーナー特徴に基づいて、画像特徴から目標検出対象に対応する対象特徴を抽出する。さらに、抽出された対象特徴に基づいて、目標検出対象のカテゴリを特定する。このように、目標検出対象の対象特徴の特定と、目標検出対象の分類とが非並行して行われる。目標検出対象を分類するとき、目標検出対象の対象特徴を考慮することができるので、より正確な分類結果を得ることができ、目標検出の精度が向上できる。

【0059】

１つの可能な実施形態では、前記対象特徴に対して少なくとも１段の畳み込み処理を行い、前記目標検出対象が少なくとも１つの予め設定されたカテゴリに属する確率を得る。その後、前記目標検出対象が少なくとも１つの予め設定されたカテゴリに属する確率に基づいて、前記予め設定されたカテゴリから前記目標検出対象のカテゴリを特定する。

【0060】

この実施形態では、ニューラルネットワークを用いて、抽出された対象特徴に対して少なくとも１段の畳み込み処理をさらに行うことができ、目標検出対象が少なくとも１つの予め設定されたカテゴリに属する確率を得ることができる。例えば、予め設定されたカテゴリは、歩行者、車両、建物などのいずれかのカテゴリである。対象特徴に対して畳み込み処理をさらに行うことにより、目標検出対象がそれぞれ歩行者、車両、建物のうちの複数の予め設定されたカテゴリに属する確率を得ることができる。その後、確率が最も高い予め設定されたカテゴリを目標検出対象のカテゴリとして特定することができる。

【0061】

本開示の実施例に係る目標検出方法によれば、目標検出対象に対応する対象特徴を先に特定し、その後、対象特徴を用いて目標検出対象を分類し、目標検出対象のカテゴリを特定することができる。このように、正確性が高い検出結果を得ることができる。本開示の実施例に係る目標検出方法によれば、ニューラルネットワークを用いて目標検出対象のカテゴリを得ることができる。以下、ニューラルネットワークを用いて目標検出対象のカテゴリを得るプロセスについて説明する。

【0062】

１つの可能な実施形態では、前記検出画像に対して少なくとも１段の畳み込み処理を行い、前記検出画像の画像特徴を得、その後、前記検出画像の画像特徴に対してコーナープーリング処理を行い、目標検出対象に対応するサイズ特徴とコーナー特徴を得ることができる。

【0063】

この実施形態では、ニューラルネットワークは多段の畳み込み層と角点プーリング層を含んでもよい。検出画像をニューラルネットワークへの入力としてもよく、ニューラルネットワークを用いて検出画像に対して多段の畳み込み処理を行い、検出画像の画像特徴を得ることができる。その後、ニューラルネットワークの角点プーリング層を用いて検出画像の画像特徴に対してコーナープーリング処理を行う。目標検出対象に対応するサイズ特徴とコーナー特徴を得ることができる。

【0064】

この実施形態の一例では、前記畳み込み処理はアップサンプリング処理とダウンサンプリング処理を含み、前記検出画像に対して少なくとも１段の畳み込み処理を行い、前記検出画像の画像特徴を得ることは、前記検出画像に対して少なくとも１段のダウンサンプリング処理を行い、少なくとも１段のダウンサンプリング処理後の第１特徴マップを得ることと、前記少なくとも１段のダウンサンプリング処理後の第１特徴マップに基づいて、少なくとも１段のアップサンプリング処理後の第２特徴マップを得ることと、前記少なくとも１段のダウンサンプリング処理後の第１特徴マップと前記少なくとも１段のアップサンプリング処理後の第２特徴マップに基づいて、前記検出画像の画像特徴を得ることとを含んでもよい。

【0065】

この例では、畳み込み処理は、アップサンプリング処理とダウンサンプリング処理を含んでもよく、まず、ニューラルネットワークを用いて検出画像に対して多段のダウンサンプリング処理を行い、各段のダウンサンプリング処理後の第１特徴マップを得る。次に、多段のダウンサンプリング処理のうちの最終段のダウンサンプリング処理後に取られた第１特徴マップに対して多段のアップサンプリング処理を行い、各段のアップサンプリング処理後の第２特徴マップを得ることができる。その後、多段のダウンサンプリング処理後の第１特徴マップと多段のアップサンプリング処理後の第２特徴マップに基づいて、検出画像の画像特徴を得ることができる。例えば、多段のダウンサンプリング処理後の第１特徴マップと多段のアップサンプリング処理後の第２特徴マップを特徴融合させ、検出画像の画像特徴を得ることができる。ここで、バイリニア補間方式によりアップサンプリング処理を行い、正確な第２特徴マップを得ることができる。

【0066】

この例では、各段の前記ダウンサンプリング処理後に１つの第１特徴マップを出力し、各段の前記アップサンプリング処理後に１つの第２特徴画像を出力し、前記少なくとも１段のアップサンプリング処理のうちの１段目のアップサンプリング処理について、前記少なくとも１段のダウンサンプリング処理のうちの最終段のダウンサンプリング処理後の第１特徴マップを、前記１段目のアップサンプリング処理への入力とし、前記１段目のアップサンプリング処理後に出力された第２特徴マップを得、前記少なくとも１段のアップサンプリング処理のうちのＮ段目のアップサンプリング処理について、前記Ｎ段目のアップサンプリング処理の直前のアップサンプリング処理後に出力された第２特徴マップ、及び前記Ｎ段目のアップサンプリング処理後に出力された第２特徴マップにマッチングする第１特徴マップを、前記Ｎ段目のアップサンプリング処理への入力とし、前記Ｎ段目のアップサンプリング処理により出力された第２特徴マップを得、ここで、Ｎは１より大きい正の整数である。

【0067】

この例では、検出画像に対して多段のダウンサンプリング処理を行い、各段のダウンサンプリング処理後の第１特徴マップを得ることができる。多段のダウンサンプリング処理のうちの最終段のダウンサンプリング処理後に取られた第１特徴マップに対して、多段のアップサンプリング処理のうちの１段目のアップサンプリング処理によりこの第１特徴マップをアップサンプリングして、１段目のアップサンプリング処理後の第２特徴マップを得ることができる。その後、１段目のアップサンプリング処理後の第２特徴マップ及びこの第２特徴マップにマッチングする第１特徴マップに基づいて、２段目のアップサンプリング処理への入力を得ることができる。例えば、この第２特徴マップをこの第１特徴マップと融合させ、２段目のアップサンプリング処理への入力を得る。又は、この第１特徴マップに対して畳み込み処理を行った後、この第２特徴マップと融合させ、２段目のアップサンプリング処理への入力を得る。ここで、この第２特徴マップにマッチングする第１特徴マップは、この第２特徴マップの画像サイズにマッチングする第１特徴マップであってもよい。２段目のアップサンプリング処理により入力に対してアップサンプリングを行い、２段目のアップサンプリング処理後の第２特徴マップを得ることができる。その後、２段目のアップサンプリング処理後の第２特徴マップ及びこの第２特徴マップにマッチングする第１特徴マップに基づいて、３段目のアップサンプリング処理への入力を得る。以下同様にして、Ｎ段目のアップサンプリング処理後の第２特徴マップを得ることができる。ここで、Ｎは１より大きい正の整数である。このように、アップサンプリング処理プロセスにおいて、ダウンサンプリング処理により取られた画像特徴を考慮することができ、より正確な画像特徴を抽出する。

【0068】

この実施形態の一例において、前記検出画像の画像特徴に対してコーナープーリング処理を行い、処理結果を得ることができる。その後、第１分岐ネットワークを用いて前記処理結果に対して畳み込み処理を行い、目標検出対象に対応するサイズ特徴を得、第１分岐ネットワークとチャネル数が異なる第２分岐ネットワークを用いて前記処理結果に対して畳み込み処理を行い、目標検出対象に対応するコーナー特徴を得る。

【0069】

この例では、上記ニューラルネットワークは、２つの分岐ネットワーク、すなわち、第１分岐ネットワークと第２分岐ネットワークを含んでもよい。ニューラルネットワークを用いて検出画像の画像特徴を抽出した後、第１分岐ネットワークを用いて検出画像の画像特徴に対して畳み込み処理を行い、第１分岐ネットワークの特徴マップを得ることができる。この特徴マップは４つのチャネルに対応してもよい。この場合に、１つのチャネルは第１コーナーの長さ特徴に対応し、１つのチャネルは第１コーナーの幅特徴に対応し、１つのチャネルは第２コーナーの長さ特徴に対応し、１つのチャネルは第２コーナーの幅特徴に対応する。それに応じて、第２分岐ネットワークを用いて検出画像の画像特徴に対して畳み込み処理を行い、第２分岐ネットワークの特徴マップを得ることができる。この特徴マップは２つのチャネルに対応してもよい。この場合に、１つのチャネルは第１コーナー特徴に対応し、第１コーナーの検出画像における位置を示すことができ、もう１つのチャネルは第２コーナー特徴に対応し、第２コーナーの検出画像における位置を示すことができる。このようにして、目標検出対象に対応するサイズ特徴とコーナー特徴に基づいて、目標検出対象が位置する画像領域を特定することができ、且つ、異なる目標検出対象を区別できない可能性を低くすることができる。

【0070】

図３は本開示の実施例に係るニューラルネットワークを用いて目標検出対象の検出結果を得るブロック図を示す。

【0071】

以下、一例で上記ニューラルネットワークを用いて目標検出対象のカテゴリを得るプロセスについて説明する。検出画像のアスペクト比を変えることなく、検出画像の長辺と短辺を適切なサイズ、例えば、検出画像の短辺を８００画素に調整することができる。その後、調整後の検出画像をニューラルネットワークに入力する。ニューラルネットワークは多段の畳み込み層を含んでもよい。まず、ニューラルネットワークを用いて検出画像に対してダウンサンプリング処理を行うことができる。各段のダウンサンプリング処理により１つの第１特徴マップを得ることができ、４段の畳み込み処理を行い、４つの異なるサイズの第１特徴マップを得ることができる。それぞれＣ_２、Ｃ_３、Ｃ_４、Ｃ_５、と表記する。ここで、Ｃ_２の長辺と短辺はいずれもＣ_３の２倍であり、Ｃ_３の長辺と短辺はいずれもＣ_４の２倍であり、Ｃ_４の長辺と短辺はいずれもＣ_５の２倍である。次に、Ｃ_５に対して１＊１の畳み込みカーネル計算を行い、新たな特徴マップＦ_５を得、Ｆ_５の長辺と短辺はＣ_５と同一である。Ｆ_５に対して多段のアップサンプリング処理を行い、各段のアップサンプリング処理により第２特徴マップを得ることができる。すなわち、Ｆ_５に対してバイリニア補間のアップサンプリング処理を行うことができ、長辺と短辺がいずれも２倍に拡大された第２特徴マップを得、この第２特徴マップをＦ_５′と表記することができる。Ｃ_４に対して１＊１の畳み込みカーネル計算を行い、新たな特徴マップＣ_４′を得ることができる。Ｃ_４′とＣ_５′はサイズが同一である。Ｃ_４′とＣ_５′の２つの特徴マップを加算し、２段目のアップサンプリング処理への入力Ｆ_４を得ることができる。そして、Ｆ_４に対してアップサンプリング処理を行い、長辺と短辺がいずれも２倍に拡大された第２特徴マップＦ_４′を得、Ｃ_３に対して１＊１の畳み込みカーネル計算を行い、新たな特徴マップＣ_３′を得ることができる。Ｃ_３′とＦ_４′はサイズが同一である。Ｃ_３′とＦ_４′の２つの特徴マップを加算し、３段目のアップサンプリング処理への入力Ｆ_３を得ることができる。以下同様にして、複数回のアップサンプリング処理により、最終段のアップサンプリング処理後に出力された第２特特徴マップＦ_２を得ることができる。Ｆ_２の長辺と短辺はＣ_２と同一である。

【0072】

そして、第２特徴マップＦ_２に対してコーナープーリング処理を行い、処理結果を得る。この処理結果はそれぞれ第１分岐ネットワークと第２分岐ネットワークを通過することができる。各分岐ネットワークは３＊３の畳み込みカーネルを含んでもよい。第１分岐ネットワークは４チャネルの特徴マップｌｏｃａｔｉｏｎを形成することができ、第２分岐ネットワークは２チャネルの特徴マップｍａｓｋを形成することができる。ここで、特徴マップｍａｓｋの２チャネルはそれぞれ左上コーナー特徴と右下コーナー特徴を示し、特徴マップｌｏｃａｔｉｏｎの４チャネルはそれぞれ左上コーナーに対応する幅特徴ｄｗ、長さ特徴ｄｈ、及び右下コーナーに対応する幅特徴ｄｗ、長さ特徴ｄｈを示す。

【0073】

左上コーナー特徴と右下コーナー特徴、左上コーナーに対応する幅特徴と長さ特徴、右下コーナーに対応する幅特徴と長さ特徴に基づいて、１つの特徴領域を特定することができる。第２特徴マップＦ_２からこの特徴領域の画像特徴を抽出し、目標検出対象の対象特徴を得ることができる。例えば、ＲｏＩＡｌｉｇｎ層により第２特徴マップＦ_２の特徴領域内において対応する画像特徴を得ることができる。その後、３＊３の畳み込みカーネルを用いて対象特徴を分類し、検出画像における目標検出対象のカテゴリを得ることができる。

【0074】

ここで、左上コーナー特徴、右下コーナー特徴、及び左上コーナーに対応するｄｗ、ｄｈ、右下コーナーに対応するｄｗ、ｄｈによって、目標検出対象の検出枠を得ることができる。

【0075】

検出枠の幅を例にとると、検出枠の幅は下記式（１）で算出される。
（数１）
ｗ＝ｓ＊β＊ｅ^ｄｗ＊α ・・・（１）
ただし、ｗは検出枠の画像幅であり、ｓ、β、αはマッピングパラメータであってもよく、ネットワークパラメータにより得ることができる。ｄｗは幅特徴である。

【0076】

目標検出対象の検出枠が複数ある場合、目標検出対象の複数の検出枠に対して非極大値抑制処理を行い、目標検出対象の複数の検出枠を１つの検出枠に合併して目標検出対象の最終的な検出結果を得ることができる。

【0077】

本開示の実施例に係る目標検出方法によれば、コーナーに基づいて取られた目標検出対象の検出枠をより効果的に予測することができる。検出枠をより正確に予測でき、目標検出対象の重なり合いに起因して予測された検出枠の精度が低いという問題を効果的に緩和できる。なお、検出枠の予測と目標検出対象の分類とは非並行して行われ、すなわち、検出枠の位置を示すサイズ特徴とコーナー特徴を先に得、その後、サイズ特徴とコーナー特徴により特定された対象特徴に基づいて、目標検出対象を分類し、より正確な分類結果を得ることができる。

【0078】

本開示で言及される上記各方法の実施例は、原理と論理に違反しない限り、相互に組み合わせて実施例を形成することができることが理解すべきである。紙幅に限りがあるので、本開示では詳細な説明を省略する。

【0079】

さらに、本開示では、目標検出装置、電子機器、コンピュータ読み取り可能な記憶媒体、プログラムが提供される。これらはいずれも本開示に係る目標検出方法のいずれか１つを実現するために利用できる。対応する技術的解決手段と説明は、方法の対応する記載を参照すればよく、詳細な説明を省略する。

【0080】

また、当業者であれば、具体的な実施形態に係る上記の方法では、各ステップの記載順序は、実行順序を厳密に限定して実施の過程を限定するものではなく、各ステップの実行順序がその機能と内部の論理によって具体的に決定されることが理解すべきである。

【0081】

図４は本開示の実施例に係る目標検出装置のブロック図を示す。図４に示すように、前記目標検出装置は、
処理対象である検出画像を取得する取得モジュール４１と、
前記検出画像の画像特徴に基づいて、目標検出対象に対応するサイズ特徴とコーナー特徴を特定する特定モジュール４２と、
前記サイズ特徴と前記コーナー特徴に基づいて、前記画像特徴から前記目標検出対象に対応する対象特徴を抽出する抽出モジュール４３と、
前記対象特徴に基づいて、前記目標検出対象のカテゴリを特定する分類モジュール４４とを、含む。

【0082】

１つの可能な実施形態では、前記特定モジュール４２は具体的に、前記検出画像に対して少なくとも１段の畳み込み処理を行い、前記検出画像の画像特徴を得、前記検出画像の画像特徴に対してコーナープーリング処理を行い、目標検出対象に対応するサイズ特徴とコーナー特徴を得る。

【0083】

１つの可能な実施形態では、前記畳み込み処理はアップサンプリング処理とダウンサンプリング処理を含み、前記特定モジュール４２は具体的に、前記検出画像に対して少なくとも１段のダウンサンプリング処理を行い、少なくとも１段のダウンサンプリング処理後の第１特徴マップを得、
前記少なくとも１段のダウンサンプリング処理後の第１特徴マップに基づいて、少なくとも１段のアップサンプリング処理後の第２特徴マップを得、前記少なくとも１段のダウンサンプリング処理後の第１特徴マップと前記少なくとも１段のアップサンプリング処理後の第２特徴マップに基づいて、前記検出画像の画像特徴を得る。

【0084】

１つの可能な実施形態では、各段の前記ダウンサンプリング処理後に１つの第１特徴マップを出力し、各段の前記アップサンプリング処理後に１つの第２特徴画像を出力し、前記特定モジュール４２は具体的に、前記少なくとも１段のアップサンプリング処理のうちの１段目のアップサンプリング処理について、前記少なくとも１段のダウンサンプリング処理のうちの最終段のダウンサンプリング処理後の第１特徴マップを、前記１段目のアップサンプリング処理への入力とし、前記１段目のアップサンプリング処理後に出力された第２特徴マップを得、前記少なくとも１段のアップサンプリング処理のうちのＮ段目のアップサンプリング処理について、前記Ｎ段目のアップサンプリング処理の直前のアップサンプリング処理後に出力された第２特徴マップ、及び前記Ｎ段目のアップサンプリング処理後に出力された第２特徴マップにマッチングする第１特徴マップを、前記Ｎ段目のアップサンプリング処理への入力とし、前記Ｎ段目のアップサンプリング処理により出力された第２特徴マップを得、ここで、Ｎは１より大きい正の整数である。

【0085】

１つの可能な実施形態では、前記特定モジュール４２は具体的に、前記Ｎ段目のアップサンプリング処理の直前のアップサンプリング処理後に出力された第２特徴マップと、前記Ｎ段目のアップサンプリング処理後に出力された第２特徴マップにマッチングする第１特徴マップとを特徴融合させ、前記Ｎ段目のアップサンプリング処理への入力を得る。

【0086】

１つの可能な実施形態では、前記特定モジュール４２は具体的に、前記検出画像の画像特徴に対してコーナープーリング処理を行い、処理結果を得、第１分岐ネットワークを用いて前記処理結果に対して畳み込み処理を行い、目標検出対象に対応するサイズ特徴を得、第１分岐ネットワークとチャネル数が異なる第２分岐ネットワークを用いて前記処理結果に対して畳み込み処理を行い、目標検出対象に対応するコーナー特徴を得る。

【0087】

１つの可能な実施形態では、前記抽出モジュール４３は具体的に、前記サイズ特徴と前記コーナー特徴に基づいて、前記検出画像における前記目標検出対象の画像領域とマッピング関係がある特徴領域を特定し、前記画像特徴の特徴領域から前記目標検出対象に対応する対象特徴を抽出する。

【0088】

【0089】

１つの可能な実施形態では、前記装置は、前記第１コーナー特徴における対応の長さ特徴、幅特徴及び前記第２コーナー特徴における対応の長さ特徴、幅特徴に基づいて、前記検出画像において前記目標検出対象の検出枠を特定し、重なり合う任意の２つの検出枠間の交差オーバーユニオンを決定し、予め設定された閾値より前記交差オーバーユニオンが大きい場合、前記重なり合う任意の２つの検出枠を１つの検出枠に合併する合併モジュールをさらに含む。

【0090】

１つの可能な実施形態では、前記分類モジュール４４は具体的に、前記対象特徴に対して少なくとも１段の畳み込み処理を行い、前記目標検出対象が各予め設定されたカテゴリに属する確率を得、前記目標検出対象が各予め設定されたカテゴリに属する確率に基づいて、前記予め設定されたカテゴリから前記目標検出対象のカテゴリを特定する。

【0091】

いくつかの実施例では、本開示の実施例に係る装置が備える機能又はモジュールは、上述した方法の実施例に説明される方法を実行するために利用でき、その具体的な実現について、上述した方法の実施例の説明を参照すればよく、簡素化のために、ここで詳細な説明を省略する。

【0092】

本開示の実施例はさらに、プロセッサと、プロセッサが実行可能な命令を記憶するためのメモリと、を含み、前記プロセッサは、上記方法を実行するように構成される電子機器を提供する。

【0093】

電子機器は、端末、サーバ又は他の形態の機器として提供されてもよい。

【0094】

図５は例示的な実施例に係る電子機器１９００のブロック図を示す。例えば、電子機器１９００はサーバーとして提供されてもよい。図５を参照すると、電子機器１９００は、一つ以上のプロセッサを含む処理コンポーネント１９２２、および、処理コンポーネント１９２２によって実行可能な命令例えばアプリケーションプログラムを記憶するための、メモリ１９３２を代表とするメモリ資源を含む。メモリ１９３２に記憶されているアプリケーションプログラムは、それぞれが１つの命令群に対応する一つ以上のモジュールを含んでもよい。また、処理コンポーネント１９２２は命令を実行することによって上記方法を実行するように構成される。

【0095】

電子機器１９００はさらに、電子機器１９００の電源管理を実行するように構成される電源コンポーネント１９２６、電子機器１９００をネットワークに接続するように構成される有線または無線ネットワークインタフェース１９５０、および入出力（Ｉ／Ｏ）インタフェース１９５８を含んでもよい。電子機器１９００はメモリ１９３２に記憶されいるオペレーティングシステム、例えばＷｉｎｄｏｗｓＳｅｒｖｅｒＴＭ、ＭａｃＯＳＸＴＭ、ＵｎｉｘＴＭ、ＬｉｎｕｘＴＭ、ＦｒｅｅＢＳＤＴＭまたは類似するものに基づいて動作できる。

【0096】

例示的な実施例では、さらに、揮発性コンピュータ可読記憶媒体または不揮発性コンピュータ可読記憶媒体、例えばコンピュータプログラム命令を含むメモリ１９３２が提供され、上記コンピュータプログラム命令は、電子機器１９００の処理コンポーネント１９２２によって実行されと、上記方法を実行させることができる。

【0097】

例示的な実施例では、さらに、コンピュータ読み取り可能なコードを含み、コンピュータ読み取り可能なコードが電子機器で動作すると、電子機器のプロセッサに上記方法を実現するためのコマンドを実行させるコンピュータプログラムを提供する。

【0098】

本開示はシステム、方法および／またはコンピュータプログラム製品であってもよい。コンピュータプログラム製品は、プロセッサに本開示の各方面を実現させるためのコンピュータ可読プログラム命令が有しているコンピュータ可読記憶媒体を含んでもよい。

【0099】

コンピュータ可読記憶媒体は、命令実行機器に使用される命令を保存および記憶可能な有形装置であってもよい。コンピュータ可読記憶媒体は例えば、電気記憶装置、磁気記憶装置、光記憶装置、電磁記憶装置、半導体記憶装置、または上記の任意の適当な組み合わせであってもよい。コンピュータ可読記憶媒体のさらに具体的な例（非網羅的リスト）としては、携帯型コンピュータディスク、ハードディスク、ランダムアクセスメモリ（ＲＡＭ）、読み取り専用メモリ（ＲＯＭ）、消去可能プログラマブル読み取り専用メモリ（ＥＰＲＯＭまたはフラッシュメモリ）、静的ランダムアクセスメモリ（ＳＲＡＭ）、携帯型コンパクトディスク読み取り専用メモリ（ＣＤ－ＲＯＭ）、デジタル多用途ディスク（ＤＶＤ）、メモリスティック、フロッピーディスク、例えば命令が記憶されているせん孔カードまたはスロット内突起構造のような機械的符号化装置、および上記の任意の適当な組み合わせを含む。ここで使用されるコンピュータ可読記憶媒体は、瞬時信号自体、例えば無線電波または他の自由に伝播される電磁波、導波路または他の伝送媒体を経由して伝播される電磁波（例えば、光ファイバーケーブルを通過するパルス光）、または電線を経由して伝送される電気信号と解釈されるものではない。

【0100】

ここで記述したコンピュータ可読プログラム命令は、コンピュータ可読記憶媒体から各計算／処理機器にダウンロードされてもよいし、またはネットワーク、例えばインターネット、ローカルエリアネットワーク、広域ネットワークおよび／または無線ネットワークを介して外部のコンピュータまたは外部記憶装置にダウンロードされてもよい。ネットワークは銅伝送ケーブル、光ファイバー伝送、無線伝送、ルーター、ファイアウォール、交換機、ゲートウェイコンピュータおよび／またはエッジサーバを含んでもよい。各計算／処理機器内のネットワークアダプタカードまたはネットワークインタフェースはネットワークからコンピュータ可読プログラム命令を受信し、該コンピュータ可読プログラム命令を転送し、各計算／処理機器内のコンピュータ可読記憶媒体に記憶させる。

【0101】

本開示の動作を実行するためのコンピュータプログラム命令はアセンブリ命令、命令セットアーキテクチャ（ＩＳＡ）命令、機械語命令、機械依存命令、マイクロコード、ファームウェア命令、状態設定データ、またはＳｍａｌｌｔａｌｋ、Ｃ＋＋などのオブジェクト指向プログラミング言語、および「Ｃ」言語または類似するプログラミング言語などの一般的な手続き型プログラミング言語を含める一つ以上のプログラミング言語の任意の組み合わせで書かれたソースコードまたは目標コードであってもよい。コンピュータ可読プログラム命令は、完全にユーザのコンピュータにおいて実行されてもよく、部分的にユーザのコンピュータにおいて実行されてもよく、スタンドアロンソフトウェアパッケージとして実行されてもよく、部分的にユーザのコンピュータにおいてかつ部分的にリモートコンピュータにおいて実行されてもよく、または完全にリモートコンピュータもしくはサーバにおいて実行されてもよい。リモートコンピュータに関与する場合、リモートコンピュータは、ローカルエリアネットワーク（ＬＡＮ）または広域ネットワーク（ＷＡＮ）を含む任意の種類のネットワークを経由してユーザのコンピュータに接続されてもよく、または、（例えばインターネットサービスプロバイダを利用してインターネットを経由して）外部コンピュータに接続されてもよい。いくつかの実施例では、コンピュータ可読プログラム命令の状態情報を利用して、例えばプログラマブル論理回路、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）またはプログラマブル論理アレイ（ＰＬＡ）などの電子回路をパーソナライズし、該電子回路によりコンピュータ可読プログラム命令を実行することにより、本開示の各方面を実現するようにしてもよい。

【0102】

ここで、本開示の実施例に係る方法、装置（システム）およびコンピュータプログラム製品のフローチャートおよび／またはブロック図を参照しながら本開示の各態様を説明したが、フローチャートおよび／またはブロック図の各ブロックおよびフローチャートおよび／またはブロック図の各ブロックの組み合わせは、いずれもコンピュータ可読プログラム命令によって実現できることを理解すべきである。

【0103】

これらのコンピュータ可読プログラム命令は、汎用コンピュータ、専用コンピュータまたは他のプログラマブルデータ処理装置のプロセッサへ提供され、これらの命令がコンピュータまたは他のプログラマブルデータ処理装置のプロセッサによって実行されると、フローチャートおよび／またはブロック図の一つ以上のブロックにおいて指定された機能／動作を実現ように、装置を製造してもよい。これらのコンピュータ可読プログラム命令は、コンピュータ可読記憶媒体に記憶され、コンピュータ、プログラマブルデータ処理装置および／または他の機器を特定の方式で動作させるようにしてもよい。これにより、命令が記憶されているコンピュータ可読記憶媒体は、フローチャートおよび／またはブロック図の一つ以上のブロックにおいて指定された機能／動作の各方面を実現する命令を有する製品を含む。

【0104】

コンピュータ可読プログラム命令は、コンピュータ、他のプログラマブルデータ処理装置、または他の機器にロードされ、コンピュータ、他のプログラマブルデータ処理装置または他の機器に一連の動作ステップを実行させることにより、コンピュータにより実施なプロセスを生成するようにしてもよい。このようにして、コンピュータ、他のプログラマブルデータ処理装置、または他の機器において実行される命令により、フローチャートおよび／またはブロック図の一つ以上のブロックにおいて指定された機能／動作を実現する。

【0105】

図面のうちフローチャートおよびブロック図は、本開示の複数の実施例に係るシステム、方法およびコンピュータプログラム製品の実現可能なシステムアーキテクチャ、機能および動作を示す。この点では、フローチャートまたはブロック図における各ブロックは一つのモジュール、プログラムセグメントまたは命令の一部分を代表することができ、前記モジュール、プログラムセグメントまたは命令の一部分は指定された論理機能を実現するための一つ以上の実行可能命令を含む。いくつかの代替としての実現形態では、ブロックに表記される機能は、図面に付した順序と異なって実現してもよい。例えば、連続的な二つのブロックは実質的に並列に実行してもよく、また、係る機能によって、逆な順序で実行してもよい。なお、ブロック図および／またはフローチャートにおける各ブロック、およびブロック図および／またはフローチャートにおけるブロックの組み合わせは、指定される機能または動作を実行するハードウェアに基づく専用システムによって実現してもよいし、または専用ハードウェアとコンピュータ命令との組み合わせによって実現してもよいことにも注意すべきである。

【0106】

以上、本開示の各実施例を記述したが、上記説明は例示的なものに過ぎず、網羅的なものではなく、かつ披露された各実施例に限定されるものでもない。当業者にとって、説明された各実施例の範囲および精神から逸脱することなく、様々な修正および変更が自明である。本明細書に選ばれた用語は、各実施例の原理、実際の適用または既存技術に対する改善を好適に解釈するか、または他の当業者に本文に披露された各実施例を理解させるためのものである。

【図1】