IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ ベイジン センスタイム テクノロジー ディベロップメント カンパニー リミテッドの特許一覧

特表2022-549728目標検出方法及び装置、電子機器、並びに記憶媒体
<>
  • 特表-目標検出方法及び装置、電子機器、並びに記憶媒体 図1
  • 特表-目標検出方法及び装置、電子機器、並びに記憶媒体 図2
  • 特表-目標検出方法及び装置、電子機器、並びに記憶媒体 図3
  • 特表-目標検出方法及び装置、電子機器、並びに記憶媒体 図4
  • 特表-目標検出方法及び装置、電子機器、並びに記憶媒体 図5
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2022-11-28
(54)【発明の名称】目標検出方法及び装置、電子機器、並びに記憶媒体
(51)【国際特許分類】
   G06T 7/00 20170101AFI20221118BHJP
   G06V 10/82 20220101ALI20221118BHJP
   G06N 3/04 20060101ALI20221118BHJP
【FI】
G06T7/00 350C
G06V10/82
G06N3/04
【審査請求】有
【予備審査請求】未請求
(21)【出願番号】P 2022519510
(86)(22)【出願日】2019-12-20
(85)【翻訳文提出日】2022-03-28
(86)【国際出願番号】 CN2019127181
(87)【国際公開番号】W WO2021082231
(87)【国際公開日】2021-05-06
(31)【優先権主張番号】201911038042.3
(32)【優先日】2019-10-29
(33)【優先権主張国・地域又は機関】CN
(81)【指定国・地域】
【公序良俗違反の表示】
(特許庁注:以下のものは登録商標)
1.SMALLTALK
(71)【出願人】
【識別番号】516158057
【氏名又は名称】ベイジン センスタイム テクノロジー ディベロップメント カンパニー リミテッド
(74)【代理人】
【識別番号】110001416
【氏名又は名称】弁理士法人信栄事務所
(72)【発明者】
【氏名】ヤン, クン
(72)【発明者】
【氏名】ヤン, クンリン
(72)【発明者】
【氏名】ホウ, ジュン
(72)【発明者】
【氏名】イー, シュアイ
【テーマコード(参考)】
5L096
【Fターム(参考)】
5L096EA03
5L096FA64
5L096GA30
5L096GA51
5L096JA11
(57)【要約】
本開示は、目標検出方法及び装置、電子機器、並びに記憶媒体に関する。前記方法は、処理対象である検出画像を取得することと、前記検出画像の画像特徴に基づいて、目標検出対象に対応するサイズ特徴とコーナー特徴を特定することと、前記サイズ特徴と前記コーナー特徴に基づいて、前記画像特徴から前記目標検出対象に対応する対象特徴を抽出することと、前記対象特徴に基づいて、前記目標検出対象のカテゴリを特定することとを、含むことを特徴とする目標検出方法である。
【選択図】図1
【特許請求の範囲】
【請求項1】
処理対象である検出画像を取得することと、
前記検出画像の画像特徴に基づいて、目標検出対象に対応するサイズ特徴とコーナー特徴を特定することと、
前記サイズ特徴と前記コーナー特徴に基づいて、前記画像特徴から前記目標検出対象に対応する対象特徴を抽出することと、
前記対象特徴に基づいて、前記目標検出対象のカテゴリを特定することとを、含むことを特徴とする目標検出方法。
【請求項2】
前記検出画像の画像特徴に基づいて、目標検出対象に対応するサイズ特徴とコーナー特徴を特定することは、
前記検出画像に対して少なくとも1段の畳み込み処理を行い、前記検出画像の画像特徴を得ることと、
前記検出画像の画像特徴に対してコーナープーリング処理を行い、目標検出対象に対応するサイズ特徴とコーナー特徴を得ることと、を含むことを特徴とする請求項1に記載の方法。
【請求項3】
前記畳み込み処理はアップサンプリング処理とダウンサンプリング処理を含み、
前記検出画像に対して少なくとも1段の畳み込み処理を行い、前記検出画像の画像特徴を得ることは、
前記検出画像に対して少なくとも1段のダウンサンプリング処理を行い、少なくとも1段のダウンサンプリング処理後の第1特徴マップを得ることと、
前記少なくとも1段のダウンサンプリング処理後の第1特徴マップに基づいて、少なくとも1段のアップサンプリング処理後の第2特徴マップを得ることと、
前記少なくとも1段のダウンサンプリング処理後の第1特徴マップと前記少なくとも1段のアップサンプリング処理後の第2特徴マップに基づいて、前記検出画像の画像特徴を得ることと、を含むことを特徴とする請求項2に記載の方法。
【請求項4】
各段の前記ダウンサンプリング処理後に1つの第1特徴マップを出力し、各段の前記アップサンプリング処理後に1つの第2特徴画像を出力し、
前記少なくとも1段のダウンサンプリング処理後の第1特徴マップに基づいて、少なくとも1段のアップサンプリング処理後の第2特徴マップを得ることは、
前記少なくとも1段のアップサンプリング処理のうちの1段目のアップサンプリング処理について、前記少なくとも1段のダウンサンプリング処理のうちの最終段のダウンサンプリング処理後の第1特徴マップを、前記1段目のアップサンプリング処理への入力とすることと、
前記1段目のアップサンプリング処理後に出力された第2特徴マップを得ることと、
前記少なくとも1段のアップサンプリング処理のうちのN段目のアップサンプリング処理について、前記N段目のアップサンプリング処理の直前のアップサンプリング処理後に出力された第2特徴マップ、及び前記N段目のアップサンプリング処理後に出力された第2特徴マップにマッチングする第1特徴マップを、前記N段目のアップサンプリング処理への入力とすることと、
前記N段目のアップサンプリング処理により出力された第2特徴マップを得ることとを含み、ここで、Nは1より大きい正の整数であることを特徴とする請求項3に記載の方法。
【請求項5】
前記N段目のアップサンプリング処理の直前のアップサンプリング処理後に出力された第2特徴マップ、及び前記N段目のアップサンプリング処理後に出力された第2特徴マップにマッチングする第1特徴マップを、前記N段目のアップサンプリング処理への入力とすることは、
前記N段目のアップサンプリング処理の直前のアップサンプリング処理後に出力された第2特徴マップと、前記N段目のアップサンプリング処理後に出力された第2特徴マップにマッチングする第1特徴マップとを特徴融合させ、前記N段目のアップサンプリング処理への入力を得ることを特徴とする請求項4に記載の方法。
【請求項6】
前記検出画像の画像特徴に対してコーナープーリング処理を行い、目標検出対象に対応するサイズ特徴とコーナー特徴を得ることは、
前記検出画像の画像特徴に対してコーナープーリング処理を行い、処理結果を得ることと、
第1分岐ネットワークを用いて前記処理結果に対して畳み込み処理を行い、目標検出対象に対応するサイズ特徴を得ることと、
第1分岐ネットワークとチャネル数が異なる第2分岐ネットワークを用いて前記処理結果に対して畳み込み処理を行い、目標検出対象に対応するコーナー特徴を得ることとを含む
ことを特徴とする請求項2に記載の方法。
【請求項7】
前記サイズ特徴と前記コーナー特徴に基づいて、前記画像特徴から前記目標検出対象に対応する対象特徴を抽出することは、
前記サイズ特徴と前記コーナー特徴に基づいて、前記検出画像における前記目標検出対象の画像領域とマッピング関係がある特徴領域を特定することと、
前記画像特徴の特徴領域から前記目標検出対象に対応する対象特徴を抽出することと、を含むことを特徴とする請求項1~6のいずれか1項に記載の方法。
【請求項8】
前記目標検出対象に対応するコーナー特徴は、少なくとも前記目標検出対象に対応する第1コーナー特徴と第2コーナー特徴を含み、
前記目標検出対象に対応するサイズ特徴は、前記目標検出対象の第1コーナー特徴に対応する長さ特徴、幅特徴と、前記目標検出対象の第2コーナー特徴に対応する長さ特徴、幅特徴とを含むことを特徴とする請求項7に記載の方法。
【請求項9】
前記第1コーナー特徴に対応する長さ特徴、幅特徴及び前記第2コーナー特徴に対応する長さ特徴、幅特徴に基づいて、前記検出画像において前記目標検出対象の検出枠を特定することと、
重なり合う任意の2つの検出枠間の交差オーバーユニオンを決定することと、
予め設定された閾値より前記交差オーバーユニオンが大きい場合、前記重なり合う任意の2つの検出枠を1つの検出枠に合併することとをさらに含むことを特徴とする請求項8に記載の方法。
【請求項10】
前記対象特徴に基づいて、前記目標検出対象のカテゴリを特定することは、
前記対象特徴に対して少なくとも1段の畳み込み処理を行い、前記目標検出対象が少なくとも1つの予め設定されたカテゴリに属する確率を得ることと、
前記目標検出対象が少なくとも1つの予め設定されたカテゴリに属する確率に基づいて、前記予め設定されたカテゴリから前記目標検出対象のカテゴリを特定することと、を含むことを特徴とする請求項1~9のいずれか1項に記載の方法。
【請求項11】
処理対象である検出画像を取得する取得モジュールと、
前記検出画像の画像特徴に基づいて、目標検出対象に対応するサイズ特徴とコーナー特徴を特定する特定モジュールと、
前記サイズ特徴と前記コーナー特徴に基づいて、前記画像特徴から前記目標検出対象に対応する対象特徴を抽出する抽出モジュールと、
前記対象特徴に基づいて、前記目標検出対象のカテゴリを特定する分類モジュールとを、含むことを特徴とする目標検出装置。
【請求項12】
前記特定モジュールは具体的に、
前記検出画像に対して少なくとも1段の畳み込み処理を行い、前記検出画像の画像特徴を得、
前記検出画像の画像特徴に対してコーナープーリング処理を行い、目標検出対象に対応するサイズ特徴とコーナー特徴を得ることを特徴とする請求項11に記載の装置。
【請求項13】
前記畳み込み処理はアップサンプリング処理とダウンサンプリング処理を含み、
前記特定モジュールは具体的に、
前記検出画像に対して少なくとも1段のダウンサンプリング処理を行い、少なくとも1段のダウンサンプリング処理後の第1特徴マップを得、
前記少なくとも1段のダウンサンプリング処理後の第1特徴マップに基づいて、少なくとも1段のアップサンプリング処理後の第2特徴マップを得、
前記少なくとも1段のダウンサンプリング処理後の第1特徴マップと前記少なくとも1段のアップサンプリング処理後の第2特徴マップに基づいて、前記検出画像の画像特徴を得ることを特徴とする請求項12に記載の装置。
【請求項14】
各段の前記ダウンサンプリング処理後に1つの第1特徴マップを出力し、各段の前記アップサンプリング処理後に1つの第2特徴画像を出力し、
前記特定モジュールは具体的に、
前記少なくとも1段のアップサンプリング処理のうちの1段目のアップサンプリング処理について、前記少なくとも1段のダウンサンプリング処理のうちの最終段のダウンサンプリング処理後の第1特徴マップを、前記1段目のアップサンプリング処理への入力とし、
前記1段目のアップサンプリング処理後に出力された第2特徴マップを得、
前記少なくとも1段のアップサンプリング処理のうちのN段目のアップサンプリング処理について、前記N段目のアップサンプリング処理の直前のアップサンプリング処理後に出力された第2特徴マップ、及び前記N段目のアップサンプリング処理後に出力された第2特徴マップにマッチングする第1特徴マップを、前記N段目のアップサンプリング処理への入力とし、
前記N段目のアップサンプリング処理により出力された第2特徴マップを得、ここで、Nは1より大きい正の整数であることを特徴とする請求項13に記載の装置。
【請求項15】
前記特定モジュールは具体的に、前記N段目のアップサンプリング処理の直前のアップサンプリング処理後に出力された第2特徴マップと、前記N段目のアップサンプリング処理後に出力された第2特徴マップにマッチングする第1特徴マップとを特徴融合させ、前記N段目のアップサンプリング処理への入力を得ることを特徴とする請求項14に記載の装置。
【請求項16】
前記特定モジュールは具体的に、
前記検出画像の画像特徴に対してコーナープーリング処理を行い、処理結果を得、
第1分岐ネットワークを用いて前記処理結果に対して畳み込み処理を行い、目標検出対象に対応するサイズ特徴を得、
第1分岐ネットワークとチャネル数が異なる第2分岐ネットワークを用いて前記処理結果に対して畳み込み処理を行い、目標検出対象に対応するコーナー特徴を得ることを特徴とする請求項12に記載の装置。
【請求項17】
前記抽出モジュールは具体的に、
前記サイズ特徴と前記コーナー特徴に基づいて、前記検出画像におけ前記目標検出対象の画像領域とマッピング関係がある特徴領域を特定し、
前記画像特徴の特徴領域から前記目標検出対象に対応する対象特徴を抽出することを特徴とする請求項11~16のいずれか1項に記載の装置。
【請求項18】
前記目標検出対象に対応するコーナー特徴は、少なくとも前記目標検出対象に対応する第1コーナー特徴と第2コーナー特徴を含み、
前記目標検出対象に対応するサイズ特徴は、前記目標検出対象の第1コーナー特徴に対応する長さ特徴、幅特徴と、前記目標検出対象の第2コーナー特徴に対応する長さ特徴、幅特徴とを含むことを特徴とする請求項17に記載の装置。
【請求項19】
前記第1コーナー特徴に対応する長さ特徴、幅特徴及び前記第2コーナー特徴に対応する長さ特徴、幅特徴に基づいて、前記検出画像において前記目標検出対象の検出枠を特定し、重なり合う任意の2つの検出枠間の交差オーバーユニオンを決定し、予め設定された閾値より前記交差オーバーユニオンが大きい場合、前記重なり合う任意の2つの検出枠を1つの検出枠に合併する合併モジュールをさらに含むことを特徴とする請求項18に記載の装置。
【請求項20】
前記分類モジュールは具体的に、
前記対象特徴に対して少なくとも1段の畳み込み処理を行い、前記目標検出対象が少なくとも1つの予め設定されたカテゴリに属する確率を得、
前記目標検出対象が少なくとも1つの予め設定されたカテゴリに属する確率に基づいて、前記予め設定されたカテゴリから前記目標検出対象のカテゴリを特定することを特徴とする請求項11~19のいずれか1項に記載の装置。
【請求項21】
プロセッサと、
プロセッサが実行可能な命令を記憶するためのメモリと、を含み、
前記プロセッサは、前記メモリに記憶されている命令を呼び出すことにより、請求項1~10のいずれか1項に記載の方法を実行するように構成されることを特徴とする電子機器。
【請求項22】
コンピュータプログラムコマンドが記憶されているコンピュータ読み取り可能な記憶媒体であって、前記コンピュータプログラムコマンドは、プロセッサにより実行されると、請求項1~10のいずれか1項に記載の方法を実現させることを特徴とするコンピュータ読み取り可能な記憶媒体。
【請求項23】
コンピュータ読み取り可能なコードを含み、前記コンピュータ読み取り可能なコードが電子機器で動作すると、前記電子機器のプロセッサに請求項1~10のいずれか1項に記載の方法を実現するためのコマンドを実行させることを特徴とするコンピュータプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
[関連出願の相互参照]
本開示は2019年10月29日に中国特許庁に出願された第201911038042.3号「目標検出方法及び装置、電子機器、並びに記憶媒体」を発明の名称とした中国特許出願の優先権を主張し、その内容全体が引用により本開示に組み込まれる。
[技術分野]
本開示は、コンピュータビジョン技術分野に関し、特に目標検出方法及び装置、電子機器、及び記憶媒体に関する。
【背景技術】
【0002】
コンピュータビジョンはコンピュータ及び関連装置を用いて生体視覚をシミュレーションする技術であり、収集された画像又はビデオを処理することにより、対応するシーンの三次元情報を取得することができる。コンピュータビジョンの一つの適用例として、収集された画像又はビデオを用いて目標検出を行い、目標検出対象のカテゴリ及び画像における位置を特定することができる。
【0003】
現在、目標検出技術では、ニューラルネットワークを用いて目標検出対象のカテゴリ及び位置決めのための検出枠を直接特定することができる。
【発明の概要】
【0004】
本開示は目標検出の技術的解決手段を提案する。
【0005】
本開示の一方面によれば、処理対象である検出画像を取得することと、前記検出画像の画像特徴に基づいて、目標検出対象に対応するサイズ特徴とコーナー特徴を特定することと、前記サイズ特徴と前記コーナー特徴に基づいて、前記画像特徴から前記目標検出対象に対応する対象特徴を抽出することと、前記対象特徴に基づいて、前記目標検出対象のカテゴリを特定することとを、含む目標検出方法を提供する。
【0006】
1つの可能な実施形態では、前記検出画像の画像特徴に基づいて、目標検出対象に対応するサイズ特徴とコーナー特徴を特定することは、前記検出画像に対して少なくとも1段の畳み込み処理を行い、前記検出画像の画像特徴を得ることと、前記検出画像の画像特徴に対してコーナープーリング処理を行い、目標検出対象に対応するサイズ特徴とコーナー特徴を得ることと、を含む。
【0007】
1つの可能な実施形態では、前記畳み込み処理はアップサンプリング処理とダウンサンプリング処理を含み、前記検出画像に対して少なくとも1段の畳み込み処理を行い、前記検出画像の画像特徴を得ることは、前記検出画像に対して少なくとも1段のダウンサンプリング処理を行い、少なくとも1段のダウンサンプリング処理後の第1特徴マップを得ることと、前記少なくとも1段のダウンサンプリング処理後の第1特徴マップに基づいて、少なくとも1段のアップサンプリング処理後の第2特徴マップを得ることと、前記少なくとも1段のダウンサンプリング処理後の第1特徴マップと前記少なくとも1段のアップサンプリング処理後の第2特徴マップに基づいて、前記検出画像の画像特徴を得ることと、を含む。
【0008】
1つの可能な実施形態では、各段の前記ダウンサンプリング処理後に1つの第1特徴マップを出力し、各段の前記アップサンプリング処理後に1つの第2特徴画像を出力し、前記少なくとも1段のダウンサンプリング処理後の第1特徴マップに基づいて、少なくとも1段のアップサンプリング処理後の第2特徴マップを得ることは、前記少なくとも1段のアップサンプリング処理のうちの1段目のアップサンプリング処理について、前記少なくとも1段のダウンサンプリング処理のうちの最終段のダウンサンプリング処理後の第1特徴マップを、前記1段目のアップサンプリング処理への入力とすることと、前記1段目のアップサンプリング処理後に出力された第2特徴マップを得ることと、前記少なくとも1段のアップサンプリング処理のうちのN段目のアップサンプリング処理について、前記N段目のアップサンプリング処理の直前のアップサンプリング処理後に出力された第2特徴マップ、及び前記N段目のアップサンプリング処理後に出力された第2特徴マップにマッチングする第1特徴マップを、前記N段目のアップサンプリング処理への入力とすることと、前記N段目のアップサンプリング処理により出力された第2特徴マップを得ることとを含み、ここで、Nは1より大きい正の整数である。
【0009】
1つの可能な実施形態では、前記N段目のアップサンプリング処理の直前のアップサンプリング処理後に出力された第2特徴マップ、及び前記N段目のアップサンプリング処理後に出力された第2特徴マップにマッチングする第1特徴マップを、前記N段目のアップサンプリング処理への入力とすることは、前記N段目のアップサンプリング処理の直前のアップサンプリング処理後に出力された第2特徴マップと、前記N段目のアップサンプリング処理後に出力された第2特徴マップにマッチングする第1特徴マップとを特徴融合させ、前記N段目のアップサンプリング処理への入力を得る。
【0010】
1つの可能な実施形態では、前記検出画像の画像特徴に対してコーナープーリング処理を行い、目標検出対象に対応するサイズ特徴とコーナー特徴を得ることは、前記検出画像の画像特徴に対してコーナープーリング処理を行い、処理結果を得ることと、第1分岐ネットワークを用いて前記処理結果に対して畳み込み処理を行い、目標検出対象に対応するサイズ特徴を得ることと、第1分岐ネットワークとチャネル数が異なる第2分岐ネットワークを用いて前記処理結果に対して畳み込み処理を行い、目標検出対象に対応するコーナー特徴を得ることとを含む。
【0011】
1つの可能な実施形態では、前記サイズ特徴と前記コーナー特徴に基づいて、前記画像特徴から前記目標検出対象に対応する対象特徴を抽出することは、前記サイズ特徴と前記コーナー特徴に基づいて、前記検出画像における前記目標検出対象の画像領域とマッピング関係がある特徴領域を特定することと、前記画像特徴の特徴領域から前記目標検出対象に対応する対象特徴を抽出することと、を含む。
【0012】
1つの可能な実施形態では、前記目標検出対象に対応するコーナー特徴は、少なくとも前記目標検出対象に対応する第1コーナー特徴と第2コーナー特徴を含み、前記目標検出対象に対応するサイズ特徴は、前記目標検出対象の第1コーナー特徴に対応する長さ特徴、幅特徴と、前記目標検出対象の第2コーナー特徴に対応する長さ特徴、幅特徴とを含む。
【0013】
1つの可能な実施形態では、前記第1コーナー特徴に対応する長さ特徴、幅特徴及び前記第2コーナー特徴に対応する長さ特徴、幅特徴に基づいて、前記検出画像において前記目標検出対象の検出枠を特定することと、重なり合う任意の2つの検出枠間の交差オーバーユニオン(Intersection-over-Union,IoU)を決定することと、予め設定された閾値より前記交差オーバーユニオンが大きい場合、前記重なり合う任意の2つの検出枠を1つの検出枠に合併することとをさらに含む。
【0014】
1つの可能な実施形態では、前記対象特徴に基づいて、前記目標検出対象のカテゴリを特定することは、前記対象特徴に対して少なくとも1段の畳み込み処理を行い、前記目標検出対象が少なくとも1つの予め設定されたカテゴリに属する確率を得ることと、前記目標検出対象が少なくとも1つの予め設定されたカテゴリに属する確率に基づいて、前記予め設定されたカテゴリから前記目標検出対象のカテゴリを特定することと、を含む。
【0015】
本開示の一方面によれば、処理対象である検出画像を取得する取得モジュールと、前記検出画像の画像特徴に基づいて、目標検出対象に対応するサイズ特徴とコーナー特徴を特定する特定モジュールと、前記サイズ特徴と前記コーナー特徴に基づいて、前記画像特徴から前記目標検出対象に対応する対象特徴を抽出する抽出モジュールと、前記対象特徴に基づいて、前記目標検出対象のカテゴリを特定する分類モジュールとを、含む目標検出装置を提供する。
【0016】
1つの可能な実施形態では、前記特定モジュールは具体的に、前記検出画像に対して少なくとも1段の畳み込み処理を行い、前記検出画像の画像特徴を得、前記検出画像の画像特徴に対してコーナープーリング処理を行い、目標検出対象に対応するサイズ特徴とコーナー特徴を得る。
【0017】
1つの可能な実施形態では、前記畳み込み処理はアップサンプリング処理とダウンサンプリング処理を含み、前記特定モジュールは具体的に、前記検出画像に対して少なくとも1段のダウンサンプリング処理を行い、少なくとも1段のダウンサンプリング処理後の第1特徴マップを得、前記少なくとも1段のダウンサンプリング処理後の第1特徴マップに基づいて、少なくとも1段のアップサンプリング処理後の第2特徴マップを得、前記少なくとも1段のダウンサンプリング処理後の第1特徴マップと前記少なくとも1段のアップサンプリング処理後の第2特徴マップに基づいて、前記検出画像の画像特徴を得る。
【0018】
1つの可能な実施形態では、各段の前記ダウンサンプリング処理後に1つの第1特徴マップを出力し、各段の前記アップサンプリング処理後に1つの第2特徴画像を出力し、前記特定モジュールは具体的に、前記少なくとも1段のアップサンプリング処理のうちの1段目のアップサンプリング処理について、前記少なくとも1段のダウンサンプリング処理のうちの最終段のダウンサンプリング処理後の第1特徴マップを、前記1段目のアップサンプリング処理への入力とし、前記1段目のアップサンプリング処理後に出力された第2特徴マップを得、前記少なくとも1段のアップサンプリング処理のうちのN段目のアップサンプリング処理について、前記N段目のアップサンプリング処理の直前のアップサンプリング処理後に出力された第2特徴マップ、及び前記N段目のアップサンプリング処理後に出力された第2特徴マップにマッチングする第1特徴マップを、前記N段目のアップサンプリング処理への入力とし、前記N段目のアップサンプリング処理により出力された第2特徴マップを得、ここで、Nは1より大きい正の整数である。
【0019】
1つの可能な実施形態では、前記特定モジュールは具体的に、前記N段目のアップサンプリング処理の直前のアップサンプリング処理後に出力された第2特徴マップと、前記N段目のアップサンプリング処理後に出力された第2特徴マップにマッチングする第1特徴マップとを特徴融合させ、前記N段目のアップサンプリング処理への入力を得る。
【0020】
1つの可能な実施形態では、前記特定モジュールは具体的に、前記検出画像の画像特徴に対してコーナープーリング処理を行い、処理結果を得、第1分岐ネットワークを用いて前記処理結果に対して畳み込み処理を行い、目標検出対象に対応するサイズ特徴を得、第1分岐ネットワークとチャネル数が異なる第2分岐ネットワークを用いて前記処理結果に対して畳み込み処理を行い、目標検出対象に対応するコーナー特徴を得る。
【0021】
1つの可能な実施形態では、前記抽出モジュールは具体的に、前記サイズ特徴と前記コーナー特徴に基づいて、前記検出画像における前記目標検出対象の画像領域とマッピング関係がある特徴領域を特定し、前記画像特徴の特徴領域から前記目標検出対象に対応する対象特徴を抽出する。
【0022】
1つの可能な実施形態では、前記目標検出対象に対応するコーナー特徴は、少なくとも前記目標検出対象に対応する第1コーナー特徴と第2コーナー特徴を含み、前記目標検出対象に対応するサイズ特徴は、前記目標検出対象の第1コーナー特徴に対応する長さ特徴、幅特徴と、前記目標検出対象の第2コーナー特徴に対応する長さ特徴、幅特徴とを含む。
【0023】
1つの可能な実施形態では、前記第1コーナー特徴における対応の長さ特徴、幅特徴及び前記第2コーナー特徴における対応の長さ特徴、幅特徴に基づいて、前記検出画像において前記目標検出対象の検出枠を特定し、重なり合う任意の2つの検出枠間の交差オーバーユニオンを決定し、予め設定された閾値より前記交差オーバーユニオンが大きい場合、前記重なり合う任意の2つの検出枠を1つの検出枠に合併する合併モジュールをさらに含む。
【0024】
1つの可能な実施形態では、前記分類モジュールは具体的に、前記対象特徴に対して少なくとも1段の畳み込み処理を行い、前記目標検出対象が少なくとも1つの予め設定されたカテゴリに属する確率を得、前記目標検出対象が少なくとも1つの予め設定されたカテゴリに属する確率に基づいて、前記予め設定されたカテゴリから前記目標検出対象のカテゴリを特定する。
【0025】
本開示の一方面によれば、プロセッサと、プロセッサが実行可能な命令を記憶するためのメモリと、を含み、前記プロセッサは、上記目標検出方法を実行するように構成される電子機器を提供する。
【0026】
本開示の一方面によれば、コンピュータプログラムコマンドを記憶されているコンピュータ読み取り可能な記憶媒体であって、前記コンピュータプログラムコマンドは、プロセッサにより実行されると、上記目標検出方法を実現させるコンピュータ読み取り可能な記憶媒体を提供する。
【0027】
本開示の一方面によれば、コンピュータ読み取り可能なコードを含み、前記コンピュータ読み取り可能なコードが電子機器で動作すると、前記電子機器のプロセッサに上記目標検出方法を実現するためのコマンドを実行させるコンピュータプログラムを提供する。
【0028】
なお、上述した概略的な説明及び次の詳細な説明は、例示的及び解釈的なものに過ぎず、本開示を限定するものではないと理解すべきである。
【0029】
以下、図面を参考しながら例示的な実施例を詳細に説明することによって、本開示の他の特徴及び方面は明瞭になる。
【図面の簡単な説明】
【0030】
ここで、本明細書の一部として組み込まれる図面は、本開示の実施例に適し、明細書と共に本開示の技術的解決手段の説明に用いられる。
図1】本開示の実施例に係る目標検出方法のフローチャートを示す。
図2】本開示の実施例に係る目標検出対象の検出枠のブロック図を示す。
図3】本開示の実施例に係るニューラルネットワークを用いて目標検出対象のカテゴリを得るブロック図を示す。
図4】本開示の実施例に係る目標検出装置のブロック図を示す。
図5】本開示の実施例に係る電子機器の一例のブロック図を示す。
【0031】
以下に、図面を参照しながら本開示の様々な例示的な実施例、特徴および方面を詳細に説明する。図面における同じ符号は同じまたは類似する機能の要素を示す。図面において実施例の様々な方面を示したが、特に断らない限り、比例に従って図面を描く必要がない。
【0032】
ここでの用語「例示的」とは、「例、実施例として用いられることまたは説明的なもの」を意味する。ここで「例示的」に説明されるいかなる実施例は他の実施例より好ましいまたは優れるものであると理解すべきではない。
【0033】
本明細書における用語「及び/又は」は、単に関連対象との関連関係を記述するものであり、3つの関係が存在可能であることを示し、例えば、A及び/又はBは、Aのみが存在し、AとBの両方が存在し、Bのみが存在するという3つの場合を示してもよい。また、本明細書における用語「少なくとも1つ」は複数のうちのいずれか1つ、又は複数のうちの少なくとも2つの任意の組み合わせを示し、例えば、A、B、Cのうちの少なくとも1つを含むことは、A、B及びCからなる集合から選択されたいずれか1つ又は複数の要素を含むことを示してもよい。
【0034】
また、本開示をより効果的に説明するために、以下の具体的な実施形態において様々な具体的な詳細を示す。当業者であれば、本開示は何らかの具体的な詳細がなくても同様に実施できると理解すべきである。いくつかの実施例では、本開示の趣旨を強調するために、当業者が熟知している方法、手段、要素および回路について詳細な説明を行わない。
【0035】
本開示の実施例に係る目標検出方法によれば、まず、処理対象である検出画像を取得し、次に、検出画像の画像特徴に基づいて、目標検出対象に対応するサイズ特徴とコーナー特徴を特定し、そして、サイズ特徴とコーナー特徴に基づいて、画像特徴から目標検出対象に対応する対象特徴を抽出し、その後、目標検出対象に対応する対象特徴に基づいて、目標検出対象のカテゴリを特定してもよい。これにより、目標検出の検出結果を得ることができる。このような方法により、目標検出対象に対応する対象特徴を先に特定し、その後、対応する対象特徴に基づいて目標検出対象を分類することができる。そのため、目標検出において、目標検出対象の対象特徴及び目標検出対象のカテゴリを非並行して特定することができ、より正確な検出結果を得ることができ、検出結果の精度が向上する。
【0036】
関連技術では、目標検出は一般的に、予備検出枠を形成するアンカーを集中的に収集する必要がある。しかし、大量のアンカーには多くの無効なアンカーがあるので、処理時間及びストレージスペースがかかる。なお、関連技術の目標検出プロセスにおいて、目標検出対象の検出枠とカテゴリとは並行して特定されるため、目標検出対象のカテゴリを特定する際に検出枠の情報を考慮することができず、結果として、十分に正確な検出結果を得ることができない。本開示の実施例に係る目標検出方法によれば、目標検出対象のコーナーとサイズを特定することによって目標検出対象の対象特徴を先に特定することができる。大量のアンカーを収集することによる時間及びストレージスペースの浪費を低減させる。さらに、コーナーとサイズに基づいて得られた対象特徴は、2つの目標検出対象が重なり合う場合に、アンカーによって特定された中心点により異なる目標検出対象を区別する難しさを軽減することができる。そのため、本開示の実施例に係る目標検出方法によれば、コーナー特徴によって異なる目標検出対象を区別することができ、アンカーの収集にかかる時間及びストレージスペースを節約することができ、検出結果の取得効率が向上し、且つ正確性が高い検出結果を得ることができる。
【0037】
本発明の実施例に係る情報処理方法は、目標検出が必要な任意のシーンに適用することが可能である。例えば、収集したビデオに対して目標検出を行うシーンに適用して、検出結果に基づいてビデオにおける目標検出対象の軌跡を得てもよい。例えば、セキュリティシーンに適用して、検出結果に基づいて容疑者を認識、追跡してもよい。以下、実施例によって本発明に係る目標検出方法について説明する。
【0038】
図1は本開示の実施例に係る目標検出方法のフローチャートを示す。この目標検出方法は、ユーザ機器(User Equipment、UE)、携帯機器、ユーザ端末、端末、セルラーホン、コードレス電話、パーソナル・デジタル・アシスタント(Personal Digital Assistant、PDA)、手持ち装置、計算装置、車載装置、ウエアラブルデバイス等の端末装置、サーバ又は他の目標検出装置により実行されてもよい。いくつかの可能な実施形態では、この目標検出方法は、プロセッサによって、メモリに記憶されているコンピュータ読取可能な命令を呼び出して実現されてもよい。以下、目標検出装置を実行主体とすることを例として本開示の実施例に係る目標検出方法について説明する。
【0039】
図1に示すように、前記目標検出方法は、以下のステップを含む。
【0040】
ステップS11:処理対象である検出画像を取得する。
【0041】
本開示の実施例では、目標検出装置は、現在のシーンを撮影し、処理対象である検出画像を取得することが可能な画像取得機能を有するものであってもよいし、他の装置によって処理対象である検出画像を取得するものであってもよい。検出画像は、個別に取得された画像であってもよいし、ビデオストリーム内の画像フレームであってもよい。
【0042】
ここで、取得された処理対象である検出画像は、例えば、画像スケーリング、画像強調、画像フィルタなどの前処理が行われた検出画像であってもよい。例えば、検出画像のアスペクト比を変えることなく、検出画像の長辺と短辺を適切なサイズに調整して、前処理された検出画像を得ることができる。
【0043】
ステップS12:前記検出画像の画像特徴に基づいて、目標検出対象に対応するサイズ特徴とコーナー特徴を特定する。
【0044】
本開示の実施例では、ニューラルネットワークを用いて検出画像の画像特徴を抽出することができ、検出画像の画像特徴に基づいて、目標検出対象に対応するサイズ特徴を特定するとともに目標検出対象に対応するコーナー特徴を特定することができる。ここで、目標検出対象は、検出画像において検出する必要がある対象であってもよい。例えば、歩行者、車両、建物、マークなどの対象の画像である。目標検出対象のサイズ特徴は、目標検出対象が位置する画像領域のサイズ特徴を特徴付けることができる。例えば、検出画像における目標検出対象の画像領域は四角形で示されている場合、目標検出対象に対応するサイズ特徴は四角形に対応する長さ特徴及び/又は幅特徴であってもよい。コーナー特徴は、目標検出対象が位置する画像領域の対角点の位置情報を特徴付けることができる。
【0045】
1つの可能な実施形態では、目標検出対象に対応するコーナー特徴は、少なくとも前記目標検出対象に対応する第1コーナー特徴と第2コーナー特徴を含み、前記目標検出対象に対応するサイズ特徴は、前記目標検出対象の第1コーナー特徴に対応する長さ特徴、幅特徴と、前記目標検出対象の第2コーナー特徴に対応する長さ特徴、幅特徴とを含む。
【0046】
この実施形態では、コーナーは第1コーナーと第2コーナーを含んでもよく、第1コーナーと第2コーナーは一対の対角点であってもよい。それに応じて、コーナー特徴は第1コーナー特徴と第2コーナー特徴を含んでもよい。このように、目標検出対象が位置する画像領域の対角点の位置情報を第1コーナー特徴と第2コーナー特徴の組み合わせで示すことにより、異なる目標検出対象を区別しにくいという問題の発生を低減することができる。それに応じて、目標検出対象に対応するサイズ特徴は、第1コーナー特徴における対応の長さ特徴、幅特徴と、第2コーナー特徴における対応の長さ特徴、幅特徴とを含んでもよい。このように、異なるコーナー特徴における対応のサイズ特徴に基づいて、さらに異なる目標検出対象を区別することができる。これにより、目標検出対象に対してより正確な検出結果を得ることができる。
【0047】
ここで、第1コーナーは目標検出対象の左上コーナー又は右下コーナーであってもよい。それに応じて、第2コーナーは目標検出対象に対応する右上コーナー又は左下コーナーであってもよい。第1コーナーと第2コーナーは対角点であってもよく、すなわち、第1コーナーを左上コーナー、第2コーナーを右下コーナーとしてもよいし、第1コーナーを右上コーナー、第2コーナーを左下コーナーとしてもよい。
【0048】
ステップS13:前記サイズ特徴と前記コーナー特徴に基づいて、前記画像特徴から前記目標検出対象に対応する対象特徴を抽出する。
【0049】
本開示の実施例では、目標検出対象に対応するサイズ特徴に基づいて、目標検出対象に対応する画像サイズを特定することができ、目標検出対象に対応するコーナー特徴に基づいて、目標検出対象の検出画像における画像位置を特定することができ、目標検出対象に対応するサイズ特徴とコーナー特徴を組み合わせることにより、目標検出対象に対応する対象特徴を特定することができる。この対象特徴は、検出画像における目標検出対象の画像領域に対応する特徴を特徴付けることができ、この対象特徴は目標検出対象の画像位置を示すものであってもよい。
【0050】
1つの可能な実施形態では、目標検出対象に対応する対象特徴を抽出するとき、サイズ特徴とコーナー特徴に基づいて、検出画像における目標検出対象の画像領域とマッピング関係がある特徴領域を特定し、その後、画像特徴の特徴領域から目標検出対象に対応する対象特徴を抽出することができる。
【0051】
この実施形態では、検出画像に対して特徴抽出を行い、検出画像の画像特徴を得ることができる。この画像特徴は特徴マップとして表してもよい。目標検出対象に対応するサイズ特徴とコーナー特徴に基づいて、この特徴マップにおいて、検出画像における目標検出対象の画像領域に対応する、サイズ特徴とコーナー特徴で示す特徴領域を特定することができる。特徴マップからこの特徴領域の画像特徴を、目標検出対象に対応する対象特徴として抽出してもよい。対象特徴に基づいて、検出画像における目標検出対象の画像領域を特定することができる。
【0052】
1つの可能な実施形態では、第1コーナー特徴における対応の長さ特徴、幅特徴及び第2コーナー特徴における対応の長さ特徴、幅特徴に基づいて、前記検出画像における目標検出対象の検出枠を特定することができ、その後、重なり合う任意の2つの検出枠間の交差オーバーユニオンを決定し、予め設定された閾値より交差オーバーユニオンが大きい場合、重なり合う任意の2つの検出枠を1つの検出枠に合併する。
【0053】
この実施形態では、第1コーナー特徴における対応の長さ特徴、幅特徴は、上記特徴マップにおいて1つの特徴領域を示してもよい。第2コーナー特徴における対応の長さ特徴、幅特徴は、上記特徴マップにおいて1つの特徴領域を示してもよい。第1コーナー特徴が示す特徴領域と第2コーナー特徴が示す特徴領域は同一の特徴領域であってもよく、異なる特徴領域であってもよい。特徴領域と、検出画像における目標検出対象の画像領域との間のマッピング関係に基づいて、検出枠を用いて検出画像における目標検出対象の画像領域を囲むことができる。この検出枠は閉鎖図形であってもよく、例えば、正方形、長方形などの四角形である。検出枠は検出画像における目標検出対象の画像領域を特定することができ、上記コーナー特徴は検出枠の2つの対角点の位置を示すことができ、上記サイズ特徴は検出枠の長さ、幅を示すことができる。
【0054】
ここで、同一の目標検出対象について、複数の検出枠が存在する可能性があり、複数の検出枠同士は重なり合う可能性がある。このため、目標検出対象の検出枠が重なり合う場合、重なり合う任意の2つの検出枠間の交差オーバーユニオンを算出することができる。予め設定された閾値より算出された交差オーバーユニオンが大きければ、この重なり合う2つの検出枠は同一の目標検出対象を標識したと考えられ、重なり合う2つの検出枠のうち大きい方の検出枠を目標検出対象の検出枠とし、小さい方の検出枠を削除するようにしてもよい。または、重なり合う2つの検出枠を合併することで1つの新たな検出枠を形成し、合併前の2つの検出枠を含む新たな検出枠を目標検出対象の検出枠とするようにしてもよい。このように、得られた検出枠をさらに選別し、1つの目標検出対象が1つの検出枠に対応するように、同一の目標検出対象の検出枠を合併することができる。
【0055】
図2は本開示の実施例に係る目標検出対象の検出枠のブロック図を示す。第1コーナーを左上コーナーとすることを例として、第1コーナー特徴、第1コーナー特徴における対応の長さ特徴、幅特徴に基づいて、図2に示す検出枠を形成することができる。
【0056】
ステップS14:前記対象特徴に基づいて、前記目標検出対象のカテゴリを特定する。
【0057】
本開示の実施例では、ニューラルネットワークを用いて、抽出された対象特徴に対してさらに特徴抽出を行うことができる。例えば、対象特徴に対して畳み込み処理、正規化処理などを行い、目標検出対象のカテゴリを得ることができる。例えば、この目標検出対象は車両、歩行者、建物、公共施設などのカテゴリに属する。これにより、対象特徴に基づいて目標検出対象のカテゴリを得、検出画像における目標検出対象に対する目標検出を実現することができる。
【0058】
本開示の実施例では、まず、検出画像の画像特徴により、目標検出対象に対応するサイズ特徴とコーナー特徴を特定する。次に、サイズ特徴とコーナー特徴に基づいて、画像特徴から目標検出対象に対応する対象特徴を抽出する。さらに、抽出された対象特徴に基づいて、目標検出対象のカテゴリを特定する。このように、目標検出対象の対象特徴の特定と、目標検出対象の分類とが非並行して行われる。目標検出対象を分類するとき、目標検出対象の対象特徴を考慮することができるので、より正確な分類結果を得ることができ、目標検出の精度が向上できる。
【0059】
1つの可能な実施形態では、前記対象特徴に対して少なくとも1段の畳み込み処理を行い、前記目標検出対象が少なくとも1つの予め設定されたカテゴリに属する確率を得る。その後、前記目標検出対象が少なくとも1つの予め設定されたカテゴリに属する確率に基づいて、前記予め設定されたカテゴリから前記目標検出対象のカテゴリを特定する。
【0060】
この実施形態では、ニューラルネットワークを用いて、抽出された対象特徴に対して少なくとも1段の畳み込み処理をさらに行うことができ、目標検出対象が少なくとも1つの予め設定されたカテゴリに属する確率を得ることができる。例えば、予め設定されたカテゴリは、歩行者、車両、建物などのいずれかのカテゴリである。対象特徴に対して畳み込み処理をさらに行うことにより、目標検出対象がそれぞれ歩行者、車両、建物のうちの複数の予め設定されたカテゴリに属する確率を得ることができる。その後、確率が最も高い予め設定されたカテゴリを目標検出対象のカテゴリとして特定することができる。
【0061】
本開示の実施例に係る目標検出方法によれば、目標検出対象に対応する対象特徴を先に特定し、その後、対象特徴を用いて目標検出対象を分類し、目標検出対象のカテゴリを特定することができる。このように、正確性が高い検出結果を得ることができる。本開示の実施例に係る目標検出方法によれば、ニューラルネットワークを用いて目標検出対象のカテゴリを得ることができる。以下、ニューラルネットワークを用いて目標検出対象のカテゴリを得るプロセスについて説明する。
【0062】
1つの可能な実施形態では、前記検出画像に対して少なくとも1段の畳み込み処理を行い、前記検出画像の画像特徴を得、その後、前記検出画像の画像特徴に対してコーナープーリング処理を行い、目標検出対象に対応するサイズ特徴とコーナー特徴を得ることができる。
【0063】
この実施形態では、ニューラルネットワークは多段の畳み込み層と角点プーリング層を含んでもよい。検出画像をニューラルネットワークへの入力としてもよく、ニューラルネットワークを用いて検出画像に対して多段の畳み込み処理を行い、検出画像の画像特徴を得ることができる。その後、ニューラルネットワークの角点プーリング層を用いて検出画像の画像特徴に対してコーナープーリング処理を行う。目標検出対象に対応するサイズ特徴とコーナー特徴を得ることができる。
【0064】
この実施形態の一例では、前記畳み込み処理はアップサンプリング処理とダウンサンプリング処理を含み、前記検出画像に対して少なくとも1段の畳み込み処理を行い、前記検出画像の画像特徴を得ることは、前記検出画像に対して少なくとも1段のダウンサンプリング処理を行い、少なくとも1段のダウンサンプリング処理後の第1特徴マップを得ることと、前記少なくとも1段のダウンサンプリング処理後の第1特徴マップに基づいて、少なくとも1段のアップサンプリング処理後の第2特徴マップを得ることと、前記少なくとも1段のダウンサンプリング処理後の第1特徴マップと前記少なくとも1段のアップサンプリング処理後の第2特徴マップに基づいて、前記検出画像の画像特徴を得ることとを含んでもよい。
【0065】
この例では、畳み込み処理は、アップサンプリング処理とダウンサンプリング処理を含んでもよく、まず、ニューラルネットワークを用いて検出画像に対して多段のダウンサンプリング処理を行い、各段のダウンサンプリング処理後の第1特徴マップを得る。次に、多段のダウンサンプリング処理のうちの最終段のダウンサンプリング処理後に取られた第1特徴マップに対して多段のアップサンプリング処理を行い、各段のアップサンプリング処理後の第2特徴マップを得ることができる。その後、多段のダウンサンプリング処理後の第1特徴マップと多段のアップサンプリング処理後の第2特徴マップに基づいて、検出画像の画像特徴を得ることができる。例えば、多段のダウンサンプリング処理後の第1特徴マップと多段のアップサンプリング処理後の第2特徴マップを特徴融合させ、検出画像の画像特徴を得ることができる。ここで、バイリニア補間方式によりアップサンプリング処理を行い、正確な第2特徴マップを得ることができる。
【0066】
この例では、各段の前記ダウンサンプリング処理後に1つの第1特徴マップを出力し、各段の前記アップサンプリング処理後に1つの第2特徴画像を出力し、前記少なくとも1段のアップサンプリング処理のうちの1段目のアップサンプリング処理について、前記少なくとも1段のダウンサンプリング処理のうちの最終段のダウンサンプリング処理後の第1特徴マップを、前記1段目のアップサンプリング処理への入力とし、前記1段目のアップサンプリング処理後に出力された第2特徴マップを得、前記少なくとも1段のアップサンプリング処理のうちのN段目のアップサンプリング処理について、前記N段目のアップサンプリング処理の直前のアップサンプリング処理後に出力された第2特徴マップ、及び前記N段目のアップサンプリング処理後に出力された第2特徴マップにマッチングする第1特徴マップを、前記N段目のアップサンプリング処理への入力とし、前記N段目のアップサンプリング処理により出力された第2特徴マップを得、ここで、Nは1より大きい正の整数である。
【0067】
この例では、検出画像に対して多段のダウンサンプリング処理を行い、各段のダウンサンプリング処理後の第1特徴マップを得ることができる。多段のダウンサンプリング処理のうちの最終段のダウンサンプリング処理後に取られた第1特徴マップに対して、多段のアップサンプリング処理のうちの1段目のアップサンプリング処理によりこの第1特徴マップをアップサンプリングして、1段目のアップサンプリング処理後の第2特徴マップを得ることができる。その後、1段目のアップサンプリング処理後の第2特徴マップ及びこの第2特徴マップにマッチングする第1特徴マップに基づいて、2段目のアップサンプリング処理への入力を得ることができる。例えば、この第2特徴マップをこの第1特徴マップと融合させ、2段目のアップサンプリング処理への入力を得る。又は、この第1特徴マップに対して畳み込み処理を行った後、この第2特徴マップと融合させ、2段目のアップサンプリング処理への入力を得る。ここで、この第2特徴マップにマッチングする第1特徴マップは、この第2特徴マップの画像サイズにマッチングする第1特徴マップであってもよい。2段目のアップサンプリング処理により入力に対してアップサンプリングを行い、2段目のアップサンプリング処理後の第2特徴マップを得ることができる。その後、2段目のアップサンプリング処理後の第2特徴マップ及びこの第2特徴マップにマッチングする第1特徴マップに基づいて、3段目のアップサンプリング処理への入力を得る。以下同様にして、N段目のアップサンプリング処理後の第2特徴マップを得ることができる。ここで、Nは1より大きい正の整数である。このように、アップサンプリング処理プロセスにおいて、ダウンサンプリング処理により取られた画像特徴を考慮することができ、より正確な画像特徴を抽出する。
【0068】
この実施形態の一例において、前記検出画像の画像特徴に対してコーナープーリング処理を行い、処理結果を得ることができる。その後、第1分岐ネットワークを用いて前記処理結果に対して畳み込み処理を行い、目標検出対象に対応するサイズ特徴を得、第1分岐ネットワークとチャネル数が異なる第2分岐ネットワークを用いて前記処理結果に対して畳み込み処理を行い、目標検出対象に対応するコーナー特徴を得る。
【0069】
この例では、上記ニューラルネットワークは、2つの分岐ネットワーク、すなわち、第1分岐ネットワークと第2分岐ネットワークを含んでもよい。ニューラルネットワークを用いて検出画像の画像特徴を抽出した後、第1分岐ネットワークを用いて検出画像の画像特徴に対して畳み込み処理を行い、第1分岐ネットワークの特徴マップを得ることができる。この特徴マップは4つのチャネルに対応してもよい。この場合に、1つのチャネルは第1コーナーの長さ特徴に対応し、1つのチャネルは第1コーナーの幅特徴に対応し、1つのチャネルは第2コーナーの長さ特徴に対応し、1つのチャネルは第2コーナーの幅特徴に対応する。それに応じて、第2分岐ネットワークを用いて検出画像の画像特徴に対して畳み込み処理を行い、第2分岐ネットワークの特徴マップを得ることができる。この特徴マップは2つのチャネルに対応してもよい。この場合に、1つのチャネルは第1コーナー特徴に対応し、第1コーナーの検出画像における位置を示すことができ、もう1つのチャネルは第2コーナー特徴に対応し、第2コーナーの検出画像における位置を示すことができる。このようにして、目標検出対象に対応するサイズ特徴とコーナー特徴に基づいて、目標検出対象が位置する画像領域を特定することができ、且つ、異なる目標検出対象を区別できない可能性を低くすることができる。
【0070】
図3は本開示の実施例に係るニューラルネットワークを用いて目標検出対象の検出結果を得るブロック図を示す。
【0071】
以下、一例で上記ニューラルネットワークを用いて目標検出対象のカテゴリを得るプロセスについて説明する。検出画像のアスペクト比を変えることなく、検出画像の長辺と短辺を適切なサイズ、例えば、検出画像の短辺を800画素に調整することができる。その後、調整後の検出画像をニューラルネットワークに入力する。ニューラルネットワークは多段の畳み込み層を含んでもよい。まず、ニューラルネットワークを用いて検出画像に対してダウンサンプリング処理を行うことができる。各段のダウンサンプリング処理により1つの第1特徴マップを得ることができ、4段の畳み込み処理を行い、4つの異なるサイズの第1特徴マップを得ることができる。それぞれC、C、C、C、と表記する。ここで、Cの長辺と短辺はいずれもCの2倍であり、Cの長辺と短辺はいずれもCの2倍であり、Cの長辺と短辺はいずれもCの2倍である。次に、Cに対して1*1の畳み込みカーネル計算を行い、新たな特徴マップFを得、Fの長辺と短辺はCと同一である。Fに対して多段のアップサンプリング処理を行い、各段のアップサンプリング処理により第2特徴マップを得ることができる。すなわち、Fに対してバイリニア補間のアップサンプリング処理を行うことができ、長辺と短辺がいずれも2倍に拡大された第2特徴マップを得、この第2特徴マップをF′と表記することができる。Cに対して1*1の畳み込みカーネル計算を行い、新たな特徴マップC′を得ることができる。C′とC′はサイズが同一である。C′とC′の2つの特徴マップを加算し、2段目のアップサンプリング処理への入力Fを得ることができる。そして、Fに対してアップサンプリング処理を行い、長辺と短辺がいずれも2倍に拡大された第2特徴マップF′を得、Cに対して1*1の畳み込みカーネル計算を行い、新たな特徴マップC′を得ることができる。C′とF′はサイズが同一である。C′とF′の2つの特徴マップを加算し、3段目のアップサンプリング処理への入力Fを得ることができる。以下同様にして、複数回のアップサンプリング処理により、最終段のアップサンプリング処理後に出力された第2特特徴マップFを得ることができる。Fの長辺と短辺はCと同一である。
【0072】
そして、第2特徴マップFに対してコーナープーリング処理を行い、処理結果を得る。この処理結果はそれぞれ第1分岐ネットワークと第2分岐ネットワークを通過することができる。各分岐ネットワークは3*3の畳み込みカーネルを含んでもよい。第1分岐ネットワークは4チャネルの特徴マップlocationを形成することができ、第2分岐ネットワークは2チャネルの特徴マップmaskを形成することができる。ここで、特徴マップmaskの2チャネルはそれぞれ左上コーナー特徴と右下コーナー特徴を示し、特徴マップlocationの4チャネルはそれぞれ左上コーナーに対応する幅特徴dw、長さ特徴dh、及び右下コーナーに対応する幅特徴dw、長さ特徴dhを示す。
【0073】
左上コーナー特徴と右下コーナー特徴、左上コーナーに対応する幅特徴と長さ特徴、右下コーナーに対応する幅特徴と長さ特徴に基づいて、1つの特徴領域を特定することができる。第2特徴マップFからこの特徴領域の画像特徴を抽出し、目標検出対象の対象特徴を得ることができる。例えば、RoI Align層により第2特徴マップFの特徴領域内において対応する画像特徴を得ることができる。その後、3*3の畳み込みカーネルを用いて対象特徴を分類し、検出画像における目標検出対象のカテゴリを得ることができる。
【0074】
ここで、左上コーナー特徴、右下コーナー特徴、及び左上コーナーに対応するdw、dh、右下コーナーに対応するdw、dhによって、目標検出対象の検出枠を得ることができる。
【0075】
検出枠の幅を例にとると、検出枠の幅は下記式(1)で算出される。
(数1)
w=s*β*edw*α ・・・(1)
ただし、wは検出枠の画像幅であり、s、β、αはマッピングパラメータであってもよく、ネットワークパラメータにより得ることができる。dwは幅特徴である。
【0076】
目標検出対象の検出枠が複数ある場合、目標検出対象の複数の検出枠に対して非極大値抑制処理を行い、目標検出対象の複数の検出枠を1つの検出枠に合併して目標検出対象の最終的な検出結果を得ることができる。
【0077】
本開示の実施例に係る目標検出方法によれば、コーナーに基づいて取られた目標検出対象の検出枠をより効果的に予測することができる。検出枠をより正確に予測でき、目標検出対象の重なり合いに起因して予測された検出枠の精度が低いという問題を効果的に緩和できる。なお、検出枠の予測と目標検出対象の分類とは非並行して行われ、すなわち、検出枠の位置を示すサイズ特徴とコーナー特徴を先に得、その後、サイズ特徴とコーナー特徴により特定された対象特徴に基づいて、目標検出対象を分類し、より正確な分類結果を得ることができる。
【0078】
本開示で言及される上記各方法の実施例は、原理と論理に違反しない限り、相互に組み合わせて実施例を形成することができることが理解すべきである。紙幅に限りがあるので、本開示では詳細な説明を省略する。
【0079】
さらに、本開示では、目標検出装置、電子機器、コンピュータ読み取り可能な記憶媒体、プログラムが提供される。これらはいずれも本開示に係る目標検出方法のいずれか1つを実現するために利用できる。対応する技術的解決手段と説明は、方法の対応する記載を参照すればよく、詳細な説明を省略する。
【0080】
また、当業者であれば、具体的な実施形態に係る上記の方法では、各ステップの記載順序は、実行順序を厳密に限定して実施の過程を限定するものではなく、各ステップの実行順序がその機能と内部の論理によって具体的に決定されることが理解すべきである。
【0081】
図4は本開示の実施例に係る目標検出装置のブロック図を示す。図4に示すように、前記目標検出装置は、
処理対象である検出画像を取得する取得モジュール41と、
前記検出画像の画像特徴に基づいて、目標検出対象に対応するサイズ特徴とコーナー特徴を特定する特定モジュール42と、
前記サイズ特徴と前記コーナー特徴に基づいて、前記画像特徴から前記目標検出対象に対応する対象特徴を抽出する抽出モジュール43と、
前記対象特徴に基づいて、前記目標検出対象のカテゴリを特定する分類モジュール44とを、含む。
【0082】
1つの可能な実施形態では、前記特定モジュール42は具体的に、前記検出画像に対して少なくとも1段の畳み込み処理を行い、前記検出画像の画像特徴を得、前記検出画像の画像特徴に対してコーナープーリング処理を行い、目標検出対象に対応するサイズ特徴とコーナー特徴を得る。
【0083】
1つの可能な実施形態では、前記畳み込み処理はアップサンプリング処理とダウンサンプリング処理を含み、前記特定モジュール42は具体的に、前記検出画像に対して少なくとも1段のダウンサンプリング処理を行い、少なくとも1段のダウンサンプリング処理後の第1特徴マップを得、
前記少なくとも1段のダウンサンプリング処理後の第1特徴マップに基づいて、少なくとも1段のアップサンプリング処理後の第2特徴マップを得、前記少なくとも1段のダウンサンプリング処理後の第1特徴マップと前記少なくとも1段のアップサンプリング処理後の第2特徴マップに基づいて、前記検出画像の画像特徴を得る。
【0084】
1つの可能な実施形態では、各段の前記ダウンサンプリング処理後に1つの第1特徴マップを出力し、各段の前記アップサンプリング処理後に1つの第2特徴画像を出力し、前記特定モジュール42は具体的に、前記少なくとも1段のアップサンプリング処理のうちの1段目のアップサンプリング処理について、前記少なくとも1段のダウンサンプリング処理のうちの最終段のダウンサンプリング処理後の第1特徴マップを、前記1段目のアップサンプリング処理への入力とし、前記1段目のアップサンプリング処理後に出力された第2特徴マップを得、前記少なくとも1段のアップサンプリング処理のうちのN段目のアップサンプリング処理について、前記N段目のアップサンプリング処理の直前のアップサンプリング処理後に出力された第2特徴マップ、及び前記N段目のアップサンプリング処理後に出力された第2特徴マップにマッチングする第1特徴マップを、前記N段目のアップサンプリング処理への入力とし、前記N段目のアップサンプリング処理により出力された第2特徴マップを得、ここで、Nは1より大きい正の整数である。
【0085】
1つの可能な実施形態では、前記特定モジュール42は具体的に、前記N段目のアップサンプリング処理の直前のアップサンプリング処理後に出力された第2特徴マップと、前記N段目のアップサンプリング処理後に出力された第2特徴マップにマッチングする第1特徴マップとを特徴融合させ、前記N段目のアップサンプリング処理への入力を得る。
【0086】
1つの可能な実施形態では、前記特定モジュール42は具体的に、前記検出画像の画像特徴に対してコーナープーリング処理を行い、処理結果を得、第1分岐ネットワークを用いて前記処理結果に対して畳み込み処理を行い、目標検出対象に対応するサイズ特徴を得、第1分岐ネットワークとチャネル数が異なる第2分岐ネットワークを用いて前記処理結果に対して畳み込み処理を行い、目標検出対象に対応するコーナー特徴を得る。
【0087】
1つの可能な実施形態では、前記抽出モジュール43は具体的に、前記サイズ特徴と前記コーナー特徴に基づいて、前記検出画像における前記目標検出対象の画像領域とマッピング関係がある特徴領域を特定し、前記画像特徴の特徴領域から前記目標検出対象に対応する対象特徴を抽出する。
【0088】
1つの可能な実施形態では、前記目標検出対象に対応するコーナー特徴は、少なくとも前記目標検出対象に対応する第1コーナー特徴と第2コーナー特徴を含み、前記目標検出対象に対応するサイズ特徴は、前記目標検出対象の第1コーナー特徴に対応する長さ特徴、幅特徴と、前記目標検出対象の第2コーナー特徴に対応する長さ特徴、幅特徴とを含む。
【0089】
1つの可能な実施形態では、前記装置は、前記第1コーナー特徴における対応の長さ特徴、幅特徴及び前記第2コーナー特徴における対応の長さ特徴、幅特徴に基づいて、前記検出画像において前記目標検出対象の検出枠を特定し、重なり合う任意の2つの検出枠間の交差オーバーユニオンを決定し、予め設定された閾値より前記交差オーバーユニオンが大きい場合、前記重なり合う任意の2つの検出枠を1つの検出枠に合併する合併モジュールをさらに含む。
【0090】
1つの可能な実施形態では、前記分類モジュール44は具体的に、前記対象特徴に対して少なくとも1段の畳み込み処理を行い、前記目標検出対象が各予め設定されたカテゴリに属する確率を得、前記目標検出対象が各予め設定されたカテゴリに属する確率に基づいて、前記予め設定されたカテゴリから前記目標検出対象のカテゴリを特定する。
【0091】
いくつかの実施例では、本開示の実施例に係る装置が備える機能又はモジュールは、上述した方法の実施例に説明される方法を実行するために利用でき、その具体的な実現について、上述した方法の実施例の説明を参照すればよく、簡素化のために、ここで詳細な説明を省略する。
【0092】
本開示の実施例はさらに、プロセッサと、プロセッサが実行可能な命令を記憶するためのメモリと、を含み、前記プロセッサは、上記方法を実行するように構成される電子機器を提供する。
【0093】
電子機器は、端末、サーバ又は他の形態の機器として提供されてもよい。
【0094】
図5は例示的な実施例に係る電子機器1900のブロック図を示す。例えば、電子機器1900はサーバーとして提供されてもよい。図5を参照すると、電子機器1900は、一つ以上のプロセッサを含む処理コンポーネント1922、および、処理コンポーネント1922によって実行可能な命令例えばアプリケーションプログラムを記憶するための、メモリ1932を代表とするメモリ資源を含む。メモリ1932に記憶されているアプリケーションプログラムは、それぞれが1つの命令群に対応する一つ以上のモジュールを含んでもよい。また、処理コンポーネント1922は命令を実行することによって上記方法を実行するように構成される。
【0095】
電子機器1900はさらに、電子機器1900の電源管理を実行するように構成される電源コンポーネント1926、電子機器1900をネットワークに接続するように構成される有線または無線ネットワークインタフェース1950、および入出力(I/O)インタフェース1958を含んでもよい。電子機器1900はメモリ1932に記憶されいるオペレーティングシステム、例えばWindows ServerTM、Mac OS XTM、UnixTM、LinuxTM、FreeBSDTMまたは類似するものに基づいて動作できる。
【0096】
例示的な実施例では、さらに、揮発性コンピュータ可読記憶媒体または不揮発性コンピュータ可読記憶媒体、例えばコンピュータプログラム命令を含むメモリ1932が提供され、上記コンピュータプログラム命令は、電子機器1900の処理コンポーネント1922によって実行されと、上記方法を実行させることができる。
【0097】
例示的な実施例では、さらに、コンピュータ読み取り可能なコードを含み、コンピュータ読み取り可能なコードが電子機器で動作すると、電子機器のプロセッサに上記方法を実現するためのコマンドを実行させるコンピュータプログラムを提供する。
【0098】
本開示はシステム、方法および/またはコンピュータプログラム製品であってもよい。コンピュータプログラム製品は、プロセッサに本開示の各方面を実現させるためのコンピュータ可読プログラム命令が有しているコンピュータ可読記憶媒体を含んでもよい。
【0099】
コンピュータ可読記憶媒体は、命令実行機器に使用される命令を保存および記憶可能な有形装置であってもよい。コンピュータ可読記憶媒体は例えば、電気記憶装置、磁気記憶装置、光記憶装置、電磁記憶装置、半導体記憶装置、または上記の任意の適当な組み合わせであってもよい。コンピュータ可読記憶媒体のさらに具体的な例(非網羅的リスト)としては、携帯型コンピュータディスク、ハードディスク、ランダムアクセスメモリ(RAM)、読み取り専用メモリ(ROM)、消去可能プログラマブル読み取り専用メモリ(EPROMまたはフラッシュメモリ)、静的ランダムアクセスメモリ(SRAM)、携帯型コンパクトディスク読み取り専用メモリ(CD-ROM)、デジタル多用途ディスク(DVD)、メモリスティック、フロッピーディスク、例えば命令が記憶されているせん孔カードまたはスロット内突起構造のような機械的符号化装置、および上記の任意の適当な組み合わせを含む。ここで使用されるコンピュータ可読記憶媒体は、瞬時信号自体、例えば無線電波または他の自由に伝播される電磁波、導波路または他の伝送媒体を経由して伝播される電磁波(例えば、光ファイバーケーブルを通過するパルス光)、または電線を経由して伝送される電気信号と解釈されるものではない。
【0100】
ここで記述したコンピュータ可読プログラム命令は、コンピュータ可読記憶媒体から各計算/処理機器にダウンロードされてもよいし、またはネットワーク、例えばインターネット、ローカルエリアネットワーク、広域ネットワークおよび/または無線ネットワークを介して外部のコンピュータまたは外部記憶装置にダウンロードされてもよい。ネットワークは銅伝送ケーブル、光ファイバー伝送、無線伝送、ルーター、ファイアウォール、交換機、ゲートウェイコンピュータおよび/またはエッジサーバを含んでもよい。各計算/処理機器内のネットワークアダプタカードまたはネットワークインタフェースはネットワークからコンピュータ可読プログラム命令を受信し、該コンピュータ可読プログラム命令を転送し、各計算/処理機器内のコンピュータ可読記憶媒体に記憶させる。
【0101】
本開示の動作を実行するためのコンピュータプログラム命令はアセンブリ命令、命令セットアーキテクチャ(ISA)命令、機械語命令、機械依存命令、マイクロコード、ファームウェア命令、状態設定データ、またはSmalltalk、C++などのオブジェクト指向プログラミング言語、および「C」言語または類似するプログラミング言語などの一般的な手続き型プログラミング言語を含める一つ以上のプログラミング言語の任意の組み合わせで書かれたソースコードまたは目標コードであってもよい。コンピュータ可読プログラム命令は、完全にユーザのコンピュータにおいて実行されてもよく、部分的にユーザのコンピュータにおいて実行されてもよく、スタンドアロンソフトウェアパッケージとして実行されてもよく、部分的にユーザのコンピュータにおいてかつ部分的にリモートコンピュータにおいて実行されてもよく、または完全にリモートコンピュータもしくはサーバにおいて実行されてもよい。リモートコンピュータに関与する場合、リモートコンピュータは、ローカルエリアネットワーク(LAN)または広域ネットワーク(WAN)を含む任意の種類のネットワークを経由してユーザのコンピュータに接続されてもよく、または、(例えばインターネットサービスプロバイダを利用してインターネットを経由して)外部コンピュータに接続されてもよい。いくつかの実施例では、コンピュータ可読プログラム命令の状態情報を利用して、例えばプログラマブル論理回路、フィールドプログラマブルゲートアレイ(FPGA)またはプログラマブル論理アレイ(PLA)などの電子回路をパーソナライズし、該電子回路によりコンピュータ可読プログラム命令を実行することにより、本開示の各方面を実現するようにしてもよい。
【0102】
ここで、本開示の実施例に係る方法、装置(システム)およびコンピュータプログラム製品のフローチャートおよび/またはブロック図を参照しながら本開示の各態様を説明したが、フローチャートおよび/またはブロック図の各ブロックおよびフローチャートおよび/またはブロック図の各ブロックの組み合わせは、いずれもコンピュータ可読プログラム命令によって実現できることを理解すべきである。
【0103】
これらのコンピュータ可読プログラム命令は、汎用コンピュータ、専用コンピュータまたは他のプログラマブルデータ処理装置のプロセッサへ提供され、これらの命令がコンピュータまたは他のプログラマブルデータ処理装置のプロセッサによって実行されると、フローチャートおよび/またはブロック図の一つ以上のブロックにおいて指定された機能/動作を実現ように、装置を製造してもよい。これらのコンピュータ可読プログラム命令は、コンピュータ可読記憶媒体に記憶され、コンピュータ、プログラマブルデータ処理装置および/または他の機器を特定の方式で動作させるようにしてもよい。これにより、命令が記憶されているコンピュータ可読記憶媒体は、フローチャートおよび/またはブロック図の一つ以上のブロックにおいて指定された機能/動作の各方面を実現する命令を有する製品を含む。
【0104】
コンピュータ可読プログラム命令は、コンピュータ、他のプログラマブルデータ処理装置、または他の機器にロードされ、コンピュータ、他のプログラマブルデータ処理装置または他の機器に一連の動作ステップを実行させることにより、コンピュータにより実施なプロセスを生成するようにしてもよい。このようにして、コンピュータ、他のプログラマブルデータ処理装置、または他の機器において実行される命令により、フローチャートおよび/またはブロック図の一つ以上のブロックにおいて指定された機能/動作を実現する。
【0105】
図面のうちフローチャートおよびブロック図は、本開示の複数の実施例に係るシステム、方法およびコンピュータプログラム製品の実現可能なシステムアーキテクチャ、機能および動作を示す。この点では、フローチャートまたはブロック図における各ブロックは一つのモジュール、プログラムセグメントまたは命令の一部分を代表することができ、前記モジュール、プログラムセグメントまたは命令の一部分は指定された論理機能を実現するための一つ以上の実行可能命令を含む。いくつかの代替としての実現形態では、ブロックに表記される機能は、図面に付した順序と異なって実現してもよい。例えば、連続的な二つのブロックは実質的に並列に実行してもよく、また、係る機能によって、逆な順序で実行してもよい。なお、ブロック図および/またはフローチャートにおける各ブロック、およびブロック図および/またはフローチャートにおけるブロックの組み合わせは、指定される機能または動作を実行するハードウェアに基づく専用システムによって実現してもよいし、または専用ハードウェアとコンピュータ命令との組み合わせによって実現してもよいことにも注意すべきである。
【0106】
以上、本開示の各実施例を記述したが、上記説明は例示的なものに過ぎず、網羅的なものではなく、かつ披露された各実施例に限定されるものでもない。当業者にとって、説明された各実施例の範囲および精神から逸脱することなく、様々な修正および変更が自明である。本明細書に選ばれた用語は、各実施例の原理、実際の適用または既存技術に対する改善を好適に解釈するか、または他の当業者に本文に披露された各実施例を理解させるためのものである。
図1
図2
図3
図4
図5
【手続補正書】
【提出日】2022-03-28
【手続補正1】
【補正対象書類名】特許請求の範囲
【補正対象項目名】全文
【補正方法】変更
【補正の内容】
【特許請求の範囲】
【請求項1】
処理対象である検出画像を取得することと、
前記検出画像の画像特徴に基づいて、目標検出対象に対応するサイズ特徴とコーナー特徴を特定することと、
前記サイズ特徴と前記コーナー特徴に基づいて、前記画像特徴から前記目標検出対象に対応する対象特徴を抽出することと、
前記対象特徴に基づいて、前記目標検出対象のカテゴリを特定することとを、含むことを特徴とする目標検出方法。
【請求項2】
前記検出画像の画像特徴に基づいて、目標検出対象に対応するサイズ特徴とコーナー特徴を特定することは、
前記検出画像に対して少なくとも1段の畳み込み処理を行い、前記検出画像の画像特徴を得ることと、
前記検出画像の画像特徴に対してコーナープーリング処理を行い、目標検出対象に対応するサイズ特徴とコーナー特徴を得ることと、を含むことを特徴とする請求項1に記載の方法。
【請求項3】
前記畳み込み処理はアップサンプリング処理とダウンサンプリング処理を含み、
前記検出画像に対して少なくとも1段の畳み込み処理を行い、前記検出画像の画像特徴を得ることは、
前記検出画像に対して少なくとも1段のダウンサンプリング処理を行い、少なくとも1段のダウンサンプリング処理後の第1特徴マップを得ることと、
前記少なくとも1段のダウンサンプリング処理後の第1特徴マップに基づいて、少なくとも1段のアップサンプリング処理後の第2特徴マップを得ることと、
前記少なくとも1段のダウンサンプリング処理後の第1特徴マップと前記少なくとも1段のアップサンプリング処理後の第2特徴マップに基づいて、前記検出画像の画像特徴を得ることと、を含むことを特徴とする請求項2に記載の方法。
【請求項4】
各段の前記ダウンサンプリング処理後に1つの第1特徴マップを出力し、各段の前記アップサンプリング処理後に1つの第2特徴画像を出力し、
前記少なくとも1段のダウンサンプリング処理後の第1特徴マップに基づいて、少なくとも1段のアップサンプリング処理後の第2特徴マップを得ることは、
前記少なくとも1段のアップサンプリング処理のうちの1段目のアップサンプリング処理について、前記少なくとも1段のダウンサンプリング処理のうちの最終段のダウンサンプリング処理後の第1特徴マップを、前記1段目のアップサンプリング処理への入力とすることと、
前記1段目のアップサンプリング処理後に出力された第2特徴マップを得ることと、
前記少なくとも1段のアップサンプリング処理のうちのN段目のアップサンプリング処理について、前記N段目のアップサンプリング処理の直前のアップサンプリング処理後に出力された第2特徴マップ、及び前記N段目のアップサンプリング処理後に出力された第2特徴マップにマッチングする第1特徴マップを、前記N段目のアップサンプリング処理への入力とすることと、
前記N段目のアップサンプリング処理により出力された第2特徴マップを得ることとを含み、ここで、Nは1より大きい正の整数であることを特徴とする請求項3に記載の方法。
【請求項5】
前記N段目のアップサンプリング処理の直前のアップサンプリング処理後に出力された第2特徴マップ、及び前記N段目のアップサンプリング処理後に出力された第2特徴マップにマッチングする第1特徴マップを、前記N段目のアップサンプリング処理への入力とすることは、
前記N段目のアップサンプリング処理の直前のアップサンプリング処理後に出力された第2特徴マップと、前記N段目のアップサンプリング処理後に出力された第2特徴マップにマッチングする第1特徴マップとを特徴融合させ、前記N段目のアップサンプリング処理への入力を得ることを特徴とする請求項4に記載の方法。
【請求項6】
前記検出画像の画像特徴に対してコーナープーリング処理を行い、目標検出対象に対応するサイズ特徴とコーナー特徴を得ることは、
前記検出画像の画像特徴に対してコーナープーリング処理を行い、処理結果を得ることと、
第1分岐ネットワークを用いて前記処理結果に対して畳み込み処理を行い、目標検出対象に対応するサイズ特徴を得ることと、
第1分岐ネットワークとチャネル数が異なる第2分岐ネットワークを用いて前記処理結果に対して畳み込み処理を行い、目標検出対象に対応するコーナー特徴を得ることとを含む
ことを特徴とする請求項2に記載の方法。
【請求項7】
前記サイズ特徴と前記コーナー特徴に基づいて、前記画像特徴から前記目標検出対象に対応する対象特徴を抽出することは、
前記サイズ特徴と前記コーナー特徴に基づいて、前記検出画像における前記目標検出対象の画像領域とマッピング関係がある特徴領域を特定することと、
前記画像特徴の特徴領域から前記目標検出対象に対応する対象特徴を抽出することと、を含むことを特徴とする請求項1~6のいずれか1項に記載の方法。
【請求項8】
前記目標検出対象に対応するコーナー特徴は、少なくとも前記目標検出対象に対応する第1コーナー特徴と第2コーナー特徴を含み、
前記目標検出対象に対応するサイズ特徴は、前記目標検出対象の第1コーナー特徴に対応する長さ特徴、幅特徴と、前記目標検出対象の第2コーナー特徴に対応する長さ特徴、幅特徴とを含むことを特徴とする請求項7に記載の方法。
【請求項9】
前記第1コーナー特徴に対応する長さ特徴、幅特徴及び前記第2コーナー特徴に対応する長さ特徴、幅特徴に基づいて、前記検出画像において前記目標検出対象の検出枠を特定することと、
重なり合う任意の2つの検出枠間の交差オーバーユニオンを決定することと、
予め設定された閾値より前記交差オーバーユニオンが大きい場合、前記重なり合う任意の2つの検出枠を1つの検出枠に合併することとをさらに含むことを特徴とする請求項8に記載の方法。
【請求項10】
前記対象特徴に基づいて、前記目標検出対象のカテゴリを特定することは、
前記対象特徴に対して少なくとも1段の畳み込み処理を行い、前記目標検出対象が少なくとも1つの予め設定されたカテゴリに属する確率を得ることと、
前記目標検出対象が少なくとも1つの予め設定されたカテゴリに属する確率に基づいて、前記予め設定されたカテゴリから前記目標検出対象のカテゴリを特定することと、を含むことを特徴とする請求項1~9のいずれか1項に記載の方法。
【請求項11】
処理対象である検出画像を取得する取得モジュールと、
前記検出画像の画像特徴に基づいて、目標検出対象に対応するサイズ特徴とコーナー特徴を特定する特定モジュールと、
前記サイズ特徴と前記コーナー特徴に基づいて、前記画像特徴から前記目標検出対象に対応する対象特徴を抽出する抽出モジュールと、
前記対象特徴に基づいて、前記目標検出対象のカテゴリを特定する分類モジュールとを、含むことを特徴とする目標検出装置。
【請求項12】
プロセッサと、
プロセッサが実行可能な命令を記憶するためのメモリと、を含み、
前記プロセッサは、前記メモリに記憶されている命令を呼び出すことにより、請求項1~10のいずれか1項に記載の方法を実行するように構成されることを特徴とする電子機器。
【請求項13】
コンピュータプログラムコマンドが記憶されているコンピュータ読み取り可能な記憶媒体であって、前記コンピュータプログラムコマンドは、プロセッサにより実行されると、請求項1~10のいずれか1項に記載の方法を実現させることを特徴とするコンピュータ読み取り可能な記憶媒体。
【請求項14】
コンピュータ読み取り可能なコードを含み、前記コンピュータ読み取り可能なコードが電子機器で動作すると、前記電子機器のプロセッサに請求項1~10のいずれか1項に記載の方法を実現するためのコマンドを実行させることを特徴とするコンピュータプログラム。
【国際調査報告】