IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社NTTドコモの特許一覧

特開2024-45078ニューラルネットワークベースの分類器、分類方法および記憶媒体
<>
  • 特開-ニューラルネットワークベースの分類器、分類方法および記憶媒体 図1
  • 特開-ニューラルネットワークベースの分類器、分類方法および記憶媒体 図2
  • 特開-ニューラルネットワークベースの分類器、分類方法および記憶媒体 図3
  • 特開-ニューラルネットワークベースの分類器、分類方法および記憶媒体 図4
  • 特開-ニューラルネットワークベースの分類器、分類方法および記憶媒体 図5
  • 特開-ニューラルネットワークベースの分類器、分類方法および記憶媒体 図6A
  • 特開-ニューラルネットワークベースの分類器、分類方法および記憶媒体 図6B
  • 特開-ニューラルネットワークベースの分類器、分類方法および記憶媒体 図7
  • 特開-ニューラルネットワークベースの分類器、分類方法および記憶媒体 図8
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024045078
(43)【公開日】2024-04-02
(54)【発明の名称】ニューラルネットワークベースの分類器、分類方法および記憶媒体
(51)【国際特許分類】
   G06V 10/82 20220101AFI20240326BHJP
   G06T 7/00 20170101ALI20240326BHJP
【FI】
G06V10/82
G06T7/00 350C
【審査請求】未請求
【請求項の数】10
【出願形態】OL
(21)【出願番号】P 2023152920
(22)【出願日】2023-09-20
(31)【優先権主張番号】202211146369.4
(32)【優先日】2022-09-20
(33)【優先権主張国・地域又は機関】CN
(71)【出願人】
【識別番号】392026693
【氏名又は名称】株式会社NTTドコモ
(74)【代理人】
【識別番号】110004185
【氏名又は名称】インフォート弁理士法人
(72)【発明者】
【氏名】リャン シャオ
(72)【発明者】
【氏名】ユウ ウェン
(72)【発明者】
【氏名】中村 一成
(72)【発明者】
【氏名】川波 稜
(72)【発明者】
【氏名】福島 悠介
(72)【発明者】
【氏名】リ アンシン
【テーマコード(参考)】
5L096
【Fターム(参考)】
5L096EA35
5L096EA39
5L096FA18
5L096FA59
5L096FA69
5L096GA30
5L096HA11
5L096JA11
5L096JA13
5L096JA16
5L096KA04
5L096KA15
(57)【要約】      (修正有)
【課題】背景情報からの干渉が大幅に低減され、正確な分類を行うニューラルネットワークベースの分類器及び方法を提供する。
【解決手段】ニューラルネットワークベースの分類器は、ターゲットオブジェクトを含む第1画像を取得するサンプル取得ユニットと、第1画像内でターゲットオブジェクトを取り囲むバウンディングボックスを決定するターゲットオブジェクトフレーム選択ユニットと、決定されたターゲットオブジェクトのバウンディングボックスに基づいて、ターゲットオブジェクトを分類する分類ユニットと、を含み、ターゲットオブジェクトフレーム選択ユニットは、第1画像の深層特徴を抽出する深層特徴抽出部と、第1画像の浅層特徴を抽出する浅層特徴抽出部と、深層特徴と浅層特徴とを重み付けして融合し、クラス活性化マップを取得する融合部と、を含み、クラス活性化マップに基づいて、ターゲットオブジェクトのバウンディングボックスを決定する。
【選択図】図1
【特許請求の範囲】
【請求項1】
ニューラルネットワークベースの分類器であって、
ターゲットオブジェクトを含む第1画像を取得するように構成されているサンプル取得ユニットと、
前記第1画像内で前記ターゲットオブジェクトを取り囲むバウンディングボックスを決定するように構成されているターゲットオブジェクトフレーム選択ユニットと、
決定された前記ターゲットオブジェクトのバウンディングボックスに基づいて、前記ターゲットオブジェクトを分類するように構成されている分類ユニットと、を含み、
前記ターゲットオブジェクトフレーム選択ユニットは、
前記第1画像の深層特徴を抽出するように構成されている深層特徴抽出部と、
前記第1画像の浅層特徴を抽出するように構成されている浅層特徴抽出部と、
前記ターゲットオブジェクトフレーム選択ユニットがクラス活性化マップに基づいて、前記ターゲットオブジェクトを取り囲むバウンディングボックスを決定するように、前記深層特徴と浅層特徴とを重み付けして融合することによって、前記クラス活性化マップを取得するように構成されている融合部と、を含むニューラルネットワークベースの分類器。
【請求項2】
前記ターゲットオブジェクトフレーム選択ユニットは、
前記第1画像のグローバル特徴を抽出するように構成されているグローバル特徴抽出部をさらに含み、
前記融合部は、前記深層特徴、前記浅層特徴および前記グローバル特徴を重み付けして融合することによって、前記クラス活性化マップを取得するようにさらに構成されている、請求項1に記載のニューラルネットワークベースの分類器。
【請求項3】
前記ターゲットオブジェクトフレーム選択ユニットは、
前記クラス活性化マップを二値化して、複数の候補バウンディングボックスを生成するように構成されている候補バウンディングボックス生成部をさらに含む、請求項1または2に記載のニューラルネットワークベースの分類器。
【請求項4】
前記候補バウンディングボックス生成部は、
前記クラス活性化マップに基づいて、第1閾値を決定し、
前記第1閾値に従って、前記クラス活性化マップを二値化し、
二値化された後の前記クラス活性化マップにおける複数の連通領域の複数のバウンディングボックスを、前記複数の候補バウンディングボックスとして決定するようにさらに構成されている、請求項3に記載のニューラルネットワークベースの分類器。
【請求項5】
前記候補バウンディングボックス生成部は、
前記クラス活性化マップに基づいて、自己適応アルゴリズムによって前記第1閾値を決定するようにさらに構成されている、請求項4に記載のニューラルネットワークベースの分類器。
【請求項6】
前記ターゲットオブジェクトフレーム選択ユニットは、投票部をさらに含み、
前記投票部は、
前記複数の候補バウンディングボックスのうちの、面積が第2閾値よりも小さい候補バウンディングボックスを廃棄し、
前記複数の候補バウンディングボックスの特徴値、面積および位置に基づいて、前記複数の候補バウンディングボックスのうちの1つを、前記ターゲットオブジェクトを取り囲むバウンディングボックスとして決定するように構成されている、請求項5に記載のニューラルネットワークベースの分類器。
【請求項7】
前記複数の候補バウンディングボックスの特徴値、面積および位置に基づいて、前記複数の候補バウンディングボックスのうちの1つを、前記ターゲットオブジェクトを取り囲むバウンディングボックスとして決定するステップは、
前記複数の候補バウンディングボックスの各候補バウンディングボックスの確率スコア、面積スコアおよび位置スコアを算出するステップと、
前記複数の候補バウンディングボックスの各候補バウンディングボックスの確率スコア、面積スコアおよび位置スコアに基づいて、前記ターゲットオブジェクトを取り囲むバウンディングボックスを決定するステップとを含む、請求項6に記載のニューラルネットワークベースの分類器。
【請求項8】
前記複数の候補バウンディングボックスの各候補バウンディングボックスの確率スコア、面積スコアおよび位置スコアに基づいて、前記ターゲットオブジェクトを取り囲むバウンディングボックスを決定するステップは、
前記確率スコア、面積スコアおよび位置スコアについて、前記複数の候補バウンディングボックスをそれぞれ3回の順位付けするステップと、
前記3回の順位付けにおいて、他の候補バウンディングボックスよりも上位に順位付けされた候補バウンディングボックスを、前記ターゲットオブジェクトを取り囲むバウンディングボックスとして決定するか、または、
前記複数の候補バウンディングボックスのうちのそれぞれについて、前記確率スコア、面積スコアおよび位置スコアの合計を算出し、前記確率スコア、面積スコアおよび位置スコアの合計が最も大きい候補バウンディングボックスを、前記ターゲットオブジェクトを取り囲むバウンディングボックスとして決定するステップとを含む、請求項7に記載のニューラルネットワークベースの分類器。
【請求項9】
ニューラルネットワークベースの分類方法であって、
ターゲットオブジェクトを含む第1画像を取得するステップと、
前記第1画像内で前記ターゲットオブジェクトを取り囲むバウンディングボックスを決定するステップと、
決定された前記ターゲットオブジェクトのバウンディングボックスに基づいて、前記ターゲットオブジェクトを分類するステップとを含み、
前記第1画像内で前記ターゲットオブジェクトを取り囲むバウンディングボックスを決定するステップは、
前記第1画像の深層特徴を抽出するステップと、
前記第1画像の浅層特徴を抽出するステップと、
前記深層特徴と浅層特徴とを重み付けして融合することによって、クラス活性化マップを取得するステップと、
前記クラス活性化マップに基づいて、前記ターゲットオブジェクトを取り囲むバウンディングボックスを決定するステップとを含む、ニューラルネットワークベースの分類方法。
【請求項10】
コンピュータ命令が記憶されている非一時的なコンピュータ読み取り可能な記憶媒体であって、前記コンピュータ命令がプロセッサによって実行されると、前記プロセッサに請求項1に記載の、ニューラルネットワークベースの分類器によるターゲットオブジェクトの分類方法を実行させる、非一時的なコンピュータ読み取り可能な記憶媒体。

【発明の詳細な説明】
【技術分野】
【0001】
本願は、人工知能の分野に関し、特に、ニューラルネットワークベースの分類器、分類方法、および記憶媒体に関する。
【背景技術】
【0002】
ニューラルネットワークベースの分類技術において、通常、背景情報の存在が分類モデルの精度に影響を与える。したがって、分類モデルをトレーニングする前に背景情報が除外されることが望ましい。背景情報を除外するには、まず、ターゲットオブジェクトの位置を正確に特定すること、つまり画像内でターゲットオブジェクトをフレームに収めることが必要となる。従来技術では、通常、画像内で予め設定された閾値を超える最大の連通領域のバウンディングボックスがターゲットオブジェクトのバウンディングボックスとみなされる。この方法において特定されたターゲットオブジェクトのバウンディングボックスは、通常、不正確である。例えば、ターゲットオブジェクトの一部がバウンディングボックスとして特定される場合がある。他の場合には、特定されたバウンディングボックスに含まれる背景情報が多すぎる状況もある。
【発明の概要】
【発明が解決しようとする課題】
【0003】
本願は、上記の問題点に鑑みてなされたものである。例示的な態様において、本開示は、ターゲットオブジェクトを含む第1画像を取得するように構成されているサンプル取得ユニットと、前記第1画像内で前記ターゲットオブジェクトを取り囲むバウンディングボックスを決定するように構成されているターゲットオブジェクトフレーム選択ユニットと、決定された前記ターゲットオブジェクトのバウンディングボックスに基づいて、前記ターゲットオブジェクトを分類するように構成されている分類ユニットとを含む、ニューラルネットワークベースの分類器を提供する。前記ターゲットオブジェクトフレーム選択ユニットは、前記第1画像の深層特徴を抽出するように構成されている深層特徴抽出部と、前記第1画像の浅層特徴を抽出するように構成されている浅層特徴抽出部と、前記ターゲットオブジェクトフレーム選択ユニットがクラス活性化マップに基づいて、前記ターゲットオブジェクトを取り囲むバウンディングボックスを決定するように、前記深層特徴と浅層特徴とを重み付けして融合することによって、前記クラス活性化マップを取得するように構成されている融合部と、を含む。
【0004】
いくつかの実施例において、前記ターゲットオブジェクトフレーム選択ユニットは、前記第1画像のグローバル特徴を抽出するように構成されているグローバル特徴抽出部をさらに含み、前記融合部は、前記深層特徴、浅層特徴および前記グローバル特徴を重み付けして融合することによって、前記クラス活性化マップを取得するようにさらに構成されている。
【0005】
いくつかの実施例において、前記ターゲットオブジェクトフレーム選択ユニットは、前記クラス活性化マップを二値化して、複数の候補バウンディングボックスを生成するように構成されている候補バウンディングボックス生成部をさらに含む。
【0006】
いくつかの実施例において、前記候補バウンディングボックス生成部は、前記クラス活性化マップに基づいて、第1閾値を決定し、前記第1閾値に従って、前記クラス活性化マップを二値化し、二値化された前記クラス活性化マップにおける複数の連通領域の複数のバウンディングボックスを、前記複数の候補バウンディングボックスとして決定するようにさらに構成されている。
【0007】
いくつかの実施例において、前記候補バウンディングボックス生成部は、前記クラス活性化マップに基づいて、自己適応アルゴリズムによって前記第1閾値を決定するようにさらに構成されている。
【0008】
いくつかの実施例において、前記ターゲットオブジェクトフレーム選択ユニットは、前記複数の候補バウンディングボックスの特徴値、面積および位置に基づいて、前記複数の候補バウンディングボックスのうちの1つを、前記ターゲットオブジェクトを取り囲むバウンディングボックスとして決定するように構成されている投票部をさらに含む。
【0009】
いくつかの実施例において、前記投票部は、前記複数の候補バウンディングボックスのうちの、面積が第2閾値よりも小さい候補バウンディングボックスを廃棄するようにさらに構成されている。
【0010】
いくつかの実施例において、前記複数の候補バウンディングボックスの特徴値、面積および位置に基づいて、前記複数の候補バウンディングボックスのうちの1つを、前記ターゲットオブジェクトを取り囲むバウンディングボックスとして決定するステップは、前記複数の候補バウンディングボックスの各候補バウンディングボックスの確率スコア、面積スコアおよび位置スコアを算出するステップと、前記複数の候補バウンディングボックスの各候補バウンディングボックスの確率スコア、面積スコアおよび位置スコアに基づいて、前記ターゲットオブジェクトを取り囲むバウンディングボックスを決定するステップとを含む。
【0011】
いくつかの実施例において、前記複数の候補バウンディングボックスの各候補バウンディングボックスの確率スコア、面積スコアおよび位置スコアに基づいて、前記ターゲットオブジェクトを取り囲むバウンディングボックスを決定するステップは、前記確率スコア、面積スコアおよび位置スコアについて、前記複数の候補バウンディングボックスをそれぞれ3回の順位付けをするステップと、前記3回の順位付けにおいて、他の候補バウンディングボックスよりも上位に順位付けされた候補バウンディングボックスを、前記ターゲットオブジェクトを取り囲むバウンディングボックスとして決定するステップとを含む。
【0012】
いくつかの実施例において、前記複数の候補バウンディングボックスの各候補バウンディングボックスの確率スコア、面積スコアおよび位置スコアに基づいて、前記ターゲットオブジェクトを取り囲むバウンディングボックスを決定するステップは、前記複数の候補バウンディングボックスのそれぞれについて、前記確率スコア、面積スコアおよび位置スコアの合計を算出するステップと、前記確率スコア、面積スコアおよび位置スコアの合計が最も大きい候補バウンディングボックスを、前記ターゲットオブジェクトを取り囲むバウンディングボックスとして決定するステップとを含む。
【0013】
別の例示的な態様において、本開示は、ターゲットオブジェクトを含む第1画像を取得するステップと、前記第1画像内で前記ターゲットオブジェクトを取り囲むバウンディングボックスを決定するステップと、決定された前記ターゲットオブジェクトのバウンディングボックスに基づいて、前記ターゲットオブジェクトを分類するステップとを含む、ニューラルネットワークベースの分類方法を提供する。前記第1画像内で前記ターゲットオブジェクトを取り囲むバウンディングボックスを決定するステップは、前記第1画像の深層特徴を抽出するステップと、前記第1画像の浅層特徴を抽出するステップと、前記深層特徴と浅層特徴とを重み付けして融合することによって、クラス活性化マップを取得するステップと、前記クラス活性化マップに基づいて、前記ターゲットオブジェクトを取り囲むバウンディングボックスを決定するステップとを含む。
【0014】
更なる例示的な態様において、本開示は、コンピュータ命令が記憶されている非一時的なコンピュータ読み取り可能な記憶媒体を提供し、前記コンピュータ命令がプロセッサによって実行されると、前記プロセッサに、前述したニューラルネットワークベースの分類器によるターゲットオブジェクトの分類方法を実行させる。
【図面の簡単な説明】
【0015】
図1図1は、本開示の原理の実施例による、ニューラルネットワークベースの分類器の一例の機能ブロック図を示す。
図2図2は、図1に示したニューラルネットワークベースの分類器を使用して分類を行うプロセスの一例の概略図を示す。
図3図3は、本開示の原理の実施例による、ニューラルネットワークベースの分類器におけるターゲットオブジェクトフレーム選択ユニットの一例のブロック図を示す。
図4図4は、本開示の原理の実施例による、ニューラルネットワークベースの分類器によって分類を行うプロセスの別の例の概略図を示す。
図5図5は、本開示の原理の実施例による、ニューラルネットワークベースの分類器の別の例の機能ブロック図を示す。
図6A図6Aは、本開示の原理の実施例による、ニューラルネットワークベースの分類器における投票部によって最良なバウンディングボックスを選択する概略図を示す。
図6B図6Bは、本開示の原理の実施例による、ニューラルネットワークベースの分類器における投票部によって最良なバウンディングボックスを選択するフローチャートを示す。
図7図7は、本開示の原理の実施例によるニューラルネットワークベースの分類方法の一例のフローチャートを示す。
図8図8は、本開示の原理の実施例による、非一時的なコンピュータ読み取り可能な記憶媒体の概略図を示す。
【発明を実施するための形態】
【0016】
以下、本開示の実施例について、図面を参照しながら詳細に説明する。本開示のいくつかの実施例が図面に示されているが、本開示は、様々な形態で実現することができ、本明細書に記載の実施例に限定されるものとして解釈されるべきではなく、むしろ、これらの実施例は、本開示を徹底的かつ完全的に理解するために提供されていることを理解されたい。本開示の図面および実施例は、例示のみを目的としており、本開示の保護範囲を限定するものではないことを理解されたい。
【0017】
本開示の方法の実施形態において説明される様々なステップは、異なる順序で実行されてもよく、および/または並行して実行されてもよいことを理解されたい。また、方法に関する実施例は、他のステップを含んでもよく、および/または特定のステップを省略してもよい。
【0018】
本明細書で使用される「含む」という用語およびその変形は、包括的であり、即ち、「含むがそれに限定されない」である。「に基づく」という用語は、「少なくとも部分的に基づく」である。「一実施例」という用語は、「少なくとも一つの実施例」を意味し、「別の実施例」という用語は、「少なくとも一つの別の実施例」を意味し、「いくつかの実施例」という用語は、「少なくともいくつかの実施例」を意味する。他の用語の関連する定義は、以下の説明で与えられる。
【0019】
本開示で言及される「第1」および「第2」などの概念は、異なる装置、モジュールまたはユニットを区別するためにのみ使用され、これらの装置、モジュールまたはユニットによって実行される機能の順序または相互依存関係を制限するために使用されるものではないことを理解されたい。
【0020】
なお、本開示で言及される「1つ」および「複数の」の修飾は、例示的であり、限定的なものではなく、当業者は、文脈から明確に別段の指示がない限り、「1つまたは複数の」として理解されることを理解すべきである。
【0021】
図1は、本開示の原理の実施例によるニューラルネットワークベースの分類器1000の機能ブロック図を示す。図2は、図1に示したニューラルネットワークベースの分類器1000を使用して分類を行うプロセスの一例の概略図を示す。本開示のいくつかの好ましい実施例について、図1図2を併せて以下に説明する。
【0022】
図1に示すように、ニューラルネットワークベースの分類器1000は、サンプル取得ユニット1100、ターゲットオブジェクトフレーム選択ユニット1200および分類ユニット1300を含む。
【0023】
サンプル取得ユニット1100は、ターゲットオブジェクトを含む第1画像を取得するように構成されている。例えば、サンプル取得ユニット1100は、カメラ、ウェブカメラ、赤外線カメラなどを含むがこれらに限定されない、ターゲットオブジェクトを取得するために使用できる任意の画像捕捉装置であってもよい。サンプル取得ユニット1100は、人、動物、草花、乗り物、および他の種類の識別可能なオブジェクトを含むがこれらに限定されない、様々なターゲットオブジェクトの画像を取得するために使用することができる。図2に示すように、サンプル取得ユニット1100によって取得される第1画像は、図に示すようなターゲットオブジェクト「鳥」を含む画像P1であってもよい。
【0024】
ターゲットオブジェクトフレーム選択ユニット1200は、サンプル取得ユニット1100によって取得された第1画像内でターゲットオブジェクト(例えば、人、動物など)を取り囲むバウンディングボックスを決定するように構成される。例えば、ターゲットオブジェクトを取り囲むバウンディングボックスは、例えば、第1画像内の人物を取り囲む長方形のボックス、楕円形のボックス、不規則な多角形のボックスなどであってもよく、本開示は、バウンディングボックスの具体的な形状を限定するものではない。
【0025】
分類ユニット1300は、決定された前記ターゲットオブジェクトのバウンディングボックスに基づいて、前記ターゲットオブジェクトを分類するように構成されている。つまり、分類ユニット1300に入力された画像は、背景情報を多く含む元の第1画像ではなく、ターゲットオブジェクトフレーム選択ユニット1200によりターゲットオブジェクトをフレーム選択して得られた部分画像である。ターゲットオブジェクトの位置を特定することにより、背景情報からの干渉が大幅に低減され、それにより、分類ユニット1300がより正確な分類を行うことが可能になる。
【0026】
いくつかの実施例において、例えば、図1に示したターゲットオブジェクトフレーム選択ユニット1200は、深層特徴抽出部1210-a、浅層特徴抽出部1210-bおよび融合部1220を含んでもよい。
【0027】
図1に示した深層特徴抽出部1210-aは、ターゲットオブジェクトを含む第1画像の深層特徴を抽出するように構成されている。例えば、深層特徴抽出部1210-aは、畳み込みニューラルネットワーク(CNN)によって実現することができる。
【0028】
いくつかの実施例において、例えば、CNNは、18層のResNetネットワーク構造であってもよく、例えば、resnet18_layer4を使用して、ターゲットオブジェクトフレーム選択ユニット1200内の深層特徴抽出部1210-aを実現することができる。例えば、図2に示した深層特徴抽出部1210-aに対応する深層特徴抽出器f1は、例えば、resnet18_layer4であってもよい。
【0029】
図1に示した浅層特徴抽出部1210-bは、ターゲットオブジェクトを含む第1画像の浅層特徴を抽出するように構成されている。例えば、浅層特徴抽出部1210-bも、畳み込みニューラルネットワーク(CNN)によって実現することができる。
【0030】
いくつかの実施例において、例えば、resnet18_layer3を使用して、ターゲットオブジェクトフレーム選択ユニット1200における浅層特徴抽出部1210-bを実現することができる。例えば、図2に示される浅層特徴抽出部1210-bに対応する浅層特徴抽出器f2は、例えば、resnet18_layer3であってもよい。
【0031】
一般に、画像の浅層特徴は入力に近いため、より多くのピクセルポイントの詳細情報が含まれる。これは、浅層ネットワークの受容野が小さく、受容野の重複領域も小さいため、それにより、ネットワークがより多くの詳細を確実に捕捉できる。ただし、畳み込まれるのが少ないため、セマンティックが少なく、ノイズが多い。例えば、図2に示すように、浅層特徴抽出器f2で抽出される浅層特徴には、「鳥」の輪郭やテクスチャなどの細粒度情報が含まれており、背景のテクスチャなどの詳細な情報も多く混在している。
【0032】
これに対して、画像の深層特徴は出力に近いため、より多くの粗粒度情報、つまりより抽象的なセマンティック情報が含まれる。これは、ディープネットワークの受容野が大きくなり、受容野間の重複領域が増加し、画像の全体情報を取得するように画像情報が圧縮されたためである。例えば、図2に示すように、深層特徴抽出器f1によって抽出された深層特徴には、より粗粒度の情報が含まれ、例えば、鳥の輪郭がはっきりと見えるが、背景に関連するその他の詳細が薄められている。
【0033】
浅層特徴と深層特徴を融合することで、詳細情報と全体情報の両方を考慮することができ、ターゲットオブジェクトに対するフレーム選択の精度が向上する。図1から図2に示すように、融合部1220は、深層特徴抽出部1210-aによって抽出された深層特徴と浅層特徴抽出部1210-bによって抽出された浅層特徴とをそれぞれ重み付けして融合することで、クラス活性化マップ(CAM)を取得するように構成されている。これにより、ターゲットオブジェクトフレーム選択ユニット1200は、前記クラス活性化マップに基づいて、ターゲットオブジェクトを取り囲むバウンディングボックスをさらに決定することができる。
【0034】
いくつかの実施例において、例えば、グリッドサーチアルゴリズムに基づいて、ループトラバーサル方法により、深層特徴および浅層特徴に対して、それぞれの重みaおよびbを選択することができる。他の実施例において、深層特徴と浅層特徴の重みaおよびbに対して経験値を設定することもでき、例えば、a=0.4、b=0.6の重みを設定することができ、ここで、a+b=1である。本開示における深層特徴と浅層特徴の重みの設定方法は、上述の実施例に限定されない。
【0035】
重みa、bを決定した後、図2に示したクラス活性化マップCAM=a・rf1+b・f2となる。そして、ターゲットオブジェクトフレーム選択ユニット1200は、クラス活性化マップCAMに基づいて、ターゲットオブジェクトを取り囲むバウンディングボックスをさらに決定することができる。
【0036】
上述したニューラルネットワークベースの分類器1000において、ターゲットオブジェクトフレーム選択ユニット1200は、全体情報を抽出するための深層特徴抽出部1210-aと詳細情報を抽出するための浅層特徴抽出部1210-aの2つの特徴抽出部のみを含む。他の実施例において、ターゲットオブジェクトフレーム選択ユニットは、他の種類の特徴を抽出するための他の特徴抽出部をさらに含むことができる。
【0037】
図3は、本開示の原理の実施例による、ニューラルネットワークベースの分類器におけるターゲットオブジェクトフレーム選択ユニットの一例のブロック図を示す。図4は、本開示の原理の実施例による、ニューラルネットワークベースの分類器によって分類を行うプロセスの別の例の概略図を示す。
【0038】
図示したように、ターゲットオブジェクトフレーム選択ユニット3200は、図1に示した深層特徴抽出部1210-aおよび浅層特徴抽出部1210-bと類似する深層特徴抽出部3210-aおよび浅層特徴抽出部3210-bに加えて、グローバル特徴抽出部3210-cを含むことができる。グローバル特徴抽出部3210-cは、画像のグローバル特徴を抽出するように構成されている。
【0039】
畳み込み操作は、ローカルな特徴情報しか考慮できないため、例えば、CNNを使用して深層特徴抽出部3210-aおよび浅層特徴抽出部3210-bを実現する場合、画像のグローバル特徴をうまく抽出することができない。この場合、例えば、グローバル特徴抽出部3210-cを実現するように、例えば、アテンションメカニズムベースのビジョントランスフォーマー(ViT)を使用することを付加的に考慮することができる。いくつかの実施例において、例えば、ViT_block12を使用して、グローバル特徴抽出部3210-cを実現することができる。
【0040】
図4に示したように、深層特徴抽出部3210-a、浅層特徴抽出部3210-bおよびグローバル特徴抽出部3210-cにそれぞれ対応する深層特徴抽出器f1、浅層特徴抽出器f2およびグローバル特徴抽出器f3はそれぞれ、図示した画像P2に関する異なる特徴を抽出する。例えば、深層特徴抽出器f1によって抽出されるのは、P2の「鳥」の全体情報に密接に関連している深層特徴である。浅層特徴抽出器f2によって抽出されるのは、P2の「鳥」の詳細情報に密接に関連している浅層特徴である。これに対して、グローバル特徴抽出器f3によって抽出されるのは、P2の「鳥」および他の領域のグローバル情報により関連性の高いグローバル特徴である。
【0041】
図3に示したように、深層特徴抽出部3210-aおよび浅層特徴抽出部3210-bを使用して、画像の深層特徴および浅層特徴をそれぞれ抽出し、かつグローバル特徴抽出部3210-cを使用して、画像のグローバル特徴を抽出した後、図1と類似する融合部3220は、抽出された深層特徴、浅層特徴およびグローバル特徴を重み付けして融合することで、クラス活性化マップを取得することができる。
【0042】
なお、同様に、図1及び図2に関して説明した方法と同様の方法を使用して、深層特徴、浅層特徴、およびグローバル特徴のそれぞれに対する重みを決定することができる。例えば、浅層特徴、深層特徴およびグローバル特徴のそれぞれの重みa、b、cを、グリッドサーチアルゴリズムに基づいて、ループトラバーサルによって選択することができる。他の実施例において、浅層特徴、深層特徴およびグローバル特徴の重みa、b、およびcに対して、例えばa=0.25、b=0.3、c=0.45の経験値を設定することもでき、ここで、a+b+c=1である。本開示における深層特徴、浅層特徴およびグローバル特徴の重みの設定方法は、上述の実施例に限定されない。例えば、重みa、b、cを決定した後、図4に示したクラス活性化マップCAM=a・f1+b・f2+c・f3が得られる。
【0043】
上記においては、本開示の原理の実施例によるニューラルネットワークベースの分類器の様々な実施例について、図1乃至図4を参照して説明した。いくつかの実施例において、それぞれ深層特徴抽出部および浅層特徴抽出部を使用して、画像の深層特徴および浅層特徴を抽出することにより、ターゲットオブジェクトに対するフレーム選択の精度が向上する。いくつかの実施例において、さらにグローバル特徴抽出部を導入することによって、画像のグローバル特徴を抽出することもでき、それにより、深層特徴抽出部および浅層特徴抽出部などのローカル特徴抽出器の不足を補い、ターゲットオブジェクトに対するフレーム選択の精度をさらに向上させることができる。
【0044】
以下の説明において、図5図6Aおよび6Bに基づいて、ターゲットオブジェクトフレーム選択ユニットが、融合部により生成されたクラス活性化マップを利用して、ターゲットオブジェクトを取り囲むバウンディングボックスをどのように生成するかの実施例について説明する。
【0045】
図5は、本開示の原理の実施例による、ニューラルネットワークベースの分類器5000の別の例の機能ブロック図を示す。図6Aは、本開示の原理の実施例による、ニューラルネットワークベースの分類器における投票部によって最良なバウンディングボックスを選択する概略図を示す。図6Bは、本開示の原理の実施例による、ニューラルネットワークベースの分類器における投票部によって最良なバウンディングボックスを選択するフローチャートを示す。
【0046】
図5に示したように、ニューラルネットワークベースの分類器5000は、サンプル取得ユニット5100、ターゲットオブジェクト取得ユニット5200、及び分類ユニット5300を含む。サンプル取得ユニット5100および分類ユニット5300は、図1に示したサンプル取得ユニット1100および分類ユニット1300と同様であるため、ここでは繰り返しの説明を省略する。
【0047】
図5に示したターゲットオブジェクトフレーム選択ユニット5200は、図1における深層特徴抽出部1210-a、浅層特徴抽出部1210-bおよび融合部1220と類似する深層特徴抽出部5210-a、浅層特徴抽出部5210-bおよび融合部5220に加えて、候補バウンディングボックス生成部5230および投票部5240をさらに含む。
【0048】
候補バウンディングボックス生成部5230は、融合部5220によって生成されたクラス活性化マップを二値化して、複数の候補バウンディングボックスを生成するように構成されている。融合部5220によるクラス活性化マップの生成プロセスは、図1乃至図4で説明した実施例と同様であるため、ここでは繰り返市の説明を省略する。
【0049】
具体的には、候補バウンディングボックス生成部5230は、以下のステップに従って複数の候補バウンディングボックスを生成することができる。
【0050】
まず、融合部5220により生成されたクラス活性化マップに基づいて、クラス活性化マップを二値化するための第1閾値Tを決定する。
【0051】
いくつかの実施例において、自己適応アルゴリズムを使用して、上述した第1閾値Tを生成することができる。
【0052】
融合部5220によって生成されるクラス活性化マップCAMのグレースケール値を1乃至m(mは1以上の整数)とし、グレースケール値iのピクセル数をniとすると、まず、ピクセル総数
【数1】
各グレーレベルの確率
【数2】
が得られ、
そして、第1閾値Tでそれを2つのグループC0=|1~T|およびC1=|T+1~m|に分ける。
【0053】
C0の確率
【数3】
C1の確率
【数4】
C0の平均値
【数5】
C1の平均値
【数6】
が得られ、
ただし、μは、クラス活性化マップCAM全体のグレースケールの平均値であり、μ=w0μ0+w1μ1である。
2つのグループ間の分散は、
【数7】
である。
分散δ2を最大化するように上式を解くことにより、第1閾値Tの最適解を得ることができる。
【0054】
第1閾値Tの最適解を計算する上記のアルゴリズムは、最大クラス間分散法と呼ばれてもよい。当該方法により決定される最適な閾値は、クラス間分散を最大化するようにし、第1閾値Tが決定された後、第1閾値Tを通じて、クラス活性化マップCAMに対して、画像の二値化を実行し、例えば、第1閾値Tよりも小さいグレースケール値を有するピクセルを黒に二値化する(例えば、グレー値を0に設定する)、または、グレースケール値が第1閾値T以上である速度制限値を白に二値化する(例えば、グレースケール値を255に設定する)。
【0055】
図6Aに示したように、上記で取得した第1閾値Tを使用して、例えば、図2で生成されたクラス活性化マップCAMを二値化し、二値化されたクラス活性化マップの、複数の連通領域のそれぞれを取り囲む複数のバウンディングボックスを、複数の候補バウンディングボックスとして決定する。図6Aは、2つのより大きな長方形のバウンディングボックス、いくつかのより小さな長方形のバウンディングボックス、例えば、図6Aに示した面積のより大きなBox1、Box2、およびBox1、Box2の内部の面積がより小さな複数の候補バウンディングボックスを示す。
【0056】
図示した複数の候補バウンディングボックスを決定した後、ターゲットオブジェクトフレーム選択ユニット5200における投票部5240は、複数の候補バウンディングボックスに投票して、図6Aに示した最良なバウンディングボックスを決定する。
【0057】
いくつかの実施例において、投票部5240は、複数の候補バウンディングボックスに対応する特徴値、面積および位置に基づいて、複数の候補バウンディングボックスのうちの1つを、ターゲットオブジェクトを取り囲むバウンディングボックス、即ち、上述した最良または最適なバウンディングボックスとして決定することができる。
【0058】
投票部5240は、図6Bに示されるステップに基づいて、投票して最良なバウンディングボックスを選択することができる。
【0059】
まず、各候補バウンディングボックスについて、当該候補バウンディングボックスの面積が所定の閾値S(例えば、Sは、第1画像全体の面積の4パーセント、6パーセントなどに等しい)よりも小さいか否かを判断する。「はい」の場合、現在の候補ボックスは、面積が小さすぎてターゲットオブジェクトの最良な候補ボックスとする可能性が低いことを意味し、当該候補バウンディングボックスを廃棄してもよい(S602)。「いいえ」の場合、現在の候補ボックスは、ターゲットオブジェクトの最良な候補ボックスとする可能性が高いことを意味し、ステップS603のスコアリング段階に進むことができる。
【0060】
ステップS601を通じて、まず、面積が小さすぎる候補バウンディングボックスが廃棄され、より大きな面積を有する候補バウンディングボックスがフィルタリングされ、このことは、さらなるスコアリングおよび投票操作の実行に役立つ。
【0061】
次に、ステップS603およびS604において、最良なバウンディングボックスを選択するように、より大きな面積を有するほかの複数の候補ボックスに対して、さらなるスコアリングおよび投票操作を実行する。
【0062】
例えば、ほかの複数の候補バウンディングボックスの特徴値、面積、位置に基づいて、最良なバウンディングボックスを選択することができる。
【0063】
例えば、複数の候補バウンディングボックスのそれぞれの確率スコアP_score、面積スコアA_scoreおよび位置スコアD_scoreを算出し、複数の候補バウンディングボックスのそれぞれの確率スコアP_score、面積スコアA_scoreおよび位置スコアD_scoreに基づいて、ターゲットオブジェクトを取り囲む最良なバウンディングボックスを決定してもよい。
【0064】
例えば、候補バウンディングボックスの確率スコアP_scoreは、当該候補バウンディングボックス内の連通領域に対応する、二値化される前の融合特徴の平均値であってもよい。
【0065】
図6Aにおける面積の最も大きい候補バウンディングボックスBox1を例として、Box1について、取り囲まれた連通領域の輪郭がc1であり、二値化される前のクラス活性化マップCAMの内輪郭c1に取り囲まれたすべてのピクセルポイントのグレースケール値の合計を算出してsum(c1)とし、同時に輪郭c1に取り囲まれた面積をarea(c1)(例えば、ピクセルポイント総数)とすると、バウンディングボックスBox1に対応する確率スコアP_score(Box1)=sum(c1)/area(c1)を算出することができる。
【0066】
また、例えば、バウンディングボックスの面積スコアは、A_score(Box1)=area(Box1)/area(image)である。ここで、area(Box1)は、バウンディングボックスBox1の面積であり、area(image)は、第1画像(例えば、図2に示される画像P1)の面積である。つまり、面積スコアA_scoreは、入力画像の面積に対する候補バウンディングボックスの比率を表す。area(Box1)およびarea(image)は、ピクセルポイント数で表してもよい。
【0067】
また、候補バウンディングボックスの位置スコアD_scoreは、候補バウンディングボックスの中心位置が入力画像全体の中心位置にどれだけ近いかを示す。例えば、バウンディングボックスBox1の位置スコアは、D_score(Box1)=1-Distance(Box1)/Distance(image)であり、ここで、Distance(Box1)が、入力画像の対角線方向における、Box1の中心位置と入力画像の中心位置との間の距離を示し、Distance(image)が、入力画像の中心位置と入力画像の頂点との間の距離(即ち、対角線距離の半分)を示す。候補ボックスBox1は、図像の中心位置に近いほど、Distance(Box1)が小さくなり、かつD_score(Box1)が大きくなる。
【0068】
上記の方法により、各候補バウンディングボックスの確率スコアP_score、面積スコアA_score、および位置スコアD_scoreを算出した後、各候補バウンディングボックスの確率スコアP_score、面積スコアA_score、および位置スコアD_scoreを3回順位付けして、3回の順位付けにおいて、他の候補バウンディングボックスより上位に順位付けされた候補バウンディングボックスを、ターゲットオブジェクトを取り囲むバウンディングボックスとして決定することができる。
【0069】
例えば、候補バウンディングボックスBox1乃至Box4の4つがあると仮定し、候補バウンディングボックスBox1については、例えば、確率スコアP_score、面積スコアA_score、および位置スコアD_scoreの計算値は、次のようになると仮定する。
P_score(Box1)=125
A_score(Box1)=0.8
D_score(Box1)=0.95
さらに、候補バウンディングボックスBox2について、確率スコアP_score、面積スコアA_scoreおよび位置スコアD_scoreの計算値は、次のようになると仮定する。
P_score(Box2)=139
A_score(Box2)=0.4
D_score(Box2)=0.65
候補バウンディングボックスBox3について、確率スコアP_score、面積スコアA_score、および位置スコアD_scoreの計算値は、次のようになると仮定する。
P_score(Box3)=205
A_score(Box3)=0.3
D_score(Box3)=0.9
候補バウンディングボックスBox4について、確率スコアP_score、面積スコアA_score、および位置スコアD_scoreの計算値は、次のようになると仮定する。
P_score(Box4)=103
A_score(Box4)=0.85
D_score(Box4)=0.4
P_Scoreについて、Box1乃至Box4の順位は、以下のとおりであり、
3、2、1、4、
A_Scoreについて、Box1乃至Box4の順位は、以下のとおりであり、
4、1、2、3、
D_Scoreについて、Box1乃至Box4の順位は、以下のとおりであり、
1、3、2、4。
【0070】
順位1、2、3、4をそれぞれ1点とすると、Box1の合計スコアは、3+2+1=6点であり、Box2の合計スコアは、2+3+3=8点であり、Box3の合計スコアは1+4+2=7点であり、Box4の合計スコアは、4+1+4=9点である。Box1の合計スコアが最も小さくて相対的に上位にあることがわかり、Box1をターゲットオブジェクトの最適なバウンディングボックスとして選択できる。
【0071】
いくつかの実施例において、他のアルゴリズムを使用して、複数の候補ボックスからターゲットオブジェクトの最良なバウンディングボックスを選択することも可能である。例えば、複数の候補バウンディングボックスのそれぞれについて、確率スコアP_score、面積スコアA_scoreおよび位置スコアD_scoreの合計を計算でき、確率スコアP_score、面積スコアA_scoreおよび位置スコアD_scoreの合計が最も大きい候補バウンディングボックスを、ターゲットオブジェクトを取り囲むバウンディングボックスとして決定する。
【0072】
この場合、上述の確率スコアP_scoreは実際には各ピクセルのグレースケール値の平均値であり、グレースケール値が0乃至255の場合、P_scoreも0乃至255の範囲内にあるため、まず、確率スコアP_scoreの値を正規化する必要があることが好ましい。ただし、面積スコアA_scoreと位置スコアD_scoreは1未満の比率値であるため、直接加算すると誤った計算結果が得られる。例えば、正規化された確率スコア値として、P’_score=P_score/255で計算することができる。
【0073】
上述した候補バウンディングボックスBox1乃至Box4については、以下に示すようなスコア値がある。
Box1:
P’_score(Box1)=125/255=0.49
A_score(Box1)=0.8
D_score(Box1)=0.95
Box2:
P’_score(Box2)=139/255=0.55
A_score(Box2)=0.4
D_score(Box2)=0.65
Box3:
P’_score(Box3)=205/255=0.8
A_score(Box3)=0.3
D_score(Box3)=0.9
Box4:
P’_score(Box4)=103/255=0.4
A_score(Box4)=0.85
D_score(Box4)=0.4
【0074】
候補バウンディングボックスBox1乃至Box4について、その確率スコアP’_score、面積スコアA_score、および位置スコアD_scoreの合計SUMは、それぞれSUM1=2.24、SUM2=1.6、SUM3=2、およびSUM4=1.65である。この場合、スコアの合計が最も大きいものを最良な候補ボックスとして選択し、つまり、Box1をターゲットオブジェクトの最良な候補ボックスとして選択することができる。
【0075】
上記では、クラス活性化マップCAMに基づいて候補バウンディングボックスを生成し、投票アルゴリズムを通じて最良な候補ボックスを選択する実施例について説明した。図5に示した、深層特徴抽出部5210-aおよび浅層特徴抽出部5210-bを含むターゲットオブジェクトフレーム選択ユニット5200は、例示に過ぎないことを理解されたい。いくつかの実施例において、ターゲットオブジェクトフレーム選択ユニット5200は、図3に示したグローバル特徴抽出部3210-cおよび類似するグローバル特徴抽出器を含んでもよい。
【0076】
図7は、本開示の原理の実施例によるニューラルネットワークベースの分類方法7000の一例のフローチャートを示す。
【0077】
図に示すように、方法7000は、
S7100、ターゲットオブジェクトを含む第1画像を取得するステップと、
S7200、前記第1画像内で前記ターゲットオブジェクトを取り囲むバウンディングボックスを決定するステップと、
S7300、決定された前記ターゲットオブジェクトのバウンディングボックスに基づいて、前記ターゲットオブジェクトを分類するステップとを含む。
【0078】
いくつかの実施例において、前記第1画像内で前記ターゲットオブジェクトを取り囲むバウンディングボックスを決定するステップは、前記第1画像の深層特徴を抽出するステップと、前記第1画像の浅層特徴を抽出するステップと、前記深層特徴と浅層特徴とを重み付けして融合することで、クラス活性化マップを取得するステップと、前記クラス活性化マップに基づいて、前記ターゲットオブジェクトを取り囲むバウンディングボックスを決定するステップと、をさらに含む。
【0079】
なお、図1乃至図6に関して上で説明したニューラルネットワークベースの分類器によって実行される様々な動作は、文脈が明らかに反対のことを表現しているか、明らかに不適切でない限り、方法7000にも適用されるが、ここでは説明は省略する。
【0080】
例えば、方法7000は、図3に示したグローバル特徴抽出部を使用して、第1画像のグローバル特徴をさらに抽出し、得られたグローバル特徴を、抽出された深層特徴および浅層特徴とともに重み付けして融合することで、クラス活性化マップを取得する追加のステップを含んでもよい。
【0081】
例えば、上述のグリッドサーチアルゴリズムを使用して、各種類の特徴の重みを計算してもよく、または各種類の特徴の重みとして経験値を選択してもよい。
【0082】
例えば、クラス活性化マップに基づいて複数の候補バウンディングボックスがさらに生成されてもよく、上述の投票アルゴリズムのいずれかを使用することによって、ターゲットオブジェクトの最良なバウンディングボックスが選択されてもよい。
【0083】
本開示の実施例は、非一時的なコンピュータ読み取り可能な記憶媒体をさらに提供する。図8は、本開示の原理の実施例による、コンピュータ読み取り可能な記憶媒体8000の概略図を示す。ここで、コンピュータ読み取り可能な記憶媒体8000には、コンピュータプログラム命令8100が記憶され、コンピュータプログラム命令8100がプロセッサによって実行されると、本開示の実施例によって提供される、図1乃至図6について記載のニューラルネットワークベースの分類器による様々な操作を実行する。
【0084】
以上、実施例に基づいて本発明を説明した。本実施例は、単なる説明のためのものであり、本実施例の構成要素や処理の組み合わせに種々の変形が可能であり、それらも本発明の範囲に含まれることは当業者には理解されるところである。
図1
図2
図3
図4
図5
図6A
図6B
図7
図8