(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2025-07-07
(45)【発行日】2025-07-15
(54)【発明の名称】分類モデルを用いて分類を行う装置及び方法並びにコンピュータ可読記憶媒体
(51)【国際特許分類】
G06T 7/00 20170101AFI20250708BHJP
【FI】
G06T7/00 350C
(21)【出願番号】P 2021137216
(22)【出願日】2021-08-25
【審査請求日】2024-05-09
(31)【優先権主張番号】202011061801.0
(32)【優先日】2020-09-30
(33)【優先権主張国・地域又は機関】CN
(73)【特許権者】
【識別番号】000005223
【氏名又は名称】富士通株式会社
(74)【代理人】
【識別番号】100107766
【氏名又は名称】伊東 忠重
(74)【代理人】
【識別番号】100070150
【氏名又は名称】伊東 忠彦
(72)【発明者】
【氏名】ジャン・モン
(72)【発明者】
【氏名】リィウ・ルゥジエ
【審査官】豊田 好一
(56)【参考文献】
【文献】Sixue Gong et al.,"Video Face Recognition: Component-wise Feature Aggregation Network (C-FAN)",International Conference on Biometrics (ICB),2019年06月
【文献】Debin Meng et al.,"Frame Attention Networks for Facial Expression Recognition in Videos",2019 IEEE International Conference on Image Processing (ICIP),2019年
【文献】津田 宏治,"サポートベクターマシンとは何か",電子情報通信学会誌,日本,Vol 83 , No.6,pp. 460-466
(58)【調査した分野】(Int.Cl.,DB名)
G06T 7/00
(57)【特許請求の範囲】
【請求項1】
事前訓練の分類モデルを用いて分類を行う装置であって、
前記事前訓練の分類モデルの特徴抽出層を用いて、分類待ちのターゲット画像グループに含まれる複数の画像のうちの各画像の特徴を抽出する特徴抽出ユニット;
前記事前訓練の分類モデルの貢献計算層を用いて、前記複数の画像のうちの各画像の、前記ターゲット画像グループの分類結果に対する貢献を計算する貢献計算ユニット;
前記貢献計算ユニットにより計算された前記複数の画像の貢献に基づいて、前記特徴抽出ユニットにより抽出された前記複数の画像の特徴に対して融合を行い、融合後の特徴を前記ターゲット画像グループの特徴として取得する特徴融合ユニット;及び
前記ターゲット画像グループの特徴に基づいて、前記ターゲット画像グループに対して分類を行う分類ユニットを含
み、
前記事前訓練の分類モデルは、少なくとも1つのサンプル画像グループを含む訓練サンプル集合を用いて、以下の方式により、初期分類モデルに対して訓練を行うことにより取得され、即ち、
前記初期分類モデルの特徴抽出層を用いて、前記少なくとも1つのサンプル画像グループの中の各サンプル画像の特徴を抽出し;
各サンプル画像グループについて、前記初期分類モデルの貢献計算層を用いて、該サンプル画像グループに含まれる各サンプル画像の、該サンプル画像グループの分類結果に対する貢献を計算し;
各サンプル画像グループについて、該サンプル画像グループの各サンプル画像の貢献に基づいて、該サンプル画像グループの各サンプル画像の特徴に対して融合を行い、融合後の特徴を該サンプル画像グループの特徴として取得し;及び
各サンプル画像グループの特徴を用いて、前記初期分類モデルについての損失関数に基づいて、前記初期分類モデルを、所定の収斂条件が満足されるよう訓練し、前記事前訓練の分類モデルを取得し、
前記損失関数は分類損失関数及び貢献損失関数を含み、
前記分類損失関数は前記初期分類モデルの分類損失を表し、
前記貢献損失関数は、前記各サンプル画像グループの特徴と、対応するサンプル画像グループが分類されるクラスの特徴中心との間の距離を表す、装置。
【請求項2】
請求項1に記載の装置であって、
前記特徴融合ユニットはさらに、前記貢献計算ユニットにより計算された前記複数の画像の貢献に基づいて、前記特徴抽出ユニットにより抽出された前記複数の画像の特徴に対して加重平均を行い、得た結果を前記ターゲット画像グループの特徴とする、装置。
【請求項3】
請求項1に記載の装置であって、
前記特徴融合ユニットはさらに、前記複数の画像のうちの、前記貢献が所定閾値以上の1つ又は複数の画像の貢献に基づいて、前記1つ又は複数の画像の特徴に対して融合を行い、融合後の特徴を前記ターゲット画像グループの特徴として取得する、装置。
【請求項4】
請求項1乃至3のうちの何れか1項に記載の装置であって、
前記複数の画像のうちの各画像について、該画像の、前記ターゲット画像グループの分類結果に対する貢献はスカラーにより表される、装置。
【請求項5】
請求項1乃至3のうちの何れか1項に記載の装置であって、
前記複数の画像のうちの各画像について、該画像の、前記ターゲット画像グループの分類結果に対する貢献は、該画像の各次元の特徴の、前記ターゲット画像グループの分類結果に対する貢献を含む、装置。
【請求項6】
請求項
1に記載の装置であって、
前記初期分類モデルの訓練過程において、前記初期分類モデルの特徴抽出層のパラメータは固定したものである、装置。
【請求項7】
事前訓練の分類モデルを用いて分類を行う方法であって、
前記事前訓練の分類モデルの特徴抽出層を用いて、分類待ちのターゲット画像グループに含まれる複数の画像のうちの各画像の特徴を抽出する特徴抽出ステップ;
前記事前訓練の分類モデルの貢献計算層を用いて、前記複数の画像のうちの各画像の、前記ターゲット画像グループの分類結果に対する貢献を計算する貢献計算ステップ;
前記貢献計算ステップで計算された前記複数の画像の貢献に基づいて、前記特徴抽出ステップで抽出された前記複数の画像の特徴に対して融合を行い、融合後の特徴を前記ターゲット画像グループの特徴として取得する特徴融合ステップ;及び
前記ターゲット画像グループの特徴に基づいて、前記ターゲット画像グループに対して分類を行う分類ステップを含
み、
前記事前訓練の分類モデルは、少なくとも1つのサンプル画像グループを含む訓練サンプル集合を用いて、以下の方式により、初期分類モデルに対して訓練を行うことにより取得され、即ち、
前記初期分類モデルの特徴抽出層を用いて、前記少なくとも1つのサンプル画像グループの中の各サンプル画像の特徴を抽出し;
各サンプル画像グループについて、前記初期分類モデルの貢献計算層を用いて、該サンプル画像グループに含まれる各サンプル画像の、該サンプル画像グループの分類結果に対する貢献を計算し;
各サンプル画像グループについて、該サンプル画像グループの各サンプル画像の貢献に基づいて、該サンプル画像グループの各サンプル画像の特徴に対して融合を行い、融合後の特徴を該サンプル画像グループの特徴として取得し;及び
各サンプル画像グループの特徴を用いて、前記初期分類モデルについての損失関数に基づいて、前記初期分類モデルを、所定の収斂条件が満足されるよう訓練し、前記事前訓練の分類モデルを取得し、
前記損失関数は分類損失関数及び貢献損失関数を含み、
前記分類損失関数は前記初期分類モデルの分類損失を表し、
前記貢献損失関数は、前記各サンプル画像グループの特徴と、対応するサンプル画像グループが分類されるクラスの特徴中心との間の距離を表す、方法。
【請求項8】
コンピュータに、請求項
7に記載の方法を実行させるためのプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、情報処理分野に関し、特に、分類モデルを用いて分類を行う装置及び方法並びにコンピュータ可読記憶媒体に関する。
【背景技術】
【0002】
例えば、ビデオの画像グループに基づく対象分類(例えば、顔認識)は、ビデオ監視、セキュリティ認証などの分野で幅広く応用されているため、学界及び産業界でますます注目を集めている。静的画像に基づく対象分類とは異なり、ビデオの画質が比較的低く、例えば、対象の姿勢の変化が大きく、ブロッキング(遮蔽)などが発生しやすいため、分類のパフォーマンスが低下する場合がある。
【発明の概要】
【発明が解決しようとする課題】
【0003】
上述の問題に鑑みて、本発明の目的は、従来技術に存在する1つ又は複数の欠点を解決し得る、分類モデルを訓練する装置及び法、並びに、分類モデルを用いて分類を行う装置及び方法を提供することにある。
【課題を解決するための手段】
【0004】
本発明の一側面によれば、事前訓練の分類モデルを用いて分類を行う装置が提供され、該装置は、
前記事前訓練の分類モデルの特徴抽出層を用いて、分類待ちのターゲット画像グループに含まれる複数の画像のうちの各画像の特徴を抽出する特徴抽出ユニット;
前記事前訓練の分類モデルの貢献計算層を用いて、前記複数の画像のうちの各画像の、前記ターゲット画像グループの分類結果に対する貢献を計算する貢献計算ユニット;
前記貢献計算ユニットにより計算された前記複数の画像の貢献に基づいて、前記特徴抽出ユニットにより抽出された前記複数の画像の特徴に対して融合を行い、融合後の特徴を前記ターゲット画像グループの特徴として取得する特徴融合ユニット;及び
前記ターゲット画像グループの特徴に基づいて、前記ターゲット画像グループに対して分類を行う分類ユニットを含む。
【0005】
本発明のもう1つの側面によれば、事前訓練の分類モデルを用いて分類を行う方法が提供され、該方法は、
前記事前訓練の分類モデルの特徴抽出層を用いて、分類待ちのターゲット画像グループに含まれる複数の画像のうちの各画像の特徴を抽出する特徴抽出ステップ;
前記事前訓練の分類モデルの貢献計算層を用いて、前記複数の画像のうちの各画像の、前記ターゲット画像グループの分類結果に対する貢献を計算する貢献計算ステップ;
前記貢献計算ステップで計算された前記複数の画像の貢献に基づいて、前記特徴抽出ステップで抽出された前記複数の画像の特徴に対して融合を行い、融合後の特徴を前記ターゲット画像グループの特徴として取得する特徴融合ステップ;及び
前記ターゲット画像グループの特徴に基づいて、前記ターゲット画像グループに対して分類を行う分類ステップを含む。
【0006】
本発明の他の側面によれば、本発明による上述の方法を実現するためのコンピュータプログラムコード及びコンピュータプログラムプロダクト、並びに、その中に本発明による上述の方法を実現するためのコンピュータプログラムコードを記憶しているコンピュータ可読記憶媒体が提供される。
【図面の簡単な説明】
【0007】
【
図1】本発明の実施例において事前訓練の分類モデルを用いて分類を行う装置の機能構成例のブロック図である。
【
図2】本発明の実施例において事前訓練の分類モデルを用いて分類を行う装置の具体的な実現方式のアーキテクチャ例のブロック図である。
【
図3A】本発明の実施例で採用された例示的な貢献損失関数による有利な効果を示す図である。
【
図3B】本発明の実施例で採用された例示的な貢献損失関数による有利な効果を示す図である。
【
図3C】本発明の実施例で採用された例示的な貢献損失関数による有利な効果を示す図である。
【
図4A】本発明の実施例において事前訓練の分類モデルを用いて分類を行う装置と、従来の装置との分類精度の間の比較を示す図である。
【
図4B】本発明の実施例において事前訓練の分類モデルを用いて分類を行う装置と、従来の装置との分類精度の間の比較を示す図である。
【
図5】本発明の実施例において事前訓練の分類モデルを用いて分類を行う方法の例示的なフローのフローチャートである。
【
図6】本発明の実施例において初期分類モデルに対して訓練を行う装置の機能構成例のブロック図である。
【
図7】本発明の実施例で採用され得るパソコンの例示的な構成のブロック図である。
【発明を実施するための形態】
【0008】
以下、添付した図面を参照しながら、本発明を実施するための好適な実施例を詳細に説明する。なお、このような実施例は、例示に過ぎず、本発明を限定するものでない。
【0009】
まず、
図1及び
図2を参照して本発明の実施例において事前訓練の分類モデルを用いて分類を行う装置の実現例を説明する。
図1は本発明の実施例において事前訓練の分類モデルを用いて分類を行う装置100の機能構成例のブロック図である。
図2は本発明の実施例において事前訓練の分類モデルを用いて分類を行う装置の1つの具体的な実現方式のアーキテクチャ例のブロック図である。
【0010】
図1及び
図2に示すように、本発明の実施例において事前訓練の分類モデルを用いて分類を行う装置100は特徴抽出ユニット102、貢献計算ユニット104、特徴融合ユニット106及び分類ユニット108を含んでも良い。
【0011】
特徴抽出ユニット102は、事前訓練の分類モデルの特徴抽出層を用いて、分類待ちのターゲット画像グループに含まれる複数の画像のうちの各画像の特徴を抽出するように構成され得る。例えば、1つのターゲット画像グループは1つのビデオセグメントに対応しても良い。このような場合、1つのターゲット画像グループは、対応するビデオセグメントのすべてのフレーム又は一部のフレームを含み得る。また、例えば、同一のターゲット画像グループに含まれる各画像はすべて同一の対象に関するものであっても良い。しかし、同一のターゲット画像グループは2つ又は複数の対象に関する複数の画像を含んでも良い。
【0012】
また、例えば、
図2に示すように、ターゲット画像グループは人間の顔画像からなっても良い。例えば、ターゲット画像グループは人間の顔を含む1つのビデオセグメントのすべてのフレーム又は一部のフレームであり得る。しかし、ターゲット画像グループはこれに限定されず、ターゲット画像グループは他の画像を含んでも良いが、ここではその詳しい説明を省略する。
【0013】
事前訓練の分類モデルは、任意の適切な事前訓練の分類モデルであっても良く、例えば、事前訓練の畳み込みニューラルネットワークモデルのような事前訓練の深層学習ネットワークモデルである。
【0014】
図2は、事前訓練の畳み込みニューラルネットワークモデルを事前訓練の分類モデルとして採用した場合に、本発明の実施例における装置100の1つの具体的な実現方式のアーキテクチャ例を示す図である。
図2に示すように、事前訓練の分類モデルの特徴抽出層は、畳み込みニューラルネットワークモデルの1つ又は複数の畳み込み層C、及び、1つの全結合層FC1を含んでも良い。なお、事前訓練の分類モデルの特徴抽出層は
図2に示す例に限られず、また、当業者は実際のニーズに応じて対応する特徴抽出層を設定しても良いが、ここではその詳しい説明を省略する。
【0015】
貢献計算ユニット104は、事前訓練の分類モデルの貢献計算層を用いて、上述の複数の画像のうちの各画像の、ターゲット画像グループの分類結果に対する貢献を計算するように構成され得る。例えば、貢献は、各画像の、ターゲット画像グループの分類結果への影響の程度、例えば、正面影響程度を表すことができる。例えば、或る画像について、該画像の、ターゲット画像グループの分類結果への正面影響程度が大きいほど、又は、該画像によってターゲット画像グループが正確に分類される可能性が大きいほど、該画像の貢献が大きくなる。
【0016】
図2に示すように、事前訓練の畳み込みニューラルネットワークモデルを事前訓練の分類モデルとして採用した場合、貢献計算層は、畳み込みニューラルネットワークモデルの1つ又は複数の畳み込み層C、及び、1つの全結合層FC2を含んでも良い。なお、事前訓練の分類モデルの貢献計算層は
図2に示す例に限定されず、例えば、貢献計算層は1つのみの全結合層FC2を含んでも良い。また、当業者は実際のニーズに応じて対応する特徴抽出層を設定しても良いが、ここではその詳しい説明を省略する。
【0017】
また、
図2において貢献計算ユニット104が特徴抽出による或る段階の画像の特徴に基づいて画像の貢献を計算することを示しているが、実際の応用にあたって、貢献計算ユニット104は直接、ターゲット画像グループに含まれる画像に基づいて画像の貢献を計算することもできる。
【0018】
また、当業者が理解し得るように、
図2に示す異なる畳み込み層及び全結合層の構造やパラメータは異なっても良い。
【0019】
特徴融合ユニット106は、貢献計算ユニット104により計算された複数の画像の貢献に基づいて、特徴抽出ユニット102により抽出された複数の画像の特徴に対して融合を行い、融合後の特徴を前記ターゲット画像グループの特徴として得るように構成され得る。
【0020】
分類ユニット108は、ターゲット画像グループの特徴に基づいて、ターゲット画像グループに対して分類を行うように構成され得る。例えば、分類ユニット108は、ターゲット画像グループの特徴に基づいて、ターゲット画像グループに対して認識を行うことができる。
【0021】
本発明の実施例によれば、特徴融合ユニット106はさらに、貢献計算ユニット104により計算されたターゲット画像グループに含まれる複数の画像の貢献に基づいて、特徴抽出ユニット102により抽出された複数の画像の特徴に対して加重平均を行い、そして、取得した結果をターゲット画像グループの特徴とすることができる。例えば、ターゲット画像グループがビデオセグメントに対応する場合、ターゲット画像グループの特徴は“ビデオ階層特徴”と称することができる。
【0022】
例えば、特徴融合ユニット106は以下の式(1)に基づいてターゲット画像グループの特徴F
Vを得ることができる。
【数1】
【0023】
式(1)では、f1、f2及びfmは、それぞれ、ターゲット画像グループにおける第一画像I1、第二画像I2及び第m画像Imの、特徴抽出ユニット102により抽出された特徴を表し、wiは、対応するターゲット画像グループにおけるi番目の画像の、貢献計算ユニット104により計算された貢献を表す。
【0024】
例えば、本発明の実施例によれば、特徴融合ユニット106はさらに、ターゲットサンプルに含まれる複数の画像のうちの、貢献が所定閾値以上の1つ又は複数の画像の貢献に基づいて、上述の1つ又は複数の画像の特徴に対して融合を行い、融合後の特徴をターゲット画像グループの特徴とするように構成され得る。例えば、特徴融合ユニット106は、ターゲットサンプルに含まれる複数の画像のうちの、貢献が所定閾値以上の1つ又は複数の画像の貢献に基づいて、上述の1つ又は複数の画像の特徴に対して加重平均を行い、融合後の特徴をターゲット画像グループの特徴として取得することができる。
【0025】
なお、以上、特徴融合ユニット106がターゲット画像グループに含まれる全部又は一部のサンプル画像の特徴に対して融合を行ってターゲット画像グループの特徴を得る例示的な方式を説明したが、ターゲット画像グループの特徴を取得する方式は上述の例示的な方式に限られず、当業者は実際のニーズに応じて適切な方式を採用してターゲット画像グループの特徴を得ても良い。例えば、ターゲット画像グループのうちの貢献最大の画像の特徴をターゲット画像グループの特徴とすることもできる。
【0026】
上述のように、本発明の実施例において事前訓練の分類モデルを用いて分類を行う装置100はターゲット画像グループの中の各画像の貢献を計算し、そして、計算した貢献に基づいてターゲット画像グループにおける各画像の特徴に対して融合を行うことで、融合後の特徴に基づいてターゲット画像グループに対して分類を行うことができる。簡単にターゲット画像グループに含まれる各画像の特徴の平均値に基づいてターゲット画像グループに対して分類を行う従来技術に比べて、本発明の実施例による装置100は、ターゲット画像グループの中の対応する画像の、分類結果に対する貢献を考慮して、ターゲット画像グループにおける1つ又は複数の画像の特徴に基づいてターゲット画像グループに対して分類を行うことで、分類の精度を向上させることができる。
【0027】
実験に基づく分析によれば、画像の貢献は画像の品質に関連している。画像の品質が高いほど、対応する貢献が大きくなる。なお、画像の貢献は画像の品質と同等ではない。例えば、上述のように、貢献は、各画像の、ターゲット画像グループの分類結果への影響の程度、例えば、正面影響程度を表すことができる。
【0028】
本発明の実施例によれば、ターゲット画像グループに含まれる複数の画像のうちの各画像について、該画像の、ターゲット画像グループの分類結果に対しての貢献はスカラー(scalar)により表すことができる。例えば、各画像の貢献は、0よりも大きい1つの数値により表することができる。例えば、各画像の貢献は、所定範囲(例えば、0乃至20)内の1つの数値により表すことができる。この所定範囲は経験又は実験に基づいて確定され得る。
【0029】
あるいは、本発明の実施例によれば、ターゲット画像グループに含まれる複数の画像のうちの各画像について、該画像の、前記ターゲット画像グループの分類結果に対する貢献は、該画像の各次元の特徴の、前記ターゲット画像グループの分類結果に対しての貢献を含む。例えば、或る画像の特徴がN次元(例えば、512次元)である場合、該画像の貢献は、1つのN次元の貢献ベクトルにより表すことができる。ここで、貢献ベクトルの中の各要素は、対応する画像の特徴の各次元の、分類結果に対しての貢献を表す。画像の特徴の各次元について貢献を計算することで、例えば、分類の精度をさらに向上させるようにすることができる。
【0030】
本発明の実施例によれば、事前訓練の分類モデルは、少なくとも1つのサンプル画像グループを含む訓練サンプル集合を用いて、次のような方式で、初期分類モデルに対して訓練を行うことによって得られても良く、即ち、初期分類モデルの特徴抽出層を用いて上述の少なくとも1つのサンプル画像グループの中の各サンプル画像の特徴を抽出し;各サンプル画像グループについて、初期分類モデルの貢献計算層を用いて該サンプル画像グループに含まれる各サンプル画像の、該サンプル画像グループの分類結果に対しての貢献を計算し;各サンプル画像グループについて、該サンプル画像グループの各サンプル画像の貢献に基づいて、該サンプル画像グループの各サンプル画像の特徴に対して融合を行うことで、融合後の特徴を該サンプル画像グループの特徴として取得し;及び、各サンプル画像グループの特徴を用いて、初期分類モデルについての損失関数に基づいて、初期分類モデルを、所定の収斂(収束)条件が満足されるまで訓練することで、事前訓練の分類モデルを取得する。
【0031】
例えば、所定の収斂条件は次のことのうちの1つであっても良く、即ち、訓練が所定回数に達しており;損失関数の最小化;及び、損失関数が所定閾値以下である。
【0032】
一例として、任意の適切な未訓練の分類モデルに基づいて初期分類モデルを生成することができる。あるいは、例えば、任意の適切な従来の訓練済みの分類モデル(例えば、VGGnetモデル、Resnetモデルなど)に基づいて初期分類モデルを生成することもできる。例えば、従来の訓練済みの分類モデルに1つのブランチを貢献計算層として追加することができる。従来の訓練済みの分類モデルに基づいて初期分類モデルを生成することにより、訓練過程を簡素化することができる。一例として、初期分類モデルの訓練過程では、初期分類モデルの特徴抽出層のパラメータは固定したものであっても良く、例えば、これにより、訓練過程を簡素化することができる。しかし、初期分類モデルの訓練過程では、初期分類モデルの特徴抽出層のパラメータは固定したものでなくても良い。
【0033】
本発明の実施例によれば、損失関数は初期分類モデルの分類損失を表す分類損失関数を含んでも良い。例えば、Softmaxに類似した損失関数を分類損失関数として採用しても良い。例えば、分類損失関数L
idは以下の式(2)により表すことができる。
【数2】
【0034】
式(2)では、Nは1つのミニバッチ(mini-batch)におけるサンプル画像グループの数を表し、θはサンプル画像グループの特徴とその対応する重み(weigth)との間の角度を表し、s及びmはそれぞれスケーリングファクター及びエッジファクターである。式(2)における各パラメータの定義は、θの定義を除いて、引用文献1(ArcFace: Additive Angular Margin Loss for Deep Face Recognition)の中の対応するパラメータの定義とほぼ同じである。なお、引用文献1では、θはサンプル画像の特徴とその対応する重みとの間の角度を表しているが、上述のように、式(2)では、θはサンプル画像グループの特徴(例えば、ビデオ階層特徴)とその対応する重みとの間の角度を表す。
【0035】
上述のように、分類損失関数を用いて初期分類モデルに対して訓練を行うことにより、訓練データセット(即ち、サンプル画像グループ)の貢献又は品質の真の値を必要としない。これは、訓練データセットの準備に必要なコストを大幅に減少させることができる。
【0036】
あるいは、本発明の実施例によれば、損失関数は分類損失関数及び貢献損失関数を含んでも良い。ここで、貢献損失関数は、各サンプル画像グループの特徴と、対応するサンプル画像グループが分類されるクラスの特徴中心との間の距離を表すために用いられ得る。例えば、損失関数Lは以下の式(3)により表すことができる。
【数3】
【0037】
式(3)では、λ≧0であり、それはトレードオフファクターを示し、λが大きいほど、訓練過程で貢献損失関数L
cが占める割合が大きくなる。例えば、貢献損失関数L
cは以下の式(4)により表され得る。
【数4】
【0038】
式(4)では
(外1)
は、i番目のサンプル画像グループの特徴を表し、
(外2)
は、訓練サンプル集合又は訓練サンプル部分集合におけるi番目のサンプル画像グループが分類されるクラスy
iの特徴の中心を表す。訓練過程では、
(外3)
は、リアルタイムで更新することができる。例えば、
(外4)
は、訓練サンプル集合についてのクラスy
iの特徴の中心を表す場合、訓練サンプル集合における、訓練過程で使用されたサンプル画像グループのうちの、クラスy
iに分類された1つ又は複数のサンプル画像グループの特徴(例えば、ビデオ階層特徴)の平均を求めることにより取得することができる。また、例えば、
(外5)
は、訓練サンプル部分集合についてのクラスy
iの特徴の中心を表す場合、訓練サンプル部分集合における、訓練過程で使用されたサンプル画像グループのうちの、クラスy
iに分類された1つ又は複数のサンプル画像グループの特徴(例えば、ビデオ階層特徴)の平均を求めることで取得することができる。
【0039】
従来の分類モデルの訓練過程では、訓練装置の処理能力などの問題に鑑みて、通常、ミニバッチ(mini-batch)に従って訓練を行う方式を採用するので、グローバル情報が無視されている。上述のように、訓練過程で貢献損失関数を導入することで、訓練サンプル集合又は訓練サンプル部分集合から取得したグローバル情報を考慮して、分類モデルに対して訓練を行うことにより、例えば、取得した訓練済みの分類モデルの精度を向上させることができる。
【0040】
貢献損失関数の導入による有利な効果をより良く説明するために、以下、
図3A乃至
図3Cをもとに、ビデオに基づく人間顔認識の例と併せて、この有利な効果について説明を行う。
【0041】
図3Aは、所定クラスT(即ち、特定の人間)の訓練サンプル部分集合、並びに、該訓練サンプル部分集合における各サンプル画像の実際の特徴分布及び貢献分布を示す図である。
図3B及び
図3Cはそれぞれ、貢献損失関数の導入がない、及び貢献損失関数の導入がある場合、上述の訓練サンプル部分集合における、1回の訓練過程で使用された複数のサンプル画像(即ち、1つのミニバッチに含まれる複数のサンプル画像)の特徴分布及び貢献分布を示す図である。
【0042】
図3A乃至
図3Cでは、“●”、“▲”及び“★”はサンプル画像を表し、ここで、“●”により表されるサンプル画像の実際の貢献は比較的低く、“★”により表されるサンプル画像の実際の貢献は比較的高い。また、“■”はクラスTの実際の特徴分布中心を表し、“◆”は1回の訓練過程で計算することにより得られたクラスTの特徴分布中心を表す。また、
図3B及び
図3Cに対応する訓練過程で“★”により表されるサンプル画像が使用されないので、
図3B及び
図3Cでは“★”を示さない。
図3A乃至
図3Cから分かるように、貢献損失関数の導入がない場合に比較して、貢献損失関数の導入がある場合は、1回の訓練過程で計算することにより得られたクラスTの特徴分布中心はクラスTの実際の特徴分布中心により近く、かつ1回の訓練過程で計算することにより得られた各サンプル画像の貢献はその実際の貢献により近い。よって、貢献損失関数を導入することにより、各サンプル画像の貢献をより正確に計算することができるため、例えば、取得した事前訓練の分類モデルの分類精度を向上させることができる。
【0043】
以下、
図4A及び
図4Bをもとに、ビデオに基づく人間顔認識の具体例と併せて、本発明の実施例において事前訓練の分類モデルを用いて分類を行う装置100の分類精度の面における有利な効果について説明を行う。
図4A及び
図4Bでは、本発明の実施例による装置100が採用した事前訓練の分類モデルはResNet50に基づく分類モデルであり、該事前訓練の分類モデルは“CAN”と表される。
【0044】
図4Aは、NISTのIJB-Cデータセットを使用した場合、本発明の実施例による装置100の分類精度と、ArcFaceに基づく装置の分類精度との間の比較を示している。
図4Aから分かるように、FAR(False Accept Rate)=0.001%の場合、ArcFaceに基づく装置に比べて、本発明の実施例による装置100のTAR(True Accept Rate)は約7%向上している。
【0045】
図4Bは、COX顔データセットの場合、本発明の実施例による装置100、VGG Faceに基づく装置、及びTBE-CNNに基づく装置の分類精度の間の比較を示している。
図4Bでは、V2S_1、V2S_2及びV2S_3はそれぞれ、異なる撮像装置を用いてビデオキャプチャーを行う場合の顔認識結果を示している。
図4Bから分かるように、V2S_1の場合、本発明の実施例による装置100の認識率は、VGG Faceに基づく装置及びTBE-CNNに基づく装置に比較してそれぞれ約10%及び約5%向上している。
【0046】
以上、発明の実施例において事前訓練の分類モデルを用いて分類を行う装置を説明したが、以下、上述の装置の実施例に対応して、本発明は、事前訓練の分類モデルを用いて分類を行う方法の実施例を提供する。
【0047】
図5は本発明の実施例において事前訓練の分類モデルを用いて分類を行う方法500の例示的なフローのフローチャートである。
図5に示すように、本発明の実施例において事前訓練の分類モデルを用いて分類を行う方法500は開始ステップS502でスタートし、かつ終了ステップS512でエンドする。本発明の実施例による方法500は、特徴抽出ステップS504、貢献計算ステップS506、特徴融合ステップS508及び分類ステップS510を含んでも良い。
【0048】
特徴抽出ステップS504では、事前訓練の分類モデルの特徴抽出層により、分類待ちのターゲット画像グループに含まれる複数の画像のうちの各画像の特徴を抽出することができる。例えば、1つのターゲット画像グループは1つのビデオセグメントに対応しても良い。このような場合、1つのターゲット画像グループは、対応するビデオセグメントのすべてのフレーム又は一部のフレームを含み得る。例えば、特徴抽出ステップS504は、上述した特徴抽出ユニット102により実施され得るため、ここではその具体的な細部の説明を省略する。
【0049】
貢献計算ステップS506では、事前訓練の分類モデルの貢献計算層により、上述の複数の画像のうちの各画像の、ターゲット画像グループの分類結果に対する貢献を計算することができる。例えば、貢献は、各画像の、ターゲット画像グループの分類結果への影響の程度、例えば、正面影響程度を表すことができる。例えば、或る画像について、該画像の、ターゲット画像グループの分類結果への正面影響程度が大きいほど、該画像の貢献が大きくなる。例えば、貢献計算ステップS506は、上述した貢献計算ユニット104により実施され得るので、ここではその具体的な細部の説明を省略する。
【0050】
特徴融合ステップS508では、貢献計算ステップS506で計算されたターゲット画像グループに含まれる複数の画像の貢献に基づいて、特徴抽出ステップS504で抽出されたターゲット画像グループに含まれる複数の画像の特徴に対して融合を行うことで、融合後の特徴を前記ターゲット画像グループの特徴として取得することができる。例えば、特徴融合ステップS508は、上述した特徴融合算ユニット106により実施され得るから、ここではその具体的な細部の説明を省略する。
【0051】
分類ステップS510では、ターゲット画像グループの特徴に基づいて、ターゲット画像グループに対して分類を行うことができる。例えば、分類ステップS510では、ターゲット画像グループの特徴に基づいて、ターゲット画像グループに対して認識を行うことができる。また、例えば、分類ステップS510は、上述した分類ユニット108により実施され得るので、ここではその詳しい説明を省略する。
【0052】
本発明の実施例によれば、特徴融合ステップS508では、貢献計算ステップS506で計算されたターゲット画像素に含まれる複数の画像の貢献に基づいて、特徴抽出ステップS504で抽出された複数の画像の特徴に対して加重平均を行い、そして、取得した結果をターゲット画像グループの特徴とすることができる。例えば、特徴融合ステップS508では、上述の式(1)によりターゲット画像グループの特徴FVを得ることができる。
【0053】
あるいは、本発明の実施例によれば、特徴融合ステップS508では、ターゲットサンプルに含まれる複数の画像のうちの、貢献が所定閾値以上の1つ又は複数の画像の貢献に基づいて、上述の1つ又は複数の画像の特徴に対して融合を行うことで、融合後の特徴をターゲット画像グループの特徴として取得することができる。例えば、特徴融合ステップS508では、ターゲットサンプルに含まれる複数の画像のうちの、貢献が所定閾値以上の1つ又は複数の画像の貢献に基づいて、上述の1つ又は複数の画像の特徴に対して加重平均を行うことで、融合後の特徴をターゲット画像グループの特徴として得ることができる。
【0054】
上述のように、本発明の実施例において事前訓練の分類モデルを用いて分類を行う装置100と同様に、本発明の実施例において事前訓練の分類モデルを用いて分類を行う方法500は、ターゲット画像グループの中の各画像の貢献を計算し、算出した貢献に基づいてターゲット画像グループの中の各画像の特徴に対して融合を行うことで、融合後の特徴に基づいてターゲット画像グループに対して分類を行うことができる。簡単にターゲット画像グループに含まれる各画像の特徴の平均値に基づいて又はターゲット画像グループの中の品質が最も良い画像の特徴に基づいてターゲット画像グループに対して分類を行う従来技術に比べて、本発明の実施例による方法500は、各画像の分類結果に対する貢献を考慮して、ターゲット画像グループにおける1つ又は複数の画像の特徴に基づいてターゲット画像グループに対して分類を行うことで、分類の精度を向上させることができる。
【0055】
本発明の実施例によれば、ターゲット画像グループに含まれる複数の画像のうちの各画像について、該画像の、ターゲット画像グループの分類結果に対する貢献はスカラーにより表すことができる。例えば、各画像の貢献は0よりも大きい1つの数値により表すことができる。
【0056】
本発明の実施例によれば、ターゲット画像グループに含まれる複数の画像のうちの各画像について、該画像の、前記ターゲット画像グループの分類結果に対しての貢献は、該画像の各次元の特徴の、前記ターゲット画像グループの分類結果に対する貢献を含む。例えば、或る画像の特徴がN次元(例えば、512次元)である場合、該画像の貢献は1つのN次元の貢献ベクトルにより表すことができる。ここで、貢献ベクトルの中の各要素は、対応する画像の特徴の各次元の、分類結果に対しての貢献を表す。画像の特徴の各次元について貢献を計算することにより、例えば、分類の精度をさらに向上させることができる。
【0057】
本発明の実施例によれば、事前訓練の分類モデルは、少なくとも1つのサンプル画像グループを含む訓練サンプル集合を用いて、次のような方式で、初期分類モデルに対して訓練を行うことによって得られても良く、即ち、初期分類モデルの特徴抽出層を用いて上述の少なくとも1つのサンプル画像グループの中の各サンプル画像の特徴を抽出し;各サンプル画像グループについて、初期分類モデルの貢献計算層を用いて該サンプル画像グループに含まれる各サンプル画像の、該サンプル画像グループの分類結果に対しての貢献を計算し;各サンプル画像グループについて、該サンプル画像グループの各サンプル画像の貢献に基づいて、該サンプル画像グループの各サンプル画像の特徴に対して融合を行うことで、融合後の特徴を該サンプル画像グループの特徴として取得し;及び、各サンプル画像グループの特徴を用いて、初期分類モデルについての損失関数に基づいて、初期分類モデルを、所定の収斂(収束)条件が満足されるまで訓練することにより、事前訓練の分類モデルを取得する。
【0058】
例えば、所定の収斂条件は次のことのうちの1つであっても良く、即ち、訓練が所定回数に達しており;損失関数の最小化;及び、損失関数が所定閾値以下である。
【0059】
本発明の実施例によれば、損失関数は分類損失関数及び貢献損失関数を含んでも良い。ここで、貢献損失関数は、各サンプル画像グループの特徴と、対応するサンプル画像グループが分類されるクラスの特徴中心との間の距離を表すために用いられ得る。例えば、損失関数Lは上述の式(3)により表すことができる。
【0060】
従来の分類モデルの訓練過程では、訓練装置の処理能力などの問題に鑑みて、通常、ミニバッチ(mini-batch)に従って訓練を行う方式を採用するので、グローバル情報が無視されている。上述のように、訓練過程で貢献損失関数を導入することで、訓練サンプル集合又は訓練サンプル部分集合から取得したグローバル情報を考慮して、分類モデルに対して訓練を行うことにより、例えば、取得した訓練済みの分類モデルの分類精度を向上させることができる。
【0061】
以上、本発明の実施例において事前訓練の分類モデルを用いて分類を行う装置100及び方法500の実施例を説明した。さらに、本発明によれば、初期訓練に対して訓練を行う装置が提供され得る。
図6は本発明の実施例の初期分類モデルに対して訓練を行う装置600の機能構成例のブロック図である。
【0062】
図6に示すように、本発明の実施例において初期分類モデルに対して訓練を行う装置600は第二特徴抽出ユニット602、第二貢献計算ユニット604、第二特徴融合ユニット606及び訓練ユニット608を含んでも良い。
【0063】
第二特徴抽出ユニット602は、初期分類モデルの特徴抽出層を用いて、訓練サンプル集合に含まれる少なくとも1つのサンプル画像グループの中の各サンプル画像の特徴を抽出するように構成され得る。
【0064】
第二貢献計算ユニット604は、各サンプル画像グループについて、初期分類モデルの貢献計算層を用いて、該サンプル画像グループに含まれる各サンプル画像の、該サンプル画像グループの分類結果に対する貢献を計算するように構成され得る。
【0065】
第二特徴融合ユニット606は、各サンプル画像グループについて、第二貢献計算ユニット604が算出した、該サンプル画像グループの各サンプル画像の貢献に基づいて、第二特徴抽出ユニット602が抽出した、該サンプル画像グループの各サンプル画像の特徴に対して融合を行うことで、融合後の特徴を該サンプル画像グループの特徴として取得するように構成され得る。
【0066】
訓練ユニット608は、各サンプル画像グループの特徴を用いて、初期分類モデルについての損失関数に基づいて、初期分類モデルを、所定の収斂条件が満足されるまで訓練することにより、事前訓練の分類モデルを得るように構成され得る。
【0067】
本発明の実施例による装置600が初期分類モデルに対して訓練を行う細部については、上述の実施例において事前訓練の分類モデルを用いて分類を行う装置100及び方法500における、初期分類モデルに対して訓練を行う細部と同様であるので、ここではその詳しい説明を省略する。
【0068】
本発明の実施例において初期分類モデルに対して訓練を行う装置600は強力な汎用性を有し、任意の適切な初期分類モデルに容易に適用することができる。また、本発明の実施例において初期分類モデルに対して訓練を行う装置600は、各サンプル画像の貢献を考慮して、対応するサンプル画像グループの中の1つ又は複数の画像に基づいて、初期分類モデルに対して訓練を行うことにより、取得した事前訓練の分類モデルの分類精度を向上させることができる。
【0069】
なお、以上、本発明の実施例において事前訓練の分類モデルを用いて分類を行う装置及び方法、並びに、初期分類モデルに対して訓練を行う装置の機能配置及び操作を説明したが、これらは例示に過ぎず、当業者は本発明の原理に基づいて、上述の実施例に対して変更を行い、例えば、各実施例の中の機能モジュール及び操作の増減や組み合わせなどを行っても良く、また、このような変更は、すべて、本発明の範囲に属する。
【0070】
また、ここでの方法の実施例は上述の装置の実施例に対応するので、方法の実施例で詳細に説明されていない内容については、装置の実施例の中の対応する部分の説明を参照することができるため、ここではその詳しい説明を省略する。
【0071】
また、本発明はさらに記憶媒体及びプログラムプロダクトを提供する。理解すべきは、本発明の実施例による記憶媒体及びプログラムプロダクトの中のマシン実行可能な指令はさらに、上述の事前訓練の分類モデルを用いて分類を行う方法を実現するように構成され得るということである。よって、ここで詳細に説明されない内容については、前述の対応する部分の説明を参照することができるため、ここではその詳しい説明を省略する。
【0072】
明らかのように、本発明による方法の各操作プロセスは、各種のマシン可読記憶媒体に記憶されているコンピュータ実行可能なプログラムにより実現され得る。
【0073】
また、本発明の目的は次のような方式で実現されても良く、即ち、上述の実行可能なプログラムコードが記憶されている記憶媒体を直接又は間接的にシステム又は装置に提供し、該システム又は装置におけるコンピュータ又は中央処理ユニット(CPU)は上述のプログラムコードを読み出して実行する。このときに、該システム又は装置がプログラムを実行し得る機能を有すれば、本発明の実施方式はプログラムに限定されず、また、該プログラムは任意の形式、例えば、オブジェクト指向プログラム、インタプリタによって実行されるプログラム、オペレーティングシステムに提供されるスクリプトプログラムなどであっても良い。
【0074】
これらのマシン可読記憶媒体は、各種のメモリ及び記憶ユニット、半導体デバイス、光、磁気、光磁気ディスクなどの磁気ディスク、情報の記憶に適した他の媒体などを含んでも良いが、これに限られない。
【0075】
また、上述の一連の処理及び装置はソフトウェア及び/又はファームウェアにより実現され得る。ソフトウェア及び/又はファームウェアにより実現される場合、記憶媒体又はネットワークから、専用ハードウェア構成を有するコンピュータ、例えば、
図7に示する汎用パソコン700に該ソフトウェアを構成するプログラムをインストールし、該コンピュータは各種のプログラムがインストールされているときに、様々な機能を実行することができる。
【0076】
図7は、本発明の実施例における情報処理方法及び装置を実現し得るハードウェア構成(汎用マシン)700の構成図である。
【0077】
汎用マシン700は、例えば、コンピュータシステムであっても良い。なお、汎用マシン700は、例示に過ぎず、本発明による方法及び装置の適応範囲又は機能について限定しない。また、汎用マシン700は、上述の方法及び装置における任意のモジュールやアセンブリなど又はその組み合わせにも依存しない。
【0078】
図7では、中央処理装置(CPU)701は、ROM702に記憶されているプログラム又は記憶部708からRAM703にロッドされているプログラムに基づいて各種の処理を行う。RAM703では、ニーズに応じて、CPU701が各種の処理を行うときに必要なデータなどを記憶することもできる。
【0079】
CPU701、ROM702及びRAM703は、バス704を経由して互いに接続される。入力/出力インターフェース705もバス704に接続される。
【0080】
また、入力/出力インターフェース705には、さらに、次のような部品が接続され、即ち、キーボードなどを含む入力部706、液晶表示器(LCD)などのような表示器及びスピーカーなどを含む出力部707、ハードディスクなどを含む記憶部708、ネットワーク・インターフェース・カード、例えば、LANカード、モデムなどを含む通信部709である。通信部709は、例えば、インターネット、LANなどのネットワークを経由して通信処理を行う。
【0081】
ドライブ710は、ニーズに応じて、入力/出力インターフェース705に接続されても良い。取り外し可能な媒体711、例えば、半導体メモリなどは、必要に応じて、ドライブ710にセットされることにより、その中から読み取られたコンピュータプログラムを記憶部708にインストールすることができる。
【0082】
また、本発明は、マシン可読指令コードを含むプログラムプロダクトをさらに提供する。このような指令コードは、マシンにより読み取られて実行されるときに、上述の本発明の実施方式における方法を実行することができる。それ相応に、このようなプログラムプロダクトをキャリー(carry)する、例えば、磁気ディスク(フロッピーディスク(登録商標)を含む)、光ディスク(CD-ROM及びDVDを含む)、光磁気ディスク(MD(登録商標)を含む)、及び半導体記憶器などの各種記憶媒体も、本発明に含まれる。
【0083】
上述の記憶媒体は、例えば、磁気ディスク、光ディスク、光磁気ディスク、半導体記憶器などを含んでも良いが、これらに限定されない。
【0084】
また、上述の方法における各操作(処理)は、各種のマシン可読記憶媒体に記憶されているコンピュータ実行可能なプログラムの方式で実現することもできる。
【0085】
また、以上の実施例などに関し、以下のように付記としてさらに開示する。
【0086】
(付記1)
事前訓練の分類モデルを用いて分類を行う装置であって、
前記事前訓練の分類モデルの特徴抽出層を用いて、分類待ちのターゲット画像グループに含まれる複数の画像のうちの各画像の特徴を抽出する特徴抽出ユニット;
前記事前訓練の分類モデルの貢献計算層を用いて、前記複数の画像のうちの各画像の、前記ターゲット画像グループの分類結果に対する貢献を計算する貢献計算ユニット;
前記貢献計算ユニットにより計算された前記複数の画像の貢献に基づいて、前記特徴抽出ユニットにより抽出された前記複数の画像の特徴に対して融合を行い、融合後の特徴を前記ターゲット画像グループの特徴として取得する特徴融合ユニット;及び
前記ターゲット画像グループの特徴に基づいて、前記ターゲット画像グループに対して分類を行う分類ユニットを含む、装置。
【0087】
(付記2)
付記1に記載の装置であって、
前記特徴融合ユニットはさらに、前記貢献計算ユニットにより計算された前記複数の画像の貢献に基づいて、前記特徴抽出ユニットにより抽出された前記複数の画像の特徴に対して加重平均を行い、得た結果を前記ターゲット画像グループの特徴とする、装置。
【0088】
(付記3)
付記1に記載の装置であって、
前記特徴融合ユニットはさらに、前記複数の画像のうちの、前記貢献が所定閾値以上の1つ又は複数の画像の貢献に基づいて、前記1つ又は複数の画像の特徴に対して融合を行い、融合後の特徴を前記ターゲット画像グループの特徴として取得する、装置。
【0089】
(付記4)
付記1乃至3のうちの何れか1項に記載の装置であって、
前記複数の画像のうちの各画像について、該画像の、前記ターゲット画像グループの分類結果に対する貢献はスカラーにより表される、装置。
【0090】
(付記5)
付記1乃至3のうちの何れか1項に記載の装置であって、
前記複数の画像のうちの各画像について、該画像の、前記ターゲット画像グループの分類結果に対する貢献は、該画像の各次元の特徴の、前記ターゲット画像グループの分類結果に対する貢献を含む、装置。
【0091】
(付記6)
付記1乃至3のうちの何れか1項に記載の装置であって、
前記事前訓練の分類モデルは、少なくとも1つのサンプル画像グループを含む訓練サンプル集合を用いて、以下の方式により、初期分類モデルに対して訓練を行うことにより取得され、即ち、
前記初期分類モデルの特徴抽出層を用いて、前記少なくとも1つのサンプル画像グループの中の各サンプル画像の特徴を抽出し;
各サンプル画像グループについて、前記初期分類モデルの貢献計算層を用いて、該サンプル画像グループに含まれる各サンプル画像の、該サンプル画像グループの分類結果に対する貢献を計算し;
各サンプル画像グループについて、該サンプル画像グループの各サンプル画像の貢献に基づいて、該サンプル画像グループの各サンプル画像の特徴に対して融合を行い、融合後の特徴を該サンプル画像グループの特徴として取得し;及び
各サンプル画像グループの特徴を用いて、前記初期分類モデルについての損失関数に基づいて、前記初期分類モデルを、所定の収斂条件が満足されるよう訓練し、前記事前訓練の分類モデルを得る、装置。
【0092】
(付記7)
付記6に記載の装置であって、
前記損失関数は分類損失関数及び貢献損失関数を含み、
前記分類損失関数は前記初期分類モデルの分類損失を表し、
前記貢献損失関数は、前記各サンプル画像グループの特徴と、対応するサンプル画像グループが分類されるクラスの特徴中心との間の距離を表す、装置。
【0093】
(付記8)
付記6に記載の装置であって、
前記初期分類モデルの訓練過程において、前記初期分類モデルの特徴抽出層のパラメータは固定したものである、装置。
【0094】
(付記9)
事前訓練の分類モデルを用いて分類を行う方法であって、
前記事前訓練の分類モデルの特徴抽出層を用いて、分類待ちのターゲット画像グループに含まれる複数の画像のうちの各画像の特徴を抽出する特徴抽出ステップ;
前記事前訓練の分類モデルの貢献計算層を用いて、前記複数の画像のうちの各画像の、前記ターゲット画像グループの分類結果に対する貢献を計算する貢献計算ステップ;
前記貢献計算ステップで計算された前記複数の画像の貢献に基づいて、前記特徴抽出ステップで抽出された前記複数の画像の特徴に対して融合を行い、融合後の特徴を前記ターゲット画像グループの特徴として取得する特徴融合ステップ;及び
前記ターゲット画像グループの特徴に基づいて、前記ターゲット画像グループに対して分類を行う分類ステップを含む、方法。
【0095】
(付記10)
付記9に記載の方法であって、
前記特徴融合ステップでは、前記貢献計算ステップで計算された前記複数の画像の貢献に基づいて、前記特徴抽出ステップで抽出された前記複数の画像の特徴に対して加重平均を行い、得た結果を前記ターゲット画像グループの特徴とする、方法。
【0096】
(付記11)
付記9に記載の方法であって、
前記特徴融合ステップでは、前記複数の画像のうちの、前記貢献が所定閾値以上の1つ又は複数の画像の貢献に基づいて、前記1つ又は複数の画像の特徴対して融合を行い、融合後の特徴を前記ターゲット画像グループの特徴として取得する、方法。
【0097】
(付記12)
付記9乃至11のうちの何れか1項に記載の方法であって、
前記複数の画像のうちの各画像について、該画像の、前記ターゲット画像グループの分類結果に対する貢献はスカラーにより表される、方法。
【0098】
(付記13)
付記9乃至11のうちの何れか1項に記載の方法であって、
前記複数の画像のうちの各画像について、該画像の、前記ターゲット画像グループの分類結果に対する貢献は、該画像の各次元の特徴の、前記ターゲット画像グループの分類結果に対する貢献を含む。方法。
【0099】
(付記14)
付記9乃至11のうちの何れか1項に記載の方法であって、
前記事前訓練の分類モデルは、少なくとも1つのサンプル画像グループを含む訓練サンプル集合を用いて、以下の方式により、初期分類モデルに対して訓練を行うことにより取得され、即ち、
前記初期分類モデルの特徴抽出層を用いて、前記少なくとも1つのサンプル画像グループの中の各サンプル画像の特徴を抽出し;
各サンプル画像グループについて、前記初期分類モデルの貢献計算層を用いて、該サンプル画像グループに含まれる各サンプル画像の、該サンプル画像グループの分類結果に対する貢献を計算し;
各サンプル画像グループについて、該サンプル画像グループの各サンプル画像の貢献に基づいて、該サンプル画像グループの各サンプル画像の特徴に対して融合を行い、融合後の特徴を該サンプル画像グループの特徴として取得し;及び
各サンプル画像グループの特徴を用いて、前記初期分類モデルについての損失関数に基づいて、前記初期分類モデルを、所定の収斂条件が満足されるよう訓練し、前記事前訓練の分類モデルを得る、方法。
【0100】
(付記15)
付記14に記載の方法であって、
前記損失関数は分類損失関数及び貢献損失関数を含み、
前記分類損失関数は前記初期分類モデルの分類損失を表し、
前記貢献損失関数は、前記各サンプル画像グループの特徴と、対応するサンプル画像グループが分類されるクラスの特徴中心との間の距離を表す、方法。
【0101】
(付記16)
付記14に記載の方法であって、
前記初期分類モデルの訓練過程において、前記初期分類モデルの特徴抽出層のパラメータは固定したものである、方法。
【0102】
(付記17)
プログラム指令が記憶されているコンピュータ可読記憶媒体であって、
前記プログラム指令はコンピュータにより実行されるときに付記9乃至16のうちの何れか1項に記載の方法を実行することができる。
【0103】
以上、本発明の好ましい実施形態を説明したが、本発明はこの実施形態に限定されず、本発明の趣旨を離脱しない限り、本発明に対するあらゆる変更は、本発明の技術的範囲に属する。