(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2023171290
(43)【公開日】2023-12-01
(54)【発明の名称】顔検出モデルを訓練する方法と装置及び顔検出方法
(51)【国際特許分類】
G06T 7/20 20170101AFI20231124BHJP
G06T 7/00 20170101ALI20231124BHJP
G06V 10/82 20220101ALI20231124BHJP
G06V 40/16 20220101ALI20231124BHJP
G06N 3/08 20230101ALI20231124BHJP
【FI】
G06T7/20 300B
G06T7/00 660A
G06T7/00 350C
G06V10/82
G06V40/16 B
G06N3/08
【審査請求】未請求
【請求項の数】10
【出願形態】OL
(21)【出願番号】P 2023078189
(22)【出願日】2023-05-10
(31)【優先権主張番号】202210538374.3
(32)【優先日】2022-05-18
(33)【優先権主張国・地域又は機関】CN
【公序良俗違反の表示】
(特許庁注:以下のものは登録商標)
1.JAVA
2.SMALLTALK
(71)【出願人】
【識別番号】000005223
【氏名又は名称】富士通株式会社
(74)【代理人】
【識別番号】100107766
【弁理士】
【氏名又は名称】伊東 忠重
(74)【代理人】
【識別番号】100070150
【弁理士】
【氏名又は名称】伊東 忠彦
(72)【発明者】
【氏名】リィウ・ジョオンリン
(72)【発明者】
【氏名】シ・ズチアン
(72)【発明者】
【氏名】リィウ・リィウ
(72)【発明者】
【氏名】リィウ・ルゥジエ
(72)【発明者】
【氏名】ミイ・シャオユウ
(72)【発明者】
【氏名】村瀬 健太郎
【テーマコード(参考)】
5L096
【Fターム(参考)】
5L096AA06
5L096CA04
5L096DA02
5L096FA09
5L096GA10
5L096HA02
5L096HA11
5L096KA04
(57)【要約】
【課題】本発明は、顔検出モデルを訓練する方法と装置及び顔検出方法を提供する。
【解決手段】かかる方法は、現在のバッチの複数のサンプル画像のグローバル特徴を抽出し;予測アテンションマスクを決定し;画像の、各顔動作ユニットに対応するローカル特徴を決定し;複数のサンプル画像の、各顔動作ユニットに対応するローカル特徴に基づいて、顔動作ユニット集合と関連付けられる検出結果を決定し;検出結果に基づいて検出損失を決定し;複数のサンプル画像の各予測アテンションマスクと、対応する所定アテンションマスクとの差に基づいて、アテンション損失を決定し;及び、総損失に基づいて顔検出モデルのパラメータを調整して顔検出モデルを最適化することを含む。
【選択図】
図1
【特許請求の範囲】
【請求項1】
コンピュータが実行する、顔検出モデルを訓練するための方法であって、
前記顔検出モデルは入力顔画像の、複数の顔動作ユニットを含む顔動作ユニット集合と関連付けられる検出結果を決定するために用いられ、
前記方法は前記顔検出モデルに対して反復訓練を行うことを含み、
前記顔検出モデルはニューラルネットワークに基づいており、
前記反復訓練における少なくとも1つの訓練反復ループは、
現在のバッチの複数のサンプル画像のグローバル特徴を抽出し;
前記複数のサンプル画像のうちの各画像の、前記顔動作ユニット集合における各顔動作ユニットに対応する予測アテンションマスクを決定し;
前記複数のサンプル画像のうちの各画像について、該画像のグローバル特徴及び該画像の、各顔動作ユニットに対応する予測アテンションマスクに基づいて、該画像の、各顔動作ユニットに対応するローカル特徴を決定し;
前記複数のサンプル画像の、各顔動作ユニットに対応するローカル特徴に基づいて、前記顔動作ユニット集合と関連付けられる検出結果を決定し;
前記検出結果に基づいて検出損失を決定し;
前記複数のサンプル画像の各予測アテンションマスクと、対応する所定アテンションマスクとの差に基づいて、アテンション損失を決定し;及び
前記検出損失及び前記アテンション損失に関する総損失に基づいて前記顔検出モデルのパラメータを調整することで前記顔検出モデルを最適化する
ことを含む、方法。
【請求項2】
請求項1に記載の方法であって、
前記複数のサンプル画像の、各顔動作ユニットに対応するローカル特徴に基づいて、前記顔動作ユニット集合と関連付けられる検出結果を決定することは、
前記複数のサンプル画像の、各顔動作ユニットに対応するローカル特徴と、対応するサンプル画像のグローバル特徴との融合特徴に基づいて、前記顔動作ユニット集合と関連付けられる検出結果を決定することを含む、方法。
【請求項3】
請求項2に記載の方法であって、
前記複数のサンプル画像のうちの各サンプル画像の、各顔動作ユニットに対応する融合特徴は該サンプル画像の、各顔動作ユニットに対応するローカル特徴と、該サンプル画像のグローバル特徴との加重和である、方法。
【請求項4】
請求項3に記載の方法であって、
前記顔検出モデルのパラメータを調整することは、前記加重和のための加重係数を調整することを含む、方法。
【請求項5】
請求項1に記載の方法であって、
前記複数のサンプル画像のうちの各画像の、前記顔動作ユニット集合における各顔動作ユニットに対応する予測アテンションマスクは前記複数のサンプル画像のうちの該画像のグローバル特徴と関連付けられる、方法。
【請求項6】
請求項1に記載の方法であって、
前記顔検出モデルのパラメータを調整することはアテンションマスクの平均二乗誤差の最小化に基づいてマスクニューラルネットワークのパラメータを調整することを含み、
前記アテンションマスクの平均二乗誤差は予測アテンションマスクと、対応する前記所定アテンションマスクとの間の平均二乗誤差であり、
前記マスクニューラルネットワークは各予測アテンションマスクを生成するためのニューラルネットワークである、方法。
【請求項7】
請求項2に記載の方法であって、
前記総損失はさらに、複数の同一ラベル融合特徴ペア及び複数の相反ラベル融合特徴ペアに基づいて決定される比較損失に関連しており、
前記複数の同一ラベル融合特徴ペアのうちの各同一ラベル融合特徴ペアに含まれる2つの融合特徴は前記複数のサンプル画像のうちの2つのサンプル画像の、同じ顔動作ユニットに対応する融合特徴であり、
前記複数の相反ラベル融合特徴ペアのうちの各相反ラベル融合特徴ペアに含まれる2つの融合特徴は前記複数のサンプル画像のうちの2つのサンプル画像の、2つの相反する顔動作ユニットに対応する融合特徴である、方法。
【請求項8】
請求項7に記載の方法であって、
前記総損失は前記検出損失、前記アテンション損失及び前記比較損失の加重和である、方法。
【請求項9】
顔検出方法であって、
請求項1に記載の方法により訓練された顔検出モデルを用いて、検出待ち顔画像の、前記顔動作ユニット集合と関連付けられる検出結果を決定することを含む、顔検出方法。
【請求項10】
顔検出モデルを訓練するための装置であって、
命令を記憶している記憶器;及び
前記記憶器に接続される少なくとも1つの処理器を含み、
前記処理器は前記命令を実行して反復の方式で前記顔検出モデルを訓練するように構成され、
前記顔検出モデルは入力顔画像の、複数の顔動作ユニットを含む顔動作ユニット集合と関連付けられる検出結果を決定するために用いられ、
前記顔検出モデルはニューラルネットワークに基づいており、
反復の方式で前記顔検出モデルを訓練する期間における少なくとも1つの訓練反復ループは、
現在のバッチの複数のサンプル画像のグローバル特徴を抽出し;
前記複数のサンプル画像のうちの各画像の、前記顔動作ユニット集合における各顔動作ユニットに対応する予測アテンションマスクを決定し;
前記複数のサンプル画像のうちの各画像について、該画像のグローバル特徴及び該画像の、各顔動作ユニットに対応する予測アテンションマスクに基づいて、該画像の、各顔動作ユニットに対応するローカル特徴を決定し;
前記複数のサンプル画像の、各顔動作ユニットに対応するローカル特徴に基づいて、前記顔動作ユニット集合と関連付けられる検出結果を決定し;
前記検出結果に基づいて検出損失を決定し;
前記複数のサンプル画像の各予測アテンションマスクと、対応する所定アテンションマスクとの差に基づいて、アテンション損失を決定し;及び
前記検出損失及び前記アテンション損失に関する総損失に基づいて前記顔検出モデルのパラメータを調整することで前記顔検出モデルを最適化する
ことを含む、装置。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、情報処理の技術分野に関し、特に、顔検出モデルを訓練する方法、顔検出モデルを訓練する装置、及び顔検出方法に関する。
【背景技術】
【0002】
コンピュータサイエンス及び人工知能の発展に伴い、コンピュータを使用して人工知能モデルを実行することで情報処理を実現することは益々一般的かつ効果的になっている。入力顔画像の、複数の顔動作ユニット(アクションユニット)(action units,AU)を含む顔動作ユニット集合と関連付けられる検出結果を決定するための顔検出モデルは人工知能の重要な研究方向であり、そのうち、各顔動作ユニットは顔(特に人間の顔)領域内の所定の局所領域の分類ラベルに対応する。
【0003】
顔表情は精神的及び感情的な状態に関する情報を伝達する主な非言語的手段である。顔動作ユニットは特定の顔筋肉に対応する動作を定義しており、人間の微細な表情(微表情ともいう)を幅広く表現できる。微表情により人間の精神状態を伝達できるので、顔動作ユニットの検出は心理学、行動、生理学研究、精神的健康評価、人間ロボットなどの面において大きな意味及び商業的な価値を持っている。顔微表情の分析では、信頼性の高い顔動作ユニット検出システムが重要である。
【0004】
顔動作ユニットは顔の局所的な微表情の変化を反映できるが、顔動作ユニットのデータのラベル付けは非常に難しいタスクである。既存の顔動作ユニットはラベルが付けされたデータが少ないため、データの多様性のニーズを満たすことができない。限られたデータに基づいて訓練された顔検出モデルは良い汎用パフォーマンスを有しない。例えば、新しいアイデンティティの顔画像(ピクチャともいう)を入力すると、このような顔検出モデルは信頼できる動作ユニットの予測結果を与えることができない場合がある。顔検出モデルのロバストネスの問題はモデルの商業的なアプリケーションに影響を及ぼす恐れがある。
【発明の概要】
【発明が解決しようとする課題】
【0005】
本発明の目的は、顔検出モデルを訓練する方法、顔検出モデルを訓練する装置、及び顔検出方法を提供することにある。
【課題を解決するための手段】
【0006】
本発明の1つの側面によれば、コンピュータが実行する、顔検出モデルを訓練するための方法が提供され、顔検出モデルは入力顔画像の、複数の顔動作ユニットを含む顔動作ユニット集合と関連付けられる検出結果を決定するために用いられ、該方法は顔検出モデルを反復して訓練することを含み、かつ顔検出モデルはニューラルネットワークに基づいている。反復訓練における少なくとも1つの訓練反復ループは以下の操作(ステップともいう)を含み、即ち、
現在のバッチの複数のサンプル画像のグローバル特徴を抽出し;
複数のサンプル画像のうちの各画像の、顔動作ユニット集合における各顔動作ユニットに対応する予測アテンションマスク(attention mask)を決定し;
複数のサンプル画像のうちの各画像について、該画像のグローバル特徴及び該画像の、各顔動作ユニットに対応する予測アテンションマスクに基づいて、該画像の、各顔動作ユニットに対応するローカル特徴を決定し;
複数のサンプル画像の、各顔動作ユニットに対応するローカル特徴に基づいて、顔動作ユニット集合と関連付けられる検出結果を決定し;
検出結果に基づいて検出損失を決定し;
複数のサンプル画像の各予測アテンションマスクと、対応する所定アテンションマスクとの差に基づいて、アテンション損失を決定し;及び
検出損失及びアテンション損失に関する総損失に基づいて顔検出モデルのパラメータを調整することで顔検出モデルを最適化する操作である。
【0007】
本発明の1つの側面によれば、顔検出方法が提供される。該顔検出方法は前述の方法により訓練された顔検出モデルを用いて、検出待ち顔画像の、顔動作ユニット集合と関連付けられる検出結果を決定することを含む。
【0008】
本発明の1つの側面によれば、顔検出モデルを訓練するための装置が提供され、それは、命令を記憶している記憶器;及び、前記記憶器に接続される少なくとも1つの処理器を含み、該処理器は命令を実行して反復の方式で顔検出モデルを訓練するように構成され、そのうち、顔検出モデルは入力顔画像の、複数の顔動作ユニットを含む顔動作ユニット集合と関連付けられる検出結果を決定するために用いられ、顔検出モデルはニューラルネットワークに基づいており、かつ反復の方式で顔検出モデルを訓練する期間における少なくとも1つの訓練反復ループは以下の操作を含み、即ち、
現在のバッチの複数のサンプル画像のグローバル特徴を抽出し;
複数のサンプル画像のうちの各画像の、顔動作ユニット集合における各顔動作ユニットに対応する予測アテンションマスクを決定し;
複数のサンプル画像のうちの各画像について、該画像のグローバル特徴及び該画像の、各顔動作ユニットに対応する予測アテンションマスクに基づいて、該画像の、各顔動作ユニットに対応するローカル特徴を決定し;
複数のサンプル画像の、各顔動作ユニットに対応するローカル特徴に基づいて、顔動作ユニット集合と関連付けられる検出結果を決定し;
検出結果に基づいて検出損失を決定し;
複数のサンプル画像の各予測アテンションマスクと、対応する所定アテンションマスクとの差に基づいて、アテンション損失を決定し;及び
検出損失及びアテンション損失に関する総損失に基づいて顔検出モデルのパラメータを調整することで顔検出モデルを最適化する操作である。
【0009】
本発明の1つの側面によれば、プログラムを記憶しているコンピュータ可読記憶媒体が提供される。該プログラムは実行されるときに、コンピュータに、顔検出モデルを反復して訓練させる。顔検出モデルは入力顔画像の、複数の顔動作ユニットを含む顔動作ユニット集合と関連付けられる検出結果を決定するために用いられ、かつ顔検出モデルはニューラルネットワークに基づいている。反復訓練における少なくとも1つの訓練反復ループは以下の操作を含み、即ち、
現在のバッチの複数のサンプル画像のグローバル特徴を抽出し;
複数のサンプル画像のうちの各画像の、顔動作ユニット集合における各顔動作ユニットに対応する予測アテンションマスクを決定し;
複数のサンプル画像のうちの各画像について、該画像のグローバル特徴及び該画像の、各顔動作ユニットに対応する予測アテンションマスクに基づいて、該画像の、各顔動作ユニットに対応するローカル特徴を決定し;
複数のサンプル画像の、各顔動作ユニットに対応するローカル特徴に基づいて、顔動作ユニット集合と関連付けられる検出結果を決定し;
検出結果に基づいて検出損失を決定し;
複数のサンプル画像の各予測アテンションマスクと、対応する所定アテンションマスクとの差に基づいて、アテンション損失を決定し;及び
検出損失及びアテンション損失に関する総損失に基づいて顔検出モデルのパラメータを調整することで顔検出モデルを最適化する操作である。
【発明の効果】
【0010】
本発明によれば、少なくとも、モデルの精度及びロバストネスを向上させることができる。
【図面の簡単な説明】
【0011】
【
図1】本発明の実施例において顔検出モデルを訓練するための方法のフローチャートである。
【
図2】本発明の実施例における例示的な所定アテンションマスクのパターンを示す図である。
【
図3】本発明の実施例における訓練期間での顔検出モデルの操作を示す図である。
【
図4】本発明の実施例における顔検出方法のフローチャートである。
【
図5】本発明の実施例において顔検出モデルを訓練するための装置のブロック図である。
【
図6】本発明の実施例において顔検出モデルを訓練するための装置のブロック図である。
【
図7】本発明の実施例における情報処理機器のブロック図である。
【発明を実施するための形態】
【0012】
以下、添付した図面を参照しながら、本発明を実施するための好適な実施例を詳細に説明する。なお、以下の実施例は例示に過ぎず、本発明を限定するものではない。
【0013】
本発明の実施例の各側面における操作を実行するためのコンピュータプログラムコードは1つ又は複数のプログラム設計言語の任意の組み合わせにより書かれて良い。前記プログラム設計言語はオブジェクト指向型プログラム設計言語、例えば、Java、Smalltalk、C++などを含んでも良く、また、通常の手続き型プログラム設計言語、例えば、Cプログラム設計言語又は類似したプログラム設計言語をも含んでも良い。
【0014】
本発明の方法は対応する機能の設定を有する回路により実現されても良い。前記回路は処理器用の回路を含み得る。
【0015】
本発明の1つの側面によれば、顔検出モデルdetMを訓練するための方法が提供される。該方法はコンピュータにより実現されても良い。モデルdetMはニューラルネットワークに基づくモデルであっても良い。顔検出モデルdetMは入力顔画像の、複数の顔動作ユニット(そのうちの任意の1つの顔動作ユニットがAU[i]で表され、i∈[iStart,iEnd]である)を含む顔動作ユニット集合auSと関連付けられる検出結果を決定するために用いられる。該方法はモデルのロバストネス及び正確さ(精度)を向上させることができる。モデルdetMは人間の表情、微表情、精神状態、情緒(感情)などを決定するシナリオに用いることができる。例えば、モデルdetMは老人ホームにおける高齢者の体調を監視し、表情分析を通じて高齢者の精神状態や体調をタイムリーに反映するために用いられ得る。精神医学の面においては、例えば、パーキンソン病患者の場合、表情を通じて治療後の患者の回復状況などを分析でき、そのうち、表情はモデルdetMにより決定され得る。
図1は本発明の1つの実施例においてモデルdetMを訓練するための方法100のフローチャートである。以下、
図1を参照しながら本発明のモデル訓練方法について例示的に説明する。
【0016】
モデルdetMは入力顔画像Im[n]の、複数の顔動作ユニット、即ち、AU[iStart]乃至AU[iEnd]を含む顔動作ユニット集合auSと関連付けられる検出結果Rd[n]を決定するために用いられ得る。方法100は顔検出モデルdetMに対しての反復訓練を含む。モデルdetMを訓練するための総訓練サンプル集合Stには複数のサンプル画像が含まれる。各サンプル画像はラベルが付けられており、その中の各局所領域の属する動作類型については対応する顔動作ユニットを用いてラベル標識としており、これらの標識は標識情報を構成する。訓練期間では、サンプル画像Im[n]をモデルdetMに入力し、モデルdetMは画像Im[n]を処理して検出結果Rd[n]を出力する。モデルdetMが与えた該サンプル画像の検出結果Rd[n]及び該サンプル画像の標識情報に基づいてモデルのパラメータを調整することでモデルを最適化でき、これによって、モデルのパフォーマンスを次第に向上させ、ひいては安定させることができる。モデルdetMは関心領域ベースの畳み込みネットワーク(ROI-based CNN)の特徴抽出器を用いて顔動作ユニットの特徴を抽出できる。1つの例示的な訓練反復ループにおいて、方法100は
図1に示すフローを含む。
【0017】
ステップS101では現在のバッチの複数のサンプル画像Im[1]乃至Im[N]のグローバル特徴F[1]乃至F[N]を抽出し、そのうちの任意の1つの画像がIm[n]で表される。1つの例において、畳み込みネットワークに基づくグローバル特徴抽出器ExtraFを使用してグローバル特徴を抽出できる。例えば、VGG(Visual Geometry Group)ネットワークを採用してグローバル特徴を抽出できるが、他の一般的なネットワーク構造を採用しても良い。総訓練サンプル集合Stにおける画像を複数の組に分けることができ、各訓練反復ループでは1組のサンプル画像を現在の訓練反復ループにおける複数のサンプル画像として用いて訓練を行うことができる。複数のサンプル画像は好ましくは異なる人物の顔画像を含む。
【0018】
ステップS103では複数のサンプル画像のうちの各画像Im[n]の、顔動作ユニット集合auSにおける各顔動作ユニットAU[i]に対応する予測アテンションマスクMp[n][i]を決定する。1つの例において、ニューラルネットワークを使用して各予測アテンションマスクを決定でき、該ニューラルネットワークは“マスクニューラルネットワークNNm_i”と記される。例えば、顔動作ユニット集合auSに24個(例えば、iStart=1、iEnd=24)の顔動作ユニットAU[i]があるときに、24個の畳み込みネットワークを設定して24個の顔動作ユニットに対応する24個の予測アテンションマスクを生成できる。マスクニューラルネットワークNNm_iは画像Im[n]のグローバル特徴F[n]に基づいて、顔動作ユニットAU[i]に対応する予測アテンションマスクMp[n][i]を決定する。即ち、予測アテンションマスクMp[n][i]は複数のサンプル画像のうちの画像Im[n]のグローバル特徴F[n]と関連付けられる。本発明における各顔動作ユニットのアテンションマスクは固定したものではなく、入力画像に基づいて変化する(又は決まる)ので、本発明における各顔動作ユニットのアテンションマスクは“ソフトアテンションマスク”とも称される。
【0019】
ステップS105では複数のサンプル画像のうちの各画像Im[n]について、該画像のグローバル特徴F[n]及び該画像の、各顔動作ユニットAU[i]に対応する予測アテンションマスクMp[n][i]に基づいて、該画像の、各顔動作ユニットに対応するローカル特徴f[n][i]を決定する。例えば、顔動作ユニット集合auSが24個の顔動作ユニットを有するときに、本ステップでは画像Im[n]の24個のローカル特徴、即ち、f[n][1]乃至f[n][24]を決定できる。グローバル特徴F[n]及び予測アテンションマスクMp[n][i]に基づいてローカル特徴f[n][i]を決定するユニット(手段)はローカル特徴生成器GenFL[i]と記される。ローカル特徴f[n][i]は以下の式(1)により決定され得る。
【0020】
f[n][i]=F[n]*Mp[n][i] (1)
ステップS107では複数のサンプル画像の、各顔動作ユニットに対応するローカル特徴、即ち、f[n][iStart]乃至f[n][iEnd]に基づいて、顔動作ユニット集合auSと関連付けられる検出結果RDを決定する。例えば、現在のバッチのサンプル画像の数がNである場合、本ステップで得られる検出結果はN個のサンプル画像に対応するN個の顔検出結果、即ち、Rd[1]乃至Rd[N]を含む。各顔検出結果Rd[n]は、対応する顔画像についての、顔動作ユニット集合auSに関する動作ユニットの予測結果を指示し、n∈[1,N]であり、例えば、各顔動作ユニットを検出する確率からなる1次元アレイ(aup[n][iStart],……,aup[n][iEnd])である。1つの例において、分類畳み込みニューラルネットワークを使用して、各顔動作ユニットAU[i]についての確率aup[n][i]を決定でき、該分類ニューラルネットワークは“NNc_i”と記され、顔動作ユニットAU[i]についての顔動作ユニット分類器と呼ばれても良い。
【0021】
ステップS109では検出結果RDに基づいて検出損失Lauを決定する。検出損失Lauは各サンプル画像に対応する顔検出結果Rd[n]とその標識情報とを比較することで決定され得る。サンプル画像Im[n]の標識情報は例えば、画像Im[n]に各顔動作ユニットAU[i]が出現したかを示している。
【0022】
ステップS111では複数のサンプル画像の各予測アテンションマスクMp[n][i]と、対応する所定アテンションマスクMt[i]との差に基づいて、アテンション損失Lattを決定し、そのうち、iは[iStart,iEnd]の範囲内の任意の整数である。
【0023】
ステップS113では検出損失Lau及びアテンション損失Lattに関する総損失Ltotalに基づいて顔検出モデルのパラメータを調整することで顔検出モデルdetMを最適化する。
【0024】
方法100を反復して実行することで、モデルdetMを次第に最適化する目的を達成でき、そのうち、次の反復ループにおいて、その1つ前の反復ループで決定されたモデルをもとに訓練を行う。訓練終了の条件は例えば、訓練が所定の回数に達しており、総損失関数が収斂(収束)しており、総損失関数が十分に小さくなっているなどであっても良い。
【0025】
ローカル特徴のみを使用して顔画像の動作ユニットのラベルを決定できるが、ローカル特徴は顔の局所領域の情報しか反映できず、これは分類の正確さを制限する可能性がある。1つの実施例において、複数のサンプル画像の、各顔動作ユニットに対応するローカル特徴に基づいて、顔動作ユニット集合auSと関連付けられる検出結果を決定することは、複数のサンプル画像の、各顔動作ユニットに対応するローカル特徴f[n][i]と、対応するサンプル画像のグローバル特徴F[n]との融合特徴Ff[n][i]に基づいて、顔動作ユニット集合auSと関連付けられる検出結果を決定することを含む。1つの例において、サンプル画像Im[n]の、各顔動作ユニットAU[i]に対応する融合特徴Ff[n][i]は該サンプル画像の、各顔動作ユニットに対応するローカル特徴f[n][i]と、該サンプル画像のグローバル特徴F[n]との加重和(weighted sum)である。融合特徴Ff[n][i]は以下の式(2)により決定され得る。
【0026】
Ff[n][i]=f[n][i]+α[i]*F[n]*(1-Mp[n][i]) (2)
そのうち、α[i]はグローバル特徴F[n]とローカル特徴f[n][i]とを融合するための加重係数(Weighting coefficient)であり、その好ましい値はモデル訓練過程で次第に決定され得る。即ち、顔検出モデルdetMのパラメータの調整は前記加重和のための加重係数α[i]の調整を含む。融合特徴生成器GenFf_iにより式(2)に基づいて融合特徴Ff[n][i]を生成できる。α[i]はローカル特徴の局限性(制限)を避けるために、ソフトアテンションマスク以外の特徴を融合するために用いられる。
【0027】
1つの実施例において、対応する所定アテンションマスクMt[i]は先験的知識に基づいて決定された顔動作分割ルールに従って決定される。対応する所定アテンションマスクの決定は、複数の顔ランドマークポイントLm[kStart]乃至Lm[kEnd]を決定し;複数の顔ランドマークポイントに基づいて、顔領域を複数のサブ領域Rs[mStart]乃至Rs[mEnd]に分割し;及び、複数のサブ領域に基づいて、対応する所定アテンションマスクMt[iStart]乃至Mt[iEnd]を生成することを含む。そのうち、対応する所定アテンションマスクのうちの各所定アテンションマスクMt[i]は複数のサブ領域の対応する部分集合と関連付けられ、かつ対応する部分集合は先験的知識に基づいて決定される。1つの例において、顔ランドマークポイントの数は68である。顔ランドマークポイントの位置は通常の画像検出により得ることができる。サブ領域は複数の顔ランドマークポイントのうちの一部のランドマークポイントを接続することで包囲される領域である。1つの例において、サブ領域の数は45である。1つの例において、所定アテンションマスクの数は24であり、顔動作ユニットの数と同じであり、1つの顔動作ユニットAU[i]が1つの所定アテンションマスクMt[i]に対応し、1つの所定アテンションマスクMt[i]が所定の局所の顔関心領域Rf[i]に対応し、該所定の顔関心領域は1つのサブ領域であっても良く、複数のサブ領域の組み合わせであっても良い。1つの所定アテンションマスクMt[i]が所定のマスクパターンMp[i]に対応する。
図2は、iEnd=24(即ち、顔動作ユニット集合auSは24個の顔動作ユニットを有する)の場合の例示的な所定アテンションマスクのパターンを示しており、そのうち、Mpの列における各矩形パターンはマスクパターンである。Mpの列における各パターンの中の白い色の領域は該マスクを用いて顔画像の局所領域の情報を抽出するときの局所領域に対応する。Mt[i]は顔画像のグローバル特徴Fから、対応する動作ユニットAU[i]のローカル特徴f[i]を抽出するために用いられ得る。
図2のRfの列における各画像の中のlight-colorの領域は顔関心領域であり、それは顔動作ユニットと対応関係を有する。Rfの列における各画像はさらに48個のサブ領域の分布を示している。所定アテンションマスクは先験的規則(ルール)に従って決定された後に、アテンションマスクの真値として使用されることで、アテンション損失Lattを計算できる。1回目の反復訓練ループの前に所定アテンションマスクを決定するステップを実行しても良く、これによって、訓練期間ではアテンション損失Lattを決定できる。
【0028】
訓練期間で実行される操作をより良く理解するために、以下、
図3を参照しながら顔検出モデルdetMの訓練期間での操作について例示的に説明する。
図3は本発明の1つの実施例における訓練期間での顔検出モデルdetMの操作を示す図であり、その中には、便宜のため、1つのみのサンプル画像Im[n]が入力される操作の場合を示しており、また、顔動作ユニット集合auSが24個の顔動作ユニット(即ち、iStart=1、iEnd=24)を含むことを例としている。グローバル特徴抽出器ExtraFは入力サンプル画像Im[n]のグローバル特徴F[n]を抽出し、即ち、顔画像全体のグローバル特徴を抽出する。顔動作ユニットの検出がマルチラベル分類タスクに属するので、iEnd-iStart+1個の顔動作ユニットの検出の場合、iEnd-iStart+1個の特徴抽出器、即ち、Extractor_iStart乃至Extractor_iEndを使用する。各特徴抽出器Extractor_iはマスクニューラルネットワークNNm_i、ローカル特徴生成器GenFL_i、及び融合特徴生成器GenFf_iを含み、i∈[1,24]である。グローバル特徴F[n]をそれぞれiEnd-iStart+1個の特徴抽出器Extractor_iに入力することで、顔動作ユニットAU[i]に対応する分類特徴、即ち、融合特徴Ff[n][i]を抽出する。マスクニューラルネットワークNNm_iはグローバル特徴F[n]を受け取り、予測アテンションマスクMp[n][i]を出力する。
図3に示すように、マスクニューラルネットワークNNm_iにおける畳み込みネットワークが出力する特徴は例示的なSigmoid関数(図中では“σ”で表される)の変換を経た後に、予測アテンションマスクMp[n][i]は得ることができる。ローカル特徴生成器GenFL_iは式(1)に示すアルゴリズムに従ってローカル特徴f[n][i]を生成する。融合特徴生成器GenFf_iは式(2)に示すアルゴリズムに従って融合特徴Ff[n][i]を生成する。分類ニューラルネットワークNNc_iは融合特徴Ff[n][i]に基づいて、顔動作ユニットAU[i]に対応する確率aup[n][i]を生成する。すべての顔動作ユニットの確率の組み合わせは顔検出結果Rd[n]である。
【0029】
以下、アテンション損失についてさらに説明する。
【0030】
現在のバッチの複数のサンプル画像のアテンション損失Lattは以下の式(3)で表すことができる。
【0031】
【数1】
ここで、Nは現在のバッチのサンプル画像の数であり、MSE(Mp[n][i]-Mt[i])はiがiStartからiEndに変化する場合、予測アテンションマスクと、対応する所定アテンションマスクとの間の平均二乗誤差(MSE:Mean Square Error)、即ち、アテンションマスクに関して、予測値と真値との間の平均二乗誤差であり、そのうち、平均を求めるときに、分母は動作ユニットの数である。
【0032】
予測アテンションマスクMp[n][i]は以下の式(4)で表すことができる。
【0033】
Mp[n][i]=NNm_i(F[n];θ) (4)
ここで、θはマスクニューラルネットワークNNm_iのパラメータを表す。
【0034】
以下の式(5)を参照し、訓練期間では例えば、アテンションマスクの平均二乗誤差の最小化に基づいてマスクニューラルネットワークのパラメータを調整でき、そのうち、アテンションマスクの平均二乗誤差は予測アテンションマスクと、対応する所定アテンションマスクとの間の平均二乗誤差である。
【0035】
【数2】
モデル訓練過程ではマスクニューラルネットワークのパラメータを調整することで、ネットワークに、顔動作ユニットの領域の先験的知識を学習させることできる。
【0036】
なお、本発明のアテンション損失の決定方式は上述の決定方式を含むが、それに限定されない。
【0037】
以下、検出損失についてさらに説明する。
【0038】
現在のバッチの複数のサンプル画像の検出損失Lauは式(6)に示す交差エントロピー(Cross Entropy)損失関数として表すことができる。
【0039】
【数3】
ここで、Nは現在のバッチのサンプル画像の数であり、iEnd-iStart+1は顔動作ユニット集合における顔動作ユニットの数であり、p
n,iは画像Im(n)の、顔動作ユニットAU[i]に対応する真値であり、p′
n,iは顔動作ユニットAU[i]に対応する予測値であり、p′
n,iは検出結果から得ることができる。
【0040】
なお、本発明の検出損失の決定方式は上述の決定方式を含むが、それに限定されない。
【0041】
以下、総損失についてさらに説明する。
【0042】
1つの実施例において、総損失Ltotalはさらに、複数の同一ラベル融合特徴ペア及び複数の相反ラベル融合特徴ペアに基づいて決定される比較損失Lcmpに関連している。複数の同一ラベル融合特徴ペアのうちの各同一ラベル融合特徴ペアに含まれる2つの融合特徴は、複数のサンプル画像のうちの2つのサンプル画像の、同じ(同一)顔動作ユニットに対応する融合特徴である。複数の相反ラベル融合特徴ペアのうちの各相反ラベル融合特徴ペアに含まれる2つの融合特徴は、複数のサンプル画像のうちの2つのサンプル画像の、2つの相反する顔動作ユニットに対応する融合特徴である。例えば、「関心領域が左口角であり、かつ左口角が上がる(微笑み)」に対応する顔動作ユニットAU[i0p]について、顔画像Im1内の該左口角領域に対応する顔動作ユニットのラベルがAU[i0p]であり、かつ該左口角領域について生成される融合特徴がFf[1][i0p]であり、また、顔画像Im2内の該左口角領域に対応する顔動作ユニットのラベルもAU[i0p]であり、かつ該左口角領域について生成される融合特徴がFf[2][i0p]である場合、融合特徴Ff[1][i0p]及びFf[2][i0p]は同一ラベル融合特徴ペアを構成する。また、例えば、顔画像Im1内の該左口角領域に対応する顔動作ユニットのラベルがAU[i0p]であり、かつ該左口角領域について生成される融合特徴がFf[1][i0p]であり、また、顔画像Im2内の左口角が下がり(怒っている)、該左口角領域に対応する顔動作ユニットのラベルがAU[i0n]であり(それはAU[i0p]と相反する表情又は動作を表す)、かつ該左口角領域について生成される融合特徴がFf[2][i0n]である場合、融合特徴Ff[1][i0p]及びFf[2][i0n]は相反ラベル融合特徴ペアを構成する。相反ラベル融合特徴ペアは同一の人物の顔画像からのものであっても良く、異なる人物の顔画像であっても良い。同一ラベル融合特徴ペアは同一の人物の顔画像からのものであっても良く、異なる人物の顔画像であっても良い。
【0043】
1つの例において、比較損失は第一比較損失及び第二比較損失を含む。第一比較損失は複数の同一ラベル融合特徴ペアのうちの各同一ラベル融合特徴ペアにおける2つの融合特徴の距離と正の相関があり、また、第二比較損失は所定の間隔パラメータと、複数の相反ラベル融合特徴ペアのうちの各相反ラベル融合特徴ペアにおける2つの融合特徴の距離との差に基づいて決定される。
【0044】
例示的に、比較損失Lcmpは以下の式(7)に従って決定されても良い。
【0045】
【数4】
ここで、cは顔動作ユニット集合auSにおける顔動作ユニットの数であり、|P
s
i|は現在のバッチの複数のサンプル画像の融合特徴において構築される同一ラベル融合特徴ペアの数であり、|P
O
i|は現在のバッチの複数のサンプル画像の融合特徴において構築される相反ラベル融合特徴ペアの数であり、
【0046】
【数5】
は融合特徴ペアにおける2つの融合特徴の間の距離を表し、下付き文字“2”はL2ノルムを表し、mは間隔パラメータであり、例えば、該パラメータの値は1と設定される。
【0047】
1つの例において、以下の式(8)の示すように、総損失は検出損失、アテンション損失及び比較損失の加重和である。
【0048】
Ltotal=Lau+λ1Latt+λ2Lcmp (8)
ここで、λ1及びλ2は加重係数である。
【0049】
ローカル特徴とグローバル特徴との融合を行い、融合特徴を用いて顔動作ユニットの分類を行う。これはローカル特徴の局限性(制限)を避け、分類の正確さ(精度)を向上させることができる。
【0050】
同一ラベル融合特徴ペア及び相反ラベル融合特徴ペアを用いて比較学習を行うことで、生成される同類の顔動作ユニットの融合特徴が近くなるようにさせ、また、生成される相反類の顔動作ユニットの融合特徴が遠くなるようにさせることができため、モデルのロバストネスを向上させ、顔のアイデンティティ、姿勢、照明などの影響を低減できる。
【0051】
ソフトアテンションマスクの使用はモデルロバストネス及び正確さの向上(改善)にも有利である。
【0052】
表1は異なる顔検出モデルのF1スコアの比較を示しており、そのうち、使用されるデータ集合はBP4Dである。
【0053】
【表1】
<参考文献>
[1]Z.Shao,Z.Liu,J.Cai,Y.Wu,and L.Ma.Facial action unit detection using attention and relation learning.IEEE Transactions on Affective Computing,2019.
[2]Z.Shao,Z.Liu,J.Cai,and
(外1)
: Joint facial action unit de
tection and face alignment via adaptive
attention.International Journal of Computer Vision,129:1-20,02 2021.
[3]Y.Chen,G.Song,Z.Shao,J.Cai,T.-J.Cham,and J.Zheng.Geoconv: Geodesic guided convolution for facial action unit recognition,2020.
表1では、“VGG16”は顔検出モデルが基本VGG16ネットワークアーキテクチャであることを表し;“VGG16+ソフトアテンションマスク”は顔検出モデルが基本VGG16ネットワークアーキテクチャをもとに調整された、本発明で提供される“ソフトアテンションマスク”を使用してローカル特徴を生成するモデルであることを表し、該モデルはローカル特徴を用いて顔動作ユニットの分類を行い;“VGG16+ソフトアテンションマスク+融合”は顔検出モデルが1つ前のモデルをもとに調整された、本発明で提供される“融合特徴”を使用して顔動作ユニットの分類を行うモデルであることを表しり;“VGG16+ソフトアテンションマスク+融合+比較損失”は顔検出モデルが1つ前のモデルをもとに調整された、訓練時に本発明で提供される“比較損失”を使用するモデルであることを表す。表1から分かるように、基本VGG16モデルに比べて、本発明で提供される技術手段“ソフトアテンションマスク”、“融合”、及び“比較損失”は何れもモデルのF1スコアを上げることができ、そのうち、“VGG16+ソフトアテンションマスク+融合+比較損失”が表すモデルは最も高いF1スコアを有する。
【0054】
本発明の1つの側面によれば、コンピュータが実行する顔検出方法がさらに提供される。以下、
図4を参照しながら例示的に説明する。
図4は本発明の1つの実施例における顔検出方法400のフローチャートである。ステップS401では本発明の顔検出モデル訓練用の方法を用いてモデルdetMを訓練する。ステップS603では訓練後のモデルdetMを用いて処理することで検出待ち顔画像の、顔動作ユニット集合auSと関連付けられる検出結果を決定する。オプションとして、訓練が既に完了した場合、方法400はステップS403のみを含んでも良い。
【0055】
本発明の1つの実施例において、顔検出モデルを訓練するための装置がさら提供される。以下、
図5を参照しながら例示的に説明する。
図5は本発明の1つの実施例において顔検出モデルdetMを訓練するための装置500のブロック図である。モデルdetMは入力顔画像の、複数の顔動作ユニットを含む顔動作ユニット集合と関連付けられる検出結果を決定するように構成される。装置500は所定アテンションマスク決定部501及び訓練部503を含む。所定アテンションマスク決定部501は先験的知識に基づいて所定アテンションマスクを決定するように構成され、所定アテンションマスクはモデル訓練期間でアテンションマスクの真値として使用される。訓練部503はモデルdetMを反復して訓練するように構成される。反復訓練における少なくとも1つの訓練反復ループは以下の操作を含み、即ち、現在のバッチの複数のサンプル画像のグローバル特徴を抽出し;複数のサンプル画像のうちの各画像の、顔動作ユニット集合における各顔動作ユニットに対応する予測アテンションマスクを決定し;複数のサンプル画像のうちの各画像について、該画像のグローバル特徴及び該画像の、各顔動作ユニットに対応する予測アテンションマスクに基づいて、該画像の、各顔動作ユニットに対応するローカル特徴を決定し;複数のサンプル画像の、各顔動作ユニットに対応するローカル特徴に基づいて、顔動作ユニット集合と関連付けられる検出結果を決定し;検出結果に基づいて検出損失を決定し;複数のサンプル画像の各予測アテンションマスクと、対応する所定アテンションマスクとの差に基づいて、アテンション損失を決定し;及び、検出損失及びアテンション損失に関する総損失に基づいて顔検出モデルのパラメータを調整することで顔検出モデルを最適化する操作である。具体的な訓練フローについては本発明の方法100についての説明を参照できる。
【0056】
本発明の1つの実施例において、顔検出モデルを訓練するための装置がさらに提供される。以下、
図6を参照しながら例示的に説明する。
図6は本発明の1つの実施例において顔検出モデルdetMを訓練するための装置600のブロック図である。顔検出モデルは入力顔画像の、複数の顔動作ユニットを含む顔動作ユニット集合と関連付けられる検出結果を決定するために用いられ、かつ顔検出モデルはニューラルネットワークに基づいている。装置600は命令を記憶している記憶器601、及び少なくとも1つの処理器603を含み、処理器603は記憶器601に接続され、かつ記憶器601に記憶されている命令を実行して反復の方式で前記顔検出モデルを訓練するために用いられる。反復の方式で顔検出モデルを訓練する期間における少なくとも1つの訓練反復ループは以下の操作を含み、即ち、現在のバッチの複数のサンプル画像のグローバル特徴を抽出し;複数のサンプル画像のうちの各画像の、顔動作ユニット集合における各顔動作ユニットに対応する予測アテンションマスクを決定し;複数のサンプル画像のうちの各画像について、該画像のグローバル特徴及び該画像の、各顔動作ユニットに対応する予測アテンションマスクに基づいて、該画像の、各顔動作ユニットに対応するローカル特徴を決定し;複数のサンプル画像の、各顔動作ユニットに対応するローカル特徴に基づいて、顔動作ユニット集合と関連付けられる検出結果を決定し;検出結果に基づいて検出損失を決定し;複数のサンプル画像の各予測アテンションマスクと、対応する所定アテンションマスクとの差に基づいて、アテンション損失を決定し;及び、検出損失及びアテンション損失に関する総損失に基づいて顔検出モデルのパラメータを調整することで顔検出モデルを最適化する操作である。命令は方法100と対応関係がある。なお、装置600の更なる設定については本発明の方法100についての説明を参照できる。
【0057】
本発明の1つの側面によれば、プログラムを記憶しているコンピュータ可読記憶媒体がさらに提供され、実行されるときに該プログラムはコンピュータに、顔検出モデルを反復して訓練させる。顔検出モデルは入力顔画像の、複数の顔動作ユニットを含む顔動作ユニット集合と関連付けられる検出結果を決定するために用いられ、かつ顔検出モデルはニューラルネットワークに基づいている。反復訓練における少なくとも1つの訓練反復ループは以下の操作を含み、即ち、現在のバッチの複数のサンプル画像のグローバル特徴を抽出し;複数のサンプル画像のうちの各画像の、顔動作ユニット集合における各顔動作ユニットに対応する予測アテンションマスクを決定し;複数のサンプル画像のうちの各画像について、該画像のグローバル特徴及び該画像の、各顔動作ユニットに対応する予測アテンションマスクに基づいて、該画像の、各顔動作ユニットに対応するローカル特徴を決定し;複数のサンプル画像の、各顔動作ユニットに対応するローカル特徴に基づいて、顔動作ユニット集合と関連付けられる検出結果を決定し;検出結果に基づいて検出損失を決定し;複数のサンプル画像の各予測アテンションマスクと、対応する所定アテンションマスクとの差に基づいて、アテンション損失を決定し;及び、検出損失及びアテンション損失に関する総損失に基づいて顔検出モデルのパラメータを調整することで顔検出モデルを最適化する操作である。プログラムは方法100と対応関係が存在する。なお、プログラムの更なる設定については本発明の方法100についての説明を参照できる。
【0058】
本発明の1つの側面によれば、プログラムを記憶しているコンピュータ可読記憶媒体がさらに提供され、実行されるときに該プログラムはコンピュータに、次のようなことを実行させ、即ち、訓練後の顔検出モデルを用いて検出待ち顔画像の、顔動作ユニット集合auSと関連付けられる検出結果を決定し、そのうち、訓練後の顔検出モデルは本発明のモデル訓練方法100により訓練されたモデルである。
【0059】
また、上述の方法及び装置における各構成要素はソフトウェア、ファームウェア、ハードウェア又はその組み合わせの方式で構成され得る。なお、構成時に使用できる具体的な手段や方法は当業者に周知であるため、ここではその詳しい説明を省略する。ソフトウェア又はファームウェアにより実現される場合、記憶媒体やネットワークから専用ハードウェア構造を有するコンピュータ(例えば、
図7に示す情報処理機器700)に該ソフトウェアを構成するプログラムをインストールし、該コンピュータは各種のプログラムがインストールされているときに、各種の機能などを実行できる。
【0060】
また、明らかのように、本発明による方法の各操作(ステップ)のプロセスは各種のマシン可読記憶媒体に記憶されているコンピュータ実行可能なプログラムの方式で実現され得る。
【0061】
さらに、本発明の目的は次のような方式で実現されても良く、即ち、実行可能なプログラムコードを記憶している記憶媒体をシステム又は装置に直接又は間接的に提供し、該システム又は装置におけるコンピュータ又は中央処理ユニット(CPU)により上述のプログラムコードを読み取って実行する。このときに、該システム又は装置がプログラム実行可能な機能を有すれば、本発明の実施例はプログラムに限定されず、また、該プログラムは任意の形式のもの、例えば、オブジェクト指向プログラム、インタープリター実行のプログラム、OS(operating system)に提供するスクリプトプログラムなどであっても良い。
【0062】
上述のようなマシン可読記憶媒体は、各種の記憶器及び記憶ユニット、半導体デバイス、磁気、光磁気ディスクなどの磁気ディスク装置、及び情報を格納するのに適した他の媒体が含まれるが、これらに限定されない。
【0063】
また、コンピュータはインターネット上の対応するウェブサイトに接続し、本発明によるコンピュータプログラムコードをダウンロードしてコンピュータにインストールした後に該プログラムを実行することで、本発明の技術案を実現することもできる。
【0064】
本発明の1つの側面によれば、情報処理機器がさらに提供される。
【0065】
図9は本発明の一実施例における情報処理機器700の例示的なブロック図である。情報処理機器700のような構成は、本発明の実施例における方法及び/又は装置を実現し得る汎用パソコンの例示的な構成である。
【0066】
情報処理機器700は、例えば、コンピュータシステムであっても良い。なお、情報処理機器700は例示に過ぎず、本発明による方法及び装置の適用範囲又は機能について限定しない。また、情報処理機器700は、上述の方法及び装置における任意のモジュールやアセンブリなど又はその組み合わせにも依存しない。
【0067】
図7では、中央処理装置(CPU)701は、ROM702に記憶されているプログラム又は記憶部708からRAM703にロッドされているプログラムに基づいて各種の処理を行う。RAM703では、ニーズに応じて、CPU701が各種の処理を行うときに必要なデータなどを記憶することもできる。CPU701、ROM702及びRAM703は、バス704を経由して互いに接続される。入力/出力インターフェース705もバス704に接続される。
【0068】
また、入力/出力インターフェース705には、さらに、次のような部品が接続され、即ち、キーボードなどを含む入力部706、液晶表示器(LCD)などのような表示器及びスピーカーなどを含む出力部707、ハードディスクなどを含む記憶部708、ネットワーク・インターフェース・カード、例えば、LANカード、モデムなどを含む通信部709である。通信部709は、例えば、インターネット、LANなどのネットワークを経由して通信処理を行う。ドライブ710は、ニーズに応じて、入力/出力インターフェース705に接続されても良い。取り外し可能な媒体711、例えば、半導体メモリなどは、必要に応じて、ドライブ710にセットされることにより、その中から読み取られたコンピュータプログラムを記憶部708にインストールすることができる。
【0069】
また、本発明はさらに、マシン可読命令コードを含むプログラムプロダクトを提供する。このような命令コードは、マシンにより読み取られて実行されるときに、上述の本発明の実施形態における方法を実行することができる。それ相応に、このようなプログラムプロダクトをキャリー(carry)する、例えば、磁気ディスク(フロッピーディスク(登録商標)を含む)、光ディスク(CD-ROM及びDVDを含む)、光磁気ディスク(MD(登録商標)を含む)、及び半導体記憶器などの各種記憶媒体も本発明に含まれる。
【0070】
上述の記憶媒体は、例えば、磁気ディスク、光ディスク、光磁気ディスク、半導体記憶器などを含んでも良いが、これらに限定されない。
【0071】
上述の方法における各操作(処理/ステップ)は、各種のマシン可読記憶媒体に記憶されているコンピュータ実行可能なプログラムの方式で実現することもできる。
【0072】
また、以上の実施例などに関し、さらに以下のように付記として開示する。
【0073】
(付記1)
顔検出モデルを訓練するための、コンピュータが実行する方法であって、
前記顔検出モデルは入力顔画像の、複数の顔動作ユニットを含む顔動作ユニット集合と関連付けられる検出結果を決定するために用いられ、
前記方法は前記顔検出モデルに対して反復訓練を行うことを含み、
前記顔検出モデルはニューラルネットワークに基づいており、
前記反復訓練における少なくとも1つの訓練反復ループは以下の操作を含み、即ち、
現在のバッチの複数のサンプル画像のグローバル特徴を抽出し;
前記複数のサンプル画像のうちの各画像の、前記顔動作ユニット集合における各顔動作ユニットに対応する予測アテンションマスクを決定し;
前記複数のサンプル画像のうちの各画像について、該画像のグローバル特徴及び該画像の、各顔動作ユニットに対応する予測アテンションマスクに基づいて、該画像の、各顔動作ユニットに対応するローカル特徴を決定し;
前記複数のサンプル画像の、各顔動作ユニットに対応するローカル特徴に基づいて、前記顔動作ユニット集合と関連付けられる検出結果を決定し;
前記検出結果に基づいて検出損失を決定し;
前記複数のサンプル画像の各予測アテンションマスクと、対応する所定アテンションマスクとの差に基づいて、アテンション損失を決定し;及び
前記検出損失及び前記アテンション損失に関する総損失に基づいて前記顔検出モデルのパラメータを調整することで前記顔検出モデルを最適化する操作である、方法。
【0074】
(付記2)
付記1に記載の方法であって、
前記複数のサンプル画像の、各顔動作ユニットに対応するローカル特徴に基づいて、前記顔動作ユニット集合と関連付けられる検出結果を決定する操作は、
前記複数のサンプル画像の、各顔動作ユニットに対応するローカル特徴と、対応するサンプル画像のグローバル特徴との融合特徴に基づいて前記顔動作ユニット集合と関連付けられる検出結果を決定することを含む、方法。
【0075】
(付記3)
付記2に記載の方法であって、
前記複数のサンプル画像のうちの各サンプル画像の、各顔動作ユニットに対応する融合特徴は該サンプル画像の、各顔動作ユニットに対応するローカル特徴と、該サンプル画像のグローバル特徴との加重和である、方法。
【0076】
(付記4)
付記3に記載の方法であって、
前記顔検出モデルのパラメータの調整は前記加重和のための加重係数の調整を含む、方法。
【0077】
(付記5)
付記1に記載の方法であって、
前記複数のサンプル画像のうちの各画像の、前記顔動作ユニット集合における各顔動作ユニットに対応する予測アテンションマスクは前記複数のサンプル画像のうちの該画像のグローバル特徴と関連付けられる、方法。
【0078】
(付記6)
付記1に記載の方法であって、
対応する前記所定アテンションマスクは、先験的知識に基づいて決定された顔動作分割ルールに従って決定される、方法。
【0079】
(付記7)
付記6に記載の方法であって、
対応する前記所定アテンションマスクの決定は、
複数の顔ランドマークポイントを決定し;
前記複数の顔ランドマークポイントに基づいて顔領域を複数のサブ領域に分割し;及び
前記複数のサブ領域に基づいて、対応する前記所定アテンションマスクを生成することを含み、
対応する前記所定アテンションマスクのうちの各所定アテンションマスクは前記複数のサブ領域の対応する部分集合と関連付けられ、
対応する前記部分集合は先験的知識に基づいて決定される、方法。
【0080】
(付記8)
付記1に記載の方法であって、
前記顔検出モデルのパラメータの調整はアテンションマスクの平均二乗誤差の最小化に基づいてマスクニューラルネットワークのパラメータを調整することを含み、
前記アテンションマスクの平均二乗誤差は予測アテンションマスクと、対応する前記所定アテンションマスクとの間の平均二乗誤差であり、
前記マスクニューラルネットワークは各予測アテンションマスクを生成するためのニューラルネットワークである、方法。
【0081】
(付記9)
付記2に記載の方法であって、
前記総損失はさらに、複数の同一ラベル融合特徴ペア及び複数の相反ラベル融合特徴ペアに基づいて決定される比較損失に関連しており、
前記複数の同一ラベル融合特徴ペアのうちの各同一ラベル融合特徴ペアに含まれる2つの融合特徴は、前記複数のサンプル画像のうちの2つのサンプル画像の、同じ顔動作ユニットに対応する融合特徴であり、
前記複数の相反ラベル融合特徴ペアのうちの各相反ラベル融合特徴ペアに含まれる2つの融合特徴は、前記複数のサンプル画像のうちの2つのサンプル画像の、2つの相反する顔動作ユニットに対応する融合特徴である、方法。
【0082】
(付記10)
付記9に記載の方法であって、
前記総損失は前記検出損失、前記アテンション損失及び前記比較損失の加重和である、方法。
【0083】
(付記11)
付記9に記載の方法であって、
前記比較損失は第一比較損失及び第二比較損失を含み、
前記第一比較損失は、前記複数の同一ラベル融合特徴ペアのうちの各同一ラベル融合特徴ペアにおける2つの融合特徴の距離と正の相関があり、
前記第二比較損失は、所定の間隔パラメータと、前記複数の相反ラベル融合特徴ペアのうちの各相反ラベル融合特徴ペアにおける2つの融合特徴の距離との差に基づいて決定される、方法。
【0084】
(付記12)
付記1に記載の方法であって、
前記複数のサンプル画像は異なる人物の顔画像を含む、方法。
【0085】
(付記13)
顔検出方法であって、
付記1に記載の方法により訓練された顔検出モデルを用いて、検出待ち顔画像の、前記顔動作ユニット集合と関連付けられる検出結果を決定することを含む、方法。
【0086】
(付記14)
顔検出モデルを訓練するための装置であって、
命令を記憶している記憶器;及び
前記記憶器に接続される少なくとも1つの処理器を含み、
前記処理器は前記命令を実行して反復の方式で前記顔検出モデルを訓練するように構成され、
前記顔検出モデルは入力顔画像の、複数の顔動作ユニットを含む顔動作ユニット集合と関連付けられる検出結果を決定するために用いられ、
前記顔検出モデルはニューラルネットワークに基づいており、
反復の方式で前記顔検出モデルを訓練する期間における少なくとも1つの訓練反復ループは以下の操作を含み、即ち、
現在のバッチの複数のサンプル画像のグローバル特徴を抽出し;
前記複数のサンプル画像のうちの各画像の、前記顔動作ユニット集合における各顔動作ユニットに対応する予測アテンションマスクを決定し;
前記複数のサンプル画像のうちの各画像について、該画像のグローバル特徴及び該画像の、各顔動作ユニットに対応する予測アテンションマスクに基づいて、該画像の、各顔動作ユニットに対応するローカル特徴を決定し;
前記複数のサンプル画像の、各顔動作ユニットに対応するローカル特徴に基づいて前記顔動作ユニット集合と関連付けられる検出結果を決定し;
前記検出結果に基づいて検出損失を決定し;
前記複数のサンプル画像の各予測アテンションマスクと、対応する所定アテンションマスクとの差に基づいてアテンション損失を決定し;及び
前記検出損失及び前記アテンション損失に関する総損失に基づいて前記顔検出モデルのパラメータを調整することで前記顔検出モデルを最適化する操作である、装置。
【0087】
(付記15)
付記14に記載の装置であって、
前記複数のサンプル画像の、各顔動作ユニットに対応するローカル特徴に基づいて前記顔動作ユニット集合と関連付けられる検出結果を決定する操作は、
前記複数のサンプル画像の、各顔動作ユニットに対応するローカル特徴と、対応するサンプル画像のグローバル特徴との融合特徴に基づいて、前記顔動作ユニット集合と関連付けられる検出結果を決定することを含む、装置。
【0088】
(付記16)
付記15に記載の装置であって、
前記複数のサンプル画像のうちの各サンプル画像の、各顔動作ユニットに対応する融合特徴は該サンプル画像の、各顔動作ユニットに対応するローカル特徴と、該サンプル画像のグローバル特徴との加重和である、装置。
【0089】
(付記17)
付記16に記載の装置であって、
前記顔検出モデルのパラメータの調整は前記加重和のための加重係数の調整を含む、装置。
【0090】
(付記18)
付記14に記載の装置であって、
前記複数のサンプル画像のうちの各画像の、前記顔動作ユニット集合における各顔動作ユニットに対応する予測アテンションマスクは前記複数のサンプル画像のうちの該画像のグローバル特徴と関連付けられる、装置。
【0091】
(付記19)
付記14に記載の装置であって、
前記顔検出モデルのパラメータの調整はアテンションマスクの平均二乗誤差の最小化に基づいてマスクニューラルネットワークのパラメータを調整することを含み、
前記アテンションマスクの平均二乗誤差は予測アテンションマスクと、対応する前記所定アテンションマスクとの間の平均二乗誤差であり、
前記マスクニューラルネットワークは各予測アテンションマスクを生成するためのニューラルネットワークである、装置。
【0092】
(付記20)
付記14に記載の装置であって、
前記総損失はさらに、複数の同一ラベル融合特徴ペア及び複数の相反ラベル融合特徴ペアに基づいて決定される比較損失に関連しており、
前記複数の同一ラベル融合特徴ペアのうちの各同一ラベル融合特徴ペアが含む2つの融合特徴は、前記複数のサンプル画像のうちの2つのサンプル画像の、同じ顔動作ユニットに対応する融合特徴であり、
前記複数の相反ラベル融合特徴ペアのうちの各相反ラベル融合特徴ペアが含む2つの融合特徴は、前記複数のサンプル画像のうちの2つのサンプル画像の、2つの相反する顔動作ユニットに対応する融合特徴である、装置。
【0093】
以上、本発明の好ましい実施形態を説明したが、本発明はこの実施形態に限定されず、本発明の趣旨を離脱しない限り、本発明に対するあらゆる変更は、本発明の技術的範囲に属する。