特開2023-171290 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

青山学院大学 (神奈川県相模原市中央区淵野辺)

▶ 富士通株式会社の特許一覧

特開2023-171290顔検出モデルを訓練する方法と装置及び顔検出方法

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2023171290

(43)【公開日】2023-12-01

(54)【発明の名称】顔検出モデルを訓練する方法と装置及び顔検出方法

(51)【国際特許分類】

G06T 7/20 20170101AFI20231124BHJP

G06T 7/00 20170101ALI20231124BHJP

G06V 10/82 20220101ALI20231124BHJP

G06V 40/16 20220101ALI20231124BHJP

G06N 3/08 20230101ALI20231124BHJP

【ＦＩ】

G06T7/20 300B

G06T7/00 660A

G06T7/00 350C

G06V10/82

G06V40/16 B

G06N3/08

【審査請求】未請求

【請求項の数】10

【出願形態】ＯＬ

(21)【出願番号】P 2023078189

(22)【出願日】2023-05-10

(31)【優先権主張番号】202210538374.3

(32)【優先日】2022-05-18

(33)【優先権主張国・地域又は機関】CN

【公序良俗違反の表示】

（特許庁注：以下のものは登録商標）

１．ＪＡＶＡ

２．ＳＭＡＬＬＴＡＬＫ

(71)【出願人】

【識別番号】000005223

【氏名又は名称】富士通株式会社

(74)【代理人】

【識別番号】100107766

【弁理士】

【氏名又は名称】伊東忠重

(74)【代理人】

【識別番号】100070150

【弁理士】

【氏名又は名称】伊東忠彦

(72)【発明者】

【氏名】リィウ・ジョオンリン

(72)【発明者】

【氏名】シ・ズチアン

(72)【発明者】

【氏名】リィウ・リィウ

(72)【発明者】

【氏名】リィウ・ルゥジエ

(72)【発明者】

【氏名】ミイ・シャオユウ

(72)【発明者】

【氏名】村瀬健太郎

【テーマコード（参考）】

5L096

【Ｆターム（参考）】

5L096AA06

5L096CA04

5L096DA02

5L096FA09

5L096GA10

5L096HA02

5L096HA11

5L096KA04

(57)【要約】

【課題】本発明は、顔検出モデルを訓練する方法と装置及び顔検出方法を提供する。
【解決手段】かかる方法は、現在のバッチの複数のサンプル画像のグローバル特徴を抽出し；予測アテンションマスクを決定し；画像の、各顔動作ユニットに対応するローカル特徴を決定し；複数のサンプル画像の、各顔動作ユニットに対応するローカル特徴に基づいて、顔動作ユニット集合と関連付けられる検出結果を決定し；検出結果に基づいて検出損失を決定し；複数のサンプル画像の各予測アテンションマスクと、対応する所定アテンションマスクとの差に基づいて、アテンション損失を決定し；及び、総損失に基づいて顔検出モデルのパラメータを調整して顔検出モデルを最適化することを含む。
【選択図】図１

【特許請求の範囲】

【請求項1】

コンピュータが実行する、顔検出モデルを訓練するための方法であって、
前記顔検出モデルは入力顔画像の、複数の顔動作ユニットを含む顔動作ユニット集合と関連付けられる検出結果を決定するために用いられ、
前記方法は前記顔検出モデルに対して反復訓練を行うことを含み、
前記顔検出モデルはニューラルネットワークに基づいており、
前記反復訓練における少なくとも１つの訓練反復ループは、
現在のバッチの複数のサンプル画像のグローバル特徴を抽出し；
前記複数のサンプル画像のうちの各画像の、前記顔動作ユニット集合における各顔動作ユニットに対応する予測アテンションマスクを決定し；
前記複数のサンプル画像のうちの各画像について、該画像のグローバル特徴及び該画像の、各顔動作ユニットに対応する予測アテンションマスクに基づいて、該画像の、各顔動作ユニットに対応するローカル特徴を決定し；
前記複数のサンプル画像の、各顔動作ユニットに対応するローカル特徴に基づいて、前記顔動作ユニット集合と関連付けられる検出結果を決定し；
前記検出結果に基づいて検出損失を決定し；
前記複数のサンプル画像の各予測アテンションマスクと、対応する所定アテンションマスクとの差に基づいて、アテンション損失を決定し；及び
前記検出損失及び前記アテンション損失に関する総損失に基づいて前記顔検出モデルのパラメータを調整することで前記顔検出モデルを最適化する
ことを含む、方法。

【請求項2】

請求項１に記載の方法であって、
前記複数のサンプル画像の、各顔動作ユニットに対応するローカル特徴に基づいて、前記顔動作ユニット集合と関連付けられる検出結果を決定することは、
前記複数のサンプル画像の、各顔動作ユニットに対応するローカル特徴と、対応するサンプル画像のグローバル特徴との融合特徴に基づいて、前記顔動作ユニット集合と関連付けられる検出結果を決定することを含む、方法。

【請求項3】

請求項２に記載の方法であって、
前記複数のサンプル画像のうちの各サンプル画像の、各顔動作ユニットに対応する融合特徴は該サンプル画像の、各顔動作ユニットに対応するローカル特徴と、該サンプル画像のグローバル特徴との加重和である、方法。

【請求項4】

請求項３に記載の方法であって、
前記顔検出モデルのパラメータを調整することは、前記加重和のための加重係数を調整することを含む、方法。

【請求項5】

請求項１に記載の方法であって、
前記複数のサンプル画像のうちの各画像の、前記顔動作ユニット集合における各顔動作ユニットに対応する予測アテンションマスクは前記複数のサンプル画像のうちの該画像のグローバル特徴と関連付けられる、方法。

【請求項6】

請求項１に記載の方法であって、
前記顔検出モデルのパラメータを調整することはアテンションマスクの平均二乗誤差の最小化に基づいてマスクニューラルネットワークのパラメータを調整することを含み、
前記アテンションマスクの平均二乗誤差は予測アテンションマスクと、対応する前記所定アテンションマスクとの間の平均二乗誤差であり、
前記マスクニューラルネットワークは各予測アテンションマスクを生成するためのニューラルネットワークである、方法。

【請求項7】

請求項２に記載の方法であって、
前記総損失はさらに、複数の同一ラベル融合特徴ペア及び複数の相反ラベル融合特徴ペアに基づいて決定される比較損失に関連しており、
前記複数の同一ラベル融合特徴ペアのうちの各同一ラベル融合特徴ペアに含まれる２つの融合特徴は前記複数のサンプル画像のうちの２つのサンプル画像の、同じ顔動作ユニットに対応する融合特徴であり、
前記複数の相反ラベル融合特徴ペアのうちの各相反ラベル融合特徴ペアに含まれる２つの融合特徴は前記複数のサンプル画像のうちの２つのサンプル画像の、２つの相反する顔動作ユニットに対応する融合特徴である、方法。

【請求項8】

請求項７に記載の方法であって、
前記総損失は前記検出損失、前記アテンション損失及び前記比較損失の加重和である、方法。

【請求項9】

顔検出方法であって、
請求項１に記載の方法により訓練された顔検出モデルを用いて、検出待ち顔画像の、前記顔動作ユニット集合と関連付けられる検出結果を決定することを含む、顔検出方法。

【請求項10】

顔検出モデルを訓練するための装置であって、
命令を記憶している記憶器；及び
前記記憶器に接続される少なくとも１つの処理器を含み、
前記処理器は前記命令を実行して反復の方式で前記顔検出モデルを訓練するように構成され、
前記顔検出モデルは入力顔画像の、複数の顔動作ユニットを含む顔動作ユニット集合と関連付けられる検出結果を決定するために用いられ、
前記顔検出モデルはニューラルネットワークに基づいており、
反復の方式で前記顔検出モデルを訓練する期間における少なくとも１つの訓練反復ループは、
現在のバッチの複数のサンプル画像のグローバル特徴を抽出し；
前記複数のサンプル画像のうちの各画像の、前記顔動作ユニット集合における各顔動作ユニットに対応する予測アテンションマスクを決定し；
前記複数のサンプル画像のうちの各画像について、該画像のグローバル特徴及び該画像の、各顔動作ユニットに対応する予測アテンションマスクに基づいて、該画像の、各顔動作ユニットに対応するローカル特徴を決定し；
前記複数のサンプル画像の、各顔動作ユニットに対応するローカル特徴に基づいて、前記顔動作ユニット集合と関連付けられる検出結果を決定し；
前記検出結果に基づいて検出損失を決定し；
前記複数のサンプル画像の各予測アテンションマスクと、対応する所定アテンションマスクとの差に基づいて、アテンション損失を決定し；及び
前記検出損失及び前記アテンション損失に関する総損失に基づいて前記顔検出モデルのパラメータを調整することで前記顔検出モデルを最適化する
ことを含む、装置。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、情報処理の技術分野に関し、特に、顔検出モデルを訓練する方法、顔検出モデルを訓練する装置、及び顔検出方法に関する。

【背景技術】

【0002】

コンピュータサイエンス及び人工知能の発展に伴い、コンピュータを使用して人工知能モデルを実行することで情報処理を実現することは益々一般的かつ効果的になっている。入力顔画像の、複数の顔動作ユニット（アクションユニット）（ａｃｔｉｏｎｕｎｉｔｓ，ＡＵ）を含む顔動作ユニット集合と関連付けられる検出結果を決定するための顔検出モデルは人工知能の重要な研究方向であり、そのうち、各顔動作ユニットは顔（特に人間の顔）領域内の所定の局所領域の分類ラベルに対応する。

【0003】

顔表情は精神的及び感情的な状態に関する情報を伝達する主な非言語的手段である。顔動作ユニットは特定の顔筋肉に対応する動作を定義しており、人間の微細な表情（微表情ともいう）を幅広く表現できる。微表情により人間の精神状態を伝達できるので、顔動作ユニットの検出は心理学、行動、生理学研究、精神的健康評価、人間ロボットなどの面において大きな意味及び商業的な価値を持っている。顔微表情の分析では、信頼性の高い顔動作ユニット検出システムが重要である。

【0004】

顔動作ユニットは顔の局所的な微表情の変化を反映できるが、顔動作ユニットのデータのラベル付けは非常に難しいタスクである。既存の顔動作ユニットはラベルが付けされたデータが少ないため、データの多様性のニーズを満たすことができない。限られたデータに基づいて訓練された顔検出モデルは良い汎用パフォーマンスを有しない。例えば、新しいアイデンティティの顔画像（ピクチャともいう）を入力すると、このような顔検出モデルは信頼できる動作ユニットの予測結果を与えることができない場合がある。顔検出モデルのロバストネスの問題はモデルの商業的なアプリケーションに影響を及ぼす恐れがある。

【発明の概要】

【発明が解決しようとする課題】

【0005】

本発明の目的は、顔検出モデルを訓練する方法、顔検出モデルを訓練する装置、及び顔検出方法を提供することにある。

【課題を解決するための手段】

【0006】

本発明の１つの側面によれば、コンピュータが実行する、顔検出モデルを訓練するための方法が提供され、顔検出モデルは入力顔画像の、複数の顔動作ユニットを含む顔動作ユニット集合と関連付けられる検出結果を決定するために用いられ、該方法は顔検出モデルを反復して訓練することを含み、かつ顔検出モデルはニューラルネットワークに基づいている。反復訓練における少なくとも１つの訓練反復ループは以下の操作（ステップともいう）を含み、即ち、
現在のバッチの複数のサンプル画像のグローバル特徴を抽出し；
複数のサンプル画像のうちの各画像の、顔動作ユニット集合における各顔動作ユニットに対応する予測アテンションマスク（ａｔｔｅｎｔｉｏｎｍａｓｋ）を決定し；
複数のサンプル画像のうちの各画像について、該画像のグローバル特徴及び該画像の、各顔動作ユニットに対応する予測アテンションマスクに基づいて、該画像の、各顔動作ユニットに対応するローカル特徴を決定し；
複数のサンプル画像の、各顔動作ユニットに対応するローカル特徴に基づいて、顔動作ユニット集合と関連付けられる検出結果を決定し；
検出結果に基づいて検出損失を決定し；
複数のサンプル画像の各予測アテンションマスクと、対応する所定アテンションマスクとの差に基づいて、アテンション損失を決定し；及び
検出損失及びアテンション損失に関する総損失に基づいて顔検出モデルのパラメータを調整することで顔検出モデルを最適化する操作である。

【0007】

本発明の１つの側面によれば、顔検出方法が提供される。該顔検出方法は前述の方法により訓練された顔検出モデルを用いて、検出待ち顔画像の、顔動作ユニット集合と関連付けられる検出結果を決定することを含む。

【0008】

本発明の１つの側面によれば、顔検出モデルを訓練するための装置が提供され、それは、命令を記憶している記憶器；及び、前記記憶器に接続される少なくとも１つの処理器を含み、該処理器は命令を実行して反復の方式で顔検出モデルを訓練するように構成され、そのうち、顔検出モデルは入力顔画像の、複数の顔動作ユニットを含む顔動作ユニット集合と関連付けられる検出結果を決定するために用いられ、顔検出モデルはニューラルネットワークに基づいており、かつ反復の方式で顔検出モデルを訓練する期間における少なくとも１つの訓練反復ループは以下の操作を含み、即ち、
現在のバッチの複数のサンプル画像のグローバル特徴を抽出し；
複数のサンプル画像のうちの各画像の、顔動作ユニット集合における各顔動作ユニットに対応する予測アテンションマスクを決定し；
複数のサンプル画像のうちの各画像について、該画像のグローバル特徴及び該画像の、各顔動作ユニットに対応する予測アテンションマスクに基づいて、該画像の、各顔動作ユニットに対応するローカル特徴を決定し；
複数のサンプル画像の、各顔動作ユニットに対応するローカル特徴に基づいて、顔動作ユニット集合と関連付けられる検出結果を決定し；
検出結果に基づいて検出損失を決定し；
複数のサンプル画像の各予測アテンションマスクと、対応する所定アテンションマスクとの差に基づいて、アテンション損失を決定し；及び
検出損失及びアテンション損失に関する総損失に基づいて顔検出モデルのパラメータを調整することで顔検出モデルを最適化する操作である。

【0009】

本発明の１つの側面によれば、プログラムを記憶しているコンピュータ可読記憶媒体が提供される。該プログラムは実行されるときに、コンピュータに、顔検出モデルを反復して訓練させる。顔検出モデルは入力顔画像の、複数の顔動作ユニットを含む顔動作ユニット集合と関連付けられる検出結果を決定するために用いられ、かつ顔検出モデルはニューラルネットワークに基づいている。反復訓練における少なくとも１つの訓練反復ループは以下の操作を含み、即ち、
現在のバッチの複数のサンプル画像のグローバル特徴を抽出し；
複数のサンプル画像のうちの各画像の、顔動作ユニット集合における各顔動作ユニットに対応する予測アテンションマスクを決定し；
複数のサンプル画像のうちの各画像について、該画像のグローバル特徴及び該画像の、各顔動作ユニットに対応する予測アテンションマスクに基づいて、該画像の、各顔動作ユニットに対応するローカル特徴を決定し；
複数のサンプル画像の、各顔動作ユニットに対応するローカル特徴に基づいて、顔動作ユニット集合と関連付けられる検出結果を決定し；
検出結果に基づいて検出損失を決定し；
複数のサンプル画像の各予測アテンションマスクと、対応する所定アテンションマスクとの差に基づいて、アテンション損失を決定し；及び
検出損失及びアテンション損失に関する総損失に基づいて顔検出モデルのパラメータを調整することで顔検出モデルを最適化する操作である。

【発明の効果】

【0010】

本発明によれば、少なくとも、モデルの精度及びロバストネスを向上させることができる。

【図面の簡単な説明】

【0011】

【図1】本発明の実施例において顔検出モデルを訓練するための方法のフローチャートである。

【図2】本発明の実施例における例示的な所定アテンションマスクのパターンを示す図である。

【図3】本発明の実施例における訓練期間での顔検出モデルの操作を示す図である。

【図4】本発明の実施例における顔検出方法のフローチャートである。

【図5】本発明の実施例において顔検出モデルを訓練するための装置のブロック図である。

【図6】本発明の実施例において顔検出モデルを訓練するための装置のブロック図である。

【図7】本発明の実施例における情報処理機器のブロック図である。

【発明を実施するための形態】

【0012】

以下、添付した図面を参照しながら、本発明を実施するための好適な実施例を詳細に説明する。なお、以下の実施例は例示に過ぎず、本発明を限定するものではない。

【0013】

本発明の実施例の各側面における操作を実行するためのコンピュータプログラムコードは１つ又は複数のプログラム設計言語の任意の組み合わせにより書かれて良い。前記プログラム設計言語はオブジェクト指向型プログラム設計言語、例えば、Ｊａｖａ、Ｓｍａｌｌｔａｌｋ、Ｃ＋＋などを含んでも良く、また、通常の手続き型プログラム設計言語、例えば、Ｃプログラム設計言語又は類似したプログラム設計言語をも含んでも良い。

【0014】

本発明の方法は対応する機能の設定を有する回路により実現されても良い。前記回路は処理器用の回路を含み得る。

【0015】

本発明の１つの側面によれば、顔検出モデルｄｅｔＭを訓練するための方法が提供される。該方法はコンピュータにより実現されても良い。モデルｄｅｔＭはニューラルネットワークに基づくモデルであっても良い。顔検出モデルｄｅｔＭは入力顔画像の、複数の顔動作ユニット（そのうちの任意の１つの顔動作ユニットがＡＵ［ｉ］で表され、ｉ∈［ｉＳｔａｒｔ，ｉＥｎｄ］である）を含む顔動作ユニット集合ａｕＳと関連付けられる検出結果を決定するために用いられる。該方法はモデルのロバストネス及び正確さ（精度）を向上させることができる。モデルｄｅｔＭは人間の表情、微表情、精神状態、情緒（感情）などを決定するシナリオに用いることができる。例えば、モデルｄｅｔＭは老人ホームにおける高齢者の体調を監視し、表情分析を通じて高齢者の精神状態や体調をタイムリーに反映するために用いられ得る。精神医学の面においては、例えば、パーキンソン病患者の場合、表情を通じて治療後の患者の回復状況などを分析でき、そのうち、表情はモデルｄｅｔＭにより決定され得る。図１は本発明の１つの実施例においてモデルｄｅｔＭを訓練するための方法１００のフローチャートである。以下、図１を参照しながら本発明のモデル訓練方法について例示的に説明する。

【0016】

モデルｄｅｔＭは入力顔画像Ｉｍ［ｎ］の、複数の顔動作ユニット、即ち、ＡＵ［ｉＳｔａｒｔ］乃至ＡＵ［ｉＥｎｄ］を含む顔動作ユニット集合ａｕＳと関連付けられる検出結果Ｒｄ［ｎ］を決定するために用いられ得る。方法１００は顔検出モデルｄｅｔＭに対しての反復訓練を含む。モデルｄｅｔＭを訓練するための総訓練サンプル集合Ｓｔには複数のサンプル画像が含まれる。各サンプル画像はラベルが付けられており、その中の各局所領域の属する動作類型については対応する顔動作ユニットを用いてラベル標識としており、これらの標識は標識情報を構成する。訓練期間では、サンプル画像Ｉｍ［ｎ］をモデルｄｅｔＭに入力し、モデルｄｅｔＭは画像Ｉｍ［ｎ］を処理して検出結果Ｒｄ［ｎ］を出力する。モデルｄｅｔＭが与えた該サンプル画像の検出結果Ｒｄ［ｎ］及び該サンプル画像の標識情報に基づいてモデルのパラメータを調整することでモデルを最適化でき、これによって、モデルのパフォーマンスを次第に向上させ、ひいては安定させることができる。モデルｄｅｔＭは関心領域ベースの畳み込みネットワーク（ＲＯＩ－ｂａｓｅｄＣＮＮ）の特徴抽出器を用いて顔動作ユニットの特徴を抽出できる。１つの例示的な訓練反復ループにおいて、方法１００は図１に示すフローを含む。

【0017】

ステップＳ１０１では現在のバッチの複数のサンプル画像Ｉｍ［１］乃至Ｉｍ［Ｎ］のグローバル特徴Ｆ［１］乃至Ｆ［Ｎ］を抽出し、そのうちの任意の１つの画像がＩｍ［ｎ］で表される。１つの例において、畳み込みネットワークに基づくグローバル特徴抽出器ＥｘｔｒａＦを使用してグローバル特徴を抽出できる。例えば、ＶＧＧ（ＶｉｓｕａｌＧｅｏｍｅｔｒｙＧｒｏｕｐ）ネットワークを採用してグローバル特徴を抽出できるが、他の一般的なネットワーク構造を採用しても良い。総訓練サンプル集合Ｓｔにおける画像を複数の組に分けることができ、各訓練反復ループでは１組のサンプル画像を現在の訓練反復ループにおける複数のサンプル画像として用いて訓練を行うことができる。複数のサンプル画像は好ましくは異なる人物の顔画像を含む。

【0018】

ステップＳ１０３では複数のサンプル画像のうちの各画像Ｉｍ［ｎ］の、顔動作ユニット集合ａｕＳにおける各顔動作ユニットＡＵ［ｉ］に対応する予測アテンションマスクＭｐ［ｎ］［ｉ］を決定する。１つの例において、ニューラルネットワークを使用して各予測アテンションマスクを決定でき、該ニューラルネットワークは“マスクニューラルネットワークＮＮｍ＿ｉ”と記される。例えば、顔動作ユニット集合ａｕＳに２４個（例えば、ｉＳｔａｒｔ＝１、ｉＥｎｄ＝２４）の顔動作ユニットＡＵ［ｉ］があるときに、２４個の畳み込みネットワークを設定して２４個の顔動作ユニットに対応する２４個の予測アテンションマスクを生成できる。マスクニューラルネットワークＮＮｍ＿ｉは画像Ｉｍ［ｎ］のグローバル特徴Ｆ［ｎ］に基づいて、顔動作ユニットＡＵ［ｉ］に対応する予測アテンションマスクＭｐ［ｎ］［ｉ］を決定する。即ち、予測アテンションマスクＭｐ［ｎ］［ｉ］は複数のサンプル画像のうちの画像Ｉｍ［ｎ］のグローバル特徴Ｆ［ｎ］と関連付けられる。本発明における各顔動作ユニットのアテンションマスクは固定したものではなく、入力画像に基づいて変化する（又は決まる）ので、本発明における各顔動作ユニットのアテンションマスクは“ソフトアテンションマスク”とも称される。

【0019】

ステップＳ１０５では複数のサンプル画像のうちの各画像Ｉｍ［ｎ］について、該画像のグローバル特徴Ｆ［ｎ］及び該画像の、各顔動作ユニットＡＵ［ｉ］に対応する予測アテンションマスクＭｐ［ｎ］［ｉ］に基づいて、該画像の、各顔動作ユニットに対応するローカル特徴ｆ［ｎ］［ｉ］を決定する。例えば、顔動作ユニット集合ａｕＳが２４個の顔動作ユニットを有するときに、本ステップでは画像Ｉｍ［ｎ］の２４個のローカル特徴、即ち、ｆ［ｎ］［１］乃至ｆ［ｎ］［２４］を決定できる。グローバル特徴Ｆ［ｎ］及び予測アテンションマスクＭｐ［ｎ］［ｉ］に基づいてローカル特徴ｆ［ｎ］［ｉ］を決定するユニット（手段）はローカル特徴生成器ＧｅｎＦＬ［ｉ］と記される。ローカル特徴ｆ［ｎ］［ｉ］は以下の式（１）により決定され得る。

【0020】

ｆ［ｎ］［ｉ］＝Ｆ［ｎ］＊Ｍｐ［ｎ］［ｉ］（１）
ステップＳ１０７では複数のサンプル画像の、各顔動作ユニットに対応するローカル特徴、即ち、ｆ［ｎ］［ｉＳｔａｒｔ］乃至ｆ［ｎ］［ｉＥｎｄ］に基づいて、顔動作ユニット集合ａｕＳと関連付けられる検出結果ＲＤを決定する。例えば、現在のバッチのサンプル画像の数がＮである場合、本ステップで得られる検出結果はＮ個のサンプル画像に対応するＮ個の顔検出結果、即ち、Ｒｄ［１］乃至Ｒｄ［Ｎ］を含む。各顔検出結果Ｒｄ［ｎ］は、対応する顔画像についての、顔動作ユニット集合ａｕＳに関する動作ユニットの予測結果を指示し、ｎ∈［１，Ｎ］であり、例えば、各顔動作ユニットを検出する確率からなる１次元アレイ（ａｕｐ［ｎ］［ｉＳｔａｒｔ］，……，ａｕｐ［ｎ］［ｉＥｎｄ］）である。１つの例において、分類畳み込みニューラルネットワークを使用して、各顔動作ユニットＡＵ［ｉ］についての確率ａｕｐ［ｎ］［ｉ］を決定でき、該分類ニューラルネットワークは“ＮＮｃ＿ｉ”と記され、顔動作ユニットＡＵ［ｉ］についての顔動作ユニット分類器と呼ばれても良い。

【0021】

ステップＳ１０９では検出結果ＲＤに基づいて検出損失Ｌａｕを決定する。検出損失Ｌａｕは各サンプル画像に対応する顔検出結果Ｒｄ［ｎ］とその標識情報とを比較することで決定され得る。サンプル画像Ｉｍ［ｎ］の標識情報は例えば、画像Ｉｍ［ｎ］に各顔動作ユニットＡＵ［ｉ］が出現したかを示している。

【0022】

ステップＳ１１１では複数のサンプル画像の各予測アテンションマスクＭｐ［ｎ］［ｉ］と、対応する所定アテンションマスクＭｔ［ｉ］との差に基づいて、アテンション損失Ｌａｔｔを決定し、そのうち、ｉは［ｉＳｔａｒｔ，ｉＥｎｄ］の範囲内の任意の整数である。

【0023】

ステップＳ１１３では検出損失Ｌａｕ及びアテンション損失Ｌａｔｔに関する総損失Ｌｔｏｔａｌに基づいて顔検出モデルのパラメータを調整することで顔検出モデルｄｅｔＭを最適化する。

【0024】

方法１００を反復して実行することで、モデルｄｅｔＭを次第に最適化する目的を達成でき、そのうち、次の反復ループにおいて、その1つ前の反復ループで決定されたモデルをもとに訓練を行う。訓練終了の条件は例えば、訓練が所定の回数に達しており、総損失関数が収斂（収束）しており、総損失関数が十分に小さくなっているなどであっても良い。

【0025】

ローカル特徴のみを使用して顔画像の動作ユニットのラベルを決定できるが、ローカル特徴は顔の局所領域の情報しか反映できず、これは分類の正確さを制限する可能性がある。１つの実施例において、複数のサンプル画像の、各顔動作ユニットに対応するローカル特徴に基づいて、顔動作ユニット集合ａｕＳと関連付けられる検出結果を決定することは、複数のサンプル画像の、各顔動作ユニットに対応するローカル特徴ｆ［ｎ］［ｉ］と、対応するサンプル画像のグローバル特徴Ｆ［ｎ］との融合特徴Ｆｆ［ｎ］［ｉ］に基づいて、顔動作ユニット集合ａｕＳと関連付けられる検出結果を決定することを含む。１つの例において、サンプル画像Ｉｍ［ｎ］の、各顔動作ユニットＡＵ［ｉ］に対応する融合特徴Ｆｆ［ｎ］［ｉ］は該サンプル画像の、各顔動作ユニットに対応するローカル特徴ｆ［ｎ］［ｉ］と、該サンプル画像のグローバル特徴Ｆ［ｎ］との加重和（ｗｅｉｇｈｔｅｄｓｕｍ）である。融合特徴Ｆｆ［ｎ］［ｉ］は以下の式（２）により決定され得る。

【0026】

Ｆｆ［ｎ］［ｉ］＝ｆ［ｎ］［ｉ］＋α［ｉ］＊Ｆ［ｎ］＊（１－Ｍｐ［ｎ］［ｉ］）（２）
そのうち、α［ｉ］はグローバル特徴Ｆ［ｎ］とローカル特徴ｆ［ｎ］［ｉ］とを融合するための加重係数（Ｗｅｉｇｈｔｉｎｇｃｏｅｆｆｉｃｉｅｎｔ）であり、その好ましい値はモデル訓練過程で次第に決定され得る。即ち、顔検出モデルｄｅｔＭのパラメータの調整は前記加重和のための加重係数α［ｉ］の調整を含む。融合特徴生成器ＧｅｎＦｆ＿ｉにより式（２）に基づいて融合特徴Ｆｆ［ｎ］［ｉ］を生成できる。α［ｉ］はローカル特徴の局限性（制限）を避けるために、ソフトアテンションマスク以外の特徴を融合するために用いられる。

【0027】

１つの実施例において、対応する所定アテンションマスクＭｔ［ｉ］は先験的知識に基づいて決定された顔動作分割ルールに従って決定される。対応する所定アテンションマスクの決定は、複数の顔ランドマークポイントＬｍ［ｋＳｔａｒｔ］乃至Ｌｍ［ｋＥｎｄ］を決定し；複数の顔ランドマークポイントに基づいて、顔領域を複数のサブ領域Ｒｓ［ｍＳｔａｒｔ］乃至Ｒｓ［ｍＥｎｄ］に分割し；及び、複数のサブ領域に基づいて、対応する所定アテンションマスクＭｔ［ｉＳｔａｒｔ］乃至Ｍｔ［ｉＥｎｄ］を生成することを含む。そのうち、対応する所定アテンションマスクのうちの各所定アテンションマスクＭｔ［ｉ］は複数のサブ領域の対応する部分集合と関連付けられ、かつ対応する部分集合は先験的知識に基づいて決定される。１つの例において、顔ランドマークポイントの数は６８である。顔ランドマークポイントの位置は通常の画像検出により得ることができる。サブ領域は複数の顔ランドマークポイントのうちの一部のランドマークポイントを接続することで包囲される領域である。１つの例において、サブ領域の数は４５である。１つの例において、所定アテンションマスクの数は２４であり、顔動作ユニットの数と同じであり、１つの顔動作ユニットＡＵ［ｉ］が１つの所定アテンションマスクＭｔ［ｉ］に対応し、１つの所定アテンションマスクＭｔ［ｉ］が所定の局所の顔関心領域Ｒｆ［ｉ］に対応し、該所定の顔関心領域は１つのサブ領域であっても良く、複数のサブ領域の組み合わせであっても良い。１つの所定アテンションマスクＭｔ［ｉ］が所定のマスクパターンＭｐ［ｉ］に対応する。図２は、ｉＥｎｄ＝２４（即ち、顔動作ユニット集合ａｕＳは２４個の顔動作ユニットを有する）の場合の例示的な所定アテンションマスクのパターンを示しており、そのうち、Ｍｐの列における各矩形パターンはマスクパターンである。Ｍｐの列における各パターンの中の白い色の領域は該マスクを用いて顔画像の局所領域の情報を抽出するときの局所領域に対応する。Ｍｔ［ｉ］は顔画像のグローバル特徴Ｆから、対応する動作ユニットＡＵ［ｉ］のローカル特徴ｆ［ｉ］を抽出するために用いられ得る。図２のＲｆの列における各画像の中のｌｉｇｈｔ－ｃｏｌｏｒの領域は顔関心領域であり、それは顔動作ユニットと対応関係を有する。Ｒｆの列における各画像はさらに４８個のサブ領域の分布を示している。所定アテンションマスクは先験的規則（ルール）に従って決定された後に、アテンションマスクの真値として使用されることで、アテンション損失Ｌａｔｔを計算できる。１回目の反復訓練ループの前に所定アテンションマスクを決定するステップを実行しても良く、これによって、訓練期間ではアテンション損失Ｌａｔｔを決定できる。

【0028】

訓練期間で実行される操作をより良く理解するために、以下、図３を参照しながら顔検出モデルｄｅｔＭの訓練期間での操作について例示的に説明する。図３は本発明の１つの実施例における訓練期間での顔検出モデルｄｅｔＭの操作を示す図であり、その中には、便宜のため、１つのみのサンプル画像Ｉｍ［ｎ］が入力される操作の場合を示しており、また、顔動作ユニット集合ａｕＳが２４個の顔動作ユニット（即ち、ｉＳｔａｒｔ＝１、ｉＥｎｄ＝２４）を含むことを例としている。グローバル特徴抽出器ＥｘｔｒａＦは入力サンプル画像Ｉｍ［ｎ］のグローバル特徴Ｆ［ｎ］を抽出し、即ち、顔画像全体のグローバル特徴を抽出する。顔動作ユニットの検出がマルチラベル分類タスクに属するので、ｉＥｎｄ－ｉＳｔａｒｔ＋１個の顔動作ユニットの検出の場合、ｉＥｎｄ－ｉＳｔａｒｔ＋１個の特徴抽出器、即ち、Ｅｘｔｒａｃｔｏｒ＿ｉＳｔａｒｔ乃至Ｅｘｔｒａｃｔｏｒ＿ｉＥｎｄを使用する。各特徴抽出器Ｅｘｔｒａｃｔｏｒ＿ｉはマスクニューラルネットワークＮＮｍ＿ｉ、ローカル特徴生成器ＧｅｎＦＬ＿ｉ、及び融合特徴生成器ＧｅｎＦｆ＿ｉを含み、ｉ∈［１，２４］である。グローバル特徴Ｆ［ｎ］をそれぞれｉＥｎｄ－ｉＳｔａｒｔ＋１個の特徴抽出器Ｅｘｔｒａｃｔｏｒ＿ｉに入力することで、顔動作ユニットＡＵ［ｉ］に対応する分類特徴、即ち、融合特徴Ｆｆ［ｎ］［ｉ］を抽出する。マスクニューラルネットワークＮＮｍ＿ｉはグローバル特徴Ｆ［ｎ］を受け取り、予測アテンションマスクＭｐ［ｎ］［ｉ］を出力する。図３に示すように、マスクニューラルネットワークＮＮｍ＿ｉにおける畳み込みネットワークが出力する特徴は例示的なＳｉｇｍｏｉｄ関数（図中では“σ”で表される）の変換を経た後に、予測アテンションマスクＭｐ［ｎ］［ｉ］は得ることができる。ローカル特徴生成器ＧｅｎＦＬ＿ｉは式（１）に示すアルゴリズムに従ってローカル特徴ｆ［ｎ］［ｉ］を生成する。融合特徴生成器ＧｅｎＦｆ＿ｉは式（２）に示すアルゴリズムに従って融合特徴Ｆｆ［ｎ］［ｉ］を生成する。分類ニューラルネットワークＮＮｃ＿ｉは融合特徴Ｆｆ［ｎ］［ｉ］に基づいて、顔動作ユニットＡＵ［ｉ］に対応する確率ａｕｐ［ｎ］［ｉ］を生成する。すべての顔動作ユニットの確率の組み合わせは顔検出結果Ｒｄ［ｎ］である。

【0029】

以下、アテンション損失についてさらに説明する。

【0030】

現在のバッチの複数のサンプル画像のアテンション損失Ｌａｔｔは以下の式（３）で表すことができる。

【0031】

【数1】

ここで、Ｎは現在のバッチのサンプル画像の数であり、ＭＳＥ（Ｍｐ［ｎ］［ｉ］－Ｍｔ［ｉ］）はｉがｉＳｔａｒｔからｉＥｎｄに変化する場合、予測アテンションマスクと、対応する所定アテンションマスクとの間の平均二乗誤差（ＭＳＥ：ＭｅａｎＳｑｕａｒｅＥｒｒｏｒ）、即ち、アテンションマスクに関して、予測値と真値との間の平均二乗誤差であり、そのうち、平均を求めるときに、分母は動作ユニットの数である。

【0032】

予測アテンションマスクＭｐ［ｎ］［ｉ］は以下の式（４）で表すことができる。

【0033】

Ｍｐ［ｎ］［ｉ］＝ＮＮｍ＿ｉ（Ｆ［ｎ］；θ）（４）
ここで、θはマスクニューラルネットワークＮＮｍ＿ｉのパラメータを表す。

【0034】

以下の式（５）を参照し、訓練期間では例えば、アテンションマスクの平均二乗誤差の最小化に基づいてマスクニューラルネットワークのパラメータを調整でき、そのうち、アテンションマスクの平均二乗誤差は予測アテンションマスクと、対応する所定アテンションマスクとの間の平均二乗誤差である。

【0035】

【数2】

モデル訓練過程ではマスクニューラルネットワークのパラメータを調整することで、ネットワークに、顔動作ユニットの領域の先験的知識を学習させることできる。

【0036】

なお、本発明のアテンション損失の決定方式は上述の決定方式を含むが、それに限定されない。

【0037】

以下、検出損失についてさらに説明する。

【0038】

現在のバッチの複数のサンプル画像の検出損失Ｌａｕは式（６）に示す交差エントロピー（ＣｒｏｓｓＥｎｔｒｏｐｙ）損失関数として表すことができる。

【0039】

【数3】

ここで、Ｎは現在のバッチのサンプル画像の数であり、ｉＥｎｄ－ｉＳｔａｒｔ＋１は顔動作ユニット集合における顔動作ユニットの数であり、ｐ_ｎ，ｉは画像Ｉｍ（ｎ）の、顔動作ユニットＡＵ［ｉ］に対応する真値であり、ｐ′_ｎ，ｉは顔動作ユニットＡＵ［ｉ］に対応する予測値であり、ｐ′_ｎ，ｉは検出結果から得ることができる。

【0040】

なお、本発明の検出損失の決定方式は上述の決定方式を含むが、それに限定されない。

【0041】

以下、総損失についてさらに説明する。

【0042】

１つの実施例において、総損失Ｌｔｏｔａｌはさらに、複数の同一ラベル融合特徴ペア及び複数の相反ラベル融合特徴ペアに基づいて決定される比較損失Ｌｃｍｐに関連している。複数の同一ラベル融合特徴ペアのうちの各同一ラベル融合特徴ペアに含まれる２つの融合特徴は、複数のサンプル画像のうちの２つのサンプル画像の、同じ（同一）顔動作ユニットに対応する融合特徴である。複数の相反ラベル融合特徴ペアのうちの各相反ラベル融合特徴ペアに含まれる２つの融合特徴は、複数のサンプル画像のうちの２つのサンプル画像の、２つの相反する顔動作ユニットに対応する融合特徴である。例えば、「関心領域が左口角であり、かつ左口角が上がる（微笑み）」に対応する顔動作ユニットＡＵ［ｉ０ｐ］について、顔画像Ｉｍ１内の該左口角領域に対応する顔動作ユニットのラベルがＡＵ［ｉ０ｐ］であり、かつ該左口角領域について生成される融合特徴がＦｆ［１］［ｉ０ｐ］であり、また、顔画像Ｉｍ２内の該左口角領域に対応する顔動作ユニットのラベルもＡＵ［ｉ０ｐ］であり、かつ該左口角領域について生成される融合特徴がＦｆ［２］［ｉ０ｐ］である場合、融合特徴Ｆｆ［１］［ｉ０ｐ］及びＦｆ［２］［ｉ０ｐ］は同一ラベル融合特徴ペアを構成する。また、例えば、顔画像Ｉｍ１内の該左口角領域に対応する顔動作ユニットのラベルがＡＵ［ｉ０ｐ］であり、かつ該左口角領域について生成される融合特徴がＦｆ［１］［ｉ０ｐ］であり、また、顔画像Ｉｍ２内の左口角が下がり（怒っている）、該左口角領域に対応する顔動作ユニットのラベルがＡＵ［ｉ０ｎ］であり（それはＡＵ［ｉ０ｐ］と相反する表情又は動作を表す）、かつ該左口角領域について生成される融合特徴がＦｆ［２］［ｉ０ｎ］である場合、融合特徴Ｆｆ［１］［ｉ０ｐ］及びＦｆ［２］［ｉ０ｎ］は相反ラベル融合特徴ペアを構成する。相反ラベル融合特徴ペアは同一の人物の顔画像からのものであっても良く、異なる人物の顔画像であっても良い。同一ラベル融合特徴ペアは同一の人物の顔画像からのものであっても良く、異なる人物の顔画像であっても良い。

【0043】

１つの例において、比較損失は第一比較損失及び第二比較損失を含む。第一比較損失は複数の同一ラベル融合特徴ペアのうちの各同一ラベル融合特徴ペアにおける２つの融合特徴の距離と正の相関があり、また、第二比較損失は所定の間隔パラメータと、複数の相反ラベル融合特徴ペアのうちの各相反ラベル融合特徴ペアにおける２つの融合特徴の距離との差に基づいて決定される。

【0044】

例示的に、比較損失Ｌｃｍｐは以下の式（７）に従って決定されても良い。

【0045】

【数4】

ここで、ｃは顔動作ユニット集合ａｕＳにおける顔動作ユニットの数であり、｜Ｐ_ｓ ^ｉ｜は現在のバッチの複数のサンプル画像の融合特徴において構築される同一ラベル融合特徴ペアの数であり、｜Ｐ_Ｏ ^ｉ｜は現在のバッチの複数のサンプル画像の融合特徴において構築される相反ラベル融合特徴ペアの数であり、

【0046】

【数5】

は融合特徴ペアにおける２つの融合特徴の間の距離を表し、下付き文字“２”はＬ２ノルムを表し、ｍは間隔パラメータであり、例えば、該パラメータの値は１と設定される。

【0047】

１つの例において、以下の式（８）の示すように、総損失は検出損失、アテンション損失及び比較損失の加重和である。

【0048】

Ｌｔｏｔａｌ＝Ｌａｕ＋λ_１Ｌａｔｔ＋λ_２Ｌｃｍｐ（８）
ここで、λ_１及びλ_２は加重係数である。

【0049】

ローカル特徴とグローバル特徴との融合を行い、融合特徴を用いて顔動作ユニットの分類を行う。これはローカル特徴の局限性（制限）を避け、分類の正確さ（精度）を向上させることができる。

【0050】

同一ラベル融合特徴ペア及び相反ラベル融合特徴ペアを用いて比較学習を行うことで、生成される同類の顔動作ユニットの融合特徴が近くなるようにさせ、また、生成される相反類の顔動作ユニットの融合特徴が遠くなるようにさせることができため、モデルのロバストネスを向上させ、顔のアイデンティティ、姿勢、照明などの影響を低減できる。

【0051】

ソフトアテンションマスクの使用はモデルロバストネス及び正確さの向上（改善）にも有利である。

【0052】

表１は異なる顔検出モデルのＦ１スコアの比較を示しており、そのうち、使用されるデータ集合はＢＰ４Ｄである。

【0053】

【表1】

＜参考文献＞
［１］Ｚ．Ｓｈａｏ，Ｚ．Ｌｉｕ，Ｊ．Ｃａｉ，Ｙ．Ｗｕ，ａｎｄＬ．Ｍａ．Ｆａｃｉａｌａｃｔｉｏｎｕｎｉｔｄｅｔｅｃｔｉｏｎｕｓｉｎｇａｔｔｅｎｔｉｏｎａｎｄｒｅｌａｔｉｏｎｌｅａｒｎｉｎｇ．ＩＥＥＥＴｒａｎｓａｃｔｉｏｎｓｏｎＡｆｆｅｃｔｉｖｅＣｏｍｐｕｔｉｎｇ，２０１９．
［２］Ｚ．Ｓｈａｏ，Ｚ．Ｌｉｕ，Ｊ．Ｃａｉ，ａｎｄ
（外1）

：Ｊｏｉｎｔｆａｃｉａｌａｃｔｉｏｎｕｎｉｔｄｅ
ｔｅｃｔｉｏｎａｎｄｆａｃｅａｌｉｇｎｍｅｎｔｖｉａａｄａｐｔｉｖｅ
ａｔｔｅｎｔｉｏｎ．ＩｎｔｅｒｎａｔｉｏｎａｌＪｏｕｒｎａｌｏｆＣｏｍｐｕｔｅｒＶｉｓｉｏｎ，１２９：１－２０，０２２０２１．
［３］Ｙ．Ｃｈｅｎ，Ｇ．Ｓｏｎｇ，Ｚ．Ｓｈａｏ，Ｊ．Ｃａｉ，Ｔ．－Ｊ．Ｃｈａｍ，ａｎｄＪ．Ｚｈｅｎｇ．Ｇｅｏｃｏｎｖ：Ｇｅｏｄｅｓｉｃｇｕｉｄｅｄｃｏｎｖｏｌｕｔｉｏｎｆｏｒｆａｃｉａｌａｃｔｉｏｎｕｎｉｔｒｅｃｏｇｎｉｔｉｏｎ，２０２０．
表１では、“ＶＧＧ１６”は顔検出モデルが基本ＶＧＧ１６ネットワークアーキテクチャであることを表し；“ＶＧＧ１６＋ソフトアテンションマスク”は顔検出モデルが基本ＶＧＧ１６ネットワークアーキテクチャをもとに調整された、本発明で提供される“ソフトアテンションマスク”を使用してローカル特徴を生成するモデルであることを表し、該モデルはローカル特徴を用いて顔動作ユニットの分類を行い；“ＶＧＧ１６＋ソフトアテンションマスク＋融合”は顔検出モデルが１つ前のモデルをもとに調整された、本発明で提供される“融合特徴”を使用して顔動作ユニットの分類を行うモデルであることを表しり；“ＶＧＧ１６＋ソフトアテンションマスク＋融合＋比較損失”は顔検出モデルが１つ前のモデルをもとに調整された、訓練時に本発明で提供される“比較損失”を使用するモデルであることを表す。表１から分かるように、基本ＶＧＧ１６モデルに比べて、本発明で提供される技術手段“ソフトアテンションマスク”、“融合”、及び“比較損失”は何れもモデルのＦ１スコアを上げることができ、そのうち、“ＶＧＧ１６＋ソフトアテンションマスク＋融合＋比較損失”が表すモデルは最も高いＦ１スコアを有する。

【0054】

本発明の１つの側面によれば、コンピュータが実行する顔検出方法がさらに提供される。以下、図４を参照しながら例示的に説明する。図４は本発明の１つの実施例における顔検出方法４００のフローチャートである。ステップＳ４０１では本発明の顔検出モデル訓練用の方法を用いてモデルｄｅｔＭを訓練する。ステップＳ６０３では訓練後のモデルｄｅｔＭを用いて処理することで検出待ち顔画像の、顔動作ユニット集合ａｕＳと関連付けられる検出結果を決定する。オプションとして、訓練が既に完了した場合、方法４００はステップＳ４０３のみを含んでも良い。

【0055】

本発明の１つの実施例において、顔検出モデルを訓練するための装置がさら提供される。以下、図５を参照しながら例示的に説明する。図５は本発明の１つの実施例において顔検出モデルｄｅｔＭを訓練するための装置５００のブロック図である。モデルｄｅｔＭは入力顔画像の、複数の顔動作ユニットを含む顔動作ユニット集合と関連付けられる検出結果を決定するように構成される。装置５００は所定アテンションマスク決定部５０１及び訓練部５０３を含む。所定アテンションマスク決定部５０１は先験的知識に基づいて所定アテンションマスクを決定するように構成され、所定アテンションマスクはモデル訓練期間でアテンションマスクの真値として使用される。訓練部５０３はモデルｄｅｔＭを反復して訓練するように構成される。反復訓練における少なくとも１つの訓練反復ループは以下の操作を含み、即ち、現在のバッチの複数のサンプル画像のグローバル特徴を抽出し；複数のサンプル画像のうちの各画像の、顔動作ユニット集合における各顔動作ユニットに対応する予測アテンションマスクを決定し；複数のサンプル画像のうちの各画像について、該画像のグローバル特徴及び該画像の、各顔動作ユニットに対応する予測アテンションマスクに基づいて、該画像の、各顔動作ユニットに対応するローカル特徴を決定し；複数のサンプル画像の、各顔動作ユニットに対応するローカル特徴に基づいて、顔動作ユニット集合と関連付けられる検出結果を決定し；検出結果に基づいて検出損失を決定し；複数のサンプル画像の各予測アテンションマスクと、対応する所定アテンションマスクとの差に基づいて、アテンション損失を決定し；及び、検出損失及びアテンション損失に関する総損失に基づいて顔検出モデルのパラメータを調整することで顔検出モデルを最適化する操作である。具体的な訓練フローについては本発明の方法１００についての説明を参照できる。

【0056】

本発明の１つの実施例において、顔検出モデルを訓練するための装置がさらに提供される。以下、図６を参照しながら例示的に説明する。図６は本発明の１つの実施例において顔検出モデルｄｅｔＭを訓練するための装置６００のブロック図である。顔検出モデルは入力顔画像の、複数の顔動作ユニットを含む顔動作ユニット集合と関連付けられる検出結果を決定するために用いられ、かつ顔検出モデルはニューラルネットワークに基づいている。装置６００は命令を記憶している記憶器６０１、及び少なくとも１つの処理器６０３を含み、処理器６０３は記憶器６０１に接続され、かつ記憶器６０１に記憶されている命令を実行して反復の方式で前記顔検出モデルを訓練するために用いられる。反復の方式で顔検出モデルを訓練する期間における少なくとも１つの訓練反復ループは以下の操作を含み、即ち、現在のバッチの複数のサンプル画像のグローバル特徴を抽出し；複数のサンプル画像のうちの各画像の、顔動作ユニット集合における各顔動作ユニットに対応する予測アテンションマスクを決定し；複数のサンプル画像のうちの各画像について、該画像のグローバル特徴及び該画像の、各顔動作ユニットに対応する予測アテンションマスクに基づいて、該画像の、各顔動作ユニットに対応するローカル特徴を決定し；複数のサンプル画像の、各顔動作ユニットに対応するローカル特徴に基づいて、顔動作ユニット集合と関連付けられる検出結果を決定し；検出結果に基づいて検出損失を決定し；複数のサンプル画像の各予測アテンションマスクと、対応する所定アテンションマスクとの差に基づいて、アテンション損失を決定し；及び、検出損失及びアテンション損失に関する総損失に基づいて顔検出モデルのパラメータを調整することで顔検出モデルを最適化する操作である。命令は方法１００と対応関係がある。なお、装置６００の更なる設定については本発明の方法１００についての説明を参照できる。

【0057】

本発明の１つの側面によれば、プログラムを記憶しているコンピュータ可読記憶媒体がさらに提供され、実行されるときに該プログラムはコンピュータに、顔検出モデルを反復して訓練させる。顔検出モデルは入力顔画像の、複数の顔動作ユニットを含む顔動作ユニット集合と関連付けられる検出結果を決定するために用いられ、かつ顔検出モデルはニューラルネットワークに基づいている。反復訓練における少なくとも１つの訓練反復ループは以下の操作を含み、即ち、現在のバッチの複数のサンプル画像のグローバル特徴を抽出し；複数のサンプル画像のうちの各画像の、顔動作ユニット集合における各顔動作ユニットに対応する予測アテンションマスクを決定し；複数のサンプル画像のうちの各画像について、該画像のグローバル特徴及び該画像の、各顔動作ユニットに対応する予測アテンションマスクに基づいて、該画像の、各顔動作ユニットに対応するローカル特徴を決定し；複数のサンプル画像の、各顔動作ユニットに対応するローカル特徴に基づいて、顔動作ユニット集合と関連付けられる検出結果を決定し；検出結果に基づいて検出損失を決定し；複数のサンプル画像の各予測アテンションマスクと、対応する所定アテンションマスクとの差に基づいて、アテンション損失を決定し；及び、検出損失及びアテンション損失に関する総損失に基づいて顔検出モデルのパラメータを調整することで顔検出モデルを最適化する操作である。プログラムは方法１００と対応関係が存在する。なお、プログラムの更なる設定については本発明の方法１００についての説明を参照できる。

【0058】

本発明の１つの側面によれば、プログラムを記憶しているコンピュータ可読記憶媒体がさらに提供され、実行されるときに該プログラムはコンピュータに、次のようなことを実行させ、即ち、訓練後の顔検出モデルを用いて検出待ち顔画像の、顔動作ユニット集合ａｕＳと関連付けられる検出結果を決定し、そのうち、訓練後の顔検出モデルは本発明のモデル訓練方法１００により訓練されたモデルである。

【0059】

また、上述の方法及び装置における各構成要素はソフトウェア、ファームウェア、ハードウェア又はその組み合わせの方式で構成され得る。なお、構成時に使用できる具体的な手段や方法は当業者に周知であるため、ここではその詳しい説明を省略する。ソフトウェア又はファームウェアにより実現される場合、記憶媒体やネットワークから専用ハードウェア構造を有するコンピュータ（例えば、図７に示す情報処理機器７００）に該ソフトウェアを構成するプログラムをインストールし、該コンピュータは各種のプログラムがインストールされているときに、各種の機能などを実行できる。

【0060】

また、明らかのように、本発明による方法の各操作（ステップ）のプロセスは各種のマシン可読記憶媒体に記憶されているコンピュータ実行可能なプログラムの方式で実現され得る。

【0061】

さらに、本発明の目的は次のような方式で実現されても良く、即ち、実行可能なプログラムコードを記憶している記憶媒体をシステム又は装置に直接又は間接的に提供し、該システム又は装置におけるコンピュータ又は中央処理ユニット（ＣＰＵ）により上述のプログラムコードを読み取って実行する。このときに、該システム又は装置がプログラム実行可能な機能を有すれば、本発明の実施例はプログラムに限定されず、また、該プログラムは任意の形式のもの、例えば、オブジェクト指向プログラム、インタープリター実行のプログラム、ＯＳ（ｏｐｅｒａｔｉｎｇｓｙｓｔｅｍ）に提供するスクリプトプログラムなどであっても良い。

【0062】

上述のようなマシン可読記憶媒体は、各種の記憶器及び記憶ユニット、半導体デバイス、磁気、光磁気ディスクなどの磁気ディスク装置、及び情報を格納するのに適した他の媒体が含まれるが、これらに限定されない。

【0063】

また、コンピュータはインターネット上の対応するウェブサイトに接続し、本発明によるコンピュータプログラムコードをダウンロードしてコンピュータにインストールした後に該プログラムを実行することで、本発明の技術案を実現することもできる。

【0064】

本発明の１つの側面によれば、情報処理機器がさらに提供される。

【0065】

図９は本発明の一実施例における情報処理機器７００の例示的なブロック図である。情報処理機器７００のような構成は、本発明の実施例における方法及び／又は装置を実現し得る汎用パソコンの例示的な構成である。

【0066】

情報処理機器７００は、例えば、コンピュータシステムであっても良い。なお、情報処理機器７００は例示に過ぎず、本発明による方法及び装置の適用範囲又は機能について限定しない。また、情報処理機器７００は、上述の方法及び装置における任意のモジュールやアセンブリなど又はその組み合わせにも依存しない。

【0067】

図７では、中央処理装置（ＣＰＵ）７０１は、ＲＯＭ７０２に記憶されているプログラム又は記憶部７０８からＲＡＭ７０３にロッドされているプログラムに基づいて各種の処理を行う。ＲＡＭ７０３では、ニーズに応じて、ＣＰＵ７０１が各種の処理を行うときに必要なデータなどを記憶することもできる。ＣＰＵ７０１、ＲＯＭ７０２及びＲＡＭ７０３は、バス７０４を経由して互いに接続される。入力／出力インターフェース７０５もバス７０４に接続される。

【0068】

また、入力／出力インターフェース７０５には、さらに、次のような部品が接続され、即ち、キーボードなどを含む入力部７０６、液晶表示器（ＬＣＤ）などのような表示器及びスピーカーなどを含む出力部７０７、ハードディスクなどを含む記憶部７０８、ネットワーク・インターフェース・カード、例えば、ＬＡＮカード、モデムなどを含む通信部７０９である。通信部７０９は、例えば、インターネット、ＬＡＮなどのネットワークを経由して通信処理を行う。ドライブ７１０は、ニーズに応じて、入力／出力インターフェース７０５に接続されても良い。取り外し可能な媒体７１１、例えば、半導体メモリなどは、必要に応じて、ドライブ７１０にセットされることにより、その中から読み取られたコンピュータプログラムを記憶部７０８にインストールすることができる。

【0069】

また、本発明はさらに、マシン可読命令コードを含むプログラムプロダクトを提供する。このような命令コードは、マシンにより読み取られて実行されるときに、上述の本発明の実施形態における方法を実行することができる。それ相応に、このようなプログラムプロダクトをキャリー（ｃａｒｒｙ）する、例えば、磁気ディスク（フロッピーディスク（登録商標）を含む）、光ディスク（ＣＤ－ＲＯＭ及びＤＶＤを含む）、光磁気ディスク（ＭＤ（登録商標）を含む）、及び半導体記憶器などの各種記憶媒体も本発明に含まれる。

【0070】

上述の記憶媒体は、例えば、磁気ディスク、光ディスク、光磁気ディスク、半導体記憶器などを含んでも良いが、これらに限定されない。

【0071】

上述の方法における各操作（処理／ステップ）は、各種のマシン可読記憶媒体に記憶されているコンピュータ実行可能なプログラムの方式で実現することもできる。

【0072】

また、以上の実施例などに関し、さらに以下のように付記として開示する。

【0073】

（付記１）
顔検出モデルを訓練するための、コンピュータが実行する方法であって、
前記顔検出モデルは入力顔画像の、複数の顔動作ユニットを含む顔動作ユニット集合と関連付けられる検出結果を決定するために用いられ、
前記方法は前記顔検出モデルに対して反復訓練を行うことを含み、
前記顔検出モデルはニューラルネットワークに基づいており、
前記反復訓練における少なくとも１つの訓練反復ループは以下の操作を含み、即ち、
現在のバッチの複数のサンプル画像のグローバル特徴を抽出し；
前記複数のサンプル画像のうちの各画像の、前記顔動作ユニット集合における各顔動作ユニットに対応する予測アテンションマスクを決定し；
前記複数のサンプル画像のうちの各画像について、該画像のグローバル特徴及び該画像の、各顔動作ユニットに対応する予測アテンションマスクに基づいて、該画像の、各顔動作ユニットに対応するローカル特徴を決定し；
前記複数のサンプル画像の、各顔動作ユニットに対応するローカル特徴に基づいて、前記顔動作ユニット集合と関連付けられる検出結果を決定し；
前記検出結果に基づいて検出損失を決定し；
前記複数のサンプル画像の各予測アテンションマスクと、対応する所定アテンションマスクとの差に基づいて、アテンション損失を決定し；及び
前記検出損失及び前記アテンション損失に関する総損失に基づいて前記顔検出モデルのパラメータを調整することで前記顔検出モデルを最適化する操作である、方法。

【0074】

（付記２）
付記１に記載の方法であって、
前記複数のサンプル画像の、各顔動作ユニットに対応するローカル特徴に基づいて、前記顔動作ユニット集合と関連付けられる検出結果を決定する操作は、
前記複数のサンプル画像の、各顔動作ユニットに対応するローカル特徴と、対応するサンプル画像のグローバル特徴との融合特徴に基づいて前記顔動作ユニット集合と関連付けられる検出結果を決定することを含む、方法。

【0075】

（付記３）
付記２に記載の方法であって、
前記複数のサンプル画像のうちの各サンプル画像の、各顔動作ユニットに対応する融合特徴は該サンプル画像の、各顔動作ユニットに対応するローカル特徴と、該サンプル画像のグローバル特徴との加重和である、方法。

【0076】

（付記４）
付記３に記載の方法であって、
前記顔検出モデルのパラメータの調整は前記加重和のための加重係数の調整を含む、方法。

【0077】

（付記５）
付記１に記載の方法であって、
前記複数のサンプル画像のうちの各画像の、前記顔動作ユニット集合における各顔動作ユニットに対応する予測アテンションマスクは前記複数のサンプル画像のうちの該画像のグローバル特徴と関連付けられる、方法。

【0078】

（付記６）
付記１に記載の方法であって、
対応する前記所定アテンションマスクは、先験的知識に基づいて決定された顔動作分割ルールに従って決定される、方法。

【0079】

（付記７）
付記６に記載の方法であって、
対応する前記所定アテンションマスクの決定は、
複数の顔ランドマークポイントを決定し；
前記複数の顔ランドマークポイントに基づいて顔領域を複数のサブ領域に分割し；及び
前記複数のサブ領域に基づいて、対応する前記所定アテンションマスクを生成することを含み、
対応する前記所定アテンションマスクのうちの各所定アテンションマスクは前記複数のサブ領域の対応する部分集合と関連付けられ、
対応する前記部分集合は先験的知識に基づいて決定される、方法。

【0080】

（付記８）
付記１に記載の方法であって、
前記顔検出モデルのパラメータの調整はアテンションマスクの平均二乗誤差の最小化に基づいてマスクニューラルネットワークのパラメータを調整することを含み、
前記アテンションマスクの平均二乗誤差は予測アテンションマスクと、対応する前記所定アテンションマスクとの間の平均二乗誤差であり、
前記マスクニューラルネットワークは各予測アテンションマスクを生成するためのニューラルネットワークである、方法。

【0081】

（付記９）
付記２に記載の方法であって、
前記総損失はさらに、複数の同一ラベル融合特徴ペア及び複数の相反ラベル融合特徴ペアに基づいて決定される比較損失に関連しており、
前記複数の同一ラベル融合特徴ペアのうちの各同一ラベル融合特徴ペアに含まれる２つの融合特徴は、前記複数のサンプル画像のうちの２つのサンプル画像の、同じ顔動作ユニットに対応する融合特徴であり、
前記複数の相反ラベル融合特徴ペアのうちの各相反ラベル融合特徴ペアに含まれる２つの融合特徴は、前記複数のサンプル画像のうちの２つのサンプル画像の、２つの相反する顔動作ユニットに対応する融合特徴である、方法。

【0082】

（付記１０）
付記９に記載の方法であって、
前記総損失は前記検出損失、前記アテンション損失及び前記比較損失の加重和である、方法。

【0083】

（付記１１）
付記９に記載の方法であって、
前記比較損失は第一比較損失及び第二比較損失を含み、
前記第一比較損失は、前記複数の同一ラベル融合特徴ペアのうちの各同一ラベル融合特徴ペアにおける２つの融合特徴の距離と正の相関があり、
前記第二比較損失は、所定の間隔パラメータと、前記複数の相反ラベル融合特徴ペアのうちの各相反ラベル融合特徴ペアにおける２つの融合特徴の距離との差に基づいて決定される、方法。

【0084】

（付記１２）
付記１に記載の方法であって、
前記複数のサンプル画像は異なる人物の顔画像を含む、方法。

【0085】

（付記１３）
顔検出方法であって、
付記１に記載の方法により訓練された顔検出モデルを用いて、検出待ち顔画像の、前記顔動作ユニット集合と関連付けられる検出結果を決定することを含む、方法。

【0086】

（付記１４）
顔検出モデルを訓練するための装置であって、
命令を記憶している記憶器；及び
前記記憶器に接続される少なくとも１つの処理器を含み、
前記処理器は前記命令を実行して反復の方式で前記顔検出モデルを訓練するように構成され、
前記顔検出モデルは入力顔画像の、複数の顔動作ユニットを含む顔動作ユニット集合と関連付けられる検出結果を決定するために用いられ、
前記顔検出モデルはニューラルネットワークに基づいており、
反復の方式で前記顔検出モデルを訓練する期間における少なくとも１つの訓練反復ループは以下の操作を含み、即ち、
現在のバッチの複数のサンプル画像のグローバル特徴を抽出し；
前記複数のサンプル画像のうちの各画像の、前記顔動作ユニット集合における各顔動作ユニットに対応する予測アテンションマスクを決定し；
前記複数のサンプル画像のうちの各画像について、該画像のグローバル特徴及び該画像の、各顔動作ユニットに対応する予測アテンションマスクに基づいて、該画像の、各顔動作ユニットに対応するローカル特徴を決定し；
前記複数のサンプル画像の、各顔動作ユニットに対応するローカル特徴に基づいて前記顔動作ユニット集合と関連付けられる検出結果を決定し；
前記検出結果に基づいて検出損失を決定し；
前記複数のサンプル画像の各予測アテンションマスクと、対応する所定アテンションマスクとの差に基づいてアテンション損失を決定し；及び
前記検出損失及び前記アテンション損失に関する総損失に基づいて前記顔検出モデルのパラメータを調整することで前記顔検出モデルを最適化する操作である、装置。

【0087】

（付記１５）
付記１４に記載の装置であって、
前記複数のサンプル画像の、各顔動作ユニットに対応するローカル特徴に基づいて前記顔動作ユニット集合と関連付けられる検出結果を決定する操作は、
前記複数のサンプル画像の、各顔動作ユニットに対応するローカル特徴と、対応するサンプル画像のグローバル特徴との融合特徴に基づいて、前記顔動作ユニット集合と関連付けられる検出結果を決定することを含む、装置。

【0088】

（付記１６）
付記１５に記載の装置であって、
前記複数のサンプル画像のうちの各サンプル画像の、各顔動作ユニットに対応する融合特徴は該サンプル画像の、各顔動作ユニットに対応するローカル特徴と、該サンプル画像のグローバル特徴との加重和である、装置。

【0089】

（付記１７）
付記１６に記載の装置であって、
前記顔検出モデルのパラメータの調整は前記加重和のための加重係数の調整を含む、装置。

【0090】

（付記１８）
付記１４に記載の装置であって、
前記複数のサンプル画像のうちの各画像の、前記顔動作ユニット集合における各顔動作ユニットに対応する予測アテンションマスクは前記複数のサンプル画像のうちの該画像のグローバル特徴と関連付けられる、装置。

【0091】

（付記１９）
付記１４に記載の装置であって、
前記顔検出モデルのパラメータの調整はアテンションマスクの平均二乗誤差の最小化に基づいてマスクニューラルネットワークのパラメータを調整することを含み、
前記アテンションマスクの平均二乗誤差は予測アテンションマスクと、対応する前記所定アテンションマスクとの間の平均二乗誤差であり、
前記マスクニューラルネットワークは各予測アテンションマスクを生成するためのニューラルネットワークである、装置。

【0092】

（付記２０）
付記１４に記載の装置であって、
前記総損失はさらに、複数の同一ラベル融合特徴ペア及び複数の相反ラベル融合特徴ペアに基づいて決定される比較損失に関連しており、
前記複数の同一ラベル融合特徴ペアのうちの各同一ラベル融合特徴ペアが含む２つの融合特徴は、前記複数のサンプル画像のうちの２つのサンプル画像の、同じ顔動作ユニットに対応する融合特徴であり、
前記複数の相反ラベル融合特徴ペアのうちの各相反ラベル融合特徴ペアが含む２つの融合特徴は、前記複数のサンプル画像のうちの２つのサンプル画像の、２つの相反する顔動作ユニットに対応する融合特徴である、装置。

【0093】

以上、本発明の好ましい実施形態を説明したが、本発明はこの実施形態に限定されず、本発明の趣旨を離脱しない限り、本発明に対するあらゆる変更は、本発明の技術的範囲に属する。

【図1】