特許7490141 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

青山学院大学 (神奈川県相模原市中央区淵野辺)

▶ ▲騰▼▲訊▼科技（深▲セン▼）有限公司の特許一覧

特許7490141画像検出方法、モデルトレーニング方法、画像検出装置、トレーニング装置、機器及びプログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11
12

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】

(24)【登録日】2024-05-16

(45)【発行日】2024-05-24

(54)【発明の名称】画像検出方法、モデルトレーニング方法、画像検出装置、トレーニング装置、機器及びプログラム

(51)【国際特許分類】

G06T 7/00 20170101AFI20240517BHJP

G06V 10/82 20220101ALI20240517BHJP

【ＦＩ】

G06T7/00 660A

G06T7/00 350B

G06V10/82

【請求項の数】 19

(21)【出願番号】P 2023523654

(86)(22)【出願日】2022-01-21

(65)【公表番号】

(43)【公表日】2023-10-30

(86)【国際出願番号】 CN2022073249

(87)【国際公開番号】W WO2022161286

(87)【国際公開日】2022-08-04

【審査請求日】2023-04-18

(31)【優先権主張番号】202110116762.8

(32)【優先日】2021-01-28

(33)【優先権主張国・地域又は機関】CN

(73)【特許権者】

【識別番号】517392436

【氏名又は名称】▲騰▼▲訊▼科技（深▲セン▼）有限公司

【氏名又は名称原語表記】ＴＥＮＣＥＮＴＴＥＣＨＮＯＬＯＧＹ（ＳＨＥＮＺＨＥＮ）ＣＯＭＰＡＮＹＬＩＭＩＴＥＤ

【住所又は居所原語表記】３５／Ｆ，ＴｅｎｃｅｎｔＢｕｉｌｄｉｎｇ，ＫｅｊｉｚｈｏｎｇｙｉＲｏａｄ，ＭｉｄｗｅｓｔＤｉｓｔｒｉｃｔｏｆＨｉ－ｔｅｃｈＰａｒｋ，ＮａｎｓｈａｎＤｉｓｔｒｉｃｔ，Ｓｈｅｎｚｈｅｎ，Ｇｕａｎｇｄｏｎｇ５１８０５７，ＣＨＩＮＡ

(74)【代理人】

【識別番号】100110364

【弁理士】

【氏名又は名称】実広信哉

(74)【代理人】

【識別番号】100150197

【弁理士】

【氏名又は名称】松尾直樹

(72)【発明者】

【氏名】姚太平

(72)【発明者】

【氏名】▲陳▼ ▲シェン▼

(72)【発明者】

【氏名】▲陳▼ ▲陽▼

(72)【発明者】

【氏名】丁守▲鴻▼

(72)【発明者】

【氏名】李季▲懍▼

(72)【発明者】

【氏名】黄 ▲飛▼▲躍▼

【審査官】真木健彦

(56)【参考文献】

【文献】国際公開第２０１５／１２２１８３（ＷＯ，Ａ１）

【文献】特開２０１７－０１６１９２（ＪＰ，Ａ）

【文献】中国特許出願公開第１０５００５７５６（ＣＮ，Ａ）

【文献】特表２０１９－５０９５６６（ＪＰ，Ａ）

【文献】国際公開第２０２０／２１７３７１（ＷＯ，Ａ１）

【文献】米国特許出願公開第２０２０／０３８０２７９（ＵＳ，Ａ１）

【文献】中国特許出願公開第１１１７６７８２８（ＣＮ，Ａ）

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｇ０６Ｔ７／００

Ｇ０６Ｖ１０／８２

Ｇ０６Ｖ４０／４０

(57)【特許請求の範囲】

【請求項1】

コンピュータ機器により実行される、画像検出方法であって、前記方法は、
目標顔画像を取得するステップと、
前記目標顔画像に基づいて、前記目標顔画像の周波数領域画像、及び前記目標顔画像の空間領域特徴を獲得するステップであって、前記周波数領域画像は前記目標顔画像に対して周波数領域変換を行って得られた画像であり、前記空間領域特徴は前記目標顔画像に対して特徴抽出を行って得られた特徴である、ステップと、
前記周波数領域画像に基づいて特徴抽出を行って、前記目標顔画像の周波数領域特徴を獲得するステップと、
前記空間領域特徴と前記周波数領域特徴とを融合して、前記目標顔画像の融合特徴を獲得するステップであって、
顔画像検出モデルのアテンション融合ネットワークによって、ｎ個のレベルにおいて前記空間領域特徴と前記周波数領域特徴に対してアテンションメカニズムに基づく融合を行って、前記ｎ個のレベルのそれぞれに対応する中間融合特徴を獲得するステップであって、ｎは２以上の整数である、ステップと、
前記ｎ個のレベルのそれぞれに対応する前記中間融合特徴を合成して、前記目標顔画像の前記融合特徴を獲得するステップと、
を含む、ステップと、
前記目標顔画像の融合特徴に基づいて、前記目標顔画像の検出結果を取得するステップであって、前記検出結果は前記目標顔画像が偽造顔画像であるか否かを指示することに用いられる、ステップと、を含む、画像検出方法。

【請求項2】

前記顔画像検出モデルは、顔画像サンプル、及び前記顔画像サンプルに対応する顔画像サンプルラベルのトレーニングによって獲得される、請求項１に記載の方法。

【請求項3】

前記中間融合特徴は融合空間領域特徴と融合周波数領域特徴に基づいて獲得され、前記融合空間領域特徴は、前記空間領域特徴と前記周波数領域特徴に対してアテンションメカニズムに基づく融合を行った後に獲得された空間領域上の特徴であり、前記融合周波数領域特徴は、前記空間領域特徴と前記周波数領域特徴に対してアテンションメカニズムに基づく融合を行った後に獲得された周波数領域上の特徴であり、
前記アテンション融合ネットワークによって、ｎ個のレベルにおいて前記空間領域特徴と前記周波数領域特徴に対してアテンションメカニズムに基づく融合を行って、前記ｎ個のレベルのそれぞれに対応する中間融合特徴を獲得する前記ステップは、
ｔ番目のレベルにおいて、ｔ－１番目のレベルにおける前記融合空間領域特徴、及び前記ｔ－１番目のレベルにおける前記融合周波数領域特徴を前記アテンション融合ネットワークに入力して、前記ｔ番目のレベルにおける前記融合空間領域特徴、及び前記ｔ番目のレベルにおける前記融合周波数領域特徴を獲得するステップと、
前記ｔ番目のレベルにおける前記融合空間領域特徴、及び前記ｔ番目のレベルにおける前記融合周波数領域特徴を合成して、前記ｔ番目のレベルに対応する前記中間融合特徴を生成するステップと、を含み、
前記ｔ番目のレベルは前記ｎ個のレベルのうちの任意の１つであり、１≦ｔ≦ｎであり、且つｔは正整数である、請求項１に記載の方法。

【請求項4】

ｔ番目のレベルにおいて、ｔ－１番目のレベルにおける前記融合空間領域特徴、及び前記ｔ－１番目のレベルにおける前記融合周波数領域特徴を前記アテンション融合ネットワークに入力して、前記ｔ番目のレベルにおける前記融合空間領域特徴、及び前記ｔ番目のレベルにおける前記融合周波数領域特徴を獲得する前記ステップは、
ｔ番目のレベルにおいて、前記ｔ－１番目のレベルにおける前記融合空間領域特徴、及び前記ｔ－１番目のレベルにおける前記融合周波数領域特徴を前記アテンション融合ネットワークにおけるアテンション抽出サブネットワークに入力して、前記アテンション抽出サブネットワークから出力された、前記ｔ番目のレベルにおける空間領域アテンションマップと前記ｔ番目のレベルにおける周波数領域アテンションマップを取得するステップであって、前記空間領域アテンションマップは前記融合空間領域特徴の重みを指示することに用いられ、前記周波数領域アテンションマップは前記融合周波数領域特徴の重みを指示することに用いられる、ステップと、
前記ｔ－１番目のレベルにおける前記融合空間領域特徴、及び前記ｔ番目のレベルにおける前記空間領域アテンションマップに基づいて、前記ｔ番目のレベルにおける前記融合空間領域特徴を生成するステップと、
前記ｔ－１番目のレベルにおける前記融合周波数領域特徴、及び前記ｔ番目のレベルにおける前記周波数領域アテンションマップに基づいて、前記ｔ番目のレベルにおける前記融合周波数領域特徴を生成するステップと、を含む、請求項３に記載の方法。

【請求項5】

前記目標顔画像の融合特徴に基づいて、前記目標顔画像の検出結果を取得する前記ステップは、
前記目標顔画像の前記融合特徴に対して局所エリア類似性抽出を行って、前記目標顔画像に対応する局所エリア類似性集合を取得するステップと、
前記局所エリア類似性集合に基づいて、前記目標顔画像の前記検出結果を取得するステップと、を含む、請求項１に記載の方法。

【請求項6】

前記局所エリア類似性集合に基づいて、前記目標顔画像の前記検出結果を取得する前記ステップは、
前記局所エリア類似性集合を顔画像検出モデルの偽造顔画像判定ネットワークに入力して、前記偽造顔画像判定ネットワークから出力された前記目標顔画像に対応する偽造顔画像確率を取得するステップと、
前記偽造顔画像確率に基づいて、前記目標顔画像が偽造顔画像であるか否かを判定するステップと、を含み、
前記顔画像検出モデルは、顔画像サンプル、及び前記顔画像サンプルに対応する顔画像サンプルラベルのトレーニングによって獲得される、請求項５に記載の方法。

【請求項7】

前記方法は、
前記目標顔画像が偽造顔画像であることに応答して、前記目標顔画像の前記融合特徴に基づいて、前記目標顔画像に対応する偽造顔エリアを取得するステップをさらに含む、請求項１～６のいずれか一項に記載の方法。

【請求項8】

コンピュータ機器により実行される、モデルトレーニング方法であって、顔画像検出モデルが、アテンション融合ネットワークと、偽造顔画像判定ネットワークと、デコーダとを含み、前記アテンション融合ネットワークは、顔画像の空間領域特徴、及び周波数領域特徴に基づいて、前記顔画像の融合特徴を取得することに用いられ、前記方法は、
画像サンプルセットを取得するステップであって、前記画像サンプルセットには少なくとも２つの顔画像サンプルペアが含まれ、前記顔画像サンプルペアには顔画像正サンプルと顔画像負サンプルとが含まれ、各顔画像サンプルは対応する顔画像サンプルラベルを有し、前記顔画像サンプルラベルは真実の顔ラベルと偽造顔ラベルとを含む、ステップと、
前記画像サンプルセットによって、前記顔画像検出モデルをトレーニングするステップと、を含み、
前記顔画像検出モデルは、目標顔画像を取得し、前記目標顔画像に対して周波数領域変換を行って、前記目標顔画像の周波数領域画像を獲得し、前記目標顔画像に基づいて特徴抽出を行って、前記目標顔画像の空間領域特徴を獲得し、前記周波数領域画像に基づいて特徴抽出を行って、前記目標顔画像の周波数領域特徴を獲得し、ｎ個のレベルにおいて前記空間領域特徴と前記周波数領域特徴とを融合して、前記ｎ個のレベルのそれぞれに対応する中間融合特徴を獲得し、前記ｎ個のレベルのそれぞれに対応する前記中間融合特徴を合成して、前記目標顔画像の融合特徴を獲得し、前記目標顔画像の融合特徴に基づいて、前記目標顔画像の検出結果を取得するという操作を実行することに用いられ、ｎは２以上の整数であり、前記検出結果は前記目標顔画像が偽造顔画像であるか否かを指示することに用いられる、モデルトレーニング方法。

【請求項9】

前記画像サンプルセットによって、前記顔画像検出モデルをトレーニングする前記ステップは、
前記画像サンプルセットにおける少なくとも２つの前記顔画像サンプルペアに基づいて、各前記顔画像サンプルペアに対応する偽造顔エリア画像を取得するステップと、
各前記偽造顔エリア画像の真実の局所エリア類似性集合を取得するステップと、
各前記顔画像サンプル、及び各前記顔画像サンプルに対応するトレーニングラベルに基づいて、顔画像検出モデルをトレーニングするステップであって、前記トレーニングラベルは前記顔画像サンプルラベル、前記偽造顔エリア画像、及び前記偽造顔エリア画像の真実の局所エリア類似性集合を含む、ステップと、を含む、請求項８に記載の方法。

【請求項10】

各前記顔画像サンプル、及び各前記顔画像サンプルに対応するトレーニングラベルに基づいて、顔画像検出モデルをトレーニングする前記ステップは、
各前記顔画像サンプルを前記顔画像検出モデルに入力して、各前記顔画像サンプルに対応する予測結果を獲得するステップであって、前記予測結果は予測顔画像サンプルラベル、予測偽造顔エリア画像、及び予測局所エリア類似性を含む、ステップと、
各前記顔画像サンプルに対応する前記トレーニングラベル、及び各前記顔画像サンプルに対応する前記予測結果に基づいて、損失関数を計算するステップと、
前記損失関数に基づいて、顔画像検出モデルに対してパラメータ更新を行うステップと、を含む、請求項９に記載の方法。

【請求項11】

コンピュータ機器に用いられる、画像検出装置であって、前記装置は、
目標顔画像を取得することに用いられる目標顔画像取得モジュールと、
前記目標顔画像に基づいて、前記目標顔画像の周波数領域画像、及び前記目標顔画像の空間領域特徴を獲得することに用いられる画像処理モジュールであって、前記周波数領域画像は前記目標顔画像に対して周波数領域変換を行って得られた画像であり、前記空間領域特徴は前記目標顔画像に対して特徴抽出を行って得られた特徴である、画像処理モジュールと、
前記周波数領域画像に基づいて特徴抽出を行って、前記目標顔画像の周波数領域特徴を獲得することに用いられる周波数領域特徴抽出モジュールと、
前記空間領域特徴と前記周波数領域特徴とを融合して、前記目標顔画像の融合特徴を獲得することに用いられる融合特徴取得モジュールであって、
顔画像検出モデルのアテンション融合ネットワークによって、ｎ個のレベルにおいて前記空間領域特徴と前記周波数領域特徴に対してアテンションメカニズムに基づく融合を行って、前記ｎ個のレベルのそれぞれに対応する中間融合特徴を獲得することに用いられる特徴融合サブモジュールであって、ｎは２以上の整数である、特徴融合サブモジュールと、
前記ｎ個のレベルのそれぞれに対応する前記中間融合特徴を合成して、前記目標顔画像の前記融合特徴を獲得することに用いられる特徴合成サブモジュールと、を含む、融合特徴取得モジュールと、
前記目標顔画像の融合特徴に基づいて、前記目標顔画像の検出結果を取得することに用いられる検出結果取得モジュールであって、前記検出結果は前記目標顔画像が偽造顔画像であるか否かを指示することに用いられる、検出結果取得モジュールと、を含む、画像検出装置。

【請求項12】

前記顔画像検出モデルは、顔画像サンプル、及び前記顔画像サンプルに対応する顔画像サンプルラベルのトレーニングによって獲得される、請求項１１に記載の装置。

【請求項13】

前記中間融合特徴は融合空間領域特徴と融合周波数領域特徴に基づいて獲得され、前記融合空間領域特徴は、前記空間領域特徴と前記周波数領域特徴に対してアテンションメカニズムに基づく融合を行った後に獲得された空間領域上の特徴であり、前記融合周波数領域特徴は、前記空間領域特徴と前記周波数領域特徴に対してアテンションメカニズムに基づく融合を行った後に獲得された周波数領域上の特徴であり、
前記特徴融合サブモジュールは、
ｔ番目のレベルにおいて、ｔ－１番目のレベルにおける前記融合空間領域特徴、及び前記ｔ－１番目のレベルにおける前記融合周波数領域特徴を前記アテンション融合ネットワークに入力して、前記ｔ番目のレベルにおける前記融合空間領域特徴、及び前記ｔ番目のレベルにおける前記融合周波数領域特徴を獲得することに用いられる融合特徴取得ユニットと、
前記ｔ番目のレベルにおける前記融合空間領域特徴、及び前記ｔ番目のレベルにおける前記融合周波数領域特徴を合成して、前記ｔ番目のレベルに対応する前記中間融合特徴を生成することに用いられる融合特徴合成ユニットと、を含み、
前記ｔ番目のレベルは前記ｎ個のレベルのうちの任意の１つであり、１≦ｔ≦ｎであり、且つｔは正整数である、請求項１１に記載の装置。

【請求項14】

コンピュータ機器に用いられる、顔画像検出モデルのトレーニング装置であって、前記顔画像検出モデルは、アテンション融合ネットワークと、偽造顔画像判定ネットワークと、デコーダとを含み、前記アテンション融合ネットワークは、顔画像の空間領域特徴、及び周波数領域特徴に基づいて、前記顔画像の融合特徴を取得することに用いられ、前記装置は、
画像サンプルセットを取得することに用いられる画像サンプルセット取得モジュールであって、前記画像サンプルセット中に少なくとも２つの顔画像サンプルペアが含まれ、前記顔画像サンプルペア中に顔画像正サンプルと顔画像負サンプルとが含まれ、各顔画像サンプルは対応する顔画像サンプルラベルを有し、前記顔画像サンプルラベルは真実の顔ラベルと偽造顔ラベルとを含む、画像サンプルセット取得モジュールと、
前記画像サンプルセットによって、前記顔画像検出モデルをトレーニングすることに用いられるモデルトレーニングモジュールと、を含み、
前記顔画像検出モデルは、目標顔画像を取得し、前記目標顔画像に対して周波数領域変換を行って、前記目標顔画像の周波数領域画像を獲得し、前記目標顔画像に基づいて特徴抽出を行って、前記目標顔画像の空間領域特徴を獲得し、前記周波数領域画像に基づいて特徴抽出を行って、前記目標顔画像の周波数領域特徴を獲得し、ｎ個のレベルにおいて前記空間領域特徴と前記周波数領域特徴とを融合して、前記ｎ個のレベルのそれぞれに対応する中間融合特徴を獲得し、前記ｎ個のレベルのそれぞれに対応する前記中間融合特徴を合成して、前記目標顔画像の融合特徴を獲得し、前記目標顔画像の融合特徴に基づいて、前記目標顔画像の検出結果を取得するという操作を実行することに用いられ、ｎは２以上の整数であり、前記検出結果は前記目標顔画像が偽造顔画像であるか否かを指示することに用いられる、顔画像検出モデルのトレーニング装置。

【請求項15】

前記モデルトレーニングモジュールは、
前記画像サンプルセットにおける少なくとも２つの前記顔画像サンプルペアに基づいて、各前記顔画像サンプルペアに対応する偽造顔エリア画像を取得することに用いられる偽造顔エリア画像取得サブモジュールと、
各前記偽造顔エリア画像の真実の局所エリア類似性集合を取得することに用いられる類似性集合取得サブモジュールと、
各前記顔画像サンプル、及び各前記顔画像サンプルに対応するトレーニングラベルに基づいて、顔画像検出モデルをトレーニングすることに用いられるモデルトレーニングサブモジュールであって、前記トレーニングラベルは前記顔画像サンプルラベル、前記偽造顔エリア画像、及び前記偽造顔エリア画像の真実の局所エリア類似性集合を含む、モデルトレーニングサブモジュールと、を含む、請求項１４に記載の装置。

【請求項16】

コンピュータ機器であって、前記コンピュータ機器はプロセッサと、メモリとを含み、前記メモリには少なくとも１つのプログラム、コードセット、又は命令セットが記憶され、前記少なくとも１つのプログラム、前記コードセット、又は命令セットが前記プロセッサによりロードされ、かつ実行されることで、請求項１～７のいずれか一項に記載の画像検出方法を実現する、コンピュータ機器。

【請求項17】

コンピュータ機器であって、前記コンピュータ機器はプロセッサと、メモリとを含み、前記メモリには少なくとも１つのプログラム、コードセット、又は命令セットが記憶され、前記少なくとも１つのプログラム、前記コードセット、又は命令セットが前記プロセッサによりロードされ、かつ実行されることで、請求項８～１０のいずれか一項に記載のモデルトレーニング方法を実現する、コンピュータ機器。

【請求項18】

コンピュータプログラムであって、前記コンピュータプログラムがプロセッサによりロードされ、かつ実行されることで、請求項１～８のいずれか一項に記載の画像検出方法に記載のモデルトレーニング方法を実現する、コンピュータプログラム。

【請求項19】

コンピュータプログラムであって、前記コンピュータプログラムがプロセッサによりロードされ、かつ実行されることで、請求項８～１０のいずれか一項に記載のモデルトレーニング方法を実現する、コンピュータプログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本願は、顔認識の技術分野に関し、特に画像検出方法、モデルトレーニング方法、機器、媒体、及びプログラム製品に関する。

【0002】

本願は、２０２１年１月２８日に提出された、出願番号が第２０２１１０１１６７６２．８号、発明の名称が「人間の顔画像検出方法、モデルトレーニング方法、装置、及び記憶媒体」の中国特許出願の優先権を主張し、その全部の内容は引用によって本願に組み込まれている。

【背景技術】

【0003】

高度な顔の偽造技術は、娯楽や文化的な交流産業の新興や発展を促進するが、同時に顔についてのセキュリティにも大きな潜在的な脅威をもたらしているため、偽造画像を検出する必要がある。

【0004】

関連技術において、顔についての偽造画像検出技術は、例えばまばたきパターン、生物学的特徴等の虚偽内容の特定の偽造痕跡によって判断することであり、例えば、ビデオシーケンスにおける目のエリアを抽出することによって目のシーケンスを得て、さらにニューラルネットワークと併せて目のシーケンスをモデリングすることによって、偽造顔画像、又はビデオであるか否かを区別する。

【0005】

しかし、上記技術における顔偽造痕跡に基づく顔画像検出モデルは、特定の偽造痕跡を含む顔加工ビデオについてのみ良好な性能を有するため、汎用性が比較的低く、同時に、顔加工技術が成熟するにつれて、生成された偽造の顔は徐々に真実の顔と一致する生物学的パターンを有するようになり、上記方法の検出精度は比較的低くなる。

【発明の概要】

【発明が解決しようとする課題】

【0006】

本願の実施例は画像検出方法、モデルトレーニング方法、機器、媒体、及びプログラム製品を提供し、顔画像に対して真偽検出を行う精度を向上させることができる。該技術的手段は以下のとおりである。

【課題を解決するための手段】

【0007】

一態様では、画像検出方法を提供し、前記方法はコンピュータ機器により実行され、前記方法は、
目標顔画像を取得するステップと、
前記目標顔画像に基づいて、前記目標顔画像の周波数領域画像、及び前記目標顔画像の空間領域特徴を獲得するステップであって、前記周波数領域画像は前記目標顔画像に対して周波数領域変換を行って得られた画像であり、前記空間領域特徴は前記目標顔画像に対して特徴抽出を行って得られた特徴である、ステップと、
前記周波数領域画像に基づいて特徴抽出を行って、前記目標顔画像の周波数領域特徴を獲得するステップと、
前記空間領域特徴と前記周波数領域特徴とを融合して、前記目標顔画像の融合特徴を獲得するステップと、
前記目標顔画像の融合特徴に基づいて、前記目標顔画像の検出結果を取得するステップであって、前記検出結果は前記目標顔画像が偽造顔画像であるか否かを指示することに用いられる、ステップと、を含む。

【0008】

一態様では、コンピュータ機器により実行される、モデルトレーニング方法を提供し、顔画像検出モデルは、アテンション融合ネットワークと、偽造顔画像判定ネットワークと、デコーダとを含み、前記アテンション融合ネットワークは、顔画像の空間領域特徴、及び周波数領域特徴に基づいて、前記顔画像の融合特徴を取得することに用いられ、前記方法は、
画像サンプルセットを取得するステップであって、前記画像サンプルセット中に少なくとも２つの顔画像サンプルペアが含まれ、前記顔画像サンプルペア中に顔画像正サンプルと顔画像負サンプルとが含まれ、各顔画像サンプルは対応する顔画像サンプルラベルを有し、前記顔画像サンプルラベルは真実の顔ラベルと偽造顔ラベルとを含む、ステップと、
前記画像サンプルセットによって、前記顔画像検出モデルをトレーニングするステップと、を含み、
前記顔画像検出モデルは、目標顔画像を取得し、前記目標顔画像に対して周波数領域変換を行って、前記目標顔画像の周波数領域画像を獲得し、前記目標顔画像に基づいて特徴抽出を行って、前記目標顔画像の空間領域特徴を獲得し、前記周波数領域画像に基づいて特徴抽出を行って、前記目標顔画像の周波数領域特徴を獲得し、前記空間領域特徴と前記周波数領域特徴とを融合して、前記目標顔画像の融合特徴を獲得し、前記目標顔画像の融合特徴に基づいて、前記目標顔画像の検出結果を取得するという操作を実行することに用いられ、前記検出結果は前記目標顔画像が偽造顔画像であるか否かを指示することに用いられる。

【0009】

さらに別の態様では、コンピュータ機器に用いられる、画像検出装置を提供し、前記装置は前記装置は、
目標顔画像を取得することに用いられる目標顔画像取得モジュールと、
前記目標顔画像に基づいて、前記目標顔画像の周波数領域画像、及び前記目標顔画像の空間領域特徴を獲得することに用いられる画像処理モジュールであって、前記周波数領域画像は前記目標顔画像に対して周波数領域変換を行って得られた画像であり、前記空間領域特徴は前記目標顔画像に対して特徴抽出を行って得られた特徴である、画像処理モジュールと、
前記周波数領域画像に基づいて特徴抽出を行って、前記目標顔画像の周波数領域特徴を獲得することに用いられる周波数領域特徴抽出モジュールと、
前記空間領域特徴と前記周波数領域特徴とを融合して、前記目標顔画像の融合特徴を獲得することに用いられる融合特徴取得モジュールと、
前記目標顔画像の融合特徴に基づいて、前記目標顔画像の検出結果を取得することに用いられる検出結果取得モジュールであって、前記検出結果は前記目標顔画像が偽造顔画像であるか否かを指示することに用いられる、検出結果取得モジュールと、を含む。

【0010】

１つの可能な実現形態において、前記融合特徴取得モジュールは、顔画像検出モデルのアテンション融合ネットワークによって、前記空間領域特徴と前記周波数領域特徴に対してアテンションメカニズムに基づく融合を行って、前記目標顔画像の前記融合特徴を獲得することに用いられ、
前記顔画像検出モデルは、顔画像サンプル、及び前記顔画像サンプルに対応する顔画像サンプルラベルのトレーニングによって獲得される。

【0011】

１つの可能な実現形態において、前記融合特徴取得モジュールは、
前記アテンション融合ネットワークによって、ｎ個のレベルにおいて前記空間領域特徴と前記周波数領域特徴に対してアテンションメカニズムに基づく融合を行って、前記ｎ個のレベルのそれぞれに対応する中間融合特徴を獲得することに用いられる特徴融合サブモジュールであって、ｎは正整数である、特徴融合サブモジュールと、
前記ｎ個のレベルのそれぞれに対応する前記中間融合特徴を合成して、前記目標顔画像の前記融合特徴を獲得することに用いられる特徴合成サブモジュールと、を含む。

【0012】

１つの可能な実現形態において、前記中間融合特徴は融合空間領域特徴と融合周波数領域特徴に基づいて獲得され、前記融合空間領域特徴は、前記空間領域特徴と前記周波数領域特徴に対してアテンションメカニズムに基づく融合を行った後に獲得された空間領域上の特徴であり、前記融合周波数領域特徴は、前記空間領域特徴と前記周波数領域特徴に対してアテンションメカニズムに基づく融合を行った後に獲得された周波数領域上の特徴であり、
前記特徴融合サブモジュールは、
ｔ番目のレベルにおいて、ｔ－１番目のレベルにおける前記融合空間領域特徴、及び前記ｔ－１番目のレベルにおける前記融合周波数領域特徴を前記アテンション融合ネットワークに入力して、前記ｔ番目のレベルにおける前記融合空間領域特徴、及び前記ｔ番目のレベルにおける前記融合周波数領域特徴を獲得することに用いられる融合特徴取得ユニットと、
前記ｔ番目のレベルにおける前記融合空間領域特徴、及び前記ｔ番目のレベルにおける前記融合周波数領域特徴を合成して、前記ｔ番目のレベルに対応する前記中間融合特徴を生成することに用いられる融合特徴合成ユニットと、を含み、
前記ｔ番目のレベルは前記ｎ個のレベルのうちの任意の１つであり、１≦ｔ≦ｎであり、且つｔ、ｎはいずれも正整数である。

【0013】

１つの可能な実現形態において、前記融合特徴取得ユニットは、
ｔ番目のレベルにおいて、前記ｔ－１番目のレベルにおける前記融合空間領域特徴、及び前記ｔ－１番目のレベルにおける前記融合周波数領域特徴を前記アテンション融合ネットワークにおけるアテンション抽出サブネットワークに入力して、前記アテンション抽出サブネットワークから出力された、前記ｔ番目のレベルにおける空間領域アテンションマップと前記ｔ番目のレベルにおける周波数領域アテンションマップを取得することに用いられるアテンションマップ取得サブユニットであって、前記空間領域アテンションマップは前記融合空間領域特徴の重みを指示することに用いられ、前記周波数領域アテンションマップは前記融合周波数領域特徴の重みを指示することに用いられる、アテンションマップ取得サブユニットと、
前記ｔ－１番目のレベルにおける前記融合空間領域特徴、及び前記ｔ番目のレベルにおける前記空間領域アテンションマップに基づいて、前記ｔ番目のレベルにおける前記融合空間領域特徴を生成することに用いられる融合空間領域特徴取得サブユニットと、
前記ｔ－１番目のレベルにおける前記融合周波数領域特徴、及び前記ｔ番目のレベルにおける前記周波数領域アテンションマップに基づいて、前記ｔ番目のレベルにおける前記融合周波数領域特徴を生成することに用いられる融合周波数領域特徴取得サブユニットと、を含む。

【0014】

１つの可能な実現形態において、前記検出結果取得モジュールは、
前記目標顔画像の前記融合特徴に対して局所エリア類似性抽出を行って、前記目標顔画像に対応する局所エリア類似性集合を取得することに用いられる類似性集合取得サブモジュールと、
前記局所エリア類似性集合に基づいて、前記目標顔画像の前記検出結果を取得することに用いられる検出結果取得サブモジュールと、を含む。

【0015】

１つの可能な実現形態において、前記検出結果取得サブモジュールは、
前記局所エリア類似性集合を顔画像検出モデルの偽造顔画像判定ネットワークに入力して、前記偽造顔画像判定ネットワークから出力された前記目標顔画像に対応する偽造顔画像確率を取得することに用いられる偽造確率取得ユニットと、
前記偽造顔画像確率に基づいて、前記目標顔画像が偽造顔画像であるか否かを判定することに用いられる偽造顔画像判定ユニットと、を含み、
前記顔画像検出モデルは、顔画像サンプル、及び前記顔画像サンプルに対応する顔画像サンプルラベルのトレーニングによって獲得される。

【0016】

１つの可能な実現形態において、前記装置は、
前記目標顔画像が偽造顔画像であることに応答して、前記目標顔画像の前記融合特徴に基づいて、前記目標顔画像に対応する偽造顔エリアを取得することに用いられる偽造顔エリア取得モジュールをさらに含む。

【0017】

さらなる別の態様では、コンピュータ機器に用いられる、モデルトレーニング装置を提供し、顔画像検出モデルは、アテンション融合ネットワークと、偽造顔画像判定ネットワークと、デコーダとを含み、前記アテンション融合ネットワークは、顔画像の空間領域特徴、及び周波数領域特徴に基づいて、前記顔画像の融合特徴を取得することに用いられ、前記装置は、
画像サンプルセットを取得することに用いられる画像サンプルセット取得モジュールであって、前記画像サンプルセット中に少なくとも２つの顔画像サンプルペアが含まれ、前記顔画像サンプルペア中に顔画像正サンプルと顔画像負サンプルとが含まれ、各顔画像サンプルは対応する顔画像サンプルラベルを有し、前記顔画像サンプルラベルは真実の顔ラベルと偽造顔ラベルとを含む、画像サンプルセット取得モジュールと、
前記画像サンプルセットによって、前記顔画像検出モデルをトレーニングすることに用いられるモデルトレーニングモジュールと、を含み、
前記顔画像検出モデルは、目標顔画像を取得し、前記目標顔画像に対して周波数領域変換を行って、前記目標顔画像の周波数領域画像を獲得し、前記目標顔画像に基づいて特徴抽出を行って、前記目標顔画像の空間領域特徴を獲得し、前記周波数領域画像に基づいて特徴抽出を行って、前記目標顔画像の周波数領域特徴を獲得し、前記空間領域特徴と前記周波数領域特徴とを融合して、前記目標顔画像の融合特徴を獲得し、前記目標顔画像の融合特徴に基づいて、前記目標顔画像の検出結果を取得するという操作を実行することに用いられ、前記検出結果は前記目標顔画像が偽造顔画像であるか否かを指示することに用いられる。

【0018】

１つの可能な実現形態において、前記モデルトレーニングモジュールは、
前記画像サンプルセットにおける少なくとも２つの前記顔画像サンプルペアに基づいて、各前記顔画像サンプルペアに対応する偽造顔エリア画像を取得することに用いられる偽造顔エリア画像取得サブモジュールと、
各前記偽造顔エリア画像の真実の局所エリア類似性集合を取得することに用いられる類似性集合取得サブモジュールと、
各前記顔画像サンプル、及び各前記顔画像サンプルに対応するトレーニングラベルに基づいて、顔画像検出モデルをトレーニングすることに用いられるモデルトレーニングサブモジュールであって、前記トレーニングラベルは前記顔画像サンプルラベル、前記偽造顔エリア画像、及び前記偽造顔エリア画像の真実の局所エリア類似性集合を含む、モデルトレーニングサブモジュールと、を含む。

【0019】

１つの可能な実現形態において、前記モデルトレーニングサブモジュールは、
各前記顔画像サンプルを前記顔画像検出モデルに入力して、各前記顔画像サンプルに対応する予測結果を獲得することに用いられる予測結果取得ユニットであって、前記予測結果は予測顔画像サンプルラベル、予測偽造顔エリア画像、及び予測局所エリア類似性を含む、予測結果取得ユニットと、
各前記顔画像サンプルに対応する前記トレーニングラベル、及び各前記顔画像サンプルに対応する前記予測結果に基づいて、損失関数を計算することに用いられる損失関数計算ユニットと、
前記損失関数に基づいて、顔画像検出モデルに対してパラメータ更新を行うことに用いられるモデルパラメータ更新ユニットと、を含む。

【0020】

別の態様では、コンピュータ機器を提供し、前記コンピュータ機器はプロセッサと、メモリとを含み、前記メモリには少なくとも１つの命令、少なくとも１つのプログラムセグメント、コードセット、又は命令セットが記憶され、前記少なくとも１つの命令、前記少なくとも１つのプログラムセグメント、前記コードセット、又は命令セットが前記プロセッサによりロードされ、かつ実行されることで、前記画像検出方法を実現する。

【0021】

【0022】

別の態様では、コンピュータ可読記憶媒体を提供し、前記コンピュータ可読記憶媒体には少なくとも１つのコンピュータプログラムが記憶され、前記コンピュータプログラムがプロセッサによりロードされ、かつ実行されることで、前記画像検出方法を実現する。

【0023】

別の態様では、コンピュータ可読記憶媒体を提供し、前記コンピュータ可読記憶媒体には少なくとも１つのコンピュータプログラムが記憶され、前記コンピュータプログラムがプロセッサによりロードされ、かつ実行されることで、前記モデルトレーニング方法を実現する。

【0024】

別の態様では、コンピュータプログラム製品、又はコンピュータプログラムを提供し、該コンピュータプログラム製品、又はコンピュータプログラムはコンピュータ命令を含み、該コンピュータ命令はコンピュータ可読記憶媒体において記憶される。コンピュータ機器のプロセッサはコンピュータ可読記憶媒体から該コンピュータ命令を読み取り、プロセッサは該コンピュータ命令を実行し、該コンピュータ機器に前記各種の選択可能な実現形態において提供された画像検出方法を実現させる。

【0025】

【0026】

本願が提供する技術的手段は以下の有益な効果を含むことができる。

【0027】

目標顔画像の空間領域と周波数領域上の特徴情報を取得し、かつ目標顔画像の空間領域と周波数領域上の特徴情報に応じて目標顔の融合特徴を取得し、該融合特徴に基づいて該目標顔画像に対して偽造顔認識を行うことによって、顔画像の検出過程において、画像の空間領域と周波数領域上の特徴を総合的に考慮し、同時に両者の特徴情報を融合して顔画像の融合特徴を取得し、取得された目標顔画像の融合特徴をより正確にし、さらに該融合特徴を利用して取得された目標顔画像の検出結果をより正確にする。

【0028】

理解すべきであるように、以上の一般的な記述、及び後述の詳細な記述は例示的で解釈的なものに過ぎず、本願を制限するものではない。

【図面の簡単な説明】

【0029】

【図1】本願の１つの例示的な実施例が提供する画像検出システムの模式図を示す。

【図2】本願の１つの例示的な実施例が提供する画像検出方法のフローチャートを示す。

【図3】１つの例示的な実施例に従って示される顔画像検出モデルトレーニング、及び顔画像検出のフレームワーク図である。

【図4】本願の１つの例示的な実施例が提供する顔画像検出モデルのトレーニング方法のフローチャートを示す。

【図5】本願の１つの例示的な実施例が提供する顔画像検出モデルトレーニング、及び顔画像検出方法のフローチャートを示す。

【図6】本願の１つの例示的な実施例が提供する顔画像サンプルの模式図を示す。

【図7】本願の１つの例示的な実施例が提供するアテンション抽出サブネットワークの動作模式図を示す。

【図8】本願の１つの例示的な実施例が提供する顔画像検出過程の模式図を示す。

【図9】本願の１つの例示的な実施例が提供する画像検出装置のブロック図を示す。

【図10】本願の１つの例示的な実施例が提供するモデルトレーニング装置のブロック図を示す。

【図11】本願の１つの例示的な実施例に示されるコンピュータ機器の構造ブロック図を示す。

【図12】本願の１つの例示的な実施例に示されるコンピュータ機器の構造ブロック図を示す。

【発明を実施するための形態】

【0030】

図１は、本願の１つの例示的な実施例が提供する画像検出システムの模式図を示し、図１に示されるように、該システムはサーバ１１０と、端末１２０とを含む。

【0031】

ここで、上記サーバ１１０は独立した物理サーバであってもよく、複数の物理サーバで構成されるサーバクラスタ、又は分散型システムであってもよい。

【0032】

上記端末１２０は、顔画像検出機能を有する端末であり、例えば、端末１２０は、スマートフォン、タブレットコンピュータ、電子書籍リーダー、スマートメガネ、スマートウォッチ、スマートテレビ、スマート車載機器、ＭＰ３プレーヤー（ＭｏｖｉｎｇＰｉｃｔｕｒｅＥｘｐｅｒｔｓＧｒｏｕｐ（ＭＰＥＧ）ＡｕｄｉｏＬａｙｅｒＩＩＩ、動画専門家圧縮標準オーディオレベル３）、ＭＰ４（ＭｏｖｉｎｇＰｉｃｔｕｒｅＥｘｐｅｒｔｓＧｒｏｕｐ（ＭＰＥＧ）ＡｕｄｉｏＬａｙｅｒＩＶ、動画専門家圧縮標準オーディオレベル４）プレーヤー、ラップトップポータブルコンピュータ、及びデスクトップコンピュータ等であってもよい。

【0033】

選択可能に、上記システムには１つ、又は複数のサーバ１１０、及び複数の端末１２０が含まれる。本願の実施例はサーバ１１０、及び端末１２０の個数を制限しない。

【0034】

端末、及びサーバは通信ネットワークを介して連結される。選択可能に、通信ネットワークは有線ネットワーク、又は無線ネットワークである。

【0035】

選択可能に、上記無線ネットワーク、又は有線ネットワークは標準通信技術、及び／又はプロトコルを使用する。ネットワークは通常、インターネットであるが、いかなるネットワークであってもよく、ローカルエリアネットワーク（ＬｏｃａｌＡｒｅａＮｅｔｗｏｒｋ、ＬＡＮ）、メトロポリタンエリアネットワーク（ＭｅｔｒｏｐｏｌｉｔａｎＡｒｅａＮｅｔｗｏｒｋ、ＭＡＮ）、ワイドエリアネットワーク（ＷｉｄｅＡｒｅａＮｅｔｗｏｒｋ、ＷＡＮ）、移動、有線又は無線ネットワーク、専用ネットワーク、又は仮想専用ネットワークのいかなる組み合わせをも含むが、これらに限定されない。いくつかの実施例において、ハイパーテキストマークアップ言語（ＨｙｐｅｒＴｅｘｔＭａｒｋ－ｕｐＬａｎｇｕａｇｅ、ＨＴＭＬ）、拡張可能マークアップ言語（ＥｘｔｅｎｓｉｂｌｅＭａｒｋｕｐＬａｎｇｕａｇｅ、ＸＭＬ）等を含む技術、及び／又はフォーマットを使用してネットワークを介して交換されたデータを代表する。この他、例えばセキュアソケットレイヤー（ＳｅｃｕｒｅＳｏｃｋｅｔＬａｙｅｒ、ＳＳＬ）、トランスポートレイヤーセキュリティ（ＴｒａｎｓｐｏｒｔＬａｙｅｒＳｅｃｕｒｉｔｙ、ＴＬＳ）、仮想専用ネットワーク（ＶｉｒｔｕａｌＰｒｉｖａｔｅＮｅｔｗｏｒｋ、ＶＰＮ）、インターネットプロトコルセキュリティ（ＩｎｔｅｒｎｅｔＰｒｏｔｏｃｏｌＳｅｃｕｒｉｔｙ、ＩＰｓｅｃ）等の通常の暗号化技術を使用して、すべての又はいくつかのリンクを暗号化することもできる。別のいくつかの実施例において、カスタマイズ、及び／又は専用データ通信技術を使用して上記データ通信技術を代替、又は補充することもできる。本願はここでは制限しない。

【0036】

図２は、本願の１つの例示的な実施例が提供する画像検出方法のフローチャートを示し、該方法はコンピュータ機器により実行され、該コンピュータ機器は端末、又はサーバとして実現されてもよく、該端末、又はサーバは図１に示される端末１２０、又はサーバ１１０であってもよい。図２に示されるように、該画像検出方法は以下のステップを含む。

【0037】

ステップ２１０：目標顔画像を取得する。

【0038】

ここで、該目標顔画像は、顔を含む静的画像であってもよく、又は、顔を含む動的画像であってもよく、該目標顔画像が静的画像であるときに、該目標顔画像はビデオ中から取得された顔を含むビデオフレーム画像であってもよく、又は、端末の画像収集機器によって取得された顔画像であってもよく、又は、コンピュータ機器によりローカルに記憶された顔画像等であってもよく、該目標顔画像が動的画像であるときに、該目標顔画像はビデオ中からキャプチャされた連続した顔画像を含む動的画像であってもよく、又は、コンピュータ機器によりローカルに記憶された顔を含む動的画像等であってもよい。本願は目標顔画像の取得方式、及びタイプを制限しない。

【0039】

１つの可能な実現形態において、コンピュータ機器により取得された目標顔画像の数は１枚、又は複数枚である。

【0040】

例えば、コンピュータ機器がビデオ中に出現する顔の偽造確率を判定するときに、ビデオにおける顔が偽造顔であるか否かを検出する精度を向上させるために、ビデオにおける各ビデオフレームを複数回サンプリングして、顔を含む複数枚の顔画像を獲得し、その後、複数枚の顔画像が偽造顔であるか否かを検出する検出結果に基づいて、該複数枚の顔画像に対応する顔ビデオが偽造顔ビデオであるか否かを判定することができる。

【0041】

顔画像検出オブジェクトが顔ビデオであることに応答して、入力された顔ビデオに対しては、ＯｐｅｎＣＶによって該顔ビデオのビデオフレームを等間隔でサンプリングして、顔ビデオにおける複数枚の顔画像を取得することができる。ここで、同一のビデオの異なるビデオフレームにおける顔画像は、身元識別子の異なる顔画像であってもよい。

【0042】

ステップ２２０：目標顔画像に基づいて、目標顔画像の周波数領域画像、及び目標顔画像の空間領域特徴を獲得する。周波数領域画像は目標顔画像に対して周波数領域変換を行って得られた画像であり、空間領域特徴は目標顔画像に対して特徴抽出を行って得られた特徴である。

【0043】

１つの可能な実現形態において、コンピュータ機器は、目標顔画像に対して周波数領域変換を行って、目標顔画像の周波数領域画像を獲得する。コンピュータ機器は、目標顔画像に基づいて特徴抽出を行って、目標顔画像の空間領域特徴を獲得する。

【0044】

画像は空間ドメインにおいて１つ１つの画素点として表現され、これらの画素点は離散的な２次元信号に相当するため、空間領域を周波数領域に転化するときに、周波数領域転化方法を利用して離散的な２次元信号を２次元座標上の振幅変化に転化する必要がある。従って、目標顔画像に対して周波数領域変換を行って、目標顔画像の周波数領域画像を獲得する必要がある。

【0045】

ここで、空間ドメイン（ＳｐａｔｉａｌＤｏｍａｉｎ）は画像空間（ＩｍａｇｅＳｐａｃｅ）とも呼ばれ、画像の画素からなる空間である。画像空間において長さ（距離）を独立変数として画素値を直接処理することは空間ドメイン処理と呼ばれる。周波数ドメイン（ＳｐａｔｉａｌＦｒｅｑｕｅｎｃｙＤｏｍａｉｎ）とは、周波数（波数）を独立変数として画像の特徴を記述することを指し、１枚の予想される画像の画素値の空間的な変化を、異なる振幅、空間周波数、及び位相を有する単純な振動関数の線形重畳に分解することができ、画像における各種の周波数成分の組成、及び分布は空間スペクトルと呼ばれる。このように画像の周波数特徴を分解、処理、及び分析することは、周波数ドメイン処理、又は波数ドメイン処理と呼ばれる。

【0046】

周波数ドメイン処理は主に、例えば画像復元、画像再構成、放射変換、エッジ強化、画像鮮鋭化、画像平滑化、ノイズ抑制、スペクトル分析、テクスチャ分析等の処理、及び分析のような画像の空間周波数に関連する処理に用いられる。

【0047】

本願の実施例における空間領域は空間ドメインを表し、周波数領域は周波数ドメインを表す。

【0048】

本願の実施例において、コンピュータ機器は、目標顔画像に対して特徴抽出を行って、該目標顔画像の空間領域特徴を獲得することができる。

【0049】

ステップ２３０：周波数領域画像に基づいて特徴抽出を行って、目標顔画像の周波数領域特徴を獲得する。

【0050】

ここで、空間領域と周波数領域は画像情報を取得するために異なる視点を提供する。空間領域において、画像ｆ（ｘ，ｙ）は２次元空間における矩形エリア上に定義された離散関数であり、ｆ（ｘ，ｙ）を振幅変化のＥｒｗｉｎ信号とみなすと、周波数領域転化方法によって周波数領域において画像を処理し、それにより画像の周波数領域における比較的際立った特性を取得することができる。

【0051】

ここで、該周波数領域転化方法はフーリエ変換、離散コサイン変換、ウォルシュ変換、及びウェーブレット変換等を含んでもよい。

【0052】

ステップ２４０：空間領域特徴と周波数領域特徴とを融合して、目標顔画像の融合特徴を獲得する。

【0053】

ステップ２５０：目標顔画像の融合特徴に基づいて、目標顔画像の検出結果を取得し、該検出結果は目標顔画像が偽造顔画像であるか否かを指示することに用いられる。

【0054】

偽造顔画像における顔は加工した顔であってもよく、例えば、五官における全部、又は一部を加工した後の顔である。本願の実施例において、偽造顔画像は、偽造顔画像に対応するオリジナルの顔画像における顔は加工しており、オリジナルの顔画像における背景はそのまま保持した後に形成された顔画像である。偽造顔画像は顔編集、表情編集等として表現されてもよい。

【0055】

選択可能に、該偽造顔画像は、ＡＩ顔加工技術に基づいて生成された偽造顔画像である。

【0056】

本願が提供する方法は、静的顔画像における顔が偽造顔であるか否かを検出することができ、ビデオ、又は動的顔画像における顔が偽造顔であるか否かを検出することを実現することもできる。

【0057】

以上のように、本願の実施例が提供する画像検出方法は、目標顔画像の空間領域と周波数領域上の特徴情報を取得し、かつ目標顔画像の空間領域と周波数領域上の特徴情報に応じて目標顔の融合特徴を取得し、該融合特徴に基づいて該目標顔画像に対して偽造顔認識を行うことによって、顔画像の検出過程において、画像の空間領域と周波数領域上の特徴を総合的に考慮し、同時に両者の特徴情報を融合して顔画像の融合特徴を取得し、取得された目標顔画像の融合特徴をより正確にし、さらに該融合特徴を利用して取得された目標顔画像の検出結果をより正確にする。

【0058】

本願の実施例に記載の手段において、コンピュータ機器は、同一の顔画像の空間領域特徴と周波数領域特徴に基づいて、該顔画像の融合特徴を取得し、かつ該融合特徴に基づいて顔画像が偽造顔画像であるか否かの判断を実現することができ、それにより顔画像の真偽を検出する精度を向上させる。上記手段は、例えば顔認識によるユーザ身元の検証、及びピクチャビデオの鑑別等のシーンに応用されてもよい。

【0059】

例えば、上記手段の応用シーンは以下の複数種を含むがこれらに限定されない。

【0060】

１、仮想リソース置換業界のシーン
例えば、仮想リソース置換業務の取り扱いを行うシーンにおいて、ユーザが大量の仮想リソースを転送する必要があるときに、仮想リソース置換の安全性を保証し、ユーザ身元を認証することを実現するために、ユーザに対して顔画像、又は顔ビデオの取得、及びリアルタイム検出を行う必要がある。このとき、該仮想リソースの転送操作を行うことをサポートしないユーザは顔画像、又は顔ビデオを処理し、次に該仮想リソースの転送操作を行うことをサポートするユーザになりすまして虚偽の身元情報認証を行い、そしてコンピュータ機器が該顔画像が偽の顔画像であることを正確に検出しないとすれば、ユーザにはリスクをもたらすことになる。このとき、本願が提供する顔画像検出方法によって、ユーザの身元認証を行う顔画像、又は顔ビデオにおける１枚、又は複数枚の画像を目標顔画像として取得することができ、目標顔画像に対して周波数領域変換を行って、目標顔画像の周波数領域画像を獲得し、目標顔画像と周波数領域画像に基づいて目標顔画像の空間領域特徴と周波数領域特徴をそれぞれ抽出し、その後、該空間領域特徴と周波数領域特徴とを融合して、目標顔画像の融合特徴を獲得し、該融合特徴に基づいて目標顔画像に対して偽造顔画像であるか否かの認証を行うことで、ユーザがアップロードした顔画像、又は顔ビデオの真実性を判定する。検出結果が該顔画像、又は顔ビデオにおける顔画像が真実の顔画像であると指示したときに、すなわち該顔画像、又は顔ビデオが真実の画像、又は真実のビデオであると確認したときに、該顔画像、又は顔ビデオにおけるユーザ身元に対してさらに身元認証を行い、それによりユーザの仮想リソースの安全を保障する。

【0061】

２、ネットワークを使った友達作りのシーン
ネットワークを使ったオンライン友達作りは現在社交の重要な手段となっており、ネットワークを使った友達作りを行うときには、顔偽造技術によって顔画像、又は顔ビデオを置き換えてネットワークを使った友達作りの興味深さを高めることができる。例えば、Ｄｅｅｐｆａｋｓ等の顔加工技術によって顔加工操作を実現することができるが、同時に、ネットワークを使った友達作りの真実性が比較的低くなる。ネットワークを使った友達作り過程において、ネットワーク上のオンライン友達の顔画像、又はリアルタイムオンラインビデオにおける顔画像の真実性に対する認証を実現するために、本願が提供する顔画像検出方法によって、ネットワークを使った友達作り過程で取得された顔画像、又はリアルタイムオンラインビデオにおける顔の真実性を検出することができる。現在の顔画像、又は顔ビデオが偽造された顔画像、又は顔ビデオであると判定した後に、顔画像、又は顔画像上に偽造提示識別子を表示することができ、例えば、偽造顔透かし等を付け、それによりネットワークを使ったオンライン友達作りの興味深さを保持すると同時に、ユーザに真実の情報をフィードバックする。

【0062】

本願に関する手段は、顔画像検出モデルトレーニング段階と顔画像検出段階とを含む。図３は、１つの例示的な実施例に従って示される顔画像検出モデルトレーニング、及び顔画像検出のフレームワーク図である。図３に示されるように、顔画像検出モデルトレーニング段階では、顔画像検出モデルトレーニング機器３１０は、予め設定されたトレーニングサンプル（画像サンプルセット、及びトレーニングラベルを含み、該トレーニングラベルは各顔サンプル画像の画像サンプルラベル、偽造顔エリア画像、及び偽造顔エリア画像の真実の局所エリア類似性集合を含む）によって、顔画像検出モデルを得る。顔画像検出段階では、顔画像検出機器３２０は、該顔画像検出モデルに基づき、入力された目標顔画像に対して偽造顔確率検出を行い、目標顔画像が偽造顔画像であるか否かを判断する。

【0063】

ここで、上記顔画像検出モデルトレーニング機器３１０と顔画像検出機器３２０はコンピュータ機器であってもよく、例えば、該コンピュータ機器はパソコン、サーバ等の固定式コンピュータ機器であってもよく、又は、該コンピュータ機器はタブレットコンピュータ、電子書籍リーダー等の移動式コンピュータ機器であってもよい。

【0064】

選択可能に、上記顔画像検出モデルトレーニング機器３１０と顔画像検出機器３２０は同一の機器であってもよく、又は、顔画像検出モデルトレーニング機器３１０と顔画像検出機器３２０は異なる機器であってもよい。そして、顔画像検出モデルトレーニング機器３１０と顔画像検出機器３２０が異なる機器であるときに、顔画像検出モデルトレーニング機器３１０と顔画像検出機器３２０は同一タイプの機器であってもよく、例えば顔画像検出モデルトレーニング機器３１０と顔画像検出機器３２０はいずれもサーバであってもよく、又は顔画像検出モデルトレーニング機器３１０と顔画像検出機器３２０は異なるタイプの機器であってもよく、例えば顔画像検出機器３２０はパソコン、又は端末であってもよいが、顔画像検出モデルトレーニング機器３１０はサーバ等であってもよい。本願の実施例は、顔画像検出モデルトレーニング機器３１０と顔画像検出機器３２０の具体的なタイプを限定しない。

【0065】

図４は、本願の１つの例示的な実施例が提供する顔画像検出モデルのトレーニング方法のフローチャートを示し、該顔画像検出モデルは、アテンション融合ネットワークと、偽造顔画像判定ネットワークと、デコーダとを含む。該アテンション融合ネットワークは、顔画像の空間領域特徴、及び周波数領域特徴に基づいて、上記顔画像の融合特徴を取得することに用いられる。該方法はコンピュータ機器により実行されてもよく、該コンピュータ機器は端末、又はサーバとして実現されてもよく、該端末、又はサーバは図１に示される端末、又はサーバであってもよい。図４に示されるように、該顔画像検出モデルのトレーニング方法は以下のステップを含む。

【0066】

ステップ４１０：画像サンプルセットを取得し、該画像サンプルセット中には少なくとも２つの顔画像サンプルペアが含まれ、該顔画像サンプルペアには顔画像正サンプルと顔画像負サンプルとが含まれ、各顔画像サンプルは対応する顔画像サンプルラベルを有し、該顔画像サンプルラベルは真実の顔ラベルと偽造顔ラベルとを含む。

【0067】

１つの可能な実現形態において、画像サンプルセットには顔画像正サンプルセットと顔画像負サンプルセットとが含まれる。

【0068】

ここで、顔画像正サンプルセットにおける顔画像サンプルは真実の顔画像サンプルを表してもよく、顔画像サンプルセットにおける顔負画像サンプルは偽造顔画像サンプルを表してもよい。顔画像正サンプルセットにおける真実の顔画像サンプルは顔画像負サンプルセットにおける偽造顔画像サンプルと１対１で対応し、顔画像正サンプルセットにおける真実の顔画像サンプルは顔画像負サンプルセットにおける対応する偽造顔画像サンプルと１組の顔画像サンプルペアをなしている。

【0069】

１つの可能な実現形態において、顔画像サンプルを取得するときに、コンピュータ機器はビデオにおける顔を含むビデオフレームを顔画像サンプルとして取得することができる。該過程は、顔ビデオを取得し、該顔ビデオとはビデオにおける顔画像を含むビデオを指し、顔ビデオに対してサンプリング処理を行って、顔ビデオフレームを獲得し、該顔ビデオフレームはビデオにおける顔を含むビデオフレームを指示するために用いられ、該ビデオフレームに対して顔検出を行って、該ビデオフレームにおける顔エリアを取得し、該顔エリアに基づいて顔画像サンプルを取得することで実現される。

【0070】

サンプルとしての顔加工ビデオデータセットの多くには、カテゴリのアンバランス現象が存在する。すなわち偽造ビデオの数が往々に真実のビデオの数よりも多いため、顔画像サンプルに対応する顔ビデオを取得するときに、ダウンサンプリング方式によって顔ビデオの取得を行うことができる。すなわち各々の真実のビデオに対応するすべての偽造ビデオから１つの偽造ビデオをサンプリングし、それによりトレーニングサンプルセットにおける正負サンプルのソースのバランスを保証する。すなわち各々の真実の顔ビデオに対しては、画像サンプルの収集を行うときに、それに対応する１つの偽造顔ビデオのみを取得して顔画像負サンプルの収集を行う。

【0071】

ここで、サンプル画像収集を行う過程において、コンピュータ機器は、真実の顔ビデオと偽造顔ビデオのフレーム順序に応じて、各々のビデオに含まれる顔画像ビデオフレーム中からＮフレームを等間隔でサンプリングして、トレーニングサンプルセットにおける顔画像正サンプルセット、及び顔画像負サンプルセットを構成することができる。

【0072】

１つの可能な実現形態において、顔画像サンプルラベルは０と１で表される。

【0073】

例えば、０は顔画像サンプルラベルが真実の顔ラベルであることを表し、１は顔画像サンプルラベルが偽造顔ラベルであることを表す。

【0074】

ステップ４２０：画像サンプルセットによって、顔画像検出モデルをトレーニングする。

【0075】

ここで、該顔画像検出モデルは、目標顔画像を取得し、目標顔画像に対して周波数領域変換を行って、目標顔画像の周波数領域画像を獲得し、目標顔画像に基づいて特徴抽出を行って、目標顔画像の空間領域特徴を獲得し、周波数領域画像に基づいて特徴抽出を行って、目標顔画像の周波数領域特徴を獲得し、空間領域特徴と周波数領域特徴とを融合して、目標顔画像の融合特徴を獲得し、目標顔画像の融合特徴に基づいて、目標顔画像の検出結果を取得するという操作を実行することに用いられてもよく、該検出結果は目標顔画像が偽造顔画像であるか否かを指示することに用いられる。

【0076】

ここで、該偽造顔画像判定ネットワークは該目標顔画像が偽造顔画像であるか否かを判定することに用いられてもよく、該デコーダは目標顔画像における偽造顔エリア画像を生成するために用いられてもよい。

【0077】

以上のように、本願の実施例が提供する顔画像検出モデルのトレーニング方法は、画像サンプルセットに基づいてアテンション融合ネットワーク、偽造顔画像判定ネットワーク、及びデコーダを含む顔画像検出モデルを獲得することによって、顔画像の検出過程において、上記顔画像検出モデルを利用して顔画像の空間領域と周波数領域上の特徴を総合的に考慮し、同時に両者の特徴情報を融合して顔画像の融合特徴を取得し、取得された目標顔画像の融合特徴をより正確にし、さらに該融合特徴を利用して取得された目標顔画像の検出結果をより正確にする。

【0078】

図５は、本願の１つの例示的な実施例が提供する顔画像検出モデルトレーニング、及び顔画像検出方法のフローチャートを示す。該方法はコンピュータ機器により実行され、該コンピュータ機器は端末、又はサーバとして実現されてもよく、該端末、又はサーバは図１に示されるシステムにおける端末、又はサーバであってもよい。図５に示されるように、該顔画像検出モデルトレーニング、及び顔画像検出方法は以下のステップを含む。

【0079】

ステップ５１０：画像サンプルセットを取得する。該画像サンプルセットには少なくとも２つの顔画像サンプルペアが含まれ、該顔画像サンプルペア中に顔画像正サンプルと顔画像負サンプルとが含まれ、各顔画像サンプルは対応する顔画像サンプルラベルを有し、顔画像サンプルラベルは真実の顔ラベルと偽造顔ラベルとを含む。

【0080】

ステップ５２０：画像サンプルセットによって、顔画像検出モデルをトレーニングする。

【0081】

１つの可能な実現形態において、コンピュータ機器は、ｍｉｎｉ－ｂａｔｃｈの方法に基づいて、トレーニングセット中からＢ枚の顔画像サンプル、及びＢ枚の顔画像サンプルと対応する偽造顔エリア画像をランダムにサンプリングすることができる。該偽造顔エリア画像は、顔画像サンプルペアに基づいて取得された各顔画像サンプルに対応する偽造エリア画像であり、該顔画像サンプルは、顔画像正サンプルと顔画像負サンプルとを含み、かつサンプリングして獲得された顔画像サンプル、及び対応する偽造顔エリア画像に対してデータ強化処理を行うことができる。

【0082】

例えば、コンピュータ機器は、ランダム反転、ぼかし処理、ＪＰＥＧ圧縮等の操作によって顔画像サンプル、及び偽造顔エリア画像を処理し、処理された顔画像サンプル、及び偽造顔エリア画像に基づいて顔画像検出モデルをトレーニングすることができる。

【0083】

顔画像検出モデルをトレーニングする過程において、該方法は以下のステップをさらに含んでもよい。

【0084】

Ｓ５２１：画像サンプルセットにおける少なくとも２つの顔画像サンプルペアに基づいて、各顔画像サンプルペアに対応する偽造顔エリア画像を取得する。

【0085】

本願の実施例において、偽造顔エリアとは、顔画像正サンプルと顔画像負サンプルにおける、真実の顔画像とは差異が存在するエリアを指す。

【0086】

顔画像正サンプルは真実の顔画像とは差異がないため、顔画像正サンプルに対応する偽造顔エリア画像の画素値は全部０であってもよい。

【0087】

１つの可能な実現形態において、顔画像負サンプルの偽造顔エリアに対して言えば、顔画像負サンプルの偽造顔エリアは、対応する顔画像正サンプルと顔画像負サンプルとの間の画素差異によって取得されてもよい。

【0088】

例えば、図６は、本願の１つの例示的な実施例が提供する顔画像サンプルの模式図を示す。図６に示されるように、顔画像６１０は顔画像正サンプルであり、すなわち真実の顔画像であり、顔画像セット６２０における顔画像は顔画像６１０の顔画像負サンプルであり、顔画像正サンプルと顔画像負サンプルとの間の画素差異に基づいて偽造顔エリアを取得することができ、該獲得された偽造顔エリア画像は偽造顔エリア画像セット６３０において示される偽造顔エリア画像であってもよい。

【0089】

ここで、顔画像サンプルにおける真実の部分、すなわち顔画像サンプルにおける、真実の顔画像と同じ画素部分は０を用いて表されてもよく、顔画像サンプルにおける偽造部分、すなわち顔画像サンプル中の、真実の顔画像サンプルと差異が存在する画素部分は１を用いて表されてもよい。

【0090】

顔画像正サンプルと真実の顔画像との間に差異が存在しないため、顔画像正サンプルに対応する偽造顔エリア画像の画素値をすべて０に設定し、対応して図６における偽造顔エリア画像６３１として表示する。

【0091】

Ｓ５２２：各偽造顔エリア画像の真実の局所エリア類似性集合を取得する。

【0092】

上記過程は以下のように、コンピュータ機器は各偽造顔エリア画像に対してエリア分割を行って、各偽造顔エリア画像に対応する少なくとも２つのエリアを獲得し、コンピュータ機器は少なくとも２つのエリアのそれぞれに対応する偽造顔面積の割合を取得し、コンピュータ機器は、各エリアのそれぞれに対応する偽造顔面積の割合に基づいて、各エリアと他のエリアとの間のユークリッド距離の集合を計算し、各偽造顔エリア画像の真実の局所エリア類似性集合を取得することにより実現されてもよい。

【0093】

ここで、偽造顔面積の割合に対する計算は以下のように、コンピュータ機器が各エリアにおける偽造画素の個数を取得し、次に各エリアにおける偽造画素の個数が対応するエリアにおける総画素の個数を占める割合を、各エリアに対応する偽造顔面積の割合として取得することにより実現されてもよい。

【0094】

１つの可能な実現形態において、コンピュータ機器が顔画像サンプルに対して行うエリア分割方法は等ピッチ分割である。

【0095】

例えば、コンピュータ機器は、顔画像サンプルを５ｘ５個のエリアに分割し、その後、各エリアにおける偽造顔面積の割合を利用して各エリアと他のエリアとのユークリッド距離を計算することができる。

【0096】

ここで、各エリアと他のエリアとの間のユークリッド距離とは、各エリアに対応する偽造顔面積の割合と他のエリアに対応する偽造顔面積の割合との間のユークリッド距離を指し、該計算式は、［数１］であってもよく、ここで、ｄ_ｉｊはユークリッド距離を表し、ｐ_ｉはｉ番目のエリアに対応する偽造顔面積の割合を表し、ｐ_ｊはｊ番目のエリアに対応する偽造顔面積の割合を表す。

【0097】

【数1】

【0098】

例えば、ｉ番目のエリアの偽造顔面積の割合は０．２５であり、ｊ番目のエリアの偽造顔面積の割合は０．５であり、その場合には、ｉ番目のエリアとｊ番目のエリアとの間のユークリッド距離は１／４であってもよい。

【0099】

ここで、該真実の局所エリア類似性は、各エリアと他のエリアとのユークリッド距離の計算に基づいて獲得された行列であってもよい。

【0100】

例えば、該行列のｉ行目ｊ列目の数値はｉ番目のエリアとｊ番目のエリアとの類似度距離を表す。ここで、該真実の局所エリア類似性の計算式はＳ_ｉｊ＝１－ｄ_ｉｊであり、ここで、Ｓ_ｉｊはｉ番目のエリアとｊ番目のエリアとの間の真実の局所エリア類似性を表す。

【0101】

Ｓ５２３：各顔画像サンプル、及び各顔画像サンプルに対応するトレーニングラベルに基づいて、顔画像検出モデルをトレーニングする。該トレーニングラベルは顔画像サンプルラベル、偽造顔エリア画像、及び偽造顔エリア画像の真実の局所エリア類似性集合を含む。

【0102】

１つの可能な実現形態において、上記過程は以下のように、コンピュータ機器は画像サンプルセットにおける各顔画像サンプルを顔画像検出モデルに入力して、各顔画像サンプルに対応する予測結果を獲得し、該予測結果は予測顔画像サンプルラベル、予測偽造顔エリア画像、及び予測局所エリア類似性を含み、コンピュータ機器は、各顔画像サンプルに対応するトレーニングラベル、及び各顔画像サンプルに対応する予測結果に基づいて、損失関数を計算し、コンピュータ機器は、該損失関数に基づいて、顔画像検出モデルに対してパラメータ更新を行うことにより実現される。

【0103】

顔画像検出モデルが応用されるときに目標顔画像を検出する精度を保証するために、モデルトレーニングを行う段階では、顔画像検出モデルを顔画像サンプルの予測結果（すなわち予測検出結果）に基づいて顔画像サンプルに対応するトレーニングラベルと同じにする、又は類似させる必要がある。そして顔画像検出モデルのトレーニング過程において複数回トレーニングを行って、顔画像検出モデルが収束するまで、顔画像検出モデルにおける各ネットワークにおける各モデルパラメータを更新し、それにより顔画像検出モデルに対するトレーニングを完了する。

【0104】

本願の実施例において、該損失関数は、分類に用いられるバイナリクロスエントロピー損失Ｌ_ｃｅ、デコーダに用いられるセグメンテーション損失Ｌ_ｄｅｔ、及び局所エリア類似性学習に用いられる類似性損失Ｌ_ｓｉｍを含んでもよい。３つの損失の重み付け加算に基づいて顔画像検出モデルの損失値を獲得し、各関数に対応する式は、［数２］

【0105】

【数2】

【0106】

であり、

【0107】

ここで、Ｌ_{ｔｏｔａｌ}は顔画像検出モデルの損失を表し、ｙと［数３］はそれぞれ顔画像サンプルラベルの真実値と予測値を表し、ｓと［数４］はそれぞれ局所エリア類似性の真実値と予測値を表し、Ｍと［数５］はそれぞれ局所エリア類似性集合の真実値と予測値を表し、Ｍ_ｉｊは局所エリア類似性集合のｉ行目ｊ列目の値を表し、λ_１とλ_２は異なる損失関数間を制御するバランス係数である。λ_１とλ_２の値はモデルトレーニングの異なるニーズに従って設定、及び調節されてもよく、例えば、本願の実施例において、λ_１とλ_２の値はそれぞれ１０と０に設定されてもよい。

【0108】

【数3】

【数4】

【数5】

【0109】

１つの可能な実現形態において、コンピュータ機器は、最適化アルゴリズムによって顔画像検出モデルにおける各ネットワークのパラメータを更新し、そして複数回の反復によって結果を最適化する。

【0110】

例えば、該最適化アルゴリズムはＡｄａｍアルゴリズムであってもよい。

【0111】

選択可能に、顔画像検出モデルのトレーニング過程において、コンピュータ機器には認証セットが設定され、認証セットの正確率に従ってモデルの選択、及び学習率の減衰を行うことで、顔画像検出モデルのオーバーフィッティングを防止する。

【0112】

顔画像検出モデルが顔認識の結果に基づいて顔画像の真偽を直接判断することに起因する顔画像の真偽に対する誤判断を防止するために、画像サンプルセットの構築を行うときに、コンピュータ機器は、異なる顔画像サンプルを対応する身元識別子と重ならないように設定することで、現在の顔画像サンプルの身元識別子が指定された身元識別子であると顔画像検出モデルによって判断された後に、顔画像を真実の顔、又は偽造顔に直接類別するという状況を回避することができる。

【0113】

例えば、モデルトレーニング過程において、身元識別子がＡの顔画像は複数あり、モデルトレーニングを行うときに、顔画像検出モデルが前回検出したときに、コンピュータ機器が身元識別子がＡの顔画像１が真実の顔画像であると判断し、次回に身元識別子がＡの顔画像２を入力するときに、該顔画像モデルは、該顔画像が真実の顔画像であると直接判定する可能性があり得る。

【0114】

ステップ５３０：目標顔画像を取得する。

【0115】

ここで、該目標顔画像は１枚の顔画像であってもよく、複数枚の顔画像を含む目標顔ビデオであってもよく、目標顔画像が目標顔ビデオとして実現されるときに、目標顔ビデオをサンプリングして、ビデオフレーム画像を獲得する。例えば、ＯｐｅｎＣＶを利用してビデオフレームを等間隔でサンプリングすることで、目標顔画像を獲得する。

【0116】

ここで、目標顔ビデオに対するサンプリングフレーム数が実際のニーズに従って増加、又は減少することで、異なる数のビデオ情報を取得することができる。顔ビデオに基づいて少なくとも２つのビデオフレーム画像を獲得した後に、顔検出技術に基づいて該少なくとも２つのビデオフレーム画像における顔エリアを認識し、かつクロッピングして、目標顔画像を獲得する。

【0117】

例えば、該顔検出技術はＭＴＣＮＮ技術を含んでもよい。

【0118】

１つの可能な実現形態において、コンピュータ機器は、顔検出技術に基づいて、獲得された顔画像を認識し、かつクロッピングして顔エリアを中心に拡大し、拡大した後の顔画像を目標顔画像として取得するようになる。

【0119】

例えば、コンピュータ機器は、顔検出技術に基づいて、獲得された顔画像を認識し、かつクロッピングして顔エリアを中心に１．２倍、１．５倍、又は２倍拡大した後、目標顔画像として取得することができる。上記拡大倍数は例示的なものに過ぎず、本願はこれを制限しない。

【0120】

ステップ５４０：目標顔画像に対して周波数領域変換を行って、目標顔画像の周波数領域画像を獲得する。

【0121】

１つの可能な実現形態において、コンピュータ機器は、離散コサイン変換によって目標顔画像に対する周波数領域変化を実現する。

【0122】

つまり、コンピュータ機器は、離散コサイン変換（ＤｉｓｃｒｅｔｅＣｏｓｉｎｅＴｒａｎｓｆｏｒｍ、ＤＣＴ）（Ｄ）によって目標顔画像を周波数領域空間に変換し、かつ画像の低周波情報をフィルタリング（Ｆ）し、それにより目標顔画像の高周波における偽造痕跡を拡大し、続いて逆離散コサイン変換（Ｄ^－１）によって畳み込みニューラルネットワークのトレーニングを容易にする周波数領域画像に変換する。

【0123】

又は、コンピュータ機器は、離散フーリエ変換、又は高速フーリエ変換等の方法によって周波数領域情報を抽出して、目標顔画像の周波数領域画像を獲得してもよく、本願は、目標顔画像の周波数領域画像を取得する方式を制限しない。

【0124】

ステップ５５０：目標顔画像に基づいて特徴抽出を行って、目標顔画像の空間領域特徴を獲得する。

【0125】

１つの可能な実現形態において、コンピュータ機器は、目標顔画像をエンコーダに入力し、エンコーダにおける畳み込みレイヤによって、目標顔画像に対して特徴抽出を行って、目標顔画像に対応する高解像度特徴を獲得し、エンコーダにおけるプーリングレイヤによって、高解像度特徴に対してダウンサンプリング処理を行って、目標顔画像の空間領域特徴を獲得する。

【0126】

上記ステップ５４０、及びステップ５５０の実行順序は限定されず、順次実行であってもよく、同期実行であってもよい。

【0127】

ステップ５６０：周波数領域画像に基づいて特徴抽出を行って、目標顔画像の周波数領域特徴を獲得する。

【0128】

１つの可能な実現形態において、コンピュータ機器は、目標顔画像の周波数領域画像をエンコーダに入力し、エンコーダにおける畳み込みレイヤによって、周波数領域画像に対して特徴抽出を行って、目標顔画像に対応する高解像度特徴を獲得し、エンコーダにおけるプーリングレイヤによって、高解像度特徴に対してダウンサンプリング処理を行って、目標顔画像の周波数領域特徴を獲得する。

【0129】

ステップ５７０：顔画像検出モデルのアテンション融合ネットワークによって、空間領域特徴と周波数領域特徴に対してアテンションメカニズムに基づく融合を行って、目標顔画像の融合特徴を獲得する。

【0130】

ここで、該顔画像モデルは、顔画像サンプル、及び顔画像サンプルに対応するトレーニングラベルのトレーニングによって獲得され、顔画像モデルをトレーニングする過程はステップ５１０、及びステップ５２０の関連説明を参照すればよいため、ここでは詳細な説明を省略する。

【0131】

アテンションメカニズム（ＡｔｔｅｎｔｉｏｎＭｅｃｈａｎｉｓｍ）は、本質的に、ネットワークによって自主的に学習された１組の重み係数によって、かつ「動的重み付け」の方式で、ユーザの関心のあるエリアを強調し、同時に無関係な背景エリアを抑制する１種のメカニズムである。コンピュータビジョン分野において、アテンションメカニズムは、ハードアテンション、及びソフトアテンションの２つの種類に大きく分けられてもよい。

【0132】

アテンションメカニズムは、ＲＮＮ（ＲｅｃｕｒｒｅｎｔＮｅｕｒａｌＮｅｔｗｏｒｋ、回帰型ニューラルネットワーク）においてよく運用されており、アテンションメカニズム付きのＲＮＮは、目標画像の一部の画素を処理するたびに、目標画像の全部の画素に従って処理するのではなく、現在状態の前の状態で注目された目標画像の一部の画素に従って処理することになり、タスクの処理の複雑さを軽減することができる。

【0133】

コンピュータ機器は、目標顔画像の空間領域特徴と周波数領域特徴を顔画像検出モデルのアテンション融合ネットワークに入力することによって、アテンション融合ネットワークから出力された目標顔画像の融合特徴を獲得する。ここで、該アテンション融合ネットワークはｎ個のレベルを含み、ｎは正整数である。目標顔画像の融合特徴を生成する過程において、上記過程は、
コンピュータ機器がアテンション融合ネットワークによって、ｎ個のレベルにおいて空間領域特徴と周波数領域特徴に対してアテンションメカニズムに基づく融合を行って、ｎ個のレベルに対応する中間融合特徴を獲得できることと、コンピュータ機器がｎ個のレベルに対応する中間融合特徴を合成して、目標顔画像の融合特徴を獲得できることと、を含む。

【0134】

ここで、該中間融合特徴とは、空間領域特徴と周波数領域特徴に対して異なるレベルのサブネットワークによってアテンション融合処理を行った後に、各レベルのサブネットワークから出力された目標顔画像の特徴を指してもよい。

【0135】

つまり、中間融合特徴は融合空間領域特徴と融合周波数領域特徴に基づいて獲得され、該融合空間領域特徴は、空間領域特徴と周波数領域特徴に対してアテンションメカニズムに基づく融合を行った後に獲得された空間領域上の特徴である。該融合周波数領域特徴は、空間領域特徴と周波数領域特徴に対してアテンションメカニズムに基づく融合を行った後に獲得された周波数領域上の特徴である。

【0136】

１つの可能な実現形態において、ｎ個のレベルにおけるｔ番目のレベルに対しては、ｔ番目のレベルにおいて、コンピュータ機器は、ｔ－１番目のレベルにおける融合空間領域特徴、及びｔ－１番目のレベルにおける融合周波数領域特徴をアテンション融合ネットワークに入力して、ｔ番目のレベルにおける融合空間領域特徴、及びｔ番目のレベルにおける融合周波数領域特徴を獲得する。次にｔ番目のレベルにおける融合空間領域特徴、及びｔ番目のレベルにおける融合周波数領域特徴を合成して、ｔ番目のレベルに対応する中間融合特徴を生成する。

【0137】

ここで、ｔ番目のレベルはｎ個のレベルのうちの任意の１つであり、１≦ｔ≦ｎであり、且つｔ、ｎはいずれも正整数である。

【0138】

つまり、ｔ番目のレベルに対しては、その入力は、ｔ－１番目のレベルにおける融合空間領域特徴、及びｔ－１番目のレベルにおける融合周波数領域特徴を含み、ｔ＝１のときに、その入力は目標顔画像に基づいて抽出された空間領域特徴、及び目標顔画像に対応する周波数領域画像に基づいて抽出された周波数領域特徴である。

【0139】

ここで、画像合成（ＩｍａｇｅＭｏｓａｉｃ）とは、空間的に重なる一連の画像を整列することによって、１つのシームレスで、高精細な画像を構成することを指し、画像合成後の画像は単一の画像よりも高い解像度、及びより大きな視野を有する。

【0140】

つまり、画像合成後の画像にはより多くの画像情報が含まれる。コンピュータ機器は、融合空間特徴と融合周波数領域特徴とを合成することによって、目標顔画像の空間領域と周波数領域上の総合情報、すなわち中間融合特徴を取得し、コンピュータ機器は、各レベルにおける中間融合特徴を合成することによって、目標顔画像の融合特徴を取得する。

【0141】

１つの可能な実現形態において、該アテンション融合ネットワークにはアテンション抽出サブネットワークが含まれ、入力された融合空間領域特徴（空間領域特徴）と融合周波数領域特徴（周波数領域特徴）に基づいて空間領域ストリーム中の対応する空間領域アテンションマップ、及び周波数領域ストリームに対応する周波数領域アテンションマップを取得する。それにより前のレベルにおける融合空間領域特徴、及び現在のレベルにおける空間領域アテンションマップに基づいて現在のレベルでの融合空間領域特徴を生成し、前のレベルにおける融合周波数領域特徴、及び現在のレベルでの周波数領域アテンションマップに基づいて現在のレベルでの融合周波数領域特徴を生成することに用いられる。該過程は以下のように実現され、
ｔ番目のレベルにおいて、コンピュータ機器は、ｔ－１番目のレベルにおける融合空間領域特徴、ｔ－１番目のレベルにおける融合周波数領域特徴をアテンション融合ネットワークにおけるアテンション抽出サブネットワークに入力して、アテンション抽出サブネットワークから出力された、ｔ番目のレベルにおける空間領域アテンションマップとｔ番目のレベルにおける周波数領域アテンションマップを取得し、コンピュータ機器は、ｔ－１番目のレベルにおける融合空間領域特徴、及びｔ番目のレベルにおける空間領域アテンションマップに基づいて、ｔ番目のレベルにおける融合空間領域特徴を生成し、コンピュータ機器は、ｔ－１番目のレベルにおける融合周波数領域特徴、及びｔ番目のレベルにおける周波数領域アテンションマップに基づいて、ｔ番目のレベルにおける融合周波数領域特徴を生成する。

【0142】

ここで、該空間領域アテンションマップは融合空間領域特徴の重みを指示することに用いられてもよく、該周波数領域アテンションマップは融合周波数領域特徴の重みを指示することに用いられてもよい。

【0143】

例示的には、図７は、本願の１つの例示的な実施例が提供するアテンション抽出サブネットワークの動作模式図を示す。図７に示されるように、該アテンション抽出サブネットワークは、コアサイズが１ｘ１の畳み込みレイヤ（Ｃｏｎｖ_１×１）、バッチ正規化レイヤ（ＢａｔｃｈＮｏｒｍａｌｉｚａｔｉｏｎ、ＢＮ）、線形整流関数（ＲｅＬＵ）、３ｘ３の畳み込みレイヤ（Ｃｏｎｖ_３×３）、及びＳｉｇｍｏｉｄ関数を含み、融合周波数領域特徴（周波数領域特徴）と融合空間領域特徴（空間領域特徴）に対して融合処理を行うときに、特徴Ａ_１ ^ｔマップの形式で周波数領域特徴と空間領域特徴を表すことができる。［数６］、［数７］はそれぞれネットワークのｔ－１層目における空間領域特徴の特徴マップとｔ－１層目における周波数領域特徴の特徴マップを表し、［数８］、［数９］を共に合成した後に、ｔ－１層目における中間融合特徴Ｕ^ｔ－１を獲得する。その後、コアサイズが１ｘ１の畳み込みレイヤ（Ｃｏｎｖ_１×１）、バッチ正規化レイヤ、及び線形整流関数によって空間領域特徴と周波数領域特徴とを融合し、最後にコアサイズが３ｘ３の畳み込みレイヤ（Ｃｏｎｖ_３×３）、及びＳｉｇｍｏｉｄ関数によってｔ番目のレベルにおける空間領域ストリームに対応するアテンションマップとｔ番目のレベルにおける周波数領域ストリームに対応するアテンションマップ、すなわち空間領域アテンションマップ［数１０］と周波数領域アテンションマップ［数１１］を得る。その後、ｔ－１番目のレベルにおける融合空間領域特徴、及びｔ番目のレベルにおける空間領域アテンションマップに基づいて、ｔ番目のレベルにおける融合空間領域特徴を生成する。

【0144】

【数6】

【数7】

【数8】

【数9】

【数10】

【数11】

【0145】

例えば、コンピュータ機器は、ｔ番目のレベルにおける空間領域アテンションマップにより指示されたｔ番目のレベルにおける融合空間領域特徴の重みによって、ｔ－１番目のレベルにおける融合空間領域特徴を重み付けして、ｔ番目のレベルにおける融合空間領域特徴を獲得することができる。相応に、ｔ－１番目のレベルにおける融合周波数領域特徴、及びｔ番目のレベルにおける周波数領域アテンションマップに基づいて、ｔ番目のレベルにおける融合周波数領域特徴を生成する。

【0146】

コンピュータ機器は、ｔ番目のレベルにおける周波数領域アテンションマップにより指示されたｔ番目のレベルにおける融合周波数領域特徴の重みによって、ｔ－１番目のレベルにおける融合周波数領域特徴を重み付けして、ｔ番目のレベルにおける融合周波数領域特徴を獲得することができる。

【0147】

ステップ５８０：目標顔画像の融合特徴に対して局所エリア類似性抽出を行って、目標顔画像に対応する局所エリア類似性集合を取得する。

【0148】

１つの可能な実現形態において、該目標顔画像の融合特徴は融合特徴マップとして表現される。

【0149】

ここで、コンピュータ機器は、目標顔画像の融合特徴に対応する融合特徴マップに対してエリア分割を行って、融合特徴マップに対応する少なくとも２つのエリアを獲得し、少なくとも２つのエリアの特徴ベクトルを取得する。次に少なくとも２つのエリアのうちの各エリアの特徴ベクトルと他のエリアの特徴ベクトルとの間のコサイン距離の集合を抽出し、その後、少なくとも２つのエリアのコサイン距離の集合を、目標顔画像に対応する局所エリア類似性集合として取得する。

【0150】

模式的には、出力された融合特徴マップの寸法が２０＊２０＊５１２（幅、高さ、チャネル数）であると仮定すると、５＊５個の４＊４＊５１２の局所エリアに分割する。次に各エリアにおける４＊４＊５１２特徴ベクトルを行、又は列ごとに１次元ベクトルに展開し、５＊５個のエリアにおける対応する１次元ベクトルに基づいて、各エリアの間のコサイン距離を計算することができる。

【0151】

ここで、融合特徴マップに対して行ったエリア分割のエリアの個数は、偽造顔エリア画像の真実の局所エリア類似性を計算するときに偽造顔エリア画像に対するエリア分割のエリアの個数と一致するように保持される。

【0152】

つまり、偽造顔エリア画像を５＊５個のエリアに分割し、融合特徴マップを分割するときに、同様に偽造顔エリア画像を５＊５個のエリアに分割する。

【0153】

ここで、２つの局所エリアの間の局所エリア類似性が大きいほど、局所エリアにおいて偽造される可能性が小さくなることを表すことができ、２つの局所エリアの間の局所エリア類似性が小さいほど、局所エリアにおいて偽造される可能性が大きくなることを表すことができる。

【0154】

１つの可能な実現形態において、コンピュータ機器は、マハラノビス距離等の計測方式を採用して局所エリアの間の局所エリア類似性を取得するが、本願は局所エリア類似性を取得する取得方式を制限しない。

【0155】

ステップ５９０：局所エリア類似性集合に基づいて、目標顔画像の検出結果を取得し、該検出結果は目標顔画像が偽造顔画像であるか否かを指示することに用いられる。

【0156】

１つの可能な実現形態において、コンピュータ機器は、局所エリア類似性集合を顔画像検出モデルの偽造顔画像判定ネットワークに入力して、偽造顔画像判定ネットワークから出力された目標顔画像に対応する偽造顔画像確率を取得し、次に偽造顔画像確率に基づいて目標顔画像が偽造顔画像であるか否かを判定する。

【0157】

ここで、顔画像検出モデルは、顔画像サンプル、及び顔画像サンプルに対応する顔画像サンプルラベルのトレーニングによって獲得されてもよい。

【0158】

ここで、偽造顔画像確率は、目標顔画像が偽造顔に属する可能性の大きさを表す。

【0159】

つまり、偽造顔画像確率の値が大きいほど、目標顔画像が偽造顔に属する可能性が大きくなることが表され、偽造顔画像確率の値が小さいほど、目標顔画像が偽造顔に属する可能性が小さくなることが表される。

【0160】

１つの可能な実現形態において、コンピュータ機器は、局所エリア類似性閾値を設定することによって、各エリアの局所エリア類似性に基づいて、局所エリア類似性が該局所エリア類似性閾値よりも大きい局所エリアの数を統計し、該局所エリア類似性閾値よりも大きい局所エリアの数に基づいて目標顔画像の偽造顔確率を取得することができる。

【0161】

ここで、局所エリア類似性閾値は手動で調節された数値であってもよく、又は、モデルトレーニングにおいてパラメータ調節を行った後に獲得された数値であってもよい。

【0162】

１つの可能な実現形態において、目標顔の偽造顔画像確率を取得した後に、該偽造顔画像確率に基づいて、目標顔画像の検出結果、すなわち該目標顔画像が真実の顔画像であるか、又は、偽造顔画像であるかを出力する。

【0163】

１つの可能な実現形態において、顔画像検出の結果が解釈可能性を有するようにするために、目標顔画像が偽造顔画像であることに応答して、目標顔画像の融合特徴に基づいて、目標顔画像に対応する偽造顔エリアを取得する。

【0164】

上記過程は、目標顔画像の融合特徴を顔検出モデルのデコーダに入力して、デコーダから出力された目標顔画像の偽造顔エリア画像を獲得するように実現されてもよい。ここで、該デコーダは、複数のアップサンプリングレイヤ、及びコアサイズが３ｘ３の畳み込みレイヤで構成されてもよい。

【0165】

顔画像検出モデルに入力された検出オブジェクトが顔ビデオであるときに、顔ビデオに基づいて取得された少なくとも２つの顔画像に対して顔画像検出を行うことによって、各顔画像の検出結果に基づいて、該顔ビデオの検出結果を出力する。

【0166】

例えば、少なくとも２つの顔画像のうち、偽造顔画像であると検出結果によって指示された顔画像の個数が検出された顔画像の総数の指定された閾値を超えることに応答して、該顔ビデオが偽造顔ビデオであると判定する。

【0167】

以上のように、本願の実施例が提供する顔画像検出モデルトレーニング、及び顔画像検出方法は、画像サンプルセットに基づいてアテンション融合ネットワーク、偽造顔画像判定ネットワーク、及びデコーダを含む顔画像検出モデルを獲得することによって、顔画像の検出過程において、目標顔画像の空間領域と周波数領域上の特徴情報に応じて目標顔の融合特徴を取得し、該融合特徴に基づいて該目標顔画像に対して偽造顔認識を行い、顔画像の検出過程において、画像の空間領域と周波数領域上の特徴を総合的に考慮し、同時に両者の特徴情報を融合して顔画像の融合特徴を取得し、取得された目標顔画像の融合特徴をより正確にし、さらに該融合特徴を利用して取得された目標顔画像の検出結果をより正確にすることを可能にする。

【0168】

上記各方法実施例に示される手段がネットワークを使った友達作りのシーンに応用されることを例とすると、ネットワークを使った友達作りのシーンにおいて、ユーザは友達から送信された顔画像を取得した後に、本願が提供する顔画像検出方法に基づいて該友達から送信された顔画像の真実性を認証することができる。図８は、本願の１つの例示的な実施例が提供する顔画像検出過程の模式図を示す。図８に示されるように、ユーザは、目標顔画像８１０（すなわちユーザが受信した、友達から送信された顔画像）を取得した後に、該目標顔画像８１０を顔画像検出を行う機器（以下、コンピュータ機器と呼ばれる）に入力し、コンピュータ機器は、周波数領域転化方法によって該目標顔画像８１０の周波数領域画像８２０を取得する。該周波数領域転化方法は、離散コサイン変換（Ｄ）によって入力された顔画像を周波数領域空間に変換し、かつ画像の低周波情報をフィルタリング（Ｆ）し、続いて逆離散コサイン変換（Ｄ^－１）によって畳み込みニューラルネットワークのトレーニングを容易にする画像、すなわち周波数領域画像８２０に変換するように実現される。その後、コンピュータ機器は、目標顔画像８１０の周波数領域画像８２０を顔画像検出モデル８３０に入力する。該顔画像検出モデルは、アテンション融合ネットワーク８３１と、偽造顔画像判定ネットワーク８３２と、デコーダ８３３とを含み、該顔画像検出モデル８３０は、先ず入力された目標顔画像８１０の周波数領域画像８２０に基づいて目標顔画像の空間領域特徴と周波数領域特徴を同期して抽出する。コンピュータ機器は、該目標顔画像の空間領域特徴と周波数領域特徴をアテンション融合ネットワーク８３１に入力し、アテンション融合ネットワーク８３１におけるアテンション抽出サブネットワーク８３４に基づいて、異なるレベルにおいて空間領域特徴と周波数領域特徴に対する融合を実現し、目標顔画像に対応する融合特徴８３５を獲得し、目標顔画像に対応する融合特徴に対して局所類似性の計算を行うことによって、該目標顔画像に対応する局所類似性集合を獲得する。該局所エリア類似性集合を偽造顔画像判定ネットワーク８３２に入力した後に、偽造顔画像判定ネットワーク８３２から出力された目標顔画像の検出結果を獲得する、すなわち目標顔画像が真実の顔画像であるか、又は、目標顔画像が偽造顔画像であると判定することにより、友達から送信されたピクチャが真実であるか否かをユーザにフィードバックし、目標顔検出モデルの検出結果が解釈可能性を有するようにするために、コンピュータ機器は、目標顔画像の融合特徴８３５をデコーダ８３３に入力して、デコーダから出力された目標顔画像に対応する偽造顔エリア画像８３６を獲得し、かつ該偽造顔エリア画像をユーザにフィードバックし、例えば、目標顔画像において偽造エリア等をマークする。

【0169】

上記図８に示される手段はネットワークを使った友達作りのシーンにおける応用のみを例として説明したが、それに加えて、上記手段は、顔画像の真実性を認証する必要がある他の任意のシーンに応用されてもよい。本願は、上記手段の応用シーンを限定しない。

【0170】

図９は、本願の１つの例示的な実施例が提供するコンピュータ機器に用いられる、画像検出装置のブロック図を示し、該画像検出装置は、
目標顔画像を取得することに用いられる目標顔画像取得モジュール９１０と、
上記目標顔画像に基づいて、上記目標顔画像の周波数領域画像、及び上記目標顔画像の空間領域特徴を獲得することに用いられる画像処理モジュール９２０であって、上記周波数領域画像は上記目標顔画像に対して周波数領域変換を行って得られた画像であり、上記空間領域特徴は上記目標顔画像に対して特徴抽出を行って得られた特徴である、画像処理モジュール９２０と、
上記周波数領域画像に基づいて特徴抽出を行って、上記目標顔画像の周波数領域特徴を獲得することに用いられる周波数領域特徴抽出モジュール９３０と、
上記空間領域特徴と上記周波数領域特徴とを融合して、上記目標顔画像の融合特徴を獲得することに用いられる融合特徴取得モジュール９４０と、
上記目標顔画像の融合特徴に基づいて、上記目標顔画像の検出結果を取得することに用いられる検出結果取得モジュール９５０であって、上記検出結果は上記目標顔画像が偽造顔画像であるか否かを指示することに用いられる、検出結果取得モジュール９５０と、を含む。

【0171】

１つの可能な実現形態において、上記融合特徴取得モジュール９４０は、顔画像検出モデルのアテンション融合ネットワークによって、上記空間領域特徴と上記周波数領域特徴に対してアテンションメカニズムに基づく融合を行って、上記目標顔画像の上記融合特徴を獲得することに用いられ、
ここで、上記顔画像検出モデルは、顔画像サンプル、及び上記顔画像サンプルに対応する顔画像サンプルラベルのトレーニングによって獲得される。

【0172】

１つの可能な実現形態において、上記融合特徴取得モジュール９４０は、
上記アテンション融合ネットワークによって、ｎ個のレベルにおいて上記空間領域特徴と上記周波数領域特徴に対してアテンションメカニズムに基づく融合を行って、上記ｎ個のレベルのそれぞれに対応する中間融合特徴を獲得することに用いられる特徴融合サブモジュールであって、ｎは正整数である、特徴融合サブモジュールと、
上記ｎ個のレベルのそれぞれに対応する上記中間融合特徴を合成して、上記目標顔画像の上記融合特徴を獲得することに用いられる特徴合成サブモジュールと、を含む。

【0173】

１つの可能な実現形態において、上記中間融合特徴は融合空間領域特徴と融合周波数領域特徴に基づいて獲得され、上記融合空間領域特徴は、上記空間領域特徴と上記周波数領域特徴に対してアテンションメカニズムに基づく融合を行った後に獲得された空間領域上の特徴であり、上記融合周波数領域特徴は、上記空間領域特徴と上記周波数領域特徴に対してアテンションメカニズムに基づく融合を行った後に獲得された周波数領域上の特徴であり、
上記特徴融合サブモジュールは、
ｔ番目のレベルにおいて、ｔ－１番目のレベルにおける上記融合空間領域特徴、及び上記ｔ－１番目のレベルにおける上記融合周波数領域特徴を上記アテンション融合ネットワークに入力して、上記ｔ番目のレベルにおける上記融合空間領域特徴、及び上記ｔ番目のレベルにおける上記融合周波数領域特徴を獲得することに用いられる融合特徴取得ユニットと、
上記ｔ番目のレベルにおける上記融合空間領域特徴、及び上記ｔ番目のレベルにおける上記融合周波数領域特徴を合成して、上記ｔ番目のレベルに対応する上記中間融合特徴を生成することに用いられる融合特徴合成ユニットと、を含み、
ここで、上記ｔ番目のレベルは上記ｎ個のレベルのうちの任意の１つであり、１≦ｔ≦ｎであり、且つｔ、ｎはいずれも正整数である。

【0174】

１つの可能な実現形態において、上記融合特徴取得ユニットは、
ｔ番目のレベルにおいて、上記ｔ－１番目のレベルにおける上記融合空間領域特徴、及び上記ｔ－１番目のレベルにおける上記融合周波数領域特徴を上記アテンション融合ネットワークにおけるアテンション抽出サブネットワークに入力して、上記アテンション抽出サブネットワークから出力された、上記ｔ番目のレベルにおける空間領域アテンションマップと上記ｔ番目のレベルにおける周波数領域アテンションマップを取得することに用いられるアテンションマップ取得サブユニットであって、上記空間領域アテンションマップは上記融合空間領域特徴の重みを指示することに用いられ、上記周波数領域アテンションマップは上記融合周波数領域特徴の重みを指示することに用いられる、アテンションマップ取得サブユニットと、
上記ｔ－１番目のレベルにおける上記融合空間領域特徴、及び上記ｔ番目のレベルにおける上記空間領域アテンションマップに基づいて、上記ｔ番目のレベルにおける上記融合空間領域特徴を生成することに用いられる融合空間領域特徴取得サブユニットと、
上記ｔ－１番目のレベルにおける上記融合周波数領域特徴、及び上記ｔ番目のレベルにおける上記周波数領域アテンションマップに基づいて、上記ｔ番目のレベルにおける上記融合周波数領域特徴を生成することに用いられる融合周波数領域特徴取得サブユニットと、を含む。

【0175】

１つの可能な実現形態において、上記検出結果取得モジュール９５０は、
上記目標顔画像の上記融合特徴に対して局所エリア類似性抽出を行って、上記目標顔画像に対応する局所エリア類似性集合を取得することに用いられる類似性集合取得サブモジュールと、
上記局所エリア類似性集合に基づいて、上記目標顔画像の上記検出結果を取得することに用いられる検出結果取得サブモジュールと、を含む。

【0176】

１つの可能な実現形態において、上記検出結果取得サブモジュールは、
上記局所エリア類似性集合を顔画像検出モデルの偽造顔画像判定ネットワークに入力して、上記偽造顔画像判定ネットワークから出力された上記目標顔画像に対応する偽造顔画像確率を取得することに用いられる偽造確率取得ユニットと、
上記偽造顔画像確率に基づいて、上記目標顔画像が偽造顔画像であるか否かを判定することに用いられる偽造顔画像判定ユニットと、を含み、
ここで、上記顔画像検出モデルは、顔画像サンプル、及び上記顔画像サンプルに対応する顔画像サンプルラベルのトレーニングによって獲得される。

【0177】

１つの可能な実現形態において、上記装置は、
上記目標顔画像が偽造顔画像であることに応答して、上記目標顔画像の上記融合特徴に基づいて、上記目標顔画像に対応する偽造顔エリアを取得することに用いられる偽造顔エリア取得モジュールをさらに含む。

【0178】

以上のように、本願の実施例が提供する画像検出装置は、目標顔画像の空間領域と周波数領域上の特徴情報を取得し、かつ目標顔画像の空間領域と周波数領域上の特徴情報に応じて目標顔の融合特徴を取得し、該融合特徴に基づいて該目標顔画像に対して偽造顔認識を行うことによって、顔画像の検出過程において、画像の空間領域と周波数領域上の特徴を総合的に考慮し、同時に両者の特徴情報を融合して顔画像の融合特徴を取得し、取得された目標顔画像の融合特徴をより正確にし、さらに該融合特徴を利用して取得された目標顔画像の検出結果をより正確にする。

【0179】

図１０は本願の１つの例示的な実施例が提供する顔モデルトレーニング装置のブロック図を示し、該装置はコンピュータ機器に用いられる。顔画像検出モデルは、アテンション融合ネットワークと、偽造顔画像判定ネットワークと、デコーダとを含み、上記アテンション融合ネットワークは、顔画像の空間領域特徴、及び周波数領域特徴に基づいて、上記顔画像の融合特徴を取得することに用いられ、該モデルトレーニング装置は、
画像サンプルセットを取得することに用いられる画像サンプルセット取得モジュール１０１０であって、上記画像サンプルセット中に少なくとも２つの顔画像サンプルペアが含まれ、上記顔画像サンプルペア中に顔画像正サンプルと顔画像負サンプルとが含まれ、各顔画像サンプルは対応する顔画像サンプルラベルを有し、上記顔画像サンプルラベルは真実の顔ラベルと偽造顔ラベルとを含む、画像サンプルセット取得モジュール１０１０と、
上記画像サンプルセットによって、上記顔画像検出モデルをトレーニングすることに用いられるモデルトレーニングモジュール１０２０と、を含み、
ここで、上記顔画像検出モデルは、目標顔画像を取得し、上記目標顔画像に対して周波数領域変換を行って、上記目標顔画像の周波数領域画像を獲得し、上記目標顔画像に基づいて特徴抽出を行って、上記目標顔画像の空間領域特徴を獲得し、上記周波数領域画像に基づいて特徴抽出を行って、上記目標顔画像の周波数領域特徴を獲得し、上記空間領域特徴と上記周波数領域特徴とを融合して、上記目標顔画像の融合特徴を獲得し、上記目標顔画像の融合特徴に基づいて、上記目標顔画像の検出結果を取得するという操作を実行することに用いられ、上記検出結果は上記目標顔画像が偽造顔画像であるか否かを指示することに用いられる。

【0180】

１つの可能な実現形態において、上記モデルトレーニングモジュール１０２０は、
上記画像サンプルセットにおける少なくとも２つの上記顔画像サンプルペアに基づいて、各上記顔画像サンプルペアに対応する偽造顔エリア画像を取得することに用いられる偽造顔エリア画像取得サブモジュールと、
各上記偽造顔エリア画像の真実の局所エリア類似性集合を取得することに用いられる類似性集合取得サブモジュールと、
各上記顔画像サンプル、及び各上記顔画像サンプルに対応するトレーニングラベルに基づいて、顔画像検出モデルをトレーニングすることに用いられるモデルトレーニングサブモジュールであって、上記トレーニングラベルは上記顔画像サンプルラベル、上記偽造顔エリア画像、及び上記偽造顔エリア画像の真実の局所エリア類似性集合を含む、モデルトレーニングサブモジュールと、を含む。

【0181】

１つの可能な実現形態において、上記モデルトレーニングサブモジュールは、
各上記顔画像サンプルを上記顔画像検出モデルに入力して、各上記顔画像サンプルに対応する予測結果を獲得することに用いられる予測結果取得ユニットであって、上記予測結果は予測顔画像サンプルラベル、予測偽造顔エリア画像、及び予測局所エリア類似性を含む、予測結果取得ユニットと、
各上記顔画像サンプルに対応する上記トレーニングラベル、及び各上記顔画像サンプルに対応する上記予測結果に基づいて、損失関数を計算することに用いられる損失関数計算ユニットと、
上記損失関数に基づいて、顔画像検出モデルに対してパラメータ更新を行うことに用いられるモデルパラメータ更新ユニットと、を含む。

【0182】

以上のように、本願の実施例が提供する顔画像検出モデルのトレーニング装置は、画像サンプルセットのトレーニングに基づいてアテンション融合ネットワーク、偽造顔画像判定ネットワーク、及びデコーダを含む顔画像検出モデルを獲得することによって、顔画像の検出過程において、上記顔画像検出モデルを利用して顔画像の空間領域と周波数領域上の特徴を総合的に考慮し、同時に両者の特徴情報を融合して顔画像の融合特徴を取得し、取得された目標顔画像の融合特徴をより正確にし、さらに該融合特徴を利用して取得された目標顔画像の検出結果をより正確にする。

【0183】

図１１は、本願の１つの例示的な実施例に示されるコンピュータ機器１１００の構造ブロック図を示す。該コンピュータ機器は本願の上記手段におけるサーバとして実現されてもよい。上記コンピュータ機器１１００は、中央処理ユニット（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ、ＣＰＵ）１１０１と、ランダムアクセスメモリ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ、ＲＡＭ）１１０２と読み取り専用メモリ（Ｒｅａｄ－ＯｎｌｙＭｅｍｏｒｙ、ＲＯＭ）１１０３とを含むシステムメモリ１１０４と、システムメモリ１１０４と中央処理ユニット１１０１とを接続するシステムバス１１０５とを含む。上記コンピュータ機器１１００は、オペレーティングシステム１１０９、アプリケーションプログラム１１１０、及び他のプログラムモジュール１１１１を記憶することに用いられる大容量記憶機器１１０６をさらに含む。

【0184】

上記大容量記憶機器１１０６は、システムバス１１０５に接続された大容量記憶コントローラ（図示せず）を介して中央処理ユニット１１０１に接続される。上記大容量記憶機器１１０６、及びその関連付けられたコンピュータ可読媒体はコンピュータ機器１１００に不揮発性記憶を提供する。つまり、上記大容量記憶機器１１０６は、例えばハードディスク、又は読み取り専用光ディスク（ＣｏｍｐａｃｔＤｉｓｃＲｅａｄ－ＯｎｌｙＭｅｍｏｒｙ、ＣＤ－ＲＯＭ）ドライバのようなコンピュータ可読媒体（図示せず）を含んでもよい。

【0185】

一般性を失うことなく、上記コンピュータ可読媒体は、コンピュータ記憶媒体と通信媒体とを含んでもよい。コンピュータ記憶媒体は、例えばコンピュータ可読命令、データ構造、プログラムモジュール、又は他のデータ等の情報を記憶することに用いられるいかなる方法、又は技術により実現される揮発性と不揮発性、移動可能と移動不能媒体をも含む。コンピュータ記憶媒体は、ＲＡＭ、ＲＯＭ、消去可能なプログラマブル読み取り専用レジスタ（ＥｒａｓａｂｌｅＰｒｏｇｒａｍｍａｂｌｅＲｅａｄＯｎｌｙＭｅｍｏｒｙ、ＥＰＲＯＭ）、電気的に消去可能なプログラマブル読み取り専用メモリ（Ｅｌｅｃｔｒｉｃａｌｌｙ－ＥｒａｓａｂｌｅＰｒｏｇｒａｍｍａｂｌｅＲｅａｄ－ＯｎｌｙＭｅｍｏｒｙ、ＥＥＰＲＯＭ）フラッシュメモリ、又は他のソリッドステート記憶技術、ＣＤ－ＲＯＭ、デジタル多機能光ディスク（ＤｉｇｉｔａｌＶｅｒｓａｔｉｌｅＤｉｓｃ、ＤＶＤ）、又は他の光学記憶、磁気カセット、磁気テープ、磁気ディスク記憶、又は他の磁気記憶機器を含む。もちろん、当業者は上記コンピュータ記憶媒体が上記複数種に限定されないことが分かる。上記システムメモリ１１０４と大容量記憶機器１１０６はメモリと総称してもよい。

【0186】

本開示の各種の実施例に従って、上記コンピュータ機器１１００はさらに例えばインターネット等のネットワークを介してネットワーク上のリモートコンピュータに接続されて実行されてもよい。すなわちコンピュータ機器１１００は、上記システムバス１１０５上に接続されたネットワークインタフェースユニット１１０７を介してネットワーク１１０８に接続されてもよく、又は、ネットワークインタフェースユニット１１０７を使用して他のタイプのネットワーク、又はリモートコンピュータシステム（図示せず）に接続されてもよい。

【0187】

上記メモリは少なくとも１つの命令、少なくとも１つのプログラムセグメント、コードセット、又は命令セットをさらに含み、上記少なくとも１つの命令、少なくとも１つのプログラムセグメント、コードセット、又は命令セットはメモリ中に記憶され、中央プロセッサ１１０１は該少なくとも１つの命令、少なくとも１つのプログラムセグメント、コードセット、又は命令セットを実行することによって、上記各実施例に示される画像検出方法における全部、又は一部のステップを実現する。

【0188】

図１２は、本願の１つの例示的な実施例が提供するコンピュータ機器１２００の構造ブロック図を示す。該コンピュータ機器１２００は、上記顔画像検出機器、及び／又は顔画像検出モデルトレーニング機器として実現されてもよく、例えばスマートフォン、タブレットコンピュータ、ノートパソコン、又はデスクトップパソコンである。コンピュータ機器１２００はさらにユーザ機器、ポータブル端末、ラップトップ端末、デスクトップ端末等の他の名称と呼ばれる可能性がある。

【0189】

通常、コンピュータ機器１２００はプロセッサ１２０１と、メモリ１２０２とを含む。

【0190】

プロセッサ１２０１は、１つ、又は複数の処理コアを含んでもよく、例えばクアッドコアプロセッサ、ドデカコアプロセッサ等が挙げられる。プロセッサ１２０１は、ＤＳＰ（ＤｉｇｉｔａｌＳｉｇｎａｌＰｒｏｃｅｓｓｉｎｇ、デジタル信号処理）、ＦＰＧＡ（Ｆｉｅｌｄ－ＰｒｏｇｒａｍｍａｂｌｅＧａｔｅＡｒｒａｙ、フィールドプログラマブルゲートアレイ）、及びＰＬＡ（ＰｒｏｇｒａｍｍａｂｌｅＬｏｇｉｃＡｒｒａｙ、プログラマブル論理アレイ）のうちの少なくとも１種のハードウェア形式を採用して実現されてもよい。プロセッサ１２０１は、メインプロセッサとコプロセッサとを含んでもよく、メインプロセッサはウェイクアップ状態におけるデータを処理することに用いられるプロセッサであり、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ、中央プロセッサ）とも呼ばれ、コプロセッサは待機状態におけるデータを処理することに用いられる低消費電力プロセッサである。いくつかの実施例において、プロセッサ１２０１にはＧＰＵ（ＧｒａｐｈｉｃｓＰｒｏｃｅｓｓｉｎｇＵｎｉｔ、画像プロセッサ）が集積されてもよく、ＧＰＵは表示スクリーンに表示する必要がある内容のレンダリング、及び描画を担うことに用いられる。いくつかの実施例において、プロセッサ１２０１はＡＩ（ＡｒｔｉｆｉｃｉａｌＩｎｔｅｌｌｉｇｅｎｃｅ、人工知能）プロセッサをさらに含んでもよく、該ＡＩプロセッサは機械学習に関連する計算操作を処理することに用いられる。

【0191】

メモリ１２０２は１つ、又は複数のコンピュータ可読記憶媒体を含んでもよく、該コンピュータ可読記憶媒体は非一時的なものであってもよい。メモリ１２０２は、高速ランダムアクセスメモリ、及び不揮発性メモリ、例えば１つ、又は複数の磁気ディスク記憶機器、フラッシュメモリ記憶機器を含んでもよい。いくつかの実施例において、メモリ１２０２における非一時的なコンピュータ可読記憶媒体は少なくとも１つの命令を記憶することに用いられ、該少なくとも１つの命令は、プロセッサ１２０１により実行されることで、本願における方法実施例が提供する顔画像の品質評価方法を実現することに用いられる。

【0192】

いくつかの実施例において、コンピュータ機器１２００は、選択可能に、周辺機器インタフェース１２０３と、少なくとも１つの周辺機器とを含んでもよい。プロセッサ１２０１、メモリ１２０２、及び周辺機器インタフェース１２０３の間はバス、又は信号線を介して連結されてもよい。各周辺機器はバス、信号線、又は回路基板を介して周辺機器インタフェース１２０３に連結されてもよい。具体的には、周辺機器は、無線周波数回路１２０４、表示スクリーン１２０５、カメラコンポーネント１２０６、オーディオ回路１２０７、及び電源１２０９のうちの少なくとも１種を含む。

【0193】

周辺機器インタフェース１２０３は、Ｉ／Ｏ（Ｉｎｐｕｔ／Ｏｕｔｐｕｔ、入力／出力）に関連する少なくとも１つの周辺機器をプロセッサ１２０１、及びメモリ１２０２に接続することに用いられてもよい。いくつかの実施例において、プロセッサ１２０１、メモリ１２０２、及び周辺機器インタフェース１２０３は同一のチップ、又は回路基板上に集積され、いくつかの他の実施例において、プロセッサ１２０１、メモリ１２０２、及び周辺機器インタフェース１２０３のうちの任意の１つ、又は２つは別個のチップ、又は回路基板上で実現されてもよく、本実施例はこれを限定しない。

【0194】

いくつかの実施例において、コンピュータ機器１２００は１つ、又は複数のセンサ１２１０をさらに含む。該１つ、又は複数のセンサ１２１０は、加速度センサ１２１１、ジャイロセンサ１２１２、圧力センサ１２１３、光学センサ１２１５、及び近接センサ１２１６を含むが、これらに限定されない。

【0195】

当業者が理解できる点として、図１２において示される構造はコンピュータ機器１２００に対する限定を構成するものではなく、図示されるものよりも多い、又はより少ないコンポーネントを含むか、又はいくつかのコンポーネントを組み合わせるか、又は異なるコンポーネント配置を採用してもよい。

【0196】

１つの例示的な実施例において、コンピュータ可読記憶媒体をさらに提供し、少なくとも１つの命令、少なくとも１つのプログラムセグメント、コードセット、又は命令セットを記憶することに用いられ、上記少なくとも１つの命令、上記少なくとも１つのプログラムセグメント、上記コードセット、又は命令セットはプロセッサによりロードされ、かつ実行されることで、上記画像検出方法及び／又はモデルトレーニング方法における全部、又は一部のステップを実現する。例えば、該コンピュータ可読記憶媒体は、読み取り専用メモリ（Ｒｅａｄ－ＯｎｌｙＭｅｍｏｒｙ、ＲＯＭ）、ランダムアクセスメモリ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ、ＲＡＭ）、読み取り専用光ディスク（ＣｏｍｐａｃｔＤｉｓｃＲｅａｄ－ＯｎｌｙＭｅｍｏｒｙ、ＣＤ－ＲＯＭ）、磁気テープ、フロッピーディスク、及び光データ記憶機器等であってもよい。

【0197】

１つの例示的な実施例において、コンピュータプログラム製品、又はコンピュータプログラムをさらに提供し、該コンピュータプログラム製品、又はコンピュータプログラムはコンピュータ命令を含み、該コンピュータ命令はコンピュータ可読記憶媒体において記憶される。コンピュータ機器のプロセッサはコンピュータ可読記憶媒体から該コンピュータ命令を読み取り、プロセッサは該コンピュータ命令を実行し、該コンピュータ機器に上記図２、図４、又は図５のいずれかの実施例に示される方法の全部、又は一部のステップを実行させる。

【符号の説明】

【0198】

１１０サーバ
１２０端末
３１０顔画像検出モデルトレーニング機器
３２０顔画像検出機器
６１０顔画像
６２０顔画像セット
６３０偽造顔エリア画像セット
６３１偽造顔エリア画像
８１０目標顔画像
８２０周波数領域画像
８３０顔画像検出モデル
８３１アテンション融合ネットワーク
８３２偽造顔画像判定ネットワーク
８３３デコーダ
８３４アテンション抽出サブネットワーク
８３６偽造顔エリア画像
９１０目標顔画像取得モジュール
９２０画像処理モジュール
９３０周波数領域特徴抽出モジュール
９４０融合特徴取得モジュール
９５０検出結果取得モジュール
１０１０画像サンプルセット取得モジュール
１０２０モデルトレーニングモジュール
１１００コンピュータ機器
１１０１中央処理ユニット
１１０１中央プロセッサ
１１０４システムメモリ
１１０５システムバス
１１０６大容量記憶機器
１１０７ネットワークインタフェースユニット
１１０８ネットワーク
１１０９オペレーティングシステム
１１１０アプリケーションプログラム
１１１１プログラムモジュール
１２００コンピュータ機器
１２０１プロセッサ
１２０２メモリ
１２０３周辺機器インタフェース
１２０４無線周波数回路
１２０５表示スクリーン
１２０６カメラコンポーネント
１２０７オーディオ回路
１２０９電源
１２１０センサ
１２１１加速度センサ
１２１２ジャイロセンサ
１２１３圧力センサ
１２１５光学センサ
１２１６近接センサ

【図1】