IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ ▲騰▼▲訊▼科技(深▲セン▼)有限公司の特許一覧

特許7490141画像検出方法、モデルトレーニング方法、画像検出装置、トレーニング装置、機器及びプログラム
<>
  • 特許-画像検出方法、モデルトレーニング方法、画像検出装置、トレーニング装置、機器及びプログラム 図1
  • 特許-画像検出方法、モデルトレーニング方法、画像検出装置、トレーニング装置、機器及びプログラム 図2
  • 特許-画像検出方法、モデルトレーニング方法、画像検出装置、トレーニング装置、機器及びプログラム 図3
  • 特許-画像検出方法、モデルトレーニング方法、画像検出装置、トレーニング装置、機器及びプログラム 図4
  • 特許-画像検出方法、モデルトレーニング方法、画像検出装置、トレーニング装置、機器及びプログラム 図5
  • 特許-画像検出方法、モデルトレーニング方法、画像検出装置、トレーニング装置、機器及びプログラム 図6
  • 特許-画像検出方法、モデルトレーニング方法、画像検出装置、トレーニング装置、機器及びプログラム 図7
  • 特許-画像検出方法、モデルトレーニング方法、画像検出装置、トレーニング装置、機器及びプログラム 図8
  • 特許-画像検出方法、モデルトレーニング方法、画像検出装置、トレーニング装置、機器及びプログラム 図9
  • 特許-画像検出方法、モデルトレーニング方法、画像検出装置、トレーニング装置、機器及びプログラム 図10
  • 特許-画像検出方法、モデルトレーニング方法、画像検出装置、トレーニング装置、機器及びプログラム 図11
  • 特許-画像検出方法、モデルトレーニング方法、画像検出装置、トレーニング装置、機器及びプログラム 図12
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-05-16
(45)【発行日】2024-05-24
(54)【発明の名称】画像検出方法、モデルトレーニング方法、画像検出装置、トレーニング装置、機器及びプログラム
(51)【国際特許分類】
   G06T 7/00 20170101AFI20240517BHJP
   G06V 10/82 20220101ALI20240517BHJP
【FI】
G06T7/00 660A
G06T7/00 350B
G06V10/82
【請求項の数】 19
(21)【出願番号】P 2023523654
(86)(22)【出願日】2022-01-21
(65)【公表番号】
(43)【公表日】2023-10-30
(86)【国際出願番号】 CN2022073249
(87)【国際公開番号】W WO2022161286
(87)【国際公開日】2022-08-04
【審査請求日】2023-04-18
(31)【優先権主張番号】202110116762.8
(32)【優先日】2021-01-28
(33)【優先権主張国・地域又は機関】CN
(73)【特許権者】
【識別番号】517392436
【氏名又は名称】▲騰▼▲訊▼科技(深▲セン▼)有限公司
【氏名又は名称原語表記】TENCENT TECHNOLOGY (SHENZHEN) COMPANY LIMITED
【住所又は居所原語表記】35/F,Tencent Building,Kejizhongyi Road,Midwest District of Hi-tech Park,Nanshan District, Shenzhen,Guangdong 518057,CHINA
(74)【代理人】
【識別番号】100110364
【弁理士】
【氏名又は名称】実広 信哉
(74)【代理人】
【識別番号】100150197
【弁理士】
【氏名又は名称】松尾 直樹
(72)【発明者】
【氏名】姚 太平
(72)【発明者】
【氏名】▲陳▼ ▲シェン▼
(72)【発明者】
【氏名】▲陳▼ ▲陽▼
(72)【発明者】
【氏名】丁 守▲鴻▼
(72)【発明者】
【氏名】李 季▲懍▼
(72)【発明者】
【氏名】黄 ▲飛▼▲躍▼
【審査官】真木 健彦
(56)【参考文献】
【文献】国際公開第2015/122183(WO,A1)
【文献】特開2017-016192(JP,A)
【文献】中国特許出願公開第105005756(CN,A)
【文献】特表2019-509566(JP,A)
【文献】国際公開第2020/217371(WO,A1)
【文献】米国特許出願公開第2020/0380279(US,A1)
【文献】中国特許出願公開第111767828(CN,A)
(58)【調査した分野】(Int.Cl.,DB名)
G06T 7/00
G06V 10/82
G06V 40/40
(57)【特許請求の範囲】
【請求項1】
コンピュータ機器により実行される、画像検出方法であって、前記方法は、
目標顔画像を取得するステップと、
前記目標顔画像に基づいて、前記目標顔画像の周波数領域画像、及び前記目標顔画像の空間領域特徴を獲得するステップであって、前記周波数領域画像は前記目標顔画像に対して周波数領域変換を行って得られた画像であり、前記空間領域特徴は前記目標顔画像に対して特徴抽出を行って得られた特徴である、ステップと、
前記周波数領域画像に基づいて特徴抽出を行って、前記目標顔画像の周波数領域特徴を獲得するステップと、
前記空間領域特徴と前記周波数領域特徴とを融合して、前記目標顔画像の融合特徴を獲得するステップであって、
顔画像検出モデルのアテンション融合ネットワークによって、n個のレベルにおいて前記空間領域特徴と前記周波数領域特徴に対してアテンションメカニズムに基づく融合を行って、前記n個のレベルのそれぞれに対応する中間融合特徴を獲得するステップであって、nは2以上の整数である、ステップと、
前記n個のレベルのそれぞれに対応する前記中間融合特徴を合成して、前記目標顔画像の前記融合特徴を獲得するステップと、
を含む、ステップと、
前記目標顔画像の融合特徴に基づいて、前記目標顔画像の検出結果を取得するステップであって、前記検出結果は前記目標顔画像が偽造顔画像であるか否かを指示することに用いられる、ステップと、を含む、画像検出方法。
【請求項2】
前記顔画像検出モデルは、顔画像サンプル、及び前記顔画像サンプルに対応する顔画像サンプルラベルのトレーニングによって獲得される、請求項1に記載の方法。
【請求項3】
前記中間融合特徴は融合空間領域特徴と融合周波数領域特徴に基づいて獲得され、前記融合空間領域特徴は、前記空間領域特徴と前記周波数領域特徴に対してアテンションメカニズムに基づく融合を行った後に獲得された空間領域上の特徴であり、前記融合周波数領域特徴は、前記空間領域特徴と前記周波数領域特徴に対してアテンションメカニズムに基づく融合を行った後に獲得された周波数領域上の特徴であり、
前記アテンション融合ネットワークによって、n個のレベルにおいて前記空間領域特徴と前記周波数領域特徴に対してアテンションメカニズムに基づく融合を行って、前記n個のレベルのそれぞれに対応する中間融合特徴を獲得する前記ステップは、
t番目のレベルにおいて、t-1番目のレベルにおける前記融合空間領域特徴、及び前記t-1番目のレベルにおける前記融合周波数領域特徴を前記アテンション融合ネットワークに入力して、前記t番目のレベルにおける前記融合空間領域特徴、及び前記t番目のレベルにおける前記融合周波数領域特徴を獲得するステップと、
前記t番目のレベルにおける前記融合空間領域特徴、及び前記t番目のレベルにおける前記融合周波数領域特徴を合成して、前記t番目のレベルに対応する前記中間融合特徴を生成するステップと、を含み、
前記t番目のレベルは前記n個のレベルのうちの任意の1つであり、1≦t≦nであり、且つt正整数である、請求項に記載の方法。
【請求項4】
t番目のレベルにおいて、t-1番目のレベルにおける前記融合空間領域特徴、及び前記t-1番目のレベルにおける前記融合周波数領域特徴を前記アテンション融合ネットワークに入力して、前記t番目のレベルにおける前記融合空間領域特徴、及び前記t番目のレベルにおける前記融合周波数領域特徴を獲得する前記ステップは、
t番目のレベルにおいて、前記t-1番目のレベルにおける前記融合空間領域特徴、及び前記t-1番目のレベルにおける前記融合周波数領域特徴を前記アテンション融合ネットワークにおけるアテンション抽出サブネットワークに入力して、前記アテンション抽出サブネットワークから出力された、前記t番目のレベルにおける空間領域アテンションマップと前記t番目のレベルにおける周波数領域アテンションマップを取得するステップであって、前記空間領域アテンションマップは前記融合空間領域特徴の重みを指示することに用いられ、前記周波数領域アテンションマップは前記融合周波数領域特徴の重みを指示することに用いられる、ステップと、
前記t-1番目のレベルにおける前記融合空間領域特徴、及び前記t番目のレベルにおける前記空間領域アテンションマップに基づいて、前記t番目のレベルにおける前記融合空間領域特徴を生成するステップと、
前記t-1番目のレベルにおける前記融合周波数領域特徴、及び前記t番目のレベルにおける前記周波数領域アテンションマップに基づいて、前記t番目のレベルにおける前記融合周波数領域特徴を生成するステップと、を含む、請求項に記載の方法。
【請求項5】
前記目標顔画像の融合特徴に基づいて、前記目標顔画像の検出結果を取得する前記ステップは、
前記目標顔画像の前記融合特徴に対して局所エリア類似性抽出を行って、前記目標顔画像に対応する局所エリア類似性集合を取得するステップと、
前記局所エリア類似性集合に基づいて、前記目標顔画像の前記検出結果を取得するステップと、を含む、請求項1に記載の方法。
【請求項6】
前記局所エリア類似性集合に基づいて、前記目標顔画像の前記検出結果を取得する前記ステップは、
前記局所エリア類似性集合を顔画像検出モデルの偽造顔画像判定ネットワークに入力して、前記偽造顔画像判定ネットワークから出力された前記目標顔画像に対応する偽造顔画像確率を取得するステップと、
前記偽造顔画像確率に基づいて、前記目標顔画像が偽造顔画像であるか否かを判定するステップと、を含み、
前記顔画像検出モデルは、顔画像サンプル、及び前記顔画像サンプルに対応する顔画像サンプルラベルのトレーニングによって獲得される、請求項に記載の方法。
【請求項7】
前記方法は、
前記目標顔画像が偽造顔画像であることに応答して、前記目標顔画像の前記融合特徴に基づいて、前記目標顔画像に対応する偽造顔エリアを取得するステップをさらに含む、請求項1~のいずれか一項に記載の方法。
【請求項8】
コンピュータ機器により実行される、モデルトレーニング方法であって、顔画像検出モデルが、アテンション融合ネットワークと、偽造顔画像判定ネットワークと、デコーダとを含み、前記アテンション融合ネットワークは、顔画像の空間領域特徴、及び周波数領域特徴に基づいて、前記顔画像の融合特徴を取得することに用いられ、前記方法は、
画像サンプルセットを取得するステップであって、前記画像サンプルセットには少なくとも2つの顔画像サンプルペアが含まれ、前記顔画像サンプルペアには顔画像正サンプルと顔画像負サンプルとが含まれ、各顔画像サンプルは対応する顔画像サンプルラベルを有し、前記顔画像サンプルラベルは真実の顔ラベルと偽造顔ラベルとを含む、ステップと、
前記画像サンプルセットによって、前記顔画像検出モデルをトレーニングするステップと、を含み、
前記顔画像検出モデルは、目標顔画像を取得し、前記目標顔画像に対して周波数領域変換を行って、前記目標顔画像の周波数領域画像を獲得し、前記目標顔画像に基づいて特徴抽出を行って、前記目標顔画像の空間領域特徴を獲得し、前記周波数領域画像に基づいて特徴抽出を行って、前記目標顔画像の周波数領域特徴を獲得し、n個のレベルにおいて前記空間領域特徴と前記周波数領域特徴とを融合して、前記n個のレベルのそれぞれに対応する中間融合特徴を獲得し、前記n個のレベルのそれぞれに対応する前記中間融合特徴を合成して、前記目標顔画像の融合特徴を獲得し、前記目標顔画像の融合特徴に基づいて、前記目標顔画像の検出結果を取得するという操作を実行することに用いられ、nは2以上の整数であり、前記検出結果は前記目標顔画像が偽造顔画像であるか否かを指示することに用いられる、モデルトレーニング方法。
【請求項9】
前記画像サンプルセットによって、前記顔画像検出モデルをトレーニングする前記ステップは、
前記画像サンプルセットにおける少なくとも2つの前記顔画像サンプルペアに基づいて、各前記顔画像サンプルペアに対応する偽造顔エリア画像を取得するステップと、
各前記偽造顔エリア画像の真実の局所エリア類似性集合を取得するステップと、
各前記顔画像サンプル、及び各前記顔画像サンプルに対応するトレーニングラベルに基づいて、顔画像検出モデルをトレーニングするステップであって、前記トレーニングラベルは前記顔画像サンプルラベル、前記偽造顔エリア画像、及び前記偽造顔エリア画像の真実の局所エリア類似性集合を含む、ステップと、を含む、請求項に記載の方法。
【請求項10】
各前記顔画像サンプル、及び各前記顔画像サンプルに対応するトレーニングラベルに基づいて、顔画像検出モデルをトレーニングする前記ステップは、
各前記顔画像サンプルを前記顔画像検出モデルに入力して、各前記顔画像サンプルに対応する予測結果を獲得するステップであって、前記予測結果は予測顔画像サンプルラベル、予測偽造顔エリア画像、及び予測局所エリア類似性を含む、ステップと、
各前記顔画像サンプルに対応する前記トレーニングラベル、及び各前記顔画像サンプルに対応する前記予測結果に基づいて、損失関数を計算するステップと、
前記損失関数に基づいて、顔画像検出モデルに対してパラメータ更新を行うステップと、を含む、請求項に記載の方法。
【請求項11】
コンピュータ機器に用いられる、画像検出装置であって、前記装置は、
目標顔画像を取得することに用いられる目標顔画像取得モジュールと、
前記目標顔画像に基づいて、前記目標顔画像の周波数領域画像、及び前記目標顔画像の空間領域特徴を獲得することに用いられる画像処理モジュールであって、前記周波数領域画像は前記目標顔画像に対して周波数領域変換を行って得られた画像であり、前記空間領域特徴は前記目標顔画像に対して特徴抽出を行って得られた特徴である、画像処理モジュールと、
前記周波数領域画像に基づいて特徴抽出を行って、前記目標顔画像の周波数領域特徴を獲得することに用いられる周波数領域特徴抽出モジュールと、
前記空間領域特徴と前記周波数領域特徴とを融合して、前記目標顔画像の融合特徴を獲得することに用いられる融合特徴取得モジュールであって、
顔画像検出モデルのアテンション融合ネットワークによって、n個のレベルにおいて前記空間領域特徴と前記周波数領域特徴に対してアテンションメカニズムに基づく融合を行って、前記n個のレベルのそれぞれに対応する中間融合特徴を獲得することに用いられる特徴融合サブモジュールであって、nは2以上の整数である、特徴融合サブモジュールと、
前記n個のレベルのそれぞれに対応する前記中間融合特徴を合成して、前記目標顔画像の前記融合特徴を獲得することに用いられる特徴合成サブモジュールと、を含む、融合特徴取得モジュールと、
前記目標顔画像の融合特徴に基づいて、前記目標顔画像の検出結果を取得することに用いられる検出結果取得モジュールであって、前記検出結果は前記目標顔画像が偽造顔画像であるか否かを指示することに用いられる、検出結果取得モジュールと、を含む、画像検出装置。
【請求項12】
前記顔画像検出モデルは、顔画像サンプル、及び前記顔画像サンプルに対応する顔画像サンプルラベルのトレーニングによって獲得される、請求項11に記載の装置。
【請求項13】
前記中間融合特徴は融合空間領域特徴と融合周波数領域特徴に基づいて獲得され、前記融合空間領域特徴は、前記空間領域特徴と前記周波数領域特徴に対してアテンションメカニズムに基づく融合を行った後に獲得された空間領域上の特徴であり、前記融合周波数領域特徴は、前記空間領域特徴と前記周波数領域特徴に対してアテンションメカニズムに基づく融合を行った後に獲得された周波数領域上の特徴であり、
前記特徴融合サブモジュールは、
t番目のレベルにおいて、t-1番目のレベルにおける前記融合空間領域特徴、及び前記t-1番目のレベルにおける前記融合周波数領域特徴を前記アテンション融合ネットワークに入力して、前記t番目のレベルにおける前記融合空間領域特徴、及び前記t番目のレベルにおける前記融合周波数領域特徴を獲得することに用いられる融合特徴取得ユニットと、
前記t番目のレベルにおける前記融合空間領域特徴、及び前記t番目のレベルにおける前記融合周波数領域特徴を合成して、前記t番目のレベルに対応する前記中間融合特徴を生成することに用いられる融合特徴合成ユニットと、を含み、
前記t番目のレベルは前記n個のレベルのうちの任意の1つであり、1≦t≦nであり、且つt正整数である、請求項11に記載の装置。
【請求項14】
コンピュータ機器に用いられる、顔画像検出モデルのトレーニング装置であって、前記顔画像検出モデルは、アテンション融合ネットワークと、偽造顔画像判定ネットワークと、デコーダとを含み、前記アテンション融合ネットワークは、顔画像の空間領域特徴、及び周波数領域特徴に基づいて、前記顔画像の融合特徴を取得することに用いられ、前記装置は、
画像サンプルセットを取得することに用いられる画像サンプルセット取得モジュールであって、前記画像サンプルセット中に少なくとも2つの顔画像サンプルペアが含まれ、前記顔画像サンプルペア中に顔画像正サンプルと顔画像負サンプルとが含まれ、各顔画像サンプルは対応する顔画像サンプルラベルを有し、前記顔画像サンプルラベルは真実の顔ラベルと偽造顔ラベルとを含む、画像サンプルセット取得モジュールと、
前記画像サンプルセットによって、前記顔画像検出モデルをトレーニングすることに用いられるモデルトレーニングモジュールと、を含み、
前記顔画像検出モデルは、目標顔画像を取得し、前記目標顔画像に対して周波数領域変換を行って、前記目標顔画像の周波数領域画像を獲得し、前記目標顔画像に基づいて特徴抽出を行って、前記目標顔画像の空間領域特徴を獲得し、前記周波数領域画像に基づいて特徴抽出を行って、前記目標顔画像の周波数領域特徴を獲得し、n個のレベルにおいて前記空間領域特徴と前記周波数領域特徴とを融合して、前記n個のレベルのそれぞれに対応する中間融合特徴を獲得し、前記n個のレベルのそれぞれに対応する前記中間融合特徴を合成して、前記目標顔画像の融合特徴を獲得し、前記目標顔画像の融合特徴に基づいて、前記目標顔画像の検出結果を取得するという操作を実行することに用いられ、nは2以上の整数であり、前記検出結果は前記目標顔画像が偽造顔画像であるか否かを指示することに用いられる、顔画像検出モデルのトレーニング装置。
【請求項15】
前記モデルトレーニングモジュールは、
前記画像サンプルセットにおける少なくとも2つの前記顔画像サンプルペアに基づいて、各前記顔画像サンプルペアに対応する偽造顔エリア画像を取得することに用いられる偽造顔エリア画像取得サブモジュールと、
各前記偽造顔エリア画像の真実の局所エリア類似性集合を取得することに用いられる類似性集合取得サブモジュールと、
各前記顔画像サンプル、及び各前記顔画像サンプルに対応するトレーニングラベルに基づいて、顔画像検出モデルをトレーニングすることに用いられるモデルトレーニングサブモジュールであって、前記トレーニングラベルは前記顔画像サンプルラベル、前記偽造顔エリア画像、及び前記偽造顔エリア画像の真実の局所エリア類似性集合を含む、モデルトレーニングサブモジュールと、を含む、請求項14に記載の装置。
【請求項16】
コンピュータ機器であって、前記コンピュータ機器はプロセッサと、メモリとを含み、前記メモリには少なくとも1つのプログラム、コードセット、又は命令セットが記憶され、前記少なくとも1つのプログラム、前記コードセット、又は命令セットが前記プロセッサによりロードされ、かつ実行されることで、請求項1~のいずれか一項に記載の画像検出方法実現する、コンピュータ機器。
【請求項17】
コンピュータ機器であって、前記コンピュータ機器はプロセッサと、メモリとを含み、前記メモリには少なくとも1つのプログラム、コードセット、又は命令セットが記憶され、前記少なくとも1つのプログラム、前記コードセット、又は命令セットが前記プロセッサによりロードされ、かつ実行されることで、請求項8~10のいずれか一項に記載のモデルトレーニング方法を実現する、コンピュータ機器。
【請求項18】
コンピュータプログラムであって、前記コンピュータプログラムがプロセッサによりロードされ、かつ実行されることで、請求項1~8のいずれか一項に記載の画像検出方法記載のモデルトレーニング方法を実現する、コンピュータプログラム。
【請求項19】
コンピュータプログラムであって、前記コンピュータプログラムがプロセッサによりロードされ、かつ実行されることで、請求項8~10のいずれか一項に記載のモデルトレーニング方法を実現する、コンピュータプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本願は、顔認識の技術分野に関し、特に画像検出方法、モデルトレーニング方法、機器、媒体、及びプログラム製品に関する。
【0002】
本願は、2021年1月28日に提出された、出願番号が第202110116762.8号、発明の名称が「人間の顔画像検出方法、モデルトレーニング方法、装置、及び記憶媒体」の中国特許出願の優先権を主張し、その全部の内容は引用によって本願に組み込まれている。
【背景技術】
【0003】
高度な顔の偽造技術は、娯楽や文化的な交流産業の新興や発展を促進するが、同時に顔についてのセキュリティにも大きな潜在的な脅威をもたらしているため、偽造画像を検出する必要がある。
【0004】
関連技術において、顔についての偽造画像検出技術は、例えばまばたきパターン、生物学的特徴等の虚偽内容の特定の偽造痕跡によって判断することであり、例えば、ビデオシーケンスにおける目のエリアを抽出することによって目のシーケンスを得て、さらにニューラルネットワークと併せて目のシーケンスをモデリングすることによって、偽造顔画像、又はビデオであるか否かを区別する。
【0005】
しかし、上記技術における顔偽造痕跡に基づく顔画像検出モデルは、特定の偽造痕跡を含む顔加工ビデオについてのみ良好な性能を有するため、汎用性が比較的低く、同時に、顔加工技術が成熟するにつれて、生成された偽造の顔は徐々に真実の顔と一致する生物学的パターンを有するようになり、上記方法の検出精度は比較的低くなる。
【発明の概要】
【発明が解決しようとする課題】
【0006】
本願の実施例は画像検出方法、モデルトレーニング方法、機器、媒体、及びプログラム製品を提供し、顔画像に対して真偽検出を行う精度を向上させることができる。該技術的手段は以下のとおりである。
【課題を解決するための手段】
【0007】
一態様では、画像検出方法を提供し、前記方法はコンピュータ機器により実行され、前記方法は、
目標顔画像を取得するステップと、
前記目標顔画像に基づいて、前記目標顔画像の周波数領域画像、及び前記目標顔画像の空間領域特徴を獲得するステップであって、前記周波数領域画像は前記目標顔画像に対して周波数領域変換を行って得られた画像であり、前記空間領域特徴は前記目標顔画像に対して特徴抽出を行って得られた特徴である、ステップと、
前記周波数領域画像に基づいて特徴抽出を行って、前記目標顔画像の周波数領域特徴を獲得するステップと、
前記空間領域特徴と前記周波数領域特徴とを融合して、前記目標顔画像の融合特徴を獲得するステップと、
前記目標顔画像の融合特徴に基づいて、前記目標顔画像の検出結果を取得するステップであって、前記検出結果は前記目標顔画像が偽造顔画像であるか否かを指示することに用いられる、ステップと、を含む。
【0008】
一態様では、コンピュータ機器により実行される、モデルトレーニング方法を提供し、顔画像検出モデルは、アテンション融合ネットワークと、偽造顔画像判定ネットワークと、デコーダとを含み、前記アテンション融合ネットワークは、顔画像の空間領域特徴、及び周波数領域特徴に基づいて、前記顔画像の融合特徴を取得することに用いられ、前記方法は、
画像サンプルセットを取得するステップであって、前記画像サンプルセット中に少なくとも2つの顔画像サンプルペアが含まれ、前記顔画像サンプルペア中に顔画像正サンプルと顔画像負サンプルとが含まれ、各顔画像サンプルは対応する顔画像サンプルラベルを有し、前記顔画像サンプルラベルは真実の顔ラベルと偽造顔ラベルとを含む、ステップと、
前記画像サンプルセットによって、前記顔画像検出モデルをトレーニングするステップと、を含み、
前記顔画像検出モデルは、目標顔画像を取得し、前記目標顔画像に対して周波数領域変換を行って、前記目標顔画像の周波数領域画像を獲得し、前記目標顔画像に基づいて特徴抽出を行って、前記目標顔画像の空間領域特徴を獲得し、前記周波数領域画像に基づいて特徴抽出を行って、前記目標顔画像の周波数領域特徴を獲得し、前記空間領域特徴と前記周波数領域特徴とを融合して、前記目標顔画像の融合特徴を獲得し、前記目標顔画像の融合特徴に基づいて、前記目標顔画像の検出結果を取得するという操作を実行することに用いられ、前記検出結果は前記目標顔画像が偽造顔画像であるか否かを指示することに用いられる。
【0009】
さらに別の態様では、コンピュータ機器に用いられる、画像検出装置を提供し、前記装置は前記装置は、
目標顔画像を取得することに用いられる目標顔画像取得モジュールと、
前記目標顔画像に基づいて、前記目標顔画像の周波数領域画像、及び前記目標顔画像の空間領域特徴を獲得することに用いられる画像処理モジュールであって、前記周波数領域画像は前記目標顔画像に対して周波数領域変換を行って得られた画像であり、前記空間領域特徴は前記目標顔画像に対して特徴抽出を行って得られた特徴である、画像処理モジュールと、
前記周波数領域画像に基づいて特徴抽出を行って、前記目標顔画像の周波数領域特徴を獲得することに用いられる周波数領域特徴抽出モジュールと、
前記空間領域特徴と前記周波数領域特徴とを融合して、前記目標顔画像の融合特徴を獲得することに用いられる融合特徴取得モジュールと、
前記目標顔画像の融合特徴に基づいて、前記目標顔画像の検出結果を取得することに用いられる検出結果取得モジュールであって、前記検出結果は前記目標顔画像が偽造顔画像であるか否かを指示することに用いられる、検出結果取得モジュールと、を含む。
【0010】
1つの可能な実現形態において、前記融合特徴取得モジュールは、顔画像検出モデルのアテンション融合ネットワークによって、前記空間領域特徴と前記周波数領域特徴に対してアテンションメカニズムに基づく融合を行って、前記目標顔画像の前記融合特徴を獲得することに用いられ、
前記顔画像検出モデルは、顔画像サンプル、及び前記顔画像サンプルに対応する顔画像サンプルラベルのトレーニングによって獲得される。
【0011】
1つの可能な実現形態において、前記融合特徴取得モジュールは、
前記アテンション融合ネットワークによって、n個のレベルにおいて前記空間領域特徴と前記周波数領域特徴に対してアテンションメカニズムに基づく融合を行って、前記n個のレベルのそれぞれに対応する中間融合特徴を獲得することに用いられる特徴融合サブモジュールであって、nは正整数である、特徴融合サブモジュールと、
前記n個のレベルのそれぞれに対応する前記中間融合特徴を合成して、前記目標顔画像の前記融合特徴を獲得することに用いられる特徴合成サブモジュールと、を含む。
【0012】
1つの可能な実現形態において、前記中間融合特徴は融合空間領域特徴と融合周波数領域特徴に基づいて獲得され、前記融合空間領域特徴は、前記空間領域特徴と前記周波数領域特徴に対してアテンションメカニズムに基づく融合を行った後に獲得された空間領域上の特徴であり、前記融合周波数領域特徴は、前記空間領域特徴と前記周波数領域特徴に対してアテンションメカニズムに基づく融合を行った後に獲得された周波数領域上の特徴であり、
前記特徴融合サブモジュールは、
t番目のレベルにおいて、t-1番目のレベルにおける前記融合空間領域特徴、及び前記t-1番目のレベルにおける前記融合周波数領域特徴を前記アテンション融合ネットワークに入力して、前記t番目のレベルにおける前記融合空間領域特徴、及び前記t番目のレベルにおける前記融合周波数領域特徴を獲得することに用いられる融合特徴取得ユニットと、
前記t番目のレベルにおける前記融合空間領域特徴、及び前記t番目のレベルにおける前記融合周波数領域特徴を合成して、前記t番目のレベルに対応する前記中間融合特徴を生成することに用いられる融合特徴合成ユニットと、を含み、
前記t番目のレベルは前記n個のレベルのうちの任意の1つであり、1≦t≦nであり、且つt、nはいずれも正整数である。
【0013】
1つの可能な実現形態において、前記融合特徴取得ユニットは、
t番目のレベルにおいて、前記t-1番目のレベルにおける前記融合空間領域特徴、及び前記t-1番目のレベルにおける前記融合周波数領域特徴を前記アテンション融合ネットワークにおけるアテンション抽出サブネットワークに入力して、前記アテンション抽出サブネットワークから出力された、前記t番目のレベルにおける空間領域アテンションマップと前記t番目のレベルにおける周波数領域アテンションマップを取得することに用いられるアテンションマップ取得サブユニットであって、前記空間領域アテンションマップは前記融合空間領域特徴の重みを指示することに用いられ、前記周波数領域アテンションマップは前記融合周波数領域特徴の重みを指示することに用いられる、アテンションマップ取得サブユニットと、
前記t-1番目のレベルにおける前記融合空間領域特徴、及び前記t番目のレベルにおける前記空間領域アテンションマップに基づいて、前記t番目のレベルにおける前記融合空間領域特徴を生成することに用いられる融合空間領域特徴取得サブユニットと、
前記t-1番目のレベルにおける前記融合周波数領域特徴、及び前記t番目のレベルにおける前記周波数領域アテンションマップに基づいて、前記t番目のレベルにおける前記融合周波数領域特徴を生成することに用いられる融合周波数領域特徴取得サブユニットと、を含む。
【0014】
1つの可能な実現形態において、前記検出結果取得モジュールは、
前記目標顔画像の前記融合特徴に対して局所エリア類似性抽出を行って、前記目標顔画像に対応する局所エリア類似性集合を取得することに用いられる類似性集合取得サブモジュールと、
前記局所エリア類似性集合に基づいて、前記目標顔画像の前記検出結果を取得することに用いられる検出結果取得サブモジュールと、を含む。
【0015】
1つの可能な実現形態において、前記検出結果取得サブモジュールは、
前記局所エリア類似性集合を顔画像検出モデルの偽造顔画像判定ネットワークに入力して、前記偽造顔画像判定ネットワークから出力された前記目標顔画像に対応する偽造顔画像確率を取得することに用いられる偽造確率取得ユニットと、
前記偽造顔画像確率に基づいて、前記目標顔画像が偽造顔画像であるか否かを判定することに用いられる偽造顔画像判定ユニットと、を含み、
前記顔画像検出モデルは、顔画像サンプル、及び前記顔画像サンプルに対応する顔画像サンプルラベルのトレーニングによって獲得される。
【0016】
1つの可能な実現形態において、前記装置は、
前記目標顔画像が偽造顔画像であることに応答して、前記目標顔画像の前記融合特徴に基づいて、前記目標顔画像に対応する偽造顔エリアを取得することに用いられる偽造顔エリア取得モジュールをさらに含む。
【0017】
さらなる別の態様では、コンピュータ機器に用いられる、モデルトレーニング装置を提供し、顔画像検出モデルは、アテンション融合ネットワークと、偽造顔画像判定ネットワークと、デコーダとを含み、前記アテンション融合ネットワークは、顔画像の空間領域特徴、及び周波数領域特徴に基づいて、前記顔画像の融合特徴を取得することに用いられ、前記装置は、
画像サンプルセットを取得することに用いられる画像サンプルセット取得モジュールであって、前記画像サンプルセット中に少なくとも2つの顔画像サンプルペアが含まれ、前記顔画像サンプルペア中に顔画像正サンプルと顔画像負サンプルとが含まれ、各顔画像サンプルは対応する顔画像サンプルラベルを有し、前記顔画像サンプルラベルは真実の顔ラベルと偽造顔ラベルとを含む、画像サンプルセット取得モジュールと、
前記画像サンプルセットによって、前記顔画像検出モデルをトレーニングすることに用いられるモデルトレーニングモジュールと、を含み、
前記顔画像検出モデルは、目標顔画像を取得し、前記目標顔画像に対して周波数領域変換を行って、前記目標顔画像の周波数領域画像を獲得し、前記目標顔画像に基づいて特徴抽出を行って、前記目標顔画像の空間領域特徴を獲得し、前記周波数領域画像に基づいて特徴抽出を行って、前記目標顔画像の周波数領域特徴を獲得し、前記空間領域特徴と前記周波数領域特徴とを融合して、前記目標顔画像の融合特徴を獲得し、前記目標顔画像の融合特徴に基づいて、前記目標顔画像の検出結果を取得するという操作を実行することに用いられ、前記検出結果は前記目標顔画像が偽造顔画像であるか否かを指示することに用いられる。
【0018】
1つの可能な実現形態において、前記モデルトレーニングモジュールは、
前記画像サンプルセットにおける少なくとも2つの前記顔画像サンプルペアに基づいて、各前記顔画像サンプルペアに対応する偽造顔エリア画像を取得することに用いられる偽造顔エリア画像取得サブモジュールと、
各前記偽造顔エリア画像の真実の局所エリア類似性集合を取得することに用いられる類似性集合取得サブモジュールと、
各前記顔画像サンプル、及び各前記顔画像サンプルに対応するトレーニングラベルに基づいて、顔画像検出モデルをトレーニングすることに用いられるモデルトレーニングサブモジュールであって、前記トレーニングラベルは前記顔画像サンプルラベル、前記偽造顔エリア画像、及び前記偽造顔エリア画像の真実の局所エリア類似性集合を含む、モデルトレーニングサブモジュールと、を含む。
【0019】
1つの可能な実現形態において、前記モデルトレーニングサブモジュールは、
各前記顔画像サンプルを前記顔画像検出モデルに入力して、各前記顔画像サンプルに対応する予測結果を獲得することに用いられる予測結果取得ユニットであって、前記予測結果は予測顔画像サンプルラベル、予測偽造顔エリア画像、及び予測局所エリア類似性を含む、予測結果取得ユニットと、
各前記顔画像サンプルに対応する前記トレーニングラベル、及び各前記顔画像サンプルに対応する前記予測結果に基づいて、損失関数を計算することに用いられる損失関数計算ユニットと、
前記損失関数に基づいて、顔画像検出モデルに対してパラメータ更新を行うことに用いられるモデルパラメータ更新ユニットと、を含む。
【0020】
別の態様では、コンピュータ機器を提供し、前記コンピュータ機器はプロセッサと、メモリとを含み、前記メモリには少なくとも1つの命令、少なくとも1つのプログラムセグメント、コードセット、又は命令セットが記憶され、前記少なくとも1つの命令、前記少なくとも1つのプログラムセグメント、前記コードセット、又は命令セットが前記プロセッサによりロードされ、かつ実行されることで、前記画像検出方法を実現する。
【0021】
別の態様では、コンピュータ機器を提供し、前記コンピュータ機器はプロセッサと、メモリとを含み、前記メモリには少なくとも1つの命令、少なくとも1つのプログラムセグメント、コードセット、又は命令セットが記憶され、前記少なくとも1つの命令、前記少なくとも1つのプログラムセグメント、前記コードセット、又は命令セットが前記プロセッサによりロードされ、かつ実行されることで、前記モデルトレーニング方法を実現する。
【0022】
別の態様では、コンピュータ可読記憶媒体を提供し、前記コンピュータ可読記憶媒体には少なくとも1つのコンピュータプログラムが記憶され、前記コンピュータプログラムがプロセッサによりロードされ、かつ実行されることで、前記画像検出方法を実現する。
【0023】
別の態様では、コンピュータ可読記憶媒体を提供し、前記コンピュータ可読記憶媒体には少なくとも1つのコンピュータプログラムが記憶され、前記コンピュータプログラムがプロセッサによりロードされ、かつ実行されることで、前記モデルトレーニング方法を実現する。
【0024】
別の態様では、コンピュータプログラム製品、又はコンピュータプログラムを提供し、該コンピュータプログラム製品、又はコンピュータプログラムはコンピュータ命令を含み、該コンピュータ命令はコンピュータ可読記憶媒体において記憶される。コンピュータ機器のプロセッサはコンピュータ可読記憶媒体から該コンピュータ命令を読み取り、プロセッサは該コンピュータ命令を実行し、該コンピュータ機器に前記各種の選択可能な実現形態において提供された画像検出方法を実現させる。
【0025】
別の態様では、コンピュータプログラム製品、又はコンピュータプログラムを提供し、該コンピュータプログラム製品、又はコンピュータプログラムはコンピュータ命令を含み、該コンピュータ命令はコンピュータ可読記憶媒体において記憶される。コンピュータ機器のプロセッサはコンピュータ可読記憶媒体から該コンピュータ命令を読み取り、プロセッサは該コンピュータ命令を実行し、該コンピュータ機器に前記各種の選択可能な実現形態において提供されたモデルトレーニング方法を実行させる。
【0026】
本願が提供する技術的手段は以下の有益な効果を含むことができる。
【0027】
目標顔画像の空間領域と周波数領域上の特徴情報を取得し、かつ目標顔画像の空間領域と周波数領域上の特徴情報に応じて目標顔の融合特徴を取得し、該融合特徴に基づいて該目標顔画像に対して偽造顔認識を行うことによって、顔画像の検出過程において、画像の空間領域と周波数領域上の特徴を総合的に考慮し、同時に両者の特徴情報を融合して顔画像の融合特徴を取得し、取得された目標顔画像の融合特徴をより正確にし、さらに該融合特徴を利用して取得された目標顔画像の検出結果をより正確にする。
【0028】
理解すべきであるように、以上の一般的な記述、及び後述の詳細な記述は例示的で解釈的なものに過ぎず、本願を制限するものではない。
【図面の簡単な説明】
【0029】
図1】本願の1つの例示的な実施例が提供する画像検出システムの模式図を示す。
図2】本願の1つの例示的な実施例が提供する画像検出方法のフローチャートを示す。
図3】1つの例示的な実施例に従って示される顔画像検出モデルトレーニング、及び顔画像検出のフレームワーク図である。
図4】本願の1つの例示的な実施例が提供する顔画像検出モデルのトレーニング方法のフローチャートを示す。
図5】本願の1つの例示的な実施例が提供する顔画像検出モデルトレーニング、及び顔画像検出方法のフローチャートを示す。
図6】本願の1つの例示的な実施例が提供する顔画像サンプルの模式図を示す。
図7】本願の1つの例示的な実施例が提供するアテンション抽出サブネットワークの動作模式図を示す。
図8】本願の1つの例示的な実施例が提供する顔画像検出過程の模式図を示す。
図9】本願の1つの例示的な実施例が提供する画像検出装置のブロック図を示す。
図10】本願の1つの例示的な実施例が提供するモデルトレーニング装置のブロック図を示す。
図11】本願の1つの例示的な実施例に示されるコンピュータ機器の構造ブロック図を示す。
図12】本願の1つの例示的な実施例に示されるコンピュータ機器の構造ブロック図を示す。
【発明を実施するための形態】
【0030】
図1は、本願の1つの例示的な実施例が提供する画像検出システムの模式図を示し、図1に示されるように、該システムはサーバ110と、端末120とを含む。
【0031】
ここで、上記サーバ110は独立した物理サーバであってもよく、複数の物理サーバで構成されるサーバクラスタ、又は分散型システムであってもよい。
【0032】
上記端末120は、顔画像検出機能を有する端末であり、例えば、端末120は、スマートフォン、タブレットコンピュータ、電子書籍リーダー、スマートメガネ、スマートウォッチ、スマートテレビ、スマート車載機器、MP3プレーヤー(Moving Picture Experts Group(MPEG)Audio Layer III、動画専門家圧縮標準オーディオレベル3)、MP4(Moving Picture Experts Group(MPEG)Audio Layer IV、動画専門家圧縮標準オーディオレベル4)プレーヤー、ラップトップポータブルコンピュータ、及びデスクトップコンピュータ等であってもよい。
【0033】
選択可能に、上記システムには1つ、又は複数のサーバ110、及び複数の端末120が含まれる。本願の実施例はサーバ110、及び端末120の個数を制限しない。
【0034】
端末、及びサーバは通信ネットワークを介して連結される。選択可能に、通信ネットワークは有線ネットワーク、又は無線ネットワークである。
【0035】
選択可能に、上記無線ネットワーク、又は有線ネットワークは標準通信技術、及び/又はプロトコルを使用する。ネットワークは通常、インターネットであるが、いかなるネットワークであってもよく、ローカルエリアネットワーク(Local Area Network、LAN)、メトロポリタンエリアネットワーク(Metropolitan Area Network、MAN)、ワイドエリアネットワーク(Wide Area Network、WAN)、移動、有線又は無線ネットワーク、専用ネットワーク、又は仮想専用ネットワークのいかなる組み合わせをも含むが、これらに限定されない。いくつかの実施例において、ハイパーテキストマークアップ言語(Hyper Text Mark-up Language、HTML)、拡張可能マークアップ言語(Extensible Markup Language、XML)等を含む技術、及び/又はフォーマットを使用してネットワークを介して交換されたデータを代表する。この他、例えばセキュアソケットレイヤー(Secure Socket Layer、SSL)、トランスポートレイヤーセキュリティ(Transport Layer Security、TLS)、仮想専用ネットワーク(Virtual Private Network、VPN)、インターネットプロトコルセキュリティ(Internet Protocol Security、IPsec)等の通常の暗号化技術を使用して、すべての又はいくつかのリンクを暗号化することもできる。別のいくつかの実施例において、カスタマイズ、及び/又は専用データ通信技術を使用して上記データ通信技術を代替、又は補充することもできる。本願はここでは制限しない。
【0036】
図2は、本願の1つの例示的な実施例が提供する画像検出方法のフローチャートを示し、該方法はコンピュータ機器により実行され、該コンピュータ機器は端末、又はサーバとして実現されてもよく、該端末、又はサーバは図1に示される端末120、又はサーバ110であってもよい。図2に示されるように、該画像検出方法は以下のステップを含む。
【0037】
ステップ210:目標顔画像を取得する。
【0038】
ここで、該目標顔画像は、顔を含む静的画像であってもよく、又は、顔を含む動的画像であってもよく、該目標顔画像が静的画像であるときに、該目標顔画像はビデオ中から取得された顔を含むビデオフレーム画像であってもよく、又は、端末の画像収集機器によって取得された顔画像であってもよく、又は、コンピュータ機器によりローカルに記憶された顔画像等であってもよく、該目標顔画像が動的画像であるときに、該目標顔画像はビデオ中からキャプチャされた連続した顔画像を含む動的画像であってもよく、又は、コンピュータ機器によりローカルに記憶された顔を含む動的画像等であってもよい。本願は目標顔画像の取得方式、及びタイプを制限しない。
【0039】
1つの可能な実現形態において、コンピュータ機器により取得された目標顔画像の数は1枚、又は複数枚である。
【0040】
例えば、コンピュータ機器がビデオ中に出現する顔の偽造確率を判定するときに、ビデオにおける顔が偽造顔であるか否かを検出する精度を向上させるために、ビデオにおける各ビデオフレームを複数回サンプリングして、顔を含む複数枚の顔画像を獲得し、その後、複数枚の顔画像が偽造顔であるか否かを検出する検出結果に基づいて、該複数枚の顔画像に対応する顔ビデオが偽造顔ビデオであるか否かを判定することができる。
【0041】
顔画像検出オブジェクトが顔ビデオであることに応答して、入力された顔ビデオに対しては、OpenCVによって該顔ビデオのビデオフレームを等間隔でサンプリングして、顔ビデオにおける複数枚の顔画像を取得することができる。ここで、同一のビデオの異なるビデオフレームにおける顔画像は、身元識別子の異なる顔画像であってもよい。
【0042】
ステップ220:目標顔画像に基づいて、目標顔画像の周波数領域画像、及び目標顔画像の空間領域特徴を獲得する。周波数領域画像は目標顔画像に対して周波数領域変換を行って得られた画像であり、空間領域特徴は目標顔画像に対して特徴抽出を行って得られた特徴である。
【0043】
1つの可能な実現形態において、コンピュータ機器は、目標顔画像に対して周波数領域変換を行って、目標顔画像の周波数領域画像を獲得する。コンピュータ機器は、目標顔画像に基づいて特徴抽出を行って、目標顔画像の空間領域特徴を獲得する。
【0044】
画像は空間ドメインにおいて1つ1つの画素点として表現され、これらの画素点は離散的な2次元信号に相当するため、空間領域を周波数領域に転化するときに、周波数領域転化方法を利用して離散的な2次元信号を2次元座標上の振幅変化に転化する必要がある。従って、目標顔画像に対して周波数領域変換を行って、目標顔画像の周波数領域画像を獲得する必要がある。
【0045】
ここで、空間ドメイン(Spatial Domain)は画像空間(Image Space)とも呼ばれ、画像の画素からなる空間である。画像空間において長さ(距離)を独立変数として画素値を直接処理することは空間ドメイン処理と呼ばれる。周波数ドメイン(Spatial Frequency Domain)とは、周波数(波数)を独立変数として画像の特徴を記述することを指し、1枚の予想される画像の画素値の空間的な変化を、異なる振幅、空間周波数、及び位相を有する単純な振動関数の線形重畳に分解することができ、画像における各種の周波数成分の組成、及び分布は空間スペクトルと呼ばれる。このように画像の周波数特徴を分解、処理、及び分析することは、周波数ドメイン処理、又は波数ドメイン処理と呼ばれる。
【0046】
周波数ドメイン処理は主に、例えば画像復元、画像再構成、放射変換、エッジ強化、画像鮮鋭化、画像平滑化、ノイズ抑制、スペクトル分析、テクスチャ分析等の処理、及び分析のような画像の空間周波数に関連する処理に用いられる。
【0047】
本願の実施例における空間領域は空間ドメインを表し、周波数領域は周波数ドメインを表す。
【0048】
本願の実施例において、コンピュータ機器は、目標顔画像に対して特徴抽出を行って、該目標顔画像の空間領域特徴を獲得することができる。
【0049】
ステップ230:周波数領域画像に基づいて特徴抽出を行って、目標顔画像の周波数領域特徴を獲得する。
【0050】
ここで、空間領域と周波数領域は画像情報を取得するために異なる視点を提供する。空間領域において、画像f(x,y)は2次元空間における矩形エリア上に定義された離散関数であり、f(x,y)を振幅変化のErwin信号とみなすと、周波数領域転化方法によって周波数領域において画像を処理し、それにより画像の周波数領域における比較的際立った特性を取得することができる。
【0051】
ここで、該周波数領域転化方法はフーリエ変換、離散コサイン変換、ウォルシュ変換、及びウェーブレット変換等を含んでもよい。
【0052】
ステップ240:空間領域特徴と周波数領域特徴とを融合して、目標顔画像の融合特徴を獲得する。
【0053】
ステップ250:目標顔画像の融合特徴に基づいて、目標顔画像の検出結果を取得し、該検出結果は目標顔画像が偽造顔画像であるか否かを指示することに用いられる。
【0054】
偽造顔画像における顔は加工した顔であってもよく、例えば、五官における全部、又は一部を加工した後の顔である。本願の実施例において、偽造顔画像は、偽造顔画像に対応するオリジナルの顔画像における顔は加工しており、オリジナルの顔画像における背景はそのまま保持した後に形成された顔画像である。偽造顔画像は顔編集、表情編集等として表現されてもよい。
【0055】
選択可能に、該偽造顔画像は、AI顔加工技術に基づいて生成された偽造顔画像である。
【0056】
本願が提供する方法は、静的顔画像における顔が偽造顔であるか否かを検出することができ、ビデオ、又は動的顔画像における顔が偽造顔であるか否かを検出することを実現することもできる。
【0057】
以上のように、本願の実施例が提供する画像検出方法は、目標顔画像の空間領域と周波数領域上の特徴情報を取得し、かつ目標顔画像の空間領域と周波数領域上の特徴情報に応じて目標顔の融合特徴を取得し、該融合特徴に基づいて該目標顔画像に対して偽造顔認識を行うことによって、顔画像の検出過程において、画像の空間領域と周波数領域上の特徴を総合的に考慮し、同時に両者の特徴情報を融合して顔画像の融合特徴を取得し、取得された目標顔画像の融合特徴をより正確にし、さらに該融合特徴を利用して取得された目標顔画像の検出結果をより正確にする。
【0058】
本願の実施例に記載の手段において、コンピュータ機器は、同一の顔画像の空間領域特徴と周波数領域特徴に基づいて、該顔画像の融合特徴を取得し、かつ該融合特徴に基づいて顔画像が偽造顔画像であるか否かの判断を実現することができ、それにより顔画像の真偽を検出する精度を向上させる。上記手段は、例えば顔認識によるユーザ身元の検証、及びピクチャビデオの鑑別等のシーンに応用されてもよい。
【0059】
例えば、上記手段の応用シーンは以下の複数種を含むがこれらに限定されない。
【0060】
1、仮想リソース置換業界のシーン
例えば、仮想リソース置換業務の取り扱いを行うシーンにおいて、ユーザが大量の仮想リソースを転送する必要があるときに、仮想リソース置換の安全性を保証し、ユーザ身元を認証することを実現するために、ユーザに対して顔画像、又は顔ビデオの取得、及びリアルタイム検出を行う必要がある。このとき、該仮想リソースの転送操作を行うことをサポートしないユーザは顔画像、又は顔ビデオを処理し、次に該仮想リソースの転送操作を行うことをサポートするユーザになりすまして虚偽の身元情報認証を行い、そしてコンピュータ機器が該顔画像が偽の顔画像であることを正確に検出しないとすれば、ユーザにはリスクをもたらすことになる。このとき、本願が提供する顔画像検出方法によって、ユーザの身元認証を行う顔画像、又は顔ビデオにおける1枚、又は複数枚の画像を目標顔画像として取得することができ、目標顔画像に対して周波数領域変換を行って、目標顔画像の周波数領域画像を獲得し、目標顔画像と周波数領域画像に基づいて目標顔画像の空間領域特徴と周波数領域特徴をそれぞれ抽出し、その後、該空間領域特徴と周波数領域特徴とを融合して、目標顔画像の融合特徴を獲得し、該融合特徴に基づいて目標顔画像に対して偽造顔画像であるか否かの認証を行うことで、ユーザがアップロードした顔画像、又は顔ビデオの真実性を判定する。検出結果が該顔画像、又は顔ビデオにおける顔画像が真実の顔画像であると指示したときに、すなわち該顔画像、又は顔ビデオが真実の画像、又は真実のビデオであると確認したときに、該顔画像、又は顔ビデオにおけるユーザ身元に対してさらに身元認証を行い、それによりユーザの仮想リソースの安全を保障する。
【0061】
2、ネットワークを使った友達作りのシーン
ネットワークを使ったオンライン友達作りは現在社交の重要な手段となっており、ネットワークを使った友達作りを行うときには、顔偽造技術によって顔画像、又は顔ビデオを置き換えてネットワークを使った友達作りの興味深さを高めることができる。例えば、Deepfaks等の顔加工技術によって顔加工操作を実現することができるが、同時に、ネットワークを使った友達作りの真実性が比較的低くなる。ネットワークを使った友達作り過程において、ネットワーク上のオンライン友達の顔画像、又はリアルタイムオンラインビデオにおける顔画像の真実性に対する認証を実現するために、本願が提供する顔画像検出方法によって、ネットワークを使った友達作り過程で取得された顔画像、又はリアルタイムオンラインビデオにおける顔の真実性を検出することができる。現在の顔画像、又は顔ビデオが偽造された顔画像、又は顔ビデオであると判定した後に、顔画像、又は顔画像上に偽造提示識別子を表示することができ、例えば、偽造顔透かし等を付け、それによりネットワークを使ったオンライン友達作りの興味深さを保持すると同時に、ユーザに真実の情報をフィードバックする。
【0062】
本願に関する手段は、顔画像検出モデルトレーニング段階と顔画像検出段階とを含む。図3は、1つの例示的な実施例に従って示される顔画像検出モデルトレーニング、及び顔画像検出のフレームワーク図である。図3に示されるように、顔画像検出モデルトレーニング段階では、顔画像検出モデルトレーニング機器310は、予め設定されたトレーニングサンプル(画像サンプルセット、及びトレーニングラベルを含み、該トレーニングラベルは各顔サンプル画像の画像サンプルラベル、偽造顔エリア画像、及び偽造顔エリア画像の真実の局所エリア類似性集合を含む)によって、顔画像検出モデルを得る。顔画像検出段階では、顔画像検出機器320は、該顔画像検出モデルに基づき、入力された目標顔画像に対して偽造顔確率検出を行い、目標顔画像が偽造顔画像であるか否かを判断する。
【0063】
ここで、上記顔画像検出モデルトレーニング機器310と顔画像検出機器320はコンピュータ機器であってもよく、例えば、該コンピュータ機器はパソコン、サーバ等の固定式コンピュータ機器であってもよく、又は、該コンピュータ機器はタブレットコンピュータ、電子書籍リーダー等の移動式コンピュータ機器であってもよい。
【0064】
選択可能に、上記顔画像検出モデルトレーニング機器310と顔画像検出機器320は同一の機器であってもよく、又は、顔画像検出モデルトレーニング機器310と顔画像検出機器320は異なる機器であってもよい。そして、顔画像検出モデルトレーニング機器310と顔画像検出機器320が異なる機器であるときに、顔画像検出モデルトレーニング機器310と顔画像検出機器320は同一タイプの機器であってもよく、例えば顔画像検出モデルトレーニング機器310と顔画像検出機器320はいずれもサーバであってもよく、又は顔画像検出モデルトレーニング機器310と顔画像検出機器320は異なるタイプの機器であってもよく、例えば顔画像検出機器320はパソコン、又は端末であってもよいが、顔画像検出モデルトレーニング機器310はサーバ等であってもよい。本願の実施例は、顔画像検出モデルトレーニング機器310と顔画像検出機器320の具体的なタイプを限定しない。
【0065】
図4は、本願の1つの例示的な実施例が提供する顔画像検出モデルのトレーニング方法のフローチャートを示し、該顔画像検出モデルは、アテンション融合ネットワークと、偽造顔画像判定ネットワークと、デコーダとを含む。該アテンション融合ネットワークは、顔画像の空間領域特徴、及び周波数領域特徴に基づいて、上記顔画像の融合特徴を取得することに用いられる。該方法はコンピュータ機器により実行されてもよく、該コンピュータ機器は端末、又はサーバとして実現されてもよく、該端末、又はサーバは図1に示される端末、又はサーバであってもよい。図4に示されるように、該顔画像検出モデルのトレーニング方法は以下のステップを含む。
【0066】
ステップ410:画像サンプルセットを取得し、該画像サンプルセット中には少なくとも2つの顔画像サンプルペアが含まれ、該顔画像サンプルペアには顔画像正サンプルと顔画像負サンプルとが含まれ、各顔画像サンプルは対応する顔画像サンプルラベルを有し、該顔画像サンプルラベルは真実の顔ラベルと偽造顔ラベルとを含む。
【0067】
1つの可能な実現形態において、画像サンプルセットには顔画像正サンプルセットと顔画像負サンプルセットとが含まれる。
【0068】
ここで、顔画像正サンプルセットにおける顔画像サンプルは真実の顔画像サンプルを表してもよく、顔画像サンプルセットにおける顔負画像サンプルは偽造顔画像サンプルを表してもよい。顔画像正サンプルセットにおける真実の顔画像サンプルは顔画像負サンプルセットにおける偽造顔画像サンプルと1対1で対応し、顔画像正サンプルセットにおける真実の顔画像サンプルは顔画像負サンプルセットにおける対応する偽造顔画像サンプルと1組の顔画像サンプルペアをなしている。
【0069】
1つの可能な実現形態において、顔画像サンプルを取得するときに、コンピュータ機器はビデオにおける顔を含むビデオフレームを顔画像サンプルとして取得することができる。該過程は、顔ビデオを取得し、該顔ビデオとはビデオにおける顔画像を含むビデオを指し、顔ビデオに対してサンプリング処理を行って、顔ビデオフレームを獲得し、該顔ビデオフレームはビデオにおける顔を含むビデオフレームを指示するために用いられ、該ビデオフレームに対して顔検出を行って、該ビデオフレームにおける顔エリアを取得し、該顔エリアに基づいて顔画像サンプルを取得することで実現される。
【0070】
サンプルとしての顔加工ビデオデータセットの多くには、カテゴリのアンバランス現象が存在する。すなわち偽造ビデオの数が往々に真実のビデオの数よりも多いため、顔画像サンプルに対応する顔ビデオを取得するときに、ダウンサンプリング方式によって顔ビデオの取得を行うことができる。すなわち各々の真実のビデオに対応するすべての偽造ビデオから1つの偽造ビデオをサンプリングし、それによりトレーニングサンプルセットにおける正負サンプルのソースのバランスを保証する。すなわち各々の真実の顔ビデオに対しては、画像サンプルの収集を行うときに、それに対応する1つの偽造顔ビデオのみを取得して顔画像負サンプルの収集を行う。
【0071】
ここで、サンプル画像収集を行う過程において、コンピュータ機器は、真実の顔ビデオと偽造顔ビデオのフレーム順序に応じて、各々のビデオに含まれる顔画像ビデオフレーム中からNフレームを等間隔でサンプリングして、トレーニングサンプルセットにおける顔画像正サンプルセット、及び顔画像負サンプルセットを構成することができる。
【0072】
1つの可能な実現形態において、顔画像サンプルラベルは0と1で表される。
【0073】
例えば、0は顔画像サンプルラベルが真実の顔ラベルであることを表し、1は顔画像サンプルラベルが偽造顔ラベルであることを表す。
【0074】
ステップ420:画像サンプルセットによって、顔画像検出モデルをトレーニングする。
【0075】
ここで、該顔画像検出モデルは、目標顔画像を取得し、目標顔画像に対して周波数領域変換を行って、目標顔画像の周波数領域画像を獲得し、目標顔画像に基づいて特徴抽出を行って、目標顔画像の空間領域特徴を獲得し、周波数領域画像に基づいて特徴抽出を行って、目標顔画像の周波数領域特徴を獲得し、空間領域特徴と周波数領域特徴とを融合して、目標顔画像の融合特徴を獲得し、目標顔画像の融合特徴に基づいて、目標顔画像の検出結果を取得するという操作を実行することに用いられてもよく、該検出結果は目標顔画像が偽造顔画像であるか否かを指示することに用いられる。
【0076】
ここで、該偽造顔画像判定ネットワークは該目標顔画像が偽造顔画像であるか否かを判定することに用いられてもよく、該デコーダは目標顔画像における偽造顔エリア画像を生成するために用いられてもよい。
【0077】
以上のように、本願の実施例が提供する顔画像検出モデルのトレーニング方法は、画像サンプルセットに基づいてアテンション融合ネットワーク、偽造顔画像判定ネットワーク、及びデコーダを含む顔画像検出モデルを獲得することによって、顔画像の検出過程において、上記顔画像検出モデルを利用して顔画像の空間領域と周波数領域上の特徴を総合的に考慮し、同時に両者の特徴情報を融合して顔画像の融合特徴を取得し、取得された目標顔画像の融合特徴をより正確にし、さらに該融合特徴を利用して取得された目標顔画像の検出結果をより正確にする。
【0078】
図5は、本願の1つの例示的な実施例が提供する顔画像検出モデルトレーニング、及び顔画像検出方法のフローチャートを示す。該方法はコンピュータ機器により実行され、該コンピュータ機器は端末、又はサーバとして実現されてもよく、該端末、又はサーバは図1に示されるシステムにおける端末、又はサーバであってもよい。図5に示されるように、該顔画像検出モデルトレーニング、及び顔画像検出方法は以下のステップを含む。
【0079】
ステップ510:画像サンプルセットを取得する。該画像サンプルセットには少なくとも2つの顔画像サンプルペアが含まれ、該顔画像サンプルペア中に顔画像正サンプルと顔画像負サンプルとが含まれ、各顔画像サンプルは対応する顔画像サンプルラベルを有し、顔画像サンプルラベルは真実の顔ラベルと偽造顔ラベルとを含む。
【0080】
ステップ520:画像サンプルセットによって、顔画像検出モデルをトレーニングする。
【0081】
1つの可能な実現形態において、コンピュータ機器は、mini-batchの方法に基づいて、トレーニングセット中からB枚の顔画像サンプル、及びB枚の顔画像サンプルと対応する偽造顔エリア画像をランダムにサンプリングすることができる。該偽造顔エリア画像は、顔画像サンプルペアに基づいて取得された各顔画像サンプルに対応する偽造エリア画像であり、該顔画像サンプルは、顔画像正サンプルと顔画像負サンプルとを含み、かつサンプリングして獲得された顔画像サンプル、及び対応する偽造顔エリア画像に対してデータ強化処理を行うことができる。
【0082】
例えば、コンピュータ機器は、ランダム反転、ぼかし処理、JPEG圧縮等の操作によって顔画像サンプル、及び偽造顔エリア画像を処理し、処理された顔画像サンプル、及び偽造顔エリア画像に基づいて顔画像検出モデルをトレーニングすることができる。
【0083】
顔画像検出モデルをトレーニングする過程において、該方法は以下のステップをさらに含んでもよい。
【0084】
S521:画像サンプルセットにおける少なくとも2つの顔画像サンプルペアに基づいて、各顔画像サンプルペアに対応する偽造顔エリア画像を取得する。
【0085】
本願の実施例において、偽造顔エリアとは、顔画像正サンプルと顔画像負サンプルにおける、真実の顔画像とは差異が存在するエリアを指す。
【0086】
顔画像正サンプルは真実の顔画像とは差異がないため、顔画像正サンプルに対応する偽造顔エリア画像の画素値は全部0であってもよい。
【0087】
1つの可能な実現形態において、顔画像負サンプルの偽造顔エリアに対して言えば、顔画像負サンプルの偽造顔エリアは、対応する顔画像正サンプルと顔画像負サンプルとの間の画素差異によって取得されてもよい。
【0088】
例えば、図6は、本願の1つの例示的な実施例が提供する顔画像サンプルの模式図を示す。図6に示されるように、顔画像610は顔画像正サンプルであり、すなわち真実の顔画像であり、顔画像セット620における顔画像は顔画像610の顔画像負サンプルであり、顔画像正サンプルと顔画像負サンプルとの間の画素差異に基づいて偽造顔エリアを取得することができ、該獲得された偽造顔エリア画像は偽造顔エリア画像セット630において示される偽造顔エリア画像であってもよい。
【0089】
ここで、顔画像サンプルにおける真実の部分、すなわち顔画像サンプルにおける、真実の顔画像と同じ画素部分は0を用いて表されてもよく、顔画像サンプルにおける偽造部分、すなわち顔画像サンプル中の、真実の顔画像サンプルと差異が存在する画素部分は1を用いて表されてもよい。
【0090】
顔画像正サンプルと真実の顔画像との間に差異が存在しないため、顔画像正サンプルに対応する偽造顔エリア画像の画素値をすべて0に設定し、対応して図6における偽造顔エリア画像631として表示する。
【0091】
S522:各偽造顔エリア画像の真実の局所エリア類似性集合を取得する。
【0092】
上記過程は以下のように、コンピュータ機器は各偽造顔エリア画像に対してエリア分割を行って、各偽造顔エリア画像に対応する少なくとも2つのエリアを獲得し、コンピュータ機器は少なくとも2つのエリアのそれぞれに対応する偽造顔面積の割合を取得し、コンピュータ機器は、各エリアのそれぞれに対応する偽造顔面積の割合に基づいて、各エリアと他のエリアとの間のユークリッド距離の集合を計算し、各偽造顔エリア画像の真実の局所エリア類似性集合を取得することにより実現されてもよい。
【0093】
ここで、偽造顔面積の割合に対する計算は以下のように、コンピュータ機器が各エリアにおける偽造画素の個数を取得し、次に各エリアにおける偽造画素の個数が対応するエリアにおける総画素の個数を占める割合を、各エリアに対応する偽造顔面積の割合として取得することにより実現されてもよい。
【0094】
1つの可能な実現形態において、コンピュータ機器が顔画像サンプルに対して行うエリア分割方法は等ピッチ分割である。
【0095】
例えば、コンピュータ機器は、顔画像サンプルを5x5個のエリアに分割し、その後、各エリアにおける偽造顔面積の割合を利用して各エリアと他のエリアとのユークリッド距離を計算することができる。
【0096】
ここで、各エリアと他のエリアとの間のユークリッド距離とは、各エリアに対応する偽造顔面積の割合と他のエリアに対応する偽造顔面積の割合との間のユークリッド距離を指し、該計算式は、[数1]であってもよく、ここで、dijはユークリッド距離を表し、pはi番目のエリアに対応する偽造顔面積の割合を表し、pはj番目のエリアに対応する偽造顔面積の割合を表す。
【0097】
【数1】
【0098】
例えば、i番目のエリアの偽造顔面積の割合は0.25であり、j番目のエリアの偽造顔面積の割合は0.5であり、その場合には、i番目のエリアとj番目のエリアとの間のユークリッド距離は1/4であってもよい。
【0099】
ここで、該真実の局所エリア類似性は、各エリアと他のエリアとのユークリッド距離の計算に基づいて獲得された行列であってもよい。
【0100】
例えば、該行列のi行目j列目の数値はi番目のエリアとj番目のエリアとの類似度距離を表す。ここで、該真実の局所エリア類似性の計算式はSij=1-dijであり、ここで、Sijはi番目のエリアとj番目のエリアとの間の真実の局所エリア類似性を表す。
【0101】
S523:各顔画像サンプル、及び各顔画像サンプルに対応するトレーニングラベルに基づいて、顔画像検出モデルをトレーニングする。該トレーニングラベルは顔画像サンプルラベル、偽造顔エリア画像、及び偽造顔エリア画像の真実の局所エリア類似性集合を含む。
【0102】
1つの可能な実現形態において、上記過程は以下のように、コンピュータ機器は画像サンプルセットにおける各顔画像サンプルを顔画像検出モデルに入力して、各顔画像サンプルに対応する予測結果を獲得し、該予測結果は予測顔画像サンプルラベル、予測偽造顔エリア画像、及び予測局所エリア類似性を含み、コンピュータ機器は、各顔画像サンプルに対応するトレーニングラベル、及び各顔画像サンプルに対応する予測結果に基づいて、損失関数を計算し、コンピュータ機器は、該損失関数に基づいて、顔画像検出モデルに対してパラメータ更新を行うことにより実現される。
【0103】
顔画像検出モデルが応用されるときに目標顔画像を検出する精度を保証するために、モデルトレーニングを行う段階では、顔画像検出モデルを顔画像サンプルの予測結果(すなわち予測検出結果)に基づいて顔画像サンプルに対応するトレーニングラベルと同じにする、又は類似させる必要がある。そして顔画像検出モデルのトレーニング過程において複数回トレーニングを行って、顔画像検出モデルが収束するまで、顔画像検出モデルにおける各ネットワークにおける各モデルパラメータを更新し、それにより顔画像検出モデルに対するトレーニングを完了する。
【0104】
本願の実施例において、該損失関数は、分類に用いられるバイナリクロスエントロピー損失Lce、デコーダに用いられるセグメンテーション損失Ldet、及び局所エリア類似性学習に用いられる類似性損失Lsimを含んでもよい。3つの損失の重み付け加算に基づいて顔画像検出モデルの損失値を獲得し、各関数に対応する式は、[数2]
【0105】
【数2】
【0106】
であり、
【0107】
ここで、Ltotalは顔画像検出モデルの損失を表し、yと[数3]はそれぞれ顔画像サンプルラベルの真実値と予測値を表し、sと[数4]はそれぞれ局所エリア類似性の真実値と予測値を表し、Mと[数5]はそれぞれ局所エリア類似性集合の真実値と予測値を表し、Mijは局所エリア類似性集合のi行目j列目の値を表し、λとλは異なる損失関数間を制御するバランス係数である。λとλの値はモデルトレーニングの異なるニーズに従って設定、及び調節されてもよく、例えば、本願の実施例において、λとλの値はそれぞれ10と0に設定されてもよい。
【0108】
【数3】
【数4】
【数5】
【0109】
1つの可能な実現形態において、コンピュータ機器は、最適化アルゴリズムによって顔画像検出モデルにおける各ネットワークのパラメータを更新し、そして複数回の反復によって結果を最適化する。
【0110】
例えば、該最適化アルゴリズムはAdamアルゴリズムであってもよい。
【0111】
選択可能に、顔画像検出モデルのトレーニング過程において、コンピュータ機器には認証セットが設定され、認証セットの正確率に従ってモデルの選択、及び学習率の減衰を行うことで、顔画像検出モデルのオーバーフィッティングを防止する。
【0112】
顔画像検出モデルが顔認識の結果に基づいて顔画像の真偽を直接判断することに起因する顔画像の真偽に対する誤判断を防止するために、画像サンプルセットの構築を行うときに、コンピュータ機器は、異なる顔画像サンプルを対応する身元識別子と重ならないように設定することで、現在の顔画像サンプルの身元識別子が指定された身元識別子であると顔画像検出モデルによって判断された後に、顔画像を真実の顔、又は偽造顔に直接類別するという状況を回避することができる。
【0113】
例えば、モデルトレーニング過程において、身元識別子がAの顔画像は複数あり、モデルトレーニングを行うときに、顔画像検出モデルが前回検出したときに、コンピュータ機器が身元識別子がAの顔画像1が真実の顔画像であると判断し、次回に身元識別子がAの顔画像2を入力するときに、該顔画像モデルは、該顔画像が真実の顔画像であると直接判定する可能性があり得る。
【0114】
ステップ530:目標顔画像を取得する。
【0115】
ここで、該目標顔画像は1枚の顔画像であってもよく、複数枚の顔画像を含む目標顔ビデオであってもよく、目標顔画像が目標顔ビデオとして実現されるときに、目標顔ビデオをサンプリングして、ビデオフレーム画像を獲得する。例えば、OpenCVを利用してビデオフレームを等間隔でサンプリングすることで、目標顔画像を獲得する。
【0116】
ここで、目標顔ビデオに対するサンプリングフレーム数が実際のニーズに従って増加、又は減少することで、異なる数のビデオ情報を取得することができる。顔ビデオに基づいて少なくとも2つのビデオフレーム画像を獲得した後に、顔検出技術に基づいて該少なくとも2つのビデオフレーム画像における顔エリアを認識し、かつクロッピングして、目標顔画像を獲得する。
【0117】
例えば、該顔検出技術はMTCNN技術を含んでもよい。
【0118】
1つの可能な実現形態において、コンピュータ機器は、顔検出技術に基づいて、獲得された顔画像を認識し、かつクロッピングして顔エリアを中心に拡大し、拡大した後の顔画像を目標顔画像として取得するようになる。
【0119】
例えば、コンピュータ機器は、顔検出技術に基づいて、獲得された顔画像を認識し、かつクロッピングして顔エリアを中心に1.2倍、1.5倍、又は2倍拡大した後、目標顔画像として取得することができる。上記拡大倍数は例示的なものに過ぎず、本願はこれを制限しない。
【0120】
ステップ540:目標顔画像に対して周波数領域変換を行って、目標顔画像の周波数領域画像を獲得する。
【0121】
1つの可能な実現形態において、コンピュータ機器は、離散コサイン変換によって目標顔画像に対する周波数領域変化を実現する。
【0122】
つまり、コンピュータ機器は、離散コサイン変換(Discrete Cosine Transform、DCT)(D)によって目標顔画像を周波数領域空間に変換し、かつ画像の低周波情報をフィルタリング(F)し、それにより目標顔画像の高周波における偽造痕跡を拡大し、続いて逆離散コサイン変換(D-1)によって畳み込みニューラルネットワークのトレーニングを容易にする周波数領域画像に変換する。
【0123】
又は、コンピュータ機器は、離散フーリエ変換、又は高速フーリエ変換等の方法によって周波数領域情報を抽出して、目標顔画像の周波数領域画像を獲得してもよく、本願は、目標顔画像の周波数領域画像を取得する方式を制限しない。
【0124】
ステップ550:目標顔画像に基づいて特徴抽出を行って、目標顔画像の空間領域特徴を獲得する。
【0125】
1つの可能な実現形態において、コンピュータ機器は、目標顔画像をエンコーダに入力し、エンコーダにおける畳み込みレイヤによって、目標顔画像に対して特徴抽出を行って、目標顔画像に対応する高解像度特徴を獲得し、エンコーダにおけるプーリングレイヤによって、高解像度特徴に対してダウンサンプリング処理を行って、目標顔画像の空間領域特徴を獲得する。
【0126】
上記ステップ540、及びステップ550の実行順序は限定されず、順次実行であってもよく、同期実行であってもよい。
【0127】
ステップ560:周波数領域画像に基づいて特徴抽出を行って、目標顔画像の周波数領域特徴を獲得する。
【0128】
1つの可能な実現形態において、コンピュータ機器は、目標顔画像の周波数領域画像をエンコーダに入力し、エンコーダにおける畳み込みレイヤによって、周波数領域画像に対して特徴抽出を行って、目標顔画像に対応する高解像度特徴を獲得し、エンコーダにおけるプーリングレイヤによって、高解像度特徴に対してダウンサンプリング処理を行って、目標顔画像の周波数領域特徴を獲得する。
【0129】
ステップ570:顔画像検出モデルのアテンション融合ネットワークによって、空間領域特徴と周波数領域特徴に対してアテンションメカニズムに基づく融合を行って、目標顔画像の融合特徴を獲得する。
【0130】
ここで、該顔画像モデルは、顔画像サンプル、及び顔画像サンプルに対応するトレーニングラベルのトレーニングによって獲得され、顔画像モデルをトレーニングする過程はステップ510、及びステップ520の関連説明を参照すればよいため、ここでは詳細な説明を省略する。
【0131】
アテンションメカニズム(Attention Mechanism)は、本質的に、ネットワークによって自主的に学習された1組の重み係数によって、かつ「動的重み付け」の方式で、ユーザの関心のあるエリアを強調し、同時に無関係な背景エリアを抑制する1種のメカニズムである。コンピュータビジョン分野において、アテンションメカニズムは、ハードアテンション、及びソフトアテンションの2つの種類に大きく分けられてもよい。
【0132】
アテンションメカニズムは、RNN(Recurrent Neural Network、回帰型ニューラルネットワーク)においてよく運用されており、アテンションメカニズム付きのRNNは、目標画像の一部の画素を処理するたびに、目標画像の全部の画素に従って処理するのではなく、現在状態の前の状態で注目された目標画像の一部の画素に従って処理することになり、タスクの処理の複雑さを軽減することができる。
【0133】
コンピュータ機器は、目標顔画像の空間領域特徴と周波数領域特徴を顔画像検出モデルのアテンション融合ネットワークに入力することによって、アテンション融合ネットワークから出力された目標顔画像の融合特徴を獲得する。ここで、該アテンション融合ネットワークはn個のレベルを含み、nは正整数である。目標顔画像の融合特徴を生成する過程において、上記過程は、
コンピュータ機器がアテンション融合ネットワークによって、n個のレベルにおいて空間領域特徴と周波数領域特徴に対してアテンションメカニズムに基づく融合を行って、n個のレベルに対応する中間融合特徴を獲得できることと、コンピュータ機器がn個のレベルに対応する中間融合特徴を合成して、目標顔画像の融合特徴を獲得できることと、を含む。
【0134】
ここで、該中間融合特徴とは、空間領域特徴と周波数領域特徴に対して異なるレベルのサブネットワークによってアテンション融合処理を行った後に、各レベルのサブネットワークから出力された目標顔画像の特徴を指してもよい。
【0135】
つまり、中間融合特徴は融合空間領域特徴と融合周波数領域特徴に基づいて獲得され、該融合空間領域特徴は、空間領域特徴と周波数領域特徴に対してアテンションメカニズムに基づく融合を行った後に獲得された空間領域上の特徴である。該融合周波数領域特徴は、空間領域特徴と周波数領域特徴に対してアテンションメカニズムに基づく融合を行った後に獲得された周波数領域上の特徴である。
【0136】
1つの可能な実現形態において、n個のレベルにおけるt番目のレベルに対しては、t番目のレベルにおいて、コンピュータ機器は、t-1番目のレベルにおける融合空間領域特徴、及びt-1番目のレベルにおける融合周波数領域特徴をアテンション融合ネットワークに入力して、t番目のレベルにおける融合空間領域特徴、及びt番目のレベルにおける融合周波数領域特徴を獲得する。次にt番目のレベルにおける融合空間領域特徴、及びt番目のレベルにおける融合周波数領域特徴を合成して、t番目のレベルに対応する中間融合特徴を生成する。
【0137】
ここで、t番目のレベルはn個のレベルのうちの任意の1つであり、1≦t≦nであり、且つt、nはいずれも正整数である。
【0138】
つまり、t番目のレベルに対しては、その入力は、t-1番目のレベルにおける融合空間領域特徴、及びt-1番目のレベルにおける融合周波数領域特徴を含み、t=1のときに、その入力は目標顔画像に基づいて抽出された空間領域特徴、及び目標顔画像に対応する周波数領域画像に基づいて抽出された周波数領域特徴である。
【0139】
ここで、画像合成(Image Mosaic)とは、空間的に重なる一連の画像を整列することによって、1つのシームレスで、高精細な画像を構成することを指し、画像合成後の画像は単一の画像よりも高い解像度、及びより大きな視野を有する。
【0140】
つまり、画像合成後の画像にはより多くの画像情報が含まれる。コンピュータ機器は、融合空間特徴と融合周波数領域特徴とを合成することによって、目標顔画像の空間領域と周波数領域上の総合情報、すなわち中間融合特徴を取得し、コンピュータ機器は、各レベルにおける中間融合特徴を合成することによって、目標顔画像の融合特徴を取得する。
【0141】
1つの可能な実現形態において、該アテンション融合ネットワークにはアテンション抽出サブネットワークが含まれ、入力された融合空間領域特徴(空間領域特徴)と融合周波数領域特徴(周波数領域特徴)に基づいて空間領域ストリーム中の対応する空間領域アテンションマップ、及び周波数領域ストリームに対応する周波数領域アテンションマップを取得する。それにより前のレベルにおける融合空間領域特徴、及び現在のレベルにおける空間領域アテンションマップに基づいて現在のレベルでの融合空間領域特徴を生成し、前のレベルにおける融合周波数領域特徴、及び現在のレベルでの周波数領域アテンションマップに基づいて現在のレベルでの融合周波数領域特徴を生成することに用いられる。該過程は以下のように実現され、
t番目のレベルにおいて、コンピュータ機器は、t-1番目のレベルにおける融合空間領域特徴、t-1番目のレベルにおける融合周波数領域特徴をアテンション融合ネットワークにおけるアテンション抽出サブネットワークに入力して、アテンション抽出サブネットワークから出力された、t番目のレベルにおける空間領域アテンションマップとt番目のレベルにおける周波数領域アテンションマップを取得し、コンピュータ機器は、t-1番目のレベルにおける融合空間領域特徴、及びt番目のレベルにおける空間領域アテンションマップに基づいて、t番目のレベルにおける融合空間領域特徴を生成し、コンピュータ機器は、t-1番目のレベルにおける融合周波数領域特徴、及びt番目のレベルにおける周波数領域アテンションマップに基づいて、t番目のレベルにおける融合周波数領域特徴を生成する。
【0142】
ここで、該空間領域アテンションマップは融合空間領域特徴の重みを指示することに用いられてもよく、該周波数領域アテンションマップは融合周波数領域特徴の重みを指示することに用いられてもよい。
【0143】
例示的には、図7は、本願の1つの例示的な実施例が提供するアテンション抽出サブネットワークの動作模式図を示す。図7に示されるように、該アテンション抽出サブネットワークは、コアサイズが1x1の畳み込みレイヤ(Conv1×1)、バッチ正規化レイヤ(Batch Normalization、BN)、線形整流関数(ReLU)、3x3の畳み込みレイヤ(Conv3×3)、及びSigmoid関数を含み、融合周波数領域特徴(周波数領域特徴)と融合空間領域特徴(空間領域特徴)に対して融合処理を行うときに、特徴A マップの形式で周波数領域特徴と空間領域特徴を表すことができる。[数6]、[数7]はそれぞれネットワークのt-1層目における空間領域特徴の特徴マップとt-1層目における周波数領域特徴の特徴マップを表し、[数8]、[数9]を共に合成した後に、t-1層目における中間融合特徴Ut-1を獲得する。その後、コアサイズが1x1の畳み込みレイヤ(Conv1×1)、バッチ正規化レイヤ、及び線形整流関数によって空間領域特徴と周波数領域特徴とを融合し、最後にコアサイズが3x3の畳み込みレイヤ(Conv3×3)、及びSigmoid関数によってt番目のレベルにおける空間領域ストリームに対応するアテンションマップとt番目のレベルにおける周波数領域ストリームに対応するアテンションマップ、すなわち空間領域アテンションマップ[数10]と周波数領域アテンションマップ[数11]を得る。その後、t-1番目のレベルにおける融合空間領域特徴、及びt番目のレベルにおける空間領域アテンションマップに基づいて、t番目のレベルにおける融合空間領域特徴を生成する。
【0144】
【数6】
【数7】
【数8】
【数9】
【数10】
【数11】
【0145】
例えば、コンピュータ機器は、t番目のレベルにおける空間領域アテンションマップにより指示されたt番目のレベルにおける融合空間領域特徴の重みによって、t-1番目のレベルにおける融合空間領域特徴を重み付けして、t番目のレベルにおける融合空間領域特徴を獲得することができる。相応に、t-1番目のレベルにおける融合周波数領域特徴、及びt番目のレベルにおける周波数領域アテンションマップに基づいて、t番目のレベルにおける融合周波数領域特徴を生成する。
【0146】
コンピュータ機器は、t番目のレベルにおける周波数領域アテンションマップにより指示されたt番目のレベルにおける融合周波数領域特徴の重みによって、t-1番目のレベルにおける融合周波数領域特徴を重み付けして、t番目のレベルにおける融合周波数領域特徴を獲得することができる。
【0147】
ステップ580:目標顔画像の融合特徴に対して局所エリア類似性抽出を行って、目標顔画像に対応する局所エリア類似性集合を取得する。
【0148】
1つの可能な実現形態において、該目標顔画像の融合特徴は融合特徴マップとして表現される。
【0149】
ここで、コンピュータ機器は、目標顔画像の融合特徴に対応する融合特徴マップに対してエリア分割を行って、融合特徴マップに対応する少なくとも2つのエリアを獲得し、少なくとも2つのエリアの特徴ベクトルを取得する。次に少なくとも2つのエリアのうちの各エリアの特徴ベクトルと他のエリアの特徴ベクトルとの間のコサイン距離の集合を抽出し、その後、少なくとも2つのエリアのコサイン距離の集合を、目標顔画像に対応する局所エリア類似性集合として取得する。
【0150】
模式的には、出力された融合特徴マップの寸法が20*20*512(幅、高さ、チャネル数)であると仮定すると、5*5個の4*4*512の局所エリアに分割する。次に各エリアにおける4*4*512特徴ベクトルを行、又は列ごとに1次元ベクトルに展開し、5*5個のエリアにおける対応する1次元ベクトルに基づいて、各エリアの間のコサイン距離を計算することができる。
【0151】
ここで、融合特徴マップに対して行ったエリア分割のエリアの個数は、偽造顔エリア画像の真実の局所エリア類似性を計算するときに偽造顔エリア画像に対するエリア分割のエリアの個数と一致するように保持される。
【0152】
つまり、偽造顔エリア画像を5*5個のエリアに分割し、融合特徴マップを分割するときに、同様に偽造顔エリア画像を5*5個のエリアに分割する。
【0153】
ここで、2つの局所エリアの間の局所エリア類似性が大きいほど、局所エリアにおいて偽造される可能性が小さくなることを表すことができ、2つの局所エリアの間の局所エリア類似性が小さいほど、局所エリアにおいて偽造される可能性が大きくなることを表すことができる。
【0154】
1つの可能な実現形態において、コンピュータ機器は、マハラノビス距離等の計測方式を採用して局所エリアの間の局所エリア類似性を取得するが、本願は局所エリア類似性を取得する取得方式を制限しない。
【0155】
ステップ590:局所エリア類似性集合に基づいて、目標顔画像の検出結果を取得し、該検出結果は目標顔画像が偽造顔画像であるか否かを指示することに用いられる。
【0156】
1つの可能な実現形態において、コンピュータ機器は、局所エリア類似性集合を顔画像検出モデルの偽造顔画像判定ネットワークに入力して、偽造顔画像判定ネットワークから出力された目標顔画像に対応する偽造顔画像確率を取得し、次に偽造顔画像確率に基づいて目標顔画像が偽造顔画像であるか否かを判定する。
【0157】
ここで、顔画像検出モデルは、顔画像サンプル、及び顔画像サンプルに対応する顔画像サンプルラベルのトレーニングによって獲得されてもよい。
【0158】
ここで、偽造顔画像確率は、目標顔画像が偽造顔に属する可能性の大きさを表す。
【0159】
つまり、偽造顔画像確率の値が大きいほど、目標顔画像が偽造顔に属する可能性が大きくなることが表され、偽造顔画像確率の値が小さいほど、目標顔画像が偽造顔に属する可能性が小さくなることが表される。
【0160】
1つの可能な実現形態において、コンピュータ機器は、局所エリア類似性閾値を設定することによって、各エリアの局所エリア類似性に基づいて、局所エリア類似性が該局所エリア類似性閾値よりも大きい局所エリアの数を統計し、該局所エリア類似性閾値よりも大きい局所エリアの数に基づいて目標顔画像の偽造顔確率を取得することができる。
【0161】
ここで、局所エリア類似性閾値は手動で調節された数値であってもよく、又は、モデルトレーニングにおいてパラメータ調節を行った後に獲得された数値であってもよい。
【0162】
1つの可能な実現形態において、目標顔の偽造顔画像確率を取得した後に、該偽造顔画像確率に基づいて、目標顔画像の検出結果、すなわち該目標顔画像が真実の顔画像であるか、又は、偽造顔画像であるかを出力する。
【0163】
1つの可能な実現形態において、顔画像検出の結果が解釈可能性を有するようにするために、目標顔画像が偽造顔画像であることに応答して、目標顔画像の融合特徴に基づいて、目標顔画像に対応する偽造顔エリアを取得する。
【0164】
上記過程は、目標顔画像の融合特徴を顔検出モデルのデコーダに入力して、デコーダから出力された目標顔画像の偽造顔エリア画像を獲得するように実現されてもよい。ここで、該デコーダは、複数のアップサンプリングレイヤ、及びコアサイズが3x3の畳み込みレイヤで構成されてもよい。
【0165】
顔画像検出モデルに入力された検出オブジェクトが顔ビデオであるときに、顔ビデオに基づいて取得された少なくとも2つの顔画像に対して顔画像検出を行うことによって、各顔画像の検出結果に基づいて、該顔ビデオの検出結果を出力する。
【0166】
例えば、少なくとも2つの顔画像のうち、偽造顔画像であると検出結果によって指示された顔画像の個数が検出された顔画像の総数の指定された閾値を超えることに応答して、該顔ビデオが偽造顔ビデオであると判定する。
【0167】
以上のように、本願の実施例が提供する顔画像検出モデルトレーニング、及び顔画像検出方法は、画像サンプルセットに基づいてアテンション融合ネットワーク、偽造顔画像判定ネットワーク、及びデコーダを含む顔画像検出モデルを獲得することによって、顔画像の検出過程において、目標顔画像の空間領域と周波数領域上の特徴情報に応じて目標顔の融合特徴を取得し、該融合特徴に基づいて該目標顔画像に対して偽造顔認識を行い、顔画像の検出過程において、画像の空間領域と周波数領域上の特徴を総合的に考慮し、同時に両者の特徴情報を融合して顔画像の融合特徴を取得し、取得された目標顔画像の融合特徴をより正確にし、さらに該融合特徴を利用して取得された目標顔画像の検出結果をより正確にすることを可能にする。
【0168】
上記各方法実施例に示される手段がネットワークを使った友達作りのシーンに応用されることを例とすると、ネットワークを使った友達作りのシーンにおいて、ユーザは友達から送信された顔画像を取得した後に、本願が提供する顔画像検出方法に基づいて該友達から送信された顔画像の真実性を認証することができる。図8は、本願の1つの例示的な実施例が提供する顔画像検出過程の模式図を示す。図8に示されるように、ユーザは、目標顔画像810(すなわちユーザが受信した、友達から送信された顔画像)を取得した後に、該目標顔画像810を顔画像検出を行う機器(以下、コンピュータ機器と呼ばれる)に入力し、コンピュータ機器は、周波数領域転化方法によって該目標顔画像810の周波数領域画像820を取得する。該周波数領域転化方法は、離散コサイン変換(D)によって入力された顔画像を周波数領域空間に変換し、かつ画像の低周波情報をフィルタリング(F)し、続いて逆離散コサイン変換(D-1)によって畳み込みニューラルネットワークのトレーニングを容易にする画像、すなわち周波数領域画像820に変換するように実現される。その後、コンピュータ機器は、目標顔画像810の周波数領域画像820を顔画像検出モデル830に入力する。該顔画像検出モデルは、アテンション融合ネットワーク831と、偽造顔画像判定ネットワーク832と、デコーダ833とを含み、該顔画像検出モデル830は、先ず入力された目標顔画像810の周波数領域画像820に基づいて目標顔画像の空間領域特徴と周波数領域特徴を同期して抽出する。コンピュータ機器は、該目標顔画像の空間領域特徴と周波数領域特徴をアテンション融合ネットワーク831に入力し、アテンション融合ネットワーク831におけるアテンション抽出サブネットワーク834に基づいて、異なるレベルにおいて空間領域特徴と周波数領域特徴に対する融合を実現し、目標顔画像に対応する融合特徴835を獲得し、目標顔画像に対応する融合特徴に対して局所類似性の計算を行うことによって、該目標顔画像に対応する局所類似性集合を獲得する。該局所エリア類似性集合を偽造顔画像判定ネットワーク832に入力した後に、偽造顔画像判定ネットワーク832から出力された目標顔画像の検出結果を獲得する、すなわち目標顔画像が真実の顔画像であるか、又は、目標顔画像が偽造顔画像であると判定することにより、友達から送信されたピクチャが真実であるか否かをユーザにフィードバックし、目標顔検出モデルの検出結果が解釈可能性を有するようにするために、コンピュータ機器は、目標顔画像の融合特徴835をデコーダ833に入力して、デコーダから出力された目標顔画像に対応する偽造顔エリア画像836を獲得し、かつ該偽造顔エリア画像をユーザにフィードバックし、例えば、目標顔画像において偽造エリア等をマークする。
【0169】
上記図8に示される手段はネットワークを使った友達作りのシーンにおける応用のみを例として説明したが、それに加えて、上記手段は、顔画像の真実性を認証する必要がある他の任意のシーンに応用されてもよい。本願は、上記手段の応用シーンを限定しない。
【0170】
図9は、本願の1つの例示的な実施例が提供するコンピュータ機器に用いられる、画像検出装置のブロック図を示し、該画像検出装置は、
目標顔画像を取得することに用いられる目標顔画像取得モジュール910と、
上記目標顔画像に基づいて、上記目標顔画像の周波数領域画像、及び上記目標顔画像の空間領域特徴を獲得することに用いられる画像処理モジュール920であって、上記周波数領域画像は上記目標顔画像に対して周波数領域変換を行って得られた画像であり、上記空間領域特徴は上記目標顔画像に対して特徴抽出を行って得られた特徴である、画像処理モジュール920と、
上記周波数領域画像に基づいて特徴抽出を行って、上記目標顔画像の周波数領域特徴を獲得することに用いられる周波数領域特徴抽出モジュール930と、
上記空間領域特徴と上記周波数領域特徴とを融合して、上記目標顔画像の融合特徴を獲得することに用いられる融合特徴取得モジュール940と、
上記目標顔画像の融合特徴に基づいて、上記目標顔画像の検出結果を取得することに用いられる検出結果取得モジュール950であって、上記検出結果は上記目標顔画像が偽造顔画像であるか否かを指示することに用いられる、検出結果取得モジュール950と、を含む。
【0171】
1つの可能な実現形態において、上記融合特徴取得モジュール940は、顔画像検出モデルのアテンション融合ネットワークによって、上記空間領域特徴と上記周波数領域特徴に対してアテンションメカニズムに基づく融合を行って、上記目標顔画像の上記融合特徴を獲得することに用いられ、
ここで、上記顔画像検出モデルは、顔画像サンプル、及び上記顔画像サンプルに対応する顔画像サンプルラベルのトレーニングによって獲得される。
【0172】
1つの可能な実現形態において、上記融合特徴取得モジュール940は、
上記アテンション融合ネットワークによって、n個のレベルにおいて上記空間領域特徴と上記周波数領域特徴に対してアテンションメカニズムに基づく融合を行って、上記n個のレベルのそれぞれに対応する中間融合特徴を獲得することに用いられる特徴融合サブモジュールであって、nは正整数である、特徴融合サブモジュールと、
上記n個のレベルのそれぞれに対応する上記中間融合特徴を合成して、上記目標顔画像の上記融合特徴を獲得することに用いられる特徴合成サブモジュールと、を含む。
【0173】
1つの可能な実現形態において、上記中間融合特徴は融合空間領域特徴と融合周波数領域特徴に基づいて獲得され、上記融合空間領域特徴は、上記空間領域特徴と上記周波数領域特徴に対してアテンションメカニズムに基づく融合を行った後に獲得された空間領域上の特徴であり、上記融合周波数領域特徴は、上記空間領域特徴と上記周波数領域特徴に対してアテンションメカニズムに基づく融合を行った後に獲得された周波数領域上の特徴であり、
上記特徴融合サブモジュールは、
t番目のレベルにおいて、t-1番目のレベルにおける上記融合空間領域特徴、及び上記t-1番目のレベルにおける上記融合周波数領域特徴を上記アテンション融合ネットワークに入力して、上記t番目のレベルにおける上記融合空間領域特徴、及び上記t番目のレベルにおける上記融合周波数領域特徴を獲得することに用いられる融合特徴取得ユニットと、
上記t番目のレベルにおける上記融合空間領域特徴、及び上記t番目のレベルにおける上記融合周波数領域特徴を合成して、上記t番目のレベルに対応する上記中間融合特徴を生成することに用いられる融合特徴合成ユニットと、を含み、
ここで、上記t番目のレベルは上記n個のレベルのうちの任意の1つであり、1≦t≦nであり、且つt、nはいずれも正整数である。
【0174】
1つの可能な実現形態において、上記融合特徴取得ユニットは、
t番目のレベルにおいて、上記t-1番目のレベルにおける上記融合空間領域特徴、及び上記t-1番目のレベルにおける上記融合周波数領域特徴を上記アテンション融合ネットワークにおけるアテンション抽出サブネットワークに入力して、上記アテンション抽出サブネットワークから出力された、上記t番目のレベルにおける空間領域アテンションマップと上記t番目のレベルにおける周波数領域アテンションマップを取得することに用いられるアテンションマップ取得サブユニットであって、上記空間領域アテンションマップは上記融合空間領域特徴の重みを指示することに用いられ、上記周波数領域アテンションマップは上記融合周波数領域特徴の重みを指示することに用いられる、アテンションマップ取得サブユニットと、
上記t-1番目のレベルにおける上記融合空間領域特徴、及び上記t番目のレベルにおける上記空間領域アテンションマップに基づいて、上記t番目のレベルにおける上記融合空間領域特徴を生成することに用いられる融合空間領域特徴取得サブユニットと、
上記t-1番目のレベルにおける上記融合周波数領域特徴、及び上記t番目のレベルにおける上記周波数領域アテンションマップに基づいて、上記t番目のレベルにおける上記融合周波数領域特徴を生成することに用いられる融合周波数領域特徴取得サブユニットと、を含む。
【0175】
1つの可能な実現形態において、上記検出結果取得モジュール950は、
上記目標顔画像の上記融合特徴に対して局所エリア類似性抽出を行って、上記目標顔画像に対応する局所エリア類似性集合を取得することに用いられる類似性集合取得サブモジュールと、
上記局所エリア類似性集合に基づいて、上記目標顔画像の上記検出結果を取得することに用いられる検出結果取得サブモジュールと、を含む。
【0176】
1つの可能な実現形態において、上記検出結果取得サブモジュールは、
上記局所エリア類似性集合を顔画像検出モデルの偽造顔画像判定ネットワークに入力して、上記偽造顔画像判定ネットワークから出力された上記目標顔画像に対応する偽造顔画像確率を取得することに用いられる偽造確率取得ユニットと、
上記偽造顔画像確率に基づいて、上記目標顔画像が偽造顔画像であるか否かを判定することに用いられる偽造顔画像判定ユニットと、を含み、
ここで、上記顔画像検出モデルは、顔画像サンプル、及び上記顔画像サンプルに対応する顔画像サンプルラベルのトレーニングによって獲得される。
【0177】
1つの可能な実現形態において、上記装置は、
上記目標顔画像が偽造顔画像であることに応答して、上記目標顔画像の上記融合特徴に基づいて、上記目標顔画像に対応する偽造顔エリアを取得することに用いられる偽造顔エリア取得モジュールをさらに含む。
【0178】
以上のように、本願の実施例が提供する画像検出装置は、目標顔画像の空間領域と周波数領域上の特徴情報を取得し、かつ目標顔画像の空間領域と周波数領域上の特徴情報に応じて目標顔の融合特徴を取得し、該融合特徴に基づいて該目標顔画像に対して偽造顔認識を行うことによって、顔画像の検出過程において、画像の空間領域と周波数領域上の特徴を総合的に考慮し、同時に両者の特徴情報を融合して顔画像の融合特徴を取得し、取得された目標顔画像の融合特徴をより正確にし、さらに該融合特徴を利用して取得された目標顔画像の検出結果をより正確にする。
【0179】
図10は本願の1つの例示的な実施例が提供する顔モデルトレーニング装置のブロック図を示し、該装置はコンピュータ機器に用いられる。顔画像検出モデルは、アテンション融合ネットワークと、偽造顔画像判定ネットワークと、デコーダとを含み、上記アテンション融合ネットワークは、顔画像の空間領域特徴、及び周波数領域特徴に基づいて、上記顔画像の融合特徴を取得することに用いられ、該モデルトレーニング装置は、
画像サンプルセットを取得することに用いられる画像サンプルセット取得モジュール1010であって、上記画像サンプルセット中に少なくとも2つの顔画像サンプルペアが含まれ、上記顔画像サンプルペア中に顔画像正サンプルと顔画像負サンプルとが含まれ、各顔画像サンプルは対応する顔画像サンプルラベルを有し、上記顔画像サンプルラベルは真実の顔ラベルと偽造顔ラベルとを含む、画像サンプルセット取得モジュール1010と、
上記画像サンプルセットによって、上記顔画像検出モデルをトレーニングすることに用いられるモデルトレーニングモジュール1020と、を含み、
ここで、上記顔画像検出モデルは、目標顔画像を取得し、上記目標顔画像に対して周波数領域変換を行って、上記目標顔画像の周波数領域画像を獲得し、上記目標顔画像に基づいて特徴抽出を行って、上記目標顔画像の空間領域特徴を獲得し、上記周波数領域画像に基づいて特徴抽出を行って、上記目標顔画像の周波数領域特徴を獲得し、上記空間領域特徴と上記周波数領域特徴とを融合して、上記目標顔画像の融合特徴を獲得し、上記目標顔画像の融合特徴に基づいて、上記目標顔画像の検出結果を取得するという操作を実行することに用いられ、上記検出結果は上記目標顔画像が偽造顔画像であるか否かを指示することに用いられる。
【0180】
1つの可能な実現形態において、上記モデルトレーニングモジュール1020は、
上記画像サンプルセットにおける少なくとも2つの上記顔画像サンプルペアに基づいて、各上記顔画像サンプルペアに対応する偽造顔エリア画像を取得することに用いられる偽造顔エリア画像取得サブモジュールと、
各上記偽造顔エリア画像の真実の局所エリア類似性集合を取得することに用いられる類似性集合取得サブモジュールと、
各上記顔画像サンプル、及び各上記顔画像サンプルに対応するトレーニングラベルに基づいて、顔画像検出モデルをトレーニングすることに用いられるモデルトレーニングサブモジュールであって、上記トレーニングラベルは上記顔画像サンプルラベル、上記偽造顔エリア画像、及び上記偽造顔エリア画像の真実の局所エリア類似性集合を含む、モデルトレーニングサブモジュールと、を含む。
【0181】
1つの可能な実現形態において、上記モデルトレーニングサブモジュールは、
各上記顔画像サンプルを上記顔画像検出モデルに入力して、各上記顔画像サンプルに対応する予測結果を獲得することに用いられる予測結果取得ユニットであって、上記予測結果は予測顔画像サンプルラベル、予測偽造顔エリア画像、及び予測局所エリア類似性を含む、予測結果取得ユニットと、
各上記顔画像サンプルに対応する上記トレーニングラベル、及び各上記顔画像サンプルに対応する上記予測結果に基づいて、損失関数を計算することに用いられる損失関数計算ユニットと、
上記損失関数に基づいて、顔画像検出モデルに対してパラメータ更新を行うことに用いられるモデルパラメータ更新ユニットと、を含む。
【0182】
以上のように、本願の実施例が提供する顔画像検出モデルのトレーニング装置は、画像サンプルセットのトレーニングに基づいてアテンション融合ネットワーク、偽造顔画像判定ネットワーク、及びデコーダを含む顔画像検出モデルを獲得することによって、顔画像の検出過程において、上記顔画像検出モデルを利用して顔画像の空間領域と周波数領域上の特徴を総合的に考慮し、同時に両者の特徴情報を融合して顔画像の融合特徴を取得し、取得された目標顔画像の融合特徴をより正確にし、さらに該融合特徴を利用して取得された目標顔画像の検出結果をより正確にする。
【0183】
図11は、本願の1つの例示的な実施例に示されるコンピュータ機器1100の構造ブロック図を示す。該コンピュータ機器は本願の上記手段におけるサーバとして実現されてもよい。上記コンピュータ機器1100は、中央処理ユニット(Central Processing Unit、CPU)1101と、ランダムアクセスメモリ(Random Access Memory、RAM)1102と読み取り専用メモリ(Read-Only Memory、ROM)1103とを含むシステムメモリ1104と、システムメモリ1104と中央処理ユニット1101とを接続するシステムバス1105とを含む。上記コンピュータ機器1100は、オペレーティングシステム1109、アプリケーションプログラム1110、及び他のプログラムモジュール1111を記憶することに用いられる大容量記憶機器1106をさらに含む。
【0184】
上記大容量記憶機器1106は、システムバス1105に接続された大容量記憶コントローラ(図示せず)を介して中央処理ユニット1101に接続される。上記大容量記憶機器1106、及びその関連付けられたコンピュータ可読媒体はコンピュータ機器1100に不揮発性記憶を提供する。つまり、上記大容量記憶機器1106は、例えばハードディスク、又は読み取り専用光ディスク(Compact Disc Read-Only Memory、CD-ROM)ドライバのようなコンピュータ可読媒体(図示せず)を含んでもよい。
【0185】
一般性を失うことなく、上記コンピュータ可読媒体は、コンピュータ記憶媒体と通信媒体とを含んでもよい。コンピュータ記憶媒体は、例えばコンピュータ可読命令、データ構造、プログラムモジュール、又は他のデータ等の情報を記憶することに用いられるいかなる方法、又は技術により実現される揮発性と不揮発性、移動可能と移動不能媒体をも含む。コンピュータ記憶媒体は、RAM、ROM、消去可能なプログラマブル読み取り専用レジスタ(Erasable Programmable Read Only Memory、EPROM)、電気的に消去可能なプログラマブル読み取り専用メモリ(Electrically-Erasable Programmable Read-Only Memory、EEPROM)フラッシュメモリ、又は他のソリッドステート記憶技術、CD-ROM、デジタル多機能光ディスク(Digital Versatile Disc、DVD)、又は他の光学記憶、磁気カセット、磁気テープ、磁気ディスク記憶、又は他の磁気記憶機器を含む。もちろん、当業者は上記コンピュータ記憶媒体が上記複数種に限定されないことが分かる。上記システムメモリ1104と大容量記憶機器1106はメモリと総称してもよい。
【0186】
本開示の各種の実施例に従って、上記コンピュータ機器1100はさらに例えばインターネット等のネットワークを介してネットワーク上のリモートコンピュータに接続されて実行されてもよい。すなわちコンピュータ機器1100は、上記システムバス1105上に接続されたネットワークインタフェースユニット1107を介してネットワーク1108に接続されてもよく、又は、ネットワークインタフェースユニット1107を使用して他のタイプのネットワーク、又はリモートコンピュータシステム(図示せず)に接続されてもよい。
【0187】
上記メモリは少なくとも1つの命令、少なくとも1つのプログラムセグメント、コードセット、又は命令セットをさらに含み、上記少なくとも1つの命令、少なくとも1つのプログラムセグメント、コードセット、又は命令セットはメモリ中に記憶され、中央プロセッサ1101は該少なくとも1つの命令、少なくとも1つのプログラムセグメント、コードセット、又は命令セットを実行することによって、上記各実施例に示される画像検出方法における全部、又は一部のステップを実現する。
【0188】
図12は、本願の1つの例示的な実施例が提供するコンピュータ機器1200の構造ブロック図を示す。該コンピュータ機器1200は、上記顔画像検出機器、及び/又は顔画像検出モデルトレーニング機器として実現されてもよく、例えばスマートフォン、タブレットコンピュータ、ノートパソコン、又はデスクトップパソコンである。コンピュータ機器1200はさらにユーザ機器、ポータブル端末、ラップトップ端末、デスクトップ端末等の他の名称と呼ばれる可能性がある。
【0189】
通常、コンピュータ機器1200はプロセッサ1201と、メモリ1202とを含む。
【0190】
プロセッサ1201は、1つ、又は複数の処理コアを含んでもよく、例えばクアッドコアプロセッサ、ドデカコアプロセッサ等が挙げられる。プロセッサ1201は、DSP(Digital Signal Processing、デジタル信号処理)、FPGA(Field-Programmable Gate Array、フィールドプログラマブルゲートアレイ)、及びPLA(Programmable Logic Array、プログラマブル論理アレイ)のうちの少なくとも1種のハードウェア形式を採用して実現されてもよい。プロセッサ1201は、メインプロセッサとコプロセッサとを含んでもよく、メインプロセッサはウェイクアップ状態におけるデータを処理することに用いられるプロセッサであり、CPU(Central Processing Unit、中央プロセッサ)とも呼ばれ、コプロセッサは待機状態におけるデータを処理することに用いられる低消費電力プロセッサである。いくつかの実施例において、プロセッサ1201にはGPU(Graphics Processing Unit、画像プロセッサ)が集積されてもよく、GPUは表示スクリーンに表示する必要がある内容のレンダリング、及び描画を担うことに用いられる。いくつかの実施例において、プロセッサ1201はAI(Artificial Intelligence、人工知能)プロセッサをさらに含んでもよく、該AIプロセッサは機械学習に関連する計算操作を処理することに用いられる。
【0191】
メモリ1202は1つ、又は複数のコンピュータ可読記憶媒体を含んでもよく、該コンピュータ可読記憶媒体は非一時的なものであってもよい。メモリ1202は、高速ランダムアクセスメモリ、及び不揮発性メモリ、例えば1つ、又は複数の磁気ディスク記憶機器、フラッシュメモリ記憶機器を含んでもよい。いくつかの実施例において、メモリ1202における非一時的なコンピュータ可読記憶媒体は少なくとも1つの命令を記憶することに用いられ、該少なくとも1つの命令は、プロセッサ1201により実行されることで、本願における方法実施例が提供する顔画像の品質評価方法を実現することに用いられる。
【0192】
いくつかの実施例において、コンピュータ機器1200は、選択可能に、周辺機器インタフェース1203と、少なくとも1つの周辺機器とを含んでもよい。プロセッサ1201、メモリ1202、及び周辺機器インタフェース1203の間はバス、又は信号線を介して連結されてもよい。各周辺機器はバス、信号線、又は回路基板を介して周辺機器インタフェース1203に連結されてもよい。具体的には、周辺機器は、無線周波数回路1204、表示スクリーン1205、カメラコンポーネント1206、オーディオ回路1207、及び電源1209のうちの少なくとも1種を含む。
【0193】
周辺機器インタフェース1203は、I/O(Input/Output、入力/出力)に関連する少なくとも1つの周辺機器をプロセッサ1201、及びメモリ1202に接続することに用いられてもよい。いくつかの実施例において、プロセッサ1201、メモリ1202、及び周辺機器インタフェース1203は同一のチップ、又は回路基板上に集積され、いくつかの他の実施例において、プロセッサ1201、メモリ1202、及び周辺機器インタフェース1203のうちの任意の1つ、又は2つは別個のチップ、又は回路基板上で実現されてもよく、本実施例はこれを限定しない。
【0194】
いくつかの実施例において、コンピュータ機器1200は1つ、又は複数のセンサ1210をさらに含む。該1つ、又は複数のセンサ1210は、加速度センサ1211、ジャイロセンサ1212、圧力センサ1213、光学センサ1215、及び近接センサ1216を含むが、これらに限定されない。
【0195】
当業者が理解できる点として、図12において示される構造はコンピュータ機器1200に対する限定を構成するものではなく、図示されるものよりも多い、又はより少ないコンポーネントを含むか、又はいくつかのコンポーネントを組み合わせるか、又は異なるコンポーネント配置を採用してもよい。
【0196】
1つの例示的な実施例において、コンピュータ可読記憶媒体をさらに提供し、少なくとも1つの命令、少なくとも1つのプログラムセグメント、コードセット、又は命令セットを記憶することに用いられ、上記少なくとも1つの命令、上記少なくとも1つのプログラムセグメント、上記コードセット、又は命令セットはプロセッサによりロードされ、かつ実行されることで、上記画像検出方法及び/又はモデルトレーニング方法における全部、又は一部のステップを実現する。例えば、該コンピュータ可読記憶媒体は、読み取り専用メモリ(Read-Only Memory、ROM)、ランダムアクセスメモリ(Random Access Memory、RAM)、読み取り専用光ディスク(Compact Disc Read-Only Memory、CD-ROM)、磁気テープ、フロッピーディスク、及び光データ記憶機器等であってもよい。
【0197】
1つの例示的な実施例において、コンピュータプログラム製品、又はコンピュータプログラムをさらに提供し、該コンピュータプログラム製品、又はコンピュータプログラムはコンピュータ命令を含み、該コンピュータ命令はコンピュータ可読記憶媒体において記憶される。コンピュータ機器のプロセッサはコンピュータ可読記憶媒体から該コンピュータ命令を読み取り、プロセッサは該コンピュータ命令を実行し、該コンピュータ機器に上記図2図4、又は図5のいずれかの実施例に示される方法の全部、又は一部のステップを実行させる。
【符号の説明】
【0198】
110 サーバ
120 端末
310 顔画像検出モデルトレーニング機器
320 顔画像検出機器
610 顔画像
620 顔画像セット
630 偽造顔エリア画像セット
631 偽造顔エリア画像
810 目標顔画像
820 周波数領域画像
830 顔画像検出モデル
831 アテンション融合ネットワーク
832 偽造顔画像判定ネットワーク
833 デコーダ
834 アテンション抽出サブネットワーク
836 偽造顔エリア画像
910 目標顔画像取得モジュール
920 画像処理モジュール
930 周波数領域特徴抽出モジュール
940 融合特徴取得モジュール
950 検出結果取得モジュール
1010 画像サンプルセット取得モジュール
1020 モデルトレーニングモジュール
1100 コンピュータ機器
1101 中央処理ユニット
1101 中央プロセッサ
1104 システムメモリ
1105 システムバス
1106 大容量記憶機器
1107 ネットワークインタフェースユニット
1108 ネットワーク
1109 オペレーティングシステム
1110 アプリケーションプログラム
1111 プログラムモジュール
1200 コンピュータ機器
1201 プロセッサ
1202 メモリ
1203 周辺機器インタフェース
1204 無線周波数回路
1205 表示スクリーン
1206 カメラコンポーネント
1207 オーディオ回路
1209 電源
1210 センサ
1211 加速度センサ
1212 ジャイロセンサ
1213 圧力センサ
1215 光学センサ
1216 近接センサ
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11
図12