IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ ベイジン バイドゥ ネットコム サイエンス アンド テクノロジー カンパニー リミテッドの特許一覧

特許7126586顔合成画像検出方法、顔合成画像検出装置、電子機器、記憶媒体及びコンピュータプログラム
<>
  • 特許-顔合成画像検出方法、顔合成画像検出装置、電子機器、記憶媒体及びコンピュータプログラム 図1
  • 特許-顔合成画像検出方法、顔合成画像検出装置、電子機器、記憶媒体及びコンピュータプログラム 図2
  • 特許-顔合成画像検出方法、顔合成画像検出装置、電子機器、記憶媒体及びコンピュータプログラム 図3
  • 特許-顔合成画像検出方法、顔合成画像検出装置、電子機器、記憶媒体及びコンピュータプログラム 図4
  • 特許-顔合成画像検出方法、顔合成画像検出装置、電子機器、記憶媒体及びコンピュータプログラム 図5
  • 特許-顔合成画像検出方法、顔合成画像検出装置、電子機器、記憶媒体及びコンピュータプログラム 図6
  • 特許-顔合成画像検出方法、顔合成画像検出装置、電子機器、記憶媒体及びコンピュータプログラム 図7
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2022-08-18
(45)【発行日】2022-08-26
(54)【発明の名称】顔合成画像検出方法、顔合成画像検出装置、電子機器、記憶媒体及びコンピュータプログラム
(51)【国際特許分類】
   G06T 7/00 20170101AFI20220819BHJP
   G06N 3/04 20060101ALI20220819BHJP
   G06N 3/08 20060101ALI20220819BHJP
【FI】
G06T7/00 350C
G06N3/04
G06N3/08
【請求項の数】 17
(21)【出願番号】P 2021068318
(22)【出願日】2021-04-14
(65)【公開番号】P2021114313
(43)【公開日】2021-08-05
【審査請求日】2021-04-14
(31)【優先権主張番号】202010681942.6
(32)【優先日】2020-07-15
(33)【優先権主張国・地域又は機関】CN
(73)【特許権者】
【識別番号】514322098
【氏名又は名称】ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド
【氏名又は名称原語表記】Beijing Baidu Netcom Science Technology Co., Ltd.
【住所又は居所原語表記】2/F Baidu Campus, No.10, Shangdi 10th Street, Haidian District, Beijing 100085, China
(74)【代理人】
【識別番号】100118913
【弁理士】
【氏名又は名称】上田 邦生
(74)【代理人】
【識別番号】100142789
【弁理士】
【氏名又は名称】柳 順一郎
(74)【代理人】
【識別番号】100163050
【弁理士】
【氏名又は名称】小栗 眞由美
(74)【代理人】
【識別番号】100201466
【弁理士】
【氏名又は名称】竹内 邦彦
(72)【発明者】
【氏名】ワン, ケヤオ
(72)【発明者】
【氏名】フェン, ハオチェン
(72)【発明者】
【氏名】ユー, ハイシャオ
【審査官】青木 重徳
(56)【参考文献】
【文献】国際公開第2009/107237(WO,A1)
【文献】米国特許出願公開第2020/0175290(US,A1)
【文献】中国特許出願公開第110321845(CN,A)
【文献】中国特許出願公開第108229363(CN,A)
【文献】伊藤 康一 ほか,畳み込みニューラルネットワークを用いた生体検知手法,電子情報通信学会論文誌A,日本,電子情報通信学会,2017年12月01日,第J100-A巻, 第12号,p.455-464
(58)【調査した分野】(Int.Cl.,DB名)
G06T 7/00
G06N 3/04
G06N 3/08
(57)【特許請求の範囲】
【請求項1】
検出対象の顔画像を予めトレーニングされた畳み込みニューラルネットワークに入力し、該畳み込みニューラルネットワークにより前記検出対象の顔画像に対して特徴抽出を行って、前記検出対象の顔画像の元画像特徴を取得するステップと、
前記検出対象の顔画像の前記元画像特徴を第1の完全接続層に入力し、該第1の完全接続層により前記検出対象の顔画像の前記元画像特徴を計算して、前記検出対象の顔画像の顔のキーポイントに対応する第1の特徴ベクトルを取得し、前記検出対象の顔画像の前記元画像特徴を第2の完全接続層に入力し、該第2の完全接続層により前記検出対象の顔画像の前記元画像特徴を計算して、前記検出対象の顔画像に対応する第2の特徴ベクトルを取得するステップと、
前記第1の特徴ベクトルと前記第2の特徴ベクトルとを組み合わせて、組み合わせられた特徴ベクトルを取得するステップと、
前記組み合わせられた特徴ベクトルを第3の完全接続層に入力し、該第3の完全接続層により前記組み合わせられた特徴ベクトルを計算して、前記検出対象の顔画像の検出結果を取得するステップであって、前記検出結果は、前記検出対象の顔画像が合成画像であるまたは非合成画像であることを含むステップとを含む顔合成画像検出方法。
【請求項2】
前記第1の完全接続層により前記検出対象の顔画像の前記元画像特徴を計算して、前記検出対象の顔画像の前記顔のキーポイントに対応する前記第1の特徴ベクトルを取得するステップは、
前記検出対象の顔画像の前記元画像特徴に基づいて、前記第1の完全接続層により前記検出対象の顔画像の前記顔のキーポイント及び各前記顔のキーポイントの画像特徴を抽出するステップと、
前記検出対象の顔画像の前記顔のキーポイント及び各前記顔のキーポイントの前記画像特徴に基づいて、前記検出対象の顔画像の前記顔のキーポイントに対応する前記第1の特徴ベクトルを取得するステップであって、前記第1の特徴ベクトルが144次元ベクトルであるステップとを含む請求項1に記載の顔合成画像検出方法。
【請求項3】
前記第2の完全接続層により前記検出対象の顔画像の前記元画像特徴を計算して、前記検出対象の顔画像に対応する前記第2の特徴ベクトルを取得するステップは、
前記検出対象の顔画像の前記元画像特徴に基づいて、前記第2の完全接続層により前記検出対象の顔画像のキー画像特徴を抽出するステップと、
前記検出対象の顔画像の前記キー画像特徴に基づいて、前記検出対象の顔画像に対応する前記第2の特徴ベクトルを取得するステップであって、前記第2の特徴ベクトルが144次元ベクトルであるステップとを含む請求項1に記載の顔合成画像検出方法。
【請求項4】
前記検出対象の顔画像を予めトレーニングされた前記畳み込みニューラルネットワークに入力し、該畳み込みニューラルネットワークにより前記検出対象の顔画像に対して特徴抽出を行って、前記検出対象の顔画像の元画像特徴を取得するステップの前に、
前記検出対象の顔画像を予めトレーニングされた顔検出モデルに入力し、前記顔検出モデルにより前記検出対象の顔画像を認識して前記検出対象の顔画像の顔検出枠を取得するステップと、
前記検出対象の顔画像の前記顔検出枠を予め設定された倍数に拡大して拡大された顔検出枠を取得し、該拡大された顔検出枠で前記検出対象の顔画像中の顔を切り取って切り取られた顔画像を取得し、該切り取られた顔画像を所定のサイズに調整して調整された顔画像を取得し、該調整された顔画像を予めトレーニングされた前記畳み込みニューラルネットワークに入力する操作を実行するステップとをさらに含む請求項1に記載の顔合成画像検出方法。
【請求項5】
前記調整された顔画像を予めトレーニングされた前記畳み込みニューラルネットワークに入力する操作を実行するステップの前に、
前記調整された顔画像に基づいて各画素点の画素値を算出するステップと、
各前記画素点の画素値を所定の方法で正規化処理して正規化処理された顔画像を取得し、前記正規化処理された顔画像における各前記画素点の前記画素値が所定の範囲内にあるようにし、前記正規化処理された顔画像を予めトレーニングされた前記畳み込みニューラルネットワークに入力する操作を実行するステップとをさらに含む請求項4に記載の顔合成画像検出方法。
【請求項6】
前記検出対象の顔画像を予めトレーニングされた前記畳み込みニューラルネットワークに入力するステップの前に、
予め取得された最初の顔画像の元画像特徴を現在の元画像特徴とするステップと、
前記第1の完全接続層がそれに対応する収束条件を満たさない場合、前記現在の元画像特徴を前記第1の完全接続層に入力し、前記現在の元画像特徴を用いて前記第1の完全接続層をトレーニングし、前記現在の顔画像の次の顔画像を前記現在の顔画像とし、前記第1の完全接続層がそれに対応する収束条件を満たすまで、上記操作を繰り返して実行するステップとをさらに含む請求項1に記載の顔合成画像検出方法。
【請求項7】
前記検出対象の顔画像を予めトレーニングされた前記畳み込みニューラルネットワークに入力するステップの前に、
予め取得された最初の顔画像の組み合わせられた特徴ベクトルを現在の特徴ベクトルとするステップと、
前記第3の完全接続層がそれに対応する収束条件を満たさない場合、前記現在の特徴ベクトルを前記第3の完全接続層に入力し、前記現在の特徴ベクトルを用いて前記第3の完全接続層をトレーニングし、前記現在の顔画像の次の顔画像を前記現在の顔画像とし、前記第3の完全接続層がそれに対応する収束条件を満たすまで、上記操作を繰り返して実行するステップとをさらに含む請求項1に記載の顔合成画像検出方法。
【請求項8】
特徴抽出モジュールと、ベクトル計算モジュールと、ベクトル組み合わせモジュールと、結果計算モジュールとを備え、
前記特徴抽出モジュールは、検出対象の顔画像を予めトレーニングされた畳み込みニューラルネットワークに入力し、該畳み込みニューラルネットワークにより前記検出対象の顔画像に対して特徴抽出を行って、前記検出対象の顔画像の元画像特徴を取得し、
前記ベクトル計算モジュールは、前記検出対象の顔画像の前記元画像特徴を第1の完全接続層に入力し、該第1の完全接続層により前記検出対象の顔画像の前記元画像特徴を計算して、前記検出対象の顔画像の顔のキーポイントに対応する第1の特徴ベクトルを取得し、前記検出対象の顔画像の前記元画像特徴を第2の完全接続層に入力し、該第2の完全接続層により前記検出対象の顔画像の前記元画像特徴を計算して、前記検出対象の顔画像に対応する第2の特徴ベクトルを取得し、
前記ベクトル組み合わせモジュールは、前記第1の特徴ベクトルと前記第2の特徴ベクトルとを組み合わせて、組み合わせられた特徴ベクトルを取得し、
前記結果計算モジュールは、前記組み合わせられた特徴ベクトルを第3の完全接続層に入力し、該第3の完全接続層により前記組み合わせられた特徴ベクトルを計算して、前記検出対象の顔画像の検出結果を取得し、前記検出結果は、前記検出対象の顔画像が合成画像であるまたは非合成画像であることを含む顔合成画像検出装置。
【請求項9】
前記ベクトル計算モジュールは、具体的には、前記検出対象の顔画像の前記元画像特徴に基づいて、前記第1の完全接続層により前記検出対象の顔画像の前記顔のキーポイント及び各前記顔のキーポイントの画像特徴を抽出し、前記検出対象の顔画像の前記顔のキーポイント及び各前記顔のキーポイントの前記画像特徴に基づいて、前記検出対象の顔画像の前記顔のキーポイントに対応する前記第1の特徴ベクトルを取得し、該第1の特徴ベクトルが144次元ベクトルである請求項8に記載の顔合成画像検出装置。
【請求項10】
前記ベクトル計算モジュールは、具体的には、前記検出対象の顔画像の前記元画像特徴に基づいて、前記第2の完全接続層により前記検出対象の顔画像のキー画像特徴を抽出し、前記検出対象の顔画像の前記キー画像特徴に基づいて、前記検出対象の顔画像に対応する前記第2の特徴ベクトルを取得し、該第2の特徴ベクトルが144次元ベクトルである請求項8に記載の顔合成画像検出装置。
【請求項11】
画像前処理モジュールをさらに備え、
該画像前処理モジュールは、前記検出対象の顔画像を予めトレーニングされた顔検出モデルに入力し、該顔検出モデルにより前記検出対象の顔画像を認識して前記検出対象の顔画像の顔検出枠を取得し、前記検出対象の顔画像の前記顔検出枠を予め設定された倍数に拡大して拡大された顔検出枠を取得し、該拡大された顔検出枠で前記検出対象の顔画像中の顔を切り取って切り取られた顔画像を取得し、該切り取られた顔画像を所定のサイズに調整して調整された顔画像を取得し、該調整された顔画像を予めトレーニングされた前記畳み込みニューラルネットワークに入力する操作を実行する請求項8に記載の顔合成画像検出装置。
【請求項12】
前記画像前処理モジュールは、さらに、前記調整された顔画像に基づいて各画素点の画素値を算出し、各前記画素点の前記画素値を所定の方法で正規化処理して正規化処理された顔画像を取得し、前記正規化処理された顔画像における各前記画素点の前記画素値が所定の範囲内にあるようにし、前記正規化処理された顔画像を予めトレーニングされた前記畳み込みニューラルネットワークに入力する操作を実行する請求項11に記載の顔合成画像検出装置。
【請求項13】
第1のトレーニングモジュールをさらに備え、
該第1のトレーニングモジュールは、予め取得された最初の顔画像の元画像特徴を現在の元画像特徴とし、前記第1の完全接続層がそれに対応する収束条件を満たさない場合、前記現在の元画像特徴を前記第1の完全接続層に入力し、前記現在の元画像特徴を用いて前記第1の完全接続層をトレーニングし、前記現在の顔画像の次の顔画像を前記現在の顔画像とし、前記第1の完全接続層がそれに対応する収束条件を満たすまで、上記操作を繰り返して実行する請求項8に記載の顔合成画像検出装置。
【請求項14】
第2のトレーニングモジュールをさらに備え、
該第2のトレーニングモジュールは、予め取得された最初の顔画像の組み合わせられた特徴ベクトルを現在の特徴ベクトルとし、前記第3の完全接続層がそれに対応する収束条件を満たさない場合、前記現在の特徴ベクトルを前記第3の完全接続層に入力し、前記現在の特徴ベクトルを用いて前記第3の完全接続層をトレーニングし、前記現在の顔画像の次の顔画像を前記現在の顔画像とし、前記第3の完全接続層がそれに対応する収束条件を満たすまで、上記操作を繰り返して実行する請求項8に記載の顔合成画像検出装置。
【請求項15】
少なくとも1つのプロセッサと、
少なくとも1つの該プロセッサに通信可能に接続されるメモリとを備え、
該メモリには、少なくとも1つの前記プロセッサによって実行可能な命令が記憶され、該命令は、少なくとも1つの前記プロセッサが請求項1から請求項7のいずれかに記載の顔合成画像検出方法を実行できるように、少なくとも1つの前記プロセッサによって実行される電子機器。
【請求項16】
コンピュータ命令が記憶されている非一時的なコンピュータ読み取り可能な記憶媒体であって、
前記コンピュータ命令は、コンピュータに請求項1から請求項7のいずれかに記載の顔合成画像検出方法を実行させる非一時的なコンピュータ読み取り可能な記憶媒体。
【請求項17】
コンピュータに請求項1から請求項7のいずれかに記載の顔合成画像検出方法を実行させるコンピュータプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本出願は、コンピュータ技術の分野に関し、さらに、人工知能、深層学習及び画像認識分野に関し、特に顔合成画像検出方法、顔合成画像検出装置、電子機器、記憶媒体及びコンピュータプログラムに関する。
【背景技術】
【0002】
顔合成画像検出とは、1枚の画像中の顔が合成された顔であるか否かを区別することであり、顔合成画像検出を実現するモジュールは、顔認識システムの安全性を保証するための顔認識システムの基本構成モジュールである。深層学習技術に基づく顔合成画像検出アルゴリズムは、現在該分野の主流の方法である。現在の顔合成画像検出アルゴリズムは、主にニューラルネットワークの深層学習方法を使用している。深層学習を用いた顔合成画像検出の主要な方法として、畳み込みニューラルネットワークの合成画像判別方法、長短期記憶ネットワーク(Long Short-Term Memory、LSTMと略称する)に基づく合成画像判別方法などがある。
【0003】
従来技術では、顔合成画像検出モデルは、合成画像と原図との判別性のある特徴を学習することが困難であり、しかも小範囲のトレーニングサンプルに過剰適合しやすく、未知の合成サンプルに対する汎化性が有限である。また、単一の畳み込みニューラルネットワークのみを用いて、実シーンにおける顔姿勢が大きすぎる或いは照明の差が大きい場合にはロバスト性が悪いため、認識結果が好ましくない。
【発明の概要】
【発明が解決しようとする課題】
【0004】
本出願は、顔合成画像検出方法、顔合成画像検出装置、電子機器、記憶媒体及びコンピュータプログラムを提供し、顔合成画像検出の過剰適合状況を緩和し、顔合成画像検出の汎化性と正確さを向上させ、未知の合成サンプルに対する検出効果を向上させることができる。
【課題を解決するための手段】
【0005】
本願の第1の態様において、検出対象の顔画像を予めトレーニングされた畳み込みニューラルネットワークに入力し、該畳み込みニューラルネットワークにより前記検出対象の顔画像に対して特徴抽出を行って、前記検出対象の顔画像の元画像特徴を取得するステップと、前記検出対象の顔画像の前記元画像特徴を第1の完全接続層に入力し、該第1の完全接続層により前記検出対象の顔画像の前記元画像特徴を計算して、前記検出対象の顔画像の顔のキーポイントに対応する第1の特徴ベクトルを取得し、前記検出対象の顔画像の前記元画像特徴を第2の完全接続層に入力し、該第2の完全接続層により前記検出対象の顔画像の前記元画像特徴を計算して、前記検出対象の顔画像に対応する第2の特徴ベクトルを取得するステップと、前記第1の特徴ベクトルと前記第2の特徴ベクトルとを組み合わせて、組み合わせられた特徴ベクトルを取得するステップと、前記組み合わせられた特徴ベクトルを第3の完全接続層に入力し、該第3の完全接続層により前記組み合わせられた特徴ベクトルを計算して、前記検出対象の顔画像の検出結果を取得するステップであって、前記検出結果は、前記検出対象の顔画像が合成画像であるまたは非合成画像であることを含むステップとを含む顔合成画像検出方法を提供する。
【0006】
本願の第2の態様において、特徴抽出モジュールと、ベクトル計算モジュールと、ベクトル組み合わせモジュールと、結果計算モジュールとを備え、前記特徴抽出モジュールは、検出対象の顔画像を予めトレーニングされた畳み込みニューラルネットワークに入力し、該畳み込みニューラルネットワークにより前記検出対象の顔画像に対して特徴抽出を行って、前記検出対象の顔画像の元画像特徴を取得し、前記ベクトル計算モジュールは、前記検出対象の顔画像の前記元画像特徴を第1の完全接続層に入力し、該第1の完全接続層により前記検出対象の顔画像の前記元画像特徴を計算して、前記検出対象の顔画像の顔のキーポイントに対応する第1の特徴ベクトルを取得し、前記検出対象の顔画像の前記元画像特徴を第2の完全接続層に入力し、該第2の完全接続層により前記検出対象の顔画像の前記元画像特徴を計算して、前記検出対象の顔画像に対応する第2の特徴ベクトルを取得し、前記ベクトル組み合わせモジュールは、前記第1の特徴ベクトルと前記第2の特徴ベクトルとを組み合わせて、組み合わせられた特徴ベクトルを取得し、前記結果計算モジュールは、前記組み合わせられた特徴ベクトルを第3の完全接続層に入力し、該第3の完全接続層により前記組み合わせられた特徴ベクトルを計算して、前記検出対象の顔画像の検出結果を取得し、前記検出結果は、前記検出対象の顔画像が合成画像であるまたは非合成画像であることを含む顔合成画像検出装置を提供する。
【0007】
本願の第3の態様において、少なくとも1つのプロセッサと、少なくとも1つのプログラムを記憶するメモリとを備え、少なくとも1つの前記プログラムが少なくとも1つの前記プロセッサによって実行される場合、少なくとも1つの前記プロセッサが、上記の顔合成画像検出方法を実現する電子機器を提供する。
【0008】
本願の第4の態様において、コンピュータプログラムが記憶されている非一時的なコンピュータ読み取り可能な記憶媒体であって、前記コンピュータプログラムがプロセッサによって実行される場合、上記の顔合成画像検出方法が実現される記憶媒体を提供する。
本願の第5の態様において、コンピュータに上記の顔合成画像検出方法を実行させるコンピュータプログラムを提供する。
【発明の効果】
【0009】
本出願の技術によれば、従来技術では顔合成画像検出モデルが合成画像と原図との判別性のある特徴を学習することが困難であり、しかも小範囲のトレーニングサンプルに過剰適合しやすく、未知の合成サンプルに対する汎化性が有限である。また、単一の畳み込みニューラルネットワークのみを用いて、実シーンにおける顔姿勢が大きすぎる或いは照明の差が大きい場合にはロバスト性が悪いため、認識結果が好ましくないという問題を解決する。本出願により提供される技術案は、顔合成画像検出の過剰適合状況を緩和し、顔合成画像検出の汎化性と正確さを向上させ、未知の合成サンプルに対する検出効果を向上させることができる。
【0010】
なお、本部分に記載された内容は、本開示の実施例の肝心又は重要な特徴を識別することを意図しておらず、本開示の範囲を限定することも意図していない。本開示の他の特徴は、以下の説明により理解されやすくなる。
【図面の簡単な説明】
【0011】
図面は、本出願の技術案がよりよく理解されるためのものであり、本出願を限定するものではない。
図1】本出願の実施例1により提供される顔合成画像検出方法の概略フローチャートである。
図2】本出願の実施例2により提供される顔合成画像検出方法の概略フローチャートである。
図3】本出願の実施例3により提供される顔合成画像検出方法の概略フローチャートである。
図4】本出願の実施例3により提供される顔合成画像検出システムの概略構成図である。
図5】本出願の実施例4により提供される顔合成画像検出装置の第1の概略構成図である。
図6】本出願の実施例4により提供される顔合成画像検出装置の第2の概略構成図である。
図7】本出願の実施例の顔合成画像検出方法を実現するための電子機器のブロック図である。
【発明を実施するための形態】
【0012】
以下、本出願の例示的な実施例について図面を参照して説明する。理解を容易にするためにその中には本出願の実施例の様々な詳細を含んでおり、それらは単なる例示するものと見なされるべきである。したがって、当業者は、本出願の範囲及び趣旨から逸脱することなく、ここで説明される実施例に対して様々な変更と修正を行うことができることを理解すべきである。同様に、明確及び簡潔するために、以下の説明では、周知の機能及び構成の説明を省略する。
【0013】
実施例1
図1は、本出願の実施例1により提供される顔合成画像検出方法の概略フローチャートである。顔合成画像検出方法は、顔合成画像検出装置又は電子機器によって実行でき、顔合成画像検出装置又は電子機器は、ソフトウェア及び/又はハードウェアによって実現できる。顔合成画像検出装置又は電子機器は、ネットワーク通信機能を有する任意のスマートデバイスに統合できる。図1に示されるように、顔合成画像検出方法は、以下のステップ101~ステップ104を含むことができる。
【0014】
ステップ101において、検出対象の顔画像を予めトレーニングされた畳み込みニューラルネットワークに入力し、畳み込みニューラルネットワークにより検出対象の顔画像に対して特徴抽出を行って、検出対象の顔画像の元画像特徴を取得する。
【0015】
本出願の具体的な実施例では、電子機器は、検出対象の顔画像を予めトレーニングされた畳み込みニューラルネットワークに入力し、畳み込みニューラルネットワークにより検出対象の顔画像に対して特徴抽出を行って、検出対象の顔画像の元画像特徴を取得することができる。本出願の実施例は、畳み込みニューラルネットワークとしてResnetネットワークを採用し、Resnetは、building blockまたはbottleneckからなる。building blockの構造は、1つの残差分岐と、short-cut分岐とを含み、残差分岐には、1つのidentity mapping(恒等写像)を追加し、現在の出力を次の階層のネットワークに直接伝送するとともに、後方伝播の過程においても、次の階層のネットワークの勾配を上階層のネットワークに直接伝送し、このようにすることで、深層ネットワークの勾配消失の問題を解決する。従来の画像特徴抽出器VGGNetやGoogleNetに比べて、Resnetはより深いネットワーク層数を有し、さらに画像特徴の説明にはより多くのパラメータが使用されており、特有の残差ネットワーク構造を介してネットワーク層数の重畳による悪影響(例えば、トレーニング過程での勾配消失)を減少させることができる。したがって、Resnetは、より優れた特徴抽出機能を有する。具体的には、本出願の実施例では、畳み込みニューラルネットワークとしてResnet18を採用してもよい。
【0016】
ステップ102において、検出対象の顔画像の元画像特徴をそれぞれ第1の完全接続層及び第2の完全接続層に入力し、第1の完全接続層により検出対象の顔画像の元画像特徴を計算して、検出対象の顔画像の顔のキーポイントに対応する第1の特徴ベクトルを取得し、第2の完全接続層により検出対象の顔画像の元画像特徴を計算して、検出対象の顔画像に対応する第2の特徴ベクトルを取得する。
【0017】
本出願の具体的な実施例では、電子機器は、検出対象の顔画像の元画像特徴をそれぞれ第1の完全接続層及び第2の完全接続層に入力し、第1の完全接続層により検出対象の顔画像の元画像特徴を計算して、検出対象の顔画像の顔のキーポイントに対応する第1の特徴ベクトルを取得し、第2の完全接続層により検出対象の顔画像の元画像特徴を計算して、検出対象の顔画像に対応する第2の特徴ベクトルを取得することができる。一実施例では、電子機器は、第1の完全接続層により検出対象の顔画像の元画像特徴を計算する際に、まず、検出対象の顔画像の元画像特徴に基づいて、第1の完全接続層により検出対象の顔画像の顔のキーポイント及び各顔のキーポイントの画像特徴を抽出し、次いで、検出対象の顔画像の顔のキーポイント及び各顔のキーポイントの画像特徴に基づいて、検出対象の顔画像の顔のキーポイントに対応する第1の特徴ベクトルを取得することができ、ここで、顔のキーポイントは72個であり、第1の特徴ベクトルは144次元ベクトルである。具体的には、顔のキーポイントはそれぞれ(x1、y1)、(x2、y2)、…、(x72、y72)である。一実施例では、電子機器は、第2の完全接続層により検出対象の顔画像の元画像特徴を計算する際に、まず、検出対象の顔画像の元画像特徴に基づいて、第2の完全接続層により検出対象の顔画像のキー画像特徴を抽出し、次いで、検出対象の顔のキー画像特徴に基づいて、検出対象の顔画像に対応する第2の特徴ベクトルを取得することができ、ここで、第2の特徴ベクトルは144次元ベクトルである。
【0018】
ステップ103において、第1の特徴ベクトルと第2の特徴ベクトルとを組み合わせて、組み合わせられた特徴ベクトルを取得する。
【0019】
本出願の具体的な実施例では、電子機器は、第1の特徴ベクトルと第2の特徴ベクトルとを組み合わせて、組み合わせられた特徴ベクトルを取得することができる。一実施例では、電子機器は、第1の特徴ベクトルと第2の特徴ベクトルとを重ね合わせることにより、組み合わせられた特徴ベクトルとして288次元ベクトルを構成することができる。
【0020】
ステップ104において、組み合わせられた特徴ベクトルを第3の完全接続層に入力し、第3の完全接続層により組み合わせられた特徴ベクトルを計算して、検出対象の顔画像の検出結果を取得し、ここで、検出結果は、検出対象の顔画像が合成画像であるまたは非合成画像であることを含む。
【0021】
本出願の具体的な実施例では、電子機器は、組み合わせられた特徴ベクトルを第3の完全接続層に入力し、第3の完全接続層により組み合わせられた特徴ベクトルを計算して、検出対象の顔画像の検出結果を取得することができ、ここで、検出結果は、検出対象の顔画像が合成画像であるまたは非合成画像であることを含む。一実施例では、電子機器は、第3の完全接続層により2次元ベクトルを取得し、2次元ベクトルにより、検出対象の顔画像が合成画像であるまたは非合成画像であることを判断することができる。
【0022】
本出願の実施例により提供される顔合成画像検出方法は、まず、検出対象の顔画像を予めトレーニングされた畳み込みニューラルネットワークに入力し、畳み込みニューラルネットワークにより検出対象の顔画像の元画像特徴を取得する。さらに検出対象の顔画像の元画像特徴をそれぞれ第1の完全接続層及び第2の完全接続層に入力し、第1の完全接続層及び第2の完全接続層により検出対象の顔画像の顔のキーポイントに対応する第1の特徴ベクトルと検出対象の顔画像に対応する第2の特徴ベクトルとをそれぞれ取得する。次いで、第1の特徴ベクトルと第2の特徴ベクトルとを組み合わせて、組み合わせられた特徴ベクトルを取得し、最後に組み合わせられた特徴ベクトルを第3の完全接続層に入力し、第3の完全接続層により検出対象の顔画像の検出結果を取得する。すなわち、本出願は、第1の完全接続層及び第2の完全接続層により検出対象の顔画像の顔のキーポイントに対応する第1の特徴ベクトルと検出対象の顔画像に対応する第2の特徴ベクトルとをそれぞれ取得し、次いで、第3の完全接続層により検出対象の顔画像の検出結果を取得することができる。従来の顔合成画像検出方法では、主にニューラルネットワークの深層学習方法を用いており、当該方法では合成画像と原図との判別性のある特徴を学習することが困難であり、しかも小範囲のトレーニングサンプルに過剰適合しやすく、未知の合成サンプルに対する汎化性が有限であり、また、単一の畳み込みニューラルネットワークのみを用いて、実シーンにおける顔姿勢が大きすぎる或いは照明の差が大きい場合にはロバスト性が悪いため、認識結果が好ましくない。本出願は、顔のキーポイントと合成画像とを連携して検出する技術的手段を採用することで、従来技術における顔合成画像検出モデルが合成画像と原図との判別性のある特徴を学習することが困難であり、しかも小範囲のトレーニングサンプルに過剰適合しやすく、未知の合成サンプルに対する汎化性が有限であり、また、単一の畳み込みニューラルネットワークのみを用いて、実シーンにおける顔姿勢が大きすぎる或いは照明の差が大きい場合にはロバスト性が悪いため、認識結果が好ましくないという問題を克服する。本出願により提供される技術案は、顔合成画像検出の過剰適合状況を緩和し、顔合成画像検出の汎化性と正確さを向上させ、未知の合成サンプルに対する検出効果を向上させることができ、また、本出願の実施例の技術案は簡単で便利であり、普及しやすく、適用範囲が広い。
【0023】
実施例2
図2は、本出願の実施例2により提供される顔合成画像検出方法の概略フローチャートである。図2に示されるように、顔合成画像検出方法は、以下のステップ201~ステップ207を含むことができる。
【0024】
ステップ201において、検出対象の顔画像を予めトレーニングされた畳み込みニューラルネットワークに入力し、畳み込みニューラルネットワークにより検出対象の顔画像に対して特徴抽出を行って、検出対象の顔画像の元画像特徴を取得する。
【0025】
ステップ202において、検出対象の顔画像の元画像特徴を第1の完全接続層に入力し、検出対象の顔画像の元画像特徴に基づいて、第1の完全接続層により検出対象の顔画像の顔のキーポイント及び各顔のキーポイントの画像特徴を抽出する。
【0026】
本出願の具体的な実施例では、電子機器は、検出対象の顔画像の元画像特徴を第1の完全接続層に入力し、検出対象の顔画像の元画像特徴に基づいて、第1の完全接続層により検出対象の顔画像の顔のキーポイント及び各顔のキーポイントの画像特徴を抽出することができる。ここで、顔のキーポイントは72個であり、具体的には、顔のキーポイントはそれぞれ(x1、y1)、(x2、y2)、…、(x72、y72)である。
【0027】
ステップ203において、検出対象の顔画像の顔のキーポイント及び各顔のキーポイントの画像特徴に基づいて、検出対象の顔画像の顔のキーポイントに対応する第1の特徴ベクトルを取得し、ここで、第1の特徴ベクトルは144次元ベクトルである。
【0028】
本出願の具体的な実施例では、電子機器は、検出対象の顔画像の顔のキーポイント及び各顔のキーポイントの画像特徴に基づいて、検出対象の顔画像の顔のキーポイントに対応する第1の特徴ベクトルを取得することができ、ここで、第1の特徴ベクトルは144次元ベクトルである。具体的には、各顔のキーポイントは、1つの2次元画像特徴に対応しているので、72個の顔のキーポイントの画像特徴に基づいて144次元ベクトルを取得することができる。
【0029】
ステップ204において、検出対象の顔画像の元画像特徴を第2の完全接続層に入力し、検出対象の顔画像の元画像特徴に基づいて、第2の完全接続層により検出対象の顔画像のキー画像特徴を抽出する。
【0030】
本出願の具体的な実施例では、電子機器は、検出対象の顔画像の元画像特徴を第2の完全接続層に入力し、検出対象の顔画像の元画像特徴に基づいて、第2の完全接続層により検出対象の顔画像のキー画像特徴を抽出することができる。具体的には、検出対象の顔画像の元画像特徴を512次元ベクトルとすると、本ステップにおいて、電子機器は、そのベクトルに基づいて、検出対象の顔画像のキー画像特徴として144次元ベクトルを生成することができる。
【0031】
ステップ205において、検出対象の顔画像のキー画像特徴に基づいて、検出対象の顔画像に対応する第2の特徴ベクトルを取得し、ここで、第2の特徴ベクトルは144次元ベクトルである。
【0032】
本出願の具体的な実施例では、電子機器は、検出対象の顔画像のキー画像特徴に基づいて、検出対象の顔画像に対応する第2の特徴ベクトルを取得することができ、ここで、第2の特徴ベクトルは144次元ベクトルである。具体的には、検出対象の顔画像のキー画像特徴を144次元ベクトルとすると、本ステップにおいて、電子機器は、このベクトルを検出対象の顔画像に対応する第2の特徴ベクトルとして決定することができる。
【0033】
ステップ206において、第1の特徴ベクトルと第2の特徴ベクトルとを組み合わせて、組み合わせられた特徴ベクトルを取得する。
【0034】
ステップ207において、組み合わせられた特徴ベクトルを第3の完全接続層に入力し、第3の完全接続層により組み合わせられた特徴ベクトルを計算して、検出対象の顔画像の検出結果を取得し、ここで、検出結果は、検出対象の顔画像が合成画像であるまたは非合成画像であることを含む。
【0035】
本出願の実施例により提供される顔合成画像検出方法は、まず、検出対象の顔画像を予めトレーニングされた畳み込みニューラルネットワークに入力し、畳み込みニューラルネットワークにより検出対象の顔画像の元画像特徴を取得する。さらに検出対象の顔画像の元画像特徴をそれぞれ第1の完全接続層及び第2の完全接続層に入力し、第1の完全接続層及び第2の完全接続層により検出対象の顔画像の顔のキーポイントに対応する第1の特徴ベクトルと検出対象の顔画像に対応する第2の特徴ベクトルとをそれぞれ取得する。次いで、第1の特徴ベクトルと第2の特徴ベクトルとを組み合わせて、組み合わせられた特徴ベクトルを取得し、最後に組み合わせられた特徴ベクトルを第3の完全接続層に入力し、第3の完全接続層により検出対象の顔画像の検出結果を取得する。すなわち、本出願は、第1の完全接続層及び第2の完全接続層により検出対象の顔画像の顔のキーポイントに対応する第1の特徴ベクトルと検出対象の顔画像に対応する第2の特徴ベクトルとをそれぞれ取得し、次いで、第3の完全接続層により検出対象の顔画像の検出結果を取得することができる。従来の顔合成画像検出方法では、主にニューラルネットワークの深層学習方法を用いており、当該方法は合成画像と原図との判別性のある特徴を学習することが困難であり、しかも小範囲のトレーニングサンプルに過剰適合しやすく、未知の合成サンプルに対する汎化性が有限であり、また、単一の畳み込みニューラルネットワークのみを用いて、実シーンにおける顔姿勢が大きすぎる或いは照明の差が大きい場合にはロバスト性が悪いため、認識結果が好ましくない。本出願は、顔のキーポイントと合成画像とを連携して検出する技術的手段を採用することで、従来技術における顔合成画像検出モデルが合成画像と原図との判別性のある特徴を学習することが困難であり、しかも小範囲のトレーニングサンプルに過剰適合しやすく、未知の合成サンプルに対する汎化性が有限であり、また、単一の畳み込みニューラルネットワークのみを用いて、実シーンにおける顔姿勢が大きすぎる或いは照明の差が大きい場合にはロバスト性が悪いため、認識結果が好ましくないという問題を克服する。本出願により提供される技術案は、顔合成画像検出の過剰適合状況を緩和し、顔合成画像検出の汎化性と正確さを向上させ、未知の合成サンプルに対する検出効果を向上させることができ、また、本出願の実施例の技術案は簡単で便利であり、普及しやすく、適用範囲が広い。
【0036】
実施例3
図3は、本出願の実施例3により提供される顔合成画像検出方法の概略フローチャートである。図3に示されるように、顔合成画像検出方法は、以下のステップ301~ステップ308を含むことができる。
【0037】
ステップ301において、検出対象の顔画像を予めトレーニングされた顔検出モデルに入力し、顔検出モデルにより検出対象の顔画像を認識して、検出対象の顔画像の顔検出枠を取得する。
【0038】
本出願の具体的な実施例では、電子機器は、検出対象の顔画像を予めトレーニングされた顔検出モデルに入力し、顔検出モデルにより検出対象の顔画像を認識して、検出対象の顔画像の顔検出枠を取得することができる。具体的には、電子機器は、まず、顔を含む赤緑青(RGB)画像を取得し、RGB画像を予めトレーニングされた顔検出モデルに入力し、予めトレーニングされた顔検出モデルによりRGB画像を認識して、RGB画像の顔検出枠を取得することができる。本実施例における顔検出モデルは、顔の位置を検出できる既存の顔検出モデルであってもよい。
【0039】
ステップ302において、検出対象の顔画像の顔検出枠を予め設定された倍数に拡大して、拡大された顔検出枠を取得し、拡大された顔検出枠で検出対象の顔画像中の顔を切り取って、切り取られた顔画像を取得し、切り取られた顔画像を所定のサイズに調整して、調整された顔画像を取得する。
【0040】
本出願の具体的な実施例では、電子機器は、検出対象の顔画像の顔検出枠を予め設定された倍数に拡大して、拡大された顔検出枠を取得し、拡大された顔検出枠で検出対象の顔画像中の顔を切り取って、切り取られた顔画像を取得し、切り取られた顔画像を所定のサイズに調整して、調整された顔画像を取得することができる。具体的には、電子機器は、検出対象の顔画像の顔検出枠を1.5倍に拡大し、検出対象の顔画像中の顔を切り取り、切り取られた顔画像を同じサイズの224×224に調整することができる。
【0041】
ステップ303において、調整された顔画像に基づいて各画素点の画素値を算出する。
【0042】
本出願の具体的な実施例では、電子機器は、調整された顔画像に基づいて各画素点の画素値を算出することができる。具体的には、電子機器は、調整された顔画像を画素計算モデルに入力し、画素計算モデルにより各画素点の画素値を算出することができる。
【0043】
ステップ304において、各画素点の画素値を所定の方法で正規化処理して、正規化処理された顔画像を取得し、正規化処理された顔画像における各画素点の画素値が所定の範囲内にあるようにする。
【0044】
本出願の具体的な実施例では、電子機器は、各画素点の画素値を所定の方法で正規化処理して、正規化処理された顔画像を取得し、正規化処理された顔画像における各画素点の画素値が所定の範囲内にあるようにすることができる。具体的には、電子機器は、各画素点の画素値から128を減算し、256で除算し、各画素点の画素値が(-0.5、0.5)の間にあるようにすることができる。好ましくは、電子機器は、正規化処理された顔画像をランダムデータ強調処理することもできる。
【0045】
ステップ305において、正規化処理された顔画像を予めトレーニングされた畳み込みニューラルネットワークに入力し、畳み込みニューラルネットワークにより正規化された顔画像に対して特徴抽出を行って、正規化された顔画像の元画像特徴を取得する。
【0046】
ステップ306において、正規化された顔画像の元画像特徴をそれぞれ第1の完全接続層及び第2の完全接続層に入力し、第1の完全接続層により正規化された顔画像の元画像特徴を計算して、正規化された顔画像の顔のキーポイントに対応する第1の特徴ベクトルを取得し、第2の完全接続層により正規化された顔画像の元画像特徴を計算して、正規化された顔画像に対応する第2の特徴ベクトルを取得する。
【0047】
ステップ307において、第1の特徴ベクトルと第2の特徴ベクトルとを組み合わせて、組み合わせられた特徴ベクトルを取得する。
【0048】
ステップ308において、組み合わせられた特徴ベクトルを第3の完全接続層に入力し、第3の完全接続層により組み合わせられた特徴ベクトルを計算して、検出対象の顔画像の検出結果を取得し、ここで、検出結果は、検出対象の顔画像が合成画像であるまたは非合成画像であることを含む。
【0049】
なお、本実施例におけるステップ305~308の正規化された顔画像に対する処理プロセスは、実施例1におけるステップ101~104の検出対象の顔画像に対する処理プロセスと同様であるので、ここでは具体的な説明を省略する。
【0050】
好ましくは、本出願の具体的な実施例では、検出対象の顔画像を予めトレーニングされた畳み込みニューラルネットワークに入力する前に、第1の完全接続層をトレーニングしてもよい。具体的には、電子機器は、予め取得された最初の顔画像の元画像特徴を現在の元画像特徴とし、第1の完全接続層がそれに対応する収束条件を満たさない場合、現在の元画像特徴を第1の完全接続層に入力し、現在の元画像特徴を用いて第1の完全接続層をトレーニングし、現在の顔画像の次の顔画像を現在の顔画像とし、第1の完全接続層がそれに対応する収束条件を満たすまで、上記操作を繰り返して実行することができる。
【0051】
好ましくは、本出願の具体的な実施例では、検出対象の顔画像を予めトレーニングされた畳み込みニューラルネットワークに入力する前に、第3の完全接続層をトレーニングしてもよい。具体的には、電子機器は、予め取得された最初の顔画像の組み合わせられた特徴ベクトルを現在の特徴ベクトルとし、第3の完全接続層がそれに対応する収束条件を満たさない場合、現在の特徴ベクトルを第3の完全接続層に入力し、現在の特徴ベクトルを用いて第3の完全接続層をトレーニングし、現在の顔画像の次の顔画像を現在の顔画像とし、第3の完全接続層がそれに対応する収束条件を満たすまで、上記操作を繰り返して実行することができる。
【0052】
図4は、本出願の実施例3により提供される顔合成画像検出システムの概略構成図である。図4に示されるように、顔合成画像検出システムは、顔検出モジュールと、画像前処理モジュールと、畳み込みニューラルネットワークと、第1の完全接続層と、第2の完全接続層と、第3の完全接続層とを備える。ここで、顔検出モジュールは、検出対象の顔画像中の顔を検出し、検出対象の顔画像中の顔検出枠を取得する。ここで、検出モデルは、顔の位置を検出できる既存の顔検出モデルである。画像前処理モジュールは、検出対象の顔画像中の顔検出枠を前処理する。具体的には、顔検出枠を1.5倍に拡大した後、拡大された顔検出枠で検出対象の顔画像中の顔を切り取って、切り取られた顔画像を取得し、切り取られた顔画像を同じサイズの224×224に調整して、調整された顔画像を取得する。さらに、電子機器は、調整された顔画像に対して正規化処理を行うこともできる。具体的には、電子機器は、調整された顔画像中の各画素値から128を減算し、256で除算し、各画素点の画素値が(-0.5、0.5)の間にあるようにすることができる。好ましくは、電子機器は、画像前処理モジュールにより正規化処理された顔画像をランダムデータ強調処理することもできる。畳み込みニューラルネットワークは、ResNet18ネットワークを用いて検出対象の顔画像に対して特徴抽出を行い、最後の階層の特徴マップ上でグローバル平均プーリング操作を行った後に、2つの分岐の完全接続層の計算を行い、1つの完全接続層Fc1(第1の完全接続層)により顔の72個のキーポイントに対応する144次元ベクトルを取得し、もう1つの完全接続層Fc2(第2の完全接続層)により検出対象の顔画像に対応する144次元ベクトルを取得し、Fc1及びFc2から出力された2つの144次元ベクトルを組み合わせて288次元ベクトルを取得し、最後に、完全接続層Fc3(第3の完全接続層)を接続して2次元ベクトルを取得し、検出対象の顔画像が合成顔画像であるか非合成顔画像であるかを判断する。
【0053】
顔合成画像検出は、顔関連分野の基礎技術の1つであり、安全防備、出勤、金融、出入管理などの多くのシーンに応用されている。現在の多くの業務にも広く応用されており、本出願により提供される技術案を採用して、顔合成画像が主にキーポイントに基づいてマップされるという事前情報によって、キーポイントと合成画像検出とを共同にトレーニングする。これにより、合成画像検出へより多くの監視情報をもたらすことができ、合成画像検出の過剰適合状況を緩和できるとともに、モデルに顔合成画像のキーポイント領域のフィットトレースにもっと注意させることができ、原図と合成画像の中のより判別性のある特徴を抽出して分類できる。したがって、本出願は、顔生体検出技術の性能を向上させ、顔生体検出技術に基づく多くの応用の効果アップ及びユーザ体験改善をサポートすることができ、業務項目のさらなる推進に有利である。
【0054】
本出願の実施例により提供される顔合成画像検出方法は、まず、検出対象の顔画像を予めトレーニングされた畳み込みニューラルネットワークに入力し、畳み込みニューラルネットワークにより検出対象の顔画像の元画像特徴を取得する。さらに検出対象の顔画像の元画像特徴をそれぞれ第1の完全接続層及び第2の完全接続層に入力し、第1の完全接続層及び第2の完全接続層により検出対象の顔画像の顔のキーポイントに対応する第1の特徴ベクトルと検出対象の顔画像に対応する第2の特徴ベクトルとをそれぞれ取得する。次いで、第1の特徴ベクトルと第2の特徴ベクトルとを組み合わせて、組み合わせられた特徴ベクトルを取得し、最後に組み合わせられた特徴ベクトルを第3の完全接続層に入力し、第3の完全接続層により検出対象の顔画像の検出結果を取得する。すなわち、本出願は、第1の完全接続層及び第2の完全接続層により検出対象の顔画像の顔のキーポイントに対応する第1の特徴ベクトルと検出対象の顔画像に対応する第2の特徴ベクトルとをそれぞれ取得し、次いで、第3の完全接続層により検出対象の顔画像の検出結果を取得することができる。従来の顔合成画像検出方法では、主にニューラルネットワークの深層学習方法を用いており、当該方法は合成画像と原図との判別性のある特徴を学習することが困難であり、しかも小範囲のトレーニングサンプルに過剰適合しやすく、未知の合成サンプルに対する汎化性が有限であり、また、単一の畳み込みニューラルネットワークのみを用いて、実シーンにおける顔姿勢が大きすぎる或いは照明の差が大きい場合にはロバスト性が悪いため、認識結果が好ましくない。本出願は、顔のキーポイントと合成画像とを連携して検出する技術的手段を採用することで、従来技術における顔合成画像検出モデルが合成画像と原図との判別性のある特徴を学習することが困難であり、しかも小範囲のトレーニングサンプルに過剰適合しやすく、未知の合成サンプルに対する汎化性が有限である。また、単一の畳み込みニューラルネットワークのみを用いて、実シーンにおける顔姿勢が大きすぎる或いは光照明の差が大きい場合にはロバスト性が悪いため、認識結果が好ましくないという問題を克服する。本出願により提供される技術案は、顔合成画像検出の過剰適合状況を緩和し、顔合成画像検出の汎化性と正確さを向上させ、未知の合成サンプルに対する検出効果を向上させることができ、また、本出願の実施例の技術案は簡単で便利であり、普及しやすく、適用範囲が広い。
【0055】
実施例4
図5は、本出願の実施例4により提供される顔合成画像検出装置の第1の概略構成図である。図5に示されるように、前記装置500は、特徴抽出モジュール501と、ベクトル計算モジュール502と、ベクトル組み合わせモジュール503と、結果計算モジュール504とを備える。
ここで、特徴抽出モジュール501は、検出対象の顔画像を予めトレーニングされた畳み込みニューラルネットワークに入力し、畳み込みニューラルネットワークにより検出対象の顔画像に対して特徴抽出を行って、検出対象の顔画像の元画像特徴を取得する。
ベクトル計算モジュール502は、検出対象の顔画像の元画像特徴を第1の完全接続層に入力し、第1の完全接続層により検出対象の顔画像の元画像特徴を計算して、検出対象の顔画像の顔のキーポイントに対応する第1の特徴ベクトルを取得し、検出対象の顔画像の元画像特徴を第2の完全接続層に入力し、第2の完全接続層により検出対象の顔画像の元画像特徴を計算して、検出対象の顔画像に対応する第2の特徴ベクトルを取得する。
ベクトル組み合わせモジュール503は、第1の特徴ベクトルと第2の特徴ベクトルとを組み合わせて、組み合わせられた特徴ベクトルを取得する。
結果計算モジュール504は、組み合わせられた特徴ベクトルを第3の完全接続層に入力し、第3の完全接続層により組み合わせられた特徴ベクトルを計算して、検出対象の顔画像の検出結果を取得する。ここで、検出結果は、検出対象の顔画像が合成画像であるまたは非合成画像であることを含む。
【0056】
さらに、ベクトル計算モジュール502は、具体的には、検出対象の顔画像の元画像特徴に基づいて、第1の完全接続層により検出対象の顔画像の顔のキーポイント及び各顔のキーポイントの画像特徴を抽出し、検出対象の顔画像の顔のキーポイント及び各顔のキーポイントの画像特徴に基づいて、検出対象の顔画像の顔のキーポイントに対応する第1の特徴ベクトルを取得する。ここで、第1の特徴ベクトルは144次元ベクトルである。
【0057】
さらに、ベクトル計算モジュール502は、具体的には、検出対象の顔画像の元画像特徴に基づいて、第2の完全接続層により検出対象の顔画像のキー画像特徴を抽出し、検出対象の顔のキー画像特徴に基づいて、検出対象の顔画像に対応する第2の特徴ベクトルを取得する。ここで、第2の特徴ベクトルは144次元ベクトルである。
【0058】
図6は、本出願の実施例4により提供される顔合成画像検出装置の第2の概略構成図である。図6に示されるように、顔合成画像検出装置500は、検出対象の顔画像を予めトレーニングされた顔検出モデルに入力し、顔検出モデルにより検出対象の顔画像を認識して、検出対象の顔画像の顔検出枠を取得し、検出対象の顔画像の顔検出枠を予め設定された倍数に拡大して、拡大された顔検出枠を取得し、拡大された顔検出枠で検出対象の顔画像中の顔を切り取って、切り取られた顔画像を取得し、切り取られた顔画像を所定のサイズに調整して、調整された顔画像を取得し、調整された顔画像を予めトレーニングされた畳み込みニューラルネットワークに入力する操作を実行する画像前処理モジュール505をさらに備える。
【0059】
さらに、画像前処理モジュール505は、さらに、調整された顔画像に基づいて各画素点の画素値を算出し、各画素点の画素値を所定の方法で正規化処理して、正規化処理された顔画像を取得し、正規化処理された顔画像における各画素点の画素値が所定の範囲内にあるようにし、正規化処理された顔画像を予めトレーニングされた畳み込みニューラルネットワークに入力する操作を実行する。
【0060】
さらに、顔合成画像検出装置は、予め取得された最初の顔画像の元画像特徴を現在の元画像特徴とし、第1の完全接続層がそれに対応する収束条件を満たさない場合、現在の元画像特徴を第1の完全接続層に入力し、現在の元画像特徴を用いて第1の完全接続層をトレーニングし、現在の顔画像の次の顔画像を現在の顔画像とし、第1の完全接続層がそれに対応する収束条件を満たすまで、上記操作を繰り返して実行する第1のトレーニングモジュール506(図示しない)をさらに備えていてもよい。
【0061】
さらに、顔合成画像検出装置は、予め取得された第1の顔画像の組み合わせられた特徴ベクトルを現在の特徴ベクトルとし、第3の完全接続層がそれに対応する収束条件を満たさない場合、現在の特徴ベクトルを第3の完全接続層に入力し、現在の特徴ベクトルを用いて第3の完全接続層をトレーニングし、現在の顔画像の次の顔画像を現在の顔画像とし、第3の完全接続層がそれに対応する収束条件を満たすまで、上記操作を繰り返して実行する第2のトレーニングモジュール507(図示しない)をさらに備えていてもよい。
【0062】
上記顔合成画像検出装置は、本出願の任意の実施例により提供される方法を実行することができ、方法に対応する機能モジュールと有益な効果とを有する。本実施例では詳細に説明されていない技術詳細について、本出願の任意の実施例により提供される顔合成画像検出方法を参照することができる。
【0063】
実施例5
本出願の実施例によれば、本出願は、電子機器、読み取り可能な記憶媒体及びコンピュータプログラムを提供する。
コンピュータプログラムは、コンピュータに本出願によって提供される顔合成画像検出方法を実行させる。
【0064】
図7は、本出願の実施例に係る顔合成画像検出方法の電子機器のブロック図である。
電子機器は、ラップトップコンピュータ、デスクトップコンピュータ、ワークステーション、パーソナルデジタルアシスタント、サーバ、ブレードサーバ、メインフレームコンピュータ、及び他の適切なコンピュータなどの様々な形態のデジタルコンピュータを表すことを目的とする。電子機器は、パーソナルデジタルプロセッサ、携帯電話、スマートフォン、ウェアラブルデバイス、他の同様のコンピューティングデバイスなどの様々な形態のモバイルデバイスを表すこともできる。本明細書で示されるコンポーネント、それらの接続と関係、及びそれらの機能は単なる例であり、本明細書の説明及び/又は要求される本出願の実現を制限することを意図したものではない。
【0065】
図7に示されるように、電子機器は、少なくとも1つのプロセッサ701と、メモリ702と、高速インターフェース及び低速インターフェースを含む各コンポーネントを接続するインターフェースとを備える。
各コンポーネントは、異なるバスで相互に接続され、共通のマザーボードに取り付けられるか、又は必要に応じて他の方式で取り付けることができる。プロセッサは、外部入力/出力装置(インターフェースに結合されたディスプレイデバイスなど)にGUIの図形情報をディスプレイするためにメモリ内又はメモリに記憶されている命令を含む、電子機器内に実行される命令を処理することができる。他の実施形態では、必要であれば、複数のプロセッサ及び/又は複数のバスを、複数のメモリとともに使用することができる。同様に、複数の電子機器を接続することができ、各機器は、部分的な必要な操作(例えば、サーバアレイ、ブレードサーバ、又はマルチプロセッサシステムとする)を提供する。図7では、単一のプロセッサ701を用いる一例とする。
【0066】
メモリ702は、本出願により提供される非一時的なコンピュータ読み取り可能な記憶媒体である。
ここで、メモリ702には、少なくとも1つのプロセッサによって実行される命令が記憶され、少なくとも1つのプロセッサが本出願により提供される顔合成画像検出方法を実行するようにする。
本出願の非一時的なコンピュータ読み取り可能な記憶媒体には、コンピュータに本出願により提供される顔合成画像検出方法を実行させるためのコンピュータ命令が記憶されている。
【0067】
メモリ702は、非一時的なコンピュータ読み取り可能な記憶媒体として、本出願の実施例に係る顔合成画像検出方法に対応するプログラム命令/モジュール(例えば、図5に示す特徴抽出モジュール501、ベクトル計算モジュール502、ベクトル組み合わせモジュール503及び結果計算モジュール504)のような、非一時的なソフトウェアプログラム、非一時的なコンピュータ実行可能なプログラム及びモジュールを記憶する。
プロセッサ701は、メモリ702に記憶されている非一時的なソフトウェアプログラム、命令及びモジュールを実行することによって、サーバの様々な機能アプリケーション及びデータ処理を実行し、すなわち上記の顔合成画像検出方法を実現する。
【0068】
メモリ702は、ストレージプログラム領域とストレージデータ領域とを含むことができ、ここで、ストレージプログラム領域は、オペレーティングシステム、少なくとも1つの機能に必要なアプリケーションプログラムを記憶することができ、ストレージデータ領域は、顔合成画像検出方法の電子機器の使用によって作成されたデータなどを記憶することができる。また、メモリ702は、高速ランダムアクセスメモリを含むことができ、非一時的なメモリをさらに含むことができ、例えば、少なくとも1つのディスクストレージデバイス、フラッシュメモリデバイス、又は他の非一時的なソリッドステートストレージデバイスである。いくつかの実施例では、メモリ702は、プロセッサ701に対して遠隔に設置されたメモリを選択的に含むことができ、これらの遠隔メモリは、ネットワークを介して顔合成画像検出方法の電子機器に接続することができる。上記のネットワークの例としては、インターネット、イントラネット、ローカルエリアネットワーク、モバイル通信ネットワーク、及びその組み合わせを含むが、これらに限定されない。
【0069】
顔合成画像検出方法の電子機器は、入力装置703と出力装置704とをさらに備えていてもよい。
プロセッサ701、メモリ702、入力装置703、及び出力装置704は、バス又は他の方式を介して接続することができ、図7では、バスを介して接続することを一例としている。
【0070】
入力装置703は、入力された数字又はキャラクタ情報を受信し、顔合成画像検出方法の電子機器のユーザ設定及び機能制御に関するキー信号入力を生成することができ、例えば、タッチスクリーン、キーパッド、マウス、トラックパッド、タッチパッド、インジケータースティック、少なくとも1つのマウスボタン、トラックボール、ジョイスティックなどの入力装置である。
出力装置704は、ディスプレイデバイス、補助照明デバイス(例えば、LED)、及び触覚フィードバックデバイス(例えば、振動モータ)などを含むことができる。当該ディスプレイデバイスは、液晶ディスプレイ(LCD)、発光ダイオード(LED)ディスプレイ、及びプラズマディスプレイを含むことができるが、これらに限定されない。いくつかの実施形態では、ディスプレイデバイスは、タッチスクリーンであってもよい。
【0071】
本明細書で説明されるシステム及び技術の様々な実施形態は、デジタル電子回路システム、集積回路システム、特定用途向けASIC(特定用途向け集積回路)、コンピュータハードウェア、ファームウェア、ソフトウェア、及び/又はそれらの組み合わせで実現することができる。これらの様々な実施形態は、少なくとも1つのコンピュータプログラムで実施され、少なくとも1つのコンピュータプログラムは、少なくとも1つのプログラマブルプロセッサを含むプログラム可能なシステムで実行及び/又は解釈されることができ、プログラマブルプロセッサは、特定用途向け又は汎用のプログラマブルプロセッサであってもよく、ストレージシステム、少なくとも1つの入力装置、及び少なくとも1つの出力装置からデータ及び命令を受信し、データ及び命令をストレージシステム、少なくとも1つの入力装置、及び少なくとも1つの出力装置に伝送することができる。
【0072】
これらのコンピューティングプログラム(プログラム、ソフトウェア、ソフトウェアアプリケーション、又はコードとも呼ばれる)は、プログラマブルプロセッサの機械命令を含み、高レベルのプロセス及び/又はオブジェクト指向プログラミング言語、及び/又はアセンブリ/機械言語でこれらのコンピューティングプログラムを実施することができる。本明細書に使用されるような、「機械読み取り可能な媒体」及び「コンピュータ読み取り可能な媒体」という用語は、機械命令及び/又はデータをプログラマブルプロセッサに提供するために使用される任意のコンピュータプログラム製品、機器、及び/又は装置(例えば、磁気ディスク、光ディスク、メモリ、プログラマブルロジックデバイス(PLD))を指し、機械読み取り可能な信号である機械命令を受信する機械読み取り可能な媒体を含む。「機械読み取り可能な信号」という用語は、機械命令及び/又はデータをプログラマブルプロセッサに提供するための任意の信号を指す。
【0073】
ユーザとのインタラクションを提供するために、コンピュータ上でここで説明されているシステム及び技術を実施することができ、コンピュータは、ユーザに情報を表示するためのディスプレイ装置(例えば、CRT(陰極線管)又はLCD(液晶ディスプレイ)モニタ)と、キーボード及びポインティングデバイス(例えば、マウス又はトラックボール)とを有し、ユーザは、キーボード及びポインティングデバイスによって入力をコンピュータに提供することができる。他の種類の装置は、ユーザとのインタラクションを提供することもでき、例えば、ユーザに提供されるフィードバックは、任意の形態のセンシングフィードバック(例えば、視覚フィードバック、聴覚フィードバック、又は触覚フィードバック)であってもよく、任意の形態(音響入力と、音声入力と、触覚入力とを含む)でユーザからの入力を受信することができる。
【0074】
ここで説明されるシステム及び技術は、バックエンドコンポーネントを含むコンピューティングシステム(例えば、データサーバとする)、又はミドルウェアコンポーネントを含むコンピューティングシステム(例えば、アプリケーションサーバ)、又はフロントエンドコンポーネントを含むコンピューティングシステム(例えば、グラフィカルユーザインタフェース又はウェブブラウザを有するユーザコンピュータ、ユーザは、グラフィカルユーザインタフェース又はウェブブラウザによってここで説明されるシステム及び技術の実施形態とインタラクションする)、又はこのようなバックエンドコンポーネントと、ミドルウェアコンポーネントと、フロントエンドコンポーネントの任意の組み合わせを含むコンピューティングシステムで実施することができる。任意の形態又は媒体のデジタルデータ通信(例えば、通信ネットワーク)によってシステムのコンポーネントを相互に接続されてもいい。通信ネットワークの例としては、ローカルエリアネットワーク(LAN)と、ワイドエリアネットワーク(WAN)と、インターネットとを含む。
【0075】
コンピュータシステムは、クライアント側とサーバとを含むことができる。クライアント側とサーバは、一般に、互いに離れており、通常に通信ネットワークを介してインタラクションする。対応するコンピュータ上で実行され、互いにクライアント-サーバ関係を有するコンピュータプログラムによってクライアント側とサーバとの関係が生成される。サーバは、クラウドサーバ(クラウドコンピューティングサーバ又はクラウドサーバとも呼ばれる)であってもよく、クラウドコンピューティングサービス体系中の1つのサーバ製品として、伝統的な物理サーバとVPSサービスに存在する管理難度が大きく、業務拡張性が弱いという欠陥を解決した。
【0076】
本出願の実施例の技術案によれば、まず、検出対象の顔画像を予めトレーニングされた畳み込みニューラルネットワークに入力し、畳み込みニューラルネットワークにより検出対象の顔画像の元画像特徴を取得する。さらに検出対象の顔画像の元画像特徴をそれぞれ第1の完全接続層及び第2の完全接続層に入力し、第1の完全接続層及び第2の完全接続層により検出対象の顔画像の顔のキーポイントに対応する第1の特徴ベクトルと検出対象の顔画像に対応する第2の特徴ベクトルとをそれぞれ取得する。次いで、第1の特徴ベクトルと第2の特徴ベクトルとを組み合わせて、組み合わせられた特徴ベクトルを取得し、最後に組み合わせられた特徴ベクトルを第3の完全接続層に入力し、第3の完全接続層により検出対象の顔画像の検出結果を取得する。すなわち、本出願では、第1の完全接続層及び第2の完全接続層により検出対象の顔画像の顔のキーポイントに対応する第1の特徴ベクトルと検出対象の顔画像に対応する第2の特徴ベクトルとをそれぞれ取得する。次いで、第3の完全接続層により検出対象の顔画像の検出結果を取得することができる。従来の顔合成画像検出方法では、主にニューラルネットワークの深層学習方法を用いており、当該方法は合成画像と原図との判別性のある特徴を学習することが困難であり、しかも小範囲のトレーニングサンプルに過剰適合しやすく、未知の合成サンプルに対する汎化性が有限である。また、単一の畳み込みニューラルネットワークのみを用いて、実シーンにおける顔姿勢が大きすぎる或いは照明の差が大きい場合にはロバスト性が悪いため、認識結果が好ましくない。本出願は、顔のキーポイントと合成画像とを連携して検出する技術的手段を採用することで、従来技術における顔合成画像検出モデルが合成画像と原図との判別性のある特徴を学習することが困難であり、しかも小範囲のトレーニングサンプルに過剰適合しやすく、未知の合成サンプルに対する汎化性が有限である。また、単一の畳み込みニューラルネットワークのみを用いて、実シーンにおける顔姿勢が大きすぎる或いは照明の差が大きい場合にはロバスト性が悪いため、認識結果が好ましくないという問題を克服する。本出願により提供される技術案は、顔合成画像検出の過剰適合状況を緩和し、顔合成画像検出の汎化性と正確さを向上させ、未知の合成サンプルに対する検出効果を向上させることができ、また、本出願の実施例の技術案は簡単で便利であり、普及しやすく、適用範囲が広い。
【0077】
なお、上記に示される様々な形態のフローを使用して、ステップを並べ替え、追加、又は削除することができることを理解されたい。例えば、本出願に記載されている各ステップは、並列に実行されてもよいし、順次的に実行されてもよいし、異なる順序で実行されてもよいが、本出願で開示されている技術案が所望の結果を実現することができれば、本明細書では限定されない。
【0078】
上記の具体的な実施形態は、本出願の保護範囲を制限するものではない。当業者は、設計要件及び他の要因に応じて、様々な修正、組み合わせ、サブコンビネーション、及び置換を行うことができる。任意の本出願の精神と原則内で行われる修正、同等の置換、及び改良などは、いずれも本出願の保護範囲内に含まれるべきである。


図1
図2
図3
図4
図5
図6
図7