(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2024-07-25
(54)【発明の名称】画像処理方法及び装置、コンピュータ機器、記憶媒体並びにコンピュータプログラム
(51)【国際特許分類】
G06T 3/00 20240101AFI20240718BHJP
G06T 1/40 20060101ALI20240718BHJP
G06V 10/74 20220101ALI20240718BHJP
G06N 3/0464 20230101ALI20240718BHJP
【FI】
G06T3/00
G06T1/40
G06V10/74
G06N3/0464
【審査請求】有
【予備審査請求】未請求
(21)【出願番号】P 2022565906
(86)(22)【出願日】2022-08-11
(85)【翻訳文提出日】2022-10-27
(86)【国際出願番号】 CN2022111736
(87)【国際公開番号】W WO2023231182
(87)【国際公開日】2023-12-07
(31)【優先権主張番号】202210626467.1
(32)【優先日】2022-06-02
(33)【優先権主張国・地域又は機関】CN
(81)【指定国・地域】
【公序良俗違反の表示】
(特許庁注:以下のものは登録商標)
(71)【出願人】
【識別番号】517392436
【氏名又は名称】▲騰▼▲訊▼科技(深▲セン▼)有限公司
【氏名又は名称原語表記】TENCENT TECHNOLOGY (SHENZHEN) COMPANY LIMITED
【住所又は居所原語表記】35/F,Tencent Building,Kejizhongyi Road,Midwest District of Hi-tech Park,Nanshan District, Shenzhen,Guangdong 518057,CHINA
(74)【代理人】
【識別番号】100110364
【氏名又は名称】実広 信哉
(74)【代理人】
【識別番号】100150197
【氏名又は名称】松尾 直樹
(72)【発明者】
【氏名】▲羅▼ 宇辰
(72)【発明者】
【氏名】朱 俊▲偉▼
(72)【発明者】
【氏名】▲賀▼ 珂珂
(72)【発明者】
【氏名】▲儲▼ 文青
(72)【発明者】
【氏名】▲タイ▼ ▲穎▼
(72)【発明者】
【氏名】汪 ▲チェン▼杰
【テーマコード(参考)】
5B057
5L096
【Fターム(参考)】
5B057BA02
5B057CA08
5B057CA12
5B057CA16
5B057CB08
5B057CB12
5B057CB16
5B057CC01
5B057CD20
5B057DA12
5B057DB02
5B057DB09
5B057DC36
5B057DC40
5L096AA06
5L096CA01
5L096DA01
5L096EA03
5L096FA06
5L096FA25
5L096FA67
5L096GA10
5L096HA11
5L096JA03
5L096JA11
5L096KA04
(57)【要約】
本出願は、画像処理方法及び装置、コンピュータ機器、記憶媒体並びにプログラム製品を提供し、人工知能、機械学習、スマート交通などの技術分野に関する。前記画像処理方法は、顔交換要求に応答して、ソース画像のアイデンティティ特徴及び目標画像の少なくとも1つのスケールの初期属性特徴を顔交換モデルに入力するステップであって、該顔交換要求は、目標画像内の目標顔をソース画像内のソース顔に置き換えることを要求するために用いられる、ステップと、顔交換モデルにより、アイデンティティ特徴及び少なくとも1つのスケールの初期属性特徴に対して、反復して特徴融合を行い、融合特徴を得るステップと、融合特徴に基づいて、顔交換モデルにより目標顔交換画像を生成し、該目標顔交換画像を出力するステップであって、目標顔交換画像内の顔は、ソース顔のアイデンティティ特徴と目標顔の目標属性特徴とを融合したものである、ステップと、を含む。
【特許請求の範囲】
【請求項1】
コンピュータ機器が実行する画像処理方法であって、
受信した顔交換要求に応答して、ソース画像のアイデンティティ特徴及び目標画像の少なくとも1つのスケールの初期属性特徴を取得するステップであって、前記顔交換要求は、前記目標画像内の目標顔を前記ソース画像内のソース顔に置き換えることを要求するために用いられ、前記アイデンティティ特徴は、前記ソース顔が属する対象を表し、前記初期属性特徴は、前記目標顔の3次元属性を表す、ステップと、
前記アイデンティティ特徴及び前記少なくとも1つのスケールの初期属性特徴を顔交換モデルに入力するステップと、
前記顔交換モデルにより、前記アイデンティティ特徴及び前記少なくとも1つのスケールの初期属性特徴に対して、反復して特徴融合を行い、融合特徴を得るステップと、
前記融合特徴に基づいて、前記顔交換モデルにより目標顔交換画像を生成し、前記目標顔交換画像を出力するステップであって、前記目標顔交換画像内の顔は、前記ソース顔のアイデンティティ特徴と前記目標顔の目標属性特徴とを融合したものである、ステップと、を含む、画像処理方法。
【請求項2】
前記顔交換モデルは、少なくとも1つの畳み込み層を含み、各前記畳み込み層は1つの前記スケールに対応し、前記顔交換モデルにより、前記アイデンティティ特徴及び前記少なくとも1つのスケールの初期属性特徴に対して、反復して特徴融合を行い、融合特徴を得るステップは、
前記顔交換モデルの各畳み込み層により、それぞれ前記アイデンティティ特徴及び対応するスケールの初期属性特徴に対して、
現在の畳み込み層の前の畳み込み層によって出力された第1特徴マップを取得するステップと、
前記アイデンティティ特徴及び前記第1特徴マップに基づいて、第2特徴マップを生成し、前記少なくとも1つのスケールの初期属性特徴から、目標属性特徴を選別するステップであって、前記目標属性特徴は、前記目標顔のアイデンティティ特徴以外の特徴である、ステップと、
前記目標属性特徴及び前記第2特徴マップに基づいて、第3特徴マップを生成するステップであって、前記第3特徴マップは、前記現在の畳み込み層の次の畳み込み層の第1特徴マップである、ステップと
前記少なくとも1つの畳み込み層のうち最後の畳み込み層によって出力された第3特徴マップを前記融合特徴として決定するステップと、を実行する、ステップを含む、ことを特徴とする
請求項1に記載の画像処理方法。
【請求項3】
前記少なくとも1つのスケールの初期属性特徴から、目標属性特徴を選別するステップは、
前記第2特徴マップ及び前記初期属性特徴に基づいて、対応するスケールでの前記目標画像の制御マスクを決定するステップであって、前記制御マスクは、目標顔のアイデンティティ特徴以外の特徴を載せる画素点を表すために用いられる、ステップと、
前記制御マスクに基づいて、前記少なくとも1つのスケールの初期属性特徴を選別し、目標属性特徴を得るステップと、を含む、ことを特徴とする
請求項2に記載の画像処理方法。
【請求項4】
前記第2特徴マップ及び前記初期属性特徴に基づいて、対応するスケールでの前記目標画像の制御マスクを決定するステップは、
前記第2特徴マップ及び前記初期属性特徴に対して特徴連結を行い、連結特徴マップを得るステップと、
予め設定されたマッピング畳み込みカーネル及び活性化関数に基づいて、前記連結特徴マップを前記制御マスクにマッピングするステップと、を含む、ことを特徴とする
請求項3に記載の画像処理方法。
【請求項5】
前記初期属性特徴及び前記畳み込み層の数は、いずれも目標数であり、前記目標数の畳み込み層は直列に接続され、異なる前記初期属性特徴は異なる前記スケールに対応し、各前記畳み込み層は1つの前記スケールの初期属性特徴に対応し、前記目標数は2以上であり、
前記現在の畳み込み層の前の畳み込み層によって出力された第1特徴マップを取得するステップは、
前記現在の畳み込み層が前記目標数の畳み込み層のうちの1番目の畳み込み層である場合、初期特徴マップを取得し、前記初期特徴マップを現在の畳み込み層に入力される第1特徴マップとして使用するステップ、を含む、ことを特徴とする
請求項2に記載の画像処理方法。
【請求項6】
前記アイデンティティ特徴及び前記第1特徴マップに基づいて、前記第2特徴マップを生成するステップは、
前記アイデンティティ特徴に対してアフィン変換を行い、第1制御ベクトルを得るステップと、
前記第1制御ベクトルに基づいて、前記現在の畳み込み層の第1畳み込みカーネルを第2畳み込みカーネルにマッピングするステップと、
前記第2畳み込みカーネルに基づいて、前記第1特徴マップに対して畳み込み操作を行い、第2特徴マップを生成するステップと、を含む、ことを特徴とする
請求項2に記載の画像処理方法。
【請求項7】
前記アイデンティティ特徴及び前記少なくとも1つのスケールの初期属性特徴を顔交換モデルに入力する前に、前記画像処理方法は、
サンプル画像ペアにおけるサンプルソース画像のサンプルアイデンティティ特徴と、前記サンプル画像ペアにおけるサンプル目標画像の少なくとも1つのスケールのサンプル初期属性特徴とを取得するステップと、
初期顔交換モデルの生成器により、前記サンプルアイデンティティ特徴及び前記少なくとも1つのスケールのサンプル初期属性特徴に対して、反復して特徴融合を行い、サンプル融合特徴を得るステップと、
前記サンプル融合特徴に基づいて、前記初期顔交換モデルの生成器によりサンプル生成画像を生成するステップと、
前記初期顔変換モデルの判別器により、前記サンプル生成画像及び前記サンプルソース画像を判別し、判別結果を得るステップと、
前記判別結果に基づいて前記初期顔変換モデルの損失を決定し、前記損失に基づいて前記初期顔変換モデルをトレーニングし、前記顔変換モデルを得るステップと、をさらに含む、ことを特徴とする
請求項1に記載の画像処理方法。
【請求項8】
前記判別結果は、前記サンプルソース画像に対する第1判別結果及び前記サンプル生成画像に対する第2判別結果を含み、前記判別結果に基づいて前記初期顔変換モデルの損失を決定するステップは、
前記サンプル目標画像の少なくとも1つのスケールのサンプルマスクを取得し、前記少なくとも1つのスケールのサンプルマスクに基づいて、第1損失値を決定するステップと、
前記第1判別結果及び前記第2判別結果に基づいて、第2損失値を決定するステップと、
前記第1損失値及び前記第2損失値に基づいて、トレーニング総損失を得るステップと、
前記トレーニング総損失に基づいて、目標条件に合致するまで前記初期顔変換モデルをトレーニングし、前記目標条件に合致する時に、トレーニングを停止し、前記顔変換モデルを得るステップと、を含む、ことを特徴とする
請求項7に記載の画像処理方法。
【請求項9】
前記サンプルソース画像及び前記サンプル目標画像は、同じ対象に対応し、
前記第1損失値及び前記第2損失値に基づいて、トレーニング総損失を得るステップは、
前記サンプル生成画像及び前記サンプル目標画像に基づいて、第3損失値を取得するステップと、
前記第3損失値、前記第1損失値及び前記第2損失値に基づいて、前記トレーニング総損失を得るステップと、を含む、ことを特徴とする
請求項8に記載の画像処理方法。
【請求項10】
前記判別器は、少なくとも1つの畳み込み層を含み、前記第1損失値及び前記第2損失値に基づいて、トレーニング総損失を得るステップは、
第1判別特徴マップの非顔領域と第2判別特徴マップの非顔領域との間の第1類似度を決定するステップであって、前記第1判別特徴マップは、前記畳み込み層のうちの第1部分畳み込み層によって出力されたサンプル目標画像の特徴マップであり、前記第2判別特徴マップは、前記第1部分畳み込み層によって出力されたサンプル生成画像の特徴マップである、ステップと、
第3判別特徴マップと第4判別特徴マップとの間の第2類似度を決定するステップであって、前記第3判別特徴マップは、前記畳み込み層のうちの第2部分畳み込み層によって出力されたサンプル目標画像の特徴マップであり、前記第4判別特徴マップは、前記第2部分畳み込み層によって出力されたサンプル生成画像の特徴マップである、ステップと、
前記第1類似度及び前記第2類似度に基づいて、第4損失値を決定するステップと、
前記第1損失値、前記第2損失値及び前記第4損失値に基づいて、前記トレーニング総損失を得るステップと、を含む、ことを特徴とする
請求項8に記載の画像処理方法。
【請求項11】
前記第1損失値及び前記第2損失値に基づいて、トレーニング総損失を得るステップは、
前記サンプルソース画像の第1アイデンティティ特徴、前記サンプル目標画像の第2アイデンティティ特徴、及び前記サンプル生成画像の第3アイデンティティ特徴を抽出するステップと、
前記第1アイデンティティ特徴及び前記第3アイデンティティ特徴に基づいて、前記サンプルソース画像と前記サンプル生成画像との間の第1アイデンティティ類似度を決定するステップと、
前記第2アイデンティティ特徴及び前記第3アイデンティティ特徴に基づいて、前記サンプル生成画像と前記サンプル目標画像との間の第1アイデンティティ距離を決定するステップと、
前記第1アイデンティティ特徴及び前記第2アイデンティティ特徴に基づいて、前記サンプルソース画像と前記サンプル目標画像との間の第2アイデンティティ距離を決定するステップと、
前記第1アイデンティティ距離及び前記該第2アイデンティティ距離に基づいて、距離差異を決定するステップと、
前記第1アイデンティティ類似度及び前記距離差異に基づいて、第5損失値を決定するステップと、
前記第1損失値、第2損失値及び第5損失値に基づいて、前記トレーニング総損失を得るステップと、を含む、ことを特徴とする
請求項8に記載の画像処理方法。
【請求項12】
画像処理装置であって、特徴取得モジュール及び顔交換モジュールを備え、
前記特徴取得モジュールは、
受信した顔交換要求に応答して、ソース画像のアイデンティティ特徴及び目標画像の少なくとも1つのスケールの初期属性特徴を取得するように構成され、前記顔交換要求は、前記目標画像内の目標顔を前記ソース画像内のソース顔に置き換えることを要求するために用いられ、前記アイデンティティ特徴は、前記ソース顔が属する対象を表し、前記初期属性特徴は、前記目標顔の3次元属性を表し、
前記顔交換モジュールは、
前記アイデンティティ特徴及び前記少なくとも1つのスケールの初期属性特徴を顔交換モジュール内の顔交換モデルに入力するステップと、
前記顔交換モデルにより、前記アイデンティティ特徴及び前記少なくとも1つのスケールの初期属性特徴に対して、反復して特徴融合を行い、融合特徴を得るステップと、
前記融合特徴に基づいて、前記顔交換モデルにより目標顔交換画像を生成し、前記目標顔交換画像を出力するステップであって、前記目標顔交換画像内の顔は、前記ソース顔のアイデンティティ特徴と前記目標顔の目標属性特徴とを融合したものである、ステップと、を実行するように構成される、画像処理装置。
【請求項13】
コンピュータ機器であって、メモリと、プロセッサとを含み、
前記メモリは、コンピュータプログラムを記憶し、
前記プロセッサは、前記メモリに記憶されたコンピュータプログラムを実行して、請求項1乃至11のいずれか一項に記載の画像処理方法を実現する、コンピュータ機器。
【請求項14】
プロセッサに、請求項1乃至11のいずれか一項に記載の画像処理方法を実行させるためのコンピュータプログラムを記憶した、コンピュータ可読記憶媒体。
【請求項15】
プロセッサに、請求項1乃至11のいずれか一項に記載の画像処理方法を実行させるためのコンピュータプログラムを含む、コンピュータプログラム製品。
【発明の詳細な説明】
【技術分野】
【0001】
(関連出願への相互参照)
本出願は、出願番号が202210626467.1であり、出願日が2022年06月02日である中国特許出願に基づいて提出され、該中国特許出願の優先権を主張し、該中国特許出願の全ての内容が参照により本出願に組み込まれる。
【0002】
本出願は、人工知能、機械学習、スマート交通などの技術分野に関し、特に画像処理方法及び装置、コンピュータ機器、記憶媒体並びにプログラム製品に関する。
【背景技術】
【0003】
顔交換は、コンピュータビジョンの分野で重要な技術であり、コンテンツ生成、映画やテレビのポートレート制作、エンターテイメントビデオ制作、アバター又はプライバシー保護などの場面で広く使用されている。顔交換とは、画像内の対象の顔を別の顔に置き換えることを意味する。
【0004】
関連技術では、通常、ニューラルネットワークモデルを使用して顔交換を実現し、例えば、画像を顔交換のためのニューラルネットワークモデルに入力し、ニューラルネットワークモデルにより画像に対して顔交換を行って得られた画像を出力する。しかし、関連技術における顔交換技術で得られた画像と理想的な顔交換後の画像との間に大きな違いがあり、顔交換の効果が低いという問題がある。
【発明の概要】
【課題を解決するための手段】
【0005】
本出願の実施形態は、画像処理方法及び装置、コンピュータ機器、コンピュータ可読記憶媒体並びにコンピュータプログラム製品を提供し、それは、顔交換後の画像の品質を向上させることができる。
【0006】
本出願の実施形態は、画像処理方法を提供し、前記画像処理方法は、
受信した顔交換要求に応答して、ソース画像のアイデンティティ特徴及び目標画像の少なくとも1つのスケールの初期属性特徴を取得するステップであって、前記顔交換要求は、前記目標画像内の目標顔を前記ソース画像内のソース顔に置き換えることを要求するために用いられ、前記アイデンティティ特徴は、前記ソース顔が属する対象を表し、前記初期属性特徴は、前記目標顔の3次元属性を表す、ステップと、
前記アイデンティティ特徴及び前記少なくとも1つのスケールの初期属性特徴を顔交換モデルに入力するステップと、
前記顔交換モデルにより、前記アイデンティティ特徴及び前記少なくとも1つのスケールの初期属性特徴に対して、反復して特徴融合を行い、融合特徴を得るステップと、
前記融合特徴に基づいて、前記顔交換モデルにより目標顔交換画像を生成し、前記目標顔交換画像を出力するステップであって、前記目標顔交換画像内の顔は、前記ソース顔のアイデンティティ特徴と前記目標顔の目標属性特徴とを融合したものである、ステップと、を含む。
【0007】
本出願の実施形態は、画像処理装置をさらに提供し、前記画像処理装置は、
受信した顔交換要求に応答して、ソース画像のアイデンティティ特徴及び目標画像の少なくとも1つのスケールの初期属性特徴を取得するように構成される特徴取得モジュールであって、前記顔交換要求は、前記目標画像内の目標顔を前記ソース画像内のソース顔に置き換えることを要求するために用いられ、前記アイデンティティ特徴は、前記ソース顔が属する対象を表し、前記初期属性特徴は、前記目標顔の3次元属性を表す、特徴取得モジュールと、
前記アイデンティティ特徴及び前記少なくとも1つのスケールの初期属性特徴を顔交換モジュール内の顔交換モデルに入力するステップと、
前記顔交換モデルにより、前記アイデンティティ特徴及び前記少なくとも1つのスケールの初期属性特徴に対して、反復して特徴融合を行い、融合特徴を得るステップと、
前記融合特徴に基づいて、前記顔交換モデルにより目標顔交換画像を生成し、前記目標顔交換画像を出力するステップであって、前記目標顔交換画像内の顔は、前記ソース顔のアイデンティティ特徴と前記目標顔の目標属性特徴とを融合したものである、ステップと、を実行するように構成される、前記顔交換モジュールと、を備える。
【0008】
本出願の実施形態は、コンピュータ機器をさらに提供し、前記コンピュータ機器は、メモリと、プロセッサとを含み、
前記メモリは、コンピュータプログラムを記憶しており、
前記プロセッサは、前記メモリに記憶されたコンピュータプログラムを実行して、本出願の実施形態に記載の画像処理方法を実現する。
【0009】
本出願の実施形態は、プロセッサに、本出願の実施形態に記載の画像処理方法を実行させるためのコンピュータプログラムを記憶した、コンピュータ可読記憶媒体をさらに提供する。
【0010】
本出願の実施形態は、プロセッサに、本出願の実施形態に記載の画像処理方法を実行させるためのコンピュータプログラムを含む、コンピュータプログラム製品をさらに提供する。
【0011】
本出願の実施形態によって提供される技術案がもたらす有益な効果は、以下のとおりである。
【0012】
本出願の実施形態の画像処理方法では、ソース画像のアイデンティティ特徴及び目標画像の初期属性特徴を顔交換モデルに入力し、顔交換モデルにより、アイデンティティ特徴及び少なくとも1つのスケールの初期属性特徴に対して、反復して特徴融合を行い、融合特徴を得る。つまり、顔交換モデルの入力端において、アイデンティティ特徴と属性特徴に対して表示デカップリングを行うことにより、得られた融合特徴に、ソース画像内の対象のアイデンティティ特徴と、目標画像内の対象の顔の3次元属性とを融合させるようにする。
【0013】
融合特徴に基づいて、顔交換モデルにより目標顔交換画像を生成し、該目標顔交換画像を出力し、目標顔交換画像内の顔は、ソース顔のアイデンティティ特徴と目標顔の目標属性特徴とを融合したものである。このようにして、特徴融合で得られた融合特徴に基づいて、目標顔交換画像を生成することにより、目標顔交換画像内の顔とソース画像内の顔とのアイデンティティの一致性を保証する上で、目標顔交換画像内の目標顔の属性と細部特徴を効果的に保留し、顔交換画像内の顔の明瞭度、精度及び真実性を大幅に向上させ、高解像度の顔交換を実現する。
【図面の簡単な説明】
【0014】
【
図1】本出願の実施形態による画像処理方法の実施環境の模式図である。
【
図2】本出願の実施形態による画像処理方法の模式的フローチャートである。
【
図3】本出願の実施形態による顔交換モデルの構造的模式図である。
【
図4】本出願の実施形態による生成器内のブロックの構造的模式図である。
【
図5】本出願の実施形態による顔交換モデルのトレーニング方法の模式的フローチャートである。
【
図6】本出願の実施形態による少なくとも1つのスケールの制御マスクの模式図である。
【
図7】本出願の実施形態による顔交換結果の対比模式図である。
【
図8】本出願の実施形態による画像処理装置の構造的模式図である。
【
図9】本出願の実施形態によるコンピュータ機器の構造的模式図である。
【発明を実施するための形態】
【0015】
以下に本出願における図面を参照しながら本出願の実施形態を説明する。図面を参照して説明される以下の実施形態は、本出願の実施形態の技術案を解釈するための例示的な説明であり、本出願の実施形態の技術案を限定しないことを理解すべきである。
【0016】
以下の説明では、「いくつかの実施形態」に関わり、それは、全ての可能な実施形態のサブセットを説明するが、「いくつかの実施形態」は、全ての可能な実施形態の同じサブセット又は異なるサブセットであり得、衝突することなく互いに組み合わせられ得ることを理解することができる。
【0017】
当業者は、本明細書で使用される単数形「1」、「1つ」、「前記」及び「該」は、特に説明しない限り、複数形も含むことができることを理解することができる。本出願の実施形態で使用される「含む」及び「備える」という用語は、対応する特徴が、呈された特徴、情報、データ、ステップ、及び操作として実現され得ることを意味するが、本技術分野でサポートされた他の特徴、情報、データ、ステップ、及び操作などとして実現されることを排除しない。
【0018】
理解可能なこととして、本出願の具体的な実施形態では、関連するソース画像、目標画像、ソース顔、目標顔及びモデルトレーニング時に使用されるサンプルデータセットにおける少なくとも1組のサンプルなどの対象に関連する任意のデータ、及び、顔交換モデルを用いて顔交換を行う時に使用される顔交換対象画像、目標顔の顔特徴、属性パラメータなどの対象に関連する任意のデータは、いずれも関連対象の同意又は許可を得た後に取得されるものである。以下の本出願の実施形態が具体的な製品又は技術に適用される場合、対象の許可又は同意を得る必要があり、関連データの収集、使用及び処理は、関連する国と地域の関連法律法規及び基準を遵守する必要がある。また、本出願の画像処理方法を用いていずれかの対象の顔画像に対して実行される顔交換過程は、いずれも、関連対象によってトリガーされた顔交換サービス又は顔交換要求に基づいて、関連対象の許可又は同意を得てから実行される顔交換過程である。
【0019】
本出願の実施形態で提供される画像処理方法は、下記の人工知能及びコンピュータビジョンなどの技術に関わり、例えば、人工知能技術におけるクラウドコンピューティング及びビッグデータ処理などの技術を使用して、顔交換モデルのトレーニング、画像内のマルチスケールの属性特徴の抽出などの過程を実現する。例えば、コンピュータビジョン技術を使用して、画像に対して顔認識を行うことで、画像内の顔に対応するアイデンティティ特徴を得る。
【0020】
理解すべきこととして、人工知能(AI:Artificial Intelligence)は、デジタルコンピュータ又はデジタルコンピュータによって制御される機械を使用して、人間の知能をシミュレート、延伸、拡張し、環境を感知し、知識を取得し、知識を使用して最適な結果を取得する理論、方法、技術、及び応用システムである。つまり、人工知能は、コンピュータ科学の総合技術であり、知能の本質を理解し、人間の知能に似た方法で反応する新しい知能機械を生産しようとするものである。人工知能は、つまり、各種の知能機械の設計原理と実現方法を研究し、機械に感知、推理と決定の機能を持たせる。
【0021】
人工知能技術は、総合学科であり、分野が広く、ハードウェアの技術もあれば、ソフトウェアの技術もある。人工知能基礎技術は一般的に、例えばセンサー、専用人工知能チップ、クラウドコンピューティング、分散型ストレージ、ビッグデータ処理技術、操作/インタラクションシステム、機電一体化などの技術を含む。人工知能ソフトウェア技術は主にコンピュータビジョン技術、音声処理技術、自然言語処理技術及び機械学習/深層学習、自動運転、スマート交通などのいくつかのテーマを含む。
【0022】
理解すべきこととして、コンピュータビジョン技術 (CV:Computer Vision)は、どのように機械に「見えるようにする」かについて研究する科学であり、人間の目の代わりにカメラとコンピュータを使用して目標を識別及び測定し、さらにグラフィック処理を行うことによって、コンピュータで処理した画像が、人間の目で観察したり、機器の検出に転送したりするのにより適した画像になる。科学学科として、コンピュータビジョンは関連する理論と技術を研究し、画像又は多次元データから情報を取得することができる人工知能システムを構築しようとするものである。コンピュータビジョン技術は、通常、画像処理、画像認識、画像セマンティック理解、画像検索、光学キャラクター認識(OCR:Optical Character Recognition)、ビデオ処理、ビデオセマンティック理解、ビデオコンテンツ/動作認識、3次元対象再構成、3D技術、仮想現実、拡張現実、同期位置決めと地図構築、自動運転、スマート交通などの技術を含み、一般的な顔認識、指紋認識などの生物特徴認識技術も含む。
【0023】
図1は、本出願による画像処理方法の実施環境の模式図である。
図1に示すように、該実施環境は、サーバ11と端末12とを含む。
【0024】
該サーバ11は、トレーニング済みの顔交換モデルが備えて構成され、該サーバ11は、顔交換モデルに基づいて顔交換機能を端末12に提供することができる。該顔交換機能は、ソース画像及び目標画像に基づいて顔交換画像を生成するために用いられてもよく、生成された顔交換画像は、ソース画像内のソース顔のアイデンティティ特徴とテンプレート画像内の目標顔の属性特徴とを持つ。該アイデンティティ特徴は、該ソース顔が属する対象を表し、該初期属性特徴は、該目標顔の3次元属性を表す。
【0025】
いくつかの実施形態では、該端末12にはアプリケーションプログラムがインストールされており、該アプリケーションプログラムは、顔交換機能が予め配置され得、該サーバ11は、アプリケーションプログラムのバックグラウンドサーバであり得る。該端末12と該サーバ11は該アプリケーションプログラムによってデータインタラクションを行うことで、顔交換過程を実現することができる。例示的に、該端末12は、顔交換要求を該サーバ11に送信することができ、該顔交換要求は、該目標画像内の目標顔を該ソース画像内のソース顔に置き換えることを要求するために用いられる。該サーバ11は、該顔交換要求に基づいて、本出願の画像処理方法を実行して目標顔交換画像を生成し、該目標顔交換画像を該端末12に返信することができる。例えば、該アプリケーションプログラムは、顔交換機能をサポートする任意の1つのアプリケーションであり、例えば、該アプリケーションプログラムは、ビデオ編集アプリケーション、画像処理ツール、ビデオアプリケーション、ライブブロードキャストアプリケーション、ソーシャルアプリケーション、コンテンツインタラクションプラットフォーム、ゲームアプリケーションなどを含むが、これらに限定されない。
【0026】
サーバは、独立した物理サーバであってもよく、複数の物理サーバからなるサーバクラスタ又は分散システムであってもよく、クラウドサービス、クラウドデータベース、クラウドコンピューティング、クラウド関数、クラウドストレージ、ネットワークサービス、クラウド通信、ミドルウェアサービス、ドメイン名サービス、セキュリティサービス、コンテンツ配信ネットワーク(CDN:Content Delivery Network)、及びビッグデータと人工知能プラットフォームなどの基礎的なクラウドコンピューティングサービスを提供するクラウドサーバ又はサーバクラスタであってもよい。上記ネットワークは、有線ネットワーク及び無線ネットワークを含むことができるが、これらに限定されず、ここで、該有線ネットワークは、ローカルエリアネットワーク、メトロポリタンエリアネットワーク及び広域ネットワークを含み、該無線ネットワークは、ブルートゥース(登録商標)、Wi-Fi及びその他の無線通信を実現するネットワークを含む。端末は、スマートフォン(Android携帯電話、iOS携帯電話など)、タブレットコンピュータ、ノートコンピュータ、デジタル放送受信機、モバイルインターネット機器(MID:Mobile Internet Devices)、パーソナルデジタルアシスタント(PDA)、デスクトップコンピュータ、車載端末(車載ナビゲーション端末、車載コンピュータなど)、スマート家電、航空機、スマートスピーカー、スマートウォッチなどであってもよく、端末とサーバは有線通信又は無線通信で直接又は間接的に接続することができるが、これらに限定されない。具体的に、端末は、実際の応用シナリオ要件に基づいて決定されてもよく、ここでは限定されない。
【0027】
本出願の目的、技術案及び利点をより明確にするために、以下に図面を参照して本出願の実施形態を詳細に説明する。
【0028】
以下では、まず本出願に関連する技術用語を説明する。
【0029】
顔交換:画像内の顔を別の顔に置き換えることである。例示的に、ソース画像Xsと目標画像Xtが与えられた場合、本出願の画像処理方法を用いて顔交換画像Ys,tを生成する。顔交換画像Ys,tは、ソース画像Xsのアイデンティティ(Identity)特徴を持つとともに、目標画像Xt内のアイデンティティに関連しない属性(Attribute)特徴を留める。
【0030】
顔交換モデル: 目標画像内の目標顔を該ソース画像内のソース顔に置き換えるために用いられる。
【0031】
ソース画像:アイデンティティ特徴を提供する画像であり、生成された顔交換画像内の顔は、該ソース画像内の顔のアイデンティティ特徴を持つ。
【0032】
目標画像:属性特徴を提供する画像であり、生成された顔交換画像内の顔は、該目標画像内の顔の属性特徴を持つ。例えば、ソース画像が対象Aの画像であり、目標画像が対象Bの画像であり、目標画像内の対象Bの顔を対象Aの顔に置き換えて顔交換画像を得る場合、顔交換画像内の顔のアイデンティティが対象Aの顔であり、顔交換画像内の顔が対象Aの目の形状、両目の間隔、鼻の大きさなどのアイデンティティ特徴と同じであり、顔交換画像内の顔が対象Bの顔の表情、髪、光照射、しわ、姿勢、顔の遮蔽などの属性特徴を持つ。
【0033】
図2は、本出願の実施形態による画像処理方法の模式的フローチャートである。該方法の実行主体は、コンピュータ機器(端末又はサーバであり得る)であってもよい。
図2に示すように、該方法は以下のステップ201~203を含む。
【0034】
ステップ201において、コンピュータ機器は、受信した顔交換要求に応答して、ソース画像のアイデンティティ特徴、及び目標画像の少なくとも1つのスケールの初期属性特徴を取得する。
【0035】
該顔交換要求は、該目標画像内の目標顔を該ソース画像内のソース顔に置き換えることを要求するために用いられる。実際の応用において、該顔交換要求はソース画像と目標画像とを含み、コンピュータ機器は、顔交換要求を解析することにより、ソース画像と目標画像とを得、又は、該顔交換要求はソース画像の識別子と目標画像の識別子とを含み、コンピュータ機器は、顔交換要求を解析することにより、ソース画像の識別子と目標画像の識別子とを得た後、該識別子に基づいてイメージライブラリでソース画像と目標画像とを検索する。
【0036】
該コンピュータ機器は、トレーニング済みの顔交換モデルを使用して顔交換画像を得ることができ、それによって顔交換機能を提供する。ここで、該アイデンティティ特徴は、該ソース顔が属する対象を表す。例示的に、アイデンティティ特徴は、対象のアイデンティティを識別する特徴であってもよく、アイデンティティ特徴は、対象の目標顔の五官特徴又は目標顔の輪郭特徴のうちの少なくとも1つを含むことができる。目標顔の五官特徴は、五官に対応する特徴を指し、目標顔の輪郭特徴は、目標顔の輪郭に対応する特徴を指す。例えば、アイデンティティ特徴は、目の形状、両目の間隔、鼻の大きさ、眉の形状、顔の輪郭などを含むことができるが、これらに限定されない。該初期属性特徴は、該目標顔の3次元属性を表し、例えば、初期属性特徴は、目標顔の3次元空間における姿勢、空間環境などの属性を表すことができる。例えば、初期属性特徴は、背景、光照射、しわ、姿勢、表情、髪、顔の遮蔽などを含むことができるが、これらに限定されない。
【0037】
いくつかの実施形態では、該顔交換モデルはアイデンティティ認識ネットワークを含むことができ、該コンピュータ機器はソース画像を顔交換モデルに入力し、顔交換モデルにおけるアイデンティティ認識ネットワークによりソース画像に対して顔認識を行い、該ソース画像のアイデンティティ特徴を得ることができる。例示的に、該アイデンティティ認識ネットワークは、入力された画像に基づいて、画像内の顔が属するアイデンティティを認識するために用いられる。例えば、該アイデンティティ認識ネットワークは、顔交換モデルにおける固定顔認識ネットワーク(Fixed FR Net:Fixed Face Recognition Network)であってもよい。例えば、該ソース画像が顔画像である場合、アイデンティティ認識ネットワークはトレーニング済みの顔認識モデルであってもよく、顔認識モデルはソース画像内の顔が属する対象を認識し、該対象を識別するためのアイデンティティ特徴を得るために用いられ、該アイデンティティ特徴は、目の形状特徴、両目の間隔特徴、鼻の大きさ特徴、眉の形状特徴及び顔の輪郭特徴のうちの少なくとも1つを含むことができる。該アイデンティティ特徴は、顔認識モデルによって出力された固定次元の特徴ベクトル、例えば、512次元特徴ベクトルであってもよい。該512次元特徴ベクトルは、目の形状、両目の間隔、鼻の大きさ、眉の形状、顔の輪郭などの特徴を表すことができる。
【0038】
いくつかの実施形態では、該顔交換モデルは、属性特徴抽出ネットワークをさらに含み、該属性特徴抽出ネットワークは、エンコーダ及びデコーダを含むことができ、エンコーダは、少なくとも1つの符号化ネットワーク層(例えば、少なくとも2つの符号化ネットワーク層を含む)を含み、デコーダは、少なくとも1つの復号ネットワーク層(例えば、少なくとも2つの復号ネットワーク層を含む)を含む。例えば、該属性特徴抽出ネットワークは、エンコーダ及びデコーダを含むU型深層ネットワークである。実際の応用において、コンピュータ機器は、下記のような方式により該目標画像の少なくとも1つのスケールの初期属性特徴を取得することができる。
【0039】
コンピュータ機器は、エンコーダの少なくとも1つの符号化ネットワーク層により目標画像に対して層ごとのダウンサンプリングを行い、符号化特徴を得、デコーダの少なくとも1つの復号ネットワーク層により該符号化特徴に対して層ごとのアップサンプリングを行い、異なるスケールの復号特徴を出力し、そして少なくとも1つの復号ネットワーク層によってされた異なるスケールの復号特徴を初期属性特徴とする。ここで、各復号ネットワーク層は、1つの前記スケールに対応する。
【0040】
例示的に、該各符号化ネットワーク層は、目標画像に対して符号化操作を行って符号化特徴を得るために用いられ、各復号ネットワーク層は、符号化特徴に対して復号操作を行って初期属性特徴を得るために用いられる。デコーダは、実行時にエンコーダの動作原理に従って逆方向操作を実行し、例えば、エンコーダは、目標画像に対してダウンサンプリングを行うことができ、デコーダは、ダウンサンプリングが行われた符号化特徴に対してアップサンプリングを行うことができる。例えば、該エンコーダはオートエンコーダ(AE:Autoencoder)であってもよく、該デコーダはオートエンコーダに対応するデコーダであってもよい。
【0041】
いくつかの実施形態では、各符号化ネットワーク層は、前の符号化ネットワーク層によって出力された符号化特徴に対してダウンサンプリングを行い、少なくとも1つのスケールの符号化特徴を得るために用いられ、各符号化ネットワーク層は、1つのスケールに対応する。各復号ネットワーク層は、前の復号ネットワーク層によって出力された復号特徴に対してアップサンプリングを行い、少なくとも1つのスケールの初期属性特徴を得るために用いられ、各復号ネットワーク層は、1つのスケールに対応する。同じ層に位置する符号化ネットワーク層及び復号ネットワーク層のスケールは、同じであってもよい。ここで、該各復号ネットワーク層は、対応するスケールの符号化ネットワーク層の符号化特徴を組み合わせて前の復号ネットワーク層によって出力された初期属性特徴に対してアップサンプリングを行うことができる。
図3に示すように、
図3では、U型深層ネットワークを使用して目標画像X
tに対して特徴抽出を行い、例えば、目標画像をエンコーダに入力し、該エンコーダは、複数(即ち少なくとも2つ)の符号化ネットワーク層を含み、各符号化ネットワーク層は、1つの特徴マップの解像度(即ちスケール)に対応し、エンコーダの複数の符号化ネットワーク層により、目標画像X
tの符号化特徴の特徴マップの解像度がそれぞれ1024×1024、512×512、256×256、128×128、64×64であることを出力し、64×64の特徴マップをデコーダの1番目の復号ネットワーク層に入力してアップサンプリングを行い、128×128の復号特徴マップを得、128×128の復号特徴マップと128×128の符号化特徴マップを連結し、連結された特徴マップに対してアップサンプリングを行い、256×256の復号特徴マップを得、このように類推して、U型深層ネットワークのネットワーク構造に基づいて復号して得られた各種の解像度の特徴マップを初期属性特徴とする。該初期属性特徴では、各スケールの初期属性特徴は、該目標画像の対応するスケールにおける属性特徴を表すために用いられ、異なるスケールの初期属性特徴に対応する属性特徴は、異なってもよく、比較的小さなスケールの初期属性特徴は、目標画像内の目標顔のグローバル的な位置、姿勢などの情報を表すことができ、比較的大きな初期属性特徴は、目標画像内の目標顔の局所的な細部を表すことができ、それによって、該少なくとも1つのスケールの初期属性特徴は、対象の複数のレベルにおける属性特徴を網羅することができる。例えば、該少なくとも1つのスケールの初期属性特徴は、小さいものから大きいものまでの解像度を有する複数の特徴マップであってもよく、解像度R1の特徴マップは、目標画像内の目標顔の顔位置を表すことができ、解像度R2の特徴マップは、目標画像内の目標顔の姿勢表情を表すことができ、解像度R3の特徴マップは、目標画像内の目標顔の顔位置の顔の細部を表すことができる。ここで、解像度R1はR2よりも小さく、R2はR3よりも小さい。
【0042】
ステップ202において、コンピュータ機器は、顔交換モデルにより、アイデンティティ特徴及び少なくとも1つのスケールの初期属性特徴に対して、反復して特徴融合を行い、融合特徴を得る。
【0043】
ステップ203において、コンピュータ機器は、融合特徴に基づいて、顔交換モデルにより目標顔交換画像を生成し、目標顔交換画像を出力する。
【0044】
ここで、目標顔交換画像内の顔は、該ソース顔のアイデンティティ特徴及び該目標顔の目標属性特徴を融合したものである。
【0045】
いくつかの実施形態では、顔交換モデルは、生成器を含み、該生成器は、少なくとも1つの畳み込み層(例えば、少なくとも2つの畳み込み層を含む)を含み、該少なくとも1つの畳み込み層は、直列に接続され、各畳み込み層は1つのスケールに対応する。コンピュータ機器は、顔交換モデルにより、下記のような方式でアイデンティティ特徴及び少なくとも1つのスケールの初期属性特徴に対して、反復して特徴融合を行い、融合特徴を得ることができる。
【0046】
コンピュータ機器は、顔交換モデルの各畳み込み層により、それぞれアイデンティティ特徴及び対応するスケールの初期属性特徴に対して下記のような処理を実行する。現在の畳み込み層の前の畳み込み層によって出力された第1特徴マップを取得し、アイデンティティ特徴及び第1特徴マップに基づいて、第2特徴マップを生成し、少なくとも1つのスケールの初期属性特徴から、目標属性特徴を選別し、該目標属性特徴は、目標顔のアイデンティティ特徴以外の特徴であり、目標属性特徴及び第2特徴マップに基づいて、第3特徴マップを生成し、第3特徴マップは、現在の畳み込み層の次の畳み込み層の第1特徴マップである。少なくとも1つの畳み込み層のうち最後の畳み込み層によって出力された第3特徴マップを融合特徴として決定する。
【0047】
実際の応用において、初期属性特徴及び畳み込み層の数は、いずれも目標数であり、目標数の畳み込み層は直列に接続され、異なる初期属性特徴は異なるスケールに対応し、各畳み込み層は1つのスケールの初期属性特徴に対応し、目標数は2以上である。現在の畳み込み層が該目標数の畳み込み層のうちの1番目の畳み込み層である場合、初期特徴マップを取得し、初期特徴マップを現在の畳み込み層に入力される第1特徴マップとして使用する。ここで、実際の応用において、初期特徴マップは、次元が固定された全0の特徴ベクトルであってもよい。
【0048】
いくつかの実施形態では、コンピュータ機器は、下記のような方式で少なくとも1つのスケールの初期属性特徴から、目標属性特徴を選別することができる。前記特徴マップ及び前記属性特徴に基づいて、前記画像の対応するスケールにおける制御マスクを決定し、該制御マスクは、目標顔のアイデンティティ特徴以外の特徴を載せる画素点を表すために用いられ、制御マスクに基づいて、少なくとも1つのスケールの初期属性特徴を選別し、目標属性特徴を得る。
【0049】
例示的に、該コンピュータ機器は、該アイデンティティ特徴を該生成器の各畳み込み層に入力することができる。該コンピュータ機器は、該少なくとも1つのスケールの初期属性特徴を生成器における初期属性特徴のスケールにマッチングする畳み込み層に入力し、ここで、該生成器の各畳み込み層によって出力された特徴マップのスケールが異なり、初期属性特徴のスケールにマッチングする畳み込み層とは、畳み込み層が出力される特徴マップのスケールは、該初期属性特徴のスケールと同じである。例えば、生成器内のある畳み込み層は、前の畳み込み層からの64×64の特徴マップを処理し、128×128の特徴マップを出力するために用いられる場合、128×128の初期属性特性を該畳み込み層に入力することができる。
【0050】
いくつかの実施形態では、生成器において、該コンピュータ機器は、アイデンティティ特徴及び少なくとも1つのスケールの初期属性特徴に基づいて、該目標画像の少なくとも1つのスケールの制御マスクを決定し、該アイデンティティ特徴、少なくとも1つのスケールの制御マスク及び初期属性特徴に基づいて、目標顔交換画像を得ることができる。例示的に、該制御マスクは、目標顔のアイデンティティ特徴以外の特徴を載せる画素点を表し、該コンピュータ機器は、該少なくとも1つのスケールの制御マスク及び初期属性特徴に基づいて、少なくとも1つのスケールの目標属性特徴を決定し、該アイデンティティ特徴及び少なくとも1つのスケールの目標属性特徴に基づいて、該目標顔交換画像を生成することができる。
【0051】
該コンピュータ機器は、生成器の各畳み込み層の層ごとの処理により該目標顔交換画像を得ることができる。1つの可能な例では、該コンピュータ機器は、該生成器の各畳み込み層により、入力されたアイデンティティ特徴及び対応するスケールの初期属性特徴に対して次のステップS1~ステップS4を実行する。
【0052】
ステップS1において、コンピュータ機器は、現在の畳み込み層の前の畳み込み層によって出力された第1特徴マップを取得する。
【0053】
生成器において、各畳み込み層は、前の畳み込み層によって出力された特徴マップを処理して次の畳み込み層に出力することができる。ここで、1番目の畳み込み層の場合、該コンピュータ機器は、初期特徴マップを1番目の畳み込み層に入力することができ、例えば、該初期特徴マップは、4×4×512の全0の特徴ベクトルであってもよい。最後の畳み込み層の場合、該コンピュータ機器は、該最後の畳み込み層によって出力された特徴マップに基づいて、最終的な目標顔交換画像を生成することができる。
【0054】
ステップS2において、コンピュータ機器は、該アイデンティティ特徴及び該第1特徴マップに基づいて第2特徴マップを生成し、該第2特徴マップ及び該初期属性特徴に基づいて、該目標画像の対応するスケールにおける制御マスクを決定する。
【0055】
該制御マスクは、目標顔のアイデンティティ特徴以外の特徴を載せる画素点を表す。
【0056】
いくつかの実施形態では、該コンピュータ機器は、該アイデンティティ特徴に基づいて該現在の畳み込み層の畳み込みカーネルの重みを調整し、該第1特徴マップ及び調整後の畳み込みカーネルに基づいて該第2特徴マップを得る。例示的に、該コンピュータ機器が第2特徴マップを生成するステップは、該コンピュータ機器は、該アイデンティティ特徴に対してアフィン変換を行って第1制御ベクトルを得るステップと、該コンピュータ機器は、該第1制御ベクトルに基づいて該現在の畳み込み層の第1畳み込みカーネルを第2畳み込みカーネルにマッピングし、該第2畳み込みカーネルに基づいて該第1特徴マップに対して畳み込み操作を行い、第2特徴マップを生成するステップと、を含むことができる。例示的に、該アイデンティティ特徴は、アイデンティティ特徴ベクトルの形式で表現されてもよく、アフィン変換は、アイデンティティ特徴ベクトルに対して線形変換及び平行移動を実行して第1制御ベクトルを得る操作を指す。該アフィン変換操作は、平行移動、ズーム、回転、及び反転変換を含むが、これらに限定されなく、該生成器の各畳み込み層は、トレーニング済みのアフィンパラメータマトリックスを含み、該コンピュータ機器は、該アフィンパラメータマトリックスに基づいて、該アイデンティティ特徴ベクトルに対して平行移動、ズーム、回転、反転などの変換を行うことができる。例示的に、該コンピュータ機器は、第1制御ベクトルにより現在の畳み込み層の第1畳み込み層に対して変調操作(Mod)及び復調操作(Demod)を実行し、第2畳み込みカーネルを得ることができる。ここで、変調操作は、現在の畳み込み層の畳み込みカーネルの重みに対するズーム処理であり得、復調操作は、ズーム処理後の畳み込みカーネルの重みに対して正規化処理を行うことであり得、例えば、該コンピュータ機器は、現在の畳み込み層に入力された第1特徴マップに対応するズーム比及び該第1制御ベクトルにより、該畳み込みカーネルの重みに対してズーム処理を行うことができる。
【0057】
いくつかの実施形態では、該コンピュータ機器は、第2特徴マップ及び現在の畳み込み層に入力された対応するスケールの初期属性特徴に基づいて、対応するスケールの制御マスクを得る。該過程は、該コンピュータ機器は、該第2特徴マップ及び該初期属性特徴に対して特徴連結を行い、連結特徴マップを得るステップと、該コンピュータ機器は、予め設定されたマッピング畳み込みカーネル及び活性化関数に基づいて、該連結特徴マップを該制御マスクにマッピングするステップと、を含み得る。例示的に、該制御マスクは、2値化画像であり、該2値化画像において、目標顔のアイデンティティ特徴以外の特徴を載せる画素点、例えば、髪領域の画素点、背景領域の画素点などが1を取り、アイデンティティ特徴を載せる画素点が0を取る。例示的に、該マッピング畳み込みカーネルは、1×1の畳み込みカーネルであってもよく、該活性化関数は、Sigmoid関数であってもよい。例えば、該第2特徴マップ及び該初期属性特徴は、特徴ベクトルの形式で表現されてもよく、該コンピュータ機器は、該第2特徴マップに対応する特徴ベクトル及び該初期属性特徴に対応する特徴ベクトルに対してマージ操作を実行し、該連結ベクトルを得、該連結ベクトルに対して畳み込み操作と活性化操作を実行し、該制御マスクを得ることができる。
【0058】
例示的に、該生成器は複数のブロックを含むことができ、各ブロックは複数の層を含み、コンピュータ機器は、アイデンティティ特徴及び各スケールの初期属性特徴を対応するスケールのブロックに入力し、該ブロックでは、少なくとも1つの層により入力されたアイデンティティ特徴及び初期属性特徴に対して層ごとの処理を行うことができる。例示的に、
図4は、生成器におけるi番目のブロック(i-th GAN block,i番目の対抗ネットワークブロック)のネットワーク構造を示し、ここで、Nは属性注入モジュール(AttrInjection)を表し、右側の破線ボックスは該属性注入モジュールの内部構造を拡大して示す。
図4に示すように、i番目のブロックは2つの層を含み、第1層を例として説明する。
図4において、左側のwはソース画像のアイデンティティ特徴f
idを表し、Aはアフィン変換(Affine Transform)操作を表し、アイデンティティ特徴ベクトルに対してアフィン変換操作を行うことにより、第1制御ベクトルを得る。
図4のMod及びDemodは、畳み込みカーネルConv3×3に対して変調及び復調操作を表し、コンピュータ機器が現在のブロックの現在の層に入力された第1特徴マップに対してアップサンプリング(Upsample)操作を実行した後、Mod及びDemod操作後の畳み込みカーネルConv3×3により、アップサンプリング(Upsample)後の第1特徴マップに対して畳み込み操作を実行し、第2特徴マップを得る。次に、該コンピュータ機器は、該第2特徴マップと現在のブロックに入力された初期属性特徴f
i
attに対して連結(Concat)操作を実行し、畳み込みカーネルConv1×1とSigmoid関数を使用して、連結して得られた連結特徴ベクトルを現在の層に対応する制御マスクM
i,j
attにマッピングする。
【0059】
ステップS3において、コンピュータ機器は、該制御マスクに基づいて該初期属性特徴を選別し、目標属性特徴を得る。
【0060】
該コンピュータ機器は、該制御マスクに対応する特徴ベクトルと初期属性特徴に対応する特徴ベクトルとに対してドット乗算を行い、初期属性特徴における目標属性特徴を選別する。
【0061】
図4に示すように、該コンピュータ機器は、制御マスクM
i,j
att及び初期属性特徴f
idに対してドット乗算を行い、ドット乗算を行って得られた特徴ベクトルと第2特徴マップに対応する特徴ベクトルとを加算し、該目標属性特徴を得ることができる。
【0062】
ステップS4において、コンピュータ機器は、該目標属性特徴及び該第2特徴マップに基づいて、第3特徴マップを生成し、該第3特徴マップを次の畳み込み層の第1特徴マップとして該現在の畳み込み層の次の畳み込み層に出力する。
【0063】
該コンピュータ機器は、第2特徴マップに対応する特徴ベクトルと目標属性特徴に対応する特徴ベクトルとを加算し、該第3特徴マップを得ることができる。
【0064】
説明すべきこととして、生成器に含まれる各畳み込み層について、該コンピュータ機器は、生成器の最後の畳み込み層に対して上記のステップS1~S4を繰り返して実行するまで、上記のステップS1~S4を繰り返して実行し、最後の畳み込み層によって出力された第3特徴マップを得、該最後の畳み込み層によって出力された第3特徴マップに基づいて、目標顔交換画像を生成することができる。
【0065】
図4に示すように、i番目のブロックが2つの層を含む場合、第3特徴マップをi番目のブロックの2番目の層に入力することができ、1番目の層の操作を繰り返し、2番目の層によって得られた特徴マップを次のブロックに出力し、最後のブロックまでこのように循環する。
図3に示すように、該
図3において、Nは属性注入モジュール(AttrInjection module)を表し、破線ボックスはStyleGAN2モデルを採用する生成器(Generator)を表し、該生成器に含まれるN個のブロックに対して、ソース画像X
sのアイデンティティ特徴f
idをそれぞれ入力し、属性注入モジュールにより対応する初期属性特徴f
1
att、f
2
att、...、f
i
att、...、f
N-1
att、f
N
attをそれぞれ対応してN個のブロックに入力し、最後のブロックによって出力された特徴を取得するまで、各ブロックにおいて上記のステップS1~S4の過程を実行し、最後のブロックによって出力された特徴マップに基づいて、最終的な目標顔交換画像Y
s,tを生成し、それによって顔交換を完了する。
【0066】
図5は、本出願の実施形態による顔交換モデルのトレーニング方法の模式的フローチャートであり、該方法の実行主体はコンピュータ機器であってもよく、
図5に示すように、該方法は、
ステップ501において、コンピュータ機器は、サンプル画像ペアにおけるサンプルソース画像のサンプルアイデンティティ特徴と、サンプル画像ペアにおけるサンプル目標画像の少なくとも1つのスケールのサンプル初期属性特徴とを取得する。
【0067】
実際の応用において、コンピュータ機器は、サンプルデータセットを取得し、該サンプルデータセットは、少なくとも1つのサンプル画像ペアを含み、コンピュータ機器は、サンプルデータセットにより顔交換モデルをトレーニングする。ここで、各サンプル画像ペアは、1つのサンプルソース画像と1つのサンプル目標画像とを含む。いくつかの実施形態では、該サンプル画像ペアは、第1サンプル画像ペアと第2サンプル画像ペアとを含むことができ、第1サンプル画像ペアは、同じ対象に属するサンプルソース画像とサンプル目標画像とを含み、第2サンプル画像ペアは、異なる対象に属するサンプルソース画像とサンプル目標画像とを含む。例えば、該サンプル画像ペアは、対象Aの1枚のソース画像Xsと1枚の目標画像Xtとからなる第1サンプル画像ペア、及び対象Aの1枚のソース画像Xsと対象Bの1枚の目標画像Xtとからなる第2サンプル画像ペアを含む。第1サンプル画像ペア及び第2サンプル画像ペアは、いずれも真値ラベルがマークされ、該真値ラベルは、対応するソース画像及び目標画像が同じ対象であるかどうかを表す。
【0068】
ここで、サンプルソース画像のサンプルアイデンティティ特徴及びサンプル目標画像のサンプル初期属性特徴を取得することは、初期顔交換モデルにより実現され得る。いくつかの実施形態では、初期顔交換モデルは、初期のアイデンティティ認識ネットワーク及び属性特徴マップ抽出ネットワークを含むことができ、該コンピュータ機器は、初期のアイデンティティ認識ネットワーク及び属性特徴マップ抽出ネットワークにより、該サンプルソース画像のサンプルアイデンティティ特徴及びサンプル目標画像の少なくとも1つのスケールのサンプル初期属性特徴をそれぞれ抽出することができる。説明すべきこととして、ここで、サンプルアイデンティティ特徴及びサンプル初期属性特徴を取得する実施形態は、上記ステップ201でアイデンティティ特徴及び初期属性特徴を取得する方法と同様の過程であり、ここでは繰り返して説明しない。
【0069】
ステップ502において、コンピュータ機器は、該初期顔交換モデルの生成器により、サンプルアイデンティティ特徴及び少なくとも1つのスケールのサンプル初期属性特徴に対して、反復して特徴融合を行い、サンプル融合特徴を得、サンプル融合特徴に基づいて、初期顔交換モデルの生成器によりサンプル生成画像を生成する。
【0070】
いくつかの実施形態では、初期顔交換モデルの生成器は、サンプルソース画像のサンプルアイデンティティ特徴及びサンプル目標画像の少なくとも1つのスケールのサンプル初期属性特徴に基づいて、少なくとも1つのスケールのサンプルマスクを決定し、該サンプルアイデンティティ特徴、少なくとも1つのスケールのサンプルマスク及びサンプル初期属性特徴に基づいて、サンプル画像ペアに対応するサンプル生成画像を生成する。
【0071】
該生成器は、複数の畳み込み層を含み、各サンプル画像ペアに対して、該コンピュータ機器は、サンプルアイデンティティ特徴を各畳み込み層に入力し、少なくとも1つのスケールのサンプル初期属性特徴をサンプル初期属性特徴のスケールにマッチングする畳み込み層に入力し、各畳み込み層の層ごとの処理により、該サンプル生成画像を得る。
【0072】
例示的に、該コンピュータ機器は、該生成器の各畳み込み層により、入力されたサンプルアイデンティティ特徴及び対応するスケールのサンプル初期属性特徴に対して以下のステップを実行することができる。コンピュータ機器は、現在の初期畳み込み層の前の初期畳み込み層によって出力された第1サンプル特徴マップを取得し、該サンプルアイデンティティ特徴及び該第1サンプル特徴マップに基づいて、第2サンプル特徴マップを生成し、該第2サンプル特徴マップ及び該サンプル初期属性特徴に基づいて、該サンプル目標画像の対応するスケールにおけるサンプルマスクを決定し、コンピュータ機器は、該サンプルマスクに基づいて、該サンプル初期属性特徴を選別し、サンプル目標属性特徴を得る。コンピュータ機器は、該サンプル目標属性特徴及び該第2サンプル特徴マップに基づいて、第3サンプル特徴マップを生成し、該第3サンプル特徴マップを次の畳み込み層の第1サンプル特徴マップとして該現在の畳み込み層の次の畳み込み層に出力する。生成器の最後の畳み込み層に対して上記のステップを繰り返して実行するまで、このように循環して、最後の畳み込み層によって出力された第3特徴マップを得、該最後の畳み込み層によって出力された第3特徴マップに基づいて、サンプル生成画像を得る。
【0073】
説明すべきこととして、モデルトレーニング段階において、各畳み込み層によって実行されたステップは、トレーニング済みの顔交換モデルの生成器における各畳み込み層によって実行されたステップ(即ち、上記のステップS1-S4)と同様の過程であり、ここでは繰り返して説明しない。
【0074】
ステップS503において、コンピュータ機器は、初期顔変換モデルの判別器により、サンプル生成画像及びサンプルソース画像を判別し、判別結果を得る。
【0075】
ここで、サンプル画像ペアにおけるサンプルソース画像及びサンプル生成画像を該初期顔変換モデルの判別器に入力し、判別器による該サンプルソース画像と該サンプル生成画像のそれぞれの判別結果を得る。
【0076】
該初期顔変換モデルは、判別器をさらに含むことができ、各サンプル画像ペアに対して、該コンピュータ機器は、該サンプルソース画像及びサンプル生成画像を判別器に入力し、該判別器により該サンプルソース画像に対する第1判別結果、及び該サンプル生成画像に対する第2判別結果を出力する。ここで、該第1判別結果は、該サンプルソース画像が実画像である確率を表すことができ、該第2判別結果は、該サンプル生成画像が実画像である確率を表すことができる。
【0077】
いくつかの実施形態では、該判別器は、少なくとも1つの畳み込み層を含む。各畳み込み層は、判別器の前の畳み込み層によって出力された判別特徴マップを処理し、判別器の次の畳み込み層に出力するために用いられることができる。各畳み込み層は、判別器の最後の畳み込み層まで、サンプルソース画像に対して特徴抽出を行う判別特徴マップと、サンプル生成画像に対して特徴抽出を行う判別特徴マップとを出力し、最後の畳み込み層によって出力されたサンプルソース画像の判別特徴マップに基づいて、第1判別結果を得、最後の畳み込み層によって出力されたサンプル生成画像の判別特徴マップに基づいて、第2判別結果を得ることができる。
【0078】
ステップS504において、コンピュータ機器は、判別結果に基づいて初期顔変換モデルの損失を決定し、損失に基づいて前記初期顔変換モデルをトレーニングし、顔変換モデルを得る。
【0079】
各サンプル画像ペアに対して、コンピュータ機器は、サンプル画像ペアにおけるサンプル目標画像の少なくとも1つのスケールのサンプルマスクに基づいて、第1損失値を決定し、判別器によるサンプルソース画像とサンプル生成画像のそれぞれの判別結果(即ち、第1判別結果及び第2判別結果)に基づいて、第2損失値を決定し、次に、第1損失値と第2損失値に基づいて、トレーニング総損失を得、トレーニング総損失に基づいて、目標条件に合致するまで初期顔変換モデルをトレーニングし、目標条件に合致する時に、トレーニングを停止し、顔変換モデルを得る。
【0080】
実際の応用において、コンピュータ機器は、少なくとも1つのスケールのサンプルマスクを累加し、少なくとも1つのスケールのサンプルマスクに対応する累加値を該第1損失値とすることができる。例えば、該サンプルマスクは、2値化画像であり得、該コンピュータ機器は、2値化画像内の各画素点の値を累加して各サンプルマスクに対応する第1和値を得、少なくとも1つのスケールのサンプルマスクに対応する第1和値を累加して第1損失値を得ることができる。
【0081】
例示的に、該生成器が少なくとも1つの初期ブロックを含み、各初期ブロックが少なくとも1つの層を含むことを例として、各サンプル画像ペアに対して、該コンピュータ機器は、該各サンプル画像ペアにおけるサンプル目標画像の少なくとも1つのスケールのサンプルマスクに基づいて、次の式1により、第1損失値を決定することができる。
式1:Lmask=Σi,j|Mi,j|1
【0082】
ここで、Lmaskは、第1損失値を表し、iは、生成器のi番目のブロックを表し、jは、i番目のブロックのj番目の層を表し、Mi,jはi番目のブロックのj番目の層のサンプルマスクを表す。該コンピュータ機器は、上記の式1により、少なくとも1つのブロックの少なくとも1つの層のサンプルマスクを累加し、トレーニング段階では、第1損失値Lmaskを最小化ことにより、生成器をトレーニングし、取得された制御マスクがアイデンティティ特徴以外のキー属性特徴の画素点を効果的に表すことができ、次いで制御マスクにより初期属性特徴におけるキー属性特徴を選別し、初期属性特徴における冗長特徴を濾過し、初期属性特徴におけるキー特徴、必要特徴を保留することができ、それによって冗長属性を回避し、最終的に生成された顔交換画像の正確性を向上させることができる。
【0083】
説明すべきこととして、異なるスケールの2値化画像によって表された目標顔のアイデンティティ特徴以外の特徴を載せる画素点の細分化程度は異なる。
図6は、3つの目標画像のそれぞれに対応する異なるスケールのサンプルマスクを示し、各行のサンプルマスクは、そのうちの1つの目標画像に対応する各スケールのサンプルマスクである。
図6に示すように、いずれかの目標画像に対して、左から右までの各サンプルマスクの解像度が順次増加し、1行目における各スケールのサンプルマスク変化を例として、4×4、8×8、16×16、32×32から、目標画像内の顔の位置を次第に明瞭に位置決め、ここで、顔領域に対応する画素点が0を取り、顔領域以外の背景領域に対応する画素点が1を取る。64×64、128×128、256×256、512×512、1024×1024から、目標画像内の顔の姿勢表情を次第に明瞭にし、目標画像内の顔の細部を次第に体現する。
【0084】
例示的に、該コンピュータ機器は、次の式2により、該判別器による該サンプルソース画像と該サンプル生成画像のそれぞれの判別結果に基づいて、第2損失値を決定することができる。
式2:LGAN=minG maxDE[log(D(Xs))]+E[log(1-D(Ys,t))]
【0085】
ここで、LGANは、第2損失値を表し、D(Xs)は、判別器によるサンプルソース画像の第1判別結果を表し、該第1判別結果は、サンプルソース画像Xsが実画像である確率であり得、D(Ys,t)は、判別器によるサンプル生成画像Ys,tの第2判別結果を表し、該第2判別結果は、サンプル生成画像が実画像である確率であり得、E[log(D(Xs))]は、log(D(Xs))に対する期待であり、判別器の損失値を表すことができ、E[log(1-D(Ys,t))]は、log(1-D(Ys,t))に対する期待であり、生成器の損失値を表すことができ、minGは、生成器が期待する最小化損失関数値を表し、maxDは、判別器の最大化損失関数値を表す。説明すべきこととして、該初期顔変換モデルは生成器と判別器とを含み、対抗ネットワークであってもよく、対抗ネットワークは、生成器と判別器とを互いにゲームさせることで学習し、期待された機械学習モデルを得、非監督式学習方法である。生成器のトレーニング目標は入力に基づいて期待された出力を得ることである。判別器のトレーニング目標は、生成器によって生成された画像をできるだけ実画像と区別することである。判別器の入力は、サンプルソース画像と生成器によって生成されたサンプル生成画像を含む。2つのネットワークモデルは互いに対抗して学習し、パラメータを絶えず調整し、最終的な目標は、生成器ができるだけ判別器をだますことで、判別器が生成器によって生成された画像が真実であるかどうかを判断することができないことである。
【0086】
いくつかの実施形態では、該コンピュータ機器は、第1損失値と第2損失値の和の値を該トレーニング総損失とすることができる。
【0087】
いくつかの実施形態では、該コンピュータ機器は、さらに同じ対象のサンプル画像に基づいてトレーニングを行うことができ、コンピュータ機器がトレーニング総損失を決定する前に、該コンピュータ機器は、第1サンプル画像ペアにおけるサンプル生成画像及びサンプル目標画像に基づいて該第1サンプル画像ペアに対応する第3損失値を取得する。該コンピュータ機器がトレーニング総損失を決定するステップは、該コンピュータ機器は、該第1サンプル画像ペアに対応する第3損失値、該サンプル画像ペアに対応する第1損失値及び第2損失値に基づいて、該トレーニング総損失を得るステップを含むことができる。
【0088】
例示的に、該コンピュータ機器は、次の式3により、第1サンプル画像ペアにおけるサンプル生成画像及びサンプル目標画像に基づいて第3損失値を取得することができる。
式3:Lrec=|Ys,t-Xt|1
【0089】
ここで、Lrecは、第3損失値を表し、Ys,tは、第1サンプル画像ペアに対応するサンプル生成画像を表し、Xtは、該第1サンプル画像ペアにおけるサンプル目標画像を表す。説明すべきこととして、サンプルソース画像とサンプル目標画像が同じ対象に属する場合、顔交換結果をサンプル目標画像と同じに拘束することで、トレーニングされた顔交換モデルが同じ対象の画像に対して顔交換を行う際に、生成された顔交換画像が目標画像に近く、モデルトレーニングの正確性を向上させることができる。
【0090】
いくつかの実施形態では、該判別器は、少なくとも1つの畳み込み層を含む。該コンピュータ機器は、判別器の各畳み込み層の出力結果に基づいて損失計算を行うことができ、トレーニング総損失を決定する前に、各サンプル画像ペアに対して、該コンピュータ機器は、第1判別特徴マップの非顔領域と第2判別特徴マップの非顔領域との間の第1類似度を決定し、該第1判別特徴マップは、少なくとも1つの畳み込み層のうちの第1部分畳み込み層によって出力されたサンプル目標画像に対応する特徴マップであり、該第2判別特徴マップは、該第1部分畳み込み層によって出力されたサンプル生成画像に対応する特徴マップである。コンピュータ機器は、第3判別特徴マップと第4判別特徴マップとの間の第2類似度を決定し、該第3判別特徴マップは、畳み込み層のうちの第2部分畳み込み層によって出力されたサンプル目標画像の特徴マップであり、該第4判別特徴マップは、該第2部分畳み込み層によって出力されたサンプル生成画像の特徴マップである。コンピュータ機器は、各サンプル画像ペアに対応する第1類似度及び第2類似度に基づいて、第4損失値を決定する。該トレーニング総損失を決定するステップは、該コンピュータ機器は、第1損失値、第2損失値及び該第4損失値に基づいて、該トレーニング総損失を得るステップを含むことができる。
【0091】
例示的に、該コンピュータ機器は、トレーニング済みの分割モデルにより、該第1類似度を決定することができる。例えば、該コンピュータ機器は、該分割モデルにより、第1判別特徴マップ又は第2判別特徴マップの分割マスクを取得し、分割マスクに基づいて、第1判別特徴マップの非顔領域と第2判別特徴マップの非顔領域との間の第1類似度を決定することができる。ここで、分割マスクは、第1判別特徴マップ又は第2判別特徴マップの2値化画像であってもよく、2値化画像において、非顔領域に対応する画素点の値が1であり、非顔領域以外の領域に対応する画素点の値が0であり、それによって、顔以外の背景領域を効果的に抽出する。
【0092】
例示的に、該コンピュータ機器は、次の式4により、サンプル画像ペアに対応する第3損失値を決定することができる。
【数1】
【0093】
ここで、LFMは、第4損失値を表し、Mbgは、分割マスクを表し、判別器はM個の畳み込み層を含み、1番目からm番目までの畳み込み層は第1部分畳み込み層であり、m番目からM番目までの畳み込み層は第2部分畳み込み層である。Di(Xt)は、第1部分畳み込み層内のi番目の畳み込み層によって出力されたサンプル目標画像の特徴マップを表し、Di(Ys,t)は、第1部分畳み込み層内のi番目の畳み込み層によって出力されたサンプル生成画像の特徴マップを表し、Dj(Xt)は、第2部分畳み込み層内のj番目の畳み込み層によって出力されたサンプル目標画像の特徴マップを表し、Dj(Ys,t)は、第2部分畳み込み層内のj番目の畳み込み層によって出力されたサンプル生成画像の特徴マップを表す。説明すべきこととして、該mの値は0以上M以下の正の整数であり、mの値は必要に応じて設定されてもよく、本出願はこれに対して限定しない。
【0094】
いくつかの実施形態では、該コンピュータ機器は、さらに各画像に基づくアイデンティティ特徴間の類似状況をそれぞれ取得し、損失計算を行うことができる。例示的に、トレーニング総損失を決定する前に、各サンプル画像ペアに対して、該コンピュータ機器は、サンプルソース画像の第1アイデンティティ特徴、サンプル目標画像の第2アイデンティティ特徴、及びサンプル生成画像の第3アイデンティティ特徴をそれぞれ抽出することができ、該第1アイデンティティ特徴と第3アイデンティティ特徴とに基づいて、該サンプルソース画像と該サンプル生成画像との間の第1アイデンティティ類似度を決定する。該コンピュータ機器は、該第2アイデンティティ特徴と第3アイデンティティ特徴とに基づいて、該サンプル生成画像とサンプル目標画像との間の第1アイデンティティ距離を決定し、該第1アイデンティティ特徴と該第2アイデンティティ特徴とに基づいて、該サンプルソース画像とサンプル目標画像との間の第2アイデンティティ距離を決定し、該コンピュータ機器は、該第1アイデンティティ距離と該第2アイデンティティ距離とに基づいて、距離差異を決定する。該コンピュータ機器は、各サンプル画像ペアに対応する第1アイデンティティ類似度と距離差異とに基づいて、サンプル画像ペアに対応する第5損失値を決定する。該コンピュータ機器がトレーニング総損失を決定するステップは、該コンピュータ機器は、第1損失値、第2損失値及び第5損失値に基づいて、該トレーニング総損失を得るステップを含むことができる。
【0095】
例示的に、該コンピュータ機器は、次の式5により第5損失値を決定することができる。
式5:
LICL=1-cos(zid(Ys,t),zid(Xs))+(cos(zid(Ys,t),zid(Xt))-cos(zid(Xs),zid(Xt)))2
【0096】
ここで、LICLは、第5損失値を表し、zid(Xs)は、サンプルソース画像の第1アイデンティティ特徴を表し、zid(Xt)は、サンプル目標画像の第2アイデンティティ特徴を表し、zid(Ys,t)は、サンプル生成画像の第3アイデンティティ特徴を表し、1-cos(zid(Ys,t),zid(Xs))は、サンプルソース画像とサンプル生成画像との間の第1アイデンティティ類似度を表し、cos(zid(Ys,t),zid(Xt))は、サンプル生成画像とサンプル目標画像との間の第1アイデンティティ距離を表し、cos(zid(Xs),zid(Xt))は、サンプルソース画像とサンプル目標画像との間の第2アイデンティティ距離を表し、(cos(zid(Ys,t),zid(Xt))-cos(zid(Xs),zid(Xt)))2は、距離差異を表す。
【0097】
説明すべきこととして、該第1アイデンティティ距離と第2アイデンティティ距離により該距離差異を決定し、第2アイデンティティ距離によって該サンプルソース画像とサンプル目標画像との間の距離を測定するため、該距離差異を最小化することにより、第1アイデンティティ距離、即ちサンプル生成画像とサンプル目標画像との間に一定の距離を持たせ、該距離はサンプルソース画像とサンプル目標画像との間の距離に相当する。第1アイデンティティ類似度により、生成された画像が目標画像のアイデンティティ特徴を持つことを保証し、それによってモデルトレーニングの正確性を向上させ、顔交換の正確性を向上させる。
【0098】
該トレーニング総損失は以上の5つの損失値を含むことを例として、該コンピュータ機器は、次の式6により該トレーニング総損失を決定することができる。
式6:Ltotal=LGAN+Lmask+LFM+10*Lrec+5*LICL
【0099】
ここで、Ltotalは、トレーニング総損失を表し、LGANは、第2損失値を表し、Lmaskは、第1損失値を表し、LFMは、第4損失値を表し、Lrecは、第3損失値を表し、LICLは、第5損失値を表す。
【0100】
実際の応用において、コンピュータ機器は、トレーニング総損失に基づいて、目標条件に合致するまで初期顔変換モデルをトレーニングし、目標条件に合致する時に、トレーニングを停止し、顔変換モデルを得る。
【0101】
説明すべきこととして、該コンピュータ機器は、以上のステップ501~ステップ504に基づいて、初期顔変換モデルに対して反復トレーニングを行い、各反復トレーニングに対応するトレーニング総損失を得、各反復トレーニングのトレーニング総損失に基づいて、該初期顔変換モデルのパラメータを調整し、例えば、該トレーニング総損失が目標条件に合致するまで、初期顔変換モデルにおけるエンコーダ、デコーダ、生成器、判別器などに含まれるパラメータを最適化し、目標条件に合致する時に、該コンピュータ機器はトレーニングを停止し、最後の最適化で得られた初期顔変換モデルを顔変換モデルとすることができる。例えば、該コンピュータ機器は、Adamアルゴリズム最適化器を使用して、0.0001の学習率で、目標条件に達するまで、該初期顔変換モデルに対して反復トレーニングを行うことができ、目標条件に達する時に、トレーニングが収束に達したと見なし、トレーニングを停止する。例えば、該目標条件は、総損失の数値が目標数値範囲内にあること、例えば、総損失が0.5未満であることであってもよく、又は、該目標条件は、複数回の反復トレーニングに費やされた時間が最大時間長を超えることであってもよい。
【0102】
図3は、本出願の実施形態による顔交換モデルのフレームワーク模式図である。該コンピュータ機器は、対象Aの顔画像をソース画像X
sとし、対象Bの顔画像を目標画像X
tとすることができる。該コンピュータ機器は、固定顔認識ネットワーク(Fixed FR Net)によりソース画像のアイデンティティ特徴f
idを取得し、該コンピュータ機器は、該アイデンティティ特徴f
idを生成器に含まれるN個のブロックにそれぞれ入力する。該コンピュータ機器は、U型深層ネットワーク構造のエンコーダ及びデコーダにより、該目標画像の少なくとも1つのスケールの初期属性特徴f
1
att、f
2
att、...、f
i
att、...、f
N-1
att、f
N
attを取得して対応するスケールのブロックにそれぞれ入力する。該コンピュータ機器は、最後のブロックによって出力された特徴マップを得るまで、各ブロックに対して上記のステップS1~S4の過程を実行し、該コンピュータ機器は、最後のブロックによって出力された特徴マップに基づいて最終的な目標顔交換画像Y
s,tを生成し、それによって顔交換を完了する。
【0103】
説明すべきこととして、本出願の画像処理方法により、高解像度の顔変換を実現し、例えば10242のような高解像度の顔変換画像を生成することができ、同時に、生成された高解像度の顔変換画像は比較的高い画質、及びソース画像内のソース顔のアイデンティティとの一致性を両立させ、目標画像内の目標顔のキー属性を効果的に高精度に保留する。関連技術における方法Aは、2562などの低解像度の顔変換画像しか生成できず、本出願の画像処理方法により、生成器の各畳み込み層において少なくとも1つのスケールの初期属性特徴とアイデンティティ特徴を処理し、少なくとも1つのスケールの制御マスクを使用して初期属性特徴を選別することにより、得られた目標属性特徴に目標顔アイデンティティ特徴などの冗長情報が効果的に濾過され、目標顔のキー属性特徴を効果的に保留する。そして、該少なくとも1つのスケールの初期属性特徴は異なるスケールの特徴に突出して対応し、比較的大きいスケールの初期属性特徴が比較的大きいスケールの制御マスクに対応することにより、キー属性に対する高より明瞭な選別を実現することができ、それによって目標顔の髪の毛、しわ、顔の遮蔽などの顔の細部特徴を高精度に保留し、生成された顔交換画像の精度と明瞭度を大幅に向上させ、顔交換画像の真実性を向上させる。
【0104】
また、本出願の画像処理方法は、顔交換後の顔交換画像全体を直接生成することができ、該顔交換画像全体は、顔交換後の顔と背景領域とを含み、関連技術における融合又は補強などの処理を必要としなく、顔交換過程の処理効率を大幅に向上させる。
【0105】
また、本出願の顔交換モデルトレーニング方法は、モデルトレーニング時に初期顔交換モデルにおけるサンプル生成画像を生成するための生成フレームワーク全体に対して端対端のトレーニングを行うことができ、多段階トレーニングによる誤りの蓄積を回避することで、本出願によってトレーニングされた顔交換モデルは、顔交換画像をより安定的に生成し、顔交換過程の安定性及び信頼性を向上させることができる。
【0106】
また、本出願の画像処理方法は、より高解像度の顔交換画像を生成することができ、しかも目標画像内の目標顔のテクスチャ質感、皮膚輝度、髪の毛などの細部を正確に保留し、顔交換の精度、明瞭度及び真実性を向上させ、ゲーム又は映画やテレビなどの顔交換の品質により高い要求があるシナリオに適用され得る。そして、アバターメンテナンスシナリオに対して、本出願の画像処理方法は、任意の対象の顔を任意の対象の顔に置き換える顔交換を実現することができ、特定のアバターに対して、該特定のアバターの顔を任意の対象の顔画像に入れ替えることで、アバターに対するメンテナンスが容易になり、アバターメンテナンスの利便性が向上する。
【0107】
以下に、本出願の画像処理方法を使用した顔交換結果と関連技術の顔交換結果を対比して示す。対比から分かるように、本出願の画像処理方法によって生成された高解像度の顔交換結果は定性と定量対比において、いずれも関連技術より明らかな優位性を示す。
【0108】
図7に示すように、
図7は、関連技術におけるいくつかの方法(以下、方法Aと称する)と、本出願で提案されたスキームの高解像度の顔交換結果との対比を示す。対比から分かるように、方法Aは明らかな皮膚輝度の不一致問題を発生し、しかも顔の髪の毛の遮蔽を保留できない。本出願で提案されたスキームによって生成された結果は、目標顔の皮膚輝度、表情、皮膚テクスチャ、遮蔽などの属性特徴を保留し、しかもより良い画質を持ち、真実性もある。
【0109】
以下の表1において、関連技術における方法Aと本出願で提案されたスキームの高解像度の顔交換結果との定量対比を示す。表1の実験データは、生成された顔交換画像における顔とソース画像における顔とのアイデンティティ類似度(ID Retrieval)、顔交換画像における顔と目標画像における顔との姿勢差異(Pose Error)、及び顔交換画像における顔と実顔画像のピクチャ品質差異(FID)を比較する。表1の実験データから分かるように、本出願で提案されたスキームの高解像度の顔交換結果のアイデンティティ類似度は関連技術における方法Aより明らかに高い。本出願で提案されたスキームの高解像度の顔交換結果の姿勢差異は関連技術における方法Aより低く、本出願のスキームの姿勢差異はより低い。本出願で提案されたスキームの高解像度の顔交換結果のピクチャ品質差異は関連技術における方法Aより明らかに低く、本出願のスキームで得られた顔交換画像と実画像のピクチャ品質差異は小さい。したがって、本出願で提案されたスキームは、画像品質、ソース顔とのアイデンティティ一致性、及び目標顔に対する属性保留を両立させ、関連技術における方法Aに対して顕著な優位性を持つ。
【0110】
【0111】
本出願の実施形態の画像処理方法では、ソース画像のアイデンティティ特徴と、目標画像の少なくとも1つのスケールの初期属性特徴とを取得し、該アイデンティティ特徴をトレーニング済みの顔交換モデル内の生成器に入力し、該少なくとも1つのスケールの初期属性特徴をそれぞれ該生成器内の対応するスケールの畳み込み層に入力し、目標顔交換画像を得る。該生成器の各畳み込み層において、アイデンティティ特徴と前の畳み込み層によって出力された第1特徴マップに基づいて、第2特徴マップを生成し、第2特徴マップと初期属性特徴とに基づいて、該目標画像の対応するスケールの制御マスクを決定することにより、目標画像内の目標顔のアイデンティティ特徴以外の特徴を載せる画素点を正確に位置決めすることができる。該制御マスクに基づいて初期属性特徴内の目標属性特徴を選別し、該目標属性特徴と該第2特徴マップとに基づいて、第3特徴マップを生成して次の畳み込み層に出力し、少なくとも1つの畳み込み層の層ごとの処理により、最終的な目標顔交換画像に目標顔の属性と細部特徴とを効果的に保留することを保証し、顔交換画像内の顔の明瞭度を大幅に向上させ、高解像度の顔交換を実現し、顔交換の精度を向上させる。
【0112】
図8は、本出願の実施形態による画像処理装置の構造的模式図である。
図8に示すように、該画像処理装置は、
受信した顔交換要求に応答して、ソース画像のアイデンティティ特徴及び目標画像の少なくとも1つのスケールの初期属性特徴を取得するように構成される特徴取得モジュール801であって、該顔交換要求は、該目標画像内の目標顔を該ソース画像内のソース顔に置き換えることを要求するために用いられ、該アイデンティティ特徴は、該ソース顔が属する対象を表し、該初期属性特徴は、該目標顔の3次元属性を表す、特徴取得モジュール801と、
前記アイデンティティ特徴及び前記少なくとも1つのスケールの初期属性特徴を顔交換モジュール内の顔交換モデルに入力するステップと、
前記顔交換モデルにより、前記アイデンティティ特徴及び前記少なくとも1つのスケールの初期属性特徴に対して、反復して特徴融合を行い、融合特徴を得るステップと、
前記融合特徴に基づいて、前記顔交換モデルにより目標顔交換画像を生成し、前記目標顔交換画像を出力するステップであって、前記目標顔交換画像内の顔は、前記ソース顔のアイデンティティ特徴と前記目標顔の目標属性特徴とを融合したものである、ステップと、を実行するように構成される、顔交換モジュール802と、を備える。
【0113】
いくつかの実施形態では、前記顔交換モデルは、少なくとも1つの畳み込み層を含み、各前記畳み込み層は1つの前記スケールに対応し、顔交換モジュール802の畳み込み層は、取得ユニット、生成ユニット及び属性選別ユニットを含み、
取得ユニットは、現在の畳み込み層の前の畳み込み層によって出力された第1特徴マップを取得するように構成され、
生成ユニットは、該アイデンティティ特徴及び該第1特徴マップに基づいて、第2特徴マップを生成するように構成され、
属性選別ユニットは、前記少なくとも1つのスケールの初期属性特徴から、目標属性特徴を選別するように構成され、前記目標属性特徴は、前記目標顔のアイデンティティ特徴以外の特徴であり、
該生成ユニットは、さらに、該目標属性特徴及び該第2特徴マップに基づいて、第3特徴マップを生成し、該第3特徴マップを次の畳み込み層の第1特徴マップとして該現在の畳み込み層の次の畳み込み層に入力し、
前記少なくとも1つの畳み込み層のうち最後の畳み込み層によって出力された第3特徴マップを前記融合特徴として決定するように構成される。
【0114】
いくつかの実施形態では、顔交換モジュール802の畳み込み層は、
前記第2特徴マップ及び前記初期属性特徴に基づいて、対応するスケールでの前記目標画像の制御マスクを決定するように構成される制御マスク決定ユニットをさらに含み、
前記制御マスクは、目標顔のアイデンティティ特徴以外の特徴を載せる画素点を表すために用いられ、
生成ユニットは、さらに、前記制御マスクに基づいて、前記少なくとも1つのスケールの初期属性特徴を選別し、目標属性特徴を得るように構成される。
【0115】
いくつかの実施形態では、制御マスク決定ユニットは、さらに、
前記第2特徴マップ及び前記初期属性特徴に対して特徴連結を行い、連結特徴マップを得、
予め設定されたマッピング畳み込みカーネル及び活性化関数に基づいて、前記連結特徴マップを前記制御マスクにマッピングするように構成される。
【0116】
いくつかの実施形態では、前記初期属性特徴及び前記畳み込み層の数は、いずれも目標数であり、前記目標数の畳み込み層は直列に接続され、異なる前記初期属性特徴は異なる前記スケールに対応し、各前記畳み込み層は1つの前記スケールの初期属性特徴に対応し、前記目標数は2以上であり、
取得ユニットは、さらに、前記現在の畳み込み層が前記目標数の畳み込み層のうちの1番目の畳み込み層である場合、初期特徴マップを取得し、前記初期特徴マップを現在の畳み込み層に入力される第1特徴マップとして使用するように構成される。
【0117】
いくつかの実施形態では、該生成ユニットは、さらに、該アイデンティティ特徴に対してアフィン変換を行い、第1制御ベクトルを得、該第1制御ベクトルに基づいて、該現在の畳み込み層の第1畳み込みカーネルを第2畳み込みカーネルにマッピングし、該第2畳み込みカーネルに基づいて、該第1特徴マップに対して畳み込み操作を行い、第2特徴マップを生成するように構成される。
【0118】
いくつかの実施形態では、該画像処理装置は、顔交換モデルをトレーニングする場合、
サンプルデータセットを取得するように構成されるサンプル取得モジュールであって、該サンプルデータセットは、少なくとも1つのサンプル画像ペアを含み、各サンプル画像ペアは、1つのサンプルソース画像と1つのサンプル目標画像とを含む、サンプル取得モジュールと、
サンプル画像ペアにおけるサンプルソース画像のサンプルアイデンティティ特徴と、前記サンプル画像ペアにおけるサンプル目標画像の少なくとも1つのスケールのサンプル初期属性特徴とを取得するように構成されるサンプル特徴取得モジュールと、
該初期顔交換モデルの生成器により、前記サンプルアイデンティティ特徴及び前記少なくとも1つのスケールのサンプル初期属性特徴に対して、反復して特徴融合を行い、サンプル融合特徴を得、前記サンプル融合特徴に基づいて、前記初期顔交換モデルの生成器によりサンプル生成画像を生成するように構成される生成モジュールと、
前記初期顔変換モデルの判別器により、前記サンプル生成画像及び前記サンプルソース画像を判別し、判別結果を得るように構成される判別モジュールと、
前記判別結果に基づいて前記初期顔変換モデルの損失を決定するように構成される損失決定モジュールと、
前記損失に基づいて前記初期顔変換モデルをトレーニングし、前記顔変換モデルを得るように構成されるトレーニングモジュールと、をさらに備える。
【0119】
いくつかの実施形態では、前記判別結果は、前記サンプルソース画像に対する第1判別結果及び前記サンプル生成画像に対する第2判別結果を含み、
損失決定モジュールは、さらに、各サンプル画像ペアにおけるサンプル目標画像の少なくとも1つのスケールのサンプルマスクを取得し、該少なくとも1つのスケールのサンプルマスクに基づいて、第1損失値を決定し、第1判別結果及び前記第2判別結果に基づいて、第2損失値を決定するように構成され、
トレーニングモジュールは、さらに、前記トレーニング総損失に基づいて、目標条件に合致するまで前記初期顔変換モデルをトレーニングし、前記目標条件に合致する時に、トレーニングを停止し、前記顔変換モデルを得るように構成される。
【0120】
いくつかの実施形態では、前記サンプルソース画像及び前記サンプル目標画像は、同じ対象に対応し、
該損失決定モジュールは、さらに、サンプル生成画像及びサンプル目標画像に基づいて、第3損失値を取得し、第3損失値、第1損失値及び第2損失値に基づいて、該トレーニング総損失を得るように構成される。
【0121】
いくつかの実施形態では、該判別器は、少なくとも1つの畳み込み層を含み、該損失決定モジュールは、さらに、
各サンプル画像ペアに対して、第1判別特徴マップの非顔領域と第2判別特徴マップの非顔領域との間の第1類似度を決定するステップであって、該第1判別特徴マップは、少なくとも1つの畳み込み層のうちの第1部分畳み込み層によって出力されたサンプル目標画像の特徴マップであり、該第2判別特徴マップは、該第1部分畳み込み層によって出力されたサンプル生成画像の特徴マップである、ステップと、
第3判別特徴マップと第4判別特徴マップとの間の第2類似度を決定するステップであって、該第3判別特徴マップは、少なくとも1つの畳み込み層のうちの第2部分畳み込み層によって出力されたサンプル目標画像の特徴マップであり、該第4判別特徴マップは、該第2部分畳み込み層によって出力されたサンプル生成画像の特徴マップである、ステップと、
第1類似度及び第2類似度に基づいて、第4損失値を決定するステップと、
第1損失値、第2損失値及び該第4損失値に基づいて、該トレーニング総損失を得るステップと、を実行するように構成される。
【0122】
いくつかの実施形態では、該損失決定モジュールは、さらに、
各サンプル画像ペアに対して、サンプルソース画像の第1アイデンティティ特徴、サンプル目標画像の第2アイデンティティ特徴、及びサンプル生成画像の第3アイデンティティ特徴を抽出するステップと、
該第1アイデンティティ特徴及び該第3アイデンティティ特徴に基づいて、該サンプルソース画像と該サンプル生成画像との間の第1アイデンティティ類似度を決定するステップと、
該第2アイデンティティ特徴及び第3アイデンティティ特徴に基づいて、該サンプル生成画像と該サンプル目標画像との間の第1アイデンティティ距離を決定するステップと、
該第1アイデンティティ特徴及び第2アイデンティティ特徴に基づいて、該サンプルソース画像とサンプル目標画像との間の第2アイデンティティ距離を決定するステップと、
該第1アイデンティティ距離及び第2アイデンティティ距離に基づいて、距離差異を決定するステップと、
各サンプル画像ペアに対応する第1アイデンティティ類似度及び距離差異に基づいて、サンプル画像ペアに対応する第5損失値を決定するステップと、
第1損失値、第2損失値及び第5損失値に基づいて、該トレーニング総損失を得るステップと、を実行するように構成される。
【0123】
本出願の実施形態の画像処理装置では、ソース画像のアイデンティティ特徴と、目標画像の少なくとも1つのスケールの初期属性特徴とを取得し、該アイデンティティ特徴をトレーニング済みの顔交換モデル内の生成器に入力し、該少なくとも1つのスケールの初期属性特徴をそれぞれ該生成器内の対応するスケールの畳み込み層に入力し、目標顔交換画像を得る。該生成器の各畳み込み層において、アイデンティティ特徴と前の畳み込み層によって出力された第1特徴マップに基づいて、第2特徴マップを生成し、第2特徴マップと初期属性特徴とに基づいて、該目標画像の対応するスケールの制御マスクを決定することにより、目標画像内の目標顔のアイデンティティ特徴以外の特徴を載せる画素点を正確に位置決めすることができる。該制御マスクに基づいて初期属性特徴内の目標属性特徴を選別し、該目標属性特徴と該第2特徴マップとに基づいて、第3特徴マップを生成して次の畳み込み層に出力し、少なくとも1つの畳み込み層の層ごとの処理により、最終的な目標顔交換画像に目標顔の属性と細部特徴とを効果的に保留することを保証し、顔交換画像内の顔の明瞭度を大幅に向上させ、高解像度の顔交換を実現し、顔交換の精度を向上させる。
【0124】
図9は、本出願の実施形態によるコンピュータ機器の構造的模式図である。
図9に示すように、該コンピュータ機器は、メモリ及びプロセッサを含む。前記メモリは、コンピュータプログラムを記憶する。該プロセッサは、メモリに記憶されたコンピュータプログラムを実行して、本出願の実施形態に提供された画像処理方法を実現する。
【0125】
いくつかの実施形態では、コンピュータ機器が提供される。
図9に示すように、コンピュータ機器900は、プロセッサ901、メモリ903を含む。プロセッサ901は、例えばバス902によってメモリ903に接続される。例えば、コンピュータ機器900はトランシーバ904をさらに含むことができ、トランシーバ904は、データ送信及び/又はデータ受信など、該コンピュータ機器と他のコンピュータ機器との間のデータインタラクションのために用いられることができる。説明すべきこととして、実際の応用において、トランシーバ904は1つに限定されず、前記コンピュータ機器900の構造は本出願の実施形態に対する限定を構成しない。
【0126】
プロセッサ901は、中央処理装置(CPU:Central Processing Unit)、汎用プロセッサ、データ信号プロセッサ(DSP:Digital Signal Processor)、特定用途向け集積回路(ASIC:Application Specific Integrated Circuit)、フィールドプログラマブルゲートアレイ(FPGA:Field Programmable Gate Array)、又はその他のプログラマブルロジックデバイス、トランジスタロジックデバイス、ハードウェアコンポーネント、又はそれらの任意の組み合わせであり得る。それは、本出願の開示された内容を組み合わせて説明された様々な例示的な論理ブロック、モジュール及び回路を実現又は実行することができる。プロセッサ901は、1つ以上のマイクロプロセッサの組み合わせ、DSPとマイクロプロセッサの組み合わせなど、計算機能を実現するための組み合わせであってもよい。
【0127】
バス902は、前述のコンポーネント間で情報を伝送するための1つのパスを含むことができる。バス902は、周辺部品相互接続規格(PCI:Peripheral Component Interconnect)バス又は拡張工業規格構造(EISA:Extended Industry Standard Architecture)バスなどであってもよい。バス902は、アドレスバス、データバス、コントロールバスなどに分けることができる。表示を容易にするために、
図9では1本の太い線のみで表示されているが、1本のバス又は1種類のバスのみを表示しているわけではない。
【0128】
メモリ903は、読み取り専用メモリ(ROM:Read Only Memory)又は静的な情報及び命令を記憶することができる他のタイプの静的記憶装置、ランダムアクセスメモリ(RAM:Random Access Memory)又は情報及び命令を記憶することができる他のタイプの動的記憶装置であってもよく、電気的に消去可能なプログラム可能な読み取り専用メモリ(EEPROM:Electrically Erasable Programmable Read Only Memory)、読み取り専用ディスク(CD-ROM:コンパクト ディスク Read Only Memory)又はその他の光ディスクメモリ、光ディスクストレージ(圧縮ディスクス、レーザーディスク(登録商標)、光ディスク、デジタル多用途ディスク、Blu-ray(登録商標)ディスクなどを含む)、磁気ディスク記憶媒体又はその他の磁気記憶デバイス、又はコンピュータプログラムを搬送又は記憶するために用いられ得、コンピュータによって読み取られ得るその他のいなかる媒体であってもよく、ここでは限定されない。
【0129】
メモリ903は、本出願の実施形態を実行するためのコンピュータプログラムを記憶するために用いられ、その実行はプロセッサ901によって制御される。プロセッサ901は、メモリ903に記憶されたコンピュータプログラムを実行して、前述の方法の実施形態で示されたステップを実現する。
【0130】
コンピュータ機器は、サーバ、端末又はクラウドコンピューティングセンターデバイスなどを含むが、これらに限定されない。
【0131】
本出願の実施形態は、コンピュータ可読記憶媒体を提供し、該コンピュータ可読記憶媒体は、コンピュータプログラムが記憶され、コンピュータプログラムがプロセッサによって実行される場合、前述の方法の実施形態のステップ及び対応する内容が実現され得る。
【0132】
本出願の実施形態は、コンピュータプログラムを含むコンピュータプログラム製品をさらに提供し、コンピュータプログラムがプロセッサによって実行される場合、前述の方法の実施形態のステップ及び対応する内容が実現され得る。
【0133】
本出願の明細書及び特許請求の範囲、並びに上記の図面における「第1」、「第2」、「第3」、「第4」、「1」、「2」などの用語(存在する場合)は、必ずしも特定の順序又は前後順序を説明することではなく、類似する対象を区別するために用いられる。このように使用されるデータは、適切な場合で交換可能であるため、本明細書に記載された本出願の実施形態は、図示又は文字で説明された順序以外の順序で実施され得ることを理解すべきである。
【0134】
以上は本出願の一部の実施シナリオの選択可能な実施形態だけであり、当業者にとっては、本出願の解決策の技術的概念から逸脱することなく、本出願の技術思想に基づく他の類似する実施手段を採用することは、同様に本出願の実施形態の保護範囲に属することを指摘すべきである。
【符号の説明】
【0135】
11 サーバ
12 端末
801 特徴取得モジュール
802 顔交換モジュール
900 コンピュータ機器
901 プロセッサ
902 バス
903 メモリ
904 トランシーバ
【手続補正書】
【提出日】2022-10-27
【手続補正2】
【補正対象書類名】特許請求の範囲
【補正対象項目名】全文
【補正方法】変更
【補正の内容】
【特許請求の範囲】
【請求項1】
コンピュータ機器が実行する画像処理方法であって、
受信した顔交換要求に応答して、ソース画像のアイデンティティ特徴及び目標画像の少なくとも1つのスケールの初期属性特徴を取得するステップであって、前記顔交換要求は、前記目標画像内の目標顔を前記ソース画像内のソース顔に置き換えることを要求するために用いられ、前記アイデンティティ特徴は、前記ソース顔が属する対象を表し、前記初期属性特徴は、前記目標顔の3次元属性を表す、ステップと、
前記アイデンティティ特徴及び前記少なくとも1つのスケールの初期属性特徴を顔交換モデルに入力するステップと、
前記顔交換モデルにより、前記アイデンティティ特徴及び前記少なくとも1つのスケールの初期属性特徴に対して、反復して特徴融合を行い、融合特徴を得るステップと、
前記融合特徴に基づいて、前記顔交換モデルにより目標顔交換画像を生成し、前記目標顔交換画像を出力するステップであって、前記目標顔交換画像内の顔は、前記ソース顔のアイデンティティ特徴と前記目標顔の目標属性特徴とを融合したものである、ステップと、を含む、画像処理方法。
【請求項2】
前記顔交換モデルは、少なくとも1つの畳み込み層を含み、各前記畳み込み層は1つの前記スケールに対応し、前記顔交換モデルにより、前記アイデンティティ特徴及び前記少なくとも1つのスケールの初期属性特徴に対して、反復して特徴融合を行い、融合特徴を得るステップは、
前記顔交換モデルの各畳み込み層により、それぞれ前記アイデンティティ特徴及び対応するスケールの初期属性特徴に対して、
現在の畳み込み層の前の畳み込み層によって出力された第1特徴マップを取得するステップと、
前記アイデンティティ特徴及び前記第1特徴マップに基づいて、第2特徴マップを生成し、前記少なくとも1つのスケールの初期属性特徴から、目標属性特徴を選別するステップであって、前記目標属性特徴は、前記目標顔のアイデンティティ特徴以外の特徴である、ステップと、
前記目標属性特徴及び前記第2特徴マップに基づいて、第3特徴マップを生成するステップであって、前記第3特徴マップは、前記現在の畳み込み層の次の畳み込み層の第1特徴マップである、ステップと
前記少なくとも1つの畳み込み層のうち最後の畳み込み層によって出力された第3特徴マップを前記融合特徴として決定するステップと、を実行する、ステップを含む、ことを特徴とする
請求項1に記載の画像処理方法。
【請求項3】
前記少なくとも1つのスケールの初期属性特徴から、目標属性特徴を選別するステップは、
前記第2特徴マップ及び前記初期属性特徴に基づいて、対応するスケールでの前記目標画像の制御マスクを決定するステップであって、前記制御マスクは、目標顔のアイデンティティ特徴以外の特徴を載せる画素点を表すために用いられる、ステップと、
前記制御マスクに基づいて、前記少なくとも1つのスケールの初期属性特徴を選別し、目標属性特徴を得るステップと、を含む、ことを特徴とする
請求項2に記載の画像処理方法。
【請求項4】
前記第2特徴マップ及び前記初期属性特徴に基づいて、対応するスケールでの前記目標画像の制御マスクを決定するステップは、
前記第2特徴マップ及び前記初期属性特徴に対して特徴連結を行い、連結特徴マップを得るステップと、
予め設定されたマッピング畳み込みカーネル及び活性化関数に基づいて、前記連結特徴マップを前記制御マスクにマッピングするステップと、を含む、ことを特徴とする
請求項3に記載の画像処理方法。
【請求項5】
前記初期属性特徴及び前記畳み込み層の数は、いずれも目標数であり、前記目標数の畳み込み層は直列に接続され、異なる前記初期属性特徴は異なる前記スケールに対応し、各前記畳み込み層は1つの前記スケールの初期属性特徴に対応し、前記目標数は2以上であり、
前記現在の畳み込み層の前の畳み込み層によって出力された第1特徴マップを取得するステップは、
前記現在の畳み込み層が前記目標数の畳み込み層のうちの1番目の畳み込み層である場合、初期特徴マップを取得し、前記初期特徴マップを現在の畳み込み層に入力される第1特徴マップとして使用するステップ、を含む、ことを特徴とする
請求項2に記載の画像処理方法。
【請求項6】
前記アイデンティティ特徴及び前記第1特徴マップに基づいて、前記第2特徴マップを生成するステップは、
前記アイデンティティ特徴に対してアフィン変換を行い、第1制御ベクトルを得るステップと、
前記第1制御ベクトルに基づいて、前記現在の畳み込み層の第1畳み込みカーネルを第2畳み込みカーネルにマッピングするステップと、
前記第2畳み込みカーネルに基づいて、前記第1特徴マップに対して畳み込み操作を行い、第2特徴マップを生成するステップと、を含む、ことを特徴とする
請求項2に記載の画像処理方法。
【請求項7】
前記アイデンティティ特徴及び前記少なくとも1つのスケールの初期属性特徴を顔交換モデルに入力する前に、前記画像処理方法は、
サンプル画像ペアにおけるサンプルソース画像のサンプルアイデンティティ特徴と、前記サンプル画像ペアにおけるサンプル目標画像の少なくとも1つのスケールのサンプル初期属性特徴とを取得するステップと、
初期顔交換モデルの生成器により、前記サンプルアイデンティティ特徴及び前記少なくとも1つのスケールのサンプル初期属性特徴に対して、反復して特徴融合を行い、サンプル融合特徴を得るステップと、
前記サンプル融合特徴に基づいて、前記初期顔交換モデルの生成器によりサンプル生成画像を生成するステップと、
前記初期顔変換モデルの判別器により、前記サンプル生成画像及び前記サンプルソース画像を判別し、判別結果を得るステップと、
前記判別結果に基づいて前記初期顔変換モデルの損失を決定し、前記損失に基づいて前記初期顔変換モデルをトレーニングし、前記顔変換モデルを得るステップと、をさらに含む、ことを特徴とする
請求項1に記載の画像処理方法。
【請求項8】
前記判別結果は、前記サンプルソース画像に対する第1判別結果及び前記サンプル生成画像に対する第2判別結果を含み、前記判別結果に基づいて前記初期顔変換モデルの損失を決定するステップは、
前記サンプル目標画像の少なくとも1つのスケールのサンプルマスクを取得し、前記少なくとも1つのスケールのサンプルマスクに基づいて、第1損失値を決定するステップと、
前記第1判別結果及び前記第2判別結果に基づいて、第2損失値を決定するステップと、
前記第1損失値及び前記第2損失値に基づいて、トレーニング総損失を得るステップと、
前記トレーニング総損失に基づいて、目標条件に合致するまで前記初期顔変換モデルをトレーニングし、前記目標条件に合致する時に、トレーニングを停止し、前記顔変換モデルを得るステップと、を含む、ことを特徴とする
請求項7に記載の画像処理方法。
【請求項9】
前記サンプルソース画像及び前記サンプル目標画像は、同じ対象に対応し、
前記第1損失値及び前記第2損失値に基づいて、トレーニング総損失を得るステップは、
前記サンプル生成画像及び前記サンプル目標画像に基づいて、第3損失値を取得するステップと、
前記第3損失値、前記第1損失値及び前記第2損失値に基づいて、前記トレーニング総損失を得るステップと、を含む、ことを特徴とする
請求項8に記載の画像処理方法。
【請求項10】
前記判別器は、少なくとも1つの畳み込み層を含み、前記第1損失値及び前記第2損失値に基づいて、トレーニング総損失を得るステップは、
第1判別特徴マップの非顔領域と第2判別特徴マップの非顔領域との間の第1類似度を決定するステップであって、前記第1判別特徴マップは、前記畳み込み層のうちの第1部分畳み込み層によって出力されたサンプル目標画像の特徴マップであり、前記第2判別特徴マップは、前記第1部分畳み込み層によって出力されたサンプル生成画像の特徴マップである、ステップと、
第3判別特徴マップと第4判別特徴マップとの間の第2類似度を決定するステップであって、前記第3判別特徴マップは、前記畳み込み層のうちの第2部分畳み込み層によって出力されたサンプル目標画像の特徴マップであり、前記第4判別特徴マップは、前記第2部分畳み込み層によって出力されたサンプル生成画像の特徴マップである、ステップと、
前記第1類似度及び前記第2類似度に基づいて、第4損失値を決定するステップと、
前記第1損失値、前記第2損失値及び前記第4損失値に基づいて、前記トレーニング総損失を得るステップと、を含む、ことを特徴とする
請求項8に記載の画像処理方法。
【請求項11】
前記第1損失値及び前記第2損失値に基づいて、トレーニング総損失を得るステップは、
前記サンプルソース画像の第1アイデンティティ特徴、前記サンプル目標画像の第2アイデンティティ特徴、及び前記サンプル生成画像の第3アイデンティティ特徴を抽出するステップと、
前記第1アイデンティティ特徴及び前記第3アイデンティティ特徴に基づいて、前記サンプルソース画像と前記サンプル生成画像との間の第1アイデンティティ類似度を決定するステップと、
前記第2アイデンティティ特徴及び前記第3アイデンティティ特徴に基づいて、前記サンプル生成画像と前記サンプル目標画像との間の第1アイデンティティ距離を決定するステップと、
前記第1アイデンティティ特徴及び前記第2アイデンティティ特徴に基づいて、前記サンプルソース画像と前記サンプル目標画像との間の第2アイデンティティ距離を決定するステップと、
前記第1アイデンティティ距離及び前記該第2アイデンティティ距離に基づいて、距離差異を決定するステップと、
前記第1アイデンティティ類似度及び前記距離差異に基づいて、第5損失値を決定するステップと、
前記第1損失値、第2損失値及び第5損失値に基づいて、前記トレーニング総損失を得るステップと、を含む、ことを特徴とする
請求項8に記載の画像処理方法。
【請求項12】
画像処理装置であって、特徴取得モジュール及び顔交換モジュールを備え、
前記特徴取得モジュールは、
受信した顔交換要求に応答して、ソース画像のアイデンティティ特徴及び目標画像の少なくとも1つのスケールの初期属性特徴を取得するように構成され、前記顔交換要求は、前記目標画像内の目標顔を前記ソース画像内のソース顔に置き換えることを要求するために用いられ、前記アイデンティティ特徴は、前記ソース顔が属する対象を表し、前記初期属性特徴は、前記目標顔の3次元属性を表し、
前記顔交換モジュールは、
前記アイデンティティ特徴及び前記少なくとも1つのスケールの初期属性特徴を顔交換モジュール内の顔交換モデルに入力するステップと、
前記顔交換モデルにより、前記アイデンティティ特徴及び前記少なくとも1つのスケールの初期属性特徴に対して、反復して特徴融合を行い、融合特徴を得るステップと、
前記融合特徴に基づいて、前記顔交換モデルにより目標顔交換画像を生成し、前記目標顔交換画像を出力するステップであって、前記目標顔交換画像内の顔は、前記ソース顔のアイデンティティ特徴と前記目標顔の目標属性特徴とを融合したものである、ステップと、を実行するように構成される、画像処理装置。
【請求項13】
コンピュータ機器であって、メモリと、プロセッサとを含み、
前記メモリは、コンピュータプログラムを記憶し、
前記プロセッサは、前記メモリに記憶されたコンピュータプログラムを実行して、請求項1乃至11のいずれか一項に記載の画像処理方法を実現する、コンピュータ機器。
【請求項14】
プロセッサに、請求項1乃至11のいずれか一項に記載の画像処理方法を実行させるためのコンピュータプログラムを記憶した、コンピュータ可読記憶媒体。
【請求項15】
コンピュータに、請求項1乃至11のいずれか一項に記載の画像処理方法を実行させ
る、コンピュータプログラ
ム。
【国際調査報告】