特表2024-508568 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ ▲騰▼▲訊▼云▲計▼算（北京）有限▲責▼任公司の特許一覧

特表2024-508568画像処理方法、装置、機器、及びコンピュータプログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公表特許公報(A)

(11)【公表番号】

(43)【公表日】2024-02-27

(54)【発明の名称】画像処理方法、装置、機器、及びコンピュータプログラム

(51)【国際特許分類】

G06T 7/00 20170101AFI20240219BHJP

G06V 10/82 20220101ALI20240219BHJP

G06N 3/0475 20230101ALI20240219BHJP

【ＦＩ】

G06T7/00 350C

G06V10/82

G06N3/0475

【審査請求】有

【予備審査請求】未請求

(21)【出願番号】P 2023576240

(86)(22)【出願日】2021-07-26

(85)【翻訳文提出日】2023-08-29

(86)【国際出願番号】 CN2021108489

(87)【国際公開番号】W WO2022252372

(87)【国際公開日】2022-12-08

(31)【優先権主張番号】202110620382.8

(32)【優先日】2021-06-03

(33)【優先権主張国・地域又は機関】CN

(81)【指定国・地域】

【公序良俗違反の表示】

（特許庁注：以下のものは登録商標）

１．ＡＮＤＲＯＩＤ

２．ＷＩＮＤＯＷＳＰＨＯＮＥ

３．ｉＯＳ

(71)【出願人】

【識別番号】523329390

【氏名又は名称】▲騰▼▲訊▼云▲計▼算（北京）有限▲責▼任公司

(74)【代理人】

【識別番号】100110364

【弁理士】

【氏名又は名称】実広信哉

(74)【代理人】

【識別番号】100150197

【弁理士】

【氏名又は名称】松尾直樹

(72)【発明者】

【氏名】朱 ▲飛▼▲達▼

(72)【発明者】

【氏名】▲タイ▼ ▲穎▼

(72)【発明者】

【氏名】汪 ▲チェン▼杰

(72)【発明者】

【氏名】李季▲懍▼

【テーマコード（参考）】

5L096

【Ｆターム（参考）】

5L096DA01

5L096HA02

5L096HA11

5L096JA11

5L096KA04

(57)【要約】

本願は、画像処理方法、装置、機器、及びコンピュータ可読記憶媒体を提供する。該方法は、第１生成ネットワークを呼び出してそれぞれ第１サンプル画、及び第２サンプル画像に対して生成処理を行って、第１予測画像、及び第２予測画像を得るステップと、第１サンプル画像と第１予測画像との間のアバター差異、及び第２サンプル画像における、第２予測画像との間の指定属性差異に基づいて、画像処理モデルを訓練するステップであって、該画像処理モデルは、入力画像におけるアバターを前記ターゲットアバターに置換し、かつ入力画像におけるアバターの第１種類の属性を保持することに用いられる、ステップと、を含み、それにより、置換後のアバターの真実性を比較的高くし、画像処理の正確性、及び置換効果を向上させる。

【特許請求の範囲】

【請求項1】

画像処理方法であって、
画像処理モデルにおける第１生成ネットワークを呼び出し、第１サンプルセットにおける第１サンプル画像ｘ_ｉを処理して、第１予測画像［数１］を得るステップであって、前記第１予測画像［数１］は、第１予測アバターを含み、前記第１サンプルセット中には、Ｎ個の第１サンプル画像が含まれ、それぞれの前記第１サンプル画像は、いずれも同一のターゲット人物に対応するターゲットアバターを含み、Ｎは、正の整数であり、ｉは、正の整数で、且つｉ≦Ｎである、ステップと、
前記第１生成ネットワークを呼び出し、第２サンプルセットにおける第２サンプル画像ｙ_ｋを処理して、第２予測画像［数２］を得るステップであって、前記第２予測画像［数２］は、第２予測アバターを含み、前記第２サンプルセット中には、Ｍ個の第２サンプル画像が含まれ、それぞれの第２サンプル画像は、サンプルアバターを含み、Ｍは、正の整数であり、ｋは、正の整数で、且つｋ≦Ｍである、ステップと、
前記第１サンプル画像ｘ_ｉにおける前記ターゲットアバターと前記第１予測アバターとの間の差異、及び前記第２サンプル画像ｙ_ｋにおける前記サンプルアバターの第１種類の属性と前記第２予測アバターの前記第１種類の属性との間の差異に基づき、前記画像処理モデルを訓練するステップであって、前記画像処理モデルは、入力画像におけるアバターを前記ターゲットアバターに置換し、かつ前記入力画像におけるアバターの前記第１種類の属性を保持することに用いられる、ステップと、を含む、画像処理方法。

【数1】

【数2】

【請求項2】

前記第１サンプル画像ｘ_ｉにおける前記ターゲットアバターと前記第１予測アバターとの間の差異、前記第２サンプル画像ｙ_ｋにおける前記サンプルアバターの第１種類の属性と前記第２予測アバターの前記第１種類の属性との間の差異に基づき、前記画像処理モデルを訓練する前記ステップは、
第１損失関数の関数値を決定するステップであって、前記第１損失関数は、前記第１サンプル画像ｘ_ｉにおける前記ターゲットアバターと前記第１予測アバターとの間の差異を指示することに用いられる、ステップと、
第２損失関数の関数値を決定するステップであって、前記第２損失関数は、前記第２サンプル画像ｙ_ｋにおける前記サンプルアバターの第１種類の属性と前記第２予測アバターの前記第１種類の属性との間の差異を指示することに用いられる、ステップと、
前記第１損失関数の関数値、及び前記第２損失関数の関数値に基づいて、前記画像処理モデルのターゲット損失関数の関数値を決定するステップと、
前記ターゲット損失関数の関数値に従って、前記画像処理モデルを訓練するステップと、を含む、請求項１に記載の方法。

【請求項3】

第１損失関数の関数値を決定する前記ステップは、
第１判別機器を呼び出して、前記第１サンプル画像ｘ_ｉ、及び前記第１予測アバターをそれぞれ判別するステップと、
前記第１サンプル画像ｘ_ｉの第１判別結果、及び前記第１予測アバターの第２判別結果に基づいて、前記第１損失関数の第１分岐関数の関数値を決定するステップであって、前記第１判別結果は、前記第１サンプル画像ｘ_ｉが実画像であるかどうかを指示することに用いられ、前記第２判別結果は、前記第１予測アバターが実画像であるかどうかを指示することに用いられる、ステップと、
前記第１損失関数の第２分岐関数の関数値を決定するステップであって、前記第１損失関数の第２分岐関数は、前記第１サンプル画像ｘ_ｉにおける前記ターゲットアバターの第１知覚的特徴と、前記第１予測アバターの第２知覚的特徴との間の差異を指示することに用いられる、ステップと、
前記第１損失関数の第１分岐関数の関数値と前記第１損失関数の第２分岐関数の関数値との和を、前記第１損失関数の関数値として決定するステップと、を含む、請求項２に記載の方法。

【請求項4】

第２損失関数の関数値を決定する前記ステップは、
第１判別機器を呼び出して前記第２予測アバターを判別するステップと、
前記第２予測アバターの第３判別結果に基づいて、前記第２損失関数の第１分岐関数の関数値を決定するステップであって、前記第３判別結果は、前記第２予測アバターが実画像であるかどうかを指示するために用いられる、ステップと、
前記第２サンプル画像ｙ_ｋにおける前記サンプルアバターの前記第１種類の属性と、前記第２予測アバターの前記第１種類の属性とに対して属性比較を行い、属性比較結果を得るステップと、
前記属性比較結果に基づいて前記第２損失関数の第２分岐関数の関数値を決定するステップと、
前記第２損失関数の第１分岐関数の関数値と前記第２損失関数の第２分岐関数の関数値との和を、前記第２損失関数の関数値として決定するステップと、を含む、請求項２に記載の方法。

【請求項5】

前記第１損失関数、及び前記第２損失関数に従って前記画像処理モデルのターゲット損失関数を構築する前に、前記方法は、
第２生成ネットワークを呼び出し、前記第２サンプル画像ｙ_ｋを処理して、第３予測画像［数３］を得るステップであって、前記第３予測画像［数３］は、第３予測アバターを含み、前記第２生成ネットワークと前記第１生成ネットワークは、同じ特徴抽出ユニットを有する、ステップと、
第３損失関数の関数値を決定するステップであって、前記第３損失関数は、前記第２サンプル画像ｙ_ｋにおける前記サンプルアバターと前記第３予測アバターとの間の差異を指示することに用いられる、ステップと、をさらに含み、
前記第１損失関数の関数値、及び前記第２損失関数の関数値に基づいて、前記画像処理モデルのターゲット損失関数の関数値を決定する前記ステップは、
前記第１損失関数の関数値、前記第２損失関数の関数値、及び前記第３損失関数の関数値に基づいて、前記ターゲット損失関数の関数値を決定するステップを含む、請求項２に記載の方法。

【数3】

【請求項6】

第３損失関数の関数値を決定する前記ステップは、
第２判別機器を呼び出して、前記第２サンプル画像ｙ_ｋ、及び前記第３予測アバターをそれぞれ判別するステップと、
前記第２サンプル画像ｙ_ｋの第４判別結果、及び前記第３予測アバターの第５判別結果に基づいて、前記第３損失関数の第１分岐関数の関数値を決定するステップであって、前記第４判別結果は、前記第２サンプル画像ｙ_ｋが実画像であるかどうかを指示することに用いられ、前記第５判別結果は、前記第３予測アバターが実画像であるかどうかを指示することに用いられる、ステップと、
前記第３損失関数の第２分岐関数の関数値を決定するステップであって、前記第３損失関数の第２分岐関数は、前記第２サンプル画像ｙ_ｋにおける前記サンプルアバターの第３知覚的特徴と前記第３予測アバターの第４知覚的特徴との間の差異を指示することに用いられる、ステップと、
前記第３損失関数の第１分岐関数の関数値と前記第３損失関数の第２分岐関数の関数値との和を、前記第３損失関数の関数値として決定するステップと、を含む、請求項５に記載の方法。

【請求項7】

前記第１生成ネットワークは、エンコーダと、第１デコーダとを含み、
画像処理モデルにおける第１生成ネットワークを呼び出し、第１サンプルセットにおける第１サンプル画像ｘ_ｉを処理して、第１予測画像［数１］を得る前記ステップは、
前記エンコーダを呼び出して前記第１サンプル画像ｘ_ｉをエンコードして、第１特徴ベクトルを得るステップと、
前記第１デコーダを呼び出して前記第１特徴ベクトルをデコードして、第１生成画像、及び前記第１領域分割情報を得るステップであって、前記第１領域分割情報は、前記第１生成画像におけるアバター領域を指示することに用いられる、ステップと、
前記第１領域分割情報に基づき、前記第１生成画像から前記第１予測画像［数１］を抽出するステップと、を含む、請求項１に記載の方法。

【請求項8】

前記第１生成ネットワークは、エンコーダと、第１デコーダとを含み、
前記第１生成ネットワークを呼び出し、第２サンプルセットにおける第２サンプル画像ｙ_ｋを処理して、第２予測画像［数２］を得る前記ステップは、
前記エンコーダを呼び出して前記第２サンプル画像ｙ_ｋをエンコードして、第２特徴ベクトルを得るステップと、
前記第１デコーダを呼び出して前記第２特徴ベクトルをデコードして、第２生成画像、及び前記第２領域分割情報を得るステップであって、前記第２領域分割情報は、前記第２生成画像におけるアバター領域を指示することに用いられる、ステップと、
前記第２領域分割情報に基づき、前記第２生成画像から前記第２予測画像［数２］を抽出するステップと、を含む、請求項１に記載の方法。

【請求項9】

前記エンコーダは、Ｐ個の特徴抽出ネットワークと、１つの特徴集約層とを含み、Ｐは、正の整数であり、それぞれの特徴抽出ネットワークは、１つのダウンサンプリング層を含み、Ｐ個の前記ダウンサンプリング層のスケールパラメータは異なり、
Ｐ個の前記ダウンサンプリング層は、前記エンコーダに入力された画像のＰ個のスケールパラメータ下での特徴情報を抽出することに用いられ、
前記特徴集約層は、Ｐ個の前記スケールパラメータ下での前記特徴情報に対して集約処理を行って、前記エンコーダに入力された画像と対応する特徴ベクトルを得ることに用いられる、請求項７、又は、８に記載の方法。

【請求項10】

前記第１デコーダは、１つの第１特徴変換ネットワークと、Ｑ個の第１画像再構成ネットワークと、１つの第１畳み込みネットワークとを含み、Ｑは、正の整数であり、それぞれの前記第１画像再構成ネットワークは、１つの第１残差ネットワークと、１つの第１アップサンプリング層とを含み、
前記第１特徴変換ネットワークは、前記第１デコーダに入力された特徴ベクトルを特徴マップに変換することに用いられ、
Ｑ個の前記第１画像再構成ネットワークは、前記特徴マップに対して第１特徴復元処理を行って、融合特徴画像を得ることに用いられ、
前記第１畳み込みネットワークは、前記融合特徴画像に対して畳み込み処理を行い、かつ前記第１デコーダに入力された特徴ベクトルに対応する生成画像を出力することに用いられる、請求項７、又は、８に記載の方法。

【請求項11】

前記第２生成ネットワークは、エンコーダと、第２デコーダと、身元識別ネットワークとを含み、
第２生成ネットワークを呼び出し、前記第２サンプル画像ｙ_ｋを処理して、第３予測画像［数３］を得る前記ステップは、
前記エンコーダを呼び出して前記第２サンプル画像ｙ_ｋをエンコードして、第２特徴ベクトルを得るステップと、
前記身元識別ネットワークを呼び出して前記第２サンプル画像ｙ_ｋを識別して、前記第２サンプル画像ｙ_ｋの識別情報を得るステップと、
前記第２デコーダを呼び出し、前記第２サンプル画像ｙ_ｋの前記識別情報に従って前記第２特徴ベクトルをデコードして、第３生成画像、及び前記第３領域分割情報を得るステップであって、前記第３領域分割情報は、前記第３生成画像におけるアバター領域を指示することに用いられる、ステップと、
前記第３領域分割情報に基づき、前記第３生成画像から前記第３予測画像［数３］を抽出するステップと、を含む、請求項５に記載の方法。

【請求項12】

前記第２デコーダは、１つの第２特徴変換ネットワークと、Ｑ個の第２画像再構成ネットワークと、１つの第２畳み込みネットワークと、を含み、Ｑは、正の整数であり、それぞれの前記第２画像再構成ネットワークは、１つの第２残差ネットワークと、１つの第２アップサンプリング層と、１つの自己適応モジュールとを含み、
前記自己適応モジュールは、前記第２デコーダのデコード過程において、前記第２サンプル画像ｙ_ｋの識別情報に基づいて、前記識別情報と対応する第３特徴ベクトルを取得することに用いられ、前記第３特徴ベクトルは、前記第２デコーダが前記第２デコーダに入力された特徴ベクトルをデコードするように指示するために用いられる、請求項１１に記載の方法。

【請求項13】

前記画像処理モデルの訓練を完了した後に、前記方法は、
テストビデオを取得するステップであって、前記テストビデオは、Ｒフレームのテスト画像を含み、各フレームのテスト画像は、１つの校正アバターを含み、Ｒは、正の整数である、ステップと、
訓練完了後の前記画像処理モデルの第１生成ネットワークを呼び出してそれぞれＲフレームの前記テスト画像を処理して、Ｒフレームの前記テスト画像とそれぞれ対応する予測画像を得るステップであって、Ｒフレームの前記予測画像は、前記ターゲット人物の前記ターゲットアバターを含み、且つＲフレームの前記予測画像におけるアバターの前記第１種類の属性は、対応する前記テスト画像における前記校正アバターの前記第１種類の属性と一致している、ステップと、
前記テストビデオにおける、前記校正アバターを削除したＲフレームの前記テスト画像に対して画像補完を行う、ステップと、
Ｒフレームの前記予測画像をそれぞれ画像補完後のテストビデオにおける相応な前記テスト画像と融合して、ターゲットビデオを得るステップと、をさらに含む、請求項１に記載の方法。

【請求項14】

前記第１種類の属性は、非身元識別属性を指す、請求項１～１３のいずれか一項に記載の方法。

【請求項15】

画像処理装置であって、前記画像処理装置は、
画像処理モデルにおける第１生成ネットワークを呼び出し、第１サンプルセットにおける第１サンプル画像ｘ_ｉを処理して、第１予測画像［数１］を得ることに用いられる第１予測画像取得モジュールであって、前記第１予測画像［数１］は、第１予測アバターを含み、前記第１サンプルセット中には、Ｎ個の第１サンプル画像が含まれ、それぞれの前記第１サンプル画像は、いずれも同一のターゲット人物に対応するターゲットアバターを含み、Ｎは、正の整数であり、ｉは、正の整数で、且つｉ≦Ｎである、第１予測画像取得モジュールと、
前記第１生成ネットワークを呼び出し、第２サンプルセットにおける第２サンプル画像ｙ_ｋを処理して、第２予測画像［数２］を得ることに用いられる第２予測画像取得モジュールであって、前記第２予測画像［数２］は、第２予測アバターを含み、前記第２サンプルセット中には、Ｍ個の第２サンプル画像が含まれ、それぞれの第２サンプル画像は、サンプルアバターを含み、Ｍは、正の整数であり、ｋは、正の整数で、且つｋ≦Ｍである、第２予測画像取得モジュールと、
前記第１サンプル画像ｘ_ｉにおける前記ターゲットアバターと前記第１予測アバターとの間の差異、前記第２サンプル画像ｙ_ｋにおける前記サンプルアバターの第１種類の属性と前記第２予測アバターの前記第１種類の属性との間の差異に基づき、前記画像処理モデルを訓練することに用いられるモデル訓練モジュールであって、前記画像処理モデルは、入力画像におけるアバターを前記ターゲットアバターに置換し、かつ前記入力画像におけるアバターの前記第１種類の属性を保持することに用いられる、モデル訓練モジュールと、を含む、画像処理装置。

【請求項16】

画像処理機器であって、記憶装置と、プロセッサとを含み、
前記記憶装置には、コンピュータプログラムが記憶されており、
前記プロセッサは、前記コンピュータプログラムをロードし、かつ実行することで、請求項１～１４のいずれか一項に記載の画像処理方法を実現することに用いられる、画像処理機器。

【請求項17】

コンピュータ可読記憶媒体であって、前記コンピュータ可読記憶媒体には、コンピュータプログラムが記憶されており、前記コンピュータプログラムは、プロセッサによりロードされ、かつ請求項１～１４のいずれか一項に記載の画像処理方法を実行することに適する、コンピュータ可読記憶媒体。

【発明の詳細な説明】

【技術分野】

【0001】

本願は、コンピュータの技術分野に関し、具体的に画像処理方法、装置、機器、及びコンピュータ可読記憶媒体に関する。

【0002】

本願は、２０２１年６月３日に提出され、出願番号が第２０２１１０６２０３８２８号であり、発明の名称が「画像処理方法、装置、機器、及びコンピュータ可読記憶媒体」である中国特許出願の優先権を主張し、その全部の内容は、引用により本願に組み込まれている。

【背景技術】

【0003】

コンピュータ技術の継続的な発展に伴って、画像処理技術が幅広く発展している。ここで、画像処理技術を利用してアバター変換を実現することは、１つの比較的新しい試み、及び応用であり、ここで、アバター変換とは、画像における元のアバターをターゲットアバターに置換する過程を指す。

【発明の概要】

【発明が解決しようとする課題】

【0004】

本願の実施例は、画像処理方法、装置、機器、及びコンピュータ可読記憶媒体を提供することにより、画像処理モデルを訓練することができ、且つ訓練により得られた画像処理モデルの処理正確性が比較的高く、置換により取得されたアバターのリアリティが比較的高く、該画像処理モデルの使用シーンが広い。

【課題を解決するための手段】

【0005】

一態様では、本願の実施例は、画像処理方法を提供し、
画像処理モデルにおける第１生成ネットワークを呼び出し、第１サンプルセットにおける第１サンプル画像ｘ_ｉを処理して、第１予測画像［数１］を得るステップであって、前記第１予測画像［数１］は、第１予測アバターを含み、前記第１サンプルセット中には、Ｎ個の第１サンプル画像が含まれ、それぞれの前記第１サンプル画像は、いずれも同一のターゲット人物に対応するターゲットアバターを含み、Ｎは、正の整数であり、ｉは、正の整数で、且つｉ≦Ｎである、ステップと、
前記第１生成ネットワークを呼び出し、第２サンプルセットにおける第２サンプル画像ｙ_ｋを処理して、第２予測画像［数２］を得るステップであって、前記第２予測画像［数２］は、第２予測アバターを含み、前記第２サンプルセット中には、Ｍ個の第２サンプル画像が含まれ、それぞれの第２サンプル画像は、サンプルアバターを含み、Ｍは、正の整数であり、ｋは、正の整数で、且つｋ≦Ｍである、ステップと、
前記第１サンプル画像ｘ_ｉにおける前記ターゲットアバターと前記第１予測アバターとの間の差異、前記第２サンプル画像ｙ_ｋにおける前記サンプルアバターの第１種類の属性と前記第２予測アバターの前記第１種類の属性との間の差異に基づき、前記画像処理モデルを訓練するステップであって、前記画像処理モデルは、入力画像におけるアバターを前記ターゲットアバターに置換し、かつ前記入力画像におけるアバターの前記第１種類の属性を保持することに用いられる、ステップと、を含む。

【0006】

【数1】

【数2】

【0007】

一態様では、本願の実施例は、画像処理装置を提供し、前記画像処理装置は、
画像処理モデルにおける第１生成ネットワークを呼び出し、第１サンプルセットにおける第１サンプル画像ｘ_ｉを処理して、第１予測画像［数１］を得ることに用いられる第１予測画像取得モジュールであって、前記第１予測画像［数１］は、第１予測アバターを含み、前記第１サンプルセット中には、Ｎ個の第１サンプル画像が含まれ、それぞれの前記第１サンプル画像は、いずれも同一のターゲット人物に対応するターゲットアバターを含み、Ｎは、正の整数であり、ｉは、正の整数で、且つｉ≦Ｎである、第１予測画像取得モジュールと、
前記第１生成ネットワークを呼び出し、第２サンプルセットにおける第２サンプル画像ｙ_ｋを処理して、第２予測画像［数２］を得ることに用いられる第２予測画像取得モジュールであって、前記第２予測画像［数２］は、第２予測アバターを含み、前記第２サンプルセット中には、Ｍ個の第２サンプル画像が含まれ、それぞれの第２サンプル画像は、サンプルアバターを含み、Ｍは、正の整数であり、ｋは、正の整数で、且つｋ≦Ｍである、第２予測画像取得モジュールと、
前記第１サンプル画像ｘ_ｉにおける前記ターゲットアバターと前記第１予測アバターとの間の差異、前記第２サンプル画像ｙ_ｋにおける前記サンプルアバターの第１種類の属性と前記第２予測アバターの前記第１種類の属性との間の差異に基づき、前記画像処理モデルを訓練することに用いられるモデル訓練モジュールであって、前記画像処理モデルは、入力画像におけるアバターを前記ターゲットアバターに置換し、かつ前記入力画像におけるアバターの前記第１種類の属性を保持することに用いられる、モデル訓練モジュールと、を含む。

【0008】

一態様では、本願は、画像処理機器を提供し、記憶装置と、プロセッサと、を含み、
前記記憶装置には、コンピュータプログラムが記憶されており、
前記プロセッサは、前記コンピュータプログラムをロードし、かつ実行することで、前記画像処理方法を実現することに用いられる。

【0009】

一態様では、本願は、コンピュータ可読記憶媒体を提供し、前記コンピュータ可読記憶媒体には、コンピュータプログラムが記憶されており、前記コンピュータプログラムは、プロセッサによりロードされ、かつ前記画像処理方法を実行することに適する。

【0010】

一態様では、本願は、コンピュータプログラム製品、又は、コンピュータプログラムを提供し、該コンピュータプログラム製品、又は、コンピュータプログラムは、コンピュータ命令を含み、該コンピュータ命令は、コンピュータ可読記憶媒体に記憶されている。コンピュータ機器のプロセッサは、コンピュータ可読記憶媒体から該コンピュータ命令を読み取り、プロセッサは、該コンピュータ命令を実行することで、該コンピュータ機器に前記各種の選択可能な実現方式において提供された画像処理方法を実行させる。

【発明の効果】

【0011】

本願の実施例により提供される技術的解決手段は、以下の有益な効果を含むことができる。

【0012】

第１サンプル画像と第１生成ネットワークでそれを処理して得た第１予測画像との間のアバター差異、及び第２サンプル画像と第１生成ネットワークでそれを処理して得た第２予測画像との間の第１種類の属性の差異に基づいて、画像処理モデルを訓練することで、訓練完了後の画像処理モデルは、入力画像におけるアバターをターゲットアバターに置換し、かつ入力画像におけるアバターの第１種類の属性を保持するという能力を学習し、それにより、置換後のアバターの真実性を比較的高め、画像処理の正確性、及び置換効果を向上させる。

【0013】

理解すべき点は、以上の一般的な記述、及び以下の細部に対する記述は、例示的、かつ解釈的なものに過ぎず、本願を制限することができない。

【0014】

本願の実施例における技術的解決手段をより明確に説明するために、以下、実施例の記述において使用される必要がある図面を簡単に紹介する。明らかなように、以下の記述における図面は、本願のいくつかの実施例に過ぎず、当業者にとっては、創造的な労働を必要としない前提で、さらにそれらの図面に従ってその他の図面を取得することができる。

【図面の簡単な説明】

【0015】

【図1】本願の１つの例示的な実施例により提供される画像処理シーンの図を示している。

【図2】本願の１つの例示的な実施例により提供される画像処理方法のフローチャートを示している。

【図3】本願の１つの例示的な実施例により提供される他の画像処理方法のフローチャートを示している。

【図4】本願の１つの例示的な実施例により提供される訓練サンプルセットの生成フローチャートを示している。

【図5】本願の１つの例示的な実施例により提供されるエンコーダの構造模式図を示している。

【図6】本願の１つの例示的な実施例により提供される第１デコーダの構造模式図を示している。

【図7】本願の１つの例示的な実施例により提供される第２デコーダの構造模式図を示している。

【図8】本願の１つの例示的な実施例により提供される第１損失関数の決定過程の模式図を示している。

【図9】本願の１つの例示的な実施例により提供される第１損失関数の決定過程の模式図を示している。

【図10】本願の１つの例示的な実施例により提供される第１損失関数の決定過程の模式図を示している。

【図11】本願の１つの例示的な実施例により提供されるテストビデオ処理のフローチャートを示している。

【図12】本願の１つの例示的な実施例により提供される第１生成ネットワークによるテスト画像の生成処理のフローチャートを示している。

【図13】本願の１つの例示的な実施例により提供されるテストビデオ処理のフローチャートを示している。

【図14】本願の１つの例示的な実施例により提供される画像処理装置の構造模式図を示している。

【図15】本願の１つの例示的な実施例により提供される画像処理機器の構造模式図を示している。

【発明を実施するための形態】

【0016】

ここでは、例示的な実施例を詳細に説明することになり、その例は、図面において示される。以下の記述が図面に関するときには、特に断りのない限り、異なる図面における同じ数字は、同じ、又は、類似する要素を示す。以下の例示的な実施例において記述される実施形態は、本願と一致するすべての実施形態を代表しない。逆に、それらは、添付された特許請求の範囲において詳細に記述された、本願のいくつかの態様と一致する方法の例に過ぎない。

【0017】

以下、本願の実施例における図面を組み合わせて、本願の実施例における技術的解決手段を明確で、完全に記述することになる。

【0018】

本願の実施例は、人工知能（ＡｒｔｉｆｉｃｉａｌＩｎｔｅｌｌｉｇｅｎｃｅ、ＡＩ）、及び機械学習（ＭａｃｈｉｎｅＬｅａｒｎｉｎｇ、ＭＬ）等の技術に関する。

【0019】

また、本願の実施例は、さらにアバター変換、及び生成ネットワーク（Ｇｅｎｅｒａｔｏｒ）に関し、ここで、アバター変換とは、第１人物画像における全部、又は、一部のアバター特徴を第２人物画像中に置換する過程を指し、本願の実施例では、第２人物画像を画像処理モデルに入力することにより、画像処理モデルから出力された予測人物画像を得る。該予測人物画像は、第１人物画像のアバターを有するだけでなく、第２人物画像の第１種類の属性を保持している。選択可能に、予測人物画像が第１人物画像のアバターを有することとは、予測人物画像が、例えば五官、髪、皮膚、眼鏡等の容貌特徴のような第１人物画像アバターを有するだけでなく、姿勢、表情、照明等の属性特徴のような第２人物画像の第１種類の属性を有する。

【0020】

生成ネットワークは、敵対的生成ネットワーク（ＧｅｎｅｒａｔｉｖｅＡｄｖｅｒｓａｒｉａｌＮｅｔｗｏｒｋ、ＧＡＮと略称）の構成部分であり、ＧＡＮは、教師なし学習の１つの方法であり、１つの生成ネットワーク（Ｇｅｎｅｒａｔｏｒ）と、１つの判別ネットワーク（Ｄｉｓｃｒｉｍｉｎａｔｏｒ）で構成される。判別ネットワークの入力は、真実のサンプル画像（すなわち実画像であり、該実画像とは、非モデル生成画像を指す）、又は、生成ネットワークから出力された予測画像（すなわち偽画像であり、該偽画像とは、モデルに基づいて生成された画像を指す）である。判別ネットワークの目的は、生成ネットワークから出力された予測画像、及び真実のサンプル画像の真実性をできるだけ判別し、すなわちどれが実画像であるかどれが予測画像であるかを区別することができることである。一方、生成ネットワークは、生成された予測画像が判別ネットワークにできるだけ識別されないようにし、すなわち予測画像をできるだけ現実にそっくりなものにする。２つのネットワークは、互いに敵対し、パラメータを調整し続け（すなわち、互いに最適化する）、それにより最終的に生成ネットワークにより生成された予測画像が判別ネットワークに偽であると判断されにくくなるか、又は、判別ネットワークの識別正確性が閾値に達する。

【0021】

ＡＩ技術におけるコンピュータ視覚技術、及び機械学習技術に基づいて、本願の実施例は、画像処理方法を提供し、敵対的生成ネットワークに基づいて画像処理モデルを訓練することで、訓練後の画像処理モデルが任意のアバターをターゲットアバターに変換することを可能にし、かつ置換後のアバターが任意のアバターの第１種類の属性を保持する（すなわちアバター変換を実現する）ことを可能にする。

【0022】

図１は、本願の１つの例示的な実施例により提供される画像処理シーンの図を示している。図１に示すように、画像処理シーンにおいて、端末機器１０１とサーバ１０２とが含まれる。ここで、端末機器１０１は、ユーザーが使用する機器であり、さらに、該端末機器は、さらに画像収集機能、又は、インタフェース表示機能を有する機器であってもよく、端末機器１０１は、スマートフォン（たとえばＡｎｄｒｏｉｄ携帯電話、ｉＯＳ携帯電話等）、タブレットコンピュータ、ポータブルパーソナルコンピュータ、モバイルインターネット機器（ＭｏｂｉｌｅＩｎｔｅｒｎｅｔＤｅｖｉｃｅｓ、ＭＩＤ）等の機器を含んでもよいがそれらに制限されない。端末機器には、表示装置が配置されており、表示装置は、さらにディスプレイ、ディスプレイスクリーン、タッチスクリーン等であってもよく、タッチスクリーンは、さらにタッチ制御スクリーン、タッチ制御パネル等であってもよく、本願の実施例では、限定されない。

【0023】

サーバ１０２とは、取得されたサンプルに従って、画像処理モデルを訓練することができるバックグラウンド機器を指し、訓練後の画像処理モデルを得た後に、サーバ１０２は、端末機器１０１に訓練後の画像処理モデルを返してもよく、サーバにおいて訓練後の画像処理モデルを配備してもよい。サーバ１０２は、独立した物理サーバであってもよく、複数の物理サーバから構成されたサーバクラスター、又は、分散システムであってもよく、さらにクラウドサービス、クラウドデータベース、クラウドコンピューティング、クラウド関数、クラウド記憶、ネットワークサービス、クラウド通信、ミドルウェアサービス、ドメイン名サービス、セキュリティサービス、ＣＤＮ（ＣｏｎｔｅｎｔＤｅｌｉｖｅｒｙＮｅｔｗｏｒｋ、コンテンツデリバリネットワーク）、ビッグデータ、及び人工知能プラットフォーム等の基本的なクラウドコンピューティングサービスを提供するクラウドサーバであってもよい。また、さらに複数のサーバを組み合わせて１つのブロックチェーンネットワークを形成してもよく、それぞれのサーバは、ブロックチェーンネットワークにおける１つのノードであり、画像処理モデルの訓練、記憶、又は、デリバリを共同で行う。端末機器１０１とサーバ１０２との間は、有線通信、又は、無線通信方式によって直接、又は、間接的な接続を行うことができ、本願は、ここについて制限しない。

【0024】

説明する必要がある点として、図１に示されたモデル処理シーンにおける端末機器とサーバの数量は、一例に過ぎず、たとえば、端末機器とサーバの数量は、複数であってもよく、本願は、端末機器、及びサーバの数量を限定しない。

【0025】

図１に示された画像処理シーンにおいて、画像処理プロセスは、主に以下のステップを含む。

【0026】

（１）サーバは、画像処理モデルの訓練サンプルセットを取得し、該訓練サンプルセットは、端末機器から取得されるものであってもよく、データベースから取得されるものであってもよい。訓練サンプルセットは、第１サンプルセットと、第２サンプルセットとを含む。第１サンプルセットは、Ｎ個の第１サンプル画像を含み、それぞれの第１サンプル画像は、いずれも同一のターゲット人物のターゲットアバターを含み、第２サンプルセットは、Ｍ個の第２サンプル画像を含み、それぞれの第２サンプル画像は、１つのサンプルアバターを含み、Ｍ、Ｎは、いずれも正の整数であり、画像処理モデルは、第１生成ネットワークを含む。

【0027】

ここで、第２サンプル画像に含まれたサンプルアバターとは、ターゲット人物以外のその他の人物のアバターを指す。一例として、第１サンプルセットは、Ｎ個の第１サンプル画像を含み、それぞれの第１サンプル画像は、いずれもユーザーＡのアバターを含み、第２サンプルセットは、Ｍ個の第２サンプル画像を含み、それぞれの第２サンプル画像は、いずれも１つのユーザーＡ以外のその他の人物のサンプルアバターを含む。選択可能に、Ｍ個の第２サンプル画像におけるサンプルアバターは異なる人物と対応する。訓練済みの画像処理モデルにおける第１生成ネットワークは、ユーザーＡに対応する予測画像を生成することができ、該予測画像において、ユーザーＡのアバターを有し、同時に元の入力画像におけるアバターの第１種類の属性を保持する。

【0028】

（２）サーバは、第１サンプルセットから第１サンプル画像ｘ_ｉを選び取り、第１生成ネットワークを呼び出して第１サンプル画像ｘ_ｉ（該画像が実画像である）を処理して、第１予測画像［数１］（該画像が偽画像である）を得る。ｉは、正の整数で、且つｉ≦Ｎであり、ここで、第１生成ネットワークを呼び出して第１サンプル画像ｘ_ｉを処理することとは、第１生成ネットワークにおけるエンコーダにより第１サンプル画像ｘ_ｉにおけるアバターの第１特徴ベクトルを抽出し、かつ第１生成ネットワークにおけるデコーダにより、第１特徴ベクトルをデコードして、第１予測画像［数１］を得ることを指す。

【0029】

（３）サーバは、第２サンプルセットから第２サンプル画像ｙ_ｋを選び取り、第１生成ネットワークを呼び出して第２サンプル画像ｙ_ｋ（該画像が実画像である）に対して生成処理を行って、第２予測画像［数２］（該画像が偽画像である）を得る。ｋは、正の整数で、且つｋ≦Ｍであり、ここで、第１生成ネットワークを呼び出して第２サンプル画像ｙ_ｋに対して生成処理を行うこととは、第１生成ネットワークにおけるエンコーダにより第２サンプル画像ｙ_ｋにおける第２特徴ベクトルを抽出し、かつ第１生成ネットワークにおけるデコーダにより、第２特徴ベクトルをデコードして、第２予測画像［数２］を得ることを指す。

【0030】

（４）サーバは、第１サンプル画像ｘ_ｉにおけるターゲットアバターと第１予測画像［数１］におけるアバター（すなわち第１予測アバター）との間の差異、及び第２サンプル画像ｙ_ｋにおけるサンプルアバターの第１種類の属性と第２予測画像［数２］におけるアバター（第２予測アバター）の第１種類の属性との間の差異に基づき、画像処理モデルを訓練する。

【0031】

１つの実施例では、サーバは、構築された損失関数により各画像間の差異を計算することができる。たとえば、サーバは、第１損失関数により第１サンプル画像ｘ_ｉにおけるターゲットアバターと第１予測アバターとの間の差異を決定し、第２損失関数により第２サンプル画像ｙ_ｋにおけるサンプルアバターの第１種類の属性と第２予測画像［数２］における第１種類の属性との間の差異を決定し、かつ第１損失関数の関数値、及び第２損失関数の関数値に基づいてターゲット損失関数の関数値を決定し、ターゲット損失関数の関数値に基づいて画像処理モデルのパラメータを更新することで、画像処理モデルを訓練する。

【0032】

（５）画像処理モデルが訓練完了条件に達するまで、上記ステップ（２）～ステップ（４）を反復して実行する。該訓練完了条件は、ターゲット損失関数の損失値が反復回数に伴って減少しなくなるか、又は、反復回数が回数閾値に達するか、又は、ターゲット損失関数の損失値が損失閾値未満である等である。ここで、訓練完了後の画像処理モデルは、入力画像におけるアバターをターゲットアバターに置換し、かつ入力アバターにおける画像の第１種類の属性を保持することができる。

【0033】

上記記述に基づいて、以下、図面と併せて本願の実施例により提案された画像処理方法を詳細に紹介する。

【0034】

画像処理モデルの一回の反復過程を例として、図２は、本願の１つの例示的な実施例により提供される画像処理方法のフローチャートを示している。該画像処理方法は、図１に示されたサーバ１０２により実行することができ、図２に示すように、画像処理方法は、以下のステップを含むがそれらに制限されない。

【0035】

Ｓ２０１：画像処理モデルにおける第１生成ネットワークを呼び出し、第１サンプルセットにおける第１サンプル画像ｘ_ｉを処理して、第１予測画像［数１］を得る。該第１予測画像［数１］は、第１予測アバターを含み、該第１サンプルセット中には、Ｎ個の第１サンプル画像が含まれ、それぞれの第１サンプル画像は、いずれも同一のターゲット人物に対応するターゲットアバターを含み、Ｎは、正の整数であり、ｉは、正の整数で、且つｉ≦Ｎである。

【0036】

概略的には、第１サンプルセットにおけるＮ個の画像は、いずれもユーザーＡのアバターを含み、Ｎ個の第１サンプル画像は、ユーザーＡの異なるシーンにおける画像であってもよく、たとえば、第１サンプルセットにおける異なる画像におけるユーザーＡは、頭を上げる、頭を下げる、のような異なる姿勢、笑い、泣き等のような異なる表情を有することができる。

【0037】

Ｓ２０２：第１生成ネットワークを呼び出して、第２サンプルセットにおける第２サンプル画像ｙ_ｋを処理して、第２予測画像［数２］を得る。該第２予測画像［数２］は、第２予測アバターを含み、該第２サンプルセット中には、Ｍ個の第２サンプル画像が含まれ、それぞれの第２サンプル画像は、サンプルアバターを含み、Ｍは、正の整数であり、ｋは、正の整数で、且つｋ≦Ｍである。

【0038】

ここで、第２サンプルセットにおけるＭ個の画像は、ユーザーＡと異なるユーザーのアバターを含む。概略的には、該第２サンプルセットにおけるアバターは、ユーザーＡを除くいずれか１人、又は、複数のユーザーのアバターを含む画像であってもよく、訓練過程の過剰適合を回避するために、第２サンプルセット中には、複数の異なるユーザーのアバターと対応する画像を含むことができる。選択可能に、該第２サンプルセットにおけるアバターは、ユーザーＡを除くいずれか１人、又は、複数のユーザーの異なるシーンにおける画像を含むことができる。

【0039】

Ｓ２０３：第１サンプル画像ｘ_ｉにおけるターゲットアバターと第１予測アバターとの間の差異、該第２サンプル画像ｙ_ｋにおけるサンプルアバターの第１種類の属性と第２予測アバターの第１種類の属性との間の差異に基づき、画像処理モデルを訓練する。

【0040】

サーバは、更新後の画像処理モデルが訓練完了条件に達するかどうかを判断する。更新後の画像処理モデルが訓練完了条件に達していなければ、画像処理モデルが訓練完了条件に達するまで、上記Ｓ２０１～Ｓ２０３の過程を反復し、更新後の画像処理モデルが訓練完了条件に達していれば、画像処理モデルの訓練を終了する。該画像処理モデルは、入力画像におけるアバターをターゲットアバターに置換し、かつ入力画像におけるアバターの第１種類の属性を保持することに用いられる。

【0041】

ここで、入力画像におけるアバターをターゲットアバターに置換することは、入力画像における第２種類の属性をターゲットアバターにおける第２種類の属性に置換することを指してもよい。該第２種類の属性は、第１種類の属性以外の他の属性であり、つまり、置換後の画像は、ターゲットアバターの第２種類の属性を保持するだけでなく、入力画像におけるアバターの第１種類の属性を保持する。

【0042】

訓練完了後の画像処理モデルにより、１ｖＮのアバター変換ニーズを満たすことができる。該第１生成ネットワークは、ターゲット人物のターゲットアバターをその他の任意の人物の異なるシーンにおける人物画像中に置換することを実現することができ、すなわち第１生成ネットワークは、入力画像（その他の任意の人物のアバターを含む画像）を処理して、入力画像の第１種類の属性、及びターゲット人物のターゲットアバターの第２種類の属性を有する画像を取得することができる。

【0043】

本願の実施例では、第１サンプルセットにおけるＮ個の画像と対応するターゲットユーザーは、アバターの第２種類の属性を提供するユーザーである。画像処理モデルの訓練が完了した後に、訓練済みの画像処理モデルにおける第１生成ネットワークにより入力画像を処理した後に、取得された予測画像におけるアバターは、ターゲットユーザーのアバターの第２種類の属性を有するだけでなく、入力画像の第１種類の属性を有し、概略的には、第１サンプルセットにおけるＮ個の画像と対応するユーザーは、ユーザーＡであり、画像処理モデルにおける第１生成ネットワークにより任意の画像を処理するときに、いずれもユーザーＡのアバターの第２種類の属性を含むアバターを取得することができる。

【0044】

本願の実施例に示された手段では、任意の人物のアバターをターゲット人物のアバターに置換することができ、それにより１ｖＮのアバター置換応用を実現し、アバター変換の応用シーンを拡張する。

【0045】

選択可能に、第１種類の属性は、非身元識別属性であり、第２種類の属性とは、身元識別属性を指す。概略的には、身元識別属性は、五官、皮膚、髪、眼鏡等の容貌特徴を含むことができ、非身元識別属性は、表情、姿勢、照明等の特徴属性を含むことができる。図３は、本願の１つの例示的な実施例により提供される他の画像処理方法のフローチャートを示している。該画像処理方法は、図１に示されたサーバ１０２により実行することができ、図３に示すように、該画像処理方法は、以下のステップを含むがそれらに制限されない。

【0046】

Ｓ３０１：画像処理モデルの訓練サンプルセットを取得する。

【0047】

１つの可能な実現方式では、モデル訓練の安定性、及び正確性を向上させるために、訓練サンプルセットにおける画像は、前処理後の画像である。該前処理は、アバター校正、アバター領域分割等の処理過程のうちの少なくとも１種を含み、概略的には、図４は、本願の１つの例示的な実施例により提供される訓練サンプルセットの生成フローチャートを示している。図４に示すように、画像処理モデルの訓練サンプルセットを取得するプロセスは、主にステップＳ３０１１－ステップＳ３０１３を含む。

【0048】

Ｓ３０１１：データ収集段階。

【0049】

サーバは、第１オリジナルサンプルセット、及び第２オリジナルサンプルセットを取得する。該第１オリジナルサンプルセットにおける各枚の画像中には、いずれもターゲット人物のターゲットアバターを含み、第２オリジナルサンプルセットにおける各枚の画像中には、ターゲット人物以外のその他の人物のサンプルアバターを含む。選択可能に、サーバは、ビデオに対して画像フレーム抽出を行う方式により対応するアバターを含む画像を取得することができる。第１オリジナルサンプルセットを取得する過程を例とすると、サーバは、ターゲット人物と対応するビデオからターゲットアバターを含む画像を取得することができる。ターゲット人物と対応するビデオは、端末機器がアップロードしたビデオであってもよく、該ビデオは、一定の継続時間長さを有し、サーバは、画像フレーム抽出方式により該ビデオからターゲット人物のターゲットアバターを含む画像をＸ枚抽出し、第１オリジナルサンプルセットを得ることができ、同様な方式に基づいて、さらに第２オリジナルサンプルセットを取得することができる。又は、選択可能に、データベース中には、各ユーザーとそれぞれ対応する画像が予め記憶されており、同様に、サーバがデータベースから第１オリジナルサンプルセット、及び第２オリジナルサンプルセットを取得することは、サーバがターゲット人物と対応する身元情報に基づいてターゲット人物のターゲットアバターを含む画像をＸ枚取得して第１オリジナルサンプルセットを組成し、ターゲット人物以外の他の身元情報に基づいてその他の人物のサンプルアバターを含む画像を少なくとも２枚取得して、第２オリジナルサンプルセットを組成することができることを含む。ここで、第２オリジナルサンプルセットにおける異なる画像と対応する人物は、同じである、又は、異なるようにしてもよい。

【0050】

選択可能に、上記２種のオリジナルサンプルセット取得方式は、組み合わせて使用することができる。概略的には、サーバは、ビデオに対して画像フレーム抽出を行う方式により第１オリジナルサンプルセットを取得し、データベースから第２オリジナルサンプルセットを取得してもよく、又は、サーバは、ビデオに対して画像フレーム抽出を行う方式により第２オリジナルサンプルセットを取得し、データベースから第１オリジナルサンプルセットを取得してもよく、又は、サーバは、ビデオに対して画像フレーム抽出を行う方式により第１オリジナルサンプルセット／第２オリジナルサンプルセットにおける一部の画像を取得し、データベースから第１オリジナルサンプルセット／第２オリジナルサンプルセットにおける他の部分の画像を取得してもよい。

【0051】

Ｓ３０１２：アバター校正段階。サーバは、顔検出アルゴリズム（たとえば、ＡｄａＢｏｏｓｔフレームワーク、変形可能パーツモデル（ＤｅｆｏｒｍａｂｌｅＰａｒｔＭｏｄｅｌ、ＤＭＰ）モデル、ＣａｓｃａｄｅＣＮＮ等）により、収集されたオリジナルサンプルセット（第１オリジナルサンプルセット、及び第２オリジナルサンプルセットを含む）における画像に対してアバター領域検出を行い、かつアバター領域を校正する（たとえば、回帰ツリーに基づく顔位置合わせアルゴリズムを採用する）ことができ、その目的は、既知のアバター領域上にアバターの正確な形状を特定することである。また、サーバは、さらに、三次元モーフィングモデル（３ＤＭｏｒｐｈａｂｌｅＭｏｄｅｌｓ、３ＤＭＭ）アルゴリズム）等のアバター姿勢補正アルゴリズムによりアバターを補正して、補正後のアバターを得ることができ、すなわちオリジナルアバターと対応する正面アバターを取得し、補正後のアバターにより画像処理モデルを訓練することで、モデル訓練の安定性の向上に有利となる。選択可能に、アバター校正後のオリジナルサンプル画像セットを訓練サンプルセットとして取得することができる、又は、サーバは、さらにアバター校正後のオリジナルサンプル画像セットに対してアバター領域分割を行って、アバター領域分割後のサンプル画像セットを訓練サンプルセットとして取得することができ、補正後の訓練サンプルセットを得た後に、サーバは、画像処理モデルの訓練過程を直接開始する、すなわちステップＳ３０２を実行してもよく、ステップＳ３０１３（該ステップは、選択可能な項目である）を継続的に実行してもよい。

【0052】

Ｓ３０１３：アバター領域分割段階。ステップＳ３０１２において、サーバは、既にオリジナルサンプル画像セットにおける各画像のアバター領域を決定したため、サーバは、補正後のオリジナルサンプル画像セットにおける各画像をトリミングし、各画像におけるアバター領域のみを保持することができる。つまり、画像処理モデルを訓練する前に、オリジナルサンプル画像セットに対してアバター補正、及びアバター分割を予め行う。オリジナルサンプル画像セットをそのまま使用して画像処理モデルを訓練することと比較して、アバター領域のみを保持するサンプル画像を使用して画像処理モデルを訓練することは、画像処理モデルの訓練効率を向上させることができる。

【0053】

Ｓ３０２：画像処理モデルにおける第１生成ネットワークを呼び出し、第１サンプルセットにおける第１サンプル画像ｘ_ｉを処理して、第１予測画像［数１］を得る。

【0054】

該第１サンプル画像ｘ_ｉは、第１サンプルセットにおける任意の１つの第１サンプル画像である。

【0055】

１つの実施形態では、第１生成ネットワークは、エンコーダと、第１デコーダとを含み、エンコーダは、画像特徴を抽出して、サンプル画像と対応する特徴ベクトルを得ることに用いられ、第１デコーダは、特徴ベクトルに従って予測画像を生成することに用いられる。

【0056】

概略的には、第１予測画像を取得する過程は、第１生成ネットワークにおけるエンコーダが第１サンプル画像ｘ_ｉを取得した後に、第１サンプル画像ｘ_ｉをエンコードして、第１サンプル画像ｘ_ｉと対応する第１特徴ベクトルを取得し、第１特徴ベクトルを得た後に、サーバが第１デコーダを呼び出して第１特徴ベクトルをデコードして、第１生成画像、及び第１領域分割情報を得る。該第１領域分割情報は、第１生成画像におけるアバター領域を指示することに用いられ、さらに、サーバは、第１領域分割情報に基づき、第１生成画像から第１予測画像［数１］を抽出する。

【0057】

概略的には、図５は、本願の１つの例示的な実施例により提供されるエンコーダの構造模式図を示している。図５に示すように、エンコーダは、Ｐ個の特徴抽出ネットワークと、１つの特徴集約層とを含み、Ｐは、正の整数であり、それぞれの特徴抽出ネットワークは、１つのダウンサンプリング層を含む。従って、１つのエンコーダ中には、Ｐ個のダウンサンプリング層が対応してあり、Ｐ個のダウンサンプリング層のスケールパラメータは異なる。たとえば、第１ダウンサンプリング層におけるｄｉｌａｔｉｏｎ（スケールパラメータ）＝１であり、第２ダウンサンプリング層におけるｄｉｌａｔｉｏｎ（スケールパラメータ）＝２であり、第３ダウンサンプリング層におけるｄｉｌａｔｉｏｎ（スケールパラメータ）＝４である。さらに、それぞれのダウンサンプリング層は、深さ分離畳み込みネットワーク（ＤｅｐｔｈＳｅｐａｒａｂｌｅＣｏｎｖｏｌｕｔｉｏｎ、ＤＳＮ）に基づいて構築され、該深さ分離畳み込みネットワーク中には、畳み込み関数（Ｃｏｎｖ２ｄ、ｋ＝１）と、深さ畳み込み関数（ＤｅｐｔｈＣｏｎｖ２ｄ、ｋ＝３、ｓ＝２、ｄｉｌａｔｉｏｎ＝ｄ）とが含まれる。これに基づいて、サーバがエンコーダを呼び出して第１サンプル画像ｘ_ｉをエンコードして、第１特徴ベクトルを得る実施形態は、
Ｐ個の特徴抽出ネットワークにおけるダウンサンプリング層（すなわちＰ個のダウンサンプリング層）により第１サンプル画像ｘ_ｉのＰ個の異なるスケールパラメータ下での特徴情報を抽出し、
特徴集約層により第１サンプル画像ｘ_ｉのＰ個のスケールパラメータ下での特徴情報に対して集約処理を行って、第１サンプル画像ｘ_ｉに対応する第１特徴ベクトルを得ることである。

【0058】

１つの可能な実現方式では、第１デコーダは、１つの第１特徴変換ネットワークと、Ｑ個の第１画像再構成ネットワークと、１つの第１畳み込みネットワークとを含み、Ｑは、正の整数であり、それぞれの第１画像再構成ネットワークは、１つの第１残差ネットワークと、１つの第１アップサンプリング層とを含み、
該第１特徴変換ネットワークは、第１デコーダに入力された特徴ベクトルを特徴マップに変換することに用いられ、
Ｑ個の第１画像再構成ネットワークは、特徴マップに対して第１特徴復元処理を行って、融合特徴画像を得ることに用いられる。

【0059】

該第１畳み込みネットワークは、融合特徴画像に対して畳み込み処理を行い、かつ第１デコーダに入力された特徴ベクトルに対応する生成画像を出力することに用いられる。概略的には、図６は、本願の１つの例示的な実施例により提供される第１デコーダの構造模式図を示している。図６に示すように、第１デコーダは、１つの第１特徴変換ネットワークと、Ｑ個の第１画像再構成ネットワークと、１つの第１畳み込みネットワークとを含み、Ｑは、正の整数である。それぞれの第１画像再構成ネットワークは、１つの第１残差ネットワークと、１つの第１アップサンプリング層とを含む。ここで、第１特徴変換ネットワークは、第１デコーダに入力された特徴ベクトルを特徴マップに変換（Ｒｅｓｈａｐｅ）することに用いられる。第１画像再構成ネットワークは、特徴マップに対して第１特徴復元を行い、すなわちＱ個の第１アップサンプリング層（ＵｐＳｃａｌｅＢｌｏｃｋ）により特徴マップのサイズを第１サンプル画像ｘ_ｉのサイズと一致するように復元し、かつ第１残差ネットワーク（ＲｅｓｉｄｕａｌＮｅｔｗｏｒｋ）によりアップサンプリング過程において存在する勾配消失の問題を軽減して、第１サンプル画像と対応する融合特徴画像を得ることに用いられる。第１畳み込みネットワークは、第１サンプル画像と対応する融合特徴画像に対して畳み込み処理を行って、第１デコーダに入力された特徴ベクトルと対応する生成画像を得ることに用いられる。これに基づいて、サーバが第１デコーダを呼び出して第１特徴ベクトルをデコードして、第１生成画像、及び第１領域分割情報を得る実施形態は、
特徴変換ネットワークにより第１特徴ベクトルを変換して、第１特徴マップを得て、
Ｑ個の第１画像再構成ネットワークにより特徴マップに対して第１特徴復元を行って、第１サンプル画像と対応する融合特徴画像を得て、
第１畳み込みネットワークにより第１サンプル画像と対応する融合特徴画像に対して畳み込み処理を行って、第１サンプル画像と対応する第１生成画像、及び第１領域分割情報を得ることであってもよい。

【0060】

Ｓ３０３：第１生成ネットワークを呼び出し、第２サンプルセットにおける第２サンプル画像ｙ_ｋを処理して、第２予測画像［数２］を得る。該第２予測画像［数２］は、第２予測アバターを含む。

【0061】

第１生成ネットワークが第１サンプル画像をエンコードする過程と同様に、相応には、第２予測画像を取得する過程は、以下のように実現することができる。第１生成ネットワークにおけるエンコーダが第２サンプル画像を取得した後に、第２サンプル画像をエンコードして、第２サンプル画像と対応する第２特徴ベクトルを取得し、その後に、サーバは、第１デコーダを呼び出して第２特徴ベクトルをデコードして、第２生成画像、及び第２領域分割情報を得る。該第２領域分割情報は、第２生成画像におけるアバター領域を指示することに用いられる。さらに、サーバは、第２領域分割情報に基づき、第２生成画像から第２予測画像［数２］を抽出する。

【0062】

ここで、サーバは、エンコーダを呼び出して第２サンプル画像ｙ_ｋをエンコードして、第２特徴ベクトルを得る実施形態は、
Ｐ個の特徴抽出ネットワークにおけるダウンサンプリング層（すなわちＰ個のダウンサンプリング層）により第２サンプル画像ｙ_ｋのＰ個のスケールパラメータ下での特徴情報を抽出し、
特徴集約層により第２サンプル画像ｙ_ｋのＰ個のスケールパラメータ下での特徴情報に対して集約処理を行って、第２特徴ベクトルを得ることであってもよい。

【0063】

第１生成ネットワークが第１特徴ベクトルをデコードする過程と同様に、相応には、サーバが第１デコーダを呼び出して第２特徴ベクトルをデコードして、第２生成画像、及び第２領域分割情報を得る実施形態は、
特徴変換ネットワークにより第２特徴ベクトルを変換して、第２特徴マップを得て、
Ｑ個の第１画像再構成ネットワークにより第２特徴マップに対して第１特徴復元処理を行って、第２サンプル画像と対応する融合特徴画像を得て、
第１畳み込みネットワークにより第２サンプル画像と対応する融合特徴画像に対して畳み込み処理を行って、第２サンプル画像と対応する第２生成画像、及び第２領域分割情報を得ることであってもよい。

【0064】

Ｓ３０４：第２生成ネットワークを呼び出し、第２サンプル画像ｙ_ｋを処理して、第３予測画像［数３］を得る。該第３予測画像［数３］は、第３予測アバターを含み、該第２生成ネットワークは、第１生成ネットワークと同じ特徴抽出ユニットを有する。

【0065】

ここで、該第２生成ネットワークと第１生成ネットワークにおける同じ特徴抽出ユニットは、エンコーダであり、且つ両者は、同じ構造、及びパラメータを有し、該第２生成ネットワークは、第１生成ネットワークの訓練を補助するために用いられ、さらに、第２生成ネットワークは、第１生成ネットワークにおけるエンコーダの訓練を補助するために用いられる。

【0066】

【数3】

【0067】

１つの可能な実現方式では、第２生成ネットワークは、エンコーダと、第２デコーダと、身元識別ネットワークとを含む。

【0068】

ここで、エンコーダ（すなわち第１生成ネットワーク、第２生成ネットワークが備える同じ特徴抽出構造）は、サンプル画像における画像特徴を抽出して特徴ベクトルを得ることに用いられる。身元識別ネットワークは、サンプル画像、又は、サンプル画像と対応する特徴ベクトルに基づいて画像の識別情報を取得することに用いられ、該識別情報は、異なる画像と対応する異なるＩＤ（Ｉｄｅｎｔｉｆｉｃａｔｉｏｎ、身元アカウント）、エンコード情報等であってもよく、第２デコーダは、エンコーダが取得した特徴ベクトル、及び身元識別ネットワークにより提供された識別情報に従って、予測画像を生成することに用いられる。第３予測画像［数３］を生成する過程において、サーバは、エンコーダを呼び出して第２サンプル画像ｙ_ｋをエンコードして、第２サンプル画像ｙ_ｋと対応する第２特徴ベクトルを得て、第２サンプル画像ｙ_ｋをエンコードすると同時に、又は、第２サンプル画像ｙ_ｋをエンコードした後に、サーバは、身元識別ネットワークを呼び出し、第２サンプル画像ｙ_ｋ、又は、第２サンプル画像ｙ_ｋと対応する第２特徴ベクトルに基づいて身元識別を行って、第２サンプル画像ｙ_ｋと対応する識別情報（たとえば第２サンプル画像ｙ_ｋにおけるサンプルアバターと対応する人物ＩＤ）を得る。さらに、サーバは、第２デコーダを呼び出して第２サンプル画像ｙ_ｋの識別情報に従って第２特徴ベクトルをデコードして、第３生成画像、及び第３領域分割情報を得る。該第３領域分割情報は、第３生成画像におけるアバター領域を指示することに用いられ、よりさらに、サーバは、第３領域分割情報に基づき、第３生成画像から第３予測画像［数３］を抽出する。

【0069】

ここで、サーバがエンコーダを呼び出して第２サンプル画像ｙ_ｋをエンコードして、第２特徴ベクトルを得る実施形態は、
Ｐ個の特徴抽出ネットワークにおけるダウンサンプリング層（すなわちＰ個のダウンサンプリング層）により第２サンプル画像ｙ_ｋのＰ個のスケールパラメータ下での特徴情報を抽出し
特徴集約層により第２サンプル画像ｙ_ｋのＰ個のスケールパラメータ下での特徴情報に対して集約処理を行って、第２特徴ベクトルを得ることであってもよい。

【0070】

図７は、本願の１つの例示的な実施例により提供される第２デコーダの構造模式図を示している。図７に示すように、第２デコーダは、１つの第２特徴変換ネットワークと、Ｑ個の第２画像再構成ネットワーク（第１デコーダにおける第１画像再構成ネットワークの数量と一致する）と、１つの第２畳み込みネットワークとを含み、Ｑは、正の整数であり、それぞれの第２画像再構成ネットワークは、１つの第２残差ネットワークと、１つの第２アップサンプリング層と、１つの自己適応モジュール（ＡｄａＩＮ）とを含む。ここで、第２特徴変換ネットワークは、第２デコーダに入力された特徴ベクトルを特徴マップに変換することに用いられ、第２画像再構成ネットワークは、特徴マップに対して第２特徴復元処理を行い、すなわちＱ個の第２アップサンプリング層により特徴マップのサイズを第２サンプル画像ｙ_ｋのサイズと一致するように復元することに用いられる。該自己適応モジュールは、アップサンプリング過程において、第２デコーダに入力された特徴ベクトルと対応する識別情報を加えることで、第２デコーダが該識別情報に基づいて特徴融合を行い、かつ第２残差ネットワークによりアップサンプリング過程において存在する勾配消失の問題を軽減して、第２サンプル画像と対応する融合特徴画像を得ることに用いられる。換言すれば、該自己適応モジュールは、第２デコーダのデコード過程において、第２サンプル画像ｙ_ｋの識別情報に基づいて、識別情報と対応する第３特徴ベクトルを取得することに用いられ、該第３特徴ベクトルは、第２デコーダが第２デコーダに入力された特徴ベクトルをデコードするように指示するために用いられ、第２畳み込みネットワークは、第２サンプル画像と対応する融合特徴画像に対して畳み込み処理を行って、第２デコーダに入力された特徴ベクトルと対応する生成画像を得ることに用いられる。これに基づいて、サーバが第２デコーダを呼び出して第２サンプル画像の識別情報に従って第２特徴ベクトルをデコードして、第３生成画像、及び第３領域分割情報を得る実施形態は、
特徴変換ネットワークにより第２特徴ベクトルを変換して、第２特徴マップを得て、
Ｑ個の第２画像再構成ネットワークにより第２特徴マップに対して第２特徴復元処理を行って、第２サンプル画像と対応する融合特徴画像を得て、
第２畳み込みネットワークにより第２サンプル画像と対応する融合特徴画像に対して畳み込み処理を行って、第２サンプル画像と対応する第３生成画像、及び第３領域分割情報を得ることであってもよい。

【0071】

Ｓ３０５：第１損失関数の関数値を決定し、該第１損失関数は、第１サンプル画像ｘ_ｉにおけるターゲットアバターと第１予測アバターとの間の差異を指示することに用いられる。

【0072】

１つの可能な実現方式では、第１損失関数の関数値を決定する過程は、以下のように実現することができる。

【0073】

第１判別機器を呼び出して第１サンプル画像ｘ_ｉ、及び第１予測アバターをそれぞれ判別し、
第１サンプル画像ｘ_ｉの第１判別結果、及び第１予測アバターの第２判別結果に基づいて、第１損失関数の第１分岐関数の関数値を決定し、該第１判別結果は、第１サンプル画像ｘ_ｉが実画像であるかどうかを指示することに用いられ、該第２判別結果は、第１予測アバターが実画像であるかどうかを指示することに用いられ、
第１損失関数の第２分岐関数の関数値を決定し、該第１損失関数の第２分岐関数は、第１サンプル画像ｘ_ｉにおけるターゲットアバターの第１知覚的特徴と、第１予測アバターの第２知覚的特徴との間の差異を指示することに用いられ、
第１損失関数の第１分岐関数の関数値と第１損失関数の第２分岐関数の関数値との和を、第１損失関数の関数値として決定する。

【0074】

図６は、本願の１つの例示的な実施例により提供される第１損失関数の決定過程の模式図を示している。図６に示すように、サーバは、第１判別機器（特定の判別機器）、及び特徴知覚ネットワークを呼び出すことにより第１損失関数の関数値の決定を実現する。概略的には、該特徴知覚ネットワークは、画像知覚類似度指標（ＬｅａｒｎｅｄＰｅｒｃｅｐｔｕａｌＩｍａｇｅＰａｔｃｈＳｉｍｉｌａｒｉｔｙ、ＬＰＩＰＳ）ネットワークとして実現することができる。画像処理モデルが第１サンプル画像ｘ_ｉを取得し、かつ第１生成ネットワークにより第１サンプル画像ｘ_ｉを処理して、第１予測画像［数１］を得る実施形態は、ステップＳ３０２を参照することができるが、ここでは、詳しく説明しない。

【0075】

第１予測画像［数１］を得た後に、一方では、サーバは、第１判別機器により第１サンプル画像ｘ_ｉ、及び第１予測画像［数１］をそれぞれ判別し、すなわちそれぞれ第１サンプル画像ｘ_ｉ、及び第１予測画像［数１］が実画像であるかどうかを判断し、かつ第１サンプル画像ｘ_ｉの第１判別結果、及び第１予測画像［数１］の第２判別結果に基づいて、第１損失関数の第１分岐関数の関数値を決定し、該第１分岐関数は、以下［数４］のように表すことができる。

【0076】

【数4】

【0077】

ここで、Ｌ_ＧＡＮ１は、第１敵対的生成ネットワークＧＡＮ（第１生成ネットワーク（Ｇ１）、及び第１判別機器（Ｄ１）を含む）の第１損失関数の第１分岐関数を代表する。［数５］は、第１生成ネットワーク（Ｇ）が生成した第１予測画像［数１］と第１サンプル画像ｘ_ｉとの差異をできるだけ小さくすることを表し、［数６］は、第１判別機器による第１予測画像［数１］の判別結果と第１サンプル画像ｘ_ｉの判別結果との間の差異をできるだけ大きくすることを表す。Ｅ（ｘ）関数は、ｘの期待値を求めることに用いられ、Ｄ_ｓｒｃ（ｘ）は、第１判別機器を採用してｘを判別することを表すことに用いられ、Ｉ_ｓｒｃは、第１サンプル画像、すなわちｘ_ｉであり、Ｅｎｃ（ｘ）は、エンコーダを採用してｘをエンコードすることを表すことに用いられ、Ｄｅｃ_ｓｒｃ（ｘ）は、第１デコーダを採用してｘをデコードすることを表すことに用いられる。これから推定できるように、Ｄ_ｓｒｃ（Ｉ_ｓｒｃ）は、第１判別機器を採用して第１サンプル画像ｘ_ｉを判別することを表し、［数７］は、第１予測画像、すなわち［数１］であり、［数８］は、第１判別機器を採用して第１予測画像、すなわち［数１］を判別することを表す。

【0078】

【数5】

【数6】

【数7】

【数8】

【0079】

他方では、サーバは、特徴知覚ネットワーク（ＬＰＩＰＳネットワーク）により第１サンプル画像ｘ_ｉ、及び第１予測画像［数１］に対して特徴知覚を行って、第１サンプル画像ｘ_ｉと対応する第１知覚的特徴、及び第１予測画像［数１］と対応する第２知覚的特徴を取得し、第１知覚的特徴と第２知覚的特徴とに対して特徴比較を行って、第１特徴比較結果を得る。該第１特徴比較結果は、第１サンプル画像ｘ_ｉと第１予測画像［数１］との間の特徴差異を反映することに用いられ、第１特徴比較結果を得た後に、サーバは、第１特徴比較結果に基づいて第１損失関数の第２分岐関数の関数値を決定し、該第２分岐関数は、以下［数９］のように表すことができる。

【0080】

【数9】

【0081】

ここで、Ｌ_{ＬＰＩＰＳ１}は、特徴知覚ネットワーク（ＬＰＩＰＳネットワーク）と対応する第１損失関数の第２分岐関数を表し、ＬＰＩＰＳ（ｘ）は、特徴知覚ネットワーク（ＬＰＩＰＳネットワーク）によりｘに対して特徴知覚を行うことを表す。第１損失関数の第１分岐関数から明らかなように、Ｉ_ｓｒｃは、第１サンプル画像、すなわちｘ_ｉであり、［数１０］は、第１予測画像、すなわち［数１］であり、これに基づいて、［数１１］は、ＬＰＩＰＳネットワークにより第１予測画像、すなわち［数１］に対して特徴知覚を行うことを表し、ＬＰＩＰＳ（Ｉ_ｓｒｃ）は、ＬＰＩＰＳネットワークにより第１サンプル画像ｘ_ｉに対して特徴知覚を行うことを表す。

【0082】

【数10】

【数11】

【0083】

第１損失関数の第１分岐関数の関数値、及び第１損失関数の第２分岐関数の関数値を得た後に、サーバは、第１損失関数の第１分岐関数の関数値と第１損失関数の第２分岐関数の関数値との和を、第１損失関数の関数値として決定し、第１損失関数Ｌ_１は、以下［数１２］のように表すことができる。

【0084】

【数12】

【0085】

Ｓ３０６：第２損失関数の関数値を決定し、該第２損失関数は、第２サンプル画像ｙ_ｋにおけるサンプルアバターの第１種類の属性と第２予測アバターの第１種類の属性との間の差異を指示することに用いられる。

【0086】

１つの可能な実現方式では、第２損失関数の関数値を決定する過程は、以下のように実現することができる。

【0087】

第１判別機器を呼び出して第２予測アバターを判別し、
第２予測アバターの第３判別結果に基づいて、第２損失関数の第１分岐関数の関数値を決定し、該第３判別結果は、第２予測アバターが実画像であるかどうかを指示するために用いられ、
第２サンプル画像ｙ_ｋにおけるサンプルアバターの第１種類の属性と、第２予測アバターの第１種類の属性に対して属性比較を行って、属性比較結果を得て、
属性比較結果に基づいて第２損失関数の第２分岐関数の関数値を決定し、
第２損失関数の第１分岐関数の関数値と第２損失関数の第２分岐関数の関数値との和を、第２損失関数の関数値として決定する。

【0088】

図９は、本願の１つの例示的な実施例により提供される第２損失関数の決定過程の模式図を示している。図９に示すように、サーバは、属性識別ネットワーク、及び第１判別機器を呼び出すことにより、第２損失関数の関数値の決定を実現する。属性識別ネットワークは、目の大きさ、眼球の位置、及び口の大きさ等の顔の表情を指示するために用いられる表情属性を識別することができ、属性識別ネットワークが出力するのは、１つの［０，１］範囲内の連続値であり、たとえば、目の大きさについて、０は、目が閉じていることを表し、１は、目が完全に開いていることを表す。眼球の位置について、０は、最左側に偏ることを表し、１は、最右側に偏ることを表す。口の大きさについて、０は、口が閉じていることを表し、１は、口が完全に開いていることを表す。画像処理モデルが第２サンプル画像ｙ_ｋを取得し、かつ第１生成ネットワークにより第２サンプル画像ｙ_ｋを処理して、第２予測画像［数２］を得る実施形態は、ステップＳ３０３を参照することができるが、ここでは、詳しく説明しない。

【0089】

第２予測画像［数２］を得た後に、一方では、サーバは、第１判別機器により第２予測画像［数２］を判別し、すなわち第２予測画像［数２］が実画像であるかどうかを判断し、かつ第２予測画像［数２］の第３判別結果に基づいて、第２損失関数の第１分岐関数の関数値を決定し、該第１分岐関数は、以下［数１３］のように表すことができる。

【0090】

【数13】

【0091】

ここで、Ｌ_ＧＡＮ２は、第１敵対的生成ネットワークＧＡＮ（第１生成ネットワーク（Ｇ１）、及び第１判別機器（Ｄ１）を含む）の第２損失関数の第１分岐関数を代表する。［数１４］は、第１生成ネットワーク（Ｇ）が生成した第２予測画像［数２］と第２サンプル画像ｙ_ｋとの差異をできるだけ小さくする（第１判別機器による第２予測画像［数２］の判別結果を真にする）ことを表し、Ｅ（ｘ）関数は、ｘの期待値を求めることに用いられ、Ｄ_ｓｒｃ（ｘ）は、第１判別機器を採用してｘを判別することを表すことに用いられ、Ｉ_{ｏｔｈｅｒ}は、第２サンプル画像ｙ_ｋであり、Ｅｎｃ（ｘ）は、エンコーダを採用してｘをエンコードすることを表すことに用いられ、Ｄｅｃ_ｓｒｃ（ｘ）は、第１デコーダを採用してｘをデコードすることを表すことに用いられる。これから推定できるように、［数１５］は、第２予測画像［数２］であり、［数１６］は、第１判別機器を採用して第２予測画像［数２］を判別することを表す。

【0092】

【数14】

【数15】

【数16】

【0093】

他方では、サーバは、属性識別ネットワークにより第２サンプル画像ｙ_ｋ、及び第２予測画像［数２］に対して属性特徴抽出を行って、第２サンプル画像と対応する第１種類の属性、及び第１予測画像の第１種類の属性を取得し、第２サンプル画像の第１種類の属性、及び第１予測画像の第１種類の属性に対して属性比較を行って、属性比較結果を得る。属性比較結果は、第２サンプル画像ｙ_ｋと第２予測画像［数２］との間の属性差異を反映することに用いられ、かつ属性比較結果に基づいて第２損失関数の関数値を決定し、第２損失関数は、以下［数１７］のように表すことができる。

【0094】

【数17】

【0095】

ここで、Ｌ_{ａｔｔｒｉ}は、属性識別ネットワークの損失関数を代表し、Ｎ_{ａｔｔｒｉ}（ｘ）は、属性識別ネットワークによりｘに対して属性識別を行うことを表し、第２損失関数の第１分岐関数から明らかなように、Ｉ_{ｏｔｈｅｒ}は、第２サンプル画像ｙ_ｋであり、［数１８］は、第２予測画像［数２］であり、これに基づいて、［数１９］は、属性識別ネットワークにより第２予測画像［数２］に対して属性特徴抽出を行うことを表し、［数２０］は、属性識別ネットワークにより第２サンプル画像ｙ_ｋに対して属性特徴抽出を行うことを表す。

【0096】

【数18】

【数19】

【数20】

【0097】

第２損失関数の第１分岐関数の関数値、及び第２損失関数の第２分岐関数の関数値を得た後に、サーバは、第２損失関数の第１分岐関数の関数値と第２損失関数の第２分岐関数の関数値との和を、第２損失関数の関数値として決定し、第２損失関数Ｌ_２は、以下［数２１］のように表すことができる。

【0098】

【数21】

【0099】

Ｓ３０７：第３損失関数の関数値を決定し、該第３損失関数は、第２サンプル画像ｙ_ｋにおけるサンプルアバターと第３予測アバターとの間の差異を指示することに用いられる。

【0100】

１つの可能な実現方式では、第３損失関数の関数値を決定する過程は、以下のように実現することができる。

【0101】

第２判別機器を呼び出して第２サンプル画像ｙ_ｋ、及び第３予測アバターをそれぞれ判別し、
第２サンプル画像ｙ_ｋの第４判別結果、及び第３予測アバターの第５判別結果に基づいて、第３損失関数の第１分岐関数の関数値を決定し、該第４判別結果は、第２サンプル画像ｙ_ｋが実画像であるかどうかを指示することに用いられ、該第５判別結果は、第３予測アバターが実画像であるかどうかを指示することに用いられ、
第３損失関数の第２分岐関数の関数値を決定し、該第３損失関数の第２分岐関数は、第２サンプル画像ｙ_ｋにおけるサンプルアバターの第３知覚的特徴と第３予測アバターの第４知覚的特徴との間の差異を指示することに用いられ、
第３損失関数の第１分岐関数の関数値と第３損失関数の第２分岐関数の関数値との和を、第３損失関数の関数値として決定する。

【0102】

図１０は、本願の１つの例示的な実施例により提供される第３損失関数の決定過程の模式図を示している。図１０に示すように、サーバは、第２判別機器（一般判別機器）、身元識別ネットワーク、及び特徴知覚ネットワークを呼び出すことにより第３損失関数の関数値の決定を実現する。画像処理モデルが第２生成ネットワークにより第２サンプル画像ｙ_ｋを処理して、第３予測画像［数３］を得る実施形態は、ステップＳ３０４を参照することができるが、ここでは、詳しく説明しない。

【0103】

第３予測画像［数３］を得た後に、一方では、サーバは、第２判別機器により第２サンプル画像ｙ_ｋ、及び第３予測画像［数３］をそれぞれ判別し、すなわちそれぞれ第２サンプル画像ｙ_ｋ、及び第３予測画像［数３］が実画像であるかどうかを判断し、かつ第２サンプル画像ｙ_ｋの第４判別結果、及び第３予測画像［数３］の第５判別結果に基づいて、第３損失関数の第１分岐関数の関数値を決定する。該第１分岐関数は、以下［数２２］のように表すことができる。

【0104】

【数22】

【0105】

ここで、Ｌ_ＧＡＮ３は、第２敵対的生成ネットワークＧＡＮ´（第２生成ネットワーク（Ｇ２）、及び第２判別機器（Ｄ２）を含む）の第３損失関数の第１分岐関数を代表する。［数２３］は、第２生成ネットワーク（Ｇ）が生成した第３予測画像［数３］と第２サンプル画像ｙ_ｋとの差異をできるだけ小さくすることを表し、［数２４］は、第２判別機器による第３予測画像［数３］の判別結果と第２サンプル画像ｙ_ｋの判別結果との間の差異をできるだけ大きくすることを表し、Ｅ（ｘ）関数は、ｘの期待値を求めることに用いられ、Ｄ_{ｇｅｎｅｒａｌ}（ｘ）は、第２判別機器を採用してｘを判別することを表すことに用いられ、Ｉ_{ｏｔｈｅｒ}は、第２サンプル画像ｙ_ｋであり、Ｅｎｃ（ｘ）は、エンコーダを採用してｘをエンコードすることを表すことに用いられ、［数２５］は、第２デコーダを採用してｙに従ってｘをデコードすることを表すことに用いられる。これから推定できるように、［数２６］は、第２判別機器を採用して第２サンプル画像ｙ_ｋを判別することを表し、［数２７］は、第３予測画像［数３］であり、［数２８］は、第２判別機器を採用して第３予測画像［数３］を判別することを表す。

【0106】

【数23】

【数24】

【数25】

【数26】

【数27】

【数28】

【0107】

他方では、サーバは、特徴知覚ネットワーク（ＬＰＩＰＳネットワーク）により第２サンプル画像ｙ_ｋ、及び第３予測画像［数３］に対して特徴知覚を行って、第２サンプル画像ｙ_ｋと対応する第３知覚的特徴、及び第３予測画像［数３］と対応する第４知覚的特徴を取得し、第３知覚的特徴と第４知覚的特徴とに対して特徴比較を行って、第２特徴比較結果を得る。該第２特徴比較結果は、第２サンプル画像ｙ_ｋと第３予測画像［数３］との間の特徴差異を反映することに用いられ、第２特徴比較結果を得た後に、サーバは、第２特徴比較結果に基づいて第３損失関数の第２分岐関数を決定し、該第２分岐関数は、以下［数２９］のように表すことができる。

【0108】

【数29】

【0109】

ここで、Ｌ_{ＬＰＩＰＳ２}は、特徴知覚ネットワーク（ＬＰＩＰＳネットワーク）の第３損失関数の第２分岐関数を代表し、ＬＰＩＰＳ（ｘ）は、特徴知覚ネットワーク（ＬＰＩＰＳネットワーク）によりｘに対して特徴知覚を行うことを表し、第３損失関数の第１分岐関数から明らかなように、Ｉ_{ｏｔｈｅｒ}は、第２サンプル画像、すなわちｙ_ｋであり、［数３０］は、第３予測画像、すなわち［数３］であり、これに基づいて、［数３１］は、ＬＰＩＰＳネットワークにより第３予測画像、すなわち［数３］に対して特徴知覚を行うことを表し、［数３２］は、ＬＰＩＰＳネットワークにより第２サンプル画像、すなわちｙ_ｋに対して特徴知覚を行うことを表す。

【0110】

【数30】

【数31】

【数32】

【0111】

第３損失関数の第１分岐関数の関数値、及び第３損失関数の第２分岐関数の関数値を得た後に、サーバは、第３損失関数の第１分岐関数の関数値と第３損失関数の第２分岐関数の関数値との和を、第３損失関数の関数値として決定し、第３損失関数Ｌ_３は、以下［数３３］のように表すことができる。

【0112】

【数33】

【0113】

Ｓ３０８：第１損失関数の関数値、第２損失関数の関数値、及び第３損失関数の関数値に基づいて、ターゲット損失関数の関数値を決定する。

【0114】

選択可能に、モデル訓練過程においては、第１損失関数の関数値、及び第２損失関数の関数値に基づいて、画像処理モデルのターゲット損失関数の関数値を決定することができる。

【0115】

第３損失関数値に基づいて訓練することを例として、該ターゲット損失関数は、以下［数３４］のように表すことができる。

【0116】

【数34】

【0117】

選択可能に、ターゲット損失関数の関数値は、第１損失関数の関数値、第２損失関数の関数値、及び第３損失関数の関数値の和であってもよく、又は、ターゲット損失関数の関数値は、第１損失関数の関数値、第２損失関数の関数値、及び第３損失関数の関数値の加重合計結果であってもよく、３つのうち任意の２つの間の重みは、同じであってもよく、異なってもよい。概略的には、該ターゲット損失関数は、以下［数３５］のように表すことができる。

【0118】

【数35】

【0119】

ここで、ａは、第１損失関数と対応する重み値を表し、ｂは、第２損失関数と対応する重み値を表し、ｃは、第３損失関数と対応する重み値を表し、３つの重み値の値のうち、任意の２つの間は、同じであってもよく、異なってもよく、ここで、ａ＋ｂ＋ｃ＝１である。

【0120】

１つの可能な実現方式では、第１損失関数、第２損失関数、及び第３損失関数を計算する過程は、同時に行うことができる。

【0121】

Ｓ３０９：ターゲット損失関数の関数値に従って、画像処理モデルを訓練する。

【0122】

１つの実施形態では、サーバは、画像処理モデルのパラメータ（たとえば、畳み込み層の層数、アップサンプリング層の層数、ダウンサンプリング層の層数、ｄｉｌａｔｉｏｎ等）を調整することで、総損失関数の損失値を低減させる。概略的には、サーバは、ターゲット損失関数の関数値に従って、誤差を第１生成ネットワーク、及び第２生成ネットワーク（エンコーダ、及びデコーダ）に逆伝播（ＢａｃｋＰｒｏｐａｇａｔｉｏｎ）し、勾配降下法を使用して第１生成ネットワーク、及び第２生成ネットワークのパラメータ値を更新する。選択可能に、モデル訓練過程において、パラメータ更新すべき部分は、エンコーダと、特定のデコーダと、一般デコーダと、特定の判別機器と、一般判別機器とを含み、ＬＰＩＰＳネットワーク、身元識別ネットワーク、及び属性識別ネットワークは、パラメータ更新に関与しない。

【0123】

１つの可能な実現方式では、サーバは、画像処理モデルのパラメータを調整するときに、Ｌ_１＋Ｌ_２により第１生成ネットワークのパラメータを調整し、かつＬ_３により第２生成ネットワークのパラメータを調整することができる。

【0124】

画像処理モデルの訓練過程において、パラメータ更新を１回行うたびに、サーバは、更新後の画像処理モデルが訓練完了条件に達するかどうかを判断することができ、更新後の画像処理モデルが訓練完了条件に達していなければ、上記ステップＳ３０２～ステップＳ３０９に基づき反復し、画像処理モデルが訓練完了条件に達するまで、画像処理モデルを訓練し続け、更新後の画像処理モデルが訓練完了条件に達していれば、画像処理モデルの訓練を終了する。

【0125】

選択可能に、本願の実施例における画像処理モデルは、第１生成ネットワークに加えて、さらに第２生成ネットワークと、第１判別機器と、第２判別機器と、特徴知覚ネットワークと、身元識別ネットワークと、属性識別ネットワークとを含むことができる。モデル訓練過程においては、第１生成ネットワーク、第２生成ネットワーク、第１判別機器、及び第２判別機器におけるパラメータをいずれも更新し、画像処理モデルの訓練が終了した後に、第１生成ネットワークを保持し、つまり、訓練完了条件に達した画像処理モデル中には、訓練が終了した後の第１生成ネットワークを含む。

【0126】

又は、本願の画像処理モデルにおいては、第１生成ネットワークを含み、モデル訓練過程において、画像処理モデル以外のその他のネットワーク構造を呼び出して画像処理モデルの訓練を補助し、訓練完了条件に達した後に、訓練完了後の画像処理モデルを取得して応用する。

【0127】

第１種類の属性が非身元識別属性であり、第２種類の属性が身元識別属性であるときに、訓練完了後の画像処理モデルにより入力画像を処理し、取得した予測画像は、入力画像におけるアバターの非身元識別属性を保持しているが、ターゲットアバターの身元識別属性を有する画像であってもよい。概略的には、該予測画像におけるアバターの表情、姿勢、照明等の特徴属性は、入力画像と一致しており、該予測画像における五官、皮膚、髪、眼鏡等の容貌特徴は、ターゲットアバターと一致している。

【0128】

概略的には、訓練完了後の画像処理モデルは、ビデオのアバター置換シーンにおいて応用することができ、サーバがテストビデオに対してアバター置換処理を行う過程を例とすると、図１１は、本願の１つの例示的な実施例により提供されるテストビデオの処理フローチャートを示している。図１１に示すように、サーバは、テストビデオを取得し、該テストビデオは、Ｒフレームのテスト画像を含み、各フレームのテスト画像は、１つの校正アバターを含み、Ｒは、正の整数であり、
訓練完了後の画像処理モデルの第１生成ネットワークを呼び出してそれぞれＲフレームのテスト画像を処理して、Ｒフレームのテスト画像とそれぞれ対応する予測画像を得る。ここで、Ｒフレームの予測画像は、ターゲット人物のターゲットアバターを含み、且つＲフレームの予測画像におけるアバターの第１種類の属性は、対応するテスト画像における校正アバターの第１種類の属性と一致しており、
テストビデオにおける、校正アバターを削除するＲフレームのテスト画像に対して画像補完を行い、
Ｒフレームの予測画像をそれぞれ画像補完後のテストビデオにおける相応なテスト画像と融合して、ターゲットビデオを得る。

【0129】

一方では、サーバは、テストビデオに対して画像フレーム抽出（画像抽出）を行って、テスト画像セットを得る。各フレームのテスト画像は、テストアバターを含む。サーバは、テスト画像セットにおけるテストアバターを校正し、テストアバターに対する校正方式は、Ｓ３０１２における実施形態を参照することができるが、ここでは、詳しく説明しない。校正完了後に、サーバは、アバター置換モデルを呼び出してそれぞれ各フレームのテスト画像を処理して、各フレームのテスト画像と対応する予測画像を得る。該予測画像におけるアバターは、オリジナルアバターの第１種類の属性、及び訓練画像処理モデルを含むことができるときに、第１サンプル画像中に含まれたターゲット人物のアバターの第２種類の属性に対応する。

【0130】

選択可能に、各フレームのテスト画像と対応する予測アバターを取得した後に、後に、各フレームのテスト画像におけるアバターを置換することができ、図１２は、本願の１つの例示的な実施例により提供される訓練完了後の画像処理モデルでテスト画像を処理するフローチャートを示している。図１２において、サーバが訓練完了後の画像処理モデルを採用して各フレームのテスト画像をそれぞれ処理して、各フレームのテスト画像と各自対応する予測画像を得るという具体的な実施形態は、Ｓ３０２、又は、Ｓ３０３を参照することができるが、ここでは、詳しく説明しない。

【0131】

他方では、テストビデオにおける画像に対してアバター変換を行う過程がサーバにより処理されることを例とすると、サーバは、テストビデオにおけるテスト画像における校正アバターを削除し、かつテストビデオにおける、校正アバターを削除した後のＲフレームのテスト画像に対して画像補完（Ｉｎｐａｉｎｔｉｎｇ）処理を行う必要がある。その目的は、テスト画像におけるオリジナルアバターを削除した後に、修復すべき画像自体（たとえば、背景）、又は、画像ライブラリ情報に従って修復すべき画像の欠落領域（すなわち、アバター変換領域）を補完することで、修復後の画像を比較的自然に見えるようにすることである。

【0132】

図１３は、本願の１つの例示的な実施例により提供されるテストビデオの処理フローチャートを示している。図１３に示すように、サーバは、各フレームの予測画像を、それぞれ相応な画像補完後のテスト画像と融合して、ターゲットビデオを得る。

【0133】

選択可能に、サーバは、融合後のビデオに対して色校正（たとえば、皮膚の色の調整）を行うことで、取得したターゲットビデオをより現実にそっくりなものにするようにしてもよい。

【0134】

１つの実施例では、ユーザーは、自分が歌ったり踊ったりするビデオをアップロードすることができ、サーバは、訓練完了後の画像処理モデルを使用して、ユーザーがアップロードしたビデオにおけるアバターをスターアバター／アニメアバター等（ターゲット人物とするアバター）に置換して、アバター変換後のターゲットビデオを得ることができ、さらにビデオの面白さを向上させることができる。また、ユーザーは、さらに訓練完了後の画像処理モデルにより「アバター変換」ライブ配信を行う（すなわち、ライブ配信するユーザーのアバターをターゲット人物のアバターにリアルタイムに変換する）ことができ、さらにライブ配信の面白さを増加させることができる。

【0135】

別の実施例では、モバイル決済は、「顔認証」により行うことができるため、顔識別モデルの精度に対する要件が比較的高い訓練完了後の画像処理モデルは、訓練データ（攻撃データ）を生成して顔識別モデルを訓練する（すなわち、顔識別モデルの予測アバターの真実性を識別する能力を訓練する）ことに用いることができるため、さらにモバイル決済の信頼性、及びセキュリティを向上させることができる。

【0136】

本願の実施例では、本願の実施例が提供した画像処理方法は、同一のターゲット人物のターゲットアバターの第１サンプル画像を含む第１サンプルセット、及びサンプルアバターの第２サンプル画像を含む第２サンプルセットを使用することにより、第１生成ネットワークを含む画像処理モデルを訓練し、訓練過程において、第１サンプル画像、及び第１生成ネットワークでそれを処理することにより得られた第１予測画像の間のアバター差異、及び第２サンプル画像、及び第１生成ネットワークでそれを処理することにより得られた第２予測画像の間の第１種類の属性の差異により、画像処理モデルを訓練することで、訓練完了後の画像処理モデルが入力画像におけるアバターをターゲットアバターに置換し、かつ入力画像におけるアバターの第１種類の属性を保持することを可能にする。それにより、本願により取得された画像処理モデルに基づいて、アバター置換を行うと同時に、置換されたアバターの指定属性を保持することを可能にし、それにより、置換後のアバターの真実性を比較的高くし、画像処理の正確性、及び置換効果を向上させることができる。

【0137】

上記では、本願の実施例の方法を詳細に論述し、本願の実施例の上記手段をよりよく実施するために、同様に、以下に本願の実施例の装置を提示する。

【0138】

図１４は、本願の１つの例示的な実施例により提供される画像処理装置の構造模式図を示している。該画像処理装置は、図１に示されたサーバ１０２中に搭載することができる。図１４に示された画像処理装置は、上記図２、及び図３によって記述された方法実施例における一部、又は、全部の機能を実行することに用いることができる。

【0139】

ここで、該画像処理装置は、
画像処理モデルにおける第１生成ネットワークを呼び出し、第１サンプルセットにおける第１サンプル画像ｘ_ｉを処理して、第１予測画像［数１］を得ることに用いられる第１予測画像取得モジュール１４１０であって、上記第１予測画像［数１］は、第１予測アバターを含み、上記第１サンプルセット中には、Ｎ個の第１サンプル画像が含まれ、それぞれの上記第１サンプル画像は、いずれも同一のターゲット人物に対応するターゲットアバターを含み、Ｎは、正の整数であり、ｉは、正の整数で、且つｉ≦Ｎである、第１予測画像取得モジュール１４１０と、
上記第１生成ネットワークを呼び出し、第２サンプルセットにおける第２サンプル画像ｙ_ｋを処理して、第２予測画像［数２］を得ることに用いられる第２予測画像取得モジュール１４２０であって、上記第２予測画像［数２］は、第２予測アバターを含み、上記第２サンプルセット中には、Ｍ個の第２サンプル画像が含まれ、それぞれの第２サンプル画像は、サンプルアバターを含み、Ｍは、正の整数であり、ｋは、正の整数で、且つｋ≦Ｍである、第２予測画像取得モジュール１４２０と、
上記第１サンプル画像ｘ_ｉにおける上記ターゲットアバターと上記第１予測アバターとの間の差異、上記第２サンプル画像ｙ_ｋにおける上記サンプルアバターの第１種類の属性と上記第２予測アバターの上記第１種類の属性との間の差異に基づき、上記画像処理モデルを訓練することに用いられるモデル訓練モジュール１４３０であって、上記画像処理モデルは、入力画像におけるアバターを上記ターゲットアバターに置換し、かつ上記入力画像におけるアバターの上記第１種類の属性を保持することに用いられる、モデル訓練モジュール１４３０と、を含む。

【0140】

１つの実施形態では、上記モデル訓練モジュール１４３０は、
第１損失関数の関数値を決定することに用いられる第１決定サブモジュールであって、上記第１損失関数は、上記第１サンプル画像ｘ_ｉにおける上記ターゲットアバターと上記第１予測アバターとの間の差異を指示することに用いられる、第１決定サブモジュールと、
第２損失関数の関数値を決定することに用いられる第２決定サブモジュールであって、上記第２損失関数は、上記第２サンプル画像ｙ_ｋにおける上記サンプルアバターの第１種類の属性と上記第２予測アバターの上記第１種類の属性との間の差異を指示することに用いられる、第２決定サブモジュールと、
上記第１損失関数の関数値、及び上記第２損失関数の関数値に基づいて、上記画像処理モデルのターゲット損失関数の関数値を決定することに用いられる第３決定サブモジュールと、
上記ターゲット損失関数の関数値に従って、上記画像処理モデルを訓練することに用いられるモデル訓練サブモジュールと、を含む。

【0141】

１つの実施形態では、上記第１決定サブモジュールは、
第１判別機器を呼び出して、上記第１サンプル画像ｘ_ｉ、及び上記第１予測アバターをそれぞれ判別することと、
上記第１サンプル画像ｘ_ｉの第１判別結果、及び上記第１予測アバターの第２判別結果に基づいて、上記第１損失関数の第１分岐関数の関数値を決定することであって、上記第１判別結果は、上記第１サンプル画像ｘ_ｉが実画像であるかどうかを指示することに用いられ、上記第２判別結果は、上記第１予測アバターが実画像であるかどうかを指示することに用いられる、ことと、
上記第１損失関数の第２分岐関数の関数値を決定することであって、上記第１損失関数の第２分岐関数は、上記第１サンプル画像ｘ_ｉにおける上記ターゲットアバターの第１知覚的特徴と、上記第１予測アバターの第２知覚的特徴との間の差異を指示することに用いられる、ことと、
上記第１損失関数の第１分岐関数の関数値と上記第１損失関数の第２分岐関数の関数値との和を、上記第１損失関数の関数値として決定することと、に用いられる。

【0142】

１つの実施形態では、上記第２決定サブモジュールは、
第１判別機器を呼び出して上記第２予測アバターを判別することと、
上記第２予測アバターの第３判別結果に基づいて、上記第２損失関数の第１分岐関数の関数値を決定することであって、上記第３判別結果は、上記第２予測アバターが実画像であるかどうかを指示するために用いられる、ことと、
上記第２サンプル画像ｙ_ｋにおける上記サンプルアバターの上記第１種類の属性と、上記第２予測アバターの上記第１種類の属性とに対して属性比較を行い、属性比較結果を得ることと、
上記属性比較結果に基づいて上記第２損失関数の第２分岐関数を決定することと、
上記第２損失関数の第１分岐関数の関数値と上記第２損失関数の第２分岐関数の関数値との和を、上記第２損失関数の関数値として決定することと、に用いられる。

【0143】

１つの実施形態では、上記装置は、
第２生成ネットワークを呼び出し、上記第２サンプル画像ｙ_ｋを処理して、第３予測画像［数３］を得ることに用いられる第３予測画像取得モジュールであって、上記第３予測画像［数３］は、第３予測アバターを含み、上記第２生成ネットワークと上記第１生成ネットワークは、同じ特徴抽出ユニットを有する、第３予測画像取得モジュールをさらに含み、
上記モデル訓練モジュール１４３０は、
第３損失関数の関数値を決定することに用いられる第４決定サブモジュールであって、上記第３損失関数は、上記第２サンプル画像ｙ_ｋにおける上記サンプルアバターと上記第３予測アバターとの間の差異を指示することに用いられる、第４決定サブモジュールをさらに含み、
上記第３決定サブモジュールは、上記第１損失関数の関数値、上記第２損失関数の関数値、及び上記第３損失関数の関数値に基づいて、上記ターゲット損失関数の関数値を決定することに用いられる。

【0144】

１つの実施形態では、上記第４決定サブモジュールは、
第２判別機器を呼び出して、上記第２サンプル画像ｙ_ｋ、及び上記第３予測アバターをそれぞれ判別することと、
上記第２サンプル画像ｙ_ｋの第４判別結果、及び上記第３予測アバターの第５判別結果に基づいて、上記第３損失関数の第１分岐関数の関数値を決定することであって、上記第４判別結果は、上記第２サンプル画像ｙ_ｋが実画像であるかどうかを指示することに用いられ、上記第５判別結果は、上記第３予測アバターが実画像であるかどうかを指示することに用いられる、ことと、
上記第３損失関数の第２分岐関数の関数値を決定することであって、上記第３損失関数の第２分岐関数は、上記第２サンプル画像ｙ_ｋにおける上記サンプルアバターの第３知覚的特徴と上記第３予測アバターの第４知覚的特徴との間の差異を指示することに用いられる、ことと、
上記第３損失関数の第１分岐関数の関数値と上記第３損失関数の第２分岐関数の関数値との和を、上記第３損失関数の関数値として決定することと、に用いられる。

【0145】

１つの実施形態では、上記第１生成ネットワークは、エンコーダと、第１デコーダとを含み、
上記第１予測画像取得モジュール１４１０は、
上記エンコーダを呼び出して上記第１サンプル画像ｘ_ｉをエンコードして、第１特徴ベクトルを得ることと、
上記第１デコーダを呼び出して上記第１特徴ベクトルをデコードして、第１生成画像、及び上記第１領域分割情報を得ることであって、上記第１領域分割情報は、上記第１生成画像におけるアバター領域を指示することに用いられる、ことと、
上記第１領域分割情報に基づき、上記第１生成画像から上記第１予測画像［数１］を抽出することと、に用いられる。

【0146】

１つの実施形態では、上記第１生成ネットワークは、エンコーダと、第１デコーダとを含み、
上記第２予測画像取得モジュール１４２０は、
上記エンコーダを呼び出して上記第２サンプル画像ｙ_ｋをエンコードして、第２特徴ベクトルを得ることと、
上記第１デコーダを呼び出して上記第２特徴ベクトルをデコードして、第２生成画像、及び上記第２領域分割情報を得ることであって、上記第２領域分割情報は、上記第２生成画像におけるアバター領域を指示することに用いられる、ことと、
上記第２領域分割情報に基づき、上記第２生成画像から上記第２予測画像［数２］を抽出することと、に用いられる。

【0147】

１つの実施形態では、上記エンコーダは、Ｐ個の特徴抽出ネットワークと、１つの特徴集約層とを含み、Ｐは、正の整数であり、それぞれの特徴抽出ネットワークは、１つのダウンサンプリング層を含み、Ｐ個の上記ダウンサンプリング層のスケールパラメータは異なり、
Ｐ個の上記ダウンサンプリング層は、上記エンコーダに入力された画像のＰ個のスケールパラメータ下での特徴情報を抽出することに用いられ、
上記特徴集約層は、Ｐ個の上記スケールパラメータ下での上記特徴情報に対して集約処理を行って、上記エンコーダに入力された画像と対応する特徴ベクトルを得ることに用いられる。

【0148】

１つの実施形態では、上記第１デコーダは、１つの第１特徴変換ネットワークと、Ｑ個の第１画像再構成ネットワークと、１つの第１畳み込みネットワークとを含み、Ｑは、正の整数であり、それぞれの上記第１画像再構成ネットワークは、１つの第１残差ネットワークと、１つの第１アップサンプリング層とを含み、
上記第１特徴変換ネットワークは、上記第１デコーダに入力された特徴ベクトルを特徴マップに変換することに用いられ、
Ｑ個の上記第１画像再構成ネットワークは、上記特徴マップに対して第１特徴復元処理を行って、融合特徴画像を得ることに用いられ、
上記第１畳み込みネットワークは、上記融合特徴画像に対して畳み込み処理を行い、かつ上記第１デコーダに入力された特徴ベクトルに対応する生成画像を出力することに用いられる。

【0149】

１つの実施形態では、上記第２生成ネットワークは、エンコーダと、第２デコーダと、身元識別ネットワークとを含み、
第２生成ネットワークを呼び出し、上記第２サンプル画像ｙ_ｋを処理して、第３予測画像［数３］を得る上記ステップは、
上記エンコーダを呼び出して上記第２サンプル画像ｙ_ｋをエンコードして、第２特徴ベクトルを得るステップと、
上記身元識別ネットワークを呼び出して上記第２サンプル画像ｙ_ｋを識別して、上記第２サンプル画像ｙ_ｋの識別情報を得るステップと、
上記第２デコーダを呼び出し、上記第２サンプル画像ｙ_ｋの上記識別情報に従って上記第２特徴ベクトルをデコードして、第３生成画像、及び上記第３領域分割情報を得るステップであって、上記第３領域分割情報は、上記第３生成画像におけるアバター領域を指示することに用いられる、ステップと、
上記第３領域分割情報に基づき、上記第３生成画像から上記第３予測画像［数３］を抽出するステップと、を含む。

【0150】

１つの実施形態では、上記第２デコーダは、１つの第２特徴変換ネットワークと、Ｑ個の第２画像再構成ネットワークと、１つの第２畳み込みネットワークと、を含み、Ｑは、正の整数であり、それぞれの上記第２画像再構成ネットワークは、１つの第２残差ネットワークと、１つの第２アップサンプリング層と、１つの自己適応モジュールとを含み、
上記自己適応モジュールは、上記第２デコーダのデコード過程において、上記第２サンプル画像ｙ_ｋの識別情報に基づいて、上記識別情報と対応する第３特徴ベクトルを取得することに用いられ、上記第３特徴ベクトルは、上記第２デコーダが上記第２デコーダに入力された特徴ベクトルをデコードするように指示するために用いられる。

【0151】

１つの実施形態では、上記装置は、
上記モデル訓練モジュール１４３０が上記画像処理モデルに対する訓練を完了した後に、上記テストビデオを取得することに用いられるテストビデオ取得モジュールであって、上記テストビデオは、Ｒフレームのテスト画像を含み、各フレームのテスト画像は、１つの校正アバターを含み、Ｒは、正の整数である、テストビデオ取得モジュールと、
訓練完了後の上記画像処理モデルの第１生成ネットワークを呼び出してそれぞれＲフレームの上記テスト画像を処理して、Ｒフレームの上記テスト画像とそれぞれ対応する予測画像を得ることに用いられる第４予測画像取得モジュールであって、ここで、Ｒフレームの上記予測画像は、上記ターゲット人物の上記ターゲットアバターを含み、且つＲフレームの上記予測画像におけるアバターの上記第１種類の属性は、対応する上記テスト画像における上記校正アバターの上記第１種類の属性と一致している、第４予測画像取得モジュールと、
上記テストビデオにおける、上記校正アバターを削除したＲフレームの上記テスト画像に対して画像補完を行うことに用いられる画像補完モジュールと、
Ｒフレームの上記予測画像をそれぞれ画像補完後のテストビデオにおける相応な上記テスト画像と融合して、ターゲットビデオを得ることに用いられるターゲットビデオ取得モジュールと、をさらに含む。

【0152】

１つの実施形態では、上記第１種類の属性は、非身元識別属性を指す。

【0153】

本願の１つの実施例に従って、図２、及び図３に示された画像処理方法に関する一部のステップは、図１４に示された画像処理装置における各モジュール、又は、サブモジュールにより実行することができる。図１４に示された画像処理装置における各モジュール、又は、サブモジュールは、それぞれ、又は、全部で１つ、又は、若干の別の構造と合併することで構成することができる、又は、そのうちのある（いくつかの）モジュールは、さらに機能上でより小さな複数の構造に分解することで構成することができ、それにより同様な操作を実現するとともに、本願の実施例の技術的効果の実現には影響を与えない。上記モジュールは、ロジック機能に基づいて分割され、実施の応用においては、１つのモジュールの機能は、複数のモジュールにより実現することができ、又は、複数のモジュールの機能は、１つのモジュールにより実現することができる。本願の他の実施例において、画像処理装置は、他のモジュールを含むこともでき、実際の応用において、それらの機能は、他のモジュールにより支援されて実現することができ、且つ複数のモジュールにより共同で実現することができる。

【0154】

本願の別の実施例に基づけば、中央処理ユニット（ＣＰＵ）、ランダムアクセス記憶媒体（ＲＡＭ）、リードオンリー記憶媒体（ＲＯＭ）等の処理素子、及び記憶素子を含む、たとえばコンピュータの汎用計算装置において、図２、又は、図３において示された相応な方法に関する各ステップを実行できるコンピュータプログラム（プログラムコードを含む）を動作させることにより、図１４において示された画像処理装置を構成し、かつ本願の実施例の画像処理方法を実現することができる。コンピュータプログラムは、たとえばコンピュータ可読記録媒体に記憶され、かつコンピュータ可読記録媒体により上記計算装置において搭載され、かつ上記計算装置において動作することができる。

【0155】

同一の発明の技術的思想に基づいて、本願の実施例において提供された画像処理装置が課題を解決する原理、及び有益な効果は、本願の方法実施例における画像処理方法が課題を解決する原理、及び有益な効果と類似するため、方法の実施の原理、及び有益な効果を参照することができるが、記述を簡潔にするために、ここでは詳しく説明しない。

【0156】

図１５に参照されるように、図１５は、本願の１つの例示的な実施例により提供される画像処理機器の構造模式図を示している。該画像処理機器は、図１に示されたサーバ１０２であってもよく、該画像処理機器は、少なくともプロセッサ１５０１と、通信インタフェース１５０２と、メモリ１５０３とを含む。ここで、プロセッサ１５０１、通信インタフェース１５０２、及びメモリ１５０３は、バス、又は、その他の方式により接続することができ、本願の実施例では、バスにより接続することを例とする。ここで、プロセッサ１５０１（又は、中央プロセッサ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ、ＣＰＵ）とも呼ばれる）は、画像処理機器の計算コア、及び制御コアであり、それは、画像処理機器内の各種の命令を解析し、及び画像処理機器の各種のデータを処理することができ、たとえば、ＣＰＵは、ユーザーが画像処理機器に送信した電源オン／オフ命令を解析し、かつ画像処理機器を制御して電源オン／オフ操作を行うことに用いることができ、また、たとえば、ＣＰＵは、画像処理機器の内部構造の間に各種のインタラクションデータ等を伝送することができる。通信インタフェース１５０２は、選択可能に、標準的な有線インタフェース、無線インタフェース（たとえば、ＷＩ－ＦＩ、移動通信インタフェース等）を含むことができ、プロセッサ１５０１により制御され、データを受送信することに用いることができ、通信インタフェース１５０２は、さらに、画像処理機器の内部データの伝送、及びインタラクションに用いることができる。メモリ１５０３（Ｍｅｍｏｒｙ）は、画像処理機器における記憶機器であり、プログラム、及びデータを保存することに用いることができる。理解することができるように、ここでのメモリ１５０３は、画像処理機器の内蔵メモリを含むことができるだけでなく、勿論、画像処理機器がサポートした拡張メモリを含むことができる。メモリ１５０３は、記憶領域を提供し、該記憶領域には、画像処理機器のオペレーティングシステムが記憶されており、Ａｎｄｒｏｉｄシステム、ｉＯＳシステム、ＷｉｎｄｏｗｓＰｈｏｎｅシステム等を含むがそれらに制限されず、本願は、この点に対して限定をしない。

【0157】

本願の実施例では、プロセッサ１５０１は、メモリ１５０３における実行可能なプログラムコードを動作させることにより、本願に示された手段を実現する。該プロセッサ１５０１が実行した操作は、上記各方法実施例における紹介を参照することができるが、ここでは、詳しく説明しない。

【0158】

同一の発明の技術的思想に基づいて、本願の実施例において提供された画像処理機器が課題を解決する原理、及び有益な効果は、本願の方法実施例における画像処理方法が課題を解決する原理、及び有益な効果と類似しており、方法の実施の原理、及び有益な効果を参照することができるため、簡潔に記述するために、ここでは詳しく説明しない。

【0159】

本願の実施例は、さらにコンピュータ可読記憶媒体を提供し、コンピュータ可読記憶媒体には、コンピュータプログラムが記憶されており、該コンピュータプログラムは、プロセッサによりロードされ、かつ上記方法実施例の画像処理方法を実行することに適する。

【0160】

本願の実施例は、さらにコンピュータプログラム製品、又は、コンピュータプログラムを提供し、該コンピュータプログラム製品、又は、コンピュータプログラムは、コンピュータ命令を含み、該コンピュータ命令は、コンピュータ可読記憶媒体に記憶されている。コンピュータ機器のプロセッサは、コンピュータ可読記憶媒体から該コンピュータ命令を読み取り、プロセッサは、該コンピュータ命令を実行することで、該コンピュータ機器に上記画像処理方法を実行させる。

【0161】

説明する必要がある点として、上記各方法実施例について、簡単に記述するために、それらをいずれも一連の動作の組み合わせとして表現しているが、当業者が了解できるように、本願は、記述された動作の順序に制限されず、それは、本願によればあるいくつかのステップをその他の順序で、又は、同時に行うことができるからである。次に、また、さらに当業者が了解できるように、明細書において記述された実施例は、いずれも好ましい実施例に属し、関する動作、及びモジュールは、必ずしも本願に必須なものではない。

【0162】

本願の実施例の方法におけるステップは、実際の必要に応じて順序の調整、合併、及び削減を行うことができる。

【0163】

本願の実施例の装置におけるモジュールは、実際の必要に応じて合併、分割、及び削減を行うことができる。

【0164】

当業者が理解できるように、上記実施例の各種の方法における全部、又は、一部のステップは、プログラムにより関連するハードウェアに命令を出して完了することができる。該プログラムは、コンピュータ可読記憶媒体に記憶することができ、可読記憶媒体は、フラッシュドライブ、読み出し専用メモリ（Ｒｅａｄ－ＯｎｌｙＭｅｍｏｒｙ、ＲＯＭ）、ランダムアクセスメモリ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ、ＲＡＭ）、磁気ディスク、又は、光ディスク等を含んでもよい。

【0165】

以上で開示したのは、本願の１つの比較的好ましい実施例に過ぎず、勿論、これをもって本願の特許請求の範囲を限定してはならない。当業者であれば理解できるように、上記実施例の全部、又は、一部のプロセスを実現し、かつ本願の請求項に基づいて行われる均等物への変更も本出願がカバーする範囲に属するものである。

【符号の説明】

【0166】

１０１端末機器
１０２サーバ
１４１０第１予測画像取得モジュール
１４２０第２予測画像取得モジュール
１４３０モデル訓練モジュール
１５０１プロセッサ
１５０２通信インタフェース
１５０３メモリ

【図1】

【図2】

【図3】

【図4】

【図5】

【図6】

【図7】

【図8】

【図9】

【図10】

【図11】

【図12】

【図13】

【図14】

【図15】

【手続補正書】

【提出日】2023-08-29

【手続補正2】

【補正対象書類名】特許請求の範囲

【補正対象項目名】全文

【補正方法】変更

【補正の内容】

【特許請求の範囲】

【請求項1】

【数1】

【数2】

【請求項2】

【請求項3】

【請求項4】

【請求項5】

【数3】

【請求項6】

【請求項7】

前記第１生成ネットワークは、エンコーダと、第１デコーダとを含み、
画像処理モデルにおける第１生成ネットワークを呼び出し、第１サンプルセットにおける第１サンプル画像ｘ_ｉを処理して、第１予測画像［数１］を得る前記ステップは、
前記エンコーダを呼び出して前記第１サンプル画像ｘ_ｉをエンコードして、第１特徴ベクトルを得るステップと、
前記第１デコーダを呼び出して前記第１特徴ベクトルをデコードして、第１生成画像、及び第１領域分割情報を得るステップであって、前記第１領域分割情報は、前記第１生成画像におけるアバター領域を指示することに用いられる、ステップと、
前記第１領域分割情報に基づき、前記第１生成画像から前記第１予測画像［数１］を抽出するステップと、を含む、請求項１に記載の方法。

【請求項8】

前記第１生成ネットワークは、エンコーダと、第１デコーダとを含み、
前記第１生成ネットワークを呼び出し、第２サンプルセットにおける第２サンプル画像ｙ_ｋを処理して、第２予測画像［数２］を得る前記ステップは、
前記エンコーダを呼び出して前記第２サンプル画像ｙ_ｋをエンコードして、第２特徴ベクトルを得るステップと、
前記第１デコーダを呼び出して前記第２特徴ベクトルをデコードして、第２生成画像、及び第２領域分割情報を得るステップであって、前記第２領域分割情報は、前記第２生成画像におけるアバター領域を指示することに用いられる、ステップと、
前記第２領域分割情報に基づき、前記第２生成画像から前記第２予測画像［数２］を抽出するステップと、を含む、請求項１に記載の方法。

【請求項9】

【請求項10】

【請求項11】

前記第２生成ネットワークは、エンコーダと、第２デコーダと、身元識別ネットワークとを含み、
第２生成ネットワークを呼び出し、前記第２サンプル画像ｙ_ｋを処理して、第３予測画像［数３］を得る前記ステップは、
前記エンコーダを呼び出して前記第２サンプル画像ｙ_ｋをエンコードして、第２特徴ベクトルを得るステップと、
前記身元識別ネットワークを呼び出して前記第２サンプル画像ｙ_ｋを識別して、前記第２サンプル画像ｙ_ｋの識別情報を得るステップと、
前記第２デコーダを呼び出し、前記第２サンプル画像ｙ_ｋの前記識別情報に従って前記第２特徴ベクトルをデコードして、第３生成画像、及び第３領域分割情報を得るステップであって、前記第３領域分割情報は、前記第３生成画像におけるアバター領域を指示することに用いられる、ステップと、
前記第３領域分割情報に基づき、前記第３生成画像から前記第３予測画像［数３］を抽出するステップと、を含む、請求項５に記載の方法。

【請求項12】

【請求項13】

【請求項14】

前記第１種類の属性は、非身元識別属性を指す、請求項１～１３のいずれか一項に記載の方法。

【請求項15】

【請求項16】

【請求項17】

コンピュータプログラムであって、請求項１～１４のいずれか一項に記載の画像処理方法を実行するように構成された、コンピュータプログラム。

【国際調査報告】

知財求人

知財求人お知らせサービス

知財のニュースを調べる
- 知財ニュース
- 知財周辺ニュース
企業の特許を調べる
知財のセミナーを調べる
知財,特許事務所への求職・転職
特許事務所をさがす
弁理士試験を受ける
- 年の弁理士試験情報
- 弁理士試験の合格率など統計
知財の法律をしらべる
期限日をしらべる
- 今日に対して意見書・補正書の期限
- 今日に対して審査請求期限日
知財の判決をしらべる
コンテンツ・リンク
運営会社
プレスの皆様へ
- お問い合わせ
ユーザーの皆様
- お問い合わせ・フィードバック
広告掲載を希望の皆様へ
- 広告掲載について
- 求人広告の掲載について

IP Force 特許公報掲載プロジェクト 2022.1.31 β版