特表2023-549240 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ ▲騰▼▲訊▼科技（深▲セン▼）有限公司の特許一覧

特表2023-549240画像生成方法、画像生成装置、コンピュータ機器、及びコンピュータプログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11
12
13

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公表特許公報(A)

(11)【公表番号】

(43)【公表日】2023-11-22

(54)【発明の名称】画像生成方法、画像生成装置、コンピュータ機器、及びコンピュータプログラム

(51)【国際特許分類】

G06T 7/00 20170101AFI20231115BHJP

G06T 7/70 20170101ALI20231115BHJP

G06V 10/82 20220101ALI20231115BHJP

G06T 11/60 20060101ALI20231115BHJP

【ＦＩ】

G06T7/00 350C

G06T7/00 660B

G06T7/70 Z

G06V10/82

G06T11/60 100A

【審査請求】有

【予備審査請求】未請求

(21)【出願番号】P 2023528490

(86)(22)【出願日】2022-01-24

(85)【翻訳文提出日】2023-05-12

(86)【国際出願番号】 CN2022073394

(87)【国際公開番号】W WO2022161301

(87)【国際公開日】2022-08-04

(31)【優先権主張番号】202110118922.2

(32)【優先日】2021-01-28

(33)【優先権主張国・地域又は機関】CN

(81)【指定国・地域】

(71)【出願人】

【識別番号】517392436

【氏名又は名称】▲騰▼▲訊▼科技（深▲セン▼）有限公司

(74)【代理人】

【識別番号】100110364

【弁理士】

【氏名又は名称】実広信哉

(74)【代理人】

【識別番号】100150197

【弁理士】

【氏名又は名称】松尾直樹

(72)【発明者】

【氏名】宋奕兵

(72)【発明者】

【氏名】葛崇▲劍▼

【テーマコード（参考）】

5B050

5L096

【Ｆターム（参考）】

5B050AA10

5B050BA06

5B050BA12

5B050BA13

5B050CA01

5B050DA01

5B050EA12

5B050EA19

5B050FA02

5L096FA06

5L096FA37

5L096GA10

5L096HA11

5L096JA11

5L096KA04

5L096MA03

(57)【要約】

本願は、画像生成方法、装置、コンピュータ機器、及びコンピュータ可読記憶媒体を開示しており、画像処理の技術分野に属する。前記方法は、ターゲット人体が含まれる第１人体画像と、ターゲット衣類が含まれる第１衣類画像とを取得するステップと、第１人体画像におけるターゲット人体の姿勢に基づいて、第１衣類画像を変換することにより、第２衣類画像を取得するステップであって、第２衣類画像には、ターゲット衣類が含まれ、ターゲット衣類の姿勢がターゲット人体の姿勢にマッチしている、ステップと、第２衣類画像と、第１人体画像における露出領域の画像と、第１人体画像とのそれぞれに対して特徴抽出を行うことにより、衣類特徴、皮膚特徴、及び人体特徴を取得するステップであって、露出領域は、第１人体画像におけるターゲット人体の、衣類によって遮蔽されていない領域である、ステップと、衣類特徴、皮膚特徴、及び人体特徴に基づいて、第２人体画像を生成するステップであって、第２人体画像において、ターゲット人体がターゲット衣類を着用している、ステップと、を含む。

【特許請求の範囲】

【請求項1】

コンピュータ機器が実行する画像生成方法であって、
ターゲット人体が含まれる第１人体画像と、ターゲット衣類が含まれる第１衣類画像とを取得するステップと、
前記第１人体画像における前記ターゲット人体の姿勢に基づいて、前記第１衣類画像を変換することにより、第２衣類画像を取得するステップであって、前記第２衣類画像には、前記ターゲット衣類が含まれ、前記ターゲット衣類の姿勢が前記ターゲット人体の姿勢にマッチしている、ステップと、
前記第２衣類画像と、前記第１人体画像における露出領域の画像と、前記第１人体画像とのそれぞれに対して特徴抽出を行うことにより、衣類特徴、皮膚特徴、及び人体特徴を取得するステップであって、前記露出領域は、前記第１人体画像における前記ターゲット人体の、衣類によって遮蔽されていない領域である、ステップと、
前記衣類特徴、前記皮膚特徴、及び前記人体特徴に基づいて、第２人体画像を生成するステップであって、前記第２人体画像において、前記ターゲット人体が前記ターゲット衣類を着用している、ステップと、
を含むことを特徴とする画像生成方法。

【請求項2】

前記第１人体画像における前記ターゲット人体の姿勢に基づいて、前記第１衣類画像を変換することにより、第２衣類画像を取得するステップは、
前記第１人体画像における前記ターゲット人体の姿勢と、前記第１衣類画像とに基づいて、第１領域画像を決定するステップであって、前記第１領域画像は、前記ターゲット人体が前記ターゲット衣類を着用している場合の前記ターゲット衣類の遮蔽領域を示すためのものである、ステップと、
前記第１領域画像に基づいて前記第１衣類画像を変換することにより、前記第２衣類画像を取得するステップと、
を含むことを特徴とする請求項１に記載の画像生成方法。

【請求項3】

前記第１人体画像における前記ターゲット人体の姿勢と、前記第１衣類画像とに基づいて、第１領域画像を決定するステップは、
前記第１人体画像に対して人体領域認識を行って、同じ身体領域に属する、前記第１人体画像における画素点を同じ画素値に設定することにより、人体セマンティック画像を取得するステップであって、前記人体セマンティック画像は、前記ターゲット人体の姿勢を示すためのものである、ステップと、
前記人体セマンティック画像及び前記第１衣類画像に基づいて、前記第１領域画像を決定するステップと、
を含むことを特徴とする請求項２に記載の画像生成方法。

【請求項4】

前記人体セマンティック画像及び前記第１衣類画像に基づいて、前記第１領域画像を決定するステップは、
前記人体セマンティック画像及び前記第１衣類画像を画像融合モデルの衣類領域予測ネットワークに入力するステップと、
前記衣類領域予測ネットワークによって、前記人体セマンティック画像に対応する人体姿勢特徴と、前記第１衣類画像における前記ターゲット衣類の輪郭特徴とを抽出するステップと、
前記人体姿勢特徴と、前記ターゲット衣類の輪郭特徴とに基づいて、前記第１領域画像を決定するステップと、
を含むことを特徴とする請求項３に記載の画像生成方法。

【請求項5】

前記第１領域画像に基づいて前記第１衣類画像を変換することにより、前記第２衣類画像を取得するステップは、
前記第１領域画像及び前記第１衣類画像を画像融合モデルの空間変換ネットワークに入力するステップであって、前記空間変換ネットワークは、画像を変換するためのものである、ステップと、
前記空間変換ネットワークによって、前記第１衣類画像と第１マスク領域とのマッピング関係に基づいて、前記第１衣類画像を変換することにより、中間衣類画像を取得するステップであって、前記第１マスク領域は、前記第１衣類画像におけるターゲット衣類が位置する領域を示すためのものである、ステップと、
前記空間変換ネットワークによって、前記中間衣類画像に対応するテクスチャ特徴を決定するステップと、
前記テクスチャ特徴及び前記中間衣類画像に基づいて、前記第２衣類画像を生成するステップと、
を含むことを特徴とする請求項２に記載の画像生成方法。

【請求項6】

前記空間変換ネットワークによって、前記第１衣類画像と第１マスク領域とのマッピング関係に基づいて、前記第１衣類画像を変換することにより、中間衣類画像を取得するステップは、
前記第１マスク領域に基づいて前記ターゲット衣類の初期輪郭を決定し、前記第１領域画像に基づいて変換後の前記ターゲット衣類に対応するターゲット輪郭を決定するステップと、
前記初期輪郭及び前記ターゲット輪郭に基づいて、前記初期輪郭と前記ターゲット輪郭とのマッピング関係を決定するステップと、
前記マッピング関係に基づいて前記第１衣類画像を変換することにより、中間衣類画像を取得するステップと、
を含むことを特徴とする請求項５に記載の画像生成方法。

【請求項7】

前記空間変換ネットワークは、衣類生成サブネットワークを含み、
前記空間変換ネットワークによって、前記中間衣類画像に対応するテクスチャ特徴を決定するステップは、
前記衣類生成サブネットワークに基づいて、予め学習された衣類細部特徴に従って、前記中間衣類画像に対して特徴抽出を行うことにより、前記中間衣類画像に対応するテクスチャ特徴を取得するステップ
を含むことを特徴とする請求項５に記載の画像生成方法。

【請求項8】

前記第２衣類画像と、前記第１人体画像における露出領域の画像と、前記第１人体画像とのそれぞれに対して特徴抽出を行うことにより、衣類特徴、皮膚特徴、及び人体特徴を取得するステップは、
画像融合モデルの衣類符号化ネットワークによって、前記第２衣類画像に対して特徴抽出を行うことにより、前記衣類特徴を取得するステップと、
前記画像融合モデルの皮膚符号化ネットワークによって、前記第１人体画像における露出領域の画像に対して特徴抽出を行うことにより、前記皮膚特徴を取得するステップと、
前記画像融合モデルのポートレート符号化ネットワークによって、前記第１人体画像に対して特徴抽出を行うことにより、前記人体特徴を取得するステップと、
を含むことを特徴とする請求項１に記載の画像生成方法。

【請求項9】

前記衣類特徴、前記皮膚特徴、及び前記人体特徴に基づいて、第２人体画像を生成するステップは、
前記衣類特徴、前記皮膚特徴、及び前記人体特徴を連結することにより、連結特徴を取得するステップと、
前記連結特徴に基づいて復号化を行うことにより、前記第２人体画像を生成するステップと、
を含むことを特徴とする請求項１に記載の画像生成方法。

【請求項10】

前記衣類特徴、前記皮膚特徴、及び前記人体特徴のいずれにも、少なくとも２つのスケールのサブ特徴が含まれ、
前記衣類特徴、前記皮膚特徴、及び前記人体特徴を連結することにより、連結特徴を取得するステップは、
前記衣類特徴、前記皮膚特徴、及び前記人体特徴における同じスケールのサブ特徴をそれぞれ連結することにより、少なくとも２つの連結サブ特徴を取得するステップと、
前記少なくとも２つの連結サブ特徴を連結することにより、前記連結特徴を取得するステップと、
を含むことを特徴とする請求項９に記載の画像生成方法。

【請求項11】

前記第２衣類画像取得ステップ、前記特徴抽出ステップ、及び前記第２人体画像生成ステップは、画像融合モデルによって実行される、
ことを特徴とする請求項１に記載の画像生成方法。

【請求項12】

第１初期モデル及び第２初期モデルを取得するステップであって、前記第１初期モデル及び第２初期モデルの構造が同じである、ステップと、
第１人体が含まれる第１サンプル人体画像と、第１衣類が含まれる第１サンプル衣類画像と、第２衣類が含まれる第２サンプル衣類画像とを取得するステップであって、前記第１サンプル人体画像において、前記第１人体が前記第１衣類を着用している、ステップと、
前記第１初期モデルによって、前記第１サンプル人体画像及び前記第２サンプル衣類画像に対して画像融合を行うことにより、第２サンプル人体画像を生成するステップであって、前記第２サンプル人体画像において、前記第１人体が前記第２衣類を着用している、ステップと、
前記第２初期モデルによって、前記第２サンプル人体画像及び前記第１サンプル衣類画像に対して画像融合を行うことにより、ターゲットサンプル人体画像を生成するステップであって、前記ターゲットサンプル人体画像において、前記第１人体が前記第１衣類を着用している、ステップと、
前記第１サンプル人体画像と前記第２サンプル人体画像との誤差、前記第１サンプル人体画像と前記ターゲットサンプル人体画像との誤差に基づいて、前記第１初期モデルを訓練するステップと、
前記第２サンプル人体画像と前記ターゲットサンプル人体画像との誤差、前記第１サンプル人体画像と前記ターゲットサンプル人体画像との誤差に基づいて、前記第２初期モデルを訓練するステップと、
前記第１初期モデル及び前記第２初期モデルのいずれもモデル訓練条件を満たすイベントに応答して、訓練済みの前記第２初期モデルを画像融合モデルとして取得するステップと、
をさらに含むことを特徴とする請求項１１に記載の画像生成方法。

【請求項13】

前記第１サンプル人体画像と前記第２サンプル人体画像との誤差、前記第１サンプル人体画像と前記ターゲットサンプル人体画像との誤差に基づいて、前記第１初期モデルを訓練するステップは、
前記第１サンプル人体画像と前記第２サンプル人体画像との画素値分布差異に基づいて、第１誤差を決定するステップと、
前記第１サンプル人体画像に対応する画素値行列と、前記第２サンプル人体画像に対応する画素値行列との誤差を第２誤差として決定するステップと、
前記第１サンプル人体画像に対応する画素値行列と、前記ターゲットサンプル人体画像に対応する画素値行列との誤差を第３誤差として決定するステップと、
前記第１サンプル人体画像における衣類領域の画像特徴と、ターゲットサンプル人体画像における衣類領域の画像特徴との誤差を第４誤差として決定するステップと、
前記第１誤差、前記第２誤差、前記第３誤差、及び前記第４誤差に基づいて、前記第１初期モデルのモデルパラメータを調整するステップと、
を含むことを特徴とする請求項１２に記載の画像生成方法。

【請求項14】

前記第１誤差、前記第２誤差、前記第３誤差、及び前記第４誤差に基づいて、前記第１初期モデルのモデルパラメータを調整するステップは、
前記第１誤差、前記第２誤差、前記第３誤差、及び前記第４誤差を前記第１初期モデルに逆伝播し、前記第１初期モデルにおける各演算層のパラメータの解を求めるステップと、
解を求めた結果に基づいて、前記第１初期モデルにおける各演算層のパラメータを調整するステップと、
を含むことを特徴とする請求項１３に記載の画像生成方法。

【請求項15】

前記第２サンプル人体画像と前記ターゲットサンプル人体画像との誤差、前記第１サンプル人体画像と前記ターゲットサンプル人体画像との誤差に基づいて、前記第２初期モデルを訓練するステップは、
前記第２サンプル人体画像と前記ターゲットサンプル人体画像との画素値分布差異に基づいて、第５誤差を決定するステップと、
前記第２サンプル人体画像に対応する画素値行列と、前記ターゲットサンプル人体画像に対応する画素値行列との誤差を第６誤差として決定するステップと、
前記第１サンプル人体画像に対応する画素値行列と、前記ターゲットサンプル人体画像に対応する画素値行列との誤差を第７誤差として決定するステップと、
前記第１サンプル人体画像における衣類領域の画像特徴と、ターゲットサンプル人体画像における衣類領域の画像特徴との誤差を第８誤差として決定するステップと、
前記第５誤差、前記第６誤差、前記第７誤差、及び前記第８誤差に基づいて、前記第２初期モデルのモデルパラメータを調整するステップと、
を含むことを特徴とする請求項１２に記載の画像生成方法。

【請求項16】

画像生成装置であって、
ターゲット人体が含まれる第１人体画像と、ターゲット衣類が含まれる第１衣類画像とを取得する第１取得モジュールと、
前記第１人体画像における前記ターゲット人体の姿勢に基づいて、前記第１衣類画像を変換することにより、第２衣類画像を取得する衣類変換モジュールであって、前記第２衣類画像には、前記ターゲット衣類が含まれ、前記ターゲット衣類の姿勢が前記ターゲット人体の姿勢にマッチしている、衣類変換モジュールと、
前記第２衣類画像と、前記第１人体画像における露出領域の画像と、前記第１人体画像とのそれぞれに対して特徴抽出を行うことにより、衣類特徴、皮膚特徴、及び人体特徴を取得する特徴抽出モジュールであって、前記露出領域は、前記第１人体画像における前記ターゲット人体の、衣類によって遮蔽されていない領域である、特徴抽出モジュールと、
前記衣類特徴、前記皮膚特徴、及び前記人体特徴に基づいて、第２人体画像を生成する第１生成モジュールであって、前記第２人体画像において、前記ターゲット人体が前記ターゲット衣類を着用している、第１生成モジュールと、
を含むことを特徴とする画像生成装置。

【請求項17】

コンピュータ可読命令を記憶したメモリと、１つ又は複数のプロセッサと、を備えるコンピュータ機器であって、前記１つ又は複数のプロセッサは、前記コンピュータ可読命令を実行すると、請求項１乃至１５のいずれか１項に記載の画像生成方法のステップを実現することを特徴とするコンピュータ機器。

【請求項18】

コンピュータ可読命令を記憶した１つ又は複数の不揮発性コンピュータ可読記憶媒体であって、前記コンピュータ可読命令は、１つ又は複数のプロセッサによって実行されると、請求項１乃至１５のいずれか１項に記載の画像生成方法のステップを実現させることを特徴とする記憶媒体。

【請求項19】

コンピュータ可読命令を含むコンピュータプログラム製品であって、前記コンピュータ可読命令は、１つ又は複数のプロセッサによって実行されると、請求項１乃至１５のいずれか１項に記載の画像生成方法のステップを実現させることを特徴とするコンピュータプログラム製品。

【発明の詳細な説明】

【技術分野】

【0001】

本願は、２０２１年１月２８日に中国特許庁に提出された、出願番号が第２０２１１０１１８９２２．２号であり、発明の名称が「画像生成方法、装置、コンピュータ機器、及びコンピュータ可読記憶媒体」である中国特許出願に基づく優先権を主張し、その全ての内容が、参照することにより本願に組み込まれている。

【0002】

本願は、画像処理の技術分野に関し、特に画像生成方法、装置、コンピュータ機器、コンピュータ可読記憶媒体、及びコンピュータプログラム製品に関する。

【背景技術】

【0003】

バーチャル着せ替えとは、画像融合技術を使用して、ユーザの人体画像と、ターゲット衣類が含まれる衣類画像とを融合することにより、ユーザが該ターゲット衣類を着用している画像を取得することを指す。これにより、ユーザは、実際にターゲット衣類を試着することなく、ターゲット衣類の着用効果を知ることができる。

【0004】

現在、バーチャル着せ替えプロセスでは、通常、画像融合モデルを使用して、人体画像及び衣類画像のそれぞれに対して特徴抽出を行い、抽出した２つの画像特徴に基づいて、新たな画像、即ち、ユーザがターゲット衣類を着用している画像を生成する。しかしながら、上記のプロセスでは、画像融合モデルによって抽出されたのが大まかな画像特徴であるため、画像生成時に新たに生成された画像に細部情報が欠落しやすく、さらに画像生成効果の歪みにつながり、バーチャル着せ替えの効果が悪い。

【発明の概要】

【発明が解決しようとする課題】

【0005】

本願の実施例は、画像生成方法、装置、コンピュータ機器、コンピュータ可読記憶媒体、及びコンピュータプログラム製品を提供する。

【課題を解決するための手段】

【0006】

コンピュータ機器が実行する画像生成方法であって、
ターゲット人体が含まれる第１人体画像と、ターゲット衣類が含まれる第１衣類画像とを取得するステップと、
該第１人体画像における該ターゲット人体の姿勢に基づいて、該第１衣類画像を変換することにより、第２衣類画像を取得するステップであって、該第２衣類画像には、該ターゲット衣類が含まれ、該ターゲット衣類の姿勢が該ターゲット人体の姿勢にマッチしている、ステップと、
該第２衣類画像と、該第１人体画像における露出領域の画像と、該第１人体画像とのそれぞれに対して特徴抽出を行うことにより、衣類特徴、皮膚特徴、及び人体特徴を取得するステップであって、該露出領域は、該第１人体画像における該ターゲット人体の、衣類によって遮蔽されていない領域である、ステップと、
該衣類特徴、該皮膚特徴、及び該人体特徴に基づいて、第２人体画像を生成するステップであって、該第２人体画像において、該ターゲット人体が該ターゲット衣類を着用している、ステップと、を含む。

【0007】

画像生成装置であって、
ターゲット人体が含まれる第１人体画像と、ターゲット衣類が含まれる第１衣類画像とを取得する第１取得モジュールと、
該第１人体画像における該ターゲット人体の姿勢に基づいて、該第１衣類画像を変換することにより、第２衣類画像を取得する衣類変換モジュールであって、該第２衣類画像には、該ターゲット衣類が含まれ、該ターゲット衣類の姿勢が該ターゲット人体の姿勢にマッチしている、衣類変換モジュールと、
該第２衣類画像と、該第１人体画像における露出領域の画像と、該第１人体画像とのそれぞれに対して特徴抽出を行うことにより、衣類特徴、皮膚特徴、及び人体特徴を取得する特徴抽出モジュールであって、該露出領域は、該第１人体画像における該ターゲット人体の、衣類によって遮蔽されていない領域である、特徴抽出モジュールと、
該衣類特徴、該皮膚特徴、及び該人体特徴に基づいて、第２人体画像を生成する第１生成モジュールであって、該第２人体画像において、該ターゲット人体が該ターゲット衣類を着用している、第１生成モジュールと、を含む。

【0008】

コンピュータ可読命令を記憶したメモリと、１つ又は複数のプロセッサと、を備えるコンピュータ機器であって、前記コンピュータ可読命令は、前記１つ又は複数のプロセッサによって実行されると、前記１つ又は複数のプロセッサに上記の画像生成方法のステップを実行させる。

【0009】

コンピュータ可読命令を記憶した１つ又は複数の不揮発性コンピュータ可読記憶媒体であって、前記コンピュータ可読命令は、１つ又は複数のプロセッサによって実行されると、前記１つ又は複数のプロセッサに上記の画像生成方法のステップを実行させる。

【0010】

コンピュータ可読命令を含むコンピュータプログラム製品又はコンピュータプログラムであって、前記コンピュータ可読命令は、コンピュータ可読記憶媒体に記憶されており、コンピュータ機器のプロセッサは、前記コンピュータ可読記憶媒体から前記コンピュータ可読命令を読み取り、前記プロセッサが前記コンピュータ可読命令を実行することで、前記コンピュータ機器に上記の画像生成方法のステップを実行させる。

【0011】

本願の１つ又は複数の実施例の細部は、以下の図面及び説明に記載されている。本願の他の特徴、目的、及び利点は、明細書、図面、及び特許請求の範囲から明らかになる。

【図面の簡単な説明】

【0012】

本願の実施例の構成をより明確に説明するために、以下に、実施例の説明に必要な図面を簡単に紹介する。明らかに、以下の説明における図面は本願のいくつかの実施例を示しているに過ぎず、当業者であれば、創造的な労働をすることなく、これらの図面から他の図面を得ることもできる。

【0013】

【図1】本願の一実施例で提供される画像生成方法の実施環境の模式図である。

【図2】本願の一実施例で提供される画像生成方法のフローチャートである。

【図3】本願の一実施例で提供される画像融合モデルの模式図である。

【図4】本願の他の実施例で提供される画像生成方法のフローチャートである。

【図5】本願の一実施例で提供される画像融合モデルの模式図である。

【図6】本願の一実施例で提供される空間変換ネットワークの模式図である。

【図7】本願の一実施例で提供される特徴連結の模式図である。

【図8】本願の一実施例で提供される復号化ネットワークの模式図である。

【図9】本願の一実施例で提供される画像融合モデルの訓練方法のフローチャートである。

【図10】本願の一実施例で提供されるモデル訓練方法の模式図である。

【図11】本願の一実施例で提供される画像生成装置の構成の模式図である。

【図12】本願の一実施例で提供される端末の構成の模式図である。

【図13】本願の一実施例で提供されるサーバの構成の模式図である。

【発明を実施するための形態】

【0014】

本願の目的、構成、及びメリットをより明確にするために、以下、図面を参照しながら、本願の実施形態をさらに詳しく説明する。明らかなように、説明する実施例は、本願の一部の実施例に過ぎず、全部の実施例ではない。当業者が創造的な労働をせずに本願の実施例から得る全ての他の実施例は、本願の保護範囲に属する。

【0015】

本願における用語「第１」、「第２」などの表現は、役割及び機能がほぼ同じである同一項目又は類似項目を区別するために使用される。理解すべきものとして、「第１」、「第２」、「第ｎ」の間に論理的又は時系列的な依存関係はなく、数量及び実行順序も限定されない。

【0016】

人工知能技術は、総合的な学科であり、関連する分野が幅広く、ハードウェアレベルの技術もソフトウェアレベルの技術もある。人工知能の基礎技術には、一般的に、例えば、センサ、人工知能専用チップ、クラウドコンピューティング、分散記憶、ビッグデータ処理技術、操作／インタラクティブシステム、メカトロニクスなどの技術が含まれる。人工知能のソフトウェア技術は、主に、コンピュータビジョン技術、音声処理技術、自然言語処理技術、及び機械学習／深層学習などのいくつかの方面を含む。本願の実施例は、人工知能技術におけるコンピュータビジョン技術及び機械学習技術に関する。

【0017】

以下、本願に関連する用語を解釈する。

【0018】

空間変換ネットワーク（ＳＴＮ：ＳｐａｔｉａｌＴｒａｎｓｆｏｒｍｅｒＮｅｔｗｏｒｋ）とは、追加のデータラベルを導入することなく、ネットワーク内で、例えば、特徴マップなどのデータを空間的に変換することができる操作ネットワークである。

【0019】

薄板スプライン（ＴＰＳ：ＴｈｉｎＰｌａｔｅＳｐｌｉｎｅ）とは、画像変形（ｉｍａｇｅｗａｒｐｉｎｇ）などのタスクに使用でき、少量のコントロールポイントによって画像の変化を駆動する補間アルゴリズムである。

【0020】

生成器（Ｇｅｎｅｒａｔｏｒ）とは、ディープニューラルネットワークに基づいて構築された、画像を生成するためのネットワークを指す。その通常の構造は、ｅｎｃｏｄｅｒ－ｄｅｃｏｄｅｒ構造、即ちダウンサンプリング－アップサンプリング構造である。

【0021】

人体セマンティック情報とは、本願の実施例において、人体の各部位を異なる画素値で表す情報を指す。

【0022】

図１は、本願の実施例で提供される画像生成方法の実施環境の模式図である。図１を参照すると、この実施環境には、端末１１０及びサーバ１４０が含まれている。

【0023】

そのうち、端末１１０には、画像生成をサポートするアプリケーションがインストールされて実行され、例えば、該アプリケーションは、バーチャル着せ替えアプリケーション、電子商取引系アプリケーションである。該アプリケーションは、画像生成機能を呼び出して、ユーザの人体画像とターゲット衣類の画像とを融合することにより、新たな人体画像を生成することができ、この新たな人体画像は、該ユーザが該ターゲット衣類を着用している効果を呈することができる。いくつかの実施例において、該端末１１０は、スマートフォン、タブレットコンピュータ、ノートパソコン、デスクトップコンピュータ、ＩｏＴ機器、及びポータブルウェアラブルデバイスであってもよい。ＩｏＴ機器は、スマートＴＶ、スマートスピーカー、スマートエアコン、スマート車載機器などであってもよい。ポータブルウェアラブルデバイスは、スマートウォッチ、スマートブレスレット、ヘッドマウントデバイスなどであってもよい。いくつかの実施例において、該端末１１０は、スマートホームである。例えば、該端末１１０は、スマートミラー、スマートワードローブなどである。本願の実施例は、該端末１１０の機器タイプを限定しない。例示的に、端末１１０は、ユーザが使用する端末であり、端末１１０で実行されるアプリケーションには、ユーザアカウントが登録されている。端末１１０は、一般に複数の端末のうちの１つを指すことができ、本実施例では、端末１１０のみを例にして説明する。

【0024】

サーバ１４０は、１つのサーバ、複数のサーバ、クラウドコンピューティングプラットフォーム、及び仮想化センターのうちの少なくとも１種であってもよい。サーバ１４０は、画像生成をサポートするアプリケーションにバックエンドサービスを提供する。いくつかの実施例において、サーバ１４０は主要な画像生成作業を担当し、端末１１０は副次的な画像生成作業を担当するか、あるいは、サーバ１４０は副次的な画像生成作業を担当し、端末１１０は主要な画像生成作業を担当するか、あるいは、サーバ１４０又は端末１１０は、それぞれ、画像生成作業を単独で担当することができる。

【0025】

いくつかの実施例において、サーバ１４０は、アクセスサーバ、画像生成サーバ、及びデータベースを含む。アクセスサーバは、端末１１０にデータアクセスサービスを提供する。画像生成サーバは、画像生成に関するバックエンドサービスを提供する。該画像生成サーバは、グラフィック処理ユニットを搭載することができ、グラフィック処理ユニットのマルチスレッド並列計算をサポートする。画像生成サーバは、１つ又は複数であってもよい。画像生成サーバが複数である場合、異なるサービスを提供するための少なくとも２つの画像生成サーバがあり、及び／又は、同じサービスを提供する（例えば、負荷分散で同じサービスを提供する）ための少なくとも２つの画像生成サーバがある。本願の実施例はこれを限定しない。画像生成サーバには、画像融合モデルが設けられてもよい。モデルの訓練及び使用のプロセスにおいて、該画像生成サーバは、グラフィック処理ユニット（ＧＰＵ：ＧｒａｐｈｉｃｓＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）を搭載することができ、グラフィック処理ユニットの並列計算をサポートする。ここで、上記サーバは、独立した物理サーバであってもよく、複数の物理サーバからなるサーバクラスタ又は分散型システムであってもよく、クラウドサービス、クラウドデータベース、クラウドコンピューティング、クラウド関数、クラウドストレージ、ネットワークサービス、クラウド通信、ミドルウェアサービス、ドメイン名サービス、セキュリティサービス、コンテンツデリバリネットワーク（ＣＤＮ：ＣｏｎｔｅｎｔＤｅｌｉｖｅｒｙＮｅｔｗｏｒｋ）、及び、ビッグデータや人工知能プラットフォームなどのベースクラウドコンピューティングサービスを提供するクラウドサーバであってもよい。

【0026】

上記の端末１１０と画像生成プラットフォーム１４０は、有線又は無線の通信方式によって、直接又は間接的に接続されてもよい。本願の実施例はこれを限定しない。

【0027】

いくつかの実施例において、上記の実施環境は、ブロックチェーンシステムに配置されてもよい。例示的に、上記サーバは、ブロックチェーンにおけるノード機器であり、該サーバには、画像生成モデルが搭載されており、端末は、バーチャル着せ替えイベントに応答して、ブロックチェーンシステムにおける該サーバにバーチャル着せ替え指示を送信する。ここで、バーチャル着せ替えイベントは、ユーザが端末とのインタラクションによってトリガするバーチャル着せ替え操作であってもよいし、端末が検出機器によってトリガ条件に適合することを検出したときに自動的にトリガするイベントであってもよい。該バーチャル着せ替え指示には、ユーザの秘密鍵の署名が付されており、サーバは、該ユーザの公開鍵を使用して該バーチャル着せ替え指示を検証し、検証合格に応答して、サーバ内の画像生成モデルによって、該バーチャル着せ替え指示に基づいてバーチャル着せ替えタスクを実行する。説明すべきものとして、上記端末も、ブロックチェーンシステムにおけるノード機器であってもよい。本願の実施例はこれを限定しない。

【0028】

本願の実施例で提供される画像生成方法は、様々な応用シナリオと組み合わせることができる。例えば、電子商取引系アプリケーションにおいて、アプリケーションに展示された衣類をユーザが試着する必要がある場合、コンピュータ機器は、該画像生成機能を呼び出し、ユーザの人体画像と試着対象衣類の衣類画像とに基づいて新たな人体画像を生成することができ、この新たな人体画像は、ユーザが該試着対象衣類を着用している効果を呈することができる。もちろん、本願の実施例で提供される画像生成方法は、スマートミラーやスマートワードローブなどのスマートホームにも適用可能である。本願の実施例は、該画像生成方法の応用シナリオを限定しない。

【0029】

具体的には、コンピュータ機器は、ターゲット人体の姿勢に基づいて、オリジナルの第１衣類画像を変換することにより、ターゲット人体の姿勢に合って大量の細部情報を保持する第２衣類画像を取得し、異なる特徴抽出タスクに基づいて、それぞれ異なる次元で第２衣類画像及び第１人体画像に対して特徴抽出を行うことにより、衣類特徴、皮膚特徴、及び人体特徴を取得し、つまり、３つの異なる次元の、より細かい粒度の、より精確な特徴を取得する。これにより、これらの特徴に基づいて生成された第２人体画像には、より豊富な細部情報を含めることができ、第２人体画像は、高い真実性を有し、良好なバーチャル着せ替え効果が確保される。

【0030】

図２は、本願の実施例で提供される画像生成方法のフローチャートである。該方法は、上記の端末又はサーバに適用可能であるが、端末及びサーバは、いずれもコンピュータ機器と見なすことができる。このため、本願の実施例では、コンピュータ機器を実行主体として、該画像生成方法を紹介する。図２を参照すると、該実施例は、具体的に以下のステップを含んでもよい。

【0031】

２０１では、コンピュータ機器が、ターゲット人体が含まれる第１人体画像と、ターゲット衣類が含まれる第１衣類画像とを取得する。

【0032】

ここで、該第１人体画像は、ターゲット人体の全身画像又は半身画像であってもよい。第１衣類画像は、人体における着用部位が、ターゲット人体の第１人体画像に展示された人体領域にマッチしている。例えば、該第１人体画像は、ターゲット人体の上半身画像であり、該第１衣類画像は、上半身衣類に対応する画像（例えば、トップスの画像）である。また、例えば、該第１人体画像は、ターゲット人体の下半身画像であり、該第１衣類画像は、例えばズボンの画像やハーフスカートの画像などの下半身衣類画像である。また、例えば、該第１人体画像は、ターゲット人体の全身画像であり、該第１衣類画像は、例えばワンピースの画像などの全身衣類画像である。該第１人体画像及び第１衣類画像は、コンピュータ機器に記憶された画像であってもよく、コンピュータ機器がビデオからキャプチャした画像であってもよく、画像収集機能を有する機器によってリアルタイムで収集された画像であってもよい。例えば、コンピュータ機器がカメラに接続され、カメラがリアルタイムで撮影した画像を該コンピュータ機器に送信するか、あるいは、該コンピュータ機器にカメラが配置されており、該カメラによって画像をリアルタイムで収集する。本願の実施例は、具体的にどのような画像を使用するかを限定しない。

【0033】

２０２では、コンピュータ機器が、該第１人体画像における該ターゲット人体の姿勢に基づいて、該第１衣類画像を変換することにより、第２衣類画像を取得し、該第２衣類画像には、該ターゲット衣類が含まれ、該ターゲット衣類の姿勢が該ターゲット人体の姿勢にマッチしている。

【0034】

本願の実施例において、コンピュータ機器は、ターゲット人体の姿勢に基づいて、ターゲット衣類の姿勢がターゲット人体の姿勢に合うように、ターゲット衣類が含まれる第１衣類画像を変換することにより、ターゲット衣類の細部情報を十分に保持する第２衣類画像を取得する。これにより、その後第２衣類に対して特徴抽出を行う際に、豊富な細部特徴を抽出することができる。

【0035】

２０３では、コンピュータ機器が、該第２衣類画像と、該第１人体画像における露出領域の画像と、該第１人体画像とのそれぞれに対して特徴抽出を行うことにより、衣類特徴、皮膚特徴、及び人体特徴を取得し、該露出領域が、該第１人体画像における該ターゲット人体の、衣類によって遮蔽されていない領域である。

【0036】

１つの可能な実現形態では、該コンピュータ機器が、複数の次元で、該第２衣類画像及び該第２人体画像に対して特徴抽出を行うことにより、衣類特徴、皮膚特徴、及び人体特徴を取得する。例示的に、特徴抽出タスクに対してタスク分解を行って、３つの次元の特徴抽出サブタスクに分解し、即ち、コンピュータ機器が、衣類次元、皮膚次元、及び全体ポートレート次元のそれぞれで特徴抽出を行うことにより、衣類特徴、皮膚特徴、及び人体特徴を取得する。本願の実施例では、タスク分解によって、各次元の特徴をそれぞれ抽出する。これにより、一方で、より全面的な、より細かい粒度の特徴を抽出することができ、他方で、各特徴抽出サブタスクを別々に実行することで、コンピュータ機器の特徴抽出時のデータ処理の負担を軽減することもできる。

【0037】

２０４では、コンピュータ機器が、該衣類特徴、該皮膚特徴、及び該人体特徴に基づいて、第２人体画像を生成し、該第２人体画像において、該ターゲット人体が該ターゲット衣類を着用している。

【0038】

１つの可能な実現形態において、該コンピュータ機器は、複数の次元の特徴、即ち、衣類特徴、皮膚特徴、及び人体特徴を連結することにより、連結特徴を取得してもよい。連結特徴には、衣類の細部情報、人体皮膚情報、及び人体グローバル細部情報が含まれる。コンピュータ機器は、バーチャル着せ替えの効果を達成するために、該連結特徴を復号化することにより、該ユーザが該ターゲット衣類を着用している人体画像、即ち、第２人体画像を生成してもよい。

【0039】

【0040】

上記の実施例は、本願の実施形態の簡単な紹介である。１つの可能な実現形態において、上記第２衣類画像の取得ステップ、特徴抽出ステップ、及び第２人体画像の生成ステップは、画像融合モデルによって実行されてもよい。該画像融合モデルは、訓練済みのモデルである。該画像融合モデルは、コンピュータ機器に記憶されたモデルであってもよいし、ネットワークにおけるモデルであってもよい。図３は、本願の実施例で提供される画像融合モデルの模式図である。図３を参照すると、該画像融合モデルは、衣類領域予測ネットワーク３０１と、空間変換ネットワーク３０２と、衣類符号化ネットワーク３０３と、皮膚符号化ネットワーク３０４と、ポートレート符号化ネットワーク３０５と、復号化ネットワーク３０６と、を含む。そのうち、該衣類領域予測ネットワーク３０１は、ターゲット人体がターゲット衣類を着用している場合の該ターゲット衣類のカバー領域を決定し、空間変換ネットワーク３０２は、ターゲット人体の姿勢に基づいて、衣類画像のアフィン変換を行い、衣類符号化ネットワーク３０３、皮膚符号化ネットワーク３０４、及びポートレート符号化ネットワーク３０５は、異なる次元で人体画像及び衣類画像の特徴を抽出し、復号化ネットワーク３０６は、抽出された複数の次元の特徴を復号化することにより、新たな人体画像を生成する。説明すべきものとして、上記の画像融合モデルの説明は、例示的な説明に過ぎない。本願の実施例は、該画像融合モデルの構造を限定しない。本願の実施例では、図３に示された画像融合モデルによる画像生成プロセスのみを例にして説明する。図４は、本願の実施例で提供される画像生成方法のフローチャートである。以下、図３及び図４を参照しながら、画像生成方法を説明する。１つの可能な実現形態において、該画像生成方法は、以下のステップを含む。

【0041】

４０１では、コンピュータ機器が、ターゲット人体が含まれる第１人体画像と、ターゲット衣類が含まれる第１衣類画像とを取得する。

【0042】

１つの可能な実現形態において、コンピュータ機器は、バーチャル着せ替え指示に応答して、第１人体画像及び第１衣類画像を取得する。例示的に、該コンピュータ機器は、ユーザが使用する端末であり、該コンピュータ機器で実行されるターゲットアプリケーションは、バーチャル着せ替え機能をサポートする。例えば、該ターゲットアプリケーションは、電子商取引アプリケーションである。コンピュータ機器は、ユーザが該電子商取引アプリケーションにおいてトリガしたバーチャル着せ替え指示に応答して、第１人体画像及び第１衣類画像を取得する。ここで、該第１人体画像は、該コンピュータ機器に予め記憶された画像であってもよく、コンピュータ機器がカメラによってリアルタイムで撮影した画像であってもよい。該第１衣類画像は、コンピュータ機器に予め記憶された画像であってもよく、電子商取引アプリケーションにおける画像、即ち、ユーザが該電子商取引アプリケーションにおいて選択したターゲット衣類に対応する画像であってもよい。説明すべきものとして、本願の実施例は、該第１人体画像及び第１衣類画像の取得方法を限定しない。

【0043】

１つの可能な実現形態において、コンピュータ機器は、該第１人体画像及び第１衣類画像を取得した後、該第１人体画像及び第１衣類画像に対して前処理を行ってもよい。例示的に、コンピュータ機器が該第１人体画像及び第１衣類画像に対して行う前処理は、画像サイズの調整、画像強化処理のうちの少なくとも１つであってもよい。そのうち、画像強化処理は、画像の無駄な情報を抑制し、画像の視覚効果を改善し、機器による分析処理により適した形態に画像を調整するために、画像に対してノイズ低減やコントラスト強化などの処理のうちの少なくとも１つを行ってもよい。

【0044】

４０２では、コンピュータ機器が、該第１人体画像におけるターゲット人体の姿勢と、該第１衣類画像とに基づいて、第１領域画像を決定する。

【0045】

ここで、該第１領域画像は、該ターゲット人体が該ターゲット衣類を着用している場合の該ターゲット衣類の遮蔽領域を示すためのものである。例示的に、該第１領域画像は、２値化マスク画像であってもよく、該ターゲット衣類の遮蔽領域の画素点は、第１数値として表され、他の領域の画素点は、第２数値として表される。

【0046】

１つの可能な実現形態において、コンピュータ機器は、まず、該第１人体画像に対して人体領域認識を行って、同じ身体領域に属する、該第１人体画像における画素点を同じ画素値に設定することにより、人体セマンティック画像を取得してから、該人体セマンティック画像及び該第１衣類画像に基づいて、該第１領域画像を決定する。ここで、該人体セマンティック画像は、該ターゲット人体の姿勢を示すためのものであり、コンピュータ機器は、該人体セマンティック画像に基づいて、ターゲット人体の各身体領域を区別することができる。

【0047】

１つの可能な実現形態において、コンピュータ機器は、人体領域認識ネットワークによって、該人体セマンティック画像を取得する。ここで、該人体領域認識ネットワークは、畳み込みニューラルネットワークに基づいて構築されたものであり、人体セマンティック特徴を抽出するための演算層を少なくとも１つ含む。例えば、該人体領域認識ネットワークは、全畳み込みネットワーク（ＦＣＮ：ＦｕｌｌｙＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｔｗｏｒｋｓ）であってもよい。本願は、該人体領域認識ネットワークの構造を限定しない。例示的に、コンピュータ機器は、第１人体画像を該人体領域認識ネットワークに入力し、該人体領域認識ネットワークにおける少なくとも１つの畳み込み層によって、該第１人体画像に対して特徴抽出を行い、最後の畳み込み層から出力された特徴マップを逆畳み込みでアップサンプリングして、該特徴マップを該第１人体画像と同じサイズに復元し、アップサンプリングされた特徴マップに基づいて画素点を分類して、各画素点が属する身体領域を決定することにより、該人体セマンティック画像を取得する。上記の人体セマンティック画像の取得方法の説明は、１つの可能な実現形態の例示的な説明に過ぎない。具体的にどのような方法によって人体セマンティック画像を取得するかについて、本願の実施例は限定しない。

【0048】

説明すべきものとして、１つの可能な実現形態では、上記人体領域認識ネットワークが画像融合モデルに含まれてもよい。図５は、本願の実施例で提供される画像融合モデルの模式図である。図５に示すように、画像融合モデル５０１における衣類領域予測ネットワーク５０２の前に該人体領域認識ネットワーク５０３が設けられている。１つの可能な実現形態では、該人体領域認識ネットワークが画像融合モデルに含まれなくてもよい。即ち、コンピュータ機器は、第１人体画像及び第１衣類画像を取得した後、まず、該第１人体画像に基づいて人体セマンティック画像を取得してから、人体セマンティック画像及び該第１衣類画像を画像融合モデルに入力し、画像融合モデルによって後続の画像生成ステップを実行する。本願の実施例はこれを限定しない。

【0049】

１つの可能な実現形態において、コンピュータ機器は、人体セマンティック画像を取得した後、該人体セマンティック画像及び該第１衣類画像を画像融合モデルの衣類領域予測ネットワーク（ＭＰＮ：ＭａｓｋＰｒｅｄｉｃｔｉｏｎＮｅｔｗｏｒｋ）に入力する。ここで、該衣類領域予測ネットワークは、エンコーダ―デコーダ（ｅｎｃｏｄｅｒ－ｄｅｃｏｎｄｅｒ）構造として実現されてもよい。エンコーダ部分及びデコーダ部分のいずれにも複数の畳み込み層が含まれる。例示的に、コンピュータ機器は、該衣類領域予測ネットワークによって、該人体セマンティック画像に対応する人体姿勢特徴と、該第１衣類画像における該ターゲット衣類の輪郭特徴とを抽出し、即ち、該衣類領域予測ネットワークにおけるエンコーダ部分の畳み込み層によって、人体セマンティック画像及び第１衣類画像をダウンサンプリングする。コンピュータ機器は、該人体姿勢特徴と、該ターゲット衣類の輪郭特徴とに基づいて、該第１領域画像を決定し、即ち、該衣類領域予測ネットワークにおけるデコーダ部分の畳み込み層によって、エンコーダから出力された特徴をアップサンプリングすることにより、該第１領域画像を取得する。ここで、該第１領域画像において、該ターゲット人体が該ターゲット衣類を着用している場合、該ターゲット衣類の遮蔽領域の画素点は第１数値であり、他の領域の画素点は第２数値である。説明すべきものとして、上記の第１領域画像の取得方法の説明は、１つの可能な実現形態の例示的な説明に過ぎない。具体的にどのような方法によって該第１領域画像を取得するかについて、本願の実施例は限定しない。

【0050】

１つの可能な実現形態において、該衣類領域予測ネットワークは、第２領域画像を出力してもよい。該第２領域画像は、該ターゲット人体が該ターゲット衣類を着用している場合の該ターゲット人体画像の露出領域、即ち、露出した皮膚領域、例えば、手領域などを示すためのものである。図３に示すように、人体セマンティック画像Ｄ及び第１衣類画像Ｃが衣類予測ネットワークに入力され、該衣類予測ネットワークから、第１領域画像Ｍ^{ｃｌｏｔｈｅｓ}及び第２領域画像Ｍ^ｓｋｉｎが出力される。１つの可能な実現形態において、該第２画像領域は、後続の特徴抽出ステップに使用することができる。これにより、画像融合モデルは、例えば、皮膚領域の輪郭特徴や位置特徴などの露出した皮膚領域の特徴を決定することが可能になり、画像融合モデルがより正確に新たな人体画像を生成することは容易になる。

【0051】

本願の実施例では、まず第１領域画像を取得してから、即ち、まずターゲット衣類が呈した姿勢を決定してから、衣類のアフィン変換を行うことにより、衣類画像をターゲット人体の姿勢に合わせることができ、衣類のアフィン変換の精度を効果的に向上させ、アフィン変換によって得られる衣類画像の真実性を向上させる。

【0052】

４０３では、コンピュータ機器が、該第１領域画像に基づいて該第１衣類画像を変換することにより、第２衣類画像を取得する。

【0053】

本願の実施例において、コンピュータ機器は、画像融合モデルにおける空間変換ネットワークによって、該第１衣類を変換することにより、該第２衣類画像を取得してもよい。図６は、本願の実施例で提供される空間変換ネットワークの模式図である。図６に示すように、該空間変換ネットワークは、変換行列予測サブネットワーク６０１及び衣類生成サブネットワーク６０２を含む。例示的に、該変換行列予測サブネットワーク及び衣類生成サブネットワークのいずれにも複数の演算層が含まれる。該演算層は、畳み込み層やプーリング層などであってもよい。本願の実施例はこれを限定しない。ここで、該変換行列予測サブネットワークは、第１衣類画像のアフィン変換に使用するアフィン変換行列を決定し、該衣類生成サブネットワークは、衣類細部特徴を含み、衣類画像をさらに修飾することができる。

【0054】

以下、図６を参照しながら、該第２衣類画像の取得方法を説明する。１つの可能な実現形態において、コンピュータ機器は、該第１領域画像及び該第１衣類画像を画像融合モデルの空間変換ネットワークに入力し、該空間変換ネットワークによって、該第１衣類画像と該第１マスク領域とのマッピング関係に基づいて、該第１衣類画像を変換することにより、中間衣類画像を取得する。第１マスク領域は、第１衣類画像におけるターゲット衣類が位置する領域を示すためのものである。また、コンピュータ機器は、該空間変換ネットワークによって、該中間衣類画像に対応するテクスチャ特徴を決定し、該テクスチャ特徴及び該中間衣類画像に基づいて、該第２衣類画像を生成する。

【0055】

いくつかの実施例において、コンピュータ機器は、第１衣類画像を空間変換ネットワークに入力する前に、該第１衣類画像に対応する第１マスク領域、即ち、該第１衣類画像に対応する初期領域画像を取得してもよい。該初期領域画像は、該第１衣類画像における該ターゲット衣類が位置する領域を示すためのものである。該初期領域画像は、該第１領域画像の決定を補助するために使用される。

【0056】

いくつかの実施例において、コンピュータ機器は、第１マスク領域に基づいてターゲット衣類の初期輪郭を決定し、第１領域画像に基づいて変換後のターゲット衣類に対応するターゲット輪郭を決定し、初期輪郭及びターゲット輪郭に基づいて初期輪郭とターゲット輪郭とのマッピング関係を決定し、マッピング関係に基づいて第１衣類画像を変換することにより、中間衣類画像を取得する。

【0057】

いくつかの実施例において、コンピュータ機器は、該初期領域画像に基づいて衣類輪郭認識処理を行って、ターゲット衣類の初期輪郭を決定し、該第１領域図形に基づいて変換後のターゲット衣類に対応するターゲット輪郭を決定し、初期輪郭及びターゲット輪郭に対して輪郭の照合を行うことにより、該初期輪郭とターゲット輪郭とのマッピング関係、即ち、ターゲット衣類の変換前後の対応関係を取得する。該初期輪郭とターゲット輪郭とのマッピング関係は、コンピュータ機器がターゲット衣類を変換するプロセスにおいてターゲット衣類の形状を調整するのを補助することができる。

【0058】

図６に示すように、コンピュータ機器は、第１衣類画像Ｃ、初期領域画像Ｍ、及び第１領域画像Ｍ^{ｃｌｏｔｈｅｓ}を空間変換ネットワークに入力し、該空間変換ネットワークにおける変換行列予測サブネットワークによって、該第１衣類画像に対応するアフィン変換行列Ｔを予測し、薄板スプライン（ＴＰＳ：ＴｈｉｎＰｌａｔｅＳｐｌｉｎｅｓ）アルゴリズムを呼び出し、該アフィン変換行列Ｔに基づいて該第１衣類画像を変換することにより、即ち、該アフィン変換行列Ｔに基づいて該第１衣類画像における各画素点の位置を調整することにより、中間衣類画像Ｃ^ｒａｗを取得する。該中間衣類画像において、ターゲット衣類の姿勢がターゲット人体の姿勢に合っている。

【0059】

その中のいくつかの実施例において、空間変換ネットワークは、衣類生成サブネットワークを含み、コンピュータ機器は、衣類生成サブネットワークに基づいて、中間衣類画像をさらに修飾し、細部情報を追加することができる。コンピュータ機器は、前記衣類生成サブネットワークに基づいて、予め学習された衣類細部特徴に従って、前記中間衣類画像に対して特徴抽出を行うことにより、前記中間衣類画像に対応するテクスチャ特徴を取得する。

【0060】

１つの具体的な応用では、図６に示すように、テクスチャ特徴が含まれるテクスチャ特徴画像Ｍ^αと、中間衣類画像Ｃ^ｒａｗとが衣類生成サブネットワークから出力され、第２衣類画像Ｃ^ｗａｒｐが生成される。１つの可能な実現形態において、衣類生成サブネットワークに含まれる衣類細部特徴は、モデル訓練階段で学習されたものであってもよい。つまり、衣類生成サブネットワークは、予め学習された衣類細部特徴に基づいて、該中間衣類画像に対して特徴抽出を行うことにより、該中間衣類画像に対応するテクスチャ特徴を取得する。いくつかの実施例では、第１衣類画像を該衣類生成サブネットワークに入力し、該衣類生成サブネットワークによって、該第１衣類画像におけるターゲット衣類の衣類細部特徴を学習し、学習した衣類細部特徴に基づいて該テクスチャ特徴を予測してもよい。本願の実施例はこれを限定しない。説明すべきものとして、上記の第２衣類画像の取得方法の説明は、１つの可能な実現形態の例示的な説明に過ぎない。具体的にどのような方法によって該第２衣類画像を取得するかについて、本願の実施例は限定しない。本願の実施例では、衣類生成サブネットワークによって中間衣類画像をさらに修飾することにより、該ターゲット衣類のテクスチャを最大限に保持し、生成された第２衣類画像の視覚的効果をより自然にすることができる。

【0061】

説明すべきものとして、上記の衣類画像の変換方法の説明は、１つの可能な実現形態の例示的な説明に過ぎない。いくつかの実施例では、衣類の細部情報をより良く保持するために、アフィン変換の代わりにオプティカルフロー変換を使用してもよい。どのような方式によって衣類画像を変換するかについて、本願の実施例は限定しない。

【0062】

説明すべきものとして、上記のステップ４０２及びステップ４０３は、該第１人体画像における該ターゲット人体の姿勢に基づいて、該第１衣類画像を変換することにより、第２衣類画像を取得するステップであって、該第２衣類画像には、該ターゲット衣類が含まれ、該ターゲット衣類の姿勢が該ターゲット人体の姿勢にマッチしている、ステップである。本願の実施例では、まず、衣類のアフィン変換を行うことにより、人体の姿勢に合っている衣類画像を取得する。このプロセスでは、ターゲット人体の姿勢情報を正確に捉えることができるだけでなく、衣類の細部情報を十分に保持することもでき、例えば、衣類のテクスチャ情報、襟元、袖口などの細部情報を最大限に保持することができる。

【0063】

４０４では、コンピュータ機器が、第２衣類画像に対して特徴抽出を行うことにより、衣類特徴を取得する。

【0064】

本願の実施例において、コンピュータ機器は、画像融合モデルの衣類符号化ネットワークによって、該第２衣類画像に対して特徴抽出を行うことにより、衣類特徴を取得してもよい。１つの可能な実現形態において、該衣類符号化ネットワークは、ＲｅｓＵｎｅｔ（画像生成ネットワークの１つ）における符号化ネットワークの構造を採用してもよい。該衣類符号化ネットワークには、複数のカスケード演算層が含まれる。コンピュータ機器は、該複数のカスケード演算層によって、層ごとに第２衣類画像の特徴を抽出することにより、各演算層から出力された符号化ベクトルを衣類サブ特徴として取得する。各衣類サブ特徴には、第２衣類画像におけるターゲット衣類のグローバル特徴情報及び局所特徴情報が含まれる。該コンピュータ機器は、各衣類サブ特徴を、該ターゲット衣類に対応する衣類特徴とする。例示的に、各演算層から出力された衣類サブ特徴は、スケールが異なる。例えば、演算層の位置が前に寄るほど、出力される衣類サブ特徴は、スケールが大きくなり、より多くの衣類細部情報を保持することができ、演算層の位置が後ろに寄るほど、出力される衣類サブ特徴は、スケールが小さくなり、衣類のグローバル特徴を具現することができる。いくつかの実施例では、上記の衣類サブ特徴を全てベクトルの形で表すことができる。これにより、各衣類サブ特徴の表現形式の一貫性を確保し、特徴の統一的な表現を実現する。他のいくつかの実施例では、スケールが大きい衣類サブ特徴を行列の形で表し、スケールが小さい衣類サブ特徴をベクトルの形で表すことができる。これにより、異なるスケールの衣類サブ特徴の差異的な表現をより精確に行い、特徴表現の精度を向上させることができる。

【0065】

１つの可能な実現形態において、図３に示すように、該コンピュータ機器は、該第２衣類画像と、上記ステップ４０２で取得した第２領域画像とを全て衣類符号化ネットワークに入力し、衣類符号化ネットワークによって、第１衣類画像及び第２領域画像に基づいて後続の衣類特徴抽出ステップを実行してもよい。ここで、第２領域画像は、ターゲット人体が該ターゲット衣類を着用している場合の露出領域を正確に示すことができる。衣類特徴抽出プロセスでは、該第２領域画像を使用することにより、衣類符号化ネットワークがターゲット衣類とターゲット人体との相対的な位置関係、即ち、ターゲット人体に対するターゲット衣類の遮蔽状況を決定することを補助することができ、該衣類符号化ネットワークがより正確な衣類特徴を抽出することを可能にする。

【0066】

説明すべきものとして、上記の衣類特徴の取得方法の説明は、１つの可能な実現形態の例示的な説明に過ぎない。具体的にどのような方法によって該衣類特徴を取得するかについて、本願の実施例は限定しない。

【0067】

４０５では、コンピュータ機器が、第１人体画像における露出領域の画像に対して特徴抽出を行うことにより、皮膚特徴を取得する。

【0068】

ここで、該露出領域は、該第１人体画像における該ターゲット人体の、衣類によって遮蔽されていない領域である。１つの可能な実現形態において、コンピュータ機器は、皮膚領域認識ネットワークによって、該第１人体画像における露出領域、即ち、皮膚領域を認識することにより、２値化画像を取得してもよい。該２値化画像において、皮膚領域に属する画像点は、第３数値として表され、他の領域に属する画素点は、第４数値として表される。説明すべきものとして、本願の実施例は、該皮膚領域認識ネットワークの構造及び皮膚領域の認識方法を限定しない。

【0069】

１つの可能な実現形態において、該コンピュータ機器は、該２値化画像に基づいて、該第１人体画像に対して画像分割を行うことにより、該第１人体画像における露出領域の画像を取得し、該露出領域の画像を画像融合モデルの皮膚符号化ネットワークに入力し、該皮膚符号化ネットワークによって、該第１人体画像における露出領域の画像に対して特徴抽出を行うことにより、該皮膚特徴を取得してもよい。本願の実施例において、該皮膚符号化ネットワークの構造は、上記衣類符号化ネットワークの構造と同じであり、該皮膚特徴の抽出プロセスは、上記ステップ４０４における衣類特徴の抽出プロセスと同様である。該コンピュータ機器は、該皮膚符号化ネットワークにおける各演算層から出力された異なるスケールの皮膚サブ特徴を取得し、該複数の皮膚サブ特徴を該皮膚特徴とする。

【0070】

４０６では、コンピュータ機器が、第１人体画像に対して特徴抽出を行うことにより、人体特徴を取得する。

【0071】

１つの可能な実現形態において、コンピュータ機器は、該画像融合モデルのポートレート符号化ネットワークによって、該第１人体画像に対して特徴抽出を行うことにより、該人体特徴を取得する。本願の実施例において、該ポートレート符号化ネットワークの構造は、上記衣類符号化ネットワークの構造と同じであり、該人体特徴の抽出プロセスは、上記ステップ４０４における衣類特徴の抽出プロセスと同様である。該コンピュータ機器は、ポートレート符号化ネットワークにおける各演算層から出力された異なるスケールの人体サブ特徴を取得し、該複数の人体サブ特徴を該人体特徴とする。

【0072】

説明すべきものとして、上記ステップ４０４からステップ４０６は、該第２衣類画像と、該第１人体画像における露出領域の画像と、該第１人体画像とのそれぞれに対して特徴抽出を行うことにより、衣類特徴、皮膚特徴、及び人体特徴を取得するステップである。本願の実施例では、まず、衣類特徴を取得してから、皮膚特徴、ポートレート特徴を取得するという実行順序で説明しているが、いくつかの実施例では、該衣類特徴、皮膚特徴、及びポートレート特徴を同時に取得してもよい。本願の実施例は、この３つの特徴の取得順序、即ち、上記のステップ４０４、ステップ４０５、及びステップ４０６の実行順序を限定しない。本願の実施例では、タスク分解によって、複数の次元でそれぞれ特徴抽出を行う。これにより、一方で、より全面的な、より細かい粒度の特徴を抽出することができ、他方で、３つの特徴抽出タスクをそれぞれ実行することで、特徴抽出プロセスにおけるコンピュータ機器の演算の負担を軽減することもでき、機器の性能を向上させる。

【0073】

４０７では、コンピュータ機器が、該衣類特徴、該皮膚特徴、及び該人体特徴に基づいて、第２人体画像を生成する。

【0074】

１つの可能な実現形態では、コンピュータ機器は、該衣類特徴、該皮膚特徴、及び該人体特徴を連結することにより、連結特徴を取得する。例示的に、該衣類特徴、該皮膚特徴、及び該人体特徴のいずれにも、少なくとも２つのスケールのサブ特徴が含まれる。コンピュータ機器は、該衣類特徴、該皮膚特徴、及び該人体特徴における同じスケールのサブ特徴をそれぞれ連結することにより、少なくとも２つの連結サブ特徴を取得してから、該少なくとも２つの連結サブ特徴を連結することにより、該連結特徴を取得する。図７は、本願の実施例で提供される特徴連結の模式図である。図７を参照すると、同じスケールの衣類サブ特徴７０１、皮膚サブ特徴７０２、及びポートレートサブ特徴７０３を連結することにより、連結サブ特徴７０４を取得してから、各スケールの連結サブ特徴７０４、７０５、７０６を連結することにより、連結特徴７０７を取得する。説明すべきものとして、上記の特徴連結方法の説明は、例示的な説明に過ぎない。該コンピュータ機器は、他の方法によって各次元の特徴を連結・融合してもよい。本願の実施例はこれを限定しない。

【0075】

本願の実施例において、コンピュータ機器は、画像融合モデルにおける復号化ネットワークによって、該連結特徴に基づいて復号化を行うことにより、該第２人体画像を生成する。ここで、該第２人体画像において、該ターゲット人体が該ターゲット衣類を着用している。１つの可能な実現形態では、該復号化ネットワークは、ＲｅｓＵｎｅｔにおける復号化ネットワークの構造を採用してもよい。該復号化ネットワークには、複数のカスケード演算層が含まれる。コンピュータ機器は、該複数の演算層によって連結特徴をアップサンプリングすることにより、該第２人体画像を生成する。図８は、本願の実施例で提供される復号化ネットワークの模式図である。コンピュータ機器は、連結特徴における異なるスケールの連結サブ特徴を、復号化ネットワークにおける対応する演算層にそれぞれ入力してもよい。例示的に、第１スケールの連結サブ特徴を第１スケールの演算層８０１に入力し、第２スケールの連結サブ特徴を第２スケールの演算層８０２に入力する。本願の実施例において、異なるスケースの連結サブ特徴は、異なる粒度の細部特徴を保持することができ、該復号化ネットワークが、異なるスケースの連結サブ特徴を復号化することより生成された第２人体画像は、アフィン変換後の衣類の細部情報、人体皮膚情報、及び人体グローバル細部情報を十分に保持することができ、真実なバーチャル着せ替え効果を達成する。

【0076】

本願の実施例で提供される構成では、まず、ターゲット人体の姿勢に基づいて、オリジナルの第１衣類画像を変換することにより、ターゲット人体の姿勢に合って大量の細部情報を保持する第２衣類画像を取得してから、異なる特徴抽出タスクに基づいて、それぞれ異なる次元で第２衣類画像及び第１人体画像に対して特徴抽出を行うことにより、衣類特徴、皮膚特徴、及び人体特徴を取得し、つまり、３つの異なる次元の、より細かい粒度の、より精確な特徴を取得する。これにより、これらの特徴に基づいて生成された第２人体画像には、より豊富な細部情報を含めることができ、第２人体画像は、高い真実性を有し、良好なバーチャル着せ替え効果が確保される。また、本願の実施例では、タスク分解によって、特徴抽出、画像生成のプロセスにおけるコンピュータ機器の演算の負担を効果的に軽減し、演算リソースの支出を節約し、機器の性能を向上させることができる。本願の実施例で提供される構成を使用することにより、異なる応用シナリオで異なる解像度の画像に基づいて、全て迫真のバーチャル着せ替えポートレートを生成することができる。この構成は、ビジネスシナリオに適用されると、良好なロバスト性を有する。

【0077】

上記の実施例における画像融合モデルは、コンピュータ機器に記憶された、予め訓練されたモデルである。該画像融合モデルは、該コンピュータ機器によって訓練されたモデル、又は、他の機器によって訓練されたモデルである。図９は、本願の実施例で提供される画像融合モデルの訓練方法のフローチャートである。図９を参照すると、１つの可能な実現形態において、該画像融合モデルの訓練方法は、以下のステップを含む。

【0078】

９０１では、コンピュータ機器が、第１初期モデル及び第２初期モデルを取得する。

【0079】

ここで、該第１初期モデル及び第２初期モデルの構造が同じであり、該第１初期モデル及び第２初期モデルの構造は、図３に示すように、全て畳み込みニューラルネットワーク（ＣＮＮ：ＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋｓ）に基づいて構築されたモデルである。

【0080】

９０２では、コンピュータ機器が、第１人体が含まれる第１サンプル人体画像と、第１衣類が含まれる第１サンプル衣類画像と、第２衣類が含まれる第２サンプル衣類画像とを取得する。

【0081】

ここで、該第１サンプル人体画像における第１人体は、該第１衣類を着用しており、該第１衣類及び第２衣類は異なる。１つの可能な実現形態において、該第１サンプル人体画像には、アノテーション情報が付されており、該アノテーション情報は、モデルが後続の画像生成ステップを実行することを容易にするために、第１サンプル人体の各身体領域を区別するためのものである。もちろん、該第１サンプル人体画像、第１衣類画像、及び第２衣類画像には、他の情報がアノテーションされてもよい。本願の実施例はこれを限定しない、

【0082】

１つの可能な実現形態において、コンピュータ機器は、サンプル人体画像及びサンプル衣類画像を取得した後、画像の前処理を行ってもよい。例えば、前処理は、画像サイズの調整であってもよいし、画像強化処理などであってもよい。

【0083】

９０３では、コンピュータ機器が、該第１初期モデルによって、該第１サンプル人体画像及び該第２サンプル衣類画像に対して画像融合を行うことにより、第２サンプル人体画像を取得する。

【0084】

本願の実施例において、コンピュータ機器は、該第１サンプル人体画像及び第２サンプル衣類画像を第１初期モデルに入力し、該第１初期モデルによって、該第１人体の特徴及び第２衣類の特徴に基づいて第２サンプル人体画像を生成する。ここで、該第２サンプル人体画像において、該第１人体が該第２衣類を着用している。該コンピュータ機器が該第１初期モデルによって第２サンプル人体画像を生成するプロセスは、上記のステップ４０２からステップ４０７のプロセスと同様である。

【0085】

９０４では、コンピュータ機器が、該第２初期モデルによって、該第２サンプル人体画像及び該第１サンプル衣類画像に対して画像融合を行うことにより、ターゲットサンプル人体画像を取得する。

【0086】

本願の実施例において、コンピュータ機器は、該第２サンプル人体画像及び第１衣類画像を第２初期モデルに入力し、該第２初期モデルによって、第１人体の特徴及び第１衣類の特徴に基づいてターゲットサンプル人体画像を生成する。ここで、該ターゲットサンプル人体画像において、該第１人体が該第１衣類を着用している。該コンピュータ機器が該第２初期モデルによってターゲットサンプル人体画像を生成するプロセスは、上記のステップ４０２からステップ４０７のプロセスと同様である。

【0087】

９０５では、コンピュータ機器が、該第１サンプル人体画像と該第２サンプル人体画像との誤差、該第１サンプル人体画像と該ターゲットサンプル人体画像との誤差に基づいて、該第１初期モデルを訓練する。

【0088】

本願の実施例において、コンピュータ機器は、複数の次元の誤差を取得してもよい。１つの可能な実現形態において、コンピュータ機器は、該第１サンプル人体画像と該第２サンプル人体画像との画素値分布差異に基づいて、第１誤差を決定する。ここで、該第１誤差（ＡｄｖｅｒｓａｒｉａｌＬｏｓｓ）は、生成された画像の分布の一貫性をはかり、つまり、モデルによって生成された人体画像と、入力された人体画像との画素値分布差異、及び、モデルによって生成された人体画像と、入力された人体画像とにおける露出領域の画像間の画素値分布差異をはかるためのものである。１つの可能な実現形態において、コンピュータ機器は、第１サンプル人体画像及び第２サンプル人体画像の画素値分布ヒストグラムをそれぞれ取得し、２つの画素値分布ヒストグラム間の誤差を該第１誤差として取得する。もちろん、コンピュータ機器は、他の方式によって該第１誤差を取得してもよい。本願の実施例はこれを限定しない。本願の実施例では、第１誤差を取得することにより、即ち、画素値分布の一貫性を制約することにより、モデルがより真実な人体画像を生成し、人体画像における皮膚をより良く復元するのを助けることができる。

【0089】

１つの可能な実現形態において、コンピュータ機器は、該第１サンプル人体画像に対応する画素値行列と、該第２サンプル人体画像に対応する画素値行列との誤差を第２誤差として決定する。ここで、該第２誤差（ＰｒｅｓｅｒｖｉｎｇＬｏｓｓ）は、モデルの入力画像と出力画像との画素値の一貫性をはかるためのものである。本願の実施例において、該第２誤差は、モデルの入力人体画像の衣類領域及び腕領域と、出力人体画像における相応の領域との一貫性の差異を示すことができる。１つの可能な実現形態において、コンピュータ機器は、Ｌ１損失関数を使用して、該第１サンプル人体画像と第２サンプル人体画像との第２誤差を取得してもよい。もちろん、該コンピュータ機器は、他の方法によって該第２誤差を取得してもよい。本願の実施例はこれを限定しない。本願の実施例では、第２誤差を取得することにより、即ち、画像間の画素値の一貫性を制約することにより、モデルが人体の下肢、ボトムス、顔、髪などの部位の細部情報を十分に保持することを可能にする。

【0090】

１つの可能な実現形態において、コンピュータ機器は、該第１サンプル人体画像に対応する画素値行列と、該ターゲットサンプル人体画像に対応する画素値行列との誤差を第３誤差として決定する。ここで、該第３誤差は、２つのモデル間のサイクル一貫性誤差を表すためのものである。該第３誤差は、第１初期モデルに入力された第１サンプル人体画像と、第２初期モデルから出力されたターゲットサンプル人体画像との誤差をはかるために使用される。１つの可能な実現形態において、コンピュータ機器は、Ｌ１損失関数を使用して、第１サンプル人体画像とターゲットサンプル人体画像との第３誤差を取得してもよい。もちろん、該コンピュータ機器は、他の方法によって該第３誤差を取得してもよい。本願の実施例はこれを限定しない。本願の実施例では、第３誤差を取得することにより、即ち、サイクル一貫性の制約を設計することにより、第２初期モデルから出力されたターゲットサンプル人体画像を最大限にオリジナルの第１サンプル人体画像に近づけることができる。

【0091】

１つの可能な実現形態において、コンピュータ機器は、該第１サンプル人体画像における衣類領域の画像特徴と、ターゲットサンプル人体画像における衣類領域の画像特徴との誤差を第４誤差として決定する。ここで、該第４誤差は、ターゲットサンプル人体画像における衣類と、オリジナルの第１サンプル人体画像における衣類との差異を示すためのものである。本願の実施例において、コンピュータ機器は、該第１サンプル人体画像から衣類領域の画像を分割することにより、第１分割画像を取得し、ターゲットサンプル人体画像から衣類領域の画像を分割することにより、第２分割画像を取得し、第１分割画像及び第２分割画像を視覚幾何学グループネットワーク（ＶＧＧ：ＶｉｓｕａｌＧｅｏｍｅｔｒｙＧｒｏｕｐＮｅｔｗｏｒｋ）にそれぞれ入力して特徴抽出を行うことにより、ＶＧＧネットワークにおける各演算層から出力された画像特徴を取得する。コンピュータ機器は、第１分割画像及び第２分割画像の同じ演算層における画像特徴間の誤差を取得し、即ち、演算層における画像特徴間のユークリッド距離を取得する。コンピュータ機器は、取得した複数のユークリッド距離に基づいて、該第４誤差を決定し、例えば、該複数のユークリッド距離の平均値を取ることにより、該第４誤差を取得する。説明すべきものとして、上記の第４誤差の取得方法の説明は、例示的な説明に過ぎない。具体的にどのような方法によって第４誤差を取得するかについて、本願の実施例は限定しない。本願の実施例では、第４誤差を取得することにより、即ち、衣類特徴の一貫性を制約することにより、モデルによって生成された人体画像における衣類の真実性を向上させることができる。

【0092】

本願の実施例において、コンピュータ機器は、該第１誤差、第２誤差、第３誤差、及び該第４誤差に基づいて、該第１初期モデルのモデルパラメータを調整する。例示的に、第１初期モデルにおける各演算層のパラメータの調整を実現するために、該コンピュータ機器は、該第１誤差、第２誤差、第３誤差、及び第４誤差を該第１初期モデルにそれぞれ逆伝播し、該第１初期モデルにおける各演算層のパラメータの解を求める。説明すべきものとして、上記の第１初期モデルのパラメータの調整方法の説明は、例示的な説明に過ぎない。どのような方法によって該第１初期モデルのパラメータを調整するかについて、本願の実施例は限定しない。

【0093】

９０６では、コンピュータ機器が、該第２サンプル人体画像と該ターゲットサンプル人体画像との誤差、該第１サンプル人体画像と該ターゲットサンプル人体画像との誤差に基づいて、該第２初期モデルを訓練する。

【0094】

１つの可能な実現形態において、コンピュータ機器は、該第２サンプル人体画像と該ターゲットサンプル人体画像との画素値分布差異に基づいて、第５誤差を決定し、該第２サンプル人体画像に対応する画素値行列と、該ターゲットサンプル人体画像に対応する画素値行列との誤差を第６誤差として決定し、該第１サンプル人体画像に対応する画素値行列と、該ターゲットサンプル人体画像に対応する画素値行列との誤差を第７誤差として決定し、該第１サンプル衣類画像の特徴と、第２サンプル衣類画像の特徴との誤差を第８誤差として決定し、該第５誤差、第６誤差、第７誤差、及び該第８誤差に基づいて、該第２初期モデルのモデルパラメータを調整する。説明すべきものとして、該第５誤差、第６誤差、第７誤差、第８誤差の取得プロセスは、それぞれ、上記の第１誤差、第２誤差、第３誤差、第４誤差の取得プロセスと同様である。本願の実施例において、コンピュータ機器は、該第５誤差、第６誤差、第７誤差、及び第８誤差を該第２初期モデルに逆伝播し、該第２初期モデルにおける各演算層のパラメータの解を求めてもよい。説明すべきものとして、どのような方法によって該第２初期モデルのパラメータを調整するかについて、本願の実施例は限定しない。

【0095】

９０７では、コンピュータ機器が、該第１初期モデル及び該第２初期モデルのいずれもモデル訓練条件を満たすことに応答して、訓練済みの該第２初期モデルを画像融合モデルとして取得する。

【0096】

ここで、該モデル訓練条件は、開発者により設定される。本願の実施例はこれを限定しない。例示的に、該モデル訓練条件には、訓練回数閾値が含まれ、モデル訓練回数が該訓練回数閾値に達した場合、訓練済みの第２初期モデルを該画像融合モデルとして取得し、モデル訓練回数が該訓練回数閾値に達していない場合、引き続いて次のサンプル画像セットを取得して該第１初期モデル及び第２初期モデルを訓練する。例示的に、該モデル訓練条件には、誤差閾値が含まれ、モデル出力結果に対応する誤差値のいずれも該誤差閾値未満であり、かつ、モデル出力結果に対応する誤差値のいずれも該誤差閾値未満である回数がターゲット回数に達した場合、該第１初期モデル及び該第２初期モデルのいずれもモデル訓練条件を満たすと決定し、訓練済みの第２初期モデルを画像融合モデルとして取得し、そうでない場合、引き続いて次のサンプル画像セットを取得してモデル訓練を行う。

【0097】

本願の実施例では、バーチャル着せ替えの訓練データが対とならないことに対して、サイクル一貫性の自己監督モデル訓練方法が導入されている。図１０は、本願の実施例で提供されるモデル訓練方法の模式図である。以下、図１０を参照しながら、上記のモデル訓練プロセスを説明する。図１０に示すように、コンピュータ機器は、第１サンプル人体画像Ｉ_１及び第２サンプル衣類画像Ｃ_２を第１初期モデルに入力する。第１初期モデルから、中間状態のバーチャル着せ替え結果、即ち、第２サンプル人体画像Ｉ_２が出力される。また、コンピュータ機器は、第２サンプル人体画像Ｉ_２及び第１サンプル衣類画像Ｃ_１を第２初期モデルに入力することにより、第２初期モデルから出力されたターゲットサンプル人体画像

【数1】

を取得する。コンピュータ機器は、

【数2】

のように制御することにより、即ち、ターゲットサンプル人体画像を第１サンプル人体画像と一致させることにより、サイクル一貫性の自己監督モデル訓練を実現する。また、本願の実施例では、オリジナルの人体画像とオリジナルの衣類画像とに基づいて新たな人体画像を生成する際に、タスク分解によって、バーチャル着せ替えタスクを衣類アフィン変換、人体皮膚生成、及び人体グローバル情報合成の３つのタスクに分解し、各サブタスクに対して相応の符号化ネットワークをそれぞれ設置し、異なる次元の特徴抽出をそれぞれ行う。これにより、一方で、より全面的な、より細かい粒度の特徴を抽出することができ、他方で、３つのタスクをそれぞれ個別に実行することで、バーチャル着せ替えタスクにおけるコンピュータ機器の演算量の負担を軽減することができ、バーチャル着せ替えタスクにおけるコンピュータ機器の機器性能を向上させる。損失関数の設定について、本願の実施例では、４つの損失関数が提供されており、４つの次元の誤差値が取得され、訓練された画像融合モデルが関連部位の特徴、例えば、人体の下肢、顔、髪などの部位の特徴を適応的に保持することができ、画像融合モデルが、衣服で覆われた人体皮膚を適応的に生成することができ、例えば、長袖トップスを半袖トップスに着替える場合、人体の腕領域の画像が正確に構築され、モデルが写真レベルのバーチャル着せ替え効果を達成することができる。

【0098】

上記の全ての選択可能な構成は、任意の組み合わせで本願の選択可能な実施例を形成することができる。

【0099】

図１１は、本願の実施例で提供される画像生成装置の構成の模式図である。図１１を参照すると、該装置は、
ターゲット人体が含まれる第１人体画像と、ターゲット衣類が含まれる第１衣類画像とを取得する第１取得モジュール１１０１と、
該第１人体画像における該ターゲット人体の姿勢に基づいて、該第１衣類画像を変換することにより、第２衣類画像を取得する衣類変換モジュール１１０２であって、該第２衣類画像には、該ターゲット衣類が含まれ、該ターゲット衣類の姿勢が該ターゲット人体の姿勢にマッチしている、衣類変換モジュール１１０２と、
該第２衣類画像と、該第１人体画像における露出領域の画像と、該第１人体画像とのそれぞれに対して特徴抽出を行うことにより、衣類特徴、皮膚特徴、及び人体特徴を取得する特徴抽出モジュール１１０３であって、該露出領域は、該第１人体画像における該ターゲット人体の、衣類によって遮蔽されていない領域である、特徴抽出モジュール１１０３と、
該衣類特徴、該皮膚特徴、及び該人体特徴に基づいて、第２人体画像を生成する第１生成モジュール１１０４であって、該第２人体画像において、該ターゲット人体が該ターゲット衣類を着用している、第１生成モジュール１１０４と、を含む。

【0100】

１つの可能な実現形態において、該衣類変換モジュール１１０２は、
該第１人体画像における該ターゲット人体の姿勢と、該第１衣類画像とに基づいて、第１領域画像を決定する領域決定サブモジュールであって、該第１領域画像は、該ターゲット人体が該ターゲット衣類を着用している場合の該ターゲット衣類の遮蔽領域を示すためのものである、領域決定サブモジュールと、
該第１領域画像に基づいて該第１衣類画像を変換することにより、該第２衣類画像を取得する衣類変換サブモジュールと、を含む。

【0101】

１つの可能な実現形態において、該領域決定サブモジュールは、
該第１人体画像に対して人体領域認識を行って、同じ身体領域に属する、該第１人体画像における画素点を同じ画素値に設定することにより、人体セマンティック画像を取得する領域認識ユニットであって、該人体セマンティック画像は、該ターゲット人体の姿勢を示すためのものである、領域認識ユニットと、
該人体セマンティック画像及び該第１衣類画像に基づいて、該第１領域画像を決定する領域決定ユニットと、を含む。

【0102】

１つの可能な実現形態において、該領域決定ユニットは、該人体セマンティック画像及び該第１衣類画像を画像融合モデルの衣類領域予測ネットワークに入力し、該衣類領域予測ネットワークによって、該人体セマンティック画像に対応する人体姿勢特徴と、該第１衣類画像における該ターゲット衣類の輪郭特徴とを抽出し、該人体姿勢特徴と、該ターゲット衣類の輪郭特徴とに基づいて、該第１領域画像を決定する。

【0103】

１つの可能な実現形態において、該衣類変換サブモジュールは、さらに、該第１領域画像及び該第１衣類画像を画像融合モデルの空間変換ネットワークに入力し、該空間変換ネットワークによって、該第１衣類画像と該第１マスク領域とのマッピング関係に基づいて、該第１衣類画像を変換することにより、中間衣類画像を取得し、該空間変換ネットワークによって、該中間衣類画像に対応するテクスチャ特徴を決定し、該テクスチャ特徴及び該中間衣類画像に基づいて、該第２衣類画像を生成する。該空間変換ネットワークは、画像を変換するためのものである。

【0104】

１つの可能な実現形態において、該衣類変換サブモジュールは、さらに、第１マスク領域に基づいてターゲット衣類の初期輪郭を決定し、第１領域画像に基づいて変換後のターゲット衣類に対応するターゲット輪郭を決定し、初期輪郭及びターゲット輪郭に基づいて初期輪郭とターゲット輪郭とのマッピング関係を決定し、
マッピング関係に基づいて第１衣類画像を変換することにより、中間衣類画像を取得する。

【0105】

１つの可能な実現形態において、空間変換ネットワークは、衣類生成サブネットワークを含み、該衣類変換サブモジュールは、さらに、衣類生成サブネットワークに基づいて、予め学習された衣類細部特徴に従って、中間衣類画像に対して特徴抽出を行うことにより、中間衣類画像に対応するテクスチャ特徴を取得する。

【0106】

１つの可能な実現形態において、該特徴抽出モジュール１１０３は、さらに、画像融合モデルの衣類符号化ネットワークによって、該第２衣類画像に対して特徴抽出を行うことにより、該衣類特徴を取得し、該画像融合モデルの皮膚符号化ネットワークによって、該第１人体画像における露出領域の画に対して特徴抽出を行うことにより、該皮膚特徴を取得し、該画像融合モデルのポートレート符号化ネットワークによって、該第１人体画像に対して特徴抽出を行うことにより、該人体特徴を取得する。

【0107】

１つの可能な実現形態において、該第１生成モジュール１１０４は、
該衣類特徴、該皮膚特徴、及び該人体特徴を連結することにより、連結特徴を取得する特徴連結サブモジュールと、
該連結特徴に基づいて復号化を行うことにより、該第２人体画像を生成する画像生成サブモジュールと、を含む。

【0108】

１つの可能な実現形態では、該衣類特徴、該皮膚特徴、及び該人体特徴のいずれにも、少なくとも２つのスケールのサブ特徴が含まれる。

【0109】

該特徴連結サブモジュールは、該衣類特徴、該皮膚特徴、及び該人体特徴における同じスケールのサブ特徴をそれぞれ連結することにより、少なくとも２つの連結サブ特徴を取得し、該少なくとも２つの連結サブ特徴を連結することにより、該連結特徴を取得する。

【0110】

１つの可能な実現形態において、該第２衣類画像の取得ステップ、該特徴抽出ステップ、及び該第２人体画像の生成ステップは、画像融合モデルによって実行される。

【0111】

１つの可能な実現形態において、該装置は、
第１初期モデル及び第２初期モデルを取得する第２取得モジュールであって、該第１初期モデル及び第２初期モデルの構造が同じである第２取得モジュールと、
第１人体が含まれる第１サンプル人体画像と、第１衣類が含まれる第１サンプル衣類画像と、第２衣類が含まれる第２サンプル衣類画像とを取得する第３取得モジュールであって、該第１サンプル人体画像において、該第１人体が該第１衣類を着用している、第３取得モジュールと、
該第１初期モデルによって、該第１サンプル人体画像及び該第２サンプル衣類画像に対して画像融合を行うことにより、第２サンプル人体画像を生成する第２生成モジュールであって、該第２サンプル人体画像において、該第１人体が該第２衣類を着用している、第２生成モジュールと、
該第２初期モデルによって、該第２サンプル人体画像及び該第１サンプル衣類画像に対して画像融合を行うことにより、ターゲットサンプル人体画像を生成する第３生成モジュールであって、該ターゲットサンプル人体画像において、該第１人体が該第１衣類を着用している、第３生成モジュールと、
該第１サンプル人体画像と該第２サンプル人体画像との誤差、該第１サンプル人体画像と該ターゲットサンプル人体画像との誤差に基づいて、該第１初期モデルを訓練する第１訓練モジュールと、
該第２サンプル人体画像と該ターゲットサンプル人体画像との誤差、該第１サンプル人体画像と該ターゲットサンプル人体画像との誤差に基づいて、該第２初期モデルを訓練する第２訓練モジュールと、
該第１初期モデル及び該第２初期モデルのいずれもモデル訓練条件を満たすことに応答して、訓練済みの該第２初期モデルを画像融合モデルとして取得する第４取得モジュールと、をさらに含む。

【0112】

１つの可能な実現形態において、該第１訓練モジュールは、該第１サンプル人体画像と該第２サンプル人体画像との画素値分布差異に基づいて、第１誤差を決定し、該第１サンプル人体画像に対応する画素値行列と、該第２サンプル人体画像に対応する画素値行列との誤差を第２誤差として決定し、該第１サンプル人体画像に対応する画素値行列と、該ターゲットサンプル人体画像に対応する画素値行列との誤差を第３誤差として決定し、該第１サンプル人体画像における衣類領域の画像特徴と、ターゲットサンプル人体画像における衣類領域の画像特徴との誤差を第４誤差として決定し、該第１誤差、第２誤差、第３誤差、及び該第４誤差に基づいて、該第１初期モデルのモデルパラメータを調整する。

【0113】

１つの可能な実現形態において、該第１訓練モジュールは、さらに、第１誤差、第２誤差、第３誤差、及び第４誤差を第１初期モデルに逆伝播し、第１初期モデルにおける各演算層のパラメータの解を求め、解を求めた結果に基づいて、第１初期モデルにおける各演算層のパラメータを調整する。

【0114】

１つの可能な実現形態において、該第２訓練モジュールは、該第２サンプル人体画像と該ターゲットサンプル人体画像との画素値分布差異に基づいて、第５誤差を決定し、該第２サンプル人体画像に対応する画素値行列と、該ターゲットサンプル人体画像に対応する画素値行列との誤差を第６誤差として決定し、該第１サンプル人体画像に対応する画素値行列と、該ターゲットサンプル人体画像に対応する画素値行列との誤差を第７誤差として決定し、該第１サンプル人体画像における衣類領域の画像特徴と、ターゲットサンプル人体画像における衣類領域の画像特徴との誤差を第８誤差として決定し、該第５誤差、第６誤差、第７誤差、及び該第８誤差に基づいて、該第２初期モデルのモデルパラメータを調整する。

【0115】

本願の実施例で提供される装置では、まず、ターゲット人体の姿勢に基づいて、オリジナルの第１衣類画像を変換することにより、ターゲット人体の姿勢に合って大量の細部情報を保持する第２衣類画像を取得してから、異なる特徴抽出タスクに基づいて、それぞれ異なる次元で第２衣類画像及び第１人体画像に対して特徴抽出を行うことにより、衣類特徴、皮膚特徴、及び人体特徴を取得し、つまり、３つの異なる次元の、より細かい粒度の、より精確な特徴を取得する。これにより、これらの特徴に基づいて生成された第２人体画像には、より豊富な細部情報を含めることができ、第２人体画像は、高い真実性を有し、良好なバーチャル着せ替え効果が確保される。

【0116】

説明すべきものとして、上記実施例で提供される画像生成装置は、画像生成時に上記の各機能モジュールの分割のみを例として説明されているが、実際の適用では、必要に応じて、上記の機能を異なる機能モジュールに割り当てて実行し、即ち、装置の内部構成を異なる機能モジュールに分割して、以上に説明した全部又は一部の機能を実行してもよい。また、上記実施例で提供される画像生成装置は、画像生成方法の実施例と同一の構想に属し、その具体的な実現過程の詳細は、方法の実施例を参照すればよい。

【0117】

上記の構成で提供されるコンピュータ機器は、端末又はサーバとして実現されてもよい。例えば、図１２は、本願の実施例で提供される端末の構成の模式図である。この端末１２００は、スマートフォン、タブレットコンピュータ、ムービング・ピクチャー・エクスパーツ・グループ・オーディオレイヤー３（ＭＰ３：ＭｏｖｉｎｇＰｉｃｔｕｒｅＥｘｐｅｒｔｓＧｒｏｕｐＡｕｄｉｏＬａｙｅｒＩＩＩ）プレーヤー、ムービング・ピクチャー・エクスパーツ・グループ・オーディオレイヤー４（ＭＰ４：ＭｏｖｉｎｇＰｉｃｔｕｒｅＥｘｐｅｒｔｓＧｒｏｕｐＡｕｄｉｏＬａｙｅｒＩＶ）プレーヤー、ノートパソコン、又はデスクトップパソコンであってもよい。端末１２００は、ユーザ機器、ポータブル端末、ラップトップ型端末、デスクトップ型端末などの他の名称と称される可能性もある。

【0118】

通常、端末１２００は、１つ又は複数のプロセッサ１２０１と、１つ又は複数のメモリ１２０２と、を備える。プロセッサ１２０１は、１つ又は複数の処理コアを含んでもよく、例えば、４コアプロセッサ、８コアプロセッサなどである。プロセッサ１２０１は、デジタル信号処理（ＤＳＰ：ＤｉｇｉｔａｌＳｉｇｎａｌＰｒｏｃｅｓｓｉｎｇ）、フィールドプログラマブルゲートアレイ（ＦＰＧＡ：Ｆｉｅｌｄ－ＰｒｏｇｒａｍｍａｂｌｅＧａｔｅＡｒｒａｙ）、プログラマブルロジックアレイ（ＰＬＡ：ＰｒｏｇｒａｍｍａｂｌｅＬｏｇｉｃＡｒｒａｙ）のうちの少なくとも１つのハードウェアの形で実現されてもよい。

【0119】

メモリ１２０２は、１つ又は複数のコンピュータ可読記憶媒体を含んでもよい。該コンピュータ可読記憶媒体は、非一時的なものとし得る。メモリ１２０２は、高速ランダムアクセスメモリ、及び不揮発性メモリ、例えば、１つ又は複数のディスク記憶装置、フラッシュメモリ記憶装置を含んでもよい。いくつかの実施例において、メモリ１２０２内の非一時的なコンピュータ可読記憶媒体は、少なくとも１つのコンピュータ可読命令を記憶する。該少なくとも１つのコンピュータ可読命令は、プロセッサ１２０１によって実行されると、本願の方法の実施例で提供される画像生成方法を実現させる。

【0120】

いくつかの実施例において、端末１２００は、任意選択的に、周辺機器インタフェース１２０３及び少なくとも１つの周辺機器をさらに含む。プロセッサ１２０１、メモリ１２０２、及び周辺機器インタフェース１２０３の間には、バス又は信号線を介して接続されてもよい。各周辺機器は、バス、信号線、又は回路基板を介して、周辺機器インタフェース１２０３に接続されてもよい。具体的には、周辺機器は、無線周波数回路１２０４、ディスプレイ１２０５、カメラコンポーネント１２０６、オーディオ回路１２０７、測位コンポーネント１２０８、及び電源１２０９のうちの少なくとも１つを含む。

【0121】

周辺機器インタフェース１２０３は、入出力（Ｉ／Ｏ：Ｉｎｐｕｔ／Ｏｕｔｐｕｔ）に関する少なくとも１つの周辺機器をプロセッサ１２０１及びメモリ１２０２に接続するために用いられてもよい。いくつかの実施例において、プロセッサ１２０１、メモリ１２０２、及び周辺機器インタフェース１２０３は、同一のチップ又は回路基板上に集積される。いくつかの他の実施例において、プロセッサ１２０１、メモリ１２０２、及び周辺機器インタフェース１２０３のうちのいずれか１つ又は２つが、個別のチップ又は回路基板上で実現されてもよい。本実施例はこれを限定しない。

【0122】

無線周波数回路１２０４は、電磁信号とも呼ばれる無線周波数（ＲＦ：ＲａｄｉｏＦｒｅｑｕｅｎｃｙ）信号を送受信する。無線周波数回路１２０４は、電磁信号によって通信ネットワーク及び他の通信機器と通信を行う。ディスプレイ１２０５は、ユーザインタフェース（ＵＩ：ＵｓｅｒＩｎｔｅｒｆａｃｅ）を表示する。該ＵＩは、図形、テキスト、アイコン、ビデオ、及びこれらの任意の組み合わせを含んでもよい。カメラコンポーネント１２０６は、画像又はビデオを収集する。オーディオ回路１２０７は、マイクロホン及びスピーカーのうちの少なくとも１つを含んでもよい。測位コンポーネント１２０８は、端末１２００の現在の地理的位置を測位する。電源１２０９は、端末１２００内の各コンポーネントに電力を供給する。

【0123】

いくつかの実施例において、端末１２００は、１つ又は複数のセンサ１２１０をさらに含む。該１つ又は複数のセンサ１２１０は、加速度センサ１２１１、ジャイロセンサ１２１２、圧力センサ１２１３、指紋センサ１２１４、光学センサ１２１５、及び近接センサ１２１６を含むが、これらに限定されない。

【0124】

当業者であれば理解できるように、図１２に示された構成が、端末１２００を限定するものではなく、端末１２００は、図示より多く又は少ないコンポーネントを含んでもよく、あるいはいくらかのコンポーネントを組み合わせたものであってもよく、あるいはコンポーネントの異なる配置を採用してもよい。

【0125】

図１３は、本願の実施例で提供されるサーバの構成の模式図である。該サーバ１３００は、スペック又は性能が異なることによって、大きな差異があり得るが、１つ又は複数のプロセッサ（ＣＰＵ：ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔｓ）１３０１と、１つ又は複数のメモリ１３０２と、を備えてもよい。ここで、該１つ又は複数のメモリ１３０２には、少なくとも１つのコンピュータ可読命令が記憶されており、該少なくとも１つのコンピュータ可読命令は、該１つ又は複数プロセッサ１３０１によってロードされて実行されると、上記の各方法の実施例で提供される方法を実現させる。もちろん、該サーバ１３００は、入出力のために、有線又は無線のネットワークインタフェース、キーボード、及び入出力インタフェースなどの部品を備えてもよい。該サーバ１３００は、機器の機能を実現するための他の部品を備えてもよい。

【0126】

例示的な実施例では、コンピュータ可読命令を記憶した１つ又は複数の不揮発性コンピュータ可読記憶媒体、例えば、少なくとも１つのコンピュータ可読命令を含むメモリがさらに提供されている。上記の少なくとも１つのコンピュータ可読命令は、プロセッサによって実行されると、上記の実施例における画像生成方法を実行させることが可能である。例えば、該コンピュータ可読記憶媒体は、読み出し専用メモリ（ＲＯＭ：Ｒｅａｄ－ＯｎｌｙＭｅｍｏｒｙ）、ランダムアクセスメモリ（ＲＡＭ：ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）、コンパクトディスク読み出し専用メモリ（ＣＤ－ＲＯＭ：ＣｏｍｐａｃｔＤｉｓｃＲｅａｄ－ＯｎｌｙＭｅｍｏｒｙ）、磁気テープ、フロッピーディスク、及び光データ記憶装置などであってもよい。

【0127】

例示的な実施例では、少なくとも１つのコンピュータ可読命令を含むコンピュータプログラム製品がさらに提供されている。該少なくとも１つのコンピュータ可読命令は、コンピュータ可読記憶媒体に記憶されている。コンピュータ機器のプロセッサは、コンピュータ可読記憶媒体から該少なくとも１つのコンピュータ可読命令を読み取り、プロセッサが該少なくとも１つのコンピュータ可読命令を実行すると、該コンピュータ機器に、該画像生成方法によって実行される操作を実現させる。

【0128】

当業者であれば理解できるように、上記実施例を実現するためのステップの全部又は一部は、ハードウェアによって実行されてもよいし、プログラムを介して関連ハードウェアに指示することにより実行されてもよい。該プログラムは、コンピュータ可読記憶媒体に記憶されてもよい。上記で言及された記憶媒体は、読み出し専用メモリ、磁気ディスク、又は光ディスクなどであってもよい。

【0129】

上記は、本願の任意選択的な実施例に過ぎず、本願を限定するものではない。本願の精神および原則内で行われる種々の修正、均等置換え、改善などは全て本願の保護範囲内に含まれるべきである。

【符号の説明】

【0130】

１１０端末
１４０サーバ
３０１衣類領域予測ネットワーク
３０２空間変換ネットワーク
３０３衣類符号化ネットワーク
３０４皮膚符号化ネットワーク
３０５ポートレート符号化ネットワーク
３０６復号化ネットワーク
５０１画像融合モデル
５０２衣類領域予測ネットワーク
５０３人体領域認識ネットワーク
６０１変換行列予測サブネットワーク
６０２衣類生成サブネットワーク
８０１第１スケールの演算層
８０２第２スケールの演算層
１１０１第１取得モジュール
１１０２衣類変換モジュール
１１０３特徴抽出モジュール
１１０４第１生成モジュール
１２００端末
１２０１プロセッサ
１２０２メモリ
１２０３周辺機器インタフェース
１２０４無線周波数回路
１２０５ディスプレイ
１２０６カメラコンポーネント
１２０７オーディオ回路
１２０８測位コンポーネント
１２０９電源
１２１０センサ
１２１１加速度センサ
１２１２ジャイロセンサ
１２１３圧力センサ
１２１４指紋センサ
１２１５光学センサ
１２１６近接センサ
１３００サーバ
１３０１プロセッサ
１３０２メモリ

【図1】

【図2】

【図3】

【図4】

【図5】

【図6】

【図7】

【図8】

【図9】

【図10】

【図11】

【図12】

【図13】

【手続補正書】

【提出日】2023-05-12

【手続補正1】

【補正対象書類名】特許請求の範囲

【補正対象項目名】全文

【補正方法】変更

【補正の内容】

【特許請求の範囲】

【請求項1】

コンピュータ機器が実行する画像生成方法であって、
ターゲット人体が含まれる第１人体画像と、ターゲット衣類が含まれる第１衣類画像とを取得するステップと、
前記第１人体画像における前記ターゲット人体の姿勢に基づいて、前記第１衣類画像を変換することにより、第２衣類画像を取得する第２衣類画像取得ステップであって、前記第２衣類画像には、前記ターゲット衣類が含まれ、前記ターゲット衣類の姿勢が前記ターゲット人体の姿勢にマッチしている、第２衣類画像取得ステップと、
前記第２衣類画像と、前記第１人体画像における露出領域の画像と、前記第１人体画像とのそれぞれに対して特徴抽出を行うことにより、衣類特徴、皮膚特徴、及び人体特徴を取得する特徴抽出ステップであって、前記露出領域は、前記第１人体画像における前記ターゲット人体の、衣類によって遮蔽されていない領域である、特徴抽出ステップと、
前記衣類特徴、前記皮膚特徴、及び前記人体特徴に基づいて、第２人体画像を生成する第２人体画像生成ステップであって、前記第２人体画像において、前記ターゲット人体が前記ターゲット衣類を着用している、第２人体画像生成ステップと、
を含むことを特徴とする画像生成方法。

【請求項2】

前記第２衣類画像取得ステップは、
前記第１人体画像における前記ターゲット人体の姿勢と、前記第１衣類画像とに基づいて、第１領域画像を決定するステップであって、前記第１領域画像は、前記ターゲット人体が前記ターゲット衣類を着用している場合の前記ターゲット衣類の遮蔽領域を示すためのものである、ステップと、
前記第１領域画像に基づいて前記第１衣類画像を変換することにより、前記第２衣類画像を取得するステップと、
を含むことを特徴とする請求項１に記載の画像生成方法。

【請求項3】

【請求項4】

【請求項5】

【請求項6】

【請求項7】

【請求項8】

前記特徴抽出ステップは、
画像融合モデルの衣類符号化ネットワークによって、前記第２衣類画像に対して特徴抽出を行うことにより、前記衣類特徴を取得するステップと、
前記画像融合モデルの皮膚符号化ネットワークによって、前記第１人体画像における露出領域の画像に対して特徴抽出を行うことにより、前記皮膚特徴を取得するステップと、
前記画像融合モデルのポートレート符号化ネットワークによって、前記第１人体画像に対して特徴抽出を行うことにより、前記人体特徴を取得するステップと、
を含むことを特徴とする請求項１に記載の画像生成方法。

【請求項9】

前記第２人体画像生成ステップは、
前記衣類特徴、前記皮膚特徴、及び前記人体特徴を連結することにより、連結特徴を取得するステップと、
前記連結特徴に基づいて復号化を行うことにより、前記第２人体画像を生成するステップと、
を含むことを特徴とする請求項１に記載の画像生成方法。

【請求項10】

【請求項11】

【請求項12】

【請求項13】

【請求項14】

【請求項15】

【請求項16】

【請求項17】

コンピュータ可読命令を記憶したメモリと、１つ又は複数のプロセッサと、を備えるコンピュータ機器であって、前記１つ又は複数のプロセッサは、前記コンピュータ可読命令を実行すると、請求項１乃至１５のいずれか１項に記載の画像生成方法を実現することを特徴とするコンピュータ機器。

【請求項18】

コンピュータに、請求項１乃至１５のいずれか１項に記載の画像生成方法を実現させることを特徴とするコンピュータプログラム。

【手続補正2】

【補正対象書類名】明細書

【補正対象項目名】００２６

【補正方法】変更

【補正の内容】

【0026】

上記の端末１１０とサーバ１４０は、有線又は無線の通信方式によって、直接又は間接的に接続されてもよい。本願の実施例はこれを限定しない。

【手続補正3】

【補正対象書類名】明細書

【補正対象項目名】００３４

【補正方法】変更

【補正の内容】

【0034】

本願の実施例において、コンピュータ機器は、ターゲット人体の姿勢に基づいて、ターゲット衣類の姿勢がターゲット人体の姿勢に合うように、ターゲット衣類が含まれる第１衣類画像を変換することにより、ターゲット衣類画像の細部情報を十分に保持する第２衣類画像を取得する。これにより、その後第２衣類に対して特徴抽出を行う際に、豊富な細部特徴を抽出することができる。

【手続補正4】

【補正対象書類名】明細書

【補正対象項目名】００３６

【補正方法】変更

【補正の内容】

【0036】

１つの可能な実現形態では、該コンピュータ機器が、複数の次元で、該第２衣類画像及び該第１人体画像に対して特徴抽出を行うことにより、衣類特徴、皮膚特徴、及び人体特徴を取得する。例示的に、特徴抽出タスクに対してタスク分解を行って、３つの次元の特徴抽出サブタスクに分解し、即ち、コンピュータ機器が、衣類次元、皮膚次元、及び全体ポートレート次元のそれぞれで特徴抽出を行うことにより、衣類特徴、皮膚特徴、及び人体特徴を取得する。本願の実施例では、タスク分解によって、各次元の特徴をそれぞれ抽出する。これにより、一方で、より全面的な、より細かい粒度の特徴を抽出することができ、他方で、各特徴抽出サブタスクを別々に実行することで、コンピュータ機器の特徴抽出時のデータ処理の負担を軽減することもできる。

【手続補正5】

【補正対象書類名】明細書

【補正対象項目名】００５０

【補正方法】変更

【補正の内容】

【0050】

１つの可能な実現形態において、該衣類領域予測ネットワークは、第２領域画像を出力してもよい。該第２領域画像は、該ターゲット人体が該ターゲット衣類を着用している場合の該ターゲット人体画像の露出領域、即ち、露出した皮膚領域、例えば、手領域などを示すためのものである。図３に示すように、人体セマンティック画像Ｄ及び第１衣類画像Ｃが衣類予測ネットワークに入力され、該衣類予測ネットワークから、第１領域画像Ｍ^{ｃｌｏｔｈｅｓ}及び第２領域画像Ｍ^ｓｋｉｎが出力される。１つの可能な実現形態において、該第２領域画像は、後続の特徴抽出ステップに使用することができる。これにより、画像融合モデルは、例えば、皮膚領域の輪郭特徴や位置特徴などの露出した皮膚領域の特徴を決定することが可能になり、画像融合モデルがより正確に新たな人体画像を生成することは容易になる。

【手続補正6】

【補正対象書類名】明細書

【補正対象項目名】００５１

【補正方法】変更

【補正の内容】

【0051】

本願の実施例では、まず第１領域画像を取得してから、即ち、まずターゲット衣類が呈した姿勢を決定してから、衣類画像のアフィン変換を行うことにより、衣類画像をターゲット人体の姿勢に合わせることができ、衣類画像のアフィン変換の精度を効果的に向上させ、アフィン変換によって得られる衣類画像の真実性を向上させる。

【手続補正7】

【補正対象書類名】明細書

【補正対象項目名】００５３

【補正方法】変更

【補正の内容】

【0053】

本願の実施例において、コンピュータ機器は、画像融合モデルにおける空間変換ネットワークによって、該第１衣類画像を変換することにより、該第２衣類画像を取得してもよい。図６は、本願の実施例で提供される空間変換ネットワークの模式図である。図６に示すように、該空間変換ネットワークは、変換行列予測サブネットワーク６０１及び衣類生成サブネットワーク６０２を含む。例示的に、該変換行列予測サブネットワーク及び衣類生成サブネットワークのいずれにも複数の演算層が含まれる。該演算層は、畳み込み層やプーリング層などであってもよい。本願の実施例はこれを限定しない。ここで、該変換行列予測サブネットワークは、第１衣類画像のアフィン変換に使用するアフィン変換行列を決定し、該衣類生成サブネットワークは、衣類細部特徴を含み、衣類画像をさらに修飾することができる。

【手続補正8】

【補正対象書類名】明細書

【補正対象項目名】００５４

【補正方法】変更

【補正の内容】

【0054】

以下、図６を参照しながら、該第２衣類画像の取得方法を説明する。１つの可能な実現形態において、コンピュータ機器は、該第１領域画像及び該第１衣類画像を画像融合モデルの空間変換ネットワークに入力し、該空間変換ネットワークによって、該第１衣類画像と第１マスク領域とのマッピング関係に基づいて、該第１衣類画像を変換することにより、中間衣類画像を取得する。第１マスク領域は、第１衣類画像におけるターゲット衣類が位置する領域を示すためのものである。また、コンピュータ機器は、該空間変換ネットワークによって、該中間衣類画像に対応するテクスチャ特徴を決定し、該テクスチャ特徴及び該中間衣類画像に基づいて、該第２衣類画像を生成する。

【手続補正9】

【補正対象書類名】明細書

【補正対象項目名】００５７

【補正方法】変更

【補正の内容】

【0057】

いくつかの実施例において、コンピュータ機器は、該初期領域画像に基づいて衣類輪郭認識処理を行って、ターゲット衣類の初期輪郭を決定し、該第１領域画像に基づいて変換後のターゲット衣類に対応するターゲット輪郭を決定し、初期輪郭及びターゲット輪郭に対して輪郭の照合を行うことにより、該初期輪郭とターゲット輪郭とのマッピング関係、即ち、ターゲット衣類の変換前後の対応関係を取得する。該初期輪郭とターゲット輪郭とのマッピング関係は、コンピュータ機器がターゲット衣類を変換するプロセスにおいてターゲット衣類の形状を調整するのを補助することができる。

【手続補正10】

【補正対象書類名】明細書

【補正対象項目名】００５８

【補正方法】変更

【補正の内容】

【0058】

図６に示すように、コンピュータ機器は、第１衣類画像Ｃ、初期領域画像Ｍ、及び第１領域画像Ｍ^{ｃｌｏｔｈｅｓ}を空間変換ネットワークに入力し、該空間変換ネットワークにおける変換行列予測サブネットワークによって、該第１衣類画像に対応するアフィン変換行列Ｔを予測し、薄板スプライン（ＴＰＳ：ＴｈｉｎＰｌａｔｅＳｐｌｉｎｅ）アルゴリズムを呼び出し、該アフィン変換行列Ｔに基づいて該第１衣類画像を変換することにより、即ち、該アフィン変換行列Ｔに基づいて該第１衣類画像における各画素点の位置を調整することにより、中間衣類画像Ｃ^ｒａｗを取得する。該中間衣類画像において、ターゲット衣類の姿勢がターゲット人体の姿勢に合っている。

【手続補正11】

【補正対象書類名】明細書

【補正対象項目名】００６２

【補正方法】変更

【補正の内容】

【0062】

説明すべきものとして、上記のステップ４０２及びステップ４０３は、該第１人体画像における該ターゲット人体の姿勢に基づいて、該第１衣類画像を変換することにより、第２衣類画像を取得するステップであって、該第２衣類画像には、該ターゲット衣類が含まれ、該ターゲット衣類の姿勢が該ターゲット人体の姿勢にマッチしている、ステップである。本願の実施例では、まず、衣類画像のアフィン変換を行うことにより、人体の姿勢に合っている衣類画像を取得する。このプロセスでは、ターゲット人体の姿勢情報を正確に捉えることができるだけでなく、衣類の細部情報を十分に保持することもでき、例えば、衣類のテクスチャ情報、襟元、袖口などの細部情報を最大限に保持することができる。

【手続補正12】

【補正対象書類名】明細書

【補正対象項目名】００６５

【補正方法】変更

【補正の内容】

【0065】

１つの可能な実現形態において、図３に示すように、該コンピュータ機器は、該第２衣類画像と、上記ステップ４０２で取得した第２領域画像とを全て衣類符号化ネットワークに入力し、衣類符号化ネットワークによって、第２衣類画像及び第２領域画像に基づいて後続の衣類特徴抽出ステップを実行してもよい。ここで、第２領域画像は、ターゲット人体が該ターゲット衣類を着用している場合の露出領域を正確に示すことができる。衣類特徴抽出プロセスでは、該第２領域画像を使用することにより、衣類符号化ネットワークがターゲット衣類とターゲット人体との相対的な位置関係、即ち、ターゲット人体に対するターゲット衣類の遮蔽状況を決定することを補助することができ、該衣類符号化ネットワークがより正確な衣類特徴を抽出することを可能にする。

【手続補正13】

【補正対象書類名】明細書

【補正対象項目名】００７５

【補正方法】変更

【補正の内容】

【0075】

本願の実施例において、コンピュータ機器は、画像融合モデルにおける復号化ネットワークによって、該連結特徴に基づいて復号化を行うことにより、該第２人体画像を生成する。ここで、該第２人体画像において、該ターゲット人体が該ターゲット衣類を着用している。１つの可能な実現形態では、該復号化ネットワークは、ＲｅｓＵｎｅｔにおける復号化ネットワークの構造を採用してもよい。該復号化ネットワークには、複数のカスケード演算層が含まれる。コンピュータ機器は、該複数の演算層によって連結特徴をアップサンプリングすることにより、該第２人体画像を生成する。図８は、本願の実施例で提供される復号化ネットワークの模式図である。コンピュータ機器は、連結特徴における異なるスケールの連結サブ特徴を、復号化ネットワークにおける該スケールに対応する演算層にそれぞれ入力してもよい。例示的に、第１スケールの連結サブ特徴を第１スケールの演算層８０１に入力し、第２スケールの連結サブ特徴を第２スケールの演算層８０２に入力する。本願の実施例において、異なるスケースの連結サブ特徴は、異なる粒度の細部特徴を保持することができ、該復号化ネットワークが、異なるスケースの連結サブ特徴を復号化することより生成された第２人体画像は、アフィン変換後の衣類の細部情報、人体皮膚情報、及び人体グローバル細部情報を十分に保持することができ、真実なバーチャル着せ替え効果を達成する。

【手続補正14】

【補正対象書類名】明細書

【補正対象項目名】００８６

【補正方法】変更

【補正の内容】

【0086】

本願の実施例において、コンピュータ機器は、該第２サンプル人体画像及び第１サンプル衣類画像を第２初期モデルに入力し、該第２初期モデルによって、第１人体の特徴及び第１衣類の特徴に基づいてターゲットサンプル人体画像を生成する。ここで、該ターゲットサンプル人体画像において、該第１人体が該第１衣類を着用している。該コンピュータ機器が該第２初期モデルによってターゲットサンプル人体画像を生成するプロセスは、上記のステップ４０２からステップ４０７のプロセスと同様である。

【手続補正15】

【補正対象書類名】明細書

【補正対象項目名】０１０６

【補正方法】変更

【補正の内容】

【0106】

１つの可能な実現形態において、該特徴抽出モジュール１１０３は、さらに、画像融合モデルの衣類符号化ネットワークによって、該第２衣類画像に対して特徴抽出を行うことにより、該衣類特徴を取得し、該画像融合モデルの皮膚符号化ネットワークによって、該第１人体画像における露出領域の画像に対して特徴抽出を行うことにより、該皮膚特徴を取得し、該画像融合モデルのポートレート符号化ネットワークによって、該第１人体画像に対して特徴抽出を行うことにより、該人体特徴を取得する。

【手続補正16】

【補正対象書類名】明細書

【補正対象項目名】０１１８

【補正方法】変更

【補正の内容】

【0118】

通常、端末１２００は、１つ又は複数のプロセッサ１２０１と、１つ又は複数のメモリ１２０２と、を備える。プロセッサ１２０１は、１つ又は複数の処理コアを含んでもよく、例えば、４コアプロセッサ、８コアプロセッサなどである。プロセッサ１２０１は、デジタル信号プロセッサ（ＤＳＰ：ＤｉｇｉｔａｌＳｉｇｎａｌＰｒｏｃｅｓｓｏｒ）、フィールドプログラマブルゲートアレイ（ＦＰＧＡ：Ｆｉｅｌｄ－ＰｒｏｇｒａｍｍａｂｌｅＧａｔｅＡｒｒａｙ）、プログラマブルロジックアレイ（ＰＬＡ：ＰｒｏｇｒａｍｍａｂｌｅＬｏｇｉｃＡｒｒａｙ）のうちの少なくとも１つのハードウェアの形で実現されてもよい。

【国際調査報告】

知財求人

知財求人お知らせサービス

知財のニュースを調べる
- 知財ニュース
- 知財周辺ニュース
企業の特許を調べる
知財のセミナーを調べる
知財,特許事務所への求職・転職
特許事務所をさがす
弁理士試験を受ける
- 年の弁理士試験情報
- 弁理士試験の合格率など統計
知財の法律をしらべる
期限日をしらべる
- 今日に対して意見書・補正書の期限
- 今日に対して審査請求期限日
知財の判決をしらべる
コンテンツ・リンク
運営会社
プレスの皆様へ
- お問い合わせ
ユーザーの皆様
- お問い合わせ・フィードバック
広告掲載を希望の皆様へ
- 広告掲載について
- 求人広告の掲載について

IP Force 特許公報掲載プロジェクト 2022.1.31 β版