(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2023-11-22
(54)【発明の名称】画像生成方法、画像生成装置、コンピュータ機器、及びコンピュータプログラム
(51)【国際特許分類】
G06T 7/00 20170101AFI20231115BHJP
G06T 7/70 20170101ALI20231115BHJP
G06V 10/82 20220101ALI20231115BHJP
G06T 11/60 20060101ALI20231115BHJP
【FI】
G06T7/00 350C
G06T7/00 660B
G06T7/70 Z
G06V10/82
G06T11/60 100A
【審査請求】有
【予備審査請求】未請求
(21)【出願番号】P 2023528490
(86)(22)【出願日】2022-01-24
(85)【翻訳文提出日】2023-05-12
(86)【国際出願番号】 CN2022073394
(87)【国際公開番号】W WO2022161301
(87)【国際公開日】2022-08-04
(31)【優先権主張番号】202110118922.2
(32)【優先日】2021-01-28
(33)【優先権主張国・地域又は機関】CN
(81)【指定国・地域】
(71)【出願人】
【識別番号】517392436
【氏名又は名称】▲騰▼▲訊▼科技(深▲セン▼)有限公司
(74)【代理人】
【識別番号】100110364
【氏名又は名称】実広 信哉
(74)【代理人】
【識別番号】100150197
【氏名又は名称】松尾 直樹
(72)【発明者】
【氏名】宋 奕兵
(72)【発明者】
【氏名】葛 崇▲劍▼
【テーマコード(参考)】
5B050
5L096
【Fターム(参考)】
5B050AA10
5B050BA06
5B050BA12
5B050BA13
5B050CA01
5B050DA01
5B050EA12
5B050EA19
5B050FA02
5L096FA06
5L096FA37
5L096GA10
5L096HA11
5L096JA11
5L096KA04
5L096MA03
(57)【要約】
本願は、画像生成方法、装置、コンピュータ機器、及びコンピュータ可読記憶媒体を開示しており、画像処理の技術分野に属する。前記方法は、ターゲット人体が含まれる第1人体画像と、ターゲット衣類が含まれる第1衣類画像とを取得するステップと、第1人体画像におけるターゲット人体の姿勢に基づいて、第1衣類画像を変換することにより、第2衣類画像を取得するステップであって、第2衣類画像には、ターゲット衣類が含まれ、ターゲット衣類の姿勢がターゲット人体の姿勢にマッチしている、ステップと、第2衣類画像と、第1人体画像における露出領域の画像と、第1人体画像とのそれぞれに対して特徴抽出を行うことにより、衣類特徴、皮膚特徴、及び人体特徴を取得するステップであって、露出領域は、第1人体画像におけるターゲット人体の、衣類によって遮蔽されていない領域である、ステップと、衣類特徴、皮膚特徴、及び人体特徴に基づいて、第2人体画像を生成するステップであって、第2人体画像において、ターゲット人体がターゲット衣類を着用している、ステップと、を含む。
【特許請求の範囲】
【請求項1】
コンピュータ機器が実行する画像生成方法であって、
ターゲット人体が含まれる第1人体画像と、ターゲット衣類が含まれる第1衣類画像とを取得するステップと、
前記第1人体画像における前記ターゲット人体の姿勢に基づいて、前記第1衣類画像を変換することにより、第2衣類画像を取得するステップであって、前記第2衣類画像には、前記ターゲット衣類が含まれ、前記ターゲット衣類の姿勢が前記ターゲット人体の姿勢にマッチしている、ステップと、
前記第2衣類画像と、前記第1人体画像における露出領域の画像と、前記第1人体画像とのそれぞれに対して特徴抽出を行うことにより、衣類特徴、皮膚特徴、及び人体特徴を取得するステップであって、前記露出領域は、前記第1人体画像における前記ターゲット人体の、衣類によって遮蔽されていない領域である、ステップと、
前記衣類特徴、前記皮膚特徴、及び前記人体特徴に基づいて、第2人体画像を生成するステップであって、前記第2人体画像において、前記ターゲット人体が前記ターゲット衣類を着用している、ステップと、
を含むことを特徴とする画像生成方法。
【請求項2】
前記第1人体画像における前記ターゲット人体の姿勢に基づいて、前記第1衣類画像を変換することにより、第2衣類画像を取得するステップは、
前記第1人体画像における前記ターゲット人体の姿勢と、前記第1衣類画像とに基づいて、第1領域画像を決定するステップであって、前記第1領域画像は、前記ターゲット人体が前記ターゲット衣類を着用している場合の前記ターゲット衣類の遮蔽領域を示すためのものである、ステップと、
前記第1領域画像に基づいて前記第1衣類画像を変換することにより、前記第2衣類画像を取得するステップと、
を含むことを特徴とする請求項1に記載の画像生成方法。
【請求項3】
前記第1人体画像における前記ターゲット人体の姿勢と、前記第1衣類画像とに基づいて、第1領域画像を決定するステップは、
前記第1人体画像に対して人体領域認識を行って、同じ身体領域に属する、前記第1人体画像における画素点を同じ画素値に設定することにより、人体セマンティック画像を取得するステップであって、前記人体セマンティック画像は、前記ターゲット人体の姿勢を示すためのものである、ステップと、
前記人体セマンティック画像及び前記第1衣類画像に基づいて、前記第1領域画像を決定するステップと、
を含むことを特徴とする請求項2に記載の画像生成方法。
【請求項4】
前記人体セマンティック画像及び前記第1衣類画像に基づいて、前記第1領域画像を決定するステップは、
前記人体セマンティック画像及び前記第1衣類画像を画像融合モデルの衣類領域予測ネットワークに入力するステップと、
前記衣類領域予測ネットワークによって、前記人体セマンティック画像に対応する人体姿勢特徴と、前記第1衣類画像における前記ターゲット衣類の輪郭特徴とを抽出するステップと、
前記人体姿勢特徴と、前記ターゲット衣類の輪郭特徴とに基づいて、前記第1領域画像を決定するステップと、
を含むことを特徴とする請求項3に記載の画像生成方法。
【請求項5】
前記第1領域画像に基づいて前記第1衣類画像を変換することにより、前記第2衣類画像を取得するステップは、
前記第1領域画像及び前記第1衣類画像を画像融合モデルの空間変換ネットワークに入力するステップであって、前記空間変換ネットワークは、画像を変換するためのものである、ステップと、
前記空間変換ネットワークによって、前記第1衣類画像と第1マスク領域とのマッピング関係に基づいて、前記第1衣類画像を変換することにより、中間衣類画像を取得するステップであって、前記第1マスク領域は、前記第1衣類画像におけるターゲット衣類が位置する領域を示すためのものである、ステップと、
前記空間変換ネットワークによって、前記中間衣類画像に対応するテクスチャ特徴を決定するステップと、
前記テクスチャ特徴及び前記中間衣類画像に基づいて、前記第2衣類画像を生成するステップと、
を含むことを特徴とする請求項2に記載の画像生成方法。
【請求項6】
前記空間変換ネットワークによって、前記第1衣類画像と第1マスク領域とのマッピング関係に基づいて、前記第1衣類画像を変換することにより、中間衣類画像を取得するステップは、
前記第1マスク領域に基づいて前記ターゲット衣類の初期輪郭を決定し、前記第1領域画像に基づいて変換後の前記ターゲット衣類に対応するターゲット輪郭を決定するステップと、
前記初期輪郭及び前記ターゲット輪郭に基づいて、前記初期輪郭と前記ターゲット輪郭とのマッピング関係を決定するステップと、
前記マッピング関係に基づいて前記第1衣類画像を変換することにより、中間衣類画像を取得するステップと、
を含むことを特徴とする請求項5に記載の画像生成方法。
【請求項7】
前記空間変換ネットワークは、衣類生成サブネットワークを含み、
前記空間変換ネットワークによって、前記中間衣類画像に対応するテクスチャ特徴を決定するステップは、
前記衣類生成サブネットワークに基づいて、予め学習された衣類細部特徴に従って、前記中間衣類画像に対して特徴抽出を行うことにより、前記中間衣類画像に対応するテクスチャ特徴を取得するステップ
を含むことを特徴とする請求項5に記載の画像生成方法。
【請求項8】
前記第2衣類画像と、前記第1人体画像における露出領域の画像と、前記第1人体画像とのそれぞれに対して特徴抽出を行うことにより、衣類特徴、皮膚特徴、及び人体特徴を取得するステップは、
画像融合モデルの衣類符号化ネットワークによって、前記第2衣類画像に対して特徴抽出を行うことにより、前記衣類特徴を取得するステップと、
前記画像融合モデルの皮膚符号化ネットワークによって、前記第1人体画像における露出領域の画像に対して特徴抽出を行うことにより、前記皮膚特徴を取得するステップと、
前記画像融合モデルのポートレート符号化ネットワークによって、前記第1人体画像に対して特徴抽出を行うことにより、前記人体特徴を取得するステップと、
を含むことを特徴とする請求項1に記載の画像生成方法。
【請求項9】
前記衣類特徴、前記皮膚特徴、及び前記人体特徴に基づいて、第2人体画像を生成するステップは、
前記衣類特徴、前記皮膚特徴、及び前記人体特徴を連結することにより、連結特徴を取得するステップと、
前記連結特徴に基づいて復号化を行うことにより、前記第2人体画像を生成するステップと、
を含むことを特徴とする請求項1に記載の画像生成方法。
【請求項10】
前記衣類特徴、前記皮膚特徴、及び前記人体特徴のいずれにも、少なくとも2つのスケールのサブ特徴が含まれ、
前記衣類特徴、前記皮膚特徴、及び前記人体特徴を連結することにより、連結特徴を取得するステップは、
前記衣類特徴、前記皮膚特徴、及び前記人体特徴における同じスケールのサブ特徴をそれぞれ連結することにより、少なくとも2つの連結サブ特徴を取得するステップと、
前記少なくとも2つの連結サブ特徴を連結することにより、前記連結特徴を取得するステップと、
を含むことを特徴とする請求項9に記載の画像生成方法。
【請求項11】
前記第2衣類画像取得ステップ、前記特徴抽出ステップ、及び前記第2人体画像生成ステップは、画像融合モデルによって実行される、
ことを特徴とする請求項1に記載の画像生成方法。
【請求項12】
第1初期モデル及び第2初期モデルを取得するステップであって、前記第1初期モデル及び第2初期モデルの構造が同じである、ステップと、
第1人体が含まれる第1サンプル人体画像と、第1衣類が含まれる第1サンプル衣類画像と、第2衣類が含まれる第2サンプル衣類画像とを取得するステップであって、前記第1サンプル人体画像において、前記第1人体が前記第1衣類を着用している、ステップと、
前記第1初期モデルによって、前記第1サンプル人体画像及び前記第2サンプル衣類画像に対して画像融合を行うことにより、第2サンプル人体画像を生成するステップであって、前記第2サンプル人体画像において、前記第1人体が前記第2衣類を着用している、ステップと、
前記第2初期モデルによって、前記第2サンプル人体画像及び前記第1サンプル衣類画像に対して画像融合を行うことにより、ターゲットサンプル人体画像を生成するステップであって、前記ターゲットサンプル人体画像において、前記第1人体が前記第1衣類を着用している、ステップと、
前記第1サンプル人体画像と前記第2サンプル人体画像との誤差、前記第1サンプル人体画像と前記ターゲットサンプル人体画像との誤差に基づいて、前記第1初期モデルを訓練するステップと、
前記第2サンプル人体画像と前記ターゲットサンプル人体画像との誤差、前記第1サンプル人体画像と前記ターゲットサンプル人体画像との誤差に基づいて、前記第2初期モデルを訓練するステップと、
前記第1初期モデル及び前記第2初期モデルのいずれもモデル訓練条件を満たすイベントに応答して、訓練済みの前記第2初期モデルを画像融合モデルとして取得するステップと、
をさらに含むことを特徴とする請求項11に記載の画像生成方法。
【請求項13】
前記第1サンプル人体画像と前記第2サンプル人体画像との誤差、前記第1サンプル人体画像と前記ターゲットサンプル人体画像との誤差に基づいて、前記第1初期モデルを訓練するステップは、
前記第1サンプル人体画像と前記第2サンプル人体画像との画素値分布差異に基づいて、第1誤差を決定するステップと、
前記第1サンプル人体画像に対応する画素値行列と、前記第2サンプル人体画像に対応する画素値行列との誤差を第2誤差として決定するステップと、
前記第1サンプル人体画像に対応する画素値行列と、前記ターゲットサンプル人体画像に対応する画素値行列との誤差を第3誤差として決定するステップと、
前記第1サンプル人体画像における衣類領域の画像特徴と、ターゲットサンプル人体画像における衣類領域の画像特徴との誤差を第4誤差として決定するステップと、
前記第1誤差、前記第2誤差、前記第3誤差、及び前記第4誤差に基づいて、前記第1初期モデルのモデルパラメータを調整するステップと、
を含むことを特徴とする請求項12に記載の画像生成方法。
【請求項14】
前記第1誤差、前記第2誤差、前記第3誤差、及び前記第4誤差に基づいて、前記第1初期モデルのモデルパラメータを調整するステップは、
前記第1誤差、前記第2誤差、前記第3誤差、及び前記第4誤差を前記第1初期モデルに逆伝播し、前記第1初期モデルにおける各演算層のパラメータの解を求めるステップと、
解を求めた結果に基づいて、前記第1初期モデルにおける各演算層のパラメータを調整するステップと、
を含むことを特徴とする請求項13に記載の画像生成方法。
【請求項15】
前記第2サンプル人体画像と前記ターゲットサンプル人体画像との誤差、前記第1サンプル人体画像と前記ターゲットサンプル人体画像との誤差に基づいて、前記第2初期モデルを訓練するステップは、
前記第2サンプル人体画像と前記ターゲットサンプル人体画像との画素値分布差異に基づいて、第5誤差を決定するステップと、
前記第2サンプル人体画像に対応する画素値行列と、前記ターゲットサンプル人体画像に対応する画素値行列との誤差を第6誤差として決定するステップと、
前記第1サンプル人体画像に対応する画素値行列と、前記ターゲットサンプル人体画像に対応する画素値行列との誤差を第7誤差として決定するステップと、
前記第1サンプル人体画像における衣類領域の画像特徴と、ターゲットサンプル人体画像における衣類領域の画像特徴との誤差を第8誤差として決定するステップと、
前記第5誤差、前記第6誤差、前記第7誤差、及び前記第8誤差に基づいて、前記第2初期モデルのモデルパラメータを調整するステップと、
を含むことを特徴とする請求項12に記載の画像生成方法。
【請求項16】
画像生成装置であって、
ターゲット人体が含まれる第1人体画像と、ターゲット衣類が含まれる第1衣類画像とを取得する第1取得モジュールと、
前記第1人体画像における前記ターゲット人体の姿勢に基づいて、前記第1衣類画像を変換することにより、第2衣類画像を取得する衣類変換モジュールであって、前記第2衣類画像には、前記ターゲット衣類が含まれ、前記ターゲット衣類の姿勢が前記ターゲット人体の姿勢にマッチしている、衣類変換モジュールと、
前記第2衣類画像と、前記第1人体画像における露出領域の画像と、前記第1人体画像とのそれぞれに対して特徴抽出を行うことにより、衣類特徴、皮膚特徴、及び人体特徴を取得する特徴抽出モジュールであって、前記露出領域は、前記第1人体画像における前記ターゲット人体の、衣類によって遮蔽されていない領域である、特徴抽出モジュールと、
前記衣類特徴、前記皮膚特徴、及び前記人体特徴に基づいて、第2人体画像を生成する第1生成モジュールであって、前記第2人体画像において、前記ターゲット人体が前記ターゲット衣類を着用している、第1生成モジュールと、
を含むことを特徴とする画像生成装置。
【請求項17】
コンピュータ可読命令を記憶したメモリと、1つ又は複数のプロセッサと、を備えるコンピュータ機器であって、前記1つ又は複数のプロセッサは、前記コンピュータ可読命令を実行すると、請求項1乃至15のいずれか1項に記載の画像生成方法のステップを実現することを特徴とするコンピュータ機器。
【請求項18】
コンピュータ可読命令を記憶した1つ又は複数の不揮発性コンピュータ可読記憶媒体であって、前記コンピュータ可読命令は、1つ又は複数のプロセッサによって実行されると、請求項1乃至15のいずれか1項に記載の画像生成方法のステップを実現させることを特徴とする記憶媒体。
【請求項19】
コンピュータ可読命令を含むコンピュータプログラム製品であって、前記コンピュータ可読命令は、1つ又は複数のプロセッサによって実行されると、請求項1乃至15のいずれか1項に記載の画像生成方法のステップを実現させることを特徴とするコンピュータプログラム製品。
【発明の詳細な説明】
【技術分野】
【0001】
本願は、2021年1月28日に中国特許庁に提出された、出願番号が第202110118922.2号であり、発明の名称が「画像生成方法、装置、コンピュータ機器、及びコンピュータ可読記憶媒体」である中国特許出願に基づく優先権を主張し、その全ての内容が、参照することにより本願に組み込まれている。
【0002】
本願は、画像処理の技術分野に関し、特に画像生成方法、装置、コンピュータ機器、コンピュータ可読記憶媒体、及びコンピュータプログラム製品に関する。
【背景技術】
【0003】
バーチャル着せ替えとは、画像融合技術を使用して、ユーザの人体画像と、ターゲット衣類が含まれる衣類画像とを融合することにより、ユーザが該ターゲット衣類を着用している画像を取得することを指す。これにより、ユーザは、実際にターゲット衣類を試着することなく、ターゲット衣類の着用効果を知ることができる。
【0004】
現在、バーチャル着せ替えプロセスでは、通常、画像融合モデルを使用して、人体画像及び衣類画像のそれぞれに対して特徴抽出を行い、抽出した2つの画像特徴に基づいて、新たな画像、即ち、ユーザがターゲット衣類を着用している画像を生成する。しかしながら、上記のプロセスでは、画像融合モデルによって抽出されたのが大まかな画像特徴であるため、画像生成時に新たに生成された画像に細部情報が欠落しやすく、さらに画像生成効果の歪みにつながり、バーチャル着せ替えの効果が悪い。
【発明の概要】
【発明が解決しようとする課題】
【0005】
本願の実施例は、画像生成方法、装置、コンピュータ機器、コンピュータ可読記憶媒体、及びコンピュータプログラム製品を提供する。
【課題を解決するための手段】
【0006】
コンピュータ機器が実行する画像生成方法であって、
ターゲット人体が含まれる第1人体画像と、ターゲット衣類が含まれる第1衣類画像とを取得するステップと、
該第1人体画像における該ターゲット人体の姿勢に基づいて、該第1衣類画像を変換することにより、第2衣類画像を取得するステップであって、該第2衣類画像には、該ターゲット衣類が含まれ、該ターゲット衣類の姿勢が該ターゲット人体の姿勢にマッチしている、ステップと、
該第2衣類画像と、該第1人体画像における露出領域の画像と、該第1人体画像とのそれぞれに対して特徴抽出を行うことにより、衣類特徴、皮膚特徴、及び人体特徴を取得するステップであって、該露出領域は、該第1人体画像における該ターゲット人体の、衣類によって遮蔽されていない領域である、ステップと、
該衣類特徴、該皮膚特徴、及び該人体特徴に基づいて、第2人体画像を生成するステップであって、該第2人体画像において、該ターゲット人体が該ターゲット衣類を着用している、ステップと、を含む。
【0007】
画像生成装置であって、
ターゲット人体が含まれる第1人体画像と、ターゲット衣類が含まれる第1衣類画像とを取得する第1取得モジュールと、
該第1人体画像における該ターゲット人体の姿勢に基づいて、該第1衣類画像を変換することにより、第2衣類画像を取得する衣類変換モジュールであって、該第2衣類画像には、該ターゲット衣類が含まれ、該ターゲット衣類の姿勢が該ターゲット人体の姿勢にマッチしている、衣類変換モジュールと、
該第2衣類画像と、該第1人体画像における露出領域の画像と、該第1人体画像とのそれぞれに対して特徴抽出を行うことにより、衣類特徴、皮膚特徴、及び人体特徴を取得する特徴抽出モジュールであって、該露出領域は、該第1人体画像における該ターゲット人体の、衣類によって遮蔽されていない領域である、特徴抽出モジュールと、
該衣類特徴、該皮膚特徴、及び該人体特徴に基づいて、第2人体画像を生成する第1生成モジュールであって、該第2人体画像において、該ターゲット人体が該ターゲット衣類を着用している、第1生成モジュールと、を含む。
【0008】
コンピュータ可読命令を記憶したメモリと、1つ又は複数のプロセッサと、を備えるコンピュータ機器であって、前記コンピュータ可読命令は、前記1つ又は複数のプロセッサによって実行されると、前記1つ又は複数のプロセッサに上記の画像生成方法のステップを実行させる。
【0009】
コンピュータ可読命令を記憶した1つ又は複数の不揮発性コンピュータ可読記憶媒体であって、前記コンピュータ可読命令は、1つ又は複数のプロセッサによって実行されると、前記1つ又は複数のプロセッサに上記の画像生成方法のステップを実行させる。
【0010】
コンピュータ可読命令を含むコンピュータプログラム製品又はコンピュータプログラムであって、前記コンピュータ可読命令は、コンピュータ可読記憶媒体に記憶されており、コンピュータ機器のプロセッサは、前記コンピュータ可読記憶媒体から前記コンピュータ可読命令を読み取り、前記プロセッサが前記コンピュータ可読命令を実行することで、前記コンピュータ機器に上記の画像生成方法のステップを実行させる。
【0011】
本願の1つ又は複数の実施例の細部は、以下の図面及び説明に記載されている。本願の他の特徴、目的、及び利点は、明細書、図面、及び特許請求の範囲から明らかになる。
【図面の簡単な説明】
【0012】
本願の実施例の構成をより明確に説明するために、以下に、実施例の説明に必要な図面を簡単に紹介する。明らかに、以下の説明における図面は本願のいくつかの実施例を示しているに過ぎず、当業者であれば、創造的な労働をすることなく、これらの図面から他の図面を得ることもできる。
【0013】
【
図1】本願の一実施例で提供される画像生成方法の実施環境の模式図である。
【
図2】本願の一実施例で提供される画像生成方法のフローチャートである。
【
図3】本願の一実施例で提供される画像融合モデルの模式図である。
【
図4】本願の他の実施例で提供される画像生成方法のフローチャートである。
【
図5】本願の一実施例で提供される画像融合モデルの模式図である。
【
図6】本願の一実施例で提供される空間変換ネットワークの模式図である。
【
図7】本願の一実施例で提供される特徴連結の模式図である。
【
図8】本願の一実施例で提供される復号化ネットワークの模式図である。
【
図9】本願の一実施例で提供される画像融合モデルの訓練方法のフローチャートである。
【
図10】本願の一実施例で提供されるモデル訓練方法の模式図である。
【
図11】本願の一実施例で提供される画像生成装置の構成の模式図である。
【
図12】本願の一実施例で提供される端末の構成の模式図である。
【
図13】本願の一実施例で提供されるサーバの構成の模式図である。
【発明を実施するための形態】
【0014】
本願の目的、構成、及びメリットをより明確にするために、以下、図面を参照しながら、本願の実施形態をさらに詳しく説明する。明らかなように、説明する実施例は、本願の一部の実施例に過ぎず、全部の実施例ではない。当業者が創造的な労働をせずに本願の実施例から得る全ての他の実施例は、本願の保護範囲に属する。
【0015】
本願における用語「第1」、「第2」などの表現は、役割及び機能がほぼ同じである同一項目又は類似項目を区別するために使用される。理解すべきものとして、「第1」、「第2」、「第n」の間に論理的又は時系列的な依存関係はなく、数量及び実行順序も限定されない。
【0016】
人工知能技術は、総合的な学科であり、関連する分野が幅広く、ハードウェアレベルの技術もソフトウェアレベルの技術もある。人工知能の基礎技術には、一般的に、例えば、センサ、人工知能専用チップ、クラウドコンピューティング、分散記憶、ビッグデータ処理技術、操作/インタラクティブシステム、メカトロニクスなどの技術が含まれる。人工知能のソフトウェア技術は、主に、コンピュータビジョン技術、音声処理技術、自然言語処理技術、及び機械学習/深層学習などのいくつかの方面を含む。本願の実施例は、人工知能技術におけるコンピュータビジョン技術及び機械学習技術に関する。
【0017】
以下、本願に関連する用語を解釈する。
【0018】
空間変換ネットワーク(STN:Spatial Transformer Network)とは、追加のデータラベルを導入することなく、ネットワーク内で、例えば、特徴マップなどのデータを空間的に変換することができる操作ネットワークである。
【0019】
薄板スプライン(TPS:Thin Plate Spline)とは、画像変形(image warping)などのタスクに使用でき、少量のコントロールポイントによって画像の変化を駆動する補間アルゴリズムである。
【0020】
生成器(Generator)とは、ディープニューラルネットワークに基づいて構築された、画像を生成するためのネットワークを指す。その通常の構造は、encoder-decoder構造、即ちダウンサンプリング-アップサンプリング構造である。
【0021】
人体セマンティック情報とは、本願の実施例において、人体の各部位を異なる画素値で表す情報を指す。
【0022】
図1は、本願の実施例で提供される画像生成方法の実施環境の模式図である。
図1を参照すると、この実施環境には、端末110及びサーバ140が含まれている。
【0023】
そのうち、端末110には、画像生成をサポートするアプリケーションがインストールされて実行され、例えば、該アプリケーションは、バーチャル着せ替えアプリケーション、電子商取引系アプリケーションである。該アプリケーションは、画像生成機能を呼び出して、ユーザの人体画像とターゲット衣類の画像とを融合することにより、新たな人体画像を生成することができ、この新たな人体画像は、該ユーザが該ターゲット衣類を着用している効果を呈することができる。いくつかの実施例において、該端末110は、スマートフォン、タブレットコンピュータ、ノートパソコン、デスクトップコンピュータ、IoT機器、及びポータブルウェアラブルデバイスであってもよい。IoT機器は、スマートTV、スマートスピーカー、スマートエアコン、スマート車載機器などであってもよい。ポータブルウェアラブルデバイスは、スマートウォッチ、スマートブレスレット、ヘッドマウントデバイスなどであってもよい。いくつかの実施例において、該端末110は、スマートホームである。例えば、該端末110は、スマートミラー、スマートワードローブなどである。本願の実施例は、該端末110の機器タイプを限定しない。例示的に、端末110は、ユーザが使用する端末であり、端末110で実行されるアプリケーションには、ユーザアカウントが登録されている。端末110は、一般に複数の端末のうちの1つを指すことができ、本実施例では、端末110のみを例にして説明する。
【0024】
サーバ140は、1つのサーバ、複数のサーバ、クラウドコンピューティングプラットフォーム、及び仮想化センターのうちの少なくとも1種であってもよい。サーバ140は、画像生成をサポートするアプリケーションにバックエンドサービスを提供する。いくつかの実施例において、サーバ140は主要な画像生成作業を担当し、端末110は副次的な画像生成作業を担当するか、あるいは、サーバ140は副次的な画像生成作業を担当し、端末110は主要な画像生成作業を担当するか、あるいは、サーバ140又は端末110は、それぞれ、画像生成作業を単独で担当することができる。
【0025】
いくつかの実施例において、サーバ140は、アクセスサーバ、画像生成サーバ、及びデータベースを含む。アクセスサーバは、端末110にデータアクセスサービスを提供する。画像生成サーバは、画像生成に関するバックエンドサービスを提供する。該画像生成サーバは、グラフィック処理ユニットを搭載することができ、グラフィック処理ユニットのマルチスレッド並列計算をサポートする。画像生成サーバは、1つ又は複数であってもよい。画像生成サーバが複数である場合、異なるサービスを提供するための少なくとも2つの画像生成サーバがあり、及び/又は、同じサービスを提供する(例えば、負荷分散で同じサービスを提供する)ための少なくとも2つの画像生成サーバがある。本願の実施例はこれを限定しない。画像生成サーバには、画像融合モデルが設けられてもよい。モデルの訓練及び使用のプロセスにおいて、該画像生成サーバは、グラフィック処理ユニット(GPU:Graphics Processing Unit)を搭載することができ、グラフィック処理ユニットの並列計算をサポートする。ここで、上記サーバは、独立した物理サーバであってもよく、複数の物理サーバからなるサーバクラスタ又は分散型システムであってもよく、クラウドサービス、クラウドデータベース、クラウドコンピューティング、クラウド関数、クラウドストレージ、ネットワークサービス、クラウド通信、ミドルウェアサービス、ドメイン名サービス、セキュリティサービス、コンテンツデリバリネットワーク(CDN:Content Delivery Network)、及び、ビッグデータや人工知能プラットフォームなどのベースクラウドコンピューティングサービスを提供するクラウドサーバであってもよい。
【0026】
上記の端末110と画像生成プラットフォーム140は、有線又は無線の通信方式によって、直接又は間接的に接続されてもよい。本願の実施例はこれを限定しない。
【0027】
いくつかの実施例において、上記の実施環境は、ブロックチェーンシステムに配置されてもよい。例示的に、上記サーバは、ブロックチェーンにおけるノード機器であり、該サーバには、画像生成モデルが搭載されており、端末は、バーチャル着せ替えイベントに応答して、ブロックチェーンシステムにおける該サーバにバーチャル着せ替え指示を送信する。ここで、バーチャル着せ替えイベントは、ユーザが端末とのインタラクションによってトリガするバーチャル着せ替え操作であってもよいし、端末が検出機器によってトリガ条件に適合することを検出したときに自動的にトリガするイベントであってもよい。該バーチャル着せ替え指示には、ユーザの秘密鍵の署名が付されており、サーバは、該ユーザの公開鍵を使用して該バーチャル着せ替え指示を検証し、検証合格に応答して、サーバ内の画像生成モデルによって、該バーチャル着せ替え指示に基づいてバーチャル着せ替えタスクを実行する。説明すべきものとして、上記端末も、ブロックチェーンシステムにおけるノード機器であってもよい。本願の実施例はこれを限定しない。
【0028】
本願の実施例で提供される画像生成方法は、様々な応用シナリオと組み合わせることができる。例えば、電子商取引系アプリケーションにおいて、アプリケーションに展示された衣類をユーザが試着する必要がある場合、コンピュータ機器は、該画像生成機能を呼び出し、ユーザの人体画像と試着対象衣類の衣類画像とに基づいて新たな人体画像を生成することができ、この新たな人体画像は、ユーザが該試着対象衣類を着用している効果を呈することができる。もちろん、本願の実施例で提供される画像生成方法は、スマートミラーやスマートワードローブなどのスマートホームにも適用可能である。本願の実施例は、該画像生成方法の応用シナリオを限定しない。
【0029】
具体的には、コンピュータ機器は、ターゲット人体の姿勢に基づいて、オリジナルの第1衣類画像を変換することにより、ターゲット人体の姿勢に合って大量の細部情報を保持する第2衣類画像を取得し、異なる特徴抽出タスクに基づいて、それぞれ異なる次元で第2衣類画像及び第1人体画像に対して特徴抽出を行うことにより、衣類特徴、皮膚特徴、及び人体特徴を取得し、つまり、3つの異なる次元の、より細かい粒度の、より精確な特徴を取得する。これにより、これらの特徴に基づいて生成された第2人体画像には、より豊富な細部情報を含めることができ、第2人体画像は、高い真実性を有し、良好なバーチャル着せ替え効果が確保される。
【0030】
図2は、本願の実施例で提供される画像生成方法のフローチャートである。該方法は、上記の端末又はサーバに適用可能であるが、端末及びサーバは、いずれもコンピュータ機器と見なすことができる。このため、本願の実施例では、コンピュータ機器を実行主体として、該画像生成方法を紹介する。
図2を参照すると、該実施例は、具体的に以下のステップを含んでもよい。
【0031】
201では、コンピュータ機器が、ターゲット人体が含まれる第1人体画像と、ターゲット衣類が含まれる第1衣類画像とを取得する。
【0032】
ここで、該第1人体画像は、ターゲット人体の全身画像又は半身画像であってもよい。第1衣類画像は、人体における着用部位が、ターゲット人体の第1人体画像に展示された人体領域にマッチしている。例えば、該第1人体画像は、ターゲット人体の上半身画像であり、該第1衣類画像は、上半身衣類に対応する画像(例えば、トップスの画像)である。また、例えば、該第1人体画像は、ターゲット人体の下半身画像であり、該第1衣類画像は、例えばズボンの画像やハーフスカートの画像などの下半身衣類画像である。また、例えば、該第1人体画像は、ターゲット人体の全身画像であり、該第1衣類画像は、例えばワンピースの画像などの全身衣類画像である。該第1人体画像及び第1衣類画像は、コンピュータ機器に記憶された画像であってもよく、コンピュータ機器がビデオからキャプチャした画像であってもよく、画像収集機能を有する機器によってリアルタイムで収集された画像であってもよい。例えば、コンピュータ機器がカメラに接続され、カメラがリアルタイムで撮影した画像を該コンピュータ機器に送信するか、あるいは、該コンピュータ機器にカメラが配置されており、該カメラによって画像をリアルタイムで収集する。本願の実施例は、具体的にどのような画像を使用するかを限定しない。
【0033】
202では、コンピュータ機器が、該第1人体画像における該ターゲット人体の姿勢に基づいて、該第1衣類画像を変換することにより、第2衣類画像を取得し、該第2衣類画像には、該ターゲット衣類が含まれ、該ターゲット衣類の姿勢が該ターゲット人体の姿勢にマッチしている。
【0034】
本願の実施例において、コンピュータ機器は、ターゲット人体の姿勢に基づいて、ターゲット衣類の姿勢がターゲット人体の姿勢に合うように、ターゲット衣類が含まれる第1衣類画像を変換することにより、ターゲット衣類の細部情報を十分に保持する第2衣類画像を取得する。これにより、その後第2衣類に対して特徴抽出を行う際に、豊富な細部特徴を抽出することができる。
【0035】
203では、コンピュータ機器が、該第2衣類画像と、該第1人体画像における露出領域の画像と、該第1人体画像とのそれぞれに対して特徴抽出を行うことにより、衣類特徴、皮膚特徴、及び人体特徴を取得し、該露出領域が、該第1人体画像における該ターゲット人体の、衣類によって遮蔽されていない領域である。
【0036】
1つの可能な実現形態では、該コンピュータ機器が、複数の次元で、該第2衣類画像及び該第2人体画像に対して特徴抽出を行うことにより、衣類特徴、皮膚特徴、及び人体特徴を取得する。例示的に、特徴抽出タスクに対してタスク分解を行って、3つの次元の特徴抽出サブタスクに分解し、即ち、コンピュータ機器が、衣類次元、皮膚次元、及び全体ポートレート次元のそれぞれで特徴抽出を行うことにより、衣類特徴、皮膚特徴、及び人体特徴を取得する。本願の実施例では、タスク分解によって、各次元の特徴をそれぞれ抽出する。これにより、一方で、より全面的な、より細かい粒度の特徴を抽出することができ、他方で、各特徴抽出サブタスクを別々に実行することで、コンピュータ機器の特徴抽出時のデータ処理の負担を軽減することもできる。
【0037】
204では、コンピュータ機器が、該衣類特徴、該皮膚特徴、及び該人体特徴に基づいて、第2人体画像を生成し、該第2人体画像において、該ターゲット人体が該ターゲット衣類を着用している。
【0038】
1つの可能な実現形態において、該コンピュータ機器は、複数の次元の特徴、即ち、衣類特徴、皮膚特徴、及び人体特徴を連結することにより、連結特徴を取得してもよい。連結特徴には、衣類の細部情報、人体皮膚情報、及び人体グローバル細部情報が含まれる。コンピュータ機器は、バーチャル着せ替えの効果を達成するために、該連結特徴を復号化することにより、該ユーザが該ターゲット衣類を着用している人体画像、即ち、第2人体画像を生成してもよい。
【0039】
本願の実施例で提供される構成では、まず、ターゲット人体の姿勢に基づいて、オリジナルの第1衣類画像を変換することにより、ターゲット人体の姿勢に合って大量の細部情報を保持する第2衣類画像を取得してから、異なる特徴抽出タスクに基づいて、それぞれ異なる次元で第2衣類画像及び第1人体画像に対して特徴抽出を行うことにより、衣類特徴、皮膚特徴、及び人体特徴を取得し、つまり、3つの異なる次元の、より細かい粒度の、より精確な特徴を取得する。これにより、これらの特徴に基づいて生成された第2人体画像には、より豊富な細部情報を含めることができ、第2人体画像は、高い真実性を有し、良好なバーチャル着せ替え効果が確保される。
【0040】
上記の実施例は、本願の実施形態の簡単な紹介である。1つの可能な実現形態において、上記第2衣類画像の取得ステップ、特徴抽出ステップ、及び第2人体画像の生成ステップは、画像融合モデルによって実行されてもよい。該画像融合モデルは、訓練済みのモデルである。該画像融合モデルは、コンピュータ機器に記憶されたモデルであってもよいし、ネットワークにおけるモデルであってもよい。
図3は、本願の実施例で提供される画像融合モデルの模式図である。
図3を参照すると、該画像融合モデルは、衣類領域予測ネットワーク301と、空間変換ネットワーク302と、衣類符号化ネットワーク303と、皮膚符号化ネットワーク304と、ポートレート符号化ネットワーク305と、復号化ネットワーク306と、を含む。そのうち、該衣類領域予測ネットワーク301は、ターゲット人体がターゲット衣類を着用している場合の該ターゲット衣類のカバー領域を決定し、空間変換ネットワーク302は、ターゲット人体の姿勢に基づいて、衣類画像のアフィン変換を行い、衣類符号化ネットワーク303、皮膚符号化ネットワーク304、及びポートレート符号化ネットワーク305は、異なる次元で人体画像及び衣類画像の特徴を抽出し、復号化ネットワーク306は、抽出された複数の次元の特徴を復号化することにより、新たな人体画像を生成する。説明すべきものとして、上記の画像融合モデルの説明は、例示的な説明に過ぎない。本願の実施例は、該画像融合モデルの構造を限定しない。本願の実施例では、
図3に示された画像融合モデルによる画像生成プロセスのみを例にして説明する。
図4は、本願の実施例で提供される画像生成方法のフローチャートである。以下、
図3及び
図4を参照しながら、画像生成方法を説明する。1つの可能な実現形態において、該画像生成方法は、以下のステップを含む。
【0041】
401では、コンピュータ機器が、ターゲット人体が含まれる第1人体画像と、ターゲット衣類が含まれる第1衣類画像とを取得する。
【0042】
1つの可能な実現形態において、コンピュータ機器は、バーチャル着せ替え指示に応答して、第1人体画像及び第1衣類画像を取得する。例示的に、該コンピュータ機器は、ユーザが使用する端末であり、該コンピュータ機器で実行されるターゲットアプリケーションは、バーチャル着せ替え機能をサポートする。例えば、該ターゲットアプリケーションは、電子商取引アプリケーションである。コンピュータ機器は、ユーザが該電子商取引アプリケーションにおいてトリガしたバーチャル着せ替え指示に応答して、第1人体画像及び第1衣類画像を取得する。ここで、該第1人体画像は、該コンピュータ機器に予め記憶された画像であってもよく、コンピュータ機器がカメラによってリアルタイムで撮影した画像であってもよい。該第1衣類画像は、コンピュータ機器に予め記憶された画像であってもよく、電子商取引アプリケーションにおける画像、即ち、ユーザが該電子商取引アプリケーションにおいて選択したターゲット衣類に対応する画像であってもよい。説明すべきものとして、本願の実施例は、該第1人体画像及び第1衣類画像の取得方法を限定しない。
【0043】
1つの可能な実現形態において、コンピュータ機器は、該第1人体画像及び第1衣類画像を取得した後、該第1人体画像及び第1衣類画像に対して前処理を行ってもよい。例示的に、コンピュータ機器が該第1人体画像及び第1衣類画像に対して行う前処理は、画像サイズの調整、画像強化処理のうちの少なくとも1つであってもよい。そのうち、画像強化処理は、画像の無駄な情報を抑制し、画像の視覚効果を改善し、機器による分析処理により適した形態に画像を調整するために、画像に対してノイズ低減やコントラスト強化などの処理のうちの少なくとも1つを行ってもよい。
【0044】
402では、コンピュータ機器が、該第1人体画像におけるターゲット人体の姿勢と、該第1衣類画像とに基づいて、第1領域画像を決定する。
【0045】
ここで、該第1領域画像は、該ターゲット人体が該ターゲット衣類を着用している場合の該ターゲット衣類の遮蔽領域を示すためのものである。例示的に、該第1領域画像は、2値化マスク画像であってもよく、該ターゲット衣類の遮蔽領域の画素点は、第1数値として表され、他の領域の画素点は、第2数値として表される。
【0046】
1つの可能な実現形態において、コンピュータ機器は、まず、該第1人体画像に対して人体領域認識を行って、同じ身体領域に属する、該第1人体画像における画素点を同じ画素値に設定することにより、人体セマンティック画像を取得してから、該人体セマンティック画像及び該第1衣類画像に基づいて、該第1領域画像を決定する。ここで、該人体セマンティック画像は、該ターゲット人体の姿勢を示すためのものであり、コンピュータ機器は、該人体セマンティック画像に基づいて、ターゲット人体の各身体領域を区別することができる。
【0047】
1つの可能な実現形態において、コンピュータ機器は、人体領域認識ネットワークによって、該人体セマンティック画像を取得する。ここで、該人体領域認識ネットワークは、畳み込みニューラルネットワークに基づいて構築されたものであり、人体セマンティック特徴を抽出するための演算層を少なくとも1つ含む。例えば、該人体領域認識ネットワークは、全畳み込みネットワーク(FCN:Fully Convolutional Networks)であってもよい。本願は、該人体領域認識ネットワークの構造を限定しない。例示的に、コンピュータ機器は、第1人体画像を該人体領域認識ネットワークに入力し、該人体領域認識ネットワークにおける少なくとも1つの畳み込み層によって、該第1人体画像に対して特徴抽出を行い、最後の畳み込み層から出力された特徴マップを逆畳み込みでアップサンプリングして、該特徴マップを該第1人体画像と同じサイズに復元し、アップサンプリングされた特徴マップに基づいて画素点を分類して、各画素点が属する身体領域を決定することにより、該人体セマンティック画像を取得する。上記の人体セマンティック画像の取得方法の説明は、1つの可能な実現形態の例示的な説明に過ぎない。具体的にどのような方法によって人体セマンティック画像を取得するかについて、本願の実施例は限定しない。
【0048】
説明すべきものとして、1つの可能な実現形態では、上記人体領域認識ネットワークが画像融合モデルに含まれてもよい。
図5は、本願の実施例で提供される画像融合モデルの模式図である。
図5に示すように、画像融合モデル501における衣類領域予測ネットワーク502の前に該人体領域認識ネットワーク503が設けられている。1つの可能な実現形態では、該人体領域認識ネットワークが画像融合モデルに含まれなくてもよい。即ち、コンピュータ機器は、第1人体画像及び第1衣類画像を取得した後、まず、該第1人体画像に基づいて人体セマンティック画像を取得してから、人体セマンティック画像及び該第1衣類画像を画像融合モデルに入力し、画像融合モデルによって後続の画像生成ステップを実行する。本願の実施例はこれを限定しない。
【0049】
1つの可能な実現形態において、コンピュータ機器は、人体セマンティック画像を取得した後、該人体セマンティック画像及び該第1衣類画像を画像融合モデルの衣類領域予測ネットワーク(MPN:Mask Prediction Network)に入力する。ここで、該衣類領域予測ネットワークは、エンコーダ―デコーダ(encoder-deconder)構造として実現されてもよい。エンコーダ部分及びデコーダ部分のいずれにも複数の畳み込み層が含まれる。例示的に、コンピュータ機器は、該衣類領域予測ネットワークによって、該人体セマンティック画像に対応する人体姿勢特徴と、該第1衣類画像における該ターゲット衣類の輪郭特徴とを抽出し、即ち、該衣類領域予測ネットワークにおけるエンコーダ部分の畳み込み層によって、人体セマンティック画像及び第1衣類画像をダウンサンプリングする。コンピュータ機器は、該人体姿勢特徴と、該ターゲット衣類の輪郭特徴とに基づいて、該第1領域画像を決定し、即ち、該衣類領域予測ネットワークにおけるデコーダ部分の畳み込み層によって、エンコーダから出力された特徴をアップサンプリングすることにより、該第1領域画像を取得する。ここで、該第1領域画像において、該ターゲット人体が該ターゲット衣類を着用している場合、該ターゲット衣類の遮蔽領域の画素点は第1数値であり、他の領域の画素点は第2数値である。説明すべきものとして、上記の第1領域画像の取得方法の説明は、1つの可能な実現形態の例示的な説明に過ぎない。具体的にどのような方法によって該第1領域画像を取得するかについて、本願の実施例は限定しない。
【0050】
1つの可能な実現形態において、該衣類領域予測ネットワークは、第2領域画像を出力してもよい。該第2領域画像は、該ターゲット人体が該ターゲット衣類を着用している場合の該ターゲット人体画像の露出領域、即ち、露出した皮膚領域、例えば、手領域などを示すためのものである。
図3に示すように、人体セマンティック画像D及び第1衣類画像Cが衣類予測ネットワークに入力され、該衣類予測ネットワークから、第1領域画像M
clothes及び第2領域画像M
skinが出力される。1つの可能な実現形態において、該第2画像領域は、後続の特徴抽出ステップに使用することができる。これにより、画像融合モデルは、例えば、皮膚領域の輪郭特徴や位置特徴などの露出した皮膚領域の特徴を決定することが可能になり、画像融合モデルがより正確に新たな人体画像を生成することは容易になる。
【0051】
本願の実施例では、まず第1領域画像を取得してから、即ち、まずターゲット衣類が呈した姿勢を決定してから、衣類のアフィン変換を行うことにより、衣類画像をターゲット人体の姿勢に合わせることができ、衣類のアフィン変換の精度を効果的に向上させ、アフィン変換によって得られる衣類画像の真実性を向上させる。
【0052】
403では、コンピュータ機器が、該第1領域画像に基づいて該第1衣類画像を変換することにより、第2衣類画像を取得する。
【0053】
本願の実施例において、コンピュータ機器は、画像融合モデルにおける空間変換ネットワークによって、該第1衣類を変換することにより、該第2衣類画像を取得してもよい。
図6は、本願の実施例で提供される空間変換ネットワークの模式図である。
図6に示すように、該空間変換ネットワークは、変換行列予測サブネットワーク601及び衣類生成サブネットワーク602を含む。例示的に、該変換行列予測サブネットワーク及び衣類生成サブネットワークのいずれにも複数の演算層が含まれる。該演算層は、畳み込み層やプーリング層などであってもよい。本願の実施例はこれを限定しない。ここで、該変換行列予測サブネットワークは、第1衣類画像のアフィン変換に使用するアフィン変換行列を決定し、該衣類生成サブネットワークは、衣類細部特徴を含み、衣類画像をさらに修飾することができる。
【0054】
以下、
図6を参照しながら、該第2衣類画像の取得方法を説明する。1つの可能な実現形態において、コンピュータ機器は、該第1領域画像及び該第1衣類画像を画像融合モデルの空間変換ネットワークに入力し、該空間変換ネットワークによって、該第1衣類画像と該第1マスク領域とのマッピング関係に基づいて、該第1衣類画像を変換することにより、中間衣類画像を取得する。第1マスク領域は、第1衣類画像におけるターゲット衣類が位置する領域を示すためのものである。また、コンピュータ機器は、該空間変換ネットワークによって、該中間衣類画像に対応するテクスチャ特徴を決定し、該テクスチャ特徴及び該中間衣類画像に基づいて、該第2衣類画像を生成する。
【0055】
いくつかの実施例において、コンピュータ機器は、第1衣類画像を空間変換ネットワークに入力する前に、該第1衣類画像に対応する第1マスク領域、即ち、該第1衣類画像に対応する初期領域画像を取得してもよい。該初期領域画像は、該第1衣類画像における該ターゲット衣類が位置する領域を示すためのものである。該初期領域画像は、該第1領域画像の決定を補助するために使用される。
【0056】
いくつかの実施例において、コンピュータ機器は、第1マスク領域に基づいてターゲット衣類の初期輪郭を決定し、第1領域画像に基づいて変換後のターゲット衣類に対応するターゲット輪郭を決定し、初期輪郭及びターゲット輪郭に基づいて初期輪郭とターゲット輪郭とのマッピング関係を決定し、マッピング関係に基づいて第1衣類画像を変換することにより、中間衣類画像を取得する。
【0057】
いくつかの実施例において、コンピュータ機器は、該初期領域画像に基づいて衣類輪郭認識処理を行って、ターゲット衣類の初期輪郭を決定し、該第1領域図形に基づいて変換後のターゲット衣類に対応するターゲット輪郭を決定し、初期輪郭及びターゲット輪郭に対して輪郭の照合を行うことにより、該初期輪郭とターゲット輪郭とのマッピング関係、即ち、ターゲット衣類の変換前後の対応関係を取得する。該初期輪郭とターゲット輪郭とのマッピング関係は、コンピュータ機器がターゲット衣類を変換するプロセスにおいてターゲット衣類の形状を調整するのを補助することができる。
【0058】
図6に示すように、コンピュータ機器は、第1衣類画像C、初期領域画像M、及び第1領域画像M
clothesを空間変換ネットワークに入力し、該空間変換ネットワークにおける変換行列予測サブネットワークによって、該第1衣類画像に対応するアフィン変換行列Tを予測し、薄板スプライン(TPS:Thin Plate Splines)アルゴリズムを呼び出し、該アフィン変換行列Tに基づいて該第1衣類画像を変換することにより、即ち、該アフィン変換行列Tに基づいて該第1衣類画像における各画素点の位置を調整することにより、中間衣類画像C
rawを取得する。該中間衣類画像において、ターゲット衣類の姿勢がターゲット人体の姿勢に合っている。
【0059】
その中のいくつかの実施例において、空間変換ネットワークは、衣類生成サブネットワークを含み、コンピュータ機器は、衣類生成サブネットワークに基づいて、中間衣類画像をさらに修飾し、細部情報を追加することができる。コンピュータ機器は、前記衣類生成サブネットワークに基づいて、予め学習された衣類細部特徴に従って、前記中間衣類画像に対して特徴抽出を行うことにより、前記中間衣類画像に対応するテクスチャ特徴を取得する。
【0060】
1つの具体的な応用では、
図6に示すように、テクスチャ特徴が含まれるテクスチャ特徴画像M
αと、中間衣類画像C
rawとが衣類生成サブネットワークから出力され、第2衣類画像C
warpが生成される。1つの可能な実現形態において、衣類生成サブネットワークに含まれる衣類細部特徴は、モデル訓練階段で学習されたものであってもよい。つまり、衣類生成サブネットワークは、予め学習された衣類細部特徴に基づいて、該中間衣類画像に対して特徴抽出を行うことにより、該中間衣類画像に対応するテクスチャ特徴を取得する。いくつかの実施例では、第1衣類画像を該衣類生成サブネットワークに入力し、該衣類生成サブネットワークによって、該第1衣類画像におけるターゲット衣類の衣類細部特徴を学習し、学習した衣類細部特徴に基づいて該テクスチャ特徴を予測してもよい。本願の実施例はこれを限定しない。説明すべきものとして、上記の第2衣類画像の取得方法の説明は、1つの可能な実現形態の例示的な説明に過ぎない。具体的にどのような方法によって該第2衣類画像を取得するかについて、本願の実施例は限定しない。本願の実施例では、衣類生成サブネットワークによって中間衣類画像をさらに修飾することにより、該ターゲット衣類のテクスチャを最大限に保持し、生成された第2衣類画像の視覚的効果をより自然にすることができる。
【0061】
説明すべきものとして、上記の衣類画像の変換方法の説明は、1つの可能な実現形態の例示的な説明に過ぎない。いくつかの実施例では、衣類の細部情報をより良く保持するために、アフィン変換の代わりにオプティカルフロー変換を使用してもよい。どのような方式によって衣類画像を変換するかについて、本願の実施例は限定しない。
【0062】
説明すべきものとして、上記のステップ402及びステップ403は、該第1人体画像における該ターゲット人体の姿勢に基づいて、該第1衣類画像を変換することにより、第2衣類画像を取得するステップであって、該第2衣類画像には、該ターゲット衣類が含まれ、該ターゲット衣類の姿勢が該ターゲット人体の姿勢にマッチしている、ステップである。本願の実施例では、まず、衣類のアフィン変換を行うことにより、人体の姿勢に合っている衣類画像を取得する。このプロセスでは、ターゲット人体の姿勢情報を正確に捉えることができるだけでなく、衣類の細部情報を十分に保持することもでき、例えば、衣類のテクスチャ情報、襟元、袖口などの細部情報を最大限に保持することができる。
【0063】
404では、コンピュータ機器が、第2衣類画像に対して特徴抽出を行うことにより、衣類特徴を取得する。
【0064】
本願の実施例において、コンピュータ機器は、画像融合モデルの衣類符号化ネットワークによって、該第2衣類画像に対して特徴抽出を行うことにより、衣類特徴を取得してもよい。1つの可能な実現形態において、該衣類符号化ネットワークは、ResUnet(画像生成ネットワークの1つ)における符号化ネットワークの構造を採用してもよい。該衣類符号化ネットワークには、複数のカスケード演算層が含まれる。コンピュータ機器は、該複数のカスケード演算層によって、層ごとに第2衣類画像の特徴を抽出することにより、各演算層から出力された符号化ベクトルを衣類サブ特徴として取得する。各衣類サブ特徴には、第2衣類画像におけるターゲット衣類のグローバル特徴情報及び局所特徴情報が含まれる。該コンピュータ機器は、各衣類サブ特徴を、該ターゲット衣類に対応する衣類特徴とする。例示的に、各演算層から出力された衣類サブ特徴は、スケールが異なる。例えば、演算層の位置が前に寄るほど、出力される衣類サブ特徴は、スケールが大きくなり、より多くの衣類細部情報を保持することができ、演算層の位置が後ろに寄るほど、出力される衣類サブ特徴は、スケールが小さくなり、衣類のグローバル特徴を具現することができる。いくつかの実施例では、上記の衣類サブ特徴を全てベクトルの形で表すことができる。これにより、各衣類サブ特徴の表現形式の一貫性を確保し、特徴の統一的な表現を実現する。他のいくつかの実施例では、スケールが大きい衣類サブ特徴を行列の形で表し、スケールが小さい衣類サブ特徴をベクトルの形で表すことができる。これにより、異なるスケールの衣類サブ特徴の差異的な表現をより精確に行い、特徴表現の精度を向上させることができる。
【0065】
1つの可能な実現形態において、
図3に示すように、該コンピュータ機器は、該第2衣類画像と、上記ステップ402で取得した第2領域画像とを全て衣類符号化ネットワークに入力し、衣類符号化ネットワークによって、第1衣類画像及び第2領域画像に基づいて後続の衣類特徴抽出ステップを実行してもよい。ここで、第2領域画像は、ターゲット人体が該ターゲット衣類を着用している場合の露出領域を正確に示すことができる。衣類特徴抽出プロセスでは、該第2領域画像を使用することにより、衣類符号化ネットワークがターゲット衣類とターゲット人体との相対的な位置関係、即ち、ターゲット人体に対するターゲット衣類の遮蔽状況を決定することを補助することができ、該衣類符号化ネットワークがより正確な衣類特徴を抽出することを可能にする。
【0066】
説明すべきものとして、上記の衣類特徴の取得方法の説明は、1つの可能な実現形態の例示的な説明に過ぎない。具体的にどのような方法によって該衣類特徴を取得するかについて、本願の実施例は限定しない。
【0067】
405では、コンピュータ機器が、第1人体画像における露出領域の画像に対して特徴抽出を行うことにより、皮膚特徴を取得する。
【0068】
ここで、該露出領域は、該第1人体画像における該ターゲット人体の、衣類によって遮蔽されていない領域である。1つの可能な実現形態において、コンピュータ機器は、皮膚領域認識ネットワークによって、該第1人体画像における露出領域、即ち、皮膚領域を認識することにより、2値化画像を取得してもよい。該2値化画像において、皮膚領域に属する画像点は、第3数値として表され、他の領域に属する画素点は、第4数値として表される。説明すべきものとして、本願の実施例は、該皮膚領域認識ネットワークの構造及び皮膚領域の認識方法を限定しない。
【0069】
1つの可能な実現形態において、該コンピュータ機器は、該2値化画像に基づいて、該第1人体画像に対して画像分割を行うことにより、該第1人体画像における露出領域の画像を取得し、該露出領域の画像を画像融合モデルの皮膚符号化ネットワークに入力し、該皮膚符号化ネットワークによって、該第1人体画像における露出領域の画像に対して特徴抽出を行うことにより、該皮膚特徴を取得してもよい。本願の実施例において、該皮膚符号化ネットワークの構造は、上記衣類符号化ネットワークの構造と同じであり、該皮膚特徴の抽出プロセスは、上記ステップ404における衣類特徴の抽出プロセスと同様である。該コンピュータ機器は、該皮膚符号化ネットワークにおける各演算層から出力された異なるスケールの皮膚サブ特徴を取得し、該複数の皮膚サブ特徴を該皮膚特徴とする。
【0070】
406では、コンピュータ機器が、第1人体画像に対して特徴抽出を行うことにより、人体特徴を取得する。
【0071】
1つの可能な実現形態において、コンピュータ機器は、該画像融合モデルのポートレート符号化ネットワークによって、該第1人体画像に対して特徴抽出を行うことにより、該人体特徴を取得する。本願の実施例において、該ポートレート符号化ネットワークの構造は、上記衣類符号化ネットワークの構造と同じであり、該人体特徴の抽出プロセスは、上記ステップ404における衣類特徴の抽出プロセスと同様である。該コンピュータ機器は、ポートレート符号化ネットワークにおける各演算層から出力された異なるスケールの人体サブ特徴を取得し、該複数の人体サブ特徴を該人体特徴とする。
【0072】
説明すべきものとして、上記ステップ404からステップ406は、該第2衣類画像と、該第1人体画像における露出領域の画像と、該第1人体画像とのそれぞれに対して特徴抽出を行うことにより、衣類特徴、皮膚特徴、及び人体特徴を取得するステップである。本願の実施例では、まず、衣類特徴を取得してから、皮膚特徴、ポートレート特徴を取得するという実行順序で説明しているが、いくつかの実施例では、該衣類特徴、皮膚特徴、及びポートレート特徴を同時に取得してもよい。本願の実施例は、この3つの特徴の取得順序、即ち、上記のステップ404、ステップ405、及びステップ406の実行順序を限定しない。本願の実施例では、タスク分解によって、複数の次元でそれぞれ特徴抽出を行う。これにより、一方で、より全面的な、より細かい粒度の特徴を抽出することができ、他方で、3つの特徴抽出タスクをそれぞれ実行することで、特徴抽出プロセスにおけるコンピュータ機器の演算の負担を軽減することもでき、機器の性能を向上させる。
【0073】
407では、コンピュータ機器が、該衣類特徴、該皮膚特徴、及び該人体特徴に基づいて、第2人体画像を生成する。
【0074】
1つの可能な実現形態では、コンピュータ機器は、該衣類特徴、該皮膚特徴、及び該人体特徴を連結することにより、連結特徴を取得する。例示的に、該衣類特徴、該皮膚特徴、及び該人体特徴のいずれにも、少なくとも2つのスケールのサブ特徴が含まれる。コンピュータ機器は、該衣類特徴、該皮膚特徴、及び該人体特徴における同じスケールのサブ特徴をそれぞれ連結することにより、少なくとも2つの連結サブ特徴を取得してから、該少なくとも2つの連結サブ特徴を連結することにより、該連結特徴を取得する。
図7は、本願の実施例で提供される特徴連結の模式図である。
図7を参照すると、同じスケールの衣類サブ特徴701、皮膚サブ特徴702、及びポートレートサブ特徴703を連結することにより、連結サブ特徴704を取得してから、各スケールの連結サブ特徴704、705、706を連結することにより、連結特徴707を取得する。説明すべきものとして、上記の特徴連結方法の説明は、例示的な説明に過ぎない。該コンピュータ機器は、他の方法によって各次元の特徴を連結・融合してもよい。本願の実施例はこれを限定しない。
【0075】
本願の実施例において、コンピュータ機器は、画像融合モデルにおける復号化ネットワークによって、該連結特徴に基づいて復号化を行うことにより、該第2人体画像を生成する。ここで、該第2人体画像において、該ターゲット人体が該ターゲット衣類を着用している。1つの可能な実現形態では、該復号化ネットワークは、ResUnetにおける復号化ネットワークの構造を採用してもよい。該復号化ネットワークには、複数のカスケード演算層が含まれる。コンピュータ機器は、該複数の演算層によって連結特徴をアップサンプリングすることにより、該第2人体画像を生成する。
図8は、本願の実施例で提供される復号化ネットワークの模式図である。コンピュータ機器は、連結特徴における異なるスケールの連結サブ特徴を、復号化ネットワークにおける対応する演算層にそれぞれ入力してもよい。例示的に、第1スケールの連結サブ特徴を第1スケールの演算層801に入力し、第2スケールの連結サブ特徴を第2スケールの演算層802に入力する。本願の実施例において、異なるスケースの連結サブ特徴は、異なる粒度の細部特徴を保持することができ、該復号化ネットワークが、異なるスケースの連結サブ特徴を復号化することより生成された第2人体画像は、アフィン変換後の衣類の細部情報、人体皮膚情報、及び人体グローバル細部情報を十分に保持することができ、真実なバーチャル着せ替え効果を達成する。
【0076】
本願の実施例で提供される構成では、まず、ターゲット人体の姿勢に基づいて、オリジナルの第1衣類画像を変換することにより、ターゲット人体の姿勢に合って大量の細部情報を保持する第2衣類画像を取得してから、異なる特徴抽出タスクに基づいて、それぞれ異なる次元で第2衣類画像及び第1人体画像に対して特徴抽出を行うことにより、衣類特徴、皮膚特徴、及び人体特徴を取得し、つまり、3つの異なる次元の、より細かい粒度の、より精確な特徴を取得する。これにより、これらの特徴に基づいて生成された第2人体画像には、より豊富な細部情報を含めることができ、第2人体画像は、高い真実性を有し、良好なバーチャル着せ替え効果が確保される。また、本願の実施例では、タスク分解によって、特徴抽出、画像生成のプロセスにおけるコンピュータ機器の演算の負担を効果的に軽減し、演算リソースの支出を節約し、機器の性能を向上させることができる。本願の実施例で提供される構成を使用することにより、異なる応用シナリオで異なる解像度の画像に基づいて、全て迫真のバーチャル着せ替えポートレートを生成することができる。この構成は、ビジネスシナリオに適用されると、良好なロバスト性を有する。
【0077】
上記の実施例における画像融合モデルは、コンピュータ機器に記憶された、予め訓練されたモデルである。該画像融合モデルは、該コンピュータ機器によって訓練されたモデル、又は、他の機器によって訓練されたモデルである。
図9は、本願の実施例で提供される画像融合モデルの訓練方法のフローチャートである。
図9を参照すると、1つの可能な実現形態において、該画像融合モデルの訓練方法は、以下のステップを含む。
【0078】
901では、コンピュータ機器が、第1初期モデル及び第2初期モデルを取得する。
【0079】
ここで、該第1初期モデル及び第2初期モデルの構造が同じであり、該第1初期モデル及び第2初期モデルの構造は、
図3に示すように、全て畳み込みニューラルネットワーク(CNN:Convolutional Neural Networks)に基づいて構築されたモデルである。
【0080】
902では、コンピュータ機器が、第1人体が含まれる第1サンプル人体画像と、第1衣類が含まれる第1サンプル衣類画像と、第2衣類が含まれる第2サンプル衣類画像とを取得する。
【0081】
ここで、該第1サンプル人体画像における第1人体は、該第1衣類を着用しており、該第1衣類及び第2衣類は異なる。1つの可能な実現形態において、該第1サンプル人体画像には、アノテーション情報が付されており、該アノテーション情報は、モデルが後続の画像生成ステップを実行することを容易にするために、第1サンプル人体の各身体領域を区別するためのものである。もちろん、該第1サンプル人体画像、第1衣類画像、及び第2衣類画像には、他の情報がアノテーションされてもよい。本願の実施例はこれを限定しない、
【0082】
1つの可能な実現形態において、コンピュータ機器は、サンプル人体画像及びサンプル衣類画像を取得した後、画像の前処理を行ってもよい。例えば、前処理は、画像サイズの調整であってもよいし、画像強化処理などであってもよい。
【0083】
903では、コンピュータ機器が、該第1初期モデルによって、該第1サンプル人体画像及び該第2サンプル衣類画像に対して画像融合を行うことにより、第2サンプル人体画像を取得する。
【0084】
本願の実施例において、コンピュータ機器は、該第1サンプル人体画像及び第2サンプル衣類画像を第1初期モデルに入力し、該第1初期モデルによって、該第1人体の特徴及び第2衣類の特徴に基づいて第2サンプル人体画像を生成する。ここで、該第2サンプル人体画像において、該第1人体が該第2衣類を着用している。該コンピュータ機器が該第1初期モデルによって第2サンプル人体画像を生成するプロセスは、上記のステップ402からステップ407のプロセスと同様である。
【0085】
904では、コンピュータ機器が、該第2初期モデルによって、該第2サンプル人体画像及び該第1サンプル衣類画像に対して画像融合を行うことにより、ターゲットサンプル人体画像を取得する。
【0086】
本願の実施例において、コンピュータ機器は、該第2サンプル人体画像及び第1衣類画像を第2初期モデルに入力し、該第2初期モデルによって、第1人体の特徴及び第1衣類の特徴に基づいてターゲットサンプル人体画像を生成する。ここで、該ターゲットサンプル人体画像において、該第1人体が該第1衣類を着用している。該コンピュータ機器が該第2初期モデルによってターゲットサンプル人体画像を生成するプロセスは、上記のステップ402からステップ407のプロセスと同様である。
【0087】
905では、コンピュータ機器が、該第1サンプル人体画像と該第2サンプル人体画像との誤差、該第1サンプル人体画像と該ターゲットサンプル人体画像との誤差に基づいて、該第1初期モデルを訓練する。
【0088】
本願の実施例において、コンピュータ機器は、複数の次元の誤差を取得してもよい。1つの可能な実現形態において、コンピュータ機器は、該第1サンプル人体画像と該第2サンプル人体画像との画素値分布差異に基づいて、第1誤差を決定する。ここで、該第1誤差(Adversarial Loss)は、生成された画像の分布の一貫性をはかり、つまり、モデルによって生成された人体画像と、入力された人体画像との画素値分布差異、及び、モデルによって生成された人体画像と、入力された人体画像とにおける露出領域の画像間の画素値分布差異をはかるためのものである。1つの可能な実現形態において、コンピュータ機器は、第1サンプル人体画像及び第2サンプル人体画像の画素値分布ヒストグラムをそれぞれ取得し、2つの画素値分布ヒストグラム間の誤差を該第1誤差として取得する。もちろん、コンピュータ機器は、他の方式によって該第1誤差を取得してもよい。本願の実施例はこれを限定しない。本願の実施例では、第1誤差を取得することにより、即ち、画素値分布の一貫性を制約することにより、モデルがより真実な人体画像を生成し、人体画像における皮膚をより良く復元するのを助けることができる。
【0089】
1つの可能な実現形態において、コンピュータ機器は、該第1サンプル人体画像に対応する画素値行列と、該第2サンプル人体画像に対応する画素値行列との誤差を第2誤差として決定する。ここで、該第2誤差(Preserving Loss)は、モデルの入力画像と出力画像との画素値の一貫性をはかるためのものである。本願の実施例において、該第2誤差は、モデルの入力人体画像の衣類領域及び腕領域と、出力人体画像における相応の領域との一貫性の差異を示すことができる。1つの可能な実現形態において、コンピュータ機器は、L1損失関数を使用して、該第1サンプル人体画像と第2サンプル人体画像との第2誤差を取得してもよい。もちろん、該コンピュータ機器は、他の方法によって該第2誤差を取得してもよい。本願の実施例はこれを限定しない。本願の実施例では、第2誤差を取得することにより、即ち、画像間の画素値の一貫性を制約することにより、モデルが人体の下肢、ボトムス、顔、髪などの部位の細部情報を十分に保持することを可能にする。
【0090】
1つの可能な実現形態において、コンピュータ機器は、該第1サンプル人体画像に対応する画素値行列と、該ターゲットサンプル人体画像に対応する画素値行列との誤差を第3誤差として決定する。ここで、該第3誤差は、2つのモデル間のサイクル一貫性誤差を表すためのものである。該第3誤差は、第1初期モデルに入力された第1サンプル人体画像と、第2初期モデルから出力されたターゲットサンプル人体画像との誤差をはかるために使用される。1つの可能な実現形態において、コンピュータ機器は、L1損失関数を使用して、第1サンプル人体画像とターゲットサンプル人体画像との第3誤差を取得してもよい。もちろん、該コンピュータ機器は、他の方法によって該第3誤差を取得してもよい。本願の実施例はこれを限定しない。本願の実施例では、第3誤差を取得することにより、即ち、サイクル一貫性の制約を設計することにより、第2初期モデルから出力されたターゲットサンプル人体画像を最大限にオリジナルの第1サンプル人体画像に近づけることができる。
【0091】
1つの可能な実現形態において、コンピュータ機器は、該第1サンプル人体画像における衣類領域の画像特徴と、ターゲットサンプル人体画像における衣類領域の画像特徴との誤差を第4誤差として決定する。ここで、該第4誤差は、ターゲットサンプル人体画像における衣類と、オリジナルの第1サンプル人体画像における衣類との差異を示すためのものである。本願の実施例において、コンピュータ機器は、該第1サンプル人体画像から衣類領域の画像を分割することにより、第1分割画像を取得し、ターゲットサンプル人体画像から衣類領域の画像を分割することにより、第2分割画像を取得し、第1分割画像及び第2分割画像を視覚幾何学グループネットワーク(VGG:Visual Geometry Group Network)にそれぞれ入力して特徴抽出を行うことにより、VGGネットワークにおける各演算層から出力された画像特徴を取得する。コンピュータ機器は、第1分割画像及び第2分割画像の同じ演算層における画像特徴間の誤差を取得し、即ち、演算層における画像特徴間のユークリッド距離を取得する。コンピュータ機器は、取得した複数のユークリッド距離に基づいて、該第4誤差を決定し、例えば、該複数のユークリッド距離の平均値を取ることにより、該第4誤差を取得する。説明すべきものとして、上記の第4誤差の取得方法の説明は、例示的な説明に過ぎない。具体的にどのような方法によって第4誤差を取得するかについて、本願の実施例は限定しない。本願の実施例では、第4誤差を取得することにより、即ち、衣類特徴の一貫性を制約することにより、モデルによって生成された人体画像における衣類の真実性を向上させることができる。
【0092】
本願の実施例において、コンピュータ機器は、該第1誤差、第2誤差、第3誤差、及び該第4誤差に基づいて、該第1初期モデルのモデルパラメータを調整する。例示的に、第1初期モデルにおける各演算層のパラメータの調整を実現するために、該コンピュータ機器は、該第1誤差、第2誤差、第3誤差、及び第4誤差を該第1初期モデルにそれぞれ逆伝播し、該第1初期モデルにおける各演算層のパラメータの解を求める。説明すべきものとして、上記の第1初期モデルのパラメータの調整方法の説明は、例示的な説明に過ぎない。どのような方法によって該第1初期モデルのパラメータを調整するかについて、本願の実施例は限定しない。
【0093】
906では、コンピュータ機器が、該第2サンプル人体画像と該ターゲットサンプル人体画像との誤差、該第1サンプル人体画像と該ターゲットサンプル人体画像との誤差に基づいて、該第2初期モデルを訓練する。
【0094】
1つの可能な実現形態において、コンピュータ機器は、該第2サンプル人体画像と該ターゲットサンプル人体画像との画素値分布差異に基づいて、第5誤差を決定し、該第2サンプル人体画像に対応する画素値行列と、該ターゲットサンプル人体画像に対応する画素値行列との誤差を第6誤差として決定し、該第1サンプル人体画像に対応する画素値行列と、該ターゲットサンプル人体画像に対応する画素値行列との誤差を第7誤差として決定し、該第1サンプル衣類画像の特徴と、第2サンプル衣類画像の特徴との誤差を第8誤差として決定し、該第5誤差、第6誤差、第7誤差、及び該第8誤差に基づいて、該第2初期モデルのモデルパラメータを調整する。説明すべきものとして、該第5誤差、第6誤差、第7誤差、第8誤差の取得プロセスは、それぞれ、上記の第1誤差、第2誤差、第3誤差、第4誤差の取得プロセスと同様である。本願の実施例において、コンピュータ機器は、該第5誤差、第6誤差、第7誤差、及び第8誤差を該第2初期モデルに逆伝播し、該第2初期モデルにおける各演算層のパラメータの解を求めてもよい。説明すべきものとして、どのような方法によって該第2初期モデルのパラメータを調整するかについて、本願の実施例は限定しない。
【0095】
907では、コンピュータ機器が、該第1初期モデル及び該第2初期モデルのいずれもモデル訓練条件を満たすことに応答して、訓練済みの該第2初期モデルを画像融合モデルとして取得する。
【0096】
ここで、該モデル訓練条件は、開発者により設定される。本願の実施例はこれを限定しない。例示的に、該モデル訓練条件には、訓練回数閾値が含まれ、モデル訓練回数が該訓練回数閾値に達した場合、訓練済みの第2初期モデルを該画像融合モデルとして取得し、モデル訓練回数が該訓練回数閾値に達していない場合、引き続いて次のサンプル画像セットを取得して該第1初期モデル及び第2初期モデルを訓練する。例示的に、該モデル訓練条件には、誤差閾値が含まれ、モデル出力結果に対応する誤差値のいずれも該誤差閾値未満であり、かつ、モデル出力結果に対応する誤差値のいずれも該誤差閾値未満である回数がターゲット回数に達した場合、該第1初期モデル及び該第2初期モデルのいずれもモデル訓練条件を満たすと決定し、訓練済みの第2初期モデルを画像融合モデルとして取得し、そうでない場合、引き続いて次のサンプル画像セットを取得してモデル訓練を行う。
【0097】
本願の実施例では、バーチャル着せ替えの訓練データが対とならないことに対して、サイクル一貫性の自己監督モデル訓練方法が導入されている。
図10は、本願の実施例で提供されるモデル訓練方法の模式図である。以下、
図10を参照しながら、上記のモデル訓練プロセスを説明する。
図10に示すように、コンピュータ機器は、第1サンプル人体画像I
1及び第2サンプル衣類画像C
2を第1初期モデルに入力する。第1初期モデルから、中間状態のバーチャル着せ替え結果、即ち、第2サンプル人体画像I
2が出力される。また、コンピュータ機器は、第2サンプル人体画像I
2及び第1サンプル衣類画像C
1を第2初期モデルに入力することにより、第2初期モデルから出力されたターゲットサンプル人体画像
【数1】
を取得する。コンピュータ機器は、
【数2】
のように制御することにより、即ち、ターゲットサンプル人体画像を第1サンプル人体画像と一致させることにより、サイクル一貫性の自己監督モデル訓練を実現する。また、本願の実施例では、オリジナルの人体画像とオリジナルの衣類画像とに基づいて新たな人体画像を生成する際に、タスク分解によって、バーチャル着せ替えタスクを衣類アフィン変換、人体皮膚生成、及び人体グローバル情報合成の3つのタスクに分解し、各サブタスクに対して相応の符号化ネットワークをそれぞれ設置し、異なる次元の特徴抽出をそれぞれ行う。これにより、一方で、より全面的な、より細かい粒度の特徴を抽出することができ、他方で、3つのタスクをそれぞれ個別に実行することで、バーチャル着せ替えタスクにおけるコンピュータ機器の演算量の負担を軽減することができ、バーチャル着せ替えタスクにおけるコンピュータ機器の機器性能を向上させる。損失関数の設定について、本願の実施例では、4つの損失関数が提供されており、4つの次元の誤差値が取得され、訓練された画像融合モデルが関連部位の特徴、例えば、人体の下肢、顔、髪などの部位の特徴を適応的に保持することができ、画像融合モデルが、衣服で覆われた人体皮膚を適応的に生成することができ、例えば、長袖トップスを半袖トップスに着替える場合、人体の腕領域の画像が正確に構築され、モデルが写真レベルのバーチャル着せ替え効果を達成することができる。
【0098】
上記の全ての選択可能な構成は、任意の組み合わせで本願の選択可能な実施例を形成することができる。
【0099】
図11は、本願の実施例で提供される画像生成装置の構成の模式図である。
図11を参照すると、該装置は、
ターゲット人体が含まれる第1人体画像と、ターゲット衣類が含まれる第1衣類画像とを取得する第1取得モジュール1101と、
該第1人体画像における該ターゲット人体の姿勢に基づいて、該第1衣類画像を変換することにより、第2衣類画像を取得する衣類変換モジュール1102であって、該第2衣類画像には、該ターゲット衣類が含まれ、該ターゲット衣類の姿勢が該ターゲット人体の姿勢にマッチしている、衣類変換モジュール1102と、
該第2衣類画像と、該第1人体画像における露出領域の画像と、該第1人体画像とのそれぞれに対して特徴抽出を行うことにより、衣類特徴、皮膚特徴、及び人体特徴を取得する特徴抽出モジュール1103であって、該露出領域は、該第1人体画像における該ターゲット人体の、衣類によって遮蔽されていない領域である、特徴抽出モジュール1103と、
該衣類特徴、該皮膚特徴、及び該人体特徴に基づいて、第2人体画像を生成する第1生成モジュール1104であって、該第2人体画像において、該ターゲット人体が該ターゲット衣類を着用している、第1生成モジュール1104と、を含む。
【0100】
1つの可能な実現形態において、該衣類変換モジュール1102は、
該第1人体画像における該ターゲット人体の姿勢と、該第1衣類画像とに基づいて、第1領域画像を決定する領域決定サブモジュールであって、該第1領域画像は、該ターゲット人体が該ターゲット衣類を着用している場合の該ターゲット衣類の遮蔽領域を示すためのものである、領域決定サブモジュールと、
該第1領域画像に基づいて該第1衣類画像を変換することにより、該第2衣類画像を取得する衣類変換サブモジュールと、を含む。
【0101】
1つの可能な実現形態において、該領域決定サブモジュールは、
該第1人体画像に対して人体領域認識を行って、同じ身体領域に属する、該第1人体画像における画素点を同じ画素値に設定することにより、人体セマンティック画像を取得する領域認識ユニットであって、該人体セマンティック画像は、該ターゲット人体の姿勢を示すためのものである、領域認識ユニットと、
該人体セマンティック画像及び該第1衣類画像に基づいて、該第1領域画像を決定する領域決定ユニットと、を含む。
【0102】
1つの可能な実現形態において、該領域決定ユニットは、該人体セマンティック画像及び該第1衣類画像を画像融合モデルの衣類領域予測ネットワークに入力し、該衣類領域予測ネットワークによって、該人体セマンティック画像に対応する人体姿勢特徴と、該第1衣類画像における該ターゲット衣類の輪郭特徴とを抽出し、該人体姿勢特徴と、該ターゲット衣類の輪郭特徴とに基づいて、該第1領域画像を決定する。
【0103】
1つの可能な実現形態において、該衣類変換サブモジュールは、さらに、該第1領域画像及び該第1衣類画像を画像融合モデルの空間変換ネットワークに入力し、該空間変換ネットワークによって、該第1衣類画像と該第1マスク領域とのマッピング関係に基づいて、該第1衣類画像を変換することにより、中間衣類画像を取得し、該空間変換ネットワークによって、該中間衣類画像に対応するテクスチャ特徴を決定し、該テクスチャ特徴及び該中間衣類画像に基づいて、該第2衣類画像を生成する。該空間変換ネットワークは、画像を変換するためのものである。
【0104】
1つの可能な実現形態において、該衣類変換サブモジュールは、さらに、第1マスク領域に基づいてターゲット衣類の初期輪郭を決定し、第1領域画像に基づいて変換後のターゲット衣類に対応するターゲット輪郭を決定し、初期輪郭及びターゲット輪郭に基づいて初期輪郭とターゲット輪郭とのマッピング関係を決定し、
マッピング関係に基づいて第1衣類画像を変換することにより、中間衣類画像を取得する。
【0105】
1つの可能な実現形態において、空間変換ネットワークは、衣類生成サブネットワークを含み、該衣類変換サブモジュールは、さらに、衣類生成サブネットワークに基づいて、予め学習された衣類細部特徴に従って、中間衣類画像に対して特徴抽出を行うことにより、中間衣類画像に対応するテクスチャ特徴を取得する。
【0106】
1つの可能な実現形態において、該特徴抽出モジュール1103は、さらに、画像融合モデルの衣類符号化ネットワークによって、該第2衣類画像に対して特徴抽出を行うことにより、該衣類特徴を取得し、該画像融合モデルの皮膚符号化ネットワークによって、該第1人体画像における露出領域の画に対して特徴抽出を行うことにより、該皮膚特徴を取得し、該画像融合モデルのポートレート符号化ネットワークによって、該第1人体画像に対して特徴抽出を行うことにより、該人体特徴を取得する。
【0107】
1つの可能な実現形態において、該第1生成モジュール1104は、
該衣類特徴、該皮膚特徴、及び該人体特徴を連結することにより、連結特徴を取得する特徴連結サブモジュールと、
該連結特徴に基づいて復号化を行うことにより、該第2人体画像を生成する画像生成サブモジュールと、を含む。
【0108】
1つの可能な実現形態では、該衣類特徴、該皮膚特徴、及び該人体特徴のいずれにも、少なくとも2つのスケールのサブ特徴が含まれる。
【0109】
該特徴連結サブモジュールは、該衣類特徴、該皮膚特徴、及び該人体特徴における同じスケールのサブ特徴をそれぞれ連結することにより、少なくとも2つの連結サブ特徴を取得し、該少なくとも2つの連結サブ特徴を連結することにより、該連結特徴を取得する。
【0110】
1つの可能な実現形態において、該第2衣類画像の取得ステップ、該特徴抽出ステップ、及び該第2人体画像の生成ステップは、画像融合モデルによって実行される。
【0111】
1つの可能な実現形態において、該装置は、
第1初期モデル及び第2初期モデルを取得する第2取得モジュールであって、該第1初期モデル及び第2初期モデルの構造が同じである第2取得モジュールと、
第1人体が含まれる第1サンプル人体画像と、第1衣類が含まれる第1サンプル衣類画像と、第2衣類が含まれる第2サンプル衣類画像とを取得する第3取得モジュールであって、該第1サンプル人体画像において、該第1人体が該第1衣類を着用している、第3取得モジュールと、
該第1初期モデルによって、該第1サンプル人体画像及び該第2サンプル衣類画像に対して画像融合を行うことにより、第2サンプル人体画像を生成する第2生成モジュールであって、該第2サンプル人体画像において、該第1人体が該第2衣類を着用している、第2生成モジュールと、
該第2初期モデルによって、該第2サンプル人体画像及び該第1サンプル衣類画像に対して画像融合を行うことにより、ターゲットサンプル人体画像を生成する第3生成モジュールであって、該ターゲットサンプル人体画像において、該第1人体が該第1衣類を着用している、第3生成モジュールと、
該第1サンプル人体画像と該第2サンプル人体画像との誤差、該第1サンプル人体画像と該ターゲットサンプル人体画像との誤差に基づいて、該第1初期モデルを訓練する第1訓練モジュールと、
該第2サンプル人体画像と該ターゲットサンプル人体画像との誤差、該第1サンプル人体画像と該ターゲットサンプル人体画像との誤差に基づいて、該第2初期モデルを訓練する第2訓練モジュールと、
該第1初期モデル及び該第2初期モデルのいずれもモデル訓練条件を満たすことに応答して、訓練済みの該第2初期モデルを画像融合モデルとして取得する第4取得モジュールと、をさらに含む。
【0112】
1つの可能な実現形態において、該第1訓練モジュールは、該第1サンプル人体画像と該第2サンプル人体画像との画素値分布差異に基づいて、第1誤差を決定し、該第1サンプル人体画像に対応する画素値行列と、該第2サンプル人体画像に対応する画素値行列との誤差を第2誤差として決定し、該第1サンプル人体画像に対応する画素値行列と、該ターゲットサンプル人体画像に対応する画素値行列との誤差を第3誤差として決定し、該第1サンプル人体画像における衣類領域の画像特徴と、ターゲットサンプル人体画像における衣類領域の画像特徴との誤差を第4誤差として決定し、該第1誤差、第2誤差、第3誤差、及び該第4誤差に基づいて、該第1初期モデルのモデルパラメータを調整する。
【0113】
1つの可能な実現形態において、該第1訓練モジュールは、さらに、第1誤差、第2誤差、第3誤差、及び第4誤差を第1初期モデルに逆伝播し、第1初期モデルにおける各演算層のパラメータの解を求め、解を求めた結果に基づいて、第1初期モデルにおける各演算層のパラメータを調整する。
【0114】
1つの可能な実現形態において、該第2訓練モジュールは、該第2サンプル人体画像と該ターゲットサンプル人体画像との画素値分布差異に基づいて、第5誤差を決定し、該第2サンプル人体画像に対応する画素値行列と、該ターゲットサンプル人体画像に対応する画素値行列との誤差を第6誤差として決定し、該第1サンプル人体画像に対応する画素値行列と、該ターゲットサンプル人体画像に対応する画素値行列との誤差を第7誤差として決定し、該第1サンプル人体画像における衣類領域の画像特徴と、ターゲットサンプル人体画像における衣類領域の画像特徴との誤差を第8誤差として決定し、該第5誤差、第6誤差、第7誤差、及び該第8誤差に基づいて、該第2初期モデルのモデルパラメータを調整する。
【0115】
本願の実施例で提供される装置では、まず、ターゲット人体の姿勢に基づいて、オリジナルの第1衣類画像を変換することにより、ターゲット人体の姿勢に合って大量の細部情報を保持する第2衣類画像を取得してから、異なる特徴抽出タスクに基づいて、それぞれ異なる次元で第2衣類画像及び第1人体画像に対して特徴抽出を行うことにより、衣類特徴、皮膚特徴、及び人体特徴を取得し、つまり、3つの異なる次元の、より細かい粒度の、より精確な特徴を取得する。これにより、これらの特徴に基づいて生成された第2人体画像には、より豊富な細部情報を含めることができ、第2人体画像は、高い真実性を有し、良好なバーチャル着せ替え効果が確保される。
【0116】
説明すべきものとして、上記実施例で提供される画像生成装置は、画像生成時に上記の各機能モジュールの分割のみを例として説明されているが、実際の適用では、必要に応じて、上記の機能を異なる機能モジュールに割り当てて実行し、即ち、装置の内部構成を異なる機能モジュールに分割して、以上に説明した全部又は一部の機能を実行してもよい。また、上記実施例で提供される画像生成装置は、画像生成方法の実施例と同一の構想に属し、その具体的な実現過程の詳細は、方法の実施例を参照すればよい。
【0117】
上記の構成で提供されるコンピュータ機器は、端末又はサーバとして実現されてもよい。例えば、
図12は、本願の実施例で提供される端末の構成の模式図である。この端末1200は、スマートフォン、タブレットコンピュータ、ムービング・ピクチャー・エクスパーツ・グループ・オーディオレイヤー3(MP3:Moving Picture Experts Group Audio Layer III)プレーヤー、ムービング・ピクチャー・エクスパーツ・グループ・オーディオレイヤー4(MP4:Moving Picture Experts Group Audio Layer IV)プレーヤー、ノートパソコン、又はデスクトップパソコンであってもよい。端末1200は、ユーザ機器、ポータブル端末、ラップトップ型端末、デスクトップ型端末などの他の名称と称される可能性もある。
【0118】
通常、端末1200は、1つ又は複数のプロセッサ1201と、1つ又は複数のメモリ1202と、を備える。プロセッサ1201は、1つ又は複数の処理コアを含んでもよく、例えば、4コアプロセッサ、8コアプロセッサなどである。プロセッサ1201は、デジタル信号処理(DSP:Digital Signal Processing)、フィールドプログラマブルゲートアレイ(FPGA:Field-Programmable Gate Array)、プログラマブルロジックアレイ(PLA:Programmable Logic Array)のうちの少なくとも1つのハードウェアの形で実現されてもよい。
【0119】
メモリ1202は、1つ又は複数のコンピュータ可読記憶媒体を含んでもよい。該コンピュータ可読記憶媒体は、非一時的なものとし得る。メモリ1202は、高速ランダムアクセスメモリ、及び不揮発性メモリ、例えば、1つ又は複数のディスク記憶装置、フラッシュメモリ記憶装置を含んでもよい。いくつかの実施例において、メモリ1202内の非一時的なコンピュータ可読記憶媒体は、少なくとも1つのコンピュータ可読命令を記憶する。該少なくとも1つのコンピュータ可読命令は、プロセッサ1201によって実行されると、本願の方法の実施例で提供される画像生成方法を実現させる。
【0120】
いくつかの実施例において、端末1200は、任意選択的に、周辺機器インタフェース1203及び少なくとも1つの周辺機器をさらに含む。プロセッサ1201、メモリ1202、及び周辺機器インタフェース1203の間には、バス又は信号線を介して接続されてもよい。各周辺機器は、バス、信号線、又は回路基板を介して、周辺機器インタフェース1203に接続されてもよい。具体的には、周辺機器は、無線周波数回路1204、ディスプレイ1205、カメラコンポーネント1206、オーディオ回路1207、測位コンポーネント1208、及び電源1209のうちの少なくとも1つを含む。
【0121】
周辺機器インタフェース1203は、入出力(I/O:Input/Output)に関する少なくとも1つの周辺機器をプロセッサ1201及びメモリ1202に接続するために用いられてもよい。いくつかの実施例において、プロセッサ1201、メモリ1202、及び周辺機器インタフェース1203は、同一のチップ又は回路基板上に集積される。いくつかの他の実施例において、プロセッサ1201、メモリ1202、及び周辺機器インタフェース1203のうちのいずれか1つ又は2つが、個別のチップ又は回路基板上で実現されてもよい。本実施例はこれを限定しない。
【0122】
無線周波数回路1204は、電磁信号とも呼ばれる無線周波数(RF:Radio Frequency)信号を送受信する。無線周波数回路1204は、電磁信号によって通信ネットワーク及び他の通信機器と通信を行う。ディスプレイ1205は、ユーザインタフェース(UI:User Interface)を表示する。該UIは、図形、テキスト、アイコン、ビデオ、及びこれらの任意の組み合わせを含んでもよい。カメラコンポーネント1206は、画像又はビデオを収集する。オーディオ回路1207は、マイクロホン及びスピーカーのうちの少なくとも1つを含んでもよい。測位コンポーネント1208は、端末1200の現在の地理的位置を測位する。電源1209は、端末1200内の各コンポーネントに電力を供給する。
【0123】
いくつかの実施例において、端末1200は、1つ又は複数のセンサ1210をさらに含む。該1つ又は複数のセンサ1210は、加速度センサ1211、ジャイロセンサ1212、圧力センサ1213、指紋センサ1214、光学センサ1215、及び近接センサ1216を含むが、これらに限定されない。
【0124】
当業者であれば理解できるように、
図12に示された構成が、端末1200を限定するものではなく、端末1200は、図示より多く又は少ないコンポーネントを含んでもよく、あるいはいくらかのコンポーネントを組み合わせたものであってもよく、あるいはコンポーネントの異なる配置を採用してもよい。
【0125】
図13は、本願の実施例で提供されるサーバの構成の模式図である。該サーバ1300は、スペック又は性能が異なることによって、大きな差異があり得るが、1つ又は複数のプロセッサ(CPU:Central Processing Units)1301と、1つ又は複数のメモリ1302と、を備えてもよい。ここで、該1つ又は複数のメモリ1302には、少なくとも1つのコンピュータ可読命令が記憶されており、該少なくとも1つのコンピュータ可読命令は、該1つ又は複数プロセッサ1301によってロードされて実行されると、上記の各方法の実施例で提供される方法を実現させる。もちろん、該サーバ1300は、入出力のために、有線又は無線のネットワークインタフェース、キーボード、及び入出力インタフェースなどの部品を備えてもよい。該サーバ1300は、機器の機能を実現するための他の部品を備えてもよい。
【0126】
例示的な実施例では、コンピュータ可読命令を記憶した1つ又は複数の不揮発性コンピュータ可読記憶媒体、例えば、少なくとも1つのコンピュータ可読命令を含むメモリがさらに提供されている。上記の少なくとも1つのコンピュータ可読命令は、プロセッサによって実行されると、上記の実施例における画像生成方法を実行させることが可能である。例えば、該コンピュータ可読記憶媒体は、読み出し専用メモリ(ROM:Read-Only Memory)、ランダムアクセスメモリ(RAM:Random Access Memory)、コンパクトディスク読み出し専用メモリ(CD-ROM:Compact Disc Read-Only Memory)、磁気テープ、フロッピーディスク、及び光データ記憶装置などであってもよい。
【0127】
例示的な実施例では、少なくとも1つのコンピュータ可読命令を含むコンピュータプログラム製品がさらに提供されている。該少なくとも1つのコンピュータ可読命令は、コンピュータ可読記憶媒体に記憶されている。コンピュータ機器のプロセッサは、コンピュータ可読記憶媒体から該少なくとも1つのコンピュータ可読命令を読み取り、プロセッサが該少なくとも1つのコンピュータ可読命令を実行すると、該コンピュータ機器に、該画像生成方法によって実行される操作を実現させる。
【0128】
当業者であれば理解できるように、上記実施例を実現するためのステップの全部又は一部は、ハードウェアによって実行されてもよいし、プログラムを介して関連ハードウェアに指示することにより実行されてもよい。該プログラムは、コンピュータ可読記憶媒体に記憶されてもよい。上記で言及された記憶媒体は、読み出し専用メモリ、磁気ディスク、又は光ディスクなどであってもよい。
【0129】
上記は、本願の任意選択的な実施例に過ぎず、本願を限定するものではない。本願の精神および原則内で行われる種々の修正、均等置換え、改善などは全て本願の保護範囲内に含まれるべきである。
【符号の説明】
【0130】
110 端末
140 サーバ
301 衣類領域予測ネットワーク
302 空間変換ネットワーク
303 衣類符号化ネットワーク
304 皮膚符号化ネットワーク
305 ポートレート符号化ネットワーク
306 復号化ネットワーク
501 画像融合モデル
502 衣類領域予測ネットワーク
503 人体領域認識ネットワーク
601 変換行列予測サブネットワーク
602 衣類生成サブネットワーク
801 第1スケールの演算層
802 第2スケールの演算層
1101 第1取得モジュール
1102 衣類変換モジュール
1103 特徴抽出モジュール
1104 第1生成モジュール
1200 端末
1201 プロセッサ
1202 メモリ
1203 周辺機器インタフェース
1204 無線周波数回路
1205 ディスプレイ
1206 カメラコンポーネント
1207 オーディオ回路
1208 測位コンポーネント
1209 電源
1210 センサ
1211 加速度センサ
1212 ジャイロセンサ
1213 圧力センサ
1214 指紋センサ
1215 光学センサ
1216 近接センサ
1300 サーバ
1301 プロセッサ
1302 メモリ
【手続補正書】
【提出日】2023-05-12
【手続補正1】
【補正対象書類名】特許請求の範囲
【補正対象項目名】全文
【補正方法】変更
【補正の内容】
【特許請求の範囲】
【請求項1】
コンピュータ機器が実行する画像生成方法であって、
ターゲット人体が含まれる第1人体画像と、ターゲット衣類が含まれる第1衣類画像とを取得するステップと、
前記第1人体画像における前記ターゲット人体の姿勢に基づいて、前記第1衣類画像を変換することにより、第2衣類画像を取得する
第2衣類画像取得ステップであって、前記第2衣類画像には、前記ターゲット衣類が含まれ、前記ターゲット衣類の姿勢が前記ターゲット人体の姿勢にマッチしている、
第2衣類画像取得ステップと、
前記第2衣類画像と、前記第1人体画像における露出領域の画像と、前記第1人体画像とのそれぞれに対して特徴抽出を行うことにより、衣類特徴、皮膚特徴、及び人体特徴を取得する
特徴抽出ステップであって、前記露出領域は、前記第1人体画像における前記ターゲット人体の、衣類によって遮蔽されていない領域である、
特徴抽出ステップと、
前記衣類特徴、前記皮膚特徴、及び前記人体特徴に基づいて、第2人体画像を生成する
第2人体画像生成ステップであって、前記第2人体画像において、前記ターゲット人体が前記ターゲット衣類を着用している、
第2人体画像生成ステップと、
を含むことを特徴とする画像生成方法。
【請求項2】
前
記第2衣類画
像取得ステップは、
前記第1人体画像における前記ターゲット人体の姿勢と、前記第1衣類画像とに基づいて、第1領域画像を決定するステップであって、前記第1領域画像は、前記ターゲット人体が前記ターゲット衣類を着用している場合の前記ターゲット衣類の遮蔽領域を示すためのものである、ステップと、
前記第1領域画像に基づいて前記第1衣類画像を変換することにより、前記第2衣類画像を取得するステップと、
を含むことを特徴とする請求項1に記載の画像生成方法。
【請求項3】
前記第1人体画像における前記ターゲット人体の姿勢と、前記第1衣類画像とに基づいて、第1領域画像を決定するステップは、
前記第1人体画像に対して人体領域認識を行って、同じ身体領域に属する、前記第1人体画像における画素点を同じ画素値に設定することにより、人体セマンティック画像を取得するステップであって、前記人体セマンティック画像は、前記ターゲット人体の姿勢を示すためのものである、ステップと、
前記人体セマンティック画像及び前記第1衣類画像に基づいて、前記第1領域画像を決定するステップと、
を含むことを特徴とする請求項2に記載の画像生成方法。
【請求項4】
前記人体セマンティック画像及び前記第1衣類画像に基づいて、前記第1領域画像を決定するステップは、
前記人体セマンティック画像及び前記第1衣類画像を画像融合モデルの衣類領域予測ネットワークに入力するステップと、
前記衣類領域予測ネットワークによって、前記人体セマンティック画像に対応する人体姿勢特徴と、前記第1衣類画像における前記ターゲット衣類の輪郭特徴とを抽出するステップと、
前記人体姿勢特徴と、前記ターゲット衣類の輪郭特徴とに基づいて、前記第1領域画像を決定するステップと、
を含むことを特徴とする請求項3に記載の画像生成方法。
【請求項5】
前記第1領域画像に基づいて前記第1衣類画像を変換することにより、前記第2衣類画像を取得するステップは、
前記第1領域画像及び前記第1衣類画像を画像融合モデルの空間変換ネットワークに入力するステップであって、前記空間変換ネットワークは、画像を変換するためのものである、ステップと、
前記空間変換ネットワークによって、前記第1衣類画像と第1マスク領域とのマッピング関係に基づいて、前記第1衣類画像を変換することにより、中間衣類画像を取得するステップであって、前記第1マスク領域は、前記第1衣類画像におけるターゲット衣類が位置する領域を示すためのものである、ステップと、
前記空間変換ネットワークによって、前記中間衣類画像に対応するテクスチャ特徴を決定するステップと、
前記テクスチャ特徴及び前記中間衣類画像に基づいて、前記第2衣類画像を生成するステップと、
を含むことを特徴とする請求項2に記載の画像生成方法。
【請求項6】
前記空間変換ネットワークによって、前記第1衣類画像と第1マスク領域とのマッピング関係に基づいて、前記第1衣類画像を変換することにより、中間衣類画像を取得するステップは、
前記第1マスク領域に基づいて前記ターゲット衣類の初期輪郭を決定し、前記第1領域画像に基づいて変換後の前記ターゲット衣類に対応するターゲット輪郭を決定するステップと、
前記初期輪郭及び前記ターゲット輪郭に基づいて、前記初期輪郭と前記ターゲット輪郭とのマッピング関係を決定するステップと、
前記マッピング関係に基づいて前記第1衣類画像を変換することにより、中間衣類画像を取得するステップと、
を含むことを特徴とする請求項5に記載の画像生成方法。
【請求項7】
前記空間変換ネットワークは、衣類生成サブネットワークを含み、
前記空間変換ネットワークによって、前記中間衣類画像に対応するテクスチャ特徴を決定するステップは、
前記衣類生成サブネットワークに基づいて、予め学習された衣類細部特徴に従って、前記中間衣類画像に対して特徴抽出を行うことにより、前記中間衣類画像に対応するテクスチャ特徴を取得するステップ
を含むことを特徴とする請求項5に記載の画像生成方法。
【請求項8】
前
記特徴抽
出ステップは、
画像融合モデルの衣類符号化ネットワークによって、前記第2衣類画像に対して特徴抽出を行うことにより、前記衣類特徴を取得するステップと、
前記画像融合モデルの皮膚符号化ネットワークによって、前記第1人体画像における露出領域の画像に対して特徴抽出を行うことにより、前記皮膚特徴を取得するステップと、
前記画像融合モデルのポートレート符号化ネットワークによって、前記第1人体画像に対して特徴抽出を行うことにより、前記人体特徴を取得するステップと、
を含むことを特徴とする請求項1に記載の画像生成方法。
【請求項9】
前
記第2人体画
像生成ステップは、
前記衣類特徴、前記皮膚特徴、及び前記人体特徴を連結することにより、連結特徴を取得するステップと、
前記連結特徴に基づいて復号化を行うことにより、前記第2人体画像を生成するステップと、
を含むことを特徴とする請求項1に記載の画像生成方法。
【請求項10】
前記衣類特徴、前記皮膚特徴、及び前記人体特徴のいずれにも、少なくとも2つのスケールのサブ特徴が含まれ、
前記衣類特徴、前記皮膚特徴、及び前記人体特徴を連結することにより、連結特徴を取得するステップは、
前記衣類特徴、前記皮膚特徴、及び前記人体特徴における同じスケールのサブ特徴をそれぞれ連結することにより、少なくとも2つの連結サブ特徴を取得するステップと、
前記少なくとも2つの連結サブ特徴を連結することにより、前記連結特徴を取得するステップと、
を含むことを特徴とする請求項9に記載の画像生成方法。
【請求項11】
前記第2衣類画像取得ステップ、前記特徴抽出ステップ、及び前記第2人体画像生成ステップは、画像融合モデルによって実行される、
ことを特徴とする請求項1に記載の画像生成方法。
【請求項12】
第1初期モデル及び第2初期モデルを取得するステップであって、前記第1初期モデル及び第2初期モデルの構造が同じである、ステップと、
第1人体が含まれる第1サンプル人体画像と、第1衣類が含まれる第1サンプル衣類画像と、第2衣類が含まれる第2サンプル衣類画像とを取得するステップであって、前記第1サンプル人体画像において、前記第1人体が前記第1衣類を着用している、ステップと、
前記第1初期モデルによって、前記第1サンプル人体画像及び前記第2サンプル衣類画像に対して画像融合を行うことにより、第2サンプル人体画像を生成するステップであって、前記第2サンプル人体画像において、前記第1人体が前記第2衣類を着用している、ステップと、
前記第2初期モデルによって、前記第2サンプル人体画像及び前記第1サンプル衣類画像に対して画像融合を行うことにより、ターゲットサンプル人体画像を生成するステップであって、前記ターゲットサンプル人体画像において、前記第1人体が前記第1衣類を着用している、ステップと、
前記第1サンプル人体画像と前記第2サンプル人体画像との誤差、前記第1サンプル人体画像と前記ターゲットサンプル人体画像との誤差に基づいて、前記第1初期モデルを訓練するステップと、
前記第2サンプル人体画像と前記ターゲットサンプル人体画像との誤差、前記第1サンプル人体画像と前記ターゲットサンプル人体画像との誤差に基づいて、前記第2初期モデルを訓練するステップと、
前記第1初期モデル及び前記第2初期モデルのいずれもモデル訓練条件を満たすイベントに応答して、訓練済みの前記第2初期モデルを画像融合モデルとして取得するステップと、
をさらに含むことを特徴とする請求項11に記載の画像生成方法。
【請求項13】
前記第1サンプル人体画像と前記第2サンプル人体画像との誤差、前記第1サンプル人体画像と前記ターゲットサンプル人体画像との誤差に基づいて、前記第1初期モデルを訓練するステップは、
前記第1サンプル人体画像と前記第2サンプル人体画像との画素値分布差異に基づいて、第1誤差を決定するステップと、
前記第1サンプル人体画像に対応する画素値行列と、前記第2サンプル人体画像に対応する画素値行列との誤差を第2誤差として決定するステップと、
前記第1サンプル人体画像に対応する画素値行列と、前記ターゲットサンプル人体画像に対応する画素値行列との誤差を第3誤差として決定するステップと、
前記第1サンプル人体画像における衣類領域の画像特徴と、ターゲットサンプル人体画像における衣類領域の画像特徴との誤差を第4誤差として決定するステップと、
前記第1誤差、前記第2誤差、前記第3誤差、及び前記第4誤差に基づいて、前記第1初期モデルのモデルパラメータを調整するステップと、
を含むことを特徴とする請求項12に記載の画像生成方法。
【請求項14】
前記第1誤差、前記第2誤差、前記第3誤差、及び前記第4誤差に基づいて、前記第1初期モデルのモデルパラメータを調整するステップは、
前記第1誤差、前記第2誤差、前記第3誤差、及び前記第4誤差を前記第1初期モデルに逆伝播し、前記第1初期モデルにおける各演算層のパラメータの解を求めるステップと、
解を求めた結果に基づいて、前記第1初期モデルにおける各演算層のパラメータを調整するステップと、
を含むことを特徴とする請求項13に記載の画像生成方法。
【請求項15】
前記第2サンプル人体画像と前記ターゲットサンプル人体画像との誤差、前記第1サンプル人体画像と前記ターゲットサンプル人体画像との誤差に基づいて、前記第2初期モデルを訓練するステップは、
前記第2サンプル人体画像と前記ターゲットサンプル人体画像との画素値分布差異に基づいて、第5誤差を決定するステップと、
前記第2サンプル人体画像に対応する画素値行列と、前記ターゲットサンプル人体画像に対応する画素値行列との誤差を第6誤差として決定するステップと、
前記第1サンプル人体画像に対応する画素値行列と、前記ターゲットサンプル人体画像に対応する画素値行列との誤差を第7誤差として決定するステップと、
前記第1サンプル人体画像における衣類領域の画像特徴と、ターゲットサンプル人体画像における衣類領域の画像特徴との誤差を第8誤差として決定するステップと、
前記第5誤差、前記第6誤差、前記第7誤差、及び前記第8誤差に基づいて、前記第2初期モデルのモデルパラメータを調整するステップと、
を含むことを特徴とする請求項12に記載の画像生成方法。
【請求項16】
画像生成装置であって、
ターゲット人体が含まれる第1人体画像と、ターゲット衣類が含まれる第1衣類画像とを取得する第1取得モジュールと、
前記第1人体画像における前記ターゲット人体の姿勢に基づいて、前記第1衣類画像を変換することにより、第2衣類画像を取得する衣類変換モジュールであって、前記第2衣類画像には、前記ターゲット衣類が含まれ、前記ターゲット衣類の姿勢が前記ターゲット人体の姿勢にマッチしている、衣類変換モジュールと、
前記第2衣類画像と、前記第1人体画像における露出領域の画像と、前記第1人体画像とのそれぞれに対して特徴抽出を行うことにより、衣類特徴、皮膚特徴、及び人体特徴を取得する特徴抽出モジュールであって、前記露出領域は、前記第1人体画像における前記ターゲット人体の、衣類によって遮蔽されていない領域である、特徴抽出モジュールと、
前記衣類特徴、前記皮膚特徴、及び前記人体特徴に基づいて、第2人体画像を生成する第1生成モジュールであって、前記第2人体画像において、前記ターゲット人体が前記ターゲット衣類を着用している、第1生成モジュールと、
を含むことを特徴とする画像生成装置。
【請求項17】
コンピュータ可読命令を記憶したメモリと、1つ又は複数のプロセッサと、を備えるコンピュータ機器であって、前記1つ又は複数のプロセッサは、前記コンピュータ可読命令を実行すると、請求項1乃至15のいずれか1項に記載の画像生成方
法を実現することを特徴とするコンピュータ機器。
【請求項18】
コンピュータに、請求項1乃至15のいずれか1項に記載の画像生成方
法を実現させることを特徴とするコンピュータプログラ
ム。
【手続補正2】
【補正対象書類名】明細書
【補正対象項目名】0026
【補正方法】変更
【補正の内容】
【0026】
上記の端末110とサーバ140は、有線又は無線の通信方式によって、直接又は間接的に接続されてもよい。本願の実施例はこれを限定しない。
【手続補正3】
【補正対象書類名】明細書
【補正対象項目名】0034
【補正方法】変更
【補正の内容】
【0034】
本願の実施例において、コンピュータ機器は、ターゲット人体の姿勢に基づいて、ターゲット衣類の姿勢がターゲット人体の姿勢に合うように、ターゲット衣類が含まれる第1衣類画像を変換することにより、ターゲット衣類画像の細部情報を十分に保持する第2衣類画像を取得する。これにより、その後第2衣類に対して特徴抽出を行う際に、豊富な細部特徴を抽出することができる。
【手続補正4】
【補正対象書類名】明細書
【補正対象項目名】0036
【補正方法】変更
【補正の内容】
【0036】
1つの可能な実現形態では、該コンピュータ機器が、複数の次元で、該第2衣類画像及び該第1人体画像に対して特徴抽出を行うことにより、衣類特徴、皮膚特徴、及び人体特徴を取得する。例示的に、特徴抽出タスクに対してタスク分解を行って、3つの次元の特徴抽出サブタスクに分解し、即ち、コンピュータ機器が、衣類次元、皮膚次元、及び全体ポートレート次元のそれぞれで特徴抽出を行うことにより、衣類特徴、皮膚特徴、及び人体特徴を取得する。本願の実施例では、タスク分解によって、各次元の特徴をそれぞれ抽出する。これにより、一方で、より全面的な、より細かい粒度の特徴を抽出することができ、他方で、各特徴抽出サブタスクを別々に実行することで、コンピュータ機器の特徴抽出時のデータ処理の負担を軽減することもできる。
【手続補正5】
【補正対象書類名】明細書
【補正対象項目名】0050
【補正方法】変更
【補正の内容】
【0050】
1つの可能な実現形態において、該衣類領域予測ネットワークは、第2領域画像を出力してもよい。該第2領域画像は、該ターゲット人体が該ターゲット衣類を着用している場合の該ターゲット人体画像の露出領域、即ち、露出した皮膚領域、例えば、手領域などを示すためのものである。
図3に示すように、人体セマンティック画像D及び第1衣類画像Cが衣類予測ネットワークに入力され、該衣類予測ネットワークから、第1領域画像M
clothes及び第2領域画像M
skinが出力される。1つの可能な実現形態において、該第2
領域画像は、後続の特徴抽出ステップに使用することができる。これにより、画像融合モデルは、例えば、皮膚領域の輪郭特徴や位置特徴などの露出した皮膚領域の特徴を決定することが可能になり、画像融合モデルがより正確に新たな人体画像を生成することは容易になる。
【手続補正6】
【補正対象書類名】明細書
【補正対象項目名】0051
【補正方法】変更
【補正の内容】
【0051】
本願の実施例では、まず第1領域画像を取得してから、即ち、まずターゲット衣類が呈した姿勢を決定してから、衣類画像のアフィン変換を行うことにより、衣類画像をターゲット人体の姿勢に合わせることができ、衣類画像のアフィン変換の精度を効果的に向上させ、アフィン変換によって得られる衣類画像の真実性を向上させる。
【手続補正7】
【補正対象書類名】明細書
【補正対象項目名】0053
【補正方法】変更
【補正の内容】
【0053】
本願の実施例において、コンピュータ機器は、画像融合モデルにおける空間変換ネットワークによって、該第1衣類
画像を変換することにより、該第2衣類画像を取得してもよい。
図6は、本願の実施例で提供される空間変換ネットワークの模式図である。
図6に示すように、該空間変換ネットワークは、変換行列予測サブネットワーク601及び衣類生成サブネットワーク602を含む。例示的に、該変換行列予測サブネットワーク及び衣類生成サブネットワークのいずれにも複数の演算層が含まれる。該演算層は、畳み込み層やプーリング層などであってもよい。本願の実施例はこれを限定しない。ここで、該変換行列予測サブネットワークは、第1衣類画像のアフィン変換に使用するアフィン変換行列を決定し、該衣類生成サブネットワークは、衣類細部特徴を含み、衣類画像をさらに修飾することができる。
【手続補正8】
【補正対象書類名】明細書
【補正対象項目名】0054
【補正方法】変更
【補正の内容】
【0054】
以下、
図6を参照しながら、該第2衣類画像の取得方法を説明する。1つの可能な実現形態において、コンピュータ機器は、該第1領域画像及び該第1衣類画像を画像融合モデルの空間変換ネットワークに入力し、該空間変換ネットワークによって、該第1衣類画像
と第1マスク領域とのマッピング関係に基づいて、該第1衣類画像を変換することにより、中間衣類画像を取得する。第1マスク領域は、第1衣類画像におけるターゲット衣類が位置する領域を示すためのものである。また、コンピュータ機器は、該空間変換ネットワークによって、該中間衣類画像に対応するテクスチャ特徴を決定し、該テクスチャ特徴及び該中間衣類画像に基づいて、該第2衣類画像を生成する。
【手続補正9】
【補正対象書類名】明細書
【補正対象項目名】0057
【補正方法】変更
【補正の内容】
【0057】
いくつかの実施例において、コンピュータ機器は、該初期領域画像に基づいて衣類輪郭認識処理を行って、ターゲット衣類の初期輪郭を決定し、該第1領域画像に基づいて変換後のターゲット衣類に対応するターゲット輪郭を決定し、初期輪郭及びターゲット輪郭に対して輪郭の照合を行うことにより、該初期輪郭とターゲット輪郭とのマッピング関係、即ち、ターゲット衣類の変換前後の対応関係を取得する。該初期輪郭とターゲット輪郭とのマッピング関係は、コンピュータ機器がターゲット衣類を変換するプロセスにおいてターゲット衣類の形状を調整するのを補助することができる。
【手続補正10】
【補正対象書類名】明細書
【補正対象項目名】0058
【補正方法】変更
【補正の内容】
【0058】
図6に示すように、コンピュータ機器は、第1衣類画像C、初期領域画像M、及び第1領域画像M
clothesを空間変換ネットワークに入力し、該空間変換ネットワークにおける変換行列予測サブネットワークによって、該第1衣類画像に対応するアフィン変換行列Tを予測し、薄板スプライン(TPS:Thin Plate Splin
e)アルゴリズムを呼び出し、該アフィン変換行列Tに基づいて該第1衣類画像を変換することにより、即ち、該アフィン変換行列Tに基づいて該第1衣類画像における各画素点の位置を調整することにより、中間衣類画像C
rawを取得する。該中間衣類画像において、ターゲット衣類の姿勢がターゲット人体の姿勢に合っている。
【手続補正11】
【補正対象書類名】明細書
【補正対象項目名】0062
【補正方法】変更
【補正の内容】
【0062】
説明すべきものとして、上記のステップ402及びステップ403は、該第1人体画像における該ターゲット人体の姿勢に基づいて、該第1衣類画像を変換することにより、第2衣類画像を取得するステップであって、該第2衣類画像には、該ターゲット衣類が含まれ、該ターゲット衣類の姿勢が該ターゲット人体の姿勢にマッチしている、ステップである。本願の実施例では、まず、衣類画像のアフィン変換を行うことにより、人体の姿勢に合っている衣類画像を取得する。このプロセスでは、ターゲット人体の姿勢情報を正確に捉えることができるだけでなく、衣類の細部情報を十分に保持することもでき、例えば、衣類のテクスチャ情報、襟元、袖口などの細部情報を最大限に保持することができる。
【手続補正12】
【補正対象書類名】明細書
【補正対象項目名】0065
【補正方法】変更
【補正の内容】
【0065】
1つの可能な実現形態において、
図3に示すように、該コンピュータ機器は、該第2衣類画像と、上記ステップ402で取得した第2領域画像とを全て衣類符号化ネットワークに入力し、衣類符号化ネットワークによって、第
2衣類画像及び第2領域画像に基づいて後続の衣類特徴抽出ステップを実行してもよい。ここで、第2領域画像は、ターゲット人体が該ターゲット衣類を着用している場合の露出領域を正確に示すことができる。衣類特徴抽出プロセスでは、該第2領域画像を使用することにより、衣類符号化ネットワークがターゲット衣類とターゲット人体との相対的な位置関係、即ち、ターゲット人体に対するターゲット衣類の遮蔽状況を決定することを補助することができ、該衣類符号化ネットワークがより正確な衣類特徴を抽出することを可能にする。
【手続補正13】
【補正対象書類名】明細書
【補正対象項目名】0075
【補正方法】変更
【補正の内容】
【0075】
本願の実施例において、コンピュータ機器は、画像融合モデルにおける復号化ネットワークによって、該連結特徴に基づいて復号化を行うことにより、該第2人体画像を生成する。ここで、該第2人体画像において、該ターゲット人体が該ターゲット衣類を着用している。1つの可能な実現形態では、該復号化ネットワークは、ResUnetにおける復号化ネットワークの構造を採用してもよい。該復号化ネットワークには、複数のカスケード演算層が含まれる。コンピュータ機器は、該複数の演算層によって連結特徴をアップサンプリングすることにより、該第2人体画像を生成する。
図8は、本願の実施例で提供される復号化ネットワークの模式図である。コンピュータ機器は、連結特徴における異なるスケールの連結サブ特徴を、復号化ネットワークにおける
該スケールに対応する演算層にそれぞれ入力してもよい。例示的に、第1スケールの連結サブ特徴を第1スケールの演算層801に入力し、第2スケールの連結サブ特徴を第2スケールの演算層802に入力する。本願の実施例において、異なるスケースの連結サブ特徴は、異なる粒度の細部特徴を保持することができ、該復号化ネットワークが、異なるスケースの連結サブ特徴を復号化することより生成された第2人体画像は、アフィン変換後の衣類の細部情報、人体皮膚情報、及び人体グローバル細部情報を十分に保持することができ、真実なバーチャル着せ替え効果を達成する。
【手続補正14】
【補正対象書類名】明細書
【補正対象項目名】0086
【補正方法】変更
【補正の内容】
【0086】
本願の実施例において、コンピュータ機器は、該第2サンプル人体画像及び第1サンプル衣類画像を第2初期モデルに入力し、該第2初期モデルによって、第1人体の特徴及び第1衣類の特徴に基づいてターゲットサンプル人体画像を生成する。ここで、該ターゲットサンプル人体画像において、該第1人体が該第1衣類を着用している。該コンピュータ機器が該第2初期モデルによってターゲットサンプル人体画像を生成するプロセスは、上記のステップ402からステップ407のプロセスと同様である。
【手続補正15】
【補正対象書類名】明細書
【補正対象項目名】0106
【補正方法】変更
【補正の内容】
【0106】
1つの可能な実現形態において、該特徴抽出モジュール1103は、さらに、画像融合モデルの衣類符号化ネットワークによって、該第2衣類画像に対して特徴抽出を行うことにより、該衣類特徴を取得し、該画像融合モデルの皮膚符号化ネットワークによって、該第1人体画像における露出領域の画像に対して特徴抽出を行うことにより、該皮膚特徴を取得し、該画像融合モデルのポートレート符号化ネットワークによって、該第1人体画像に対して特徴抽出を行うことにより、該人体特徴を取得する。
【手続補正16】
【補正対象書類名】明細書
【補正対象項目名】0118
【補正方法】変更
【補正の内容】
【0118】
通常、端末1200は、1つ又は複数のプロセッサ1201と、1つ又は複数のメモリ1202と、を備える。プロセッサ1201は、1つ又は複数の処理コアを含んでもよく、例えば、4コアプロセッサ、8コアプロセッサなどである。プロセッサ1201は、デジタル信号プロセッサ(DSP:Digital Signal Processor)、フィールドプログラマブルゲートアレイ(FPGA:Field-Programmable Gate Array)、プログラマブルロジックアレイ(PLA:Programmable Logic Array)のうちの少なくとも1つのハードウェアの形で実現されてもよい。
【国際調査報告】