(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-11-29
(45)【発行日】2024-12-09
(54)【発明の名称】画像処理方法、装置、及び電子機器
(51)【国際特許分類】
G06T 5/50 20060101AFI20241202BHJP
G06T 3/18 20240101ALI20241202BHJP
【FI】
G06T5/50
G06T3/18
(21)【出願番号】P 2023522881
(86)(22)【出願日】2022-01-20
(86)【国際出願番号】 CN2022072892
(87)【国際公開番号】W WO2022161234
(87)【国際公開日】2022-08-04
【審査請求日】2023-04-13
(31)【優先権主張番号】202110141360.3
(32)【優先日】2021-01-27
(33)【優先権主張国・地域又は機関】CN
(73)【特許権者】
【識別番号】517392436
【氏名又は名称】▲騰▼▲訊▼科技(深▲セン▼)有限公司
【氏名又は名称原語表記】TENCENT TECHNOLOGY (SHENZHEN) COMPANY LIMITED
【住所又は居所原語表記】35/F,Tencent Building,Kejizhongyi Road,Midwest District of Hi-tech Park,Nanshan District, Shenzhen,Guangdong 518057,CHINA
(74)【代理人】
【識別番号】100110364
【氏名又は名称】実広 信哉
(74)【代理人】
【識別番号】100150197
【氏名又は名称】松尾 直樹
(72)【発明者】
【氏名】宋 奕兵
(72)【発明者】
【氏名】葛 玉▲瑩▼
(72)【発明者】
【氏名】▲劉▼ 威
【審査官】渡部 幸和
(56)【参考文献】
【文献】特開2021-108206(JP,A)
【文献】特開2005-216094(JP,A)
【文献】Xintong Han; Weilin Huang; Xiaojun Hu; Matthew Scott,ClothFlow: A Flow-Based Model for Clothed Person Generation,2019 IEEE/CVF International Conference on Computer Vision (ICCV),IEEE,2019年11月02日,https://ieeexplore.ieee.org/document/9010778
(58)【調査した分野】(Int.Cl.,DB名)
G06T 5/00
G06T 3/00
(57)【特許請求の範囲】
【請求項1】
コンピュータ機器により実行される、画像処理方法であって、前記方法は、
目標人物を含む第1画像と目標服装を含む第2画像とを取得するステップと、
前記第1画像の画像特徴と前記第2画像の画像特徴とに基づいて、前記目標服装が前記目標人物の人体に適応して生じた変形を表すことに用いられる目標外観フロー特徴を生成し、且つ前記目標外観フロー特徴に基づき、前記目標服装が前記人体に適応する変形後画像を生成するステップ
であって、
前記第1画像を第1画像特徴抽出モデルの入力信号とし、且つ前記第2画像を第2画像特徴抽出モデルの入力信号として、前記第1画像特徴抽出モデル、及び前記第2画像特徴抽出モデルによってそれぞれ入力信号に対応する多層画像特徴を抽出するステップと、
前記第1画像特徴抽出モデル、及び前記第2画像特徴抽出モデルが出力した多層画像特徴に基づいて、外観フロー特徴の抽出を層毎に行い、最後の1つの画像特徴層に対して抽出を行って獲得した外観フロー特徴を前記目標外観フロー特徴とするステップと、
を含む、ステップと、
前記変形後画像と前記第1画像との融合に基づいて仮想着せ替え画像を生成するステップであって、前記仮想着せ替え画像において、前記目標人物は前記人体に適応する目標服装を着用している、ステップと、を含む、画像処理方法。
【請求項2】
コンピュータ機器により実行される、画像処理方法であって、前記方法は、
目標人物を含む第1画像と目標服装を含む第2画像とを取得するステップと、
仮想着せ替え生徒モデルにおける第1服装変形サブモデルにより、前記第1画像の画像特徴と前記第2画像の画像特徴とに基づいて、前記目標服装が前記目標人物の人体に適応して生じた変形を表すことに用いられる目標外観フロー特徴を生成し、且つ前記目標外観フロー特徴に基づき、前記目標服装が前記人体に適応する変形後画像を生成するステップと、
前記仮想着せ替え生徒モデルにおける第1着せ替え生成サブモデルによって、前記変形後画像と前記第1画像との融合に基づいて仮想着せ替え画像を生成するステップであって、前記仮想着せ替え画像において、前記目標人物は前記人体に適応する目標服装を着用している、ステップと、を含む、画像処理方法。
【請求項3】
前記第1画像特徴抽出モデル、及び前記第2画像特徴抽出モデルが出力した多層画像特徴に基づいて、外観フロー特徴の抽出を層毎に行い、最後の1つの画像特徴層に対して抽出を行って獲得した外観フロー特徴を前記目標外観フロー特徴とする前記ステップは、
1番目の画像特徴層に、前記第1画像特徴抽出モデル、及び前記第2画像特徴抽出モデルが出力した画像特徴に基づいて、前記目標服装が前記目標人物の人体に適応して生じた変形を表すことに用いられる外観フロー特徴を抽出するステップと、
前記1番目の画像特徴層の後の各画像特徴層に、前記第1画像特徴抽出モデル、及び前記第2画像特徴抽出モデルが出力した画像特徴に基づいて、1つ前の画像特徴層に対応する外観フロー特徴に対して最適化処理を行い、現在の画像特徴層に対応する外観フロー特徴を獲得するステップと、を含む、請求項
1に記載の方法。
【請求項4】
前記1番目の画像特徴層の後の各画像特徴層に、前記第1画像特徴抽出モデル、及び前記第2画像特徴抽出モデルが出力した画像特徴に基づいて、1つ前の画像特徴層に対応する外観フロー特徴に対して最適化処理を行い、現在の画像特徴層に対応する外観フロー特徴を獲得する前記ステップは、
1つ前の画像特徴層に対応する外観フロー特徴に基づいてアップサンプリング処理を行ってアップサンプリング特徴を獲得するステップと、
前記アップサンプリング特徴に基づいて現在の画像特徴層に対応する第2画像の画像特徴に対して第1変形処理を行い、第1変形後特徴を獲得するステップと、
現在の画像特徴層に対応する第1画像の画像特徴に基づき、前記第1変形後特徴に対して校正処理を行い、且つ校正処理により獲得された校正後特徴に対して第1畳み込み計算を行い、第1畳み込み特徴を獲得するステップと、
前記第1畳み込み特徴と前記アップサンプリング特徴とを繋ぎ合わせて獲得した特徴に基づいて、前記現在の画像特徴層に対応する第2画像の画像特徴に対して第2変形処理を行い、第2変形後特徴を獲得するステップと、
前記第2変形後特徴に対して第2畳み込み計算を行い、且つ計算により獲得された第2畳み込み特徴と前記第1畳み込み特徴とを繋ぎ合わせて、現在の画像特徴層に対応する外観フロー特徴を獲得するステップと、を含む、請求項3に記載の方法。
【請求項5】
前記第1画像特徴抽出モデル、及び前記第2画像特徴抽出モデルが出力した多層画像特徴に基づいて、外観フロー特徴の抽出を層毎に行う過程において、さらに、二次平滑拘束条件に基づいて前記外観フロー特徴の抽出を行い、前記二次平滑拘束条件は隣接する外観フローの間のリニア対応関係に対して予め設定された拘束条件である、請求項
1に記載の方法。
【請求項6】
前記方法は、
仮想着せ替えティーチングアシスタントモデルを呼び出し、指定人物が含まれる人物画像に対応する人体解析結果、及び着せ替え対象の服装が含まれる第1服装画像を前記仮想着せ替えティーチングアシスタントモデルに入力して、前記仮想着せ替えティーチングアシスタントモデルが出力したティーチングアシスタント画像を獲得するステップであって、前記ティーチングアシスタント画像において前記指定人物は前記指定人物の人体に適応する着せ替え対象の服装を着用している、ステップと、
元の服装が含まれる第2服装画像、及び前記ティーチングアシスタント画像を訓練対象の仮想着せ替え生徒モデルに入力して、前記訓練対象の仮想着せ替え生徒モデルが出力した生徒画像を獲得するステップであって、前記生徒画像において前記指定人物は前記ティーチングアシスタント画像における指定人物の人体に適応する元の服装を着用しており、前記元の服装は前記指定人物が人物画像において着用している服装である、ステップと、
前記人物画像を教師画像とし、前記生徒画像と前記教師画像との間の画像損失情報に基づいて、前記訓練対象の仮想着せ替え生徒モデルに対してパラメータ更新を行うステップと、をさらに含む、請求項
1または2に記載の方法。
【請求項7】
前記人物画像を教師画像とし、前記生徒画像と前記教師画像との間の画像損失情報に基づいて、前記訓練対象の仮想着せ替え生徒モデルに対してパラメータ更新を行うステップの前に、前記方法は、
前記ティーチングアシスタント画像と前記生徒画像との間の画像品質差を取得するステップと、
もし前記画像品質差が正の値であれば、前記人物画像を教師画像とし、前記生徒画像と前記教師画像との間の画像損失情報に基づいて、前記訓練対象の仮想着せ替え生徒モデルに対してパラメータ更新を行う前記ステップを実行するステップと、をさらに含む、請求項
6に記載の方法。
【請求項8】
仮想着せ替えティーチングアシスタントモデルを呼び出し、指定人物が含まれる人物画像に対応する人体解析結果、及び着せ替え対象の服装が含まれる第1服装画像を前記仮想着せ替えティーチングアシスタントモデルに入力して、前記仮想着せ替えティーチングアシスタントモデルが出力したティーチングアシスタント画像を獲得する前記ステップは、
前記仮想着せ替えティーチングアシスタントモデルにおける第2服装変形サブモデルを呼び出し、前記人体解析結果と前記第1服装画像の画像特徴とに基づいて、前記着せ替え対象の服装が前記指定人物の人体に適応する変形後画像を生成するステップと、
前記仮想着せ替えモデルにおける第2着せ替え生成サブモデルを呼び出し、前記第2服装変形サブモデルが出力した前記着せ替え対象の服装に対応する変形後画像と、前記人物画像における元の服装を着用している領域を除く他の画像領域との融合に基づいて前記ティーチングアシスタント画像を生成するステップと、を含む、請求項
6に記載の方法。
【請求項9】
前記方法は、
前記仮想着せ替えモデルにおける第2着せ替え生成サブモデルを呼び出し、前記人体解析結果に基づいて、前記人物画像において含有される前記指定人物が元の服装を着用している領域をクリアして、前記人物画像における元の服装を着用している領域を除く他の画像領域を獲得するステップをさらに含む、請求項
8に記載の方法。
【請求項10】
前記人物画像を教師画像とし、前記生徒画像と前記教師画像との間の画像損失情報に基づいて、前記訓練対象の仮想着せ替え生徒モデルに対してパラメータ更新を行う前記ステップは、
前記生徒画像の前記教師画像に対する画像損失値を取得するステップであって、前記画像損失値は画素距離損失関数値、感知損失関数値、及び対抗損失関数値のうちの少なくとも一種を含む、ステップと、
前記画像損失値に対して加算演算を行い、前記生徒画像の前記教師画像に対する画像損失和値を獲得するステップと、
前記画像損失和値を前記生徒画像と前記教師画像との間の画像損失情報として、前記訓練対象の仮想着せ替え生徒モデルに対してパラメータ更新を行うステップと、を含む、請求項
6に記載の方法。
【請求項11】
前記第1着せ替え生成サブモデルはエンコーダ-デコーダネットワーク、及び残差ネットワークにより構成され、前記残差ネットワークは接続された上位層ネットワークに対して正規化処理を行うことに用いられる、請求項
2に記載の方法。
【請求項12】
画像処理装置であって、前記装置はコンピュータ機器に搭載され、前記装置は、
目標人物が含まれる第1画像と目標服装が含まれる第2画像とを取得するように構成される画像取得モジュールと、
前記第1画像の画像特徴と前記第2画像の画像特徴とに基づいて、前記目標服装が前記目標人物の人体に適応して生じた変形を表すことに用いられる目標外観フロー特徴を生成し、且つ前記目標外観フロー特徴に基づき、前記目標服装が前記人体に適応する変形後画像を生成するように構成される情報生成モジュール
であって、
前記第1画像を第1画像特徴抽出モデルの入力信号とし、且つ前記第2画像を第2画像特徴抽出モデルの入力信号として、前記第1画像特徴抽出モデル、及び前記第2画像特徴抽出モデルによってそれぞれ入力信号に対応する多層画像特徴を抽出するように構成される多層画像特徴取得ユニットと、
前記第1画像特徴抽出モデル、及び前記第2画像特徴抽出モデルが出力した多層画像特徴に基づいて、外観フロー特徴の抽出を層毎に行い、最後の1つの画像特徴層に対して抽出を行って獲得した外観フロー特徴を前記目標外観フロー特徴とするように構成される外観フロー特徴抽出ユニットと、
を含む、情報生成モジュールと、
前記変形後画像と前記第1画像との融合に基づいて仮想着せ替え画像を生成するように構成される仮想着せ替えモジュールであって、前記仮想着せ替え画像において、前記目標人物は前記人体に適応する目標服装を着用している、仮想着せ替えモジュールと、
を含む、画像処理装置。
【請求項13】
画像処理装置であって、前記装置はコンピュータ機器に搭載され、前記装置は、
目標人物が含まれる第1画像と目標服装が含まれる第2画像とを取得するように構成される画像取得モジュールと、
前記第1画像の画像特徴と前記第2画像の画像特徴とに基づいて、前記目標服装が前記目標人物の人体に適応して生じた変形を表すことに用いられる目標外観フロー特徴を生成し、且つ前記目標外観フロー特徴に基づき、前記目標服装が前記人体に適応する変形後画像を生成するように構成され、仮想着せ替え生徒モデルにおける第1服装変形サブモデルである情報生成モジュールと、
前記変形後画像と前記第1画像との融合に基づいて仮想着せ替え画像を生成するように構成される仮想着せ替えモジュールであって、前記仮想着せ替え画像において、前記目標人物は前記人体に適応する目標服装を着用しており、前記仮想着せ替え生徒モデルにおける第1着せ替え生成サブモデルである、仮想着せ替えモジュールと、を含む、画像処理装置。
【請求項14】
電子機器であって、
コンピュータ可読命令が記憶されているメモリと、
メモリに記憶されているコンピュータ可読命令を読み取って請求項1~
11のいずれか一項に記載の方法を実行するプロセッサと、を含む、電子機器。
【請求項15】
コンピュータプログラムであって、請求項1~
11のいずれか一項に記載の方法を実行するように構成された、コンピュータプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本願は画像処理の技術分野に関し、具体的には、画像処理方法、装置、電子機器、コンピュータ可読記憶媒体に関する。
【0002】
本願は、2021年1月27日に中国特許局に提出された、出願番号が第202110141360.3号であり、出願の名称が「画像処理方法、装置、電子機器、及び記憶媒体」である中国特許出願の優先権を主張し、その全部の内容は引用により本願に組み込まれている。
【背景技術】
【0003】
仮想着せ替え技術とは、技術的手段によって人体画像と衣服画像とを融合し、ユーザーが衣服を着た後の画像を獲得することを指し、ユーザーが衣服を着た後の効果を理解しやすくすることができ、ユーザーが実際の衣服を着る必要がない。仮想着せ替え技術はオンラインショッピング、服装展示、服装デザイン、又はオフラインショッピングの仮想試着等のシーンにおいて広く応用されている。
【0004】
現状の仮想着せ替え技術において、人体画像の人体解析結果に依存する必要がある。1つの理想的な仮想着せ替えデータセットは、指定人物が任意の服装を着用する画像、目標服装を含む画像、及び指定人物が目標服装を着用する画像を含むべきであるが、同一人が完全に同じ動作を維持して2つの異なる服装を着用する画像は取得しにくい。そのため、現状で採用されている仮想着せ替えデータセットにおいては、指定人物が目標服装を着用する画像のみを含むことになり、人体解析結果を利用して指定人物の目標服装領域をクリアしてから、次に目標服装を含む画像を利用して人体画像を再構成する必要がある。
【0005】
このことから分かるように、このような技術の実現は人体解析結果に大きく依存し、人体解析結果が正確でないときに、指定人物と目標服装とがマッチングしない仮想着せ替え画像を生成し得る。また実際の応用シーンにおいては、人体解析の過程に長い時間をかける必要があり、リアルタイムに仮想着せ替え結果を獲得することができないことを引き起こす。
【発明の概要】
【発明が解決しようとする課題】
【0006】
上記の技術的な課題を解決するために、本願の実施例は画像処理方法、装置、電子機器、及びコンピュータ可読記憶媒体を提供し、人体解析結果に依存して仮想着せ替えを行う必要がなく、さらに人体解析結果に依存して仮想着せ替えを行うことにより引き起こされた様々な問題を回避し、高品質の仮想着せ替えを実現する。同時に、仮想着せ替えの効率を向上させ、リアルタイムな仮想着せ替えを実現する。
【課題を解決するための手段】
【0007】
本願の実施例の一態様によれば、画像処理方法を提供し、前記方法はコンピュータ機器により実行され、目標人物を含む第1画像と目標服装を含む第2画像とを取得するステップと、前記第1画像の画像特徴と前記第2画像の画像特徴とに基づいて、前記目標服装が前記目標人物の人体に適応して生じた変形を表すことに用いられる目標外観フロー特徴を生成し、且つ前記目標外観フロー特徴に基づき、前記目標服装が前記人体に適応する変形後画像を生成するステップと、前記変形後画像と前記第1画像との融合に基づいて仮想着せ替え画像を生成するステップであって、前記仮想着せ替え画像において、前記目標人物は前記人体に適応する目標服装を着用している、ステップと、を含む。
【0008】
本願の実施例の一態様によれば、画像処理装置を提供し、目標人物が含まれる第1画像と目標服装が含まれる第2画像とを取得するように構成される画像取得モジュールと、前記第1画像の画像特徴と前記第2画像の画像特徴とに基づいて、前記目標服装が前記目標人物の人体に適応して生じた変形を表すことに用いられる目標外観フロー特徴を生成し、且つ前記目標外観フロー特徴に基づき、前記目標服装が前記人体に適応する変形後画像を生成するように構成される情報生成モジュールと、前記変形後画像と前記第1画像との融合に基づいて仮想着せ替え画像を生成するように構成される仮想着せ替えモジュールであって、前記仮想着せ替え画像において、前記目標人物は前記人体に適応する目標服装を着用している、仮想着せ替えモジュールと、を含む。
【0009】
本願の実施例の一態様によれば、電子機器を提供し、プロセッサと、メモリとを含み、前記メモリにおいてコンピュータ可読命令が記憶されており、前記コンピュータ可読命令は前記プロセッサにより実行されるときに、前記画像処理方法を実現する。
【0010】
本願の実施例の一態様によれば、コンピュータ可読記憶媒体を提供し、それにおいてコンピュータ可読命令が記憶されており、前記コンピュータ可読命令はコンピュータのプロセッサにより実行されるときに、コンピュータに前記画像処理方法を実行させる。
【0011】
本願の実施例の一態様によれば、コンピュータプログラム製品、又はコンピュータプログラムを提供し、該コンピュータプログラム製品、又はコンピュータプログラムはコンピュータ命令を含み、該コンピュータ命令はコンピュータ可読記憶媒体において記憶される。コンピュータ機器のプロセッサはコンピュータ可読記憶媒体から該コンピュータ命令を読み取り、プロセッサは該コンピュータ命令を実行し、該コンピュータ機器に前記様々な選択可能な実施例において提供された画像処理方法を実行させる。
【発明の効果】
【0012】
本願の実施例が提供する技術的解決手段において、人体解析結果に依存して仮想着せ替えを行う必要がなく、目標服装が目標人物の人体に適応して生じた変形の目標外観フロー特徴を取得することによって目標服装に対して人体に適応する変形を生成し、最後に変形後の目標服装の画像(例えば変形後画像)と目標人物を含む第1画像とを融合して仮想着せ替え画像を獲得し、これにより、関連技術の実現において人体解析結果に依存して仮想着せ替えを行うことにより引き起こされた様々な問題を解決し、高品質の仮想着せ替えを実現する。同時に、仮想着せ替えの効率を向上させ、リアルタイムな仮想着せ替えを実現する。
【0013】
理解すべきである点として、以上の一般的な記述、及び下記の細部記述は単に例示的で解釈的なものであり、本願を限定することができるものではない。
【0014】
ここでの図面は明細書に組み込まれて本明細書の一部を構成し、本願に適合する実施例を示しており、且つ明細書とともに本願の原理を解釈することに用いられる。明らかなように、以下の記述における図面は単に本願のいくつかの実施例であり、当業者にとっては、創造的な労働を必要としない前提において、さらにそれらの図面に基づいて他の図面を取得することができる。
【図面の簡単な説明】
【0015】
【
図1】本願に関わる一種の実施環境の模式図である。
【
図2】本願の一実施例に示される仮想着せ替え生徒モデルの構造模式図である。
【
図3】
図2に示される第1服装変形サブモデル11の一実施例における構造模式図である。
【
図4】
図3に示される「FN-2」モジュールが2番目の画像特徴層に行った外観フロー特徴予測のフローチャートである。
【
図5】本願の他の実施例に示される画像処理方法のフローチャートである。
【
図6】本願の一実施例に示される仮想着せ替え生徒モデルの訓練フローチャートである。
【
図7】本願の一実施例に示される画像処理装置のブロック図である。
【
図8】本願の実施例を実現するために適する電子機器のコンピュータシステムの構造模式図を示す。
【発明を実施するための形態】
【0016】
ここでは、例示的な実施例に対する説明を詳細に実行し、その例は図面において表される。以下の記述は図面に関するときに、特に表記されない限り、異なる図面における同じ数字は同じ、又は類似する要素を表す。以下の例示的な実施例において記述される実施形態は本願と合致するすべての実施形態を表すものではない。逆に、それらは添付した特許請求の範囲において詳述される、本願のいくつかの態様と合致する装置、及び方法の例に過ぎない。
【0017】
図面において示されるブロック図は単に機能エンティティであり、必ずしも物理的に独立したエンティティと対応する必要はない。すなわち、ソフトウェア形式を採用してそれらの機能エンティティを実現し、又は1つもしくは複数のハードウェアモジュールもしくは集積回路においてそれらの機能エンティティを実現し、又は異なるネットワーク及び/又はプロセッサ装置及び/又はマイクロコントローラ装置においてそれらの機能エンティティを実現することができる。
【0018】
図面において示されるフローチャートは例示的な説明に過ぎず、すべての内容、及び操作/ステップを含む必要はなく、記述される順序に応じて実行する必要もない。例えば、ある操作/ステップはさらに分解することができるが、ある操作/ステップは合併し、又は部分的に合併することができ、従って、実際の実行順序は実際の状況に基づいて変化する可能性がある。
【0019】
さらに説明する必要がある点として、本願において言及される「複数」とは、2つ又は2つ以上を指す。本願に使用される「第1」、及び「第2」等の用語は本明細書において様々な概念を記述することに用いることができるが、特に説明しない限り、それらの概念はそれらの用語により限定されない。それらの用語は1つの概念と他の概念とを区別することのみに用いられる。例を挙げると、本願の範囲から逸脱しない状況において、第1画像を第2画像と呼んでもよく、且つ同様に、第2画像を第1画像と呼んでもよい。
【0020】
人工知能(Artificial Intelligence、AI)はデジタルコンピュータ、又はデジタルコンピュータが制御する機械を利用して人の知能を模擬、延伸、及び拡張し、環境を感知し、知識を取得し、且つ知識を使用して最適な結果を取得する理論、方法、技術、及び応用システムである。言い換えれば、人工知能はコンピュータ科学の1つの総合技術であり、それは知能の本質を理解し、且つ人類の知能と類似する方式で反応できる新しい知能機械を製造しようとする。人工知能は様々な知能機械の設計原理、及び実現方法を研究し、機械に感知、推理、及び意思決定の機能を有させるものである。
【0021】
人工知能技術は1つの総合学科であり、関連する分野が広く、ハードウェア面の技術もあり、ソフトウェア面の技術もある。人工知能の基礎技術は一般的に、例えばセンサ、専用人工知能チップ、クラウドコンピューティング、分散型記憶、ビッグデータ処理技術、オペレーティング/インタラクティブシステム、及びメカトロニクス等の技術を含む。人工知能ソフトウェア技術は自然言語処理技術、及び機械学習を含む。
【0022】
機械学習(Machine Learning、ML)は、1つの多分野融合学科であり、確率論、統計学、近似論、凸解析、及びアルゴリズム複雑度理論等の複数の学科に関する。コンピュータがどのように人類の学習挙動を模擬、又は実現することで、新しい知識、又は技能を取得し、既存の知識構造を組織し直して自体の性能を絶えず改善するかを専門的に研究する。機械学習は人工知能のコアであり、コンピュータに知能を有させる根本的な経路であり、その応用は人工知能の各分野に広がっている。機械学習、及び深層学習は通常、人工ニューラルネットワーク、信念ネットワーク、強化学習、転移学習、帰納学習、及び教示学習等の技術を含む。
【0023】
コンピュータ視覚技術(Computer Vision、CV)については、コンピュータ視覚は如何に機械に「見させる」かを研究する1つの科学であり、さらに言えば、人間の目の代わりにカメラ、及びコンピュータを用いて目標に対して認識、追跡、及び測定等を行う機械視覚を指し、且つさらにグラフィック処理を行い、人間の目による観察、又は計器へ伝送して検出するのにより適合する画像となるように、コンピュータに処理させる。1つの科学学科として、コンピュータ視覚は関連する理論、及び技術を研究し、画像、又は多次元データから情報を取得できる人工知能システムを作成しようとする。コンピュータ視覚技術は通常、画像処理、画像認識、画像意味理解、画像検索、ビデオ処理、ビデオ意味理解、ビデオ内容/挙動認識、3次元物体再構築、仮想現実、拡張現実、同期測位、及び地図構築等の技術を含み、一般的な顔認識、及び指紋認識等の生体特徴認識技術をさらに含む。
【0024】
以下、人工知能技術、及びコンピュータ視覚技術に基づき、本願の実施例が提供する画像処理方法を説明する。
【0025】
本願の実施例は画像処理方法を提供し、実行主体はコンピュータ機器であり、人体画像と衣服画像とを融合することができる。一種の実現可能な方式において、該コンピュータ機器は端末であり、端末はスマートフォン、タブレットパソコン、ノートパソコン、デスクトップコンピュータ、スマートスピーカー、スマートウォッチ、及び車載コンピュータ等であってもよい。他の実現可能な方式において、該コンピュータ機器はサーバであり、サーバは独立した物理サーバであってもよく、複数の物理サーバから構成されたサーバクラスター、又は分散型システムであってもよく、ここで、複数のサーバは1つのブロックチェーンを構成することができる。サーバはブロックチェーンにおけるノードであってもよく、サーバはさらに、クラウドサービス、クラウドデータベース、クラウドコンピューティング、クラウド関数、クラウド記憶、ネットワークサービス、クラウド通信、ミドルウェアサービス、ドメイン名サービス、セキュリティサービス、並びにビッグデータ、及び人工知能プラットフォーム等の基礎的なクラウドコンピューティングサービスを提供するクラウドサーバであってもよい。
【0026】
本願の実施例が提供する画像処理方法は、人体画像と衣服画像とを融合する任意のシーンにおいて応用することができる。例えば、オンラインショッピング時に仮想着せ替えを行うシーンにおいて、もしユーザーがある衣服を着る効果を理解しようとするならば、該ユーザーの人体画像、及び該衣服の衣服画像のみを提供し、本願の実施例が提供する方法を採用して、人体画像、及び衣服画像を処理すれば、該ユーザーが該衣服を着た人体画像を獲得することができ、オンライン仮想着せ替えを実現し、ユーザーが実際の衣服を着る必要がない。
【0027】
それ以外に、本願の実施例が提供する画像処理方法はさらに服装デザイン、服装展示、又はオフラインショッピングの仮想試着等のシーンにおいて応用することができ、それによりリアルタイムな仮想着せ替え機能を提供し得るが、ここでは列挙しない。
【0028】
図1に参照されるように、
図1は本願の一実施例に示される画像処理方法のフローチャートである。該画像処理方法は少なくともS110~S150を含み、該S110~S150は具体的に仮想着せ替え生徒モデルとして実現することができる。ここで、仮想着せ替え生徒モデルは一種の人工知能モデルであり、人体解析結果に依存する必要がなく目標人物の仮想着せ替えを実現することができ、高品質の仮想着せ替え画像を生成することができるだけでなく、仮想着せ替えのリアルタイム性を向上させることができる。
【0029】
以下、
図1に示される画像処理方法に対して詳細な記述を行う。
【0030】
S110:目標人物を含む第1画像と目標服装を含む第2画像とを取得する。
【0031】
本実施例において言及される目標人物とは、仮想着せ替えを行う対象の人物を指し、目標服装とは目標人物が着用しようとする服装を指す。
【0032】
例えば、オンラインショッピング時に仮想着せ替えを行うシーンにおいて、目標人物は現在オンラインショッピングを行っているユーザーであり、第1画像は該ユーザーが提供するユーザー自身の人体画像であり、第2画像はショッピングプラットフォームにおいてロードされた目標服装のピクチャであってもよい。説明する必要がある点として、第1画像において含有される目標人物、及び第2画像において含有される目標服装は実際の応用シーンに基づいて決定することができるが、ここではこれについて限定しない。
【0033】
S130:第1画像の画像特徴と第2画像の画像特徴とに基づいて、目標服装が目標人物の人体に適応して生じた変形を表すことに用いられる目標外観フロー特徴を生成し、且つ目標外観フロー特徴に基づき、目標服装が人体に適応する変形後画像を生成する。
【0034】
まず、第1画像の画像特徴は、第1画像に対して画像特徴抽出を行って獲得したものであり、第2画像の画像特徴は、第2画像に対して画像特徴抽出を行って獲得したものである。例えば、いくつかの実施例において、第1画像を第1画像特徴抽出モデルに入力し、及び第2画像を第2画像特徴抽出モデルに入力することができ(すなわち、第1画像を第1画像特徴抽出モデルの入力信号とし、且つ第2画像を第2画像特徴抽出モデルの入力信号とする)、第1画像特徴抽出モデル、及び第2画像特徴抽出モデルにおいていずれも画像特徴抽出アルゴリズムが配置されることにより、第1画像特徴抽出モデルが第1画像に対して出力した画像特徴を取得し、及び第2画像特徴抽出モデルが第2画像に対して出力した画像特徴を取得する。
【0035】
第1画像特徴抽出モデルが出力した第1画像の画像特徴、及び第2画像特徴抽出モデルが出力した第2画像の画像特徴は多層画像特徴であってもよく、該多層画像特徴とは、第1画像、及び第2画像に対して画像特徴抽出を行う過程において順に獲得した複数の特徴図を指す。
【0036】
例示的には、第1画像特徴抽出モデル、及び第2画像特徴抽出モデルはピラミッド特徴抽出モデルであってもよい。ピラミッド特徴抽出モデルにおいて特徴ピラミッドネットワーク(Feature Pyramid Networks、FPN)が配置され、特徴ピラミッドネットワークから出力された特徴図ピラミッドはすなわち画像に対応する多層画像特徴である。例えば、いくつかの実施例において、ピラミッド特徴抽出モデルにおける下から上への部分を採用して第1画像、及び第2画像に対して画像特徴抽出を行うことができ、当該下から上への部分は畳み込みネットワークを使用して画像特徴抽出を行うものであると理解される。畳み込みが深くなることに伴って、画像の空間解像度が比較的少なくなり、空間情報が紛失されるが、ハイレベルの意味情報を豊かにすることにより、特徴図の大きさ順序が大から小となる多層画像特徴を獲得する。
【0037】
外観フロー(Appearance Flow)特徴とは、2次元座標ベクトルを指し、通常、ソース画像のどの画素が目標画像の指定画素を再構成することに用いることができるかを指示することに用いられる。本実施例では、高品質の仮想着せ替えを実現するために、目標人物の人体と目標服装との間の正確で密集した対応関係を構築する必要があり、それにより目標服装に人体に適応する変形を生じさせる。従って、本実施例において、ソース画像とは第2画像を指し、具体的に第2画像における目標服装領域を指すことができ、再構成する必要がある目標画像とは目標服装が第1画像における目標人物の人体に適応して生じた変形後画像を指す。
【0038】
このことから明らかなように、目標外観フロー特徴は目標服装が第1画像における目標人物の人体に適応して生じた変形を表すことができ、獲得された目標外観フロー特徴に基づいて、目標服装が人体に適応する変形後画像を生成することができる。
【0039】
第1画像の画像特徴が第1画像特徴抽出モデルを介して出力された多層画像特徴であり、且つ第2画像の画像特徴が第2画像特徴抽出モデルを介して出力された多層画像特徴であるときに、第1画像特徴抽出モデル、及び第2画像特徴抽出が出力した多層画像特徴に基づいて、外観フロー特徴の抽出を層毎に行い、最後の1つの画像特徴層に対して抽出を行って獲得した外観フロー特徴を、最終的に生成する目標外観フロー特徴とすることができる。
【0040】
例示的には、1番目の画像特徴層に、第1画像特徴抽出モデル、及び第2画像特徴抽出モデルが出力した画像特徴に基づいて、目標服装が目標人物の人体に適応して生じた変形を表すことに用いられる外観フロー特徴を抽出することができる。1番目の画像特徴層の後の各画像特徴層に、第1画像特徴抽出モデル、及び第2画像特徴抽出モデルが出力した画像特徴に基づいて、1つ前の画像特徴層に対応する外観フロー特徴に対して最適化処理を行い、現在の画像特徴層に対応する外観フロー特徴を獲得することができる。
【0041】
第1画像特徴抽出モデル、及び第2画像特徴抽出モデルが出力した多層画像特徴に基づいて、外観フロー特徴の抽出を層毎に行う過程において、さらに、予め設定された二次平滑拘束条件に基づいて外観フロー特徴の抽出を行うことができる。ここで、二次平滑拘束条件は、隣接する外観フロー間のリニア対応関係に対して設定された拘束条件であり、それによって、目標服装のパターン、及び縞模様等の特徴をさらに残すことにより、生成された目標服装が目標人物の人体に適応する変形後画像の画像品質を向上させる。
【0042】
S150:目標服装が目標人物の人体に適応する変形後画像と第1画像との融合に基づいて仮想着せ替え画像を生成し、仮想着せ替え画像において、目標人物は人体に適応する目標服装を着用している。
【0043】
目標服装が目標人物の人体に適応する変形後画像と第1画像との融合に基づいて仮想着せ替え画像を生成することは、仮想着せ替えに適用する画像融合アルゴリズムによって具体的に実現することができ、例えば、Res-UNetアルゴリズムを採用することができ、本実施例これについて限定しない。
【0044】
上記から分かるように、実施例が提供する技術的解決手段は、人体解析結果に依存して仮想着せ替えを行う必要がなく、目標服装が目標人物の人体に適応して生じた変形の目標外観フロー特徴を取得することによって目標服装に対して人体に適応する変形を生成し、最後に変形後の目標服装の画像(例えば変形後画像)と目標人物を含む第1画像とを融合して仮想着せ替え画像を獲得する。これにより、人体解析結果に依存して仮想着せ替えを行うことにより引き起こされた仮想着せ替え画像の品質が高くなく、仮想着せ替えのリアルタイム性が比較的弱い等の問題の発生を回避し、高品質の仮想着せ替えを実現する。同時に仮想着せ替えの効率を向上させ、リアルタイムな仮想着せ替えを実現する。
【0045】
図2に参照されるように、
図2は本願の一実施例に示される仮想着せ替え生徒モデルの構造模式図である。該例示的な仮想着せ替え生徒モデル10は第1服装変形サブモデル11と、第1着せ替え生成サブモデル12とを含み、ここで、第1服装変形サブモデル11は
図1に示される実施例におけるS130を実行することができ、第1着せ替え生成サブモデル12は
図1に示される実施例におけるS150を実行することができる。
【0046】
図2に示すように、目標人物が含まれる第1画像と目標服装が含まれる第2画像とを仮想着せ替え生徒モデル10に入力することによって、仮想着せ替え生徒モデル10は相応な仮想着せ替え画像を出力することができ、出力された仮想着せ替え画像において、目標人物は人体に適応する目標服装を着用している。
【0047】
第1画像、及び第2画像を除き、仮想着せ替え生徒モデル10は他のさらなる入力信号を必要とせず、仮想着せ替え生徒モデル10に第1画像において含有される目標人物の人体解析結果を入力する必要がない。
【0048】
図3は
図2に示される第1服装変形サブモデル11の一実施例における構造模式図である。
図3に示すように、第1服装変形サブモデル11において第1画像特徴抽出モデル、第2画像特徴抽出モデル、及び外観フロー特徴予測モデルが含有される。
【0049】
ここで、第1画像特徴抽出モデルは第1画像の画像特徴を抽出することに用いられ、第2画像特徴抽出モデルは第2画像の画像特徴を抽出することに用いられる。
図3に示すように、第1画像特徴抽出モデルは第1画像に対して画像特徴抽出を行い、順にc1~c3に示される多層画像特徴を獲得し、第2画像特徴抽出モデルは第2画像に対して画像特徴抽出を行い、順にp1~p3に示される多層画像特徴を獲得する。
【0050】
説明する必要がある点として、
図3に示される多層画像特徴は例に過ぎず、第1画像特徴抽出モデル、及び第2画像特徴抽出モデルによって抽出された入力画像の画像特徴の層数は実際の必要に応じて設定することができ、本実施例はこれについて限定しない。
【0051】
外観フロー特徴予測モデルは、第1画像特徴抽出モデル、及び第2画像特徴抽出モデルが出力した多層画像特徴に基づいて、外観フロー特徴の抽出を層毎に行い、最後の1つの画像特徴層に対して抽出を行って獲得した外観フロー特徴を、最終的に生成する目標外観フロー特徴とすることに用いられる。例えば、
図3に示される「FN-1」モジュールは1番目の画像特徴層に外観フロー特徴予測を行うことに用いられ、「FN-2」モジュールは2番目の画像特徴層に外観フロー特徴予測を行うことに用いられ、「FN-3」モジュールは3番目の画像特徴層に外観フロー特徴予測を行うことに用いられる。すなわち、外観フロー特徴予測モデルは漸進的な外観フロー特徴予測モデルである。
【0052】
図3に示すように、外観フロー特徴予測モデルは1番目の画像特徴層に、第1画像特徴抽出モデル、及び第2画像特徴抽出モデルが出力した画像特徴に基づいて、目標服装が目標人物の人体に適応して生じた変形を表すことに用いられる外観フロー特徴を初めて抽出する。1番目の画像特徴層の後の各画像特徴層に、外観フロー特徴予測モデルは第1画像特徴抽出モデル、及び第2画像特徴抽出モデルが出力した画像特徴に基づいて、1つ前の画像特徴層から出力された外観フロー特徴に対して最適化処理を行って、現在の画像特徴層に対応する外観フロー特徴を獲得する。
【0053】
このような漸進的な処理方式によって、多層画像特徴は畳み込みが絶えず深くなることに伴って、画像の空間解像度が徐々に減少するため、空間情報も徐々に紛失されるが、ハイレベルの意味情報を豊かにし、それにより外観フロー特徴予測モデルが層毎に獲得した外観フロー特徴において含有される特徴情報もますます豊かで正確になる。例えば、
図3に示される外観フロー特徴f1~f3において、含有される特徴情報は徐々に豊かになり、且つ徐々に目標人物の人体と適応する。
【0054】
このことから明らかなように、外観フロー特徴予測モデルが最後の1つの画像特徴層において獲得した外観フロー特徴は、目標服装が目標人物の人体に適応して生じた変形を非常に正確に反映することができる。外観フロー特徴予測モデルが最後の1つの画像特徴層において獲得した外観フロー特徴に基づき、生成された目標服装に対応する変形後画像は、目標人物の人体と正確で緊密な対応関係を作成することができることにより、その後に目標服装に生じた正確な変形、及び目標人物の人体に基づいて融合して、高品質の仮想着せ替え画像を獲得することができる。
【0055】
図4は、
図3に示される「FN-2」モジュールが2番目の画像特徴層に行った外観フロー特徴予測のフローチャートである。
図4に示すように、まず、1つ前の画像特徴層に対応する外観フロー特徴f1に対してアップサンプリング処理を行い、アップサンプリング特徴f1’を獲得する。次にアップサンプリング特徴f1’に基づいて、現在の特徴層に対応する第2画像の画像特徴c2に対して第1変形処理を行い、第1変形後特徴c2’を獲得する。続いて、現在の画像特徴層に対応する第1画像の画像特徴p2に基づき、第1変形後特徴c2’に対して校正処理を行い、校正後特徴r2を獲得し、且つ校正後特徴r2に対して畳み込み計算を行って第1畳み込み特徴f2’’’を獲得する。続いて、第1畳み込み特徴f2’’’とアップサンプリング特徴f1’とを繋ぎ合わせて獲得した特徴f2’’に基づいて、現在の画像特徴層に対応する第2画像の画像特徴c2に対して第2変形処理を行い、第2変形後特徴p2 c2’’を獲得する。第2変形後特徴はすなわち現在の画像特徴層が出力した第1画像の画像特徴p2と他の特徴c2’’との組み合わせである。最後に、第2変形後特徴p2 c2’’に対して第2畳み込み計算を行い、且つ計算により獲得された第2畳み込み特徴f2’と第1畳み込み特徴f2’’とを繋ぎ合わせて、現在の画像特徴層に対応する外観フロー特徴f2を獲得することができる。
【0056】
上記から分かるように、1つ前の画像特徴層が出力した外観フロー特徴に対してアップサンプリング処理を行うことは、現在の画像特徴層の外観フロー特徴の解像度の向上に有益である。その後に、2回の変形処理、及び2回の畳み込み計算を行うことによって、アップサンプリング特徴において含有される特徴情報をさらに細分化することができ、1つ前の画像特徴層が出力した外観フロー特徴を基に外観フロー特徴の空間情報を新たに追加することに相当する。これにより、1つ前の画像特徴層が出力した外観フロー特徴に対する最適化を実現し、目標服装が目標人物の人体に適応する変形をさらに反映することができる外観フロー特徴を獲得する。
【0057】
また言及する点として、いくつかの実施例において、外観フロー特徴予測モデルは第1画像特徴抽出モデル、及び第2画像特徴抽出モデルが出力した多層画像特徴に基づいて、外観フロー特徴の抽出を層毎に行う過程において、さらに、隣接する外観フロー間のリニア対応関係に対して予め設定された二次平滑拘束条件に基づいて外観フロー特徴の抽出を行い、それによって、目標服装のパターン、及び縞模様等の特徴をさらに残す。
【0058】
図5は、本願の他の実施例に示される画像処理方法のフローチャートである。
図5に示すように、該方法は
図1に示される実施例を基に、S210~S250をさらに含み、詳細な紹介は以下のとおりである。
【0059】
S210:仮想着せ替えティーチングアシスタントモデルを呼び出し、指定人物が含まれる人物画像に対応する人体解析結果、及び着せ替え対象の服装が含まれる第1服装画像を仮想着せ替えティーチングアシスタントモデルに入力して、仮想着せ替えティーチングアシスタントモデルが出力したティーチングアシスタント画像を獲得する。ティーチングアシスタント画像において指定人物は指定人物の人体に適応する着せ替え対象の服装を着用している。
【0060】
まず、説明する点として、本実施例は
図2に示される仮想着せ替え生徒モデルに対して訓練を行う過程を開示している。仮想着せ替え生徒モデルの訓練段階に、仮想着せ替えティーチングアシスタントモデルを呼び出して補助訓練を行う必要があり、具体的に言えば、仮想着せ替えティーチングアシスタントモデルは人体解析結果に依存する人工知能モデルである。仮想着せ替えティーチングアシスタントモデルに指定人物が含まれる人物画像に対応する人体解析結果、及び着せ替え対象の服装が含まれる第1服装画像を入力することによって、仮想着せ替えティーチングアシスタントモデルは対応するティーチングアシスタント画像を出力することができる。ティーチングアシスタント画像において指定人物は指定人物の人体に適応する着せ替え対象の服装を着用している。
【0061】
本実施例において、仮想着せ替えデータセットは指定人物を含む人物画像、着せ替え対象の服装を含む第1服装画像、及び指定人物が着用した元の服装を含む第2服装画像により構成された画像データセットである。ここで、人物画像、第1服装画像、及び第2服装画像の数量はいずれも複数枚であってもよく、異なる人物画像において含有される指定人物は同じであってもよく、同じでなくてもよく、本実施例はこれについて限定しない。
【0062】
S230:元の服装が含まれる第2服装画像、及びティーチングアシスタント画像を訓練対象の仮想着せ替え生徒モデルに入力して、訓練対象の仮想着せ替え生徒モデルが出力した生徒画像を獲得する。生徒画像において指定人物はティーチングアシスタント画像における指定人物の人体に適応する元の服装を着用しており、元の服装は指定人物が人物画像において着用している服装である。
【0063】
仮想着せ替え生徒モデルが人体解析結果に依存して仮想着せ替えを実現するということではなく、仮想着せ替えティーチングアシスタントモデルが人体解析結果に基づき抽出した特徴にはより豊かな意味情報、及び特徴表現が含まれ得るため、本実施例は仮想着せ替えティーチングアシスタントモデルを使用して仮想着せ替え生徒モデルを指導して訓練する。
【0064】
すなわち、本実施例は知識蒸留の方式で仮想着せ替え生徒モデルに対して訓練を行う。
【0065】
ここで、知識蒸留とは、教師ネットワークの内在情報を利用して生徒ネットワークを訓練することを指し、実施例において、教師ネットワークは仮想着せ替えティーチングアシスタントモデルであり、教師ネットワークの内在情報とは、仮想着せ替えティーチングアシスタントモデルが人体解析結果に基づいて抽出した特徴表現、及び意味情報を指す。
【0066】
良く訓練された仮想着せ替え生徒モデルは人体と服装との間の正確で密集した対応関係を十分に学習する。従って、実際の応用において、目標人物の人体解析結果を取得する必要がなく、仮想着せ替え生徒モデルは依然としてそれに入力された目標人物が含まれる第1画像、及び目標服装が含まれる第2画像に基づいて、高品質の仮想着せ替え画像を出力することができる。
【0067】
具体的に言えば、本実施例は仮想着せ替えティーチングアシスタントモデルが出力したティーチングアシスタント画像をティーチングアシスタント知識として訓練対象の仮想着せ替え生徒モデルに入力し、且つ元の服装が含まれる第2服装画像を訓練対象の仮想着せ替え生徒モデルに入力し、それにより訓練対象の仮想着せ替え生徒モデルに生徒画像を出力させる。生徒画像において指定人物はティーチングアシスタント画像における指定人物の人体に適応する元の服装を着用している。
【0068】
S250:人物画像を教師画像とし、生徒画像と教師画像との間の画像損失情報に基づいて、訓練対象の仮想着せ替え生徒モデルに対してパラメータ更新を行う。
【0069】
本実施例は、人物画像を教師画像として、仮想着せ替え生徒モデルの訓練過程を監督する。つまり、仮想着せ替え生徒モデルは訓練過程において教師画像の監督を直接受けることができ、仮想着せ替え生徒モデルの性能の向上に有益である。そのため最終的に訓練により獲得された仮想着せ替え生徒モデルは実際の応用において、人体解析結果に対する依存から解放されることができ、それに入力された第1画像、及び第2画像に基づいて高品質の仮想着せ替え画像を出力することができる。
【0070】
生徒画像と教師画像との間の画像損失情報は生徒画像、及び教師画像に対して損失関数値計算を行うことによって獲得されたものであってもよい。例示的には、生徒画像の教師画像に対する画像損失値を取得することができ、画像損失値は画素距離損失関数値、感知損失関数値、及び対抗損失関数値のうちの少なくとも一種を含んでもよい。次に、画像損失値に対して加算演算を行い、生徒画像の教師画像に対する画像損失和値を獲得し、最後に画像損失和値を生徒画像と教師画像との間の画像損失情報として、訓練対象の仮想着せ替え生徒モデルに対してパラメータ更新を行い、これにより1回の仮想着せ替え生徒モデルの訓練を完了する。
【0071】
訓練対象の仮想着せ替え生徒モデルに対して複数回の訓練を行うことによって、仮想着せ替え生徒モデルのモデル性能を徐々に向上させる。生徒画像と教師画像との間の画像損失情報が予め設定された画像損失閾値よりも小さい、又はそれに等しくなったときに、仮想着せ替え生徒モデルが既に比較的良いモデル性能に達したことを示し、仮想着せ替え生徒モデルの訓練過程を終了することができる。
【0072】
また、さらに言及する必要がある点として、人体解析結果は人体のキーポイント、人体姿勢ヒートマップ、及び密集姿勢推定等の情報を含んでもよく、多くの状況において、仮想着せ替えティーチングアシスタントモデルは人体解析結果に基づいてより豊かな意味情報を抽出することができ、予測により獲得された外観フロー特徴もより正確になる。従って、仮想着せ替えティーチングアシスタントモデルが出力したティーチングアシスタント画像の画像品質は仮想着せ替え生徒モデルが出力した生徒画像よりも高くなるはずである。
【0073】
もし仮想着せ替えティーチングアシスタントモデルに入力された人体解析結果が正確でなければ、仮想着せ替え生徒モデルの訓練過程において、仮想着せ替えティーチングアシスタントモデルが仮想着せ替え生徒モデルに完全に間違った指導を提供することを引き起こすようになる。従って、調整可能な知識蒸留メカニズムを設定する必要があり、それによって、仮想着せ替え生徒モデルの訓練に正確なティーチングアシスタント画像のみを用いることができることを確保する。
【0074】
具体的に言えば、S250の前にティーチングアシスタント画像と生徒画像との間の画像品質差の取得を行うことによって、もしこの画像品質差が正の値であると判断するならばティーチングアシスタント画像の画像品質が生徒画像の画像品質よりも大きいことを示し、さらにS250を実行し、それによってこのティーチングアシスタント画像に基づき、仮想着せ替え生徒モデルに対して訓練を行う。もしこの画像品質差が負の値、又はゼロであると判断するなら、ティーチングアシスタント画像の画像品質が生徒画像の画像品質よりも大きくないことを示し、仮想着せ替えティーチングアシスタントモデルに入力された人体解析結果は完全に間違ったものである可能性があり、従って、S250の実行を終止し、次のラウンドの仮想着せ替え生徒モデルの訓練過程に入る。
【0075】
図6は、本願の一実施例に示される仮想着せ替え生徒モデルの訓練フローチャートである。
図6に示すように、仮想着せ替えティーチングアシスタントモデル20を、仮想着せ替え生徒モデル10を訓練することに用いられる補助モデルとし、仮想着せ替えティーチングアシスタントモデル20はそれに入力された第1服装画像と、人物画像(すなわち教師画像)に対して人体解析を行って獲得した人体解析結果とに基づいて、対応するティーチングアシスタント画像を出力する。次に、仮想着せ替えティーチングアシスタントモデル20が出力したティーチングアシスタント画像、及び第2服装画像を仮想着せ替え生徒モデル10に入力し、仮想着せ替え生徒モデル10が出力した生徒画像を獲得する。生徒画像と教師画像との間の画像損失情報に基づいて、仮想着せ替え生徒モデル10に対してパラメータ更新を行うことができる。
【0076】
仮想着せ替えティーチングアシスタントモデル20は第2服装変形サブモデル21と、第2服装生成サブモデル22とを含み、第2服装変形サブモデル21を呼び出すことによって、人体解析結果と第1服装画像の画像特徴とに基づいて、着せ替え対象の服装が指定人物の人体に適応する変形後画像を生成することができる。詳細な過程は
図3、及び
図4の対応する実施例の記述を参考することができるため、ここでは詳しく説明しない。第2着せ替え生成サブモデル22を呼び出すことによって、第2服装変形サブモデルが出力した着せ替え対象の服装に対応する変形後画像と、人物画像における元の服装を着用している領域を除く他の画像領域との融合に基づいてティーチングアシスタント画像を生成することができる。
【0077】
別の実施例において、第2着せ替え生成サブモデル22を呼び出すことによって、さらに、人体解析結果に基づいて、人物画像において含有される指定人物が元の服装を着用している領域をクリアすることができ、それによって人物画像における元の服装を着用している領域を除く他の画像領域を獲得する。
【0078】
説明する必要がある点として、仮想着せ替え生徒モデルにおいて含有される第1服装変形サブモデルと仮想着せ替えティーチングアシスタントモデルにおいて含有される第2服装変形サブモデルとの間は同じネットワーク構造を有してもよく、例えば、
図3に示されるネットワーク構造を有する。仮想着せ替え生徒モデルにおいて含有される第1着せ替え生成サブモデルと仮想着せ替えティーチングアシスタントモデルにおいて含有される第2着せ替え生成サブモデルとの間も同じネットワーク構造を有してもよい。例えば、第1着せ替え生成サブモデル、及び第2着せ替え生成サブモデルはエンコーダ-デコーダネットワーク、及び残差ネットワークにより構成されてもよく、残差ネットワークはそれが接続された上位層ネットワークに対して正規化処理を行うことに用いられ、これにより、モデルの訓練過程においてパラメータの最適化処理を行いやすい。
【0079】
上記から分かるように、本願は一種の新規な「教師-ティーチングアシスタント-生徒」の知識蒸留メカニズムによって人体解析結果に依存する必要がない仮想着せ替え生徒モデルを訓練し、仮想着せ替え生徒モデルが訓練過程において教師画像の監督を受ける。それにより最終的に訓練により獲得された仮想着せ替え生徒モデルは人体解析結果に依存する必要がなく、リアル感が高い仮想着せ替え結果を生成することができ、人体解析結果に依存する必要がない状況において高品質の仮想着せ替えを実現する。
【0080】
図7は、本願の一実施例に示される画像処理装置のブロック図である。
図7に示すように、1つの例示的な実施例において、該画像処理装置は、
目標人物が含まれる第1画像と目標服装が含まれる第2画像とを取得するように構成される画像取得モジュール310と、第1画像の画像特徴と第2画像の画像特徴とに基づいて、目標服装が目標人物の人体に適応して生じた変形を表すことに用いられる目標外観フロー特徴を生成し、且つ目標外観フロー特徴に基づき、目標服装が人体に適応する変形後画像を生成するように構成される情報生成モジュール330と、変形後画像と第1画像との融合に基づいて仮想着せ替え画像を生成するように構成される仮想着せ替えモジュール350であって、仮想着せ替え画像において、目標人物は人体に適応する目標服装を着用している、仮想着せ替えモジュール350と、を含む。
【0081】
他の例示的な実施例において、情報生成モジュール330は、
第1画像を第1画像特徴抽出モデルの入力信号とし、且つ第2画像を第2画像特徴抽出モデルの入力信号として、第1画像特徴抽出モデル、及び第2画像特徴抽出モデルによってそれぞれ入力信号に対応する多層画像特徴を抽出するように構成される多層画像特徴取得ユニットと、第1画像特徴抽出モデル、及び第2画像特徴抽出モデルが出力した多層画像特徴に基づいて、外観フロー特徴の抽出を層毎に行い、最後の1つの画像特徴層に対して抽出を行って獲得した外観フロー特徴を目標外観フロー特徴とするように構成される外観フロー特徴抽出ユニットと、を含む。
【0082】
他の例示的な実施例において、外観フロー特徴抽出ユニットは、
1番目の画像特徴層に、第1画像特徴抽出モデル、及び第2画像特徴抽出モデルが出力した画像特徴に基づいて、目標服装が目標人物の人体に適応して生じた変形を表すことに用いられる外観フロー特徴を抽出するように構成される第1特徴抽出サブユニットと、1番目の画像特徴層の後の各画像特徴層に、第1画像特徴抽出モデル、及び第2画像特徴抽出モデルが出力した画像特徴に基づいて、1つ前の画像特徴層に対応する外観フロー特徴に対して最適化処理を行い、現在の画像特徴層に対応する外観フロー特徴を獲得するように構成される第2特徴抽出サブユニットと、を含む。
【0083】
他の例示的な実施例において、第2特徴抽出サブユニットは、
1つ前の画像特徴層に対応する外観フロー特徴に基づいてアップサンプリング処理を行ってアップサンプリング特徴を獲得し、アップサンプリング特徴に基づいて現在の画像特徴層に対応する第2画像の画像特徴に対して第1変形処理を行い、第1変形後特徴を獲得するように構成される第1変形処理サブユニットと、現在の画像特徴層に対応する第1画像の画像特徴に基づき、第1変形後特徴に対して校正処理を行い、且つ校正処理により獲得された校正後特徴に対して第1畳み込み計算を行い、第1畳み込み特徴を獲得するように構成される校正処理サブユニットと、第1畳み込み特徴とアップサンプリング特徴とを繋ぎ合わせて獲得した特徴に基づいて、現在の画像特徴層に対応する第2画像の画像特徴に対して第2変形処理を行い、第2変形後特徴を獲得するように構成される第2変形処理サブユニットと、第2変形後特徴に対して第2畳み込み計算を行い、且つ計算により獲得された第2畳み込み特徴と第1畳み込み特徴とを繋ぎ合わせて、現在の画像特徴層に対応する外観フロー特徴を獲得するように構成される外観フロー特徴取得サブユニットと、を含む。
【0084】
他の例示的な実施例において、情報生成モジュール330は、
第1画像特徴抽出モデル、及び第2画像特徴抽出モデルが出力した多層画像特徴に基づいて、外観フロー特徴の抽出を層毎に行う過程において、さらに、二次平滑拘束条件に基づいて外観フロー特徴の抽出を行うように構成される二次平滑拘束ユニットであって、二次平滑拘束条件は隣接する外観フローの間のリニア対応関係に対して予め設定された拘束条件である、二次平滑拘束ユニットをさらに含む。
【0085】
他の例示的な実施例において、情報生成モジュール330は、仮想着せ替え生徒モデルにおいて含有される第1服装変形サブモデルとして配置され、仮想着せ替えモジュール350は、仮想着せ替え生徒モデルにおいて含有される第1着せ替え生成サブモデルとして配置される。
【0086】
他の例示的な実施例において、該画像処理装置は、
仮想着せ替えティーチングアシスタントモデルを呼び出し、指定人物が含まれる人物画像に対応する人体解析結果、及び着せ替え対象の服装が含まれる第1服装画像を仮想着せ替えティーチングアシスタントモデルに入力して、仮想着せ替えティーチングアシスタントモデルが出力したティーチングアシスタント画像を獲得するように構成されるティーチングアシスタント画像取得モジュールであって、ティーチングアシスタント画像において指定人物は指定人物の人体に適応する着せ替え対象の服装を着用している、ティーチングアシスタント画像取得モジュールと、元の服装が含まれる第2服装画像、及びティーチングアシスタント画像を訓練対象の仮想着せ替え生徒モデルに入力して、訓練対象の仮想着せ替え生徒モデルが出力した生徒画像を獲得するように構成される生徒画像取得モジュールであって、生徒画像において指定人物はティーチングアシスタント画像における指定人物の人体に適応する元の服装を着用しており、元の服装は上記指定人物が人物画像において着用している服装である、生徒画像取得モジュールと、人物画像を教師画像とし、生徒画像と教師画像との間の画像損失情報に基づいて、訓練対象の仮想着せ替え生徒モデルに対してパラメータ更新を行うように構成されるパラメータ更新モジュールと、をさらに含む。
【0087】
他の例示的な実施例において、該画像処理装置は、
ティーチングアシスタント画像と生徒画像との間の画像品質差を取得し、もし画像品質差が正の値であれば、人物画像を教師画像とし、生徒画像と教師画像との間の画像損失情報に基づいて、訓練対象の仮想着せ替え生徒モデルに対してパラメータ更新を行うステップを実行するように構成される画像品質差取得モジュールをさらに含む。
【0088】
他の例示的な実施例において、ティーチングアシスタント画像取得モジュールは、
仮想着せ替えティーチングアシスタントモデルにおける第2服装変形サブモデルを呼び出し、人体解析結果と第1服装画像の画像特徴とに基づいて、着せ替え対象の服装が指定人物の人体に適応する変形後画像を生成するように構成される第2服装変形サブモデル呼び出しユニットと、仮想着せ替えモデルにおける第2着せ替え生成サブモデルを呼び出し、第2服装変形サブモデルが出力した着せ替え対象の服装に対応する変形後画像と、人物画像における元の服装を着用している領域を除く他の画像領域との融合に基づいてティーチングアシスタント画像を生成するように構成される第2着せ替え生成サブモデル呼び出しユニットと、を含む。
【0089】
他の例示的な実施例において、ティーチングアシスタント画像取得モジュールは、
仮想着せ替えモデルにおける第2着せ替え生成サブモデルを呼び出し、人体解析結果に基づいて、人物画像において含有される指定人物が元の服装を着用している領域をクリアし、それによって、人物画像における元の服装を着用している領域を除く他の画像領域を獲得するように構成される画像領域情報取得ユニットをさらに含む。
【0090】
他の例示的な実施例において、パラメータ更新モジュールは、
生徒画像の教師画像に対する画像損失値を取得するように構成される画像損失値取得ユニットであって、画像損失値は画素距離損失関数値、感知損失関数値、及び対抗損失関数値のうちの少なくとも一種を含む、画像損失値取得ユニットと、画像損失値に対して加算演算を行い、生徒画像の教師画像に対する画像損失和値を獲得するように構成される損失値加算ユニットと、画像損失和値を生徒画像と教師画像との間の画像損失情報として、訓練対象の仮想着せ替え生徒モデルに対してパラメータ更新を行うように構成されるモデルパラメータ更新ユニットと、を含む。
【0091】
他の例示的な実施例において、第1着せ替え生成サブモデルはエンコーダ-デコーダネットワーク、及び残差ネットワークにより構成され、残差ネットワークは接続された上位層ネットワークに対して正規化処理を行うことに用いられる。
【0092】
説明する必要がある点として、上記実施例が提供した装置は上記実施例が提供した方法と同一の構想に属し、ここで、各モジュール、及びユニットが操作を実行する具体的な方式は既に方法実施例において詳細に記述されており、ここでは詳しく記述しない。
【0093】
本願の実施例はさらに電子機器を提供し、プロセッサと、メモリとを含み、ここで、メモリにおいてコンピュータ可読命令が記憶されており、該コンピュータ可読命令はプロセッサにより実行されるときに、上記画像処理方法を実現する。
【0094】
図8は本願の実施例を実現するために適する電子機器のコンピュータシステムの構造模式図を示す。
【0095】
説明する必要がある点として、
図8に示される電子機器のコンピュータシステム1600は1つの例に過ぎず、本願の実施例の機能、及び使用範囲に対して何らの限定をもたらすべきではない。
【0096】
図8に示すように、コンピュータシステム1600は中央処理ユニット(Central Processing Unit、CPU)1601を含み、それは読み取り専用メモリ(Read-Only Memory、ROM)1602に記憶されたプログラム、又は記憶部分1608からランダムアクセスメモリ(Random Access Memory、RAM)1603にロードされたプログラムに基づいて様々な適当な動作、及び処理を実行することができ、例えば、上記実施例において記載の方法を実行する。RAM 1603において、システム操作に必要な様々なプログラム、及びデータが記憶されている。CPU 1601、ROM 1602、及びRAM 1603はバス1604によって互いに連結される。入力/出力(Input/Output、I/O)インタフェース1605もバス1604に接続される。
【0097】
キーボード、及びマウス等を含む入力部分1606と、例えばカソードレイチューブ(Cathode Ray Tube、CRT)、液晶ディスプレイ(Liquid Crystal Display、LCD)等、及びスピーカ等を含む出力部分1607と、ハードディスク等を含む記憶部分1608と、例えばLAN(Local Area Network、ローカルエリアネットワーク)カード、及びモデム等のネットワークインタフェースカードを含む通信部分1609とは、I/Oインタフェース1605に接続される。通信部分1609は例えばインターネットのようなネットワークを介して通信処理を実行する。ドライバ1610も必要に応じてI/Oインタフェース1605に接続される。例えば磁気ディスク、光ディスク、光磁気ディスク、及び半導体メモリ等の取り外し可能な媒体1611は、必要に応じてドライバ1610に取り付けられ、それによりそれから読み出したコンピュータプログラムは必要に応じて記憶部分1608にインストールされやすい。
【0098】
特に、本願の実施例によれば、上記でフローチャートを参照して記述された過程はコンピュータソフトウェアプログラムとして実現されてもよい。例えば、本願の実施例は一種のコンピュータプログラム製品を含み、それはコンピュータ可読媒体に載せられるコンピュータプログラムを含み、該コンピュータプログラムはフローチャートに示される方法を実行することに用いられるコンピュータプログラムを含む。このような実施例において、該コンピュータプログラムは通信部分1609によってネットワークからダウンロード及びインストールされ、及び/又は取り外し可能な媒体1611からインストールされるようにしてもよい。該コンピュータプログラムは中央処理ユニット(CPU)1601により実行されるときに、本願のシステムに限定された様々な機能を実行する。
【0099】
説明する必要がある点として、本願の実施例に示されるコンピュータ可読媒体はコンピュータ可読信号媒体、又はコンピュータ可読記憶媒体、又は上記両者の任意の組み合わせであってもよい。コンピュータ可読記憶媒体は、例えば、電気、磁気、光、電磁、赤外線、又は半導体のシステム、装置、又はデバイス、又は任意の以上の組み合わせであってもよい。コンピュータ可読記憶媒体のさらに具体的な例は、1つ又は複数の導線を有する電気的接続、ポータブルコンピュータ磁気ディスク、ハードディスク、ランダムアクセスメモリ(RAM)、読み取り専用メモリ(ROM)、消去可能プログラマブル読み取り専用メモリ(Erasable Programmable Read Only Memory、EPROM)、フラッシュメモリ、光ファイバー、ポータブルコンパクト磁気ディスク読み取り専用メモリ(Compact Disc Read-Only Memory、CD-ROM)、光記憶デバイス、磁気記憶デバイス、又は上記任意の適切な組み合わせを含んでもよいが、それらに限定されない。本願において、コンピュータ可読記憶媒体は、プログラムを含む、又は記憶する何らの有形媒体であってもよく、該プログラムは命令実行システム、装置、又はデバイスに使用される、又はそれと併せて使用されるようにしてもよい。本願において、コンピュータ可読信号媒体はベースバンドにおいて、又は搬送波の一部として伝播されるデータ信号を含んでもよく、ここでコンピュータ可読コンピュータプログラムが載せられている。このように伝播されるデータ信号は複数種の形式を採用することができ、電磁信号、光信号、又は上記任意の適切な組み合わせを含むが、それらに限定されない。コンピュータ可読信号媒体はさらにコンピュータ可読記憶媒体以外の何らのコンピュータ可読媒体であってもよく、該コンピュータ可読媒体は命令実行システム、装置、又はデバイスにより使用されるか、又はそれと併せて使用されることに用いられるプログラムを送信、伝播、又は伝送することができる。コンピュータ可読媒体に含まれるコンピュータプログラムは何らの適当な媒体で伝送されてもよく、無線、有線等、又は上記任意の適切な組み合わせを含むが、それらに限定されない。
【0100】
図面におけるフローチャート、及びブロック図は、本願の様々な実施例によるシステム、方法、及びコンピュータプログラム製品の実現可能な体系アーキテクチャ、機能、及び操作を図示している。ここで、フローチャート、又はブロック図における各ブロックは1つのモジュール、プログラムセグメント、又はコードの一部を表すことができ、上記モジュール、プログラムセグメント、又はコードの一部は所定のロジック機能を実現することに用いられる1つ又は複数の実行可能な命令を含む。また、注意すべき点として、いくつかの代替としての実現において、ブロックにおいてマークされた機能は図面においてマークされた順序とは異なる順序で行われてもよい。例えば、連続して示される2つのブロックは実際にほぼ並行に実行されてもよく、場合によってそれらは逆の順序で実行されてもよく、これは関連する機能によって決められる。さらに注意すべき点として、ブロック図、又はフローチャートにおける各ブロック、及びブロック図、又はフローチャートにおけるブロックの組み合わせは、所定の機能、又は操作を実行するハードウェアに基づく専用システムで実現されてもよく、又は専用ハードウェアとコンピュータ命令との組み合わせで実現されてもよい。
【0101】
本願の実施例の記述において、関連するユニットはソフトウェアの方式によって実現されてもよく、ハードウェアの方式によって実現されてもよく、記述されたユニットはプロセッサにおいて設置されてもよい。ここで、ある状況において、それらのユニットの名称は該ユニット自体に対する限定を構成しない。
【0102】
本願の他の態様はさらにコンピュータ可読記憶媒体を提供し、それにおいてコンピュータプログラムが記憶されており、該コンピュータプログラムはプロセッサにより実行されるときに、上記画像処理方法を実現する。該コンピュータ可読記憶媒体は上記実施例で記述された電子機器に含まれてもよく、該電子機器に組み立てられずに単独で存在してもよい。
【0103】
本願の他の態様はさらにコンピュータプログラム製品、又はコンピュータプログラムを提供し、該コンピュータプログラム製品、又はコンピュータプログラムはコンピュータ命令を含み、該コンピュータ命令はコンピュータ可読記憶媒体において記憶されている。コンピュータ機器のプロセッサはコンピュータ可読記憶媒体から該コンピュータ命令を読み取り、プロセッサは該コンピュータ命令を実行し、該コンピュータ機器に上記各実施例において提供された画像処理方法を実行させる。
【0104】
上記内容は、本願の好ましい例示的な実施例に過ぎず、本願の実施手段を限定することに用いられるものではなく、当業者は本願の主な構想、及び精神に基づいて、相応な変更、又は改定を非常に容易に行うことができ、従って、本願の保護範囲は特許請求の範囲により要求される保護範囲に準じるべきである。
【符号の説明】
【0105】
310 画像取得モジュール
330 情報生成モジュール
1600 コンピュータシステム
1601 中央処理ユニット
1602 メモリ
1603 ランダムアクセスメモリ
1604 バス
1605 I/Oインタフェース
1606 入力部分
1607 出力部分
1608 記憶部分
1609 通信部分
1610 ドライバ
1611 媒体